CN111858860B - 搜索信息处理方法及系统、服务器、计算机可读介质 - Google Patents

搜索信息处理方法及系统、服务器、计算机可读介质 Download PDF

Info

Publication number
CN111858860B
CN111858860B CN201910319258.0A CN201910319258A CN111858860B CN 111858860 B CN111858860 B CN 111858860B CN 201910319258 A CN201910319258 A CN 201910319258A CN 111858860 B CN111858860 B CN 111858860B
Authority
CN
China
Prior art keywords
search information
candidate entity
word
entity
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910319258.0A
Other languages
English (en)
Other versions
CN111858860A (zh
Inventor
朱群燕
张羽翔
李裕东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910319258.0A priority Critical patent/CN111858860B/zh
Publication of CN111858860A publication Critical patent/CN111858860A/zh
Application granted granted Critical
Publication of CN111858860B publication Critical patent/CN111858860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本公开提供了一种搜索信息处理方法,包括:获取用户当前输入的第一搜索信息,以及所述用户在输入所述第一搜索信息之前的预设时间内输入的第二搜索信息;对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词;对所述第二搜索信息进行实体标注,确定出所述第二搜索信息中的至少一个候选实体;针对每个候选实体,基于预设的候选实体评价模型,计算出该候选实体与所述指代词的匹配概率;根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体,所述目标实体为所述指代词所指代的对象。本公开还提供了搜索信息处理系统、服务器及计算机可读介质。

Description

搜索信息处理方法及系统、服务器、计算机可读介质
技术领域
本公开实施例涉及语音交互技术领域,特别涉及搜索信息处理方法及系统、服务器、计算机可读介质。
背景技术
语音是最简单、最自然的交互方式,也是人类沟通最基本的方式。随着语音识别技术的发展,语音识别技术的应用领域越来越广,使用语音发起搜索的用户也越来越多。
在语音搜索场景下,用户更自然更习惯地会使用指代词对上文搜索内容或搜索结果继续发起追问,针对当前搜索询问(Query)中出现指代词的情况,搜索引擎通常不会对当前搜索询问中的指代词做理解,而是直接针对该当前搜索询问进行搜索。
发明内容
本公开实施例提供一种搜索信息处理方法及系统、服务器、计算机可读介质。
第一方面,本公开实施例提供一种搜索信息处理方法,该搜索信息处理方法包括:
获取用户当前输入的第一搜索信息,以及所述用户在输入所述第一搜索信息之前的预设时间内输入的第二搜索信息;
对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词;
对所述第二搜索信息进行实体标注,确定出所述第二搜索信息中的至少一个候选实体;
针对每个候选实体,基于预设的候选实体评价模型,计算出该候选实体与所述指代词的匹配概率;
根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体,所述目标实体为所述指代词所指代的对象。
在一些实施例中,所述第二搜索信息的数量为至少一个,所述基于预设的候选实体评价模型,计算该候选实体与所述代词的匹配概率包括:
针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度、所述第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的至少一种;
针对每个候选实体,根据该候选实体对应的评价参数,计算出该候选实体与所述第一搜索信息中的指代词的匹配概率。
在一些实施例中,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度,所述针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数包括:
针对每个候选实体,根据该候选实体所在的第二搜索信息中每个词语对应的第一词向量,生成该候选实体所在的第二搜索信息对应的第一复合词向量;
针对每个候选实体,根据所述第一搜索信息中每个词语对应的第二词向量,生成所述第一搜索信息对应的第二复合词向量;
针对每个候选实体,计算该候选实体对应的所述第一复合词向量和所述第二复合词向量之间的相似度,第一复合词向量和第二复合词向量之间的相似度为该候选实体所在的第二搜索信息和所述第一搜索信息之间的相似度。
在一些实施例中,所述计算所述第一复合词向量和所述第二复合词向量之间的相似度包括:
针对每个候选实体,计算该候选实体对应的所述第一复合词向量和所述第二复合词向量之间的距离;
针对每个候选实体,对所述距离进行归一化处理,得到所述距离对应的归一化结果,所述归一化结果为该候选实体对应的所述相似度。
在一些实施例中,所述评价参数包括该候选实体对应的特定属性参数,所述针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数包括:
针对每个候选实体,根据预设的知识图谱,确定该候选实体对应的特定属性;
针对每个候选实体,基于该候选实体对应的特定属性,根据预设的特定属性与特定属性参数的对应关系,确定出该候选实体对应的特定属性参数。
在一些实施例中,所述评价参数包括所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度,所述针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数包括:
针对每个候选实体,获取该候选实体对应的属性类型;
针对每个候选实体,根据预设的指代词、实体的属性类型以及预设匹配度的映射关系,确定出所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度。
在一些实施例中,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度、所述第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数和所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度;
所述针对每个候选实体,根据该候选实体对应的评价参数,计算出该候选实体与所述第一搜索信息中的指代词的匹配概率包括:
将该候选实体对应的所述相似度进行归一化处理,得到所述相似度对应的归一化结果;
将该候选实体对应的所述次数进行归一化处理,得到所述次数对应的归一化结果;
将该候选实体对应的所述特定属性参数进行归一化处理,得到所述特定属性参数对应的归一化结果;
将该候选实体对应的所述匹配度进行归一化处理,得到所述匹配度对应的归一化结果;
将所述相似度对应的归一化结果、所述次数对应的归一化结果、所述特定属性参数对应的归一化结果和所述匹配度对应的归一化结果进行相加处理,得到该候选实体与所述第一搜索信息中的指代词的匹配概率。
在一些实施例中,所述根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体包括:
根据至少一个候选实体对应的匹配概率,确定出匹配概率最大的候选实体;
判断该匹配概率最大的候选实体对应的匹配概率是否大于预设阈值;
若判断出该匹配概率最大的候选实体对应的匹配概率大于预设阈值时,将该匹配概率最大的候选实体作为所述目标实体。
在一些实施例中,所述对所述第二搜索信息进行实体标注,确定出所述第二搜索信息中的至少一个候选实体包括:
根据所述第二搜索信息和预设的词向量模型,得到所述第二搜索信息中的每个词语所对应的第一词向量;
依次将所述第二搜索信息中的每个词语所对应的第一词向量输入预设的长短期记忆网络模型,得到每个第一词向量所对应的第一输出结果;
依次将每个第一词向量所对应的第一输出结果输入预设的条件随机场模型,得到每个第一输出结果对应的最优标签;
根据每个第一输出结果对应的最优标签,确定出第二搜索信息中的候选实体。
在一些实施例中,所述对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词包括:
根据所述第一搜索信息和预设的词向量模型,得到所述第一搜索信息中的每个词语所对应的第二词向量;
依次将所述第一搜索信息中的每个词语所对应的第二词向量输入预设的长短期记忆网络模型,得到每个第二词向量所对应的第二输出结果;
依次将每个第二词向量所对应的第二输出结果输入预设的条件随机场模型,得到每个第二输出结果对应的最优标签;
根据每个第二输出结果对应的最优标签,确定出第一搜索信息中的指代词。
在一些实施例中,所述根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体之后还包括:
将所述目标实体替换所述第一搜索信息中的指代词,更新第一搜索信息;
向用户提供响应于更新后的第一搜索信息的第一搜索结果。
在一些实施例中,所述对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词之前还包括:
判断所述第一搜索信息中是否存在指代词;
若判断出所述第一搜索信息中存在指代词时,判断所述指代词的数量是否为一个;
若判断所述指代词的数量为一个时,判断所述第二搜索信息中是否存在实体;
若判断出所述第二搜索信息中存在实体时,执行对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词的步骤。
第二方面,本公开实施例提供一种搜索信息处理系统,所述搜索信息处理系统包括:
获取模块,用于获取用户当前输入的第一搜索信息,以及所述用户在输入所述第一搜索信息之前的预设时间内输入的第二搜索信息;
标注模块,用于对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词;对所述第二搜索信息进行实体标注,确定出所述第二搜索信息中的至少一个候选实体;
计算模块,用于针对每个候选实体,基于预设的候选实体评价模型,计算出该候选实体与所述指代词的匹配概率;
确定模块,用于根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体,所述目标实体为所述指代词所指代的对象。
在一些实施例中,所述第二搜索信息的数量为至少一个,所述计算模块具体用于:
针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度、所述第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的至少一种;
针对每个候选实体,根据该候选实体对应的评价参数,计算出该候选实体与所述第一搜索信息中的指代词的匹配概率。
在一些实施例中,所述确定模块具体用于:根据至少一个候选实体对应的匹配概率,确定出匹配概率最大的候选实体;判断该匹配概率最大的候选实体对应的匹配概率是否大于预设阈值;若判断出该匹配概率最大的候选实体对应的匹配概率大于预设阈值时,将该匹配概率最大的候选实体作为所述目标实体。
在一些实施例中,所述标注模块具体用于:
根据所述第二搜索信息、所述第一搜索信息和预设的词向量模型,得到所述第二搜索信息中的每个词语所对应的第一词向量和所述第一搜索信息中每个词语所对应的第二词向量;
将每个所述第一词向量和每个所述第二词向量依次输入预设的长短期记忆网络模型,得到每个第一词向量所对应的第一输出结果和每个第二词向量所对应的第二输出结果;
将每个所述第一输出结果和每个所述第二输出结果依次输入预设的条件随机场模型,得到每个第一输出结果对应的最优标签和每个第二输出结果对应的最优标签;
根据每个第一输出结果对应的最优标签,确定出第二搜索信息中的候选实体;
根据每个第二输出结果对应的最优标签,确定出第一搜索信息中的指代词。
在一些实施例中,所述搜索信息处理系统还包括:消解模块和响应模块;
所述消解模块用于将所述目标实体替换所述第一搜索信息中的指代词,更新第一搜索信息;
所述响应模块用于向用户提供响应于更新后的第一搜索信息的第一搜索结果。
在一些实施例中,所述搜索信息处理系统还包括:判断模块;
所述判断模块用于在标注模块执行对第一搜索信息进行指代词标注,确定出第一搜索信息中的指代词的步骤之前,判断所述第一搜索信息中是否存在指代词;若判断出所述第一搜索信息中存在指代词时,判断所述指代词的数量是否为一个;若判断所述指代词的数量为一个时,判断所述第二搜索信息中是否存在实体;若判断出所述第二搜索信息中存在实体时,触发标注模块执行对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词的步骤。
第三方面,本公开实施例提供一种服务器,该服务器包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的搜索信息处理方法。
第四方面,本公开实施例提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现上述的搜索信息处理方法。
本公开实施例提供的搜索信息处理方法及系统、服务器、计算机可读介质,通过利用候选实体标注、挖掘指代词和计算指代词与候选实体之间的匹配概率等分析技术,结合用户搜索的第二搜索信息和第一搜索信息,利用第二搜索信息对第一搜索信息中的指代词进行消解的方式能够更好地理解用户的真实需求,使得用户的搜索交互体验更加个性化和智能化,使得语音、文字等搜索过程更加流畅、便捷。
附图说明
附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为本公开实施例提供的一种搜索信息处理方法的流程图;
图2为本公开实施例中步骤14的一种具体实施方式的流程图;
图3为本公开实施例提供的另一种搜索信息处理方法的流程图;
图4为本公开实施例中步骤15的一种具体实施方式的流程图;
图5为本公开实施例中步骤16的一种具体实施方式的流程图;
图6为本公开实施例中步骤161的一种具体实施方式的流程图;
图7为本公开实施例中步骤161的另一种具体实施方式的流程图;
图8为本公开实施例中步骤161的又一种具体实施方式的流程图;
图9为本公开实施例中步骤161的再一种具体实施方式的流程图;
图10为本公开实施例中步骤162的一种具体实施方式的流程图;
图11为本公开实施例中步骤17的一种具体实施方式的流程图;
图12为本公开实施例提供的又一种搜索信息处理方法的流程图;
图13为一种第二搜索信息和对应的第二搜索结果的应用示意图;
图14为一种第一搜索信息的应用示意图;
图15为一种更新后的第一搜索信息及对应的第一搜索结果的应用示意图;
图16为本公开实施例提供的一种搜索信息处理系统的结构示意图。
实施方式
为使本领域的技术人员更好地理解本公开的技术方案,下面结合附图对本公开提供的搜索信息处理方法及系统、服务器、计算机可读介质进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此,可根据制造技术和/或容限来修改示例图示。因此,实施例不限于附图中所示的实施例,而是包括基于制造工艺而形成的配置的修改。因此,附图中例示的区具有示意性属性,并且图中所示区的形状例示了元件的区的具体形状,但并不旨在是限制性的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
图1为本公开实施例提供的一种搜索信息处理方法的流程图,如图1所示,该方法可以由搜索信息处理系统来执行,该系统可以通过软件和/或硬件的方式实现,该系统可以集成在服务器中。该搜索信息处理方法包括:
步骤11、获取用户当前输入的第一搜索信息,以及用户在输入所述第一搜索信息之前的预设时间内输入的第二搜索信息。
在步骤11中,获取用户当前在交互系统上输入的第一搜索信息,以及用户在输入第一搜索信息之前的预设时间内输入的第二搜索信息。其中,交互系统可以为能够为用户提供智能交互服务的智能终端、平台或应用,例如,智能音响、智能视频音箱、智能故事机、智能交互平台、智能交互应用、搜索引擎等。本公开实施例对于交互系统的实现方式不作特别限制,只要该交互系统能够与用户进行交互即可。
在本公开实施例中,前述“交互”可以包括语音交互(Speech Interaction)和文字交互,其中,语音交互是基于语音识别、语音合成、自然语言理解等技术实现,在多种实际应用场景下,赋予交互系统“能听、会说、懂你”式的智能人机交互体验,语音交互适用于多个应用场景中,包括智能问答、智能播放、智能查找等场景。文字交互基于文字识别、提取、自然语言理解等技术实现,同样可以适用于多个前述的应用场景。
在本公开实施例中,第一搜索信息、第二搜索信息均为文字信息。在前述任一种应用场景下,用户与交互系统进行交互时,可以向交互系统输入语音信息或文字信息,其中,文字信息是指自然语言类的文字。
在一些实施例中,第一搜索信息的获取方式可以是:当用户当前向交互系统输入的是语音信息时,可以获取该语音信息,并将该语音信息进行语音识别、语音转换文字等操作后,生成第一搜索信息;当用户当前向交互系统输入的是文字信息时,可以直接获取该文字信息,该文字信息即为第一搜索信息。
在一些实施例中,第一搜索信息的获取方式还可以是:当用户当前向交互系统输入的是语音信息时,交互系统的语音识别模块可以将该语音信息转换成文字信息,可以直接获取交互系统的语音识别模块的该文字信息,该文字信息即为第一搜索信息。
同理,第二搜索信息同样可以采用与第一搜索信息相同的获取方式获取,此处不再赘述。
在本公开实施例中,预设时间可以根据实际情况而定,本公开实施例对此不作具体限制。例如,预设时间为1分钟,用户当前输入第一搜索信息的时间为10:00,则第二搜索信息为用户在9:59至10:00时间内输入的搜索信息。
在本公开实施例中,第二搜索信息的数量为至少一个。当第二搜索信息的数量为一个时,第二搜索信息即为在第一搜索信息输入之前输入,且与第一搜索信息相邻的搜索信息;当第二搜索信息的数量为n(n大于等于2)个时,该n个第二搜索信息即为在第一搜索信息输入之前预设时间内输入的n个搜索信息。
步骤14、对第一搜索信息进行指代词标注,确定出第一搜索信息中的指代词。
在本公开实施例中,指代词是指搜索下文(第一搜索信息)中用于指代搜索上文(第二搜索信息)中某个实体(例如人物、地点、机构或事物等)的词,例如,指代词为他、她、它、该地方或那里等。
在本公开实施例中,采用预设的指代词和实体标注模型,对第一搜索信息进行指代词标注,以确定出第一搜索信息中的指代词。
在一些实施例中,预设的指代词和实体标注模型包括预设的词向量模型、预设的长短期记忆网络模型和预设的条件随机场模型。
图2为本公开实施例中步骤14的一种具体实施方式的流程图,在一些实施例中,如图2所示,步骤14包括:
步骤141、根据第一搜索信息和预设的词向量模型,得到第一搜索信息中的每个词语所对应的第二词向量。
其中,词向量模型使用大规模的语料进行无监督的词向量的训练,可以得到蕴含语义信息且维度较低的词的向量表示。同时,在一定程度上避免后续模型训练时,随机初始化的词向量在优化过程中陷入局部极值。在本公开实施例中,词向量模型采用Word2vec模型。
在本公开实施例中,每个词语对应的第二词向量的维度可以根据实际需要设置,例如,可以设置第二词向量的维度为200,本公开实施例对此不作限制。
步骤142、依次将第一搜索信息中的每个词语所对应的第二词向量输入预设的长短期记忆网络模型,得到每个第二词向量所对应的第二输出结果。
其中,长短期记忆网络模型(Long Short-Term Memory ,简称:LSTM)利用有限的有标注训练样本(词语)进行长短期记忆网络LSTM的训练,学习输入的训练样本(词语)的隐藏的语义信息特征,同时,利用随机梯度下降算法更新长短期记忆网络模型的神经网络参数。
步骤143、依次将每个第二词向量所对应的第二输出结果输入预设的条件随机场模型,得到每个第二输出结果对应的最优标签。
其中,条件随机场模型(Conditional Random Fields,简称:CRF)为线性条件随机场模型,利用线性链条件随机场对LSTM的每个输出结果进行解码,计算出每个输出结果对应的最优标签,其中,以概率最大的序列作为最优标签。
基于预设的条件随机场模型,即可得到每个第二输出结果对应的最优标签,即每个第二输出结果对应的词语的最优标签,词语的最优标签用于标识该词语的词性类别,例如,词性类别为实体、指代词或者其他词。
例如,假设第一搜索信息为“他父亲是谁”,则经步骤141至步骤143处理后,最终条件随机场模型输出第一搜索信息中每个词语对应的最优标签为“『指代词』『无标签』『无标签』『无标签』”,其中,『指代词』即为“他父亲是谁”中的词语“他”的最优标签,其他词语均无标签。
步骤144、根据每个第二输出结果对应的最优标签,确定出第一搜索信息中的指代词。
在步骤144中,确定出每个第二输出结果对应的最优标签后,即可确定第一搜索信息中每个词语对应的最优标签,从而根据第一搜索信息中每个词语对应的最优标签,即可确定识别出第一搜索信息中的指代词。
图3为本公开实施例提供的另一种搜索信息处理方法的流程图,在一些实施例中,如图3所示,在步骤14之前还包括步骤12和步骤13:
步骤12、判断第一搜索信息中是否存在指代词,若是,则执行步骤13,否则结束流程。
在一些实施例中,可以预先通过收集各种指代词建立指代词库,基于该指代词库,查询出第一搜索信息中是否存在指代词。
在一些实施例中,可以预先建立指代词和其他词的第一二分类器,第一二分类器的输入为第一搜索信息中的词语,第一二分类器的输出为“0”或“1”,其中,0表示该词语为其他词,1表示该词语为指代词。将第一搜索信息中的每个词语依次输入预先设置的第一二分类器,得到每个词语对应的输出结果,若判断出输出结果为“0”时,表明该输出结果对应的词语为其他词;若判断出输出结果为“1”时,表明该输出结果对应的词语为指代词。此种情况下,根据第一二分类器的输出结果,即可判断出该第一搜索信息中是否存在指代词。
在一些实施例中,若判断出第一搜索信息中存在指代词时,在执行步骤13之前还包括:步骤121、判断指代词的数量是否为一个,若是,则执行步骤13,否则结束流程。
在一些实施例中,若判断出第一搜索信息中存在指代词时,在执行步骤13之前还包括:步骤122、判断第一搜索信息的长度是否小于预设长度,若是,则结束流程,否则执行步骤13。
其中,预设长度可以根据实际需要进行设置,例如,预设长度为一个字的长度或者两个字的长度等,本公开实施例对于预设长度的具体设置不作限制。
在一些实施例中,若判断出第一搜索信息中存在指代词时,在执行步骤13之前还包括:步骤123、判断第一搜索信息中英文字符和数字字符的数量是否超过预设数量,若是,则结束流程,否则执行步骤13。
其中,预设数量可以根据实际需要进行设置,本公开实施例对于预设数量的具体设置不作限制。
在一些实施例中,若判断出第一搜索信息中存在指代词时,在执行步骤13之前还包括:步骤124、判断第一搜索信息中是否包含非法搜索信息,若是,则结束流程,否则执行步骤13。
其中,可以预先建立非法搜索信息库,非法搜索信息库中存储有多个非法搜索词、非法搜索语句等非法搜索信息,基于该非法搜索信息库,查询出第一搜索信息中是否包含非法搜索信息。
步骤13、判断第二搜索信息中是否存在实体,若是,则执行步骤14,否则结束流程。
在本公开实施例中,实体是指搜索上文(第二搜索信息)中表示人物、地点、机构或事物等的词,例如,实体为北京、故宫、邓超、孙俪等。
在一些实施例中,可以预先通过收集各种实体建立实体词库,基于该实体词库,查询出第二搜索信息中是否存在实体。
在一些实施例中,可以预先建立实体和其他词的第二二分类器,第二二分类器的输入为第二搜索信息中的词语,第二二分类器的输出为“0”或“1”,其中,0表示该词语为其他词,1表示该词语为实体。将第二搜索信息中的每个词语依次输入预先设置的第二二分类器,得到每个词语对应的输出结果,若判断出输出结果为“0”时,表明该输出结果对应的词语为其他词;若判断出输出结果为“1”时,表明该输出结果对应的词语为实体。此种情况下,根据第二二分类器的输出结果,即可判断出该第二搜索信息中是否存在实体。
在一些实施例中,若判断出第二搜索信息中存在实体时,在执行步骤14之前还包括:步骤131、判断第二搜索信息的长度是否小于预设长度,若是,则结束流程,否则执行步骤14。
其中,关于预设长度的描述可参见前述对步骤122的描述,此处不再赘述。
在一些实施例中,若判断出第二搜索信息中存在实体时,在执行步骤14之前还包括:步骤132、判断第二搜索信息中英文字符和数字字符的数量是否超过预设数量,若是,则结束流程,否则执行步骤14。
其中,关于预设数量的描述可参见前述对步骤123的描述,此处不再赘述。
在一些实施例中,若判断出第二搜索信息中存在实体时,在执行步骤14之前还包括:步骤133、判断第二搜索信息中是否包含非法搜索信息,若是,则结束流程,否则执行步骤14。
其中,关于非法搜索信息的描述可参见前述对步骤124的描述,此处不再赘述。
步骤15、对第二搜索信息进行实体标注,确定出第二搜索信息中的至少一个候选实体。
在本公开实施例中,采用预设的指代词和实体标注模型,对第二搜索信息进行实体标注,以确定出第二搜索信息中的至少一个候选实体。
其中,对第二搜索信息进行实体标注所采用的指代词和实体标注模型与前述对第一搜索信息进行指代词标注所采用的指代词和实体标注模型相同,关于该指代词和实体标注模型的具体描述可参见前述对步骤14的描述,此处不再赘述。
图4为本公开实施例中步骤15的一种具体实施方式的流程图,在一些实施例中,如图4所示,步骤15包括:
步骤151、根据第二搜索信息和预设的词向量模型,得到第二搜索信息中的每个词语所对应的第一词向量。
其中,关于该词向量模型的描述可参见前述对步骤141的描述,此处不再赘述。
步骤152、依次将所述第二搜索信息中的每个词语所对应的第一词向量输入预设的长短期记忆网络模型,得到每个第一词向量所对应的第一输出结果。
其中,关于该长短期记忆网络模型的描述可参见前述对步骤142的描述,此处不再赘述。
步骤153、依次将每个第一词向量所对应的第一输出结果输入预设的条件随机场模型,得到每个第一输出结果对应的最优标签。
其中,关于该条件随机场模型的描述可参见前述对步骤143的描述,此处不再赘述。
基于预设的条件随机场模型,即可得到每个第一输出结果对应的最优标签,即每个第一输出结果对应的词语的最优标签,词语的最优标签用于标识该词语的词性类别,例如,词性类别为实体、指代词或者其他词。
例如,第二搜索信息为“谢霆锋”,则经步骤151至步骤153处理后,最终条件随机场模型输出第二搜索信息中每个词语对应的最优标签为“『实体』”,其中,『实体』即为第二搜索信息中的词语“谢霆锋”的最优标签。
步骤154、根据每个第一输出结果对应的最优标签,确定出第二搜索信息中的候选实体。
在步骤154中,确定出每个第一输出结果对应的最优标签后,即可确定第二搜索信息中每个词语对应的最优标签,从而根据第二搜索信息中每个词语对应的最优标签,即可确定识别出第二搜索信息中的候选实体,候选实体的数量为至少一个。
在一些实施例中,由于对第二搜索信息的实体标注和对第一搜索信息的指代词标注均采用相同的指代词和实体标注模型,因此,前述步骤14和步骤15可以同时执行。更为具体地,步骤141和步骤151可以同时执行,步骤142和步骤152可以同时执行,步骤143和步骤153可以同时执行,步骤144和步骤154可以同时执行。本公开实施例对于不作14和步骤15的执行先后顺序不作限制。
步骤16、针对每个候选实体,基于预设的候选实体评价模型,计算出该候选实体与所述指代词的匹配概率。
图5为本公开实施例中步骤16的一种具体实施方式的流程图,在一些实施例中,如图5所示,步骤16包括:
步骤161、针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数。
其中,评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的至少一种。在一些实施例中,特定类型词语可以为词性为名词的词语,特定类型词语的数量为至少一个。在本公开实施例中,特定类型词语可以根据实际需要进行设置,特定类型词语还可以为其他词性的词语,本公开实施例对此不作限制。
图6为本公开实施例中步骤161的一种具体实施方式的流程图,在一些实施例中,该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度,如图6所示,步骤161包括:
步骤1611a、针对每个候选实体,根据该候选实体所在的第二搜索信息中每个词语对应的第一词向量,生成该候选实体所在的第二搜索信息对应的第一复合词向量。
其中,第一词向量可以基于前述的词向量模型获得,第一词向量的具体获取方式可参见前述对步骤151的描述,此处不再赘述。
在一些实施例中,可通过将该候选实体所在的第二搜索信息中每个词语对应的第一词向量进行相加处理,得到该候选实体所在的第二搜索信息对应的第一复合词向量。
步骤1611b、针对每个候选实体,根据第一搜索信息中每个词语对应的第二词向量,生成第一搜索信息对应的第二复合词向量。
其中,第二词向量可以基于前述的词向量模型获得,第二词向量的具体获取方式可参见前述对步骤141的描述,此处不再赘述。
在一些实施例中,可通过将第一搜索信息中每个词语对应的第二词向量进行相加处理,得到第一搜索信息对应的第二复合词向量。
步骤1611c、针对每个候选实体,计算该候选实体对应的第一复合词向量和第二复合词向量之间的相似度,第一复合词向量和第二复合词向量之间的相似度为该候选实体所在的第二搜索信息和所述第一搜索信息之间的相似度。
在一些实施例中,步骤1611c包括:
步骤1611c1、针对每个候选实体,计算该候选实体对应的第一复合词向量和第二复合词向量之间的距离。
步骤1611c2、针对每个候选实体,对该候选实体对应的第一复合词向量和第二复合词向量之间的距离进行归一化处理,得到所述距离对应的归一化结果,该归一化结果为该候选实体所在的第二搜索信息和所述第一搜索信息之间的相似度。
例如,在步骤1611c2中,假设第一复合词向量和第二复合词向量之间的距离为d,引入一个常数c,对第一复合词向量和第二复合词向量之间的距离d进行归一化处理包括:对距离d和常数c进行求和,得到求和结果d+c;将距离d除以求和结果d+c,得到距离d对应的归一化结果d/d+c。
图7为本公开实施例中步骤161的另一种具体实施方式的流程图,在一些实施例中,该候选实体对应的评价参数包括第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数,如图7所示,步骤161包括:步骤1612a、针对每个候选实体,统计第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数。
在步骤1612a中,针对每个候选实体,基于预设的搜索历史库,统计第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数。其中,历史预设时间段可以根据实际需要进行设定,例如,历史预设时间段内可以为当前输入时间以前三个月内或者当前输入时间以前半年内等,其中,当前输入时间为第一搜索信息输入的时间,本公开实施例对此不作具体限定。
例如,假设第二搜索信息包括“吴京”和“普京”两个候选实体,第一搜索信息中除指代词以外的特定类型词语为“票房”,针对候选实体“吴京”,统计候选实体“吴京”与特定类型词语“票房”在历史半年内的搜索历史中共同出现的次数为100次;针对候选实体“普京”,统计候选实体“普京”与特定类型词语“票房”在历史半年内的搜索历史中共同出现的次数为2次,依此类推。
图8为本公开实施例中步骤161的又一种具体实施方式的流程图,在一些实施例中,该候选实体对应的评价参数包括该候选实体对应的特定属性参数,如图8所示,步骤161包括:
步骤1613a、针对每个候选实体,根据预设的知识图谱,确定该候选实体对应的特定属性。
在本公开实施例中,该候选实体对应的特定属性根据该候选实体的类别进行设定,本公开实施例对此不作限制。例如,针对人物类别的候选实体,其对应的特定属性可以设置为性别、角色、年龄等;针对地名类别的候选实体,其对应的特定属性可以设置为省份、省会、市、县、区、镇、村等。
例如,第二搜索信息中包括候选实体“山东”和候选实体“济南”,根据预设的知识图谱,查询出候选实体“山东”的特定属性为省份,候选实体“济南”的特定属性为省会。
步骤1613b、针对每个候选实体,基于该候选实体对应的特定属性,根据预设的特定属性与特定属性参数的对应关系,确定出该候选实体对应的特定属性参数。
在本公开实施例中,预先设置各类别的候选实体的特定属性对应的特定属性参数,即设置各类别的候选实体的特定属性与特定属性参数的对应关系,当根据知识图谱查询出该候选实体的特定属性后,即可直接从特定属性与特定属性参数的对应关系中,查询出该候选实体对应的特定属性参数。
其中,特定属性参数可以根据实际需要进行设置,本公开实施例对此不作具体限制。例如,针对地名类别的候选实体,其特定属性为省份、省会、市、县、区、镇、村,省份对应的特定属性参数可以设置为1,省会对应的特定属性参数可以设置为2,市对应的特定属性参数可以设置为3,依次类推。
在针对天气预报的搜索场景,下文(第一搜索信息)中指代词指代上文(第二搜索信息)中层级更小的地名的概率往往较大。例如,假设上文(第二搜索信息)为“山东济南有什么好吃的”,下文(第一搜索信息)为“那里天气怎么样”,那么下文(第一搜索信息)中指代词“那里”指代上文(第二搜索信息)中的候选实体“济南”的概率比指代候选实体“山东”的概率会更高。
图9为本公开实施例中步骤161的再一种具体实施方式的流程图,在一些实施例中,该候选实体对应的评价参数包括第一搜索信息中的指代词与该候选实体的属性类型的匹配度,如图9所示,步骤161包括:
步骤1614a、针对每个候选实体,获取该候选实体对应的属性类型。
其中,候选实体对应的属性类型根据候选实体的类别确定,本公开实施例对此不作限制。例如,该候选实体的类别为人物类别,则该候选实体的属性类型为人物类型;该候选实体的类别为地名类别,则该候选实体的属性类型为地名类型;该候选实体的类别为歌曲类别,则该候选实体的属性类型为歌曲类型,依此类推。
在本公开实施例中,候选实体的属性类型可以通过预设的知识图谱查询出。
步骤1614b、针对每个候选实体,根据预设的指代词、实体的属性类型以及预设匹配度的映射关系,确定出第一搜索信息中的指代词与该候选实体的属性类型的匹配度。
在本公开实施例中,通过大规模的语料挖掘,可以确定出各指代词可以指代的某种或某几种类型的实体,从而可以预先设置指代词、实体的属性类型以及预设匹配度的映射关系,即预先设置指代词、实体的属性类型以及预设匹配度的对应关系。其中,预设匹配度可以根据实际需求进行设置,例如,预设匹配度可以设置为“0”或“1”,指代词“他”与男性人物类的实体的匹配度为1,指代词“他”与女性人物类的实体、歌曲类的实体的匹配度为0,指代词“那里”与地名类的实体的匹配度为1,指代词“那里”与人物类的实体的匹配度为0,依此类推。
在一些实施例中,当该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的至少二种时,该候选实体对应的评价参数可以通过上述步骤1611a-步骤1611c、步骤1612a、步骤1613a-步骤1613b和步骤1614a-步骤1614b中对应的步骤获得。
例如,该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数,则该候选实体对应的评价参数可以通过步骤1611和步骤1612获得;该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数,则该候选实体对应的评价参数可以通过对应的步骤1611a-步骤1611c、步骤1612a、步骤1613a-步骤1613b和步骤1614a-步骤1614b获得,依次类推。
步骤162、针对每个候选实体,根据该候选实体对应的评价参数,计算出该候选实体与第一搜索信息中的指代词的匹配概率。
在一些实施例中,该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的任意一种。此种情况下,步骤162包括:针对每个候选实体,对该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的任意一种进行归一化处理,得到对应的归一化结果,该归一化结果即为该候选实体与第一搜索信息中的指代词的匹配概率。
例如,该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度,则步骤162包括:针对每个候选实体,对该候选实体所在的第二搜索信息与第一搜索信息之间的相似度进行归一化处理,得到该相似度对应的归一化结果,该相似度对应的归一化结果即为该候选实体与第一搜索信息中的指代词的匹配概率。例如,该候选实体所在的第二搜索信息与第一搜索信息之间的相似度为s,引入任意常数c,对相似度s进行归一化处理包括:将相似度s与常数c进行求和,得到求和结果;将相似度s除以该求和结果,得到相似度s对应的归一化结果s/s+c,归一化结果s/s+c即为该候选实体与第一搜索信息中的指代词的匹配概率。
同理,当该候选实体对应的评价参数包括第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数或者第一搜索信息中的指代词与该候选实体的属性类型的匹配度时,该候选实体与第一搜索信息中的指代词的匹配概率的计算过程可参见上述当该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度时的计算过程,此处不再赘述。
在一些实施例中,该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的任意两种。此种情况下,步骤162包括:
步骤1621a、将该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的任意两种分别进行归一化处理,得到该任意两种分别对应的归一化结果。
例如,该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度s、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数m,则在步骤1621a中,将该候选实体所在的第二搜索信息与第一搜索信息之间的相似度s和该第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数m分别进行归一化处理,得到相似度s对应的归一化结果和次数m对应的归一化结果。例如,步骤1621a包括:引入任意常数c,将相似度s和常数c进行相加,得到相加结果s+c,将相似度s除以相加结果s+c,得到相似度s对应的归一化结果s/s+c;将次数m和常数c进行相加,得到相加结果m+c,将次数m除以相加结果m+c,得到次数m对应的归一化结果m/m+c。
同理,当该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数和第一搜索信息中的指代词与该候选实体的属性类型的匹配度中其他任意两种时,该候选实体与第一搜索信息中的指代词的匹配概率的计算过程可参见上述当该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度和第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数时的计算过程,此处不再赘述。
步骤1621b、将该任意两种分别对应的归一化结果进行相加处理,得到该候选实体与第一搜索信息中的指代词的匹配概率。
例如,该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度s和第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数m,则在前述步骤1621a中,计算出相似度s对应的归一化结果s/s+c和次数m对应的归一化结果m/m+c后,在步骤1621b中,将相似度s对应的归一化结果s/s+c和次数m对应的归一化结果m/m+c进行相加处理,即得到该候选实体与第一搜索信息中的指代词的匹配概率。
在一些实施例中,该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的任意三种。此种情况下,步骤162包括:
步骤1622a、将该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的任意三种分别进行归一化处理,得到该任意三种分别对应的归一化结果。
例如,该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度s、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数m和该候选实体对应的特定属性参数t,则在步骤1622a中,将该候选实体所在的第二搜索信息与第一搜索信息之间的相似度s、该第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数m和该候选实体对应的特定属性参数t分别进行归一化处理,得到相似度s对应的归一化结果、次数m对应的归一化结果和特定属性参数t对应的归一化结果。例如,步骤1622a包括:引入任意常数c;将相似度s和常数c进行相加,得到相加结果s+c,将相似度s除以相加结果s+c,得到相似度s对应的归一化结果s/s+c;将次数m和常数c进行相加,得到相加结果m+c,将次数m除以相加结果m+c,得到次数m对应的归一化结果m/m+c;将特定属性参数t和常数c进行相加,得到相加结果t+c,将特定属性参数t除以相加结果t+c,得到特定属性参数t对应的归一化结果t/t+c。
同理,当该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数和第一搜索信息中的指代词与该候选实体的属性类型的匹配度中其他任意三种时,该候选实体与第一搜索信息中的指代词的匹配概率的计算过程可参见上述当该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数和该候选实体对应的特定属性参数时的计算过程,此处不再赘述。
步骤1622b、将该任意三种分别对应的归一化结果进行相加处理,得到该候选实体与第一搜索信息中的指代词的匹配概率。
例如,该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度s、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数m和该候选实体对应的特定属性参数t,则在前述步骤1622a中,计算出相似度s对应的归一化结果s/s+c、次数m对应的归一化结果m/m+c和特定属性参数t对应的归一化结果t/t+c后,在步骤1622b中,将相似度s对应的归一化结果s/s+c、次数m对应的归一化结果m/m+c和特定属性参数t对应的归一化结果t/t+c进行相加处理,即得到该候选实体与第一搜索信息中的指代词的匹配概率。
图10为本公开实施例中步骤162的一种具体实施方式的流程图,在一些实施例中,该候选实体对应的评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数和第一搜索信息中的指代词与该候选实体的属性类型的匹配度。此种情况下,如图10所示,步骤162包括:
步骤1623a、将该候选实体对应的所述相似度进行归一化处理,得到所述相似度对应的归一化结果。
其中,步骤1623a包括:引入任意常数c;将相似度s和常数c进行相加,得到相加结果s+c;将相似度s除以相加结果s+c,得到相似度s对应的归一化结果s/s+c。
步骤1623b、将该候选实体对应的所述次数进行归一化处理,得到所述次数对应的归一化结果。
其中,步骤1623b包括:引入任意常数c;将次数m和常数c进行相加,得到相加结果m+c;将次数m除以相加结果m+c,得到次数m对应的归一化结果m/m+c。
步骤1623c、将该候选实体对应的所述特定属性参数进行归一化处理,得到所述特定属性参数对应的归一化结果。
其中,步骤1623c包括:引入任意常数c;将特定属性参数t和常数c进行相加,得到相加结果t+c;将特定属性参数t除以相加结果t+c,得到特定属性参数t对应的归一化结果t/t+c。
步骤1623d、将该候选实体对应的所述匹配度进行归一化处理,得到所述匹配度对应的归一化结果。
其中,该候选实体对应的匹配度为第一搜索信息中的指代词与该候选实体的属性类型的匹配度p,步骤1623d包括:引入任意常数c;将匹配度p和常数c进行相加,得到相加结果p+c;将匹配度p除以相加结果p+c,得到匹配度p对应的归一化结果p/p+c。
步骤1623e、将所述相似度对应的归一化结果、所述次数对应的归一化结果、所述特定属性参数对应的归一化结果和所述匹配度对应的归一化结果进行相加处理,得到该候选实体与所述第一搜索信息中的指代词的匹配概率。
步骤17、根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体,该目标实体为所述指代词所指代的对象。
图11为本公开实施例中步骤17的一种具体实施方式的流程图,在一些实施例中,如图11所示,步骤17包括:
步骤171、根据至少一个候选实体对应的匹配概率,确定出匹配概率最大的候选实体。
其中,当候选实体的数量为一个时,该该候选实体即为匹配概率最大的候选实体。当当候选实体的数量为多个时,从多个候选实体中,选择出对应的匹配概率(和指代词的匹配概率)最大的候选实体。
步骤172、判断该匹配概率最大的候选实体对应的匹配概率是否大于预设阈值,若是,则执行步骤173,否则结束流程。
其中,预设阈值可以根据实际情况设定,本公开实施例对此不作限制。例如,预设阈值可以设置为60%。
步骤173、将该匹配概率最大的候选实体作为所述目标实体。
其中,该目标实体为所述指代词所指代的对象。
图12为本公开实施例提供的又一种搜索信息处理方法的流程图,在一些实施例中,如图12所示,在步骤17之后还包括步骤18和步骤19:
步骤18、将所述目标实体替换所述第一搜索信息中的指代词,更新第一搜索信息。
在确定出目标实体后,表明该目标实体是第一搜索信息中的指代词最有可能指代的对象,因此,在步骤18中,将目标实体(第二搜索信息中匹配概率最大且匹配概率大于预设阈值的候选实体)替换第一搜索信息中的指代词,更新第一搜索信息,新的第一搜索信息中,指代词已被替换成目标实体。
步骤19、向用户提供响应于更新后的第一搜索信息的第一搜索结果。
基于更新后的第一搜索信息进行检索,得到更新后的第一搜索信息对应的第一搜索结果,从而向用户提供该更新后的第一搜索信息对应的第一搜索结果。
在一些实施例中,在步骤11中,还获取第二搜索信息对应的第二搜索结果,第二搜索结果为交互系统基于第二搜索信息检索反馈的搜索结果。在进行实体标注步骤(参考步骤15)中,还需要确定出第二搜索结果中的候选实体,针对第二搜索结果中的候选实体,同样需要计算出其与指代词的匹配概率,并与第二搜索信息中的候选实体对应的匹配概率进行比较,当第二搜索结果的候选实体的匹配概率满足匹配概率最大且匹配概率大于预设阈值的条件时,第二搜索结果中的候选实体同样可以作为目标实体,去替换第一搜索信息中的指代词,达到指代消解的目的。
在一些搜索应用场景中,本公开实施例旨在改进语音、文字搜索的上下文理解能力,通过对用户的搜索上文(第二搜索信息)即上文搜索结果(第二搜索结果)的分析,理解用户的当前搜索Query的需求,生成合适的搜索Query去交互系统(如搜索引擎)中检索,从而给用户呈现更满足用户需求的搜索结果,既能降低用户语音、文字输入的成本,又能使用户的整体语音、文字搜索的交互体验更加便捷、个性化和智能化。
图13为一种第二搜索信息和对应的第二搜索结果的应用示意图,图14为一种第一搜索信息的应用示意图,图15为一种更新后的第一搜索信息及对应的第一搜索结果的应用示意图。例如,在一种搜索应用场景中,如图13至15所示,用户首先使用语音搜索“A的老婆是谁”(第二搜索信息Query1),得到反馈的第二搜索结果为B及B的相关内容,紧接着,用户还想了解B的其他相关信息,再次发起语音搜索“她在甄嬛传里饰演什么角色”(第一搜索信息Query2),通过本公开实施例所提供的搜索信息处理方法,根据对搜索上文(第二搜索信息Query1)和上文搜索结果(第二搜索结果)进行分析,理解出用户的搜索下文(第一搜索信息Query2)中的指代词“她”指代的是第二搜索结果中的候选实体“B”,而不是第二搜索信息Query1中的候选实体“A”。在确定出搜索下文(第一搜索信息Query2)中的指代词“她”所指代的对象为候选实体“B”后,将候选实体“B”替代第一搜索信息Query2中的指代词“她”,生成新的第一搜索信息Query3,即“B在甄嬛传里饰演什么角色”。而后,基于新的第一搜索信息Query3即“B在甄嬛传里饰演什么角色”进行检索,得到相应的搜索结果(第一搜索结果),显然,使用新的第一搜索信息Query3进行检索得到的搜索结果明显比直接基于第一搜索信息Query2进行检索得到的搜索结果更加准确,更能满足用户的真实需求。
本公开实施例所提供的搜索信息处理方法,通过利用候选实体标注、挖掘指代词和计算指代词与候选实体之间的匹配概率等分析技术,结合用户搜索的第二搜索信息和第一搜索信息,利用第二搜索信息对第一搜索信息中的指代词进行消解的方式能够更好地理解用户的真实需求,使得用户的搜索交互体验更加个性化和智能化,使得语音、文字等搜索过程更加流畅、便捷。
图16为本公开实施例提供的一种搜索信息处理系统的结构示意图,如图16所示,该搜索信息处理系统用于实现上述的搜索信息处理方法,该搜索信息处理系统包括:获取模块21、标注模块22、计算模块23和确定模块24。
其中,获取模块21用于获取用户当前输入的第一搜索信息,以及用户在输入第一搜索信息之前的预设时间内输入的第二搜索信息;标注模块22用于对第一搜索信息进行指代词标注,确定出第一搜索信息中的指代词;对第二搜索信息进行实体标注,确定出第二搜索信息中的至少一个候选实体;计算模块23用于针对每个候选实体,基于预设的候选实体评价模型,计算出该候选实体与所述指代词的匹配概率;确定模块24用于根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体,该目标实体为所述指代词所指代的对象。
在一些实施例中,第二搜索信息的数量为至少一个,计算模块23具体用于:针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数,该评价参数包括该候选实体所在的第二搜索信息与第一搜索信息之间的相似度、第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的至少一种;针对每个候选实体,根据该候选实体对应的评价参数,计算出该候选实体与第一搜索信息中的指代词的匹配概率。
在一些实施例中,确定模块24具体用于:根据至少一个候选实体对应的匹配概率,确定出匹配概率最大的候选实体;判断该匹配概率最大的候选实体对应的匹配概率是否大于预设阈值;若判断出该匹配概率最大的候选实体对应的匹配概率大于预设阈值时,将该匹配概率最大的候选实体作为所述目标实体。
在一些实施例中,标注模块22具体用于:根据第二搜索信息、第一搜索信息和预设的词向量模型,得到第二搜索信息中的每个词语所对应的第一词向量和第一搜索信息中每个词语所对应的第二词向量;将每个第一词向量和每个第二词向量依次输入预设的长短期记忆网络模型,得到每个第一词向量所对应的第一输出结果和每个第二词向量所对应的第二输出结果;将每个第一输出结果和每个第二输出结果依次输入预设的条件随机场模型,得到每个第一输出结果对应的最优标签和每个第二输出结果对应的最优标签;根据每个第一输出结果对应的最优标签,确定出第二搜索信息中的候选实体;根据每个第二输出结果对应的最优标签,确定出第一搜索信息中的指代词。
在一些实施例中,该搜索信息处理系统还包括:消解模块25和响应模块26。其中,消解模块25用于将目标实体替换第一搜索信息中的指代词,更新第一搜索信息;响应模块26用于向用户提供响应于更新后的第一搜索信息的第一搜索结果。
在一些实施例中,该搜索信息处理系统还包括:判断模块27;其中,判断模块27用于在标注模块22执行对第一搜索信息进行指代词标注,确定出第一搜索信息中的指代词的步骤之前,判断第一搜索信息中是否存在指代词;若判断出第一搜索信息中存在指代词时,判断指代词的数量是否为一个;若判断指代词的数量为一个时,判断第二搜索信息中是否存在实体;若判断出第二搜索信息中存在实体时,触发标注模块22执行对第一搜索信息进行指代词标注,确定出第一搜索信息中的指代词的步骤。
在一些实施例中,该搜索信息处理系统可以设置于交互系统中。在一些实施例中,该搜索信息处理系统还可以独立于交互系统设置,与交互系统通信连接。其中,关于该交互系统的具体描述可参见前述步骤11的具体描述,此处不再赘述。
此外,本公开实施例所提供的搜索信息处理系统具体用于实现前述搜索信息处理方法,具体可参见前述搜索信息处理方法的描述,此处不再赘述。
本公开实施例还提供了一种服务器,该服务器包括:一个或多个处理器以及存储装置;其中,存储装置上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现前述的搜索信息处理方法。
本公开实施例还提供了一计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被执行时实现前述的搜索信息处理方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。

Claims (18)

1.一种搜索信息处理方法,包括:
获取用户当前输入的第一搜索信息,以及所述用户在输入所述第一搜索信息之前的预设时间内输入的第二搜索信息;
对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词;
对所述第二搜索信息进行实体标注,确定出所述第二搜索信息中的至少一个候选实体;
针对每个候选实体,基于预设的候选实体评价模型,计算出该候选实体与所述指代词的匹配概率;
根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体,所述目标实体为所述指代词所指代的对象;
所述第二搜索信息的数量为至少一个,所述基于预设的候选实体评价模型,计算该候选实体与所述代词的匹配概率包括:
针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度、所述第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的至少一种;
针对每个候选实体,根据该候选实体对应的评价参数,计算出该候选实体与所述第一搜索信息中的指代词的匹配概率。
2.根据权利要求1所述的搜索信息处理方法,其中,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度,所述针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数包括:
针对每个候选实体,根据该候选实体所在的第二搜索信息中每个词语对应的第一词向量,生成该候选实体所在的第二搜索信息对应的第一复合词向量;
针对每个候选实体,根据所述第一搜索信息中每个词语对应的第二词向量,生成所述第一搜索信息对应的第二复合词向量;
针对每个候选实体,计算该候选实体对应的所述第一复合词向量和所述第二复合词向量之间的相似度,第一复合词向量和第二复合词向量之间的相似度为该候选实体所在的第二搜索信息和所述第一搜索信息之间的相似度。
3.根据权利要求2所述的搜索信息处理方法,其中,所述计算所述第一复合词向量和所述第二复合词向量之间的相似度包括:
针对每个候选实体,计算该候选实体对应的所述第一复合词向量和所述第二复合词向量之间的距离;
针对每个候选实体,对所述距离进行归一化处理,得到所述距离对应的归一化结果,所述归一化结果为该候选实体对应的所述相似度。
4.根据权利要求1所述的搜索信息处理方法,其中,所述评价参数包括该候选实体对应的特定属性参数,所述针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数包括:
针对每个候选实体,根据预设的知识图谱,确定该候选实体对应的特定属性;
针对每个候选实体,基于该候选实体对应的特定属性,根据预设的特定属性与特定属性参数的对应关系,确定出该候选实体对应的特定属性参数。
5.根据权利要求1所述的搜索信息处理方法,其中,所述评价参数包括所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度,所述针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数包括:
针对每个候选实体,获取该候选实体对应的属性类型;
针对每个候选实体,根据预设的指代词、实体的属性类型以及预设匹配度的映射关系,确定出所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度。
6.根据权利要求1所述的搜索信息处理方法,其中,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度、所述第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数和所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度;
所述针对每个候选实体,根据该候选实体对应的评价参数,计算出该候选实体与所述第一搜索信息中的指代词的匹配概率包括:
将该候选实体对应的所述相似度进行归一化处理,得到所述相似度对应的归一化结果;
将该候选实体对应的所述次数进行归一化处理,得到所述次数对应的归一化结果;
将该候选实体对应的所述特定属性参数进行归一化处理,得到所述特定属性参数对应的归一化结果;
将该候选实体对应的所述匹配度进行归一化处理,得到所述匹配度对应的归一化结果;
将所述相似度对应的归一化结果、所述次数对应的归一化结果、所述特定属性参数对应的归一化结果和所述匹配度对应的归一化结果进行相加处理,得到该候选实体与所述第一搜索信息中的指代词的匹配概率。
7.根据权利要求1所述的搜索信息处理方法,其中,所述根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体包括:
根据至少一个候选实体对应的匹配概率,确定出匹配概率最大的候选实体;
判断该匹配概率最大的候选实体对应的匹配概率是否大于预设阈值;
若判断出该匹配概率最大的候选实体对应的匹配概率大于预设阈值时,将该匹配概率最大的候选实体作为所述目标实体。
8.根据权利要求1所述的搜索信息处理方法,其中,所述对所述第二搜索信息进行实体标注,确定出所述第二搜索信息中的至少一个候选实体包括:
根据所述第二搜索信息和预设的词向量模型,得到所述第二搜索信息中的每个词语所对应的第一词向量;
依次将所述第二搜索信息中的每个词语所对应的第一词向量输入预设的长短期记忆网络模型,得到每个第一词向量所对应的第一输出结果;
依次将每个第一词向量所对应的第一输出结果输入预设的条件随机场模型,得到每个第一输出结果对应的最优标签;
根据每个第一输出结果对应的最优标签,确定出第二搜索信息中的候选实体。
9.根据权利要求1所述的搜索信息处理方法,其中,所述对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词包括:
根据所述第一搜索信息和预设的词向量模型,得到所述第一搜索信息中的每个词语所对应的第二词向量;
依次将所述第一搜索信息中的每个词语所对应的第二词向量输入预设的长短期记忆网络模型,得到每个第二词向量所对应的第二输出结果;
依次将每个第二词向量所对应的第二输出结果输入预设的条件随机场模型,得到每个第二输出结果对应的最优标签;
根据每个第二输出结果对应的最优标签,确定出第一搜索信息中的指代词。
10.根据权利要求1所述的搜索信息处理方法,其中,所述根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体之后还包括:
将所述目标实体替换所述第一搜索信息中的指代词,更新第一搜索信息;
向用户提供响应于更新后的第一搜索信息的第一搜索结果。
11.根据权利要求1所述的搜索信息处理方法,其中,所述对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词之前还包括:
判断所述第一搜索信息中是否存在指代词;
若判断出所述第一搜索信息中存在指代词时,判断所述指代词的数量是否为一个;
若判断所述指代词的数量为一个时,判断所述第二搜索信息中是否存在实体;
若判断出所述第二搜索信息中存在实体时,执行对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词的步骤。
12.一种搜索信息处理系统,包括:
获取模块,用于获取用户当前输入的第一搜索信息,以及所述用户在输入所述第一搜索信息之前的预设时间内输入的第二搜索信息;
标注模块,用于对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词;对所述第二搜索信息进行实体标注,确定出所述第二搜索信息中的至少一个候选实体;
计算模块,用于针对每个候选实体,基于预设的候选实体评价模型,计算出该候选实体与所述指代词的匹配概率;
确定模块,用于根据各候选实体对应的匹配概率,从所有候选实体中选取出一个候选实体作为目标实体,所述目标实体为所述指代词所指代的对象;
所述第二搜索信息的数量为至少一个,所述计算模块具体用于:
针对每个候选实体,基于预设的候选实体评价模型,获取该候选实体对应的评价参数,所述评价参数包括该候选实体所在的第二搜索信息与所述第一搜索信息之间的相似度、所述第一搜索信息中除指代词以外的特定类型词语和该候选实体在历史预设时间段内的搜索历史中共同出现的次数、该候选实体对应的特定属性参数、所述第一搜索信息中的指代词与该候选实体的属性类型的匹配度中的至少一种;
针对每个候选实体,根据该候选实体对应的评价参数,计算出该候选实体与所述第一搜索信息中的指代词的匹配概率。
13.根据权利要求12所述的搜索信息处理系统,其中,所述确定模块具体用于:根据至少一个候选实体对应的匹配概率,确定出匹配概率最大的候选实体;判断该匹配概率最大的候选实体对应的匹配概率是否大于预设阈值;若判断出该匹配概率最大的候选实体对应的匹配概率大于预设阈值时,将该匹配概率最大的候选实体作为所述目标实体。
14.根据权利要求12所述的搜索信息处理系统,其中,所述标注模块具体用于:
根据所述第二搜索信息、所述第一搜索信息和预设的词向量模型,得到所述第二搜索信息中的每个词语所对应的第一词向量和所述第一搜索信息中每个词语所对应的第二词向量;
将每个所述第一词向量和每个所述第二词向量依次输入预设的长短期记忆网络模型,得到每个第一词向量所对应的第一输出结果和每个第二词向量所对应的第二输出结果;
将每个所述第一输出结果和每个所述第二输出结果依次输入预设的条件随机场模型,得到每个第一输出结果对应的最优标签和每个第二输出结果对应的最优标签;
根据每个第一输出结果对应的最优标签,确定出第二搜索信息中的候选实体;
根据每个第二输出结果对应的最优标签,确定出第一搜索信息中的指代词。
15.根据权利要求12所述的搜索信息处理系统,其中,所述搜索信息处理系统还包括:消解模块和响应模块;
所述消解模块用于将所述目标实体替换所述第一搜索信息中的指代词,更新第一搜索信息;
所述响应模块用于向用户提供响应于更新后的第一搜索信息的第一搜索结果。
16.根据权利要求12所述的搜索信息处理系统,其中,所述搜索信息处理系统还包括:判断模块;
所述判断模块用于在标注模块执行对第一搜索信息进行指代词标注,确定出第一搜索信息中的指代词的步骤之前,判断所述第一搜索信息中是否存在指代词;若判断出所述第一搜索信息中存在指代词时,判断所述指代词的数量是否为一个;若判断所述指代词的数量为一个时,判断所述第二搜索信息中是否存在实体;若判断出所述第二搜索信息中存在实体时,触发标注模块执行对所述第一搜索信息进行指代词标注,确定出所述第一搜索信息中的指代词的步骤。
17.一种服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-11中任一所述的搜索信息处理方法。
18.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如权利要求1-11中任一所述的搜索信息处理方法。
CN201910319258.0A 2019-04-19 2019-04-19 搜索信息处理方法及系统、服务器、计算机可读介质 Active CN111858860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910319258.0A CN111858860B (zh) 2019-04-19 2019-04-19 搜索信息处理方法及系统、服务器、计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910319258.0A CN111858860B (zh) 2019-04-19 2019-04-19 搜索信息处理方法及系统、服务器、计算机可读介质

Publications (2)

Publication Number Publication Date
CN111858860A CN111858860A (zh) 2020-10-30
CN111858860B true CN111858860B (zh) 2023-08-29

Family

ID=72952156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910319258.0A Active CN111858860B (zh) 2019-04-19 2019-04-19 搜索信息处理方法及系统、服务器、计算机可读介质

Country Status (1)

Country Link
CN (1) CN111858860B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011162B (zh) * 2021-03-18 2023-07-28 北京奇艺世纪科技有限公司 一种指代消解方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995870A (zh) * 2014-05-21 2014-08-20 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN107590123A (zh) * 2017-08-07 2018-01-16 问众智能信息科技(北京)有限公司 车载中地点上下文指代消解方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9280520B2 (en) * 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
US11232136B2 (en) * 2016-06-27 2022-01-25 Google Llc Contextual voice search suggestions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995870A (zh) * 2014-05-21 2014-08-20 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN107590123A (zh) * 2017-08-07 2018-01-16 问众智能信息科技(北京)有限公司 车载中地点上下文指代消解方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
浅谈中文信息处理跨文本指代消解研究;黄丹凤;;电脑知识与技术(15);全文 *

Also Published As

Publication number Publication date
CN111858860A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN108287858B (zh) 自然语言的语义提取方法及装置
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及系统
Jung Semantic vector learning for natural language understanding
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106156204B (zh) 文本标签的提取方法和装置
CN108846077B (zh) 问答文本的语义匹配方法、装置、介质及电子设备
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN108460011B (zh) 一种实体概念标注方法及系统
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
US20130060769A1 (en) System and method for identifying social media interactions
US9645988B1 (en) System and method for identifying passages in electronic documents
CN110782881A (zh) 一种语音识别及实体识别后的影视实体纠错方法
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
Ketmaneechairat et al. Natural language processing for disaster management using conditional random fields
CN114661872B (zh) 一种面向初学者的api自适应推荐方法与系统
CN111382260A (zh) 一种检索文本纠错方法、装置和存储介质
CN117149984B (zh) 一种基于大模型思维链的定制化培训方法及装置
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
Yeniterzi et al. Turkish named-entity recognition
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant