CN109902149B - 查询处理方法和装置、计算机可读介质 - Google Patents

查询处理方法和装置、计算机可读介质 Download PDF

Info

Publication number
CN109902149B
CN109902149B CN201910130355.5A CN201910130355A CN109902149B CN 109902149 B CN109902149 B CN 109902149B CN 201910130355 A CN201910130355 A CN 201910130355A CN 109902149 B CN109902149 B CN 109902149B
Authority
CN
China
Prior art keywords
target candidate
candidate entity
entity
determining
evaluation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910130355.5A
Other languages
English (en)
Other versions
CN109902149A (zh
Inventor
卢佳俊
林泽南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910130355.5A priority Critical patent/CN109902149B/zh
Publication of CN109902149A publication Critical patent/CN109902149A/zh
Priority to KR1020190158016A priority patent/KR102258484B1/ko
Priority to EP20157560.2A priority patent/EP3699781A1/en
Priority to US16/795,268 priority patent/US11397788B2/en
Priority to JP2020027637A priority patent/JP6902131B2/ja
Application granted granted Critical
Publication of CN109902149B publication Critical patent/CN109902149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing
    • G06F16/8373Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种查询处理方法,包括:根据接收到的包括字符串的查询请求确定查询反馈,基于查询反馈、字符串和预设的知识库确定目标候选实体集合,对目标候选实体集合中的每个目标候选实体进行评估,得到评估结果,基于每个目标候选实体的评估结果,确定每个目标候选实体的类别。实现了精准判断用户输入的查询的类别的技术效果,可减少用户的搜索成本,提高召回率的技术效果。本公开还提供了一种查询处理装置、计算机可读介质。

Description

查询处理方法和装置、计算机可读介质
技术领域
本公开实施例涉及人工智能技术领域,特别涉及查询处理方法和装置、计算机可读介质。
背景技术
近年来,随着人工智能技术的发展,计算机在自然语言理解中取得许多应用价值的成果。
由于语义和句式结构的多样性和复杂性,直接对文本进行提取存在一定的困难。在现有技术中,已有方法多以在文本中提取关键词为主,主要分为基于统计分析和基于语义分析的方法。
发明内容
本公开实施例提供一种查询处理方法和装置、计算机可读介质。
根据本公开实施例的一个方面,本公开实施例提供了一种查询处理方法,包括:
根据接收到的包括字符串的查询请求确定查询反馈;
基于所述查询反馈、所述字符串和预设的知识库确定目标候选实体集合;
对所述目标候选实体集合中的每个目标候选实体进行评估,得到评估结果,其中,一个所述目标候选实体对应一个评估结果;
基于每个所述目标候选实体的评估结果,确定每个所述目标候选实体的类别。
在一些实施例中,所述基于所述查询反馈、所述字符串和预设的知识库确定目标候选实体集合,包括:
根据所述查询反馈和所述字符串确定第一候选实体子集合;
基于所述字符串,从所述知识库中确定第二候选实体子集合;
基于所述第一候选实体子集合和所述第二候选实体子集合,确定所述目标候选实体集合。
在一些实施例中,所述对所述目标候选实体集合中的每个目标候选实体进行评估,包括:
将所述目标候选实体集合和所述查询反馈分别输入至双通道模型,得到每个目标候选实体对应的评估结果。
在一些实施例中,所述基于每个所述目标候选实体的的评估结果,确定每个所述目标候选实体的类别,具体包括:
将每个所述目标候选实体的评估结果分别与预设结果进行比较;
将满足下述条件中的至少一个条件对应的目标候选实体确定为所述第一类别的实体:
目标候选实体的评估结果优于所述预设结果;
目标候选实体的评估结果与所述预设结果相同。
在一些实施例中,在所述将每个所述目标候选实体的评估结果分别与评估结果进行比较之后,还包括:
将劣于所述预设结果的评估结果对应的目标候选实体确定为第二类别的实体。
在一些实施例中,在所述将满足下列条件中的至少一个条件对应的目标候选实体确定为所述第一类别的实体之后,还包括:
基于每个所述目标候选实体对应的评估结果和所述目标候选实体集合,确定所述查询请求对应的搜索意图实体。
在一些实施例中,所述基于每个所述目标候选实体对应的评估结果和所述目标候选实体集合,确定所述查询请求对应的搜索意图实体,具体包括:
从所述每个目标候选实体对应的评估结果中选取最优的评估结果;
将所述最优的评估结果对应的目标候选实体确定为所述搜索意图实体。
在一些实施例中,所述查询反馈包括:新闻、资讯、相关搜索、百科和贴吧中的一种或多种。
根据本公开实施例的另一个方面,本公开实施例还提供了一种查询处理装置,包括:
搜索模块,用于根据接收到的包括字符串的查询请求确定查询反馈;
集合确定模块,用于基于所述查询反馈、所述字符串和预设的知识库确定目标候选实体集合;
评估模块,用于对所述目标候选实体集合中的每个目标候选实体进行评估,得到评估结果,其中,一个所述目标候选实体对应一个评估结果;
类别区分模块,用于基于每个所述目标候选实体的评估结果,确定每个所述目标候选实体的类别。
在一些实施例中,所述集合确定模块具体用于:
根据所述查询反馈和所述字符串确定第一候选实体子集合;
基于所述字符串从所述知识库中确定第二候选实体子集合;
基于所述第一候选实体子集合和所述第二候选实体子集合,确定所述目标候选实体集合。
在一些实施例中,所述评估模块用于,将所述目标候选实体集合和所述查询反馈分别输入至双通道模型,得到每个目标候选实体对应的评估结果。
在一些实施例中,所述类别区分模块具体用于:
将每个所述目标候选实体的评估结果分别与预设结果进行比较;
将满足下述条件中的至少一个条件对应的目标候选实体确定为所述第一类别的实体:
目标候选实体的评估结果优于所述预设结果;
目标候选实体的评估结果与所述预设结果相同的评估结果对应的目标候选实体确定为所述第一类别的实体。
在一些实施例中,所述类别区分模块具体用于:
将劣于所述预设结果的评估结果对应的目标候选实体确定为第二类别的实体。
在一些实施例中,所述类别区分模块还用于:
基于每个所述目标候选实体的评估结果和所述目标候选实体集合,确定所述查询请求对应的搜索意图实体。
在一些实施例中,所述类别区分模块具体用于:
从所述每个目标候选实体对应的评估结果中选取最优的评估结果;
将所述最优的评估结果对应的目标候选实体确定为所述搜索意图实体。
根据本公开实施例的另一个方面,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的方法。
本公开实施例提供的技术方案,能够对查询(query)的类别进行判断,准确确定用户输入的查询的意图,减少需要进行的查询成本,例如,计算资源、网络资源、查询时间等,从而提高用户体验。
具体地,基于本公开实施例采用的获取目标候选实体集合的方案,由于结合了查询反馈和知识库等特征,所以,可精准地选取与查询对应的目标候选实体。且基于本公开实施例采用的获取每个目标候选实体的评估结果的方案,可实现高效且准确地对每个目标候选实体进行评估,进而实现精准地对查询的类别进行判断的技术效果。由于可精准地对查询的类别进行区分,进而可以提高搜索的效率,减少用户的搜索成本。而且,由于可精准地判断出查询的类别,所以可以提高推送给用户的结果的准确性,提高召回率。
附图说明
附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为根据本公开实施例的查询处理方法的示意图;
图2为根据本公开实施例的确定目标候选实体集合的方法的示意图;
图3为根据本公开实施例的确定每个目标候选实体的类别的方法的示意图;
图4为根据本公开实施例的查询处理装置的示意图;
图5为根据本公开实施例的查询处理装置的框架示意图;
附图标记:
1、搜索模块,2、集合确定模块,3、评估模块,4、类别区分模块,11、处理单元(或处理器),12、存储器,13、总线,14、RAM,15、高速缓存,16、存储系统,17、程序组件,18、实用工具,19、外部设备,20、显示器,21、I/O接口,22、网络适配器。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的查询处理方法和装置、计算机可读介质进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此,可根据制造技术和/或容限来修改示例图示。因此,实施例不限于附图中所示的实施例,而是包括基于制造工艺而形成的配置的修改。因此,附图中例示的区具有示意性属性,并且图中所示区的形状例示了元件的区的具体形状,但并不旨在是限制性的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
根据本公开实施例的一个方面,本公开实施例提供了一种查询处理方法。
请参阅图1,图1为根据本公开实施例的查询处理方法的示意图,该方法适用于查询处理装置,例如服务器装置。
如图1所示,该方法包括:
S1:根据接收到的包括字符串的查询请求确定查询反馈。
在实施例中,用户通过终端向服务器装置发送查询请求,即query。具体地,终端可以是移动设备例如手机、笔记本电脑平板电脑、个人数字助理等,也可以是固定设备,例如台式电脑等。查询请求由字符串构成。可以理解的是,本文所记载的“字符串”可以包括文本形式的文字、数字、字母、符号等中的一个或多个的序列。服务器装置根据用户查询发起搜索,获取与用户查询相对应的查询反馈。可以理解的是,搜索可以通过网络基于例如网页等的网络资源来执行,也可以在本地基于本地存储的各种数据库来执行。
在一些实施例中,查询反馈是指针对用户查询进行搜索而获取到的对应结果,例如新闻、资讯、关联搜索查询、论坛等信息中的一种或多种。查询反馈通常是用户可访问的。因此,查询反馈可以根据大量的用户行为而变化,例如,用户点击率较高的信息会被作为查询反馈而作为查询请求的结果向用户呈现,而用户点击率较低的信息可能被忽略。可以理解的是,查询反馈的呈现并不仅仅以用户点击率为依据,还可以包含其他的依据,在此不作限定。
由于查询反馈可以根据大量的用户行为而变化,所以查询反馈具有时效性。在不同时间段针对同一查询请求所获取到的查询反馈可能是不同的。,而且,同一查询反馈在不同的时间段所受到的关注的程度也是不同的。下面以查询请求“大黄蜂”为例进行说明。在电影《大黄蜂》开播之前,“大黄蜂”以变形金刚中的虚拟人物被众人公知。即在变形金刚被公开,而电影《大黄蜂》开播之前,“大黄蜂”以变形金刚中的虚拟人物被众人公知。但是,在电影《大黄蜂》开播之后,“大黄蜂”以电影被众人搜索的可能性更高。也就是说,随着时间的推移,大量的用户行为(例如,点击)不断地变化,查询反馈也会相应地不断更新。因此,采用本公开实施例的技术方案可以针对同一查询请求在不同时间得到不同的查询反馈。即,通过本公开实施例提供的方案可以提高查询反馈的时效性。
S2:基于查询反馈、字符串和预设的知识库确定目标候选实体集合。
在该步骤中,可基于查询反馈和知识库确定与字符串对应的目标候选实体集合。术语“知识库”是指一种类似图的数据结构,由节点和边组成,例如知识图谱或其他适当的数据库。在知识库中,每个节点表示现实世界中存在的“实体”,每条边表示实体与实体之间的“关系”。知识库是关系的有效表示方式。换句话说,知识库将不同种类的信息连接在一起而得到的一个关系网络,从而提供了从“关系”的角度对问题进行分析的能力。
结合图2可知,在一些实施例中,步骤S2可以包括:
S2-1:根据查询反馈和字符串确定第一候选实体子集合。第一候选实体子集合包括与该字符串相对应的候选实体。候选实体可以是与特定字符串相对应的所有候选实体或部分候选实体。部分候选实体的选择可以根据不同的情况来进行,例如,当计算资源或网络资源有限的情况下,可以根据各个候选实体或各个实体义项的权重或其他参数来选择优先级较高的若干个候选实体或实体义项。具体选择方式本文在此不进行限定。
在实施例中,第一候选实体子集合可以通过对查询反馈和字符串进行计算来获得。具体地,可以采用例如多模匹配算法,将字符串与查询反馈进行匹配,以提取相应查询反馈中的全部或部分候选实体。可以理解的是,将字符串与查询反馈进行匹配以得到候选实体的算法可以是能够实现该功能的任何算法,本文在此不进行限定。
S2-2:基于字符串,从知识库中确定第二候选实体子集合。第二候选实体子集合包括与该字符串相对应的候选实体,以及候选实体对应的实体义项。义项可以是例如词条、条目等,是指每个不同概念意义事物的叙述内容。候选实体的实体义项可以是与该候选实体相对应的所有实体义项或部分实体义项。部分候选实体和实体义项的选择可以根据不同的情况来进行。具体选择方式本文在此不进行限定。
优选地,基于知识库中已经具有相互关系的各个实体的信息,从知识库中选取与字符串存在关联关系的多个实体义项,由多个实体义项组成的集合即为第二候选实体子集合。
S2-3:基于第一候选实体子集合和第二候选实体子集合,确定目标候选实体集合。具体地,取两个子集合,即第一候选实体子集合和第二候选实体子集合的并集,即为目标候选实体集合。
需要说明的是,S2-1和S2-2之间并没有必然的先后顺序。即,既可优先执行获取第一候选实体子集合的步骤,也可优先执行获取第二候选实体子集合的步骤,还可以同步执行获取第一候选实体子集合的步骤和获取第二候选实体子集合的步骤。
S3:对目标候选实体集合中的每个目标候选实体进行评估,得到评估结果,其中,一个目标候选实体对应一个评估结果。可采用现有技术中的评估的方法对目标候选实体集合中的每个目标候选实体进行评估。如对目标候选实体集合中的每个目标候选实体进行排序,或者计算目标候选实体集合中的每个目标候选实体的分数。具体评估方式在此不进行限定。
在一些实施例中,步骤S3包括:
将目标候选实体集合和查询反馈分别输入至双通道模型,得到每个目标候选实体对应的评估结果。
具体地,分别将目标候选实体集合和查询反馈输入至双通道模型,进而输出每个目标候选实体对应的评估结果。优选地,双通道模型为双通道LSTM模型。其中,双通道LSTM模型即为双通道LSTM(Long-Short Term Memory)模型。双通道LSTM模型可精准地对目标候选实体集合中的每个目标候选实体进行区分,并输出每个目标候选实体对应的评估结果。
当采用双通道LSTM模型对每个目标候选实体进行评估时,得到的评估结果为分数。
具体地:将目标候选实体集合输入至双通道LSTM模型的一端(即双通道LSTM模型的一个通道),将查询反馈输入至双通道LSTM模型的另一端(即双通道LSTM模型的另一个通道)。在本公开实施例中,通过利用双通道LSTM模型,查询反馈和知识库,以解决查询处理领域内的实体名称、实体别名、实体+信息(即知识信息)以及纠错的问题。
S4:基于每个目标候选实体评估结果,确定每个目标候选实体的类别。
在一些实施例中,类别包括认知类需求和非认知类需求。认知类需求的实体包括实体名称和实体信息,即认知类需求的实体为具有明确定义的实体。非认知类需求的实体为不具有明确定义的实体。
具体地,经过S2后,得到目标候选实体集合。目标候选实体集合中包括第一候选实体子集合和第二候选实体子集合。第一候选实体子集合中包括多个目标候选实体。第二候选实体子集合中包括多个目标候选实体,以及每个目标候选实体对应的实体义项。由于一个目标候选实体至少对应一个实体义项,一个实体义项仅对应一个目标候选实体。所以基于目标候选实体集合,可确定目标候选实体集合中每个目标候选实体与每个实体义项之间的关联关系。评估的过程即为将目标候选实体集合中的每个目标候选实体(当某目标候选实体包括至少一个实体义项时,则将该目标候选实体和与其对应的每个实体义项)分别与查询反馈进行匹配的过程。且,在本公开实施例中,采用将实体义项与目标候选实体相结合的方式与查询反馈进行匹配,可实现匹配的结果的全面性和充分性。匹配的结果即为评估的结果。具体可通过计算的方式进行匹配(如相似度计算),也可通过模型的方式进行匹配(如神经网络模型),此处对匹配的方法不做限定。
其中,以计算的方式进行匹配的具体实现方式之一如下:将目标候选实体集合中的任一目标候选实体与查询反馈进行相似度计算(若目标候选实体包括至少一个实体义项时,则将该目标候选实体和与其对应的每个实体义项作为一个整体与查询反馈进行匹配),得到与该目标候选实体的相似度(即评估结果)。将相似度与预设的相似度阈值(即预设结果)进行比较。如果相似度大于或等于相似度阈值,则将目标候选实体确定为认知类需求的实体。如果相似度小于相似度阈值,则将该目标候选实体确定为非认知类需求的实体。
其中,以模型的方式进行匹配的具体实现方式之一如下:将目标候选实体集合中的每个目标候选实体均通过双通道LSTM模型的一个通道输入至双通道LSTM模型,将查询反馈通过双通道LSTM模型的另一个通道输入至双通道LSTM模型。双通道LSTM模型基于查询反馈对每个目标候选实体进行评估。评估的方法包括但不限于对每个目标候选实体进行打分处理。即双通道LSTM模型基于查询反馈输出每个目标候选实体对应的分数(即评估结果)。具体地:双通道LSTM模型输出某目标候选实体的分数为C(即该目标候选实体的评估结果),预设的分数阈值(即预设结果)为D,且C≥D。则将目标候选实体确定为认知类需求的实体。如果C<D,则将目标候选实体确定为非认知类需求的实体。
结合图3可知,在一些实施例中,S4包括:
S4-1:将每个目标候选实体的评估结果分别与预设结果进行比较,若目标候选实体的评估结果优于预设结果,或者等于预设结果,则执行S4-2,否则,执行S4-3。
其中,S4-2:将评估结果优于预设结果,或者等于预设结果对应的目标候选实体确定为第一类别的实体。
其中,S4-3:将劣于预设结果的评估结果对应的目标候选实体确定为第二类别的实体。
其中,第一类别的实体为认知类需求的实体,第二类别的实体为非认知类需求的实体。
在本公开实施例中,若目标候选实体集合中共有m个目标候选实体。则将m个目标候选实体中的每一个目标候选实体的评估结果均与预设结果进行比较。
可以理解的是,将某一个目标候选实体的评估结果与预设结果进行比较得到的比较结果有两种可能:第一种为该目标候选实体的评估结果优于预设结果,或者与预设结果相同;第二种为该目标候选实体的评估结果劣于预设结果。如果为第一种比较结果,则将该目标候选实体确定为第一类别的实体;如果为第二种比较结果,则将该目标候选实体确认为第二类别的实体。
通过本公开实施例提供的方案,基于本公开实施例采用的获取目标候选实体集合的方案,由于结合了查询反馈和知识库等特征,所以,可精准地选取与查询对应的目标候选实体。且基于本公开实施例采用的获取每个目标候选实体的评估结果的方案,可实现高效且准确地对每个目标候选实体进行评估,进而实现精准地对查询的类别进行判断的技术效果。由于可精准地对查询的类别进行区分,进而可以提高搜索的效率,减少用户的搜索成本,且,由于可精准的判断出查询的类别,所以可以提高推送给用户的结果的准确性,提高召回率。
结合图3可知,在一些实施例中,在S4-2之后,该方法还包括:
S4-4:基于每个目标候选实体对应的评估结果和目标候选实体集合,确定查询请求对应的搜索意图实体。搜索意图实体是指最能体现查询请求对应的实体。也就是说,搜索意图实体是最能体现用户期望的查询结果对应的实体。
结合图3可知,在一些实施例中,S4-4具体包括:
S4-4-1:从每个目标候选实体对应的评估结果中选取最优的评估结果。
S4-4-2:将最优的评估结果对应的目标候选实体确定为搜索意图实体。
在本公开实施例中,一个目标候选实体对应一个评估结果(可能存在不同目标候选实体对应的评估结果为相同结果的情况),即m个目标候选实体共有m个评估结果。将m个评估结果进行降序或升序排列,选取最优的评估结果。将最优的评估结果对应的目标候选实体确定为搜索意图实体。即,最优的评估结果对应的目标候选实体(即搜索意图实体)为最能代表查询请求真实搜索意图的实体。通过本公开实施例提供的方案,可实现高效且精准的确定用户的真实意图,从而向用户反馈相应的卡片,增强用户的搜索体验。
根据本公开实施例的另一个方面,本公开实施例还公开了一种查询处理装置。
请参阅图4,图4为根据本公开实施例的查询处理装置的示意图。
如图4所示,该装置包括:
搜索模块1,用于根据接收到的包括字符串的查询请求确定查询反馈;
集合确定模块2,用于基于查询反馈、字符串和预设的知识库确定目标候选实体集合;
评估模块3,用于对目标候选实体集合中的每个目标候选实体进行评估,得到评估结果,其中,一个目标候选实体对应一个评估结果;
类别区分模块4,用于基于每个目标候选实体的评估结果,确定每个目标候选实体的类别。
在一些实施例中,集合确定模块2具体用于:
根据查询反馈和字符串确定第一候选实体子集合;
基于字符串,从知识库中确定第二候选实体子集合;
基于第一候选实体子集合和第二候选实体子集合,确定目标候选实体集合。
在一些实施例中,评估模块具体用于,将目标候选实体集合和查询反馈分别输入至双通道模型,得到每个目标候选实体对应的评估结果。
在一些实施例中,类别区分模块4具体用于:
将每个目标候选实体的评估结果分别与预设结果进行比较;
将满足下述条件中的至少一个条件对应的目标候选实体确定为所述第一类别的实体:
目标候选实体的评估结果优于预设结果的评估结果;
目标候选实体的评估结果与预设结果相同。
在一些实施例中,类别区分模块4还具体用于:
将劣于预设结果的评估结果对应的目标候选实体确定为第二类别的实体。
在一些实施例中,类别区分模块4还用于:
基于每个目标候选实体的评估结果和目标候选实体集合,确定查询请求对应的搜索意图实体。
在一些实施例中,类别区分模块4具体用于:
从每个目标候选实体对应的评估结果中选取最优的评估结果;
将最优的评估结果对应的目标候选实体确定为搜索意图实体。
在一些实施例中,查询反馈包括:新闻、资讯、相关搜索、百科和贴吧中的一种或多种。
请参阅图5,图5为根据本公开实施例的查询处理装置的框架示意图。
图5显示的纠错装置仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,纠错装置以通用计算设备的形式表现。纠错装置的组件可以包括但不限于:一个或者多个处理器或者处理单元11,存储器12,连接不同组件(包括存储器12和处理单元11)的总线13。
总线13表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
纠错装置典型地包括多种计算机系统可读介质。这些介质可以是任何能够被纠错装置访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器12可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)14和/或高速缓存15(即高速缓存存储器)。纠错装置可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统16可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线13相连。存储器12可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序组件17的程序/实用工具18,可以存储在例如存储器12中,这样的程序组件17包括但不限于操作系统、一个或者多个应用程序、其它程序组件以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序组件17通常执行本发明所描述的实施例中的功能和/或方法。
纠错装置也可以与一个或多个外部设备19(例如键盘、指向设备、显示器20等)通信,还可与一个或者多个使得用户能与该纠错装置交互的设备通信,和/或与使得该纠错装置能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口21进行。并且,纠错装置还可以通过网络适配器22与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器22通过总线13与纠错装置的其它组件通信。应当明白,尽管图中未示出,可以结合纠错装置使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元11通过运行存储在存储器12中的多个程序中的至少一个程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种纠错方法。
根据本公开实施例的另一个方面,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。

Claims (15)

1.一种查询处理方法,包括:
根据接收到的包括字符串的查询请求确定查询反馈;
基于所述查询反馈、所述字符串和预设知识库确定目标候选实体集合;
对所述目标候选实体集合中的每个目标候选实体进行评估,得到评估结果,其中,一个所述目标候选实体对应一个评估结果;其中,所述评估结果为比较结果;
基于每个所述目标候选实体的评估结果,确定每个所述目标候选实体的类别。
2.根据权利要求1所述的方法,其中,所述基于所述查询反馈、所述字符串和预设的知识库确定目标候选实体集合,包括:
根据所述查询反馈和所述字符串确定第一候选实体子集合;
基于所述字符串,从所述知识库中确定第二候选实体子集合;
基于所述第一候选实体子集合和所述第二候选实体子集合,确定所述目标候选实体集合。
3.根据权利要求1或2所述的方法,其中,所述对所述目标候选实体集合中的每个目标候选实体进行评估,包括:
将所述目标候选实体集合和所述查询反馈分别输入至双通道模型,得到每个目标候选实体对应的评估结果。
4.根据权利要求1或2所述的方法,其中,所述基于每个所述目标候选实体的评估结果,确定每个所述目标候选实体的类别,包括:
将每个所述目标候选实体的评估结果分别与预设结果进行比较;
将满足下述条件中的至少一个条件对应的目标候选实体确定为第一类别的实体:
目标候选实体的评估结果优于所述预设结果;
目标候选实体的评估结果与所述预设结果相同。
5.根据权利要求4所述的方法,其中,在所述将每个所述目标候选实体的评估结果分别与评估结果进行比较之后,还包括:
将劣于所述预设结果的评估结果对应的目标候选实体确定为第二类别的实体。
6.根据权利要求4所述的方法,其中,在所述将满足下列条件中的至少一个条件对应的目标候选实体确定为所述第一类别的实体之后,还包括:
基于每个所述目标候选实体对应的评估结果和所述目标候选实体集合,确定所述查询请求对应的搜索意图实体。
7.根据权利要求6所述的方法,其中,所述基于每个所述目标候选实体对应的评估结果和所述目标候选实体集合,确定所述查询请求对应的搜索意图实体,具体包括:
从所述每个目标候选实体对应的评估结果中选取最优的评估结果;
将所述最优的评估结果对应的目标候选实体确定为所述搜索意图实体。
8.一种查询处理装置,包括:
搜索模块,用于根据接收到的包括字符串的查询请求确定查询反馈;
集合确定模块,用于基于所述查询反馈、所述字符串和预设的知识库确定目标候选实体集合;
评估模块,用于对所述目标候选实体集合中的每个目标候选实体进行评估,得到评估结果,其中,一个所述目标候选实体对应一个评估结果;其中,所述评估结果为比较结果;
类别区分模块,用于基于每个所述目标候选实体的评估结果,确定每个所述目标候选实体的类别。
9.根据权利要求8所述的装置,其中,所述集合确定模块具体用于:
根据所述查询反馈和所述字符串确定第一候选实体子集合;
基于所述字符串,从所述知识库中确定第二候选实体子集合;
基于所述第一候选实体子集合和所述第二候选实体子集合,确定所述目标候选实体集合。
10.根据权利要求8或9所述的装置,其中,
所述评估模块具体用于,将所述目标候选实体集合和所述查询反馈分别输入至双通道模型,得到每个目标候选实体对应的评估结果。
11.根据权利要求8或9所述的装置,其中,所述类别区分模块具体用于:
将每个所述目标候选实体的评估结果分别与预设结果进行比较;
将满足下述条件中的至少一个条件对应的目标候选实体确定为第一类别的实体:
目标候选实体的评估结果优于所述预设结果;
目标候选实体的评估结果与所述预设结果相同。
12.根据权利要求11所述的装置,其中,所述类别区分模块还具体用于:
将劣于所述预设结果的评估结果对应的目标候选实体确定为第二类别的实体。
13.根据权利要求11所述的装置,其中,所述类别区分模块还用于:
基于每个所述目标候选实体的评估结果和所述目标候选实体集合,确定所述查询请求对应的搜索意图实体。
14.根据权利要求13所述的装置,其中,所述类别区分模块具体用于:
从所述每个目标候选实体对应的评估结果中选取最优的评估结果;
将所述最优的评估结果对应的目标候选实体确定为所述搜索意图实体。
15.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1至7中任一所述的方法。
CN201910130355.5A 2019-02-21 2019-02-21 查询处理方法和装置、计算机可读介质 Active CN109902149B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910130355.5A CN109902149B (zh) 2019-02-21 2019-02-21 查询处理方法和装置、计算机可读介质
KR1020190158016A KR102258484B1 (ko) 2019-02-21 2019-12-02 쿼리를 처리하는 방법, 장치 및 컴퓨터 판독가능 매체
EP20157560.2A EP3699781A1 (en) 2019-02-21 2020-02-17 Query processing method and device, and computer readable medium
US16/795,268 US11397788B2 (en) 2019-02-21 2020-02-19 Query processing method and device, and computer readable medium
JP2020027637A JP6902131B2 (ja) 2019-02-21 2020-02-21 クエリ処理方法、クエリ処理装置及びコンピュータ読み取り可能な媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910130355.5A CN109902149B (zh) 2019-02-21 2019-02-21 查询处理方法和装置、计算机可读介质

Publications (2)

Publication Number Publication Date
CN109902149A CN109902149A (zh) 2019-06-18
CN109902149B true CN109902149B (zh) 2021-08-13

Family

ID=66945255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910130355.5A Active CN109902149B (zh) 2019-02-21 2019-02-21 查询处理方法和装置、计算机可读介质

Country Status (5)

Country Link
US (1) US11397788B2 (zh)
EP (1) EP3699781A1 (zh)
JP (1) JP6902131B2 (zh)
KR (1) KR102258484B1 (zh)
CN (1) CN109902149B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866498A (zh) * 2014-02-24 2015-08-26 华为技术有限公司 一种信息处理方法及装置
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6175829B1 (en) * 1998-04-22 2001-01-16 Nec Usa, Inc. Method and apparatus for facilitating query reformulation
US6363378B1 (en) * 1998-10-13 2002-03-26 Oracle Corporation Ranking of query feedback terms in an information retrieval system
US7747648B1 (en) * 2005-02-14 2010-06-29 Yahoo! Inc. World modeling using a relationship network with communication channels to entities
US20090299990A1 (en) * 2008-05-30 2009-12-03 Vidya Setlur Method, apparatus and computer program product for providing correlations between information from heterogenous sources
US20110307482A1 (en) * 2010-06-10 2011-12-15 Microsoft Corporation Search result driven query intent identification
US8600979B2 (en) 2010-06-28 2013-12-03 Yahoo! Inc. Infinite browse
US8972387B2 (en) * 2011-07-28 2015-03-03 International Business Machines Corporation Smarter search
WO2013059904A1 (en) * 2011-10-28 2013-05-02 Research In Motion Limited Factor-graph based matching systems and methods
EP2771806A4 (en) * 2011-10-28 2015-07-22 Blackberry Ltd MANAGEMENT OF ELECTRONIC EQUIPMENT WITH PROFILE-BASED INFERENCES BETWEEN DOMAINS
CN103106220B (zh) * 2011-11-15 2016-08-03 阿里巴巴集团控股有限公司 一种搜索方法、搜索装置及一种搜索引擎系统
US20130212081A1 (en) * 2012-02-13 2013-08-15 Microsoft Corporation Identifying additional documents related to an entity in an entity graph
US9183310B2 (en) * 2012-06-12 2015-11-10 Microsoft Technology Licensing, Llc Disambiguating intents within search engine result pages
US9594831B2 (en) * 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
KR20140075428A (ko) * 2012-12-11 2014-06-19 한국전자통신연구원 시맨틱 검색 키워드 추천 방법 및 시스템
CN104239340B (zh) * 2013-06-19 2018-03-16 北京搜狗信息服务有限公司 搜索结果筛选方法与装置
WO2015042290A1 (en) * 2013-09-19 2015-03-26 Quixey, Inc. Identifying gaps in search results
US9754210B2 (en) * 2014-04-01 2017-09-05 Microsoft Technology Licensing, Llc User interests facilitated by a knowledge base
CN103995880B (zh) * 2014-05-27 2019-03-12 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
US9418128B2 (en) * 2014-06-13 2016-08-16 Microsoft Technology Licensing, Llc Linking documents with entities, actions and applications
US20150370787A1 (en) 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
US20160041986A1 (en) * 2014-08-08 2016-02-11 Cuong Duc Nguyen Smart Search Engine
US20170193099A1 (en) * 2015-12-31 2017-07-06 Quixey, Inc. Machine Identification of Grammar Rules That Match a Search Query
US20210183487A1 (en) * 2016-02-02 2021-06-17 Koninklijke Philips N.V. Cognitive patient care event reconstruction
US10860933B2 (en) * 2016-05-13 2020-12-08 Cognitive Scale, Inc. Universal graph output via insight agent accessing the universal graph
US10380169B2 (en) * 2016-07-29 2019-08-13 Rovi Guides, Inc. Systems and methods for determining an execution path for a natural language query
CN108280081B (zh) * 2017-01-06 2023-02-24 百度在线网络技术(北京)有限公司 生成网页的方法和装置
US11157490B2 (en) * 2017-02-16 2021-10-26 Microsoft Technology Licensing, Llc Conversational virtual assistant
EP3642835A4 (en) * 2017-08-03 2021-01-06 Telepathy Labs, Inc. PROACTIVE, INTELLIGENT AND OMNICANAL VIRTUAL AGENT
US11893500B2 (en) * 2017-11-28 2024-02-06 International Business Machines Corporation Data classification for data lake catalog
US20190197176A1 (en) * 2017-12-21 2019-06-27 Microsoft Technology Licensing, Llc Identifying relationships between entities using machine learning
US10963273B2 (en) * 2018-04-20 2021-03-30 Facebook, Inc. Generating personalized content summaries for users
CN108733779B (zh) * 2018-05-04 2022-10-04 百度在线网络技术(北京)有限公司 文本配图的方法和装置
US20190347358A1 (en) * 2018-05-10 2019-11-14 Microsoft Technology Licensing, Llc Query Formulation Using Networked Device Candidates
CN109033140B (zh) * 2018-06-08 2020-05-29 北京百度网讯科技有限公司 一种确定搜索结果的方法、装置、设备和计算机存储介质
CN108959613B (zh) * 2018-07-17 2021-09-03 杭州电子科技大学 一种面向rdf知识图谱的语义近似查询方法
CN109344174A (zh) * 2018-09-13 2019-02-15 深圳易投云智能科技有限公司 金融分析方法和系统
CN109299289B (zh) * 2018-11-30 2021-04-06 国信优易数据股份有限公司 一种查询图构建方法、装置、电子设备及计算机存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866498A (zh) * 2014-02-24 2015-08-26 华为技术有限公司 一种信息处理方法及装置
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置

Also Published As

Publication number Publication date
JP2020135900A (ja) 2020-08-31
KR102258484B1 (ko) 2021-05-28
US11397788B2 (en) 2022-07-26
KR20200102334A (ko) 2020-08-31
US20200272675A1 (en) 2020-08-27
EP3699781A1 (en) 2020-08-26
CN109902149A (zh) 2019-06-18
JP6902131B2 (ja) 2021-07-14

Similar Documents

Publication Publication Date Title
US11537820B2 (en) Method and system for generating and correcting classification models
Shen et al. Using semantic roles to improve question answering
US9754021B2 (en) Method for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon
US8543565B2 (en) System and method using a discriminative learning approach for question answering
US9348900B2 (en) Generating an answer from multiple pipelines using clustering
US9146987B2 (en) Clustering based question set generation for training and testing of a question and answer system
US9183285B1 (en) Data clustering system and methods
US10366108B2 (en) Distributional alignment of sets
US20220414137A1 (en) Automatic labeling of text data
US10586174B2 (en) Methods and systems for finding and ranking entities in a domain specific system
US20160224663A1 (en) Context based passage retreival and scoring in a question answering system
Li et al. Personal knowledge graph population from user utterances in conversational understanding
CN107844531B (zh) 答案输出方法、装置和计算机设备
WO2023278070A1 (en) Automatic labeling of text data
Minkov et al. Learning graph walk based similarity measures for parsed text
CN109885180B (zh) 纠错方法和装置、计算机可读介质
US7644074B2 (en) Search by document type and relevance
WO2002010985A2 (en) Method of and system for automatic document retrieval, categorization and processing
CN109902149B (zh) 查询处理方法和装置、计算机可读介质
CN116340481B (zh) 自动回复提问的方法及装置、计算机可读存储介质、终端
CN115455152A (zh) 写作素材的推荐方法、装置、电子设备及存储介质
Li A systematic study of multi-level query understanding
Ruhela Exploring open web directory for improving the performance of text document clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant