CN110442696A - 查询处理方法及装置 - Google Patents

查询处理方法及装置 Download PDF

Info

Publication number
CN110442696A
CN110442696A CN201910715482.1A CN201910715482A CN110442696A CN 110442696 A CN110442696 A CN 110442696A CN 201910715482 A CN201910715482 A CN 201910715482A CN 110442696 A CN110442696 A CN 110442696A
Authority
CN
China
Prior art keywords
query information
similar
historical
information
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910715482.1A
Other languages
English (en)
Other versions
CN110442696B (zh
Inventor
周环宇
冯欣伟
余淼
戴松泰
宋勋超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910715482.1A priority Critical patent/CN110442696B/zh
Publication of CN110442696A publication Critical patent/CN110442696A/zh
Application granted granted Critical
Publication of CN110442696B publication Critical patent/CN110442696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种查询处理方法及装置,包括:接收用户输入的查询信息;根据查询信息的类别和查询信息的关键词,从候选库中获取查询信息的相似查询信息,候选库保存有历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系;若查询信息和相似查询信息之间的相似度大于相似度阈值,则将相似查询信息作为查询信息的泛化结果;根据相似查询信息,获取查询信息对应的查询结果;输出查询结果。通过上述方式,可以对查询信息进行更加全面的泛化,从而使得查询结果更加全面。

Description

查询处理方法及装置
技术领域
本发明涉及网络技术领域,尤其涉及一种查询处理方法及装置。
背景技术
查询(Query)的泛化,也称为说查询扩招,是搜索问答领域一个特别重要的问题。在搜索领域,当搜索某个特定查询时,可能会出现特定查询具有不止一种表述形式,如何尽可能多的挖掘这些表述形式就是查询泛化所需要完成的工作。尽可能多的挖掘查询的不同表述方式能最大程度的回答用户的各种表达形式的问题。
现有技术中,对于查询的泛化主要通过关键词的替换来进行,比如“多久”和“多长时间”是同义词,“何时”和“什么时候”是同义词。对于查询关键词的同义替换工程可以通过人工筛选字典,也可以通过训练模型来实现机器筛选字典。
然而,尽管使用关键词替换能够解决一部分查询的泛化,但是由于关键词替换可以解决的问题的是有限,造成现有查询的泛化还不够全面,由此造成了该查询对应的查询结果也不够全面。
发明内容
本发明提供一种查询处理方法及装置,以解决现有技术中查询的泛化还不够全面造成查询对应的查询结果不够全面的问题。
本发明的第一个方面提供一种查询处理方法,包括:
接收用户输入的查询信息;
根据所述查询信息的类别和所述查询信息的关键词,从候选库中获取所述查询信息的相似查询信息,所述候选库保存有历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系;
若所述查询信息和所述相似查询信息之间的相似度大于相似度阈值,则将所述相似查询信息作为所述查询信息的泛化结果;
根据所述相似查询信息,获取所述查询信息对应的查询结果;
输出所述查询结果。
可选的,在所述接收用户输入的查询信息之前,还包括:
获取所述历史查询信息;
将所述历史查询信息保存在所述候选库中,并建立所述历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系。
可选的,在所述获取所述历史查询信息之后,还包括:
通过预设的使用别名列表扩容所述历史查询信息的关键词。
可选的,在所述建立所述历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系之后,还包括:
将所述历史查询信息转化为同义历史查询信息,所述历史查询信息由第一语言描述,所述同义历史查询信息由第二语言描述;
将所述同义历史查询信息保存在所述候选库中,并将所述同义历史查询信息添加到所述历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系中。
可选的,在所述将所述相似查询信息作为所述查询信息的泛化结果之前,还包括:
将所述查询信息转化为同义查询信息,所述查询信息由第一语言描述,所述同义查询信息由第二语言描述。
可选的,所述相似查询信息包括:第一相似查询信息和第二相似查询信息,所述第一相似查询信息由第一语言描述,所述第二相似查询信息由第二语言描述;
所述若所述查询信息和所述相似查询信息之间的相似度大于相似度阈值,则将所述相似查询信息作为所述查询信息的泛化结果,包括:
确定所述查询信息和所述第一相似查询信息之间的第一相似度;
确定所述同义查询信息和所述第二相似查询信息之间的第二相似度;
若所述第一相似度大于第一相似度阈值,或者,所述第二相似度大于第二相似度阈值,则确定所述第一相似查询信息和所述第二相似查询信息为所述查询信息的泛化结果。
可选的,所述根据所述相似查询信息,获取所述查询信息对应的查询结果,包括:
对所述相似查询信息进行规则泛化,生成泛化后的相似查询信息;
根据所述泛化后的相似查询信息,获取所述查询信息的对应的查询结果。
可选的,所述对所述相似查询信息进行规则泛化,包括:
调整所述相似查询信息的语序;
将所述相似查询信息中的关键词替换为所述关键词的同义词。
本发明的第二个方面提供一种查询处理装置,包括:
接收模块,用于接收用户输入的查询信息;
第一获取模块,用于根据所述查询信息的类别和所述查询信息的关键词,从候选库中获取所述查询信息的相似查询信息,所述候选库保存有历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系;
比较模块,用于若所述查询信息和所述相似查询信息之间的相似度大于相似度阈值,则将所述相似查询信息作为所述查询信息的泛化结果;
查询模块,用于根据所述相似查询信息,获取所述查询信息对应的查询结果;
输出模块,用于输出所述查询结果。
可选的,还包括:
第二获取模块,用于获取所述历史查询信息;
创建模块,用于将所述历史查询信息保存在所述候选库中,并建立所述历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系。
可选的,还包括:
扩容模块,用于通过预设的使用别名列表扩容所述历史查询信息的关键词。
可选的,还包括:
第一转化模块,用于将所述历史查询信息转化为同义历史查询信息,所述历史查询信息由第一语言描述,所述同义历史查询信息由第二语言描述;
添加模块,用于将所述同义历史查询信息保存在所述候选库中,并将所述同义历史查询信息添加到所述历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系中。
可选的,还包括:
第二转化模块,用于将所述查询信息转化为同义查询信息,所述查询信息由第一语言描述,所述同义查询信息由第二语言描述。
可选的,所述相似查询信息包括:第一相似查询信息和第二相似查询信息,所述第一相似查询信息由第一语言描述,所述第二相似查询信息由第二语言描述;
所述比较模块,具体用于确定所述查询信息和所述第一相似查询信息之间的第一相似度;确定所述同义查询信息和所述第二相似查询信息之间的第二相似度;若所述第一相似度大于第一相似度阈值,或者,所述第二相似度大于第二相似度阈值,则确定所述第一相似查询信息和所述第二相似查询信息为所述查询信息的泛化结果。
可选的,所述查询模块具体用于对所述相似查询信息进行规则泛化,生成泛化后的相似查询信息;根据所述泛化后的相似查询信息,获取所述查询信息的对应的查询结果。
可选的,所述查询模块具体用于调整所述相似查询信息的语序;将所述相似查询信息中的关键词替换为所述关键词的同义词。
本发明的第三个方面提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行第一方面所述的方法步骤。
本发明的第四个方面提供一种存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行第一方面任一项所述的方法。
本发明提供的查询处理方法及装置,通过接收用户输入的查询信息,并根据查询信息的类别和查询信息的关键词,从候选库中获取查询信息的相似查询信息。其中,候选库保存有历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系。若查询信息和相似查询信息之间的相似度大于相似度阈值,则将相似查询信息作为查询信息的泛化结果,随后,根据相似查询信息,获取查询信息对应的查询结果并输出查询结果。通过上述方式,由于从候选库中获取相似的历史查询查询作为泛化结果,避免了只对关键词进行简单替换造成的泛化不够全面的问题,进而使查询结果更加全面。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种查询处理方法的应用场景示意图;
图2为本申请实施例提供的一种查询处理方法的流程示意图;
图3为本申请实施例提供的另一种查询处理方法的流程示意图;
图4为本申请实施例提供的再一种查询处理方法的流程示意图;
图5为本申请实施例提供的又一种查询处理方法的流程示意图;
图6为本申请实施例提供的一种查询处理装置的结构示意图;
图7为本申请实施例提供的另一种查询处理装置的结构示意图;
图8为本申请实施例提供的再一种查询处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,对于查询的泛化主要通过关键词的替换来进行,比如“多久”和“多长时间”是同义词,“何时”和“什么时候”是同义词。对于查询关键词的同义替换工程可以通过人工筛选字典,也可以通过训练模型来实现机器筛选字典。然而,尽管使用关键词替换能够解决一部分查询的泛化,但是由于关键词替换可以解决的问题的是有限,造成现有查询的泛化还不够全面,由此造成了该查询对应的查询结果也不够全面。
考虑到上述问题,本发明提供了一种查询处理方法及装置,从候选库中获取相似的历史查询查询作为泛化结果,避免了只对关键词进行简单替换造成的泛化不够全面的问题,进而使查询结果更加全面。
图1为本申请实施例提供的一种查询处理方法的应用场景示意图。如图1所示,当终端设备101对用户输入的问题进行查询时,终端设备101向服务器102发送查询信息,服务器102对该查询信息进行泛化后,根据泛化结果,获取该查询信息对应的查询结果。随后,服务器102向终端设备101发送该查询结果。
其中,服务器12可以是一台服务器,或者若干台服务器的组成的服务器集群,或者是一个云服务平台。服务器102可以接收终端设备101发送的查询信息,并向终端设备101发送该查询信息对应的查询结果。
终端设备101,可以是但不限于计算机,数字广播终端,移动电话、消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等用户设备。
需要说明的是,本申请技术方案的应用场景可以是上述应用场景,但并不限于此。另一种可选的实施方式中,终端设备101接收到用户的查询信息后,可以不发送给服务器102,而由终端设备101对查询信息进行泛化并从终端设备101的存储器中获取该查询信息对应的查询结果。
可以理解,该查询处理方法可以通过本申请实施例提供的查询处理装置执行,查询处理装置可以是某个设备的部分或全部,例如可以是上述的服务器。
下面以集成或安装有相关执行代码的服务器为例,以具体地实施例对本申请实施例的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本申请实施例提供的一种查询处理方法的流程示意图。本实施例涉及的是服务器如何进行查询处理的具体过程。如图2所示,该方法包括:
S201、接收用户输入的查询信息。
在本步骤中,终端设备接收到用户输入的查询信息后,可以将该查询信息发送给该查询对应的应用服务器中,应用服务器接收到查询信息后,对查询信息进行泛化并获取该查询信息对应的查询结果。
其中,查询信息可以是问句,例如:“北京今天的天气如何?”,也可以是短语,例如“北京到上海的航班”,本申请实施例对于查询信息的形式不做限制。
S202、根据查询信息的类别和查询信息的关键词,从候选库中获取查询信息的相似查询信息,候选库保存有历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系。
在本步骤中,当服务器接收到用户输入的查询信息后,可以确定查询信息的类别和查询信息的关系词,再通过候选库对查询信息进行泛化,从候选库中获取与该查询语义相近的相似查询。
其中,上述相似查询信息,可以是与查询信息语义相近的查询信息。相似查询信息可以为一个,也可以为多个,本申请实施例对于查询信息对应的相似查询信息的数量不做限制,可以根据具体情况设置。相似查询信息的数量越多,获取相似查询信息的速度越慢。
上述候选库中保存有历史查询信息,该历史查询信息可以是发起本次查询的用户的历史查询信息,也可以是服务器收集到的所有用户的历史查询信息,本申请实施例对此不做限制。
示例性地,服务器可以收集特定用户一段时间内的历史查询信息,建立与该用户对应的候选库,并将历史查询信息保存在候选库中。当服务器接收到该用户新输入的查询信息后,可以从候选库中找到该查询的相似查询信息。
本申请实施例对于如何确定查询信息的关键词不做限制,一种可选的实施方式中,可以首先对查询信息进行切词,然后识别其中预设数量的重要性级别较高的词语作为关键词。词语重要性级别可以通过预设重要性级别序列确定,也可以使用词语识别工具来确定,例如:workrank工具。
一种可选的实施方式中,在确定查询信息的关键词后,还可以使用别名列表对查询信息的关键词进行扩容。
示例性的,若查询信息为“本周上映的电影有哪些?”,确定的关键词分别为“本周”、“上映”和“电影”,“上映”在别名列表里与“上线”相对应,则查询信息的关键词为“本周”、“上映”、“上线”和“电影”。
本申请实施例对于如何确定查询信息的类别不做限制,一种可选的实施方式中,可以使用预设的分类工具对查询信息进行分类。示例性的,使用answertype工具对查询信息进行分类。在分类过程中,若answertype工具识别出查询信息为非问答查询,则服务器可以删除该查询信息,并向终端发送重新输入指示。
另一种可选的实施方式中,可以根据查询信息的关键词所属的类别确定该查询信息的类别。示例性的,若查询信息为“本周上映的电影有哪些?”,该查询信息中的关键词包含“电源”,则服务器可以确定该查询信息为影视类查询。
上述历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系,可以用历史查询信息的索引来表示。在候选库中查找查询信息的相似查询信息时,在索引中找到对应的历史查询信息的类别和历史查询信息的关键词,并根据映射关系找到相似查询信息。其中,查询信息的类别和查询信息的关键词起到过滤作用,提高了相似查询信息的检索效率。
S203、若查询信息和相似查询信息之间的相似度大于相似度阈值,则将相似查询信息作为查询信息的泛化结果。
在本步骤中,在获取查询信息对应的相似查询信息后,还可以对两者间的相似度进行进一步确认,以确定查询信息和相似查询信息的语义相同。
本申请实施例对于如何确定查询信息和相似查询信息之间的相似度不做限制,一种可选的实施方式中,可以将查询信息和相似查询信息输入判别模型中,并接收判别模型输出的相似度。其中,判断别模型可以基于双向编码器模型(bidirectional encoderrepresentations from transformers,BERT)训练后建立。BERT模型在处理一个词语的时候,可以虑到该词语前面和后面的词语的信息,从而获取上下文的语义。
若查询信息和相似查询信息之间的相似度大于相似度阈值,可以认为查询信息和相似查询信息的语义相同,则可以将相似查询信息作为查询信息的泛化结果。
需要说明的是,本申请实施例对于相似度阈值的大小不做限制,可以根据实际情况进行确认。若相似度阈值设置的较高,则泛化速度较快,泛化结果较少;若相似度阈值设置的较低,则泛化速度较慢,泛化结果较多。
S204、根据相似查询信息,获取查询信息对应的查询结果。
S205、输出查询结果。
在步骤S204和步骤S205,服务器确定查询信息的相似查询信息后,根据查询信息和相似查询信息依次获取查询结果,并将查询结果发送给终端设备。终端设备在接收到服务器发送的查询结果后,显示该查询结果。
本申请实施例提供的查询处理方法,通过接收用户输入的查询信息,并根据查询信息的类别和查询信息的关键词,从候选库中获取查询信息的相似查询信息。其中,候选库保存有历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系。若查询信息和相似查询信息之间的相似度大于相似度阈值,则将相似查询信息作为查询信息的泛化结果,随后,根据相似查询信息,获取查询信息对应的查询结果并输出查询结果。通过上述方式,由于从候选库中获取相似的历史查询查询作为泛化结果,避免了只对关键词进行简单替换造成的泛化不够全面的问题,进而使查询结果更加全面。
下面对服务器建立候选库的过程进行详细说明。图3为本申请实施例提供的另一种查询处理方法的流程示意图。参照图3,在上述实施例的基础上,该方法包括:
S301、获取历史查询信息;
历史查询信息可以是发起本次查询的用户的历史查询信息,也可以是服务器收集到的所有用户的历史查询信息,本申请实施例对此不做限制。
S302、将历史查询信息保存在候选库中,并建立历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系。
在本步骤中,服务器获取到历史查询信息后,可以将历史查询信息保存在候选库中,同时建立历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系。
其中,建立历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系,具体可以为以历史查询信息的类别和历史查询信息的关键词,建立历史查询信息的索引。
历史查询信息的类别和历史查询信息的关键词的确定方式,和查询信息的类别和历史查询信息的关键词的确定方式相同,可以参照步骤S202。
示例性的,服务器可以使用可视化管理工具elasticsearch建立候选库。其中,候选库的query字段储存历史查询信息,分析类型设置为“ik_smart”,words字段储存历史查询信息的关键词,at字段用于储存历史查询信息的类别。words与at字段分析类型可以设置为为“not_analyzed”,从而保证query字段可以计算查询信息的相似度。
S303、接收用户输入的查询信息。
S304、根据查询信息的类别和查询信息的关键词,从候选库中获取查询信息的相似查询信息,候选库保存有历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系。
S305、若查询信息和相似查询信息之间的相似度大于相似度阈值,则将相似查询信息作为查询信息的泛化结果。
S306、根据相似查询信息,获取查询信息对应的查询结果。
S307、输出查询结果。
步骤S303-S307的技术名词、技术效果、技术特征,以及可选实施方式,可参照图2所示的步骤S201-S205理解,对于重复的内容,在此不再累述。
本申请实施例提供的查询处理方法,通过建立候选库,使查询信息进行泛化时可以从候选库中获取相似查询信息。通过上述方式,由于从候选库中获取相似的历史查询查询作为泛化结果,避免了只对关键词进行简单替换造成的泛化不够全面的问题,进而使查询结果更加全面。同时,由于候选库中确定的相似查询信息均是用户输入过的查询信息,因此,无需对相似查询信息进行再次处理,可以直接进行搜索。
在对查询信息进行泛化的过程中,不同的语言可能会产生不同的泛化结果。下面对查询信息进行泛化时转化为多种语言的过程进行详细说明。图4为本申请实施例提供的再一种查询处理方法的流程示意图。参照图4,在上述实施例的基础上,该方法包括:
S401、获取历史查询信息;
S402、将历史查询信息保存在候选库中,并建立历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系。
步骤S401-S402的技术名词、技术效果、技术特征,以及可选实施方式,可参照图3所示的步骤S301-S302理解,对于重复的内容,在此不再累述。
S403、将历史查询信息转化为同义历史查询信息,历史查询信息由第一语言描述,同义历史查询信息由第二语言描述。
第一语言和第二语言为不同的语言,第一语言和第二语言可以为中文、英文、法文、葡萄牙文等,本申请实施例对于第一语言和第二语言的类型不做限制。
将历史查询信息转化为同义历史查询信息,可以理解为,将历史查询信息翻译为另一种语言的过程。本申请实施例对于如何将历史查询信息转化为同义历史查询信息不做限制。
在一种可实施方式中,历史查询信息不仅仅可以翻译为一种语言的同义历史查询信息,还可以翻译为多种语言的同义历史查询信息,从而提高查询信息的泛化范围。
S404、将同义历史查询信息保存在候选库中,并将同义历史查询信息添加到历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系中。
在本步骤中,当服务器将历史查询信息转化为同义历史查询信息后,还可以将同义历史查询信息保存在候选库中。同时,通过将同义历史查询信息添加到历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系中,通过查询信息的类别和关键词不仅可以获取第一语言的历史查询信息,还可以第二语言的历史查询信息。
S405、接收用户输入的查询信息;
步骤S405的技术名词、技术效果、技术特征,以及可选实施方式,可参照图2所示的步骤S201理解,对于重复的内容,在此不再累述。
S406、将查询信息转化为同义查询信息,查询信息由第一语言描述,同义查询信息由第二语言描述。
在本步骤中,在确定相似查询信息的相似度前,由于相似查询信息可能由第一语言描述,也可能由第二语言描述。由于相似度需要在同种语言之间进行比较,因此需要将由第一语言描述的查询信息转化为由第而语言描述的同义查询信息。
S407、根据查询信息的类别和查询信息的关键词,从候选库中获取查询信息的相似查询信息,候选库保存有历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系;
其中,相似查询信息包括:第一相似查询信息和第二相似查询信息,第一相似查询信息由第一语言描述,第二相似查询信息由第二语言描述;
S408、确定查询信息和第一相似查询信息之间的第一相似度。
S409、确定同义查询信息和第二相似查询信息之间的第二相似度。
在本步骤中,将查询信息和相似查询信息根据语言分别输入对应的判别模型中,并获取对应的相似度。该判别模型和步骤S203中的判别模型相同,依照不同的语言进行训练。
S410、若第一相似度大于第一相似度阈值,或者,第二相似度大于第二相似度阈值,则确定第一相似查询信息和第二相似查询信息为查询信息的泛化结果。
示例性的,若两个判别模型分别获取的相似度为A和B,若A高于第一相似度阈值α,或者B高于第二相似度阈值β,则可以认为第一相似查询信息和第二相似查询信息为查询信息的泛化结果。
在一种可选的实施方式中,还可以设置第三相似度阈值和第四相似度阈值,若第一相似度大于第三相似度阈值,且第二相似度大于第四相似度阈值,也可以认为第一相似查询信息和第二相似查询信息为查询信息的泛化结果。
S411、根据相似查询信息,获取查询信息对应的查询结果;
S412、输出查询结果。
步骤S411-S412的技术名词、技术效果、技术特征,以及可选实施方式,可参照图2所示的步骤S204-S205理解,对于重复的内容,在此不再累述。
本申请实施例提供的查询处理方法,通过多种语言对查询信息进行泛化,使得查询信息对应的泛化结果更加全面,进而使得查询结果更加全面。
下面对服务器根据相似查询信息获取查询信息对应的查询结果的过程进行详细说明。图5为本申请实施例提供的又一种查询处理方法的流程示意图。参照图5,在上述实施例的基础上,该方法包括:
S501、接收用户输入的查询信息。
S502、根据查询信息的类别和查询信息的关键词,从候选库中获取查询信息的相似查询信息,候选库保存有历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系。
S503、若查询信息和相似查询信息之间的相似度大于相似度阈值,则将相似查询信息作为查询信息的泛化结果。
步骤S501-S503的技术名词、技术效果、技术特征,以及可选实施方式,可参照图2所示的步骤S201-S203理解,对于重复的内容,在此不再累述
S504、对相似查询信息进行规则泛化,生成泛化后的相似查询信息;
S505、根据泛化后的相似查询信息,获取查询信息的对应的查询结果。
在本步骤中,使用候选库对查询信息进行泛化后,可以获取的相似查询信息进行规则泛化,通过两组方式对查询信息进行两次泛化,可以使泛化结果更加全面,进而使查询结果更加全面。
示例性的,若相似查询信息为“北京到上海的航班有几班”,通过候选库获取的相似查询信息为“北京到上海的航班有哪些”,通过规则泛化可以进一步扩招出“有哪些航班是从北京到上海的?”。
S506、输出查询结果。
步骤S506的技术名词、技术效果、技术特征,以及可选实施方式,可参照图2所示的步骤S206理解,对于重复的内容,在此不再累述
本申请实施例提供的查询处理方法,通过多种语言对查询信息进行泛化,使得查询信息对应的泛化结果更加全面,进而使得查询结果更加全面。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图6为本申请实施例提供的一种查询处理装置的结构示意图。该查询处理装置可以通过软件、硬件或者两者的结合实现,可以为前述所说的服务器。
如图6所示,该查询处理装置包括:
接收模块601,用于接收用户输入的查询信息;
第一获取模块602,用于根据查询信息的类别和查询信息的关键词,从候选库中获取查询信息的相似查询信息,候选库保存有历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系;
比较模块603,用于若查询信息和相似查询信息之间的相似度大于相似度阈值,则将相似查询信息作为查询信息的泛化结果;
查询模块604,用于根据相似查询信息,获取查询信息对应的查询结果;
输出模块605,用于输出查询结果。
本发明提供的查询处理装置,可以执行上述方法实施例中服务器的动作,其实现原理和技术效果类似,在此不再赘述。
图7为本申请实施例提供的另一种查询处理装置的结构示意图。该查询处理装置可以通过软件、硬件或者两者的结合实现,可以为前述所说的服务器。
如图7所示,在图6的基础上,该查询处理装置还包括:
第二获取模块606,用于获取历史查询信息;
扩容模块607,用于通过预设的使用别名列表扩容历史查询信息的关键词。
创建模块608,用于将历史查询信息保存在候选库中,并建立历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系。
第一转化模块609,用于将历史查询信息转化为同义历史查询信息,历史查询信息由第一语言描述,同义历史查询信息由第二语言描述;
添加模块610,用于将同义历史查询信息保存在候选库中,并将同义历史查询信息添加到历史查询信息、历史查询信息的类别和历史查询信息的关键词之间的映射关系中。
第二转化模块611,用于将查询信息转化为同义查询信息,查询信息由第一语言描述,同义查询信息由第二语言描述。
其中,相似查询信息包括:第一相似查询信息和第二相似查询信息,第一相似查询信息由第一语言描述,第二相似查询信息由第二语言描述;
比较模块603,具体用于确定查询信息和第一相似查询信息之间的第一相似度;确定同义查询信息和第二相似查询信息之间的第二相似度;若第一相似度大于第一相似度阈值,或者,第二相似度大于第二相似度阈值,则确定第一相似查询信息和第二相似查询信息为查询信息的泛化结果。
查询模块604具体用于对相似查询信息进行规则泛化,生成泛化后的相似查询信息;根据泛化后的相似查询信息,获取查询信息的对应的查询结果。
查询模块604具体用于调整相似查询信息的语序;将相似查询信息中的关键词替换为关键词的同义词。
本发明提供的查询处理装置,可以执行上述方法实施例中服务器的动作,其实现原理和技术效果类似,在此不再赘述。
图8为本申请实施例提供的再一种查询处理装置的结构示意图。如图8所示,该障碍物检测装置可以包括:至少一个处理器701和存储器702。图7示出的是以一个处理器为例的电子设备。
存储器702,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器702可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器701用于执行存储器702存储的计算机执行指令,以实现查询处理方法。
其中,处理器701可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选的,在具体实现上,如果通信接口、存储器702和处理器701独立实现,则通信接口、存储器702和处理器701可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口、存储器702和处理器701集成在一块芯片上实现,则通信接口、存储器702和处理器701可以通过内部接口完成通信。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述实施例中的方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (18)

1.一种查询处理方法,其特征在于,包括:
接收用户输入的查询信息;
根据所述查询信息的类别和所述查询信息的关键词,从候选库中获取所述查询信息的相似查询信息,所述候选库保存有历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系;
若所述查询信息和所述相似查询信息之间的相似度大于相似度阈值,则将所述相似查询信息作为所述查询信息的泛化结果;
根据所述相似查询信息,获取所述查询信息对应的查询结果;
输出所述查询结果。
2.根据权利要求1所述的方法,其特征在于,在所述接收用户输入的查询信息之前,还包括:
获取所述历史查询信息;
将所述历史查询信息保存在所述候选库中,并建立所述历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系。
3.根据权利要求2所述的方法,其特征在于,在所述获取所述历史查询信息之后,还包括:
通过预设的使用别名列表扩容所述历史查询信息的关键词。
4.根据权利要求2所述的方法,其特征在于,在所述建立所述历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系之后,还包括:
将所述历史查询信息转化为同义历史查询信息,所述历史查询信息由第一语言描述,所述同义历史查询信息由第二语言描述;
将所述同义历史查询信息保存在所述候选库中,并将所述同义历史查询信息添加到所述历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系中。
5.根据权利要求4所述的方法,其特征在于,在所述将所述相似查询信息作为所述查询信息的泛化结果之前,还包括:
将所述查询信息转化为同义查询信息,所述查询信息由第一语言描述,所述同义查询信息由第二语言描述。
6.根据权利要求5所述的方法,其特征在于,所述相似查询信息包括:第一相似查询信息和第二相似查询信息,所述第一相似查询信息由第一语言描述,所述第二相似查询信息由第二语言描述;
所述若所述查询信息和所述相似查询信息之间的相似度大于相似度阈值,则将所述相似查询信息作为所述查询信息的泛化结果,包括:
确定所述查询信息和所述第一相似查询信息之间的第一相似度;
确定所述同义查询信息和所述第二相似查询信息之间的第二相似度;
若所述第一相似度大于第一相似度阈值,或者,所述第二相似度大于第二相似度阈值,则确定所述第一相似查询信息和所述第二相似查询信息为所述查询信息的泛化结果。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据所述相似查询信息,获取所述查询信息对应的查询结果,包括:
对所述相似查询信息进行规则泛化,生成泛化后的相似查询信息;
根据所述泛化后的相似查询信息,获取所述查询信息的对应的查询结果。
8.根据权利要求7所述的方法,其特征在于,所述对所述相似查询信息进行规则泛化,包括:
调整所述相似查询信息的语序;
将所述相似查询信息中的关键词替换为所述关键词的同义词。
9.一种查询处理装置,其特征在于,包括:
接收模块,用于接收用户输入的查询信息;
第一获取模块,用于根据所述查询信息的类别和所述查询信息的关键词,从候选库中获取所述查询信息的相似查询信息,所述候选库保存有历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系;
比较模块,用于若所述查询信息和所述相似查询信息之间的相似度大于相似度阈值,则将所述相似查询信息作为所述查询信息的泛化结果;
查询模块,用于根据所述相似查询信息,获取所述查询信息对应的查询结果;
输出模块,用于输出所述查询结果。
10.根据权利要求9所述的装置,其特征在于,还包括:
第二获取模块,用于获取所述历史查询信息;
创建模块,用于将所述历史查询信息保存在所述候选库中,并建立所述历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系。
11.根据权利要求10所述的装置,其特征在于,还包括:
扩容模块,用于通过预设的使用别名列表扩容所述历史查询信息的关键词。
12.根据权利要求10所述的装置,其特征在于,还包括:
第一转化模块,用于将所述历史查询信息转化为同义历史查询信息,所述历史查询信息由第一语言描述,所述同义历史查询信息由第二语言描述;
添加模块,用于将所述同义历史查询信息保存在所述候选库中,并将所述同义历史查询信息添加到所述历史查询信息、所述历史查询信息的类别和所述历史查询信息的关键词之间的映射关系中。
13.根据权利要求12所述的装置,其特征在于,还包括:
第二转化模块,用于将所述查询信息转化为同义查询信息,所述查询信息由第一语言描述,所述同义查询信息由第二语言描述。
14.根据权利要求13所述的装置,其特征在于,所述相似查询信息包括:第一相似查询信息和第二相似查询信息,所述第一相似查询信息由第一语言描述,所述第二相似查询信息由第二语言描述;
所述比较模块,具体用于确定所述查询信息和所述第一相似查询信息之间的第一相似度;确定所述同义查询信息和所述第二相似查询信息之间的第二相似度;若所述第一相似度大于第一相似度阈值,或者,所述第二相似度大于第二相似度阈值,则确定所述第一相似查询信息和所述第二相似查询信息为所述查询信息的泛化结果。
15.根据权利要求9-14任一项所述的装置,其特征在于,所述查询模块具体用于对所述相似查询信息进行规则泛化,生成泛化后的相似查询信息;根据所述泛化后的相似查询信息,获取所述查询信息的对应的查询结果。
16.根据权利要求15所述的装置,其特征在于,所述查询模块具体用于调整所述相似查询信息的语序;将所述相似查询信息中的关键词替换为所述关键词的同义词。
17.一种电子设备,其特征在于,包括:存储器与处理器;
所述存储器,用于存储所述处理器的可执行指令;
所述处理器配置为经由执行所述可执行指令来执行权利要求1-8任一所述的方法。
18.一种存储介质,其上存储有计算机程序,其特征在于,包括:该程序被处理器执行时实现权利要求1-8任一所述的方法。
CN201910715482.1A 2019-08-05 2019-08-05 查询处理方法及装置 Active CN110442696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910715482.1A CN110442696B (zh) 2019-08-05 2019-08-05 查询处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910715482.1A CN110442696B (zh) 2019-08-05 2019-08-05 查询处理方法及装置

Publications (2)

Publication Number Publication Date
CN110442696A true CN110442696A (zh) 2019-11-12
CN110442696B CN110442696B (zh) 2022-07-08

Family

ID=68433159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910715482.1A Active CN110442696B (zh) 2019-08-05 2019-08-05 查询处理方法及装置

Country Status (1)

Country Link
CN (1) CN110442696B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307758A (zh) * 2020-11-06 2021-02-02 上海明略人工智能(集团)有限公司 通过词根推荐关键词的方法、装置、电子设备和存储介质
CN113609261A (zh) * 2021-08-25 2021-11-05 北京华云安信息技术有限公司 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207881A (zh) * 2012-01-17 2013-07-17 阿里巴巴集团控股有限公司 查询方法和装置
CN103593410A (zh) * 2013-10-22 2014-02-19 上海交通大学 通过替换概念性词语进行搜索推荐系统
US20170124220A1 (en) * 2015-10-30 2017-05-04 Splunk Inc. Search interface with search query history based functionality
CN107256267A (zh) * 2017-06-19 2017-10-17 北京百度网讯科技有限公司 查询方法和装置
CN108304444A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 信息查询方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207881A (zh) * 2012-01-17 2013-07-17 阿里巴巴集团控股有限公司 查询方法和装置
CN103593410A (zh) * 2013-10-22 2014-02-19 上海交通大学 通过替换概念性词语进行搜索推荐系统
US20170124220A1 (en) * 2015-10-30 2017-05-04 Splunk Inc. Search interface with search query history based functionality
CN107256267A (zh) * 2017-06-19 2017-10-17 北京百度网讯科技有限公司 查询方法和装置
CN108304444A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 信息查询方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨清琳 等: ""基于领域本体知识库的语义查询扩展"", 《计算机工程与设计》 *
郭少友: "《上下文检索理论与实践》", 31 May 2009, 兵器工业出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307758A (zh) * 2020-11-06 2021-02-02 上海明略人工智能(集团)有限公司 通过词根推荐关键词的方法、装置、电子设备和存储介质
CN112307758B (zh) * 2020-11-06 2024-02-06 上海明略人工智能(集团)有限公司 通过词根推荐关键词的方法、装置、电子设备和存储介质
CN113609261A (zh) * 2021-08-25 2021-11-05 北京华云安信息技术有限公司 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置
CN113609261B (zh) * 2021-08-25 2023-10-31 北京华云安信息技术有限公司 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置

Also Published As

Publication number Publication date
CN110442696B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
JP7127106B2 (ja) 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN107688398B (zh) 确定候选输入的方法和装置及输入提示方法和装置
CN110647614A (zh) 智能问答方法、装置、介质及电子设备
CN111930940A (zh) 一种文本情感分类方法、装置、电子设备及存储介质
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN103760991A (zh) 一种实体输入方法和装置
CN110187780B (zh) 长文本预测方法、装置、设备和存储介质
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN111488740A (zh) 一种因果关系的判别方法、装置、电子设备及存储介质
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN110377745A (zh) 信息处理方法、信息检索方法、装置及服务器
CN112148701A (zh) 一种文件检索的方法及设备
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN111767393A (zh) 一种文本核心内容提取方法及装置
CN110442696A (zh) 查询处理方法及装置
EP4060517A1 (en) System and method for designing artificial intelligence (ai) based hierarchical multi-conversation system
CN110738056A (zh) 用于生成信息的方法和装置
CN108268443A (zh) 确定话题点转移以及获取回复文本的方法、装置
CN112069803A (zh) 文本备份方法、装置、设备及计算机可读存储介质
CN109918661A (zh) 同义词获取方法及装置
CN109299353A (zh) 一种网页信息搜索方法及装置
CN115827832A (zh) 与外部事件相关的对话系统内容
CN114881008A (zh) 一种文本生成方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant