CN109977294A

CN109977294A - 信息/查询处理装置、查询处理/文本查询方法、存储介质

Info

Publication number: CN109977294A
Application number: CN201910266176.4A
Authority: CN
Inventors: 王卓然; 亓超; 马宇驰
Original assignee: Triangle Animal (beijing) Technology Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2019-07-05
Anticipated expiration: 2039-04-03
Also published as: CN109977294B

Abstract

本发明提供信息/查询处理装置、查询处理/文本查询方法、存储介质，所述信息处理装置能够接收用户输入的用户查询文本，并利用查询处理装置生成针对用户查询文本的查询结果，所述查询处理装置包括索引结构生成部，其利用经过对种子查询进行扩展而得到的查询样例集合，来生成由基于查询样例集合的句子表示构建的索引结构。本发明的查询处理装置对开发者的建模质量依赖程度较低并能够以较高质量进行建模，还能够较快地且高质量地对用户输入的用户查询文本进行意图理解。

Description

信息/查询处理装置、查询处理/文本查询方法、存储介质

技术领域

本发明涉及查询处理技术，具体地涉及具有查询处理功能的信息处理装置、其查询处理装置、查询处理方法、文本查询方法以及非易失性存储介质。

背景技术

随着通信技术和计算机技术的普及和发展，越来越多的用户会利用搜索引擎来进行检索。搜索引擎能够基于自然语言理解平台，在一定程度上理解人类的自然语言,从自然语言中抽取出关键内容并用于检索,最终达到使搜索引擎所理解的文本与用户所要检索的查询文本与高度统一的效果。在这种情况下，合适自然语言理解平台对于能够准确理解用户查询文本是十分重要的。

现有技术中包括一种自然语言理解平台，如一种面向自然语言理解系统的基于众包(Crowdsourcing)机制的训练模式。该系统提供了一个合作交互式的平台，由众多开发者共同提供训练数据，来完成自然语言理解任务的训练。

然而，发明人在实现本发明的过程中，发现现有技术存在如下缺陷：现有技术的训练模式需要大量的开发者来贡献训练数据，因此也存在对开发者的依赖较重，而且难以保证训练数据的质量的问题。因不同领域的训练数据汇聚后往往与目标领域的数据分布不一致，导致训练出的模型效果通常难以满足用户在某个特定领域的要求。

发明内容

鉴于现有技术中的上述问题，为解决上述这些问题的全部或至少一者，提出了本发明，本发明的目的在于提供一种能够对开发者的建模质量依赖程度较低并具有较高建模质量的查询处理装置，以及能够较快地且高质量地对用户输入的用户查询文本进行意图理解的信息处理装置、查询处理方法、文本查询方法以及非易失性存储介质。

根据本发明的第一方面，提供一种信息处理装置的查询处理装置，所述信息处理装置能够接收用户输入的用户查询文本，并利用查询处理装置生成针对用户查询文本的查询结果，所述查询处理装置包括：索引结构生成部，其利用经过对种子查询进行扩展而得到的查询样例集合，来生成由基于查询样例集合的句子表示构建的索引结构。

优选地，在根据本发明第一方面的查询处理装置中，所述索引结构生成部包括：扩展单元，其根据种子查询扩展出与所述种子查询相对应的多个查询样例，并对所述多个查询样例进行扩展来获得查询样例集合；生成单元，其针对所述查询样例集合中的每个查询样例的文本生成对应的句子表示；以及建立单元，其基于由所述生成单元所生成的各个句子表示建立索引结构。

优选地，在根据本发明第一方面的查询处理装置中，所述查询处理装置还包括本体库构建部，其构建针对目标领域的本体库。

优选地，在根据本发明第一方面的查询处理装置中，所述扩展单元包括：种子查询生成子单元，其生成种子查询；查询样例扩展子单元，其对种子查询进行扩展以得到多个查询样例；以及查询样例集合子单元，其对所述多个查询样例进行扩展以获得查询样例集合。

优选地，在根据本发明第一方面的查询处理装置中，所述查询样例集合子单元通过对所述多个查询样例中的各个中所包括的属性分别代入多个属性值，来获得针对该查询样例的查询样例集合。

优选地，在根据本发明第一方面的查询处理装置中，与所述种子查询相关的查询意图与所述种子查询的查询文本被相关联地存储。

优选地，在根据本发明第一方面的查询处理装置中，所述扩展单元通过将所述种子查询中包括的属性的取值设置为本体库中的包括的对应属性取值，来扩展出与所述种子查询相对应的多个查询样例。

优选地，在根据本发明第一方面的查询处理装置中，所述生成单元通过机器学习模型来生成所述句子表示。

优选地，在根据本发明第一方面的查询处理装置中，所述生成单元包括：词向量表示训练子单元，其根据目标领域的本体库中包括的语料训练词向量表示；查询文本分词子单元，其对所述查询样例集合中的每个查询样例的查询文本进行分词；以及查询文本计算子单元，其对由所述查询文本分词子单元针对查询文本进行分词所获得的分词结果中的每个词的向量设定权重，并计算以向量表示的、该查询文本的句子表示。

根据本发明的第一方面的查询处理装置，由于利用经过对种子查询进行扩展而得到的查询样例集合来生成由基于查询样例集合的句子表示构建的索引结构，从而能够使开发者简单快捷地进行领域构建，并准确高效地进行查询样例的智能扩展，从而降低了对开发者建模质量的依赖性，并改善了建模的质量。

根据本发明的第二方面，提供一种用于查询的信息处理装置，所述信息处理装置包括：查询文本接收部，其接收用户输入的用户查询文本；第一意图获得部，其利用索引结构获得反映用户查询文本的意图的第一意图查询文本；查询结果输出部，其将第一意图获得部获得的第一意图查询文本，作为针对用户查询文本的意图查询文本输出；其中，第一意图获得部利用经过对种子查询进行扩展而得到的查询样例集合，来生成由基于查询样例集合的句子表示所构建的索引结构。

优选地，在根据本发明第二方面的信息处理装置中，所述第一意图获得部包括：第一检索单元，其利用索引结构在本体库中进行检索，以获得符合用户查询意图的第一意图查询文本的候选；以及第一选择单元，其从由所述检索单元所检索到的第一意图查询文本的候选中选择选择满足预定条件的第一查询文本候选作为第一意图查询文本。

优选地，在根据本发明第二方面的信息处理装置中，所述第一检索单元利用所述索引结构进行K-近邻查找，以获得第一意图查询文本的候选。

优选地，在根据本发明第二方面的信息处理装置中，所述信息处理装置还包括第二意图获得部，其使用与第一意图获得部所使用的方法不同的方法来获得第二意图查询文本。

优选地，在根据本发明第二方面的信息处理装置中，所述第二意图获得部包括：抽取单元，其抽取用户查询文本中包括的属性值；第二检索单元，其根据所抽取的属性值进行检索，以获得符合用户查询意图的第二意图查询文本的候选；评分单元，其根据预定规则对第二意图查询文本的候选进行评分；以及第二选择单元，其从第二意图查询文本的候选中选择得分满足预定条件的候选作为第二意图查询文本。

优选地，在根据本发明第二方面的信息处理装置中，所述第一意图查询文本和所述第二意图查询文本的数量为多个，该多个第一意图查询文本构成第一组，并且该多个第二意图查询文本构成第二组，所述信息处理装置还包括：加权部，其对第一组和第二组分别赋予不同的权重；计算部，对于同时出现在第一组和第二组中的意图查询文本，根据该意图查询文本所在的组以及该意图查询文本与用户查询文本之间的相似度，来计算同时出现在第一组和第二组中的该意图查询文本的得分；以及意图查询文本选择部，其根据由所述计算单元计算的得分，来从同时出现在第一组和第二组中的意图查询文本中选择满足预定条件的意图查询文本，作为与用户查询文本最接近的意图查询文本。

根据本发明第二方面的信息处理装置，能够较快地且高质量地对用户输入的用户查询文本进行意图理解。

根据本发明的第三方面，提供一种查询处理方法，其中，利用信息处理装置接收用户输入的用户查询文本，并利用查询处理装置生成针对用户查询文本的查询结果，所述查询处理方法包括：索引结构生成步骤，其利用经过对种子查询进行扩展而得到的查询样例集合，来生成由基于查询样例集合的句子表示构建的索引结构。

根据本发明第三方面的查询处理方法，能够使开发者简单快捷地进行领域构建，并准确高效地进行查询样例的智能扩展，从而降低了对开发者建模质量的依赖性，并改善了建模的质量。

根据本发明第四方面，提供一种文本查询方法，所述文本查询方法包括：查询文本接收步骤，接收用户输入的用户查询文本；第一意图获得步骤，利用索引结构获得反映用户查询文本的意图的第一意图查询文本；查询结果输出步骤，将第一意图获得步骤获得的第一意图查询文本，作为用户查询文本的查询结果输出，其中，所述第一意图获得步骤利用经过对种子查询进行扩展而得到的查询样例集合，来生成由基于查询样例集合的句子表示所构建的索引结构。

根据本发明第四方面的文本查询方法，能够较快地且高质量地对用户输入的用户查询文本进行意图理解。

根据本发明第五方面，提供一种存储计算机程序的非易失性存储介质，所述计算机程序在处理器执行时实现根据本发明第三发明或第四方面的方法。

附图说明

图1例示了根据本发明的信息处理装置的使用环境的示意图。

图2例示了根据本发明的信息处理装置的硬件结构示意图。

图3A例示了根据本发明第一实施例的查询处理方法中的索引结构生成处理的流程图。

图3B例示了根据本发明第一实施例的查询处理方法中的索引结构生成处理的流程图。

图4A例示了根据本发明第一实施例的扩展查询样例的流程图。

图4B例示了根据本发明第一实施例的生成句子表示的流程图。

图5例示了根据本发明第一实施例的索引结构生成部的模块结构图。

图6A例示了根据本发明第一实施例的查询处理装置的扩展单元的模块结构图。

图6B例示了根据本发明第一实施例的查询处理装置的生成单元的模块结构图。

图7A例示了根据本发明第一实施例的第一意图获得方法的流程图。

图7B例示了根据本发明第一实施例的获得第一意图查询文本的流程图。

图8A例示了根据本发明第一实施例的用于获得第一意图查询文本的信息处理装置的模块结构图。

图8B例示了根据本发明第一实施例的用于获得第一意图查询文本的信息处理装置的第一意图获得部的模块结构图。

图9例示了根据本发明第二实施例的意图获得方法的流程图。

图10例示了根据本发明第二实施例的第二意图获得方法的流程图。

图11例示了第二实施例的信息处理装置的模块结构图。

图12例示了根据本发明第二实施例的第二意图获得设备的模块结构图。

具体实施方式

在下文中将参照附图详细地描述本发明的实施例。应当指出，除非另外具体说明，在这些实施例中描述的部件、数字表示和数值的相对配置不限制本发明的范围。为简化起见，对相同的结构部分或者步骤，使用了相同的标记或标号，并且省略其说明。

[术语定义]

为便于理解本发明，对本文中使用的术语进行如下说明。

“目标领域”是针对用户意图的特定领域，例如电影领域、体育领域、经济领域、政治领域、教育领域等等。

“属性”是指针对目标领域的文本的类型。例如，在电影领域，属性包括电影名、演员名、电影类型等。“属性值”是指目标领域中的属性可以取的值。例如，“电影类型”这一属性可以取的属性值可以是“喜剧”、“爱情”、“恐怖”等，“演员名”这一属性可以取的属性值可以是“刘德华”、“梁朝伟”、“徐峥”等等。

“本体”是指目标领域内的概念及概念之间的关系的总和。例如，在电影领域，其本体包含电影领域中的所有属性及其属性取值。“本体库”是指包括目标领域内的属性以及属性取值的库。

“语料库”是指针对目标领域的文本集合。语料库中的语料可以来源于互联网，经过格式整理、去噪等提纯操作得到的纯文本，在该纯文本的数量达到一定规模之后构成语料库。

图1示出本发明的信息处理装置使用环境示意图。如图1所示，2个用作服务器的信息处理装置(1000、1100)以及2个用作用户终端设备的信息处理装置(2000、2100)经由网络105能够彼此相互通信。在本示例中，将用作服务器的信息处理装置和用作用户终端设备的信息处理装置分别示出为2个，显然以上数量仅为示例，其数量也分别可以为一个或者更多。

信息处理装置2000/2100是用户进行检索的用户终端设备，该用户终端设备可以提供根据本发明的查询处理功能的全部或部分。例如，作为用户终端设备的信息处理装置2000可以接收用户查询文本，并通过网络向与信息处理装置2000连接的能够实现根据本发明的查询处理功能的信息处理装置1000发送查询，并接收信息处理装置1000返回的查询结果。具体来说，信息处理装置可以是个人PC或者移动终端，用户通过该信息处理装置来启动搜索引擎，并利用搜索引擎来进行搜索。例如，用户通过在移动终端的搜索引擎中输入文本来进行搜索。

作为信息处理装置示例的移动终端可以是智能手机、PDA(个人数字助理)等，请注意，虽然在本文的实施例中例举了移动终端(包括但不限于智能手机、智能手表、智能手环、音乐播放设备)作为信息处理装置，但是显然不限于此，本发明的信息处理装置例如也可以是笔记本电脑、平板电脑、PDA(个人数字助理)、个人电脑或者是具有通信功能、输入输出功能(例如触控输入和显示功能、语音录入和播放功能等)和信息处理功能的家电设备(例如智能音箱、网络电视机、机器人等)等终端装置。

信息处理装置1000/1100是从用户接收用户输入的用户查询文本，并通过提供查询处理功能将针对用户查询文本的查询结果反馈给用户的服务器装置。该信息处理装置可以是服务器或个人计算机等装置。其中，根据本发明的查询处理功能可以由该用作服务器的信息处理装置实现，也可以由该用作服务器的信息处理装置和与该用作服务器的信息处理装置进行协作处理的其他装置(例如，与该用作服务器的信息处理装置1100连接的其他用作服务器的信息处理装置1000或用作用户终端设备的信息处理装置2000等)中的至少两者的组合来实现。

网络105可以是诸如因特网之类的公共网络、诸如实体、机构和/或组织等的内部网络、专用网络和/或公共网络等。网络105可以是任何类型的有线网络、无线网络以及二者的组合，包括但不限于远程网络(例如局域网(LAN)、广域网(WAN)、卫星网络、有线网络、移动通信网络(如2G、3G、4G、5G等)、近程网络(例如Wi-Fi网络、WiMax网络、蓝牙等)的至少一者的组合。网络105可利用通信协议，包括基于分组的和/或基于数据报的协议，如网际协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)或其他类型的协议。

[信息处理装置的硬件结构]

下面，参照图2描述根据本发明的信息处理装置1000/1100的硬件结构示意图。

请注意，以下以由信息处理装置实现根据本发明的查询处理装置的全部功能的情况作为示例来进行说明。显然，根据本发明的查询处理装置的功能既可以由用作服务器的信息处理装置1000/1100中的相应模块来实现，也可以由作为用户终端的信息处理装置2000/2100中的相应模块来实现，或者还可以由用作服务器的信息处理装置1000/1100和作为用户终端的信息处理装置2000/2100和中的对应模块的组合来实现。

在以下描述中，以服务器作为信息处理装置1000的示例。如图2所示，信息处理装置1000包括经由系统总线207彼此连接的输入接口201、CPU 202、ROM203、RAM 204、外部存储器205、通信单元206、输出接口208和显示器209。

输入接口201是用于接收用户所输入的数据以及执行指令的接口，并且可以包括用于经由诸如按键、按钮或触摸屏的操作单元(未示出)接收从用户输入的例如查询文本的信息、数据和操作指令等的接口，还可以包括用于接收用户经由诸如麦克风的声音输入单元而输入的例如语音查询、语音指令或音频数据的音频接口。

CPU 202是系统控制单元，并且总体上全面地控制信息处理装置1000/1100。CPU202基于ROM 203中存储的程序或外部存储器中存储的程序(或应用)执行进行自动回复处理。

ROM 203存储CPU 202执行的诸如数据表和控制程序以及操作系统(OS)程序等的固定数据。在本实施例中，ROM 203中存储的各个控制程序，例如，在ROM 203中存储的OS的管理下，进行诸如调度、任务切换和中断处理等的软件执行控制。

RAM 204(内部存储单元)例如由需要备用电源的SRAM(静态随机存取存储器)、DRAM等构造。在这种情况下，RAM 204可以以非易失性方式存储诸如程序控制变量等的重要数据。此外，用于存储信息处理装置1000/1100的设置信息、信息处理装置1000/1100的管理数据等的存储区域也配设在RAM 204中。此外，RAM 204用作CPU 202的工作存储器和主存储器。

外部存储器205存储应用程序和用户数据等，例如，外部存储器205可以存储本体库、语料库、索引结构数据、针对用户输入的查询文本进行自然语言理解处理的应用程序等。

输出接口207是用于对显示器208进行控制以显示或者播放信息或者/以及应用程序的显示画面和/或声音的接口。输出设备包括诸如LCD(液晶显示器)或OLED(有机电致发电显示器)的显示器208以及扬声音器(未示出)等。通过在显示器208上布置具有诸如数值输入键、模式设置键、决定键、取消键和电源键等的键的软键盘，也可以接收经由显示器208的来自用户的例如文本信息输入、操作指令等。

信息处理装置1000/1100经由通信单元206通过有线通信方法或者例如Wi-Fi(无线保真)或蓝牙等无线通信方法，连接到网络105以与外部装置(未示出)执行数据通信。

[第一实施例]

[根据本发明第一实施例的查询处理方法]

下面，参照图3A至图4B来说明根据本发明第一实施例的查询处理方法。

根据本发明的查询处理方法例如可以通过用作服务器的信息处理装置1000的CPU202读取并运行存储在ROM 203或外部存储器207上的控制程序、或者经由通信单元206或短距离无线通信单元209而经由网络105从用作服务器的其他信息处理装置(例如1100)下载的控制程序来实现。

首先，参照图3A来说明根据本发明的查询处理方法，该查询处理方法包括索引结构生成步骤S20，其利用经过对种子查询进行扩展而得到的查询样例集合，来生成由基于查询样例集合的句子表示构建的索引结构。

优选地，本发明第一实施例的查询处理方法还可以预先进行本体库构建处理。具体地说，本发明第一实施例的查询处理方法还可以包括步骤S10，其构建针对目标领域的本体库。具体地说，针对目标领域，获取目标领域的属性及属性取值，并以相关联的方式将属性及属性取值存储在本体库中。

以下以目标领域为电影领域为例，来详细说明本体库是如何构建的。目标领域并不限于电影领域，还可以是指定的其他领域，例如体育领域、新闻领域、教育领域等。

电影领域的本体包含电影领域中的所有属性及其属性取值，属性包括“影片名”、“演员名”、“导演名”、“编剧名”、“影片类型”、“影片语言”、“上映时间”、“上映地区”等。其中“影片名”的属性取值为语料库中所有的电影名，例如《无间道》、《嫌疑犯X的献身》、《午夜凶铃》等等，“影片类型”的属性取值为语料库中所有的影片类型值，例如警匪片、推理片和恐怖片等等。

以下将参照图3B来详细说明根据本发明的查询处理方法，该查询处理方法优选地包括构建步骤S310，其构建针对目标领域的本体库。本步骤中的处理与步骤S10中的相同，在此不再赘述。

在步骤S320中，生成种子查询，根据种子查询扩展出与所述种子查询相对应的多个查询样例，并对所述多个查询样例进行扩展来获得查询样例集合。

步骤S320可以按照以下图4A所示的步骤S3210-S3230来实现。

在步骤S3210中，生成种子查询。

其中，“种子查询”是指根据目标领域的领域知识生成的查询模板。领域知识是领域本体相关的知识，比如在电影领域，其领域知识包含电影领域中的各属性以及之间的关系，包括电影的名称、分类、导演名、演员名、年份等。查询模板是针对目标领域的提问，其呈现为查询文本的形式。种子查询(查询模板)的示例如下：“电影的简介”、“电影的剧情”、“电影的主要演员”、“电影的制作人”、“电影的上映时间”等。

在步骤S3220中，对种子查询进行扩展以得到多个查询样例。

对种子查询进行扩展可以通过自动或半自动的方式来实现。半自动方式是通过训练一个机器学习模型学习两个句子的语义相似度，而后利用人工筛选得到相似语句。当采用半自动的方式对种子查询进行扩展时，可以首先从网上爬取目标领域内的查询文本，然后通过上述机器学习模型找到与某个种子查询语义最相近的查询文本列表，最后将这些文本作为扩展的查询模板。为了保证准确，可以对机器学习模型找到的查询文本列表进行人工筛选，然后将筛选后的文本作为扩展的种子查询。

例如，种子查询“电影的简介”可以扩展出如下扩展的查询样例：“电影的故事简介”、“电影是讲什么的”、“电影演的什么”、“电影主要讲什么”等。

在步骤S3230中，对种子查询进行扩展以得到多个查询样例集合。其中，通过对所述多个查询样例中的各个中所包括的属性分别代入多个属性值，来获得针对该查询样例的查询样例集合。其中，与种子查询相关的查询意图，和与所述种子查询的查询文本被相关联地存储。

以下的表1示出了查询意图和所述种子查询的查询文本被相关联地存储的示例。

表1

对种子查询进行扩展以得到多个查询样例集合的操作，例如具体包括：根据上一步得到的多个查询样例，利用本体库中的各属性取值来扩展该多个查询样子，来获得查询样例集合。

例如，对于上述的某种子查询“电影的故事简介”，将其中的泛指词“电影”替换为本体中该属性可能出现的各种取值，完成扩展，扩展后的查询形式如“XXX的故事简介”，其中XXX为本体库中某部电影的名字，例如针对电影“无间道”，扩展后的查询为“无间道的故事简介”。

在上述步骤S3210至S3230中，首先生成种子查询，而后对种子查询进行扩展获得了查询样例，并进一步对查询样例中的各个属性取值来对查询样例进行扩展，从而得到多个查询样例集合。

具体来说，如果以“Movie_Name的故事简介”表示种子查询，则对种子查询扩展后获得诸如“Movie_Name是讲什么的”、“Movie_Name演的什么”、“Movie_Name主要讲什么”等查询样例。而后对“Movie_Name”代入电影名称的各个取值，获得诸如“无间道是讲什么的”、“无间道演的什么”、“无间道主要讲什么”等查询样例扩展结果。

当种子查询的个数为多个时，例如种子查询还包括：“Movie_Actor演过的影片”、“Movie_Time上映的影片”时，最终获得的查询样例集合包括：{无间道的故事简介、河东狮吼的故事简介、盗梦空间的故事简介…}、{无间道的主要演员、河东狮吼的主要演员、盗梦空间的主要演员…}{无间道的故事简介、无间道的主要演员、无间道的上映时间…}。

在步骤S330中，针对步骤S3230中生成的查询样例集合中的每个查询样例的文本生成对应的句子表示。

其中，句子表示是指将一个句子表示为一个若干维的实值向量，例如，指定向量维度为128维，那么一个句子的表示可能为(0.1323，-1.0128，0.9372，…，1.3795)，括号中共128个实数，每一个实数代表一个维度上的取值，句子表示向量之间的距离也表征了句子之间的语义相关性。

句子表示的具体实施方法可以利用机器学习模型来实现，包括但不限于CNN、RNN、word2vec加权等方法。本实施例中以word2vec加权方法为例。

步骤S330的生成对应的句子表示的方法可以按照图4B所示的步骤S3310至S3330来实现。

在步骤S3310中，根据所述目标领域的本体库中包括的语料训练词向量表示。

具体来说，利用目标领域的语料训练一个词向量表示(word embedding)。

词向量表示与句子表示相似，词向量也是指将一个词表示为一个若干维的实值向量。对指定领域的语料训练一个词向量表示，结果就是每一个词都有一个向量表示，形如例子中的128维实值向量，并且相似的、相关联的词对应的向量间的距离更小，从而表征了词与词之间的语义相关性。

在步骤S3320中，对所述查询样例集合中的每个查询样例的查询文本进行分词。

例如，查询文本是“无间道的故事简介”，对其进行分词，获得的分词结果为：无间道的故事简介。

在步骤S3330中，计算该查询文本的句子表示。具体来说，针对查询文本进行分词所获得的分词结果中的每个词的向量设定权重，并计算以向量表示的、该查询文本的句子表示。

例如，对句子中每个词对应的词向量进行求和平均(为句子中的每个词赋予相同的权重)，得到的向量即为该句子的向量表示，也即上述的句子表示。

在步骤S330中，生成了与步骤S320中所得到的查询样例结合中的每个查询文本相对应的句子表示，而后，处理将进行到步骤S340。

在步骤S340中，基于在步骤S330中生成的各个句子表示来建立索引结构。

建立的索引结构可以帮助实现快速检索，例如实现K-近邻查询。此处K-近邻查询是指给定查询文本及正整数K，从索引的数据集中找到距离查询文本最近的K个文本，当K＝1时，它就是最近邻查询。具体实施方式可以通过但不限于KD树、annoy、SW-graph、hnsw等方法实现，上述这些方法均可应用于多维空间关键数据的搜索。例如，KD树是一种空间划分树，它将整个空间划分为特定的几个部分，然后在特定空间的部分内进行相关搜索操作。在构建索引结构时，查询样例文本的句子表示与相应的查询意图相关联地存储。

[查询处理装置的模块结构图]

下面，参照图5、图6A和图6B来说明根据本发明第一实施例的查询处理装置，查询处理装置能够生成针对用户查询文本的查询结果，该查询处理装置包括索引结构生成部1010，其利用经过对种子查询进行扩展而得到的查询样例集合，来生成由基于查询样例集合的句子表示构建的索引结构。

如图5所示的索引结构生成部1010包括构建单元510、扩展单元520、生成单元530和建立单元540。

具体地说，构建单元510构建针对目标领域的本体库。扩展单元520根据种子查询扩展出与所述种子查询相对应的多个查询样例，并对所述多个查询样例进行扩展来获得查询样例集合。生成单元530针对所述查询样例集合中的每个查询样例的文本生成对应的句子表示。建立单元540基于由所述生成单元所生成的各个句子表示建立索引结构。

其中，如图6A所示，扩展单元510包括：种子查询生成子单元5201，其生成种子查询；查询样例扩展子单元5202，其对种子查询进行扩展以得到多个查询样例；以及查询样例集合子单元5203，其对所述多个查询样例进行扩展以获得查询样例集合。

其中，如图6B所示，生成单元530包括：词向量表示训练子单元5301，其根据所述目标领域的本体库中包括的语料训练词向量表示；查询文本分词子单元5302，其对所述查询样例集合中的每个查询样例的查询文本进行分词；以及查询文本计算子单元5303，其对由所述分词部针对查询文本进行分词所获得的分词结果中的每个词的向量设定权重，并计算以向量表示的、该查询文本的句子表示。

根据本发明的第一实施例的构建自然语言理解平台和对应的信息处理装置，能够简单快捷地进行领域构建，而且能够准确高效地进行查询样例的智能扩展，从而极大地提高了应用者的开发效率。

[根据本发明第一实施例的文本查询方法和信息处理装置]

以下参照图7A对根据本发明第一实施例的第一意图获得方法进行说明。

根据第一实施例的第一意图获得方法可以通过用作服务器和/或终端装置的信息处理装置1100的CPU 202读取并运行存储在ROM 203或外部存储器205上的控制程序、或者通过通信单元206而经由网络105从用作服务器的其他信息处理装置(例如1000)下载的控制程序来实现。

在本实施例中的获得用户意图的方法中，信息处理装置1100例如作为服务器，从用户接收该用户经由移动终端或者个人PC输入的用户查询文本，并根据第一意图获得方法和/或第二意图获得方法对用户查询文本进行处理，从而获得与该用户查询文本的意图接近的意图查询文本。

第一意图获得方法所包括的各个步骤具体将在下述内容中描述，并结合作为示例的用户查询文本“无间道这部电影怎么样”来对各个步骤进行具体说明。

首先，在步骤S710中，信息处理装置1100接收用户输入的用户查询文本。

例如，作为服务器的信息处理装置1000，经由接口201接收用户输入的用户查询文本“无间道这部电影怎么样”，或者经由网络105接收用户在诸如移动终端或者个人PC上的信息处理装置2000输入的用户查询文本“无间道这部电影怎么样”。

在步骤S720中，利用索引结构获得反映用户查询文本的意图的第一意图查询文本。在该步骤中，利用经过对种子查询进行扩展而得到的查询样例集合，来生成由基于查询样例集合的句子表示所构建的索引结构。其中步骤S720包括将在后续部分详细描述的步骤S7210至S7240。

最后，在步骤S730中，其将第一意图获得部获得的第一意图查询文本，作为针对用户查询文本的意图查询文本来输出。

以下参照图7B对步骤S720中如何获得第一意图查询文本进行详细说明。

在首先，步骤S7210中，对用户查询文本进行分词。

例如，首先对句子“无间道这部电影怎么样”进行分词，得到分词结果：“无间道、这部、电影、怎么样”。

然后，在步骤S7220中，根据对用户查询文本进行分词的分词结果，生成针对所述用户查询文本的句子表示。

具体来说，根据分词结果生成针对该用户查询文本的句子表示，生成句子表示的方法例如与本发明第一实施例中的步骤S3330中的对应处理相同，在此不再赘述。在得到分词结果后，对这四个词的词向量加和并除以4，得到该句子的表示。

然后，在步骤S7230中，利用索引结构在所述本体库中进行检索，以获得符合用户查询意图的第一意图查询文本的候选。该所述索引结构是通过针对包括在所述查询样例集合中的每个查询样例的文本生成对应的句子表示，并根据所生成的各个句子表示来建立的。该索引结构例如是利用本发明以上部分记载的包括步骤S310-S340的方法建立的索引结构。

例如，利用索引结构在本体库中进行诸如K-近邻检索的检索，得到top-K的多个查询候选结果(例如查询候选结果：“无间道电影评价”、“警察故事的电影评价”、“无间道的简介”)，针对每个查询候选结果给出相似度评分(例如：“无间道电影评价”：0.89，“警察故事的电影评价”:0.81，“无间道的简介”:0.76)，该相似度评分表示检索后获得的各个候选结果与用户查询文本“无间道这部电影怎么样”之间的相似度。

最后，在步骤S7240中，从由所述检索单元所检索到的第一查询文本候选中选择选择满足预定条件的第一查询文本候选作为第一意图查询文本。

例如，从获得的上述多个查询候选结果中，来选择相似度评分最高的“无间道电影评价”，作为符合用户查询文本“无间道这部电影怎么样”的意图的第一意图查询文本。

下面将结合图8A来说明用于获得第一意图查询文本的信息处理装置的模块结构图。

信息处理装置包括：查询文本接收部810，接收用户输入的用户查询文本；第一意图获得部820，其利用索引结构获得反映用户查询文本的意图的第一意图查询文本；以及查询结果输出部830，其将第一意图获得部获得的第一意图查询文本，作为针对用户查询文本的意图查询文本输出。其中，第一意图获得部利用经过对种子查询进行扩展而得到的查询样例集合，来生成由基于查询样例集合的句子表示所构建的索引结构。

下面将结合图8B来详细说明第一意图获得部820的模块结构。

第一意图获得部820包括：分词单元822、生成单元824、检索单元826和选择单元828。

其中，分词单元822，其对所述用户查询文本进行分词。

生成单元824根据对用户查询文本进行分词的分词结果，生成针对所述用户查询文本的句子表示。

检索单元826，其利用索引结构在本体库中进行检索，以获得符合用户查询意图的第一意图查询文本的候选。例如，检索单元利用索引结构进行K-近邻查找，以获得第一意图查询文本的候选。

选择单元828从第一意图查询文本的候选中选择选择满足预定条件的候选作为第一意图查询文本。

根据本发明第一实施例的意图获取方法，可以对用户提出的文本查询在短时间内进行意图理解并返回用户查询意图，准确率较高。

[第二实施例]

在本发明的第一实施例中，详细描述了通过利用索引检索来获得与用户查询文本相关的意图查询文本的方法。在本实施例中，将进一步描述与第一意图获得方法不同的第二意图获得方法，以及将第一意图获得方法和第二意图获得方法结合来获得意图查询文本的如下方法：通过使用第一意图获得方法和第二意图获得方法来分别获得第一意图查询文本和第二意图查询文本，并从第一意图查询文本中和第二意图查询文本中彼此相同的查询文本所构成的组中选择意图查询文本作为与用户查询意图最接近的意图查询文本。

下面将结合附图9至12来说明第二实施例的获得意图查询文本的方法。如附图9所示，该方法中的S910与第一实施例中的步骤S710相同。即首先从用户接收用户查询的输入。

具体来说，用户经由诸如移动终端或者个人PC的信息处理装置，输入用户查询文本。

然后，处理进行到步骤S920和步骤S930。步骤S920和S930可以同时进行，也可以先后进行，例如先进行步骤S920再进行步骤S930，或者先进性步骤S930再进行步骤S920。

其中，在步骤S920中，进行第一意图获取的处理以获得第一意图查询文本。该步骤与第一实施例中的对应处理(附图7A中的S720)相同，在此不再赘述。

而在步骤S930中，进行第二意图获得的处理以获得第二意图查询文本。

步骤S930通过附图10所示的步骤S9310-S9340来实现。以下，在具体说明部分，仍然以查询文本：“无间道这部电影怎么样”来说明对应的处理。

在步骤S9310中，其从所述用户查询文本抽取所述用户查询文本中包括的属性值。

举例来说，通过一个针对属性实体抽取任务训练得到的机器学习模型，可以将其中的电影名“无间道”抽取出来，并且标注为“电影名称”。

在步骤S9320中，其根据抽取出的属性值在语料库中进行检索，以获得符合用户查询意图的第二意图查询文本的候选。

举例来说，将该电影名“无间道”作为关键词在数据库中搜索，得到相关的查询文本，例如：“无间道电影评价”，“无间道剧情介绍”，“无间道的简介”等等，作为备选意图查询文本。

在步骤S930中，对所述备选意图查询文本进行评分。

具体来说，根据一定的预定规则，来对在步骤S9320中获得的第二意图查询文本的候选进行评分。评分标准例如可以包括语义相似度和文本相似度。具体来说，该预定规则例如可以是第二意图查询文本的候选中的各个与用户查询文本之间的语义相似度。具体来说，根据第二意图查询文本的各个候选与用户查询文本之间的语义相似度来计算“无间道这部电影怎么样”和“无间道的简介”的得分，该分值越高则备选意图查询文本与用户查询文本之间的相似度越高。此处，以采用与步骤S740中不同的预定规则来进行计算为例，“无间道电影评价”的得分为0.93，“无间道剧情介绍”的得分为0.79，“无间道的简介”的得分为0.82。

在步骤S940中，根据第二意图查询文本的候选的得分是否满足预定条件，从第二意图查询文本的候选中选择选择得分满足预定条件的候选作为第二意图查询文本。

该预定规则例如可以是表示备选意图查询文本与用户查询文本之间的相似度的得分是否高于预定值。

例如，判断“无间道电影评价”和“无间道的简介”的评分是否大约0.8，结果为是，则将“无间道电影评价”和“无间道的简介”作为与用户查询文本“无间道这部电影怎么样”相对应的第二意图查询文本。

在获得第一意图查询文本和第二意图查询文本之后，在步骤S940中，其对同时出现在由所述多个第一意图查询文本构成的第一组中和由所述多个第二意图查询文本构成的第二组中的相同意图查询文本，根据其所处于所述第一组还是所述第二组，来赋予不同的权重，并计算多个相同意图查询文本的得分。

具体来说，在步骤S920中获得的第一意图查询文本为“无间道电影评价”和“无间道的简介”，在步骤S930中获得的第二意图查询文本为“无间道电影评价”和“无间道的简介”。则同时出现了第一意图查询文本和第二意图查询文本中的结果为：“无间道电影评价”和“无间道的简介”。

此时，根据其所处于所述第一组还是所述第二组，来赋予不同的权重，并计算多个相同意图查询文本的得分。

在第一实施例中的第一意图查询文本的得分和第二实施例中的第二意图查询文本的得分如下表2所示。

表2：第一意图查询文本和第二意图查询文本得分情况

第一意图查询文本	得分	第二意图查询文本	得分
				无间道电影评价	0.89	无间道电影评价	0.93
警察故事的电影评价	0.76	无间道剧情介绍	0.79
				无间道的简介	0.81	无间道的简介	0.82

接下来，在本实施例中以第一组和第二组的权重相同(例如权重都是1)为例来说明如何获得最终的意图查询文本的结果。可选地，第一组和第二组的权重可以不同，也选择第一组的权重大于第二组的权重，或者第二组的权重大于第一组的权重来进行计算，以获得最终的意图查询文本。

第一意图查询文本的结果和得分分别为：

“无间道电影评价”得分为0.89：“无间道的简介”得分为0.81：

第二意图查询文本的结果和得分分别为：

“无间道电影评价”得分为0.93：“无间道的简介”得分为0.82：

经过上述权重计算，“无间道电影评价”的最终得分为(0.89+0.93)/2＝0.91，“无间道的简介”最终得分为(0.81+0.82)/2＝0.815，因此选择“无间道电影评价”作为与用户查询文本最接近的意图查询文本。

下面，结合附图11来说明本发明第二实施例的信息处理装置的模块结构图。

信息处理装置1100包括：查询文本接收部810、第一意图获得部820、第二意图获得部820’、加权部840、用户意图选择部850和查询结果输出部830。

其中，第一意图获得部810与第一实施例中的第一意图获得部相同，查询结果输出部830与第一实施例中的查询结果输出部830相同，在此不再赘述。

第二意图获得部820’用于使用与第一意图获得设备所使用的方法不同的意图获得方法，来获得第二意图查询文本。

加权部840，其对同时出现在由所述多个第一意图查询文本构成的第一组中和由所述多个第二意图查询文本构成的第二组中的相同意图查询文本，根据其所处于所述第一组还是所述第二组，来赋予不同的权重，并计算多个相同意图查询文本的得分。

用户意图选择部850，其根据由所述加权设备计算的得分，来从多个相同意图查询文本中选择意图查询文本，作为与用户查询文本最接近的意图查询文本。

其中，如附图12所示，第二意图获得设备820包括：抽取单元822’、检索单元824’、评分单元826’和选择单元828’。

抽取单元822’，其从所述用户查询文本抽取用户查询文本中包括的属性值。

检索单元824’，其根据抽取出的属性值在语料库中进行检索，以获得符合用户查询意图的第二意图查询文本的候选。

评分单元826’，其根据预定规则对第二意图查询文本的候选进行评分。

选择单元828’，其从第二意图查询文本的候选中选择得分满足预定条件的候选作为第二意图查询文本。

根据本发明的第二实施例，通过采用两种不同的意图获得方法来获得与意图查询文本，并对获得第一意图查询文本和第二意图查询文本通过加权计算的方式来进行选择，最终获得与用户查询文本最接近的意图查询文本，从而增加了对用户查询文本进行自然语言理解的准确度。

[其他实施例]

本发明的实施例还可以通过读出并执行记录在存储介质(例如，非暂时性计算机可读存储介质)上的用于执行本发明上述实施例的一个或多个的功能的计算机可执行指令的系统或装置的计算机来实现，以及通过由系统或装置的计算机通过例如从存储介质读出并执行用以执行上述实施例的一个或多个的功能的计算机可执行指令来执行的方法来实现。计算机可以包括中央处理单元(CPU)、微处理单元(MPU)、或其他电路的一个或多个，并且可以包括单独的计算机或单独的计算机处理器的网络。例如可以从网络或者存储介质向计算机提供计算机可执行指令。存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩盘(CD)、数字通用光盘(DVD)、或蓝光盘(BD)^TM)、闪存存储设备、存储卡等的一个或多个。

虽然参照示例性实施例对本发明进行了描述，但是应当理解，本发明不限于所公开的示例性实施例。所附权利要求的范围符合最宽泛的解释，以使其涵盖所有这种变型以及等同结构和功能。

本发明实施例还提供了：

A1.一种信息处理装置的查询处理装置，所述信息处理装置能够接收用户输入的用户查询文本，并利用查询处理装置生成针对用户查询文本的查询结果，所述查询处理装置包括：

索引结构生成部，其利用经过对种子查询进行扩展而得到的查询样例集合，来生成由基于查询样例集合的句子表示构建的索引结构。

A2.根据A1所述的查询处理装置，其中，所述索引结构生成部包括：

扩展单元，其根据种子查询扩展出与所述种子查询相对应的多个查询样例，并对所述多个查询样例进行扩展来获得查询样例集合；

生成单元，其针对所述查询样例集合中的每个查询样例的文本,生成对应的句子表示；以及

建立单元，其基于由所述生成单元所生成的各个句子表示,建立索引结构。

A3.根据A1所述的查询处理装置，其中，所述查询处理装置还包括本体库构建部，其构建针对目标领域的本体库。

A4.根据A2所述的查询处理装置，其中，所述扩展单元包括：

种子查询生成子单元，其生成种子查询；

查询样例扩展子单元，其对种子查询进行扩展以得到多个查询样例；以及

查询样例集合子单元，其对所述多个查询样例进行扩展以获得查询样例集合。

A5.根据A4所述的查询处理装置，其中，所述查询样例集合子单元通过对所述多个查询样例中的各个中所包括的属性分别代入多个属性值，来获得针对该查询样例的查询样例集合。

A6.根据A2所述的查询处理装置，其中，所述扩展单元通过将所述种子查询中包括的属性的取值设置为本体库中的包括的对应属性取值，来扩展出与所述种子查询相对应的多个查询样例。

A7.根据A2所述的查询处理装置，其中，所述生成单元通过机器学习模型来生成所述句子表示。

A8.根据A2所述的查询处理装置，其中，所述生成单元包括：

词向量表示训练子单元，其根据目标领域的本体库中包括的语料训练词向量表示；

查询文本分词子单元，其对所述查询样例集合中的每个查询样例的查询文本进行分词；以及

查询文本计算子单元，其对由所述查询文本分词子单元针对查询文本进行分词所获得的分词结果中的每个词的向量设定权重，并计算以向量表示的、该查询文本的句子表示。

B9.一种用于查询的信息处理装置，所述信息处理装置包括：

查询文本接收部，其接收用户输入的用户查询文本；

第一意图获得部，其利用索引结构获得反映用户查询文本的意图的第一意图查询文本；

查询结果输出部，其将第一意图获得部获得的第一意图查询文本，作为针对用户查询文本的意图查询文本输出；

其中，第一意图获得部利用经过对种子查询进行扩展而得到的查询样例集合，来生成由基于查询样例集合的句子表示所构建的索引结构。

B10.根据B9所述的信息处理装置，其中，所述第一意图获得部包括：

第一检索单元，其利用索引结构在本体库中进行检索，以获得符合用户查询意图的第一意图查询文本的候选；以及

第一选择单元，其从由所述检索单元所检索到的第一意图查询文本的候选中选择选择满足预定条件的候选作为第一意图查询文本。

B11.根据B10所述的信息处理装置，其中，所述第一检索单元利用所述索引结构进行K-近邻查找，以获得第一意图查询文本的候选。

B12.根据B9所述的信息处理装置，其中，所述信息处理装置还包括第二意图获得部，其使用与第一意图获得部所使用的方法不同的方法来获得第二意图查询文本。

B13.根据B12所述的信息处理装置，所述第二意图获得部包括：

抽取单元，其抽取用户查询文本中包括的属性值；

第二检索单元，其根据所抽取的属性值进行检索，以获得符合用户查询意图的第二意图查询文本的候选；

评分单元，其根据预定规则对第二意图查询文本的候选进行评分；以及

第二选择单元，其从第二意图查询文本的候选中选择得分满足预定条件的候选作为第二意图查询文本。

B14.根据B12所述的信息处理装置，其中，所述第一意图查询文本和所述第二意图查询文本的数量为多个，该多个第一意图查询文本构成第一组，并且该多个第二意图查询文本构成第二组，所述信息处理装置还包括：

加权部，其针对第一组和第二组分别赋予不同的权重；

计算部，对于同时出现在第一组和第二组中的意图查询文本，根据该意图查询文本所在的组以及该意图查询文本与用户查询文本之间的相似度，来计算同时出现在第一组和第二组中的该意图查询文本的得分；以及

意图查询文本选择部，其根据由所述计算单元计算的得分，来从同时出现在第一组和第二组中的意图查询文本中选择满足预定条件的意图查询文本，作为与用户查询文本最接近的意图查询文本。

C15.一种查询处理方法，其中，利用信息处理装置接收用户输入的用户查询文本，并利用查询处理装置生成针对用户查询文本的查询结果，所述查询处理方法包括：

索引结构生成步骤，其利用经过对种子查询进行扩展而得到的查询样例集合，来生成由基于查询样例集合的句子表示构建的索引结构。

D16.一种文本查询方法，所述文本查询方法包括：

查询文本接收步骤，接收用户输入的用户查询文本；

第一意图获得步骤，利用索引结构获得反映用户查询文本的意图的第一意图查询文本；

查询结果输出步骤，将第一意图获得步骤获得的第一意图查询文本，作为用户查询文本的查询结果输出，

其中，所述第一意图获得步骤利用经过对种子查询进行扩展而得到的查询样例集合，来生成由基于查询样例集合的句子表示所构建的索引结构。

E17.一种存储计算机程序的非易失性存储介质，所述计算机程序在被处理器执行时实现根据C15的查询处理方法。

F18.一种存储计算机程序的非易失性存储介质，所述计算机程序在被处理器执行时实现根据D16的文本查询方法。

Claims

1.一种信息处理装置的查询处理装置，所述信息处理装置能够接收用户输入的用户查询文本，并利用查询处理装置生成针对用户查询文本的查询结果，所述查询处理装置包括：

2.根据权利要求1所述的查询处理装置，其中，所述索引结构生成部包括：

3.根据权利要求1所述的查询处理装置，其中，所述查询处理装置还包括本体库构建部，其构建针对目标领域的本体库。

4.一种用于查询的信息处理装置，所述信息处理装置包括：

查询文本接收部，其接收用户输入的用户查询文本；

5.根据权利要求4所述的信息处理装置，其中，所述第一意图获得部包括：

6.根据权利要求5所述的信息处理装置，其中，所述第一检索单元利用所述索引结构进行K-近邻查找，以获得第一意图查询文本的候选。

7.一种查询处理方法，其中，利用信息处理装置接收用户输入的用户查询文本，并利用查询处理装置生成针对用户查询文本的查询结果，所述查询处理方法包括：

8.一种文本查询方法，所述文本查询方法包括：

查询文本接收步骤，接收用户输入的用户查询文本；

9.一种存储计算机程序的非易失性存储介质，所述计算机程序在被处理器执行时实现根据权利要求7的查询处理方法。

10.一种存储计算机程序的非易失性存储介质，所述计算机程序在被处理器执行时实现根据权利要求8的文本查询方法。