CN108345612B

CN108345612B - 一种问题处理方法和装置、一种用于问题处理的装置

Info

Publication number: CN108345612B
Application number: CN201710056809.XA
Authority: CN
Inventors: 邸楠
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-01-25
Filing date: 2017-01-25
Publication date: 2023-10-27
Anticipated expiration: 2037-01-25
Also published as: CN108345612A

Abstract

本发明实施例提供了一种问题处理方法和装置、一种用于问题处理的装置，其中的方法具体包括：接收当前自然语言问题；确定所述当前自然语言问题对应的完整性概率；在所述当前自然语言问题的完整性概率超过概率阈值时，依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图；依据所述问题意图，得到所述当前自然语言问题对应的答案；输出所述当前自然语言问题对应的答案。本发明实施例能够提高答案反馈效率，以及降低答案的反馈延迟，且能够提高问题意图及答案的准确度。

Description

一种问题处理方法和装置、一种用于问题处理的装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种问题处理方法和装置、一种用于问题处理的装置。

背景技术

目前，问题回答(QA，Question Answering)为人工智能领域的经典问题，其被广泛应用于人机交互、人机竞赛等场景中。假设用户向智能系统提交的某自然语言问题为“被誉为CD之父的是哪位”，则计算机系统将针对该自然语言问题尝试返回用自然语言表达的正确答案，例如“大贺典雄”等，正如一个人所做的那样。针对计算机系统处理自然语言问题的要求，已经广泛开发了自然语言处理(NLP，Natural Language Processing)技术，以利用非结构化的数据解决大多数的QA问题。

在实际应用中，用户在向智能系统提交的语音或者文本形式的问题内容的过程中，通常按照顺序进行该问题内容的提交；故现有的问题处理方案通常在接收完整的问题内容后，再对完整的问题内容进行处理，以得到相应的答案，并输出该答案。然而，现有的问题处理方案容易导致答案的反馈延迟较长。而在人机交互的场景下，答案的反馈延迟较长，将影响用户的使用体验。或者，在例如人机竞赛的场景下，较长的反馈延迟将直接决定竞赛结果，因此将影响人工智能技术的发展。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的问题处理方法、问题处理装置及用于问题处理的装置，本发明实施例能够提高答案反馈效率，以及降低答案的反馈延迟，且能够提高问题意图及答案的准确度。

为了解决上述问题，本发明公开了一种问题处理方法，包括：

接收当前自然语言问题；

确定所述当前自然语言问题对应的完整性概率；

在所述当前自然语言问题的完整性概率超过概率阈值时，依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图；

依据所述问题意图，得到所述当前自然语言问题对应的答案；

输出所述当前自然语言问题对应的答案。

另一方面，本发明公开了一种问题处理装置，包括：

问题接收模块，用于接收当前自然语言问题；

概率确定模块，用于确定所述当前自然语言问题对应的完整性概率；

意图推导模块，用于在所述当前自然语言问题的完整性概率超过概率阈值时，依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图；

答案获取模块，用于依据所述问题意图，得到所述当前自然语言问题对应的答案；以及

答案输出模块，用于输出所述当前自然语言问题对应的答案。

可选地，所述概率确定模块包括：

特征提取子模块，用于提取所述当前自然语言问题对应的特征；所述特征包括：所述当前自然语言问题对应的问题长度、是否包括疑问词、是否包括词法答案类型LAT词、以及结束字符对应的信息中的至少一种；以及

概率确定子模块，用于依据所述当前自然语言问题对应的特征，确定所述当前自然语言问题对应的完整性概率。

可选地，所述概率确定子模块包括：

模型确定单元，用于将所述当前自然语言问题对应的特征输入至完整性判断模型，得到所述完整性判断模型输出的完整性概率；其中，所述完整性判断模型依据完整问题样本和不完整问题样本训练得到。

可选地，所述当前自然语言问题的结束字符对应的信息包括如下信息中的至少一种：所述当前自然语言问题的结束字符对应的词性、所述当前自然语言问题的结束字符的出现频率、所述当前自然语言问题的结束字符与上下文字符的共现频率、以及所述当前自然语言问题的结束字符对应的依存边信息。

可选地，所述意图推导模块包括：

识别子模块，用于从所述当前自然语言问题中识别出当前LAT指向性词；

查找子模块，用于依据所述当前LAT指向性词，在预先建立的LAT指向性词与LAT词之间的映射关系中进行查找，以得到所述当前LAT指向性词对应的目标LAT词；以及

第一意图确定子模块，用于依据所述目标LAT词，得到所述当前自然语言问题对应的问题意图。

可选地，所述意图推导模块包括：

句法分析子模块，用于对所述当前自然语言问题进行依存句法分析，以得到对应的依存句法分析结果；

核心语义单元提取子模块，用于从所述依存句法分析结果中提取核心语义单元；以及

第二意图确定子模块，用于依据所述核心语义单元，得到所述当前自然语言问题对应的问题意图。

可选地，所述依存句法分析结果为依存树；

则，所述核心语义单元提取子模块包括：

第一提取单元，用于若所述依存树中的疑问词后紧邻的词汇为名词或者名词短语，则提取所述名词或者名词短语作为所述核心语义单元；和/或，

第二提取单元，用于若所述依存树中的疑问词处于所述当前自然语言问题的末尾，则提取距离所述疑问词最近的名词或者名词短语，作为所述核心语义单元；和/或，

第三提取单元，用于若所述依存树中的疑问词后紧邻的词汇为动词，则提取所述当前自然语言问题中最后出现的名词或者名词短语，作为所述核心语义单元。

可选地，所述答案获取模块包括：

搜索子模块，用于依据所述当前自然语言问题进行搜索，以得到所述问题对应的搜索结果；

实体词识别子模块，用于识别所述搜索结果中的多个实体词，将各实体词作为候选答案；以及

答案选择子模块，用于依据排序特征，从所述多个候选答案中选择一个，作为所述当前自然语言问题对应的答案；其中，所述排序特征包括：所述实体词与所述问题意图之间的匹配度。

可选地，所述排序特征还包括：实体词的出现频率、和/或实体词对应百科词条的内容与当前自然语言问题之间的匹配度。

再一方面，本发明公开了一种用于问题处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收当前自然语言问题；

确定所述当前自然语言问题对应的完整性概率；

输出所述当前自然语言问题对应的答案。

本发明实施例包括以下优点：

本发明实施例可以在接收完整的自然语言问题之前对所接收的当前自然语言问题进行处理，这样，本发明实施例能够在接收完整的自然语言问题之前，提前按照推导得到的问题意图获得该当前自然语言问题对应的答案，因此能够提高答案反馈效率，以及降低答案的反馈延迟。

并且，本发明实施例在所述当前自然语言问题的完整性概率超过概率阈值的情况下，通过推导得到当前自然语言问题对应的问题意图，由于可以通过上述概率阈值对当前自然语言问题对应的问题意图的推导时机进行控制，故可以通过上述概率阈值控制推导得到的问题意图的准确度，因此能够提高问题意图及答案的准确度。

附图说明

图1是本发明的一种问题处理方法的应用环境的示意图；

图2是本发明的一种问题处理方法实施例的步骤流程图；

图3是本发明的一种问题处理装置实施例的结构框图；

图4是本发明的一种用于问题处理的装置900作为终端时的框图；及

图5是本发明的一种用于问题处理的装置作为服务器时的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

针对现有方案中存在的答案的反馈延迟较长的技术问题，本发明实施例提供了一种问题处理方案，该方案在接收当前自然语言问题后，可以确定所述当前自然语言问题对应的完整性概率，并在所述当前自然语言问题的完整性概率超过概率阈值时，依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图，接着依据该问题意图，得到该当前自然语言问题对应的答案，进而输出该当前自然语言问题对应的答案。

由于本发明实施例可以在接收完整的自然语言问题之前对所接收的当前自然语言问题进行处理，这样，本发明实施例能够在接收完整的自然语言问题之前，提前按照推导得到的问题意图获得该当前自然语言问题对应的答案，因此能够提高答案反馈效率，以及降低答案的反馈延迟。

本发明实施例可以应用于人机交互、人机竞赛、抢答等QA场景中，以降低答案的反馈延迟，提高QA场景下的答案反馈效率和准确度。其中，在人机交互的场景下，可以大大提高人机交互效率，提升用户体验；在人机竞赛场景下，可以提升机器和人类选手胜出的比例，进而能够推动人工智能技术的发展。可以理解，本发明实施例可以应用于任意的QA场景，本发明实施例对于具体的应用场景不加以限制。

本发明实施例可以应用于问题处理APP、问题处理网站等具有问题处理功能的平台环境中。本发明实施例提供的问题处理方法可应用于图1所示的应用环境中，如图1所示，客户端100与服务器200位于有线或无线网络中，通过该有线或无线网络，客户端100与服务器200进行数据交互。

本发明实施例的问题处理流程可由客户端100和服务器200中的任一或者组合执行：

例如，客户端100可以接收当前自然语言问题；可选地，客户端100可以接收当前自然语言问题，并向服务器200发送该当前自然语言问题；服务器200在接收客户端100发送的当前自然语言问题后，可以判断该当前自然语言问题是否完整，在该当前自然语言问题不完整时，依据该当前自然语言问题推导得到该当前自然语言问题对应的问题意图，依据该问题意图，得到该当前自然语言问题对应的答案，并向客户端100输出该当前自然语言问题对应的答案，以使该客户端100通过智能终端输出该当前自然语言问题对应的答案。

由于该当前自然语言问题是否完整的判断、该当前自然语言问题对应的问题意图和答案的获取过程由服务器200执行，故能够发挥服务器200计算资源丰富的优势，提高该当前自然语言问题是否完整的判断效率和判断准确率，以及提高该当前自然语言问题对应的问题意图和答案的获取效率和获取准确率。例如，云服务器可以部署有众多高配置的计算设备，故利用这些计算设备进行该当前自然语言问题对应的问题意图和答案的获取，可以提高该当前自然语言问题对应的问题意图和答案的获取效率和获取准确率；同时能够节省客户端100侧的运算资源，提高客户端100所对应智能终端的性能。

当然，该当前自然语言问题是否完整的判断、该当前自然语言问题对应的问题意图和答案的获取过程也可由客户端100执行，本发明实施例对于该当前自然语言问题是否完整的判断、该当前自然语言问题对应的问题意图和答案的获取过程的具体执行主体不加以限制。

可选地，客户端100可以运行在智能终端上，上述智能终端可以为任意的具备当前自然语言问题接收功能和答案输出功能的终端，可选地，上述智能终端具体包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，MovingPicture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

方法实施例

参照图2，示出了本发明的一种问题处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201、接收当前自然语言问题；

步骤202、确定所述当前自然语言问题对应的完整性概率；

步骤203、在所述当前自然语言问题的完整性概率超过概率阈值时，依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图；

步骤204、依据所述问题意图，得到所述当前自然语言问题对应的答案；

步骤205、输出所述当前自然语言问题对应的答案。

本发明实施例中，自然语言问题可用于表示采用自然语言描述的问题，自然语言问题可用于表示当前接收的自然语言问题。该自然语言是人类交流和思维的主要工具，自然语言通常是指一种自然地随文化演化的语言。英语、汉语、日语为自然语言的例子，而世界语则为人造语言，即是一种由人蓄意为某些特定目的而创造的语言，可以理解，本发明实施例对于具体的自然语言不加以限制。

步骤201可以通过客户端接收用户发出的当前自然语言问题，或者，步骤201可以通过服务器接收客户端发送的当前自然语言问题。例如，在人机交互场景下，客户端可以采集智能终端的用户发出的当前自然语言问题，或者，在人机竞赛或者抢答的场景下，客户端可以采集主持人发出的当前自然语言问题。

在实际应用中，当前自然语言问题可以为文本形式、或者语音形式、或者图片形式等。其中，在接收到语音形式的当前自然语言问题后，本发明实施例可以首先通过语音识别将其转换为文本形式的当前自然语言问题；或者，在接收到图片形式的当前自然语言问题后，本发明实施例可以首先通过光学字符识别(OCR，Optical Character Recognition)识别将其转换为文本形式的当前自然语言问题。因此，本发明实施例中后续的步骤202、步骤203和步骤204可以视作对于文本形式的当前自然语言问题的处理。

可选地，可以采用语音识别技术将语音形式的当前自然语言问题转换为文本形式的当前自然语言问题。如果将当前自然语言问题的语音信号记作S，对S进行一系列处理后得到与之相对应的语音特征序列O，记作O＝{O₁，O₂，…，O_i，…，O_T}，其中O_i是第i个语音特征，T为语音特征总个数。语音信号S对应的句子可看作是由许多词组成的一个词串，记作W＝{w₁，w₂，…，w_n}。语音识别的过程就是根据已知的语音特征序列O，求出最可能的词串W。

具体来说，语音识别是一个模型匹配的过程，在这个过程中，可以首先根据人的语音特点建立语音模型，通过对输入的语音信号的分析，抽取所需的特征，来建立语音识别所需的模板；对用户所输入语音进行识别的过程即是将用户所输入语音的特征与所述模板比较的过程，最后确定与所述用户所输入语音匹配的最佳模板，从而获得语音识别的结果。具体的语音识别算法，可采用基于统计的隐含马尔可夫模型的训练和识别算法，也可采用基于神经网络的训练和识别算法、基于动态时间归整匹配的识别算法等等其他算法，本发明实施例对于具体的语音识别过程不加以限制。

在步骤201接收当前自然语言问题后，步骤202可以确定步骤201接收的当前自然语言问题对应的完整性概率。其中，步骤202的处理对象可以为步骤201接收的当前自然语言问题；可选地，若步骤201接收到当前自然语言问题、或者步骤201接收的当前自然语言问题发生变化，则可以触发步骤202的执行。

可选地，步骤201接收的当前自然语言问题可以为完整的自然语言问题所包含的全部或部分连续字符串。在本发明的一种应用示例中，假设完整的自然语言问题为“被誉为CD之父的是哪位”，则步骤201在不同时刻接收的当前自然语言问题可以包括：“被”、“被誉为”、“被誉为CD”、“被誉为CD之父”、“被誉为CD之父的”、“被誉为CD之父的是”、“被誉为CD之父的是哪位”等。在本发明的另一种应用示例中，假设完整的自然语言问题为“世界著名建筑泰姬陵位于哪个国家”，则步骤201在不同时刻接收的当前自然语言问题可以包括：“世界”、“世界著名”、“世界著名建筑”、“世界著名建筑泰姬陵”、“世界著名建筑泰姬陵位于”、“世界著名建筑泰姬陵位于哪个”、“世界著名建筑泰姬陵位于哪个国家”等。可以理解，步骤201在不同时刻接收的当前自然语言问题可以受到用户输入自然问题的停顿、间隔等因素的影响，本发明实施例对于步骤201在不同时刻接收的当前自然语言问题不加以限制。

本发明实施例中，完整性概率可用于表示当前自然语言问题为完整问题状态的可能性，也即，该完整性概率为对当前自然语言问题为完整问题状态的可能性的度量。

在本发明的一种可选实施例中，所述确定所述当前自然语言问题对应的完整性概率的步骤202，可以包括：

步骤S1、提取所述当前自然语言问题对应的特征；所述特征可以包括：所述当前自然语言问题对应的问题长度、是否包括疑问词、是否包括LAT(词法答案类型，LexicalAnswer Type)词、以及结束字符对应的信息等中的至少一种；

步骤S2、依据所述当前自然语言问题对应的特征，确定所述当前自然语言问题对应的完整性概率。

其中，所述问题长度，可用于表示自然语言问题的长度。在QA场景下，完整的自然问题的问题长度通常具有一定的规律，故可以依据该规律将问题长度应用于当前自然语言问题对应的完整性概率的确定。例如，完整的自然问题的问题长度通常大于长度阈值，则在当前自然语言问题的问题长度未超过该长度阈值时，可以认为当前自然语言问题对应的完整性概率小于1。其中，本领域技术人员可以根据实际应用需求确定该长度阈值，例如，该长度阈值可以为大于等于10的值，可以理解，本领域技术人员对于该长度阈值不加以限制。

所述是否包括疑问词，可用于表示自然语言问题中是否包含疑问词。在QA场景下，完整的自然问题通常包含疑问词。尤其地，在人机竞赛或者抢答的场景下，完整的自然问题包含的疑问词通常与实体相关。其中，该实体指示物理物体或物理物体属性，则可以预置与实体相关的预置疑问词，判断当前自然语言问题是否包含该预置疑问词，并依据相应的第一判断结果确定当前自然语言问题对应的完整性概率，例如，若第一判断结果为当前自然语言问题不包含该预置疑问词，则可以认为当前自然语言问题对应的完整性概率小于1。可选地，该物理物体可以包括：人物、事物、地理位置等，如与人物相关的预置疑问词可以包括：“谁”、“哪位”等，与事物相关的预置疑问词可以包括：“几条”、“哪篇”、“多少”、“几时”、“哪一年”等，与地理位置相关的预置疑问词可以包括“哪里”等，可以理解，本发明实施例对于具体的预置疑问词不加以限制。

所述LAT词，可用于表示问题中指明答案类型的文本。可选地，可以收集大量的自然语言问题，并对收集的自然语言问题进行分析统计，以建立LAT库，该LAT库可用于存储LAT词。例如，该LAT库中存储的LAT词可以包括：皇帝、岛屿、山峰、事件、国、花、河等。可以理解，本发明实施例对于具体的LAT词不加以限制。具体到本发明实施例，所述是否包括LAT词，可用于表示自然语言问题中是否包括指明答案类型的文本；具体的，可以判断当前自然语言问题是否包含LAT词，并依据相应的第二判断结果确定当前自然语言问题对应的完整性概率。例如，若第二判断结果为当前自然语言问题不包含LAT词，则可以认为当前自然语言问题对应的完整性概率小于1。

所述结束字符，可用于表示当前自然语言问题所对应字符串中的末尾字符。可选地，可以对当前自然语言问题进行分词，以得到问题的结束字符。在有些情况下，结束字符不完整可能引起当前自然语言问题的不完整，以完整的自然语言问题“中国历史上第一位皇帝是谁”为例，假设当前自然语言问题为“中国历史上第一位皇”，该当前自然语言问题的结束字符“皇”的不完整性可能引起当前自然语言问题的不完整。

在本发明的一种可选实施例中，上述当前自然问题的结束字符对应的信息可以包括如下信息中的至少一种：当前自然问题的结束字符对应的词性、当前自然问题的结束字符的出现频率、当前自然问题的结束字符与上下文字符的共现频率、以及当前自然问题的结束字符对应的依存边信息。其中，所述当前自然问题的结束字符与上下文字符的共现频率可以是指所述当前自然问题的结束字符与上下文字符的共同出现的频率。

在实际应用中，可以对当前自然语言问题进行分词和词性标注，以得到当前自然问题的结束字符、当前自然问题的结束字符对应的词性。进一步，还可以对所述当前自然语言问题进行依存句法分析，以得到对应的依存句法分析结果；可选地，该依存句法分析结果可以包括：依存树，该依存树中的每个节点可以对应于当前自然语言问题中的一个单词，该依存树中的每条有向边也即依存边，用于表示一对单词之间的依存关系，可选地，该依存边表征的依存关系可以包括：“主谓关系”、“动宾关系”、“定中关系”、“定名关系”等。

本发明实施例中，可以利用当前自然语言问题的结束字符对应的词性、当前自然问题的结束字符的出现频率、当前自然问题的结束字符与上下文字符的共现频率、以及当前自然问题的结束字符对应的依存边信息中的至少一种，判断上述当前自然问题的结束字符是否标识当前自然语言问题的结束，若判断结果为否，则可以认为当前自然语言问题对应的完整性概率小于1。

可选地，可以预先获取完整的自然语言问题的结束字符对应的预置词性。例如，上述预置词性可以包括疑问代词(如“谁”、“哪位”、“哪里”)、名词(如“世界著名建筑泰姬陵位于哪个国家”中的“国家”)、助词(如“举重比赛的级别是按什么划分的”中的“的”)等，则可以基于当前自然语言问题的结束字符对应的词性与上述预置词性之间的匹配，确定当前自然语言问题对应的完整性概率。

可选地，可以统计当前自然语言问题的结束字符在完整的自然语言问题集合中的第一出现频率，将该第一出现频率与第一频率阈值进行比较，并根据比较结果确定当前自然语言问题对应的完整性概率。

可选地，可以统计当前自然语言问题的结束字符与上下文字符在完整的自然语言问题集合中的第二共现频率；将该第二共现频率与第二频率阈值进行比较，并根据比较结果确定当前自然语言问题对应的完整性概率。其中，在QA场景下，上下文字符可以包括：上文字符，这样，问题的结束字符与上文字符的第二共现频率可用于表示问题的结束字符与上文字符对应搭配的常用程度。

可选地，可以获取当前自然语言问题的结束字符对应的依存边信息，该依存边可用于表示当前自然语言问题中结束字符与其他单词之间的依存关系；该依存边信息可以包括：依存边的类型等。在实际应用中，可以预先获取完整的自然语言问题的结束字符对应的预置依存边类型。例如，上述预置依存边类型可以包括:“动宾关系”(如“是谁”、“是哪位”、“是哪里”)、“定名关系”(如“世界著名建筑泰姬陵位于哪个国家”中的“哪个国家”)、“谓助关系”(如“举重比赛的级别是按什么划分的”中的“划分的”)等，则可以基于当前自然语言问题的结束字符对应的依存边的类型与上述预置依存边类型的匹配，确定当前自然语言问题对应的完整性概率。

在本发明的一种可选实施例中，上述依据所述当前自然语言问题对应的特征，确定所述当前自然语言问题对应的完整性概率的步骤S2，可以包括：将所述当前自然语言问题对应的特征输入至完整性判断模型，并得到所述完整性判断模型输出的完整性概率；其中，所述完整性判断模型为依据完整问题样本和不完整问题样本训练得到。

在实际应用中，可以建立样本数据库，该样本数据库中可以包括：完整问题样本和不完整问题样本，其中，上述不完整问题样本可以包括：不完整但可以获知正确答案的问题样本、不完整且无法获知正确答案的问题样本；这样，可以针对上述样本数据库中的各样本，提取相应的特征，上述特征可以包括：样本对应的问题长度、是否包括疑问词、是否包括LAT词、以及结束字符对应的信息；这样，可以依据各样本的特征和各样本的完整性概率(其中，完整问题样本的完整性概率为1，不完整问题样本的完整性概率小于1，不完整问题样本的完整性概率可通过人工标注得到)，训练得到上述完整性判断模型，以使上述完整性判断模型具备完整性概率的确定能力。其中，可以利用机器学习方法进行上述完整性判断模型的训练，可选地，上述机器学习方法可以包括：LR(逻辑回归，Logistic Regression)、SVM(支持向量机，Support Vector Machine)等。

由于机器学习能够通过机器模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，故作为机器学习模型，上述完整性判断模型能够基于机器学习得到当前自然语言问题对应的完整性概率，能够提高当前自然语言问题对应的完整性概率的准确度。

可以理解，上述通过完整性判断模型确定当前自然语言问题对应的完整性概率的方式只是作为可选实施例，实际上，还可以利用预置规则确定当前自然语言问题对应的完整性概率，例如，上述预置规则可以包括：前述的基于当前自然语言问题的结束字符对应的词性与上述预置词性的匹配，确定当前自然语言问题对应的完整性概率、将该第一出现频率与第一频率阈值进行比较，并根据比较结果确定当前自然语言问题对应的完整性概率、将该第二共现频率与第二频率阈值进行比较，并根据比较结果确定当前自然语言问题对应的完整性概率、以及基于当前自然语言问题的结束字符对应的依存边的类型与上述预置依存边类型的匹配，确定当前自然语言问题对应的完整性概率中的至少一种。其中，在采用多种预置规则时，可以对多种预置规则得到的完整性概率进行融合(如平均处理等)，以得到最终的完整性概率。

步骤203可以在步骤202得到的当前自然语言问题的完整性概率超过概率阈值时，依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图。由于本发明实施例可以通过上述概率阈值对问题意图的推导时机进行控制，也即，在当前自然语言问题的完整性概率超过概率阈值时，当前自然语言问题包括的内容较多以至于可以实现问题意图的推导，故可以通过上述概率阈值控制推导得到的问题意图的准确度，因此能够提高问题意图及答案的准确度。

在实际应用中，本领域技术人员可以根据实际应用需求，确定上述概率阈值，通常，上述概率阈值越大，则推导得到的问题意图的准确度越高；上述概率阈值越小，则推导得到的问题意图的准确度越低，可以理解，本发明实施例对于具体的概率阈值不加以限制。

在本发明的一种可选实施例中，上述依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图的步骤203，可以包括：

在所述当前自然语言问题的完整性概率超过概率阈值时，从所述当前自然语言问题中识别出当前LAT指向性词；

依据所述当前LAT指向性词，在预先建立的LAT指向性词与LAT词之间的映射关系中进行查找，以得到所述当前LAT指向性词对应的目标LAT词；

依据所述目标LAT词，得到所述当前自然语言问题对应的问题意图。

本可选实施例可以首先识别出当前自然语言问题中包含的当前LAT指向性词，然后依据LAT指向性词与LAT词之间的映射关系，得到当前LAT指向性词对应的目标LAT词；其中，LAT指向性词可用于表示对问题意图有指向性的词语，LAT词可用于表征问题意图，这样，LAT指向性词与LAT词之间的映射关系可以描述LAT指向性词到LAT词对应问题意图的指向关系。本可选实施例依据LAT指向性词与LAT词之间的映射关系，得到当前LAT指向性词对应的目标LAT词；由于通过当前LAT指向性词推导得到目标LAT词，故即使当前自然语言问题中不包含目标LAT词，仍能够通过推导得到当前自然语言问题对应的问题意图。

可选地，可以对完整的自然语言问题进行分析，依据相应的分析结果从中挖掘出LAT指向性词，并将挖掘得到的LAT指向性词保存至LAT指向性词库；以及，建立LAT指向性词与LAT词之间的映射关系。参照表1，示出了本发明的一种LAT指向性词与LAT词之间的映射关系的示意。可以理解，表1所示的LAT词只是作为示例，实际上，例如“人物”的LAT词还可以被细分为“皇帝”、“科学家”、“诗人”、“物理学家”等，可以理解，本发明实施例的LAT词可以为任意的实体类型、和/或任意实体类型对应的实体词，本发明实施例对于具体的LAT指向性词与LAT词之间的映射关系不加以限制。

表1

在实际应用中，上述从所述当前自然语言问题中识别出当前LAT指向性词的过程可以包括：将所述当前自然语言问题包含的各词汇与该LAT指向性词库中的各LAT指向性词进行匹配，若匹配成功，则将所述当前自然语言问题包含的匹配成功的词汇作为当前LAT指向性词。可以理解，本发明实施例对于从所述当前自然语言问题中识别出当前LAT指向性词的具体过程不加以限制。

在本发明的一种应用示例1中，假设完整的自然语言问题为“被誉为CD之父的是哪位”，则在当前自然语言问题为“被誉为”时，假设“被誉为”存在于该LAT指向性词库中，则可以通过查找表1得到“被誉为”对应的目标LAT词“人物和/或事物”；并且，在当前自然语言问题为“被誉为CD之父”时，假设“之父”存在于该LAT指向性词库中，则可以通过查找表1得到“之父”对应的目标LAT词“人物”，最终可以确定“被誉为CD之父”对应的问题意图为“人物”。同理，假设完整的自然语言问题为“被誉为物理学圣剑的武器全称是什么”，则在当前自然语言问题为“被誉为物理学圣剑”时，可以确定其对应的问题意图为“武器”。

在本发明的一种应用示例2中，假设完整的自然语言问题为“世界著名建筑泰姬陵位于哪个国家”，则在当前自然语言问题为“世界著名建筑泰姬陵位于”时，假设“位于”存在于该LAT指向性词库中，则可以通过查找表1得到“位于”对应的目标LAT词“地理位置”。

在本发明的一种应用示例3中，假设完整的自然语言问题为“质能方程的提出者是谁”，则在当前自然语言问题为“质能方程的提出”时，假设“提出”存在于该LAT指向性词库中，则可以通过查找表1得到“提出”对应的目标LAT词“人物”。

由于上述目标LAT词可以作为当前自然语言问题的核心词或者焦点词，其可以反映当前自然语言问题的答案类型，故可以直接将该目标LAT词作为当前自然语言问题对应的问题意图，或者，可以对该目标LAT词进行进一步处理(如多个目标LAT词的融合处理等)，以得到当前自然语言问题对应的问题意图。

可以理解，上述依据LAT指向性词与LAT词之间的映射关系，得到当前LAT指向性词对应的目标LAT词及问题意图的方式只是可选实施例，本领域技术人员可以根据实际应用需求采用其他问题意图的推导方式。例如，在本发明的另一种可选实施例中，上述在所述当前自然语言问题的完整性概率超过概率阈值时，依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图的步骤203，可以包括：

在所述当前自然语言问题的完整性概率超过概率阈值时，对所述当前自然语言问题进行依存句法分析，以得到对应的依存句法分析结果；

从所述依存句法分析结果中提取核心语义单元；

依据所述核心语义单元，得到所述当前自然语言问题对应的问题意图。

本可选实施例可以从当前自然语言问题对应的依存句法分析结果中提取核心语义单元，并依据所述核心语义单元，得到所述当前自然语言问题对应的问题意图；其中，用于表征问题意图的上述核心语义单元可以包括：核心词、核心单词等。

在实际应用中，依存句法分析结果可以包括：依存树，该依存树可用于表征当前自然语言问题包括的各单词之间的依存关系，对该依存树进行分析，并根据分析结果从该依存树中提取核心语义单元。

在实际应用中，可以按照预置的提取规则，对该依存树进行分析，并根据分析结果从该依存树中提取核心语义单元。可选地，所述从所述依存句法分析结果中提取核心语义单元，可以包括：若所述依存树中的疑问词后紧邻的词汇为名词或者名词短语，则提取所述名词或者名词短语作为所述核心语义单元。

若依存树中疑问词后紧跟着名词或者名词短语，那么该名词或者名词短语可能是用于表征问题意图的上述核心语义单元；例如，完整的自然语言问题“哪位科学家曾帮助犹太科学家逃出德国”可以对应“哪位科学家”、“哪位科学家曾帮助犹太科学家”等当前自然语言问题中，该当前自然语言问题中疑问词“哪位”后紧跟着名词“科学家”，故可以将“科学家”作为核心语义单元。

可选地，所述从所述依存句法分析结果中提取核心语义单元，可以包括：若所述依存树中的疑问词处于所述当前自然语言问题的末尾，则提取距离所述疑问词最近的名词或者名词短语，作为所述核心语义单元。

若疑问词处于当前自然语言问题的末尾，那么距离该疑问词最近的名词或者名词短语可以为表征问题意图的核心语义单元。例如，假设完整的自然语言问题为“被誉为CD之父的是哪位”，其对应的当前自然语言问题包括：“被誉为CD之父的是哪”，该当前自然语言问题中距离疑问词“哪”最近的名词短语为“CD之父”，则该可以将“CD之父”作为核心语义单元。

可选地，所述从所述依存句法分析结果中提取核心语义单元，可以包括：若所述依存树中的疑问词后紧邻的词汇为动词，则提取所述当前自然语言问题中最后出现的名词或者名词短语，作为所述核心语义单元。

若疑问词后面跟着动词，那么当前自然语言问题中最后出现的名词或者名词短语可以为表征问题意图的核心语义单元。例如，假设完整的自然语言问题为“中国戏曲中的人物按角色分为生、旦、净、末、丑，哪一个是女角色的统称”，该自然语言问题中疑问词“哪一个”跟着动词“是”，故可以将最后出现的名词短语“女角色的统称”作为核心语义单元。

可以理解，上述预置的提取规则只是作为可选实施例，本发明实施例对于具体的提取规则不加以限制。由于上述核心语义单元可以作为当前自然语言问题的核心词或者焦点词，其可以反映当前自然语言问题的答案类型，故可以直接将该核心语义单元作为当前自然语言问题对应的问题意图，或者，可以对该核心语义单元进行进一步处理(如多个核心语义单元的融合处理等)，以得到当前自然语言问题对应的问题意图。

步骤204可以依据步骤203得到的问题意图，得到所述当前自然语言问题对应的答案。

在本发明的一种可选实施例中，上述依据所述问题意图，得到所述当前自然语言问题对应的答案的步骤204，可以包括：

步骤T1、依据所述当前自然语言问题进行搜索，以得到所述问题对应的搜索结果；

步骤T2、识别所述搜索结果中的多个实体词，将各实体词作为候选答案；

步骤T3、依据排序特征，从所述多个候选答案中选择一个，作为所述当前自然语言问题对应的答案；其中，所述排序特征包括：所述实体词与所述问题意图之间的匹配度。

在实际应用中，步骤T1的搜索结果可以源自网页数据库、互联网网页等数据源，其中，网页数据库可以为通用的网页数据库，也可以为上述问题意图对应网页类别的网页数据库。可选地，步骤T1可以将当前自然语言问题作为搜索词，在网页数据库中进行搜索，以得到对应的搜索结果。当然，上述网页数据库只是作为可选实施例，实际上，本领域技术人员还可以根据实际应用需求采用其他数据库，例如，当上述问题意图涉及“地理位置”时，本发明实施例的数据库还可以包括：地图数据库等，本发明实施例对于搜索结果的具体数据源不加以限制。

可选地，为了降低运算量，可以从搜素结果中选取排在前N位的搜索结果，以从中识别候选答案，其中，N为正整数，例如，N可以为10。由于在人机竞赛或者抢答的场景下，问题意图和答案类型通常与实体相关，故步骤T2可以从搜索结果中识别得到多个实体词，作为候选答案。

步骤T3可以依据排序特征，从多个候选答案中选择最佳的一个候选答案；其中，所述排序特征可以包括：所述实体词与所述问题意图之间的匹配度。通常，该实体词与该问题意图之间的匹配度越高，则候选答案的排序位置或者得分越靠前。例如，该问题意图为“人物”，则若实体词1所属的类别为“皇帝”，则实体词1与“人物”之间的匹配度较高，而若实体词2所属的类别为“国家”，则实体词2与“人物”之间的匹配度较低。

在本发明的一种可选实施例中，上述排序特征还可以包括：实体词的出现频率、和/或实体词对应百科词条的内容与当前自然语言问题之间的匹配度等等，其中，上述实体词的出现频率可以为上述实体词在预置文档集合中的出现频率，该预置文档集合可以为自然语言问题对应的答案集合等等，本发明实施例对于具体的预置文档集合不加以限制。

在采用一种或多种排序特征时，可以依据一种或多种排序特征计算各候选答案的得分，则步骤T3可按照得分从高到低的顺序对多种候选答案进行排序，并选择排在最前面的或者得分最高的一个候选答案，作为当前自然语言问题对应的答案。

需要说明的是，本发明实施例中，可以基于预置语料的统计，得到本发明实施例的出现频率和/或共现频率。例如，可以统计所述当前自然语言问题的结束字符在预置语料中的第一出现次数，并依据该第一出现次数得到所述当前自然语言问题的结束字符在预置语料中的出现概率。又如，可以统计实体词在预置语料中的第二出现次数，并依据该第二出现次数得到实体词的出现频率。再如，可以统计当前自然语言问题的结束字符与上下文字符在预置语料中共同出现的次数，并依据该共同出现的次数得到相应的共现概率等。其中，上述预置语料可以为网页文本语料、实体-属性对语料、互联网博客语料、互联网微博语料等。可以理解，本发明实施例对于具体的预置语料及出现频率和/或共现频率的具体获取方式不加以限制。

步骤205可以输出步骤204得到的当前自然语言问题对应的答案，例如，服务器可以向客户端输出当前自然语言问题对应的答案，或者，客户端可以通过智能终端输出当前自然语言问题对应的答案，可选地，客户端可以通过语音或者界面的形式进行当前自然语言问题对应的答案的输出。

综上，本发明实施例的问题处理方法，可以在接收完整的自然语言问题之前对所接收的当前自然语言问题进行处理，这样，本发明实施例能够在接收完整的自然语言问题之前，提前按照推导得到的问题意图获得该当前自然语言问题对应的答案，因此能够提高答案反馈效率，以及降低答案的反馈延迟。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图3，示出了本发明的一种问题处理装置实施例的结构框图，具体可以包括：问题接收模块301、概率确定模块302、意图推导模块303、答案获取模块304和答案输出模块305；

其中，上述问题接收模块301，用于接收当前自然语言问题；

上述概率确定模块302，用于确定所述当前自然语言问题对应的完整性概率；

上述意图推导模块303，用于在所述当前自然语言问题的完整性概率超过概率阈值时，依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图；

上述答案获取模块304，用于依据所述问题意图，得到所述当前自然语言问题对应的答案；以及

上述答案输出模块305，用于输出所述当前自然语言问题对应的答案。

可选地，所述概率确定模块302可以包括：

特征提取子模块，用于提取所述当前自然语言问题对应的特征；所述特征可以包括：所述当前自然语言问题对应的问题长度、是否可以包括疑问词、是否可以包括词法答案类型LAT词、以及结束字符对应的信息中的至少一种；以及

可选地，所述概率确定子模块可以包括：

可选地，所述当前自然语言问题的结束字符对应的信息可以包括如下信息中的至少一种：所述当前自然语言问题的结束字符对应的词性、所述当前自然语言问题的结束字符的出现频率、所述当前自然语言问题的结束字符与上下文字符的共现频率、以及所述当前自然语言问题的结束字符对应的依存边信息。

可选地，所述意图推导模块303可以包括：

可选地，所述依存句法分析结果为依存树；

则，所述核心语义单元提取子模块可以包括：

可选地，所述答案获取模块304可以包括：

答案选择子模块，用于依据排序特征，从所述多个候选答案中选择一个，作为所述当前自然语言问题对应的答案；其中，所述排序特征可以包括：所述实体词与所述问题意图之间的匹配度。

可选地，所述排序特征还可以包括：实体词的出现频率、和/或实体词对应百科词条的内容与当前自然语言问题之间的匹配度。

综上，本发明实施例的问题处理装置，可以在接收完整的自然语言问题之前对所接收的当前自然语言问题进行处理，这样，本发明实施例能够在接收完整的自然语言问题之前，提前按照推导得到的问题意图获得该当前自然语言问题对应的答案，因此能够提高答案反馈效率，以及降低答案的反馈延迟。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种用于问题处理的装置900作为终端时的框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是根据一示例性实施例示出的一种用于问题处理的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端或服务器的处理器执行时，使得终端或者服务器能够执行一种问题处理方法，所述方法包括：接收当前自然语言问题；确定所述当前自然语言问题对应的完整性概率；在所述当前自然语言问题的完整性概率超过概率阈值时，依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图；依据所述问题意图，得到所述当前自然语言问题对应的答案；输出所述当前自然语言问题对应的答案。

可选地，所述确定所述当前自然语言问题对应的完整性概率，包括：

提取所述当前自然语言问题对应的特征；所述特征包括：所述当前自然语言问题对应的问题长度、是否包括疑问词、是否包括词法答案类型LAT词、以及结束字符对应的信息中的至少一种；

依据所述当前自然语言问题对应的特征，确定所述当前自然语言问题对应的完整性概率。

可选地，所述依据所述当前自然语言问题对应的特征，确定所述当前自然语言问题对应的完整性概率，包括：将所述当前自然语言问题对应的特征输入至完整性判断模型，得到所述完整性判断模型输出的完整性概率；其中，所述完整性判断模型依据完整问题样本和不完整问题样本训练得到。

可选地，所述依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图，包括：从所述当前自然语言问题中识别出当前LAT指向性词；依据所述当前LAT指向性词，在预先建立的LAT指向性词与LAT词之间的映射关系中进行查找，以得到所述当前LAT指向性词对应的目标LAT词；依据所述目标LAT词，得到所述当前自然语言问题对应的问题意图。

可选地，所述依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图，包括：对所述当前自然语言问题进行依存句法分析，以得到对应的依存句法分析结果；从所述依存句法分析结果中提取核心语义单元；依据所述核心语义单元，得到所述当前自然语言问题对应的问题意图。

可选地，所述依存句法分析结果为依存树；

则，所述从所述依存句法分析结果中提取核心语义单元，包括：

若所述依存树中的疑问词后紧邻的词汇为名词或者名词短语，则提取所述名词或者名词短语作为所述核心语义单元；和/或，

若所述依存树中的疑问词处于所述当前自然语言问题的末尾，则提取距离所述疑问词最近的名词或者名词短语，作为所述核心语义单元；和/或，

若所述依存树中的疑问词后紧邻的词汇为动词，则提取所述当前自然语言问题中最后出现的名词或者名词短语，作为所述核心语义单元。

可选地，所述依据所述问题意图，得到所述当前自然语言问题对应的答案，包括：依据所述当前自然语言问题进行搜索，以得到所述问题对应的搜索结果；识别所述搜索结果中的多个实体词，将各实体词作为候选答案；依据排序特征，从所述多个候选答案中选择一个，作为所述当前自然语言问题对应的答案；其中，所述排序特征包括：所述实体词与所述问题意图之间的匹配度。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种问题处理方法、一种问题处理装置和一种用于问题处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种问题处理方法，其特征在于，包括：

接收当前自然语言问题；所述当前自然语言问题为完整的自然语言问题所包含的部分连续字符串；所述当前自然语言问题在不同时刻包括的字符串不同；若接收的当前自然语言问题发生变化，则执行确定所述当前自然语言问题对应的完整性概率；

确定所述当前自然语言问题对应的完整性概率；所述完整性概率用于表示当前自然语言问题为完整问题状态的可能性；

在所述当前自然语言问题的完整性概率超过概率阈值时，依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图；所述问题意图用于表征答案类型；

输出所述当前自然语言问题对应的答案；

其中，所述确定所述当前自然语言问题对应的完整性概率的步骤，包括：提取所述当前自然语言问题对应的特征；所述特征包括：所述当前自然语言问题对应的问题长度、是否包括疑问词、是否包括词法答案类型LAT词、以及结束字符对应的信息中的至少一种；依据所述当前自然语言问题对应的特征，确定所述当前自然语言问题对应的完整性概率。

2.根据权利要求1所述的方法，其特征在于，所述依据所述当前自然语言问题对应的特征，确定所述当前自然语言问题对应的完整性概率的步骤，包括：

将所述当前自然语言问题对应的特征输入至完整性判断模型，得到所述完整性判断模型输出的完整性概率；其中，所述完整性判断模型依据完整问题样本和不完整问题样本训练得到。

3.根据权利要求1所述的方法，其特征在于，所述当前自然语言问题的结束字符对应的信息包括如下信息中的至少一种：所述当前自然语言问题的结束字符对应的词性、所述当前自然语言问题的结束字符的出现频率、所述当前自然语言问题的结束字符与上下文字符的共现频率、以及所述当前自然语言问题的结束字符对应的依存边信息。

4.根据权利要求1至3中任一所述的方法，其特征在于，所述依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图的步骤，包括：

从所述当前自然语言问题中识别出当前LAT指向性词；

5.根据权利要求1至3中任一所述的方法，其特征在于，所述依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图的步骤，包括：

对所述当前自然语言问题进行依存句法分析，以得到对应的依存句法分析结果；

从所述依存句法分析结果中提取核心语义单元；

6.根据权利要求5所述的方法，其特征在于，所述依存句法分析结果为依存树；

7.根据权利要求1至3中任一所述的方法，其特征在于，所述依据所述问题意图，得到所述当前自然语言问题对应的答案的步骤，包括：

依据所述当前自然语言问题进行搜索，以得到所述问题对应的搜索结果；

识别所述搜索结果中的多个实体词，将各实体词作为候选答案；

依据排序特征，从所述多个候选答案中选择一个，作为所述当前自然语言问题对应的答案；其中，所述排序特征包括：所述实体词与所述问题意图之间的匹配度。

8.根据权利要求7所述的方法，其特征在于，所述排序特征还包括：实体词的出现频率、和/或实体词对应百科词条的内容与当前自然语言问题之间的匹配度。

9.一种问题处理装置，其特征在于，包括：

问题接收模块，用于接收当前自然语言问题；所述当前自然语言问题为完整的自然语言问题所包含的部分连续字符串；所述当前自然语言问题在不同时刻包括的字符串不同；若接收的当前自然语言问题发生变化，则触发概率确定模块确定所述当前自然语言问题对应的完整性概率；

概率确定模块，用于确定所述当前自然语言问题对应的完整性概率；所述完整性概率用于表示当前自然语言问题为完整问题状态的可能性；

意图推导模块，用于在所述当前自然语言问题的完整性概率超过概率阈值时，依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图；所述问题意图用于表征答案类型；

答案输出模块，用于输出所述当前自然语言问题对应的答案；

其中，所述概率确定模块包括：

10.根据权利要求9所述的装置，其特征在于，所述概率确定子模块包括：

11.根据权利要求9所述的装置，其特征在于，所述当前自然语言问题的结束字符对应的信息包括如下信息中的至少一种：所述当前自然语言问题的结束字符对应的词性、所述当前自然语言问题的结束字符的出现频率、所述当前自然语言问题的结束字符与上下文字符的共现频率、以及所述当前自然语言问题的结束字符对应的依存边信息。

12.根据权利要求9至11中任一所述的装置，其特征在于，所述意图推导模块包括：

13.根据权利要求9至11中任一所述的装置，其特征在于，所述意图推导模块包括：

14.根据权利要求13所述的装置，其特征在于，所述依存句法分析结果为依存树；

则，所述核心语义单元提取子模块包括：

15.根据权利要求9至11中任一所述的装置，其特征在于，所述答案获取模块包括：

16.根据权利要求15所述的装置，其特征在于，所述排序特征还包括：实体词的出现频率、和/或实体词对应百科词条的内容与当前自然语言问题之间的匹配度。

17.一种用于问题处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

输出所述当前自然语言问题对应的答案；

其中，所述确定所述当前自然语言问题对应的完整性概率，包括：提取所述当前自然语言问题对应的特征；所述特征包括：所述当前自然语言问题对应的问题长度、是否包括疑问词、是否包括词法答案类型LAT词、以及结束字符对应的信息中的至少一种；依据所述当前自然语言问题对应的特征，确定所述当前自然语言问题对应的完整性概率。

18.根据权利要求17所述的装置，其特征在于，所述依据所述当前自然语言问题对应的特征，确定所述当前自然语言问题对应的完整性概率的步骤，包括：

19.根据权利要求17所述的装置，其特征在于，所述当前自然语言问题的结束字符对应的信息包括如下信息中的至少一种：所述当前自然语言问题的结束字符对应的词性、所述当前自然语言问题的结束字符的出现频率、所述当前自然语言问题的结束字符与上下文字符的共现频率、以及所述当前自然语言问题的结束字符对应的依存边信息。

20.根据权利要求17至19中任一所述的装置，其特征在于，所述依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图的步骤，包括：

从所述当前自然语言问题中识别出当前LAT指向性词；

21.根据权利要求17至19中任一所述的装置，其特征在于，所述依据所述当前自然语言问题推导得到所述当前自然语言问题对应的问题意图的步骤，包括：

从所述依存句法分析结果中提取核心语义单元；

22.根据权利要求21所述的装置，其特征在于，所述依存句法分析结果为依存树；

23.根据权利要求17至19中任一所述的装置，其特征在于，所述依据所述问题意图，得到所述当前自然语言问题对应的答案的步骤，包括：

24.根据权利要求23所述的装置，其特征在于，所述排序特征还包括：实体词的出现频率、和/或实体词对应百科词条的内容与当前自然语言问题之间的匹配度。

25.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如权利要求1-8中一个或多个所述的方法。