CN111125329B

CN111125329B - 一种文本信息筛选方法、装置及设备

Info

Publication number: CN111125329B
Application number: CN201911310312.1A
Authority: CN
Inventors: 贾弼然; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2023-07-21
Anticipated expiration: 2039-12-18
Also published as: CN111125329A

Abstract

本申请实施例公开了一种文本信息筛选方法、装置及设备，该方法包括：获取目标问题文本对应的相关问题文本，并将该相关问题文本的答案文本组成候选答案文本；对该候选答案文本进行分词获得分词结果，并根据该分词结果中各分词之间的关联关系，计算分词转移概率；根据各个候选答案文本包括的分词以及该分词转移概率，计算各个该候选答案文本的概率值，并将概率值最大的候选答案文本确定为目标问题文本的目标答案文本。其中，因基于分词转移概率计算得到的各个候选答案文本的概率值准确地表征各个候选答案文本能够准确地答复目标问题的可能性大小，使得后续能够基于该概率值准确地筛选出准确的目标答案，如此提高了目标答案的筛选准确性。

Description

一种文本信息筛选方法、装置及设备

技术领域

本申请涉及数据处理技术领域，具体涉及一种文本信息筛选方法、装置及设备。

背景技术

问答系统是一种常用的信息检索系统。问答系统能用自然语言回答用户用自然语言提出的问题，且该答复过程具体为：在用户提出问题之后，问答系统可以利用问答数据库中所记录的问答对来检索该问题对应的答案，以便利用检索到的答案答复用户问题。其中，问答对是指具有对应关系的问题和答案。

然而，因问答数据库中包括大量的问答对，使得问答系统无法从这些大量的问答对中准确地检索到用户问题所对应的准确答案，如此降低了问答系统针对用户问题的回复答案的准确性。

发明内容

有鉴于此，本申请实施例提供一种文本信息筛选方法、装置及设备，能够准确地检索到用户问题所对应的准确答案，提高了问答系统针对用户问题的回复答案的准确性。

为解决上述问题，本申请实施例提供的技术方案如下：

一种文本信息筛选方法，所述方法包括：

获取目标问题文本对应的相关问题文本；

将所述相关问题文本的答案文本组成候选答案文本；

对所述候选答案文本进行分词，获得分词结果；

根据所述分词结果中各分词之间的关联关系，计算分词转移概率；

根据各个所述候选答案文本包括的分词以及所述分词转移概率，计算各个所述候选答案文本的概率值；

将所述概率值最大的候选答案文本确定为所述目标问题文本的目标答案文本。

在一种可能的实现方式中，所述方法还包括：

对问题文本集合中的问题文本进行聚类，得到问题文本聚类，每个所述问题文本聚类中包括至少一个问题文本；

所述获取目标问题文本对应的相关问题文本，包括：

确定目标问题文本所属的问题文本聚类；

将所述目标问题文本所属的问题文本聚类中的问题文本确定为候选相关问题文本；

提取所述目标问题文本的关键词以及所述候选相关问题文本的关键词；

将与所述目标问题文本存在相同关键词的候选相关问题文本确定为所述目标问题文本对应的相关问题文本。

在一种可能的实现方式中，所述对问题文本集合中的问题文本进行聚类，得到问题文本聚类，包括：

将问题文本集合中的问题文本转换为特征向量；

根据所述问题文本集合中的问题文本的特征向量在向量空间中的分布，对所述问题文本集合中的问题文本进行聚类，得到问题文本聚类。

在一种可能的实现方式中，所述确定目标问题文本所属的问题文本聚类，包括：

将目标问题文本转换为特征向量；

根据所述问题文本聚类中包括的多个问题文本的特征向量在向量空间中的分布，确定各个所述问题文本聚类的聚类中心；

计算在所述向量空间中所述目标问题文本的特征向量与各个所述聚类中心的距离，将所述距离最小的聚类中心对应的问题文本聚类确定为所述目标问题文本所属的问题文本聚类。

在一种可能的实现方式中，所述对所述候选答案文本进行分词，获得分词结果，包括：

对所述相关问题文本以及所述候选答案文本进行分词，获得分词结果。

在一种可能的实现方式中，所述根据所述分词结果中各分词之间的关联关系，计算分词转移概率，包括：

根据所述分词结果中目标两分词组合的出现频次以及全部两分词组合的出现频次总数，计算所述目标两分词组合的初始概率，所述目标两分词组合分别为所述分词结果中连续两个分词的组合；

根据所述分词结果中目标三分词组合的出现频次以及全部三分词组合的出现频次总数，计算所述目标三分词组合的初始概率，所述目标三分词组合分别为所述分词结果中连续三个分词的组合；

根据所述目标两分词组合的初始概率以及所述目标两分词组合对应的目标三分词组合的初始概率，计算从所述目标两分词组合转移到第一目标分词的转移概率作为分词转移概率，所述目标两分词组合对应的目标三分词组合中的前两个分词为所述目标两分词组合，所述第一目标分词为所述目标两分词组合对应的目标三分词组合中的第三个分词。

在一种可能的实现方式中，所述根据各个所述候选答案文本包括的分词以及所述分词转移概率，计算各个所述候选答案文本的概率值，包括：

从所述目标两分词组合的初始概率中获取所述候选答案文本包括的第一分词组合的初始概率，所述第一分词组合为所述候选答案文本中的前两个分词的组合；

从所述分词转移概率中获取所述候选答案文本包括的各个第二分词组合转移到第二目标分词的转移概率，所述第二分词组合为所述候选答案文本中除最后一个分词之外的连续两个分词的组合，所述第二目标分词为所述第二分词组合之后的一个分词；

将所述候选答案文本包括的第一分词组合的初始概率与所述候选答案文本包括的各个第二分词组合转移到第二目标分词的转移概率相乘，得到所述候选答案文本的概率值。

一种文本信息筛选装置，所述装置包括：

相关答案获取单元，用于获取目标问题文本对应的相关问题文本；

候选答案获取单元，用于将所述相关问题文本的答案文本组成候选答案文本；

候选答案分词单元，用于对所述候选答案文本进行分词，获得分词结果；

转移概率计算单元，用于根据所述分词结果中各分词之间的关联关系，计算分词转移概率；

答案概率计算单元，用于根据各个所述候选答案文本包括的分词以及所述分词转移概率，计算各个所述候选答案文本的概率值；

目标答案确定单元，用于将所述概率值最大的候选答案文本确定为所述目标问题文本的目标答案文本。

一种文本信息筛选设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现所述的文本信息筛选方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行所述的文本信息筛选方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例提供的文本信息筛选方法中，首先，获取目标问题文本对应的相关问题文本，并将该相关问题文本的答案文本组成候选答案文本；然后，对该候选答案文本进行分词获得分词结果，并根据该分词结果中各分词之间的关联关系，计算分词转移概率；最后，根据各个候选答案文本包括的分词以及该分词转移概率，计算各个该候选答案文本的概率值，并将概率值最大的候选答案文本确定为目标问题文本的目标答案文本。

其中，因分词转移概率能够表征出在回答目标问题时由当前分词转移至下一个分词的可能性大小，使得基于该分词转移概率计算得到的各个候选答案文本的概率值能够准确地表征各个候选答案文本能够准确地答复目标问题的可能性大小，从而使得后续能够基于各个候选答案文本的概率值准确地筛选出在答复目标问题时准确的目标答案，如此提高了目标答案的筛选准确性。另外，在将该文本信息筛选方法应用于问答系统时，该问答系统能够准确地检索到用户问题所对应的准确答案，提高了问答系统针对用户问题回复的答案的准确性。

附图说明

图1为本申请实施例提供的一种文本信息筛选方法的流程图；

图2为本申请实施例提供的另一种文本信息筛选方法的流程图；

图3为本申请实施例提供的一种文本信息筛选装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

发明人在对传统的问答系统研究中发现，传统的问答系统存在以下问题：因问答数据库中存在多个问答对中的问题是相似或相同的，使得问答数据库中出现针对一个问题存在多个答案的现象，从而使得问答系统无法从这些多个答案中确定出该问题对应的准确的答案，如此导致传统的问答系统无法准确地检索到用户问题所对应的答案，如此降低了传统的问答系统针对用户问题的回复答案的准确性。

例如，假设问答数据库中存在第1个问答对至第3个问答对，第1个问答对包括相对应的第1个问题和第1个答案，第2个问答对包括相对应的第2个问题和第2个答案，第3个问答对包括相对应的第3个问题和第3个答案，而且第1个问题、第2个问题和第3个问题均表述了相同的问题(例如，如何计算两点之间的距离)。基于该假设，传统的问答系统无法从第1个答案、第2个答案和第3个答案中确定出哪个答案才是上述相同的问题对应的准确的答案。如此导致传统的问答系统无法检索出上述相同的问题对应的准确的答案，降低了传统的问答系统的答案检索的准确性。

基于此，本申请实施例提供了一种文本信息筛选方法，在该方法中，首先，获取目标问题文本对应的相关问题文本，并将该相关问题文本的答案文本组成候选答案文本；然后，对该候选答案文本进行分词获得分词结果，并根据该分词结果中各分词之间的关联关系，计算分词转移概率；最后，根据各个候选答案文本包括的分词以及该分词转移概率，计算各个该候选答案文本的概率值，并将概率值最大的候选答案文本确定为目标问题文本的目标答案文本。其中，因候选答案文本的概率值能够准确地表征该候选答案文本能够准确地答复目标问题的可能性大小，使得基于各个候选答案文本的概率值能够准确地筛选出目标问题的准确的目标答案，如此提高了目标答案的筛选准确性。

为了便于理解本申请，下面结合附图对本申请实施例提供的一种文本信息筛选方法进行说明。

参见图1所示，该图为本申请实施例提供的一种文本信息筛选方法的流程图，该方法包括步骤S101-S106：

S101：获取目标问题文本对应的相关问题文本。

目标问题是指需要确定出的最准确的答复答案的问题；而且，本申请实施例不限定目标问题的来源，例如，目标问题可以是指问答数据库中的任一问题，也可以是用户在问答系统中输入的问题。

目标问题文本对应的相关问题文本是指与目标问题文本相同或相似的问题文本；而且，目标问题文本对应的相关问题文本与目标问题文本之间的相似度较高。另外，本申请实施例不限定目标问题文本对应的相关问题文本的获取方式，例如，目标问题文本对应的相关问题文本可以基于文本间相似度从问答数据库中筛选得到。

基于上述内容可知，在获取到目标问题文本之后，可以先根据目标问题文本，确定目标问题文本对应的相关问题文本，以便后续能够基于这些相关问题文本对应的答案文本确定出该目标问题的准确地答案。例如，当相关问题文本的来源为问答数据库时，则S101具体可以为：在获取到目标问题文本之后，可以根据目标问题文本与问答数据库所包括的各个问答对中的问题文本之间的相似度，筛选得到与该目标问题文本相似度比较高(或者达到一定阈值)的至少一个问题文本，确定为目标问题文本对应的相关问题文本。

另外，本申请实施例还提供了一种获取目标问题文本对应的相关问题文本的具体实施方式，具体说明请参见下文。

S102：将相关问题文本的答案文本组成候选答案文本。

相关问题文本的答案文本是指相关问题文本对应的答案文本。例如，当相关问题文本的来源为问答数据库时，则相关问题文本的答案文本是指包括相关问题文本的问答对中的答案文本。

基于上述内容可知，在获取到相关问题文本之后，可以将相关问题文本的答案文本组成候选答案文本。例如，假设问答数据库包括第1个问答对至第3个问答对，第1个问答对包括第1个问题文本和第1个答案文本，第2个问答对包括第2个问题文本和第2个答案文本，第3个问答对包括第3个问题文本和第3个答案文本，而且第1个问题文本、第2个问题文本和第3个问题文本均是目标问题的相关问题文本。基于该假设可知，S102具体可以为：将第1个问题文本对应的第1个答案文本、将第2个问题文本对应的第2个答案文本、以及将第3个问题文本对应的第3个答案文本均作为候选答案文本。

S103：对候选答案文本进行分词，获得分词结果。

本申请实施例不限定对候选答案文本进行分词时所使用的分词算法，可以采用任一种分词算法进行分词。

S104：根据分词结果中各分词之间的关联关系，计算分词转移概率。

分词之间的关联关系可以是指分词之间的出现位置相邻关系。

分词转移概率是指从一个(或多个连续)分词转移到其他分词的概率，而且分词转移概率可以用于表征在一个(或多个连续)分词出现的情况下其他分词在相邻位置出现的可能性大小。

另外，本申请实施例还提供一种计算分词转移概率的具体实施方式，具体说明请参见下文。

S105：根据各个候选答案文本包括的分词以及分词转移概率，计算各个候选答案文本的概率值。

候选答案文本的概率值用于表征该候选答案文本是目标问题文本对应的准确的答案的可能性大小；而且，候选答案文本的概率值越大，则表示该候选答案文本是目标问题文本对应的准确的答案的可能性越大。

候选答案文本的概率值是基于候选答案文本中所包括的分词以及不同分词之间的分词转移概率确定的。另外，本申请实施例还提供一种计算候选答案文本的概率值的具体实施方式，具体说明请参见下文。

S106：将概率值最大的候选答案文本确定为目标问题文本的目标答案文本。

本申请实施例中，因候选答案文本的概率值能够表征该候选答案文本是目标问题文本对应的准确的答案的可能性大小，使得在获取到各个候选答案文本的概率值之后，可以将各个候选答案文本的概率值进行排序，以便确定出概率值最大的候选答案文本，并将该概率值最大的候选答案文本确定为该目标问题文本的目标答案文本。

基于上述S101至S106可知，在本申请实施例提供的文本信息筛选方法中，首先，获取目标问题文本对应的相关问题文本，并将该相关问题文本的答案文本组成候选答案文本；然后，对该候选答案文本进行分词获得分词结果，并根据该分词结果中各分词之间的关联关系，计算分词转移概率；最后，根据各个候选答案文本包括的分词以及该分词转移概率，计算各个该候选答案文本的概率值，并将概率值最大的候选答案文本确定为目标问题文本的目标答案文本。

其中，因分词转移概率能够表征出在回答目标问题时由当前分词转移至下一个分词的可能性大小，使得基于该分词转移概率计算得到的各个候选答案文本的概率值能够准确地表征出各个候选答案文本能够准确地答复目标问题的可能性大小，从而使得后续能够基于各个候选答案文本的概率值准确地筛选出在答复目标问题时准确的目标答案，如此提高了目标答案的筛选准确性。另外，在将该文本信息筛选方法应用于问答系统时，该问答系统能够准确地检索到用户问题所对应的准确答案，提高了问答系统针对用户问题回复的答案的准确性。

在本申请实施例一种可能的实施方式中，为了提高目标答案的获取效率以及准确率，可以先对大量的问题文本进行聚类，再基于该聚类结果确定目标问题文本对应的相关问题文本。基于此，本申请实施例还提供了另一种文本信息筛选方法，如图2所示，该文本信息筛选方法除了包括S101-S106以外，在S101执行之前还包括S107：

S107：对问题文本集合中的问题文本进行聚类，得到问题文本聚类。

问题文本集合用于表征包括多个问题文本的集合；而且，本申请实施例不限定问题文本集合的获取方式，例如，问题文本集合可以根据问答数据库所包括的各个问答对中的问题文本生成。

问题文本聚类是指对问题文本集合中的问题文本进行聚类之后得到的聚类结果；而且，每个问题文本聚类中包括至少一个问题文本。

需要说明的是，本申请实施例不限定S107所使用的聚类算法，可以采用任一种聚类算法。例如，S107可以采用基于密度的聚类算法。

本申请实施例还提供了一种S107的具体实施方式，其具体可以包括：先将问题文本集合中的问题文本转换为特征向量；再根据该问题文本集合中的问题文本的特征向量在向量空间中的分布，对该问题文本集合中的问题文本进行聚类，得到问题文本聚类。

本申请实施例中，因问题文本的特征向量在向量空间中的分布信息能够准确地表征不同问题文本之间的相似程度，使得基于问题文本的特征向量在向量空间中的分布信息进行的聚类过程，能够准确地按照问题文本之间的相似度进行聚类，如此能够将相似度较高的问题文本划分到同一类中，以及将相似度较低的问题文本分别划分到不同类中，如此使得聚类所得的每个问题文本聚类中均包括了相似度较高的多个问题文本，如此实现了将相似或相同的问题文本划分到同一类的目的。为了便于理解问题文本的聚类过程，下面以基于密度的聚类算法为例进行说明。

作为示例，当聚类过程采用基于密度的聚类算法时，S107具体可以包括以下四步：

第一步：将问题文本集合中的问题文本转换为特征向量。

第二步：根据问题文本集合中的各个问题文本的特征向量，确定各个问题文本的空间分布密度。

空间分布密度用于表征问题文本的特征向量在向量空间中的分布密度，也就是说，在向量空间中，空间分布密度用于表征该问题文本的特征向量所处位置的周围分布存在的其他特征向量的数量以及分布紧密程度。

本申请实施例不限定空间分布密度的计算方式，例如，当问题文本集合中包括N个问题文本时，可以采用公式(1)至(3)计算各个问题文本的空间分布密度。

d_ij＝1-sim(i,j) (3)

式中，ρ_i表示第i个问题文本的空间分布密度；d_ij表示第i个问题文本的特征向量与第j个问题文本的特征向量之间的空间距离；d_c表示空间距离阈值；N表示问题文本集合中的问题文本总数；sim(i,j)表示第i个问题文本的特征向量与第j个问题文本的特征向量之间的相似度；i为正整数，且i≤N；j为正整数，且j≤N。需要说明的是，d_c可以预先设定。

第三步：从多个候选半径中筛选得到聚类半径。

聚类半径是指在基于聚类中心进行聚类时所使用的半径。

本申请实施例提供了一种从多个候选半径中筛选得到聚类半径的具体实施方式，其具体可以为：先依据公式(4)和(5)，确定每个候选半径对应的指标值；再将指标值达到预设数量阈值的候选半径作为聚类半径d_r。

式中，S_t表示第t个候选半径对应的指标值；d^t表示第t个候选半径；d_ij表示第i个问题文本的特征向量与第j个问题文本的特征向量之间的空间距离；N表示问题文本集合中的问题文本总数；t为正整数，且t≤F；F表示候选半径的总个数。

需要说明的是，指标值用于表征候选半径成为聚类半径的可能性大小；而且指标值是指基于候选半径，确定的问题文本集合中的各个问题文本在向量空间中的平均邻居个数在问题文本集合中的问题文本总数中的占比。其中，所谓邻居是指在向量空间中，以待确定问题文本的特征向量为中心，且以候选半径为半径构成的圆形区域内的各个问题文本的特征向量均是待确定问题文本的邻居。

基于上述内容可知，本申请实施例可以依据公式(4)和(5)确定每个候选半径的指标值，再从所有候选半径的指标值中筛选出聚类半径，以便后续能够利用该聚类半径进行聚类。

第四步：根据各个问题文本的空间分布密度和聚类半径d_r，对问题文本集合中的问题文本进行聚类，得到问题文本聚类。

本申请实施例中，在获取到各个问题文本的空间分布密度之后，首先，将最大密度值对应的问题文本作为第一个聚类中心，并将聚类半径d_r作为半径进行聚类，得到第一个问题文本聚类，使得第一个问题文本聚类所包括的各个问题文本的的特征向量与第一个聚类中心之间的距离均小于聚类半径d_r；然后，针对所有未被划分至任一类别中的问题文本，将最大密度值对应的问题文本作为第二个聚类中心，并将聚类半径d_r为半径进行聚类，得到第二个问题文本聚类，使得第二个问题文本聚类所包括的各个问题文本的的特征向量与第二个聚类中心之间的距离均小于聚类半径d_r；……(依次类推)直至将所有问题文本均划分到相应的问题文本聚类中。

基于上述S107的相关内容可知，在获取到问题文本集合之后，可以先将问题文本集合中的各个问题文本进行聚类，得到各个问题文本聚类，以便后续能够基于该问题文本聚类来确定目标问题对应的相关问题文本。

基于此，本申请实施例还提供了获取目标问题对应的相关问题文本(也就是S101)的一种实施方式，在该实施方式中，S101具体可以包括以下三步：

第一步：确定目标问题文本所属的问题文本聚类。

本申请实施例中，在获取到目标问题以及问题文本聚类之后，可以基于目标问题文本与问题文本聚类中所包括的问题文本之间的相似度，来确定目标问题文本所属的问题文本聚类。

基于此，本申请实施例还提供了一种确定目标问题文本所属的问题文本聚类的具体实施方式，其具体为：先将目标问题文本转换为特征向量，并根据问题文本聚类中包括的多个问题文本的特征向量在向量空间中的分布，确定各个问题文本聚类的聚类中心；再计算在向量空间中该目标问题文本的特征向量与各个聚类中心的距离，以便将距离最小的聚类中心对应的问题文本聚类确定为该目标问题文本所属的问题文本聚类。为了便于理解，下面结合示例进行说明。

假设，问题文本集合对应于第1个问题文本聚类至第M个问题文本聚类，而且目标问题文本的特征向量与第3个问题文本聚类的聚类中心的距离最小。基于该假设，该步骤具体为：

首先，将目标问题文本转换为特征向量。

然后，根据第1个问题文本聚类中包括的多个问题文本的特征向量在向量空间中的分布，确定第1个问题文本聚类的聚类中心；根据第2个问题文本聚类中包括的多个问题文本的特征向量在向量空间中的分布，确定第2个问题文本聚类的聚类中心；……；根据第M个问题文本聚类中包括的多个问题文本的特征向量在向量空间中的分布，确定第M个问题文本聚类的聚类中心。

其次，计算目标问题文本的特征向量与第1个问题文本聚类的聚类中心之间的距离作为第一间距，计算目标问题文本的特征向量与第2个问题文本聚类的聚类中心之间的距离作为第二间距，……(以此类推)，计算目标问题文本的特征向量与第M个问题文本聚类的聚类中心之间的距离作为第M间距。

最后，比较第一间距至第M间距，将最小间距对应的问题文本聚类确定为该目标问题文本所属的问题文本聚类，例如确定第三间距最小，并将第三间距对应的第3个问题文本聚类确定为该目标问题文本所属的问题文本聚类。

第二步：将目标问题文本所属的问题文本聚类中的问题文本确定为候选相关问题文本。

在本申请实施例中，由于一个问题文本聚类中所包括多个问题文本均是相同或相似问题文本，因而，在确定出目标问题文本所属的问题文本聚类之后，可以将目标问题文本所属的问题文本聚类中的问题文本均确定为候选相关问题文本。作为示例，假设目标问题文本所属的问题文本聚类中包括第1个问题文本、第2个问题文本和第3个问题文本，则该步骤具体为：将第1个问题文本、第2个问题文本和第3个问题文本均确定为候选相关问题文本。

第三步：提取目标问题文本的关键词以及候选相关问题文本的关键词，并将与目标问题文本存在相同关键词的候选相关问题文本确定为该目标问题文本对应的相关问题文本。

在本申请实施例中，在确定出候选相关问题文本之后，可以通过判断候选相关问题文本中是否存在目标问题文本中的关键词，确定该候选相关问题文本是否属于该目标问题文本对应的相关问题文本，该过程具体可以为：先分别提取目标问题文本的关键词以及各个候选相关问题文本的关键词，再将各个候选相关问题文本的关键词与目标问题文本的关键词进行比较，以便将与目标问题文本存在相同关键词的候选相关问题文本确定为该目标问题文本对应的相关问题文本。作为示例，基于上述第二步中示例的相关内容，该步骤具体可以为：

首先，提取目标问题文本的关键词作为第一关键词集合，提取第1个问题文本的关键词作为第二关键词集合，提取第2个问题文本的关键词作为第三关键词集合，提取第3个问题文本的关键词作为第四关键词集合。

然后，将第一关键词集合与第二关键词集合进行比较，以便在确定第一关键词集合与第二关键词集合之间存在交集时，将第1个问题文本确定为该目标问题文本对应的相关问题文本；将第一关键词集合与第三关键词集合进行比较，以便在确定第一关键词集合与第三关键词集合之间存在交集时，将第2个问题文本确定为该目标问题文本对应的相关问题文本；将第一关键词集合与第四关键词集合进行比较，以便在确定第一关键词集合与第四关键词集合之间存在交集时，将第3个问题文本确定为该目标问题文本对应的相关问题文本。

基于上述S101的具体实施方式中的三步可知，在本申请实施例中，在获取到问题文本集合对应的多个问题文本聚类之后，可以先确定目标问题文本所属的问题文本聚类，再通过对比目标问题文本的关键字与该问题文本聚类中所包括的多个问题文本的关键字，确定目标问题文本对应的相关问题文本。其中，因在确定目标问题文本对应的相关问题文本的过程中，目标问题文本只需与该目标问题文本所属的问题文本聚类中所包括的多个问题文本进行特征比对即可，无需与其他问题文本聚类中所包括的多个问题文本进行特征比对，降低了比对问题文本的数量，提高了目标问题文本对应的相关问题文本的确定效率。

在本申请实施例一种可能的实施方式中，本申请实施例还提供了S103的一种实施方式，其具体为：对相关问题文本以及候选答案文本进行分词，获得分词结果。

在该实施方式中，因分词结果不仅包括候选答案文本中的分词，还包括该候选答案文本对应的相关问题文本中的分词，使得分词结果能够更全面准确地表征该候选答案文本所携带的答案信息，从而使得基于该分词结果筛选出的目标答案更符合目标问题，从而提高了目标答案的准确性。

在本申请实施例一种可能的实施方式中，本申请实施例还提供了S104的一种实施方式，其具体包括以下三步：

第一步：根据分词结果中目标两分词组合的出现频次以及全部两分词组合的出现频次总数，计算该目标两分词组合的初始概率。

其中，目标两分词组合分别为分词结果中连续两个分词的组合。例如，假设分词结果包括第1个分词、第2个分词和第3个分词，第1个分词位于第2个分词之前且第1个分词与第2个分词相邻，第2个分词位于第3个分词之前且第2个分词与第3个分词相邻。基于该假设可知，目标两分词组合可以是第1个分词和第2个分词的组合，也可以是第2个分词和第3个分词的组合。

全部两分词组合是由所有分词结果中所有存在的连续两个分词的组合构成。作为示例，假设存在第1个候选答案文本至第3个候选答案文本；第1个候选答案文本对应于第1个分词结果，第2个候选答案文本对应于第2个分词结果，第3个候选答案文本对应于第3个分词结果；而且第1个分词结果中存在第1个两分词组合和第2个两分词组合，第2个分词结果中存在第3个两分词组合至第5个两分词组合，第3个分词结果中存在第6个两分词组合。基于该假设可知，全部分词组合包括第1个两分词组合至第6个两分词组合。

另外，本申请实施例还提供了目标两分词组合的初始概率的计算公式，如公式(6)所示。

式中，P₀(w_jw_k)表示由分词w_j和分词w_k构成的两分词组合的初始概率；分词w_j和分词w_k分别表示分词结果中的分词；分词w_j和分词w_k在候选答案文本(或者候选答案文本及其对应的相关问题文本)中呈相邻共现关系；FR(w_jw_k)表示分词w_j和分词w_k在候选答案文本(或者候选答案文本及其对应的相关问题文本)中相邻共现的频次；表示全部两分词组合的出现频次总数。

需要说明的是，每个分词结果中的任意目标两分词组合均可以采用公式(6)来确定该目标两分词组合的初始概率。

第二步：根据分词结果中目标三分词组合的出现频次以及全部三分词组合的出现频次总数，计算该目标三分词组合的初始概率。

其中，目标三分词组合分别为分词结果中连续三个分词的组合。例如，假设分词结果包括第1个分词、第2个分词、第3个分词和第4个分词，第1个分词位于第2个分词之前且第1个分词与第2个分词相邻，第2个分词位于第3个分词之前且第2个分词与第3个分词相邻，而且第3个分词位于第4个分词之前且第3个分词与第4个分词相邻。基于该假设可知，目标三分词组合可以是第1个分词、第2个分词和第3个分词的组合，也可以是第2个分词、第3个分词和第4个分词的组合。

全部三分词组合的出现频次总数是由所有分词结果中所有存在的连续三个分词的组合构成。

另外，本申请实施例还提供了目标三分词组合的初始概率的计算公式，如公式(7)所示。

式中，P₀(w_jw_kw_i)表示由分词w_j、分词w_k和分词w_i构成的三分词组合的初始概率；分词w_j、分词w_k和分词w_i分别表示分词结果中的分词；分词w_j、分词w_k和分词w_i在候选答案文本(或者候选答案文本及其对应的相关问题文本)中按照顺序呈相邻共现关系；FR(w_jw_kw_i)表示分词w_j、分词w_k和分词w_i在候选答案文本(或者候选答案文本及其对应的相关问题文本)中按照顺序相邻共现的频次；表示全部三分词组合的出现频次总数。

需要说明的是，每个分词结果中的任意目标三分词组合均可以采用公式(7)来确定该目标三分词组合的初始概率。

第三步：根据目标两分词组合的初始概率以及目标两分词组合对应的目标三分词组合的初始概率，计算从该目标两分词组合转移到第一目标分词的转移概率作为分词转移概率。

其中，目标两分词组合对应的目标三分词组合中的前两个分词为该目标两分词组合，而且第一目标分词为该目标两分词组合对应的目标三分词组合中的第三个分词。例如，假设目标分词组合包括第一分词和第二分词，而且第一目标分词为第三分词。基于该假设，目标两分词组合对应的目标三分词组合由第一分词、第二分词和第三分词按顺序构成。

另外，本申请实施例提供了一种计算分词转移概率的计算公式，如公式(8)所示。

式中，P(w_i|w_jw_k)表示从由分词w_j和分词w_k构成的两分词组合转移到分词w_i的转移概率；P₀(w_jw_kw_i)表示由分词w_j、分词w_k和分词w_i构成的三分词组合的初始概率；P₀(w_jw_k)表示由分词w_j和分词w_k构成的两分词组合的初始概率；分词w_j、分词w_k和分词w_i分别表示分词结果中的分词。

基于上述第一步至第三步的内容可知，本申请实施例可以利用公式(6)至(8)计算获得从目标两分词组合转移到第一目标分词的转移概率，作为该目标两分词组合到第一目标分词的分词转移概率，以便后续能够基于该分词转移概率来确定各个候选答案文本的概率值。其中，因分词转移概率能够准确地表征在目标两分词组合出现的情况下相邻出现第一目标分词的概率，使得基于该分词转移概率确定的候选答案文本的概率值能够准确地表征该候选答案文本符合目标问题的可能性大小，从而能够提高答复目标问题的目标答案的筛选准确性。

在本申请实施例一种可能的实施方式中，本申请实施例还提供了S105的一种实施方式，其具体包括：

首先，从目标两分词组合的初始概率中获取候选答案文本包括的第一分词组合的初始概率。其中，第一分词组合为该候选答案文本中的前两个分词的组合。

然后，从分词转移概率中获取该候选答案文本包括的各个第二分词组合转移到第二目标分词的转移概率。其中，第二分词组合为候选答案文本中除最后一个分词之外的连续两个分词的组合，而且第二目标分词为第二分词组合之后的一个分词。

最后，将候选答案文本包括的第一分词组合的初始概率与候选答案文本包括的各个第二分词组合转移到第二目标分词的转移概率相乘，得到该候选答案文本的概率值。

基于上述内容可知，当第h个候选答案文本包括第1个分词w₁至第r个分词w_r，则第h个目标候选答案文本的概率值可以利用公式(9)进行计算。

P_h(w₁w₂…w_r)＝P₀(w₁w₂)P(w₃|w₁w₂)…P(w_r|w_r-2w_r-1) (9)

式中，P_h(w₁w₂…w_r)表示第h个候选答案文本的概率值；P₀(w₁w₂)表示第h个候选答案文本中的由分词w₁和分词w₂构成的第一分词组合的初始概率；P(w₃|w₁w₂)表示从第一分词组合转移到第3个分词的转移概率；…表示以此类推；P(w_r|w_r-2w_r-1)表示从由分词w_r-2和分词w_r-1构成的第r-2分词组合转移到第r个分词的转移概率；h为正整数，且h≤B；B为候选答案文本的总个数。

基于上述内容可知，本申请实施例中，在获取到各个候选答案文本包括的分词以及分词转移概率之后，可以依据公式(9)计算获得各个所述候选答案文本的概率值。其中，因分词转移概率能够准确地表征在目标两分词组合出现的情况下相邻出现第一目标分词的概率，使得基于该分词转移概率确定的候选答案文本的概率值能够准确地表征该候选答案文本符合目标问题的可能性大小，从而能够提高答复目标问题的目标答案的筛选准确性。

基于上述方法实施例提供的文本信息筛选方法，本申请实施例还提供了一种文本信息筛选装置，下面将结合附图对该文本信息筛选装置进行说明。

参见图3，该图为本申请实施例提供的一种文本信息筛选装置的结构示意图。如图3所示，该文本信息筛选装置包括：

相关答案获取单元301，用于获取目标问题文本对应的相关问题文本；

候选答案获取单元302，用于将所述相关问题文本的答案文本组成候选答案文本；

候选答案分词单元303，用于对所述候选答案文本进行分词，获得分词结果；

转移概率计算单元304，用于根据所述分词结果中各分词之间的关联关系，计算分词转移概率；

答案概率计算单元305，用于根据各个所述候选答案文本包括的分词以及所述分词转移概率，计算各个所述候选答案文本的概率值；

目标答案确定单元306，用于将所述概率值最大的候选答案文本确定为所述目标问题文本的目标答案文本。

在本申请实施例一种可能的实现方式中，所述装置还包括：

问题文本聚类单元，用于对问题文本集合中的问题文本进行聚类，得到问题文本聚类，每个所述问题文本聚类中包括至少一个问题文本；

所述相关答案获取单元301，包括：

所属聚类确定子单元，用于确定目标问题文本所属的问题文本聚类；

候选问题获取子单元，用于将所述目标问题文本所属的问题文本聚类中的问题文本确定为候选相关问题文本；

关键词提取子单元，用于提取所述目标问题文本的关键词以及所述候选相关问题文本的关键词；

相关答案确定子单元，用于将与所述目标问题文本存在相同关键词的候选相关问题文本确定为所述目标问题文本对应的相关问题文本。

在本申请实施例一种可能的实现方式中，所述问题文本聚类单元，包括：

特征向量获取子单元，用于将问题文本集合中的问题文本转换为特征向量；

问题文本聚类子单元，用于根据所述问题文本集合中的问题文本的特征向量在向量空间中的分布，对所述问题文本集合中的问题文本进行聚类，得到问题文本聚类。

在本申请实施例一种可能的实现方式中，所述所属聚类确定子单元，包括：

特征向量转化子单元，用于将目标问题文本转换为特征向量；

聚类中心确定子单元，用于根据所述问题文本聚类中包括的多个问题文本的特征向量在向量空间中的分布，确定各个所述问题文本聚类的聚类中心；

中心距离计算子单元，用于计算在所述向量空间中所述目标问题文本的特征向量与各个所述聚类中心的距离，将所述距离最小的聚类中心对应的问题文本聚类确定为所述目标问题文本所属的问题文本聚类。

在本申请实施例一种可能的实现方式中，所述候选答案分词单元303，具体用于：对所述相关问题文本以及所述候选答案文本进行分词，获得分词结果。

在本申请实施例一种可能的实现方式中，所述根转移概率计算单元304，包括：

两分词概率计算子单元，用于根据所述分词结果中目标两分词组合的出现频次以及全部两分词组合的出现频次总数，计算所述目标两分词组合的初始概率，所述目标两分词组合分别为所述分词结果中连续两个分词的组合；

三分词概率计算子单元，用于根据所述分词结果中目标三分词组合的出现频次以及全部三分词组合的出现频次总数，计算所述目标三分词组合的初始概率，所述目标三分词组合分别为所述分词结果中连续三个分词的组合；

转移概率计算子单元，用于根据所述目标两分词组合的初始概率以及所述目标两分词组合对应的目标三分词组合的初始概率，计算从所述目标两分词组合转移到第一目标分词的转移概率作为分词转移概率，所述目标两分词组合对应的目标三分词组合中的前两个分词为所述目标两分词组合，所述第一目标分词为所述目标两分词组合对应的目标三分词组合中的第三个分词。

在本申请实施例一种可能的实现方式中，所述答案概率计算单元305，包括：

初始概率获取子单元，用于从所述目标两分词组合的初始概率中获取所述候选答案文本包括的第一分词组合的初始概率，所述第一分词组合为所述候选答案文本中的前两个分词的组合；

转移概率确定子单元，用于从所述分词转移概率中获取所述候选答案文本包括的各个第二分词组合转移到第二目标分词的转移概率，所述第二分词组合为所述候选答案文本中除最后一个分词之外的连续两个分词的组合，所述第二目标分词为所述第二分词组合之后的一个分词；

答案概率计算子单元，用于将所述候选答案文本包括的第一分词组合的初始概率与所述候选答案文本包括的各个第二分词组合转移到第二目标分词的转移概率相乘，得到所述候选答案文本的概率值。

另外，本申请实施例还提供了一种文本信息筛选设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例所述的文本信息筛选方法的任一实施方式。

另外，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如上述实施例所述的文本信息筛选方法的任一实施方式。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本信息筛选方法，其特征在于，所述方法包括：

获取目标问题文本对应的相关问题文本；

将所述相关问题文本的答案文本组成候选答案文本；

对所述候选答案文本进行分词，获得分词结果；

将所述概率值最大的候选答案文本确定为所述目标问题文本的目标答案文本；

所述根据所述分词结果中各分词之间的关联关系，计算分词转移概率，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述获取目标问题文本对应的相关问题文本，包括：

确定目标问题文本所属的问题文本聚类；

3.根据权利要求2所述的方法，其特征在于，所述对问题文本集合中的问题文本进行聚类，得到问题文本聚类，包括：

将问题文本集合中的问题文本转换为特征向量；

4.根据权利要求3所述的方法，其特征在于，所述确定目标问题文本所属的问题文本聚类，包括：

将目标问题文本转换为特征向量；

5.根据权利要求1所述的方法，其特征在于，所述对所述候选答案文本进行分词，获得分词结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据各个所述候选答案文本包括的分词以及所述分词转移概率，计算各个所述候选答案文本的概率值，包括：

7.一种文本信息筛选装置，其特征在于，所述装置包括：

目标答案确定单元，用于将所述概率值最大的候选答案文本确定为所述目标问题文本的目标答案文本；

所述转移概率计算单元，包括：

8.一种文本信息筛选设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-6任一项所述的文本信息筛选方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如权利要求1-6任一项所述的文本信息筛选方法。