CN111680134B

CN111680134B - 一种信息熵度量问答咨询信息的方法

Info

Publication number: CN111680134B
Application number: CN202010311197.6A
Authority: CN
Inventors: 彭德光; 孙健
Original assignee: Chongqing Zhaoguang Technology Co ltd
Current assignee: Chongqing Zhaoguang Technology Co ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2023-05-02
Anticipated expiration: 2040-04-20
Also published as: CN111680134A

Abstract

本发明提出一种信息熵度量问答咨询信息的方法，包括：通过询问语句对应的问题语义向量相对于询问语句中问题要素的模糊度获取问题信息熵；通过询问语句对应的多个候选答案的答案语义向量相对于相应的答案要素的模糊度获取答案信息熵；结合所述问题信息熵和所述答案信息熵评估咨询对象的困惑度，根据所述困惑度获取最终候选答案；本发明通过客观地对咨询问答的输出进行评估，可有效提高输出候选答案的准确性，提高用户的满意度。

Description

一种信息熵度量问答咨询信息的方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种信息熵度量问答咨询信息的方法。

背景技术

在咨询问答过程中，针对问题获取的答案质量缺乏统一的评判标准，往往采用主观衡量的方式判断答案的优与劣，过于依赖人的主观能动性，不同人的知识储备及评判标准存在较大差异，输出答案的质量难以管控。

发明内容

鉴于以上现有技术存在的问题，本发明提出一种信息熵度量问答咨询信息的方法，主要解决问答咨询缺乏客观评价的问题。

为了实现上述目的及其他目的，本发明采用的技术方案如下。

一种信息熵度量问答咨询信息的方法，包括：

通过询问语句对应的问题语义向量相对于询问语句中问题要素的模糊度获取问题信息熵；

通过询问语句对应的多个候选答案的答案语义向量相对于相应的答案要素的模糊度获取答案信息熵；

结合所述问题信息熵和所述答案信息熵评估咨询对象的困惑度，根据所述困惑度获取最终候选答案。

可选地，获取预设样本库中实体、关系和属性三元组创建知识图谱；

通过所述知识图谱获取所述询问语句中的多个问题要素。

可选地，将所述询问语句转化成问题语义向量；

通过所述问题语义向量与各所述问题要素的相似度构造第一隶属度函数，获取所述问题语义向量相对于各所述问题要素的模糊度。

可选地，设置各所述问题要素的权重，根据所述问题要素的权重及模糊度，获取问题信息熵。

可选地，采用欧式距离、曼哈顿距离或切比雪夫距离获取所述相似度。

可选地，通过所述询问语句获取多个所述候选答案，并将多个所述候选答案分别转化成对应的答案语义向量；

通过所述知识图谱获取每个所述候选答案中的多个答案要素；

通过所述答案语义向量与对应的各所述答案要素的相似度构造第二隶属度函数，获取答案语义向量相对于对应的各所述答案要素的模糊度。

可选地，设置各答案要素的权重，并根据所述答案要素的权重及模糊度，获取答案信息熵。

可选地，设置多个所述候选答案对应的各答案信息熵的统计权重，通过对所述问题信息熵和所述答案信息熵进行加权统计，获取每个答案信息熵对应的所述咨询对象的困惑度。

可选地，获取所述咨询对象的反馈信息，并根据所述反馈信息矫正各所述答案信息熵的统计权重，重新进行加权统计。

可选地，比较各答案信息熵对应的所述困惑度，获取困惑度最小的所述答案信息熵对应的候选答案作为所述最终候选答案。

如上所述，本发明一种信息熵度量问答咨询信息的方法，具有以下有益效果。

综合考虑问题模糊度和候选答案模糊度，采用模糊度量化用户困惑度，更客观地对输出的候选答案进行评价，有利于提高咨询回答的准确性。

附图说明

图1为本发明一实施例中信息熵度量问答咨询信息的方法的流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明提供一种信息熵度量问答咨询信息的方法，包括步骤S01-S03。

在步骤S01中，通过询问语句对应的问题语义向量相对于询问语句中问题要素的模糊度获取问题信息熵：

在一实施例中，在计算模糊度之前，需要预先构建知识图谱对询问语句中的问题要素进行识别。可从预设的样本库或互联网上通用的结构化的知识库(如Wikipedia、DBpedia等)中的获取相应的文本信息，并从中提取出实体、关系、实体；实体、关系、属性；实体、属性、属性值等三元组，构建知识图谱。如“小王是A公司部门经理”，小王和A公司是两个实体，部门经理是小王的属性。对于自然语言处理中的三元组提取方法，现有技术已相当成熟，这里不对提取方法作具体限制，以人工词典规则的方法为例，可通过识别人工标注的词典信息，获取相应的三元组信息。

获取三元组信息之前，可先对知识库中的信息进行实体对齐和实体消歧，如小王和王先生，实际上指的是同一个人，但由于文本不一样，可能形成两个实体，通过实体对齐消除多余的实体信息；再如苹果既可以指一种水果也可以表示苹果公司，结合上下文语义进行实体消歧，以保证实体意思表示的单一性和准确性。

在一实施例中，可将询问语句输入知识图谱中，通过知识图谱推理获取询问文本中的多个问题要素信息。将询问语句转化成问题语义向量，并计算问题语义向量与各问题要素间的相似度，根据相似度函数构造第一隶属度函数。如可采用如下隶属度函数，具体表示为：

P(x,y_i)＝sigmoid(f(x,y_i)),i＝1,2,...,n

其中，x表示问题语义向量；y_i表示第i个问题要素；f(x,y_i)表示问题语义向量与问题要素间的相似度函数，n表示问题要素的数量。

在一实施例中，相似度计算可采用欧氏距离、曼哈顿距离或切比雪夫距离中的一种。

在一实施例中，根据隶属度函数与相应的问题要素相乘，计算问题语义相对于各问题要素的模糊度。并设置每个问题要素的权重，根据权重及相应的模糊度获取问题信息熵，信息熵表示如下：

Q＝∑w_iM_ilogM_i

其中，w_i为第i个问题要素的权重；M_i为相应的模糊度。

在步骤S02中，通过询问语句对应的多个候选答案的答案语义向量相对于相应的答案要素的模糊度获取答案信息熵：

在一实施例中，可根据询问语句从预设的文本库中的获取多个候选答案，分别将每个候选答案转化成对应的答案语义向量，并通过前述知识图谱获取各候选答案的答案要素。按照前述构造第一隶属度函数类似的方法获取答案语义向量与对应的各答案要素的第二隶属度函数，进而获取答案语义向量相对于各答案要素的模糊度。

在一实施例中，设置各答案要素的权重，并根据答案要素的权重及模糊度，获取答案信息熵，具体实现方式可参考问题信息熵的获取方式。

在步骤S03中，结合问题信息熵和答案信息熵评估咨询对象的困惑度，根据困惑度获取最终候选答案：

在一实施例中，可设置每个候选答案对应的答案信息熵的统计权重。分别计算每个答案信息熵与问题信息熵的加权统计值。以加权统计值表示用户的困惑度建立咨询问答模型。可设置困惑度阈值，将困惑度达到设定阈值的候选答案按困惑度值由小到大进行排序。困惑度越小，说明用户对候选答案的满意度越高。选取其中困惑度最小的候选答案作为最终候选答案输出给用户。

在一实施例中，还可根据用户对输出答案的反馈信息，调整咨询问答模型。如可在用户终端设置针对答复满意度的调查问卷，用户可通过填写调查问卷对获取的答案满意度进行评估。可设置多个评估选项或直接以评分的方式对答案进行评估。以直接评分方式为例，当用户的评分达到设定阈值时，可判定用户对答案的认可度较高，不用对咨询问答模型进行调整。当用户的评分未达到设定阈值时，将结果反馈给服务器端，进而通过服务器端调整咨询问答模型。具体地，可通过调整各候选答案对应的答案信息熵的统计权重，达到矫正咨询问答模型的目的。调整统计权重后，重新对问题信息熵和相应的答案信息熵的权重进行加权统计，重新选出用户困惑度最小的候选答案作为输出候选答案。

综上所述，本发明一种信息熵度量问答咨询信息的方法，通过构建问答咨询模型并基于用户困惑度对问答咨询的输出答案进行客观评价，可有效避免主观评价标准不统一的问题，可保障输出的稳定性的同时，提高输出答案的准确率；引入模糊度计算信息熵，可有效丰富各要素的语义内容，进一步增强评价的客观性及准确性。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种信息熵度量问答咨询信息的方法，其特征在于，包括：

通过询问语句对应的问题语义向量相对于询问语句中问题要素的模糊度获取问题信息熵，包括：可将询问语句输入知识图谱中，通过知识图谱推理获取询问文本中的多个问题要素，将所述询问语句转化成问题语义向量；通过所述问题语义向量与各所述问题要素的相似度构造第一隶属度函数，根据隶属度函数与相应的问题要素相乘，计算问题语义相对于各问题要素的模糊度，并设置每个问题要素的权重，根据权重及相应的模糊度获取问题信息熵；其中，所述第一隶属度函数具体表示为：

P(x,y_i)＝sigmoid(f(x,y_i)),i＝1,2,...,n

其中，x表示问题语义向量；y_i表示第i个问题要素；f(x,y_i)表示问题语义向量与问题要素间的相似度函数，n表示问题要素的数量；

所述信息熵表示如下：

Q＝∑w_iM_ilogM_i

其中，w_i为第i个问题要素的权重；M_i为相应的模糊度；

通过询问语句对应的多个候选答案的答案语义向量相对于相应的答案要素的模糊度获取答案信息熵，包括：根据询问语句从预设的文本库中的获取多个候选答案，分别将每个候选答案转化成对应的答案语义向量，并通过前述知识图谱获取各候选答案的答案要素；获取答案语义向量与对应的各答案要素的第二隶属度函数，进而获取答案语义向量相对于各答案要素的模糊度，设置各答案要素的权重，并根据答案要素的权重及模糊度，获取答案信息熵；

结合所述问题信息熵和所述答案信息熵评估咨询对象的困惑度，根据所述困惑度获取最终候选答案，包括：设置每个候选答案对应的答案信息熵的统计权重；分别计算每个答案信息熵与问题信息熵的加权统计值，以加权统计值表示用户的困惑度；将困惑度达到设定阈值的候选答案按困惑度值由小到大进行排序，选取其中困惑度最小的候选答案作为最终候选答案输出给用户。

2.根据权利要求1所述的信息熵度量问答咨询信息的方法，其特征在于，获取预设样本库中实体、关系和属性三元组创建知识图谱；

通过所述知识图谱获取所述询问语句中的多个问题要素。

3.根据权利要求2所述的信息熵度量问答咨询信息的方法，其特征在于，将所述询问语句转化成问题语义向量；

4.根据权利要求3所述的信息熵度量问答咨询信息的方法，其特征在于，设置各所述问题要素的权重，根据所述问题要素的权重及模糊度，获取问题信息熵。

5.根据权利要求3所述的信息熵度量问答咨询信息的方法，其特征在于，采用欧式距离、曼哈顿距离或切比雪夫距离获取所述相似度。

6.根据权利要求1所述的信息熵度量问答咨询信息的方法，其特征在于，通过所述询问语句获取多个所述候选答案，并将多个所述候选答案分别转化成对应的答案语义向量；

7.根据权利要求6所述的信息熵度量问答咨询信息的方法，其特征在于，设置各答案要素的权重，并根据所述答案要素的权重及模糊度，获取答案信息熵。

8.根据权利要求1所述的信息熵度量问答咨询信息的方法，其特征在于，设置多个所述候选答案对应的各答案信息熵的统计权重，通过对所述问题信息熵和所述答案信息熵进行加权统计，获取每个答案信息熵对应的所述咨询对象的困惑度。

9.根据权利要求8所述的信息熵度量问答咨询信息的方法，其特征在于，获取所述咨询对象的反馈信息，并根据所述反馈信息矫正各所述答案信息熵的统计权重，重新进行加权统计。

10.根据权利要求8所述的信息熵度量问答咨询信息的方法，其特征在于，比较各答案信息熵对应的所述困惑度，获取困惑度最小的所述答案信息熵对应的候选答案作为所述最终候选答案。