CN111680134B - 一种信息熵度量问答咨询信息的方法 - Google Patents
一种信息熵度量问答咨询信息的方法 Download PDFInfo
- Publication number
- CN111680134B CN111680134B CN202010311197.6A CN202010311197A CN111680134B CN 111680134 B CN111680134 B CN 111680134B CN 202010311197 A CN202010311197 A CN 202010311197A CN 111680134 B CN111680134 B CN 111680134B
- Authority
- CN
- China
- Prior art keywords
- answer
- information entropy
- information
- ambiguity
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Optimization (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Animal Behavior & Ethology (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种信息熵度量问答咨询信息的方法,包括:通过询问语句对应的问题语义向量相对于询问语句中问题要素的模糊度获取问题信息熵;通过询问语句对应的多个候选答案的答案语义向量相对于相应的答案要素的模糊度获取答案信息熵;结合所述问题信息熵和所述答案信息熵评估咨询对象的困惑度,根据所述困惑度获取最终候选答案;本发明通过客观地对咨询问答的输出进行评估,可有效提高输出候选答案的准确性,提高用户的满意度。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种信息熵度量问答咨询信息的方法。
背景技术
在咨询问答过程中,针对问题获取的答案质量缺乏统一的评判标准,往往采用主观衡量的方式判断答案的优与劣,过于依赖人的主观能动性,不同人的知识储备及评判标准存在较大差异,输出答案的质量难以管控。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种信息熵度量问答咨询信息的方法,主要解决问答咨询缺乏客观评价的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种信息熵度量问答咨询信息的方法,包括:
通过询问语句对应的问题语义向量相对于询问语句中问题要素的模糊度获取问题信息熵;
通过询问语句对应的多个候选答案的答案语义向量相对于相应的答案要素的模糊度获取答案信息熵;
结合所述问题信息熵和所述答案信息熵评估咨询对象的困惑度,根据所述困惑度获取最终候选答案。
可选地,获取预设样本库中实体、关系和属性三元组创建知识图谱;
通过所述知识图谱获取所述询问语句中的多个问题要素。
可选地,将所述询问语句转化成问题语义向量;
通过所述问题语义向量与各所述问题要素的相似度构造第一隶属度函数,获取所述问题语义向量相对于各所述问题要素的模糊度。
可选地,设置各所述问题要素的权重,根据所述问题要素的权重及模糊度,获取问题信息熵。
可选地,采用欧式距离、曼哈顿距离或切比雪夫距离获取所述相似度。
可选地,通过所述询问语句获取多个所述候选答案,并将多个所述候选答案分别转化成对应的答案语义向量;
通过所述知识图谱获取每个所述候选答案中的多个答案要素;
通过所述答案语义向量与对应的各所述答案要素的相似度构造第二隶属度函数,获取答案语义向量相对于对应的各所述答案要素的模糊度。
可选地,设置各答案要素的权重,并根据所述答案要素的权重及模糊度,获取答案信息熵。
可选地,设置多个所述候选答案对应的各答案信息熵的统计权重,通过对所述问题信息熵和所述答案信息熵进行加权统计,获取每个答案信息熵对应的所述咨询对象的困惑度。
可选地,获取所述咨询对象的反馈信息,并根据所述反馈信息矫正各所述答案信息熵的统计权重,重新进行加权统计。
可选地,比较各答案信息熵对应的所述困惑度,获取困惑度最小的所述答案信息熵对应的候选答案作为所述最终候选答案。
如上所述,本发明一种信息熵度量问答咨询信息的方法,具有以下有益效果。
综合考虑问题模糊度和候选答案模糊度,采用模糊度量化用户困惑度,更客观地对输出的候选答案进行评价,有利于提高咨询回答的准确性。
附图说明
图1为本发明一实施例中信息熵度量问答咨询信息的方法的流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种信息熵度量问答咨询信息的方法,包括步骤S01-S03。
在步骤S01中,通过询问语句对应的问题语义向量相对于询问语句中问题要素的模糊度获取问题信息熵:
在一实施例中,在计算模糊度之前,需要预先构建知识图谱对询问语句中的问题要素进行识别。可从预设的样本库或互联网上通用的结构化的知识库(如Wikipedia、DBpedia等)中的获取相应的文本信息,并从中提取出实体、关系、实体;实体、关系、属性;实体、属性、属性值等三元组,构建知识图谱。如“小王是A公司部门经理”,小王和A公司是两个实体,部门经理是小王的属性。对于自然语言处理中的三元组提取方法,现有技术已相当成熟,这里不对提取方法作具体限制,以人工词典规则的方法为例,可通过识别人工标注的词典信息,获取相应的三元组信息。
获取三元组信息之前,可先对知识库中的信息进行实体对齐和实体消歧,如小王和王先生,实际上指的是同一个人,但由于文本不一样,可能形成两个实体,通过实体对齐消除多余的实体信息;再如苹果既可以指一种水果也可以表示苹果公司,结合上下文语义进行实体消歧,以保证实体意思表示的单一性和准确性。
在一实施例中,可将询问语句输入知识图谱中,通过知识图谱推理获取询问文本中的多个问题要素信息。将询问语句转化成问题语义向量,并计算问题语义向量与各问题要素间的相似度,根据相似度函数构造第一隶属度函数。如可采用如下隶属度函数,具体表示为:
P(x,yi)=sigmoid(f(x,yi)),i=1,2,...,n
其中,x表示问题语义向量;yi表示第i个问题要素;f(x,yi)表示问题语义向量与问题要素间的相似度函数,n表示问题要素的数量。
在一实施例中,相似度计算可采用欧氏距离、曼哈顿距离或切比雪夫距离中的一种。
在一实施例中,根据隶属度函数与相应的问题要素相乘,计算问题语义相对于各问题要素的模糊度。并设置每个问题要素的权重,根据权重及相应的模糊度获取问题信息熵,信息熵表示如下:
Q=∑wiMilogMi
其中,wi为第i个问题要素的权重;Mi为相应的模糊度。
在步骤S02中,通过询问语句对应的多个候选答案的答案语义向量相对于相应的答案要素的模糊度获取答案信息熵:
在一实施例中,可根据询问语句从预设的文本库中的获取多个候选答案,分别将每个候选答案转化成对应的答案语义向量,并通过前述知识图谱获取各候选答案的答案要素。按照前述构造第一隶属度函数类似的方法获取答案语义向量与对应的各答案要素的第二隶属度函数,进而获取答案语义向量相对于各答案要素的模糊度。
在一实施例中,设置各答案要素的权重,并根据答案要素的权重及模糊度,获取答案信息熵,具体实现方式可参考问题信息熵的获取方式。
在步骤S03中,结合问题信息熵和答案信息熵评估咨询对象的困惑度,根据困惑度获取最终候选答案:
在一实施例中,可设置每个候选答案对应的答案信息熵的统计权重。分别计算每个答案信息熵与问题信息熵的加权统计值。以加权统计值表示用户的困惑度建立咨询问答模型。可设置困惑度阈值,将困惑度达到设定阈值的候选答案按困惑度值由小到大进行排序。困惑度越小,说明用户对候选答案的满意度越高。选取其中困惑度最小的候选答案作为最终候选答案输出给用户。
在一实施例中,还可根据用户对输出答案的反馈信息,调整咨询问答模型。如可在用户终端设置针对答复满意度的调查问卷,用户可通过填写调查问卷对获取的答案满意度进行评估。可设置多个评估选项或直接以评分的方式对答案进行评估。以直接评分方式为例,当用户的评分达到设定阈值时,可判定用户对答案的认可度较高,不用对咨询问答模型进行调整。当用户的评分未达到设定阈值时,将结果反馈给服务器端,进而通过服务器端调整咨询问答模型。具体地,可通过调整各候选答案对应的答案信息熵的统计权重,达到矫正咨询问答模型的目的。调整统计权重后,重新对问题信息熵和相应的答案信息熵的权重进行加权统计,重新选出用户困惑度最小的候选答案作为输出候选答案。
综上所述,本发明一种信息熵度量问答咨询信息的方法,通过构建问答咨询模型并基于用户困惑度对问答咨询的输出答案进行客观评价,可有效避免主观评价标准不统一的问题,可保障输出的稳定性的同时,提高输出答案的准确率;引入模糊度计算信息熵,可有效丰富各要素的语义内容,进一步增强评价的客观性及准确性。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种信息熵度量问答咨询信息的方法,其特征在于,包括:
通过询问语句对应的问题语义向量相对于询问语句中问题要素的模糊度获取问题信息熵,包括:可将询问语句输入知识图谱中,通过知识图谱推理获取询问文本中的多个问题要素,将所述询问语句转化成问题语义向量;通过所述问题语义向量与各所述问题要素的相似度构造第一隶属度函数,根据隶属度函数与相应的问题要素相乘,计算问题语义相对于各问题要素的模糊度,并设置每个问题要素的权重,根据权重及相应的模糊度获取问题信息熵;其中,所述第一隶属度函数具体表示为:
P(x,yi)=sigmoid(f(x,yi)),i=1,2,...,n
其中,x表示问题语义向量;yi表示第i个问题要素;f(x,yi)表示问题语义向量与问题要素间的相似度函数,n表示问题要素的数量;
所述信息熵表示如下:
Q=∑wiMilogMi
其中,wi为第i个问题要素的权重;Mi为相应的模糊度;
通过询问语句对应的多个候选答案的答案语义向量相对于相应的答案要素的模糊度获取答案信息熵,包括:根据询问语句从预设的文本库中的获取多个候选答案,分别将每个候选答案转化成对应的答案语义向量,并通过前述知识图谱获取各候选答案的答案要素;获取答案语义向量与对应的各答案要素的第二隶属度函数,进而获取答案语义向量相对于各答案要素的模糊度,设置各答案要素的权重,并根据答案要素的权重及模糊度,获取答案信息熵;
结合所述问题信息熵和所述答案信息熵评估咨询对象的困惑度,根据所述困惑度获取最终候选答案,包括:设置每个候选答案对应的答案信息熵的统计权重;分别计算每个答案信息熵与问题信息熵的加权统计值,以加权统计值表示用户的困惑度;将困惑度达到设定阈值的候选答案按困惑度值由小到大进行排序,选取其中困惑度最小的候选答案作为最终候选答案输出给用户。
2.根据权利要求1所述的信息熵度量问答咨询信息的方法,其特征在于,获取预设样本库中实体、关系和属性三元组创建知识图谱;
通过所述知识图谱获取所述询问语句中的多个问题要素。
3.根据权利要求2所述的信息熵度量问答咨询信息的方法,其特征在于,将所述询问语句转化成问题语义向量;
通过所述问题语义向量与各所述问题要素的相似度构造第一隶属度函数,获取所述问题语义向量相对于各所述问题要素的模糊度。
4.根据权利要求3所述的信息熵度量问答咨询信息的方法,其特征在于,设置各所述问题要素的权重,根据所述问题要素的权重及模糊度,获取问题信息熵。
5.根据权利要求3所述的信息熵度量问答咨询信息的方法,其特征在于,采用欧式距离、曼哈顿距离或切比雪夫距离获取所述相似度。
6.根据权利要求1所述的信息熵度量问答咨询信息的方法,其特征在于,通过所述询问语句获取多个所述候选答案,并将多个所述候选答案分别转化成对应的答案语义向量;
通过所述知识图谱获取每个所述候选答案中的多个答案要素;
通过所述答案语义向量与对应的各所述答案要素的相似度构造第二隶属度函数,获取答案语义向量相对于对应的各所述答案要素的模糊度。
7.根据权利要求6所述的信息熵度量问答咨询信息的方法,其特征在于,设置各答案要素的权重,并根据所述答案要素的权重及模糊度,获取答案信息熵。
8.根据权利要求1所述的信息熵度量问答咨询信息的方法,其特征在于,设置多个所述候选答案对应的各答案信息熵的统计权重,通过对所述问题信息熵和所述答案信息熵进行加权统计,获取每个答案信息熵对应的所述咨询对象的困惑度。
9.根据权利要求8所述的信息熵度量问答咨询信息的方法,其特征在于,获取所述咨询对象的反馈信息,并根据所述反馈信息矫正各所述答案信息熵的统计权重,重新进行加权统计。
10.根据权利要求8所述的信息熵度量问答咨询信息的方法,其特征在于,比较各答案信息熵对应的所述困惑度,获取困惑度最小的所述答案信息熵对应的候选答案作为所述最终候选答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010311197.6A CN111680134B (zh) | 2020-04-20 | 2020-04-20 | 一种信息熵度量问答咨询信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010311197.6A CN111680134B (zh) | 2020-04-20 | 2020-04-20 | 一种信息熵度量问答咨询信息的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680134A CN111680134A (zh) | 2020-09-18 |
CN111680134B true CN111680134B (zh) | 2023-05-02 |
Family
ID=72451629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010311197.6A Active CN111680134B (zh) | 2020-04-20 | 2020-04-20 | 一种信息熵度量问答咨询信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680134B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114201575B (zh) * | 2022-02-18 | 2022-05-31 | 宏龙科技(杭州)有限公司 | 一种数据收集方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
CN109271495A (zh) * | 2018-08-14 | 2019-01-25 | 阿里巴巴集团控股有限公司 | 问答识别效果检测方法、装置、设备及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030105959A1 (en) * | 2001-12-03 | 2003-06-05 | Matyas Stephen M. | System and method for providing answers in a personal entropy system |
-
2020
- 2020-04-20 CN CN202010311197.6A patent/CN111680134B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271495A (zh) * | 2018-08-14 | 2019-01-25 | 阿里巴巴集团控股有限公司 | 问答识别效果检测方法、装置、设备及可读存储介质 |
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
Non-Patent Citations (3)
Title |
---|
Said Alami Aroussi.Improving question answering systems by using the explicit semantic analysis method.《IEEEXplore》.2016,全文. * |
梁路 ; 滕少华 ; .多属性模糊度量在可用性评估中的研究.江西师范大学学报(自然科学版).2010,(第04期),全文. * |
程亚男 ; 王宇 ; .基于语义情感相似度的问答社区答案排序研究.情报科学.2018,(第08期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111680134A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188351B (zh) | 语句通顺度及句法评分模型的训练方法及装置 | |
CN105989040B (zh) | 智能问答的方法、装置及系统 | |
JP2017120634A (ja) | 情感語極性の分析方法及び装置 | |
CN111695591A (zh) | 基于ai的面试语料分类方法、装置、计算机设备和介质 | |
CN116561538A (zh) | 问答评分方法、问答评分装置、电子设备及存储介质 | |
CN117076688A (zh) | 基于领域知识图谱的知识问答方法及其装置、电子设备 | |
CN111680134B (zh) | 一种信息熵度量问答咨询信息的方法 | |
CN114783421A (zh) | 智能推荐方法和装置、设备、介质 | |
CN112579794B (zh) | 一种为中英文单词对预测义原树的方法及系统 | |
CN111680501B (zh) | 基于深度学习的问询信息识别方法、装置及存储介质 | |
Costa et al. | Automatic classification of computational thinking skills in elementary school math questions | |
CN117422067A (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN108804416B (zh) | 基于机器学习的影评情感倾向性分析的训练方法 | |
CN113704471B (zh) | 语句的分类方法、装置、设备和存储介质 | |
CN114820212A (zh) | 非连续疾病实体抽取方法、装置及电子设备 | |
CN114300127A (zh) | 问诊处理方法、装置、设备及存储介质 | |
CN110069783B (zh) | 一种答题内容评测方法及装置 | |
CN112598202A (zh) | 试题难度评估方法、装置及存储介质、计算设备 | |
CN114330285A (zh) | 语料处理方法、装置、电子设备及计算机可读存储介质 | |
Brew et al. | Automatic evaluation of computer generated text: a progress report on the TextEval project | |
CN112200474A (zh) | 教学质量评价方法、终端设备及计算机可读存储介质 | |
CN112507093B (zh) | 一种语料混淆处理方法、装置及介质 | |
Abdelhamid et al. | Approach for Enneagram personality detection for Twitter text: a case study. | |
CN114925185B (zh) | 交互方法、模型的训练方法、装置、设备及介质 | |
CN114218354A (zh) | 文本分析方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 400000 6-1, 6-2, 6-3, 6-4, building 7, No. 50, Shuangxing Avenue, Biquan street, Bishan District, Chongqing Applicant after: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD. Address before: 400000 2-2-1, 109 Fengtian Avenue, tianxingqiao, Shapingba District, Chongqing Applicant before: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |