CN111552786B - 一种基于关键词提取的问答工作方法 - Google Patents

一种基于关键词提取的问答工作方法 Download PDF

Info

Publication number
CN111552786B
CN111552786B CN202010301467.5A CN202010301467A CN111552786B CN 111552786 B CN111552786 B CN 111552786B CN 202010301467 A CN202010301467 A CN 202010301467A CN 111552786 B CN111552786 B CN 111552786B
Authority
CN
China
Prior art keywords
word
question
answer
words
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010301467.5A
Other languages
English (en)
Other versions
CN111552786A (zh
Inventor
万里
丁玉杨
秦梦瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202010301467.5A priority Critical patent/CN111552786B/zh
Publication of CN111552786A publication Critical patent/CN111552786A/zh
Application granted granted Critical
Publication of CN111552786B publication Critical patent/CN111552786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于关键词提取的问答工作方法,该方法包括以下步骤:S1,根据给定问题确定内部词及所述内部词所对应的内部词权重;S2,通过所述内部词寻找候选答案集合中的外部词及所述外部词所对应的外部词权重;S3,将得分最高的候选答案作为符合要求的答案。本发明能够根据关键词(内部词和外部词)匹配到最佳的答案,提高效率。

Description

一种基于关键词提取的问答工作方法
技术领域
本发明涉及一种问答技术领域,特别是涉及一种基于关键词提取的问答工作方法。
背景技术
可解释性AI既是一个旧话题,也是一个新话题。上世纪70年代末、80年代初,当时很多的辅助顾问系统已在可解释性上有研究。在人工智能研究之初,科学家们就提出人工智能系统需要能解释,特别是这些人工智能系统参与决定的情况下。但是过去的人工智能系统,它们是以规则、以知识为基础,而这些人工智能系统的规则和知识是人定义的,据此推算出来的结果,人是可以理解的。近几年,深度学习很大程度上推动了人工智能的快速发展,可解释性AI成为一个新的课题。对机器学习,特别是深度学习来说,可解释性AI是一个很大的挑战。为什么可解释性AI这么重要呢?第一,对我们使用者来说,如果人工智能的技术只是提一些建议或者帮助我们做决定,做决定的人他要必须理解,为什么人工智能系统给他们提了这个建议。比如,医生做诊断,要能理解为什么医疗诊断系统做这样的建议。第二,对于受到AI影响的人,如果AI自己做了决定,那些受到决定影响的人要能够理解这个决定。第三,对于开发者来说,理解了深度学习的黑盒子,可以通过提供更好的学习数据,改善方法和模型,提高系统能力。
目前,最近的QA著作都提倡端到端语义匹配方法,这种方法倾向于黑匣子,并直接为每个<问题,答案>对输出匹配分数。通常,问题/答案/评论首先被编码成低维向量表示,然后用于基于一些相关函数(例如,点积)来生成匹配分数。实际上,在开放领域中,几乎所有最新的答案选择方式都属于此类,例如,依靠深度神经网络(DNN)中的隐藏单元来表示QA句子对的相关性。尽管这种方式现在非常流行,但是end2end范式由于缺乏可解释性而受到挑战。即使最近做出了许多努力,仍然很难解释密集的矢量表示或答案与问题如何匹配。同时,不同的注意力机制已被整合到DNN模型中,以关联两个句子中的相关部分。尽管在某种程度上,中间注意力可以帮助揭示两个句子之间的软对齐方式,但是由于注意力得分和输出之间存在非线性关系,因此模型的透明度仍然较低。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于关键词提取的问答工作方法。
为了实现本发明的上述目的,本发明提供了一种基于关键词提取的问答工作方法,包括以下步骤:
S1,根据给定问题确定内部词及所述内部词所对应的内部词权重;
S2,通过所述内部词寻找候选答案集合中的外部词及所述外部词所对应的外部词权重;
S3,将得分最高的候选答案作为符合要求的答案。
在本发明的一种优选实施方式中,步骤S1包括根据给定问题确定问题单词的权重方法,其方法为:
将给定问题q转化为问题单词序列[q1,q2,q3,…,qn];
然后使用Bert神经网络进行编码,问题单词序列进行编码之后输出为
Figure GDA0003067484130000022
Figure GDA0003067484130000021
再将输出通过具有sigmoid输出层的全连接前馈网络,输出问题单词序列的权重fint(qi|q)。
在本发明的一种优选实施方式中,问题单词的权重计算方法为:
Figure GDA0003067484130000031
其中,W表示权重矩阵;
Figure GDA0003067484130000032
表示问题单词qi使用Bert神经网络进行编码后得到的结果;所述i为小于或者等于n的正整数;
b表示偏移量;
si表示将编码结果
Figure GDA0003067484130000033
通过具有sigmoid输出层的全连接前馈网络后得到的结果;
Figure GDA0003067484130000034
fint(qi|q)表示给定问题q中问题单词qi的权重。
在本发明的一种优选实施方式中,在步骤S1中还包括计算<q,a>对的精确成对匹配分数,即所有内部词的加权和;
其<q,a>对的精确成对匹配分数的计算方法为:
Figure GDA0003067484130000035
当qi在a中出现,即qi∈a,则I(qi∈a)=1;此时qi为内部词;
当qi未在a中出现,即
Figure GDA0003067484130000038
,则I(qi∈a)=0;此时舍去qi
其中,sEPM(q,a)表示<q,a>对的精确成对匹配分数;
a表示候选答案;
精确成对匹配的目的是为正确答案分配比错误答案更高的分数,从而指导fint(qi|q)对出现在正确答案中但不在其他候选答案中的单词赋予更多的权重,使用标准的交叉熵损失函数,将其最小化:
Figure GDA0003067484130000036
其中,a+表示给出的候选答案为正确答案;
Figure GDA0003067484130000037
表示给出的候选答案为错误答案的集合;
sEPM(q,a+)表示<q,a+>对的精确成对匹配分数。
在本发明的一种优选实施方式中,
Figure GDA0003067484130000041
当qi在a+中出现,即qi∈a+,则I(qi∈a+)=1;此时qi为内部词;
当qi未在a+中出现,即
Figure GDA0003067484130000042
则I(qi∈a+)=0;此时舍去qi
其中,sEPM(q,a+)表示<q,a+>对的精确成对匹配分数。
在本发明的一种优选实施方式中,步骤S2包括根据候选答案集合确定词对<qi,aj>的相似性方法,其方法为:
把候选答案a转化为候选答案单词序列[a1,a2,a3,…,am],m为候选答案a中候选答案单词的总个数;
然后使用Bert神经网络进行编码,候选答案单词序列进行编码之后输出为
Figure GDA0003067484130000043
Figure GDA00030674841300000413
用fext(qi,aj|q,a)来评量词对<qi,aj>的相似性。
在本发明的一种优选实施方式中,在步骤S2中词对〈qi,aj>的相似性的计算方法为:
Figure GDA0003067484130000044
其中,fext(qi,aj|q,a)表示评量词对〈qi,aj>的相似性;
Figure GDA0003067484130000045
表示问题单词qi使用Bert神经网络进行编码后得到的结果;
Figure GDA0003067484130000046
表示答案单词aj使用Bert神经网络进行编码后得到的结果;
Figure GDA0003067484130000047
表示
Figure GDA0003067484130000048
的转置矩阵;
Figure GDA0003067484130000049
表示
Figure GDA00030674841300000410
的长度;
Figure GDA00030674841300000411
表示
Figure GDA00030674841300000412
的长度。
在本发明的一种优选实施方式中,在步骤S2中还包括问答对之间的匹配程度;
其问答对之间的匹配程度的计算方法为:
Figure GDA0003067484130000051
其中,fint(qi|q)表示给定问题q中问题单词qi的权重;
max表示选取最大的值;
使用标准的交叉熵损失函数:
Figure GDA0003067484130000052
sSPM(q,a+)表示〈q,a+>对的软匹配分数;
sSPM(q,a)表示〈q,a>对的软匹配分数;
最小化损失函数就是我们的目标函数:
Figure GDA0003067484130000053
其中,min表示选取最小的值,
Θ表示网络里训练得到的参数。
在本发明的一种优选实施方式中,在步骤S3中包括:
设内部词集合为
Figure GDA0003067484130000054
所述n′为内部词的总个数,外部词对应的内部词权重集合为
Figure GDA0003067484130000055
设外部词集合为
Figure GDA0003067484130000056
所述m′为外部词的总个数,外部词对应的外部词权重集合为
Figure GDA0003067484130000057
存在候选答案集合为C={c1,c2,c3,…,cu},u为候选答案的总个数,求相似度最高的答案;这个问题用数学公式表示如下:
Figure GDA0003067484130000058
P()表示概率;
其中,argmax表示求出的最大值的集合;
c表示候选答案集合中的一个候选答案;
d表示关键词;关键词代表的是一个问题中的所有词对获取答案的重要程度,重要程度高的便是关键词,如果这些词对应的也出现在答案里,则是内部词,如果出现在答案中的词和关键词有联系但不是关键词就是外部词,关键词是针对问题而言,内部和外部词针对答案而言。
其中,
Figure GDA0003067484130000066
就是在所有的候选答案中C={c1,c2,c3,…,cu},使得条件概率P(c|d)取最大值的答案;使用Bayesian公式转化成如下公式:
Figure GDA0003067484130000061
对候选答案集合C中的每个候选答案,计算P(d|c)P(c)/P(d)的值,然后选取最大值对应的那个答案cmax,该cmax就是最优解c,因此,可以忽略掉分母P(d),又因为对于每个候选答案来说,P(c)的值一样,所以,公式可以变成如下形式:
Figure GDA0003067484130000062
假设关键词之间相互独立,则公式可以改写为:
Figure GDA0003067484130000063
其中,qi表示关键词;
η表示关键词集合;
wi表示关键词权重;
由于每个概率很小,避免计算过程中出现下溢,引入对数函数,得到下面公式:
Figure GDA0003067484130000064
由于关键词分为外部词和内部词,所以分开计算然后求和作为候选答案的得分,最高得分的候选答案便是最符合要求的答案,
Figure GDA0003067484130000065
综上所述,由于采用了上述技术方案,本发明能够根据关键词(内部词和外部词)匹配到最佳的答案,提高效率。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明流程示意框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明提供了一种基于关键词提取的问答工作方法,如图1所示,包括以下步骤:
S1,根据给定问题确定内部词及所述内部词所对应的内部词权重;
S2,通过所述内部词寻找候选答案集合中的外部词及所述外部词所对应的外部词权重;
S3,将得分最高的候选答案作为符合要求的答案。
在本发明的一种优选实施方式中,步骤S1包括根据给定问题确定问题单词的权重方法,其方法为:
将给定问题q转化为问题单词序列[q1,q2,q3,…,qn],n为给定问题q中问题单词的总个数;
然后使用Bert神经网络进行编码,问题单词序列进行编码之后输出为
Figure GDA0003067484130000071
Figure GDA0003067484130000081
再将输出通过具有sigmoid输出层的全连接前馈网络,输出问题单词序列的权重fint(qi|q)。
在本发明的一种优选实施方式中,问题单词的权重计算方法为:
Figure GDA0003067484130000082
其中,σ表示sigmoid函数;
W表示权重矩阵;
Figure GDA0003067484130000083
表示问题单词qi使用Bert神经网络进行编码后得到的结果;所述i为小于或者等于n的正整数;
b表示偏移量;
si表示将编码结果
Figure GDA0003067484130000084
通过具有sigmoid输出层的全连接前馈网络后得到的结果;
Figure GDA0003067484130000085
fint(qi|q)表示给定问题q中问题单词qi的权重。
在本发明的一种优选实施方式中,在步骤S1中还包括计算<q,a>对的精确成对匹配分数,即所有内部词的加权和;
其<q,a>对的精确成对匹配分数的计算方法为:
Figure GDA0003067484130000086
当qi在a中出现,即qi∈a,则I(qi∈a)=1;此时qi为内部词;
当qi未在a中出现,即
Figure GDA0003067484130000087
,则I(qi∈a)=0;此时舍去qi
其中,sEPM(q,a)表示<q,a>对的精确成对匹配分数;
a表示候选答案;
精确成对匹配的目的是为正确答案分配比错误答案更高的分数,从而指导fint(qi|q)对出现在正确答案中但不在其他候选答案中的单词赋予更多的权重,使用标准的交叉熵损失函数,将其最小化:
Figure GDA0003067484130000091
其中,a+表示给出的候选答案为正确答案;
Figure GDA0003067484130000099
表示给出的候选答案为错误答案的集合;
sEPM(q,a+)表示<q,a+>对的精确成对匹配分数。
在本发明的一种优选实施方式中,
Figure GDA0003067484130000092
当qi在a+中出现,即qi∈a+,则I(qi∈a+)=1;此时qi为内部词;
当qi未在a+中出现,即
Figure GDA0003067484130000093
则I(qi∈a+)=0;此时舍去qi
其中,sEPM(q,a+)表示<q,a+>对的精确成对匹配分数。
在本发明的一种优选实施方式中,步骤S2包括根据候选答案集合确定词对<qi,aj>的相似性方法,其方法为:
把候选答案a转化为候选答案单词序列[a1,a2,a3,…,am],m为候选答案a中候选答案单词的总个数;
然后使用Bert神经网络进行编码,候选答案单词序列进行编码之后输出为
Figure GDA0003067484130000094
Figure GDA0003067484130000095
用fext(qi,aj|q,a)来评量词对<qi,aj>的相似性。
在本发明的一种优选实施方式中,在步骤S2中词对<qi,aj>的相似性的计算方法为:
Figure GDA0003067484130000096
其中,fext(qi,aj|q,a)表示评量词对<qi,aj>的相似性;
Figure GDA0003067484130000097
表示问题单词qi使用Bert神经网络进行编码后得到的结果;
Figure GDA0003067484130000098
表示答案单词aj使用Bert神经网络进行编码后得到的结果;
Figure GDA0003067484130000101
表示
Figure GDA0003067484130000102
的转置矩阵;
Figure GDA0003067484130000103
表示
Figure GDA0003067484130000104
的长度;
Figure GDA0003067484130000105
表示
Figure GDA0003067484130000106
的长度。
在本发明的一种优选实施方式中,在步骤S2中还包括问答对之间的匹配程度;
其问答对之间的匹配程度的计算方法为:
Figure GDA0003067484130000107
其中,fint(qi|q)表示给定问题q中问题单词qi的权重;
max表示选取最大的值;
其fext(qi,aj|q,a)在当qi在a中出现,所述i为小于或者等于n的正整数,此时qi为内部词;并在条件1≤j≤m,
Figure GDA0003067484130000108
时,fext(qi,aj|q,a)取最大值时,则aj为外部词;
Figure GDA0003067484130000109
Figure GDA00030674841300001010
为外部词权重;
当φ=j时,I(φ=j)=1,否则I(φ=j)=0;
使用标准的交叉熵损失函数:
Figure GDA00030674841300001011
sSPM(q,a+)表示<q,a+>对的软匹配分数;
sSPM(q,a)表示<q,a>对的软匹配分数;
最小化损失函数就是我们的目标函数:
Figure GDA00030674841300001012
其中,min表示选取最小的值,
Θ表示网络里训练得到的参数。
在本发明的一种优选实施方式中,在步骤S3中包括:
设内部词集合为
Figure GDA0003067484130000111
所述n′为内部词的总个数,外部词对应的内部词权重集合为
Figure GDA0003067484130000112
Figure GDA0003067484130000113
设外部词集合为
Figure GDA0003067484130000114
所述m′为外部词的总个数,外部词对应的外部词权重集合为
Figure GDA0003067484130000115
Figure GDA0003067484130000116
存在候选答案集合为C={c1,c2,c3,…,cu},u为候选答案的总个数,求相似度最高的答案;这个问题用数学公式表示如下:
Figure GDA0003067484130000117
P()表示概率;
其中,argmax表示求出的最大值的集合;
c表示候选答案集合中的一个候选答案;
d表示关键词;
其中,
Figure GDA00030674841300001111
就是在所有的候选答案中C={c1,c2,c3,…,cu},使得条件概率P(c|d)取最大值的答案;使用Bayesian公式转化成如下公式:
Figure GDA0003067484130000118
对候选答案集合C中的每个候选答案,计算P(d|c)P(c)/P(d)的值,然后选取最大值对应的那个答案cmax,该cmax就是最优解c,因此,可以忽略掉分母P(d),又因为对于每个候选答案来说,P(c)的值一样,所以,公式可以变成如下形式:
Figure GDA0003067484130000119
假设关键词之间相互独立,则公式可以改写为:
Figure GDA00030674841300001110
其中,qi表示关键词;
η表示关键词集合;
wi表示关键词权重;
由于每个概率很小,避免计算过程中出现下溢,引入对数函数,得到下面公式:
Figure GDA0003067484130000121
由于关键词分为外部词和内部词,所以分开计算然后求和作为候选答案的得分,最高得分的候选答案便是最符合要求的答案,
Figure GDA0003067484130000122
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (8)

1.一种基于关键词提取的问答工作方法,其特征在于,包括以下步骤:
S1,根据给定问题确定内部词及所述内部词所对应的内部词权重;以及计算<q,a>对的精确成对匹配分数,即所有内部词的加权和;
其<q,a>对的精确成对匹配分数的计算方法为:
Figure FDA0003067484120000011
当qi在a中出现,即qi∈a,则I(qi∈a)=1;此时qi为内部词;
当qi未在a中出现,即
Figure FDA0003067484120000012
则I(qi∈a)=0;此时舍去qi
其中,sEPM(q,a)表示<q,a>对的精确成对匹配分数;
a表示候选答案;
精确成对匹配的目的是为正确答案分配比错误答案更高的分数,从而指导fint(qi|q)对出现在正确答案中但不在其他候选答案中的单词赋予更多的权重,使用标准的交叉熵损失函数,将其最小化:
Figure FDA0003067484120000013
其中,a+表示给出的候选答案为正确答案;
Figure FDA0003067484120000014
表示给出的候选答案为错误答案的集合;
sEPM(q,a+)表示<q,a+>对的精确成对匹配分数;
S2,通过所述内部词寻找候选答案集合中的外部词及所述外部词所对应的外部词权重;
S3,将得分最高的候选答案作为符合要求的答案。
2.根据权利要求1所述的基于关键词提取的问答工作方法,其特征在于,步骤S1包括根据给定问题确定问题单词的权重方法,其方法为:
将给定问题q转化为问题单词序列[q1,q2,q3,…,qn];
然后使用Bert神经网络进行编码,问题单词序列进行编码之后输出为
Figure FDA0003067484120000021
Figure FDA0003067484120000022
再将输出通过具有sigmoid输出层的全连接前馈网络,输出问题单词序列的权重fint(qi|q),fint(qi|q)也即是表示给定问题q中问题单词qi的权重。
3.根据权利要求2所述的基于关键词提取的问答工作方法,其特征在于,问题单词的权重计算方法为:
Figure FDA0003067484120000023
其中,W表示权重矩阵;
Figure FDA0003067484120000024
表示问题单词qi使用Bert神经网络进行编码后得到的结果;所述i为小于或者等于n的正整数;
b表示偏移量;
si表示将编码结果
Figure FDA0003067484120000025
通过具有sigmoid输出层的全连接前馈网络后得到的结果;
Figure FDA0003067484120000026
fint(qi|q)表示给定问题q中问题单词qi的权重。
4.根据权利要求1所述的基于关键词提取的问答工作方法,其特征在于,
Figure FDA0003067484120000027
当qi在a+中出现,即qi∈a+,则I(qi∈a+)=1;此时qi为内部词;
当qi未在a+中出现,即
Figure FDA0003067484120000028
则I(qi∈a+)=0;此时舍去qi
其中,sEPM(q,a+)表示<q,a+>对的精确成对匹配分数。
5.根据权利要求1所述的基于关键词提取的问答工作方法,其特征在于,步骤S2包括根据候选答案集合确定词对<qi,aj>的相似性方法,其方法为:
把候选答案a转化为候选答案单词序列[a1,a2,a3,…,am],m为候选答案a中候选答案单词的总个数;
然后使用Bert神经网络进行编码,候选答案单词序列进行编码之后输出为
Figure FDA0003067484120000031
Figure FDA0003067484120000032
用fext(qi,aj|q,a)来评量词对<qi,aj>的相似性。
6.根据权利要求5所述的基于关键词提取的问答工作方法,其特征在于,在步骤S2中词对<qi,aj>的相似性的计算方法为:
Figure FDA0003067484120000033
其中,fext(qi,aj|q,a)表示评量词对<qi,aj>的相似性;
Figure FDA0003067484120000034
表示问题单词qi使用Bert神经网络进行编码后得到的结果;
Figure FDA0003067484120000035
表示答案单词aj使用Bert神经网络进行编码后得到的结果;
Figure FDA0003067484120000036
表示
Figure FDA0003067484120000037
的转置矩阵;
Figure FDA0003067484120000038
表示
Figure FDA0003067484120000039
的长度;
Figure FDA00030674841200000310
表示
Figure FDA00030674841200000311
的长度。
7.根据权利要求6所述的基于关键词提取的问答工作方法,其特征在于,在步骤S2中还包括问答对之间的匹配程度;
其问答对之间的匹配程度的计算方法为:
Figure FDA00030674841200000312
其中,fint(qi|q)表示给定问题q中问题单词qi的权重;
max表示选取最大的值;
使用标准的交叉熵损失函数:
Figure FDA00030674841200000313
sSPM(q,a+)表示<q,a+>对的软匹配分数;
sSPM(q,a)表示<q,a>对的软匹配分数;
最小化损失函数就是我们的目标函数:
Figure FDA0003067484120000041
其中,min表示选取最小的值,
Θ表示网络里训练得到的参数。
8.根据权利要求1所述的基于关键词提取的问答工作方法,其特征在于,在步骤S3中包括:
设内部词集合为
Figure FDA0003067484120000042
所述n′为内部词的总个数,外部词对应的内部词权重集合为
Figure FDA0003067484120000043
设外部词集合为
Figure FDA0003067484120000044
所述m′为外部词的总个数,外部词对应的外部词权重集合为
Figure FDA0003067484120000045
存在候选答案集合为C={c1,c2,c3,…,cu},u为候选答案的总个数,求相似度最高的答案;这个问题用数学公式表示如下:
Figure FDA0003067484120000046
P()表示概率;
其中,argmax表示求出的最大值的集合;
c表示候选答案集合中的一个候选答案;
d表示关键词;
其中,
Figure FDA0003067484120000047
就是在所有的候选答案中C={c1,c2,c3,…,cu},使得条件概率P(c|d)取最大值的答案;使用Bayesian公式转化成如下公式:
Figure FDA0003067484120000048
对候选答案集合C中的每个候选答案,计算P(d|c)P(c)/P(d)的值,然后选取最大值对应的那个答案cmax,该cmax就是最优解c,因此,可以忽略掉分母P(d),又因为对于每个候选答案来说,P(c)的值一样,所以,公式可以变成如下形式:
Figure FDA0003067484120000051
假设关键词之间相互独立,则公式可以改写为:
Figure FDA0003067484120000052
其中,qi表示关键词;
η表示关键词集合;
wi表示关键词权重;
由于每个概率很小,避免计算过程中出现下溢,引入对数函数,得到下面公式:
Figure FDA0003067484120000053
由于关键词分为外部词和内部词,所以分开计算然后求和作为候选答案的得分,最高得分的候选答案便是最符合要求的答案,
Figure FDA0003067484120000054
CN202010301467.5A 2020-04-16 2020-04-16 一种基于关键词提取的问答工作方法 Active CN111552786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010301467.5A CN111552786B (zh) 2020-04-16 2020-04-16 一种基于关键词提取的问答工作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010301467.5A CN111552786B (zh) 2020-04-16 2020-04-16 一种基于关键词提取的问答工作方法

Publications (2)

Publication Number Publication Date
CN111552786A CN111552786A (zh) 2020-08-18
CN111552786B true CN111552786B (zh) 2021-07-09

Family

ID=72000025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010301467.5A Active CN111552786B (zh) 2020-04-16 2020-04-16 一种基于关键词提取的问答工作方法

Country Status (1)

Country Link
CN (1) CN111552786B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562792B (zh) * 2017-07-31 2020-01-31 同济大学 一种基于深度学习的问答匹配方法
US11080598B2 (en) * 2018-05-15 2021-08-03 Sap Se Automated question generation using semantics and deep learning
CN108920456B (zh) * 2018-06-13 2022-08-30 北京信息科技大学 一种关键词自动抽取方法
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN110647619B (zh) * 2019-08-01 2023-05-05 中山大学 一种基于问题生成和卷积神经网络的常识问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向高考志愿的问答技术研究;刘金平;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200215;第I138-2123页 *

Also Published As

Publication number Publication date
CN111552786A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN110838368B (zh) 一种基于中医临床知识图谱的主动问诊机器人
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN110069631A (zh) 一种文本处理方法、装置以及相关设备
CN110111864B (zh) 一种基于关系模型的医学报告生成系统及其生成方法
CN110991190B (zh) 一种文档主题增强系统、文本情绪预测系统和方法
CN112309528B (zh) 一种基于视觉问答方法的医疗影像报告生成方法
CN112271001A (zh) 一种应用异构图神经网络的医疗咨询对话系统及方法
CN112307168A (zh) 基于人工智能的问诊会话处理方法、装置和计算机设备
CN108764671B (zh) 一种基于自建语料库的创造能力评测方法和装置
WO2023029501A1 (zh) 智能问诊方法、装置、电子设备及存储介质
CN109741824A (zh) 一种基于机器学习的医疗问诊方法
CN112035627B (zh) 自动问答方法、装置、设备及存储介质
CN114676233A (zh) 基于骨骼肌知识图谱的医疗自动问答方法
CN113111152A (zh) 一种基于知识蒸馏和情绪集成模型的抑郁症检测方法
CN115130465A (zh) 文献数据集上知识图谱实体标注错误识别方法和系统
CN116992002A (zh) 一种智能护理方案应答方法及系统
CN116052858A (zh) 一种基于bert和特征融合的智能导诊方法
CN115630649A (zh) 一种基于生成模型的医学中文命名实体识别方法
CN116911300A (zh) 语言模型预训练方法、实体识别方法和装置
CN118262874A (zh) 一种基于知识图谱的中医诊疗模型数据扩充系统及方法
CN117497140B (zh) 一种基于细粒度提示学习的多层次抑郁状态检测方法
CN115171870A (zh) 一种基于m-BERT预训练模型的就诊引导提示方法及系统
CN111552786B (zh) 一种基于关键词提取的问答工作方法
CN111813907A (zh) 一种自然语言问答技术中的问句意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant