CN113128206B - 基于单词重要性加权的问题生成方法 - Google Patents
基于单词重要性加权的问题生成方法 Download PDFInfo
- Publication number
- CN113128206B CN113128206B CN202110454046.0A CN202110454046A CN113128206B CN 113128206 B CN113128206 B CN 113128206B CN 202110454046 A CN202110454046 A CN 202110454046A CN 113128206 B CN113128206 B CN 113128206B
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- text
- words
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 144
- 239000011159 matrix material Substances 0.000 claims description 61
- 238000012163 sequencing technique Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 2
- 235000021152 breakfast Nutrition 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于单词重要性加权的问题生成方法,对文本段落中的每个词进行词频分析,以获取每个词的重要程度,并对输入文本段落中的每个词构建与答案词之间的相对关系,以获取每个词对答案而言的重要性,最后利用词频分析特征与相对关系特征来训练问题生成模型,该方案能更有效地抓取段落中的关键信息生成问题文本,具有良好的应用前景。
Description
技术领域
本发明涉及自然语言生成技术领域,尤其涉及一种基于单词重要性加权的问题生成方法。
背景技术
随着对话机器人、机器人客服等智能人机对话系统的广泛应用,越来越需要计算机系统能够更准确地理解和使用人类语言。“段落-问题-答案”数据是训练计算机模型实现自然语言理解和自然语言生成任务地重要数据来源,然而人工标注数据需要耗费大量的人力、物力、财力,且效率低下、数据总量少。而互联网上拥有海量无标注文本数据,可以从无标注文本段落数据中选择一个或者多个连续的词语作为答案,再使用问题生成技术生成问题,获取海量“段落-问题-答案”数据。因此,问题生成技术具有很高的研究价值与实用价值。
现有的问题生成技术多采用基于预训练语言模型进行微调的方法,然而普遍存在一个问题:无法准确抓取最关键内容,常常从不重要的角度进行提问,生成无价值的问题。这是由于问题生成任务的“一对多”特性所导致的,根据给定的文本段落和答案,人类可以提出多个问题,并且很容易分辨哪些问题有价值,哪些问题无价值,而对计算机系统而言,可以生成问题但是无法判断问题的价值性。生成的问题缺乏实际使用价值会导致整个“段落-问题-答案”数据集的可用性降低。
发明内容
本发明的目的是提供一种基于单词重要性加权的问题生成方法,从词频与单词与答案之间的相对关系两个方面衡量单词的重要性,从而提升生成的问题文本的价值,进而提升“段落-问题-答案”数据集的可用性。
本发明的目的是通过以下技术方案实现的:
一种基于单词重要性加权的问题生成方法,包括:
训练阶段:通过统计数据集中所有文本段落每个单词出现的频率以及单个文本段落中每个单词出现的频率,确定各个文本段落中每个单词的重要程度,并得到重要程度排序向量;同时,对于单个文本段落,通过依存句法分析建立单词与答案之间的相对关系矩阵;将文本段落及相应的问题文本、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至问题生成模型;所述问题生成模型计算问题文本中每个单词的嵌入向量,以及根据文本段落与重要程度排序向量计算文本段落每个单词的嵌入向量,并将所有单词的嵌入向量输入至添加有单词之间的相对关系矩阵的自注意力编码器中,获得所有单词的编码向量构成的隐向量矩阵,最终结合单词的重要程度预测出问题文本中每个单词的概率分布;结合输入的文本段落对应的问题文本与预测出的问题文本中每个单词的概率分布训练问题生成模型,直至满足终止条件;
测试阶段:给定待生成的问题文本的长度,将输入的文本段落、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至训练后的问题生成模型,预测出不超过给定长度的问题文本。
由上述本发明提供的技术方案可以看出,对文本段落中的每个单词进行词频分析,以获取每个单词的重要程度,并对输入文本段落中的每个单词构建与答案词之间的相对关系,以获取每个单词对答案而言的重要性,最后利用词频分析特征与相对关系特征来训练问题生成模型,该方案能更有效地抓取段落中的关键信息生成问题文本,具有良好的应用前景。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于单词重要性加权的问题生成方法训练阶段的流程图;
图2为本发明实施例提供的单词与答案相对关系构建示意图;
图3为本发明实施例提供的相对关系矩阵示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
为了解决现有技术所存在的上述技术缺陷,本发明实施例提供一种基于单词重要性加权的问题生成方法,以提升所生成问题的价值。本发明提出两个方法衡量单词重要性。一个方法是词频分析:比较文本段落中各个单词出现的频率同整个数据集的大量文本中单词出现的频率,并对各个单词进行排名,以此确定文本段落中各单词的重要程度,最后将词频分析的结果作为特征既加到问题生成模型的嵌入向量中,又加到生成结果概率分布的加权调整中。另一个方法是单词与答案之间的相对关系构建:首先对输入的文本段落进行依存句法分析,然后构建每一个单词与答案之间的相对关系路线图,以建立单词之间的逻辑关系,从而捕捉对于答案而言原文中每个单词的重要程度,最后将相对关系以关系矩阵的方式添加到问题生成模型的自注意力编码器中。
本发明实施例提供一种基于单词重要性加权的问题生成方法,包含训练与测试两个阶段,如图1所示,为训练阶段的主要流程,包括:
1、词频分析。通过统计数据集中所有文本段落每个单词出现的频率以及单个文本段落中每个单词出现的频率,确定各个文本段落中每个单词的重要程度,并得到重要程度排序向量。
2、建立相关关系。对于单个文本段落,通过依存句法分析建立单词与答案之间的相对关系矩阵。
3、问题生成。将文本段落、答案及相应的问题文本、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至问题生成模型;所述问题生成模型计算问题文本中每个单词的嵌入向量,以及根据文本段落与重要程度排序向量计算文本段落中每个单词的嵌入向量,并将所有单词的嵌入向量输入至添加有单词之间的相对关系矩阵的自注意力编码器中,获得所有单词的编码向量构成的隐向量矩阵,最终结合单词的重要程度预测出问题文本中每个单词的概率分布;结合输入的文本段落对应的问题文本与预测出的问题文本中每个单词的概率分布训练问题生成模型,直至满足终止条件(例如,训练达到设定次数)。
测试阶段:给定待生成的问题文本的长度,将输入的文本段落、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至训练后的问题生成模型,预测出不超过给定长度的问题文本。
本领域技术人员可以理解,测试阶段与训练阶段都各自具有相应的数据集(称为测试集与训练集),测试阶段利用测试集进行词频分析,以及对各文本段落建立相关关系,操作流程与训练阶段相同,故不再赘述。
为了便于理解,下面针对上述流程中的三个部分做详细的说明。
一、词频分析。
词频分析的优选实施方式如下:
1)统计整个数据集中所有文本段落中每个单词出现的频率,将所有单词按出现的频率降序排序,所得序列向量记为S1。
2)每一文本段落,统计其中每个单词出现的频率,并按频率按出现的降序排序,所得序列向量记为S2。
3)对于每一文本段落,比较其中每个单词在序列向量在S1和S2中的排名,将其在序列向量S2中的排名和其在序列向量S1中的排名作差,得到单词的重要程度D(Ti);之后,将文本段落中各单词按照重要程度降序排序,得到重要程度排序向量ΔS,并以此可以确定各单词在重要程度排序向量中的位置;公式表示为:
D(Ti)=S2(Ti)-S1(Ti)
ΔS=sort(D(Ti)),i=1,…,LT
其中,S2(Ti)表示文本段落中第i个单词Ti在序列向量S2中的排名,S1(Ti)表示文本段落中第i个单词Ti在序列向量S1中的排名,LT为文本段落的长度,sort(.)为排序函数。
上述每个单词的重要程度D(Ti)将作为之后问题生成的加权概率,单词在重要程度排序向量ΔS中的位置也将以嵌入向量的方式加入问题生成模型中编码,具体将在后文进行介绍。
另外,考虑到问题生成阶段生成的单词可能在相应的文本段落以及数据集中都未出现过,因此,将这类未出现过的单词在序列向量S1与S2中的值都记为0,那么相应的重要程度也为0。
二、构建相对关系矩阵。
构建段落中单词之间的相对关系矩阵需要借助依存句法分析任务。本发明实施例中,构建相对关系矩阵时只考虑包含答案的句子,构建相对关系矩阵的优选实施方式如下:
1)提取文本段落中包含答案的句子,并构建单向树:单向树中每个节点表示一个单词,答案中所包含的单词作为根节点词语,两个节点之间的连接表示两个单词之间的单向依存关系;所述答案为文本段落中的连续文本,通常情况下直接在文本段落中进行标记。
2)在得到的单词之间的单向依存关系基础上,对每个单向关系均添加一个反向的关系,形成双向关系的树结构。
3)最后,遍历整个双向关系的树结构,保留其他单词到答案词的路径上的依存关系,而删除答案词到其他单词的路径上的依存关系,剩余的单向关系作为最终的相对关系,并根据最终的相对关系构建相对关系矩阵。
如图2所示,以句子“我有红苹果”为例,展示了相对关系构建的示意图,图2中从左至右的三个部分依次对应上述1)~3)。
以上过程中依存句法分析的实现已有spaCy等较为成熟的现有工具参与实现,亦可使用LSTM、BERT等模型重新训练一个依存句法分析模型。
根据最终的相对关系构建相对关系矩阵,如图3所示。上述过程可表示为:
R=FTree(T)
R为得到的关系矩阵,FTree表示上述基于依存关系树的构建算法,T为输入的单条句子。
三、问题生成。
本部分通过问题生成模型来实现,问题生成模型可以通过在预训练语言模型BERT的基础上进行模型设计来实现。
本发明实施例中,数据集中的每一数据样本InputQG包含了问题文本与文本段落,表示为:
本发明实施例中,所述问题生成模型主要包括:嵌入向量层、编码器层、输出层;其中:
所述嵌入向量层,用于生成问题文本中每个单词的嵌入向量,以及根据文本段落与重要程度排序向量ΔS获得每个单词的嵌入向量;
所述编码器层为添加有单词之间的相对关系矩阵的自注意力编码器,用于根据每个单词的嵌入向量获得每个单词的隐向量,从而构成隐向量矩阵;
所述输出层,用于结合单词的重要程度D(Ti)预测出问题文本中每个单词的概率分布。具体来说:
1、嵌入向量层。
对于问题文本,嵌入向量层将每个单词的词嵌入向量Embword、句子嵌入向量Embsen、以及位置嵌入向量Embpos按元素相加作为最终的嵌入向量Emb,表示为:
Emb=Embword+Embsen+Embpos。
对于文本段落,嵌入向量层将每个单词的词嵌入向量Embword、句子嵌入向量Embsen、位置嵌入向量Embpos、词频排名嵌入向量Embsort按元素相加作为最终的嵌入向量Emb,表示为:
Emb=Embword+Embsen+Embpos+Embsort
其中,词嵌入向量Embword指的是对文本段落或者问题文本中每个单词根据其在词表中的位置序号映射得到一个可训练向量;句子嵌入向量指的是对文本段落或者问题文本中每个单词根据其所在句子的前后顺序映射得到一个可训练的向量;位置嵌入向量指的是对文本段落或者问题文本中每个单词根据其所在数据中的位置映射得到一个可训练的向量;词频排名嵌入向量指的是对文本段落中每个单词根据其在重要程度排序向量ΔS的排名映射得到一个可训练的向量。
2、编码器层。
文本段落与问题文本的各单词的嵌入向量传到编码器层得到每个单词的编码向量,编码器层采用多层Transformer结构。在编码器层,为加强学习单词与单词之间的关联,训练时添加掩码矩阵M,使段落中的单词计算注意力时只考虑段落中的单词,而不考虑问题中的单词;问题中的单词计算注意力时只考虑段落中的单词和问题中自身所在位置之前的单词,而不考虑问题中自身所在位置之后的单词。
此外,将之前得到的相对关系矩阵R经过一个嵌入向量层,使得每一种相对关系映射到一个可训练的相对关系嵌入向量,形成相对关系嵌入向量矩阵De。掩码矩阵M和相对关系嵌入向量矩阵De添加到自注意力编码器的自注意力计算过程中的Key矩阵和Value矩阵中参与编码,自注意力计算过程用公示表示如下:
其中,Attention(.)表示自注意力计算得到的注意力向量,X表示数据在编码器中每层的隐向量,WQ表示Query矩阵,WK表示Key矩阵,WV表示Value矩阵,T为矩阵转置符号;
自注意力编码器输出的编码向量矩阵与一个可训练的词向量矩阵Wtok相乘,作为隐向量矩阵HQG,表示为:
3、输出层。
首先,对于问题文本中每个单词Qj,取其前一个单词Qj-1的位置[j-1]的隐向量HQG[j-1],经过Softmax层后输出Qj的位置上所生成单词的初始概率分布,表示为:
P(Qj)=Softmax(H[i-1])
上述过程中,j=1,…,LQ,以问题文本“我叫小明”为例,输入数据形式为“[CLS],我,叫,小明”,当j=1时,利用“[CLS]”处的隐向量输出“我”这一位置上所生成单词的概率分布。
初始概率分布中包含若干生成单词的概率,将当前生成单词对应的文本段落中的单词记为Tk,k=1,…,LT,并利用单词Tk的重要性程度D(Tk)=S2(Tk)-S1(Tk)对初始概率分布做进一步加权调整,如果当前生成单词在本条文本段落数据中没有对应单词,则生成单词的重要性程度为D(Tl)=S2(Tl)-S1(Tl)=0-S1(Tl),其中,Tl表示当前生成单词,S1(Tl)表示当前生成单词Tl在整个数据集的文本段落中出现的次数:利用所有生成单词对应文本段落中单词的重要性程度按词表的顺序形成差值向量D,乘以一个可训练的参数WD,加到初始概率分布上,再经过Softmax层得到最终的概率分布,表示为:
P′(Qj)=Softmax(P(Qj)+WD*D)。
以具体的示例来介绍上述输出层的原理,本示例中,输入的问题文本为“你午饭吃的什么?”,文本段落为“我早餐吃的面包,午饭吃的米饭”。当j=2时,根据问题文本第1个单词的隐向量,经过Softmax层后输出第2个单词位置上所生成单词的初始概率分布P(Qj);初始概率P(Qj)分布包含了词表中所有单词的概率,假设P(Qj)中早餐、午饭、晚餐三个单词的概率分别是0.6,0.2,0.1;文本段落包含早餐、午饭这两个单词,且之前也已经计算出这两个单词的重要性程度,但是文本段落并不包含晚饭这个单词,因此重要性程度根据其在整个数据集中的词频排序计算,为0-S1(Tk),因此,将这三个单词的重要性程度按词表的顺序形成差值向量D,假设午饭、早餐、晚饭对应的值依次为3、1,-1,可训练的参数WD=0.2,则WD*D后得到午饭、早餐、晚饭对应的值依次为0.6、0.2,-0.2,之后,与初始概率分布P(Qj)相加后,得到早餐、午饭、晚餐三个单词的概率分别是0.6+0.6=1.2,0.2+0.2=0.4,0.1-0.2=-0.1,再经过Softmax层得到最终的概率分布P′(Qj)。
训练过程中采用的损失函数是问题文本中各单词的概率分布与数据集中真实的问题文本的负对数似然的均值,表示为:
其中,Qj表示输入问题文本中第j个位置的单词,也即问题文本中第j个位置的真实标签,P′(Qj)表示预测出的单词Qj的概率分布,即预测出单词是Qj的概率。
测试阶段中,对于输入的文本段落,利用词频分析结果以及相关关系矩阵结合训练后的问题生成模型预测出问题文本;预测时问题文本中每个单词连续生成,最终连接组成一个问题文本,所生成的问题文本长度不超过给定的问题文本的长度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (8)
1.一种基于单词重要性加权的问题生成方法,其特征在于,包括:
训练阶段:通过统计数据集中所有文本段落每个单词出现的频率以及单个文本段落中每个单词出现的频率,确定各个文本段落中每个单词的重要程度,并得到重要程度排序向量;同时,对于单个文本段落,通过依存句法分析建立单词与答案之间的相对关系矩阵;将文本段落及相应的问题文本、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至问题生成模型;所述问题生成模型计算问题文本中每个单词的嵌入向量,以及根据文本段落与重要程度排序向量计算文本段落每个单词的嵌入向量,并将所有单词的嵌入向量输入至添加有单词之间的相对关系矩阵的自注意力编码器中,获得所有单词的编码向量构成的隐向量矩阵,最终结合单词的重要程度预测出问题文本中每个单词的概率分布;结合输入的文本段落对应的问题文本与预测出的问题文本中每个单词的概率分布训练问题生成模型,直至满足终止条件;
测试阶段:给定待生成的问题文本的长度,将输入的文本段落、文本段落的重要程度排序向量与每个单词的重要程度、以及单词与答案之间的相对关系矩阵输入至训练后的问题生成模型,预测出不超过给定长度的问题文本。
2.根据权利要求1所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述通过统计数据集中所有文本段落每个单词出现的频率以及单个文本段落中每个单词出现的频率,确定各个文本段落中每个单词的重要程度以及重要程度排序向量包括:
统计整个数据集中所有文本段落中每个单词出现的频率,将所有单词按出现的频率降序排序,所得序列向量记为S1;
每一文本段落,统计其中每个单词出现的频率,并按频率按出现的降序排序,所得序列向量记为S2;
对于每一文本段落,比较其中每个单词在序列向量在S1和S2中的排名,将其在序列向量S2中的排名和其在序列向量S1中的排名作差,得到单词的重要程度D(Ti);之后,将文本段落中各单词按照重要程度降序排序,得到重要程度排序向量ΔS,并以此可以确定各单词在重要程度排序向量中的位置;公式表示为:
D(Ti)=S2(Ti)-S1(Ti)
ΔS=sort(D(Ti)),i=1,...,LT
其中,S2(Ti)表示文本段落中第i个单词Ti在序列向量S2中的排名,S1(Ti)表示文本段落中第i个单词Ti在序列向量S1中的排名,LT为文本段落的长度,sort(.)为排序函数。
3.根据权利要求1所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述对于单个文本段落,通过依存句法分析建立单词与答案之间的相对关系矩阵的步骤包括:
提取文本段落中包含答案的句子,并构建单向树:单向树中每个节点表示一个单词,答案中所包含的单词作为根节点词语,两个节点之间的连接表示两个单词之间的单向依存关系;所述答案为文本段落中的连续文本;
在得到的单词之间的单向依存关系基础上,对每个单向关系均添加一个反向的关系,形成双向关系的树结构;
最后,遍历整个双向关系的树结构,保留其他单词到答案词的路径上的依存关系,而删除答案词到其他单词的路径上的依存关系,剩余的单向关系作为最终的相对关系,并根据最终的相对关系构建相对关系矩阵。
4.根据权利要求1所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述问题生成模型包括:嵌入向量层、编码器层、输出层;其中:
所述嵌入向量层,用于生成问题文本中每个问题单词的嵌入向量,以及根据文本段落与重要程度排序向量ΔS获得每个段落单词的嵌入向量;
所述编码器层为添加有单词之间的相对关系矩阵的自注意力编码器,用于根据每个单词的嵌入向量获得每个单词的隐向量,从而构成隐向量矩阵;
所述输出层,用于结合单词的重要程度D(Ti)预测出问题文本中每个单词的概率分布。
5.根据权利要求4所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述生成问题文本中每个单词的嵌入向量,以及根据文本段落与重要程度排序向量获得每个单词的嵌入向量包括:
对于问题文本,嵌入向量层将每个单词的词嵌入向量Embword、句子嵌入向量Embsen、以及位置嵌入向量Embpos按元素相加作为最终的嵌入向量Emb,表示为:
Emb=Embword+Embsen+Embpos
对于文本段落,嵌入向量层将每个单词的词嵌入向量Embword、句子嵌入向量Embsen、位置嵌入向量Embpos、词频排名嵌入向量Embsort按元素相加作为最终的嵌入向量Emb,表示为:
Emb=Embword+Embsen+Embpos+Embsort
其中,词嵌入向量Embword指的是对文本段落或者问题文本中每个单词根据其在词表中的位置序号映射得到一个可训练向量;句子嵌入向量指的是对文本段落或者问题文本中每个单词根据其所在句子的前后顺序映射得到一个可训练的向量;位置嵌入向量指的是对文本段落或者问题文本中每个单词根据其所在数据中的位置映射得到一个可训练的向量;词频排名嵌入向量指的是对文本段落中每个单词根据其在重要程度排序向量ΔS的排名映射得到一个可训练的向量。
6.根据权利要求1或4所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述自注意力编码器中还添加有掩码矩阵M,使文本段落中的单词计算注意力时只考虑文本段落中的单词,问题文本中的单词计算注意力时只考虑文本段落中的单词和问题中自身所在位置之前的单词;
相对关系矩阵R经过嵌入向量层,使得每一种相对关系映射到一个可训练的相对关系嵌入向量,形成相对关系嵌入向量矩阵De,掩码矩阵M和相对关系嵌入向量矩阵De添加到自注意力编码器的自注意力计算过程中的Key矩阵和Value矩阵中参与编码,自注意力计算过程用公示表示如下:
其中,Attention(.)表示自注意力计算得到的注意力向量,X表示数据在编码器中每层的隐向量,WQ表示Query矩阵,WK表示Key矩阵,WV表示Value矩阵,T为矩阵转置符号;
自注意力编码器输出的编码向量矩阵与一个可训练的词向量矩阵Wtok相乘,作为隐向量矩阵HQG,表示为:
7.根据权利要求1或4所述的一种基于单词重要性加权的问题生成方法,其特征在于,所述结合单词的重要程度预测出问题文本中每个单词的概率分布包括:
首先,对于问题文本中每个单词Qj,取其前一个单词Qj-1的位置[j-1]的隐向量HQG[j-1],经过Softmax层后输出Qj的位置上所生成单词的初始概率分布,表示为:
P(Qj)=Softmax(H[j-1])
其中,j=1,...,LQ,LQ表示单词的数量
初始概率分布中包含若干生成单词的概率,将当前生成单词对应的文本段落中的单词记为Tk,从而确定单词Tk的重要性程度D(Tk),如果当前生成单词在本条文本段落中没有对应单词,则生成单词的重要性程度为D(Tl)=S2(Tl)-S1(Tl)=0-S1(Tl),其中,Tl表示当前生成单词,S1(Tl)、S2(Tl)各自表示当前生成单词Tl在整个数据集的文本段落、本条文本段落中出现的次数,利用所有生成单词对应文本段落中单词的重要性程度按词表的顺序形成差值向量D,乘以一个可训练的参数WD,加到初始概率分布上,再经过Softmax层得到最终的概率分布,表示为:
P′(Qj)=Softmax(P(Qj)+WD*D)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110454046.0A CN113128206B (zh) | 2021-04-26 | 2021-04-26 | 基于单词重要性加权的问题生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110454046.0A CN113128206B (zh) | 2021-04-26 | 2021-04-26 | 基于单词重要性加权的问题生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113128206A CN113128206A (zh) | 2021-07-16 |
CN113128206B true CN113128206B (zh) | 2022-04-19 |
Family
ID=76779965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110454046.0A Active CN113128206B (zh) | 2021-04-26 | 2021-04-26 | 基于单词重要性加权的问题生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128206B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705208B (zh) * | 2021-09-01 | 2024-05-28 | 国网江苏省电力有限公司电力科学研究院 | 一种基于领域术语和关键句的中文问题自动生成方法及装置 |
CN115169227B (zh) * | 2022-07-04 | 2023-07-07 | 四川大学 | 设计概念生成网络构建方法及概念方案自动生成方法 |
CN115310622B (zh) * | 2022-10-12 | 2023-01-17 | 中国科学技术大学 | 一种基于自适应专家系统的智能问答方法 |
CN115796144B (zh) * | 2023-02-07 | 2023-04-28 | 中国科学技术大学 | 一种基于固定格式的受控文本生成方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10366621B2 (en) * | 2014-08-26 | 2019-07-30 | Microsoft Technology Licensing, Llc | Generating high-level questions from sentences |
CN109684452A (zh) * | 2018-12-25 | 2019-04-26 | 中科国力(镇江)智能技术有限公司 | 一种基于答案与答案位置信息的神经网络问题生成方法 |
CN111813913B (zh) * | 2019-11-27 | 2024-02-20 | 上海交通大学 | 以问题为导向的两阶段问题生成系统 |
CN111949761B (zh) * | 2020-07-06 | 2023-12-26 | 合肥工业大学 | 考虑情感和主题的对话问题生成方法和系统、存储介质 |
CN111930914B (zh) * | 2020-08-14 | 2023-09-12 | 中国工商银行股份有限公司 | 问题生成方法和装置、电子设备以及计算机可读存储介质 |
-
2021
- 2021-04-26 CN CN202110454046.0A patent/CN113128206B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113128206A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113128206B (zh) | 基于单词重要性加权的问题生成方法 | |
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN110796160B (zh) | 一种文本分类方法、装置和存储介质 | |
CN108038107B (zh) | 基于卷积神经网络的语句情感分类方法、装置及其设备 | |
CN109902159A (zh) | 一种基于自然语言处理的智能运维语句相似度匹配方法 | |
CN111859978A (zh) | 一种基于深度学习的情感文本生成方法 | |
US11475225B2 (en) | Method, system, electronic device and storage medium for clarification question generation | |
CN113268561B (zh) | 一种基于多任务联合训练的问题生成方法 | |
CN107220220A (zh) | 用于文本处理的电子设备和方法 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
CN111401084A (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN112784013B (zh) | 一种基于上下文语义的多粒度文本推荐方法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN117216227B (zh) | 基于知识图谱与大语言模型的烟草企业智能信息问答方法 | |
CN112463989B (zh) | 一种基于知识图谱的信息获取方法及系统 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
CN111464881A (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
CN115688879A (zh) | 一种基于知识图谱的智能客服语音处理系统及方法 | |
CN112115242A (zh) | 一种基于朴素贝叶斯分类算法的智能客服问答系统 | |
CN113157919A (zh) | 语句文本方面级情感分类方法及系统 | |
CN114817307A (zh) | 一种基于半监督学习和元学习的少样本nl2sql方法 | |
CN115204143A (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
WO2024051000A1 (zh) | 一种结构化仿真数据生成系统及生成方法 | |
CN115658846A (zh) | 一种适用于开源软件供应链的智能搜索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |