CN114048309A - 一种问题驱动的社交网络答案摘要自动生成方法与装置 - Google Patents

一种问题驱动的社交网络答案摘要自动生成方法与装置 Download PDF

Info

Publication number
CN114048309A
CN114048309A CN202111365252.0A CN202111365252A CN114048309A CN 114048309 A CN114048309 A CN 114048309A CN 202111365252 A CN202111365252 A CN 202111365252A CN 114048309 A CN114048309 A CN 114048309A
Authority
CN
China
Prior art keywords
answer
question
abstract
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111365252.0A
Other languages
English (en)
Inventor
杨鹏
李冰
陈维威
于晓潭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202111365252.0A priority Critical patent/CN114048309A/zh
Publication of CN114048309A publication Critical patent/CN114048309A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种问题驱动的社交网络答案摘要自动生成方法,所述方法包括以下步骤:步骤1:社交网络文本采集;步骤2:数据预处理;步骤3:模型训练;步骤4:模型测试与文本生成,本发明能够改善传统摘要生成方法中过度依赖语义关联性而导致泛化能力低和缺乏可推理性等问题,进而提升生成摘要的可读性、流畅性和简洁性。

Description

一种问题驱动的社交网络答案摘要自动生成方法与装置
技术领域
本发明涉及一种问题驱动的社交网络答案摘要自动生成方法与装置,属于互联网和人工智能技术领域。
背景技术
随着互联网技术的飞速发展,社交媒体称为人们快速发布和获取信息的重要平台,随之带来各种网络知识查询平台上信息量的爆炸式增长。这些需要复杂答案的开放式问题被定义为非事实性问题,比如描述、观点或解释,该类问题所对应的答案中往往包含多个句子或段落,包括很多分析和解释,导致答案十分冗长,并呈现了大量无意义的信息,从而造成了阅读困难和理解偏差。因此,对于非事实类问答,根据问题,对答案进行全面分析、抽取、提炼出重要的信息,从而生成简短而清晰的答案摘要呈现给用户,可以有效帮助用户迅速、方便的获得所需,提高社交平台的体验感。
摘要生成主要分为抽取式摘要模型和生成式摘要模型。抽取式摘要模型是从源文档中提取关键字或目的句,通过合理拼接形成摘要。这种方法更适合于新闻或文章类的事实类内容总结,不能保证总结信息的一致性。然而,与事实问答不同的是,非事实类文本包含非正式的写作风格、嘈杂信息以及答案推理的过程,并且很难用抽取式摘要很好地建模答案。另外,由于答案中不同句子的贡献值不同,要求模型具有良好的泛化推理性能。
生成式摘要模型最典型的模型为序列到序列(sequence-to-sequence,seq2seq)的模型。该模型由编码器和解码器组成。首先通过编码器将输入的文本转化为文本编码为能代表语义信息的向量,然后通过解码器将状态向量解码并生成摘要。然而,多数研究者都将研究集中在如何利用注意力机制获取重要信息或将问题添加到注意力机制中,这种做法只注重从整体上看问题的答案,缺乏对问题语义表征的分析和推理,导致抽象的可解释性较弱。此外,如果不考虑相邻句子语义依赖关系,随机进行多跳推理,往往会导致信息跨度过大,大大降低模型的计算效率。
为此,本发明在seq2seq模型的基础上,尝试将自然语言中相邻句子的语义继承结构引入到文本信息推理的注意机制中。提出了一种分层滑动融合推理模块,该模块打破传统的多跳机制,采用顺序滑动融合机制,能保证降低算法的复杂度的同时,为句子之间的表示提供了可推理性的多层深度表示。此外,打破传统的方法中只关注源文本的惯例,在指针生成网络中引入了与源文本相关的问题表示,以扩展源文本池。有效地提高摘要的性能和流畅性,使生成的摘要更接近人类自然语言的流畅表达,并能简明准确地回答对应的问题。
发明内容
为了解决现有技术中存在的问题与不足,本发明提出一种问题驱动的社交网络答案摘要自动生成方法,利用分层滑动推理模块选择答案中与问题相关度最高,且包含重要关键信息的句子,为答案摘要的生成提供可解释性;并通过双驱动选择生成器生成答案摘要。
为了实现上述目的,本发明的技术方案如下:一种问题驱动的社交网络答案摘要自动生成方法,包括如下步骤:
步骤1:社交网络文本采集,通过互联网采集多篇社交网络文本,积累样本数据集,数据集中的一个样本包括社交网络文本中的问题和答案,以及答案所对应的标准答案摘要;
步骤2:数据预处理,对数据集中每一个样本进行预处理,并构造三元组数据,一个三元组数据包括问题,答案原文,以及答案标准的摘要;
步骤3:模型训练,首先将问题和答案进行分句处理,并利用Glove进行编码,生成嵌入向量转,然后在编码层,利用Bi-LSTM编码器对其进行编码,获得上下文语义信息。接着在推理层,通过滑动融合机制将问题与答案中的相邻句子进行多层次信息表示融合,并再次通过Bi-LSTM编码器进行融合后的语义编码,然后利用cross-attention机制将融合编码后的问题与答案中的关键信息赋予不同的权重,以便于在解码阶段进行二次加权。最后在生成层,设计了一种双驱动的选择生成器,将问题和答案都加入到复制池中,便于让生成的摘要能从问题和答案两方面寻找合适的单词。最后利用联合训练损失函数训练所述模型;
步骤4:模型测试与文本生成,根据训练所得到的最佳模型,对待摘要的文本进行摘要生成。先对测试文本进行预处理,然后根据步骤2构建模型的输入形式,最后根据步骤3中训练好的摘要生成模型,生成测试文本的摘要。并对生成的摘要与参考的答案摘要进行比较,利用ROUGE评价标准进行评价,检验生成摘要的性能。
一种问题驱动的社交网络答案摘要自动生成装置,所述装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的用于答案摘要生成的问题驱动的分层滑动推理生成器
相对于现有技术,本发明的优点如下:
(1)本发明采用的基于问题驱动的答案摘要自动生成技术,构建分层滑动推理生成器,将自然语言中句子的语义继承结构引入到文本信息推理的注意机制中,使相邻句子在语义上能紧密对应,进而保证在解码阶段生成摘要的可解释性;此外,打破传统的多跳机制,采用顺序滑动融合机制,降低算法的复杂度的同时,为句子之间的语义表示提供了更深层次的理解;
(2)本发明打破了以往只关注源文本的惯例,在指针生成网络中引入与源文本相关的问题表示,以扩展源文本池。有效地提高摘要的性能和流畅性,使生成的摘要更接近人类自然语言的流畅表达,简明准确地回答了所对应的问题。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的整体模型图。
图3为本发明实施例涉及的问题与答案双驱动选择生成器模型图。
图4为本发明实施例涉及的答案摘要中词关键信息示例图。
具体实施方式
为了加深对本发明的认识和理解,下面结合具体实施例,进一步阐明本发明。
实施例1:一种问题驱动的社交网络答案摘要自动生成方法,该方法首先,对互联网中的社交网络文本进行采集和预处理;接着,采用一个分层滑动融合推理方法,对与问题相关度最高的答案中的句子信息进行表示,为摘要生成解码阶段的句子选择提供更深层次的可解释性基础,并能保证在遵循语义继承结构的前提下提高计算性能;最后,为了提高生成摘要的流畅性和可读性,通过构建一个双驱动的选择生成器来生成摘要,该选择生成器一方面将问题整合到源文本中,以此提高生成摘要的流畅性,另一方面采用问题和答案双驱动覆盖机制来跟踪生成的内容,防止重复并提高可读性;具体模型参见图2、图3,详细实施步骤如下:
步骤1,社交网络文本采集。为了保证数据的多样性与普适性,本实施首先从社交网络平台中抓取大量的问答文本,并根据人工规则生成答案的标准摘要。问题,答案与标准答案摘要共同组成样本数据集D。标准答案摘要的生成规则主要是利用“众包”技术对答案进行摘要,形成标准答案摘要。最后将所有得到的数据按照8:1:1进行分割形成训练集、验证集和测试集。
步骤2,数据预处理。为了能保证数据更适用于所设计的模型训练。首先对数据进行数据清洗,保留只包含问题、正确答案以及正确答案的摘要的数据,利用nltk库对问题和正确答案进行分句处理,并剔除只包含两句以下的数据组,以便于后续进行消融实验的验证。最后,将数据集分别处理为三元组的形式,以便于后续步骤的应用。
步骤3,模型训练。利用步骤2处理后的数据集对问题驱动下的分层滑动推理生成器进行训练,该步骤的实施可以分为以下子步骤:
子步骤3-1,构建数据层。将三元组利用预训练的Glove对问题和答案中的每个单词序列转化为词向量表示,构建50k的词汇表,并分别得到映射后的问题词向量序列Eq,答案词向量序列Ea,其中答案中的句子级别的词向量序列为
Figure BDA0003360458710000041
子步骤3-2,构建文本编码层。本实施采用一个双层Bi-LSTM循环神经网络编码器分别对问题词向量序列Eq和答案词向量序列Ea进行语义编码提取,得到学习后的上下文语义表示:
Hq=Bi-LSTM(Eq)
Figure BDA0003360458710000042
同时得到
Figure BDA0003360458710000043
为整个答案的整体语义表示,其中,[,]表示连接操作。
子步骤3-3,构建推理层。推理层包含两大步骤,分别为分层滑动融合机制和cross-attention机制。首先利用分层滑动融合机制将答案中的每个句子融合为小节的形式。具体的做法如下:
Figure BDA0003360458710000044
Figure BDA0003360458710000045
对答案中相邻的k个句子进行融合操作,并再次通过Bi-LSTM编码器进行小节的上下文信息表示,得到相邻k个句子的语义表示。此时整个答案的语义表示为
Figure BDA0003360458710000051
为了找出在不同的句子层级下答案中的句子所包含的核心信息的位置,对上述融合后的小节语义信息通过cross-attention机制:
Figure BDA0003360458710000052
Figure BDA0003360458710000053
MultiHead(Q,K,V)=[head1,…,headh]WO
其中
Figure BDA0003360458710000054
WO为可学习参数。接着利用multi-head attention机制分别对问题和答案进行权值计算:对于问题中的信息,主要计算问题和答案中的每个句子的权值,并通过池化层得到在答案中单个句子的影响下的被分配了权重的问题的上下文语义表示:
Mqi=MultiHead(Q,K,V)=MultiHead(Hq,Hsi,Hsi)
Figure BDA0003360458710000055
对于答案中的句子信息,为了学习句子中单词的依存关系,捕捉句子的内部结构,首先对融合k个句子之后的小节语义表示利用self-attention机制找出句子内部的关键信息所在位置;
Figure BDA0003360458710000056
在突出字级别的语义表示的基础上,利用multi-head attention机制计算k级融合句子与问题之间的关系,获得在问题的影响下被分配了权重的k级融合后的答案句子的上下文语义表示
Figure BDA0003360458710000057
Figure BDA0003360458710000058
Figure BDA0003360458710000059
最后,我们将k级融合句子表示执行平均池化层,获得最后在问题影响下的句子级别的答案表示,这可以应用在解码阶段取评估答案中每个句子的重要程度。
Figure BDA00033604587100000510
Figure BDA0003360458710000061
Figure BDA0003360458710000062
子步骤3-4,构建生成层。主要通过设计一种双驱动的选择生成器,将问题和答案都加入到复制池中,进而进行后续生成和复制摘要中的单词的操作。具体实施如下:
首先,对编码后的答案语义上下文表示利用单词LSTM进行解码。需要注意的是,在解码的原始时间戳和最后时间戳,输入向量分别为SOS和EOS的单词嵌入式表示。在解码的t时刻,采用Curriculum学习的方式进行训练,即利用随机概率p去选择当前解码时间戳的输入为真实输出yt或者为上一时间戳的解码输出wt。解码当前时刻的隐含层的输出st
st=LSTM(st-1,yt-1)
问题与答案中每个单词的注意力分布
Figure BDA0003360458710000063
Figure BDA0003360458710000064
的计算如下,主要为问题和答案关键信息的概率分布,即告诉解码器在哪里寻找下一个生成的单词:
Figure BDA0003360458710000065
Figure BDA0003360458710000066
Figure BDA0003360458710000067
Figure BDA0003360458710000068
其中,Wq
Figure BDA0003360458710000069
Wa
Figure BDA00033604587100000610
bq、ba为可学习参数。
然后,我们将在推理层所得到的单词级别的问题与答案的语义表示与当前解码时刻所得到的隐含层语义表示st计算句子级别的注意力权重
Figure BDA00033604587100000611
Figure BDA00033604587100000612
并通过二次加权单词级别的单词概率分布,获得加权后的源文本的单词概率分布:
Figure BDA00033604587100000613
Figure BDA00033604587100000614
Figure BDA00033604587100000615
Figure BDA00033604587100000616
其中,WF
Figure BDA0003360458710000071
WD
Figure BDA0003360458710000072
bq、bs为可学习参数。i|u和j|u表示整个句子u所包含的对应单词i,j。dk为整个解码的总步数。σ为sigmoid激活函数。
通过上述二次加权后所得到的注意力分布计算最后的上下文向量,并生成整个词汇表的概率分布Pvocab
Figure BDA0003360458710000073
Figure BDA0003360458710000074
Figure BDA0003360458710000075
当前解码时刻t的最后预测单词ωt在词汇表中的概率分布P(ωt)=Pvocabt)。由于生成的单词不可能只会出现在词汇表中,也可能会直接从问题或答案中直接复制。这样既能保证生成单词前后的流畅性,又能保证生成句子的可读性。因此设计了一种双驱动下的指针生成网络,将问题添加到复制池中,增加复制池原始单词的容量:
Figure BDA0003360458710000076
Figure BDA0003360458710000077
其中,Wc和bc属于可学习参数。通过概率pgen去选择最后生成的单词是从词汇表中寻找还是从问题或者答案中进行复制。类似于门控机制,控制最后生成的单词的流向。
子步骤3-5,联合训练损失。本实例采用随机初始化的方式对所有的参数进行初始化,采用AdaGrad优化器进行梯度反向传播更新模型参数,初始学习率设置为0.15,初始累加器值为0.1,并使用最大梯度范数为1的梯度进行剪切。生成的摘要控制在100个单词以内。当训练损失不再下降或训练轮数超过32轮,模型训练结束,并保存在验证集上表现最好的模型。
步骤4,模型测试与文本生成。根据步骤3所得到的最佳验证模型,对待摘要的问答数据集进行答案摘要生成。首先对数据进行步骤2的数据处理,并构建模型的输入形式,输入训练好的模型中,从而生成测试文本的摘要,并对生成的摘要与参考摘要进行ROUGE的计算,检验生成摘要的性能。具体的计算方法为:
Figure BDA0003360458710000081
Figure BDA0003360458710000082
Figure BDA0003360458710000083
Figure BDA0003360458710000084
其中,n=1,2,g表示n_gram,S和R表示模型生成的摘要以及答案的参考摘要,将A∩B定义为两个多数据集A和B的交集。LCS(S,R)表示生成摘要S和答案摘要R的最长公共子序列的长度,m和n分别表示参考摘要和生成摘要中包含字数的数量。Rlcs和Plcs分别表示召回率和准确率,β表示设置较大的常数。
基于相同的发明构思,本发明所述的一种问题驱动的社交网络答案摘要自动生成方法与装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的用于答案摘要生成的问题驱动的分层滑动推理生成器。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应理解实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请权利要求所限定的范围。

Claims (6)

1.一种问题驱动的社交网络答案摘要自动生成方法,其特征在于,所述方法包括以下步骤:
步骤1:社交网络文本采集;
步骤2:数据预处理;
步骤3:模型训练;
步骤4:模型测试与文本生成。
2.根据权利要求1所述的一种问题驱动的社交网络答案摘要自动生成方法,其特征在于,步骤1:社交网络文本采集,首先从社交网络平台中抓取大量的问答文本,并根据人工规则生成答案的标准摘要,问题,答案与标准答案摘要共同组成样本数据集D,标准答案摘要的生成规则主要是利用“众包”技术对答案进行摘要,形成标准答案摘要,最后将所有得到的数据按照8∶1∶1进行分割形成训练集、验证集和测试集。
3.根据权利要求1所述的一种问题驱动的社交网络答案摘要自动生成方法,其特征在于,步骤2:数据预处理,首先对数据进行数据清洗,保留只包含问题、正确答案以及正确答案的摘要的数据,利用nltk库对问题和正确答案进行分句处理,并剔除只包含两句以下的数据组,最后,将数据集分别处理为三元组的形式,以便于后续步骤的应用。
4.根据权利要求1所述的一种问题驱动的社交网络答案摘要自动生成方法,其特征在于,步骤3:模型训练,利用步骤2处理后的数据集对问题驱动下的分层滑动推理生成器进行训练,该步骤的实施分为以下子步骤:
子步骤3-1,构建数据层,将三元组利用预训练的Glove对问题和答案中的每个单词序列转化为词向量表示,构建50k的词汇表,并分别得到映射后的问题词向量序列Eq,答案词向量序列Ea,其中答案中的句子级别的词向量序列为
Figure FDA0003360458700000011
子步骤3-2,构建文本编码层,采用一个双层Bi-LSTM循环神经网络编码器分别对问题词向量序列Eq和答案词向量序列Ea进行语义编码提取,得到学习后的上下文语义表示:
Hq=Bi-LSTM(Eq)
Figure FDA0003360458700000012
同时得到
Figure FDA0003360458700000013
为整个答案的整体语义表示,其中[,]表示连接操作;
子步骤3-3,构建推理层,推理层包含两大步骤,分别为分层滑动融合机制和cross-attention机制,首先利用分层滑动融合机制将答案中的每个句子融合为小节的形式,具体的做法如下:
Figure FDA0003360458700000021
Figure FDA0003360458700000022
对答案中相邻的k个句子进行融合操作,并再次通过Bi-LSTM编码器进行小节的上下文信息表示,得到相邻k个句子的语义表示,此时整个答案的语义表示为
Figure FDA0003360458700000023
接着对上述融合后的小节语义信息通过cross-attention机制:
Figure FDA0003360458700000024
headi=Attention(Q,K,V)Wi V
MultiHead(Q,K,V)=[head1,...,headh]WO
其中Wi Q、Wi k、Wi V、WO为可学习参数,然后利用multi-head attention机制分别对问题和答案进行权值计算:对于问题中的信息,主要计算问题和答案中的每个句子的权值,并通过池化层得到在答案中单个句子的影响下的被分配了权重的问题的上下文语义表示:
Figure FDA0003360458700000025
Figure FDA0003360458700000026
对于答案中的句子信息,为了学习句子中单词的依存关系,捕捉句子的内部结构,首先对融合k个句子之后的小节语义表示利用self-attention机制找出句子内部的关键信息所在位置;
Figure FDA0003360458700000027
在突出字级别的语义表示的基础上,利用multi-head attention机制计算k级融合句子与问题之间的关系,获得在问题的影响下被分配了权重的k级融合后的答案句子的上下文语义表示
Figure FDA00033604587000000210
Figure FDA0003360458700000028
Figure FDA0003360458700000029
最后,将k级融合句子表示执行平均池化层,获得最后在问题影响下的句子级别的答案表示,这可以应用在解码阶段取评估答案中每个句子的重要程度,
Figure FDA0003360458700000031
Figure FDA0003360458700000032
Figure FDA00033604587000000320
子步骤3-4,构建生成层,主要通过设计一种双驱动的选择生成器,将问题和答案都加入到复制池中,进而进行后续生成和复制摘要中的单词的操作,具体实施如下:
首先,对编码后的答案语义上下文表示利用单词LSTM进行解码,在解码的原始时间戳和最后时间戳,输入向量分别为SOS和EOS的单词嵌入式表示,在解码的t时刻,采用Curriculum学习的方式进行训练,即利用随机概率p去选择当前解码时间戳的输入为真实输出yt或者为上一时间戳的解码输出wt,解码当前时刻的隐含层的输出st
st=LSTM(st-1,yt-1)
问题与答案中每个单词的注意力分布
Figure FDA0003360458700000033
Figure FDA0003360458700000034
的计算如下,主要为问题和答案关键信息的概率分布,即告诉解码器在哪里寻找下一个生成的单词:
Figure FDA0003360458700000035
Figure FDA0003360458700000036
Figure FDA0003360458700000037
Figure FDA0003360458700000038
其中,Wq
Figure FDA00033604587000000318
Wa
Figure FDA00033604587000000319
bq、ba为可学习参数;
然后,将在推理层所得到的单词级别的问题与答案的语义表示与当前解码时刻所得到的隐含层语义表示st计算句子级别的注意力权重
Figure FDA00033604587000000310
Figure FDA00033604587000000311
并通过二次加权单词级别的单词概率分布,获得加权后的源文本的单词概率分布:
Figure FDA00033604587000000312
Figure FDA00033604587000000313
Figure FDA00033604587000000314
Figure FDA00033604587000000315
其中,WF
Figure FDA00033604587000000316
WD
Figure FDA00033604587000000317
bq、bs为可学习参数,i|u和j|u表示整个句子u所包含的对应单词i,j,dk为整个解码的总步数,σ为sigmoid激活函数,
通过上述二次加权后所得到的注意力分布计算最后的上下文向量,并生成整个词汇表的概率分布Pvocab
Figure FDA0003360458700000041
Figure FDA0003360458700000042
Figure FDA0003360458700000043
当前解码时刻t的最后预测单词ωt在词汇表中的概率分布P(ωt)=Pvocabt),设计了一种双驱动下的指针生成网络,将问题添加到复制池中,增加复制池原始单词的容量:
Figure FDA0003360458700000044
Figure FDA0003360458700000045
其中,Wc和bc属于可学习参数,通过概率pgen去选择最后生成的单词是从词汇表中寻找还是从问题或者答案中进行复制,类似于门控机制,控制最后生成的单词的流向,
子步骤3-5,联合训练损失,采用随机初始化的方式对所有的参数进行初始化,采用AdaGrad优化器进行梯度反向传播更新模型参数,初始学习率设置为0.15,初始累加器值为0.1,并使用最大梯度范数为1的梯度进行剪切,生成的摘要控制在100个单词以内,当训练损失不再下降或训练轮数超过32轮,模型训练结束,并保存在验证集上表现最好的模型。
5.根据权利要求1所述的一种问题驱动的社交网络答案摘要自动生成方法,其特征在于,步骤4,模型测试与文本生成,根据步骤3所得到的最佳验证模型,对待摘要的问答数据集进行答案摘要生成,首先对数据进行步骤2的数据处理,并构建模型的输入形式,输入训练好的模型中,从而生成测试文本的摘要,并对生成的摘要与参考摘要进行ROUGE的计算,检验生成摘要的性能,具体的计算方法为:
Figure FDA0003360458700000046
Figure FDA0003360458700000047
Figure FDA0003360458700000048
Figure FDA0003360458700000049
其中,n=1,2,g表示n_gram,S和R表示模型生成的摘要以及答案的参考摘要,将A∩B定义为两个多数据集A和B的交集,LCS(S,R)表示生成摘要S和答案摘要R的最长公共子序列的长度,m和n分别表示参考摘要和生成摘要中包含字数的数量,Rlcs和Plcs分别表示召回率和准确率,β表示设置较大的常数。
6.采用权利要求1-5任意一项所述自动生成方法的自动生成装置,其特征在于,所述装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的用于答案摘要生成的问题驱动的分层滑动推理生成器。
CN202111365252.0A 2021-11-17 2021-11-17 一种问题驱动的社交网络答案摘要自动生成方法与装置 Pending CN114048309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111365252.0A CN114048309A (zh) 2021-11-17 2021-11-17 一种问题驱动的社交网络答案摘要自动生成方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111365252.0A CN114048309A (zh) 2021-11-17 2021-11-17 一种问题驱动的社交网络答案摘要自动生成方法与装置

Publications (1)

Publication Number Publication Date
CN114048309A true CN114048309A (zh) 2022-02-15

Family

ID=80210021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111365252.0A Pending CN114048309A (zh) 2021-11-17 2021-11-17 一种问题驱动的社交网络答案摘要自动生成方法与装置

Country Status (1)

Country Link
CN (1) CN114048309A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681087A (zh) * 2023-07-25 2023-09-01 云南师范大学 一种基于多阶段时序和语义信息增强的自动问题生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681087A (zh) * 2023-07-25 2023-09-01 云南师范大学 一种基于多阶段时序和语义信息增强的自动问题生成方法
CN116681087B (zh) * 2023-07-25 2023-10-10 云南师范大学 一种基于多阶段时序和语义信息增强的自动问题生成方法

Similar Documents

Publication Publication Date Title
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN109800434B (zh) 基于眼动注意力的抽象文本标题生成方法
CN113672708B (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
Tang et al. Modelling student behavior using granular large scale action data from a MOOC
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN113392265A (zh) 多媒体处理方法、装置及设备
CN114970563B (zh) 融合内容和形式多样性的中文问题生成方法和系统
CN114387537A (zh) 一种基于描述文本的视频问答方法
Cottrell et al. Grounding meaning in perception
Tang et al. Predictive modelling of student behaviour using granular large-scale action data
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN114048309A (zh) 一种问题驱动的社交网络答案摘要自动生成方法与装置
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
US11948560B1 (en) Method for AI language self-improvement agent using language modeling and tree search techniques
CN112100342A (zh) 一种基于知识表示学习技术的知识图谱问答方法
Cornille et al. Learning to Plan for Language Modeling from Unlabeled Data
CN116681078A (zh) 一种基于强化学习的关键词生成方法
CN117235347A (zh) 一种基于大语言模型的青少年算法代码辅助学习系统及方法
CN116150334A (zh) 基于UniLM模型和Copy机制的中文共情语句训练方法及系统
CN114139535A (zh) 一种关键词造句方法、装置、计算机设备及可读介质
Guo RETRACTED: An automatic scoring method for Chinese-English spoken translation based on attention LSTM [EAI Endorsed Scal Inf Syst (2022), Online First]

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination