CN110390103B - 基于双编码器的短文本自动摘要方法及系统 - Google Patents

基于双编码器的短文本自动摘要方法及系统 Download PDF

Info

Publication number
CN110390103B
CN110390103B CN201910665534.9A CN201910665534A CN110390103B CN 110390103 B CN110390103 B CN 110390103B CN 201910665534 A CN201910665534 A CN 201910665534A CN 110390103 B CN110390103 B CN 110390103B
Authority
CN
China
Prior art keywords
word
semantic
vector
encoder
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910665534.9A
Other languages
English (en)
Other versions
CN110390103A (zh
Inventor
丁建立
李洋
王怀超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation University of China
Original Assignee
Civil Aviation University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation University of China filed Critical Civil Aviation University of China
Priority to CN201910665534.9A priority Critical patent/CN110390103B/zh
Publication of CN110390103A publication Critical patent/CN110390103A/zh
Application granted granted Critical
Publication of CN110390103B publication Critical patent/CN110390103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种基于双编码器的短文本自动摘要方法及系统,属于信息处理技术领域,其特征在于:包括如下步骤:一、数据预处理,二、设计具有双向递归神经网络的双编码器,三、融合全局与局部语义的注意力机制;四、伴随经验概率分布的解码器,采用双层单向神经网络设计解码器,五、增加词嵌入特征,六、优化词嵌入维度,七、通过对来自搜狗实验室的新闻语料库数据进行预处理和实验并带入具有双编码器和伴随经验概率分布的Seq2Seq模型进行计算,通过文本摘要质量评价体系Rouge进行实验评估。本发明通过对传统编‑解码框架进行优化研究,实现了模型对文本语义的充分理解,提高了文本摘要的流畅度和精度。

Description

基于双编码器的短文本自动摘要方法及系统
技术领域
本发明属于信息处理技术领域,尤其涉及一种基于双编码器的短文本自动摘要方法及系统。
背景技术
互联网的快速发展使得网络平台成为了人们交互信息、互相沟通的重要途径,也使得人们更容易浏览和发布信息。在线信息的爆炸式增长使得信息过载成为了一个严重的问题,面对海量信息,如何从中获取对自己有用的信息已经成为了信息处理领域迫切解决的问题。
自动文本摘要是自然语言处理领域的重要分支。文本摘要是指通过计算机从大量文本中提取关键信息,自动文本摘要是信息提取和压缩的关键技术。自动文本摘要早在上世纪50年代就已出现,依据摘要形式可将其分为抽取式和生成式,抽取式文本摘要是认为文章的中心思想可以由文章中的一个或几个句子进行概括。生成式文本摘要是基于对文章上下文的理解,可以像人一样对文章进行总结和概括,所概括的文本不必再原文中出现但要切合全文语义。相比之下,生成式文本摘要更加贴近人类思维,更能准确反映文本意境,但同时涉及自然语言理解理和文本重造,使得理解概要更加困难。
目前,深度学习技术已经广泛的应用于自然语言处理领域,包括阅读理解、自动问答、机器翻译、文本重塑等任务。
基于数据驱动的端到端的文本摘要生成方法灵感来源于机器翻译的神经网络模型。利用递归神经网络和LSTM神经单元构建了基于Encoder-Decoder框架的抽象生成模型,并结合自注意力机制生成文本摘要。
运用RNN(递归神经网络)的编码器-解码器结构应用于中文文本摘要任务结合改进的注意力模型用于句子摘要生成。使用字符级特征作为RNN编-解码器框架的输入,保证性能的同时缩小了特征空间的维数。等提出了一种混合指针生成器网络,保证了生成摘要原义重述的精确性又保留了新单词的生成能力。
结合多层神经网络隐层语义来提高摘要生成质量。通过增加多层编解码器网络层数并结合改进的词嵌入特征提高了模型对语义的理解。
目前对于长短文本的摘要生成任务是自然语言研究热点,面对构词结构迥异,组成结构复杂的文本如何生成语义理解充分,准确度高的摘要是当前亟待解决的问题。当前普遍使用的是编码器-解码器的抽象生成学习方法,即序列映射方法(Seq2Seq)文本学习模型来生成文本摘要。
发明内容
针对现有技术的缺陷,本发明提供一种基于双编码器的短文本自动摘要方法及系统,针对当前生成式文本摘要方法中语义信息利用不充分,摘要精度不够等问题,提出以一种基于双编码器的文本摘要模型,该模型通过双编码器为Seq2Seq架构提供更丰富的语义信息,通过改进的注意力机制采用多层循环神经网络融合编码器的双通道语义,设计伴随经验分布的解码器加快模型收敛,同时,使用融合位置嵌入和词嵌入的嵌入方法,把词频-逆文档指数(TF-IDF)、词性(Pos)、关键性特征融入到词向量中,优化了词嵌入维度,增强了模型对词意的理解,提高摘要质量。
本发明所采用的具体技术方案为:
本专利的第一发明目的是提供一种基于双编码器的短文本自动摘要方法及系统,包括如下步骤:
步骤一:数据预处理,具体为:
将搜狗实验室提供的新闻语料库数据集进行数据的清洗和择优选取;去除掉长度小于5的文本,替换英文、特殊字符、表情符号等杂乱字符,提取高质量的文本摘要数据;依据摘要与原文语义相似度的大小对数据进行优选,依据摘要与原文语义相似度高低将数据分为不同类别并为后续模型的运算提供数据输入;语义相似度计算公式如下所示:
Figure BDA0002139972040000021
Figure BDA0002139972040000022
其中:vS为句子向量生成,|s|为当前句子所含词数,IDFw为词文档逆文档频率指数,vw为词向量;通过词向量的加权求和获得句子向量,并通过余弦距离计算文本-摘要对之间的相似度;
步骤二:设计具有双向递归神经网络的双编码器,具体为:
双编码器结构用于获取原文的全局语义信息和局部上下文语义信息,高层编码器将文本输入序列(x1,x2,...,xn)通过伴随自注意力机制的双向递归神经网络BiRNN映射成高维语义向量M,低层编码器聚焦于原始文本局部语义的一致性表示,将文本输入序列(x1,x2,...,xn)通过BiRNN映射成编码器隐藏状态向量(h1,h2,...hn),双编码器具体计算公式如下所示:
H=(H1,H2,...Hn)=BiRNN(x1,x2,...,xn)
Figure BDA0002139972040000023
Figure BDA0002139972040000031
Figure BDA0002139972040000032
其中:H是由递归神经网络映射的隐藏状态向量,VH和WH为优化参数矩阵,通过softmax对
Figure BDA0002139972040000033
进行归一化处理得到
Figure BDA0002139972040000034
归一化得分和编码器隐藏状态信息的加权求和获得M,M代表着原文全局语义向量表示;
步骤三:融合全局与局部语义的注意力机制;
注意力机制是将编码器的隐藏状态和解码器的隐藏状态通过加权求和融合成高维语义表示,并指示解码器对序列中哪一单词语义需重点关注,融合全局与局部语义的注意力机制的详细计算公式如下所示:
Figure BDA0002139972040000035
Figure BDA0002139972040000036
Figure BDA0002139972040000037
其中:全局语义向量M和编码器隐藏状态hi级联相处通过优化参数Wh将其转化为当前状态的语义表示,解码器隐藏状态St-1与Vs相乘获得解码器当前状态信息的向量表示,然后两者通过相应元素的对齐相加,并通过非线性激活函数tanh()映射成一融合状态向量,该融合状态向量结合了编码器端第i步的语义信息和t-1时刻解码端的隐藏状态信息,
Figure BDA0002139972040000038
为优化参数矩阵与结果做内积运算,其过程实质是将注意力机制语义表示和编码器-解码器的隐藏层状态通过得分函数映射为相似性得分,将低层编码器状态的加权求和获得的联合上下文语义表示Ct-1
步骤四:伴随经验概率分布的解码器,采用双层单向神经网络设计解码器,
首先解码器将当前t时刻的隐藏向量、上下文高层语义和t-1时刻解码端的输出序列通过条件概率函数映射为t时刻输出序列的待选概率,然后引入了关键词经验概率分布,加速解码端的收敛速度,计算公式如下所示:
Figure BDA0002139972040000039
Figure BDA00021399720400000310
其中:Ct为融合全局和局部语义信息的上下文语义表示,St为当前时刻解码器的隐藏状态,yt-1为t-1时刻输出摘要,Qo为输出序列候选词经验概率分布;Wc,Wo,bo为优化参数;WQ、λ为优化参数,
Figure BDA00021399720400000311
表示哈达马积(Hadamard)在与λ对位相加;V为词表0/1向量矩阵V=(v1,v2,...,vm),v1=1代表该词在文章中出现过,否则v1=0;
步骤五:增加词嵌入特征,将Position Embedding和word Embedding结合形成新的词向量表示,增加了词性、词频-逆文档频率和关键性得分来丰富单词语义特征,位置嵌入和关键性得分的详细计算公式如下:
Figure BDA0002139972040000041
Figure BDA0002139972040000042
Figure BDA0002139972040000043
其中:单词所在位置pos映射成为一个dmodel维的位置向量,且此位置向量的第i维的值为PE(pos,i),P(wi)为单词频率,β为平滑反频率系数。多词特征的引入增加模型对词语的理解;
步骤六:优化词嵌入维度,通过依据矩阵微扰理论设计的伴随酉不变性质的成对内积损失函数为当前语料库设计最优的维度嵌入表示,PIP损失函数如下:
Figure BDA0002139972040000044
其中:
Figure BDA0002139972040000045
为已得到的词向量矩阵,E*∈Rn×d为未获得的最优词向量矩阵;k,d为维数k<d,
Figure BDA0002139972040000046
为偏差,表示限定k维的词嵌入维度后将丢失k+1维之后的信息,
Figure BDA0002139972040000047
Figure BDA0002139972040000048
为方差,第二项表示噪声的存在导致对语义矩阵的大小估计产生误差,随k的增加而增加;第三项表示存在的噪声对语义矩阵方向上的估计误差,随k的增加而增加,α∈(0,1],σ为噪声标准差,λi为第i个经验奇异值参数;
步骤七:通过对来自搜狗实验室的新闻语料库数据进行预处理和实验并带入具有双编码器和伴随经验概率分布的Seq2Seq模型进行计算,同时分别在RNN+atten、Bi-MulRNN+atten模型、Do-Bi+pos+w2cPro模型、以及Do-Bi+pos-w2cPro+dimen模型中进行实验对比与分析,并通过文本摘要质量评价体系Rouge进行实验评估。
本专利的第二发明目的是提供一种基于双编码器的短文本自动摘要系统,包括:
数据预处理模块,将搜狗实验室提供的新闻语料库数据集进行数据的清洗和择优选取;去除掉长度小于5的文本,替换英文、特殊字符、表情符号等杂乱字符,提取高质量的文本摘要数据;依据摘要与原文语义相似度的大小对数据进行优选,依据摘要与原文语义相似度高低将数据分为不同类别并为后续模型的运算提供数据输入;语义相似度计算公式如下所示:
Figure BDA0002139972040000051
Figure BDA0002139972040000052
其中:vS为句子向量生成,|s|为当前句子所含词数,IDFw为词文档逆文档频率指数,vw为词向量;通过词向量的加权求和获得句子向量,并通过余弦距离计算文本-摘要对之间的相似度;
具有双向递归神经网络的双编码器设计模块,双编码器结构用于获取原文的全局语义信息和局部上下文语义信息,高层编码器将文本输入序列(x1,x2,...,xn)通过伴随自注意力机制的双向递归神经网络BiRNN映射成高维语义向量M,低层编码器聚焦于原始文本局部语义的一致性表示,将文本输入序列(x1,x2,...,xn)通过BiRNN映射成编码器隐藏状态向量(h1,h2,...hn),双编码器具体计算公式如下所示:
H=(H1,H2,...Hn)=BiRNN(x1,x2,...,xn)
Figure BDA0002139972040000053
Figure BDA0002139972040000054
Figure BDA0002139972040000055
其中:H是由递归神经网络映射的隐藏状态向量,VH和WH为优化参数矩阵,通过softmax对
Figure BDA0002139972040000056
进行归一化处理得到
Figure BDA0002139972040000057
归一化得分和编码器隐藏状态信息的加权求和获得M,M代表着原文全局语义向量表示;
融合全局与局部语义的注意力机制模块,注意力机制是将编码器的隐藏状态和解码器的隐藏状态通过加权求和融合成高维语义表示,并指示解码器对序列中哪一单词语义需重点关注,融合全局与局部语义的注意力机制的详细计算公式如下所示:
Figure BDA0002139972040000058
Figure BDA0002139972040000059
Figure BDA00021399720400000510
其中:全局语义向量M和编码器隐藏状态hi级联相处通过优化参数Wh将其转化为当前状态的语义表示,解码器隐藏状态St-1与Vs相乘获得解码器当前状态信息的向量表示,然后两者通过相应元素的对齐相加,并通过非线性激活函数tanh()映射成一融合状态向量,该融合状态向量结合了编码器端第i步的语义信息和t-1时刻解码端的隐藏状态信息,
Figure BDA00021399720400000511
为优化参数矩阵与结果做内积运算,其过程实质是将注意力机制语义表示和编码器-解码器的隐藏层状态通过得分函数映射为相似性得分,将低层编码器状态的加权求和获得的联合上下文语义表示Ct-1
伴随经验概率分布的解码器模块,采用双层单向神经网络设计解码器,
首先解码器将当前t时刻的隐藏向量、上下文高层语义和t-1时刻解码端的输出序列通过条件概率函数映射为t时刻输出序列的待选概率,然后引入了关键词经验概率分布,加速解码端的收敛速度,计算公式如下所示:
Figure BDA0002139972040000061
Figure BDA0002139972040000062
其中:Ct为融合全局和局部语义信息的上下文语义表示,St为当前时刻解码器的隐藏状态,yt-1为t-1时刻输出摘要,Qo为输出序列候选词经验概率分布;Wc,Wo,bo为优化参数;WQ、λ为优化参数,
Figure BDA0002139972040000063
表示哈达马积(Hadamard)在与λ对位相加;V为词表0/1向量矩阵V=(v1,v2,...,vm),v1=1代表该词在文章中出现过,否则v1=0;
增加词嵌入特征模块,将Position Embedding和word Embedding结合形成新的词向量表示,增加了词性、词频-逆文档频率和关键性得分来丰富单词语义特征,位置嵌入和关键性得分的详细计算公式如下:
Figure BDA0002139972040000064
Figure BDA0002139972040000065
Figure BDA0002139972040000066
其中:单词所在位置pos映射成为一个dmodel维的位置向量,且此位置向量的第i维的值为PE(pos,i),P(wi)为单词频率,β为平滑反频率系数。多词特征的引入增加模型对词语的理解;
优化词嵌入维度模块,通过依据矩阵微扰理论设计的伴随酉不变性质的成对内积损失函数为当前语料库设计最优的维度嵌入表示,PIP损失函数如下:
Figure BDA0002139972040000067
其中:
Figure BDA0002139972040000068
为已得到的词向量矩阵,E*∈Rn×d为未获得的最优词向量矩阵;k,d为维数k<d,
Figure BDA0002139972040000069
为偏差,表示限定k维的词嵌入维度后将丢失k+1维之后的信息,
Figure BDA00021399720400000610
Figure BDA00021399720400000611
为方差,第二项表示噪声的存在导致对语义矩阵的大小估计产生误差,随k的增加而增加;第三项表示存在的噪声对语义矩阵方向上的估计误差,随k的增加而增加,α∈(0,1],σ为噪声标准差,λi为第i个经验奇异值参数;
评估模块,通过对来自搜狗实验室的新闻语料库数据进行预处理和实验并带入具有双编码器和伴随经验概率分布的Seq2Seq模型进行计算,同时分别在RNN+atten、Bi-MulRNN+atten模型、Do-Bi+pos+w2cPro模型、以及Do-Bi+pos-w2cPro+dimen模型中进行实验对比与分析,并通过文本摘要质量评价体系Rouge进行实验评估。
本专利的第三发明目的是提供一种实现上述基于双编码器的短文本自动摘要方法的计算机程序。
本专利的第四发明目的是提供一种实现上述基于双编码器的短文本自动摘要方法的信息数据处理终端。
本专利的第五发明目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于双编码器的短文本自动摘要方法。
本发明的优点及积极效果为:
通过采用上述技术方案,本发明具有如下的技术效果:
本发明研究是对传统的Seq2Seq文本摘要生成模型进行优化设计。首先将双编码器应用于编码器端,高层编码器用于获得文本的全局语义信息,而低层编码器专注于编码过程中原始序列的对齐单词语义表示;通过建立全局、局部语义信息与原始文本和摘要之间的内在对齐联系,来优化注意力机制使其融合双编码器混合语义信息和解码器隐藏状态;其次,为解码器端增加关键词经验概率分布,加快模型收敛并使生成的摘要更准确;通过增加融合位置嵌入、词嵌入方法,增加词性、词频和关键性得分改进单词特征表示以提高模型对词义的理解;并根据语料库的大小优化词向量生成的最优维度,实现了文本高质量摘要的生成,提高了摘要精度
本发明通过对传统编-解码框架(Encoder-Decoder)进行优化研究,在编码端设计高低层双编码器,为模型提供更丰富的语义信息,解码端设计经验概率分布,增加文本多项词特征联合表示并优化词向量最优维度。实现了模型对文本语义的充分理解,提高了文本摘要的流畅度和精度。
附图说明
图1为本发明优选实施例的结构框图;
图2为本发明优选实施例图中改进词嵌入特征的设计图;
图3为本发明优选实施例图中词嵌入维度最优选择图;
图4为本发明优选实施例图中不同方法之间Rouge值对比;
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。
下面结合附图对本发明的结构作详细的描述。
请参阅图1至图4,
一种基于双编码器的短文本自动摘要方法,图1是本发明的整体模型框架图,本发明针对当前生成式文本摘要方法中语义信息利用不充分,摘要精度不够等问题,提出以一种基于双编码器的文本摘要方法,该模型通过双编码器为Seq2Seq架构提供更丰富的语义信息,通过改进的注意力机制采用多层循环神经网络融合编码器的双通道语义,设计伴随经验分布的解码器加快模型收敛,同时,使用融合位置嵌入和词嵌入的嵌入方法,把词频、词性、关键性特征融入到词向量中,优化了词嵌入维度,增强了模型对词意的理解,提高摘要准确度和流畅度。
实施例:
为验证本发明的效果,按照前文所述的步骤进行实验验证,实验验证结果如图4所示。
步骤一:搜狗实验室提供的新闻语料库数据集,该数据集中共包含来自娱乐、文化、教育、军事、社会、金融等679978条新闻-标题数据对。对数据集预处理去除掉长度小于5的文本,替换英文、特殊字符、表情符号等杂乱字符;依据摘要与原文语义相似度的大小将数据分为三级以选取高质量的实验数据对。1表示最不相关,3是最相关。文本-摘要语义相似度在区间(0,0.4)内相关度为1,在区间[0.4,0.65)内相关度为2,在区间[0.65,1)内相关度为3。本文设计语义相关性算法公式如下:
Figure BDA0002139972040000081
Figure BDA0002139972040000082
其中:vS句子向量生成,|s|为当前句子所含词数,IDFw为词文档逆文档频率指数,vw为词向量;通过词向量的加权求和获得句子向量,并通过余弦距离计算文本-摘要对之间的相似度。
步骤二:设计具有双向递归神经网络的双编码器。为了解决传统seq2seq模型中编码器端输出的语义信息不完全、不充分的问题,本发明设计了双编码器结构用于获取原文的全局语义信息和局部上下文语义信息。双编码器具体计算公式如下所示:
H=(H1,H2,...Hn)=BiRNN(x1,x2,...,xn)
Figure BDA0002139972040000091
Figure BDA0002139972040000092
Figure BDA0002139972040000093
其中:H是隐藏状态向量。其中VH和WH为优化参数矩阵,通过softmax对
Figure BDA0002139972040000094
进行归一化处理得到
Figure BDA0002139972040000095
归一化得分和编码器隐藏状态信息的加权求和获得M。
步骤三:融合全局与局部语义的注意力机制。注意力机制是将编码器的隐藏状态和解码器的隐藏状态通过加权求和融合成高维语义表示,并指示解码器对序列中哪一单词语义需重点关注。详细计算公式如下所示:
Figure BDA0002139972040000096
Figure BDA0002139972040000097
Figure BDA0002139972040000098
算法中:全局语义向量M和编码器隐藏状态hi级联相处通过优化参数Wh将其转化为当前状态的语义表示,解码器隐藏状态St-1与Vs相乘获得解码器当前状态信息的向量表示,
Figure BDA0002139972040000099
为优化参数矩阵与结果做内积运算。并通过非线性激活函数tanh()映射成一融合状态向量
Figure BDA00021399720400000910
将低层编码器状态hi
Figure BDA00021399720400000911
的加权求和获得的联合上下文语义表示Ct-1
步骤四:伴随经验概率分布的解码器,传统解码器将当前t时刻的隐藏向量、上下文高层语义和t-1时刻解码端的输出序列通过条件概率函数映射为t时刻输出序列的待选概率,此基础上引入了关键词经验概率分布,详细计算公式如下所示:
Figure BDA00021399720400000912
Figure BDA00021399720400000913
算法中:Ct为融合全局和局部语义信息的上下文语义表示,St为当前时刻解码器的隐藏状态,yt-1为t-1时刻输出摘要,Qo为输出序列候选词经验概率分布;Wc,Wo,bo为优化参数;WQ、λ为优化参数,
Figure BDA00021399720400000914
表示哈达马积(Hadamard)在与λ对位相加;V为词表0/1向量矩阵V=(v1,v2,...,vm)。
步骤五:增加词嵌入特征,将Position Embedding(位置嵌入)和word Embedding(词嵌入)结合形成新的词向量表示。此外,在此基础上增加了词性(POS)、词频-逆文档频率(TF-IDF)和关键性得分(Soc)来丰富单词语义特征,详细计算公式如下:
Figure BDA0002139972040000101
Figure BDA0002139972040000102
Figure BDA0002139972040000103
算法中:单词所在位置pos映射成为一个dmodel维的位置向量,且此位置向量的第i维的值为PE(pos,i),P(wi)为单词频率,β为平滑反频率系数。多词特征的引入增加模型对词语的理解。
步骤六:优化词嵌入维度,通过依据矩阵微扰理论设计的伴随酉不变性质的成对内积损失函数(Pairwise Inner Product)PIP为当前语料库设计最优的维度嵌入表示,PIP损失函数如下:
PIP(E)=EET
Figure BDA0002139972040000104
算法中:
Figure BDA0002139972040000105
为已得到的词向量矩阵,E*∈Rn×d为未获得的最优词向量矩阵;k,d为维数k<d,
Figure BDA0002139972040000106
为偏差,
Figure BDA0002139972040000107
Figure BDA0002139972040000108
为方差,α∈(0,1],σ为噪声标准差,λi为第i个经验奇异值参数。
步骤七:实验结果对比。分别在RNN+atten(传统Rnn模型)、Bi-MulRNN+atten模型、Do-Bi+pos+w2cPro模型(融合词嵌入和位置嵌入模型)、以及本文设计的Do-Bi+pos-w2cPro+dimen模型中进行实验对比与分析,并通过Rouge评价体系进行实验对比,图4为Rouge值得对比图,从中可以看出本发明的性能高出其他算法10%-13%,这表明本发明所提方法在同等情况下,优于其他文本摘要方法生成的文本摘要质量更好,精度更高。
一种基于双编码器的短文本自动摘要方法,图1是本发明的整体模型框架图,本发明针对当前生成式文本摘要方法中语义信息利用不充分,摘要精度不够等问题,提出以一种基于双编码器的文本摘要方法,该模型通过双编码器为Seq2Seq架构提供更丰富的语义信息,通过改进的注意力机制采用多层循环神经网络融合编码器的双通道语义,设计伴随经验分布的解码器加快模型收敛,同时,使用融合位置嵌入和词嵌入的嵌入方法,把词频、词性、关键性特征融入到词向量中,优化了词嵌入维度,增强了模型对词意的理解,提高摘要准确度和流畅度。
实施例:
为验证本发明的效果,按照前文所述的步骤进行实验验证,实验验证结果如图4所示。
步骤一:搜狗实验室提供的新闻语料库数据集,该数据集中共包含来自娱乐、文化、教育、军事、社会、金融等679978条新闻-标题数据对。对数据集预处理去除掉长度小于5的文本,替换英文、特殊字符、表情符号等杂乱字符;依据摘要与原文语义相似度的大小将数据分为三级以选取高质量的实验数据对。1表示最不相关,3是最相关。文本-摘要语义相似度在区间(0,0.4)内相关度为1,在区间[0.4,0.65)内相关度为2,在区间[0.65,1)内相关度为3。本文设计语义相关性算法公式如下:
Figure BDA0002139972040000111
Figure BDA0002139972040000112
其中:vS句子向量生成,|s|为当前句子所含词数,IDFw为词文档逆文档频率指数,vw为词向量;通过词向量的加权求和获得句子向量,并通过余弦距离计算文本-摘要对之间的相似度。
步骤二:设计具有双向递归神经网络的双编码器。为了解决传统seq2seq模型中编码器端输出的语义信息不完全、不充分的问题,本发明设计了双编码器结构用于获取原文的全局语义信息和局部上下文语义信息。双编码器具体计算公式如下所示:
H=(H1,H2,...Hn)=BiRNN(x1,x2,...,xn)
Figure BDA0002139972040000113
Figure BDA0002139972040000114
Figure BDA0002139972040000115
其中:H是隐藏状态向量。其中VH和WH为优化参数矩阵,通过softmax对
Figure BDA0002139972040000116
进行归一化处理得到
Figure BDA0002139972040000117
归一化得分和编码器隐藏状态信息的加权求和获得M。
步骤三:融合全局与局部语义的注意力机制。注意力机制是将编码器的隐藏状态和解码器的隐藏状态通过加权求和融合成高维语义表示,并指示解码器对序列中哪一单词语义需重点关注。详细计算公式如下所示:
Figure BDA0002139972040000118
Figure BDA0002139972040000119
Figure BDA00021399720400001110
算法中:全局语义向量M和编码器隐藏状态hi级联相处通过优化参数Wh将其转化为当前状态的语义表示,解码器隐藏状态St-1与Vs相乘获得解码器当前状态信息的向量表示,
Figure BDA0002139972040000121
为优化参数矩阵与结果做内积运算。并通过非线性激活函数tanh()映射成一融合状态向量
Figure BDA0002139972040000122
将低层编码器状态hi
Figure BDA0002139972040000123
的加权求和获得的联合上下文语义表示Ct-1
步骤四:伴随经验概率分布的解码器,传统解码器将当前t时刻的隐藏向量、上下文高层语义和t-1时刻解码端的输出序列通过条件概率函数映射为t时刻输出序列的待选概率,此基础上引入了关键词经验概率分布,详细计算公式如下所示:
Figure BDA0002139972040000124
Figure BDA0002139972040000125
算法中:Ct为融合全局和局部语义信息的上下文语义表示,St为当前时刻解码器的隐藏状态,yt-1为t-1时刻输出摘要,Qo为输出序列候选词经验概率分布;Wc,Wo,bo为优化参数;WQ、λ为优化参数,
Figure BDA0002139972040000126
表示哈达马积(Hadamard)在与λ对位相加;V为词表0/1向量矩阵V=(v1,v2,...,vm)。
步骤五:增加词嵌入特征,将Position Embedding(位置嵌入)和word Embedding(词嵌入)结合形成新的词向量表示。此外,在此基础上增加了词性(POS)、词频-逆文档频率(TF-IDF)和关键性得分(Soc)来丰富单词语义特征,详细计算公式如下:
Figure BDA0002139972040000127
Figure BDA0002139972040000128
Figure BDA0002139972040000129
算法中:单词所在位置pos映射成为一个dmodel维的位置向量,且此位置向量的第i维的值为PE(pos,i),P(wi)为单词频率,β为平滑反频率系数。多词特征的引入增加模型对词语的理解。
步骤六:优化词嵌入维度,通过依据矩阵微扰理论设计的伴随酉不变性质的成对内积损失函数(Pairwise Inner Product)PIP为当前语料库设计最优的维度嵌入表示,PIP损失函数如下:
PIP(E)=EET
Figure BDA00021399720400001210
算法中:
Figure BDA00021399720400001211
为已得到的词向量矩阵,E*∈Rn×d为未获得的最优词向量矩阵;k,d为维数k<d,
Figure BDA00021399720400001212
为偏差,
Figure BDA00021399720400001213
Figure BDA00021399720400001214
为方差,α∈(0,1],σ为噪声标准差,λi为第i个经验奇异值参数。
步骤七:实验结果对比。分别在RNN+atten(传统Rnn模型)、Bi-MulRNN+atten模型、Do-Bi+pos+w2cPro模型(融合词嵌入和位置嵌入模型)、以及本文设计的Do-Bi+pos-w2cPro+dimen模型中进行实验对比与分析,并通过Rouge评价体系进行实验对比,图4为Rouge值得对比图,从中可以看出本发明的性能高出其他算法10%-13%,这表明本发明所提方法在同等情况下,优于其他文本摘要方法生成的文本摘要质量更好,精度更高
一种基于双编码器的短文本自动摘要系统,包括:
数据预处理模块,将搜狗实验室提供的新闻语料库数据集进行数据的清洗和择优选取;去除掉长度小于5的文本,替换英文、特殊字符、表情符号等杂乱字符,提取高质量的文本摘要数据;依据摘要与原文语义相似度的大小对数据进行优选,依据摘要与原文语义相似度高低将数据分为不同类别并为后续模型的运算提供数据输入;语义相似度计算公式如下所示:
Figure BDA0002139972040000131
Figure BDA0002139972040000132
其中:vS为句子向量生成,|s|为当前句子所含词数,IDFw为词文档逆文档频率指数,vw为词向量;通过词向量的加权求和获得句子向量,并通过余弦距离计算文本-摘要对之间的相似度;
具有双向递归神经网络的双编码器设计模块,双编码器结构用于获取原文的全局语义信息和局部上下文语义信息,高层编码器将文本输入序列(x1,x2,...,xn)通过伴随自注意力机制的双向递归神经网络BiRNN映射成高维语义向量M,低层编码器聚焦于原始文本局部语义的一致性表示,将文本输入序列(x1,x2,...,xn)通过BiRNN映射成编码器隐藏状态向量(h1,h2,...hn),双编码器具体计算公式如下所示:
H=(H1,H2,...Hn)=BiRNN(x1,x2,...,xn)
Figure BDA0002139972040000133
Figure BDA0002139972040000134
Figure BDA0002139972040000135
其中:H是由递归神经网络映射的隐藏状态向量,VH和WH为优化参数矩阵,通过softmax对
Figure BDA0002139972040000136
进行归一化处理得到
Figure BDA0002139972040000137
归一化得分和编码器隐藏状态信息的加权求和获得M,M代表着原文全局语义向量表示;
融合全局与局部语义的注意力机制模块,注意力机制是将编码器的隐藏状态和解码器的隐藏状态通过加权求和融合成高维语义表示,并指示解码器对序列中哪一单词语义需重点关注,融合全局与局部语义的注意力机制的详细计算公式如下所示:
Figure BDA0002139972040000141
Figure BDA0002139972040000142
Figure BDA0002139972040000143
其中:全局语义向量M和编码器隐藏状态hi级联相处通过优化参数Wh将其转化为当前状态的语义表示,解码器隐藏状态St-1与Vs相乘获得解码器当前状态信息的向量表示,然后两者通过相应元素的对齐相加,并通过非线性激活函数tanh()映射成一融合状态向量,该融合状态向量结合了编码器端第i步的语义信息和t-1时刻解码端的隐藏状态信息,
Figure BDA0002139972040000144
为优化参数矩阵与结果做内积运算,其过程实质是将注意力机制语义表示和编码器-解码器的隐藏层状态通过得分函数映射为相似性得分,将低层编码器状态的加权求和获得的联合上下文语义表示Ct-1
伴随经验概率分布的解码器模块,采用双层单向神经网络设计解码器,
首先解码器将当前t时刻的隐藏向量、上下文高层语义和t-1时刻解码端的输出序列通过条件概率函数映射为t时刻输出序列的待选概率,然后引入了关键词经验概率分布,加速解码端的收敛速度,计算公式如下所示:
Figure BDA0002139972040000145
Figure BDA0002139972040000146
其中:Ct为融合全局和局部语义信息的上下文语义表示,St为当前时刻解码器的隐藏状态,yt-1为t-1时刻输出摘要,Qo为输出序列候选词经验概率分布;Wc,Wo,bo为优化参数;WQ、λ为优化参数,
Figure BDA0002139972040000147
表示哈达马积(Hadamard)在与λ对位相加;V为词表0/1向量矩阵V=(v1,v2,...,vm),v1=1代表该词在文章中出现过,否则v1=0;
增加词嵌入特征模块,将Position Embedding和word Embedding结合形成新的词向量表示,增加了词性、词频-逆文档频率和关键性得分来丰富单词语义特征,位置嵌入和关键性得分的详细计算公式如下:
Figure BDA0002139972040000148
Figure BDA0002139972040000149
Figure BDA00021399720400001410
其中:单词所在位置pos映射成为一个dmodel维的位置向量,且此位置向量的第i维的值为PE(pos,i),P(wi)为单词频率,β为平滑反频率系数。多词特征的引入增加模型对词语的理解;
优化词嵌入维度模块,通过依据矩阵微扰理论设计的伴随酉不变性质的成对内积损失函数为当前语料库设计最优的维度嵌入表示,PIP损失函数如下:
PIP(E)=EET
Figure BDA0002139972040000151
其中:
Figure BDA0002139972040000152
为已得到的词向量矩阵,E*∈Rn×d为未获得的最优词向量矩阵;k,d为维数k<d,
Figure BDA0002139972040000153
为偏差,表示限定k维的词嵌入维度后将丢失k+1维之后的信息,
Figure BDA0002139972040000154
Figure BDA0002139972040000155
为方差,第二项表示噪声的存在导致对语义矩阵的大小估计产生误差,随k的增加而增加;第三项表示存在的噪声对语义矩阵方向上的估计误差,随k的增加而增加,α∈(0,1],σ为噪声标准差,λi为第i个经验奇异值参数;
评估模块,通过对来自搜狗实验室的新闻语料库数据进行预处理和实验并带入具有双编码器和伴随经验概率分布的Seq2Seq模型进行计算,同时分别在RNN+atten、Bi-MulRNN+atten模型、Do-Bi+pos+w2cPro模型、以及Do-Bi+pos-w2cPro+dimen模型中进行实验对比与分析,并通过文本摘要质量评价体系Rouge进行实验评估。
一种实现上述优选实施例中基于双编码器的短文本自动摘要方法的计算机程序。
本专利的第四发明目的是提供一种实现上述优选实施例中基于双编码器的短文本自动摘要方法的信息数据处理终端。
本专利的第五发明目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述优选实施例中的基于双编码器的短文本自动摘要方法。
本发明通过对生成式文本摘要任务进行学习与研究,提出了一种基于双编码器的短文本自动摘要方法,针对当前文本摘要生成模型中上下文语义信息利用不充分,传统注意力机制语义理解不丰富;生成摘要精确度不高等问题,融合全局语义信息和局部语义信息以提高模型语言理解能力;同时结合位置嵌入、词嵌入方法将词性、词频率-逆文档指数、词关键性融合词向量特征表示中,提高模型对词语的理解;其次,针对word2vec的skip-gram模型,通过具有酉不变性质的成对内积损失函数优化词嵌入矩阵,为当前语料库选择最佳词嵌入维度,发挥词向量表示的最佳性能;最后,通过Rouge评价体系得出,本发明提出一种基于双编码器的短文本自动摘要方法提高了文本摘要的准确度和精度。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (4)

1.一种基于双编码器的短文本自动摘要方法,其特征在于,包括如下步骤:
步骤一:数据预处理,具体为:
将搜狗实验室提供的新闻语料库数据集进行数据的清洗和择优选取;去除掉长度小于5的文本,替换英文、特殊字符、表情符号三种杂乱字符,提取高质量的文本摘要数据;依据摘要与原文语义相似度的大小对数据进行筛选,依据摘要与原文语义相似度高低将数据分为不同类别并为后续模型的运算提供数据输入;语义相似度计算公式如下所示:
Figure FDA0003930635180000011
Figure FDA0003930635180000012
其中:vS为句子向量生成,|s|为当前句子所含词数,IDFw为词文档逆文档频率指数,vw为词向量;通过词向量的加权求和获得句子向量,并通过余弦距离计算文本-摘要对之间的相似度;
步骤二:设计具有双向递归神经网络的双编码器,具体为:
双编码器结构用于获取原文的全局语义信息和局部上下文语义信息,高层编码器将文本输入序列(x1,x2,...,xn)通过伴随自注意力机制的双向递归神经网络BiRNN映射成高维语义向量M,低层编码器聚焦于原始文本局部语义的一致性表示,将文本输入序列(x1,x2,...,xn)通过BiRNN映射成编码器隐藏状态向量(h1,h2,...hn),双编码器具体计算公式如下所示:
H=(H1,H2,...Hn)=BiRNN(x1,x2,...,xn)
Figure FDA0003930635180000013
Figure FDA0003930635180000014
Figure FDA0003930635180000015
其中:H是由递归神经网络映射的隐藏状态向量,VH和WH为优化参数矩阵,通过softmax对
Figure FDA0003930635180000021
进行归一化处理得到
Figure FDA0003930635180000022
归一化得分和编码器隐藏状态信息的加权求和获得M,M代表着原文全局语义向量表示;
步骤三:融合全局与局部语义的注意力机制;
注意力机制是将编码器的隐藏状态和解码器的隐藏状态通过加权求和融合成高维语义表示,并指示解码器对序列中哪一单词语义需重点关注,融合全局与局部语义的注意力机制的详细计算公式如下所示:
Figure FDA0003930635180000023
Figure FDA0003930635180000024
Figure FDA0003930635180000025
其中:全局语义向量M和编码器隐藏状态hi级联相处通过优化参数Wh将其转化为当前状态的语义表示,解码器隐藏状态St-1与Vs相乘获得解码器当前状态信息的向量表示,然后两者通过相应元素的对齐相加,并通过非线性激活函数tanh()映射成一融合状态向量,该融合状态向量结合了编码器端第i步的语义信息和t-1时刻解码端的隐藏状态信息,
Figure FDA0003930635180000026
为优化参数矩阵与结果做内积运算,其过程实质是将注意力机制语义表示和编码器-解码器的隐藏层状态通过得分函数映射为相似性得分,将低层编码器状态的加权求和获得的联合上下文语义表示Ct-1
步骤四:伴随经验概率分布的解码器,采用双层单向神经网络设计解码器,
首先解码器将当前t时刻的隐藏向量、上下文高层语义和t-1时刻解码端的输出序列通过条件概率函数映射为t时刻输出序列的待选概率,然后引入了关键词经验概率分布,加速解码端的收敛速度,计算公式如下所示:
Figure FDA0003930635180000027
Figure FDA0003930635180000028
其中:Ct为融合全局和局部语义信息的上下文语义表示,St为当前时刻解码器的隐藏状态,yt-1为t-1时刻输出摘要,Qo为输出序列候选词经验概率分布;Wc,Wo,bo为优化参数;WQ、λ为优化参数,
Figure FDA0003930635180000031
表示哈达马积(Hadamard)在与λ对位相加;V为词表0/1向量矩阵V=(v1,v2,...,vm),v1=1代表该词在文章中出现过,否则v1=0;
步骤五:增加词嵌入特征,将Position Embedding和word Embedding结合形成新的词向量表示,增加了词性、词频-逆文档频率和关键性得分来丰富单词语义特征,位置嵌入和关键性得分的详细计算公式如下:
Figure FDA0003930635180000032
Figure FDA0003930635180000033
Figure FDA0003930635180000034
其中:单词所在位置pos映射成为一个dmodel维的位置向量,且此位置向量的第i维的值为PE(pos,i),P(wi)为单词频率,β为平滑反频率系数,多词特征的引入增加模型对词语的理解;
步骤六:优化词嵌入维度,通过依据矩阵微扰理论设计的伴随酉不变性质的成对内积损失函数为当前语料库设计最优的维度嵌入表示,PIP损失函数如下:
PIP(E)=EET
Figure FDA0003930635180000035
其中:
Figure FDA0003930635180000036
为已得到的词向量矩阵,E*∈Rn×d为未获得的最优词向量矩阵;k,d为维数k<d,
Figure FDA0003930635180000037
为偏差,表示限定k维的词嵌入维度后将丢失k+1维之后的信息,
Figure FDA0003930635180000041
Figure FDA0003930635180000042
为方差,第二项表示噪声的存在导致对语义矩阵的大小估计产生误差,随k的增加而增加;第三项表示存在的噪声对语义矩阵方向上的估计误差,随k的增加而增加,α∈(0,1],σ为噪声标准差,λi为第i个经验奇异值参数;
步骤七:通过对来自搜狗实验室的新闻语料库数据进行预处理和实验并带入具有双编码器和伴随经验概率分布的Seq2Seq模型进行计算,同时分别在RNN+atten、Bi-MulRNN+atten模型、Do-Bi+pos+w2cPro模型、以及Do-Bi+pos-w2cPro+dimen模型中进行实验对比与分析,并通过文本摘要质量评价体系Rouge进行实验评估。
2.一种基于双编码器的短文本自动摘要系统,其特征在于,包括:
数据预处理模块,将搜狗实验室提供的新闻语料库数据集进行数据的清洗和择优选取;去除掉长度小于5的文本,替换英文、特殊字符、表情符号三种杂乱字符,提取高质量的文本摘要数据;依据摘要与原文语义相似度的大小对数据进行筛选,依据摘要与原文语义相似度高低将数据分为不同类别并为后续模型的运算提供数据输入;语义相似度计算公式如下所示:
Figure FDA0003930635180000043
Figure FDA0003930635180000044
其中:vS为句子向量生成,|s|为当前句子所含词数,IDFw为词文档逆文档频率指数,vw为词向量;通过词向量的加权求和获得句子向量,并通过余弦距离计算文本-摘要对之间的相似度;
具有双向递归神经网络的双编码器设计模块,双编码器结构用于获取原文的全局语义信息和局部上下文语义信息,高层编码器将文本输入序列(x1,x2,...,xn)通过伴随自注意力机制的双向递归神经网络BiRNN映射成高维语义向量M,低层编码器聚焦于原始文本局部语义的一致性表示,将文本输入序列(x1,x2,...,xn)通过BiRNN映射成编码器隐藏状态向量(h1,h2,...hn),双编码器具体计算公式如下所示:
H=(H1,H2,...Hn)=BiRNN(x1,x2,...,xn)
Figure FDA0003930635180000051
Figure FDA0003930635180000052
Figure FDA0003930635180000053
其中:H是由递归神经网络映射的隐藏状态向量,VH和WH为优化参数矩阵,通过softmax对
Figure FDA0003930635180000054
进行归一化处理得到
Figure FDA0003930635180000055
归一化得分和编码器隐藏状态信息的加权求和获得M,M代表着原文全局语义向量表示;
融合全局与局部语义的注意力机制模块,注意力机制是将编码器的隐藏状态和解码器的隐藏状态通过加权求和融合成高维语义表示,并指示解码器对序列中哪一单词语义需重点关注,融合全局与局部语义的注意力机制的详细计算公式如下所示:
Figure FDA0003930635180000056
Figure FDA0003930635180000057
Figure FDA0003930635180000058
其中:全局语义向量M和编码器隐藏状态hi级联相处通过优化参数Wh将其转化为当前状态的语义表示,解码器隐藏状态St-1与Vs相乘获得解码器当前状态信息的向量表示,然后两者通过相应元素的对齐相加,并通过非线性激活函数tanh()映射成一融合状态向量,该融合状态向量结合了编码器端第i步的语义信息和t-1时刻解码端的隐藏状态信息,
Figure FDA0003930635180000061
为优化参数矩阵与结果做内积运算,其过程实质是将注意力机制语义表示和编码器-解码器的隐藏层状态通过得分函数映射为相似性得分,将低层编码器状态的加权求和获得的联合上下文语义表示Ct-1
伴随经验概率分布的解码器模块,采用双层单向神经网络设计解码器,
首先解码器将当前t时刻的隐藏向量、上下文高层语义和t-1时刻解码端的输出序列通过条件概率函数映射为t时刻输出序列的待选概率,然后引入了关键词经验概率分布,加速解码端的收敛速度,计算公式如下所示:
Figure FDA0003930635180000062
Figure FDA0003930635180000063
其中:Ct为融合全局和局部语义信息的上下文语义表示,St为当前时刻解码器的隐藏状态,yt-1为t-1时刻输出摘要,Qo为输出序列候选词经验概率分布;Wc,Wo,bo为优化参数;WQ、λ为优化参数,
Figure FDA0003930635180000064
表示哈达马积(Hadamard)在与λ对位相加;V为词表0/1向量矩阵V=(v1,v2,...,vm),v1=1代表该词在文章中出现过,否则v1=0;
增加词嵌入特征模块,将Position Embedding和word Embedding结合形成新的词向量表示,增加了词性、词频-逆文档频率和关键性得分来丰富单词语义特征,位置嵌入和关键性得分的详细计算公式如下:
Figure FDA0003930635180000065
Figure FDA0003930635180000066
Figure FDA0003930635180000071
其中:单词所在位置pos映射成为一个dmodel维的位置向量,且此位置向量的第i维的值为PE(pos,i),P(wi)为单词频率,β为平滑反频率系数,多词特征的引入增加模型对词语的理解;
优化词嵌入维度模块,通过依据矩阵微扰理论设计的伴随酉不变性质的成对内积损失函数为当前语料库设计最优的维度嵌入表示,PIP损失函数如下:
PIP(E)=EET
Figure FDA0003930635180000072
其中:
Figure FDA0003930635180000073
为已得到的词向量矩阵,E*∈Rn×d为未获得的最优词向量矩阵;k,d为维数k<d,
Figure FDA0003930635180000074
为偏差,表示限定k维的词嵌入维度后将丢失k+1维之后的信息,
Figure FDA0003930635180000075
Figure FDA0003930635180000076
为方差,第二项表示噪声的存在导致对语义矩阵的大小估计产生误差,随k的增加而增加;第三项表示存在的噪声对语义矩阵方向上的估计误差,随k的增加而增加,α∈(0,1],σ为噪声标准差,λi为第i个经验奇异值参数;
评估模块,通过对来自搜狗实验室的新闻语料库数据进行预处理和实验并带入具有双编码器和伴随经验概率分布的Seq2Seq模型进行计算,同时分别在RNN+atten、Bi-MulRNN+atten模型、Do-Bi+pos+w2cPro模型、以及Do-Bi+pos-w2cPro+dimen模型中进行实验对比与分析,并通过文本摘要质量评价体系Rouge进行实验评估。
3.一种实现权利要求1所述基于双编码器的短文本自动摘要方法的信息数据处理终端。
4.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的基于双编码器的短文本自动摘要方法。
CN201910665534.9A 2019-07-23 2019-07-23 基于双编码器的短文本自动摘要方法及系统 Active CN110390103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910665534.9A CN110390103B (zh) 2019-07-23 2019-07-23 基于双编码器的短文本自动摘要方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910665534.9A CN110390103B (zh) 2019-07-23 2019-07-23 基于双编码器的短文本自动摘要方法及系统

Publications (2)

Publication Number Publication Date
CN110390103A CN110390103A (zh) 2019-10-29
CN110390103B true CN110390103B (zh) 2022-12-27

Family

ID=68287083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910665534.9A Active CN110390103B (zh) 2019-07-23 2019-07-23 基于双编码器的短文本自动摘要方法及系统

Country Status (1)

Country Link
CN (1) CN110390103B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990385A (zh) * 2019-11-26 2020-04-10 昆明信息港传媒有限责任公司 一套基于Sequence2Sequence的自动生成新闻标题的软件
CN111078865B (zh) * 2019-12-24 2023-02-21 北京百度网讯科技有限公司 文本标题生成方法和装置
CN111078866B (zh) * 2019-12-30 2023-04-28 华南理工大学 一种基于序列到序列模型的中文文本摘要生成方法
CN113128180A (zh) * 2019-12-31 2021-07-16 阿里巴巴集团控股有限公司 文本生成方法和设备
CN111708877B (zh) * 2020-04-20 2023-05-09 中山大学 基于关键信息选择和变分潜在变量建模的文本摘要生成法
CN111221974B (zh) * 2020-04-22 2020-08-14 成都索贝数码科技股份有限公司 基于层级结构多标签体系的新闻文本分类模型的构建方法
CN111460136B (zh) * 2020-04-22 2022-10-14 南京邮电大学 一种面向网络知识问答社区的自动答案摘要方法
CN111709230B (zh) * 2020-04-30 2023-04-07 昆明理工大学 基于词性软模板注意力机制的短文本自动摘要方法
CN111737456A (zh) * 2020-05-15 2020-10-02 恩亿科(北京)数据科技有限公司 一种语料信息的处理方法和装置
CN111930931A (zh) * 2020-07-20 2020-11-13 桂林电子科技大学 一种摘要评价方法及装置
CN112069309B (zh) * 2020-09-14 2024-03-15 腾讯科技(深圳)有限公司 信息获取方法、装置、计算机设备及存储介质
CN112287687B (zh) * 2020-09-17 2022-06-14 昆明理工大学 基于案件属性感知的案件倾向性抽取式摘要方法
CN112101043B (zh) * 2020-09-22 2021-08-24 浙江理工大学 一种基于注意力的语义文本相似度计算方法
CN112395832A (zh) * 2020-11-17 2021-02-23 上海金桥信息股份有限公司 一种基于序列到序列的文本量化分析与生成方法及系统
CN112395878B (zh) * 2020-12-14 2024-01-02 深圳供电局有限公司 一种基于电价政策的文本处理方法及系统
CN112674734B (zh) * 2020-12-29 2021-12-07 电子科技大学 一种基于监督Seq2Seq模型的脉搏信号噪声检测方法
CN112836040B (zh) * 2021-01-31 2022-09-23 云知声智能科技股份有限公司 多语言摘要的生成方法、装置、电子设备及计算机可读介质
CN112764784B (zh) * 2021-02-03 2022-10-11 河南工业大学 基于神经机器翻译的软件缺陷自动修复方法及装置
CN112965722B (zh) * 2021-03-03 2022-04-08 深圳华大九天科技有限公司 一种Verilog-A模型的优化方法、电子设备及计算机可读存储介质
CN113032569A (zh) * 2021-04-09 2021-06-25 中南大学 一种基于语义相似度的中文自动文本摘要评价方法
CN113221577A (zh) * 2021-04-28 2021-08-06 西安交通大学 一种教育文本知识归纳方法、系统、设备及可读存储介质
CN115269768A (zh) * 2021-04-29 2022-11-01 京东科技控股股份有限公司 要素文本处理方法、装置、电子设备和存储介质
CN113743133B (zh) * 2021-08-20 2023-10-17 昆明理工大学 融合词粒度概率映射信息的汉越跨语言摘要方法
CN113836928B (zh) * 2021-09-28 2024-02-27 平安科技(深圳)有限公司 文本实体生成方法、装置、设备及存储介质
CN115169227B (zh) * 2022-07-04 2023-07-07 四川大学 设计概念生成网络构建方法及概念方案自动生成方法
CN115809329B (zh) * 2023-01-30 2023-05-16 医智生命科技(天津)有限公司 一种长文本的摘要生成方法
CN116501863A (zh) * 2023-06-30 2023-07-28 北京长河数智科技有限责任公司 基于自然语言处理的文本摘要生成方法及装置
CN117520535A (zh) * 2024-01-08 2024-02-06 中国传媒大学 生成文本摘要的方法、系统及设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN110032729A (zh) * 2019-02-13 2019-07-19 北京航空航天大学 一种基于神经图灵机的自动摘要生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN110032729A (zh) * 2019-02-13 2019-07-19 北京航空航天大学 一种基于神经图灵机的自动摘要生成方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
AM-BRNN: 一种基于深度学习的文本摘要自动抽取模型;沈华东等;《小型微型计算机系统》;20180630;第39卷(第6期);第1184-1189页 *
Chinese short text summary generation model combining;Guangqin Chen;;《2018 International conference on network,Communication,computer engineering》;20180131;第396-407页 *
人机对话中的情感文本生成方法研究;范创;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115(第1期);I138-5124 *
基于seq2seq框架文本摘要的研究与实现;孙嘉伟;《中国优秀硕士学位论文全文数据库信息科技辑》;20181215(第12期);I138-1966 *
基于TextRank的自动摘要优化算法;李娜娜等;《计算机应用研究》;20190430;第36卷(第4期);第1045-1050页 *
基于TF-IDF和余弦相似度的文本分类方法;武永亮等;《中文信息学报》;20170930;第31卷(第5期);第138-145页 *
基于分类的中文文本摘要方法;庞超等;《计算机科学》;20180131;第45卷(第1期);第144-147页 *
基于深度学习的文本自动摘要方案;张克君等;《计算机应用》;20190210;第39卷(第2期);第311-315页 *
综合词位置和语义信息的专利文本相似度计算;夏冰等;《计算机工程与设计》;20181031;第39卷(第10期);第3087-3091页 *

Also Published As

Publication number Publication date
CN110390103A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN110390103B (zh) 基于双编码器的短文本自动摘要方法及系统
Smetanin et al. Deep transfer learning baselines for sentiment analysis in Russian
Wang et al. Neural network-based abstract generation for opinions and arguments
Khan et al. Multi-class sentiment analysis of urdu text using multilingual BERT
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
CN111324728A (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
CN111401077A (zh) 语言模型的处理方法、装置和计算机设备
Khan et al. Deep recurrent neural networks with word embeddings for Urdu named entity recognition
Yang et al. Attention-based personalized encoder-decoder model for local citation recommendation
Kocmi Exploring benefits of transfer learning in neural machine translation
Anh et al. Abstractive text summarization using pointer-generator networks with pre-trained word embedding
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
Xiao et al. A new attention-based LSTM for image captioning
Wang et al. Data set and evaluation of automated construction of financial knowledge graph
Luo et al. A thorough review of models, evaluation metrics, and datasets on image captioning
Al-Qablan et al. A survey on sentiment analysis and its applications
Tampe et al. Neural abstractive unsupervised summarization of online news discussions
Kumar et al. Emotion recognition in Hindi text using multilingual BERT transformer
Zhang et al. Chinese-English mixed text normalization
Tian et al. Emotion-aware multimodal pre-training for image-grounded emotional response generation
Choi et al. Neural attention model with keyword memory for abstractive document summarization
Demir Turkish data-to-text generation using sequence-to-sequence neural networks
Zhou et al. CERG: Chinese emotional response generator with retrieval method
CN116186211B (zh) 一种文本攻击性检测和转换的方法
Pontes Compressive Cross-Language Text Summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant