CN107291836A - 一种基于语义相关度模型的中文文本摘要获取方法 - Google Patents

一种基于语义相关度模型的中文文本摘要获取方法 Download PDF

Info

Publication number
CN107291836A
CN107291836A CN201710397540.1A CN201710397540A CN107291836A CN 107291836 A CN107291836 A CN 107291836A CN 201710397540 A CN201710397540 A CN 201710397540A CN 107291836 A CN107291836 A CN 107291836A
Authority
CN
China
Prior art keywords
text
model
correlation
vector
semantic relevancy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710397540.1A
Other languages
English (en)
Other versions
CN107291836B (zh
Inventor
孙栩
马树铭
许晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710397540.1A priority Critical patent/CN107291836B/zh
Publication of CN107291836A publication Critical patent/CN107291836A/zh
Application granted granted Critical
Publication of CN107291836B publication Critical patent/CN107291836B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公布了一种基于语义相关度模型的中文文本摘要获取方法,设计文本编码器利用深度神经网络将原文本进行压缩,得到原文本的编码向量;设计摘要解码生成器生成摘要的解码向量;再通过构建语义相关度模型,得到原文本的编码向量和摘要的解码向量之间的相关度,作为原文本和生成摘要之间相关性的度量;再通过训练语义相关度模型最大化所述相关度,由此生成完整的摘要。使用本发明技术方案生成文本摘要,能够提高生成摘要的质量和准确度,尤其提高生成摘要与原文本的语义相关度。

Description

一种基于语义相关度模型的中文文本摘要获取方法
技术领域
本发明属于自然语言处理领域,涉及中文文本摘要算法,具体涉及一种基于语义相关度模型的中文文本摘要获取方法。
背景技术
现有中文文本摘要算法包括基于序列到序列模型的文本摘要算法,该算法基于深度学习技术,在训练阶段让算法预测的摘要与标准答案尽可能接近,经过一段时间后的训练,该算法可以对中文的文本进行自动摘要。但是,由于训练阶段的目标函数是交叉熵函数,因此,上述方法会导致最后训练得到的模型在字面上与标准摘要相近,但是在语义上与标准摘要可能相差很远。采用现有方法从中文文本摘要中产生的摘要与原文本语义相关度较低,生成摘要的准确度不高,质量不佳。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于语义相关度模型的中文文本摘要获取方法,得到的摘要的语义表达更为准确,能够解决中文文本摘要中产生的摘要与原文本语义相关度较低的问题。
本发明提供的技术方案是:
一种基于语义相关度模型的中文文本摘要获取方法,通过构建语义相关度模型,得到原文本的编码向量和摘要的解码向量之间的相关度,作为原文本和生成摘要之间相关性的度量;再通过训练语义相关度模型最大化上述相关度,由此生成完整的摘要;包括如下步骤:
A.设计文本编码器,利用深度神经网络将原文本进行压缩,得到原文本的编码向量Vs,即原文本经文本编码器进行压缩后得到的信息;
B.设计摘要解码生成器,在第一个时刻输入原文本的编码向量Vs和起始的句子开始的标识符,利用深度神经网络循环地在每一时刻输入上一个时刻预测得到的字或者标识符,经过网络结构输出当前时刻预测的字,经过一定的循环次数得到若干个连续的字,即为一段完整的摘要;解码生成器还同时生成上述完整摘要的解码向量Vt,生成向量的过程与步骤A相同;
C.构建语义相关度模型,语义相关度模型为余弦相似函数,表示为式1:
其中,Vs为文本编码器生成的编码向量,Vt为摘要解码生成器生成的向量,符号‖·‖代表向量的二范数。余弦相似函数输入文本编码器和摘要解码生成器输出的语义解码向量,输出两个向量之间的相关度,作为原文本和生成摘要之间相关性的度量;
D.在训练语义相关度模型时,需要最大化步骤C得到的相关度。模型的训练使用亚当(Adam)优化算法。在训练过程中,先随机选取训练数据中的若干个样本,对这些样本依照语义相关度模型计算目标函数,目标函数表示为式2:
其中,为训练数据中的正确摘要,p(y|x;θ)为解码生成器预测出摘要的概率,λ为模型的权重系数,cos(Vs,Vt)为语义相关模型计算出的相关度值。训练的目标是最大化模型的目标函数:先计算目标函数的梯度,再使用亚当(Adam)优化算法依照梯度更新模型的参数。
E.经过一定轮数的训练后,在开发数据集上能达到最好效果时停止训练,此时解码生成器即可生成完整的摘要。
作为一种优选方案,所述步骤A的实现方法为使用深度神经网络中的循环神经网络,在开始时刻输入原文本中的一个字到循环神经网络,将这个字压缩成一个向量,然后将压缩后得到的向量传入下一时刻;下一时刻循环神经网络输入上一时刻的压缩向量和原文本的下一个字,将二者压缩成新的向量传入下一时刻;在压缩完所有文本后得到的编码向量,即是文本编码器压缩后的信息;
作为一种优选方案,所述步骤B的实现方法采用深度神经网络中的长短时记忆网络。长短时记忆网络在第一个时刻输入一个开始的标识符,然后在接下来的每一时刻输入上一时刻预测的字,经过网络结构输出当前时刻预测的字,经过一定时刻后输出结束的标识符,摘要解码生成器即可生成一段完整的摘要。
作为一种优选方案,所述步骤C的实现方式为:构建的语义相关度模型是一个余弦相似函数,余弦相似函数的输入是文本编码器和摘要解码生成器输出的语义编码向量Vs和Vt,输出是两个向量之间的相关度cos(Vs,Vt),作为原文本和生成摘要之间相关性的度量。最后在训练模型的时候最大化这个相关度的分数。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于语义相关度模型的中文文本摘要获取方法,通过构建语义相关度模型,得到原文本的编码向量和摘要的解码向量之间的相关度,作为原文本和生成摘要之间相关性的度量;再通过训练语义相关度模型最大化上述相关度,由此生成完整的摘要。使用本发明技术方案生成文本摘要,能够提高生成摘要的质量和准确度,尤其提高生成摘要与原文本的语义相关度。
附图说明
图1是本发明提供的摘要获取方法的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于语义相关度模型的中文文本摘要获取方法,图1是方法的流程框图,通过构建语义相关度模型,得到原文本的编码向量和摘要的解码向量之间的相关度,作为原文本和生成摘要之间相关性的度量;再通过训练语义相关度模型最大化上述相关度,由此生成完整的摘要。
以下实施例以生成一段短新闻文本的摘要为例,新闻文本如下:
“仔细一算,上海的互联网公司不乏成功案例,但最终成为BAT一类巨头的几乎没有,这也能解释为何纳税百强的榜单中鲜少互联网公司的身影。有一类是被并购,比如:易趣、土豆网、PPS、PPTV、一号店等;有一类是数年偏安于细分市场。”采用本发明方法,可按以下步骤实施:
A.设计文本编码器,利用深度神经网络将原文本进行压缩,得到编码向量,即是文本编码器压缩后的信息;具体方式为使用深度神经网络中的长短时记忆网络模型,将上述新闻文本的每个字依次输入网络,在输入最后一个字时得到它的隐藏层向量,作为输入文本的编码向量Vs
B.设计摘要解码生成器,利用深度神经网络在每一时刻输入上一时刻预测得到的字,经过网络结构输出当前时刻预测的字,经过一定的时刻得到一段完整的摘要;具体方式为先使用深度神经网络中的长短时记忆网络模型,输入文本编码器生成的编码向量,然后生成摘要的第一个字“上”,把第一个字“上”输入到长短时记忆网络模型中,得到第二个字“海”,依次类推直到生成一个代表句子结束的标识符,这样就能得到一段生成的摘要文本“上海鲜少互联网巨头的身影”。此外,长短时记忆网络模型还能输出这段摘要文本“上海鲜少互联网巨头的身影”的解码向量Vt
C.构建语义相关度模型,语义相关度模型为余弦相似函数,余弦相似函数输入文本编码器和摘要解码生成器输出的语义解码向量,输出两个向量之间的相似度,作为原文本和生成摘要之间相关性的度量;具体方式为:将文本编码器输出的向量Vs和摘要解码生成器输出的向量Vt输入如下的余弦相似函数,得到一个相关度:
D.在训练语义相关度模型时,最大化步骤C得到的相关度。具体是将相关度加入以下目标函数中:
计算得到目标函数的梯度,然后用Adam算法依照梯度对参数θ进行更新,即可使目标函数最大化。
E.摘要解码生成器生成的摘要即为本方法所需生成的摘要。
本发明具体实施中,文本编码器所用的循环神经网络的参数为词向量维度400,隐藏层维度1000,输入词表的大小为4000;摘要解码生成器的参数与文本编码器一致,即词向量维度400,隐藏层维度1000,生成词表大小为4000,语义相关度函数的权重系数为0.0001。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (6)

1.一种基于语义相关度模型的中文文本摘要获取方法,通过构建语义相关度模型,得到原文本的编码向量和摘要的解码向量之间的相关度,作为原文本和生成摘要之间相关性的度量;再通过训练语义相关度模型最大化所述相关度,由此生成完整的摘要;包括如下步骤:
A.设计文本编码器,所述文本编码器利用深度神经网络将原文本进行压缩,得到原文本的编码向量Vs
B.设计摘要解码生成器,在第一个时刻输入原文本的编码向量Vs和起始句子开始的标识符,利用深度神经网络循环地在每一时刻输入上一个时刻预测得到的字或标识符,经过网络结构输出当前时刻预测的字,经过多次循环得到多个连续的字,即为一段完整的摘要;解码生成器还同时生成上述完整摘要的解码向量Vt
C.构建语义相关度模型,得到两个向量Vs与Vt之间的相关度,作为原文本和生成摘要之间相关性的度量;
D.训练语义相关度模型,即最大化步骤C得到的相关度;
E.经过多轮训练,当步骤C得到的相关度最大化时停止训练,此时解码生成器即生成完整的摘要。
2.如权利要求1所述中文文本摘要获取方法,其特征是,步骤A具体使用深度神经网络中的循环神经网络,在开始时刻将原文本中的一个字输入到循环神经网络,将这个字压缩成一个向量,然后将压缩后得到的向量传入下一时刻;下一时刻将上一时刻的压缩向量和原文本的下一个字输入到循环神经网络,再将压缩得到的新向量传入下一时刻;在压缩完所有文本后得到的编码向量,即是文本编码器压缩后的信息。
3.如权利要求1所述中文文本摘要获取方法,其特征是,步骤B具体采用深度神经网络中的长短时记忆网络,在第一个时刻将一个开始的标识符输入长短时记忆网络,然后在接下来的每一时刻输入上一时刻预测的字,经过网络结构输出当前时刻预测的字,最后时刻输出结束的标识符,摘要解码生成器即生成一段完整的摘要。
4.如权利要求1所述中文文本摘要获取方法,其特征是,步骤C所述语义相关度模型为余弦相似函数,表示为式1:
其中,Vs为文本编码器生成的编码向量;Vt为摘要解码生成器生成的解码向量;符号‖·‖代表向量的二范数;通过式1所示余弦相似函数得到两个向量Vs与Vt之间的相关度,作为原文本和生成摘要之间相关性的度量。
5.如权利要求1所述中文文本摘要获取方法,其特征是,步骤D使用Adam优化算法训练语义相关度模型,最大化步骤C得到的相关度。
6.如权利要求5所述中文文本摘要获取方法,其特征是,在训练过程中,先随机选取训练数据中的多个样本,对样本按照所述语义相关度模型计算目标函数,目标函数表示为式2:
其中,为训练数据中的正确摘要;p(y|x;θ)为解码生成器预测出摘要的概率;λ为模型的权重系数;cos(Vs,Vt)为语义相关模型计算出的相关度值;
训练的目标是最大化模型的目标函数:先计算目标函数的梯度,再使用Adam优化算法依照梯度更新模型的参数;当模型的目标函数达到最大化时,即得到训练好的语义相关度模型。
CN201710397540.1A 2017-05-31 2017-05-31 一种基于语义相关度模型的中文文本摘要获取方法 Expired - Fee Related CN107291836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710397540.1A CN107291836B (zh) 2017-05-31 2017-05-31 一种基于语义相关度模型的中文文本摘要获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710397540.1A CN107291836B (zh) 2017-05-31 2017-05-31 一种基于语义相关度模型的中文文本摘要获取方法

Publications (2)

Publication Number Publication Date
CN107291836A true CN107291836A (zh) 2017-10-24
CN107291836B CN107291836B (zh) 2020-06-02

Family

ID=60095038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710397540.1A Expired - Fee Related CN107291836B (zh) 2017-05-31 2017-05-31 一种基于语义相关度模型的中文文本摘要获取方法

Country Status (1)

Country Link
CN (1) CN107291836B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305543A (zh) * 2016-04-22 2017-10-31 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN107832300A (zh) * 2017-11-17 2018-03-23 合肥工业大学 面向微创医疗领域文本摘要生成方法及装置
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108427771A (zh) * 2018-04-09 2018-08-21 腾讯科技(深圳)有限公司 摘要文本生成方法、装置和计算机设备
CN108763198A (zh) * 2018-05-11 2018-11-06 北京理工大学 一种生成式的学术论文中相关工作的自动产生方法
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109214002A (zh) * 2018-08-27 2019-01-15 成都四方伟业软件股份有限公司 一种文本对比方法、装置及其计算机存储介质
CN109635302A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 一种训练文本摘要生成模型的方法和装置
WO2019095994A1 (zh) * 2017-11-14 2019-05-23 腾讯科技(深圳)有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN111008277A (zh) * 2019-10-30 2020-04-14 创意信息技术股份有限公司 一种自动文本摘要方法
CN111666759A (zh) * 2020-04-17 2020-09-15 北京百度网讯科技有限公司 文本的关键信息的抽取方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
户保田: ""基于深度神经网络的文本表示及其应用"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305543A (zh) * 2016-04-22 2017-10-31 富士通株式会社 对实体词的语义关系进行分类的方法和装置
US11030517B2 (en) 2017-11-14 2021-06-08 Tencent Technology (Shenzhen) Company Limited Summary obtaining method, apparatus, and device, and computer-readable storage medium
WO2019095994A1 (zh) * 2017-11-14 2019-05-23 腾讯科技(深圳)有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN107832300A (zh) * 2017-11-17 2018-03-23 合肥工业大学 面向微创医疗领域文本摘要生成方法及装置
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108427771A (zh) * 2018-04-09 2018-08-21 腾讯科技(深圳)有限公司 摘要文本生成方法、装置和计算机设备
CN108427771B (zh) * 2018-04-09 2020-11-10 腾讯科技(深圳)有限公司 摘要文本生成方法、装置和计算机设备
CN108763198A (zh) * 2018-05-11 2018-11-06 北京理工大学 一种生成式的学术论文中相关工作的自动产生方法
CN108763198B (zh) * 2018-05-11 2021-06-22 北京理工大学 一种生成式的学术论文中相关工作的自动产生方法
CN109145105B (zh) * 2018-07-26 2021-11-30 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109214002A (zh) * 2018-08-27 2019-01-15 成都四方伟业软件股份有限公司 一种文本对比方法、装置及其计算机存储介质
CN109635302A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 一种训练文本摘要生成模型的方法和装置
CN109635302B (zh) * 2018-12-17 2022-06-10 北京百度网讯科技有限公司 一种训练文本摘要生成模型的方法和装置
CN111008277A (zh) * 2019-10-30 2020-04-14 创意信息技术股份有限公司 一种自动文本摘要方法
CN111666759A (zh) * 2020-04-17 2020-09-15 北京百度网讯科技有限公司 文本的关键信息的抽取方法、装置、电子设备及存储介质
CN111666759B (zh) * 2020-04-17 2024-03-26 北京百度网讯科技有限公司 文本的关键信息的抽取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107291836B (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN107291836A (zh) 一种基于语义相关度模型的中文文本摘要获取方法
CN108319666B (zh) 一种基于多模态舆情分析的供电服务评估方法
CN107844469A (zh) 基于词向量查询模型的文本简化方法
CN109582789A (zh) 基于语义单元信息的文本多标签分类方法
CN110189749A (zh) 语音关键词自动识别方法
CN109979429A (zh) 一种tts的方法及系统
CN109635124A (zh) 一种结合背景知识的远程监督关系抽取方法
CN110147451B (zh) 一种基于知识图谱的对话命令理解方法
CN109783809B (zh) 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN111223498A (zh) 情绪智能识别方法、装置及计算机可读存储介质
CN111242033B (zh) 一种基于视频和文字对判别分析的视频特征学习方法
CN109727590A (zh) 基于循环神经网络的音乐生成方法及装置
CN110428820A (zh) 一种中英文混合语音识别方法及装置
CN113806494B (zh) 一种基于预训练语言模型的命名实体识别方法
CN110362797B (zh) 一种研究报告生成方法及相关设备
CN115329766B (zh) 一种基于动态词信息融合的命名实体识别方法
CN111382567B (zh) 一种中文分词和汉字多音字识别的方法及装置
CN114841151B (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN114662476A (zh) 一种融合词典与字符特征的字符序列识别方法
CN111680529A (zh) 一种基于层聚合的机器翻译算法及装置
CN114282555A (zh) 翻译模型训练方法及装置、翻译方法及装置
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN113129863B (zh) 语音时长预测方法、装置、设备及可读存储介质
CN117350378A (zh) 一种基于语义匹配和知识图谱的自然语言理解算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200602