CN112417092A - 基于深度学习的智能化文本自动生成系统及其实现方法 - Google Patents

基于深度学习的智能化文本自动生成系统及其实现方法 Download PDF

Info

Publication number
CN112417092A
CN112417092A CN202011251305.1A CN202011251305A CN112417092A CN 112417092 A CN112417092 A CN 112417092A CN 202011251305 A CN202011251305 A CN 202011251305A CN 112417092 A CN112417092 A CN 112417092A
Authority
CN
China
Prior art keywords
vector
output
word
neural network
generation system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011251305.1A
Other languages
English (en)
Other versions
CN112417092B (zh
Inventor
徐小龙
丁海杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202011251305.1A priority Critical patent/CN112417092B/zh
Publication of CN112417092A publication Critical patent/CN112417092A/zh
Application granted granted Critical
Publication of CN112417092B publication Critical patent/CN112417092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于深度学习的智能化文本自动生成系统及其实现方法,该实现方法主要包括如下操作步骤:步骤A,数据预处理:对用户提交的数据文件进行预处理,并转换成智能化文本自动生成系统可以识别和处理的数据格式;步骤B,字段‑内容选择编码:对预处理之后的数据进行编码,并利用预先设计好的神经网络模型计算序列的阶段性输出;步骤C,描述性解码:再次利用所述神经网络模型对所述阶段性输出进行新的计算预测,以得到所有词汇表中的单词的输出概率,并从中选出概率最大的文本作为输出。

Description

基于深度学习的智能化文本自动生成系统及其实现方法
技术领域
本发明涉及一种基于深度学习的智能化文本自动生成系统及其实现方法,属于自然语言处理和数据挖掘领域。
背景技术
智能化文本自动生成是一种利用人工智能领域的自然语言处理技术实现自动文本分析、内容总结和文本生成的技术,是解决目前信息过剩问题的一种有效的辅助手段,能够帮助人类更加快速、准确、全面的获取关键信息,在工业和商业方面都具有重要的实用意义。但是,当前应用在文本生成领域的主流方法都基于神经网络语言模型,由于神经网络语言模型的不可解释性和黑盒等特性,生成的文本开始出现参考错误,例如:语句间不一致以及对源数据缺乏保真度等问题。
如何解决文本生成过程中出现的准确性和流畅性问题已经成为研究焦点。目前采用的方法大多建立在序列到序列神经网络架构上,通过编码器-解码器结构以及注意力机制来对齐生成的文本和源数据之间的依赖,但是,注意力机制仍存在部分缺陷,在生成长文本时注意力向量的对齐作用会逐渐减弱,而且对于数据中的复杂结构信息不能很好的提取。并且,神经网络语言模型将文本生成问题建模为一个统计概率问题,输出文本时通过找到后验概率最大的单词作为目标单词,但是对于训练数据集中没有出现过的稀有词,又称未登录词并不能很好的生成。
针对稀有词问题,目前的处理方法大多是采用拷贝网络,将模型无法生成的单词从源序列中复制到输出文本中,但额外训练的神经网络往往不能和模型共享参数,因此增加了训练模型的难度和资源消耗。
有鉴于此,确有必要提出一种基于深度学习的智能化文本自动生成系统及其实现方法,以解决上述问题。
发明内容
本发明的目的在于提供一种基于深度学习的智能化文本自动生成系统,基于该系统能够进行文本的自动生成和对生成文本的准确性和完整性进行验证。
为实现上述目的,本发明提供了一种基于深度学习的智能化文本自动生成系统的实现方法,主要包括如下操作步骤:
步骤A,数据预处理:对用户提交的数据文件进行预处理,并转换成智能化文本自动生成系统可以识别和处理的数据格式;
步骤B,字段-内容选择编码:对预处理之后的数据进行编码,并利用预先设计好的神经网络模型计算序列的阶段性输出;
步骤C,描述性解码:再次利用所述神经网络模型对所述阶段性输出进行新的计算预测,以得到所有词汇表中的单词的输出概率,并从中选出概率最大的文本作为输出。
作为本发明的进一步改进,所述步骤A包括如下步骤:步骤A01,将字段名和其对应的属性值作为神经网络模型的主要输入,采用词嵌入的方式对用户提交的数据文件进行编码,分别得到字段词嵌入向量和属性词嵌入向量,将所述字段词嵌入向量和属性词嵌入向量处理成一个新的语义向量,用fw表示字段名的词嵌入向量,vw表示该字段对应的属性词嵌入向量,将fw和vw拼接成一个新的语义向量rw,其中rw=concat{fw,vw};
步骤A02,将字段在整体结构中的相对位置也采用词嵌入的方式进行编码,分别用pw+,pw-表示某个词在其所属的字段内容中正向和反向出现的位置,将这两个方向上的位置嵌入向量处理成一个新的结构向量pw,其中pw=concat{pw+,pw-};
步骤A03,将新的语义向量和新的结构向量分别作为神经网络模型的主要输入和辅助输入进行计算。
作为本发明的进一步改进,所述步骤B包括如下步骤:
步骤B01,对长短期记忆神经网络进行改进,修改每个时间步的长短期记忆神经网络单元的计算方式,使其能够学习字段-属性键值对的复杂结构信息和长序列依赖;
步骤B02,将不同字段的上下文环境作为决定其重要性的决策信息,并使用门控机制来学习隐藏依赖,针对特定字段获取更准确的语义信息。
作为本发明的进一步改进,所述步骤B01中,修改每个时间步的长短期记忆神经网络单元的计算方式为:
Figure BDA0002771698990000031
其中,ft,it,ot分别表示遗忘门,输入门和输出门;
Figure BDA0002771698990000032
Figure BDA0002771698990000033
分别是施加给rt和ht-1的权重矩阵,
Figure BDA0002771698990000034
表示4n×dr维度的实数向量空间,n是隐藏层维度,dr是输入rt的向量维度;rt是t时刻的输入;ht-1是t-1时刻输出的隐藏状态向量;
Figure BDA0002771698990000035
是当前时刻神经网络模型输出的候选单元状态向量;sigmoid和tanh分别表示不同的激活函数。
作为本发明的进一步改进,将pt作为长短期记忆神经网络的联合输入,新的单元状态向量和隐藏状态向量的计算方式为:
Figure BDA0002771698990000036
Figure BDA0002771698990000037
ht=ot⊙tanh(ct)
其中
Figure BDA0002771698990000038
Figure BDA0002771698990000039
分别是施加给pt的权重矩阵和偏置向量,2dp是输入pt的维度,⊙表示向量点乘,ct表示当前时刻神经网络模型输出的单元状态向量,
Figure BDA00027716989900000310
决定着ct要保存的结构信息量,而ωt∈(-1,1)n中保存着当前时刻的所有结构信息。
作为本发明的进一步改进,步骤B02具体为:首先计算每个字段的重要程度得分αi,j,然后用αi,j来求这个字段的依赖向量di,接着通过门控机制来获取新的编码器输出
Figure BDA0002771698990000041
具体为:
αi,j=softmax(hiWrhj)
Figure BDA0002771698990000042
Figure BDA0002771698990000043
Figure BDA0002771698990000044
其中
Figure BDA0002771698990000045
是施加给hi和hj的权重矩阵,
Figure BDA0002771698990000046
Figure BDA0002771698990000047
是施加给concat{hi,di}的权重矩阵和偏置向量,softmax是激活函数,concat{}表示对两个向量作拼接操作,
Figure BDA0002771698990000048
控制着解码器中的每个时间步可以从编码器中获取到的信息量。
作为本发明的进一步改进,所述步骤C包括如下步骤:
步骤C01,将注意力向量和目标序列的词嵌入向量进行拼接操作,作为神经网络模型的输入;
步骤C02,将通过内容选择器得到的上下文信息向量和某个时间步的隐藏状态向量作为输入,模型输出这个时间步中所有单词的条件概率分布;
步骤C03,从候选单词中选择条件概率最大的词作为输出词,输出所有时间步的单词即为对长文本或结构化数据的描述性文本。
作为本发明的进一步改进,所述步骤C01中,注意力向量的计算通过替换编码器的输出为内容选择器得到的上下文信息向量得到,具体为:
Figure BDA0002771698990000049
Figure BDA00027716989900000410
Figure BDA00027716989900000411
Figure BDA00027716989900000412
其中,
Figure BDA0002771698990000051
是内容选择器输出的上下文向量,st是解码器中每个时间步输出的隐藏状态向量,计算αt,j得到注意力得分,zt是通过内容选择器强化之后的注意力向量,融合注意力向量和目标序列的词嵌入向量xt得到语言模型真实的输入
Figure BDA0002771698990000052
所述步骤C02中,把每个时间步经过编码之后的单词xt、从编码器中得到的上下文信息向量zt和上一个隐藏状态向量st-1作为输入,输出生成下一个单词的条件概率分布Pt,Pt=P(wt|w0:t-1,r1:n),
Figure BDA0002771698990000053
Pt=softmax(Wsst+bs)
其中,st-1是解码器中t-1时刻的隐藏状态向量,LSTM表示长短期记忆神经网络单元,
Figure BDA0002771698990000054
是施加给st的权重矩阵和偏置向量,dout是输出维度,即词汇表大小,wt和w0:t-1分别是t时刻和0~t-1时刻的输出词。
作为本发明的进一步改进,步骤C03中,从候选单词中选择条件概率最大的词作为输出词,若条件概率最大的词为特殊字符<UNK>,表示未登录词,则用注意力向量所指向的输入数据表中替换概率最大的词来替换所述特殊字符<UNK>,即argmax函数所指向注意力向量中的字段的属性值。具体为:
Figure BDA0002771698990000055
其中,zs表示注意力向量,当系统在某时刻选择的条件概率最大的词ws为<UNK>时,用
Figure BDA0002771698990000056
替换。
本发明的目的还在于提供一种基于深度学习的智能化文本自动生成系统,用于将目标用户提交的数据自动生成描述性文本。
为实现上述目的,本发明提供了一种基于深度学习的智能化文本自动生成系统,该智能文本自动生成系统应用上述实现方法,所述智能化文本自动生成系统包括:
数据预处理模块,用于对用户提交的数据文件进行预处理,并转换成智能化文本自动生成系统可以识别和处理的数据格式;
字段-内容选择编码器模块,用于接收数据处理模块发送过来的预处理后的数据,并对这些数据进行编码,利用预先设计好的神经网络模型计算序列的阶段性输出;
解码器模块,用于接收字段-内容选择编码器模块发送过来的阶段性输出,再次利用所述神经网络模型对所述阶段性输出进行新的计算预测,以得到所有词汇表中的单词的输出概率,并从中选出概率最大的文本作为输出;
推理模块,用于将解码器模块输出的文本通过条件语言模型生成描述性文本。
本发明的有益效果是:本发明基于深度学习的智能化文本自动生成系统,一方面利用自然语言处理技术将长文本或结构化数据自动生成描述性文本,方便用户快速、准确的了解关键信息;另一方面,通过强化的注意力机制和门控机制解决了序列到序列模型中输出文本和输入序列之间的映射关系,并解决了注意力机制无法有效处理长文本和结构信息的缺陷。
附图说明
图1是本发明基于深度学习的智能化文本自动生成系统的结构示意图。
图2是本发明基于深度学习的智能化文本自动生成系统的实现方法的流程图。
图3是图2中进行数据预处理时的示意图。
图4是图1中内容选择编码器的流程示意图。
图5是本发明基于深度学习的智能化文本自动生成系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明设计了一种基于深度学习技术的智能化文本自动生成系统,该系统将复杂的长文本或结构化数据作为输入,通过对数据进行预处理、转换以及推理,最终得到能够充分、连贯且流畅的描述这些数据的文本。
如图1所示,基于深度学习的智能化文本自动生成系统包括:
数据预处理模块,用于对用户提交的数据文件进行预处理,并转换成智能化文本自动生成系统可以识别和处理的数据格式;
字段-内容选择编码器模块,用于接收数据处理模块发送过来的预处理后的数据,并对这些数据进行编码,利用预先设计好的神经网络模型计算序列的阶段性输出;
解码器模块,用于接收字段-内容选择编码器模块发送过来的阶段性输出,再次利用所述神经网络模型对所述阶段性输出进行新的计算预测,以得到所有词汇表中的单词的输出概率,并从中选出概率最大的文本作为输出;
推理模块,用于将解码器模块输出的文本通过条件语言模型生成描述性文本。
如图2所示,智能化文本自动生成系统的实现方法,包括如下步骤:
步骤A,数据预处理:对用户提交的数据文件进行预处理,并转换成所述智能化文本自动生成系统可以识别和处理的数据格式。
为了适用长文本及结构化数据中复杂的结构信息,增强该模型的可移植性,本发明首先在预处理阶段对字段的内容和位置信息进行了联合建模,以便从表格中学习到更丰富的语义信息和结构信息。
如图3所示,具体为:步骤A01,将字段名和属性值作为神经网络模型的主要输入,采用词嵌入的方式对用户提交的数据文件进行编码,分别得到字段词嵌入向量和属性词嵌入向量,将所述字段词嵌入向量和属性词嵌入向量处理成一个新的语义向量,用fw表示所述字段名的词嵌入向量,vw表示该字段对应的属性词嵌入向量,将fw和vw拼接成一个新的语义向量rw,其中rw=concat{fw,vw};
步骤A02,将字段在整体结构中的相对位置也采用词嵌入的方式进行编码,分别用pw+,pw-表示某个词在其所属的字段内容中正向和反向出现的位置,将这两个方向上的位置嵌入向量处理成一个新的结构向量pw,其中pw=concat{pw+,pw-},用rw表示模型的输入,rw=concat{fw,vw},用pw=concat{pw+,pw-}表示辅助的位置信息,pw+,pw-分别表示某个词在其所属的字段内容中正向和反向出现的位置,如图3所示,(a)表示Penny Ramsey的维基百科信息框内容,(b)表示其对应的预处理之后的形式,将rw和pw作为LSTM某个时间步的联合输入;
步骤A03,将新的语义向量和新的结构向量分别作为神经网络模型的主要输入和辅助输入进行计算。
步骤B,字段-内容选择编码:将预处理之后的数据进行编码,并利用预先设计好的神经网络模型计算序列的阶段性输出。在字段编码器中通过门控机制预先在编码器内部决定不同字段内容之间的互相决策重要程度,注意力向量能够从源序列中获取到更多的信息并且校正这两者之间的对齐关系。
如图4所示,具体为:步骤B01,对长短期记忆神经网络进行改进,修改每个时间步的长短期记忆神经网络单元的计算方式,使其能够学习字段-属性键值对的复杂结构信息和长序列依赖。即修改每个时间步的LSTM单元结构为:
Figure BDA0002771698990000081
其中,ft,it,ot分别表示遗忘门,输入门和输出门,
Figure BDA0002771698990000082
分别是施加给rt和ht-1的权重矩阵,rt是t时刻的输入,ht-1是t-1时刻的隐藏状态向量,
Figure BDA0002771698990000083
是当前时刻神经网络单元输出的候选单元状态向量,
Figure BDA0002771698990000084
表示4n×dr维度的实数向量空间,n是隐藏层维度,dr是输入rt的向量维度,sigmoid和tanh分别表示不同的激活函数。
长短期记忆神经网络能够通过单元状态向量和隐藏状态向量来保存重要的信息。为了更深入的学习表格的结构信息,将pt作为长短期记忆神经网络的联合输入,pt=concat{pt+,pt-}。新的单元状态向量和隐藏状态向量的计算方式为:
Figure BDA0002771698990000091
Figure BDA0002771698990000092
ht=ot⊙tanh(ct)
其中
Figure BDA0002771698990000093
Figure BDA0002771698990000094
分别是施加给pt的权重矩阵和偏置向量,2dp是输入pt的维度,⊙表示向量点乘,ct表示当前时刻神经网络单元输出的单元状态向量,
Figure BDA0002771698990000095
决定着ct要保存的结构信息量,而ωt∈(-1,1)n中保存着当前时刻的所有结构信息。
步骤B02,将不同字段的上下文环境作为决定其重要性的决策信息,并使用门控机制来学习隐藏依赖,针对特定字段获取更准确的语义信息。设计使用门控机制来更好的学习不同字段之间相互存在的依赖关系,首先计算每个字段的重要程度得分αi,j,然后用αi,j来求这个字段的依赖向量di,接着通过门控机制来获取新的编码器输出
Figure BDA0002771698990000096
αi,j=softmax(hiWrhj)
Figure BDA0002771698990000097
Figure BDA0002771698990000098
Figure BDA0002771698990000099
其中
Figure BDA00027716989900000910
是施加给hi和hj的权重矩阵,
Figure BDA00027716989900000911
Figure BDA00027716989900000912
是施加给concat{hi,di}的权重矩阵和偏置向量,softmax是激活函数,concat表示对两个向量作拼接操作,
Figure BDA00027716989900000913
控制着解码器中的每个时间步可以从编码器中获取到的信息量。
步骤C,描述性解码:再次利用所述神经网络模型对阶段性输出进行新的计算预测,得到所有词汇表中的单词的输出概率,并从中选出概率最大的文本作为输出。
如图1和图5所示,在描述性解码器中通过LSTM网络来学习上下文的语义信息,具体为:
步骤C01,将注意力向量和目标序列的词嵌入向量进行拼接操作,作为神经网络模型的输入,通过注意力机制在解码器中计算得到每一个时间步的上下文信息向量zt,注意力向量的计算通过替换编码器的输出为内容选择器得到的上下文信息向量得到,具体为:
Figure BDA0002771698990000101
Figure BDA0002771698990000102
Figure BDA0002771698990000103
其中,
Figure BDA0002771698990000104
是内容选择器输出的上下文向量,st是解码器中每个时间步输出的隐藏状态向量,计算αt,j得到注意力得分,zt是通过内容选择器强化之后的注意力向量,同时也作为编码器的上下文向量输出给解码器。
步骤C02,通过内容选择器得到的上下文信息向量和隐藏向量作为输入,输出生成下一个时间步中所有单词的条件概率分布。把每个时间步经过编码之后的单词xt、从编码器中得到的上下文信息向量zt和上一个隐藏状态向量st-1作为输入,输出生成下一个单词的条件概率分布Pt,Pt=P(wt|w0:t-1,r1:n),
Figure BDA0002771698990000105
Figure BDA0002771698990000106
Pt=softmax(Wsst+bs)
其中LSTM表示长短期记忆神经网络单元,st,ct是长短期记忆神经网络输出的隐藏状态向量和单元状态向量,
Figure BDA0002771698990000107
是施加给st的权重矩阵和偏置向量,dout是输出维度,即词汇表大小,wt和w0:t-1分别是t时刻和0~t-1时刻的输出词。
步骤C03,从候选单词中选择条件概率最大的词作为输出词,输出所有时间步的单词即为对长文本或结构化数据的描述性文本。若条件概率最大的词为特殊字符<UNK>,则用注意力向量所指向的输入数据表中替换概率最大的词来替换<UNK>字符,也就是argmax函数所指向注意力向量中的字段的属性值。具体为:
Figure BDA0002771698990000111
其中zs表示上文给出的注意力向量,当某时刻模型生成的词ws为<UNK>字符时用
Figure BDA0002771698990000112
替换。
综上所述,本发明公开了一种基于深度学习的智能化文本自动生成系统及其实现方法,可以根据用户输入的长文本或结构化数据生成其对应的描述性文本。设计了一种编码器-解码器结构的神经网络语言模型来处理文本序列,还设计了一种高性能的拷贝网络来解决稀有词的问题。整个过程基于端到端的处理方式,无需用户手动输入数据特征,能很方便的得到准确、流畅的描述性文本。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于深度学习的智能化文本自动生成系统的实现方法,其特征在于,主要包括如下操作步骤:
步骤A,数据预处理:对用户提交的数据文件进行预处理,并转换成智能化文本自动生成系统可以识别和处理的数据格式;
步骤B,字段-内容选择编码:对预处理之后的数据进行编码,并利用预先设计好的神经网络模型计算序列的阶段性输出;
步骤C,描述性解码:再次利用所述神经网络模型对所述阶段性输出进行新的计算预测,以得到所有词汇表中的单词的输出概率,并从中选出概率最大的文本作为输出。
2.根据权利要求1所述的基于深度学习的智能化文本自动生成系统的实现方法,其特征在于,所述步骤A包括如下步骤:
步骤A01,将字段名和属性值作为神经网络模型的主要输入,采用词嵌入的方式对用户提交的数据文件进行编码,分别得到字段词嵌入向量和属性词嵌入向量,将所述字段词嵌入向量和属性词嵌入向量处理成一个新的语义向量,用fw表示字段名的词嵌入向量,vw表示该字段对应的属性词嵌入向量,将fw和vw拼接成一个新的语义向量rw,其中rw=concat{fw,vw};
步骤A02,将字段在整体结构中的相对位置也采用词嵌入的方式进行编码,分别用pw+,pw-表示某个词在其所属的字段内容中正向和反向出现的位置,将这两个方向上的位置嵌入向量处理成一个新的结构向量pw,其中pw=concat{pw+,pw-};
步骤A03,将新的语义向量和新的结构向量分别作为神经网络模型的主要输入和辅助输入进行计算。
3.根据权利要求1所述的基于深度学习的智能化文本自动生成系统的实现方法,其特征在于,所述步骤B包括如下步骤:
步骤B01,对长短期记忆神经网络进行改进,修改每个时间步的长短期记忆神经网络单元的计算方式,使其能够学习字段-属性键值对的复杂结构信息和长序列依赖;
步骤B02,将不同字段的上下文环境作为决定其重要性的决策信息,并使用门控机制来学习隐藏依赖,针对特定字段获取更准确的语义信息。
4.根据权利要求3所述的基于深度学习的智能化文本自动生成系统的实现方法,其特征在于:所述步骤B01中,修改每个时间步的长短期记忆神经网络单元的计算方式为:
Figure FDA0002771698980000021
其中,ft,it,ot分别表示遗忘门,输入门和输出门;
Figure FDA0002771698980000022
Figure FDA0002771698980000023
分别是施加给rt和ht-1的权重矩阵,
Figure FDA0002771698980000024
表示4n×dr维度的实数向量空间,n是隐藏层维度,dr是输入rt的向量维度;rt是t时刻的输入;ht-1是t-1时刻输出的隐藏状态向量;
Figure FDA0002771698980000025
是当前时刻神经网络模型输出的候选单元状态向量;sigmoid和tanh分别表示不同的激活函数。
5.根据权利要求4所述的基于深度学习的智能化文本自动生成系统的实现方法,其特征在于:将pt作为长短期记忆神经网络的联合输入,新的单元状态向量和隐藏状态向量的计算方式为:
Figure FDA0002771698980000026
Figure FDA0002771698980000027
ht=ot⊙tanh(ct)
其中
Figure FDA0002771698980000028
Figure FDA0002771698980000029
分别是施加给pt的权重矩阵和偏置向量,2dp是输入pt的维度,⊙表示向量点乘,ct表示当前时刻神经网络模型输出的单元状态向量,
Figure FDA00027716989800000210
决定着ct要保存的结构信息量,而ωt∈(-1,1)n中保存着当前时刻的所有结构信息。
6.根据权利要求3所述的基于深度学习的智能化文本自动生成系统的实现方法,其特征在于,步骤B02具体为:首先计算每个字段的重要程度得分αi,j,然后用αi,j来求这个字段的依赖向量di,接着通过门控机制来获取新的编码器输出
Figure FDA0002771698980000031
具体为:
αi,j=softmax(hiWrhj)
Figure FDA0002771698980000032
Figure FDA0002771698980000033
Figure FDA0002771698980000034
其中
Figure FDA0002771698980000035
是施加给hi和hj的权重矩阵,
Figure FDA0002771698980000036
Figure FDA0002771698980000037
是施加给concat{hi,di}的权重矩阵和偏置向量,softmax是激活函数,concat{}表示对两个向量作拼接操作,
Figure FDA0002771698980000038
控制着解码器中的每个时间步可以从编码器中获取到的信息量。
7.根据权利要求1所述基于深度学习的智能化文本自动生成系统的实现方法,其特征在于,所述步骤C包括如下步骤:
步骤C01,将注意力向量和目标序列的词嵌入向量进行拼接操作,作为神经网络模型的输入;
步骤C02,将通过内容选择器得到的上下文信息向量和某个时间步的隐藏状态向量作为输入,模型输出这个时间步中所有单词的条件概率分布;
步骤C03,从候选单词中选择条件概率最大的词作为输出词,输出所有时间步的单词即为对长文本或结构化数据的描述性文本。
8.根据权利要求7所述的基于深度学习的智能化文本自动生成系统的实现方法,其特征在于:所述步骤C01中,注意力向量的计算通过替换编码器的输出为内容选择器得到的上下文信息向量得到,具体为:
Figure FDA0002771698980000039
Figure FDA00027716989800000310
Figure FDA0002771698980000041
Figure FDA0002771698980000042
其中,
Figure FDA0002771698980000043
是内容选择器输出的上下文向量,st是解码器中每个时间步输出的隐藏状态向量,计算αt,j得到注意力得分,zt是通过内容选择器强化之后的注意力向量,融合注意力向量和目标序列的词嵌入向量xt得到语言模型真实的输入
Figure FDA0002771698980000044
所述步骤C02中,把每个时间步经过编码之后的单词xt、从编码器中得到的上下文信息向量zt和上一个隐藏状态向量st-1作为输入,输出生成下一个单词的条件概率分布Pt,Pt=P(wt|w0:t-1,r1:n),
Figure FDA0002771698980000045
Pt=softmax(Wsst+bs)
其中,st-1是解码器中t-1时刻的隐藏状态向量,LSTM表示长短期记忆神经网络单元,
Figure FDA0002771698980000046
Figure FDA0002771698980000047
是施加给st的权重矩阵和偏置向量,dout是输出维度,即词汇表大小,wt和w0:t-1分别是t时刻和0~t-1时刻的输出词。
9.根据权利要求7所述的基于深度学习的智能化文本自动生成系统的实现方法,其特征在于:步骤C03中,从候选单词中选择条件概率最大的词作为输出词,若条件概率最大的词为特殊字符<UNK>,表示未登录词,则用注意力向量所指向的输入数据表中替换概率最大的词来替换所述特殊字符<UNK>,即argmax函数所指向注意力向量中的字段的属性值。具体为:
Figure FDA0002771698980000048
其中,zs表示注意力向量,当系统在某时刻选择的条件概率最大的词ws为<UNK>时,用
Figure FDA0002771698980000049
替换。
10.一种基于深度学习的智能化文本自动生成系统,应用权利要求1-9中任一项所述的实现方法,其特征在于,所述智能化文本自动生成系统包括:
数据预处理模块,用于对用户提交的数据文件进行预处理,并转换成智能化文本自动生成系统可以识别和处理的数据格式;
字段-内容选择编码器模块,用于接收数据处理模块发送过来的预处理后的数据,并对这些数据进行编码,利用预先设计好的神经网络模型计算序列的阶段性输出;
解码器模块,用于接收字段-内容选择编码器模块发送过来的阶段性输出,再次利用所述神经网络模型对所述阶段性输出进行新的计算预测,以得到所有词汇表中的单词的输出概率,并从中选出概率最大的文本作为输出;
推理模块,用于将解码器模块输出的文本通过条件语言模型生成描述性文本。
CN202011251305.1A 2020-11-11 2020-11-11 基于深度学习的智能化文本自动生成系统及其实现方法 Active CN112417092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011251305.1A CN112417092B (zh) 2020-11-11 2020-11-11 基于深度学习的智能化文本自动生成系统及其实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011251305.1A CN112417092B (zh) 2020-11-11 2020-11-11 基于深度学习的智能化文本自动生成系统及其实现方法

Publications (2)

Publication Number Publication Date
CN112417092A true CN112417092A (zh) 2021-02-26
CN112417092B CN112417092B (zh) 2022-10-28

Family

ID=74781341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011251305.1A Active CN112417092B (zh) 2020-11-11 2020-11-11 基于深度学习的智能化文本自动生成系统及其实现方法

Country Status (1)

Country Link
CN (1) CN112417092B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065336A (zh) * 2021-05-06 2021-07-02 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113626537A (zh) * 2021-07-06 2021-11-09 南京邮电大学 一种面向知识图谱构建的实体关系抽取方法及系统
CN113642296A (zh) * 2021-08-27 2021-11-12 杭州网易智企科技有限公司 文本生成方法、介质、装置和电子设备
CN113990473A (zh) * 2021-10-28 2022-01-28 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法
CN114118024A (zh) * 2021-12-06 2022-03-01 成都信息工程大学 一种条件文本生成方法及生成系统
CN117592436A (zh) * 2023-11-23 2024-02-23 知学云(北京)科技股份有限公司 一种基于人工智能技术的自动化公文生成系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287820A (zh) * 2018-01-12 2018-07-17 北京神州泰岳软件股份有限公司 一种文本表示的生成方法及装置
CN110209801A (zh) * 2019-05-15 2019-09-06 华南理工大学 一种基于自注意力网络的文本摘要自动生成方法
US20190278835A1 (en) * 2018-03-08 2019-09-12 Adobe Inc. Abstractive summarization of long documents using deep learning
CN111241816A (zh) * 2020-01-22 2020-06-05 北京工业大学 一种新闻标题自动生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287820A (zh) * 2018-01-12 2018-07-17 北京神州泰岳软件股份有限公司 一种文本表示的生成方法及装置
US20190278835A1 (en) * 2018-03-08 2019-09-12 Adobe Inc. Abstractive summarization of long documents using deep learning
CN110209801A (zh) * 2019-05-15 2019-09-06 华南理工大学 一种基于自注意力网络的文本摘要自动生成方法
CN111241816A (zh) * 2020-01-22 2020-06-05 北京工业大学 一种新闻标题自动生成方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065336A (zh) * 2021-05-06 2021-07-02 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113065336B (zh) * 2021-05-06 2022-11-25 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113626537A (zh) * 2021-07-06 2021-11-09 南京邮电大学 一种面向知识图谱构建的实体关系抽取方法及系统
CN113626537B (zh) * 2021-07-06 2023-10-17 南京邮电大学 一种面向知识图谱构建的实体关系抽取方法及系统
CN113642296A (zh) * 2021-08-27 2021-11-12 杭州网易智企科技有限公司 文本生成方法、介质、装置和电子设备
CN113990473A (zh) * 2021-10-28 2022-01-28 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法
CN113990473B (zh) * 2021-10-28 2022-09-30 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法
CN114118024A (zh) * 2021-12-06 2022-03-01 成都信息工程大学 一种条件文本生成方法及生成系统
CN114118024B (zh) * 2021-12-06 2022-06-21 成都信息工程大学 一种条件文本生成方法及生成系统
CN117592436A (zh) * 2023-11-23 2024-02-23 知学云(北京)科技股份有限公司 一种基于人工智能技术的自动化公文生成系统

Also Published As

Publication number Publication date
CN112417092B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN112417092B (zh) 基于深度学习的智能化文本自动生成系统及其实现方法
CN110069790B (zh) 一种通过译文回译对照原文的机器翻译系统及方法
CN111611805B (zh) 一种基于图像的辅助写作方法、装置、介质及设备
CN112183058B (zh) 基于bert句子向量输入的诗词生成方法及装置
CN111626041B (zh) 一种基于深度学习的音乐评论生成方法
CN110287333A (zh) 一种基于知识库进行释义生成的方法及系统
CN114860915A (zh) 一种模型提示学习方法、装置、电子设备及存储介质
CN111368545A (zh) 一种基于多任务学习的命名实体识别方法和装置
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN111464881A (zh) 基于自优化机制的全卷积视频描述生成方法
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN114139497A (zh) 一种基于bertsum模型的文本摘要提取方法
CN115759042A (zh) 一种基于句法感知提示学习的句子级问题生成方法
CN112163434A (zh) 基于人工智能的文本翻译方法、装置、介质及电子设备
CN114692568A (zh) 一种基于深度学习的序列标注方法及应用
CN114218379A (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN111340006B (zh) 一种手语识别方法及系统
CN114780723B (zh) 基于向导网络文本分类的画像生成方法、系统和介质
CN117521652A (zh) 基于自然语言模型的智能匹配系统及方法
CN113887251A (zh) 一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法
CN113421551A (zh) 语音识别方法、装置、计算机可读介质及电子设备
CN116432663A (zh) 基于要素简图的可控多样性专业文本生成方法及系统
CN114861627B (zh) 一种基于深度学习的选择题干扰项自动化生成方法及装置
CN114880527B (zh) 一种基于多预测任务的多模态知识图谱表示方法
CN113626537B (zh) 一种面向知识图谱构建的实体关系抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant