CN112069827A - 一种基于细粒度主题建模的数据到文本生成方法 - Google Patents

一种基于细粒度主题建模的数据到文本生成方法 Download PDF

Info

Publication number
CN112069827A
CN112069827A CN202010754044.9A CN202010754044A CN112069827A CN 112069827 A CN112069827 A CN 112069827A CN 202010754044 A CN202010754044 A CN 202010754044A CN 112069827 A CN112069827 A CN 112069827A
Authority
CN
China
Prior art keywords
data
data record
topic
representation
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010754044.9A
Other languages
English (en)
Other versions
CN112069827B (zh
Inventor
王旭强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010754044.9A priority Critical patent/CN112069827B/zh
Publication of CN112069827A publication Critical patent/CN112069827A/zh
Application granted granted Critical
Publication of CN112069827B publication Critical patent/CN112069827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于细粒度主题建模的数据到文本生成方法,包括以下步骤:在编码层基于双向长短期记忆网络学习每个数据记录的语义表示;基于非负矩阵分解方法学习每个数据记录对应的主题分布以及各主题对应的词分布,得到每个数据记录对应的主题词表;在解码层基于每个数据记录的语义表示,利用长短期记忆网络、注意力机制、细粒度主题表示,并结合主题词表,进行文本生成;进行模型训练,得到最优的文本生成结果。本发明通过利用非负矩阵分解方法挖掘数据的主题分布以及主题对应的词分布,并以此来约束生成文本和数据表之间的主题一致性,并指导模型学习到更准确的用词方式;在文本生成过程中引入复制机制,保证模型可以准确生成数值描述。

Description

一种基于细粒度主题建模的数据到文本生成方法
技术领域
本发明涉及计算机应用技术领域,具体涉及一种基于细粒度主题建模的数据到文本生成方法。
背景技术
随着信息技术的发展,各个领域积累的行业数据正在快速增长,例如,金融领域积累的财务报表、体育领域积累的球赛实况数据等。为了解决海量数据带来的信息过载问题,数据到文本生成任务受到了越来越多研究者的关注。数据到文本生成任务旨在用自然语言描述结构化数据中包含的主要信息,进而帮助人们更好地把握海量数据背后包含的具体含义。
早期的研究工作主要将该任务拆分为内容规划、句子规划以及表层实现三个独立的子任务,并构建一系列人工规则来依次执行这些子任务,以得到最终的文本。因此,这类方法虽然结构简单且具有较好的可解释性,但存在错误传递、人工模板难以获取等问题,可扩展性较差。
近年来,随着深度学习技术的发展,基于编码器-解码器结构的端到端的学习方式逐渐成为了数据到文本生成任务的主流方法。Lebret等利用条件语言模型实现人物传记的生成。Mei等使用基于复制机制的序列到序列模型提升内容选择的效果。Li等采用两阶段的方式生成文本,首先生成文本模板,再采用延迟复制机制填入记录中的数值。Wiseman等关注数据到文档的生成,并在seq2seq模型中引入复制机制和损失重构机制。Gong等采用层次编码的方式学习数据记录的语义。Iso等设计了内容追踪模块,在生成文本的过程中通过跟踪数据记录来提升文本的真实性并减少冗余。Puduppully等在模型中显式地增加内容选择和内容规划模块,提升模型的内容组织能力。同年,Puduppully等还提出了基于实体建模的生成模型。此外,还有部分研究基于半隐马尔科夫模型,实现数据记录到文本的对齐与生成,提升系统的可解释性与可控性。这些方法以数据驱动的形式进行模型训练,避免了繁琐的人工规则,进而使得生成结果更加灵活多样。然而,这些模型主要依赖于神经网络自身的表示学习能力来提升生成文本的质量,而忽略了对文本和数据之间主题一致性的建模。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于细粒度主题建模的数据到文本生成方法。
本发明的技术目的通过下述技术方案予以实现。
一种基于细粒度主题建模的数据到文本生成方法,其特征在于,包括以下步骤:
步骤1:在编码层基于双向长短期记忆网络学习结构化数据表中每个数据记录的语义表示;
在步骤1中,首先将结构化数据表中每个数据记录包含的三个属性分别映射到低维、稠密的特征向量空间,得到三个特征向量,并将三个特征向量进行拼接,作为每个数据记录的初始特征表示;然后使用双向长短期记忆网络作为编码层,输入每个数据记录的初始特征表示,输出每个数据记录的语义表示。
步骤2:基于非负矩阵分解方法学习结构化数据表中每个数据记录对应的主题分布以及各主题对应的词分布,得到每个数据记录对应的主题词表;
在步骤2中,构建数据记录与数据记录中的词的共现矩阵;基于所述共现矩阵,利用非负矩阵分解方法学习数据记录对应的主题分布以及各主题对应的词分布;
在步骤2中,对于每个数据记录,选择其对应的主题分布中概率最大的主题作为该数据记录的主题,并从该主题对应的词分布中选择概率最大的一定个数的词作为该数据记录对应的主题词表。
步骤3:在解码层基于步骤1编码的结构化数据表中每个数据记录的语义表示,利用长短期记忆网络、注意力机制、细粒度主题表示,并结合步骤2得到的主题词表,进行文本生成;
在步骤3中,基于步骤1编码的结构化数据表中每个数据记录的语义表示,利用长短期记忆网络解码生成过程中每个时间步的隐藏表示;基于解码的隐藏表示和步骤1编码的数据记录的语义表示进行注意力计算,挖掘生成过程中需关注的数据表中的关键信息;基于解码的隐藏表示和步骤2得到的主题词表计算得到数据表的主题特征向量,最终结合所述的主题特征向量和数据表中的关键信息辅助文本生成;
在步骤3中,引入数值复制机制,用于提升文本中数值的生成效果。
步骤4:进行模型训练,构建损失函数对步骤1编码的结构化数据表中每个数据记录的语义表示和步骤3生成的文本进行优化,得到最优的文本生成结果。
与现有技术相比,本发明对数据表的主题信息进行建模,通过利用非负矩阵分解方法挖掘数据的主题分布以及主题对应的词分布,并以此来约束生成文本和数据表之间的主题一致性,并指导模型学习到更准确的用词方式,大大提升了文本的生成质量;另外,考虑到在数据表对应的描述文本中通常会包含一定的数值描述,而这些数值通常来源于原始数据表,本发明在文本生成过程中引入复制机制,考虑到被复制的数值可能为数据表中的记录值,也可能为对记录值进行数值运算后的结果,因此本发明不仅考虑对原始记录值进行复制,还实现了对记录值的数值运算的复制,从而保证了模型可以准确生成这类数值描述。
附图说明
附图1是本发明基于细粒度主题建模的数据到文本生成方法的方法流程图;
附图2是本发明基于细粒度主题建模的数据到文本生成方法的示意图。
具体实施方式
以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1和2所示,本发明的一种基于细粒度主题建模的数据到文本生成方法,包括以下步骤:
步骤1:在编码层基于双向长短期记忆网络学习结构化数据表中每个数据记录的语义表示;
步骤1.1:给定数据表记录集合s,首先将s转化为数据记录序列sq={r1,r2,...,r|r|},并将每个数据记录rj中包含的三个属性
Figure BDA0002610946150000031
分别映射到低维、稠密的特征向量空间,得到三个特征向量
Figure BDA0002610946150000032
其中dr表示每个特征向量的维度;通过拼接上述三个特征向量,可以得到每个数据记录的初始特征表示aj
例如,给定数据表“毛利率排名0.0342|毛利率本期82.43|毛利率去年同期50.38|净利率排名0.0881|…”,其中“|”间隔不同的数据记录,空格间隔一个数据记录中的不同属性,即“毛利率排名0.0342”为一个数据记录,“毛利率”、“排名”、“0.0342”为该数据记录的三个属性,对于该数据记录,其三个属性的特征表示可为
Figure BDA0002610946150000033
Figure BDA0002610946150000034
通过拼接上述三个特征向量,可以得到该数据记录的初始特征表示aj=[0.54,0.22,...,-0.75,0.32,-0.82,...,0.28,0.65,0.78,...,0.05];
步骤1.2:基于步骤1.1得到的数据记录的初始特征表示αj,得到数据记录的初始特征表示序列A={a1,a2,...,a|r|},使用双向长短期记忆网络(BLSTM)作为编码层编码各个数据记录的隐藏向量表示,并将前向和后向的编码结果拼接作为如下所示的最终的隐藏表示;具体地,BLSTM的输入为每个数据记录的初始特征表示,输出为每个数据记录的语义表示:
Figure BDA0002610946150000041
Figure BDA0002610946150000042
例如,对于数据记录“毛利率排名0.0342”,其经过BLSTM编码后的语义表示可为h1=[-0.95,0.13,...,0.67]。
步骤2:基于非负矩阵分解方法学习结构化数据表中每个数据记录对应的主题分布以及各主题对应的词分布,得到每个数据记录对应的主题词表;
步骤2.1:构建数据记录与数据记录中的词的共现矩阵,考虑到数据记录的主题主要由记录的实体
Figure BDA0002610946150000043
和记录的类型
Figure BDA0002610946150000044
指示,而具体的记录值
Figure BDA0002610946150000045
与主题的关联通常较少,本发明基于二元组
Figure BDA0002610946150000046
构建数据记录和数据记录中的词的共现矩阵
Figure BDA0002610946150000047
其中B为数据集中记录二元组的个数,|D|代表词典的大小,矩阵中的元素Gij代表第i个数据记录二元组与第j个词的共现次数;
例如,数据记录二元组“毛利率排名”与词“利润”的共现次数为100,与词“债券”的贡献次数为10;
步骤2.2:基于步骤2.1构建的数据记录与数据记录中的词的共现矩阵G,本发明利用非负矩阵分解方法(NMF)学习数据记录对应的主题分布以及各主题对应的词分布:
G≈UF
式中,U∈RB×K代表数据记录对应的主题分布情况,F∈RK×|D|代表各主题对应的词分布情况,K为设定的主题数;对于每个数据记录rj,本发明选择其对应的主题分布中概率最大的主题作为该数据记录的主题,并从该主题对应的词分布中选择概率最大的|Vj|个词作为该数据记录对应的主题词表;
例如,当主题数K=5时,数据记录二元组“毛利率排名”对应的主题分布可为[0.5,0.2,0.1,0.1,0.1],而第一个主题对应的词分布可为[0.01,0.53,...,0.88]。
步骤3:在解码层基于步骤1编码的结构化数据表中每个数据记录的语义表示,利用长短期记忆网络(LSTM)、注意力机制、细粒度主题表示,并结合步骤2得到的主题词表,进行文本生成;
步骤3.1:基于步骤1编码的结构化数据表中每个数据记录的语义表示序列H={h1,h2,...,h|r|},本发明采用LSTM作为解码器进行文本生成,对于每个时间步t,LSTM单元接收上一步预测的词对应的词向量yt-1以及解码器上一步的隐藏表示dt-1作为输入,并输出当前时间步的隐藏表示dt
dt=LSTMdec(yt-1,dt-1);
例如,在第1-2个时间步,分别生成单词“主营”和“获利”,那么在第3个时间步,LSTM接收“获利”的词向量y2=[0.33,-0.12,...,0.73]和第2个时间步的隐藏表示d2=[0.9,0.4,...,-0.06]为输入,并解码当前时间步的隐藏表示d3=[0.86,0.43,...,0.1];
步骤3.2:生成过程中还应该进一步地关注到原始数据表中的关键信息,由此,本发明在解码层引入注意力机制,具体地,基于解码器的隐藏表示dt以及各个数据记录的隐藏表示hj,可计算注意力权重βt,j,根据该权重可对各个数据记录的隐藏表示加权求和,得到上下文向量
Figure BDA0002610946150000051
Figure BDA0002610946150000052
Figure BDA0002610946150000053
式中,Wa为模型参数;
通过对隐藏表示dt和上下文向量
Figure BDA0002610946150000055
进行拼接和变换,可得到特征表示
Figure BDA0002610946150000056
Figure BDA0002610946150000054
式中,Wd和bd为模型参数;
随后,本发明将该特征表示映射到主题词表空间,从而得到每个词的生成概率:
Figure BDA0002610946150000061
式中,Wy与by为模型参数,y<t代表第t个时间步之前生成的词序列,s代表输入的数据表;
例如,第三个时间步生成单词“能力”的概率为0.7,生成单词“增强”的概率为0.1;
步骤3.3:基于步骤3.1解码的隐藏表示和步骤2得到的主题词表(即主题分布和主题的词分布)计算得到数据表的主题特征向量,进一步通过主题特征向量得到特征向量,最终结合所述的特征向量和数据表中的关键信息辅助文本生成;
具体地,对于每个时间步t,本发明对步骤3.2中计算的上下文注意力权重β进行搜索,选择权重最大的数据记录对应的主题词表
Figure BDA0002610946150000066
并在此基础上计算解码器的隐藏表示dt对于每个主题词的注意力权重,进而得到主题特征向量
Figure BDA0002610946150000067
Figure BDA0002610946150000062
Figure BDA0002610946150000063
随后,本发明将主题特征向量
Figure BDA0002610946150000068
与解码器的隐藏表示dt进行融合,得到特征向量
Figure BDA0002610946150000069
Figure BDA0002610946150000064
式中,Wtopic为模型参数;
最后,本发明将特征向量
Figure BDA00026109461500000610
映射到主题词表空间,得到主题词的生成概率:
Figure BDA0002610946150000065
为使得主题词表中的词有更高的概率被生成,本发明将主题词的生成概率和步骤3.2计算的词的生成概率进行整合,得到新的生成概率pgen
pgen(yt|y<t,s)=p(yt|y<t,s)+ptop(yt|y<t,s,U,H);
例如,在考虑主题信息的基础上,第二个时间步生成单词“获利”的概率可从0.3提升为0.9;
步骤3.4:在数据表对应的描述文本中通常会包含一定的数值描述,而这些数值通常来源于原始数据表,为保证本发明可以准确生成这类数值描述,本步骤进一步将复制机制引入生成过程中,考虑到这类数值可能为数据表中的记录值,也可能为记录值进行数值运算后的结果,因此本发明提出扩展的复制机制,该机制不仅可以对原始记录值进行复制,还可以对记录值的数值运算结果进行复制;
具体地,在每个时间步t,本发明首先根据解码器的隐藏表示dt计算一个二元变量ut,用以指示该时间步是否进行复制操作:
p(ut=1|y<t,s)=sigmoid(wu·dt+bu)
p(ut=0|y<t,s)=1-p(ut=1|y<t,s);
在此基础上,本发明词的生成概率更新为如下公式:
Figure BDA0002610946150000071
式中,当p(ut=1|y<t,s)≥0.5时,本发明认为ut=1,否则ut=0;pgen的计算方法详见步骤3.3,而pcopy则根据上下文注意力权重β以及解码器隐藏表示dt对记录中各类数值运算结果的关注程度计算得到:
Figure BDA0002610946150000072
Figure BDA0002610946150000073
式中,βt,j为步骤3.2中得到的上下文注意力权重,表示在第t个时间步解码器对第j条记录的关注程度;αt,k表示在第t个时间步解码器对第k类数值运算的关注程度;ok为第k类数值运算的向量表示;
Figure BDA0002610946150000075
表示当第j条记录的第k类数值运算的结果等于yt时,其对应的βt,jαt,k参与求和;
例如,经过上述计算,在第5个时间步,从数据表中复制数值的概率可为0.7,复制数值“82.43”的概率可为0.85。
步骤4:进行模型训练,构建损失函数对步骤1编码的结构化数据表中每个数据记录的语义表示和步骤3生成的文本进行优化,得到最优的文本生成结果;
在训练过程中,本发明最小化标准文本的负对数似然概率:
Figure BDA0002610946150000074
式中,
Figure BDA0002610946150000076
表示训练实例集合;
在推理过程中,对于给定的s,本发明利用集束搜索(Beam Search)来近似地得到最优生成结果。
本发明对数据表的主题信息进行建模,通过利用非负矩阵分解方法挖掘数据的主题分布以及主题对应的词分布,并以此来约束生成文本和数据表之间的主题一致性,并指导模型学习到更准确的用词方式,大大提升了文本的生成质量;另外,考虑到在数据表对应的描述文本中通常会包含一定的数值描述,而这些数值通常来源于原始数据表,本发明在文本生成过程中引入复制机制,考虑到被复制的数值可能为数据表中的记录值,也可能为对记录值进行数值运算后的结果,因此本发明不仅考虑对原始记录值进行复制,还实现了对记录值的数值运算的复制,从而保证了模型可以准确生成这类数值描述。
本发明公开和提出的方法,本领域技术人员可通过借鉴本文内容,适当改变条件路线等环节实现,尽管本发明的方法和制备技术已通过较佳实施例子进行了描述,相关技术人员明显能在不脱离本发明内容、精神和范围内对本文所述的方法和技术路线进行改动或重新组合,来实现最终的制备技术。特别需要指出的是,所有相类似的替换和改动对本领域技术人员来说是显而易见的,他们都被视为包括在本发明精神、范围和内容中。

Claims (6)

1.一种基于细粒度主题建模的数据到文本生成方法,其特征在于,包括以下步骤:
步骤1:在编码层基于双向长短期记忆网络学习结构化数据表中每个数据记录的语义表示;
步骤2:基于非负矩阵分解方法学习结构化数据表中每个数据记录对应的主题分布以及各主题对应的词分布,得到每个数据记录对应的主题词表;
步骤3:在解码层基于步骤1编码的结构化数据表中每个数据记录的语义表示,利用长短期记忆网络、注意力机制、细粒度主题表示,并结合步骤2得到的主题词表,进行文本生成;
步骤4:进行模型训练,构建损失函数对步骤1编码的结构化数据表中每个数据记录的语义表示和步骤3生成的文本进行优化,得到最优的文本生成结果。
2.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法,其特征在于:在步骤1中,首先将结构化数据表中每个数据记录包含的三个属性分别映射到低维、稠密的特征向量空间,得到三个特征向量,并将三个特征向量进行拼接,作为每个数据记录的初始特征表示;然后使用双向长短期记忆网络作为编码层,输入每个数据记录的初始特征表示,输出每个数据记录的语义表示。
3.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法,其特征在于:在步骤2中,构建数据记录与数据记录中的词的共现矩阵;基于所述共现矩阵,利用非负矩阵分解方法学习数据记录对应的主题分布以及各主题对应的词分布。
4.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法,其特征在于:在步骤2中,对于每个数据记录,选择其对应的主题分布中概率最大的主题作为该数据记录的主题,并从该主题对应的词分布中选择概率最大的一定个数的词作为该数据记录对应的主题词表。
5.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法,其特征在于:在步骤3中,基于步骤1编码的结构化数据表中每个数据记录的语义表示,利用长短期记忆网络解码生成过程中每个时间步的隐藏表示;基于解码的隐藏表示和步骤1编码的数据记录的语义表示进行注意力计算,挖掘生成过程中需关注的数据表中的关键信息;基于解码的隐藏表示和步骤2得到的主题词表计算得到数据表的主题特征向量,最终结合所述的主题特征向量和数据表中的关键信息辅助文本生成。
6.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法,其特征在于:在步骤3中,引入数值复制机制,用于提升文本中数值的生成效果。
CN202010754044.9A 2020-07-30 2020-07-30 一种基于细粒度主题建模的数据到文本生成方法 Active CN112069827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010754044.9A CN112069827B (zh) 2020-07-30 2020-07-30 一种基于细粒度主题建模的数据到文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010754044.9A CN112069827B (zh) 2020-07-30 2020-07-30 一种基于细粒度主题建模的数据到文本生成方法

Publications (2)

Publication Number Publication Date
CN112069827A true CN112069827A (zh) 2020-12-11
CN112069827B CN112069827B (zh) 2022-12-09

Family

ID=73656670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010754044.9A Active CN112069827B (zh) 2020-07-30 2020-07-30 一种基于细粒度主题建模的数据到文本生成方法

Country Status (1)

Country Link
CN (1) CN112069827B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613282A (zh) * 2020-12-31 2021-04-06 桂林电子科技大学 一种文本生成方法、装置及存储介质
CN113065336A (zh) * 2021-05-06 2021-07-02 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113434507A (zh) * 2021-06-29 2021-09-24 中国联合网络通信集团有限公司 数据文本化方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110119050A1 (en) * 2009-11-18 2011-05-19 Koen Deschacht Method for the automatic determination of context-dependent hidden word distributions
CN107943816A (zh) * 2017-10-09 2018-04-20 中国电子科技集团公司第二十八研究所 一种网络热点话题的发现方法和系统
CN110019793A (zh) * 2017-10-27 2019-07-16 阿里巴巴集团控股有限公司 一种文本语义编码方法及装置
CN110298436A (zh) * 2019-06-28 2019-10-01 乐山金蜜工业卫士服务股份有限公司 基于指针生成网络的数据到文本的生成模型
CN110472045A (zh) * 2019-07-11 2019-11-19 中山大学 一种基于文档嵌入的短文本虚假问题分类预测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110119050A1 (en) * 2009-11-18 2011-05-19 Koen Deschacht Method for the automatic determination of context-dependent hidden word distributions
CN107943816A (zh) * 2017-10-09 2018-04-20 中国电子科技集团公司第二十八研究所 一种网络热点话题的发现方法和系统
CN110019793A (zh) * 2017-10-27 2019-07-16 阿里巴巴集团控股有限公司 一种文本语义编码方法及装置
CN110298436A (zh) * 2019-06-28 2019-10-01 乐山金蜜工业卫士服务股份有限公司 基于指针生成网络的数据到文本的生成模型
CN110472045A (zh) * 2019-07-11 2019-11-19 中山大学 一种基于文档嵌入的短文本虚假问题分类预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RATISH PUDUPPULLY ET AL.: "Data-to-text Generation with Entity Modeling", 《ARXIV.ORG》 *
SAM WISEMAN ET AL.: "Challenges in Data-to-Document Generation", 《ARXIV.ORG》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613282A (zh) * 2020-12-31 2021-04-06 桂林电子科技大学 一种文本生成方法、装置及存储介质
CN113065336A (zh) * 2021-05-06 2021-07-02 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113065336B (zh) * 2021-05-06 2022-11-25 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113434507A (zh) * 2021-06-29 2021-09-24 中国联合网络通信集团有限公司 数据文本化方法、装置、设备及存储介质
CN113434507B (zh) * 2021-06-29 2023-07-07 中国联合网络通信集团有限公司 数据文本化方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112069827B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
Alomari et al. Deep reinforcement and transfer learning for abstractive text summarization: A review
CN111160467B (zh) 一种基于条件随机场和内部语义注意力的图像描述方法
JP7087938B2 (ja) 質問生成装置、質問生成方法及びプログラム
CN112069827B (zh) 一种基于细粒度主题建模的数据到文本生成方法
US6601049B1 (en) Self-adjusting multi-layer neural network architectures and methods therefor
CN110046252B (zh) 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN111859935B (zh) 基于文献的癌症相关生物医学事件数据库构建方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN106777125A (zh) 一种基于神经网络及图像关注点的图像描述生成方法
Ganai et al. Predicting next word using RNN and LSTM cells: Stastical language modeling
CN109189862A (zh) 一种面向科技情报分析的知识库构建方法
CN109214006A (zh) 图像增强的层次化语义表示的自然语言推理方法
CN114528898A (zh) 基于自然语言命令的场景图修改
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN113326374A (zh) 基于特征增强的短文本情感分类方法及系统
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN111538838B (zh) 基于文章的问题生成方法
CN114817508A (zh) 融合稀疏图和多跳注意力的会话推荐系统
CN117377950A (zh) 使用机器学习加速文档归类
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质
CN116136870A (zh) 基于增强实体表示的智能社交对话方法、对话系统
CN114648015B (zh) 一种基于依存关系注意力模型的方面级情感词识别方法
Ferlitsch Deep Learning Patterns and Practices
CN116384371A (zh) 一种基于bert和依存句法联合实体及关系抽取方法
CN112131363B (zh) 自动问答方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant