CN112507064B - 一种基于主题感知的跨模态序列到序列生成方法 - Google Patents

一种基于主题感知的跨模态序列到序列生成方法 Download PDF

Info

Publication number
CN112507064B
CN112507064B CN202011241616.XA CN202011241616A CN112507064B CN 112507064 B CN112507064 B CN 112507064B CN 202011241616 A CN202011241616 A CN 202011241616A CN 112507064 B CN112507064 B CN 112507064B
Authority
CN
China
Prior art keywords
representation
data
vector
word
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011241616.XA
Other languages
English (en)
Other versions
CN112507064A (zh
Inventor
王旭强
张旭
郑阳
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202011241616.XA priority Critical patent/CN112507064B/zh
Publication of CN112507064A publication Critical patent/CN112507064A/zh
Application granted granted Critical
Publication of CN112507064B publication Critical patent/CN112507064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主题感知的跨模态序列到序列生成方法,包括:1、利用双向长短期记忆网络学习数据表中的每个记录的上下文语义表示,得到数据记录的隐藏向量表示序列;2、根据数据表标题与数据表对应的文本学习各主题对应的词分布并通过对词的向量表示加权求和,得到主题的向量表示;3、基于步骤1中编码层得到的数据记录的隐藏向量表示序列及步骤2中得到的主题表示,使用基于注意力机制的LSTM结构作为解码器生成分析性文本;4、构建损失函数对步骤1‑3中的模型参数进行优化;5、在推理过程中对于给定的数据表,利用集束搜索来近似地得到最佳的文本生成结果。该方法能增强数据表和生成文本的主题一致性,提升生成文本的质量。

Description

一种基于主题感知的跨模态序列到序列生成方法
技术领域
本发明涉及数据处理领域,特别是涉及一种基于主题感知的跨模态序列到序列生成方法。
背景技术
随着大数据时代的到来,各行各业逐渐积累了海量的行业数据。这些数据与人类社会的生产管理息息相关,是各领域分析研究的主要对象。在这些行业数据中,结构化数据因其具有格式简单、便于记录与存储的特点成为最常见的一种数据形式,例如公司的财务报表、设备传感器记录等。然而,结构化数据又通常具有很强的领域性,缺乏行业知识的人很难理解其数值与指标背后的含义。因此,如何准确高效地传达结构化数据中蕴含的语义信息是一个重要的跨模态生成任务。该任务旨在基于给定的结构化数据来生成非结构化的文本,并通常被称为数据到文本生成任务。
为了解决该任务,早期的研究工作主要通过人工规则、模块式系统等方式来生成文本。这些方法通常将数据到文本任务分解为内容规划、句子规划以及表层实现三个独立的子任务,并串行地执行这三个子任务以实现从结构化数据模态到非结构化文本模态的生成。这种方法虽然结构简单并且易于理解,但是存在错误传递、模型性能严重依赖手工特征的有效性等问题。
随着深度学习技术的发展,近期的研究工作主要采用端到端的学习方式,通过数据驱动的形式进行模型的训练,避免繁琐的人工规则,并使得生成结果更灵活多样。这类方法通常先采用一个编码层将结构化数据映射到低维、稠密的语义向量空间,随后采用一个解码层基于该语义空间生成非结构化的文本,从而实现跨模态的文本生成。例如,Mei等在编码器-解码器框架中引入复制机制来提升内容选择的效果(Hongyuan Mei,MohitBansal,Matthew R.Walter.What to talk about and how?selective generation usingLSTMs with coarse-to-fine alignment[C]//.NAACL.San Diego California,USA.2016:720-730)。Li等采用两阶段的方式生成数据表对应的文本(Liunian Li,XiaojunWan.Point precisely:towards ensuring the precision of data in generated textsusing delayed copy mechanism[C]//.COLING.Santa Fe,New Mexico,USA.2018:1044-1055),该方法在第一阶段仅生成文本的模板,在第二阶段采用复制机制填入记录中的数值,提升数值生成的准确性。Wiseman等关注数据到文档的生成,并在seq2seq模型中引入复制机制和损失重构机制(Sam Wiseman,Stuart M.Shieber,Alexander M.Rush.Challengesin data-to-document generation[C]//.EMNLP.Copenhagen,Denmark.2017:2253–2263)。Iso等构建了内容追踪模块,在生成文本的过程中通过跟踪数据记录来提升文本的真实性并减少冗余(Hayate Iso,Yui Uehara,Tatsuya Ishigaki,et al.Learning to select,track,and generate for data-to-text.[C]//.ACL.Florence,Italy.2019:2102-2113)。Puduppully等在模型中显式地增加内容选择和内容规划模块,提升模型的内容组织能力(Ratish Puduppully,Li Dong,Mirella Lapata.Data-to-text generation withcontent selection and planning[C]//.AAAI.Honolulu,Hawaii,USA.2019:6908-6915)。同年,Puduppully等人还提出了基于实体建模的生成模型,通过建模实体之间的转移关系,提升模型的内容组织能力(Ratish Puduppully,Li Dong,Mirella Lapata.Data-to-textgeneration with entity modeling[C]//.ACL.Florence,Italy.2019:2023-2035.)。虽然上述方法在很大程度上提升了文本生成质量,但它们通常仅关注于提升文本的流畅性与内容组织能力,而忽略了对数据的数值编码,以及对数据和文本之间主题一致性的建模。
发明内容
为解决现有数据到文本生成任务中存在的主题一致性与数值编码问题,本发明提供一种基于主题感知的跨模态序列到序列生成方法。
为此,本发明的技术方案如下:
一种基于主题感知的跨模态序列到序列生成方法,包括按顺序执行的下列步骤:
S1,数据记录编码:利用双向长短期记忆网络学习数据表中的每个记录的上下文语义表示,得到数据记录的隐藏向量表示序列;
S2,主题编码:根据数据表标题与数据表对应的文本学习各主题对应的词分布,并通过对词的向量表示加权求和,得到主题的向量表示;
S3,文本解码:基于步骤1)中编码层得到的数据记录的隐藏向量表示序列以及步骤2)中得到的数据表的主题表示,使用基于注意力机制的LSTM结构作为解码器生成分析性文本;
S4模型训练:构建损失函数对步骤1到步骤3中的模型参数进行优化;
S5文本生成:在推理过程中,对于给定的数据表,利用集束搜索(Beam Search)来近似地得到最佳的文本生成结果。
其中,步骤S1所述的数据记录编码包括以下步骤:
S1-1,将数据表中每个数据记录对应的行、列、值三个属性均映射到低维、稠密的向量表示:
对于给定的数据表s,假设
Figure GDA0003563371800000021
为数据表的记录集合,|r|表示记录个数,将数据表中每条记录rj对应的行、列、值三个属性
Figure GDA0003563371800000022
Figure GDA0003563371800000023
分别映射到低维、稠密的向量表示
Figure GDA0003563371800000024
Figure GDA0003563371800000025
Figure GDA0003563371800000026
其中dr为数据表中的记录所对应的向量表示的维度;
S1-2,根据数据集中数值的分布情况将所有数值划分为不同的区间,并依据每个数据记录中数值所属的区间对其进行记录的数值编码:
首先根据数据集中数值的分布情况将所有数值划分为不同的区间,并使得不同的区间对应不同的参数设置;在数值编码时,首先根据
Figure GDA0003563371800000031
对应的区间范围选择参数
Figure GDA0003563371800000032
Figure GDA0003563371800000033
随后将
Figure GDA0003563371800000034
的具体数值输入到线性变换层得到指示向量
Figure GDA0003563371800000035
并通过该指示向量对量化单元的嵌入矩阵进行加权求和得到数值特征表示,具体计算过程如下:
Figure GDA0003563371800000036
Figure GDA0003563371800000037
式中,
Figure GDA0003563371800000038
为量化单元的嵌入矩阵,M为量化单元个数,dq为数值特征的维度;
S1-3,将每个记录对应的三个属性的向量表示以及数据编码的表示进行拼接,作为每个数据记录的初始表示:
将每个记录对应的三个属性的向量表示
Figure GDA0003563371800000039
Figure GDA00035633718000000310
以及数值特征表示
Figure GDA00035633718000000311
进行拼接,作为每个数据记录的初始表示aj
Figure GDA00035633718000000312
S1-4,基于数据记录的初始向量表示序列A={a1,a2,…,a|r|},利用双向长短期记忆网络(BLSTM)对数据记录初始表示进行编码,得到数据记录对应的隐藏向量表示序列H={h1,h2,…,h|r|},对初始向量表示序列A中第j个记录进行编码的计算方法如下:
Figure GDA00035633718000000313
Figure GDA00035633718000000314
其中,hj为第j个记录对应的上下文语义表示。
其中,步骤S2所述的主题编码包括以下步骤:
S2-1,将标题相同的数据表对应的文本进行聚合,并对其中出现的词进行统计,构建主题-词的共现矩阵:
所述数据表的主题由数据表的标题st标记,首先将标题相同的数据表对应的文本进行聚合,并对其中出现的词进行统计,构建主题-词的共现矩阵
Figure GDA00035633718000000315
其中L代表主题个数,|D|代表由数据集中全部词构成的词表的大小,矩阵元素Uim代表第i种主题对应的第m个词的特征值;
S2-2,根据共现矩阵,选择每个主题下的高频主题词表,并将每个主题下高频词的词向量进行平均,作为该主题的特征表示:
根据共现矩阵选出每个主题下的高频主题词表
Figure GDA0003563371800000041
其中Lt代表高频词词表的大小,将每个主题下高频词的词向量进行平均,作为该主题的特征表示:
Figure GDA0003563371800000042
式中,Zi为第i个主题的特征表示,
Figure GDA0003563371800000043
为第i个主题对应的高频主题词表中第l个词对应的预训练词向量,由此得到的主题特征集Z={Z1,z2,…,zL};
S2-3,对于给定的数据表标题st,根据查表法从主题特征集合中选择对应的主题表示Zs,并在解码层引入该主题表示,以指导生成过程中词项的选择,获得更好的生成结果。
步骤S3所述的文本解码包括以下步骤:
S3-1,在解码过程的每个时间步,采用LSTM结构解码生成词的隐藏表示,LSTM接收上一步预测的词对应的词向量以及解码器上一步的隐藏表示作为输入,解码得到当前时间步的隐藏表示:
在解码过程的第t个时间步,LSTM单元的接收上一步预测的词对应的词向量yt-1以及解码器上一步的隐藏表示dt-1作为输入,解码得到当前时间步的隐藏表示dt
dt=LSTMdec(yt-1,dt-1) (8)
在第1个时间步中,将y0初始化为全零向量,并将编码器中前向LSTM的最后一个隐藏表示与反向LSTM的最后一个隐藏表示进行拼接作为d0
Figure GDA0003563371800000044
S3-2,在文本解码的过程中引入注意力机制,使解码过程关注到原始数据表中的重要信息:
给定第t个时间步解码器的隐藏表示dt,以及每个数据记录的隐藏表示hj,计算注意力权重βi,j;基于注意力权重βi,j,对每个数据记录的隐藏表示进行加权求和,得到上下文向量
Figure GDA0003563371800000045
Figure GDA0003563371800000046
Figure GDA0003563371800000047
式中,Wa为模型参数;
S3-3,在生成过程中引入数据表的主题表示,保证文本与数据表的主题一致性,提升用词的准确性:
将解码器隐藏表示dt、上下文向量
Figure GDA0003563371800000048
以及主题表示zs进行拼接和非线性变换,得到特征表示
Figure GDA0003563371800000049
Figure GDA00035633718000000410
式中,Wd和bd为模型参数;
S3-4,将特征表示映射到词表空间,计算每个词的生成概率:
Figure GDA0003563371800000051
式中,Wy与by为模型参数,y<t代表第t个时间步之前生成的词序列,s代表输入的数据表。
在步骤S4中,在训练过程中,最大化正确词生成概率的对数似然函数:
max∑(y,s)∈Dlogp(y|s) (14)
式中,D表示训练实例集合。
在步骤S5中,在推理过程中,对于给定的s,利用集束搜索(Beam Search)生成其对应的分析性文本如下:
Figure GDA0003563371800000052
式中,y′表示输出文本的候选项,在文本生成阶段,利用集束搜索来近似地得到最佳生成结果。
为了保证数据表和文本之间的主题一致性,本发明将数据表的标题作为主题的标识,并通过对相同主题下的词频进行统计得到主题-词的共现矩阵。基于该共现矩阵,可以得到不同主题下的高频词表,通过对词表中每个词的嵌入表示进行平均,可以得到不同主题的语义表示。最后,本发明将主题表示引入到编码器-解码器框架中,指导模型生成文本。此外,考虑到数据表中包含大量的数值,为了提升模型的数据表编码能力,本发明进一步在模型编码阶段中引入了数值编码机制。本发明具有以下有益效果:
1、本发明提供了一种数值编码机制。通过对数据集中的全部数字划分合理的数值区间,并根据数值区间选择对应的模型参数实现数值编码,可以充分学习数据表中每个数据的语义特征,进而增强模型对数据表的表征能力,提升其对应的文本的生成质量。
2、本发明提供了一种数据表主题信息建模方法。通过统计主题-词的共现矩阵,可以有效计算不同主题的数据表对应的语义表示。通过将数据表对应的主题的语义表示引入模型的解码阶段,可以有效指导模型学习到更准确、更高质量的文本用词方式,进而增强数据表和生成文本之间的主题一致性,提升生成文本的质量。
附图说明
图1是本发明基于主题感知的跨模态序列到序列生成方法的流程图;
图2本发明的步骤S1-S3中基于主题感知的跨模态序列到序列方法的示意图。
具体实施方式
下面结合附图对本发明的基于主题感知的跨模态序列到序列生成方法进行详细说明。
本发明主要采用深度学习技术以及自然语言处理相关的理论方法实现数据到文本的生成,并保证数据和文本之间的主题一致性。为了保证系统的正常运行,在具体实施中,要求所使用的计算机平台配备不低于8G的内存,CPU核心数不低于4个且主频不低2.6GHz、GPU环境、Linux操作系统,并安装Python 3.6及以上版本、pytorch0.4及以上版本等必备软件环境。
如图1所示,本发明提供的基于主题感知的跨模态序列到序列生成方法具体包括按顺序执行的下列步骤:
S1,数据记录编码:利用双向长短期记忆网络学习数据表中的每个记录的上下文语义表示;
S2,主题编码:根据数据表标题与数据表对应的文本学习各主题对应的词分布,并通过对词的向量表示加权求和,得到主题的向量表示。
S3,文本解码:基于步骤1)中编码层得到的数据记录的隐藏向量表示序列以及步骤2)中得到的数据表的主题表示,使用基于注意力机制的LSTM结构作为解码器生成分析性文本。
S4模型训练:构建损失函数对步骤1到步骤3中的模型参数进行优化。
S5文本生成:在推理过程中,对于给定的数据表,利用集束搜索(Beam Search)来近似地得到最佳的文本生成结果。
下面对上述步骤进行详细说明。
S1,数据记录编码。参见图2,具体包括以下步骤:
S1-1,将数据表中每个数据记录对应的行、列、值三个属性均映射到低维、稠密的向量表示。
对于给定的数据表s,假设
Figure GDA0003563371800000061
为数据表的记录集合,|r|表示记录个数。本步骤将数据表中每条记录rj对应的行、列、值三个属性
Figure GDA0003563371800000062
Figure GDA0003563371800000063
分别映射到低维、稠密的向量表示
Figure GDA0003563371800000064
Figure GDA0003563371800000065
例如,给定一个数据表,其对应的数据记录集合“usd 2014 111.3|usd oct-15119.3|usd nov-15 121.1|usd dec-15 122.4|…”,其中“|”用于间隔不同的数据记录,空格用于间隔每个数据记录对应的行、列、值三个属性。对于第一个数据记录“usd 2014111.3”,“usd”为行表头、“2014”为列表头、“111.3”为值。通过映射到向量表示,可以得到
Figure GDA0003563371800000066
Figure GDA0003563371800000067
Figure GDA0003563371800000068
S1-2,根据数据集中数值的分布情况将所有数值划分为不同的区间,并依据每个数据记录中数值所属的区间对其进行记录的数值编码。
考虑到属性
Figure GDA0003563371800000071
通常为数值型的记录值,本步骤对属性
Figure GDA0003563371800000072
进行数值编码。考虑到数值之间的差异程度通常会导致语义的差异,例如当表示下降幅度时,数值“0.25”和“15”表达的语义分别为“略有下降”和“大幅下降”,因此本步骤首先根据数据集中数值的分布情况将所有数值划分为不同的区间,并使得不同的区间对应不同的参数设置。在数值编码时,首先根据
Figure GDA0003563371800000073
对应的区间范围选择参数
Figure GDA0003563371800000074
Figure GDA0003563371800000075
随后将
Figure GDA0003563371800000076
的具体数值输入到线性变换层得到指示向量
Figure GDA0003563371800000077
并通过该指示向量对量化单元的嵌入矩阵进行加权求和得到数值特征表示,具体计算过程如下:
Figure GDA0003563371800000078
Figure GDA0003563371800000079
式中,
Figure GDA00035633718000000710
为量化单元的嵌入矩阵,M为量化单元个数,dq为数值特征的维度。通过上述方法得到的数值特征既考虑到数值本身的大小,又避免语义的分散,从而提升模型对数值的理解能力。
例如,对于上述例子中的第一个数据记录“usd 2014 111.3”,其数值所属的区间可为“100—200”区间,其对应的数值特征表示
Figure GDA00035633718000000711
S1-3,将每个记录对应的三个属性的向量表示以及数据编码的表示进行拼接,作为每个数据记录的初始表示。
将每个记录对应的三个属性的向量表示
Figure GDA00035633718000000712
Figure GDA00035633718000000713
以及数据值特征表示
Figure GDA00035633718000000714
进行拼接,作为每个数据记录的初始表示aj
Figure GDA00035633718000000715
例如,对于上述例子中的第一个数据记录“usd 2014 111.3”,经过特征拼接,可以得到数据记录的初始表示a1=[0.11,0.21,…,0.9,…,0.00,-0.62,…,0.017]。
S1-4,利用双向长短期记忆网络对数据记录初始表示进行编码,得到数据表中每个数据对应的上下文语义表示。
基于数据记录的初始向量表示序列A={a1,a2,…,a|r|},利用双向长短期记忆网络(BLSTM)对数据记录初始表示进行编码,得到数据记录对应的隐藏向量表示序列H={h1,h2,…,h|r|},对初始向量表示序列A中第j个记录进行编码的计算方法如下:
Figure GDA00035633718000000716
Figure GDA00035633718000000717
其中,hj为第j个记录对应的上下文语义表示。(6)
例如,对于上述例子中的第一个数据记录“usd 2014 111.3”,经过BLSTM,可以得到数据记录的上下文语义表示h1=[0.611,-0.021,…,0.06]。
S2,主题编码。具体包括以下步骤:
S2-1,将标题相同的数据表对应的文本进行聚合,并对其中出现的词进行统计,构建主题-词的共现矩阵。
考虑到数据表的主题可以由数据表的标题st标记,因此本步骤首先将标题相同的数据表对应的文本进行聚合,并对其中出现的词进行统计,构建主题-词的共现矩阵
Figure GDA0003563371800000081
其中L代表主题个数,|D|代表由数据集中全部词构成的词表的大小,矩阵元素Uim代表第i种主题对应的第m个词的特征值。具体地,本发明使用词在不同主题类别下出现的次数作为特征值。
例如,主题-词的共现矩阵可为
Figure GDA0003563371800000082
S2-2,根据共现矩阵,选择每个主题下的高频主题词表,并将每个主题下高频词的词向量进行平均,作为该主题的特征表示。
根据共现矩阵,可以选出每个主题下的高频主题词表
Figure GDA0003563371800000083
其中Lt代表高频词词表的大小。由此,本节将每个主题下高频词的词向量进行平均,作为该主题的特征表示,即:
Figure GDA0003563371800000084
式中,zi为第i个主题的特征表示,
Figure GDA0003563371800000085
为第i个主题对应的高频主题词表中第l个词对应的预训练词向量。由此得到的主题特征集Z={z1,z2,…,zL}。
例如,数据集中第一种主题对应的表示可为z1=[0.008,0.77,…,0.51]。
S2-3,对于给定的数据表标题,根据查表法从主题特征集合中选择对应的主题表示。
对于给定的数据表标题st,本发明根据查表法从主题特征集合中选择对应的主题表示zs,并在解码层引入该主题表示,以指导生成过程中词项的选择,获得更好的生成结果。
例如,上述例子中的数据表属于第一种主题,由此,其对应的主题表示zs=[0.008,0.77,…,0.51]。
S3,文本解码:基于编码层得到的数据记录的隐藏向量表示序列H以及数据表的主题表示zs,使用基于注意力机制的LSTM结构作为解码器生成分析性文本y={y1,y2,…,y|y|}。具体包括以下步骤:
S3-1,在解码过程的每个时间步,采用LSTM结构解码生成词的隐藏表示。LSTM接收上一步预测的词对应的词向量以及解码器上一步的隐藏表示作为输入,解码得到当前时间步的隐藏表示。
本步骤采用LSTM结构解码生成词的隐藏表示。具体地,在解码过程的第t个时间步,LSTM单元的接收上一步预测的词对应的词向量yt-1以及解码器上一步的隐藏表示dt-1作为输入,解码得到当前时间步的隐藏表示dt
dt=LSTMdec(yt-1,dt-1) (8)
特别地,在第1个时间步中,本发明将y0初始化为全零向量,并将编码器中前向LSTM的最后一个隐藏表示与反向LSTM的最后一个隐藏表示进行拼接作为d0
Figure GDA0003563371800000091
例如,在第3个时间步,LSTM解码的隐藏表示为d3=[0.00,0.28,...,0.44]。
S3-2,在文本解码的过程中引入注意力机制,使解码过程可以关注到原始数据表中的重要信息。
具体地,给定第t个时间步解码器的隐藏表示dt,以及每个数据记录的隐藏表示hj,可计算注意力权重βi,j。基于注意力权重βi,j,可对每个数据记录的隐藏表示进行加权求和,得到上下文向量
Figure GDA0003563371800000092
Figure GDA0003563371800000093
Figure GDA0003563371800000094
式中,Wa为模型参数。
例如,在第3个时间步,通过注意力机制得到的上下文向量为
Figure GDA0003563371800000095
S3-3,在生成过程中引入数据表的主题表示,保证文本与数据表的主题一致性,提升用词的准确性。
具体地,本发明将解码器隐藏表示dt、上下文向量
Figure GDA00035633718000000910
以及主题表示zs进行拼接和非线性变换,得到特征表示
Figure GDA0003563371800000097
Figure GDA0003563371800000098
式中,Wd和bd为模型参数。
S3-4,将特征表示映射到词表空间,计算每个词的生成概率:
Figure GDA0003563371800000099
式中,Wy与by为模型参数,y<t代表第t个时间步之前生成的词序列,s代表输入的数据表。
例如,在第3个时间步,模型生成单词“usd”的概率为0.9,生成单词“the”的概率为0.01。
S4,模型训练:构建损失函数对步骤1到步骤3中的模型参数进行优化。具体地,在训练过程中,本发明最大化正确词生成概率的对数似然函数:
max∑(y,s)∈Dlogp(y|s) (14)
式中,D表示训练实例集合。
S5,文本生成:在推理过程中,对于给定的s,利用集束搜索(Beam Search)生成其对应的分析性文本如下:
Figure GDA0003563371800000101
式中,y′表示输出文本的候选项。在文本生成阶段,本发明利用集束搜索(BeamSearch)来近似地得到最佳生成结果。

Claims (3)

1.一种基于主题感知的跨模态序列到序列生成方法,包括按顺序执行的下列步骤:
S1,数据记录编码:利用双向长短期记忆网络学习数据表中的每个记录的上下文语义表示,得到数据记录的隐藏向量表示序列;
S2,主题编码:根据数据表标题与数据表对应的文本学习各主题对应的词分布,并通过对词的向量表示加权求和,得到主题的向量表示;
S3,文本解码:基于步骤S1得到的隐藏向量表示序列以及步骤S2中得到的主题的向量表示,使用基于注意力机制的LSTM结构作为解码器生成分析性文本,
S4模型训练,构建损失函数,对S1到S3中的模型参数进行优化;
S5文本生成:在推理过程中,对于给定的数据表,利用集束搜索来近似地得到最佳的文本生成结果;
其中,步骤S1所述的数据记录编码包括以下步骤:
S1-1,将数据表中每个数据记录对应的行、列、值三个属性均映射到低维、稠密的向量表示:
对于给定的数据表s,假设
Figure FDA0003563371790000011
为数据表的记录集合,|r|表示记录个数,将数据表中每条记录rj对应的行、列、值三个属性
Figure FDA0003563371790000012
Figure FDA0003563371790000013
分别映射到低维、稠密的向量表示
Figure FDA0003563371790000014
Figure FDA0003563371790000015
Figure FDA0003563371790000016
其中dr为数据表中的记录所对应的向量表示的维度;
S1-2,根据数据集中数值的分布情况将所有数值划分为不同的区间,并依据每个数据记录中数值所属的区间对其进行记录的数值编码:
首先根据数据集中数值的分布情况将所有数值划分为不同的区间,并使得不同的区间对应不同的参数设置;在数值编码时,首先根据
Figure FDA0003563371790000017
对应的区间范围选择参数
Figure FDA0003563371790000018
Figure FDA0003563371790000019
随后将
Figure FDA00035633717900000110
的具体数值输入到线性变换层得到指示向量
Figure FDA00035633717900000111
并通过该指示向量对量化单元的嵌入矩阵进行加权求和得到数值特征表示,具体计算过程如下:
Figure FDA00035633717900000112
Figure FDA00035633717900000113
式中,
Figure FDA00035633717900000114
为量化单元的嵌入矩阵,M为量化单元个数,dq为数值特征的维度;
S1-3,将每个记录对应的三个属性的向量表示以及数据编码的表示进行拼接,作为每个数据记录的初始表示:
将每个记录对应的三个属性的向量表示
Figure FDA00035633717900000115
Figure FDA00035633717900000116
以及数值特征表示
Figure FDA00035633717900000117
进行拼接,作为每个数据记录的初始表示aj
Figure FDA00035633717900000118
S1-4,基于数据记录的初始向量表示序列A={a1,a2,…,a|r|},利用双向长短期记忆网络BLSTM对数据记录初始表示进行编码,得到数据记录对应的隐藏向量表示序列H={h1,h2,…,h|r|},对初始向量表示序列A中第j个记录进行编码的计算方法如下:
Figure FDA0003563371790000021
Figure FDA0003563371790000022
其中,hj为第j个记录对应的上下文语义表示;
步骤S2所述的主题编码包括以下步骤:
S2-1,将标题相同的数据表对应的文本进行聚合,并对其中出现的词进行统计,构建主题-词的共现矩阵:
所述数据表的主题由数据表的标题st标记,首先将标题相同的数据表对应的文本进行聚合,并对其中出现的词进行统计,构建主题-词的共现矩阵
Figure FDA0003563371790000023
其中L代表主题个数,|D|代表由数据集中全部词构成的词表的大小,矩阵元素Uim代表第i种主题对应的第m个词的特征值;
S2-2,根据共现矩阵,选择每个主题下的高频主题词表,并将每个主题下高频词的词向量进行平均,作为该主题的特征表示:
根据共现矩阵选出每个主题下的高频主题词表
Figure FDA0003563371790000024
其中Lt代表高频词词表的大小,将每个主题下高频词的词向量进行平均,作为该主题的特征表示:
Figure FDA0003563371790000025
式中,zi为第i个主题的特征表示,
Figure FDA0003563371790000026
为第i个主题对应的高频主题词表中第l个词对应的预训练词向量,由此得到的主题特征集Z={z1,z2,…,zL};
S2-3,对于给定的数据表标题st,根据查表法从主题特征集合中选择对应的主题表示zs,并在解码层引入该主题表示,以指导生成过程中词项的选择,获得更好的生成结果;
步骤S3所述的文本解码包括以下步骤:
S3-1,在解码过程的每个时间步,采用LSTM结构解码生成词的隐藏表示,LSTM接收上一步预测的词对应的词向量以及解码器上一步的隐藏表示作为输入,解码得到当前时间步的隐藏表示:
在解码过程的第t个时间步,LSTM单元的接收上一步预测的词对应的词向量yt-1以及解码器上一步的隐藏表示dt-1作为输入,解码得到当前时间步的隐藏表示dt
dt=LSTMdec(yt-1,dt-1) (8)
在第1个时间步中,将y0初始化为全零向量,并将编码器中前向LSTM的最后一个隐藏表示与反向LSTM的最后一个隐藏表示进行拼接作为d0
Figure FDA0003563371790000031
S3-2,在文本解码的过程中引入注意力机制,使解码过程关注到原始数据表中的重要信息:
给定第t个时间步解码器的隐藏表示dt,以及每个数据记录的隐藏表示hj,计算注意力权重βi,j;基于注意力权重βi,j,对每个数据记录的隐藏表示进行加权求和,得到上下文向量
Figure FDA0003563371790000032
Figure FDA0003563371790000033
Figure FDA0003563371790000034
式中,Wa为模型参数;
S3-3,在生成过程中引入数据表的主题表示,保证文本与数据表的主题一致性,提升用词的准确性:
将解码器隐藏表示dt、上下文向量
Figure FDA0003563371790000035
以及主题表示zs进行拼接和非线性变换,得到特征表示
Figure FDA0003563371790000036
Figure FDA0003563371790000037
式中,Wd和bd为模型参数;
S3-4,将特征表示映射到词表空间,计算每个词的生成概率:
Figure FDA0003563371790000038
式中,Wy与by为模型参数,y<t代表第t个时间步之前生成的词序列,s代表输入的数据表。
2.根据权利要求1所述的基于主题感知的跨模态序列到序列生成方法,其特征在于:步骤S4中,在训练过程中,最大化正确词生成概率的对数似然函数:
max∑(y,s)∈Dlogp(y|s) (14)
式中,D表示训练实例集合。
3.根据权利要求1所述的基于主题感知的跨模态序列到序列生成方法,其特征在于:步骤S5中,在推理过程中,对于给定的s,利用集束搜索Beam Search生成其对应的分析性文本如下:
Figure FDA0003563371790000039
式中,y′表示输出文本的候选项,在文本生成阶段,利用集束搜索来近似地得到最佳生成结果。
CN202011241616.XA 2020-11-09 2020-11-09 一种基于主题感知的跨模态序列到序列生成方法 Active CN112507064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011241616.XA CN112507064B (zh) 2020-11-09 2020-11-09 一种基于主题感知的跨模态序列到序列生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011241616.XA CN112507064B (zh) 2020-11-09 2020-11-09 一种基于主题感知的跨模态序列到序列生成方法

Publications (2)

Publication Number Publication Date
CN112507064A CN112507064A (zh) 2021-03-16
CN112507064B true CN112507064B (zh) 2022-05-24

Family

ID=74955746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011241616.XA Active CN112507064B (zh) 2020-11-09 2020-11-09 一种基于主题感知的跨模态序列到序列生成方法

Country Status (1)

Country Link
CN (1) CN112507064B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559192A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于跨模态稀疏主题建模的跨媒体检索方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
KR20180071021A (ko) * 2016-12-19 2018-06-27 성균관대학교산학협력단 일관된 주제의 텍스트 생성 방법 및 이를 수행하는 텍스트 생성 장치
CN110728135A (zh) * 2019-10-12 2020-01-24 中国科学技术信息研究所 文本主题标引方法、装置、电子设备及计算机存储介质
CN110765762A (zh) * 2019-09-29 2020-02-07 杭州电子科技大学上虞科学与工程研究院有限公司 一种大数据背景下在线评论文本最佳主题提取系统和方法
CN111651970A (zh) * 2020-07-14 2020-09-11 华侨大学 基于表格型数据生成文本的方法、装置、设备及存储介质
CN111666756A (zh) * 2020-05-26 2020-09-15 湖北工业大学 一种基于主题融合的序列模型文本摘要生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559192A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于跨模态稀疏主题建模的跨媒体检索方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
KR20180071021A (ko) * 2016-12-19 2018-06-27 성균관대학교산학협력단 일관된 주제의 텍스트 생성 방법 및 이를 수행하는 텍스트 생성 장치
CN110765762A (zh) * 2019-09-29 2020-02-07 杭州电子科技大学上虞科学与工程研究院有限公司 一种大数据背景下在线评论文本最佳主题提取系统和方法
CN110728135A (zh) * 2019-10-12 2020-01-24 中国科学技术信息研究所 文本主题标引方法、装置、电子设备及计算机存储介质
CN111666756A (zh) * 2020-05-26 2020-09-15 湖北工业大学 一种基于主题融合的序列模型文本摘要生成方法
CN111651970A (zh) * 2020-07-14 2020-09-11 华侨大学 基于表格型数据生成文本的方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Point Precisely: Towards Ensuring the Precision of Data in Generated Texts Using Delayed Copy Mechanism;Liunian Li, Xiaojun Wan;《In Proceedings of the 27th International Conference on Computational Linguistics》;20180826;全文 *
Topic Aware Neural Response Generation;Chen Xing,等;《Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence (AAAI-17)》;20170212;全文 *
基于注意力机制的特征融合序列标注模型;王旭强,岳顺民等;《山东科技大学学报(自然科学版)》;20200622;全文 *

Also Published As

Publication number Publication date
CN112507064A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
Babić et al. Survey of neural text representation models
Badaro et al. Transformers for tabular data representation: A survey of models and applications
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN112069827B (zh) 一种基于细粒度主题建模的数据到文本生成方法
Jian et al. Lstm-based attentional embedding for English machine translation
CN114880307A (zh) 一种开放教育领域知识的结构化建模方法
CN114943034A (zh) 基于细粒度方面特征的智能新闻推荐方法和系统
CN113158659B (zh) 一种基于司法文本的涉案财物计算方法
Jung et al. Intent-controllable citation text generation
CN112507064B (zh) 一种基于主题感知的跨模态序列到序列生成方法
Hulsebos et al. Models and Practice of Neural Table Representations
Gou et al. Think twice: a post-processing approach for the Chinese spelling error correction
US11810598B2 (en) Apparatus and method for automated video record generation
CN115757325A (zh) 一种xes日志智能转换方法及系统
Kasthuriarachchy et al. From general language understanding to noisy text comprehension
Hsiao et al. Construction of an artificial intelligence writing model for English based on fusion neural network model
CN114611510A (zh) 基于生成模型辅助机器阅读理解的实现方法及装置
Xu et al. A supervised topic embedding model and its application
Wan et al. Grammar-supervised end-to-end speech recognition with part-of-speech tagging and dependency parsing
Wen et al. A hybrid Chinese word segmentation model for quality management-related texts based on transfer learning
Wang et al. Defect Severity Identification for a Catenary System Based on Deep Semantic Learning
Dong et al. Lexicon-Enhanced Multi-Task Convolutional Neural Network for Emotion Distribution Learning
CN116958997B (zh) 一种基于异质图神经网络的图文摘要方法及系统
Liao et al. Nested named entity recognition based on dual stream feature complementation
Ziolkowski Vox populism: Analysis of the anti-elite content of presidential candidates’ speeches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant