CN111581929B - 基于表格的文本生成方法及相关装置 - Google Patents
基于表格的文本生成方法及相关装置 Download PDFInfo
- Publication number
- CN111581929B CN111581929B CN202010322737.0A CN202010322737A CN111581929B CN 111581929 B CN111581929 B CN 111581929B CN 202010322737 A CN202010322737 A CN 202010322737A CN 111581929 B CN111581929 B CN 111581929B
- Authority
- CN
- China
- Prior art keywords
- triples
- information sequence
- triple
- text
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能技术领域,尤其涉及一种基于表格的文本生成方法及相关装置。该方法包括:获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;根据所述目标信息序列构建所述表格的文本表达。通过本申请提供的方法,提高了基于表格生成的文本表达的准确性以及增强了对于表格中各数值信息间的理解能力。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于表格的文本生成方法及相关装置。
背景技术
目前,根据表格数据生成文本一直是人工智能中重要的研究方向之一。并且,近年来有很多借助神经网络模型在这个研究方向上取得很好成果的研究。
然而,相关技术中的研究主要存在两方面的问题:(一)在进行表格中数值到文本的生成时,将表格中的数值视为字符串来生成表格的文本表达,但生成的文本表达结果存在不准确的问题;例如在球赛当中将得分高的队伍描述成失败方。(二)在进行表格中数值到文本的生成时,仅关注到表格中的数值,从而得到数值表示,但不能根据得到的数值表示得到连贯的可理解的文本表达,导致文本表达不准确。
发明内容
本申请实施例提供基于表格的文本生成方法及相关装置,用以解决相关技术中存在的基于表格得到的文本表达的准确性还需要提高的问题。
第一方面,本申请实施例提供的一种基于表格的文本生成方法,所述方法包括:
获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;
对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;
由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;
根据所述目标信息序列构建所述表格的文本表达。
在一个实施例中,所述目标函数为:
其中,lpre表示所述目标函数的损失;n表示各训练样本中包含的三元组样本的数量;i表示第i个三元组样本;j表示第j个三元组样本;ζ为设定值;表示第i个三元组样本的评分;表示第j个三元组样本的评分;ri.v表示第i个三元组的文本向量;rj.v表示第j个三元组的文本向量;N为常数值。
第二方面,本申请实施例提供一种基于表格的文本生成装置,所述装置包括:
获取模块,用于获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;
特征提取模块,用于对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;
筛选模块,用于由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;
构建模块,用于根据所述目标信息序列构建所述表格的文本表达。
在一个实施例中,特征提取模块用于对所述三元组进行特征提取,得到所述三元组的特征表达时,具体用于:
对所述三元组中的所述行名、所述列名以及所述数值信息分别进行词嵌入得到所述三元组的文本向量;
构建所述三元组的同类三元组的文本向量集;其中,行名或列名相同的三元组为同类三元组;
通过预先训练的编码器模型对所述文本向量集进行特征提取,得到所述三元组的数值特征;
针对任一三元组,由所述三元组的行名和列名的文本向量以及所述三元组的数值特征构造所述三元组的特征表达;
其中,所述编码器模型是以预先构建的文本分类模型作为约束条件进行训练得到的,所述文本分类模型用于对所述编码器模型提取的特征表达进行分类,以使任意两个三元组中数值信息高的三元组划分到高数值类别、数值低的三元组划分到低数值类别。
在一个实施例中,训练所述编码器模型,包括:
构建训练样本,所述训练样本中包括同类三元组样本的文本向量;
通过所述编码器模型对所述训练样本进行特征提取,得到所述训练样本中各三元组样本的特征表达;
通过所述文本分类模型对各三元组样本的特征表达进行评分,得到各三元组样本的评分;
将各三元组样本的评分作为目标函数的输入参数,得到所述目标函数的损失;
根据所述目标函数的损失调整所述编码器模型的参数以及所述文本分类模型的参数,以使任意两个三元组样本中数值高的三元组样本的评分高于数值低的三元组样本的评分。
在一个实施例中,所述目标函数为:
其中,lpre表示目标函数的损失;n表示各训练样本中包含的三元组样本的数量;i表示第i个三元组样本;j表示第j个三元组样本;ζ为设定值;表示第i个三元组样本的评分;表示第j个三元组样本的评分;ri.v表示第i个三元组的文本向量;rj.v表示第j个三元组的文本向量;N为常数值。
在一个实施例中,所述筛选模块,用于对所述特征表达集合进行筛选时,具体用于:
通过多层感知机对所述表格的所述特征表达集合进行特征提取,得到深度特征;
基于已训练的筛选模型对所述深度特征进行筛选,得到所述目标信息序列;
其中,所述筛选模型以及所述多层感知机是根据以下方法训练得到的:
将所述筛选模型筛选出的目标信息序列与预先构建的参考信息序列进行比对;
根据所述目标信息序列与所述参考信息序列的差异对所述筛选模型以及所述多层感知机的参数进行调整。
在一个实施例中,所述目标信息序列与所述参考信息序列的差异包括:词级别的差异以及信息序列级别的差异;其中,
所述词级别的差异用于表示所述目标信息序列中的各词与所述目标信息序列的差异;
所述序列级别的差异用于表示所述目标信息序列与所述参考信息序列的整体相似度。
在一个实施例中,所述词级别的差异包括以下中的至少一种:数据实体重要性、三元组的数据重要性;其中,数据实体为行名或列名;所述筛选模块,具体用于:
针对所述目标信息序列中每个数据实体,根据以下方法确定数据实体的所述数据实体重要性:
若数据实体包含在所述参考信息序列中,则所述数据实体的数据实体重要性为第一预设值;若数据实体不包含在所述参考信息序列中,则所述数据实体的数据实体重要性为第二预设值;其中,所述第一预设值大于所述第二预设值;
针对所述目标信息序列中的任一三元组,根据以下方法确定所述三元组的数据重要性:
若所述三元组包含在所述参考信息序列中,则所述三元组的数据重要性为第三预设值;若三元组不包含在所述参考信息序列中,则所述三元组的数据重要性为第四预设值;其中,所述第三预设值大于所述第四预设值。
在一个实施例中,所述序列级别的差异包括以下中的至少一种:数据实体召回率、三元组的数据召回率、数据顺序;其中,数据实体为行名或列名;所述筛选模块,具体用于:
根据以下方法确定所述数据实体召回率:
确定所述参考信息序列与所述目标信息序列中相同的数据实体数目,将所述相同的数据实体数目与所述参考信息序列中的数据实体数目的比值作为所述数据实体召回率;
根据以下方法确定所述三元组的数据召回率:
确定所述参考信息序列与所述目标信息序列中相同的三元组数目,将所述相同的三元组数目与所述参考信息序列中的三元组数目的比值作为所述数据召回率;
根据以下方法确定所述目标信息序列的所述数据顺序:
确定所述目标信息序列与所述参考目标信息序列之间的文本相似度作为所述数据顺序。
第三方面,本申请实施例提供一种计算设备,包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序指令执行本申请实施例任一所述的基于表格的文本生成方法。
第四方面,本申请实施例提供一种计算机可读介质,所述计算机可读介质存储有计算机程序,所述计算机程序用于使所述计算机执行如本申请实施例任一所述的基于表格的文本生成方法。
本申请实施例中,通过在对表格中的三元组进行特征提取时,融入表格中各三元组的上下文信息以及三元组的数值信息与其他三元组的数值信息的大小关系,从而使得得到的三元组的特征表达更准确的反映表格中的数值之间的关系。因此,本申请实施例提供的基于表格的文本生成方法可生成更准确的文本表达信息。
附图说明
图1所示为本申请实施例提供的一种应用场景示意图;
图2所示为本申请实施例提供的一种基于表格的文本生成方法的流程示意图;
图3A所示为本申请实施例提供的一种获取三元组的特征表达的流程示意图;
图3B所示为本申请实施例提供的一种编码器模型的示意图;
图4A所示为本申请实施例提供的一种训练编码模型的流程示意图;
图4B所示为本申请实施例提供的一种评分的实施方式的示意图;
图5所示为本申请实施例提供的一种基于表格的文本生成方法的结构示意图;
图6所示为本申请实施例提供的一种基于表格的文本生成方法的结果图;
图7所示为本申请实施例提供的基于表格的文本生成装置的结构示意图;
图8为本申请实施例提供的计算设备的结构示意图。
具体实施方式
为了便于理解本申请实施例提供的技术方案,下面结合说明书附图对本申请实施例作进一步详细描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
人工智能技术是一门综合学科,涉及领域广泛,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例的人工智能技术主要涉及自然语言处理技术以及机器学习和/或深度学习。具体而言,本申请采用人工智能技术对表格数据进行处理,以得到能够采用自然语言的文本对表格信息进行概括总结,即基于表格数据生成表格的文本表达。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括基于表格的文本生成、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请中自然语言处理主要涉及的是基于表格的文本生成。当然,本申请生成的文本可以应用在机器人问答、财经类报告生成、医疗报告生成等场景中。
为了方便理解,下面对本申请实施例中可能涉及的名词进行解释:
(1)策略梯度:一种根据激励函数对模型进行梯度更新,更新模型参数的方法。
(2)神经网络:在机器学习领域的一种模仿动物神经网络行为的深度学习模型。
(3)RNN(循环神经网络,Recurrent Neural Network):一种以序列数据为输入进行建模的网络模型,它将状态在自身网络中递归传递。
(4)CNN(卷积神经网络,Convolutional Neural Networks):一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表之一。
(5)编码器-解码器框架:编码器将输入参数编码为向量,解码器根据编码的向量进行解码输出。
(6)拷贝机制:一种在基于神经网络的编码器-解码器框架,文本生成阶段允许从输入参数中直接拷贝文字的方法。
(7)多层感知机(MultiLayer Perceptron,MLP):是一种前馈人工神经网络模型,其将输入的多个数据表示映射到单一的输出的数据表示上。
(8)前馈神经网络(Feedforward Neural Networks,FFN):是一种神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层;其中,各层间没有反馈。
(9)自注意力网络(Self-attention Mechanism,SAN):注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。而自注意力机制是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。
(10)Transformer Encoder:一种采用了自注意力机制的多层编码器模型。
(11)Damerau-Levenshtein距离:测量两个信息序列之间的编辑距离的度量标准。
(12)表格的三元组:包括表格的行名、列名、行名和列名对应的数值信息,一种表现形式为<行名,列名,数值>。
(13)文本表达:本申请实施例中,指根据结构化的表格数据得到的结构化的文本描述信息。
(14)目标信息序列:本申请实施例中,包括表格中的一些关键信息、重要信息等。
相关技术中,根据表格数据生成文本一直是人工智能中重要的研究方向之一。但相关技术中对于根据结构化表格生成非结构化文本的方法存在缺乏对于数值间关系的理解能力,导致文本生成结果不准确的问题,或者不能得到连贯的可理解的文字表达的问题。例如,文本生成中可能存在将总分较低的队伍描述为获胜队伍的可能。
有鉴于此,本申请实施例提供了一种基于表格的文本生成方法,在本申请实施例中的主要设计思想包括两部分:第一部分是表格的特征表达提取部分,首先基于三元组对表格中的各项内容进行数值表示,在对表格中的三元组进行特征提取时,融合各三元组的上下文信息以及三元组与其他三元组的数值信息的大小关系,以使提取的特征表达中包含的信息不局限于表格数据本身,还涵盖了的上下文信息以及数值信息之间的大小关系。第二部分是对表格的特征表达集合的筛选部分,本申请提供的实施例中,在根据特征表达集合初步特征提取得到深度特征后,还对得到的目深度特征进行筛选得到最终的目标信息序列,以保证得到的目标信息序列更准确地反映表格中的目标信息,最后以筛选出的目标信息序列来生成表格的文本表达。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
参阅图1,为本申请实施例提供的一种基于表格的文本生成方法的应用场景示意图,该场景中包括用户10、终端设备11、后台服务器12。用户10可确定对那个表格进行文本生成,并通过终端设备11进行用户操作。终端设备11响应于用户操作,根据用户操作将表格发送给后台服务器12,以便于通过如本申请提供的方法针对该表格进行文本生成。其中,终端设备11例如可以是智能手机、平板电脑,车载终端、智能手表等;后台服务器12可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。
当然,本申请实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其它可能的应用场景,本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在该方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。
参阅图2,为本申请实施例提供的一种基于表格的文本生成方法的流程示意图,包括:
步骤201:获取表格中的三元组,三元组包括:行名、列名、行名和列名对应的数值信息。
在一个实施例中,参阅表1,为本申请实施例提供的表格的一种示意图,如下:
表1
其中,三元组的一种可能的表现形式为<行名,列名,数值>。例如,根据表1中的内容,<球员A,得分,12>、<球员3,助攻,1>等表示为表格中对应位置数值的三元组表示。
步骤202:对三元组进行特征提取,得到三元组的特征表达,特征表达中至少包含三元组的上下文信息以及三元组的数值信息与其他三元组的数值信息的大小关系。
步骤203:由表格的多个三元组的特征表达构成特征表达集合,并对特征表达集合进行筛选,得到表格中的目标信息序列。
步骤204:根据目标信息序列构建表格的文本表达。
在一个实施例中,对三元组进行特征提取,得到三元组的特征表达的方法参阅图3A,为本申请实施例中提供的一种获取三元组的特征表达的流程示意图,包括:
步骤2021:对三元组中的行名、列名以及数值信息分别进行词嵌入得到三元组的文本向量。
其中,行名或列名相同的三元组为同类三元组,例如,表1中的“得分”列对应的各数值信息对应的三元组为同类三元组,用于表示各球员的得分多少。基于“得分”这一类三元组进行的特征提取后,各三元组的特征表达能够反映球员间得分的大小关系。基于在提取目标信息序列时,实现了参考得分大小关系进行目标信息的筛选。
步骤2022:构建三元组的同类三元组的文本向量集。
实施时,假设第i个三元组的文本向量表示为ri.v,则其同类三元组的文本向量集可表示为[r1.v,…,ri-1.v,ri.v,ri+1.v,…rn.v]。其中r用来表示一个三元组的标识;i为变量,用于表示同类三元组中对应的第i个三元组;n表示该类三元组中三元组的数目为n个;v用于表示该三元组的行名和列名对应的数值信息。
步骤2023:通过预先训练的编码器模型对文本向量集进行特征提取,得到三元组的数值特征。
步骤2024:针对任一三元组,由所述三元组的行名和列名的文本向量以及所述三元组的数值特征构造所述三元组的特征表达。
在一个实施例中,可选的,编码器模型为Transformer Encoder模型,该模型由多层神经网络构成,且各层神经网络结构相同,但各层分别拥有自己的内部参数,且不与其他层共享;用于对表格中的数值信息和三元组进行编码处理,得到各数值信息的编码数据,并将各数值信息的编码数据依序输出。
举例说明,Transformer Encoder模型,如图3B所示,包括:编码数据输入单元、编码位置单元以及Nx个循环编码子单元,其中,每个循环编码子单元由4部分构成,分别为多头自注意力机制Multi-Head self Attention、残差连接和归一化Add&Norm、前馈神经网络Feed Forward Neural Network以及Add&Norm,每个循环编码子单元的结构相同,但每个循环编码子单元的内部参数是不同的,循环编码子单元的输入数据是上一个循环编码子单元的输出数据。
其中,每层循环编码子单元可得到两个处理参数,假设由Ak和Hk表示,首先确定该编码器模型的第一层输入参数假设为:H0=[r1.v,…,ri.v,…rn.v];则各层对应的Ak和Hk根据以下公式确定:
Ak=LN(Hk-1+MultiHeadSelfAtt(Hk-1)) 公式(1)
Hk=LN(Ak+FFN(Ak)) 公式(2)
其中,k表示该Transformer Encoder编码器模型中的某一层神经网络,LN表示对该层通过LN(Layer Normalization,层归一化)技术进行处理,如图3B中的Add&Norm。从公式(1)和公式(2)中可确定,该编码器模型中的每一层的输入参数是根据上一层的输出Hk-1确定的,然后基于Hk-1参数通过多头注意力机制MultiHeadSelfAtt对输入的同类三元组对应的文本向量集参数进行建模,得到表格中数值间的关系,得到Ak表示。然后,通过前馈神经网络FFN得到该层对应的新的特征表达(Hk)并输出给下一层神经网络进行处理。并且,将最后一层的输出作为对该三元组的特征表达,假设由表示,其中中包含了该三元组的同类三元组之间的上下文表示。
此外,除了能够得到三元组的上下文信息,本申请实施例为了使三元组的特征表达还能够包含数值信息的大小关系,可在训练编码器模型时,采用约束条件对编码器模型进行训练,以使编码器模型提取的特征表达能够包含上下文信息和数值大小关系。
在一个实施例中,编码器模型是以预先构建的文本分类模型作为约束条件进行训练得到的,文本分类模型用于对编码器模型提取的特征表达进行分类,以使任意两个三元组中数值信息高的三元组划分到高数值类别、数值低的三元组划分到低数值类别。由此,通过文本分类任务可简单的实现对编码器模型的训练,实施起来容易实现。
实施时,关于采用文本分类模型训练编码器模型的实现,可参阅图4A所示,为本申请实施例提供的一种训练编码模型的流程示意图,包括:
步骤202a:构建训练样本,训练样本中包括同类三元组样本的文本向量。
例如,训练样本中包括了前述中的同类三元组的[r1.v,…,ri-1.v,ri+1.v,…rn.v]。
步骤202b:通过编码器模型对训练样本进行特征提取,得到训练样本中各三元组样本的特征表达。
步骤202c:通过文本分类模型对各三元组样本的特征表达进行评分,得到各三元组样本的评分。
实施时,对于任一三元组样本的评分可根据以下公式(3)确定:
其中,Wp和bp是可训练的参数。参阅图4B,为本申请实施例提供的一种评分的实现示意图,主要通过全连接层实现对于任一三元组样本的评分的计算。其中,将通过编码器模型进行特征提取之后得到的三元组的特征表达输出给激活层;激活层将接收的各三元组的特征表达中的任两个三元组构建为三元组对,作为训练语料实现对于以下目标函数的训练,并输出给全连接层;最后全连接层根据激活层输出的训练语料进行特征表达的计算。
步骤202d:将各三元组样本的评分作为目标函数的输入参数,得到目标函数的损失。
步骤202e:根据目标函数的损失调整编码器模型的参数以及文本分类模型的参数,以使任意两个三元组样本中数值高的三元组样本的评分高于数值低的三元组样本的评分。
对于任意的第i个三元组和第j个三元组构成的三元组对,如果在表格中第i个三元组的数值比第j个三元组的数值大的话,则期望得到的第i个数值的评分比第j个数值的评分高。为了训练数值相对大小的文本分类模型,本申请将同类三元组中任两个三元组构成训练语料,并采用hinge loss(损失函数)作为目标函数进行训练,训练目标是让目标函数的函数值(假设用lpre表示)越小越好。
在一个实施例中,目标函数根据以下公式(4)确定,如下:
其中,lpre表示目标函数的损失;n表示各训练样本中包含的三元组样本的数量;i表示第i个三元组样本;j表示第j个三元组样本;ζ为设定的hinge loss margin值,取值区间为[0,1];表示第i个三元组样本的评分;表示第j个三元组样本的评分;ri.v表示第i个三元组的文本向量;rj.v表示第j个三元组的文本向量;N为常数值。
在一个实施例中,通过多层感知机对表格的特征表达集合进行特征提取,得到深度特征;然后基于已训练的筛选模型对表格的特征表达集合进行筛选得到目标信息序列。其中,通过多层感知机得到的深度特征是具有三元组的上下文信息和数值信息的大小关系的低维度的特征表达,即将提取的特征表达和三元组映射到单一的特征表达上,以使后续进行对于特征表达的筛选处理时更容易实现,避免后续处理的信息量冗余。
其中,筛选模型以及多层感知机是根据以下方法训练得到的:将筛选模型筛选出的目标信息序列与预先构建的参考信息序列进行比对;根据目标信息序列与参考信息序列的差异对筛选模型以及多层感知机的参数进行调整。通过该筛选模型增强了对于目标信息序列筛选结果的准确性,使得筛选得到的目标信息序列更加能反映表格中的目标信息。其中,参考信息序列中包括表格、用户标注的文本以及通过文本匹配模型和信息抽取模型得到的目标信息序列
为了能够更全面准确的表达目标信息序列和参考信息序列之间的差异,本申请实施例中,目标信息序列与参考信息序列的差异可包括:词级别的差异以及信息序列级别的差异。其中,词级别的差异能够反映信息序列中当个个体(词)的差异,序列级别的差异能够反映两序列的整体差异,故此,从个体到整体的差异能够尽可能的全面覆盖,使得验证模块确定的损失包含的信息更加全面,以便于更好的调整模型的参数。
下面,对词级别的差异以及序列级别的差异进行说明:
(A)词级别的差异,顾名思义用于表示目标信息序列中的各词与目标信息序列的差异。
其中,假设以三元组中的行名或列名作为数据实体,词级别的差异可包括数据实体重要性和/或三元组的数据重要性。
1、数据实体重要性:
实施时,针对目标信息序列中每个数据实体rt.e,根据以下方法确定数据实体rt.e的数据实体重要性:
若数据实体包含在参考信息序列中,则数据实体的数据实体重要性为第一预设值;若数据实体不包含在参考信息序列中,则数据实体的数据实体重要性为第二预设值;其中,第一预设值大于第二预设值;
例如,为更清楚地理解确定数据实体重要性的方法,通过以下公式(6)进行进一步说明:
其中,EI(rt)表示某个三元组的数据实体重要性;当时,假设R为第一预设值2.5;相反,当时,假设R为第二预设值-1。其中保证第一预设值大于第二预设值即可,本申请中对具体取值不作限制。当得到的EI(rt)值越大时,则表明得到的目标信息序列中目标信息的数据实体与参考信息序列中的数据实体一样的数目越多。
2、三元组的数据重要性:
实施时,针对目标信息序列中的任一三元组,根据以下方法确定三元组的数据重要性:
若三元组包含在参考信息序列中,则三元组的数据重要性为第三预设值;若三元组不包含在参考信息序列中,则三元组的数据重要性为第四预设值;其中,第三预设值大于第四预设值。
例如,为更清楚地理解确定数据重要性的方法,通过以下公式(7)进行进一步说明:
其中,RI(rt)表示某个三元组的数据重要性;当时,假设R为第三预设值1;相反,当时,假设R为第三预设值-1。其中,保证第三预设值大于第四预设值即可。当得到的RI(rt)值越大时,则表明得到的目标信息序列中目标信息的三元组与参考信息序列中的三元组一样的数目越多。
(B)序列级别的差异用于表示目标信息序列与参考信息序列的整体相似度。
序列级别的差异包括以下中的至少一种:数据实体召回率、三元组的数据召回率、数据顺序;
1、数据实体召回率:
确定参考信息序列与目标信息序列中相同的数据实体数目,将相同的数据实体数目与参考信息序列中的数据实体数目的比值作为数据实体召回率。
例如,为更清楚地理解确定数据重要性的方法,通过以下公式(8)进行进一步说明:
其中,ER(r)表示某个三元组的数据实体召回率;当时,则将分子的值加1,并确定分母为参考信息序列中数据实体数目值。其中,当ER(r)的值越大时,表明参考信息序列中的数据实体信息被筛选出来的越多,表明筛选模型的筛选结果越准确。
2、三元组的数据召回率:
确定参考信息序列与目标信息序列中相同的三元组数目,将相同的三元组数目与参考信息序列中的三元组数目的比值作为数据召回率。
例如,为更清楚地理解确定数据重要性的方法,通过以下公式(9)进行进一步说明:
其中,RR(r)表示某个三元组的数据召回率;当时,则将分子的值加1,并确定分母为参考信息序列中数据数目值。其中,当RR(r)的值越大时,表明参考信息序列中的三元组信息被筛选出来的越多,表明筛选模型的结果越准确。
3、目标信息序列的数据顺序:
确定目标信息序列与参考目标信息序列之间的文本相似度作为数据顺序,假设为RO。
在一种可能的实施方式中,通过计算生成的目标信息序列和参考信息序列之间的标准化的Damerau-Levenshtein距离,来判断筛选模型合理的安排目标信息之间的顺序的能力。实施时,通过RO表示两个序列之间的相似程度,其中Damerau-Levenshtein距离代表目标信息序列和参考信息序列之间的差异,该距离越大,表示差异越大,所以实施时RO的值为1-Damerau-Levenshtein距离,从而代表两个序列之间的相似程度,RO值越大表示两个序列之间的相似程度越高。其中,当RO的值越大时,表明参考信息序列与目标信息序列包含的信息重合率越高,则表明筛选的结果越准确。
此外,本申请实施时,也可以考虑采用Jaccard相似度、Sorensen Dice相似度系数等方法计算这两个序列的相似程度,本申请对此不做限定。
此外,根据目标信息序列与参考信息序列的差异对筛选模型的参数进行调整,在一种可能的实施方式中,通过以上描述的几种差异并采用策略梯度共同调整筛选模型的参数,其中策略梯度是一种根据激励函数对模型进行梯度更新的方法,即以上描述的词级别的差异以及序列级别的差异的评价参数视为激励函数;判断公式如下公式(10)所示:
其中,γ1~γ5和β都是人工选定的超参数,β的取值范围是0~3,γ1、γ2、γ3、γ4、γ5和为1。logP(rt|r<t,S)是模型生成目标信息序列时每一步采样时选择的目标信息中词的概率,logP(r|S)是模型采样出整个目标信息序列的概率,T代表模型生成的目标信息序列的长度。其中,各词级别的差异或序列级别的差异分别与Lrl成反比,因此当各词级别的差异或序列级别的差异结果越大的时候,Lrl的值便越小,因此对于筛选模型的调整目的是使得Lrl的值越小,则表明筛选模型的结果越准确。
此外,在其他实施方式中,可通过能用来评价目标信息序列与参考信息序列之间的差异的任何激励函数训练本申请的筛选模型,本申请对此不限定。
通过本申请实施例提供的方法,首先在基于表格的三元组进行特征表达时,在提取特征表达的编码器模型中融入三元组的同类三元组的上下文信息,并且通过文本分类模型构建同类三元组中各三元组的相对大小关系,使得提取的特征表达中包含基于表格中的同类数值的相对大小关系的理解能力。
此外,本申请在对初步得到的目标信息序列通过本申请构建的筛选模型,对得到的目标信息序列进行筛选,进一步保证了对于确定的目标信息序列的准确性,从而可更准确的反映表格中的目标信息,例如重要信息或关键信息等。通过本申请实施例提供的方法得到的文本生成结果,能够显著提升文本生成质量。
为更清楚地理解本申请提供的方法,在另一个实施例中,参阅图5,为本申请实施例提供的一种基于表格的文本生成方法的模型框架示意图,包括:
在训练阶段包括对于编码器模型和文本训练模型(如图5中的502b)、筛选模型(如图5中的503b)的训练,具体的训练在前文已经描述,在此不再赘述。
输入的信息为表格501,表格中记录有行名、列名以及相应的数值,即各三元组信息。各三元组内的每种信息(行名、列名和数值)分别经过词嵌入得到各自的向量表示,由行名、列表和数值的各自向量表示得到三元组的文本向量。三元组的文本向量作为502a中Transform模型的编码器模型的输入。
其中训练编码器模型时,首先采用502a中的编码器模型对三元组的文本向量进行特征提取,采用502a中的文本分类模型对编码器模型提取的特征进行分类训练,以便于编码器模型提取的特征能够反映数值的上下文关系以及数值大小关系。
每个三元组的特征表达为编码器模型提取的数值特征,以及经过词嵌入得到的行名和列表的向量表示。故此,针对每个三元组,多层感知机MLP的输入为行名的向量表示、列名的向量表示以及数值表示;其中数值表示是根据编码器模型提取的特征表达。经过MLP进行特征提取能够初步传入一部分重要的特征并实现对输入给筛选模型503a的输入信息的降维从而得到单一的数值特征表达。
503a用于对多层感知机的处理结果进行处理筛选出目标信息序列,然后供504就目标信息序列构建表格501的文本表达。
其中,503a和502b的模型参数可采用验证模块503b中基于策略梯度测量的目标函数来进行训练,即采用前文的词级别的差异以及序列级别的差异来优化目标函数,具体实施方式在此不再赘述。
参阅图6,为本申请实施例提供的一种基于表格的文本生成方法的结果图,通过图6可得到结构化表格生成的非结构化文本表达的详细内容为“来自孟菲斯的灰熊队在赛程上看到这场对决时,似乎已经做好了轻松取胜的准备,但来自布鲁克林的篮网队似乎还有其他想法。篮网队在最重要的时候表现良好,在第四节以34-19获胜。投篮命中率是关键,篮网队的命中率为53%,而灰熊队只有44%。球员6领跑篮网队,他在替补席上得到23分、5个篮板和3次助攻。球员4领衔首发,得到18分和4个篮板。尽管球员2只得到8分和4个篮板,篮网队还是赢了。球员3和球员1各得14分。球员D为灰熊队承担了重任,她得到32分、3个篮板和6次助攻。球员C贡献18分,6个篮板,4次助攻和2次盖帽”。
其中,可确定,得到的非结构化文本中将篮网队得分最多的球员6中的相关信息都描述出来了,也描述到了灰熊队的得分最多的球员D的得分情况,以及一些其他关键信息。由此确定,通过本申请提供的方法得到的文本考虑到了数值间的大小关系,增强了对于表格的理解能力,得到了更准确的描述文本。
此外,本申请提供的方法在文本生成包含目标信息的指标CS(ContentSelection)上表现出色。在ROTOWIRE数据集(一种公开的数据集的名称)根据表格生成自然语言文本的任务测试上,本申请所提出的方法在文本生成,并且合理排序目标信息的能力上提升显著,自动化评价指标结果如表2所示,包括了本申请和相关技术中一些模型的自动化评价指标结果,以便于对比出采用本申请提供方法的优势。其中,包括了三类抽取式评价指标:
(1)Relation Generation(RG,关系生成):旨在衡量生成的文本是否与输入的表格中数值信息一致,其中又包括两个指标:准确率(P%)和生成文本所含表格中数值信息的数量(#);其中,P%用于评价RG指标的准确程度,#代表生成文本所含表格中数值信息的数量,用于评价文本所包含的表格信息量。
(2)Content Selection(CS,内容选择):旨在衡量生成文本是否包括了目标信息(和参考文本进行对比),其中包括三个指标:准确率(P%),召回率(R%)和准确率与召回率的调和平均数(F1%);其中,P%用于评价CS指标的准确程度,R%用于评价模型从表格中筛选出的目标信息量与标准文本中所包含的目标信息量的比率,F1%用于综合考虑上述P%和R%,给出一个兼顾准确程度和筛选出的目标信息量的一个总体的评价。
(3)Content Ordering(CO,内容排序):旨在衡量生成文本对于目标信息的排列顺序。
(4)BLEU(Bilingual Evaluation Understudy,一种双语互译质量评估辅助工具):一种在文本生成任务上常用的自动化评价指标,其中,该数值越大表明模型生成的文本和标准文本越相似,也就是表明生成的文本表达的质量更好。
表2
通过以上表2可确定,本申请提出的方法在CS评价指标下得到了很大进步,表明通过本申请提供的方法,在生成的文本表达中包含的目标信息的准确率有了很大的提升。
此外,本申请还对模型的结果进行了人工评价,从测试集中采样30个样本进行评价,每个模型的每个样本生成的结果均有来自三个人独立的评价,如以下表3所示。其中,对表中涉及的评价参数进行说明,包括:
(1)支持信息(#Sup):代表平均每个生成的文本中包含了多少和表格信息一致的信息。
(2)冲突信息(#Cont):代表平均每个生成的文本中包含了多少和表格信息矛盾的信息。
(3)目标信息准确率(CS P%):代表生成文本包含多少比例的目标信息。
(4)目标信息召回率(CS R%):代表参考文本中的多少比例的信息被生成文本覆盖。
(5)语法(Gram):评价生成文本的语法正确性。
(6)连贯性(Coher):评价生成文本的语言的连贯性。
(7)简要性(Conc):评价生成的文本能否言简意赅的对表格进行描述。
表3
通过表3中的实验结果表明,相比于其他基于神经网络的模型(第三行(第三个模型)、第四行(第四个模型))本申请提出的方法能更准确的选出目标信息(CS P%),同时没有严重的召回率(CS R%),同时生成的文本的语法(Gram)和简要性(Conc)更好。
基于相同的发明构思,参阅图7,为本申请实施例提供一种基于表格的文本生成装置的结构示意图,装置包括:获取模块701、特征提取模块702、筛选模块703以及构建模块704。
获取模块701,用于获取表格中的三元组,三元组包括:行名、列名、行名和列名对应的数值信息;
特征提取模块702,用于对三元组进行特征提取,得到三元组的特征表达,特征表达中至少包含三元组的上下文信息以及三元组的数值信息与其他三元组的数值信息的大小关系;
筛选模块703,用于由表格的多个三元组的特征表达构成特征表达集合,并对特征表达集合进行筛选,得到表格中的目标信息序列;
构建模块704,用于根据目标信息序列构建表格的文本表达。
在一个实施例中,特征提取模块702用于对三元组进行特征提取,得到三元组的特征表达时,具体用于:
对三元组中的行名、列名以及数值信息分别进行词嵌入得到三元组的文本向量;
构建三元组的同类三元组的文本向量集;其中,行名或列名相同的三元组为同类三元组;
通过预先训练的编码器模型对文本向量集进行特征提取,得到三元组的数值特征;
针对任一三元组,由所述三元组的行名和列名的文本向量以及所述三元组的数值特征构造所述三元组的特征表达;
其中,编码器模型是以预先构建的文本分类模型作为约束条件进行训练得到的,文本分类模型用于对编码器模型提取的特征表达进行分类,以使任意两个三元组中数值信息高的三元组划分到高数值类别、数值低的三元组划分到低数值类别。
在一个实施例中,训练编码器模型,包括:
构建训练样本,训练样本中包括同类三元组样本的文本向量;
通过编码器模型对训练样本进行特征提取,得到训练样本中各三元组样本的特征表达;
通过文本分类模型对各三元组样本的特征表达进行评分,得到各三元组样本的评分;
将各三元组样本的评分作为目标函数的输入参数,得到目标函数的损失;
根据目标函数的损失调整编码器模型的参数以及文本分类模型的参数,以使任意两个三元组样本中数值高的三元组样本的评分高于数值低的三元组样本的评分。
在一个实施例中,目标函数为:
其中,lpre表示目标函数的损失;n表示各训练样本中包含的三元组样本的数量;i表示第i个三元组样本;j表示第j个三元组样本;ζ为设定值;表示第i个三元组样本的评分;表示第j个三元组样本的评分;ri.v表示第i个三元组的文本向量;rj.v表示第j个三元组的文本向量;N为常数值。
在一个实施例中,对特征表达集合进行筛选,包括:
通过多层感知机对所述表格的所述特征表达集合进行特征提取,得到深度特征;
基于已训练的筛选模型对所述深度特征进行筛选,得到所述目标信息序列;
其中,所述筛选模型以及所述多层感知机是根据以下方法训练得到的:
将所述筛选模型筛选出的目标信息序列与预先构建的参考信息序列进行比对;
根据所述目标信息序列与所述参考信息序列的差异对所述筛选模型以及所述多层感知机的参数进行调整。
在一个实施例中,目标信息序列与参考信息序列的差异包括:词级别的差异以及信息序列级别的差异;其中,
词级别的差异用于表示目标信息序列中的各词与目标信息序列的差异;
序列级别的差异用于表示目标信息序列与参考信息序列的整体相似度。
在一个实施例中,词级别的差异包括以下中的至少一种:数据实体重要性、三元组的数据重要性;其中,数据实体为行名或列名;
针对目标信息序列中每个数据实体,根据以下方法确定数据实体的数据实体重要性:
若数据实体包含在参考信息序列中,则数据实体的数据实体重要性为第一预设值;若数据实体不包含在参考信息序列中,则数据实体的数据实体重要性为第二预设值;其中,第一预设值大于第二预设值;
针对目标信息序列中的任一三元组,根据以下方法确定三元组的数据重要性:
若三元组包含在参考信息序列中,则三元组的数据重要性为第三预设值;若三元组不包含在参考信息序列中,则三元组的数据重要性为第四预设值;其中,第三预设值大于第四预设值。
在一个实施例中,序列级别的差异包括以下中的至少一种:数据实体召回率、三元组的数据召回率、数据顺序;其中,数据实体为行名或列名;
根据以下方法确定数据实体召回率:
确定参考信息序列与目标信息序列中相同的数据实体数目,将相同的数据实体数目与参考信息序列中的数据实体数目的比值作为数据实体召回率;
根据以下方法确定三元组的数据召回率:
确定参考信息序列与目标信息序列中相同的三元组数目,将相同的三元组数目与参考信息序列中的三元组数目的比值作为数据召回率;
根据以下方法确定目标信息序列的数据顺序:
确定目标信息序列与参考目标信息序列之间的文本相似度作为数据顺序。
在一些可能的实施方式中,根据本申请的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的基于表格的文本生成方法中的步骤。例如,处理器可以执行如图2中所示的步骤201-步骤204。
下面参照图8来描述根据本申请的这种实施方式的计算设备130。图8显示的计算设备130仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算设备130以通用计算装置的形式表现。计算设备130的组件可以包括但不限于:上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。
总线133表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器132可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1321和/或高速缓存存储器1322,还可以进一步包括只读存储器(ROM)1323。
存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325,这样的程序模块1324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信,和/或与使得该计算设备130能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且,计算设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器136通过总线133与用于计算设备130的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本申请提供的基于表格的文本生成方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在计算机设备上运行时,计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的基于表格的文本生成方法中的步骤,例如,计算机设备可以执行如图2中所示的步骤201-步骤204。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于参数处理的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在目标对象计算装置上执行、部分地在目标对象设备上执行、作为一个独立的软件包执行、部分在目标对象计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中,远程计算装置可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到目标对象计算装置,或者,可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (9)
1.一种基于表格的文本生成方法,其特征在于,所述方法包括:
获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;
对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;其中,对所述三元组进行特征提取,得到所述三元组的特征表达,包括:对所述三元组中的所述行名、所述列名以及所述数值信息分别进行词嵌入得到所述三元组的文本向量;构建所述三元组的同类三元组的文本向量集;其中,行名或列名相同的三元组为同类三元组;通过预先训练的编码器模型对所述文本向量集进行特征提取,得到所述三元组的数值特征;针对任一三元组,由所述三元组的行名和列名的文本向量以及所述三元组的数值特征构造所述三元组的特征表达;其中,所述编码器模型是以预先构建的文本分类模型作为约束条件进行训练得到的,所述文本分类模型用于对所述编码器模型提取的特征表达进行分类,以使任意两个三元组中数值信息高的三元组划分到高数值类别、数值低的三元组划分到低数值类别;
由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;
根据所述目标信息序列构建所述表格的文本表达。
2.根据权利要求1所述的方法,其特征在于,训练所述编码器模型,包括:
构建训练样本,所述训练样本中包括同类三元组样本的文本向量;
通过所述编码器模型对所述训练样本进行特征提取,得到所述训练样本中各三元组样本的特征表达;
通过所述文本分类模型对各三元组样本的特征表达进行评分,得到各三元组样本的评分;
将各三元组样本的评分作为目标函数的输入参数,得到所述目标函数的损失;
根据所述目标函数的损失调整所述编码器模型的参数以及所述文本分类模型的参数,以使任意两个三元组样本中数值高的三元组样本的评分高于数值低的三元组样本的评分。
3.根据权利要求1所述的方法,其特征在于,所述对所述特征表达集合进行筛选,包括:
通过多层感知机对所述表格的所述特征表达集合进行特征提取,得到深度特征;
基于已训练的筛选模型对所述深度特征进行筛选,得到所述目标信息序列;
其中,所述筛选模型以及所述多层感知机是根据以下方法训练得到的:
将所述筛选模型筛选出的目标信息序列与预先构建的参考信息序列进行比对;
根据所述目标信息序列与所述参考信息序列的差异对所述筛选模型以及所述多层感知机的参数进行调整。
4.根据权利要求3所述的方法,其特征在于,所述目标信息序列与所述参考信息序列的差异包括:词级别的差异以及信息序列级别的差异;其中,
所述词级别的差异用于表示所述目标信息序列中的各词与所述目标信息序列的差异;
所述信息序列级别的差异用于表示所述目标信息序列与所述参考信息序列的整体相似度。
5.根据权利要求4所述的方法,其特征在于,所述词级别的差异包括以下中的至少一种:数据实体重要性、三元组的数据重要性;其中,数据实体为行名或列名;
针对所述目标信息序列中每个数据实体,根据以下方法确定数据实体的所述数据实体重要性:
若数据实体包含在所述参考信息序列中,则所述数据实体的数据实体重要性为第一预设值;若数据实体不包含在所述参考信息序列中,则所述数据实体的数据实体重要性为第二预设值;其中,所述第一预设值大于所述第二预设值;
针对所述目标信息序列中的任一三元组,根据以下方法确定所述三元组的数据重要性:
若所述三元组包含在所述参考信息序列中,则所述三元组的数据重要性为第三预设值;若三元组不包含在所述参考信息序列中,则所述三元组的数据重要性为第四预设值;其中,所述第三预设值大于所述第四预设值。
6.根据权利要求4所述的方法,其特征在于,所述信息序列级别的差异包括以下中的至少一种:数据实体召回率、三元组的数据召回率、数据顺序;其中,数据实体为行名或列名;
根据以下方法确定所述数据实体召回率:
确定参考信息序列与所述目标信息序列中相同的数据实体数目,将所述相同的数据实体数目与所述参考信息序列中的数据实体数目的比值作为所述数据实体召回率;
根据以下方法确定所述三元组的数据召回率:
确定所述参考信息序列与所述目标信息序列中相同的三元组数目,将所述相同的三元组数目与所述参考信息序列中的三元组数目的比值作为所述数据召回率;
根据以下方法确定所述目标信息序列的所述数据顺序:
确定所述目标信息序列与所述参考信息序列之间的文本相似度作为所述数据顺序。
7.一种基于表格的文本生成装置,其特征在于,所述装置包括:
获取模块,用于获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;
特征提取模块,用于对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;其中,特征提取模块,具体用于:对所述三元组中的所述行名、所述列名以及所述数值信息分别进行词嵌入得到所述三元组的文本向量;构建所述三元组的同类三元组的文本向量集;其中,行名或列名相同的三元组为同类三元组;通过预先训练的编码器模型对所述文本向量集进行特征提取,得到所述三元组的数值特征;针对任一三元组,由所述三元组的行名和列名的文本向量以及所述三元组的数值特征构造所述三元组的特征表达;其中,所述编码器模型是以预先构建的文本分类模型作为约束条件进行训练得到的,所述文本分类模型用于对所述编码器模型提取的特征表达进行分类,以使任意两个三元组中数值信息高的三元组划分到高数值类别、数值低的三元组划分到低数值类别;
筛选模块,用于由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;
构建模块,用于根据所述目标信息序列构建所述表格的文本表达。
8.一种计算设备,其特征在于,包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序指令执行根据权利要求1~6任一所述的基于表格的文本生成方法。
9.一种计算机可读介质,其特征在于,所述计算机存可读介质存储有计算机程序,其中,所述计算机程序用于使得计算机执行根据权利要求1~6任一所述的基于表格的文本生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010322737.0A CN111581929B (zh) | 2020-04-22 | 2020-04-22 | 基于表格的文本生成方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010322737.0A CN111581929B (zh) | 2020-04-22 | 2020-04-22 | 基于表格的文本生成方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581929A CN111581929A (zh) | 2020-08-25 |
CN111581929B true CN111581929B (zh) | 2022-09-27 |
Family
ID=72116842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010322737.0A Active CN111581929B (zh) | 2020-04-22 | 2020-04-22 | 基于表格的文本生成方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581929B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101573B (zh) * | 2020-11-16 | 2021-04-30 | 智者四海(北京)技术有限公司 | 一种模型蒸馏学习方法、文本查询方法及装置 |
CN112612868A (zh) * | 2020-11-24 | 2021-04-06 | 中国传媒大学 | 文本快速生成方法、计算机可读存储介质、电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260488A (zh) * | 2015-11-30 | 2016-01-20 | 哈尔滨工业大学 | 一种用于语义理解的文本序列迭代方法 |
CN106874247A (zh) * | 2017-01-03 | 2017-06-20 | 北京神州绿盟信息安全科技股份有限公司 | 一种报表生成方法及装置 |
CN110516213A (zh) * | 2019-09-03 | 2019-11-29 | 哈尔滨工业大学 | 一种基于表格层次化建模的结构化数据生成文本方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10095692B2 (en) * | 2012-11-29 | 2018-10-09 | Thornson Reuters Global Resources Unlimited Company | Template bootstrapping for domain-adaptable natural language generation |
CN108897761B (zh) * | 2014-05-27 | 2023-01-13 | 华为技术有限公司 | 一种聚簇存储方法及装置 |
CN107871158A (zh) * | 2016-09-26 | 2018-04-03 | 清华大学 | 一种结合序列文本信息的知识图谱表示学习方法及装置 |
CN106776548B (zh) * | 2016-12-06 | 2019-12-13 | 上海智臻智能网络科技股份有限公司 | 一种文本的相似度计算的方法和装置 |
CN107783960B (zh) * | 2017-10-23 | 2021-07-23 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
CN109635511B (zh) * | 2019-01-16 | 2020-08-07 | 哈尔滨工业大学 | 一种基于条件生成对抗网络的高层居住区强排方案生成设计方法 |
CN110033022A (zh) * | 2019-03-08 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 文本的处理方法、装置和存储介质 |
CN110046345A (zh) * | 2019-03-12 | 2019-07-23 | 同盾控股有限公司 | 一种数据提取方法和装置 |
CN110263324B (zh) * | 2019-05-16 | 2021-02-12 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
CN110377902B (zh) * | 2019-06-21 | 2023-07-25 | 北京百度网讯科技有限公司 | 描述文本生成模型的训练方法和装置 |
CN110377910B (zh) * | 2019-07-22 | 2024-03-05 | 北京大学 | 一种表格描述的处理方法、装置、设备及存储介质 |
CN110781312B (zh) * | 2019-09-19 | 2022-07-15 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN110609986B (zh) * | 2019-09-30 | 2022-04-05 | 哈尔滨工业大学 | 一种基于预训练的结构化数据生成文本的方法 |
CN110704627B (zh) * | 2019-10-15 | 2022-02-15 | 支付宝(杭州)信息技术有限公司 | 一种训练分类模型的方法及系统 |
-
2020
- 2020-04-22 CN CN202010322737.0A patent/CN111581929B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260488A (zh) * | 2015-11-30 | 2016-01-20 | 哈尔滨工业大学 | 一种用于语义理解的文本序列迭代方法 |
CN106874247A (zh) * | 2017-01-03 | 2017-06-20 | 北京神州绿盟信息安全科技股份有限公司 | 一种报表生成方法及装置 |
CN110516213A (zh) * | 2019-09-03 | 2019-11-29 | 哈尔滨工业大学 | 一种基于表格层次化建模的结构化数据生成文本方法 |
Non-Patent Citations (2)
Title |
---|
文本蕴含关系识别与知识获取研究进展及展望;刘挺;《计算机学报》;20161014;第40卷(第4期);第889页-910页 * |
融合对抗训练的端到端知识三元组联合抽取;黄培馨等;《计算机研究与发展》;20191215(第12期);第2536页-2548页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111581929A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dharwadkar et al. | A medical chatbot | |
JP7100087B2 (ja) | 情報を出力する方法および装置 | |
CN111444709B (zh) | 文本分类方法、装置、存储介质及设备 | |
CN110852116B (zh) | 非自回归神经机器翻译方法、装置、计算机设备和介质 | |
US20170185904A1 (en) | Method and apparatus for facilitating on-demand building of predictive models | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
US20200203017A1 (en) | Systems and methods of prediction of injury risk with a training regime | |
CN108845990A (zh) | 基于双向注意力机制的答案选择方法、装置和电子设备 | |
CN112100406B (zh) | 数据处理方法、装置、设备以及介质 | |
Sun et al. | Efficient multimodal transformer with dual-level feature restoration for robust multimodal sentiment analysis | |
CN111914562B (zh) | 电子信息分析方法、装置、设备及可读存储介质 | |
US20230244938A1 (en) | Using Chains of Thought to Prompt Machine-Learned Models Pre-Trained on Diversified Objectives | |
CN108595629A (zh) | 用于答案选择系统的数据处理方法及应用 | |
US11875115B2 (en) | Learned evaluation model for grading quality of natural language generation outputs | |
CN111581929B (zh) | 基于表格的文本生成方法及相关装置 | |
US11704506B2 (en) | Learned evaluation model for grading quality of natural language generation outputs | |
CN110704668A (zh) | 基于网格的协同注意力vqa方法和装置 | |
Banerjee et al. | Relation extraction using multi-encoder lstm network on a distant supervised dataset | |
WO2023235346A1 (en) | Prompting machine-learned models using chains of thought | |
CN116662527A (zh) | 用于生成学习资源的方法及相关产品 | |
CN115862862A (zh) | 疾病预测方法、装置及计算机可读存储介质 | |
CN115905518A (zh) | 基于知识图谱的情感分类方法、装置、设备以及存储介质 | |
CN116994695A (zh) | 报告生成模型的训练方法、装置、设备及存储介质 | |
US20240086768A1 (en) | Learning device, inference device, non-transitory computer-readable medium, learning method, and inference method | |
US20230394328A1 (en) | Prompting Machine-Learned Models Using Chains of Thought |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |