CN110377910B - 一种表格描述的处理方法、装置、设备及存储介质 - Google Patents

一种表格描述的处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110377910B
CN110377910B CN201910662839.4A CN201910662839A CN110377910B CN 110377910 B CN110377910 B CN 110377910B CN 201910662839 A CN201910662839 A CN 201910662839A CN 110377910 B CN110377910 B CN 110377910B
Authority
CN
China
Prior art keywords
model
word
data
key data
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910662839.4A
Other languages
English (en)
Other versions
CN110377910A (zh
Inventor
马树铭
李鹏
周杰
孙栩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Tencent Technology Shenzhen Co Ltd
Original Assignee
Peking University
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Tencent Technology Shenzhen Co Ltd filed Critical Peking University
Priority to CN201910662839.4A priority Critical patent/CN110377910B/zh
Publication of CN110377910A publication Critical patent/CN110377910A/zh
Application granted granted Critical
Publication of CN110377910B publication Critical patent/CN110377910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种表格描述的处理方法、装置、设备及存储介质;方法包括:获取表格数据;通过表格描述模型中的预测模型,对表格数据中的单词进行融合,得到所述单词的上下文信息;通过所述预测模型对所述单词的上下文信息进行筛选,得到关键数据;通过所述表格描述模型中的表层实现模型,对所述关键数据进行组合,得到对应所述表格数据的文本描述信息。通过本发明,能够根据结构化的表格,获得连贯的文本描述信息。

Description

一种表格描述的处理方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术,尤其涉及一种表格描述的处理方法、装置、设备及存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
目前,不论是办公,还是日常生活,人们已离不开各种文档,尤其是结构化的表格,表格被广泛应用于通讯交流、科学研究以及数据分析等领域中。
表格具有可视化交流的功能,又是一种整理数据的工具。表格由一行或多行单元格组成,一行单元格表示一条记录。
虽然,用户可以根据表格得到所需的信息,但是得到的信息过于散乱、不连贯。
发明内容
本发明实施例提供一种表格描述的方法、装置、设备及存储介质,能够根据结构化的表格,获得连贯的文本描述信息。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种表格描述的处理方法,包括:
获取表格数据;
通过表格描述模型中的预测模型,对表格数据中的单词进行融合,得到所述单词的上下文信息;
通过所述预测模型对所述单词的上下文信息进行筛选,得到关键数据;
通过所述表格描述模型中的表层实现模型,对所述关键数据进行组合,得到对应所述表格数据的文本描述信息。
本发明实施例提供一种表格描述的处理装置,包括:
获取模块,用于获取表格数据;
预测模块,用于通过表格描述模型中的预测模型,对表格数据中的单词进行融合,得到所述单词的上下文信息;
所述预测模块,用于通过所述预测模型对所述单词的上下文信息进行筛选,得到关键数据;
输出模块,用于通过所述表格描述模型中的表层实现模型,对所述关键数据进行组合,得到对应所述表格数据的文本描述信息。
上述技术方案中,所述获取模块还用于:
根据表格的记录,获得单词序列的值向量、属性向量以及位置向量;
组合所述单词序列的值向量、属性向量以及位置向量,得到序列向量形式的表格数据。
上述技术方案中,所述获取模块还用于:
根据表格中记录的属性,生成单词序列的属性向量;
根据所述表格中记录的内容,生成单词序列的值向量以及位置向量。
上述技术方案中,所述获取模块还用于:
将所述表格中记录的内容按照第一顺序排序,得到所述单词的第一位置信息;
将所述表格中记录的内容按照第二顺序排序,得到所述单词的第二位置信息,其中,所述第一顺序与第二顺序相反;
将所述第一位置信息和所述第二位置信息进行组合,得到单词序列的位置向量。
上述技术方案中,所述预测模块还用于:
获取所述表格数据中单词的前向隐藏状态和后向隐藏状态;
对所述前向隐藏状态、所述后向隐藏状态以及所述表格数据中的单词进行编码,得到所述单词的上下文信息。
上述技术方案中,所述预测模块还用于:
通过所述预测模型中的分类器,对所述表格数据中单词的上下文信息进行概率计算,得到所述单词属于关键数据的概率值;
根据各单词属于关键数据的概率值,确定属于关键数据的单词;
将属于关键数据的单词进行组合,得到关键数据。
上述技术方案中,所述输出模块还用于:
通过所述表层实现模型对所述关键数据的编码向量进行编解码,依次生成与所述关键数据对应的第一单词;
根据生成所述第一单词的顺序,将所述第一单词组成对应所述表格数据的文本描述信息。
上述技术方案中,所述输出模块还用于:
通过所述表层实现模型中的编码器,对所述关键数据进行编码,得到所述关键数据的编码特征;
通过所述表层实现模型中的解码器,对上一个生成的第二单词进行解码,得到中间解码信息;
通过注意力机制对所述中间解码信息以及所述关键数据的编码特征进行解码,得到待生成的单词的上下文特征;
通过所述表层实现模型中的生成器,对所述待生成的单词的上下文特征进行概率计算,得到所述待生成的单词属于文本描述信息的概率值;
根据所述待生成的单词属于文本描述信息的概率值,确定生成的第一单词。
上述技术方案中,所述输出模块还用于:
通过所述表层实现模型中的编码器,对所述关键数据进行编码,得到所述关键数据的编码特征;
通过所述表层实现模型中的解码器,对至少一个已经生成的第二单词以及所述关键数据的编码特征进行解码,得到待生成的单词的上下文特征;
通过所述表层实现模型中的生成器,对所述待生成的单词的上下文特征进行概率计算,得到所述待生成的单词属于文本描述信息的概率值;
根据所述待生成的单词属于文本描述信息的概率值,确定生成的第一单词。
上述技术方案中,所述表格描述的处理装置还包括:
第一训练模块,用于根据所述单词属于关键数据的概率值,确定所述预测模型的损失函数的值;
根据所述损失函数的值,更新所述预测模型的模型参数。
上述技术方案中,所述表格描述的处理装置还包括:
第二训练模块,用于根据待生成的单词属于文本描述信息的概率值,确定所述表层实现模型的损失函数的值;
根据所述损失函数的值,更新所述表层实现模型的模型参数。
本发明实施例提供一种表格描述的处理设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的表格描述的处理方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的表格描述的处理方法。
本发明实施例具有以下有益效果:
将表格描述模型分为两个模型,包括预测模型和表层实现模型,预测模型根据表格数据获取关键数据,表层实现模型可以根据关键数据生成对应的文本描述信息,从而能够根据结构化的表格,获得连贯的文本描述信息,保证文本描述信息包含表格中的关键数据,提高生成文本描述信息的准确性。
附图说明
图1是本发明实施例提供的表格描述的处理系统10的应用场景示意图;
图2是本发明实施例提供的表格描述的处理设备500的结构示意图;
图3是本发明实施例提供的表格描述的处理装置555的结构示意图;
图4A至4D是本发明实施例提供的表格描述的处理方法的流程示意图;
图5是本发明实施例提供的不同数量的并行数据下编码器-解码器框架的性能示意图;
图6是本发明实施例提供的表格描述模型的示意图;
图7是本发明实施例提供的生成文本描述的示意图;
图8是本发明实施例提供的表格描述模型和其他基线模型的BLEU分数的示意图;
图9是本发明实施例提供的不同数量的并行数据下预测模型的F1得分的曲线示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)表格:由至少一行单元格组成,一行单元格表示一条记录,如表1所示,其中,记录1由属性1和内容1组成,记录2由属性2和内容2组成:
表1
属性1 内容1
属性2 内容2
2)表格描述:将表格形式的数据转换为其他形式的数据、即通过其他形式的数据以描述表格数据,该其他形式的数据包括文本、语音等,例如,将表格数据通过表格描述的处理方法转换为文本形式的数据,或者,将表格数据通过表格描述的处理方法转换为语音形式的数据等。
3)文本描述:书面语言的表现形式,由语言文字组成的文学实体,具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章。例如,“我来自中国,我爱中国”就是一个文本。
4)并行数据(Panel Data):具有两个维度的数据,例如表格、与表格对应的文本描述就是并行数据。
5)基线模型:常规的机器学习模型,包括线性回归模型(从一系列特征值中预测出连续值的模型)、逻辑回归模型(对结构化数据或者自然语言进行分类的模型)。
下面分析相关技术提供的关于表格描述的处理的方案。
在相关技术中,表格描述生成是指通过结构化的表格生成非结构化的文本描述,通过生成的文本描述可以帮助用户总结表格中的要点,并将表格中信息用自然语言进行描述。表格描述生成可以应用于许多场景,包括自动生成天气预报,新闻写作,自动生成传记等等。
表格描述生成的方法大多基于编码器-解码器框架,通过编码器表示表格信息,编码器输出表格的表示信息,并通过解码器解码表示信息,逐次生成单词以组成文本描述。
虽然通过编码器-解码器框架可以生成自然语言的文本描述,但是,编码器—解码器框架过于依赖大型的并行数据训练集,当并行数据训练集不够大时,就无法生成文本描述。并且,生成的文本描述比较冗余,没有提炼表格中的关键信息。
为至少解决相关技术的上述技术问题,本发明实施例提供一种表格描述的处理方法、装置、设备和存储介质,能够根据结构化的表格,获得连贯的文本描述信息。下面说明本发明实施例提供的表格描述的处理设备的示例性应用,本发明实施例提供的表格描述的处理设备可以是服务器,例如部署在云端的服务器,根据其他设备或者用户提供的表格数据,向用户提供与表格数据对应的连贯的文本描述信息,例如,服务器根据其他采集设备获得表格形式的某一天的天气数据,根据表格中的天气数据,提取天气数据中的关键数据,并对关键数据进行组合,获得文本描述信息,以形成某一天的天气预报信息;也可是笔记本电脑,平板电脑,台式计算机,移动设备(例如,移动电话,个人数字助理)等各种类型的用户终端,例如手持终端,根据用户在手持终端上输入的表格数据,获得与表格数据中的关键信息对应的文本描述信息,并显示在手持终端的显示界面上,或者通过扩音器以语音播报的方式播放该文本描述信息,用户可以根据文本描述信息得到表格中的关键信息,以提高用户的体验感。
作为示例,参见图1,图1是本发明实施例提供的表格描述的处理系统10的应用场景示意图,终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
终端200可以被用来获取表格数据,例如,当用户通过输入界面输入表格数据,输入完成后,终端自动获取表格数据。
在一些实施例中,终端200本地执行本发明实施例提供的表格描述的处理方法来完成根据输入的表格数据,得到与表格中的关键信息对应的文本描述,例如,在终端200上安装应用(Application,APP),如传记生成助手APP,用户在传记生成助手APP中,以表格的形式输入关于某个人物的个人信息,如表2,终端200根据表格中的个人信息,提取个人信息中的关键数据,如“Denise Margaret Scott”、“美国”和“喜剧演员,电视和广播节目主持人”等,并对关键数据进行组合,获得文本描述信息,如“Denise Margaret Scott是美国的喜剧演员、电视和广播节目主持人”,以形成某个人物的传记,并将某个人物的传记显示在终端200的显示界面210上,或者通过语音播报的方式播放某个人物的传记,以便用户获得连贯的、重要的个人信息。
表2
例如,在终端200上安装天气预报APP,天气预报APP通过第三方应用或其他的采集设备获取表格形式的某一天的天气数据,如表3,终端200根据表格中的天气数据,提取天气数据中的关键数据,如“32”、“不适宜外出活动”等,并对关键数据进行组合,获得文本描述信息,如“今天32度的高温,不适宜外出活动”,以形成某一天的天气预报信息,并将某一天的天气预报信息显示在终端200的显示界面210上,或者通过语音播报的方式播放天气预报,以便用户获得连贯的、重要的天气信息。
表3
终端200也可以通过网络300向服务器100发送用户在终端100上的输入表格数据,并调用服务器100提供的表格描述的处理功能,服务器100通过本发明实施例提供的表格描述的处理方法获得文本描述信息,例如,在终端200上安装传记生成助手APP,用户在传记生成助手APP中,以表格的形式输入关于某个人物的个人信息,终端通过网络300向服务器100发送表格数据,服务器100根据表格数据提取个人信息中的关键数据,如“Denise MargaretScott”、“美国”和“喜剧演员,电视和广播节目主持人”等,并对关键数据进行组合,获得文本描述信息,如“Denise Margaret Scott是美国的喜剧演员、电视和广播节目主持人”,以形成某个人物的传记,并返回某个人物的传记至传记生成助手APP,将某个人物的传记显示在终端200的显示界面210上,或者通过语音播报的方式播放某个人物的传记,或者,服务器100直接通过扩音器播放某个人物的传记。
继续说明本发明实施例提供的表格描述的处理设备的结构,表格描述的处理设备可以是各种终端,例如手机、电脑等,也可以是如图1示出的服务器100。
参见图2,图2是本发明实施例提供的表格描述的处理设备500的结构示意图,图2所示的表格描述的处理设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。表格描述的处理设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的表格描述的处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的表格描述的处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在另一些实施例中,本发明实施例提供的表格描述的处理装置可以采用软件方式实现,图2示出了存储在存储器550中的表格描述的处理装置555,其可以是程序和插件等形式的软件,并包括一系列的模块,包括表格描述模型以及用于训练表格描述模型的第一训练模块5554和第二训练模块5555;其中,表格描述模型用于实现本发明实施例提供的表格描述的处理方法中获得关键数据和生成文本描述的功能,包括一系列的模块(将在下文进行说明),第一训练模块5554和第二训练模块5555用于实现本发明实施例提供的表格描述模型的训练功能。
结合本发明实施例提供的终端的示例性应用和实施,说明本发明实施例提供的表格描述的处理方法,根据上文可以理解,本发明实施例提供的表格描述的处理方法可以由各种类型的表格描述的处理设备,例如智能终端和服务器等。
参见图3和图4A,图3是本发明实施例提供的表格描述的处理装置555的结构示意图,示出了表格描述的处理流程,图4A是本发明实施例提供的表格描述的处理方法的流程示意图,以本发明实施例提供的表格描述的处理方法应用于终端为例,将结合下文图3对图4A示出的步骤进行说明。
在步骤101中,获取表格数据。
用户通过在终端的输入界面上输入表格数据,终端将该表格数据保存至存储器中,当需要根据表格数据获取相应的文本描述时,可以直接获取表格数据。
在一些实施例中,表格是由至少一行单元格组成、即至少由一条记录组成,其中记录包括属性以及内容,如表2所示,“职业”和“喜剧演员,演员,电视和广播节目主持人”组成一条记录,其中,“职业”为记录的属性,“喜剧演员,演员,电视和广播节目主持人”为记录的内容。根据表格的记录,可以获得单词序列的值向量、属性向量以及位置向量,组合单词序列的值向量、属性向量以及位置向量,就可以得到序列向量形式的表格数据,从而根据表格的记录,可以得到准确的序列向量,以便进行后续的处理,得到准确的关键信息以及文本描述信息。
在一些实施例中,根据表格的记录,获得单词序列的值向量、属性向量以及位置向量,具体包括:根据表格中记录的属性,生成单词序列的属性向量;根据表格中记录的内容,生成单词序列的值向量以及位置向量,其中位置向量用于表征单词在表格数据中所处的具体位置信息。例如,如表2所示,根据表格中记录的属性“职业”,生成单词序列的属性向量<职业>,根据表格中的内容“喜剧演员,演员,电视和广播节目主持人”,生成单词序列的值向量<喜剧演员,演员,电视和广播节目主持人>。通过单词序列的属性向量、值向量以及位置向量可以得到准确、连贯的序列向量,以便后续得到连贯的关键数据以及文本描述信息,避免缺字或漏字的问题。
本申请实施例可以将表格中记录的内容按照第一顺序排序,得到单词的第一位置信息,将表格中记录的内容按照第二顺序排序,得到单词的第二位置信息,其中,所述第一顺序与第二顺序相反,将第一位置信息和第二位置信息进行组合,得到单词序列的位置向量。为了准确表示单词的位置,本发明实施例中的位置向量可以是二元组其中,/>表示从左到右计算单词pw的位置、即将表格中记录的内容按照第一顺序排序,得到单词的第一位置信息,/>表示从右到左计算单词pw的位置、即将表格中记录的内容按照第二顺序排序,得到单词的第二位置信息;也可以是/>表示从右到左计算单词pw的位置、即将表格中记录的内容按照第一顺序排序,得到单词的第一位置信息,/>表示从左到右计算单词pw的位置、即将表格中记录的内容按照第二顺序排序,得到单词的第二位置信息。通过单词pw的两个位置信息/>和/>可以获得单词pw准确的位置信息、即将第一位置信息和第二位置信息进行组合,得到单词序列的位置向量。例如,姓名序列“Denise Margaret Scott”表示的序列向量可以是(Denise,姓名,1,3)、(Margaret,姓名,2,2)、(Scott,姓名,3,1),其中,向量中的“姓名”为属性向量,如“(Denise,姓名,1,3)”中的“1”表示单词“Denise”按左到右的顺序计算得到的第一位置信息,“3”表示单词“Denise”按右到左的顺序计算得到的第一位置信息。
作为示例,参见图3,通过表格描述的处理装置555中的获取模块5551获取表格数据,其中,获取模块5551可以根据表格的记录,获得单词序列的值向量、属性向量以及位置向量,并组合单词序列的值向量、属性向量以及位置向量,得到序列向量形式的表格数据,并将该表格数据输入至预测模块5552中,以便预测模块5552提取表格数据中的关键数据。
在步骤102中,通过表格描述模型中的预测模型,对表格数据中的单词进行融合,得到单词的上下文信息。
在获取了表格数据后,为了提取表格数据中的关键数据,可以将表格数据输入至表格描述模型中的预测模型,以预测表格数据中的关键数据,首先需要对表格数据中的单词进行融合,得到每个单词的上下文信息,以便通过表格数据中每个单词与上下文信息的关系,对表格数据中的每个单词进行筛选,最终获得表格数据中的关键数据,其中,该关键数据是表格数据中用户需要生成文本描述信息的数据。
在一些实施例中,通过表格描述模型中的预测模型,对表格数据中的单词进行融合,得到单词的上下文信息,包括:获取表格数据中单词的前向隐藏状态和后向隐藏状态;对前向隐藏状态、后向隐藏状态以及表格数据中的单词进行编码,得到单词的上下文信息。
在一些实施例中,该预测模型可以包括前向隐藏层和后向隐藏层,通过前向隐藏层可以获得单词的前向隐藏状态,通过后向隐藏层可以获得后向隐藏状态,其中,该前向隐藏状态、后向隐藏状态包括其他单词的上下文信息,获取了单词的前向隐藏状态、后向隐藏状态后,可以对对前向隐藏状态、后向隐藏状态以及表格数据中的单词进行编码,从而得到该单词的上下文信息,以便得到该单词与其他单词的关系,从而有利于对表格数据进行筛选,得到关键数据。
本发明实施例中的表格描述模型包括预测模型,其中,预测模型的输入为表格数据,通过预测模型中的隐层对表格数据进行一系列模型计算,例如,通过对表格数据进行编码的方式,来提取表格数据中单词的上下文信息,通过对上下文信息进行解码的方式,输出对应表格数据的关键数据。
本发明实施例中预测模型可以根据结构化的表格,提取对应表格数据中的关键数据,以便后续根据关键数据生成文本描述信息,避免根据表格数据中无用的数据生成冗余的文本描述信息,提高文本描述信息的有效性。
可以理解地,存在各种可选的模型结构用于实现预测模型的编码和解码过程,因此,本发明实施例中的预测模型不局限于特定类型的模型结构,例如可以用长短时记忆(LSTM,Long Short-Term Memory)网络、门控循环单元(GRU,Gate Recurrent Unit)网络、以及各种衍变的网络等,下面示例性说明。
作为示例,预测模型可以包括双向长短时记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)模型,Bi-LSTM模型包括前向LSTM模型和后向LSTM模型,通过前向LSTM模型和后向LSTM模型、即前向隐藏层和后向隐藏层,可以获取单词在句子中前后顺序,从而捕捉到较长距离的依赖关系。通过Bi-LSTM模型中的解码器,对表格数据中的单词进行融合,得到单词的上下文信息。
作为示例,参见图3,当获取模块5551输出表格数据至预测模块5552中的预测模型,预测模型中的解码器对表格中的单词进行融合,得到单词的上下文信息,并将单词的上下文信息输出至分类器中,以便分类器筛选出关键信息,其中该解码器可以是Bi-LSTM模型中的解码器,可以获取单词在句子中前后顺序,从而捕捉到较长距离的依赖关系
当然,对表格数据中的单词进行融合,得到单词的上下文信息不局限于Bi-LSTM模型中的解码器,还可以替换为其他的编码器。
在步骤103中,通过预测模型对单词的上下文信息进行筛选,得到关键数据。
在通过预测模型对表格数据中的单词进行融合,得到单词的上下文信息后,还可以通过预测模型对单词的上下文信息进行筛选,得到表格数据中的关键数据,以剔除表格中没有用的数据,以便后续生成具有关键数据的文本描述信息,提高用户的体验感。
参见图4B,图4B是本发明实施例提供的一个可选的流程示意图,在一些实施例中,图4A示出步骤103可以通过图4B示出的步骤1031至步骤1033实现,在步骤1031中,通过预测模型中的分类器,对表格数据中单词的上下文信息进行概率计算,得到单词属于关键数据的概率值;在步骤1032中,根据各单词属于关键数据的概率值,确定属于关键数据的单词;在步骤1033中,将属于关键数据的单词进行组合,得到关键数据。
通过预测模型中的分类器的模型参数,对单词的上下文信息进行概率计算,以得到单词属于关键数据的概率值,当单词属于关键数据的概率值大于预设阈值时,则说明该单词属于关键数据中的单词,并为该单词设置一个标签,以标识该单词为关键数据中的单词,如可以为该单词设置标签“1”,该标签“1”标识该单词为关键数据中的单词;当单词属于关键数据的概率值小于或等于预设阈值时,则说明该单词不属于关键数据中的单词,并为该单词设置一个标签,以标识该单词不是关键数据中的单词,如可以为该单词设置标签“0”,该标签“0”标识该单词不是关键数据中的单词。通过将各单词属于关键数据的概率值与预设阈值进行比较,从而可以确定属于关键数据的各单词,并将属于关键数据的各单词进行组合,从而可以得到表格数据中的关键数据。例如,终端获取了如表2所示的表格数据后,获得单词“Denise”、“Margaret”、“Scott”的概率值均大于设定阈值90%,则说明单词“Denise”、“Margaret”、“Scott”中的各单词属于关键数据中的单词,并将“Denise”、“Margaret”、“Scott”进行组合,得到关键数据“Denise Margaret Scott”。其中,用户可以根据经验值设定预设阈值,或者根据用户需求设定预设阈值。
作为示例,参见图3,预测模型中的解码器输出单词的上下文信息至分类器后,分类器可以对单词的上下文信息进行概率计算,筛选出属于关键数据的单词,从而得到关键数据,从而剔除表格数据中不重要的数据。
在步骤104中,通过表格描述模型中的表层实现模型,对关键数据进行组合,得到对应表格数据的文本描述信息。
通过表格描述模型中的预测模型,得到关键数据后,还可以将关键数据输入表格描述模型中的表层实现模型,从而通过表层实现模型,对关键数据进行组合,生成对应表格数据中的文本描述信息,从而能够根据结构化的表格,获得连贯的文本描述信息,提高用户体验感。
在一些实施例中,通过预测模型中的表层实现模型,对关键数据进行组合,得到对应表格数据的文本描述信息,包括:通过表层实现模型对关键数据的编码向量进行编解码,依次生成与关键数据对应的第一单词;根据生成第一单词的顺序,将第一单词组成对应表格数据的文本描述信息。其中,向表层实现模型中输入分散的关键数据后,通过表层实现模型中的编解码功能,对关键数据进行编解码处理,可以依次生成与关键数据对应的第一单词,并按照生成第一单词的顺序,将第一单词组成对应表格数据的文本描述信息,并输出该文本描述信息,以便终端或服务器获取该文本描述信息,并在显示界面显示对应表格数据的文本描述信息,或者播放对应表格数据的文本描述信息。例如,如表2所示,通过预测模型得到的关键数据为“Denise Margaret Scott”、“美国”和“喜剧演员,电视和广播节目主持人”,则通过表层实现模型对关键数据进行组合,得到对应表格数据的文本描述信息为“Denise Margaret Scott是一位美国的喜剧演员、电视和广播节目主持人。”,从而根据结构化的表格,获得连贯的文本描述信息。
在一些实施例中,表格描述模型还包括表层实现模型,其中,表层实现模型的输入为关键数据,通过表层实现模型中的隐层对关键数据进行一系列模型计算,例如,包括:对关键数据进行编码处理得到中间的语义向量表示,基于注意力机制,对中间的语义向量表示进行解码,以输出对应关键数据的文本描述信息。
因此,本发明实施例中表层实现模型可以根据表格数据中的关键数据,获得对应关键数据的文本描述信息、即根据关键数据生成非结构化的、连贯的文本描述信息,避免根据表格数据中无用的数据生成冗余的文本描述信息,提高文本描述信息的有效性。
在一些实施例中,通过表层实现模型对所述关键数据的编码向量进行编解码,依次生成与关键数据对应的第一单词,包括:通过表层实现模型中的编码器,对关键数据进行编码,得到关键数据的编码特征;通过表层实现模型中的解码器,对上一个生成的第二单词进行解码,得到中间解码信息;通过注意力机制对中间解码信息以及关键数据的编码特征进行解码,得到待生成的单词的上下文特征;通过表层实现模型中的生成器,对待生成的单词的上下文特征进行概率计算,得到待生成的单词属于文本描述信息的概率值;根据待生成的单词属于文本描述信息的概率值,确定生成的第一单词。
可以理解地,存在各种可选的模型结构用于实现预测模型的编码和解码过程,因此,本发明实施例中的预测模型不局限于特定类型的模型结构,例如可以是设置注意力机制的LSTM网络、GRU神经网络、以及各种衍变的网络等,下面示例性说明。
作为示例,该表层实现模型可以是序列对序列(Vanilla Seq2Seq)模型,该Seq2Seq模型通过深度神经网络模型将一个作为输入的序列映射为一个作为输出的序列,这一过程由编码输入与解码输出两个环节完成。通过Seq2Seq模型对关键数据进行编解码,依次生成与关键数据对应的第一单词,首先通过编码器对关键数据进行编码,输出关键数据的编码特征、即编码向量,该编码器可以是Bi-LSTM编码器,从而得到关键数据中单词的上下文信息,也就是关键数据的编码特征。由于依次生成第一单词,因此,需要通过解码器对上一个生成的第二单词进行解码,得到中间解码信息,所述中间解码信息包括第二单词的信息,该解码器可以包括Bi-LSTM编码器,可以通过Bi-LSTM中的隐藏层获得隐藏状态,并对隐藏状态以及第二单词进行解码,得到中间解码信息。然后,通过注意力机制对中间解码信息以及关键数据的编码特征进行解码,得到待生成的单词的上下文特征,该上下文特征包括关键数据以及已生成单词的特征,以便后续根据上下文特征,生成下一个单词。通过生成器对待生成的单词的上下文特征进行概率计算,以得到待生成的单词属于文本描述信息的概率值,当待生成的单词属于文本描述信息的概率值大于预设阈值时,说明待生成的单词属于文本描述信息中的单词;当待生成的单词属于文本描述信息的概率值小于或等于预设阈值时,说明待生成的单词不属于文本描述信息中的单词,从而将待生成的单词属于文本描述信息的概率值与预设阈值进行比较,确定出生成的第一单词。根据生成第一单词的顺序,将第一单词组成对应表格数据的文本描述信息。
作为示例,参见图3,分类器输出关键数据至Seq2Seq模型中的编码器,通过编码器对关键数据进行编码,得到关键数据的编码特征,并将关键数据的编码特征输出至Seq2Seq模型中的解码器,解码器首先对上一个生成的第二单词进行解码,得到中间解码信息,并通过注意力机制对中间解码信息以及关键数据的编码特征进行解码,得到待生成的单词的上下文特征,并将单词的上下文特征输出至Seq2Seq模型中的生成器,生成器对待生成的单词的上下文特征进行概率计算,得到待生成的单词属于文本描述信息的概率值,并根据待生成的单词属于文本描述信息的概率值,确定生成的第一单词,根据生成第一单词的顺序,将第一单词组成对应表格数据的文本描述信息。
在一些实施例中,通过表层实现模型对所述关键数据的编码向量进行编解码,依次生成与关键数据对应的第一单词,包括:通过表层实现模型中的编码器,对关键数据进行编码,得到关键数据的编码特征;通过表层实现模型中的解码器,对至少一个已经生成的第二单词以及关键数据的编码特征进行解码,得到待生成的单词的上下文特征;通过表层实现模型中的生成器,对待生成的单词的上下文特征进行概率计算,得到待生成的单词属于文本描述信息的概率值;根据待生成的单词属于文本描述信息的概率值,确定生成的第一单词。
作为示例,该表层实现模型可以是转换器(Transformer)模型,该Transformer模型包括编码器和解码器,其中编码器包括至少一个编码层,解码器包括至少一个解码层,通过多个编码层依次对输入的关键数据进行编码,即一个编码层的编码结果将输入下一个编码层继续进行编码,直至遍历所有的编码层,输出关键数据的编码特征。通过Transformer模型对关键数据进行编解码,依次生成与关键数据对应的第一单词,首先通过编码器对关键数据进行编码,输出关键数据的编码特征、即编码向量,该编码器可以是Transformer编码器,通过至少一层编码层对关键数据进行编码,输出关键数据的编码特征。由于依次生成第一单词,因此,需要通过解码器对至少一个已经生成的第二单词(已经生成的所有单词)以及关键数据的编码特征进行解码,得到待生成的单词的上下文特征,该上下文特征包括关键数据以及所有已生成单词的特征,以便后续根据上下文特征,生成下一个单词。通过生成器对待生成的单词的上下文特征进行概率计算,以得到待生成的单词属于文本描述信息的概率值,当待生成的单词属于文本描述信息的概率值大于预设阈值时,说明待生成的单词属于文本描述信息中的单词;当待生成的单词属于文本描述信息的概率值小于或等于预设阈值时,说明待生成的单词不属于文本描述信息中的单词,从而将待生成的单词属于文本描述信息的概率值与预设阈值进行比较,确定出生成的第一单词。根据生成第一单词的顺序,将第一单词组成对应表格数据的文本描述信息。
作为示例,参见图3,分类器输出关键数据至Transformer模型中的编码器,通过编码器对关键数据进行编码,得到关键数据的编码特征,并将关键数据的编码特征输出至的Transformer模型中解码器,该解码器对至少一个已经生成的第二单词以及关键数据的编码特征进行解码,得到待生成的单词的上下文特征,并将待生成的单词的上下文特征输出至Transformer模型中的生成器,该生成器对待生成的单词的上下文特征进行概率计算,得到待生成的单词属于文本描述信息的概率值,并根据待生成的单词属于文本描述信息的概率值,确定生成的第一单词,根据生成第一单词的顺序,将第一单词组成对应表格数据的文本描述信息。
在一些实施例中,需要对表格描述模型进行训练,通过分别对预测模型以及表层实现模型进行训练,以便通过预测模型获取关键数据,通过表层实现模型根据关键数据获得文本描述信息。
在另一些实施例中,针对预测模型的训练进行说明,参见图4C,基于图4A,图4C是本发明实施例提供的表格描述的处理方法的流程示意图,在步骤105中,根据单词属于关键数据的概率值,确定预测模型的损失函数的值;在步骤106中,根据损失函数的值,更新预测模型的模型参数,其中步骤105至步骤106与步骤101至步骤104并无明显的先后顺序。当终端或者服务器基于单词属于关键数据的概率值,确定预测模型的损失函数的值后,可以判断损失函数的值是否超出预设阈值,当损失函数的值超出预设阈值时,基于损失函数确定预测模型的误差信号,将误差信息在预测模型中反向传播,并在传播的过程中更新各个层的模型参数。
作为示例,参见图3,通过表格描述的处理装置555中的第一训练模块5554对单词属于关键数据的概率值进行处理,确定预测模型的损失函数的值,并根据损失函数的值,更新预测模型的模型参数,以便预测模型提取关键数据。
在一些实施例中,针对表层实现模型的训练进行说明,参见图4D,基于图4A,图4D是本发明实施例提供的表格描述的处理方法的流程示意图,在步骤107中,根据待生成的单词属于文本描述信息的概率值,确定表层实现模型的损失函数的值;在步骤108中,根据损失函数的值,更新表层实现模型的模型参数,其中步骤107至步骤108与步骤101至步骤104并无明显的先后顺序。当终端或者服务器基于待生成的单词属于文本描述信息的概率值,确定表层实现模型的损失函数的值后,可以判断损失函数的值是否超出预设阈值,当损失函数的值超出预设阈值时,基于损失函数确定表层实现模型的误差信号,将误差信息在表层实现模型中反向传播,并在传播的过程中更新各个层的模型参数。
作为示例,参见图3,通过表格描述的处理装置555中的第二训练模块5555对待生成的单词属于文本描述信息的概率值进行处理,确定表层实现模型的损失函数的值,并根据损失函数的值,更新表层实现模型的模型参数,以便表层实现模型生成文本描述信息。
这里,对反向传播进行说明,将训练样本数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛,其中,预测模型、表层实现模型都属于神经网络模型。
至此已经结合本发明实施例提供的表格描述的处理方法以及在表格描述的处理装置中的示例性应用,下面继续说明本发明实施例提供的表格描述的处理装置555中各个模块配合实现表格描述的处理的方案。
在表格描述的处理装置555生成对应表格数据的文本描述信息的过程中,获取模块5551获取表格数据。
获取模块5551还可以根据表格的记录,获得单词序列的值向量、属性向量以及位置向量;组合单词序列的值向量、属性向量以及位置向量,得到序列向量形式的表格数据。
获取模块5551还可以根据表格中记录的属性,生成单词序列的属性向量;根据所述表格中记录的内容,生成单词序列的值向量以及位置向量。
获取模块5551还可以将表格中记录的内容按照第一顺序排序,得到单词的第一位置信息;将表格中记录的内容按照第二顺序排序,得到单词的第二位置信息,其中,第一顺序与第二顺序相反;将第一位置信息和所述第二位置信息进行组合,得到单词序列的位置向量。
在表格描述的处理装置555生成对应表格数据的文本描述信息的过程中,预测模块5552通过表格描述模型中的预测模型,对表格数据中的单词进行融合,得到所述单词的上下文信息;通过预测模型对所述单词的上下文信息进行筛选,得到关键数据。
预测模块5552还可以获取表格数据中单词的前向隐藏状态和后向隐藏状态;对所述前向隐藏状态、所述后向隐藏状态以及所述表格数据中的单词进行编码,得到所述单词的上下文信息。
预测模块5552还可以通过预测模型中的分类器,对所述表格数据中单词的上下文信息进行概率计算,得到所述单词属于关键数据的概率值;根据各单词属于关键数据的概率值,确定属于关键数据的单词;将属于关键数据的单词进行组合,得到关键数据。
在表格描述的处理装置555生成对应表格数据的文本描述信息的过程中,输出模块5553通过表格描述模型中的表层实现模型,对关键数据进行组合,得到对应所述表格数据的文本描述信息。
输出模块5553还可以通过表层实现模型对所述关键数据的编码向量进行编解码,依次生成与所述关键数据对应的第一单词;根据生成第一单词的顺序,将所述第一单词组成对应所述表格数据的文本描述信息。
输出模块5553还可以通过表层实现模型中的编码器,对关键数据进行编码,得到关键数据的编码特征;通过表层实现模型中的解码器,对上一个生成的第二单词进行解码,得到中间解码信息;通过注意力机制对中间解码信息以及所述关键数据的编码特征进行解码,得到待生成的单词的上下文特征;通过表层实现模型中的生成器,对待生成的单词的上下文特征进行概率计算,得到待生成的单词属于文本描述信息的概率值;根据待生成的单词属于文本描述信息的概率值,确定生成的第一单词。
输出模块5553还可以通过表层实现模型中的编码器,对关键数据进行编码,得到关键数据的编码特征;通过表层实现模型中的解码器,对至少一个已经生成的第二单词以及关键数据的编码特征进行解码,得到待生成的单词的上下文特征;通过表层实现模型中的生成器,对待生成的单词的上下文特征进行概率计算,得到待生成的单词属于文本描述信息的概率值;根据待生成的单词属于文本描述信息的概率值,确定生成的第一单词。
在表格描述的处理装置555生成对应表格数据的文本描述信息的过程中,第一训练模块5554根据单词属于关键数据的概率值,确定预测模型的损失函数的值;根据损失函数的值,更新预测模型的模型参数。
在表格描述的处理装置555生成对应表格数据的文本描述信息的过程中,第二训练模块5554根据待生成的单词属于文本描述信息的概率值,确定表层实现模型的损失函数的值;根据损失函数的值,更新表层实现模型的模型参数。
本发明实施例还提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的表格描述的处理方法,例如,如图4A示出的表格描述的处理方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
下面,将说明本发明实施例在一个实际的表格描述的应用场景中的示例性应用。
在相关技术中,表格描述生成的方法大多基于编码器-解码器框架,通过编码器表示表格信息,编码器输出表格的表示信息,并通过解码器解码表示信息,逐次生成单词以组成文本描述。但是,编码器-解码器框架过于依赖大型的并行数据训练集,图5为不同数量的并行数据下编码器-解码器框架的性能示意图,如图5所示,当并行数据量很小时,编码器-解码器框架下模型的性能很差。
为了解决上述问题,能够根据结构化的表格数据,得到非结构化的文本描述信息,本发明实施例提供一种表格描述模型,该表格描述模型包括一个关键事实预测模型(预测模型)和表层实现模型,整体框架包括如下两部分:
1)预测模型:将表格数据表示为一个表格序列,并从表格序列中选择关键事实(关键数据),采用双向长短时记忆网络来预测是否保留表格数据中的每个单词,作为关键事实的二进制序列。
2)表层实现模型:该表层实现模型为一个序列到序列模型,将预测模型选择的关键数据作为输入,并输出文本描述信息。为了利用无标记文本语料库,可以通过构造伪并行数据的方法,以训练表面实现模型。
首先需要对表格描述模型进行预处理、即选择关键数据,将表格和文本之间共同出现的数据定义为关键数据,从而实现自动标记关键数据,自动注释关键数据的过程的伪代码如下所示:
在预测模型中输入并行数据集P={(xi,yi)},其中,xi表示表格数据,表示yi单词序列
初始化关键数据列表W=[]
对并行数据集P中的每个样本(x,y)作如下处理{
x={(v1,a1),(v2,a2),...,(vm,am)}
y={y1,y2,...,yn}
初始化属性集A={}
初始化所选关键数据列表Wi=[]
对表格x中的每个属性-值对(vi,ai)作如下处理,其中,vi表示值向量,表示ai属性向量{
如果vi在单词序列y中,且vi不是停止词
添加ai到属性集A中
如果ai在属性集A中
添加vi到关键数据列表中}
将所选的关键数据列表Wi添加到关键数据列表W中
预测模型输出关键数据列表W}执行结束
在训练表格描述模型时,给定一个表格及其相关文本,获取表格和文本之间的重叠单词,重叠单词为不是停用词或标点符号、但出现在表格和文本中的单词,收集所有的重叠单词,并将重叠单词定义为关键数据。通过这种标记方式,可以获得一个带有0/1标签的二进制序列表,该0/1标签表示单词是否属于关键数据。
在一些实施例中,预测模型和表层实现模型是通过以下方式实现根据表格数据,获得文本描述信息:
A、预测模型
在本发明实施例中,预测模型包括多层感知器(MLP)分类器和Bi-LSTM模型,该预测模型用来确定是否选择表格数据中的单词、即选取表格数据中的关键数据。
首先,以单词序列的形式表示表格数据,每个单词都以其自身的属性作为标记。因此,表格数据表示为两个序列、即值序列{v1,v2,...,vm}和属性序列{a1,a2,...,am},其中v表示值向量,a表示属性向量,组合属性向量和值向量形成单词向量。另外,还可以引入位置向量来捕获表格的结构化信息,该位置向量表示为一个二元组其中,/>表示从左到右计算单词pw的位置,/>表示从右到左计算单词pw的位置。例如,在单词向量“(姓名,Denise Margaret Scott)”中加入位置向量,则表示为“(Denise,姓名,1,3)、(Margaret,姓名,2,2)、(Scott,姓名,3,1)”。这样,即使存在两个相同的单词,表格中的每个单词都有唯一的向量表示。将值向量、属性向量和位置向量连接起来,作为预测模型的输入x。
该预测模型包括表格编码器和分类器,以下对表格编码器和分类器进行详细的描述:
A1、表格编码器:该表格编码器可以为分类器提供表格数据的表示形式,更具体地说,表格编码器是一个Bi-LSTM模型中的解码器:
通过该表格编码器计算表格数据,如下公式(1)所示:
其中,表示前向隐藏层输出的前向隐藏状态,/>表示后向隐藏层输出的后向隐藏状态,xt表示输入的表格数据中的第t个单词,ht表示表格编码器输出的输出向量、即单词的上下文信息。
A2、多层感知器分类器(分类器):将表格编码器输出向量ht输入至多层感知器分类器中,从而计算单词xt是关键数据的概率,如下公式(2)所示:
p1(lt|x)=softmax(Wcht+bc) (2)
其中,Wc和bc表示多层感知器分类器的训练参数,p1(lt|x)表示单词xt属于关键数据的概率,可以根据p1(lt|x)确定单词xt是否属于关键数据。
示例性地,如图6所示,通过预测模型输出关键数据,并将关键数据输入至表层实现模型。
B、表层实现模型
本发明实施例中,表层实现模型可以根据预测模型预测的关键数据生成文本描述信息。其中,表层实现模型可以是Vanilla Seq2Seq模型,也可以是Transformer模型。
进一步地,Vanilla Seq2Seq模型和Transformer模型是通过以下方式实现根据关键数据,获得文本描述信息:
B1、Vanilla Seq2Seq模型:Vanilla Seq2Seq模型可以由Bi-LSTM编码器和带有注意力机制的解码器组成。其中,Bi-LSTM编码器与预测模型中的解码器相同。
首先,通过Bi-LSTM编码器对关键数据进行编码,输出向量h,该向量h为关键数据的编码特征。
然后,通过解码器对上一个生成的第二单词进行解码,如下公式(3)所示:
st=f(yt-1,st-1) (3)
其中,yt-1表示已经生成的第t-1个单词,f()表示LSTM函数,st表示解码器中隐藏层输出的隐藏状态、即中间解码信息。
通过注意力机制对中间解码信息以及向量h进行解码,如下公式(4)所示:
vt=Attention(st,h) (4)
其中,Attention()表示注意力机制函数,vt表示解码器输出的解码信息、即待生成的单词的上下文特征。
将vt输入至生成器中,计算待生成的单词属于文本描述信息的概率值,如想公式(5)所示:
p2(yt|x)=softmax(Wgvt+bg) (5)
其中,Wg和bg表示生成器的训练参数,p2(yt|x)表示单词yt属于文本描述信息的概率,其中,概率最大的单词将作为第t个单词输出,将所有输出的单词按照生成的顺序,组成连贯的文本描述信息。
示例性地,如图6所示,关键数据输入至表层实现模型后,表层实现模型根据关键数据生成连贯的文本描述信息。
B1、Transformer模型:该Transformer模型与Vanilla Seq2Seq模型类似,也是由编码器和解码器组成。
首先,编码器对输入的关键数据集进行编码,如下公式(6)所示:
ht=Transformer(xt,x) (6)
其中,x表示关键数据各单词,xt表示关键数据中的第t个单词,ht表示编码器的输出向量、即关键数据的编码特征。
将编码器输出的ht输入至解码器中,解码器对关键数据的编码特征进行解码,如下公式(7)所示:
vt=Transformer(y<t,ht) (7)
其中,y<t表示已经生成的单词,ht表示编码器的输出向量,vt表示解码器输出的解码信息、即待生成的单词的上下文特征。
将vt输入至生成器中,计算待生成的单词属于文本描述信息的概率值,如想公式(8)所示:
p2(yt|x)=softmax(Wgvt+bg) (8)
其中,Wg和bg表示生成器的训练参数,p2(yt|x)表示单词yt属于文本描述信息的概率,其中,概率最大的单词将作为第t个单词输出,将所有输出的单词按照生成的顺序,组成连贯的文本描述信息。
综上,如图7所示,通过本发明实施例中的预测模型和表层实现模型,可以根据人物的个人信息(表格数据),生成具有关键数据的文本描述信息(传记),有助于用户总结表格中的关键数据,并以文本的形式进行描述。
这里,由于表面实现模型基于编码器-解码器框架,需要大量的训练数据。为了扩充训练数据,本发明实施例提供一种构造伪并行数据的方法。表面实现模型用于根据关键数据,生成文本描述。因此,可以通过删除文本描述的骨架,只保留关键数据来构造伪并行数据。通过使用词性标注工具,例如斯坦福自然语言处理工作包(Stanford Core NLP)标记文本,为每个单词分配词性标注标签,并保留被标记为名词、形容词、数词、外语词的单词,并删除其余单词,从而构造一个大规模的伪并行数据来训练表面实现模型。
由于本发明实施例具有两个模型:预测模型和表层实现模型,因此,存在将预测模型中的误差传递到表层实现模型的问题。为了解决该问题,可以在预测模型中采用柱搜索(beam search)来扩大搜索空间。然而,当柱宽度(beam size)较小时,预测关键数据的多样性较低,也不利于提高预测的精度;当柱宽度较大时,预测模型的解码速度较慢,且精度的提高也有限。
为了解决上述问题,本发明实施例还提供一种去噪数据增强的方法,以解决传递误差的问题,并提高模型的鲁棒性。可以在表面实现模型的输入中随机抽取一些单词,或者在其他样本中插入一些单词,抽取单词是为了模拟预测模型无法正确召回关键数据的情况,而插入单词是为了模拟预测模型从表格中预测一些额外数据的情况。通过添加噪声的方法,可以将这些数据作为对抗样例,从而提高表面实现模型的鲁棒性。
由于本发明实施例中的预测模型和表层实现模型是独立的,因此,需要单独优化预测模型和表层实现模型,如下所示:
1)预测模型的训练:采用交叉熵损失函数进行训练,如下公式(9)所示:
其中,p1表示预测模型中分类器的输出,L1表示预测模型的损失函数的值。
2)表面实现模型的训练:采用损失函数对表层实现模型进行训练,如下公式(10)所示:
其中,表示预测模型所选的关键事实的序列,L2表示预测模型的损失函数的值。表面实现模型也使用伪并行数据进行训练,其目标函数如公式(11)所示:
其中,表示未标记的文本,/>是与/>配对的伪文本,L3表示表层实现模型的目标函数的值。
本发明实施例有两个解码过程,如下所示:
1)通过预测模型预测标签,如下公式(12)所示:
其中,保留的单词,而丢弃/>的单词,从而获得子序列/>即关键数据。
2)通过表面实现模型发出文本描述信息,如下公式(13)所示:
其中,V表示表面实现模型中的单词,单词序列组成生成的文本描述信息。
本发明实施例,将Seq2Seq框架下的表格描述(PIVOT)模型表示为PIVOT-Vanilla,将Transformer框架下PIVOT模型作为PIVOT-Trans。
本发明实施例,采用WIKIBIO数据集作为基准数据集。该数据集包含来自英语维基百科的728321篇文章,每篇文章采用第一句作为相关信息的描述。每个描述平均有26.1个单词,其中9.5个单词出现在表格中。表格平均包含53.1个值单词和19.7个属性单词。将数据集分成80%的训练集,10%的测试集和10%的验证集。为了模拟低资源情景,随机抽样1000个并行数据样本,并从在其他的训练数据中删除表格数据。
本发明实施例中,采用BLEU-4,ROUGE-4(F测量)和NIST-4作为评估指标。将本发明实施例中的模型与两类基线模型进行比较,该基线模型包括仅利用并行数据的监督模型(Vanilla Seq2Seq,Transformer,Struct-aware)和利用并行数据和未标记数据训练的半监督模型(PretrainedMT,SemiMT)。基线模型如下:
1)具有注意机制的Vanilla Seq2Seq:用于生成自然语言的模型。
2)Transformer模型:编码器-解码器框架下的最先进模型,采用注意力机制。
3)Struct-aware模型:用于表格到文本生成的最先进模型,使用LSTM内部的字段选通机制对表格进行建模,并使用双重注意机制进行表格和文本之间的交互。
4)PretrainedMT模型:采用半监督方法,用于预先训练序列到序列模型的解码器。
5)SemiMT模型:采用半监督方法,用于通过自动编码器联合训练序列到序列模型。
监督模型使用与本发明实施例中的模型相同的并行数据进行训练,而半监督模型使用相同的并行数据和未标记的数据进行训练。
将PIVOT模型与上述基线模型进行比较,如表4所示。根据表4的结果可知,在预测关键数据阶段,PIVOT模型获得了87.92%的F1得分、92.59%的精度和83.70%的召回率,为表面实现模型提供了良好的基础。根据所选择的关键数据,PIVOT-Vanilla模型获得了20.09BLEU、6.5130NIST和18.31ROUGE,PIVOT-Trans模型获得了27.34BLEU,6.8763NIST和19.30ROUGE,即本发明实施例的模型所有的指标均优于其他基线模型。
表4比较结果(F1:F1得分,P:精度,R:召回率)
/>
本发明实施例选取K个样本作为并行数据,设定K=1000,6000,30000,60000,300000,并将本发明实施例的表格描述模型与Seq2Seq模型和Transformer模型进行比较,图8显示了表格描述模型和其他基线模型的BLEU分数。当并行数据集较小时,表格描述模型的BLEU分数大幅超越Seq2Seq模型和Transformer模型。图9示出了用不同数量的并行数据下预测模型的F1得分的曲线,即使标记数据的数量非常小,该预测模型也可以获得约88%的F1得分。并且,不同的数量的并行数据对应的F1得分是接近的,说明预测模型不依赖于大量标记数据、只需要较少的标记数据即可得到很好的效果。
以下分别说明各模型的伪并行数据影响、去噪数据增强影响以及对各模型的定性分析:
1)伪并行数据
为了分析伪并行数据对各模型的影响,可以在基线模型中添加数据,并在本发明实施例中的模型中删除数据来进行消融学习。表5为消融学习的结果,通过表5可知,伪并行数据不仅可以改善表格描述模型,还可以显着改善Seq2Seq模型和Transformer模型,伪并行数据可以提高表层实现模型生成文本描述的能力。
表5关于伪并行数据(Pseudo)的消融学习的结果
2)去噪数据增强
对表格描述模型中的vanilla Seq2Seq模型和Transformer模型进行去噪数据增强处理,并与完整表格描述模型进行比较。表6为消融学习的结果,通过表6可知,为vanillaSeq2Seq模型和Transformer模型进行去噪处理可以显著改进表格描述模型,有利于表格描述模型生成准确的文本描述信息。
表6关于去噪数据增强(denosing)的消融学习的结果
3)定性分析
表7为本发明实施例中的表格描述模型和其他基线模型生成的文本描述的样例,如表7所示,在低资源设置下,Transformer模型不能产生流畅的句子,也无法从表格中选取适当的关键数据,SemiMT模型可以生成流畅的文本描述,但是会生成表格中没有的数据。而本发明实施例中的PIVOT可以从表格中选取正确的关键数据,并生成流畅的文本描述。
表7表格描述模型和其他基线模型生成的文本描述的样例
综上所述,本发明实施例中的表格描述模型由两个独立的模型组成:预测模型和表面实现模型。预测模型可以解决序列标记的问题,因此,相对于编码器-解码器模型,该预测模型只需要很少标记数据。该预测模型仅利用1000个标记数据,就可以获得87.92%的F1得分。对于表面实现模型,可以自动构建伪并行数据集而无需标记数据。因此,本发明实施例的表格描述模型可以充分利用未标记的文本,并减轻对并行数据的需求。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (14)

1.一种表格描述的处理方法,其特征在于,包括:
获取表格数据;
通过表格描述模型中的预测模型,对表格数据中的单词进行融合,得到所述单词的上下文信息;
通过所述预测模型对所述单词的上下文信息进行筛选,得到关键数据;
通过所述表格描述模型中的表层实现模型,对所述关键数据进行组合,得到对应所述表格数据的文本描述信息。
2.根据权利要求1所述的方法,其特征在于,所述获取表格数据,包括:
根据表格的记录,获得单词序列的值向量、属性向量以及位置向量;
组合所述单词序列的值向量、属性向量以及位置向量,得到序列向量形式的表格数据。
3.根据权利要求2所述的方法,其特征在于,所述根据表格的记录,获得单词序列的值向量、属性向量以及位置向量,包括:
根据表格中记录的属性,生成单词序列的属性向量;
根据所述表格中记录的内容,生成单词序列的值向量以及位置向量。
4.根据权利要求2或3所述的方法,其特征在于,所述根据表格中记录的内容,生成单词序列的位置向量,包括:
将所述表格中记录的内容按照第一顺序排序,得到所述单词的第一位置信息;
将所述表格中记录的内容按照第二顺序排序,得到所述单词的第二位置信息,其中,所述第一顺序与第二顺序相反;
将所述第一位置信息和所述第二位置信息进行组合,得到单词序列的位置向量。
5.根据权利要求1所述的方法,其特征在于,所述通过表格描述模型中的预测模型,对表格数据中的单词进行融合,得到单词的上下文信息,包括:
获取所述表格数据中单词的前向隐藏状态和后向隐藏状态;
对所述前向隐藏状态、所述后向隐藏状态以及所述表格数据中的单词进行编码,得到所述单词的上下文信息。
6.根据权利要求1所述的方法,其特征在于,所述通过所述预测模型对所述单词的上下文信息进行筛选,得到关键数据,包括:
通过所述预测模型中的分类器,对所述表格数据中单词的上下文信息进行概率计算,得到所述单词属于关键数据的概率值;
根据各单词属于关键数据的概率值,确定属于关键数据的单词;
将属于关键数据的单词进行组合,得到关键数据。
7.根据权利要求1所述的方法,其特征在于,所述通过所述预测模型中的表层实现模型,对所述关键数据进行组合,得到对应所述表格数据的文本描述信息,包括:
通过所述表层实现模型对所述关键数据的编码向量进行编解码,依次生成与所述关键数据对应的第一单词;
根据生成所述第一单词的顺序,将所述第一单词组成对应所述表格数据的文本描述信息。
8.根据权利要求7所述的方法,其特征在于,所述通过所述表层实现模型对所述关键数据的编码向量进行编解码,依次生成与所述关键数据对应的第一单词,包括:
通过所述表层实现模型中的编码器,对所述关键数据进行编码,得到所述关键数据的编码特征;
通过所述表层实现模型中的解码器,对上一个生成的第二单词进行解码,得到中间解码信息;
通过注意力机制对所述中间解码信息以及所述关键数据的编码特征进行解码,得到待生成的单词的上下文特征;
通过所述表层实现模型中的生成器,对所述待生成的单词的上下文特征进行概率计算,得到所述待生成的单词属于文本描述信息的概率值;
根据所述待生成的单词属于文本描述信息的概率值,确定生成的第一单词。
9.根据权利要求7所述的方法,其特征在于,所述通过所述表层实现模型对所述关键数据的编码向量进行编解码,依次生成与所述关键数据对应的第一单词,包括:
通过所述表层实现模型中的编码器,对所述关键数据进行编码,得到所述关键数据的编码特征;
通过所述表层实现模型中的解码器,对至少一个已经生成的第二单词以及所述关键数据的编码特征进行解码,得到待生成的单词的上下文特征;
通过所述表层实现模型中的生成器,对所述待生成的单词的上下文特征进行概率计算,得到所述待生成的单词属于文本描述信息的概率值;
根据所述待生成的单词属于文本描述信息的概率值,确定生成的第一单词。
10.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述单词属于关键数据的概率值,确定所述预测模型的损失函数的值;
根据所述损失函数的值,更新所述预测模型的模型参数。
11.根据权利要求8或9所述的方法,其特征在于,所述方法还包括:
根据待生成的单词属于文本描述信息的概率值,确定所述表层实现模型的损失函数的值;
根据所述损失函数的值,更新所述表层实现模型的模型参数。
12.一种表格描述的处理设备,其特征在于,包括:
获取模块,用于获取表格数据;
预测模块,用于通过表格描述模型中的预测模型,对表格数据中的单词进行融合,得到所述单词的上下文信息;
所述预测模块,用于通过所述预测模型对所述单词的上下文信息进行筛选,得到关键数据;
输出模块,用于通过所述表格描述模型中的表层实现模型,对所述关键数据进行组合,得到对应所述表格数据的文本描述信息。
13.一种表格描述的处理设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的表格描述的处理方法。
14.一种存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至11任一项所述的表格描述的处理方法。
CN201910662839.4A 2019-07-22 2019-07-22 一种表格描述的处理方法、装置、设备及存储介质 Active CN110377910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910662839.4A CN110377910B (zh) 2019-07-22 2019-07-22 一种表格描述的处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910662839.4A CN110377910B (zh) 2019-07-22 2019-07-22 一种表格描述的处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110377910A CN110377910A (zh) 2019-10-25
CN110377910B true CN110377910B (zh) 2024-03-05

Family

ID=68254921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910662839.4A Active CN110377910B (zh) 2019-07-22 2019-07-22 一种表格描述的处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110377910B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581929B (zh) * 2020-04-22 2022-09-27 腾讯科技(深圳)有限公司 基于表格的文本生成方法及相关装置
CN111651970B (zh) * 2020-07-14 2022-07-22 华侨大学 基于表格型数据生成文本的方法、装置、设备及存储介质
CN113901763A (zh) * 2021-09-30 2022-01-07 北京百度网讯科技有限公司 一种表格描述文本生成方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN109062937A (zh) * 2018-06-15 2018-12-21 北京百度网讯科技有限公司 训练描述文本生成模型的方法、生成描述文本的方法及装置
CN109685056A (zh) * 2019-01-04 2019-04-26 达而观信息科技(上海)有限公司 获取文档信息的方法及装置
CN109871524A (zh) * 2019-02-21 2019-06-11 腾讯科技(深圳)有限公司 一种图表生成方法及装置
CN109933796A (zh) * 2019-03-19 2019-06-25 厦门商集网络科技有限责任公司 一种公告文本关键信息提取方法及设备
CN109933766A (zh) * 2019-03-13 2019-06-25 腾讯科技(深圳)有限公司 文件生成方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN109062937A (zh) * 2018-06-15 2018-12-21 北京百度网讯科技有限公司 训练描述文本生成模型的方法、生成描述文本的方法及装置
CN109685056A (zh) * 2019-01-04 2019-04-26 达而观信息科技(上海)有限公司 获取文档信息的方法及装置
CN109871524A (zh) * 2019-02-21 2019-06-11 腾讯科技(深圳)有限公司 一种图表生成方法及装置
CN109933766A (zh) * 2019-03-13 2019-06-25 腾讯科技(深圳)有限公司 文件生成方法、装置及存储介质
CN109933796A (zh) * 2019-03-19 2019-06-25 厦门商集网络科技有限责任公司 一种公告文本关键信息提取方法及设备

Also Published As

Publication number Publication date
CN110377910A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN111324728B (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
CN107480162B (zh) 基于人工智能的搜索方法、装置、设备及计算机可读存储介质
CN111680159B (zh) 数据处理方法、装置及电子设备
JP2023539532A (ja) テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム
CN110377910B (zh) 一种表格描述的处理方法、装置、设备及存储介质
CN109034203B (zh) 表情推荐模型的训练、表情推荐方法、装置、设备及介质
US11520993B2 (en) Word-overlap-based clustering cross-modal retrieval
CN111897934B (zh) 问答对生成方法及装置
CN111985229A (zh) 一种序列标注方法、装置及计算机设备
KR102078627B1 (ko) 사용자-입력 컨텐츠와 연관된 실시간 피드백 정보 제공 방법 및 시스템
CN111414561B (zh) 用于呈现信息的方法和装置
CN111860653A (zh) 一种视觉问答方法、装置及电子设备和存储介质
Zhang et al. Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents
CN113110843B (zh) 合约生成模型训练方法、合约生成方法及电子设备
Phan et al. Heterogeneous graph neural networks for software effort estimation
CN110019952B (zh) 视频描述方法、系统及装置
CN113076720A (zh) 长文本的分段方法及装置、存储介质、电子装置
CN111950265A (zh) 一种领域词库构建方法和装置
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN113420153B (zh) 一种基于话题库和事件库的专题制作方法、装置及设备
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质
CN114218364A (zh) 问答知识库扩充方法与装置
CN112818658B (zh) 文本对分类模型的训练方法、分类方法、设备及存储介质
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
Zhang et al. Big data-assisted urban governance: A comprehensive system for business documents classification of the government hotline

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant