CN115204300A - 文本和表格语义交互的数据处理方法、装置及存储介质 - Google Patents

文本和表格语义交互的数据处理方法、装置及存储介质 Download PDF

Info

Publication number
CN115204300A
CN115204300A CN202210867877.5A CN202210867877A CN115204300A CN 115204300 A CN115204300 A CN 115204300A CN 202210867877 A CN202210867877 A CN 202210867877A CN 115204300 A CN115204300 A CN 115204300A
Authority
CN
China
Prior art keywords
embedding
text
token
information
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210867877.5A
Other languages
English (en)
Inventor
陆凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202210867877.5A priority Critical patent/CN115204300A/zh
Publication of CN115204300A publication Critical patent/CN115204300A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种文本和表格语义交互的数据处理方法和装置、设备、存储介质,属于人智能技术领域。该方法包括:获取包括文本信息和表格信息的输入数据;对输入数据的文本信息进行特征提取得到文本特征,对输入数据的表格信息进行特征提取得到表格特征;将文本特征和表格特征输入预设神经网络模型的embedding层,使得embedding层将文本特征和表格特征均进行转换得到token embedding、position embedding和token type embedding;将embedding层转换得到的各个embedding项输入预设神经网络的transformer层得到混合语义向量;将混合语义向量输入到预设神经网络的分类层,得到输入数据对应的文本和表格语义的预测概率信息。通过embedding层对文本特征和表格特征都进行统一的转换,在transformer层,实现文本和表格的深层语义交互。

Description

文本和表格语义交互的数据处理方法、装置及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本和表格语义交互的数据处理方法、装置及存储介质。
背景技术
在推荐、广告、风控等场景中,经常需要同时建模表格特征和文本特征,应用效果不够好。相关技术中建模表格特征和文本特征的方法往往没有考虑表格特征和文本特征之间的深层交互,例如,只建模表格特征或只建模文本特征,这种方法会抛弃另一种模态的信息;又如,文本特征模型基于文本信息输出一个概率值、01特征或者embedding向量,将其作为表格特征模型的输入;又如,基于双塔模式,表格特征模型和文本特征模型分别建模,这两个模型的隐向量在最终的输出层进行浅层交互;上述这些方法要么只建模单模态特征,要么只做到了两种模态特征或信息的浅层交互。
发明内容
本申请实施例的主要目的在于提出一种文本和表格语义交互的数据处理方法、装置及存储介质,能够实现文本特征和表格特征的深层交互,从而实现深层复杂的语义交互。
为实现上述目的,本申请实施例的第一方面提出了一种文本和表格语义交互的数据处理方法,包括:
获取输入数据,所述输入数据包括文本信息和表格信息;
对所述输入数据的文本信息进行特征提取,得到文本特征,对所述输入数据的表格信息进行特征提取,得到表格特征;
将所述文本特征和所述表格特征输入预设神经网络模型的embedding层,使得所述embedding层将所述文本特征和所述表格特征均进行转换得到token embedding、position embedding和token type embedding;其中所述token embedding表征所述文本信息的字符以及所述表格信息的值的特征取值,所述position embedding表征所述文本信息的字符以及所述表格信息的值的位置关系,所述token type embedding用于区分所述文本信息和所述表格信息;
将所述embedding层转换得到的各个embedding项输入所述预设神经网络的transformer层得到混合语义向量;
将所述混合语义向量输入到所述预设神经网络的分类层,得到所述输入数据对应的文本和表格语义的预测概率信息。
在一些实施例,在所述embedding层对所述文本特征进行转换的过程中,所述数据处理方法还包括:
根据所述文本特征确定所述文本信息的每个字符、字符所组成的词语的开头位置和词语之间的分隔位置;
在embedding层中,每个字符按照位置顺序作为常规文本token,在所述开头位置设置[cls]作为特殊文本token、在所述分隔位置设置[sep]作为特殊文本token;
对每个文本token取对应的embedding,得到所述文本信息对应的tokenembedding。
在一些实施例,在所述embedding层对所述表格特征进行转换的过程中,所述数据处理方法还包括:
根据[cls]、每个字符和[sep]的位置顺序,为每个token编排从0开始编号的数字标识;
根据所述表格特征确定所述表格信息的每个单元格值,在embedding层中,每个单元格值作为表格token;
根据所述表格token对应的表头进行标识,得到表头标识;
在embedding层中,将所述数字标识和所述表头标识作为position;
对每个position取对应的embedding,得到position embedding。
在一些实施例,所述token type embedding通过以下方式得到:
为每个文本token设置第一类型的token type;
为每个表格token设置第二类型的token type;
对每个所述第一类型的token type和每个所述第二类型的token type取对应的embedding,得到token type embedding。
在一些实施例,所述将所述embedding层转换得到的各个embedding项输入所述预设神经网络的transformer层得到混合语义向量,包括:
将各个embedding项作为一个总体样本,确定所述总体样本的大小表示为(L,H),其中L表示token列表的长度,所述H表示embedding隐向量的长度,所述token列表的长度表征所述token embedding的项数;
根据transformer对所述总体样本进行转换,输出混合语义向量。
在一些实施例,所述混合语义向量表示为A=transformer(E),E是各个embedding项的总表示,所述分类层输出的预测概率信息表示为P;所述将所述混合语义向量输入到所述预设神经网络的分类层,得到所述输入数据对应的文本和表格语义的预测概率信息,包括:
从混合语义向量A的第一项向量开始,赋值O=A0
计算下式得到预测概率信息:
Figure BDA0003760137440000031
其中H表示embedding隐向量的长度,W和b是可学习的模型参数,W是一个大小为H的向量。
在一些实施例,在得到所述预测概率信息之后,所述数据处理方法还包括:
根据所述预测概率信息计算loss;
根据所述loss反向计算梯度,更新所述模型参数。
为实现上述目的,本申请实施例的第二方面提出了一种数据处理装置,包括:
数据获取单元,用于获取输入数据,所述输入数据包括文本信息和表格信息;
特征提取单元,用于对所述输入数据的文本信息进行特征提取,得到文本特征,对所述输入数据的表格信息进行特征提取,得到表格特征;
embedding单元,用于将所述文本特征和所述表格特征输入预设神经网络模型的embedding层,使得所述embedding层将所述文本特征和所述表格特征均进行转换得到token embedding、position embedding和token type embedding;其中所述tokenembedding表征所述文本信息的字符以及所述表格信息的值的特征取值,所述positionembedding表征所述文本信息的字符以及所述表格信息的值的位置关系,所述token typeembedding用于区分所述文本信息和所述表格信息;
transformer单元,用于将所述embedding层转换得到的各个embedding项输入所述预设神经网络的transformer层得到混合语义向量;
分类输出单元,用于将所述混合语义向量输入到所述预设神经网络的分类层,得到所述输入数据对应的文本和表格语义的预测概率信息。
为实现上述目的,本申请实施例的第三方面提出了一种计算机设备,所述计算机设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现上述第一方面所述的数据处理方法。
为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面所述的数据处理方法。
本申请提出的文本和表格语义交互的数据处理方法、装置及存储介质,通过embedding层对文本特征和表格特征都进行统一的转换,形成三种不同类型的embedding,分别是表征文本信息和表格信息的内容的token embedding,表征token所在位置的position embedding以及用于区分文本特征和表格特征的token type embedding,然后基于转换得到的三种类型的embedding,输入到神经网络的transformer层,实现文本和表格的深层语义交互,最终经过分类层得到概率分布信息。通过上述过程,在embedding层面实现了表格特征和文本特征的格式一致,将表格特征和文本特征均建模成token单元,以便于在transformer中的深度交互。
附图说明
图1是本申请实施例提供的文本和表格语义交互的数据处理方法的流程图;
图2是本申请实施例提供的根据文本特征得到文本信息对应的token embedding的流程图;
图3是本申请实施例提供的根据表格特征得到表格信息对应的token embedding,并得到position embedding的流程图;
图4是本申请实施例提供的得到token type embedding的流程图;
图5是本申请实施例提供的得到混合语义向量的流程图;
图6是本申请实施例提供的得到预测概率信息的流程图;
图7是本申请实施例提供的更新模型参数的流程图;
图8是本申请实施例提供的文本和表格语义交互的数据处理方法装置的模块结构框图;
图9是本申请实施例提供的计算机设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(Artificial Intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
自然语言处理(Natural Language Processing,NLP):NLP用计算机来处理、理解以及运用人类语言(如中文、英文等),NLP属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息图像处理、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
信息抽取(Information Extraction,NER):从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。
人工神经网络(Artificial Neural Networks,ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。它的主要任务是根据生物神经网络的原理和实际应用的需要建造实用的人工神经网络模型,设计相应的学习算法,模拟人脑的某种智能活动,然后在技术上实现出来用以解决实际问题。因此,生物神经网络主要研究智能的机理;人工神经网络主要研究智能机理的实现,两者相辅相成。不论何种类型的人工神经网络,它们共同的特点是,大规模并行处理,分布式存储,弹性拓扑,高度冗余和非线性运算。因而具有很髙的运算速度,很强的联想能力,很强的适应性,很强的容错能力和自组织能力。
目前针对表格进行分析,往往需要分析表格的构成与表格中的内容之间的关系,从而给出相应的分析结果,帮助分析人员将数据应用到广告、风控等数据分析场景。其中采用神经网络算法对表格进行分析,需要对表格进行特征提取,得到表格特征和文本特征,其中表格特征主要指在系统中以离散值、数值形式记录的字段,文本特征主要指在系统中固定设置的文本。由于表格具有两种特征的特性,在相关技术中的建模分析往往没有办法做到双模态建模或者只能做到双模态建模下两种模态是浅层交互的。
基于此,本申请实施例的主要目的在于提供一种文本和表格语义交互的数据处理方法、装置及存储介质,通过embedding层对文本特征和表格特征都进行统一的转换,形成三种不同类型的embedding,分别是表征文本信息和表格信息的内容的token embedding,表征token所在位置的position embedding以及用于区分文本特征和表格特征的tokentype embedding,然后基于转换得到的三种类型的embedding,输入到神经网络的transformer层,实现文本和表格的深层语义交互,最终经过分类层得到概率分布信息。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的文本和表格语义交互的数据处理方法,涉及人工智能技术领域。本申请实施例提供的文本和表格语义交互的数据处理方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现文本和表格语义交互的数据处理方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请实施例提供文本和表格语义交互的数据处理方法、装置及存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的文本和表格语义交互的数据处理方法。
图1是本申请实施例提供的文本和表格语义交互的数据处理方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤S101至步骤S107。
步骤S101,获取输入数据,输入数据包括文本信息和表格信息;
步骤S102,对输入数据的文本信息进行特征提取,得到文本特征,对输入数据的表格信息进行特征提取,得到表格特征;
步骤S103,将文本特征和表格特征输入预设神经网络模型的embedding层,使得embedding层将文本特征和表格特征均进行转换得到token embedding、positionembedding和token type embedding;其中token embedding表征文本信息的字符以及表格信息的值的特征取值,position embedding表征文本信息的字符以及表格信息的值的位置关系,token type embedding用于区分文本信息和表格信息;
步骤S104,将embedding层转换得到的各个embedding项输入预设神经网络的transformer层得到混合语义向量;
步骤S105,将混合语义向量输入到预设神经网络的分类层,得到输入数据对应的文本和表格语义的预测概率信息。
输入数据一般为包含有数据的表格,在表格中,将表格固定的文本那部分作为文本信息,将离散文本以及离散值等的那部分作为表格特征,基于此对表格进行深度交互的语义分析。
具体来说,首先将文本信息进行特征提取,得到文本特征,将表格信息进行特征提取,得到表格特征;将提取得到的文本特征和表格特征输入到预设神经网络模型中。该预设神经网络模型包括embedding层,embedding层用于将文本特征和表格特征进行转换,得到三种类型的embedding项。embedding层设计成对三种对象进行embedding,包括token、position和token type,其中token在embedding层中转换得到token embedding,position在embedding层中转换的到position embedding,token type在embedding层中转换得到token type embedding;token表示文本信息的字符以及表格信息的值,因此token本身可以划分为字符token和表格token,这在后面将进行详细说明。而position表示token在表格中所在的位置,通过position对各个token进行定位,而token type则是用来划分文本token和表格token,可以采用01值区分,或者直接用“文本”和“表格”区分,以及其他类型的二值化区分方式。在embedding层进行上述转换,将文本特征和表格特征都转换成统一的形式,即都使用token单元进行表示,然后对于不同的token单元,用position和token type区分其位置和类型,从而在后续的transformer层实现文本token和表格token之间的深层语义交互。可以理解的是,在embedding层需要对token、position和token type进行转换,对应得到token embedding、position embedding和token type embedding。
因此可知,在得到各个embedding项(token embedding、position embedding和token type embedding)之后,将这些embedding项输入到transformer层进行交互,交互后得到混合语义向量,即文本特征和表格特征在transformer层混合转换进行交互。之后将混合语义向量输入到预设神经网络的分类层,预测概率分布,得到输入数据对应的文本和表格语义的预测概率信息。
上述过程针对表格进行数据处理的整体过程,为了清晰说明本申请的数据处理方法,下面对上述步骤进行详细说明。
参照图2所示,在一些实施例中,在embedding层对文本特征进行转换的过程中,数据处理方法还包括以下步骤:
步骤S201,根据文本特征确定文本信息的每个字符、字符所组成的词语的开头位置和词语之间的分隔位置;
步骤S202,在embedding层中,每个字符按照位置顺序作为常规文本token,在开头位置设置[cls]作为特殊文本token、在分隔位置设置[sep]作为特殊文本token;
步骤S203,对每个文本token取对应的embedding,得到文本信息对应的tokenembedding。
在文本特征中确定文本信息的每个字符,以及由字符组成的词语的开头位置和词语之间的分隔位置,每个字符作为一个文本token,开头位置设置[cls]并将[cls]作为特殊文本token,分隔位置设置[sep]并将[sep]也作为特殊文本token。那么对于文本信息来说,在embedding层中具有三种格式的文本token,[cls]对应的特殊文本token、常规文本token以及[sep]对应的特殊文本token。
上述是embedding层对文本特征进行转换得到文本token,embedding层还接收表格特征进行转换得到表格token,具体来说,参照图3所示,在embedding层对表格特征进行转换的过程中,数据处理方法还包括:
步骤S301,根据[cls]、每个字符和[sep]的位置顺序,为每个token编排从0开始编号的数字标识;
步骤S302,根据表格特征确定表格信息的每个单元格值,在embedding层中,每个单元格值作为表格token;
步骤S303,根据表格token对应的表头进行标识,得到表头标识;
步骤S304,在embedding层中,将数字标识和表头标识作为position;
步骤S305,对每个position取对应的embedding,得到position embedding。
表格特征转换得到的表格token,每个表格token都表示一个特征取值,因此表格token与文本token不一样,不是以字符进行划分的,而是根据表格特征取值有关。根据表格token和文本token进行排序,可以得到position。由于文本token本身是以字符划分的,字符具有顺序,因此可以直接根据embedding过程中文本token的顺序得到position,而表格token根据离散文本以及离散值等在表格中的位置先后顺序得到position,例如按照表头的顺序,从单元格的左边到右边进行排序,也可以通过标注的方式设定好顺序等等,在此不作限定。
上述排序,文本token由于根据字符顺序得到的,因此可以采用数字来确定文本token的顺序,例如0,1,2,3等,可以记为数字标识,表格token在根据表头的关系进行排序得到,因此采用表格标识来记录排序,表格标识可以直接采用表头的值,以表头的值划分排序方式。因此根据上述数字标识和表头表示生成position,然后对每个position取对应的embedding,即可得到position embedding。
另一方面,token type则根据文本特征和表格特征直接区分,具体来说,参照图4所示,token type embedding通过以下方式得到:
步骤S401,为每个文本token设置第一类型的token type;
步骤S402,为每个表格token设置第二类型的token type;
步骤S403,对每个第一类型的token type和每个第二类型的token type取对应的embedding,得到token type embedding。
对于文本token采用第一类型的token type,对于表格token采用第二类型的token type,第一类型的token type和第二类型的token type的值可以根据实际需要设置,例如第一类型的token type直接用“文本”表示,第二类型的token type直接用“表格”表示,在此不做限定。
之后对第一类型的token type和第二类型的token type取对应的embedding,得到token type embedding。
这里通过一个例子embedding的转换进行简单的举例说明:
在embedding层的输入可以是如下表1本身:
表1.embedding层的输入
文本 科室代码 警戒线 申请原因
高血压 17 Y 疾病
经过embedding处理之后,将三种类型的embedding项以下表2表示:
Figure BDA0003760137440000091
Figure BDA0003760137440000101
经过embedding层之后,文本特征和表格特征都转换成统一的格式,即token单元,并通过position对token单元的位置进行区分,以及通过token type对token单元的类型进行区分,从而有利于在后续的transformer层进行处理。
transformer模型是一种广泛应用于自然语言识别领域的模型,例如机器翻译、问答系统、文本摘要和语音识别等方向。Transformer的结构和Attention模型-样,Transformer模型中也采用了encoer-decoder架构。Encoder生成一个基于attention的表示,能够从一个大的上下文中定位一个特定的信息片段,Transformer的decoder功能是从encoder的表示中抽取信息。该结构与encoder非常相似,只是decoder包含两个多头注意子模块,而不是在每个相同的重复模块中包含一个。第一个多头注意子模块被屏蔽,以防止位置穿越。
本申请可以适用于常规的transformer层,可以理解的是,transformer层考虑位置信息,以在输出的时候带有时序。位置信息由前述的position提供,通过positionembedding对应的顺序特征的向量确保transformer层的输出带有时序特性。由于本申请并没有对transformer层进行限制,因此对于transformer层的具体构成,则不作限制。
本申请的transformer层的输入包括上述提到的各个embedding项,因此能够输出混合语义向量,具体来说,参照图5所示,将embedding层转换得到的各个embedding项输入预设神经网络的transformer层得到混合语义向量,包括:
步骤S501,将各个embedding项作为一个总体样本,确定总体样本的大小表示为(L,H),其中L表示token列表的长度,H表示embedding隐向量的长度,token列表的长度表征token embedding的项数;
步骤S502,根据transformer对总体样本进行转换,输出混合语义向量。
将各个embedding项表示成一个总体样本,输入到transformer层,经过transformer层内部的编码和解码过程,得到混合语义向量,其中总体样本的大小表示为(L,H),L表示token列表的长度,token列表由上述文本token和表格token得到,将所有token单元形成列表即为token列表,由于embedding层需要对各个token单元进行embedding,因此在进行embedding之前根据各个token单元形成token列表并记录token列表的长度;H表示embedding隐向量的长度,在此不作过多解释。
总之,在transformer层对构成的总体样本进行转换,可以得到混合语义向量,从而将混合语义向量送到分类层,得到最终输出。
参照图6所示,假设混合语义向量表示为A=transformer(E),E是各个embedding项的总表示,分类层输出的预测概率信息表示为P;将混合语义向量输入到预设神经网络的分类层,得到输入数据对应的文本和表格语义的预测概率信息,包括:
步骤S601,从混合语义向量A的第一项向量开始,赋值O=A0
步骤S602,计算下式得到预测概率信息:
Figure BDA0003760137440000111
其中H表示embedding隐向量的长度,W和b是可学习的模型参数,W是一个大小为H的向量。
token embedding可以表示为:
Figure BDA0003760137440000112
position embedding可以表示为:
Figure BDA0003760137440000113
token type可以表示为:
Figure BDA0003760137440000114
则总表示E,也就是上述总体样本,可以表示为:
E=[e0,e1,e2,...]
其中,
Figure BDA0003760137440000115
i为自然数。
由于混合语义向量A由E经过transformer层编码解码得到,因此A也可以表示为:
A=[A0,A1,A2,...AL-1]
其中,L表示token列表的长度。
将混合语义向量输入到分类层,并基于下式得到最终的概率分布。
Figure BDA0003760137440000116
W和b是可学习的模型参数,在后续可以根据loss进行反向计算梯度,更新这两个模型参数,从而优化数据处理过程。
参照图7所示,在优化方面,得到预测概率信息之后,数据处理方法还包括:
步骤S701,根据预测概率信息计算loss;
步骤S702,根据loss反向计算梯度,更新模型参数。
上述步骤S701和步骤S702可以应用到预设神经网络模型的训练过程中,也可以应用到预设神经网络模型训练完成并投入使用之后,实际上就是根据loss进行模型参数更新,在此不对loss的反向梯度计算作展开说明。
在训练过程中,可以对输入数据进行分batch处理,一条输入数据包含两个部分,分别是文本部分和表格数据部分,即上述文本信息和表格信息。由此在模型训练过程中可以分batch进行处理,一个batch可以包含有多条数据。将上述得到的文本部分和表格数据部分输入到未经训练的或未完成训练的预设神经网络模型,计算得到模型预测盖概率,根据模型预测概率和标签计算loss,然后反向计算梯度,并根据计算结果更新模型参数。
在训练完成后,即可将实际的文本部分和表格数据部分输入到训练好的预设神经网络模型,得到实际的模型预测概率。
综上,通过上述数据处理方法,利用embedding层对文本特征和表格特征都进行统一的转换,形成三种不同类型的embedding,分别是表征文本信息和表格信息的内容的token embedding,表征token所在位置的position embedding以及用于区分文本特征和表格特征的token type embedding,然后基于转换得到的三种类型的embedding,输入到神经网络的transformer层,实现文本和表格的深层语义交互,最终经过分类层得到概率分布信息。通过上述过程,在embedding层面实现了表格特征和文本特征的格式一致,将表格特征和文本特征均建模成token单元,以便于在transformer中的深度交互。
请参阅图8,本申请实施例还提供数据处理装置,可以实现上述一种文本和表格语义交互的数据处理方法,图8为本申请实施例提供的数据处理装置的模块结构框图,该装置包括:数据获取单元801、特征提取单元802、embedding单元803、transformer单元804和分类输出805。其中,数据获取单元801用于获取输入数据,所述输入数据包括文本信息和表格信息;特征提取单元802用于对所述输入数据的文本信息进行特征提取,得到文本特征,对所述输入数据的表格信息进行特征提取,得到表格特征;embedding单元803用于将所述文本特征和所述表格特征输入预设神经网络模型的embedding层,使得所述embedding层将所述文本特征和所述表格特征均进行转换得到token embedding、position embedding和token type embedding;其中所述token embedding表征所述文本信息的字符以及所述表格信息的值的特征取值,所述position embedding表征所述文本信息的字符以及所述表格信息的值的位置关系,所述token type embedding用于区分所述文本信息和所述表格信息;transformer单元804用于将所述embedding层转换得到的各个embedding项输入所述预设神经网络的transformer层得到混合语义向量;分类输出单元805用于将所述混合语义向量输入到所述预设神经网络的分类层,得到所述输入数据对应的文本和表格语义的预测概率信息。
本申请实施例的数据处理装置,能够通过embedding层对文本特征和表格特征都进行统一的转换,形成三种不同类型的embedding,分别是表征文本信息和表格信息的内容的token embedding,表征token所在位置的position embedding以及用于区分文本特征和表格特征的token type embedding,然后基于转换得到的三种类型的embedding,输入到神经网络的transformer层,实现文本和表格的深层语义交互,最终经过分类层得到概率分布信息。通过上述过程,在embedding层面实现了表格特征和文本特征的格式一致,将表格特征和文本特征均建模成token单元,以便于在transformer中的深度交互。
需要说明的是,该数据处理装置的具体实施方式与上述文本和表格语义交互的数据处理方法的具体实施例基本相同,在此不再赘述。
本申请实施例还提供了一种计算机设备,计算机设备包括:存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线,程序被处理器执行时实现上述文本和表格语义交互的数据处理方法。该计算机设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图9,图9示意了另一实施例的计算机设备的硬件结构,计算机设备包括:
处理器901,可以采用通用的CPU(Central Processi ngUnit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器902,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器902可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器902中,并由处理器901来调用执行本申请实施例的文本和表格语义交互的数据处理方法;
输入/输出接口903,用于实现信息输入及输出;
通信接口904,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线905,在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息;
其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,用于计算机可读存储,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述文本和表格语义交互的数据处理方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例提供的文本和表格语义交互的数据处理方法、数据处理装置、计算机设备及存储介质,通过对原始语料进行文本抽取处理,提取出最能表达原始语料含义的初步摘要文本,再根据预设的分段文本长度对初步摘要文本进行划分,得到目标分段文本。对目标分段文本进行过滤,以确定目标候选词组。并对目标候选词组语义解析处理,通过分词的词类型能够确定分词的重要性,并根据分词的词类型将分词链接至预设的上下位认知图谱,得到目标上下位认知图谱。由于通过目标上下位知识图谱能够轻松获知各个分词的上下位信息、以及各个分词之间的联系,因此,通过本申请实施例的文本和表格语义交互的数据处理方法能够提高获取信息的效率。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图1-7中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

Claims (10)

1.一种文本和表格语义交互的数据处理方法,其特征在于,包括:
获取输入数据,所述输入数据包括文本信息和表格信息;
对所述输入数据的文本信息进行特征提取,得到文本特征,对所述输入数据的表格信息进行特征提取,得到表格特征;
将所述文本特征和所述表格特征输入预设神经网络模型的embedding层,使得所述embedding层将所述文本特征和所述表格特征均进行转换得到token embedding、positionembedding和token type embedding;其中所述token embedding表征所述文本信息的字符以及所述表格信息的值的特征取值,所述position embedding表征所述文本信息的字符以及所述表格信息的值的位置关系,所述token type embedding用于区分所述文本信息和所述表格信息;
将所述embedding层转换得到的各个embedding项输入所述预设神经网络的transformer层得到混合语义向量;
将所述混合语义向量输入到所述预设神经网络的分类层,得到所述输入数据对应的文本和表格语义的预测概率信息。
2.根据权利要求1所述的数据处理方法,其特征在于,在所述embedding层对所述文本特征进行转换的过程中,所述数据处理方法还包括:
根据所述文本特征确定所述文本信息的每个字符、字符所组成的词语的开头位置和词语之间的分隔位置;
在embedding层中,每个字符按照位置顺序作为常规文本token,在所述开头位置设置[cls]作为特殊文本token、在所述分隔位置设置[sep]作为特殊文本token;
对每个文本token取对应的embedding,得到所述文本信息对应的token embedding。
3.根据权利要求2所述的数据处理方法,其特征在于,在所述embedding层对所述表格特征进行转换的过程中,所述数据处理方法还包括:
根据[cls]、每个字符和[sep]的位置顺序,为每个token编排从0开始编号的数字标识;
根据所述表格特征确定所述表格信息的每个单元格值,在embedding层中,每个单元格值作为表格token;
根据所述表格token对应的表头进行标识,得到表头标识;
在embedding层中,将所述数字标识和所述表头标识作为position;
对每个position取对应的embedding,得到position embedding。
4.根据权利要求3所述的数据处理方法,其特征在于,所述token type embedding通过以下方式得到:
为每个文本token设置第一类型的token type;
为每个表格token设置第二类型的token type;
对每个所述第一类型的token type和每个所述第二类型的token type取对应的embedding,得到token type embedding。
5.根据权利要求1至4任一项所述的数据处理方法,其特征在于,所述将所述embedding层转换得到的各个embedding项输入所述预设神经网络的transformer层得到混合语义向量,包括:
将各个embedding项作为一个总体样本,确定所述总体样本的大小表示为(L,H),其中L表示token列表的长度,H表示embedding隐向量的长度,所述token列表的长度表征所述token embedding的项数;
根据transformer对所述总体样本进行转换,输出混合语义向量。
6.根据权利要求1或5所述的数据处理方法,其特征在于,所述混合语义向量表示为A=transformer(E),E是各个embedding项的总表示,所述分类层输出的预测概率信息表示为P;所述将所述混合语义向量输入到所述预设神经网络的分类层,得到所述输入数据对应的文本和表格语义的预测概率信息,包括:
从混合语义向量A的第一项向量开始,赋值O=A0
计算下式得到预测概率信息:
Figure FDA0003760137430000021
其中H表示embedding隐向量的长度,W和b是可学习的模型参数,W是一个大小为H的向量。
7.根据权利要求6所述的数据处理方法,其特征在于,在得到所述预测概率信息之后,所述数据处理方法还包括:
根据所述预测概率信息计算loss;
根据所述loss反向计算梯度,更新所述模型参数。
8.一种数据处理装置,其特征在于,所述装置包括:
数据获取单元,用于获取输入数据,所述输入数据包括文本信息和表格信息;
特征提取单元,用于对所述输入数据的文本信息进行特征提取,得到文本特征,对所述输入数据的表格信息进行特征提取,得到表格特征;
embedding单元,用于将所述文本特征和所述表格特征输入预设神经网络模型的embedding层,使得所述embedding层将所述文本特征和所述表格特征均进行转换得到token embedding、position embedding和token type embedding;其中所述tokenembedding表征所述文本信息的字符以及所述表格信息的值的特征取值,所述positionembedding表征所述文本信息的字符以及所述表格信息的值的位置关系,所述token typeembedding用于区分所述文本信息和所述表格信息;
transformer单元,用于将所述embedding层转换得到的各个embedding项输入所述预设神经网络的transformer层得到混合语义向量;
分类输出单元,用于将所述混合语义向量输入到所述预设神经网络的分类层,得到所述输入数据对应的文本和表格语义的预测概率信息。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1至7任一项所述的数据处理方法的步骤。
10.一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至7中任一项所述的数据处理方法的步骤。
CN202210867877.5A 2022-07-21 2022-07-21 文本和表格语义交互的数据处理方法、装置及存储介质 Pending CN115204300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210867877.5A CN115204300A (zh) 2022-07-21 2022-07-21 文本和表格语义交互的数据处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210867877.5A CN115204300A (zh) 2022-07-21 2022-07-21 文本和表格语义交互的数据处理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115204300A true CN115204300A (zh) 2022-10-18

Family

ID=83584371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210867877.5A Pending CN115204300A (zh) 2022-07-21 2022-07-21 文本和表格语义交互的数据处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115204300A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983237A (zh) * 2023-03-21 2023-04-18 北京亚信数据有限公司 表格类型识别模型训练、预测及表格数据推荐方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983237A (zh) * 2023-03-21 2023-04-18 北京亚信数据有限公司 表格类型识别模型训练、预测及表格数据推荐方法和装置

Similar Documents

Publication Publication Date Title
CN111324696B (zh) 实体抽取方法、实体抽取模型的训练方法、装置及设备
CN114358007A (zh) 多标签识别方法、装置、电子设备及存储介质
CN114722069A (zh) 语言转换方法和装置、电子设备及存储介质
CN114897060B (zh) 样本分类模型的训练方法和装置、样本分类方法和装置
WO2023108991A1 (zh) 模型的训练方法、知识分类方法、装置、设备、介质
CN114626097A (zh) 脱敏方法、脱敏装置、电子设备及存储介质
CN114240552A (zh) 基于深度聚类算法的产品推荐方法、装置、设备及介质
CN114064894A (zh) 文本处理方法、装置、电子设备及存储介质
CN114519356A (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN114841146A (zh) 文本摘要生成方法和装置、电子设备及存储介质
CN114637847A (zh) 模型的训练方法、文本分类方法和装置、设备、介质
CN114613462A (zh) 医疗数据处理方法和装置、电子设备及存储介质
CN115204300A (zh) 文本和表格语义交互的数据处理方法、装置及存储介质
CN117373591A (zh) 电子病历的疾病识别方法和装置、电子设备及存储介质
CN116702743A (zh) 文本相似度检测方法和装置、电子设备及存储介质
CN116741396A (zh) 文章归类方法和装置、电子设备和存储介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN115795007A (zh) 智能问答方法、智能问答装置、电子设备及存储介质
CN115270746A (zh) 问题样本生成方法和装置、电子设备及存储介质
CN115828153A (zh) 基于人工智能的任务预测方法、装置、设备和介质
CN114996458A (zh) 文本处理方法和装置、设备、介质
CN115205546A (zh) 模型训练方法和装置、电子设备、存储介质
CN115034317A (zh) 保单识别模型的训练方法和装置、保单识别方法和装置
CN115292460A (zh) 一种话题推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination