CN112163428A - 语义标签的获取方法、装置、节点设备及存储介质 - Google Patents
语义标签的获取方法、装置、节点设备及存储介质 Download PDFInfo
- Publication number
- CN112163428A CN112163428A CN202010984552.6A CN202010984552A CN112163428A CN 112163428 A CN112163428 A CN 112163428A CN 202010984552 A CN202010984552 A CN 202010984552A CN 112163428 A CN112163428 A CN 112163428A
- Authority
- CN
- China
- Prior art keywords
- semantic
- data item
- word segmentation
- sequence
- prediction probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种语义标签的获取方法、装置、节点设备及存储介质,属于数据库技术领域。本申请通过针对关系型数据库的任一目标字段,基于该目标字段所对应的各个数据项的语义特征,获取该目标字段的语义标签,由于该语义特征取决于各个数据项,因此而不会根据目标字段的命名而改变,从而提升了语义标签的识别准确率。
Description
技术领域
本申请涉及数据库技术领域,特别涉及一种语义标签的获取方法、装置、节点设备及存储介质。
背景技术
随着数据库技术的发展,关系型数据库中指定字段的语义标签识别是众多数据分析工作的基础。比如,在模式匹配领域中,准确的字段语义标签,能够帮助推测多源异构关系模式中不同字段之间的对应关系。目前互联网或其他信息系统中对关系数据缺乏统一的命名规范,导致同一语义的指定字段在不同信息系统中可能会具有不同的命名,且这一命名往往存在着指代不明确等问题,这给指定字段的语义标签识别工作带来了很大的挑战。因此,如何准确识别出指定字段的语义标签成为一个亟需解决的难题。
发明内容
本申请实施例提供了一种语义标签的获取方法、装置、节点设备及存储介质,能够准确识别出指定字段的语义标签。该技术方案如下:
一方面,提供了一种语义标签的获取方法,该方法包括:
获取关系型数据库中待识别的目标字段所对应的至少一个数据项;
基于所述至少一个数据项,获取所述目标字段的语义特征;
对所述语义特征进行处理,获取所述目标字段的语义标签。
一方面,提供了一种语义标签的获取装置,该装置包括:
第一获取模块,用于获取关系型数据库中待识别的目标字段所对应的至少一个数据项;
第二获取模块,用于基于所述至少一个数据项,获取所述目标字段的语义特征;
第三获取模块,用于对所述语义特征进行处理,获取所述目标字段的语义标签。
在一种可能实施方式中,所述第二获取模块包括:
第一编码单元,用于调用第一翻译模型对所述至少一个数据项进行编码,得到所述语义特征,所述第一翻译模型用于基于所述至少一个数据项获取所述语义特征。
在一种可能实施方式中,所述第一编码单元用于:
对所述至少一个数据项进行分词处理,得到包括至少一个字符的第一分词序列,所述至少一个字符包括分类符和对所述至少一个数据项分词处理所得的字符;
将所述第一分词序列输入到所述第一翻译模型中的至少一个双向编码层,通过所述至少一个双向编码层对所述第一分词序列进行正向编码和反向编码,输出第一语义向量序列,所述第一语义向量序列中一个第一语义向量对应于所述第一分词序列中一个字符;
将所述第一语义向量序列中与所述分类符对应的第一语义向量确定为所述语义特征。
在一种可能实施方式中,所述第二获取模块包括:
第一获取单元,用于获取所述目标字段的上下文信息,所述上下文信息包括与所述目标字段对应于同一关系数据的其他字段的数据项;
第二编码单元,用于调用第二翻译模型对所述至少一个数据项和所述上下文信息进行编码,得到所述语义特征,所述第二翻译模型用于基于所述至少一个数据项和所述上下文信息获取所述语义特征。
在一种可能实施方式中,所述第二编码单元用于:
对所述至少一个数据项和所述上下文信息进行分词处理,得到包括至少一个字符的第二分词序列,所述至少一个字符包括分类符、对所述至少一个数据项和所述上下文信息分词处理所得的字符以及语句分隔符;
将所述第二分词序列输入到所述第二翻译模型中的至少一个双向编码层,通过所述至少一个双向编码层对所述第二分词序列进行正向编码和反向编码,输出第二语义向量序列,所述第二语义向量序列中一个第二语义向量对应于所述第二分词序列中一个字符;
将所述第二语义向量序列中与所述分类符对应的第二语义向量确定为所述语义特征。
在一种可能实施方式中,所述第三获取模块包括:
第二获取单元,用于基于所述语义特征,获取至少一个第一预测概率,一个第一预测概率用于表示所述语义特征与一种语义标签之间的匹配程度;
第一确定单元,用于将所述至少一个第一预测概率中最大第一预测概率所对应的语义标签确定为所述目标字段的语义标签。
在一种可能实施方式中,所述装置还包括:
查询模块,用于从知识库中,查询与所述至少一个数据项所对应的至少一个候选类别,一个数据项对应于一个或多个候选类别;
编码模块,用于对所述至少一个候选类别进行编码,得到所述至少一个数据项的第一类别特征;
降维模块,用于对所述至少一个数据项的第一类别特征进行降维,得到所述至少一个数据项的第二类别特征。
在一种可能实施方式中,所述第三获取模块包括:
第三获取单元,用于获取所述至少一个数据项的平均嵌入特征;
第一拼接单元,用于将所述平均嵌入特征与所述第二类别特征进行拼接,得到第一拼接特征;
第四获取单元,用于基于所述第一拼接特征和所述语义特征,获取所述目标字段的语义标签。
在一种可能实施方式中,所述第四获取单元用于:
基于所述语义特征,获取至少一个第一预测概率,一个第一预测概率用于表示所述语义特征与一种语义标签之间的匹配程度;
基于所述第一拼接特征,获取至少一个第二预测概率,一个第二预测概率用于表示所述第一拼接特征与一种语义标签之间的匹配程度;
分别对所述至少一个第一预测概率和所述至少一个第二预测概率进行加权处理,得到至少一个第三预测概率;
将所述至少一个第三预测概率中与最大第三预测概率所对应的语义标签确定为所述目标字段的语义标签。
在一种可能实施方式中,所述第三获取模块包括:
第二拼接单元,用于将所述第二类别特征与所述语义特征进行拼接,得到第二拼接特征;
第五获取单元,用于基于所述第二拼接特征,获取至少一个第四预测概率,一个第四预测概率用于表示所述第二拼接特征与一种语义标签之间的匹配程度;
第二确定单元,用于将所述至少一个第四预测概率中与最大第四预测概率所对应的语义标签确定为所述目标字段的语义标签。
一方面,提供了一种节点设备,该节点设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的语义标签的获取方法。
一方面,提供了一种存储介质,该存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行以实现如上述任一种可能实现方式的语义标签的获取方法。
一方面,提供一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括一条或多条程序代码,所述一条或多条程序代码存储在计算机可读存储介质中。节点设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码,所述一个或多个处理器执行所述一条或多条程序代码,使得节点设备能够执行上述任一种可能实施方式的语义标签的获取方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过针对关系型数据库的任一目标字段,基于该目标字段所对应的各个数据项的语义特征,获取该目标字段的语义标签,由于该语义特征取决于各个数据项,因此而不会根据目标字段的命名而改变,从而提升了语义标签的识别准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还能够根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语义标签的获取方法的实施环境示意图;
图2是本申请实施例提供的一种语义标签的获取方法的流程图;
图3是本申请实施例提供的一种语义标签的获取方法的原理性示意图;
图4是本申请实施例提供的一种语义标签的获取方法的流程图;
图5是本申请实施例提供的一种第一翻译模型的原理性示意图;
图6是本申请实施例提供的一种语义标签的获取方法的流程图;
图7是本申请实施例提供的一种第二翻译模型的原理性示意图;
图8是本申请实施例提供的一种语义标签的获取方法的流程图;
图9是本申请实施例提供的一种知识库中本体类关系的原理性示意图;
图10是本申请实施例提供的一种语义标签的获取装置的结构示意图;
图11是本申请实施例提供的一种节点设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上,例如,多个第一位置是指两个或两个以上的第一位置。
在介绍本申请实施例之前,需要引入一些云技术领域内的基本概念:
云技术(Cloud Technology):是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术,也即是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成云技术领域的重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,均能通过云计算来实现。
云存储(Cloud Storage):是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
数据库(Database):简而言之可视为一种电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
关系型数据库(Relational Database):是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。用户通过查询来检索数据库中的数据,而查询是一个用于限定数据库中某些区域的执行代码。关系模型可以简单理解为二维表格模型,而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织。简而言之,关系型数据库是由多张能互相联接的二维行列表格组成的数据库,当前主流的关系型数据库包括Oracle、DB2、Microsoft SQL Server、Microsoft Access、MySQL等。
上述关系型数据库,可以是单机数据库系统、单机以事务为主的数据库系统、单机以分析型为主但需要事务处理能力的数据库系统,还可以是分布式数据库系统、分布式大数据处理系统。
在数据库系统中可以包括至少一个节点设备,每个节点设备的数据库中可以存储有多个数据表,每个数据表可以用于存储一个或多个数据项。其中,节点设备的数据库可以为任一类型的关系型数据库,例如Oracle、DB2、Microsoft SQL Server、MicrosoftAccess、MySQL等。
在一些实施例中,本申请实施例还可以应用于一种基于区块链技术的数据库系统(以下简称为“区块链系统”),上述区块链系统在本质上属于一种去中心化式的分布式数据库系统,采用共识算法保持区块链上不同节点设备所记载的账本数据一致,通过密码算法保证不同节点设备之间账本数据的加密传送以及不可篡改,通过脚本系统来拓展账本功能,通过网络路由来进行不同节点设备之间的相互连接。
在区块链系统中可以包括一条或多条区块链,区块链是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
区块链系统中节点设备之间可以组成点对点(Peer To Peer,P2P)网络,P2P协议是一个运行在传输控制协议(Transmission Control Protocol,TCP)协议之上的应用层协议。在区块链系统中,任一节点设备可以具备如下功能:1)路由,节点设备具有的基本功能,用于支持节点设备之间的通信;2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成账本数据,在账本数据中携带数字签名以表示数据来源,将账本数据发送至区块链系统中的其他节点设备,供其他节点设备在验证账本数据来源以及完整性成功时,将账本数据添加至临时区块中,其中,应用实现的业务可以包括钱包、共享账本、智能合约等;3)区块链,包括一系列按照先后的时间顺序相互接续的区块,新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点设备提交的账本数据。
在一些实施例中,每个区块中可以包括本区块存储交易记录的哈希值(本区块的哈希值)以及前一区块的哈希值,各区块通过哈希值连接形成区块链,另,区块中还可以包括有区块生成时的时间戳等信息。
本申请实施例涉及上述关系型数据库,关系型数据库中存储有多张数据表,数据表中的每一行(也即每一条记录)称为一个元组,数据表中的每一列(也即每个字段)称为一个关系属性,每一列中存储的数据项称为关系属性值,每一列的列名称为关系属性名。
在关系型数据库中,关系属性语义的识别是众多数据分析工作的基础。例如在模式匹配领域,准确的关系属性语义可以帮助推测多源异构关系模式中属性之间的对应关系。然而,目前互联网或其他信息系统中的关系数据缺乏统一的命名规范,关系属性名往往存在着指代不明确的问题,给关系属性的语义识别带来了很大的挑战。
目前,针对一些书写规范或者内容有限的关系属性,例如企业信用代码、电子邮箱、性别、邮政编码等,可以采用正则匹配等基于规则的方式进行识别,这种基于规则的方式能够识别出特定语义类别,在一些商业数据分析系统中有着广泛的应用。
在上述过程中,以正则匹配为例,需要根据人为设定的匹配规则,进行特定类别的属性语义检测,只适用于部分书写形式特殊的关系数据,因此这一方式只能满足特定数据分析系统对于有限语义类别识别的需求,业务局限性较大,不能够被广泛地应用于通用语义类别识别。
有鉴于此,本申请实施例提供一种语义标签的获取方法,能够针对关系型数据库自动识别关系属性(也即目标字段)的语义标签,打破了采用基于规则的方式进行语义识别时的业务局限性,能够广泛应用于各类通用语义类别识别场景,且具有较高的准确性。
图1是本申请实施例提供的一种语义标签的获取方法的实施环境示意图。参见图1,以分布式关系型数据库系统为例,该系统中可以包括网关服务器101、分布式存储集群102以及分布式协调系统103(例如ZooKeeper),在分布式存储集群102中可以包括多个节点设备,该多个节点设备上采用关系型数据库进行数据存储。
其中,网关服务器101用于接收外部的读写请求,并将读写请求对应的读写事务分发至分布式存储集群102,比如,用户在登录终端上的应用客户端之后,触发应用客户端生成读写请求,调用分布式数据库系统提供的API(Application Programming Interface,应用程序编程接口)将该读写请求发送至网关服务器101,比如,该API可以是MySQL API(一种关系型数据库系统提供的API)。
在一些实施例中,该网关服务器101可以与分布式存储集群102中的任一节点设备合并在同一个物理机上,也即是,让某个节点设备充当网关服务器101。
其中,分布式存储集群102可以包括多个节点设备。可选地,每个节点设备可以是单机设备,也可以采用主备结构(也即是为一主多备集群),如图1所示,以节点设备为一主两备集群为例进行示意,每个节点设备中包括一个主机和两个备机,可选地,每个主机或备机都对应配置有代理(agent)设备,代理设备可以与主机或备机是物理独立的,当然,代理设备还可以作为主机或备机上的一个代理模块,以节点设备1为例,节点设备1包括一个主数据库及代理设备(主Database+agent,简称主DB+agent),此外还包括两备数据库及代理设备(备Database+agent,简称备DB+agent)。需要说明的是,节点设备的主数据库和备数据库均为关系型数据库。
在一个示例性场景中,每个节点设备所对应的主机或备机的数据库实例集合称为一个SET(集合),例如,假设某一节点设备为单机设备,那么该节点设备的SET仅为该单机设备的数据库实例,假设某一节点设备为一主两备集群,那么该节点设备的SET为主机数据库实例以及两个备机数据库实例的集合,此时可以基于云数据库的强同步技术来保证主机的数据与备机的副本数据之间的一致性,可选地,每个SET可以进行线性扩容,以应付大数据场景下的业务处理需求,在一些金融业务场景下,全局事务通常是指跨SET的转账。
分布式协调系统103可以用于对网关服务器101或者分布式存储集群102中至少一项进行管理,可选地,技术人员可以通过终端上的调度器(scheduler)访问该分布式协调系统103,从而基于前端的调度器来控制后端的分布式协调系统103,实现对各个集群或服务器的管理。例如,技术人员可以通过调度器来控制ZooKeeper将某一个节点设备从分布式存储集群102中删除,也即是使得某一个节点设备失效。
上述图1仅是提供了一种轻量级的全局事务处理的架构图,是一种类分布式关系型数据库系统。整个分布式关系型数据库系统可以看作是共同维护一个逻辑上的大表,这个大表中存储的数据通过主键被打散到分布式存储集群102中的各个节点设备中,每个节点设备上存储的数据是独立于其他节点设备的,从而实现了节点设备对逻辑大表的水平切分。由于在上述系统中能够将各个数据库中各个数据表水平切分后进行分布式地存储,因此,这种系统也可以形象地称为具有“分库分表”的架构。
本申请实施例提供的语义标签的获取方法,可以应用于上述采用了分库分表架构的分布式关系型数据库系统,此外,本申请实施例提供的语义标签的获取方法也可以应用于一些单机关系型数据库系统中。
在一些实施例中,上述网关服务器101、分布式存储集群102以及分布式协调系统103所构成的分布式数据库系统,可以视为一种向用户终端提供数据服务的服务器,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,上述用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
图2是本申请实施例提供的一种语义标签的获取方法的流程图。参见图2,该实施例应用于节点设备,该实施例包括以下步骤:
201、节点设备获取关系型数据库中待识别的目标字段所对应的至少一个数据项。
其中,该待识别的目标字段也即待识别的关系属性,该目标字段可以是关系型数据库中任一数据表中的任一列。
其中,该至少一个数据项也即待识别的关系属性值,该至少一个数据项可以是目标字段所指示的列中存储的部分或全部数据项。
其中,该节点设备为关系型数据库系统中的任一电子设备,比如,在单机数据库系统中,该节点设备即为该单机数据库系统对应的单机设备,又比如,在分布式数据库系统中,由于分布式事务可能涉及到跨节点操作,该节点设备可以为协调节点设备或者数据节点设备。其中,分布式事务的发起节点称为协调节点设备,分布式事务所涉及的其他节点称为数据节点设备。
在上述过程中,节点设备可以从关系型数据库中定位到待识别的目标字段,查询得到与该目标字段对应存储的至少一个数据项。
在一个示例中,表1是本申请实施例提供的一种书籍的样例表,该样例表中包括5个字段(也即5种关系属性):书名(Title)、作者(Author)、出版日期(Date)、价格(Price)、出版社(Publisher)。假设目标字段为作者,那么节点设备在样例表定位到作者这一列之后,读取这一列中记载的所有数据项{Bill Swank,Steve Travers,Jack Torry}。
表1
在另一个示例中,表2是本申请实施例提供的一种电影的样例表,该样例表中包括5个字段(也即5种关系属性):电影名(Movie)、上映年份(Year)、导演(Director)、电影类型(Genres)、电影时长(Time)。假设目标字段为导演,那么节点设备在样例表定位到导演这一列之后,读取这一列中记录的所有数据项{Ben Wheatley,K.C.Amos,Kyle Newman}。
表2
电影名 | 上映年份 | 导演 | 电影类型 | 电影时长 |
电影名1 | 2015 | Ben Wheatley | 动作-剧情-科幻 | 112分钟 |
电影名2 | 2015 | K.C.Amos | 动作-剧情-惊悚 | 91分钟 |
电影名3 | 2015 | Kyle Newman | 动作-冒险-喜剧 | 96分钟 |
202、节点设备基于该至少一个数据项,获取该目标字段的语义特征。
在一些实施例中,节点设备基于机器学习模型,从该至少一个数据项中抽取出该语义特征。可选地,该机器学习模型可以是第一翻译模型或者第二翻译模型中至少一项,其中,第一翻译模型用于基于该至少一个数据项获取该语义特征,而第二翻译模型用于基于该至少一个数据项和该目标字段的上下文信息,综合上述两种信息来获取该语义特征。
在上述过程中,通过机器学习模型来抽取语义特征,相较于传统基于正则匹配进行语义识别的方式,无需由用户人为设计出某种匹配规则,而是由机器学习模型自动抽取语义特征,且通过控制机器学习的训练数据规模及迭代次数,具有更高的准确率。
在一些实施例中,节点设备调用第一翻译模型对该至少一个数据项进行编码,得到该语义特征。可选地,该第一翻译模型包括但不限于:Transformers(一种经典的翻译模型)、NNLM(Neural Network Language Model,神经网络语言模型)、ELMo(Embeddings FromLanguage Models,采用嵌入处理的语言模型)、BERT(Bidirectional EncoderRepresentation From Transformers,采用双向编码表示的翻译模型)等,本申请实施例不对该第一翻译模型的结构进行具体限定。
上述基于第一翻译模型直接对该至少一个数据项进行编码,能够聚焦于目标字段所对应的各个数据项(也即关系数据)自身,通过各个数据项的一个全局化的语义特征即可表征出整个目标字段的语义特征,使得该语义特征具有良好的表达能力,有利于提升后续预测语义标签的准确性。
在一个示例性实施例中,以第一翻译模型为BERT模型为例,BERT模型是一种基于Transformers结构的深度双向语言表征模型,在本质上利用Transformers结构构造了一个多层双向的编码(Encoder)网络。BERT模型包括至少一个双向编码层,每个双向编码层用于对输入信号进行正向编码和反向编码,每个双向编码层的输出作为下一个双向编码层的输入。在每个双向编码层中包括两部分,一部分是注意力网络,另一部分是前向全连接层,注意力网络中每一个隐层都是由上一层的隐层进行加权平均所得,使得每一个隐层都能和上一层的所有隐层直接关联,利用输入的长序列信息(也即下述第一分词序列)能够得到一个用于表征全局化信息的隐层向量(也即第一语义向量),而前向全连接层则用于对注意力网络获取的全局化信息进行进一步加工,以增强整个BERT模型的学习能力。
BERT模型的编码过程包括:节点设备对该至少一个数据项进行分词处理,得到包括至少一个字符的第一分词序列,该至少一个字符包括分类符和对该至少一个数据项分词处理所得的字符;将该第一分词序列输入到该第一翻译模型中的至少一个双向编码层,通过该至少一个双向编码层对该第一分词序列进行正向编码和反向编码,输出第一语义向量序列,该第一语义向量序列中一个第一语义向量对应于该第一分词序列中一个字符;将该第一语义向量序列中与该分类符对应的第一语义向量确定为该语义特征。
在上述过程中,节点设备通过双向编码层对整体的各个数据项分别进行了正向编码和反向编码,通过正向编码使得每个字符对应的第一语义向量能够融合该字符之前出现的历史字符的相关信息,而通过反向编码使得每个字符对应的第一语义向量能够融合该字符之后出现的未来字符的相关信息,两个方向的编码操作能够大大提升各个字符的第一语义向量的表达能力,也即能够提升第一语义向量序列的表达能力,从而提升最终确定的语义特征的表达能力。
在一些实施例中,节点设备可以将该至少一个数据项拼接成一个长文本序列,利用分词工具对该长文本序列进行分词处理,得到该第一分词序列,在该第一分词序列中首个字符为分类符[CLS],分类符[CLS]之后则是长文本序列中分词处理得到的各个字符。
在上述过程中,将分类符[CLS]置于第一分词序列的首位,能够使得在正向编码过程中,后续的各个字符均能够融合到分类符[CLS]的相关信息,同理,能够使得在反向编码过程中,分类符[CLS]能够融合到其余各个字符的相关信息,从而具有表征整个第一分词序列的全局化语义信息的能力,将分类符[CLS]所对应的第一语义向量作为整个目标字段的语义特征,可以投入到下游的多分类任务中,以准确识别出目标字段的语义标签。
在一个示例中,以目标字段为上述表1中的“作者”为例,将第一个元组中作者字段的属性值“Bill Swank”、第二个元组中作者字段的属性值“Steve Travers”以及第三个元组中作者字段的属性值“Jack Torry”拼接成一个长文本序列{Bill Swank,SteveTravers,Jack Torry}。接下来利用分词工具,将该长文本序列转换为第一分词序列{[CLS],bill,swank,steve,travers,jack,torry,[SEP],0,…,0}。需要说明的是,一个关系属性的各个属性值可以视为由各个属性值拼接所得的一个语句,[SEP]为语句分割符,置于每一个语句的句尾,而分类符[CLS]则置于整个第一分词序列的首位。由于一些BERT模型中规定了输入的第一分词序列的长度,如果对长文本序列分词处理后所得的字符数量小于规定的长度,那么可以采用0值来进行填充,直到满足第一分词序列所规定的长度。
在一些实施例中,将该第一分词序列输入到BERT模型的至少一个双向编码层之前,可以先对该第一分词序列进行嵌入(embedding)处理,将该第一分词序列中的各个字符映射成embedding空间的各个embedding向量,然后将各个embedding向量所构成的序列输入该至少一个双向编码层。
在上述过程中,通过对第一分词序列进行embedding处理,能够将第一分词序列整体从自然语言转换成易于机器处理的embedding向量,便于后续双向编码层的编码处理工作,能够提升模型处理速率。在一些实施例中,也可以采用独热编码(one-hot)的方式获取到第一分词序列对应的特征向量序列,并将特征向量序列输入到双向编码层中,这样可以简化预处理流程,本申请实施例对此不作具体限定。
可选地,以第一个双向编码层为例进行说明,在该双向编码层中包括注意力网络和前向全连接层。将该第一分词序列所对应的embedding向量序列输入到第一个双向编码层的注意力网络中,通过注意力网络对该embedding向量序列进行加权,以提取该embedding向量序列的注意力特征序列,将该注意力特征序列输入到第一个双向编码层的前向全连接层中,通过前向全连接层对该注意力特征序列进行双向的语义编码(包括正向编码和反向编码),输出一个隐向量序列,将该隐向量序列输入到第二个双向编码层中,依此类推,后续的双向编码层的处理逻辑均与第一个双向编码层类似,这里不做赘述,最后一个双向编码层所输出的隐向量序列也即是该第一语义向量序列。
在获取到最后一个编码层所输出的第一语义向量序列之后,由于在第一分词序列中将分类符[CLS]置于首位,因此该第一语义向量序列中的首个第一语义向量与该分类符[CLS]对应,将该首个第一语义向量确定为目标字段的语义特征。
在上述过程中,在双向编码层中引入注意力机制,能够在每次进行语义编码时,使得各个字符聚焦于与自身关联较大(关系更密切)的字符,使得最终获取的语义特征具有更高的准确性。
在一些实施例中,节点设备还可以结合目标字段的上下文信息,调用第二翻译模型来提取该语义特征,也即是说:节点设备获取该目标字段的上下文信息,该上下文信息包括与该目标字段对应于同一关系数据的其他字段的数据项;调用第二翻译模型对该至少一个数据项和该上下文信息进行编码,得到该语义特征,该第二翻译模型用于基于该至少一个数据项和该上下文信息获取该语义特征。可选地,该第二翻译模型包含但不限于:Transformers、NNLM、ELMo、BERT等,本申请实施例不对该第二翻译模型的结构进行具体限定。
上述基于第二翻译模型不仅对该至少一个数据项进行编码,而且还对该上下文信息进行编码,使得目标字段的语义特征考虑到自身字段内各个数据项的相关信息的同时,还能够考虑到同一数据表中其他字段的数据项的相关信息。所提取的语义特征具有良好的表达能力,有利于提升后续预测语义标签的准确性。
在一个示例性场景中,表1中的作者字段和表2中的导演字段,都包含了人名信息。如果仅基于自身这一列的数据项进行语义标签判断,那么有可能由于提取到的语义特征具有高度相似性,导致最终预测语义标签时分不出属于作者标签还是导演标签,从而导致语义标签的误判。而通过第二翻译模型结合上下文信息一起进行预测,使得作者字段的语义特征中还融合了书名字段、价格字段、出版日期字段及出版社字段的相关信息,而导演字段的语义特征中还融合了电影名字段、上映年份字段、电影类型字段、电影时长字段的相关信息,使得两者的语义特征能够由上下文信息而区分开来,从而能够减少对语义标签的误判情况,提升对语义标签的识别准确率。
可选地,该上下文信息是指与目标字段属于同一张数据表的其他字段的数据项。在一个示例中,假设目标字段为表1的“作者”这一列,那么该目标字段的上下文信息包括“书名”列、“出版日期”列、“价格”列、“出版社”列中的一列或多列,比如,该上下文信息包括除了作者列之外的所有列,或者,由于作者列是文本类的数据项,那么仅将同属于文本类数据项的书名列及出版社列获取为上下文信息。
在一些实施例中,在获取上下文信息时,节点设备可以将目标字段所在数据表中除了目标字段之外的所有字段的数据项获取为该上下文信息。这样能够综合整张数据表中所有其他字段的数据项,使得上下文信息更加全面、包含更多的信息量。
在另一些实施例中,在获取上下文信息时,节点设备可以先获取目标字段所对应的至少一个数据项的数据项类型,将该目标字段所在数据表中与该数据项类型匹配的其他字段的数据项获取为该上下文信息。可选地,该数据项类型包括文本类或数字类,可选地,该文本类还可以按照语种进行进一步划分,本申请实施例不对数据项类型的分类方式进行具体限定。这样能够率先基于数据项类型对上下文信息进行过滤,针对一些数据量庞大的数据表,能够大大节约后续对上下文信息进行语义编码时的计算资源,加快语义编码速率。
在一个示例性实施例中,以该第二翻译模型为BERT模型为例,BERT模型的编码过程包括:节点设备对该至少一个数据项和该上下文信息进行分词处理,得到包括至少一个字符的第二分词序列,该至少一个字符包括分类符、对该至少一个数据项和该上下文信息分词处理所得的字符以及语句分隔符;将该第二分词序列输入到该第二翻译模型中的至少一个双向编码层,通过该至少一个双向编码层对该第二分词序列进行正向编码和反向编码,输出第二语义向量序列,该第二语义向量序列中一个第二语义向量对应于该第二分词序列中一个字符;将该第二语义向量序列中与该分类符对应的第二语义向量确定为该语义特征。
在上述过程中,节点设备通过双向编码层,对自身列的各个数据项和其他列的各个数据项(上下文信息)分别进行了正向编码和反向编码,使得最终编码得到的各个字符的第二语义向量中不仅融合了自身列中各字符的相关信息,而且融合了其他列中各字符的相关信息,从而提升了整个第二语义向量序列的表达能力,进而提升最终确定的语义特征的表达能力。
在一些实施例中,节点设备可以将该至少一个数据项和该上下文信息拼接成一个长文本序列,利用分词工具对该长文本序列进行分词处理,得到该第二分词序列,在该第一分词序列中首个字符为分类符[CLS],分类符[CLS]之后则是长文本序列中分词处理得到的各个字符,且在第二分词序列中,目标字段数据项和目标字段的上下文信息分属于不同的语句,在不同语句之间采用语句分隔符[SEP]进行分隔。
在一个示例中,以目标字段为上述表1中的“作者”为例,作者字段的属性值集合为{Bill Swank,Steve Travers,Jack Torry},第一个元组的其他字段包括{书名1,1999年1月1日,$16.99,出版社1},第二个元组的其他字段包括{书名2,2007年4月1日,$9.99,出版社2},第三个元组的其他字段包括{书名3,1996年3月1日,$14.99,出版社3}。将作者字段的属性值集合(该至少一个数据项)和其他字段的属性值集合(该上下文信息)拼接成长文本序列对{Bill Swank,Steve Travers,Jack Torry}和{书名1,1999年1月1日,$16.99,出版社1,书名2,2007年4月1日,$9.99,出版社2,书名3,1996年3月1日,$14.99,出版社3},接下来利用分词工具,可以将该长文本序列对转换为第二分词序列{[CLS],bill,swank,steve,…,torry,[SEP],书名1的第一个字符,书名1的第二个字符,…,出版社3的最后一个字符,[SEP],0,…,0}。
需要说明的是,由于一些BERT模型中规定了输入的第二分词序列的长度,如果对长文本序列分词处理后所得的字符数量小于规定的长度,那么可以采用0值来进行填充,直到满足第二分词序列所规定的长度。
在一些实施例中,将该第二分词序列输入到BERT模型的至少一个双向编码层之前,可以先对该第二分词序列进行embedding处理,将该第二分词序列中的各个字符映射成embedding空间的各个embedding向量,然后将各个embedding向量所构成的序列输入该至少一个双向编码层。
在上述过程中,通过对第二分词序列进行embedding处理,能够将第二分词序列整体从自然语言转换成易于机器处理的embedding向量,便于后续双向编码层的编码处理工作,能够提升模型处理速率,在一些实施例中,也可以采用独热编码(one-hot)的方式获取到第二分词序列对应的特征向量序列,并将特征向量序列输入到双向编码层中,这样可以简化预处理流程,本申请实施例对此不作具体限定。
可选地,以第一个双向编码层为例进行说明,在该双向编码层中包括注意力网络和前向全连接层。将该第二分词序列所对应的embedding向量序列输入到第一个双向编码层的注意力网络中,通过注意力网络对该embedding向量序列进行加权,以提取该embedding向量序列的注意力特征序列,将该注意力特征序列输入到第一个双向编码层的前向全连接层中,通过前向全连接层对该注意力特征序列进行双向的语义编码(包括正向编码和反向编码),输出一个隐向量序列,将该隐向量序列输入到第二个双向编码层中,依此类推,后续的双向编码层的处理逻辑均与第一个双向编码层类似,这里不做赘述,最后一个双向编码层所输出的隐向量序列也即是该第二语义向量序列。
在获取到最后一个编码层所输出的第二语义向量序列之后,由于在第二分词序列中将分类符[CLS]置于首位,因此该第二语义向量序列中的首个第二语义向量与该分类符[CLS]对应,将该首个第二语义向量确定为目标字段的语义特征。
在上述过程中,通过在双向编码层中引入注意力机制,能够在每次进行语义编码时,使得各个字符聚焦于当前字段中与自身关联较大(关系更密切)的字符以及上下文信息中与自身关联较大的字符,使得最终获取的语义特征具有更高的准确性。
203、节点设备对该语义特征进行处理,获取该目标字段的语义标签。
在一些实施例中,节点设备基于该语义特征,获取至少一个第一预测概率,一个第一预测概率用于表示该语义特征与一种语义标签之间的匹配程度;将该至少一个第一预测概率中最大第一预测概率所对应的语义标签确定为该目标字段的语义标签。
在上述过程中,节点设备通过直接对语义特征进行分类处理,得到该目标字段的语义标签,能够简化获取语义标签的流程,节约节点设备的计算量。
可选地,节点设备调用第一翻译模型获取该至少一个第一预测概率,也即将该语义特征输入到一个前向全连接层中,通过该前向全连接层对该语义特征进行加权处理,将加权处理得到的特征输入到指数归一化(softmax)层中,通过该softmax层对该加权处理得到的特征进行softmax映射,得到该至少一个第一预测概率。
可选地,在获取到该至少一个第一预测概率之后,节点设备可以将至少一个第一预测概率按照从大到小的顺序进行排序,将排序位于第一位的第一预测概率确定为最大第一预测概率,将该最大第一预测概率所对应的语义标签确定为该目标字段的语义标签。
在上述过程中,通过调用第一翻译模型对语义特征进行加权及softmax映射,能够获取到语义特征与各个语义标签之间的匹配程度,也即该至少一个第一预测概率,从而直接采用最大第一预测概率所对应的语义标签作为模型输出,打破了基于正则匹配的方式的局限性,无论何种类型的数据项均能够采用这一语义检测方式识别出目标字段的语义标签,能够大大提升语义标签的获取准确率。
在一些实施例中,除了利用翻译模型获取语义特征之外,节点设备还可以基于知识库来抽取该目标字段的至少一个数据项的知识编码,运用知识库中蕴含的丰富本体类知识以增强目标字段的特征表示。
在一个示例性实施例中,节点设备从知识库中,查询与该至少一个数据项所对应的至少一个候选类别,一个数据项对应于一个或多个候选类别;对该至少一个候选类别进行编码,得到该至少一个数据项的第一类别特征;对该至少一个数据项的第一类别特征进行降维,得到该至少一个数据项的第二类别特征。可选地,该知识库包括但不限于DBpedia、Freebase、YAGO等。
在上述过程中,通过借助于DBpedia等知识库中的先验知识,可以获取到与关系属性值(也即各个数据项)相关的资源(Resources)和本体类(Ontology Classes),相当于获取到了与各个数据项相关的候选类别,从而基于这些候选类别能够提取出候选类别的知识编码(也即第二类别特征)。
在一些实施例中,节点设备在抽取到第二类别特征之后,还可以获取该至少一个数据项的平均嵌入特征,将该平均嵌入特征与该第二类别特征进行拼接,得到第一拼接特征,基于该第一拼接特征和该语义特征,获取该目标字段的语义标签。
在上述过程中,节点设备结合第二类别特征和语义特征,从翻译模型的维度和知识库的维度共同预测最终的语义标签,能够进一步提升语义标签的识别准确率。
可选地,节点设备调用词向量模型(word2vec)对该至少一个数据项进行embedding处理,得到该至少一个数据项的至少一个embedding向量,将该至少一个embedding向量的平均向量获取为该平均嵌入特征。
在一些实施例中,节点设备在基于第一拼接特征和语义特征获取语义标签时,可以执行下述操作:基于该语义特征,获取至少一个第一预测概率,一个第一预测概率用于表示该语义特征与一种语义标签之间的匹配程度;基于该第一拼接特征,获取至少一个第二预测概率,一个第二预测概率用于表示该第一拼接特征与一种语义标签之间的匹配程度;分别对该至少一个第一预测概率和该至少一个第二预测概率进行加权处理,得到至少一个第三预测概率;将该至少一个第三预测概率中与最大第三预测概率所对应的语义标签确定为该目标字段的语义标签。
可选地,节点设备采用LR(Logistic Regression,逻辑回归)模型对该第一拼接特征进行多分类处理,得到该至少一个第二预测概率,接下来,可以结合第一预测概率和第二预测概率,得到最终作为语义识别参考的第三预测概率。
可选地,节点设备对每个语义标签,将该每个语义标签所对应的第一预测概率与第二预测概率的平均值作为该每个语义标签所对应的第三预测概率,然后将各个第三预测概率按照从大到小的顺序进行排序,将排序位于第一位的第三预测概率确定为最大第三预测概率,将该最大第三预测概率所对应的语义标签确定为该目标字段的语义标签。
在一些实施例中,除了将每个语义标签所对应的第一预测概率和第二预测概率的平均值作为第三预测概率之外,还可以为第一预测概率和第二预测概率设置不同的权重系数,将第一预测概率与对应的权重系数相乘,得到第一数值,将第二预测概率与对应的权重系数相乘,得到第二数值,将第一数值与第二数值相加所得的数值确定为第三预测概率。可选地,第一预测概率的权重系数与第二预测概率的权重系数均为大于或等于0且小于或等于1的数值,且第一预测概率和第二预测概率两者的权重系数相加等于1。
在一些实施例中,节点设备还可以直接将该第二类别特征与该语义特征进行拼接,得到第二拼接特征;基于该第二拼接特征,获取至少一个第四预测概率,一个第四预测概率用于表示该第二拼接特征与一种语义标签之间的匹配程度;将该至少一个第四预测概率中与最大第四预测概率所对应的语义标签确定为该目标字段的语义标签。
图3是本申请实施例提供的一种语义标签的获取方法的原理性示意图,请参考图3,获取到待识别关系属性301(也即目标字段)之后,将目标字段的各个数据项分别输入到BERT模型302和知识库303中,通过BERT模型302获取目标字段的语义特征,通过知识库303获取目标字段的知识编码304(也即第二类别特征),结合语义特征和知识编码,即可预测得到属性语义识别结果305(也即目标字段的语义标签)。
上述所有可选技术方案,能够采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请实施例提供的方法,通过针对关系型数据库的任一目标字段,基于该目标字段所对应的各个数据项的语义特征,获取该目标字段的语义标签,由于该语义特征取决于各个数据项,因此而不会根据目标字段的命名而改变,从而提升了语义标签的识别准确率。
进一步地,由于不依赖于需要人为制定规则的正则匹配方式,能够适用于通用的字段语义识别场景中,打破了正则匹配方式只能应用于具有特定命名规范字段的业务局限性,提高了语义标签识别的可移植性。
图4是本申请实施例提供的一种语义标签的获取方法的流程图,请参考图4,该实施例应用于节点设备,在本申请实施例中介绍如何基于第一翻译模型获取目标字段的语义标签,该方法包括下述步骤:
401、节点设备获取关系型数据库中待识别的目标字段所对应的至少一个数据项。
上述步骤401与上述步骤201类似,这里不做赘述。
402、节点设备对该至少一个数据项进行分词处理,得到包括至少一个字符的第一分词序列。
其中,该至少一个字符包括分类符和对该至少一个数据项分词处理所得的字符。
在一些实施例中,节点设备可以将该至少一个数据项拼接成一个长文本序列,利用分词工具对该长文本序列进行分词处理,得到该第一分词序列,在该第一分词序列中首个字符为分类符[CLS],分类符[CLS]之后则是长文本序列中分词处理得到的各个字符。
在上述过程中,通过将分类符[CLS]置于第一分词序列的首位,能够使得在正向编码过程中,后续的各个字符均能够融合到分类符[CLS]的相关信息,同理,能够使得在反向编码过程中,分类符[CLS]能够融合到其余各个字符的相关信息,从而具有表征整个第一分词序列的全局化语义信息的能力。将分类符[CLS]所对应的第一语义向量作为整个目标字段的语义特征,可以投入到下游的多分类任务中,以准确识别出目标字段的语义标签。
在一个示例中,以目标字段为上述表1中的“作者”为例,将第一个元组中作者字段的属性值“Bill Swank”、第二个元组中作者字段的属性值“Steve Travers”以及第三个元组中作者字段的属性值“Jack Torry”拼接成一个长文本序列{Bill Swank,SteveTravers,Jack Torry},接下来利用分词工具,将该长文本序列转换为第一分词序列{[CLS],bill,swank,steve,travers,jack,torry,[SEP],0,…,0},需要说明的是,一个关系属性的各个属性值可以视为由各个属性值拼接所得的一个语句,[SEP]为语句分割符,置于每一个语句的句尾,而分类符[CLS]则置于整个第一分词序列的首位,由于一些BERT模型中规定了输入的第一分词序列的长度,如果对长文本序列分词处理后所得的字符数量小于规定的长度,那么可以采用0值来进行填充,直到满足第一分词序列所规定的长度。
403、节点设备将该第一分词序列输入到该第一翻译模型中的至少一个双向编码层,通过该至少一个双向编码层对该第一分词序列进行正向编码和反向编码,输出第一语义向量序列。
其中,该第一语义向量序列中一个第一语义向量对应于该第一分词序列中一个字符。
可选地,该第一翻译模型用于基于该至少一个数据项获取该目标字段的语义特征,该第一翻译模型包括但不限于:Transformers、NNLM、ELMo、BERT等,本申请实施例不对该第一翻译模型的结构进行具体限定。
以该第一翻译模型为BERT模型为例,BERT模型是一种基于Transformers结构的深度双向语言表征模型,在本质上利用Transformers结构构造了一个多层双向的编码(Encoder)网络。BERT模型包括至少一个双向编码层,每个双向编码层用于对输入信号进行正向编码和反向编码,每个双向编码层的输出作为下一个双向编码层的输入。在每个双向编码层中包括两部分,一部分是注意力网络,另一部分是前向全连接层,注意力网络中每一个隐层都是由上一层的隐层进行加权平均所得,使得每一个隐层都能和上一层的所有隐层直接关联,利用输入的长序列信息(也即下述第一分词序列)能够得到一个用于表征全局化信息的隐层向量(也即第一语义向量),而前向全连接层则用于对注意力网络获取的全局化信息进行进一步加工,以增强整个BERT模型的学习能力。
在一些实施例中,将该第一分词序列输入到BERT模型的至少一个双向编码层之前,可以先对该第一分词序列进行嵌入(embedding)处理,将该第一分词序列中的各个字符映射成embedding空间的各个embedding向量,然后将各个embedding向量所构成的序列输入该至少一个双向编码层。
在上述过程中,通过对第一分词序列进行embedding处理,能够将第一分词序列整体从自然语言转换成易于机器处理的embedding向量,便于后续双向编码层的编码处理工作,能够提升模型处理速率,在一些实施例中,也可以采用独热编码(one-hot)的方式获取到第一分词序列对应的特征向量序列,并将特征向量序列输入到双向编码层中,这样可以简化预处理流程,本申请实施例对此不作具体限定。
可选地,以第一个双向编码层为例进行说明,在该双向编码层中包括注意力网络和前向全连接层。将该第一分词序列所对应的embedding向量序列输入到第一个双向编码层的注意力网络中,通过注意力网络对该embedding向量序列进行加权,以提取该embedding向量序列的注意力特征序列,将该注意力特征序列输入到第一个双向编码层的前向全连接层中,通过前向全连接层对该注意力特征序列进行双向的语义编码(包括正向编码和反向编码),输出一个隐向量序列,将该隐向量序列输入到第二个双向编码层中,依此类推,后续的双向编码层的处理逻辑均与第一个双向编码层类似,这里不做赘述,最后一个双向编码层所输出的隐向量序列也即是该第一语义向量序列。
在上述过程中,节点设备通过双向编码层对整体的各个数据项分别进行了正向编码和反向编码,通过正向编码使得每个字符对应的第一语义向量能够融合该字符之前出现的历史字符的相关信息,而通过反向编码使得每个字符对应的第一语义向量能够融合该字符之后出现的未来字符的相关信息,两个方向的编码操作能够大大提升各个字符的第一语义向量的表达能力,也即能够提升第一语义向量序列的表达能力,从而提升最终确定的语义特征的表达能力。
404、节点设备将该第一语义向量序列中与该分类符对应的第一语义向量确定为该目标字段的语义特征。
在获取到最后一个编码层所输出的第一语义向量序列之后,由于在第一分词序列中将分类符[CLS]置于首位,因此该第一语义向量序列中的首个第一语义向量与该分类符[CLS]对应,将该首个第一语义向量确定为目标字段的语义特征。
在上述过程中,为节点设备调用第一翻译模型对该至少一个数据项进行编码,得到该语义特征的一种可能实施方式,由于基于第一翻译模型直接对该至少一个数据项进行编码,能够聚焦于目标字段所对应的各个数据项(也即关系数据)自身,通过各个数据项的一个全局化的语义特征即可表征出整个目标字段的语义特征,使得该语义特征具有良好的表达能力,有利于提升后续预测语义标签的准确性。
在上述步骤402-404中,节点设备基于该至少一个数据项,获取该目标字段的语义特征,在一些实施例中,节点设备还可以通过下一个实施例中的第二翻译模型来获取该语义特征,本申请实施例不对语义特征的获取方式进行具体限定。
405、节点设备对该语义特征进行处理,获取该目标字段的语义标签。
上述步骤405与上述步骤203类似,这里不做赘述。
可选地,节点设备基于该语义特征,获取至少一个第一预测概率,一个第一预测概率用于表示该语义特征与一种语义标签之间的匹配程度;将该至少一个第一预测概率中最大第一预测概率所对应的语义标签确定为该目标字段的语义标签。
在一个示例性场景中,图5是本申请实施例提供的一种第一翻译模型的原理性示意图,请参考图5,以第一翻译模型为BERT模型为例,在输入层501中将该目标字段所对应的至少一个数据项拼接成一个长文本序列,该长文本序列也即是待预测属性的属性值序列,然后利用分词工具为长文本序列进行分词处理,得到第一分词序列502,将第一分词序列输入到BERT的至少一个双向编码层503中进行语义编码,取出分类符[CLS]所对应的第一语义向量作为整个目标字段的语义特征,将该语义特征输入到分类器504中,在分类器504中通过前向全连接层和softmax层进行多分类处理,输出至少一个第一预测概率,选取最大第一预测概率所对应的语义标签作为模型输出。
在一个示例中,BERT模型包括12个双向编码层,每个双向编码层输出的隐向量维度为768,每个双向编码层中多头注意力(multi-head attention)机制的参数为12,模型总参数大小为110M。最终获取到的第一预测概率P1的函数表达式为:P1=soft max(CWT)。其中,C为分类符[CLS]所对应的第一语义向量,也即是说C为目标字段的语义特征,C∈RH,H表示语义特征C的维度;W是分类器的参数矩阵,W∈RK×H,K表示待分类的语义标签总数量(也即属性语义分类中类别的个数);第一预测概率P1由softmax函数计算得到,P1∈RK。
可选地,BERT模型可以采用交叉熵作为损失函数,与分类器的参数矩阵进行联合训练,优化目标为正确分类的语义标签的对数概率最大化。在训练过程中,可以将批大小(batchsize)设置为32,学习率(learning rate)设置为2×10-5,遍历全部训练样本的次数(number of epochs)设置为3,第一翻译模型中第一分词序列的最大长度可以设置为128。如果输入的长文本序列长度大于128时,可以自动对该长文本序列进行截取,使得满足最大长度的限定。
本申请实施例中,通过调用第一翻译模型对该目标字段的各个数据项进行编码,以获取该目标字段的语义特征,并基于该语义特征获取最终的语义标签,由于基于第一翻译模型直接对该至少一个数据项进行编码,能够聚焦于目标字段所对应的各个数据项(也即关系数据)自身,通过各个数据项的一个全局化的语义特征即可表征出整个目标字段的语义特征,使得该语义特征具有良好的表达能力,进而提升了后续预测所得的语义标签的识别准确性。
在一个示例性场景中,表1中作者字段和表2中导演字段的数据项均为人名,具有高度相似的语义特征。如果仅基于这一列数据项进行语义标签判断,可能会导致最终预测语义标签是无法区别作者标签和导演标签,从而出现语义标签误判的情况。
有鉴于此,在本申请实施例中提供一种第二翻译模型,通过第二翻译模型结合目标字段的上下文信息一起进行语义标签的预测工作,使得作者字段的语义特征中还融合了书名字段、价格字段、出版日期字段及出版社字段的相关信息,而导演字段的语义特征中还融合了电影名字段、上映年份字段、电影类型字段、电影时长字段的相关信息,使得两者的语义特征能够由上下文信息而区分开来,从而能够降低对语义标签的误判可能性,提升对语义标签的识别准确率。
图6是本申请实施例提供的一种语义标签的获取方法的流程图,请参考图6,该实施例应用于节点设备,在本申请实施例中介绍如何基于第二翻译模型获取目标字段的语义标签,该方法包括下述步骤:
601、节点设备获取关系型数据库中待识别的目标字段所对应的至少一个数据项。
上述步骤601与上述步骤201类似,这里不做赘述。
602、节点设备获取该目标字段的上下文信息,该上下文信息包括与该目标字段对应于同一关系数据的其他字段的数据项。
可选地,该上下文信息是指与目标字段属于同一张数据表的其他字段的数据项。在一个示例中,假设目标字段为表1的“作者”这一列,那么该目标字段的上下文信息包括“书名”列、“出版日期”列、“价格”列、“出版社”列中的一列或多列,比如,该上下文信息包括除了作者列之外的所有列,或者,由于作者列是文本类的数据项,那么仅将同属于文本类数据项的书名列及出版社列获取为上下文信息。
在一些实施例中,在获取上下文信息时,节点设备可以将目标字段所在数据表中除了目标字段之外的所有字段的数据项获取为该上下文信息。这样能够综合整张数据表中所有其他字段的数据项,使得上下文信息更加全面、包含更多的信息量。
在另一些实施例中,在获取上下文信息时,节点设备可以先获取目标字段所对应的至少一个数据项的数据项类型,将该目标字段所在数据表中与该数据项类型匹配的其他字段的数据项获取为该上下文信息。可选地,该数据项类型包括:文本类或数字类,可选地,该文本类还可以按照语种进行进一步划分,本申请实施例不对数据项类型的分类方式进行具体限定。这样能够率先基于数据项类型对上下文信息进行过滤,针对一些数据量庞大的数据表,能够大大节约后续对上下文信息进行语义编码时的计算资源,加快语义编码速率。
603、节点设备对该至少一个数据项和该上下文信息进行分词处理,得到包括至少一个字符的第二分词序列。
其中,该至少一个字符包括分类符、对该至少一个数据项和该上下文信息分词处理所得的字符以及语句分隔符。
在一些实施例中,节点设备可以将该至少一个数据项和该上下文信息拼接成长文本序列对,利用分词工具对该长文本序列对进行分词处理,得到该第二分词序列,在该第二分词序列中首个字符为分类符[CLS],分类符[CLS]之后则是长文本序列中分词处理得到的各个字符,且在第二分词序列中,目标字段的各个数据项和该目标字段的上下文信息分属于不同语句,在不同语句之间采用语句分隔符[SEP]进行分隔。
在一个示例中,以目标字段为上述表1中的“作者”为例,作者字段的属性值集合为{Bill Swank,Steve Travers,Jack Torry},第一个元组的其他字段包括{书名1,1999年1月1日,$16.99,出版社1},第二个元组的其他字段包括{书名2,2007年4月1日,$9.99,出版社2},第三个元组的其他字段包括{书名3,1996年3月1日,$14.99,出版社3}。将作者字段的属性值集合(该至少一个数据项)和其他字段的属性值集合(该上下文信息)拼接成长文本序列对{Bill Swank,Steve Travers,Jack Torry}和{书名1,1999年1月1日,$16.99,出版社1,书名2,2007年4月1日,$9.99,出版社2,书名3,1996年3月1日,$14.99,出版社3},接下来利用分词工具,将该长文本序列转换为第二分词序列{[CLS],bill,swank,steve,…,torry,[SEP],书名1的第一个字符,书名1的第二个字符,…,出版社3的最后一个字符,[SEP],0,…,0}。
需要说明的是,由于一些BERT模型中规定了输入的第二分词序列的长度,如果对长文本序列分词处理后所得的字符数量小于规定的长度,那么可以采用0值来进行填充,直到满足第二分词序列所规定的长度。
604、节点设备将该第二分词序列输入到该第二翻译模型中的至少一个双向编码层,通过该至少一个双向编码层对该第二分词序列进行正向编码和反向编码,输出第二语义向量序列。
其中,该第二语义向量序列中一个第二语义向量对应于该第二分词序列中一个字符。
其中,该第二翻译模型用于基于该至少一个数据项和该上下文信息获取该语义特征。可选地,该第二翻译模型包括但不限于:Transformers、NNLM、ELMo、BERT等,本申请实施例不对该第二翻译模型的结构进行具体限定。
在一些实施例中,将该第二分词序列输入到BERT模型的至少一个双向编码层之前,可以先对该第二分词序列进行embedding处理,将该第二分词序列中的各个字符映射成embedding空间的各个embedding向量,然后将各个embedding向量所构成的序列输入该至少一个双向编码层。
在上述过程中,通过对第二分词序列进行embedding处理,能够将第二分词序列整体从自然语言转换成易于机器处理的embedding向量,便于后续双向编码层的编码处理工作,能够提升模型处理速率,在一些实施例中,也可以采用独热编码(one-hot)的方式获取到第二分词序列对应的特征向量序列,并将特征向量序列输入到双向编码层中,这样可以简化预处理流程,本申请实施例对此不作具体限定。
可选地,以第一个双向编码层为例进行说明,在该双向编码层中包括注意力网络和前向全连接层。将该第二分词序列所对应的embedding向量序列输入到第一个双向编码层的注意力网络中,通过注意力网络对该embedding向量序列进行加权,以提取该embedding向量序列的注意力特征序列,将该注意力特征序列输入到第一个双向编码层的前向全连接层中,通过前向全连接层对该注意力特征序列进行双向的语义编码(包括正向编码和反向编码),输出一个隐向量序列,将该隐向量序列输入到第二个双向编码层中,依此类推,后续的双向编码层的处理逻辑均与第一个双向编码层类似,这里不做赘述,最后一个双向编码层所输出的隐向量序列也即是该第二语义向量序列。
605、节点设备将该第二语义向量序列中与该分类符对应的第二语义向量确定为该目标字段的语义特征。
在获取到最后一个编码层所输出的第二语义向量序列之后,由于在第二分词序列中将分类符[CLS]置于首位,因此该第二语义向量序列中的首个第二语义向量与该分类符[CLS]对应,将该首个第二语义向量确定为目标字段的语义特征。
在上述步骤603-605中,节点设备调用第二翻译模型对该至少一个数据项和该上下文信息进行编码,得到该语义特征。上述基于第二翻译模型不仅对该至少一个数据项进行编码,而且还对该上下文信息进行编码,使得目标字段的语义特征不仅考虑到自身字段内各个数据项的相关信息,而且还能够考虑到同一数据表中其他字段的数据项的相关信息,使得该语义特征具有良好的表达能力,有利于提升后续预测语义标签的准确性。
在一些实施例中,除了调用第二翻译模型获取语义特征之外,还可以调用上述实施例中的第一翻译模型获取语义特征,或者,分别采用第一翻译模型和第二翻译模型获取到两个语义特征,对两个模型输出的语义特征进行融合,得到最终目标字段的语义特征表示,本申请实施例不对语义特征的获取方式进行具体限定。
606、节点设备对该语义特征进行处理,获取该目标字段的语义标签。
上述步骤606与上述步骤203类似,这里不做赘述。
可选地,节点设备基于该语义特征,获取至少一个第一预测概率,一个第一预测概率用于表示该语义特征与一种语义标签之间的匹配程度;将该至少一个第一预测概率中最大第一预测概率所对应的语义标签确定为该目标字段的语义标签。
在一个示例性场景中,图7是本申请实施例提供的一种第二翻译模型的原理性示意图,请参考图7,以第二翻译模型为BERT模型为例,在输入层701中将该目标字段所对应的至少一个数据项以及该目标字段的上下文信息拼接成长文本序列对,该长文本序列对也即是待预测属性的属性值序列以及上下文信息,然后利用分词工具为长文本序列进行分词处理,得到第二分词序列702,将第二分词序列输入到BERT的至少一个双向编码层703中进行语义编码,取出分类符[CLS]所对应的第二语义向量作为整个目标字段的语义特征,将该语义特征输入到分类器704中,在分类器704中通过前向全连接层和softmax层进行多分类处理,输出至少一个第一预测概率,选取最大第一预测概率所对应的语义标签作为模型输出。
在一个示例中,假设目标字段为表1中的作者列,该第二翻译模型的输入输出样例如下所示。
输入:
1)待识别属性的属性值集合(至少一个数据项):{Bill Swank,Steve Travers,Jack Torry}。
2)属性上下文信息(上下文信息):{书名1,1999年1月1日,$16.99,出版社1},{书名2,2007年4月1日,$9.99,出版社2},{书名3,1996年3月1日,$14.99,出版社3}。
输出:
预测所得的语义标签“author(作者)”。
可选地,BERT模型可以采用交叉熵作为损失函数,与分类器的参数矩阵进行联合训练,优化目标为正确分类的语义标签的对数概率最大化。在训练过程中,可以将批大小(batchsize)设置为32,学习率(learning rate)设置为2×10-5,遍历全部训练样本的次数(number of epochs)设置为3,第二翻译模型中第二分词序列的最大长度可以设置为256。如果输入的长文本序列长度大于256时,可以自动对该长文本序列进行截取,使得满足最大长度的限定。
在一些实施例中,在截取长文本序列时,可以采用启发式的方式,每次对长文本序列进行截断,如此迭代直到长文本序列的长度总和满足限制,兼顾了长文本序列中的属性值信息和上下文信息,避免由于截取而丧失大量有效信息。
在本申请实施例中,通过调用第二翻译模型的各个双向编码层,对自身列的各个数据项和其他列的各个数据项(上下文信息)分别进行了正向编码和反向编码,使得最终编码得到的各个字符的第二语义向量中不仅融合了自身列中各字符的相关信息,而且融合了其他列中各字符的相关信息,从而提升了整个第二语义向量序列的表达能力以及最终确定的语义特征的表达能力,也就提升了语义标签的识别准确率。
换言之,提出了一种关系数据上下文感知的关系属性语义自动识别技术,能够将语义识别问题转化为多分类问题,结合属性值集合以及关系数据上下文对关系属性进行语义编码,通过改写BERT模型的下游任务并微调模型参数,实现了有效的关系属性语义识别。
进一步地,由于BERT模型是一个开源的基础模型,通过将BERT下游任务改写为关系属性语义分类,就能够在预训练好的权重的基础上进行微调,以得到所需的翻译模型(相当于一个关系属性语义分类模型),不仅能够很好地利用先验知识,节约了计算资源,避免从头开始训练,而且也更好地拟合了关系数据垂直领域的语料,获取了性能良好的关系属性语义编码以及较好的语义识别效果。并且,由于关系属性的特征选择和定义都无需人为决策,实现了端到端的自动化语义编码。同时,在该第二翻译模型中,引入目标字段的上下文信息来对目标字段进行语义编码,可以有效地对语义相似字段进行区分,提升了语义序列的表达能力,提高了语义标签识别的准确率。
图8是本申请实施例提供的一种语义标签的获取方法的流程图,在一些实施例中,在执行上述步骤405或上述步骤606任一项之前,节点设备还可以执行下述可选步骤801-803,以基于知识库抽取目标字段的知识编码,下面进行详述:
801、节点设备从知识库中,查询与目标字段的至少一个数据项所对应的至少一个候选类别,一个数据项对应于一个或多个候选类别。
可选地,该知识库包括但不限于DBpedia、Freebase、YAGO等,知识库中存储着丰富的本体类知识。
802、节点设备对该至少一个候选类别进行编码,得到该至少一个数据项的第一类别特征。
上述过程相当于基于知识库对该至少一个数据项进行知识编码,得到该第一类别特征的过程,第一类别特征的维度取决于知识库中本体类的数量,每一维度表征了待识别属性(也即目标字段)属于某一本体类的可能性。
在一个示例性场景中,图9是本申请实施例提供的一种知识库中本体类关系的原理性示意图,如900所示,以DBpedia这一知识库为例,该知识库包括760种本体类,这些本体类之间存在错综复杂的层级关系,例如Actor(演员)、Artist(艺术家)、WinterSportPlayer(冬季运动员)等类别都是Person(人物)类别的子类。
由于在大多数情况下,目标字段的各个数据项将会被映射到几个存在父子关系的本体类上,即生成的知识编码(第二类别特征,KBVec)将会是高维且稀疏的。因此,节点设备可以通过下述步骤803来进行降维,以节约后续预测语义标签时的计算量。
803、节点设备对该至少一个数据项的第一类别特征进行降维,得到该至少一个数据项的第二类别特征。
可选地,节点设备采用主成分分析法(Principal Component Analysis,PCA),将提取到的第一类别特征从高维空间映射至低维空间,得到第二类别特征,PCA方式能够在压缩特征的同时使得信息损失最小化。
在一些实施例中,知识编码的构建与提取过程如下文算法1所示。
算法1:知识编码的构建与提取
输入:待识别属性集合Attrs;知识库中的本体类集合clses,集合中包含d个本体类;预设LookUp接口服务中结果的最大返回数N;PCA算法中主成分保留比例α
输出:知识编码(也即第二类别特征)KBVec
本算法1中,基于DBpedia知识库,对于待识别属性中的每个属性值(也即目标字段的每个数据项),首先借助于DBpedia提供的LookUp接口服务,来获取与之相匹配的资源和本体类(对应于算法1的第5行)。
可选地,为防止关键词匹配时遗漏相匹配的资源,节点设备将LookUp接口服务中结果的最大返回数设置为5,以尽可能地覆盖相匹配资源以及本体类。例如,通过接口“http://lookup.dbpedia.org/api/search/KeywordSearch?MaxHits=5&QueryString=berlin”可获取与一个数据项“berlin”最为相关的5个资源。
获取到数据项所属的候选类别之后,节点设备将检索每个候选类别在知识编码中所处的维度位置,并在相应维度上增强其特征表示(对应于算法1的第6-9行),得到目标字段的第一类别特征。最后,节点设备对获取到第一类别特征进行规范化处理,并使用PCA方法对第一类别特征进行降维操作,以减少高维稀疏数据带来的噪音干扰,得到目标字段的第二类别特征(对应于算法1的第13-14行)。
在本申请实施例中,通过借助于DBpedia等知识库中的先验知识,可以获取到与关系属性值(也即各个数据项)相关的资源(Resources)和本体类(Ontology Classes),相当于获取到了与各个数据项相关的候选类别,从而基于这些候选类别能够提取出候选类别的知识编码(也即第二类别特征)。换言之,提出了一种基于知识库的属性特征抽取技术,引入外部知识以增强属性的特征表示。
进一步地,将第二类别特征和翻译模型实施例中提取的语义特征结合,一起投入到语义标签的预测过程中,可以提升语义标签的识别准确性。在上述步骤801-803的基础上,可以提供如下两种结合第二类别特征和语义特征,以获取目标字段的语义标签的方式,下面进行详述。
方式一、ScoreEnsemble(分数集成法)
在一些实施例中,节点设备获取该目标字段的至少一个数据项的平均嵌入特征WordVec;将该平均嵌入特征WordVec与该第二类别特征KBVec进行拼接,得到第一拼接特征[WordVec,KBVec];基于该第一拼接特征和该语义特征,获取该目标字段的语义标签。
可选地,节点设备调用词向量模型(word2vec)对该至少一个数据项进行embedding处理,得到该至少一个数据项的至少一个embedding向量,将该至少一个embedding向量的平均向量获取为该平均嵌入特征WordVec。
在一些实施例中,节点设备基于该语义特征,获取至少一个第一预测概率,一个第一预测概率用于表示该语义特征与一种语义标签之间的匹配程度;基于该第一拼接特征,获取至少一个第二预测概率,一个第二预测概率用于表示该第一拼接特征与一种语义标签之间的匹配程度;分别对该至少一个第一预测概率和该至少一个第二预测概率进行加权处理,得到至少一个第三预测概率;将该至少一个第三预测概率中与最大第三预测概率所对应的语义标签确定为该目标字段的语义标签。
可选地,节点设备采用LR(Logistic Regression,逻辑回归)模型对该第一拼接特征进行多分类处理,得到该至少一个第二预测概率P2,第二预测概率P2的函数表达式如下:P2=LR([WordVec,KBVec])。
接下来,可以结合第一预测概率P1和第二预测概率P2,得到最终作为语义识别参考的第三预测概率P3。可选地,节点设备对每个语义标签,将该每个语义标签所对应的第一预测概率P1与第二预测概率P2的平均值作为该每个语义标签所对应的第三预测概率P3,该第三预测概率P3的函数表达式如下:P3=(P1+P2)/2。
可选地,节点设备将各个第三预测概率P3按照从大到小的顺序进行排序,将排序位于第一位的第三预测概率确定为最大第三预测概率,将该最大第三预测概率所对应的语义标签确定为该目标字段的语义标签。
在一些实施例中,除了将每个语义标签所对应的第一预测概率P1和第二预测概率P2的平均值作为第三预测概率P3之外,还可以为第一预测概率P1和第二预测概率P2设置不同的权重系数,将第一预测概率P1与对应的权重系数λ1相乘,得到第一数值P1λ1,将第二预测概率P2与对应的权重系数λ2相乘,得到第二数值P2λ2,将第一数值P1λ1与第二数值P2λ2相加所得的数值P1λ1+P2λ2确定为第三预测概率。
可选地,第一预测概率的权重系数λ1与第二预测概率的权重系数λ2均为大于或等于0且小于或等于1的数值,且第一预测概率和第二预测概率两者的权重系数相加等于1,也即λ1+λ2=1。
在上述方式一中,结合平均词向量(也即平均嵌入特征)和基于知识库的属性特征编码(也即第二类别特征),构建关系属性语义识别基础模型,综合基础模型与上下文感知模型的识别得分,得出最终语义识别结果。
方式二、FeatureEnsemble(特征集成法)
在一些实施例中,节点设备将目标字段的第二类别特征KBVec与该目标字段的语义特征C进行拼接,得到第二拼接特征[C,KBVec];基于该第二拼接特征[C,KBVec],获取至少一个第四预测概率P4,一个第四预测概率用于表示该第二拼接特征与一种语义标签之间的匹配程度;将该至少一个第四预测概率中与最大第四预测概率所对应的语义标签确定为该目标字段的语义标签。第四预测概率P4的函数表达式如下:P4=LR([C,KBVec])。
在上述两种方式中,节点设备均结合了第二类别特征和语义特征,分别从翻译模型的维度和知识库的维度共同预测最终的语义标签,能够进一步提升语义标签的识别准确率。方式一中充分利用了第一预测概率P1,方式二中充分利用了语义特征C,两者均具有良好的表现性能。需要说明的是,当关系数据质量较低、各属性区分难度较大时,采用方式二通常能够取得更好的语义识别效果。
此外,在一些场景中,由于无法保证所有待预测属性均为第一翻译模型和第二翻译模型等机器学习模型(一种多分类模型)曾学习过的已标注类别。因此,当待识别属性类别不属于机器学习模型预先定义范围内时,说明产生了“未知类别”的属性识别问题,这一问题又称为“未登录词”问题。
有鉴于此,节点设备可以借助于第二类别特征来改善上述问题:对待预测属性采用训练好的多分类模型进行类别预测,也即是说,仍然利用第一翻译模型或第二翻译模型等机器学习模型预测目标字段的语义标签;根据设定好的预测得分(相当于一个概率阈值)对待预测属性进行筛选,最大预测概率得分小于阈值的,确定目标字段为“未知类别”属性,即该属性的语义标签可能不属于多分类模型预先定义范围,也即是说,如果最大第一预测概率仍然小于某个概率阈值,说明出现了未登录词问题;对于筛选出的属于“未知类别”字段,可以利用构建的第一类别特征进行潜在的候选语义类别的识别,即将第一类别特征中非0维度对应的类别(也即知识库中的本体类),按照可能性从高到底的顺序输出为该“未知类别”属性的识别结果。
结合上述过程,一方面对于已标注类别,借助于多分类模型确保了其高准确率;另一方面,对于“未知类别”,借助于知识库提供了可行的解决方案,使得机器学习模型在实际应用场景中更具普适性。
在上述方式二中,通过上下文感知模型获取属性语义编码(也即语义特征),结合语义编码和基于知识库的属性编码(也即第二类别特征),构建特征融合的关系属性语义识别模型,考虑多分类模型中未标注语义类别的识别,借助于知识库的属性编码,为未知类别属性提供语义类别参考,使得模型在实际应用场景中更具普适性。
图10是本申请实施例提供的一种语义标签的获取装置的结构示意图,请参考图10,该装置包括:
第一获取模块1001,用于获取关系型数据库中待识别的目标字段所对应的至少一个数据项;
第二获取模块1002,用于基于该至少一个数据项,获取该目标字段的语义特征;
第三获取模块1003,用于对该语义特征进行处理,获取该目标字段的语义标签。
本申请实施例提供的装置,通过针对关系型数据库的任一目标字段,基于该目标字段所对应的各个数据项的语义特征,获取该目标字段的语义标签,由于该语义特征取决于各个数据项,因此而不会根据目标字段的命名而改变,从而提升了语义标签的识别准确率。
在一种可能实施方式中,该第二获取模块1002包括:
第一编码单元,用于调用第一翻译模型对该至少一个数据项进行编码,得到该语义特征,该第一翻译模型用于基于该至少一个数据项获取该语义特征。
在一种可能实施方式中,该第一编码单元用于:
对该至少一个数据项进行分词处理,得到包括至少一个字符的第一分词序列,该至少一个字符包括分类符和对该至少一个数据项分词处理所得的字符;
将该第一分词序列输入到该第一翻译模型中的至少一个双向编码层,通过该至少一个双向编码层对该第一分词序列进行正向编码和反向编码,输出第一语义向量序列,该第一语义向量序列中一个第一语义向量对应于该第一分词序列中一个字符;
将该第一语义向量序列中与该分类符对应的第一语义向量确定为该语义特征。
在一种可能实施方式中,该第二获取模块1002包括:
第一获取单元,用于获取该目标字段的上下文信息,该上下文信息包括与该目标字段对应于同一关系数据的其他字段的数据项;
第二编码单元,用于调用第二翻译模型对该至少一个数据项和该上下文信息进行编码,得到该语义特征,该第二翻译模型用于基于该至少一个数据项和该上下文信息获取该语义特征。
在一种可能实施方式中,该第二编码单元用于:
对该至少一个数据项和该上下文信息进行分词处理,得到包括至少一个字符的第二分词序列,该至少一个字符包括分类符、对该至少一个数据项和该上下文信息分词处理所得的字符以及语句分隔符;
将该第二分词序列输入到该第二翻译模型中的至少一个双向编码层,通过该至少一个双向编码层对该第二分词序列进行正向编码和反向编码,输出第二语义向量序列,该第二语义向量序列中一个第二语义向量对应于该第二分词序列中一个字符;
将该第二语义向量序列中与该分类符对应的第二语义向量确定为该语义特征。
在一种可能实施方式中,该第三获取模块1003包括:
第二获取单元,用于基于该语义特征,获取至少一个第一预测概率,一个第一预测概率用于表示该语义特征与一种语义标签之间的匹配程度;
第一确定单元,用于将该至少一个第一预测概率中最大第一预测概率所对应的语义标签确定为该目标字段的语义标签。
在一种可能实施方式中,该装置还包括:
查询模块,用于从知识库中,查询与该至少一个数据项所对应的至少一个候选类别,一个数据项对应于一个或多个候选类别;
编码模块,用于对该至少一个候选类别进行编码,得到该至少一个数据项的第一类别特征;
降维模块,用于对该至少一个数据项的第一类别特征进行降维,得到该至少一个数据项的第二类别特征。
在一种可能实施方式中,该第三获取模块1003包括:
第三获取单元,用于获取该至少一个数据项的平均嵌入特征;
第一拼接单元,用于将该平均嵌入特征与该第二类别特征进行拼接,得到第一拼接特征;
第四获取单元,用于基于该第一拼接特征和该语义特征,获取该目标字段的语义标签。
在一种可能实施方式中,该第四获取单元用于:
基于该语义特征,获取至少一个第一预测概率,一个第一预测概率用于表示该语义特征与一种语义标签之间的匹配程度;
基于该第一拼接特征,获取至少一个第二预测概率,一个第二预测概率用于表示该第一拼接特征与一种语义标签之间的匹配程度;
分别对该至少一个第一预测概率和该至少一个第二预测概率进行加权处理,得到至少一个第三预测概率;
将该至少一个第三预测概率中与最大第三预测概率所对应的语义标签确定为该目标字段的语义标签。
在一种可能实施方式中,该第三获取模块1003包括:
第二拼接单元,用于将该第二类别特征与该语义特征进行拼接,得到第二拼接特征;
第五获取单元,用于基于该第二拼接特征,获取至少一个第四预测概率,一个第四预测概率用于表示该第二拼接特征与一种语义标签之间的匹配程度;
第二确定单元,用于将该至少一个第四预测概率中与最大第四预测概率所对应的语义标签确定为该目标字段的语义标签。
需要说明的是:上述实施例提供的语义标签的获取装置在获取语义标签时,仅以上述各功能模块的划分进行举例说明,实际应用中,能够根据需要而将上述功能分配由不同的功能模块完成,即将节点设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语义标签的获取装置与语义标签的获取方法实施例属于同一构思,其具体实现过程详见语义标签的获取方法实施例,这里不再赘述。
图11是本申请实施例提供的一种节点设备的结构示意图。以节点设备为终端为例,可选地,该终端1100的设备类型包括:智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1100包括有:处理器1101和存储器1102。
可选地,处理器1101包括一个或多个处理核心,比如4核心处理器、8核心处理器等。可选地,处理器1101采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable LogicArray,可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中,处理器1101包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
在一些实施例中,存储器1102包括一个或多个计算机可读存储介质,可选地,该计算机可读存储介质是非暂态的。可选地,存储器1102还包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器1101所执行以实现本申请中各个实施例提供的语义标签的获取方法。
在一些实施例中,终端1100还可选包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间能够通过总线或信号线相连。各个外围设备能够通过总线、信号线或电路板与外围设备接口1103相连。具体地,外围设备包括:射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。
外围设备接口1103可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上;在一些其他实施例中,处理器1101、存储器1102和外围设备接口1103中的任意一个或两个在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1104包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。可选地,射频电路1104通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1104还包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1105用于显示UI(User Interface,用户界面)。可选地,该UI包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号能够作为控制信号输入至处理器1101进行处理。可选地,显示屏1105还用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1105为一个,设置终端1100的前面板;在另一些实施例中,显示屏1105为至少两个,分别设置在终端1100的不同表面或呈折叠设计;在再一些实施例中,显示屏1105是柔性显示屏,设置在终端1100的弯曲表面上或折叠面上。甚至,可选地,显示屏1105设置成非矩形的不规则图形,也即异形屏。可选地,显示屏1105采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1106用于采集图像或视频。可选地,摄像头组件1106包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1106还包括闪光灯。可选地,闪光灯是单色温闪光灯,或者是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,用于不同色温下的光线补偿。
在一些实施例中,音频电路1107包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1101进行处理,或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的,麦克风为多个,分别设置在终端1100的不同部位。可选地,麦克风是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。可选地,扬声器是传统的薄膜扬声器,或者是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅能够将电信号转换为人类可听见的声波,也能够将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1107还包括耳机插孔。
定位组件1108用于定位终端1100的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。可选地,定位组件1108是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源1109用于为终端1100中的各个组件进行供电。可选地,电源1109是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时,该可充电电池支持有线充电或无线充电。该可充电电池还用于支持快充技术。
在一些实施例中,终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于:加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。
在一些实施例中,加速度传感器1111检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1111用于检测重力加速度在三个坐标轴上的分量。可选地,处理器1101根据加速度传感器1111采集的重力加速度信号,控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还用于游戏或者用户的运动数据的采集。
在一些实施例中,陀螺仪传感器1112检测终端1100的机体方向及转动角度,陀螺仪传感器1112与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据,实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
可选地,压力传感器1113设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时,能够检测用户对终端1100的握持信号,由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时,由处理器1101根据用户对显示屏1105的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1114用于采集用户的指纹,由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份,或者,由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1101授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。可选地,指纹传感器1114被设置终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商Logo时,指纹传感器1114能够与物理按键或厂商Logo集成在一起。
光学传感器1115用于采集环境光强度。在一个实施例中,处理器1101根据光学传感器1115采集的环境光强度,控制显示屏1105的显示亮度。具体地,当环境光强度较高时,调高显示屏1105的显示亮度;当环境光强度较低时,调低显示屏1105的显示亮度。在另一个实施例中,处理器1101还根据光学传感器1115采集的环境光强度,动态调整摄像头组件1106的拍摄参数。
接近传感器1116,也称距离传感器,通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中,当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时,由处理器1101控制显示屏1105从亮屏状态切换为息屏状态;当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时,由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。
本领域技术人员能够理解,图11中示出的结构并不构成对终端1100的限定,能够包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条程序代码的存储器,上述至少一条程序代码可由终端中的处理器执行以完成上述实施例中语义标签的获取方法。例如,该计算机可读存储介质包括ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory,只读光盘)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,包括一条或多条程序代码,该一条或多条程序代码存储在计算机可读存储介质中。节点设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码,该一个或多个处理器执行该一条或多条程序代码,使得节点设备能够执行以完成上述实施例中语义标签的获取方法。
本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成,也能够通过程序来指令相关的硬件完成,可选地,该程序存储于一种计算机可读存储介质中,可选地,上述提到的存储介质是只读存储器、磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种语义标签的获取方法,其特征在于,所述方法包括:
获取关系型数据库中待识别的目标字段所对应的至少一个数据项;
基于所述至少一个数据项,获取所述目标字段的语义特征;
对所述语义特征进行处理,获取所述目标字段的语义标签。
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个数据项,获取所述目标字段的语义特征包括:
调用第一翻译模型对所述至少一个数据项进行编码,得到所述语义特征,所述第一翻译模型用于基于所述至少一个数据项获取所述语义特征。
3.根据权利要求2所述的方法,其特征在于,所述调用第一翻译模型对所述至少一个数据项进行编码,得到所述语义特征包括:
对所述至少一个数据项进行分词处理,得到包括至少一个字符的第一分词序列,所述至少一个字符包括分类符和对所述至少一个数据项分词处理所得的字符;
将所述第一分词序列输入到所述第一翻译模型中的至少一个双向编码层,通过所述至少一个双向编码层对所述第一分词序列进行正向编码和反向编码,输出第一语义向量序列,所述第一语义向量序列中一个第一语义向量对应于所述第一分词序列中一个字符;
将所述第一语义向量序列中与所述分类符对应的第一语义向量确定为所述语义特征。
4.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个数据项,获取所述目标字段的语义特征包括:
获取所述目标字段的上下文信息,所述上下文信息包括与所述目标字段对应于同一关系数据的其他字段的数据项;
调用第二翻译模型对所述至少一个数据项和所述上下文信息进行编码,得到所述语义特征,所述第二翻译模型用于基于所述至少一个数据项和所述上下文信息获取所述语义特征。
5.根据权利要求4所述的方法,其特征在于,所述调用第二翻译模型对所述至少一个数据项和所述上下文信息进行编码,得到所述语义特征包括:
对所述至少一个数据项和所述上下文信息进行分词处理,得到包括至少一个字符的第二分词序列,所述至少一个字符包括分类符、对所述至少一个数据项和所述上下文信息分词处理所得的字符以及语句分隔符;
将所述第二分词序列输入到所述第二翻译模型中的至少一个双向编码层,通过所述至少一个双向编码层对所述第二分词序列进行正向编码和反向编码,输出第二语义向量序列,所述第二语义向量序列中一个第二语义向量对应于所述第二分词序列中一个字符;
将所述第二语义向量序列中与所述分类符对应的第二语义向量确定为所述语义特征。
6.根据权利要求1所述的方法,其特征在于,所述对所述语义特征进行处理,获取所述目标字段的语义标签包括:
基于所述语义特征,获取至少一个第一预测概率,一个第一预测概率用于表示所述语义特征与一种语义标签之间的匹配程度;
将所述至少一个第一预测概率中最大第一预测概率所对应的语义标签确定为所述目标字段的语义标签。
7.根据权利要求1所述的方法,其特征在于,所述对所述语义特征进行处理,获取所述目标字段的语义标签之前,所述方法还包括:
从知识库中,查询与所述至少一个数据项所对应的至少一个候选类别,一个数据项对应于一个或多个候选类别;
对所述至少一个候选类别进行编码,得到所述至少一个数据项的第一类别特征;
对所述至少一个数据项的第一类别特征进行降维,得到所述至少一个数据项的第二类别特征。
8.根据权利要求7所述的方法,其特征在于,所述对所述语义特征进行处理,获取所述目标字段的语义标签包括:
获取所述至少一个数据项的平均嵌入特征;
将所述平均嵌入特征与所述第二类别特征进行拼接,得到第一拼接特征;
基于所述第一拼接特征和所述语义特征,获取所述目标字段的语义标签。
9.根据权利要求8所述的方法,其特征在于,所述基于所述第一拼接特征和所述语义特征,获取所述目标字段的语义标签包括:
基于所述语义特征,获取至少一个第一预测概率,一个第一预测概率用于表示所述语义特征与一种语义标签之间的匹配程度;
基于所述第一拼接特征,获取至少一个第二预测概率,一个第二预测概率用于表示所述第一拼接特征与一种语义标签之间的匹配程度;
分别对所述至少一个第一预测概率和所述至少一个第二预测概率进行加权处理,得到至少一个第三预测概率;
将所述至少一个第三预测概率中与最大第三预测概率所对应的语义标签确定为所述目标字段的语义标签。
10.根据权利要求7所述的方法,其特征在于,所述对所述语义特征进行处理,获取所述目标字段的语义标签包括:
将所述第二类别特征与所述语义特征进行拼接,得到第二拼接特征;
基于所述第二拼接特征,获取至少一个第四预测概率,一个第四预测概率用于表示所述第二拼接特征与一种语义标签之间的匹配程度;
将所述至少一个第四预测概率中与最大第四预测概率所对应的语义标签确定为所述目标字段的语义标签。
11.一种语义标签的获取装置,其特征在于,所述装置包括:
第一获取模块,用于获取关系型数据库中待识别的目标字段所对应的至少一个数据项;
第二获取模块,用于基于所述至少一个数据项,获取所述目标字段的语义特征;
第三获取模块,用于对所述语义特征进行处理,获取所述目标字段的语义标签。
12.根据权利要求11所述的装置,其特征在于,所述第二获取模块包括:
第一编码单元,用于调用第一翻译模型对所述至少一个数据项进行编码,得到所述语义特征,所述第一翻译模型用于基于所述至少一个数据项获取所述语义特征。
13.根据权利要求12所述的装置,其特征在于,所述第一编码单元用于:
对所述至少一个数据项进行分词处理,得到包括至少一个字符的第一分词序列,所述至少一个字符包括分类符和对所述至少一个数据项分词处理所得的字符;
将所述第一分词序列输入到所述第一翻译模型中的至少一个双向编码层,通过所述至少一个双向编码层对所述第一分词序列进行正向编码和反向编码,输出第一语义向量序列,所述第一语义向量序列中一个第一语义向量对应于所述第一分词序列中一个字符;
将所述第一语义向量序列中与所述分类符对应的第一语义向量确定为所述语义特征。
14.一种节点设备,其特征在于,所述节点设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求10任一项所述的语义标签的获取方法。
15.一种存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的语义标签的获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010984552.6A CN112163428A (zh) | 2020-09-18 | 2020-09-18 | 语义标签的获取方法、装置、节点设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010984552.6A CN112163428A (zh) | 2020-09-18 | 2020-09-18 | 语义标签的获取方法、装置、节点设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112163428A true CN112163428A (zh) | 2021-01-01 |
Family
ID=73858233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010984552.6A Pending CN112163428A (zh) | 2020-09-18 | 2020-09-18 | 语义标签的获取方法、装置、节点设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163428A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966140A (zh) * | 2021-03-10 | 2021-06-15 | 北京百度网讯科技有限公司 | 字段识别方法、装置、电子设备、存储介质和程序产品 |
CN113051249A (zh) * | 2021-03-22 | 2021-06-29 | 江苏杰瑞信息科技有限公司 | 一种基于多源异构大数据融合的云服务平台设计方法 |
CN113157978A (zh) * | 2021-01-15 | 2021-07-23 | 浪潮云信息技术股份公司 | 数据的标签建立方法和装置 |
WO2022000089A1 (en) * | 2020-06-30 | 2022-01-06 | National Research Council Of Canada | Vector space model for form data extraction |
CN114116692A (zh) * | 2021-11-04 | 2022-03-01 | 重庆大学 | 一种基于mask和双向模型的缺失POI轨迹补全方法 |
CN114969316A (zh) * | 2021-02-24 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及介质 |
EP4123496A3 (en) * | 2021-12-28 | 2023-06-14 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for extracting text information, electronic device and storage medium |
CN117591662A (zh) * | 2024-01-19 | 2024-02-23 | 川投信息产业集团有限公司 | 基于人工智能的数字化企业服务数据挖掘方法及系统 |
-
2020
- 2020-09-18 CN CN202010984552.6A patent/CN112163428A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022000089A1 (en) * | 2020-06-30 | 2022-01-06 | National Research Council Of Canada | Vector space model for form data extraction |
CN113157978B (zh) * | 2021-01-15 | 2023-03-28 | 浪潮云信息技术股份公司 | 数据的标签建立方法和装置 |
CN113157978A (zh) * | 2021-01-15 | 2021-07-23 | 浪潮云信息技术股份公司 | 数据的标签建立方法和装置 |
CN114969316A (zh) * | 2021-02-24 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及介质 |
CN114969316B (zh) * | 2021-02-24 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及介质 |
CN112966140A (zh) * | 2021-03-10 | 2021-06-15 | 北京百度网讯科技有限公司 | 字段识别方法、装置、电子设备、存储介质和程序产品 |
CN112966140B (zh) * | 2021-03-10 | 2023-08-08 | 北京百度网讯科技有限公司 | 字段识别方法、装置、电子设备、存储介质和程序产品 |
CN113051249A (zh) * | 2021-03-22 | 2021-06-29 | 江苏杰瑞信息科技有限公司 | 一种基于多源异构大数据融合的云服务平台设计方法 |
CN114116692A (zh) * | 2021-11-04 | 2022-03-01 | 重庆大学 | 一种基于mask和双向模型的缺失POI轨迹补全方法 |
CN114116692B (zh) * | 2021-11-04 | 2024-05-10 | 重庆大学 | 一种基于mask和双向模型的缺失POI轨迹补全方法 |
EP4123496A3 (en) * | 2021-12-28 | 2023-06-14 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for extracting text information, electronic device and storage medium |
CN117591662A (zh) * | 2024-01-19 | 2024-02-23 | 川投信息产业集团有限公司 | 基于人工智能的数字化企业服务数据挖掘方法及系统 |
CN117591662B (zh) * | 2024-01-19 | 2024-03-29 | 川投信息产业集团有限公司 | 基于人工智能的数字化企业服务数据挖掘方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163428A (zh) | 语义标签的获取方法、装置、节点设备及存储介质 | |
CN109189879B (zh) | 电子书籍显示方法及装置 | |
CN112069414A (zh) | 推荐模型训练方法、装置、计算机设备及存储介质 | |
CN109918669B (zh) | 实体确定方法、装置及存储介质 | |
CN111897996B (zh) | 话题标签推荐方法、装置、设备及存储介质 | |
CN113515942A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN110162604B (zh) | 语句生成方法、装置、设备及存储介质 | |
CN111737573A (zh) | 资源推荐方法、装置、设备及存储介质 | |
CN111611490A (zh) | 资源搜索方法、装置、设备及存储介质 | |
CN112269853B (zh) | 检索处理方法、装置及存储介质 | |
CN110942046B (zh) | 图像检索方法、装置、设备及存储介质 | |
CN111209377B (zh) | 基于深度学习的文本处理方法、装置、设备及介质 | |
CN111339737B (zh) | 实体链接方法、装置、设备及存储介质 | |
CN112464052A (zh) | 反馈信息的处理方法、显示方法、装置及电子设备 | |
CN115858826A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN110555102A (zh) | 媒体标题识别方法、装置及存储介质 | |
CN113987326B (zh) | 资源推荐方法、装置、计算机设备及介质 | |
CN114281936A (zh) | 分类方法、装置、计算机设备及存储介质 | |
CN114117206B (zh) | 推荐模型处理方法、装置、电子设备及存储介质 | |
CN110022397A (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN112561084B (zh) | 特征提取方法、装置、计算机设备及存储介质 | |
CN108416026B (zh) | 索引生成方法、内容搜索方法、装置及设备 | |
CN116186197A (zh) | 话题推荐方法、装置、电子设备及存储介质 | |
CN111275683B (zh) | 图像质量评分处理方法、系统、设备及介质 | |
CN112287070A (zh) | 词语的上下位关系确定方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |