CN113609850A - 分词处理方法、装置、电子设备及存储介质 - Google Patents

分词处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113609850A
CN113609850A CN202110750635.3A CN202110750635A CN113609850A CN 113609850 A CN113609850 A CN 113609850A CN 202110750635 A CN202110750635 A CN 202110750635A CN 113609850 A CN113609850 A CN 113609850A
Authority
CN
China
Prior art keywords
target
word
prediction result
word segmentation
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110750635.3A
Other languages
English (en)
Inventor
胡羽蓝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110750635.3A priority Critical patent/CN113609850A/zh
Publication of CN113609850A publication Critical patent/CN113609850A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本公开关于一种分词处理方法、装置、电子设备及存储介质,该方法包括:获取包括按序排列的多个目标字的待分词信息对应的目标特征向量;对目标特征向量进行标签预测处理,得到多个目标字各自属于预设分词标签的第一预测结果;基于预设分词标签,对待分词信息对应的目标分词片段中的目标字进行组合,得到多个目标字各自对应的目标词序列,并对目标词序列进行标签预测处理,得到多个目标字各自属于预设分词标签的第二预测结果;根据第一预测结果和第二预测结果,确定多个目标字各自对应的目标分词标签;根据待分词信息和目标分词标签,确定待分词信息的分词结果。利用本公开实施例提供的方案能够提高待分词信息的分词效果和性能,降低分词成本。

Description

分词处理方法、装置、电子设备及存储介质
技术领域
本公开涉及互联网技术领域,尤其涉及一种分词处理方法、装置、电子设备及存储介质。
背景技术
自然语言处理中的中文分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。
相关技术中通常基于匹配、统计、深度学习等分词算法进行中文分词。然而基于匹配的分词算法(比如,正向、逆向等匹配算法)过于依赖词典,词典的维护成本较高,系统资源消耗较大,且基于匹配的分词算法对于歧义词以及未登录词等的分词处理效果(比如,分词边界的稳定性)较差;基于统计的分词算法,复杂度大,分词性能(比如,分词速率)较差,且需要大量的人工标注,分词成本较高。而基于深度学习的分词算法,模型复杂度大,分词成本较高,无法满足高性能分词要求的场景。
发明内容
本公开提供一种分词处理方法、装置、电子设备及存储介质,以至少解决相关技术中访问此成本较高,分词效果和分词性能较差的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种分词处理方法,包括:
获取待分词信息对应的目标特征向量,所述待分词信息包括按序排列的多个目标字;
对所述目标特征向量进行标签预测处理,得到所述多个目标字各自属于预设分词标签的第一预测结果;
基于所述预设分词标签,对所述待分词信息对应的目标分词片段中的目标字进行组合,得到所述多个目标字各自对应的目标词序列,并对所述目标词序列进行标签预测处理,得到所述多个目标字各自属于所述预设分词标签的第二预测结果;所述目标分词片段由所述待分词信息中的首个目标字所组成,或由所述首个目标字至任一非首个目标字所组成;
根据所述第一预测结果和所述第二预测结果,确定所述多个目标字各自对应的目标分词标签;
根据所述待分词信息和所述目标分词标签,确定所述待分词信息的分词结果。
在一示例性的实施方式中,所述基于所述预设分词标签,对所述待分词信息对应的目标分词片段中的目标字进行组合,得到所述多个目标字各自对应的目标词序列,并对所述目标词序列进行标签预测处理,得到所述多个目标字各自属于所述预设分词标签的第二预测结果,包括:
基于所述预设分词标签对初始分词片段中的目标字进行组合,得到所述首个目标字对应的目标词序列,所述初始分词片段由所述首个目标字组成,或者由所述首个目标字与所述首个目标字之后预设数量个目标字所组成;
对所述首个目标字对应的目标词序列进行标签预测处理,得到所述首个目标字属于所述预设分词标签的第二预测结果:
将所述待分词信息中除所述首个目标字之外的其他目标字所组成的序列,作为其他目标字序列,遍历所述其他目标字序列中的每一其他目标字,并在遍历每一其他目标字时,执行以下操作:
基于所述预设分词标签,对由所述首个目标字至每一其他目标字所组成的目标分词片段进行组合,得到每一其他目标字对应的目标词序列;
对每一其他目标字对应的目标词序列进行标签预测处理,得到每一其他目标字属于所述预设分词标签的第二预测结果。
在一示例性的实施方式中,所述预设分词标签包括单字词标签和词尾位置标签,所述方法还包括:
基于所述单字词标签,将每一其他目标字添加到前一目标字对应的目标词序列中,得到每一其他目标字对应的第一候选词序列;所述前一目标字为所述待分词信息中与每一其他目标字相邻,且位于每一其他目标字之前的目标字;
对所述第一候选词序列进行标签预测处理,得到每一其他目标字属于所述单字词标签的第一候选预测结果;
在每一其他目标字与前预设数量个目标字所组成的词片段位于预设词表中时,基于所述词尾位置标签,将每一其他目标字添加至所述前一目标字对应的目标词序列中,得到每一其他目标字对应的第二候选词序列;所述前预设数量个目标字为所述待分词信息中位于每一其他目标字之前的预设数量个目标字;
对所述第二候选词序列进行标签预测处理,得到每一其他目标字属于所述词尾位置标签的第二候选预测结果;
基于所述第一候选预测结果和所述第二候选预测结果,确定每一其他目标字对应的目标词序列和每一其他目标字属于所述预设分词标签的第二预测结果。
在一示例性的实施方式中,所述基于所述第一候选预测结果和所述第二候选预测结果,确定每一其他目标字对应的目标词序列和每一其他目标字属于所述预设分词标签的第二预测结果,包括:
对所述第一候选预测结果的数值和所述第二候选预测结果的数值进行降序排序,得到每一其他目标字对应的候选预测结果序列;
将所述候选预测结果序列中排序最前的候选预测结果所对应的候选词序列,作为每一其他目标字对应的目标词序列,并将所述排序最前的候选预测结果作为每一其他目标字属于所述预设分词标签的第二预测结果。
在一示例性的实施方式中,所述方法还包括:
在所述词片段不位于所述预设词表中时,将所述第一候选词序列作为每一其他目标字对应的目标词序列,并将所述第一候选预测结果,作为每一其他目标字属于所述预设分词标签的第二预测结果。
在一示例性的实施方式中,所述根据所述第一预测结果和所述第二预测结果,确定所述多个目标字各自对应的目标分词标签,包括:
根据所述第一预测结果和第二预测结果,确定所述多个目标字各自属于所述预设分词标签的目标预测结果;
对所述目标预测结果的数值进行降序排序,得到所述多个目标字各自对应的预测结果序列;
将所述预测结果序列中排序最前的预测结果所对应的预设分词标签,作为所述多个目标字各自对应的目标分词标签。
在一示例性的实施方式中,所述根据所述待分词信息和所述目标分词标签,确定所述待分词信息的分词结果,包括:
根据所述目标分词标签对所述多个目标字进行组合,得到所述分词结果。
在一示例性的实施方式中,所述方法还包括:
基于预设标签转移矩阵和所述目标词序列,确定所述多个目标字各自对应的标签转移预测结果;
相应地,所述根据所述第一预测结果和所述第二预测结果,确定所述多个目标字各自对应的目标分词标签,包括:
根据所述第一预测结果、所述第二预测结果以及所述标签转移预测结果,确定所述多个目标字各自属于所述预设分词标签的目标预测结果;
根据所述目标预测结果,确定所述多个目标字各自对应的目标分词标签。
在一示例性的实施方式中,所述获取待分词信息对应的目标特征向量,包括:
获取所述多个目标字各自对应的字向量和二元语法向量;
对所述多个目标字各自对应的字向量和二元语法向量进行拼接,得到所述多个目标字各自对应的特征向量;
对所述多个目标字各自对应的特征向量进行融合,得到所述目标特征向量。
根据本公开实施例的第二方面,提供一种分词处理装置,包括:
目标特征向量获取模块,被配置为执行获取待分词信息对应的目标特征向量,所述待分词信息包括按序排列的多个目标字;
第一预测结果获取模块,被配置为执行对所述目标特征向量进行标签预测处理,得到所述多个目标字各自属于预设分词标签的第一预测结果;
第二预测结果获取模块,被配置为执行基于所述预设分词标签,对所述待分词信息对应的目标分词片段中的目标字进行组合,得到所述多个目标字各自对应的目标词序列,并对所述目标词序列进行标签预测处理,得到所述多个目标字各自属于所述预设分词标签的第二预测结果;所述目标分词片段由所述待分词信息中的首个目标字所组成,或由所述首个目标字至任一非首个目标字所组成;
目标分词标签获取模块,被配置为执行根据所述第一预测结果和所述第二预测结果,确定所述多个目标字各自对应的目标分词标签;
分词结果确定模块,被配置为执行根据所述待分词信息和所述目标分词标签,确定所述待分词信息的分词结果。
在一示例性的实施方式中,所述第二预测结果获取模块,包括:
第一组合单元,被配置为执行基于所述预设分词标签对初始分词片段中的目标字进行组合,得到所述首个目标字对应的目标词序列,所述初始分词片段由所述首个目标字组成,或者由所述首个目标字与所述首个目标字之后预设数量个目标字所组成;
第一预测处理单元,被配置为执行对所述首个目标字对应的目标词序列进行标签预测处理,得到所述首个目标字属于所述预设分词标签的第二预测结果:
遍历单元,被配置为执行将所述待分词信息中除所述首个目标字之外的其他目标字所组成的序列,作为其他目标字序列,遍历所述其他目标字序列中的每一其他目标字,并在遍历每一其他目标字时,执行以下操作:
第二组合单元,被配置为执行基于所述预设分词标签,对由所述首个目标字至每一其他目标字所组成的目标分词片段进行组合,得到每一其他目标字对应的目标词序列;
第二预测处理单元,被配置为执行对每一其他目标字对应的目标词序列进行标签预测处理,得到每一其他目标字属于所述预设分词标签的第二预测结果。
在一示例性的实施方式中,所述预设分词标签包括单字词标签和词尾位置标签,所述装置还包括:
第一添加模块,被配置为执行基于所述单字词标签,将每一其他目标字添加到前一目标字对应的目标词序列中,得到每一其他目标字对应的第一候选词序列;所述前一目标字为所述待分词信息中与每一其他目标字相邻,且位于每一其他目标字之前的目标字;
第一候选预测结果确定模块,被配置为执行对所述第一候选词序列进行标签预测处理,得到每一其他目标字属于所述单字词标签的第一候选预测结果;
第二添加模块,被配置为执行在每一其他目标字与前预设数量个目标字所组成的词片段位于预设词表中时,基于所述词尾位置标签,将每一其他目标字添加至所述前一目标字对应的目标词序列中,得到每一其他目标字对应的第二候选词序列;所述前预设数量个目标字为所述待分词信息中位于每一其他目标字之前的预设数量个目标字;
第二候选预测结果确定模块,被配置为执行对所述第二候选词序列进行标签预测处理,得到每一其他目标字属于所述词尾位置标签的第二候选预测结果;
第一词序列和预测结果确定模块,被配置为执行基于所述第一候选预测结果和所述第二候选预测结果,确定每一其他目标字对应的目标词序列和每一其他目标字属于所述预设分词标签的第二预测结果。
在一示例性的实施方式中,所述第一词序列和预测结果确定模块,包括:
第一降序排序单元,被配置为执行对所述第一候选预测结果的数值和所述第二候选预测结果的数值进行降序排序,得到每一其他目标字对应的候选预测结果序列;
最前候选词序列确定单元,被配置为执行将所述候选预测结果序列中排序最前的候选预测结果所对应的候选词序列,作为每一其他目标字对应的目标词序列,并将所述排序最前的候选预测结果作为每一其他目标字属于所述预设分词标签的第二预测结果;
在一示例性的实施方式中,所述装置还包括:
第二词序列和预测结果确定模块,被配置为执行在所述词片段不位于所述预设词表中时,将所述第一候选词序列作为每一其他目标字对应的目标词序列,并将所述第一候选预测结果,作为每一其他目标字属于所述预设分词标签的第二预测结果。
在一示例性的实施方式中,所述目标分词标签获取模块,包括:
第一目标预测结果确定单元,被配置为执行根据所述第一预测结果和第二预测结果,确定所述多个目标字各自属于所述预设分词标签的目标预测结果;
第二降序排序单元,被配置为执行对所述目标预测结果的数值进行降序排序,得到所述多个目标字各自对应的预测结果序列;
最前分词标签确定单元,被配置为执行将所述预测结果序列中排序最前的预测结果所对应的预设分词标签,作为所述多个目标字各自对应的目标分词标签。
在一示例性的实施方式中,所述分词结果确定模块,被配置为执行根据所述目标分词标签对所述多个目标字进行组合,得到所述分词结果。
在一示例性的实施方式中,所述装置还包括:
标签转移预测结果确定模块,被配置为执行基于预设标签转移矩阵和所述目标词序列,确定所述多个目标字各自对应的标签转移预测结果;
相应地,所述目标分词标签获取模块,包括:
第二目标预测结果确定单元,被配置为执行根据所述第一预测结果、所述第二预测结果以及所述标签转移预测结果,确定所述多个目标字各自属于所述预设分词标签的目标预测结果;
目标分词标签确定单元,被配置为执行根据所述目标预测结果,确定所述多个目标字各自对应的目标分词标签。
在一示例性的实施方式中,所述目标特征向量获取模块,包括:
向量获取单元,被配置为执行获取所述多个目标字各自对应的字向量和二元语法向量;
拼接单元,被配置为执行对所述多个目标字各自对应的字向量和二元语法向量进行拼接,得到所述多个目标字各自对应的特征向量;
融合单元,被配置为执行对所述多个目标字各自对应的特征向量进行融合,得到所述目标特征向量。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述任一实施方式所述的分词处理方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行如上述任一实施方式所述的分词处理方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一实施方式所述的分词处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开实施例对待分词信息的目标特征向量进行标签预测处理得到第一预测结果,能够对一些较少出现的文本进行泛化,保证长尾部分的分词效果,而对多个目标字各自对应的目标词序列进行标签预测处理得到第二预测结果,可以保证头部文本分词的准确性。在此基础上,通过融合第一预测结果和第二预测结果来确定目标分词标签,并根据目标分词标签确定待分词信息的分词结果,能够提高分词边界的稳定性和分词速率,从而提高待分词信息的分词效果和分词性能。且根据对目标特征向量以及目标词序列进行标签预测处理得到的预测结果,即可确定分词结果,分词成本较低,从而降低分词处理过程对系统资源的消耗。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种分词处理方法的应用环境图。
图2是根据一示例性实施例示出的一种分词处理方法的流程图
图3是根据一示例性实施例示出的一种获取待分词信息对应的目标特征向量的流程图。
图4是根据一示例性实施例示出的一种确定多个目标字各自属于上述预设分词标签的第二预测结果的流程图。
图5是根据一示例性实施例示出的一种确定每一其他目标字属于上述预设分词标签的第二预测结果的流程图。
图6是根据一示例性实施例示出的另一种确定每一其他目标字属于上述预设分词标签的第二预测结果的流程图。
图7是根据一示例性实施例示出的一种根据上述第一预测结果和上述第二预测结果,确定上述多个目标字各自对应的目标分词标签的流程图。
图8是根据一示例性实施例示出的一种分词处理装置框图。
图9是根据一示例性实施例示出的一种用于分词处理的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
请参阅图1,图1所示为根据一示例性实施例示出的一种分词处理方法的应用环境图,该应用环境可以包括客户端01和服务器02。客户端01可以通过有线或无线的方式与服务器02进行通信,本公开对此不做限定。
其中,客户端01可以采集用户输入的待分词信息,并将该待分词信息发送至服务器02。可选地,该客户端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等终端设备。
其中,服务器02可以用于获取客户端01采集的待分词信息,并对该待分词信息进行分词处理,得到待分词信息的分词结果。可选地,该服务器02可以是包括独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,图1仅仅是一种示例。在另一个示例性的实施例中,本公开实施例提供的分词处理方法还可以应用于仅包含客户端的应用环境中。其中,客户端可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等终端设备。客户端在获取待分词信息之后,对待分词信息进行处理,得到待分词信息的分词结果。
图2是根据一示例性实施例示出的一种分词处理方法的流程图,如图2所示,该分词处理方法用于图1中包含客户端和服务器的系统中,可以包括以下步骤:
在步骤S11中,获取待分词信息对应的目标特征向量,上述待分词信息包括按序排列的多个目标字。
具体地,上述待分词信息可以为中文文本。可选地,上述待分词信息可以为句子文本,也可以为篇章文本,本公开对此不做限定。
具体地,客户端可以采集用户输入的待分词信息,并将采集到的待分词信息发送至服务器。
示例性地,服务器可以通过神经网络模型对上述待分词信息进行特征提取,得到上述待分词信息对应的目标特征向量。
在一个可选的实施例中,图3是根据一示例性实施例示出的一种获取待分词信息对应的目标特征向量的流程图。如图3所示,在上述步骤S11中,上述获取待分词信息对应的目标特征向量,可以包括:
在步骤S1101中,获取上述多个目标字各自对应的字向量和二元语法向量。
在步骤S1103中,对上述多个目标字各自对应的字向量和二元语法向量进行拼接,得到上述多个目标字各自对应的特征向量。
在步骤S1105中,对上述多个目标字各自对应的特征向量进行融合,得到上述目标特征向量。
示例性地,可以基于大规模的业务语料,使用word2vec等训练方式训练得到词向量分析模型。根据该词向量分析模型对该待分词信息进行词向量分析处理,得到多个目标字各自对应字向量和二元语法向量(bigram向量)。
示例性地,可以将每个目标字的二元语法向量拼接到相应的字向量的后面,从而得到每个目标字对应的特征向量。比如,某个目标字的字向量为[1,2,3],bigram向量为[5,6,7],拼接后得到的目标字对应的特征向量为[1,2,3,4,5,6]。
具体地,可以将每个目标字各自对应的特征向量进行融合,得到上述待分词信息的目标特征向量。比如,对于“我爱上班”这一待分词信息,“我”字对应的特征向量为[a,a,a,a,a,a],“爱”字对应的特征向量为[b,b,b,b,b,b],“上”字对应的特征向量为[c,c,c,c,c,c],“班”字对应的特征向量为[d,d,d,d,d,d],则可以将[a,a,a,a,a,a],[b,b,b,b,b,b],[c,c,c,c,c,c]和[d,d,d,d,d,d]融合后作为上述待分词信息的目标特征向量。
本公开实施例通过每个目标字的字向量和二元语法向量确定待分词信息的目标特征向量,不仅充分考虑了每个目标字的特征,还兼顾了每个目标字与相邻的目标字之间的语法信息,从而提高了待分词信息的目标特征向量确定的精度,进而提高后续分词结果确定的准确性。
在步骤S13中,对上述目标特征向量进行标签预测处理,得到上述多个目标字各自属于预设分词标签的第一预测结果。
具体地,预设分词标签表征分词中每一字在对应分词中的位置信息,对于每一字的位置信息,可以表示为B(Begin)、M(Middle)、E(End)、S(Single)中的一种。其中,B(Begin)表示该字在对应分词中的开始位置,即词首位置;M(Middle)表示该字在对应分词中的中间位置,即词中位置;E(end)表示该字在对应分词中的结束位置,即词尾位置;S(Single)表示该字自身就是一个词,即单字成词,也就是说,S表示该字在对应分词(即,该字本身)中时,既在词首位置、也在词中位置、亦在词尾位置。
可选地,第一预测结果可以为预测概率。每个目标字各自属于每个预设分词标签(B、M、E、S)的预测概率的和为1。可选地,第一预测结果还可以为预测数值,根据该预测数值,可以推导出每个目标字各自属于每个预设分词标签(B、M、E、S)的预测概率。
示例性地,可以通过神经网络对目标特征向量进行标签预测处理,得到多个目标字各自属于预设分词标签的第一预测结果。可选地,该神经网络包括但不限于:Transformer模型、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)系列的模型。
以神经网络为Transformer模型为例,则上述步骤S13可以包括:基于Transformer模型对上述目标特征向量进行标签预测处理,得到上述多个目标字各自属于预设分词标签的第一预测结果。
具体地,Transformer模型属于自回归模型,基于自注意力可以并行训练,且不用依赖于上一个时刻的模型输出作为输入。Transformer模型在预测待分词信息的标签时,会得到每个目标字属于各个预设分词标签的第一预测结果,具体可以为得到每个目标字属于各个预设标签(BIES)的概率,即发射概率。
例如,待分词信息为“我爱上班”,将“我爱上班”作为Transformer模型的输入,可以得到“我”字属各个预设分词标签(B、M、E、S)的发射概率、“爱”字属各个预设分词标签(B、M、E、S)的发射概率、“上”字属各个预设分词标签(B、M、E、S)的发射概率、“班”字属各个预设分词标签(B、M、E、S)的发射概率。其中,对于每个目标字,其属于各个预设分词标签(B、M、E、S)的发射概率的和为1。
由于Transformer模型属于自回归模型,基于自注意力可以并行训练,且不用依赖于上一个时刻的模型输出作为输入,因此,基于Transformer模型对上述目标特征向量进行标签预测处理,预设分词标签的预测效率和精度均较高。且Transformer模型可以很好地对一些较少出现的文本进行泛化,保证长尾部分的分词效果,从而保证分词边界的稳定性,进而提高分词效果。
示例性地,Transformer模型的结构可以为一层,参数量相较完整版的Bert(多层transformer)大大削减,因此性能(比如,分词速率)可以得到保证。
在步骤S15中,基于上述预设分词标签,对上述待分词信息对应的目标分词片段中的目标字进行组合,得到上述多个目标字各自对应的目标词序列,并对上述目标词序列进行标签预测处理,得到上述多个目标字各自属于上述预设分词标签的第二预测结果;上述目标分词片段由上述待分词信息中的首个目标字所组成,或由上述首个目标字至任一非首个目标字所组成。
示例性地,可以通过N-Gram语言模型,对多个目标字各自对应的目标词序列进行标签预测处理,得到多个目标字各自属于预设分词标签的第二预测结果。其中,N-Gram语言模型是大词汇连续语音识别中常用的一种语言模型,可以称之为汉语语言模型。
具体地,在通过N-Gram语言模型进行标签预测时,上述步骤S15中的“对目标词序列进行标签预测处理”可以指的是,通过N-Gram语言模型对目标词序列的流畅度进行打分。
可选地,第二预测结果可以为预测概率。每个目标字各自属于每个预设分词标签(B、M、E、S)的预测概率的和为1。可选地,第二预测结果还可以为预测数值,根据该预测数值,可以推导出每个目标字各自属于每个预设分词标签(B、M、E、S)的预测概率。
示例性地,可以基于大量的无监督的语料,使用语言模型训练工具(比如,kenlm)训练得到N-Gram语言模型。训练语言模型使用的是传统的“统计+平滑”的方法,使用kenlm这个工具来训练,具有快速,节省内存的优点,其允许在开源许可下使用多核处理器。
在一个可选的实施例中,图4是根据一示例性实施例示出的一种确定多个目标字各自属于上述预设分词标签的第二预测结果的流程图。如图4所示,在上述步骤S15中,上述基于上述预设分词标签,对上述待分词信息对应的目标分词片段中的目标字进行组合,得到上述多个目标字各自对应的目标词序列,并对上述目标词序列进行标签预测处理,得到上述多个目标字各自属于上述预设分词标签的第二预测结果,可以包括:
在步骤S1501中,基于上述预设分词标签对初始分词片段中的目标字进行组合,得到上述首个目标字对应的目标词序列,上述初始分词片段由上述首个目标字组成,或者由上述首个目标字与上述首个目标字之后预设数量个目标字所组成。
在步骤S1503中,对上述首个目标字对应的目标词序列进行标签预测处理,得到上述首个目标字属于上述预设分词标签的第二预测结果。
在步骤S1505中,将上述待分词信息中除上述首个目标字之外的其他目标字所组成的序列,作为其他目标字序列,遍历上述其他目标字序列中的每一其他目标字,并在遍历每一其他目标字时,执行以下操作:
在步骤S1507中,基于上述预设分词标签,对由上述首个目标字至每一其他目标字所组成的目标分词片段进行组合,得到每一其他目标字对应的目标词序列。
在步骤S1509中,对每一其他目标字对应的目标词序列进行标签预测处理,得到每一其他目标字属于上述预设分词标签的第二预测结果。
具体地,对于首个目标字,可以将该首个目标字本身作为其对应的目标词序列,也可以基于预设分词标签,将首个目标字与上述首个目标字之后预设数量个目标字所组成的初始分词片段中的目标字进行组合,得到首个目标字对应的目标词序列。对于除首个目标字之外的其他目标字,可以基于预设分词标签,对由首个目标字至每一其他目标字所组成的目标分词片段中的目标字进行组合,得到每一其他目标字对应的目标词序列。其中,上述目标分词片段包括上述初始分词片段。
以待分词信息为“我爱上班”为例,对于首个目标字“我”,可以将“我”直接作为首个目标字对应的目标词序列,也可以通过预设分词标签,对“我爱”中的目标字进行组合,得到首个目标字对应的目标词序列。并通过N-Gram语言模型,对首个目标字对应的目标词序列(“我”或“我爱”)进行标签预测处理,可以得到“我”字属于预设分词标签“S”或“B”的第二测结果。对于除首个目标字之外的其他目标字,比如“上”字,可以通过预设分词标签,将“我爱上”中的目标字进行组合,得到“上”字对应的目标词序列。并通过N-Gram语言模型,对该目标词序列进行预测,得到“上”字属于预设分词标签的第二预测结果。
本公开实施例中,由于首个目标字和非首个目标字在待分词信息中的位置不同,针对不同位置的目标字,采用上述不同的方式确定相应的目标词序列,能够提高目标词序列确定的精度。接着对该高精度的目标词序列进行标签预测处理,能够确保每一目标字属于预设分词标签的第二预测结果的确定精度,进而确保后续分词结果确定的精度。
此外,由于N-Gram语言模型可以利用上下文中相邻词间的搭配信息,通过N-Gram语言模型对目标词序列进行预测,可以进一步提高目标分析序列确定的精度和后续分词结果确定的精度。
在另一个可选的实施例中,图5是根据一示例性实施例示出的一种确定每一其他目标字属于上述预设分词标签的第二预测结果的流程图。如图5所示,上述预设分词标签包括单字词标签和词尾位置标签,上述方法还可以包括:
在步骤S21中,基于上述单字词标签,将每一其他目标字添加到前一目标字对应的目标词序列中,得到每一其他目标字对应的第一候选词序列;上述前一目标字为上述待分词信息中与每一其他目标字相邻,且位于每一其他目标字之前的目标字。
在步骤S23中,对上述第一候选词序列进行标签预测处理,得到每一其他目标字属于上述单字词标签的第一候选预测结果。
在步骤S25中,在每一其他目标字与前预设数量个目标字所组成的词片段位于预设词表中时,基于上述词尾位置标签,将每一其他目标字添加至上述前一目标字对应的目标词序列中,得到每一其他目标字对应的第二候选词序列;上述前预设数量个目标字为上述待分词信息中位于每一其他目标字之前的预设数量个目标字。
在步骤S27中,对上述第二候选词序列进行标签预测处理,得到每一其他目标字属于上述词尾位置标签的第二候选预测结果。
在步骤S29中,基于上述第一候选预测结果和上述第二候选预测结果,确定每一其他目标字对应的目标词序列和每一其他目标字属于上述预设分词标签的第二预测结果。
具体地,在上述词片段不位于上述预设词表中时,上述方法还可以包括:
在步骤S26中,在上述词片段不位于上述预设词表中时,将上述第一候选词序列作为每一其他目标字对应的目标词序列,并将上述第一候选预测结果,作为每一其他目标字属于上述预设分词标签的第二预测结果。
具体地,为保证分词边界稳定和分词结果确定的精度,可以使用基于匹配的方法(比如,正向、逆向等匹配算法),挖掘出用于做干预的预设词表。
具体地,在上述步骤S21中,可以认为每一其他目标字的分词标签为单字词标签(即标签S),并将每一其他目标字添加到前一目标字对应的目标词序列中,得到每一其他目标字对应的第一候选词序列。在上述步骤S25中,可以认为每一其他目标字的分词标签为词尾位置标签(即标签B),并将每一其他目标字添加到前一目标字对应的目标词序列中,得到每一其他目标字对应的第二候选词序列。
示例性地,可以通过上述N-Gram语言模型,分别对第一候选词序列和第二候选词序列进行标签预测处理,得到第一候选预测结果和第二候选预测结果。
具体地,上述步骤S23中的“对第一候选词序列进行标签预测处理”,可以指的是通过N-Gram语言模型对第一候选词序列的流畅度进行打分,上述步骤S27中的“对第二候选词序列进行标签预测处理”,可以指的是通过N-Gram语言模型对第二候选词序列的流畅度进行打分。
可选地,第一候选预测结果和第二候选预测结果均可以为预测概率。
可选地,第一候选预测结果和第二候选预测结果还均可以为预测数值,根据该预测数值,可以推导出每个目标字各自属于预设分词标签(B、M、E、S)的预测概率。
具体地,上述步骤S25即为通过预设词表进行干预的过程,如果每一其他目标字与前预设数量个目标字所组成的词片段位于预设词表中,则进行如上述步骤S25上述的干预过程,否则,如上述步骤S26上述,不进行干预。
本公开实施例中,通过单字词标签或词尾位置标签,将每一其他目标字添加至前一目标字对应的目标词序列中,得到每一其他目标字对应的第一候选词序列,即可以在前一目标字已经确定的目标词序列的基础上,根据单字词标签或词尾位置标签确定每一其他目标字对应的目标词序列,可以提高每一其他目标字对应的目标词序列确认的效率和精度,从而提高后续分词结果确定的效率和精度。此外,如果每一其他目标字与前预设数量个目标字所组成的词片段位于预设词表中,则通过预设词表进行干预,保证分词边界的稳定性,而语言模型结合预设词表的干预则可以进一步保证头部文本分词的准确性。
本公开实施例中,如果每一其他目标字与前预设数量个目标字所组成的词片段不位于预设词表中,则不通过预设词表进行干预,即直接将第一候选词序列作为每一其他目标字对应的目标词序列,并直接将第一候选预测结果,作为每一其他目标字属于所述预设分词标签的第二预测结果,不仅能够进一步确保分词的准确性,还能够避免对每个词片段均进行干预所带来的系统资源消耗较大的问题。
在一示例性的实施例中,图6是根据一示例性实施例示出的另一种确定每一其他目标字属于上述预设分词标签的第二预测结果的流程图。如图6所示,在上述步骤S29中,上述基于上述第一候选预测结果和上述第二候选预测结果,确定每一其他目标字对应的目标词序列和每一其他目标字属于上述预设分词标签的第二预测结果,可以包括:
在步骤S2901中,对上述第一候选预测结果的数值和上述第二候选预测结果的数值进行降序排序,得到每一其他目标字对应的候选预测结果序列。
在步骤S2903中,将上述候选预测结果序列中排序最前的候选预测结果所对应的候选词序列,作为每一其他目标字对应的目标词序列,并将上述排序最前的候选预测结果作为每一其他目标字属于上述预设分词标签的第二预测结果。
本公开实施例中,在得到上述第一候选预测结果和第二候选预测结果之后,可以取二者的数值中最大的作为每一其他目标字属于上述预设分词标签的第二预测结果,并将该数值最大的候选预测结果所对应的候选词序列,作为每一其他目标字对应的目标词序列。
本公开实施例中,在确定目标词序列和第二预测结果的过程中,充分衡量了语言模型得到的第一候选预测结果以及预设干预词表干预得到的第二候选预测结果之间的关系,从而提高目标词序列和第二预测结果的确定准确性。
以下,以待分词信息为“你看过火柴人大乱斗吗”为例,对上述步骤S21-上述步骤S29、步骤S2901-步骤S2903进行说明。
对于“看”字:
在“看”字处,如果该字标签为“S”,则对应序列为“你看”,则通过语言模型对“你看”进行打分,得到“看”字相对于标签“S”的第一候选预测结果。
接着进行干预,查找“看”字与前预设数量个目标字所组成的词片段,比如“你看”。若该词片段在所挖掘的预设词表中,则“看”字的标签为“E”,通过语言模型对“你看”进行打分,得到“看”字相对于标签“E”的第二候选预测结果。
由于在对后面的目标字进行预测的时候,需要用到该目标字之前的目标字已经确定的序列,则可以根据第一候选预测结果和第二候选预测结果,确定“看”字处的最终目标词序列。假设第一候选预测结果的数值大于第二候选预测结果的数值,则取第一候选预测结果对应的序列(即“你看”)作为后续目标字预测所使用的目标词序列。
若该词片段不在所挖掘的词表中,则不需要进行干预,并直接将第一候选预测结果对应的序列(即“你看”)作为后续目标字预测所使用的目标词序列。
对于“过”字:
在“过”字处,如果该字标签为“S”,假设在“看”字处已经确定序列为“你看”,则通过语言模型对“你看过”进行打分,得到“过”字相对于标签“S”的第一候选预测结果。
接着进行干预,查找“过”字与前预设数量个字所组成的词片段,比如“看过”。若该词片段在所挖掘的预设词表中,则“过”字的标签为“E”,通过语言模型对“你看过”进行打分,得到“过”字相对于标签“E”的第二候选预测结果。
由于在对后面的目标字进行预测的时候,需要用到该目标字之前的目标字已经确定的序列,那此时可以根据第一候选预测结果和第二候选预测结果,确定“过”字处的最终目标词序列。假设第一候选预测结果的数值大于第二候选预测结果的数值,则取第一候选预测结果对应的序列(即“你看过”)作为后续目标字预测所使用的目标词序列。
若该词片段不在所挖掘的词表中,则不需要进行干预,并直接将第一候选预测结果对应的序列(即“你看过”)作为后续目标字预测所使用的目标词序列。
对于“火”字:
在“火”字处,如果该字标签为“S”,假设在“过”字处已经确定序列为“你看过”,则通过语言模型对“你看过火”进行打分,得到“火”字相对于标签“S”的第一候选预测结果。
接着进行干预,查找“火”字与前预设数量个字所组成的词片段,比如“过火”。若该词片段在所挖掘的预设词表中,则“火”字的标签为“E”,通过语言模型对“你看过火”进行打分,得到“火”字相对于标签“E”的第二候选预测结果。
由于在对后面的目标字进行打分的时候,需要用到该目标字之前的目标字已经确定的序列,则可以根据第一候选预测结果和第二候选预测结果,确定“火”字处的最终目标词序列。假设第一候选预测结果的数值大于第二候选预测结果的数值,则取第一候选预测结果对应的序列(即“你看过火”)作为后续目标字预测所使用的目标词序列。
若该词片段不在所挖掘的词表中,则不需要进行干预,并直接将第一候选预测结果对应的序列(即“你看过火”)作为后续目标字预测所使用的目标词序列。
对于“柴”字:
在“柴”字处,如果该字标签为“S”,假设在“火”字处已经确定序列为“你看过火”,则通过语言模型对“你看过火柴”进行打分,得到“柴”字相对于标签“S”的第一候选预测结果。
接着进行干预,查找“柴”字与前预设数量个字所组成的词片段,比如“火柴。若该词片段在所挖掘的预设词表中,则“柴”字的标签为“E”,通过语言模型对“你看过火柴”进行打分,得到“柴”字相对于标签“E”的第二候选预测结果。
由于在对后面的目标字进行预测的时候,需要用到该目标字之前的目标字已经确定的序列,则可以根据第一候选预测结果的数值和第二候选预测结果的数值,确定“柴”字处的最终序列。假设第二候选预测结果的数值大于第一候选预测结果的数值,则取第二候选预测结果对应的序列(即“你看过火柴”)作为后续目标字预测所使用的目标词序列。
若该词片段不在所挖掘的词表中,则不需要进行干预,并直接将第一候选预测结果对应的序列(即“你看过火柴”)作为后续目标字预测所使用的目标词序列。
对于“人”字:
在“人”字处,如果该字标签为“S”,假设在“柴”字处已经确定序列为“你看过火柴”,则通过语言模型对“你看过火柴人”进行打分,得到“人”字相对于标签“S”的第一候选预测结果。
接着进行干预,查找“人”字与前预设数量个字所组成的片段,比如“柴人”。若该片段在所挖掘的词表中,则“人”字的标签为“E”,通过语言模型对“你看过火柴人”进行打分,得到“人”字相对于标签“E”的第二候选预测结果。
由于在对后面的目标字进行打分的时候,需要用到该目标字之前的目标字,则可以根据第一候选预测结果的数值和第二候选预测结果的数值,确定“人”字处最终的目标词序列。假设第一候选预测结果的数值大于第二候选预测结果的数值,则取第一候选预测结果对应的序列(即“你看过火柴人”)作为后续目标字预测所使用的序列。
若该片段不在所挖掘的词表中,则不需要进行干预,并直接将第一候选预测结果对应的序列(即“你看过火柴人”)作为后续目标字预测所使用的序列。
以此类推,可以得到每一其他目标字对应的目标词序列以及每一其他目标字相对于各个预设分词标签的预测结果。
在步骤S17中,根据上述第一预测结果和上述第二预测结果,确定上述多个目标字各自对应的目标分词标签。
在一个可选的实施例中,图7是根据一示例性实施例示出的一种根据上述第一预测结果和上述第二预测结果,确定上述多个目标字各自对应的目标分词标签的流程图。如图7所示,在上述步骤S17中,上述根据上述第一预测结果和上述第二预测结果,确定上述多个目标字各自对应的目标分词标签,可以包括:
在步骤S1701中,根据上述第一预测结果和第二预测结果,确定上述多个目标字各自属于上述预设分词标签的目标预测结果。
在步骤S1703中,对上述目标预测结果的数值进行降序排序,得到上述多个目标字各自对应的预测结果序列。
在步骤S1705中,将上述预测结果序列中排序最前的预测结果所对应的预设分词标签,作为上述多个目标字各自对应的目标分词标签。
示例性地,可以将多个目标字各自属于预设分词标签的第一预测结果的数值和第二预测结果的数值的和,作为多个目标字各自属于上述预设分词标签的目标预测结果。并将数值最高的预测结果所对应的预设分词标签,作为多个目标字各自对应的目标分词标签。
假设,待分词信息为“我爱上班”,“上”字属于标签B、E、M、S的第一预测结果分别为a%、b%、c%和d%,“上”字属于标签B、E、M、S的第二预测结果分别为e%、f%、g%和h%,则“上”字属于标签B的目标预测结果为a%+e%,属于标签E的目标预测结果为b%+f%,属于标签M的目标预测结果为c%+g%,属于标签S的目标预测结果为d%+h%。则对“上”字属于各个标签的目标预测结果进行降序排序,得到“上”字对应的预测结果序列(比如,a%+e%>d%+h%>c%+g%>b%+f%),则将a%+e%所对应的预设分词标签(即标签B)作为“上”字对应的目标分词标签。
本公开实施例中,可以结合第一预测结果和第二预测结果确定多个目标字各自属于预设分词标签的目标预测结果(比如,综合概率分数),并以该目标预测结果为基础确定多个目标字各自对应的目标分词标签,即确定最优的分词标签,提高了目标分词标签确定的精度和效率。由于可以确定每个目标字各自对应的最优的目标分词标签,该最优的目标分词标签可以用于确定待分词信息的分词结果,从而可以提高后续分词结果确定的精度和效率。
在一个可选的实施例中,还可以预先初始化一个多维数组(假设4*4的数组),该多维数据用于记载每个目标字各自属于每个预设分词标签的预测结果。该多维数组中的数值可以预设预测的过程不断进行更新。在上述步骤S17之前,可以对该多维数组进行解码,得到多个目标字各自属于上述预设分词标签的第一预测结果和第二预测结果。通过初始化多维数组记载每个目标字各自属于每个预设分词标签的预测结果,可以确保预测结果不丢失,且便于预测结果的更新,从而进一步后续分词结果确定的准确性。
在步骤S19中,根据上述待分词信息和上述目标分词标签,确定上述待分词信息的分词结果。
在一个可选的实施例中,在上述步骤S19中,上述根据上述待分词信息和上述目标分词标签,确定上述待分词信息的分词结果,可以包括:根据上述目标分词标签对上述多个目标字进行组合,得到上述分词结果。
本公开实施例中,在得到多个目标字各自对应的目标分词标签之后,可以通过目标分词标签对上述多个目标字进行组合,得到上述分词结果。例如,待分词信息为“我爱上班”,若最终确定的“我”、“爱”、“上”和“班”各自对应的目标分词标签分别为S、S、B、E,则根据S、S、B、E对我爱上班进行组合,得到的分词结果如下:“我爱上班”。
本公开实施例中,通过上述技术方案确定的目标分词标签,可以满足对效果(比如,保持分词边界的稳定性)、性能(比如,分词效率)均具有高要求的业务场景,大大提升了在业务场景的可用性,并将先进的深度模型引入了真实业务场景。在真实的搜索、推荐等场景下,本公开实施例所提出的技术方案可以达到0.92的F1值,性能为500k/s。其中,F1值是一种中和了精确率和召回率的指标。
在一个可选的实施例中,上述方法还可以包括:基于预设标签转移矩阵和上述目标词序列,确定上述多个目标字各自对应的标签转移预测结果。
相应地,在上述步骤S17中,上述根据上述第一预测结果和上述第二预测结果,确定上述多个目标字各自对应的目标分词标签,可以包括:
根据上述第一预测结果、上述第二预测结果以及上述标签转移预测结果,确定上述多个目标字各自属于上述预设分词标签的目标预测结果。
根据上述目标预测结果,确定上述多个目标字各自对应的目标分词标签。
具体地,预设标签转移矩阵用于描述各个预设分词标签之间的转移概率。可选地,预设标签转移矩阵可以是一个4*4的转移概率矩阵。其可以在模型训练过程中统计得到。
因此,在得到上述多个目标字各自对应的目标词序列之后,可以结合预设标签转移矩阵所描述的各个预设分词标签的转移概率,确定多个目标字各自对应的标签转移预测结果。例如,对于“我爱上班“这一待分词信息”,若有“我爱上班”和“我爱上班”这两条路径,则在“班”字处,“班”字对应的标签转移预测结果分别为
Figure BDA0003146109730000194
的转移概率和
Figure BDA0003146109730000193
的转移概率。
示例性地,在得到多个目标字各自对应的标签转移预测结果之后,可以将多个目标字各自属于预设分词标签的第一预测结果的数值、第二预测结果的数值以及多个目标字各自对应的标签转移预测结果的数值和,作为多个目标字各自属于上述预设分词标签的目标预测结果。并将数值最高的预测结果所对应的预设分词标签,作为多个目标字各自对应的目标分词标签。
假设,待分词信息为“我爱上班”,“班”字对应的目分词序列为“我爱上班”,“班”字属于标签E的第一预测结果和第二预测结果分别为J%和k%,“班”字对应的标签转移预测结果为
Figure BDA0003146109730000191
的转移概率。则“班”字属于标签E的目标预测结果(比如,综合概率)为
Figure BDA0003146109730000192
的转移概率。以此类推,可以确定多个目标字各自属于预设分词标签的目标预测结果。并根据目标预测结果,确定多个目标字各自对应的目标分词标签(目标分词标签的确定过程与上述步骤1703和步骤1705类似,在此不再赘述)。
本公开实施例中,可以结合第一预测结果、第二预测结果和标签转移预测结果确定多个目标字各自属于预设分词标签的目标预测结果(比如,综合概率分数),并以该目标预测结果为基础确定多个目标字各自对应的目标分词标签,即确定最优的分词标签,分词标签的确定过程充分考虑了各个预设标签之间的转移情况,提高了目标分词标签确定的精度和效率。由于可以确定每个目标字各自对应的最优的目标分词标签,该最优的目标分词标签可以用于确定待分词信息的分词结果,从而可以提高后续分词结果确定的精度和效率。
图8是根据一示例性实施例示出的一种分词处理装置框图。参照图8,该装置可以包括目标特征向量获取模块31、第一预测结果获取模块33、第二预测结果获取模块35、目标分词标签获取模块37和分词结果确定模块39。
目标特征向量获取模块31,被配置为执行获取待分词信息对应的目标特征向量,上述待分词信息包括按序排列的多个目标字。
第一预测结果获取模块33,被配置为执行对上述目标特征向量进行标签预测处理,得到上述多个目标字各自属于预设分词标签的第一预测结果。
第二预测结果获取模块35,被配置为执行基于上述预设分词标签,对上述待分词信息对应的目标分词片段中的目标字进行组合,得到上述多个目标字各自对应的目标词序列,并对上述目标词序列进行标签预测处理,得到上述多个目标字各自属于上述预设分词标签的第二预测结果;上述目标分词片段由上述待分词信息中的首个目标字所组成,或由上述首个目标字至任一非首个目标字所组成。
目标分词标签获取模块37,被配置为执行根据上述第一预测结果和上述第二预测结果,确定上述多个目标字各自对应的目标分词标签。
分词结果确定模块39,被配置为执行根据上述待分词信息和上述目标分词标签,确定上述待分词信息的分词结果。
在一示例性的实施方式中,上述第二预测结果获取模块35,可以包括:
第一组合单元,被配置为执行基于上述预设分词标签对初始分词片段中的目标字进行组合,得到上述首个目标字对应的目标词序列,上述初始分词片段由上述首个目标字组成,或者由上述首个目标字与上述首个目标字之后预设数量个目标字所组成。
第一预测处理单元,被配置为执行对上述首个目标字对应的目标词序列进行标签预测处理,得到上述首个目标字属于上述预设分词标签的第二预测结果。
遍历单元,被配置为执行将上述待分词信息中除上述首个目标字之外的其他目标字所组成的序列,作为其他目标字序列,遍历上述其他目标字序列中的每一其他目标字,并在遍历每一其他目标字时,执行以下操作:
第二组合单元,被配置为执行基于上述预设分词标签,对由上述首个目标字至每一其他目标字所组成的目标分词片段进行组合,得到每一其他目标字对应的目标词序列。
第二预测处理单元,被配置为执行对每一其他目标字对应的目标词序列进行标签预测处理,得到每一其他目标字属于上述预设分词标签的第二预测结果。
在一示例性的实施方式中,上述预设分词标签包括单字词标签和词尾位置标签,上述装置还可以包括:
第一添加模块,被配置为执行基于上述单字词标签,将每一其他目标字添加到前一目标字对应的目标词序列中,得到每一其他目标字对应的第一候选词序列;上述前一目标字为上述待分词信息中与每一其他目标字相邻,且位于每一其他目标字之前的目标字。
第一候选预测结果确定模块,被配置为执行对上述第一候选词序列进行标签预测处理,得到每一其他目标字属于上述单字词标签的第一候选预测结果。
第二添加模块,被配置为执行在每一其他目标字与前预设数量个目标字所组成的词片段位于预设词表中时,基于上述词尾位置标签,将每一其他目标字添加至上述前一目标字对应的目标词序列中,得到每一其他目标字对应的第二候选词序列;上述前预设数量个目标字为上述待分词信息中位于每一其他目标字之前的预设数量个目标字。
第二候选预测结果确定模块,被配置为执行对上述第二候选词序列进行标签预测处理,得到每一其他目标字属于上述词尾位置标签的第二候选预测结果。
第一词序列和预测结果确定模块,被配置为执行基于上述第一候选预测结果和上述第二候选预测结果,确定每一其他目标字对应的目标词序列和每一其他目标字属于上述预设分词标签的第二预测结果。
在一示例性的实施方式中,上述第一词序列和预测结果确定模块,可以包括:
第一降序排序单元,被配置为执行对上述第一候选预测结果的数值和上述第二候选预测结果的数值进行降序排序,得到每一其他目标字对应的候选预测结果序列。
最前候选词序列确定单元,被配置为执行将上述候选预测结果序列中排序最前的候选预测结果所对应的候选词序列,作为每一其他目标字对应的目标词序列,并将上述排序最前的候选预测结果作为每一其他目标字属于上述预设分词标签的第二预测结果。
在一示例性的实施方式中,上述装置还可以包括:
第二词序列和预测结果确定模块,被配置为执行在上述词片段不位于上述预设词表中时,将上述第一候选词序列作为每一其他目标字对应的目标词序列,并将上述第一候选预测结果,作为每一其他目标字属于上述预设分词标签的第二预测结果。
在一示例性的实施方式中,上述目标分词标签获取模块37,可以包括:
第一目标预测结果确定单元,被配置为执行根据上述第一预测结果和第二预测结果,确定上述多个目标字各自属于上述预设分词标签的目标预测结果。
第二降序排序单元,被配置为执行对上述目标预测结果的数值进行降序排序,得到上述多个目标字各自对应的预测结果序列。
最前分词标签确定单元,被配置为执行将上述预测结果序列中排序最前的预测结果所对应的预设分词标签,作为上述多个目标字各自对应的目标分词标签。
在一示例性的实施方式中,上述分词结果确定模块39,被配置为执行根据上述目标分词标签对上述多个目标字进行组合,得到上述分词结果。
在一示例性的实施方式中,上述装置还可以包括:
标签转移预测结果确定模块,被配置为执行基于预设标签转移矩阵和上述目标词序列,确定上述多个目标字各自对应的标签转移预测结果。
相应地,上述目标分词标签获取模块37,还可以包括:
第二目标预测结果确定单元,被配置为执行根据上述第一预测结果、上述第二预测结果以及上述标签转移预测结果,确定上述多个目标字各自属于上述预设分词标签的目标预测结果。
目标分词标签确定单元,被配置为执行根据上述目标预测结果,确定上述多个目标字各自对应的目标分词标签。
在一示例性的实施方式中,上述目标特征向量获取模块31,可以包括:
向量获取单元,被配置为执行获取上述多个目标字各自对应的字向量和二元语法向量。
拼接单元,被配置为执行对上述多个目标字各自对应的字向量和二元语法向量进行拼接,得到上述多个目标字各自对应的特征向量。
融合单元,被配置为执行对上述多个目标字各自对应的特征向量进行融合,得到上述目标特征向量。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种电子设备,包括处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行存储器上所存放的指令时,实现上述实施例中任一分词处理方法的步骤。
该电子设备可以是终端、服务器或者类似的运算装置,以该电子设备是服务器为例,图9是根据一示例性实施例示出的一种用于分词处理的电子设备的框图,该电子设备40可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(CentralProcessing Units,CPU)41(中央处理器41可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器43,一个或一个以上存储应用程序423或数据422的存储介质42(例如一个或一个以上海量存储设备)。其中,存储器43和存储介质42可以是短暂存储或持久存储。存储在存储介质42的程序可以包括一个或一个以上模块,每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器41可以设置为与存储介质42通信,在电子设备40上执行存储介质42中的一系列指令操作。电子设备40还可以包括一个或一个以上电源46,一个或一个以上有线或无线网络接口45,一个或一个以上输入输出接口44,和/或,一个或一个以上操作系统421,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口44可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备40的通信供应商提供的无线网络。在一个实例中,输入输出接口44包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个示例性实施例中,输入输出接口44可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子设备的结构造成限定。例如,电子设备40还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。
在示例性实施例中,还提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述实施例中任一分词处理方法的步骤。
在示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一种实施方式中提供的分词处理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种分词处理方法,其特征在于,包括:
获取待分词信息对应的目标特征向量,所述待分词信息包括按序排列的多个目标字;
对所述目标特征向量进行标签预测处理,得到所述多个目标字各自属于预设分词标签的第一预测结果;
基于所述预设分词标签,对所述待分词信息对应的目标分词片段中的目标字进行组合,得到所述多个目标字各自对应的目标词序列,并对所述目标词序列进行标签预测处理,得到所述多个目标字各自属于所述预设分词标签的第二预测结果;所述目标分词片段由所述待分词信息中的首个目标字所组成,或由所述首个目标字至任一非首个目标字所组成;
根据所述第一预测结果和所述第二预测结果,确定所述多个目标字各自对应的目标分词标签;
根据所述待分词信息和所述目标分词标签,确定所述待分词信息的分词结果。
2.根据权利要求1所述的分词处理方法,其特征在于,所述基于所述预设分词标签,对所述待分词信息对应的目标分词片段中的目标字进行组合,得到所述多个目标字各自对应的目标词序列,并对所述目标词序列进行标签预测处理,得到所述多个目标字各自属于所述预设分词标签的第二预测结果,包括:
基于所述预设分词标签对初始分词片段中的目标字进行组合,得到所述首个目标字对应的目标词序列,所述初始分词片段由所述首个目标字组成,或者由所述首个目标字与所述首个目标字之后预设数量个目标字所组成;
对所述首个目标字对应的目标词序列进行标签预测处理,得到所述首个目标字属于所述预设分词标签的第二预测结果:
将所述待分词信息中除所述首个目标字之外的其他目标字所组成的序列,作为其他目标字序列,遍历所述其他目标字序列中的每一其他目标字,并在遍历每一其他目标字时,执行以下操作:
基于所述预设分词标签,对由所述首个目标字至每一其他目标字所组成的目标分词片段进行组合,得到每一其他目标字对应的目标词序列;
对每一其他目标字对应的目标词序列进行标签预测处理,得到每一其他目标字属于所述预设分词标签的第二预测结果。
3.根据权利要求2所述的分词处理方法,其特征在于,所述预设分词标签包括单字词标签和词尾位置标签,所述方法还包括:
基于所述单字词标签,将每一其他目标字添加到前一目标字对应的目标词序列中,得到每一其他目标字对应的第一候选词序列;所述前一目标字为所述待分词信息中与每一其他目标字相邻,且位于每一其他目标字之前的目标字;
对所述第一候选词序列进行标签预测处理,得到每一其他目标字属于所述单字词标签的第一候选预测结果;
在每一其他目标字与前预设数量个目标字所组成的词片段位于预设词表中时,基于所述词尾位置标签,将每一其他目标字添加至所述前一目标字对应的目标词序列中,得到每一其他目标字对应的第二候选词序列;所述前预设数量个目标字为所述待分词信息中位于每一其他目标字之前的预设数量个目标字;
对所述第二候选词序列进行标签预测处理,得到每一其他目标字属于所述词尾位置标签的第二候选预测结果;
基于所述第一候选预测结果和所述第二候选预测结果,确定每一其他目标字对应的目标词序列和每一其他目标字属于所述预设分词标签的第二预测结果。
4.根据权利要求3所述的分词处理方法,其特征在于,所述基于所述第一候选预测结果和所述第二候选预测结果,确定每一其他目标字对应的目标词序列和每一其他目标字属于所述预设分词标签的第二预测结果,包括:
对所述第一候选预测结果的数值和所述第二候选预测结果的数值进行降序排序,得到每一其他目标字对应的候选预测结果序列;
将所述候选预测结果序列中排序最前的候选预测结果所对应的候选词序列,作为每一其他目标字对应的目标词序列,并将所述排序最前的候选预测结果作为每一其他目标字属于所述预设分词标签的第二预测结果。
5.根据权利要求3所述的分词处理方法,其特征在于,所述方法还包括:
在所述词片段不位于所述预设词表中时,将所述第一候选词序列作为每一其他目标字对应的目标词序列,并将所述第一候选预测结果,作为每一其他目标字属于所述预设分词标签的第二预测结果。
6.根据权利要求1至5中任一项所述的分词处理方法,其特征在于,所述根据所述第一预测结果和所述第二预测结果,确定所述多个目标字各自对应的目标分词标签,包括:
根据所述第一预测结果和第二预测结果,确定所述多个目标字各自属于所述预设分词标签的目标预测结果;
对所述目标预测结果的数值进行降序排序,得到所述多个目标字各自对应的预测结果序列;
将所述预测结果序列中排序最前的预测结果所对应的预设分词标签,作为所述多个目标字各自对应的目标分词标签。
7.一种分词处理装置,其特征在于,包括:
目标特征向量获取模块,被配置为执行获取待分词信息对应的目标特征向量,所述待分词信息包括按序排列的多个目标字;
第一预测结果获取模块,被配置为执行对所述目标特征向量进行标签预测处理,得到所述多个目标字各自属于预设分词标签的第一预测结果;
第二预测结果获取模块,被配置为执行基于所述预设分词标签,对所述待分词信息对应的目标分词片段中的目标字进行组合,得到所述多个目标字各自对应的目标词序列,并对所述目标词序列进行标签预测处理,得到所述多个目标字各自属于所述预设分词标签的第二预测结果;所述目标分词片段由所述待分词信息中的首个目标字所组成,或由所述首个目标字至任一非首个目标字所组成;
目标分词标签获取模块,被配置为执行根据所述第一预测结果和所述第二预测结果,确定所述多个目标字各自对应的目标分词标签;
分词结果确定模块,被配置为执行根据所述待分词信息和所述目标分词标签,确定所述待分词信息的分词结果。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的分词处理方法。
9.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1至6中任一项所述的分词处理方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的分词处理方法。
CN202110750635.3A 2021-07-02 2021-07-02 分词处理方法、装置、电子设备及存储介质 Pending CN113609850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110750635.3A CN113609850A (zh) 2021-07-02 2021-07-02 分词处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110750635.3A CN113609850A (zh) 2021-07-02 2021-07-02 分词处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113609850A true CN113609850A (zh) 2021-11-05

Family

ID=78303940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110750635.3A Pending CN113609850A (zh) 2021-07-02 2021-07-02 分词处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113609850A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334492A (zh) * 2017-12-05 2018-07-27 腾讯科技(深圳)有限公司 文本分词、即时消息处理方法和装置
CN109344406A (zh) * 2018-09-30 2019-02-15 阿里巴巴集团控股有限公司 词性标注方法、装置和电子设备
CN109829162A (zh) * 2019-01-30 2019-05-31 新华三大数据技术有限公司 一种文本分词方法及装置
CN109992766A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 提取目标词的方法和装置
CN110674319A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 标签确定方法、装置、计算机设备及存储介质
CN110688853A (zh) * 2019-08-12 2020-01-14 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN111027291A (zh) * 2019-11-27 2020-04-17 达而观信息科技(上海)有限公司 文本中标点符号添加、模型训练方法、装置及电子设备
CN111428488A (zh) * 2020-03-06 2020-07-17 平安科技(深圳)有限公司 简历数据信息解析及匹配方法、装置、电子设备及介质
CN111651985A (zh) * 2019-12-18 2020-09-11 创新工场(广州)人工智能研究有限公司 一种用于中文分词的方法与装置
CN112052670A (zh) * 2020-08-28 2020-12-08 丰图科技(深圳)有限公司 地址文本分词方法、装置、计算机设备和存储介质
CN112668324A (zh) * 2020-12-04 2021-04-16 北京达佳互联信息技术有限公司 语料数据处理方法、装置、电子设备及存储介质
CN112989761A (zh) * 2021-05-20 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法及装置
CN112988979A (zh) * 2021-04-29 2021-06-18 腾讯科技(深圳)有限公司 实体识别方法、装置、计算机可读介质及电子设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334492A (zh) * 2017-12-05 2018-07-27 腾讯科技(深圳)有限公司 文本分词、即时消息处理方法和装置
CN109992766A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 提取目标词的方法和装置
CN109344406A (zh) * 2018-09-30 2019-02-15 阿里巴巴集团控股有限公司 词性标注方法、装置和电子设备
CN109829162A (zh) * 2019-01-30 2019-05-31 新华三大数据技术有限公司 一种文本分词方法及装置
WO2021027125A1 (zh) * 2019-08-12 2021-02-18 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN110688853A (zh) * 2019-08-12 2020-01-14 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN110674319A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 标签确定方法、装置、计算机设备及存储介质
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN111027291A (zh) * 2019-11-27 2020-04-17 达而观信息科技(上海)有限公司 文本中标点符号添加、模型训练方法、装置及电子设备
CN111651985A (zh) * 2019-12-18 2020-09-11 创新工场(广州)人工智能研究有限公司 一种用于中文分词的方法与装置
CN111428488A (zh) * 2020-03-06 2020-07-17 平安科技(深圳)有限公司 简历数据信息解析及匹配方法、装置、电子设备及介质
CN112052670A (zh) * 2020-08-28 2020-12-08 丰图科技(深圳)有限公司 地址文本分词方法、装置、计算机设备和存储介质
CN112668324A (zh) * 2020-12-04 2021-04-16 北京达佳互联信息技术有限公司 语料数据处理方法、装置、电子设备及存储介质
CN112988979A (zh) * 2021-04-29 2021-06-18 腾讯科技(深圳)有限公司 实体识别方法、装置、计算机可读介质及电子设备
CN112989761A (zh) * 2021-05-20 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法及装置

Similar Documents

Publication Publication Date Title
CN111563208B (zh) 一种意图识别的方法、装置及计算机可读存储介质
US11392838B2 (en) Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on TextCNN
CN113722493B (zh) 文本分类的数据处理方法、设备、存储介质
US20200380311A1 (en) Collaborative Information Extraction
CN112380837B (zh) 基于翻译模型的相似句子匹配方法、装置、设备及介质
CN111459977B (zh) 自然语言查询的转换
CN111310440A (zh) 文本的纠错方法、装置和系统
CN110175273B (zh) 文本处理方法、装置、计算机可读存储介质和计算机设备
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
CN113836925B (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN111401065A (zh) 实体识别方法、装置、设备及存储介质
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN113961666A (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN112699237B (zh) 标签确定方法、设备和存储介质
CN114090769A (zh) 实体挖掘方法、装置、计算机设备和存储介质
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113609850A (zh) 分词处理方法、装置、电子设备及存储介质
CN113779202B (zh) 命名实体识别方法、装置、计算机设备和存储介质
WO2022267460A1 (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN115576789A (zh) 流失用户识别方法和系统
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN113688636A (zh) 扩展问的推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination