CN114328837A - 序列标注方法、装置、计算机设备、存储介质 - Google Patents

序列标注方法、装置、计算机设备、存储介质 Download PDF

Info

Publication number
CN114328837A
CN114328837A CN202111654465.5A CN202111654465A CN114328837A CN 114328837 A CN114328837 A CN 114328837A CN 202111654465 A CN202111654465 A CN 202111654465A CN 114328837 A CN114328837 A CN 114328837A
Authority
CN
China
Prior art keywords
sequence
label
text
identification
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111654465.5A
Other languages
English (en)
Inventor
刘天赏
陈汝龙
陶予祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qichacha Technology Co ltd
Original Assignee
Qichacha Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qichacha Technology Co ltd filed Critical Qichacha Technology Co ltd
Priority to CN202111654465.5A priority Critical patent/CN114328837A/zh
Publication of CN114328837A publication Critical patent/CN114328837A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种序列标注方法、装置、计算机设备、存储介质。所述方法包括:获取文本序列,对所述文本序列进行转换,得到与所述文本序列对应的标识序列;将所述标识序列输入序列标注模型,得到所述文本序列中字段对应的第一标签;当所述第一标签中包括组合标签时,对所述组合标签进行解析得到与所述组合标签对应的多个第二标签;根据多个所述第二标签对所述字段进行标注。相较于传统的序列标注方法中只能采用一个标签对字段进行标注而言,采用本方法能够对文本序列中的字段生成组合标签,并采用组合标签解析得到的多个第二标签对文本序列中的字段进行标注,从而使得序列标注模型的标签检测方式更多样。

Description

序列标注方法、装置、计算机设备、存储介质
技术领域
本申请涉及计算机应用技术领域,特别是涉及一种序列标注方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
信息抽取技术是一种从自然语言文本中抽取出一些字段信息(例如,实体、关键事实描述等)的技术。对自然语言文本进行信息抽取,首先要对自然语言文本进行序列标注。
传统技术中,可以通过将文本输入至序列标注模型,通过序列标注模型对文本进行处理,生成与文本对应的标签序列。再对标签序列进行解码,得到与文本中每个字段对应的标签结果,进而采用标签结果对文本进行序列标注。但是,采用传统技术中的序列标注方式,序列标注模型针对每个字段输出的标签为单标签,存在标签检测方式较为单一,无法给一个字段打上多个标签的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够给字段打上多个标签的序列标注方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种序列标注方法。所述方法包括:
获取文本序列,对所述文本序列进行分词处理,得到多个分词字符,对每个所述分词字符进行转换,得到与所述文本序列对应的标识序列;
将所述标识序列输入序列标注模型,得到所述文本序列中字段对应的第一标签;
当所述第一标签中包括组合标签时,对所述组合标签进行解析得到与所述组合标签对应的多个第二标签,根据多个所述第二标签对所述字段进行标注,所述组合标签对应的多个所述第二标签之间符合预设的标签逻辑关系。
在其中一个实施例中,当存在目标字段在所述文本序列中出现的次数为多次时,所述方法还包括:
判断所述目标字段对应的多个第一标签之间的关系是否符合所述标签逻辑关系;
当多个所述第一标签之间的关系符合所述标签逻辑关系时,接受所述文本序列中所述目标字段对应的多个所述第一标签。
在其中一个实施例中,所述方法还包括:
当多个所述第一标签之间的关系不符合所述标签逻辑关系时,删除与所述目标字段对应的多个所述第一标签。
在其中一个实施例中,所述将所述标识序列输入序列标注模型,得到所述文本序列中字段对应的第一标签,包括:
将所述标识序列输入所述序列标注模型,生成与所述标识序列对应的标签序列,所述标签序列中的标签携带标签标识;
根据所述标签标识对所述标签序列进行解码,得到所述文本序列中字段对应的所述第一标签。
在其中一个实施例中,所述标签标识包括起始标识和非起始标识;所述根据所述标签标识对所述标签序列进行解码,得到所述文本序列中字段对应的所述第一标签,包括:
从所述标签序列的第一个起始标识开始,依次查找相邻的一组起始标识和非起始标识,得到多个标识组;
根据与所述标识组对应的部分文本序列生成字段,根据与所述标识组对应的标签,生成与所述字段对应的所述第一标签。
在其中一个实施例中,所述获取文本序列,包括:
获取原始文本序列;
当所述原始文本序列的文本长度大于阈值时,对所述原始文本序列进行分句,得到多个文本句;
根据每个所述文本句的文本句长度,对多个所述文本句进行划分,得到多个文本序列,其中,每个所述文本序列的文本长度小于所述阈值,且,相邻的两个所述文本序列之间存在重合的文本句。
第二方面,本申请还提供了一种序列标注装置。所述装置包括:
标识序列生成模块,用于获取文本序列,对所述文本序列进行分词处理,得到多个分词字符,对每个所述分词字符进行转换,得到与所述文本序列对应的标识序列;
第一标签获取模块,用于将所述标识序列输入序列标注模型,得到所述文本序列中字段对应的第一标签;
字段标注模块,用于当所述第一标签中包括组合标签时,对所述组合标签进行解析得到与所述组合标签对应的多个第二标签,根据多个所述第二标签对所述字段进行标注,所述组合标签对应的多个所述第二标签之间符合预设的标签逻辑关系。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项实施例所述的序列标注方法。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一项实施例所述的序列标注方法。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面任一项实施例所述的序列标注方法。
上述序列标注方法、装置、计算机设备、存储介质和计算机程序产品,通过对文本序列进行转换,得到与文本序列对应的标识序列,将标识序列输入序列标注模型,得到文本序列中字段对应的第一标签,当第一标签中包括组合标签时,对组合标签进行解析得到与组合标签对应的多个第二标签,根据多个第二标签对字段进行标注,能够对文本序列中的字段生成组合标签,并采用组合标签解析得到的多个第二标签对文本序列中的字段进行标注。因此,相较于传统的序列标注方法中只能采用一个标签对字段进行标注而言,本申请提供的序列标注方法能够获取与字段对应的多个标签,并采用多标签对字段进行标注,从而使得序列标注模型的标签检测方式更多样。
附图说明
图1为一个实施例中序列标注方法的流程示意图;
图2为一个实施例中文本序列获取步骤的流程示意图;
图3为另一个实施例中序列标注方法的流程示意图;
图4为一个实施例中序列标注装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种序列标注方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本实施例中,该方法应用于多个标签之间存在标签逻辑关系的情况下,包括以下步骤:
步骤S102,获取文本序列,对文本序列进行分词处理,得到多个分词字符,对每个所述分词字符进行转换,得到与文本序列对应的标识序列。
其中,文本序列可以用于表征多个字符组成的未标注的文本片段。标识序列可以是根据字符与标识之间预设的映射关系对文本序列进行转换得到的。例如,字符“A”与标识“xxy”对应,字符“B”与标识“xxz”对应,则与文本序列“AAB”对应的标识序列可以为“xxy-xxy-xxz”。一个示例中,标识序列可以是文本序列按照分词词表转换得到的id序列。
具体地,服务器中预先存储了多个字符与标识之间的映射关系(例如分词词表中字符与标识之间的映射关系)。服务器响应于序列标注请求,获取文本序列。对文本序列进行分词,得到多个分词字符。按照字符与标识之间的映射关系,对每个分词字符进行转换,得到与文本序列对应的标识序列。其中,序列标注请求可以是用户手动触发的,例如用户在页面上点击相应的序列标注按键,触发对文本序列的序列标注请求;也可以是服务器自动触发的,例如服务器检测到存在文本序列时,自动触发对文本序列的序列标注请求,获取文本序列。
步骤S104,将标识序列输入序列标注模型,得到文本序列中字段对应的第一标签。
其中,序列标注模型可以是语言表征模型,例如BERT模型(BidirectionalEncoder Representation from Transformers,一种自编码语言模型)、双向LSTM模型(Bi-directional LSTM,一种双向长短期记忆网络模型)、XLNet模型(一种自回归语言模型)、ERNIE模型(Enhanced Representation from kNowledge IntEgration,知识增强语义表示模型)等。一个实施例中,通过采用携带标签的文本序列样本对已初步训练的语言表征模型进行训练,将已训练的语言表征模型作为已训练的序列标注模型,能够减少序列标注模型训练的成本和时间,并且使得序列标注模型实现较高的序列标注准确率。
具体地,服务器中预先部署了已训练的序列标注模型。将标识序列输入序列标注模型中,通过序列标注模型确定标识序列中的每个标识与多个标签之间的相关性,将相关性最高的标签作为该标识对应的标签。根据与每个标识对应的标签,生成与文本序列中每个字段对应的第一标签。
步骤S106,当第一标签中包括组合标签时,对组合标签进行解析得到与组合标签对应的多个第二标签,根据多个第二标签对字段进行标注。
其中,本申请实施例中标签可以包括组合标签和单标签。组合标签可以用于表征多个第二标签组合形成的标签,例如组合标签“受送人-被告”可以通过第二标签“受送人”和第二标签“被告”组合生成。第二标签可以用于表征组成组合标签的单标签,与组合标签对应的多个第二标签之间符合预设的标签逻辑关系。其中,标签逻辑关系可以是用户根据多个标签之间的语义逻辑设置的,由于多个第二标签之间存在标签逻辑关系的限制,导致多个第二标签组成的组合标签数量为有限个,从而使得本申请实施例中提供的序列标注模型与传统的序列标注模型在使用时消耗的成本相差较小。一个示例中,当存在“被告”标签和“原告”标签时,由于这两个标签之间不符合标签逻辑关系,故这两个标签无法组合生成对应的组合标签。
具体地,服务器对文本序列中每个字段对应的第一标签进行检测,当服务器确定与字段对应的第一标签中存在组合标签时,采用第二标签对组合标签进行解析,确定组合标签中存在的多个第二标签。采用多个第二标签对该字段进行标注,作为与该字段对应的标注结果。当服务器确定与字段对应的第一标签中不存在组合标签时,采用第一标签对该字段进行标注,作为与该字段对应的标注结果。将与文本序列中每个字段对应的标注结果作为文本序列的序列标注结果。一个示例中,进一步地,服务器可以通过文本序列的序列标注结果对文本序列进行信息抽取,获取与每个标注结果对应的字段信息。
一个示例中,当服务器通过序列标注模型生成的与字段对应的第一标签中存在组合标签“受送人-被告”时,对组合标签进行解析得到第二标签“受送人”、“被告”,采用“受送人”、“被告”对该字段进行标注,作为与该字段对应的标注结果。
一个实施例中,当服务器通过序列标注模型生成的与字段对应的第一标签为单标签时,直接采用第一标签对字段进行标注。
上述序列标注方法中,通过对文本序列进行转换,得到与文本序列对应的标识序列,将标识序列输入序列标注模型,得到文本序列中字段对应的第一标签,当第一标签中包括组合标签时,对组合标签进行解析得到与组合标签对应的多个第二标签,根据多个第二标签对字段进行标注,能够对文本序列中的字段生成组合标签,并采用组合标签解析得到的多个第二标签对文本序列中的字段进行标注。因此,相较于传统的序列标注方法中只能采用一个标签对字段进行标注而言,本申请提供的序列标注方法能够获取与字段对应的多个标签,并采用多标签对字段进行标注,从而使得序列标注模型的标签检测方式更多样。
在一个实施例中,当存在目标字段在文本序列中出现的次数为多次时,序列标注方法还包括:判断目标字段对应的多个第一标签之间的关系是否符合预设的标签逻辑关系;当多个第一标签之间的关系符合标签逻辑关系时,接受文本序列中目标字段对应的多个第一标签。
具体地,服务器中预先存储了多个标签之间的标签逻辑关系。当服务器确定目标字段在文本序列中出现多次时,获取与文本序列中每个位置处的目标字段对应的第一标签,得到与目标字段对应的多个第一标签。采用标签逻辑关系对目标字段对应的多个第一标签进行判断,当服务器确定多个第一标签之间的关系符合标签逻辑关系时,接受文本序列中目标字段对应的多个第一标签,根据多个第一标签对目标字段进行标注。
一个示例中,当目标字段对应的第一标签为“被告”、“受送人”时,两个第一标签之间符合标签逻辑关系,接收与目标字段对应的“被告”和“受送人”标签,并将“被告”和“受送人”标签作为目标字段的标注结果。
本实施例中,通过当目标字段在文本序列中出现多次时,采用标签逻辑关系对与目标字段对应的多个第一标签进行判断,接收符合标签逻辑关系的多个第一标签,能够提高对文本序列进行序列标注的准确率。
在一个实施例中,序列标注方法还包括:当多个第一标签之间的关系不符合标签逻辑关系时,删除与目标字段对应的多个第一标签。
具体地,当服务器确定目标字段在文本序列中出现多次时,获取与文本序列中每个位置处的目标字段对应的第一标签,得到与目标字段对应的多个第一标签。采用标签逻辑关系对目标字段对应的多个第一标签进行判断。当服务器确定与目标字段对应的多个第一标签之间不符合标签逻辑关系时,拒绝文本序列中目标字段对应的多个第一标签,如删除与目标字段对应的每个第一标签。
一个示例中,当目标字段对应的第一标签为“被告”、“原告”时,两个第一标签之间不符合标签逻辑关系,拒绝与目标字段对应的“被告”和“原告”标签,并删除与目标字段对应的“被告”和“原告”标签。
一个示例中,当服务器确定与目标字段对应的多个第一标签之间不符合标签逻辑关系时,拒绝文本序列中目标字段对应的多个第一标签,生成并显示提示信息(如与目标字段对应的多个第一标签不符合标签逻辑关系)。
本实施例中,通过删除不符合逻辑关系的多个第一标签,能够避免文本序列的序列标注结果中存在逻辑冲突的标注结果。
在一个实施例中,步骤S104,将标识序列输入序列标注模型,得到文本序列中字段对应的第一标签,包括:将标识序列输入序列标注模型,生成与标识序列对应的标签序列,根据标签标识对标签序列进行解码,得到文本序列中字段对应的第一标签。
其中,标签序列中的标签携带标签标识。标签标识可以但不仅限于包括非实体标识。携带非实体标识的标签可以用于表征非名词的标签,并且无需对该标签对应的字段进行序列标注。
具体地,服务器将标识序列输入序列标注模型,通过序列标注模型确定每个标识与多个标签之间的相关性,建立标识与标签之间的相关性矩阵。采用与每个标识相关性最高的标签作为与标识对应的标签,将相关性矩阵转换为标签序列。对标签序列中每个标签携带的标签标识进行检测,删除携带非实体标识的标签,根据删除后的标签序列,得到文本序列中字段对应的第一标签。
一个示例中,以ERNIE模型为例,对序列标注模型的训练过程进行说明:
首先,服务器获取多条携带标签的文本序列样本,对文本序列样本进行分词处理,采用已初步训练的ERNIE模型自带的词表(该词表中存储了多个字符与标识之间的映射关系)对分词处理后得到的多个字符进行转换,得到与文本序列样本中每个字符对应的标识,生成与文本序列样本对应的标识序列,将与文本序列样本中字段对应的标签作为与标识序列对应的标签。将标识序列,以及标识序列对应的标签作为训练数据输入已初步训练的ERNIE模型。在已初步训练的ERNIE模型中添加一层全连接神经网络,使得添加全连接神经网络后的ERNIE模型中隐状态维度大小与标签的数量相同(例如,当标识序列中标识的数量为512,并且,标签的数量为21时,通过序列标注模型生成的相关性矩阵的大小为512×21)。通过添加全连接神经网络后的ERNIE模型获取标识与每个标签之间的相关性,建立标识与标签之间的相关性矩阵,将相关性矩阵中与标识的相关性最高的标签作为与标识对应的预测标签。确定与标识序列对应的标签与预测标签之间差异度,根据差异度对添加全连接神经网络后的ERNIE模型的权重参数进行调整,直至差异度符合预设条件,得到已训练的ERNIE模型。
本实施例中,通过生成与标识序列对应的标签序列,删除携带非实体标识的标签,根据删除后的标签序列得到文本序列中字段对应的第一标签,能够减少服务器处理的数据量,从而提高序列标注的效率。
在一个实施例中,标签标识包括起始标识和非起始标识。根据标签标识对标签序列进行解码,得到文本序列中字段对应的第一标签,包括:从标签序列的第一个起始标识开始,依次查找相邻的一组起始标识和非起始标识,得到多个标识组;根据与标识组对应的部分标识序列生成文本序列中的字段;根据与标识组对应的标签,生成与字段对应的第一标签。
具体地,服务器从标签序列中第一个携带起始标识的标签开始,依次查找与当前起始标识相邻并且在当前起始标识之后的若干个非起始标识,将当前起始标识与对应的非起始标识作为相邻的一组起始标识和非起始标识,得到多个标识组,每个标识组中标签的内容一致。根据与每个标识组对应的部分标识序列,对文本序列中的多个字符进行组合,得到与每个标识组对应的字段。采用与标识组对应的标签内容,作为与字段对应的第一标签。
一个示例中,服务器可以将第一个起始标识与第二个起始标识之间的多个非起始标识,作为与第一个起始标识相邻的非起始标识,得到与第一个起始标识对应的标识组。
本实施例中,通过起始标识和非起始标识对标签序列进行解码,确定多个标识组,采用标识组对多个字符进行组合,得到与每个标识组对应的字段,将标识组对应的标签内容作为与字段对应的第一标签,能够提高对字段进行序列标注的准确率。
在一个实施例中,如图2所示,步骤S102,获取文本序列,对文本序列进行转换,得到与文本序列对应的标识序列,包括:
步骤S202,获取原始文本序列。
步骤S204,当原始文本序列的文本长度大于阈值时,对原始文本序列进行分句,得到多个文本句。
步骤S206,根据每个文本句的文本句长度,对多个文本句进行划分,得到多个文本序列。
其中,每个文本序列的文本长度小于阈值,并且,相邻的两个文本序列之间存在重合的文本句。
具体地,服务器中预先存储了文本长度的阈值。服务器获取原始文本序列,确定原始文本序列的文本长度。将原始文本序列的文本长度与阈值进行比较,当服务器确定原始文本序列的文本长度大于阈值时,对原始文本序列进行分句,得到多个文本句。从原始文本序列中第一个文本句开始,按照文本句的顺序依次将文本句的文本长度进行叠加,直至叠加后的多个文本句的第一文本长度小于阈值,并且第一文本长度与下一文本句的文本长度之和大于阈值,将叠加后的多个文本句作为一个文本序列。从该文本序列中处于末尾的文本句开始,重复上述操作,生成新的文本序列,直至对原始文本序列中最后一个文本句完成处理,得到多个文本序列。
本实施例中,通过对原始文本序列进行分句,根据文本句的文本句长度对文本句进行划分,得到多个文本序列,并且相邻的两个文本序列之间存在重合的文本句,能够增加相邻文本序列之间的重叠部分,使得序列标注模型学习上下文的信息,从而提高序列标注的准确率。
在一个实施例中,如图3所示,提供了一种序列标注方法,包括;
步骤S302,获取原始文本序列,当原始文本序列的文本长度大于阈值时,对原始文本序列进行分句,得到多个文本句。
步骤S304,根据文本句的文本句长度,对多个文本句进行划分,得到多个文本序列,对每个文本序列进行转换,得到与每个文本序列对应的标识序列。
具体地,服务器获取原始文本序列,确定原始文本序列的文本长度,当原始文本序列的文本长度大于阈值时,对原始文本序列进行分句,得到多个文本句。根据文本句的文本句长度,对多个文本句进行划分,将划分后的多个文本句作为一个文本序列,得到多个文本序列。对每个文本序列进行分词处理,按照字符与标识之间的映射关系对分词处理后得到的多个分词字符进行转换,得到与每个文本序列对应的标识序列。具体的文本序列生成操作和标识序列生成操作可以参照上述实施例中提供的文本序列生成方法和标识序列生成方法实现,在此不做具体阐述。
步骤S306,将标识序列输入序列标注模型,生成与标识序列对应的标签序列,根据标签标识,确定标签序列中的多个标识组。
步骤S308,根据与标识组对应的部分标识序列生成文本序列中的字段,根据与标识组对应的标签,生成与字段对应的第一标签。
具体地,服务器依次将每个标识序列输入序列标注模型,获取标识与标签之间的相关性,根据相关性确定与标识对应的标签,生成与标识序列对应的标签序列。根据标签序列中标签携带的标签标识对标签序列进行解码,确定标签序列中的多个标识组。根据与标识组对应的部分标识序列,确定与标识组对应的多个字符,将多个字符进行组合,得到与标识组对应的字段。采用标识组对应的标签,生成与字段对应的第一标签。
一个示例中,服务器获取的文本序列为“A公司在B地”,对文本序列进行分词处理,得到多个分词字符“A”、“公”、“司”、“在”、“B”、“地”。采用字符与标识之间的映射关系对每个分词字符进行转换,得到与文本序列对应的标识序列。将标识序列输入序列标注模型,生成与标识序列对应的标签序列为“起始标识-受送人、非起始标识-受送人、非起始标识-受送人、非实体标识、起始标识-地点、非起始标识-地点”。删除标签序列中携带非实体标识的标签,将“起始标识-受送人、非起始标识-受送人、非起始标识-受送人”作为第一标识组,将“起始标识-地点、非起始标识-地点”作为第二标识组。将与第一标识组对应多个字符进行组合,得到与第一标识组对应的字段“A公司”,将与第一标识组对应的标签内容“受送人”作为字段“A公司”的第一标签。将与第二标识组对应的多个字符进行组合,得到与第二标识组对应的字符“B地”,将与第二标识组对应的标签内容“地点”作为字符“B地”的第一标签。
步骤S310,当字段在文本序列中出现的次数为多次时,判断字段对应的多个第一标签之间的关系是否符合标签逻辑关系,接收符合标签逻辑关系的多个第一标签。
步骤S312,当第一标签中包括组合标签时,对组合标签进行解析得到与组合标签对应的多个第二标签,根据多个第二标签对字段进行标注。
具体地,当服务器确定字段在文本序列中出现多次时,获取与字段对应的多个第一标签,判断字段对应的多个第一标签之间的关系是否符合标签逻辑关系。当服务器确定多个第一标签之间的关系符合标签逻辑关系时,接收与字段对应的每个第一标签。当第一标签中包括组合标签时,对组合标签进行解析得到与组合标签对应的多个第二标签,采用非组合标签的第一标签以及多个第二标签对字段进行标注。当服务器确定多个第一标签之间的关系不符合标签逻辑关系时,删除与字段对应的每个第一标签。
本实施例中,通过对原始文本序列进行分句,得到多个相邻文本序列之间存在重合文本句的文本序列,能够使得序列标注模型学习原始文本序列中的上下文信息,从而提高序列标注的准确率;通过对文本序列进行转换,将转换后得到的标识序列输入序列标注模型,生成与标识序列对应的标签序列,对标签序列进行解码,生成与文本序列中字段对应的第一标签,在字段出现多次的情况下,采用标签逻辑关系对与字段对应的多个第一标签进行校验,接收符合标签逻辑关系的多个第一标签,能够提高对字段进行序列标注的准确率;相较于传统的序列标注方法中只能采用一个标签对字段进行标注而言,本申请提供的序列标注方法通过对组合标签进行解析,采用解析后得到的多个第二标签对字段进行标注,能够使得序列标注模型的标签检测方式更多样。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的序列标注方法的序列标注装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个序列标注装置实施例中的具体限定可以参见上文中对于序列标注方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种序列标注装置400,包括:标识序列生成模块402、第一标签获取模块404和字段标注模块406,其中:
标识序列生成模块402,用于获取文本序列,对文本序列进行分词处理,得到多个分词字符,对每个分词字符进行转换,得到与文本序列对应的标识序列。
第一标签获取模块404,用于将标识序列输入序列标注模型,得到文本序列中字段对应的第一标签。
字段标注模块406,用于当第一标签中包括组合标签时,对组合标签进行解析得到与组合标签对应的多个第二标签,根据多个第二标签对字段进行标注,组合标签对应的多个第二标签之间符合预设的标签逻辑关系。
在一个实施例中,当存在目标字段在文本序列中出现的次数为多次时,序列标注装置400包括:第一标签校验模块,用于判断目标字段对应的多个第一标签之间的关系是否符合预设的标签逻辑关系;当多个第一标签之间的关系符合标签逻辑关系时,接受文本序列中目标字段对应的多个第一标签。
在一个实施例中,第一标签校验模块,还用于:当多个第一标签之间的关系不符合标签逻辑关系时,删除与目标字段对应的多个第一标签。
在一个实施例中,第一标签获取模块404包括:标签序列生成单元,用于将标识序列输入序列标注模型,生成与标识序列对应的标签序列,标签序列中的标签携带标签标识;标签序列解码单元,用于根据标签标识对标签序列进行解码,得到文本序列中字段对应的第一标签。
在一个实施例中,标签标识包括起始标识和非起始标识,标签序列解码单元,包括:标识组生成子单元,用于从标签序列的第一个起始标识开始,依次查找相邻的一组起始标识和非起始标识,得到多个标识组;字段生成子单元,用于根据与标识组对应的部分标识序列生成文本序列中的字段;第一标签生成子单元,用于根据与标识组对应的标签,生成与字段对应的第一标签。
在一个实施例中,标识序列生成模块402,包括:原始文本序列处理单元,用于获取原始文本序列,当原始文本序列的文本长度大于阈值时,对原始文本序列进行分句,得到多个文本句;文本序列生成单元,用于根据每个文本句的文本句长度,对多个文本句进行划分,得到多个文本序列,其中,每个文本序列的文本长度小于阈值,且,相邻的两个文本序列之间存在重合的文本句。
上述序列标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本长度的阈值。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种序列标注方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种序列标注方法,其特征在于,所述方法包括:
获取文本序列,对所述文本序列进行分词处理,得到多个分词字符,对每个所述分词字符进行转换,得到与所述文本序列对应的标识序列;
将所述标识序列输入序列标注模型,得到所述文本序列中字段对应的第一标签;
当所述第一标签中包括组合标签时,对所述组合标签进行解析得到与所述组合标签对应的多个第二标签,根据多个所述第二标签对所述字段进行标注,所述组合标签对应的多个所述第二标签之间符合预设的标签逻辑关系。
2.根据权利要求1所述的方法,其特征在于,当存在目标字段在所述文本序列中出现的次数为多次时,所述方法还包括:
判断所述目标字段对应的多个第一标签之间的关系是否符合所述标签逻辑关系;
当多个所述第一标签之间的关系符合所述标签逻辑关系时,接受所述文本序列中所述目标字段对应的多个所述第一标签。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当多个所述第一标签之间的关系不符合所述标签逻辑关系时,删除与所述目标字段对应的多个所述第一标签。
4.根据权利要求1所述的方法,其特征在于,所述将所述标识序列输入序列标注模型,得到所述文本序列中字段对应的第一标签,包括:
将所述标识序列输入所述序列标注模型,生成与所述标识序列对应的标签序列,所述标签序列中的标签携带标签标识;
根据所述标签标识对所述标签序列进行解码,得到所述文本序列中字段对应的所述第一标签。
5.根据权利要求4所述的方法,其特征在于,所述标签标识包括起始标识和非起始标识;所述根据所述标签标识对所述标签序列进行解码,得到所述文本序列中字段对应的所述第一标签,包括:
从所述标签序列的第一个起始标识开始,依次查找相邻的一组起始标识和非起始标识,得到多个标识组;
根据与所述标识组对应的部分标识序列生成所述文本序列中的字段;
根据与所述标识组对应的标签,生成与所述字段对应的所述第一标签。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述获取文本序列,包括:
获取原始文本序列;
当所述原始文本序列的文本长度大于阈值时,对所述原始文本序列进行分句,得到多个文本句;
根据每个所述文本句的文本句长度,对多个所述文本句进行划分,得到多个文本序列,其中,每个所述文本序列的文本长度小于所述阈值,且,相邻的两个所述文本序列之间存在重合的文本句。
7.一种序列标注装置,其特征在于,所述装置包括:
标识序列生成模块,用于获取文本序列,对所述文本序列进行分词处理,得到多个分词字符,对每个所述分词字符进行转换,得到与所述文本序列对应的标识序列;
第一标签获取模块,用于将所述标识序列输入序列标注模型,得到所述文本序列中字段对应的第一标签;
字段标注模块,用于当所述第一标签中包括组合标签时,对所述组合标签进行解析得到与所述组合标签对应的多个第二标签;根据多个所述第二标签对所述字段进行标注,所述组合标签对应的多个所述第二标签之间符合预设的标签逻辑关系。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202111654465.5A 2021-12-30 2021-12-30 序列标注方法、装置、计算机设备、存储介质 Pending CN114328837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111654465.5A CN114328837A (zh) 2021-12-30 2021-12-30 序列标注方法、装置、计算机设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111654465.5A CN114328837A (zh) 2021-12-30 2021-12-30 序列标注方法、装置、计算机设备、存储介质

Publications (1)

Publication Number Publication Date
CN114328837A true CN114328837A (zh) 2022-04-12

Family

ID=81019427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111654465.5A Pending CN114328837A (zh) 2021-12-30 2021-12-30 序列标注方法、装置、计算机设备、存储介质

Country Status (1)

Country Link
CN (1) CN114328837A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885702A (zh) * 2019-01-17 2019-06-14 哈尔滨工业大学(深圳) 自然语言处理中的序列标注方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885702A (zh) * 2019-01-17 2019-06-14 哈尔滨工业大学(深圳) 自然语言处理中的序列标注方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN108427707B (zh) 人机问答方法、装置、计算机设备和存储介质
EP3855324A1 (en) Associative recommendation method and apparatus, computer device, and storage medium
CN110909137A (zh) 基于人机交互的信息推送方法、装置和计算机设备
CN109753653B (zh) 实体名称识别方法、装置、计算机设备和存储介质
CN111859986B (zh) 基于多任务孪生网络的语义匹配方法、装置、设备和介质
CN111460807A (zh) 序列标注方法、装置、计算机设备和存储介质
CN113312500A (zh) 一种面向大坝安全运行的事件图谱构建方法
CN111176996A (zh) 测试用例生成方法、装置、计算机设备及存储介质
CN111444723A (zh) 信息抽取模型训练方法、装置、计算机设备和存储介质
CN113343108B (zh) 推荐信息处理方法、装置、设备及存储介质
CN109033427B (zh) 股票的筛选方法及装置、计算机设备及可读存储介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN113656561A (zh) 实体词识别方法、装置、设备、存储介质及程序产品
CN110532229B (zh) 证据文件检索方法、装置、计算机设备和存储介质
CN111241310A (zh) 一种深度跨模态哈希检索方法、设备及介质
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN110909768A (zh) 一种标注数据获取方法及装置
CN114328837A (zh) 序列标注方法、装置、计算机设备、存储介质
US9082175B2 (en) Method for retrieving associated information using an image
CN113268588A (zh) 文本摘要提取方法、装置、设备、存储介质及程序产品
CN115994232B (zh) 在线多版本文献同一性鉴别方法、系统及计算机设备
CN117725458A (zh) 一种获取威胁情报样本数据生成模型的方法及装置
CN108664945B (zh) 图像文本及形音义特征识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination