CN114861667A - 一种命名实体标签识别方法及装置 - Google Patents

一种命名实体标签识别方法及装置 Download PDF

Info

Publication number
CN114861667A
CN114861667A CN202210526324.3A CN202210526324A CN114861667A CN 114861667 A CN114861667 A CN 114861667A CN 202210526324 A CN202210526324 A CN 202210526324A CN 114861667 A CN114861667 A CN 114861667A
Authority
CN
China
Prior art keywords
word
sub
target
named entity
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210526324.3A
Other languages
English (en)
Other versions
CN114861667B (zh
Inventor
覃祥坤
单海军
马若恬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Jinxin Software Co Ltd
Original Assignee
Zhongdian Jinxin Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Jinxin Software Co Ltd filed Critical Zhongdian Jinxin Software Co Ltd
Priority to CN202210526324.3A priority Critical patent/CN114861667B/zh
Publication of CN114861667A publication Critical patent/CN114861667A/zh
Application granted granted Critical
Publication of CN114861667B publication Critical patent/CN114861667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种命名实体标签识别方法及装置,包括:依据N种单词分割算法,分别对待识别的目标领域语料和源领域语料分别分割,得到目标子词集及源子词集;基于目标子词集和源子词集及命名实体标签,构建目标领域语料与源领域语料之间的KL散度函数;基于源子词集及目标子词集,获取KL散度函数的子词、单词、命名实体标签的共现概率;基于子词、单词、命名实体标签的共现概率,进行源领域语料的单词分割,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率;获取最高分布概率对应的分割方式,对目标领域语料进行分割并输入命名实体识别模型,得到目标领域语料的命名实体标签。可以提高命名实体的识别准确度。

Description

一种命名实体标签识别方法及装置
技术领域
本发明涉及命名实体识别技术领域,具体而言,涉及一种命名实体标签识别方法及装置。
背景技术
命名实体识别(NER,Named Entity Recognition)是从文本中提取命名实体标签的任务,由于不同领域的文本具有不同的命名实体分布特征,因而,在构建命名实体识别模型时,是针对不同的领域,通过对该领域的语料中的单词进行子词分割,将分割得到的子词输入命名实体识别模型进行训练,从而得到应用于该领域的命名实体识别的命名实体识别模型。但该方法,使得命名实体识别模型对于其他领域的语料进行识别时,不能识别出其他领域语料中包含的命名实体,或者,识别出的命名实体标签的识别准确度较低。
发明内容
有鉴于此,本发明的目的在于提供命名实体标签识别方法及装置,以提高命名实体的识别准确度。
第一方面,本发明实施例提供了命名实体标签识别方法,包括:
依据N种单词分割算法,分别对待识别的目标领域语料进行分割,得到N个目标子词集,以及,分别对用于训练命名实体识别模型的源领域语料进行分割,得到N个源子词集;
基于N个目标子词集和N个源子词集中子词所属的命名实体标签,构建目标领域语料与源领域语料之间的KL散度函数;其中,所述KL散度函数用于表征目标领域语料与源领域语料之间的差异;
基于N个源子词集以及N个目标子词集,获取KL散度函数的子词、单词、命名实体标签的共现概率;
分别采用所述N种单词分割算法,基于所述子词、单词、命名实体标签的共现概率,进行源领域语料的单词分割,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率;
获取最高分布概率对应的分割方式,对目标领域语料进行分割,基于分割得到的子词集以及命名实体识别模型,识别所述目标领域语料的命名实体标签。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述基于N个源子词集以及N个目标子词集,获取KL散度函数的子词、单词、命名实体标签的共现概率,包括:
基于N个源子词集,获取子词、单词、命名实体标签的共现概率与子词所属的命名实体标签和子词频的函数表达式;
基于函数表达式,对KL散度函数进行变换,得到传输函数;
基于N个目标子词集,获取传输函数的代价矩阵;
利用最优传输sinkhorn算法,对传输函数进行优化求解,获取源领域的子词、单词、命名实体标签的共现概率。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述基于N个源子词集,获取子词、单词、命名实体标签的共现概率与子词所属的命名实体标签和子词频的函数表达式,包括:
从所述N个源子词集中选取一目标源子词,获取所述目标源子词在所述N个源子词集中的目标源子词频;
获取所述目标源子词的命名实体标签为目标标签且属于目标单词分割出的子词的目标概率;
计算所述目标源子词频与所述目标概率的乘积,得到所述目标源子词、目标单词、目标标签的共现概率;
获取所述N个源子词集中的每一目标源子词对应的共现概率的和值,得到所述子词、单词、命名实体标签的共现概率与子词所属的命名实体标签和子词频的函数表达式。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述目标标签包括第一目标标签,所述目标子词包括第一目标子词和第二目标子词,所述获取所述目标源子词的命名实体标签为目标标签且属于目标单词分割出的子词的目标概率包括:
获取所述目标源子词属于第一目标标签且属于第一目标单词分割出的子词的第一目标概率;以及,
获取目标源子词属于第一目标标签且属于第二目标单词分割出的子词的第二目标概率;
计算第一目标概率与第二目标概率的和值,得到目标源子词的命名实体标签为第一目标标签且属于目标单词分割出的子词的目标概率。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述获取所述目标源子词在所述N个源子词集中的目标源子词频包括:
针对源领域语料中的每一单词,分别依据所述N种单词分割算法中的每一种单词分割算法,对该单词进行切分得到N个源子词集;
将通过所述N种单词分割算法切分得到的N个源子词集组成子词集;
针对每一单词对应的子词集,获取目标源子词在该子词集中出现的频次,得到目标源子词在该单词的子词频;
对目标源子词在各单词的子词频进行统计,得到目标源子词的子词频。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述基于N个目标子词集,获取传输函数的代价矩阵,包括:
从N个目标子词集中选取一目标子词,获取切分出该目标子词的分割单词;
获取目标子词在N个目标子词集中的子词频;
在N个目标子词集中,计算目标子词和分割单词所属的命名实体标签的贡献频率;
基于子词频以及目标子词和分割单词所属的命名实体标签的贡献频率,获取目标子词到分割单词的距离。
结合第一方面、第一方面的第一种可能的实施方式至第五种可能的实施方式中的任一种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述分别采用所述N种单词分割算法,基于所述子词、单词、命名实体标签的共现概率,进行源领域语料的单词分割,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率,包括:
分别采用所述N种单词分割算法,基于子词、单词、命名实体标签的共现概率,对源领域语料中的源单词进行分割,得到所述源单词的N种分割方式;
获取所述源单词的命名实体标签为标注的命名实体标签、且分割方式为所述N种分割方式中的一种分割方式的分割概率;
针对每一分割方式,计算该分割方式对应的分割概率与该分割方式权重的乘积,得到该分割方式对应的权重分割概率;
获取各分割方式对应的权重分割概率的和值,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率。
第二方面,本发明实施例还提供了一种命名实体标签识别装置,包括:
分割模块,用于依据N种单词分割算法,分别对待识别的目标领域语料进行分割,得到N个目标子词集,以及,分别对用于训练命名实体识别模型的源领域语料进行分割,得到N个源子词集;
散度构建模块,用于基于N个目标子词集和N个源子词集中子词所属的命名实体标签,构建目标领域语料与源领域语料之间的KL散度函数;
共现概率计算模块,用于基于N个源子词集以及N个目标子词集,获取KL散度函数的子词、单词、命名实体标签的共现概率;
分布概率计算模块,用于分别采用所述N种单词分割算法,基于所述子词、单词、命名实体标签的共现概率,进行源领域语料的单词分割,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率;
实体识别模块,用于获取最高分布概率对应的分割方式,对目标领域语料进行分割,基于分割得到的子词集以及命名实体识别模型,识别所述目标领域语料的命名实体标签。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
本发明实施例提供的命名实体标签识别方法及装置,通过依据N种单词分割算法,分别对待识别的目标领域语料进行分割,得到N个目标子词集,以及,分别对用于训练命名实体识别模型的源领域语料进行分割,得到N个源子词集;基于N个目标子词集和N个源子词集中子词所属的命名实体标签,构建目标领域语料与源领域语料之间的KL散度函数;基于N个源子词集以及N个目标子词集,获取KL散度函数的子词、单词、命名实体标签的共现概率;分别采用所述N种单词分割算法,基于所述子词、单词、命名实体标签的共现概率,进行源领域语料的单词分割,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率;获取最高分布概率对应的分割方式,对目标领域语料进行分割,基于分割得到的子词集以及命名实体识别模型,识别所述目标领域语料的命名实体标签。这样,基于单词与命名实体标签的分布关系,以及,子词与命名实体标签的分布关系,并基于两者进行KL散度计算,从而获取子词、单词、命名实体标签的共现概率,基于共现概率进行单词分割,通过获取单词属于标注的命名实体标签的最高分布概率对应的分割方式,对目标领域语料进行分割,基于分割后得到的子词序列进行命名实体识别,能够使得对目标领域语料进行分割得到的子词,与对源领域语料进行分割得到的子词具有交集,有效减轻不同领域间的分布差异带来的结果影响,能够有效提高在跨领域命名实体标签识别上的精度。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的命名实体标签识别方法流程示意图;
图2示出了本发明实施例所提供的单词分割示意图;
图3示出了本发明实施例所提供的命名实体标签识别装置结构示意图;
图4为本申请实施例提供的一种计算机设备400的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
跨领域NER旨在使得在源领域上训练的NER模型具有在其他领域(目标领域)识别命名实体标签的能力。其中,输入分布偏移是NER模型实现无监督域适应(UDA,Unsupervised Data Augmentation)中亟需解决的技术问题,通过将不同领域的特征对齐到相似域的特征分布中,从而学习对源领域和目标领域更接近的特征,可以减少输入分布偏移。本发明实施例中,通过对齐跨域文本之间子词的分布特征,用以提升跨领域的命名实体标签识别的准确度。
本发明实施例提供了一种命名实体标签识别方法及装置,下面通过实施例进行描述。
图1示出了本发明实施例所提供的命名实体标签识别方法流程示意图。如图1所示,该方法包括:
步骤101,依据N种单词分割算法,分别对待识别的目标领域语料进行分割,得到N个目标子词集,以及,分别对用于训练命名实体识别模型的源领域语料进行分割,得到N个源子词集;
本发明实施例中,子词(subword)为将语料中的单词,利用单词分割算法进行更细粒度的切分得到的字符,其中,单词分割算法包括但不限于:贪心算法。其中,本发明实施例中,对单词进行分割,是通过枚举该单词所有的单词分割算法,基于枚举的每一单词分割算法,对该单词进行分割,得到该单词对应的子词。以单词“Liliana”为例,假设枚举的单词分割算法有三种,分割后得到每一单词分割算法对应的子词集,分别为:
(“Lil”、“##iana”)、(“Li”、“##liana”)、(“Li”、“##lia”“##na”)
本发明实施例中,源子词集是将各单词针对每一单词分割算法对应的子词集进行拼接得到的子词集。
本发明实施例中,对于源领域和目标领域,由于源领域语料在用于命名实体识别模型训练时,通常进行了人工标注,具有较为准确的命名实体标签标注。
步骤102,基于N个目标子词集和N个源子词集中子词所属的命名实体标签,构建目标领域语料与源领域语料之间的KL散度函数;其中,所述KL散度函数用于表征目标领域语料与源领域语料之间的差异;
本发明实施例中,KL散度(KLD,Kullback Leibler Divergence)函数表征两个分布之间的差异,本发明实施例中,是表征源领域语料和目标领域语料之间的差异。通过构建源领域语料和目标领域语料之间的KL散度,再通过优化KL散度,使得源领域语料和目标领域语料之间的分布差异最小,这样,可以有效降低输入分布偏移,从而提升命名实体标签识别效率及准确度。
本发明实施例中,基于子词所属的命名实体标签构建的KL散度函数如下:
Figure BDA0003644513050000091
式中,
DKL()为KL散度函数;
PS(y|t)为源领域语料中子词t的命名实体标签为y的概率;
PT(y|t)为目标领域语料中子词t的命名实体标签为y的概率;
T为包括目标子词集和源子词集的子词集;
Y为命名实体标签集。
本发明实施例中,子词t的命名实体标签为该子词对应的单词的命名实体标签,例如,子词t在两个单词中出现过,其中,在第一个单词中出现过一次,该单词对应的命名实体标签为y1,在第二个单词中出现过三次,该单词对应的命名实体标签为y2,则子词t的命名实体标签为y1的概率为25%。
步骤103,基于N个源子词集以及N个目标子词集,获取KL散度函数的子词、单词、命名实体标签的共现概率;
本发明实施例中,基于N个源子词集以及N个目标子词集,获取KL散度函数的子词、单词、命名实体标签的共现概率,包括:
A11,基于N个源子词集,获取子词、单词、命名实体标签的共现概率与子词所属的命名实体标签和子词频的函数表达式;
本发明实施例中,作为一可选实施例,基于N个源子词集,获取子词、单词、命名实体标签的共现概率与子词所属的命名实体标签和子词频的函数表达式,包括:
A111,从N个源子词集中选取一目标源子词,获取目标源子词在N个源子词集中的目标源子词频;
A112,获取目标源子词的命名实体标签为目标标签且属于目标单词分割出的子词的目标概率;
本发明实施例中,对于同一目标源子词,在N个源子词集中,可能对应一个或多个命名实体标签,即目标标签可以为一个或多个,目标源子词也可能属于不同目标单词分割出的子词。例如,对于一目标源子词,命名实体标签包括目标标签1和目标标签2,其中,目标标签1对应的目标单词包括目标单词1和目标单词2,则以目标标签1为例,目标源子词的命名实体标签为目标标签且属于目标单词分割出的子词的目标概率包括:获取目标源子词属于目标标签1且属于目标单词1分割出的子词的第一目标概率,以及,获取目标源子词属于目标标签1且属于目标单词2分割出的子词的第二目标概率,计算第一目标概率与第二目标概率的和值,得到目标源子词的命名实体标签为目标标签1且属于目标单词分割出的子词的目标概率。
A113,计算目标源子词频与目标概率的乘积,得到目标源子词、目标单词、目标标签的共现概率;
A114,获取N个源子词集中的每一目标源子词对应的共现概率的和值,得到子词、单词、命名实体标签的共现概率与子词所属的命名实体标签和子词频的函数表达式。
本发明实施例中,针对N个源子词集中的每一源子词,计算各源子词对应的共现概率的和值,得到函数表达式。
本发明实施例中,作为一可选实施例,函数表达式为:
Figure BDA0003644513050000111
式中,
V为源领域语料中的单词集;
PS(y,w|t)为源领域语料中的子词t的命名实体标签为y且属于单词w分割出的子词的概率;
PS(t,w,y)为源领域语料中的子词、单词、命名实体标签的共现概率;
PS(t)为源领域语料中的子词的源子词频。
本发明实施例中,子词、单词、命名实体标签的共现概率能够表征输入分布偏移,共现概率越大,能够使得输入分布偏移越小。作为一可选实施例,命名实体标签包括但不限于:实体、时间、数字,其中,实体包括但不限于:人名、机构名、地名,数字包括但不限于:货币、百分比。其中,命名实体是指具有特定意义的单词,例如,姓名、事物的名称,命名实体识别是指从语料(包括各种跨领域的语料)中,识别出语料中包含的命名实体,并确定该识别的命名实体所属的命名实体标签,例如,从一语料中识别出的命名实体为张三,确定该命名实体所属的命名实体标签为人名。
本发明实施例中,作为一可选实施例,获取源领域语料中的子词频,包括:
A21,针对源领域语料中的每一单词,依据枚举的每一单词分割算法,对该单词进行切分,将切分得到的子词进行拼接,得到子词集;
A22,针对每一单词对应的子词集,获取目标子词在该子词集中出现的频次,得到目标子词在该单词的子词频;
A23,对目标子词在各单词的子词频进行统计,得到目标子词的子词频。
本发明实施例中,作为一可选实施例,利用下式计算子词频:
Figure BDA0003644513050000121
式中,
P(t)为子词频;
φ(w)为计数函数,用于对单词进行计数;
w为单词;
t为子词;
I[t∈sub(w)]为指示函数,若子词t存在于单词w切分出的子词集中,则指示函数的值为1,反之,则指示函数的值为0。
本发明实施例中,在计算目标子词在某个单词的子词频时,该单词依据所有枚举的单词分割算法分割出的子词都会被统计。以上述计算目标子词“Li”在单词“Liliana”的子词频为例,其在三种单词分割算法(子词切分方式)拼接得到的子词集中出现过两次,因而,目标子词“Li”在单词“Liliana”的子词频为2。
A12,基于函数表达式,对KL散度函数进行变换,得到传输函数;
本发明实施例中,基于上述函数表达式,KL散度函数可以表示为:
Figure BDA0003644513050000122
本发明实施例中,令
PS(t,w,y)=P,
Figure BDA0003644513050000123
其中,D表征代价矩阵。
这样,可以将KL散度函数转化为如下的传输函数:
<P,D>-γH(P)
式中,
γ为正则项系数,本发明实施例中,γ取1;
H(P)为传输函数的正则项,其中,H是熵函数,H(P)=-P·log P。
A13,基于目标子词集,获取传输函数的代价矩阵;
本发明实施例中,作为一可选实施例,基于N个目标子词集,获取传输函数的代价矩阵,包括:
A131,从目标子词集中选取一目标子词,获取切分出该目标子词的分割单词;
A132,获取目标子词在目标子词集中的子词频;
A133,在目标子词集中,计算目标子词和分割单词所属的命名实体标签的贡献频率;
本发明实施例中,若切分出该目标子词的分割单词包括第一分割单词和第二分割单词,则目标子词和分割单词所属的命名实体标签的贡献频率包括:目标子词和第一分割单词所属的命名实体标签的第一贡献频率,以及,目标子词和第二分割单词所属的命名实体标签的第二贡献频率。
A134,基于子词频以及目标子词和分割单词所属的命名实体标签的贡献频率,获取目标子词到分割单词的距离。
本发明实施例中,目标子词到每一分割单词的距离对应代价矩阵中的一行列元素。
本发明实施例中,对于代价矩阵D中的行列元素,采用子词到命名实体标签词语的距离进行表征,即利用下式计算代价矩阵D中的行列元素:
Figure BDA0003644513050000131
式中,
D(t,w,y)为子词t到命名实体标签为y的词语w的距离,表示单词和标签的组合(w,y)分配到子词t的代价;
PT(t,y)为目标领域语料中子词和命名实体标签的贡献频率;
PT(t)为目标领域语料中子词的子词频;
t∈sub(w)表示子词t属于单词w分割出的子词集。
本发明实施例中,矩阵P的每一元素P(t,w,y)表示相对应的D(t,w,y)的权值,其中,乘积<P,D>表示最小代价总和。
A14,利用最优传输sinkhorn算法,对传输函数进行优化求解,获取源领域的子词、单词、命名实体标签的共现概率。
本发明实施例中,将包含单词和命名实体标签的共现概率、子词频、代价矩阵的传输函数,作为最优传输sinkhorn算法的输入,通过最优传输sinkhorn算法的运算,输出得到子词、单词、命名实体标签的共现概率。
步骤104,分别采用所述N种单词分割算法,基于所述子词、单词、命名实体标签的共现概率,进行源领域语料的单词分割,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率;
本发明实施例中,作为一可选实施例,分别采用所述N种单词分割算法,基于所述子词、单词、命名实体标签的共现概率,进行源领域语料的单词分割,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率,包括:
B11,分别采用所述N种单词分割算法,基于子词、单词、命名实体标签的共现概率,对源领域语料中的源单词进行分割,得到所述源单词的N种分割方式;
B12,获取所述源单词的命名实体标签为标注的命名实体标签、且分割方式为所述N种分割方式中的一种分割方式的分割概率;
B13,针对每一分割方式,计算该分割方式对应的分割概率与该分割方式权重的乘积,得到该分割方式对应的权重分割概率;
B14,获取各分割方式对应的权重分割概率的和值,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率。
本发明实施例中,在通过最优传输算法得到共现概率后,可以基于共现概率,对源领域语料中的任意单词进行分割。设单词基于共现概率的一种分割方式为:
si={t1,t2,……,tk}
利用下式计算各分割方式下,命名实体标签为y的单词w能够分割出子词t的概率分布:
Figure BDA0003644513050000151
式中,
P(ti|w,y)为命名实体标签为y的单词w能够分割出子词t的概率分布;
Figure BDA0003644513050000152
为分割方式Sk包含的子词ti的数量;
P(sk|w,y)为单词属于标注的命名实体标签的分布概率,即命名实体标签为y的单词w的分割方式为Sk的概率。
步骤105,获取最高分布概率对应的分割方式,对目标领域语料进行分割,基于分割得到的子词集以及命名实体识别模型,识别所述目标领域语料的命名实体标签。
本发明实施例中,以单词“Liliana”为例,该单词的标签为人名。假设该单词基于共现概率,存在3种如下的分割方式:
s1:(“Lil”、“##iana”);
s2:(“Li”、“##liana”);
s3:(“Li”、“##lia”、“##na”)。
基于上述命名实体标签为y的单词w能够分割出子词t的概率分布计算公式,可得每种分割方式下单词和命名实体标签的分布概率,本发明实施例中,假设三种分割方式分别对应的单词和命名实体标签的分布概率为:
(s1|w,y)=0.2,P(s2|w,y)=0.5,P(s3|w,y)=0.3
表明在源领域中,单词“Liliana”的命名实体标签被标注为人名,分割单词“Liliana”为各子词,依据子词确定该单词的命名实体标签为人名的过程中,采用分割方式s1的概率为0.2,采用分割方式s2的概率为0.5,采用分割方式s3的概率为0.3。这样,采用分割方式s2对目标领域语料进行分割。
本发明实施例中,通过给定源领域的单词w和标签y,可以从P(s|w,y)中采样最优切分方式,从而避免通过BERT标记解析器(tokenizer)选择当前最长子词,有效降低命名实体模型的运算量,从而能够有效提升命名实体标签的识别效率。
本发明实施例中,通过改进预处理阶段的单词分割方式,不仅考虑单词与命名实体标签的分布关系,还考虑子词、子词与命名实体标签的分布关系,并基于两者进行KL散度计算,从而获取子词、单词、命名实体标签的共现概率,基于共现概率再进行多种方式的单词分割,计算各分割方式下的单词属于标注的命名实体标签的分布概率,利用最高分布概率对应的分割方式(改进的单词分割方式),对不属于源领域的目标领域语料进行分割,将分割后得到的子词序列作为命名实体识别模型输入,进行命名实体识别,使得基于改进的单词分割方式进行单词分割,能够避免在不同领域间进行单词分割得到的子词可能没有交集,通过改进的单词分割方式得到的子词具有交集,可以有效减轻跨领域命名实体标签识别中不同领域间的分布差异带来的结果影响,能够有效提高在跨领域命名实体标签识别上的精度。
图2示出了本发明实施例所提供的单词分割示意图。如图2所示,假设源领域语料包括单词:“Julian”、“Liliana”、“Kathy”,目标领域语料包括单词:“Jlian”、“Katarina”、“Dechy”,源领域语料中的单词与目标领域语料中的单词之间没有交集。
命名实体识别模型,例如,BERT模型接收子词作为输入,如果按照目前的单词分割算法,在不同领域间,分割得到的子词没有交集,从而导致BERT模型在进行命名实体标签识别时,由于训练中,没有基于目标领域语料分割出的子词进行训练,使得对目标语料的命名实体标签识别的准确率较低。而本发明实施例的方法,利用最高分布概率对应的分割方式进行单词分割,分割得到的子词与源领域语料分割得到的子词具有交集,从而在进行命名实体标签识别时,可以有效提升命名实体标签识别的准确率。
本发明实施例中,作为一可选实施例,适用基于知识图谱的企业风险预警的应用中,例如:对于当前的发生风险事件,需要从该事件中抽取相关命名实体标签,然后从企业知识图谱中,寻找和该风险事件相关联的企业,最终对这些企业进行风险预警。因此需要对风险事件相关文本进行命名实体标签识别,而不同的风险事件类型,具有不同的实体分布特征,例如法律类新闻文本和娱乐类新闻文本,文本语言结构特征分布相差较大,本发明实施例通过对齐跨域文本之间词的分布特征,使得命名实体标签识别效率和准确率得以提升。
图3示出了本发明实施例所提供的命名实体标签识别装置结构示意图。如图3所示,该装置包括:
分割模块301,用于依据N种单词分割算法,分别对待识别的目标领域语料进行分割,得到N个目标子词集,以及,分别对用于训练命名实体识别模型的源领域语料进行分割,得到N个源子词集;
本发明实施例中,对单词进行分割,是通过枚举该单词所有的单词分割算法,基于枚举的每一单词分割算法,对该单词进行分割,得到该单词对应的子词。
散度构建模块302,用于基于N个目标子词集和N个源子词集中子词所属的命名实体标签,构建目标领域语料与源领域语料之间的KL散度函数;
本发明实施例中,KL散度函数为:
Figure BDA0003644513050000181
式中,
DKL()为KL散度函数;
PS(y|t)为源领域语料中子词t的命名实体标签为y的概率;
PT(y|t)为目标领域语料中子词t的命名实体标签为y的概率;
T为包括目标子词集和源子词集的子词集;
Y为命名实体标签集。
共现概率计算模块303,用于基于N个源子词集以及N个目标子词集,获取KL散度函数的子词、单词、命名实体标签的共现概率;
本发明实施例中,作为一可选实施例,共现概率计算模块303包括:
函数表达式获取单元(图中未示出),用于基于N个源子词集,获取子词、单词、命名实体标签的共现概率与子词所属的命名实体标签和子词频的函数表达式;
本发明实施例中,函数表达式为:
Figure BDA0003644513050000182
式中,
V为源领域语料中的单词集;
PS(y,w|t)为源领域语料中的子词t的命名实体标签为y且属于单词w分割出的子词的概率;
PS(t,w,y)为源领域语料中的子词、单词、命名实体标签的共现概率;
PS(t)为源领域语料中的子词的源子词频。
传输函数获取单元,用于基于函数表达式,对KL散度函数进行变换,得到传输函数;
代价矩阵获取单元,用于基于N个目标子词集,获取传输函数的代价矩阵;
本发明实施例中,利用下式计算代价矩阵中的元素:
Figure BDA0003644513050000191
式中,
D(t,w,y)为子词t到命名实体标签为y的词语w的距离,表示单词和标签的组合(w,y)分配到子词t的代价;
PT(t,y)为目标领域语料中子词和命名实体标签的贡献频率;
PT(t)为目标领域语料中子词的子词频;
t∈sub(w)表示子词t属于单词w分割出的子词集。
共现概率计算单元,用于利用最优传输sinkhorn算法,对传输函数进行优化求解,获取源领域的子词、单词、命名实体标签的共现概率。
本发明实施例中,获取源领域语料中的子词频,包括:
针对源领域语料中的每一单词,依据枚举的每一单词分割算法,对该单词进行切分,将切分得到的子词进行拼接,得到子词集;
针对每一单词对应的子词集,获取目标子词在该子词集中出现的频次,得到目标子词在该单词的子词频;
对目标子词在各单词的子词频进行统计,得到目标子词的子词频。
分布概率计算模块304,用于分别采用所述N种单词分割算法,基于所述子词、单词、命名实体标签的共现概率,进行源领域语料的单词分割,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率;
本发明实施例中,利用下式获取各分割方式下单词属于标注的命名实体标签的分布概率:
Figure BDA0003644513050000201
式中,
P(ti|w,y)为命名实体标签为y的单词w能够分割出子词t的概率分布;
Figure BDA0003644513050000202
为分割方式Sk包含的子词ti的数量;
P(sk|w,y)为单词属于标注的命名实体标签的分布概率。
实体识别模块305,用于获取最高分布概率对应的分割方式,对目标领域语料进行分割,基于分割得到的子词集以及命名实体识别模型,识别所述目标领域语料的命名实体标签。
如图4所示,本申请一实施例提供了一种计算机设备400,用于执行图1中的命名实体标签识别方法,该设备包括存储器401、与存储器401通过总线相连的处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述命名实体标签识别方法的步骤。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述命名实体标签识别方法。
对应于图1中的命名实体标签识别方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述命名实体标签识别方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述命名实体标签识别方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种命名实体标签识别方法,其特征在于,包括:
依据N种单词分割算法,分别对待识别的目标领域语料进行分割,得到N个目标子词集,以及,分别对用于训练命名实体识别模型的源领域语料进行分割,得到N个源子词集;
基于N个目标子词集和N个源子词集中子词所属的命名实体标签,构建目标领域语料与源领域语料之间的KL散度函数;其中,所述KL散度函数用于表征目标领域语料与源领域语料之间的差异;
基于N个源子词集以及N个目标子词集,获取KL散度函数的子词、单词、命名实体标签的共现概率;
分别采用所述N种单词分割算法,基于所述子词、单词、命名实体标签的共现概率,进行源领域语料的单词分割,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率;
获取最高分布概率对应的分割方式,对目标领域语料进行分割,基于分割得到的子词集以及命名实体识别模型,识别所述目标领域语料的命名实体标签。
2.根据权利要求1所述的方法,其特征在于,所述基于N个源子词集以及N个目标子词集,获取KL散度函数的子词、单词、命名实体标签的共现概率,包括:
基于N个源子词集,获取子词、单词、命名实体标签的共现概率与子词所属的命名实体标签和子词频的函数表达式;
基于函数表达式,对KL散度函数进行变换,得到传输函数;
基于N个目标子词集,获取传输函数的代价矩阵;
利用最优传输sinkhorn算法,对传输函数进行优化求解,获取源领域的子词、单词、命名实体标签的共现概率。
3.根据权利要求2所述的方法,其特征在于,所述基于N个源子词集,获取子词、单词、命名实体标签的共现概率与子词所属的命名实体标签和子词频的函数表达式,包括:
从所述N个源子词集中选取一目标源子词,获取所述目标源子词在所述N个源子词集中的目标源子词频;
获取所述目标源子词的命名实体标签为目标标签且属于目标单词分割出的子词的目标概率;
计算所述目标源子词频与所述目标概率的乘积,得到所述目标源子词、目标单词、目标标签的共现概率;
获取所述N个源子词集中的每一目标源子词对应的共现概率的和值,得到所述子词、单词、命名实体标签的共现概率与子词所属的命名实体标签和子词频的函数表达式。
4.根据权利要求3所述的方法,其特征在于,所述目标标签包括第一目标标签,所述目标子词包括第一目标子词和第二目标子词,所述获取所述目标源子词的命名实体标签为目标标签且属于目标单词分割出的子词的目标概率包括:
获取所述目标源子词属于第一目标标签且属于第一目标单词分割出的子词的第一目标概率;以及,
获取目标源子词属于第一目标标签且属于第二目标单词分割出的子词的第二目标概率;
计算第一目标概率与第二目标概率的和值,得到目标源子词的命名实体标签为第一目标标签且属于目标单词分割出的子词的目标概率。
5.根据权利要求3所述的方法,其特征在于,所述获取所述目标源子词在所述N个源子词集中的目标源子词频包括:
针对源领域语料中的每一单词,分别依据所述N种单词分割算法中的每一种单词分割算法,对该单词进行切分得到N个源子词集;
将通过所述N种单词分割算法切分得到的N个源子词集组成子词集;
针对每一单词对应的子词集,获取目标源子词在该子词集中出现的频次,得到目标源子词在该单词的子词频;
对目标源子词在各单词的子词频进行统计,得到目标源子词的子词频。
6.根据权利要求2所述的方法,其特征在于,所述基于N个目标子词集,获取传输函数的代价矩阵,包括:
从N个目标子词集中选取一目标子词,获取切分出该目标子词的分割单词;
获取目标子词在N个目标子词集中的子词频;
在N个目标子词集中,计算目标子词和分割单词所属的命名实体标签的贡献频率;
基于子词频以及目标子词和分割单词所属的命名实体标签的贡献频率,获取目标子词到分割单词的距离。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述分别采用所述N种单词分割算法,基于所述子词、单词、命名实体标签的共现概率,进行源领域语料的单词分割,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率,包括:
分别采用所述N种单词分割算法,基于子词、单词、命名实体标签的共现概率,对源领域语料中的源单词进行分割,得到所述源单词的N种分割方式;
获取所述源单词的命名实体标签为标注的命名实体标签、且分割方式为所述N种分割方式中的一种分割方式的分割概率;
针对每一分割方式,计算该分割方式对应的分割概率与该分割方式权重的乘积,得到该分割方式对应的权重分割概率;
获取各分割方式对应的权重分割概率的和值,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率。
8.一种命名实体标签识别装置,其特征在于,包括:
分割模块,用于依据N种单词分割算法,分别对待识别的目标领域语料进行分割,得到N个目标子词集,以及,分别对用于训练命名实体识别模型的源领域语料进行分割,得到N个源子词集;
散度构建模块,用于基于N个目标子词集和N个源子词集中子词所属的命名实体标签,构建目标领域语料与源领域语料之间的KL散度函数;其中,所述KL散度函数用于表征目标领域语料与源领域语料之间的差异;
共现概率计算模块,用于基于N个源子词集以及N个目标子词集,获取KL散度函数的子词、单词、命名实体标签的共现概率;
分布概率计算模块,用于分别采用所述N种单词分割算法,基于所述子词、单词、命名实体标签的共现概率,进行源领域语料的单词分割,得到各分割方式下分割得到的各单词属于标注的命名实体标签的分布概率;
实体识别模块,用于获取最高分布概率对应的分割方式,对目标领域语料进行分割,基于分割得到的子词集以及命名实体识别模型,识别所述目标领域语料的命名实体标签。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的命名实体标签识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的命名实体标签识别方法的步骤。
CN202210526324.3A 2022-05-16 2022-05-16 一种命名实体标签识别方法及装置 Active CN114861667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210526324.3A CN114861667B (zh) 2022-05-16 2022-05-16 一种命名实体标签识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210526324.3A CN114861667B (zh) 2022-05-16 2022-05-16 一种命名实体标签识别方法及装置

Publications (2)

Publication Number Publication Date
CN114861667A true CN114861667A (zh) 2022-08-05
CN114861667B CN114861667B (zh) 2023-04-28

Family

ID=82636961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210526324.3A Active CN114861667B (zh) 2022-05-16 2022-05-16 一种命名实体标签识别方法及装置

Country Status (1)

Country Link
CN (1) CN114861667B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017097166A1 (zh) * 2015-12-11 2017-06-15 北京国双科技有限公司 识别领域命名实体的方法及装置
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN111460824A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种基于对抗迁移学习的无标注命名实体识别方法
CN111859964A (zh) * 2019-04-29 2020-10-30 普天信息技术有限公司 一种语句中命名实体的识别方法及装置
CN112395879A (zh) * 2020-11-10 2021-02-23 华中科技大学 一种科技文本命名实体识别方法
CN114492426A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017097166A1 (zh) * 2015-12-11 2017-06-15 北京国双科技有限公司 识别领域命名实体的方法及装置
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN111859964A (zh) * 2019-04-29 2020-10-30 普天信息技术有限公司 一种语句中命名实体的识别方法及装置
CN111460824A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种基于对抗迁移学习的无标注命名实体识别方法
CN112395879A (zh) * 2020-11-10 2021-02-23 华中科技大学 一种科技文本命名实体识别方法
CN114492426A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备

Also Published As

Publication number Publication date
CN114861667B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
US7945525B2 (en) Methods for obtaining improved text similarity measures which replace similar characters with a string pattern representation by using a semantic data tree
US11055327B2 (en) Unstructured data parsing for structured information
US20180181646A1 (en) System and method for determining identity relationships among enterprise data entities
US11216701B1 (en) Unsupervised representation learning for structured records
CN111611775B (zh) 一种实体识别模型生成方法、实体识别方法及装置、设备
WO2020259280A1 (zh) 日志管理方法、装置、网络设备和可读存储介质
US20190354596A1 (en) Similarity matching systems and methods for record linkage
WO2010088052A1 (en) Methods and systems for matching records and normalizing names
US11657222B1 (en) Confidence calibration using pseudo-accuracy
CN111435410B (zh) 用于医疗文本的关系抽取方法及其装置
US10331789B2 (en) Semantic analysis apparatus, method, and non-transitory computer readable storage medium thereof
Kaur et al. Comparative analysis of algorithmic approaches for auto-coding with ICD-10-AM and ACHI
CN114970530A (zh) 针对基于机器学习命名实体识别的弱监督训练的基于图的标记规则扩充
CN113011689B (zh) 软件开发工作量的评估方法、装置及计算设备
CN114398968B (zh) 基于文件相似度对同类获客文件进行标注的方法和装置
US11803796B2 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
Zhu et al. A unified tagging approach to text normalization
Kiperwasser et al. Semi-supervised dependency parsing using bilexical contextual features from auto-parsed data
CN114861667B (zh) 一种命名实体标签识别方法及装置
Khalid et al. Reference terms identification of cited articles as topics from citation contexts
CN111191049B (zh) 信息推送方法、装置、计算机设备和存储介质
US11210471B2 (en) Machine learning based quantification of performance impact of data veracity
CN112733939A (zh) 相似度特征向量的构建方法、装置、电子设备及存储介质
WO2021160822A1 (en) A method for linking a cve with at least one synthetic cpe

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant