CN112989807B - 一种基于连续数字压缩编码的长数字实体抽取方法 - Google Patents

一种基于连续数字压缩编码的长数字实体抽取方法 Download PDF

Info

Publication number
CN112989807B
CN112989807B CN202110263805.5A CN202110263805A CN112989807B CN 112989807 B CN112989807 B CN 112989807B CN 202110263805 A CN202110263805 A CN 202110263805A CN 112989807 B CN112989807 B CN 112989807B
Authority
CN
China
Prior art keywords
character
entity
characters
supm
supb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110263805.5A
Other languages
English (en)
Other versions
CN112989807A (zh
Inventor
卢玲
王玉柯
白灵
罗辉
瞿春霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202110263805.5A priority Critical patent/CN112989807B/zh
Publication of CN112989807A publication Critical patent/CN112989807A/zh
Application granted granted Critical
Publication of CN112989807B publication Critical patent/CN112989807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提出了一种基于连续数字压缩编码的长数字实体抽取方法,包括:S1,将实体词典中的实体信息融合到单个字符的表示中;S2,对带噪音的长数字实体进行压缩编码和标注;S3,送入Bi‑LSTM+CRF模型进行实体识别训练,然后对长数字实体进行抽取,得到所需的命名实体。本发明在NER任务的实体标注阶段增加一种新的H标签,专门对长数字实体中的噪音数据进行标注,使模型通过学习H标签,CNCD技术能有效识别规范的和带噪音的长数字实体,同时保证对其他类型实体的识别率正确率。

Description

一种基于连续数字压缩编码的长数字实体抽取方法
技术领域
本发明涉及人工智能的自然语言处理领域,特别涉及一种基于连续数字压缩编码的长数字实体抽取方法。
背景技术
命名实体识别(Named Entity Recognition,NER)是信息抽取、问答系统、句法分析、机器翻译、信息检索等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。NER的任务目标是识别出文本中的三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。例如,在“朱明在2020年12月6日参加了中国计算机协会举办的计算机能力认证考试。”中,“朱明”是人名类实体,“2020年12月6日”是时间类实体,“中国计算机协会”是机构名实体。
NER任务是信息检索、对话推荐、对话生成等应用研究的子任务之一,一直是自然语言处理领域研究的热点。
现有研究普遍将NER问题作为一个序列标注任务。主要提出的研究方法包括SoftWord特征技术、条件随机场(Conditional Random Field,CRF)、长短时记忆网络模型(Long Short-term Model,LSTM)、LSTM+CRF、Lattice-LSTM等。其中, SoftLexicon+Bi-LSTM+CRF是目前最被广泛认可的一种方法。它使用一种 SoftLexicon方法,首先将与某字符相关的候选词的信息融合到该字符的表示 (embedding)中,然后构建Bi-LSTM+CRF模型进行实体抽取,从而提高模型的识别率和训练速度。虽然SoftLexicon+Bi-LSTM+CRF方法在常用的cluener数据集、weibo数据集中实体识别准确率分别为92.0%、94.0%,但对带噪音的长数字实体的识别准确率均为53.0%。总体来看,由于较少有专门针对带噪音的长数字实体抽取方法的研究,使带噪音的长数字实体识别准确率偏低。
主要原因为:一是现有模型主要通过设置一定大小的观察窗口来抽取实体,当数字实体较长时,可能超出观察窗口,使实体提取不完整;二是现有的模型对长数字实体中的噪音没有专门的处理方法,将噪音数据当作普通的非实体类字符进行标注。这将打乱模型原标签间的共现规则,使模型在预测正常的长数字实体时产生理解偏差,从而影响实体识别的准确率。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于连续数字压缩编码的长数字实体抽取方法。
为了实现本发明的上述目的,本发明提供了一种基于连续数字压缩编码的长数字实体抽取方法,包括:
S1,将实体词典中的实体信息融合到单个字符的表示中;
S2,对带噪音的长数字实体进行压缩编码和标注;
S3,送入Bi-LSTM+CRF模型进行实体识别训练,然后对长数字实体进行抽取,得到所需的命名实体。
进一步地,所述S1包括:
S1-1,找到含有字符Ci的四类候选实体集SupB、SupM、SupE和SupS;
其中SupB是候选实体中字符Ci作为单词首字的词的集合,SupM是字符Ci作为单词中间字的词的集合,SupE是字符Ci作为末尾字的词的集合,SupS是字符Ci作为单独字的集合;
S1-2,融合SupB、SupM、SupE和SupS中的实体信息,得到字符Ci的向量表示。
进一步地,所述S1-1包括:
S1-1-1,令
Figure RE-GDA0003040921920000031
设置观察窗口大小size;
S1-1-2,以字符Ci为中心,以[Ci-sizeCi-size+1...Ci-2Ci-1CiCi+1Ci+2...Ci+size-1Ci+size]为观察窗口,对窗口内文本分词,提取出所有包含字符Ci的词,构成候选实体集SUPC;其中Ci-size表示第i-size个字符,Ci-size+1表示第i-size+1个字符,Ci-2表示第i-2个字符, Ci-1表示第i-1个字符,Ci表示第i个字符,Ci+1表示第i+1个字符,Ci+2表示第i+2个字符,Ci+size-1表示第i+size-1个字符,Ci+size表示第i+size个字符;
S1-1-3,对于每一个候选实体集SUPC中的实体wj,k,如果wj,k满足(式1),则 SupB=SupB∪{wj,k};若不满足,执行下一步骤;
S1-1-4,如果wj,k满足(式2),则SupM=SupM∪{wj,k};若不满足,执行下一步骤;
S1-1-5,如果wj,k满足(式3),则SupE=SupE∪{wj,k};若不满足,执行下一步骤;
S1-1-6,如果wj,k满足(式4),则SupS=SupS∪{wj,k};若不满足,执行下一步骤;
S1-1-7,结束;
令实体词典为L,wj,k是字符串[CjCj+1Cj+2...Ck-1Ck],则(式1)~(式4)如下:
Figure RE-GDA0003040921920000032
Figure RE-GDA0003040921920000033
Figure RE-GDA0003040921920000034
Figure RE-GDA0003040921920000035
其中,
Figure RE-GDA0003040921920000036
表示存在;字符Ci,i=1,2,...n,i是当前观测字符的下标,n为观测窗口的总字符数;j、k是观测窗口的起始下标和末尾下标;
将S1-1-3中所述的候选实体集SUPC中的实体wj,k分别按(式1)~(式4)加入集合SupB、SupM、SupE和SupS中,得到每个字符的候选实体集SupB、SupM、SupE 和SupS后,用(式5)计算每个候选实体集的嵌入:
Figure RE-GDA0003040921920000041
其中,Vs(S)表示候选实体集S的嵌入,S∈{SupB,SupM,SupE,SupS},ew(w)表示词项w的嵌入,|·|表示集合中元素的个数;
由此得到每个字符的四个候选实体集的嵌入,将它们与字符本身的嵌入拼接,得到该字符融合了词典信息后的嵌入,如(式6)所示:
Figure RE-GDA0003040921920000042
其中←表示赋值,vs(SupB)表示经候选实体集SupB压缩后的向量,vs(SupM)表示经候选实体集SupM压缩后的向量,vs(SupE)表示经候选实体集SupE压缩后的向量,vs(SupS)表示经候选实体集SupS压缩后的向量;es(SupB,SupM,SupE,SupS)表示将 SupB、SupM、SupE、SupS四个集合的向量表示拼接起来;xc是字符的嵌入,将上面得到的词典信息和字符原本的嵌入融合在一起作为字符新的嵌入;之后将处理好的数据送入Bi-LSTM+CRF模型进行训练。
进一步地,所述标注包括带噪音标注的BMEOH标签体系,用于标注带噪音的长数字实体:
判断将训练集中字符,若位于实体的起始位置则用B标签标注,若字符位于一个实体的中间位置则用M标签标注,若字符位于一个实体的结束位置则用E标签标注,若字符不属于任意一个实体则用O标签标注,若字符为噪音数据用则用H标签标注;
经过标注,实体抽取任务就被进一步描述为预测每个字符的标签和实体类别的问题,而以上标注的序列,则作为预测模型的训练数据。
进一步地,所述压缩编码包括长数字实体压缩编码方法:
S2-1,输入字符序列C=[C1,C2,...,Cn],Ci∈C,i=1,2,...n,对应的标签序列L=[L1L2...Ln],阈值s;
S2-2,temp用于临时存放连续数字串,初始化为空;
S2-3,判断字符Ci是否是数字,若是,则将Ci放入temp;若否执行下一步骤;
S2-4,如果temp的字符长度大于或者等于阈值s,则C_result中加入两个特殊字符;同时,将temp字符串中第一个字符和最后一个字符对应的标签依次加入L_result;如果temp的字符长度小于等于阈值s,则执行下一步骤;
S2-5,将temp字符串中的所有字符复制到C_result,其对应的标签复制到L_result;
S2-6,将当前第i个字符与其对应的标签复制到C_result与L_result中,并将temp重置为空;
S2-7,判断i是否小于或者等于n,若是则跳转执行步骤S2-4,若否则执行下一步骤;
S2-8,输出新的字符序列C_result=[C1C2...Cm],以及对应的标签序列 L_result=[L1L2...Lm]。
综上所述,由于采用了上述技术方案,本发明的有益效果是:在NER任务的实体标注阶段增加一种新的H标签,专门对长数字实体中的噪音数据进行标注,使模型通过学习H标签;规范的和带噪音的长数字实体,同时保证对其他类型实体的识别率正确率。还提出了一种对连续长数字串进行压缩编码的方法,从而缩短长数字实体的长度,使其能被模型观测窗口完整地观测和提取。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明SoftLexicon+Bi-LSTM+CRF模型架构图;
图2是本发明SoftLexicon方法示例图;
图3是本发明BMEO标签体系示例图;
图4是本发明用BMEO标签标注含噪音的长数字实体示例图;
图5是本发明用BMEOH标签标注含噪音的长数字实体示例图;
图6是本发明加入H标签后的模型架构图;
图7是本发明观测窗口过大对模型的影响图;
图8是本发明观测窗口过小对模型的影响图;
图9是本发明CNCD技术原理图;
图10是本发明数据集文本长度分布直方图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
1.长数字实体抽取任务
在实际应用的网页、日志文件、问卷调查结果数据中,常常包含用户信息,其中,手机号、QQ号、邮箱等实体,一般都包含若干个连续数字字符,例如:
示例一:商务合作、业务探讨请联系我们,手机:132※※※※※※※76;
示例二:如果以上内容让您感到不适,或侵犯了您的合法权益请联系我们,我们将会尽快处理。联系人:王经理。QQ:1969※※※※76。邮箱:54※※※※※ 671@sina.com;
示例三:为服务广大考生报考,欢迎来电咨询我校招生办。联系人:彭老师。手机:1735※※※5124。邮箱:194※※※※361@2020.cqut.edu.cn。
一般地,手机号是11位、电话号码是7-8位、QQ号是10位、二代身份证号码是18位、邮箱号为十几位到二十位不等。本发明将包含7个及以上连续数字字符的实体称为长数字实体(Long Numerical Entities,LNE),其中数字字符为“0”~“9”,抽取LEN的任务就是长数字实体抽取任务,它是NER任务的一个子类。
如果长数字实体书写正确,可以用正则表达式等方法进行抽取。但如果出现编辑错误,例如手机号被编辑为12位、QQ号中出现了小写字母等,就形成了带噪音的长数字实体。表1列举了常见的带噪音的长数字实体。
表1长数字实体中的噪音信息示例
Figure RE-GDA0003040921920000071
噪音信息将影响现有模型的实体识别性能。在ccf数据集(详见:https://www.datafountain.cn/competitions/472/datasets)中,SoftLexicon+Bi-LSTM+CRF 等模型对带噪音的连续长数字实体识别的正确率为51.0~53.0%,远低于其平均识别识别正确率87.5%。
针对长数字实体抽取任务,本发明提出了一种连续数字压缩编码技术(Compressn consecutive digits,CNCD),用于长数字实体抽取。CNCD技术能有效识别规范的和带噪音的长数字实体,同时保证对其他类型实体的识别率正确率。
2.基于CNCD的长数字实体抽取方法
2.1SoftLexicon+Bi-LSTM+CRF实体抽取模型
本发明采用SoftLexicon+Bi-LSTM+CRF模型来进行实体抽取,模型架构如图1 所示。
该模型采用SoftLexicon技术,将实体词典中的实体信息融合到单个字符的表示中。对任意字符Ci,SoftLexicon技术的思路为:
Figure RE-GDA0003040921920000072
Figure RE-GDA0003040921920000081
其中,SupB、SupM、SupE、SupS为字符Ci的候选实体集分成的四个集合。SupB是候选实体中字符Ci作为单词首字的词的集合,SupM是字符Ci作为单词中间字的词的集合,SupE是字符Ci作为末尾字的词的集合,SupS是字符Ci作为单独字的集合。
Step1的流程为:
Figure RE-GDA0003040921920000082
令实体词典为L,wj,k是字符串[CjCj+1Cj+2…Ck-1Ck],n为当前观测窗口的总字符数,则(式1)~(式4)如下:
Figure RE-GDA0003040921920000083
Figure RE-GDA0003040921920000084
Figure RE-GDA0003040921920000085
Figure RE-GDA0003040921920000086
其中,
Figure RE-GDA0003040921920000087
表示存在;字符Ci,i=1,2,...n,i是当前观测字符的下标。j、k是观测窗口的起始下标和末尾下标,j=i-size,j≥1,k=i+size,k≤n;
例如i=5,表示观测第5个字符,设观测窗口大小为3,则观测字符串下标区间为[2,3,...,8],j=2,k=8。
对文本“民主革命积极分子孙中山上书李鸿章”,为得到C6(汉字“极”)的向量表示,首先以字符C6,即“极”为中心设置观测窗口,令窗口大小为2,则观测窗口为[C4C5C6C7C8],窗口内文本为“命积极分子”。对观测文本分词,得到含字符“极”的候选实体集:{积极,积极分子}。将候选实体集SUPC中的实体wj,k分别按(式1)~(式 4)加入集合SupB、SupM、SupE和SupS中,结果如图2所示。
得到每个字符的候选实体集SupB、SupM、SupE和SupS后,用(式5)计算每个候选实体集的嵌入(embedding)。
Figure RE-GDA0003040921920000091
其中,Vs(S)表示候选实体集S的embedding,S∈{SupB,SupM,SupE,SupS},ew(w)表示词项w的embedding,|·|表示集合中元素的个数。由此得到每个字符的四个候选实体集的embedding。将它们与字符本身的embedding拼接,得到该字符融合了词典信息后的embedding,如(式6)所示:
Figure RE-GDA0003040921920000092
其中←表示赋值,vs(SupB)表示经候选实体集SupB压缩后的向量,vs(SupM)表示经候选实体集SupM压缩后的向量,vs(SupE)表示经候选实体集SupE压缩后的向量,vs(SupS)表示经候选实体集SupS压缩后的向量;es(SupB,SupM,SupE,SupS)表示将 SupB、SupM、SupE、SupS四个集合的向量表示拼接起来;xc是字符的嵌入,将上面得到的词典信息和字符原本的嵌入融合在一起作为字符新的嵌入,即将词典信息融入字符表示中;之后将处理好的数据送入Bi-LSTM+CRF模型进行训练。
2.2CNCD技术
现有Bi-LSTM+CRF模型并未专门对带噪音的长数字实体进行处理。本发明提出了一种CNCD技术,首先对带噪音的长数字实体进行压缩编码和标注,然后再送入Bi-LSTM+CRF模型进行实体识别训练。
CNCD技术包含两方面,一是提出了一种带噪音标注的BMEOH标签体系,用于标注带噪音的长数字实体;二是长数字实体压缩编码方法。
2.2.1带噪音标注的BMEOH标签体系
模型Bi-LSTM+CRF在用于NER任务时,需要使用带标签标注的序列进行训练。目前主要采用的标签标注体系为BMEO(详见论文:Simplify the Usage of Lexicon inChinese NER),它用“标签-实体类别”的形式标注文本中的字符序列。
对字符序列“QQ:1341436055。”,用BMEO标签标注的情况如图3所示。
其中:
B(Begin)标签代表字符位于实体的起始位置。例如字符“1”是实体“1341436055”的起始字符,所以为B标签,由于实体“1341436055”属于QQ类,所以字符“1”最终被标注为“B-QQ”;
M(Middle)标签代表字符位于一个实体的中间位置,例如字符“0”位于“1341436055”的中间,因此标注为“M-QQ”;
E(End)标签代表字符位于一个实体的结束位置,例如字符“5”位于“1341436055”的末尾,因此标注为“E-QQ”;
O(Other)标签代表该字符不属于任意一个实体,例如字符“。”标注为“O”。
实体“1341436055”被标注后的标签序列为:
{B-QQ,M-QQ,M-QQ,……,M-QQ,E-QQ}
经过标注,实体抽取任务就被进一步描述为预测每个字符的标签和实体类别的问题,而以上标注的序列,则作为预测模型的训练数据。
但如果字符序列中存在噪音,如“QQ:1341s43-6055。”中字符“s”、“-”是噪音信息,则标注情况如图4所示。
由此将得到以下标签序列:
{B-QQ,M-QQ,M-QQ,M-QQ,O,M-QQ,M-QQ,O,B-QQ,M-QQ,M-QQ,E-QQ}
在后续模型训练中,用以上标签序列进行训练,会令模型难以理解标签间的共现规则。这是由于对规范的实体,B标签总是后跟M或E标签,而M标签后只能跟E标签。但带噪音的不规范实体中,如果用O标签标记噪音数据,就会与规范实体的规则冲突,从而影响模型对其他类别实体的识别能力。
为此,提出了增加一个H(Hidden)标签,专门用于标记数字实体中的噪声,形成BMEOH标签体系。对字符序列“QQ:1341s43-6055。”,其标注如图5所示。
增加H标签,意味着从语义层面允许出现噪音数据,从预测标签的规则上增加了一条标签规则,使M标签之间可以出现H标签,从而使模型能够识别长数字实体中的噪音。
用BMEOH标签标注的方法是:
将训练集中的噪音数据用H标签标注,其他真实的数字实体仍保留其原有标签,以此保证模型在学习到噪音特征的同时,避免因加入H标签而影响模型识别其他原标签。
加入H标签之后,图1的模型架构图的Prediction层和CRF层如图6所示。Prediction层除预测B、M、E、O四类标签外,还增加了对H标签的预测。
2.2.2长数字实体的压缩编码方法
实体抽取模型SoftLexicon+Bi-LSTM+CRF以字符Ci为中心,设置宽度为Wsize的观察窗口,将窗口内的实体信息融合进字符Ci的表示中。
其中,Wsize是超参数,当前观测窗口的总字符数n≤2×Wsize。如果Wsize为7,则至多观测15个字符。但可能涵盖与当前字符较远距离的实体信息,由此引入更多噪音,如图7所示;如果Wsize为2,则至多观测5个字符,因此涵盖的候选词少,不能充分地将词典信息融入字符表示中,如图8所示。
对于第一个字符“华”,如果Wsize为3,则“华”的候选实体集合为:
SupB={}、SupM={}、SupE={“王华”}、SupS={“华”}
其中选实体集SupB、SupM、SupE和SupS;其中SupB是候选实体中字符Ci作为单词首字的词的集合,SupM是字符Ci作为单词中间字的词的集合,SupE是字符Ci作为末尾字的词的集合,SupS是字符Ci作为单独字的集合。
如果Wsize为9,观测第一个“华”字前后7个字符,就会涵盖第二个‘华’字,得到候选实体集为:
SupB={“华丽”}、SupM={}、SupE={“王华”}、SupS={“华”}
当Wsize为9时,集合SupB中实体词“华丽”的信息,就会被融合到第一个“华”字的embedding中。从而对模型的预测结果造成影响。
综上分析,本发明按照目前广泛采用的经验设置,将Wsize设置为4,即每次观察字符数为9。
受观察窗口大小所限,对长度超过9的长数字实体,如QQ号、QQ邮箱、身份证号码等不能完全呈现在窗口内,使长数字实体无法被完整提取。窗口大小对长数字实体的影响如图8所示。
设Wsize为4,字符“s”的观测窗口如图8所示,只能观测以“s”字符为中心的 9个字符。在这种情况下,模型只能通过相邻字符间的粘连性来预测标签,导致的最常见的问题就是实体边界预测错误,使模型对长数字实体的识别结果并不友好。如果数字实体含有噪音,其长度还可能进一步增加,进一步影响实体提取效果。
为此,本发明提出了一种连续数字压缩编码算法(Compress n consecutivedigits, CNCD),其方法为:
Figure RE-GDA0003040921920000121
Figure RE-GDA0003040921920000131
其中,Ci表示当前序列的第i个字符,依次观测每个字符的窗口,提取候选词;temp存放连续的数字串,如果当前读取的字符不是数字,判断temp的长度是否大于阈值s,大于则压缩,小于则不处理,清空temp用于存储下一个数字串。
CNCD技术将长数字实体进行压缩,使其能够被观测窗口观测到。设阈值为s,这种方法将数据中连续的、长度超过s的数字串用两个特殊符号替换,预测结果还原时,可对比原文本将相应位置的特殊符号还原为原数字,从而实现了对长数字实体的压缩。该技术原理如图9所示。
其中虚线上方的原文本是长度13的含噪音的手机号,其中字符“c”和“+”是噪音数据。经过阈值s=4的CNCD技术,对实体中连续的超过4个数字的数字串替换为两个“*”号,得到图9虚线下方的长度为7的实体。通过压缩,在宽度为4的观测窗口内就能观测到整个实体,从而提高了模型对噪音数据的识别率。
3.实验结果及分析
3.1数据准备
本发明实验使用的三个数据集如表2所示,分别为cluener数据集、weibo数据集、ccf数据集。
表2各数据集信息
Figure RE-GDA0003040921920000141
其中cluener数据集和weibo数据集是命名实体识别问题常用的数据集,ccf数据集是CCF和BDCI联合举办的非结构化商业文本信息中隐私信息识别比赛提供的数据集。目前,除ccf数据集外并没有公开的长数字实体数据集。ccf数据集中有14 类实体,其中数字实体有4类,分别是QQ、手机、邮箱、微信,这4类数字实体占 ccf数据集总实体数的2.84%。
为获得更多含噪音的长数字实体语料,本发明编写了一个长数字实体生成器和一个噪音生成器,用于生成含噪音的长数字实体,并加入现有数据集中。对数据集的每一篇文章,本发明生成一条噪音数据附加在文章末尾,以避免打乱原数据集文章中标注的标签顺序。原文及添加信息后的对比如下:
Figure RE-GDA0003040921920000142
按照以上方法,本发明向表2的三个数据集分别加入含噪音的长数字实体,得到本发明实验数据。
3.2结果及分析
用CNCD技术对带噪音长数字实体进行压缩,设置阈值s为4。得到压缩后的数据与原始数据一起送入模型作为对照组。本发明用Word2vec预训练模型得到语料库词典的embedding,embedding维度设置为64,用SoftLexicon技术得到每个字符的embedding。使用Bi-LSTM+CRF模型进行实体识别训练。
图10是模型迭代30轮,batch_size为16,隐藏层维度为128,dropout为0.5的结果,模型每训练5轮用测试集测试一次。为了获得较好的结果,选择适合的模型参数,对三个数据集的文本长度进行分析,得到了图10所示结果,图10(a)为ccf 数据集文本长度分布直方图,图10(b)为cluener数据集文本长度分布直方图,图 10(c)为weibo数据集文本长度分布直方图:
由图10可知:ccf数据集文本长度集中分布在100附近,cluener数据集文本长度集中分布在50附近,而weibo数据集文本长度集中分布在50附近。因此,本发明将模型的主要超参数之一的最大文本长度分别设置为100、50、50。
将三个数据集的原始数据和经CNCD技术处理后的数据分别送进相同的模型进行测试。本发明用准确率作为评价指标,调用sklearn库中的Metrics包的评估函数对模型进行评估,其中Metrics是已经封装好的分类评估类,将真实标签序列和模型预测的标签序列输入,即可打印每类标签的评估报告。对长数字实体中H标签预测的评价结果如表3所示。其中CNCD为本发明方法,ORG即原来的 SoftLexicon+Bi-LSTM+CRF模型为原方法。
表3模型在三个数据集上原方法和CNCD技术结果对比
Figure RE-GDA0003040921920000151
由表3可以看出,针对含噪音的长数字实体,经过CNCD技术处理后得到的结果普遍比原方法得到的结果好。
在实验中发现以前的SoftLexicon+Bi-LSTM+CRF模型应用在含有噪音的长数字实体的识别任务上,效果并不好。主要是因为含有噪音的长数字实体的字长超出模型观测窗口大小。比如常见的长数字实体中:QQ号10位、手机号11位、邮箱号在十到二十几位不等。如果再加上2~3位的噪音数据,那么实体字长更大。原模型由于观测窗口大小的限制,对于这些超出观测窗口大小的实体并不能有效地识别。
使用B、M、E、H、O标签体系,即使观测窗口的大小设置恰当,对长数字实体中的噪音数据的识别率也并不高。因为前文提到含有噪音的长数字实体的长度在十几到二十几不等,观测窗口不能太大或太小一般设置为4或5,因此只能观测到9 或11个字符,这样依旧不能观测到含有噪音的长数字实体,模型只能根据前后字符的标签来判别当前标签,因此得到的结果并不理想,噪音数据的识别率一般在40-50%左右。
使用CNCD技术对长数字实体进行压缩后,使模型能完整地观测到整个实体,从而提高了模型对噪音数据的识别率。从表中可以看出,针对模型中的噪音数据, CNCD技术明显优于传统技术。
由表3可以看出:模型对噪音标签H的识别率仍有一个阈值,达到阈值后即使继续训练模型也无法提高识别率。经过分析发现造成这一现象的原因是:噪音数据中有数字出现,这点模拟了用户输入过程中多按、错按一个数字的现象。这类噪音数据即使人工都无法辨别,因此模型对于这类噪音数据的识别率很低,这点目前没有好的解决办法。而CNCD技术只是对含噪音的数字实体进行处理,并不影响原模型对其他类别实体的识别性能。
实验表明,CNCD技术在识别长数字实体中的噪音数据时表现良好,在ccf数据集(详见:https://www.datafountain.cn/competitions/472/datasets)上可以达到84%的正确率,在cluener数据集(详见:https://github.com/CLUEbenchmark/CLUE)上可以达到85%的正确率,在weibo数据集(详见: https://download.csdn.net/download/shuihupo/10809067)上可以达到84%的正确率。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (3)

1.一种基于连续数字压缩编码的长数字实体抽取方法,其特征在于,包括:
S1,将实体词典中的实体信息融合到单个字符的表示中;
S2,对带噪音的长数字实体进行压缩编码和标注;
所述长数字实体为包含7个及以上连续数字字符的实体;
所述压缩编码包括长数字实体压缩编码方法:
S2-1,输入字符序列C=[C1,C2,...,Cn],Ci∈C,i=1,2,...n,对应的标签序列L=[L1L2...Ln],阈值s;
S2-2,temp用于临时存放连续数字串,初始化为空;
S2-3,判断字符Ci是否是数字,若是,则将Ci放入temp;若否执行下一步骤;
S2-4,如果temp的字符长度大于或者等于阈值s,则C_result中加入两个特殊字符;同时,将temp字符串中第一个字符和最后一个字符对应的标签依次加入L_result;如果temp的字符长度小于等于阈值s,则执行下一步骤;
S2-5,将temp字符串中的所有字符复制到C_result,其对应的标签复制到L_result;
S2-6,将当前第i个字符与其对应的标签复制到C_result与L_result中,并将temp重置为空;
S2-7,判断i是否小于或者等于n,若是则跳转执行步骤S2-4,若否则执行下一步骤;
S2-8,输出新的字符序列C_result=[C1C2...Cm],以及对应的标签序列L_result=[L1L2...Lm];
所述标注包括带噪音标注的BMEOH标签体系,用于标注带噪音的长数字实体:
判断训练集中的字符,若字符位于实体的起始位置则用B标签标注,若字符位于一个实体的中间位置则用M标签标注,若字符位于一个实体的结束位置则用E标签标注,若字符不属于任意一个实体则用O标签标注,若字符为噪音数据则用H标签标注;
经过标注,实体抽取任务就被进一步描述为预测每个字符的标签和实体类别的问题,而以上标注的长数字实体,则作为预测模型的训练数据;
S3,送入Bi-LSTM+CRF模型进行实体识别训练,然后对长数字实体进行抽取,得到所需的命名实体。
2.根据权利要求1所述的一种基于连续数字压缩编码的长数字实体抽取方法,其特征在于,所述S1包括:
S1-1,找到含有字符Ci的四类候选实体集SupB、SupM、SupE和SupS;
其中SupB是候选实体中字符Ci作为单词首字的词的集合,SupM是字符Ci作为单词中间字的词的集合,SupE是字符Ci作为末尾字的词的集合,SupS是字符Ci作为单独字的集合;
S1-2,融合SupB、SupM、SupE和SupS中的实体信息,得到字符Ci的向量表示。
3.根据权利要求2所述的一种基于连续数字压缩编码的长数字实体抽取方法,其特征在于,所述S1-1包括:
S1-1-1,令
Figure FDA0003285967380000021
设置观察窗口大小size;
S1-1-2,以字符Ci为中心,以[Ci-sizeCi-size+1...Ci-2Ci-1CiCi+1Ci+2...Ci+size-1Ci+size]为观察窗口,对窗口内文本分词,提取出所有包含字符Ci的词,构成候选实体集SUPC;其中Ci-size表示第i-size个字符,Ci-size+1表示第i-size+1个字符,Ci-2表示第i-2个字符,Ci-1表示第i-1个字符,Ci表示第i个字符,Ci+1表示第i+1个字符,Ci+2表示第i+2个字符,Ci+size-1表示第i+size-1个字符,Ci+size表示第i+size个字符;
S1-1-3,对于每一个候选实体集SUPC中的实体wj,k,如果wj,k满足(式1),则SupB=SupB∪{wj,k};若不满足,执行下一步骤;
S1-1-4,如果wj,k满足(式2),则SupM=SupM∪{wj,k};若不满足,执行下一步骤;
S1-1-5,如果wj,k满足(式3),则SupE=SupE∪{wj,k};若不满足,执行下一步骤;
S1-1-6,如果wj,k满足(式4),则SupS=SupS∪{wj,k};若不满足,执行下一步骤;
S1-1-7,结束;
令实体词典为L,wj,k是字符串[CjCj+1Cj+2...Ck-1Ck],则(式1)~(式4)如下:
Figure FDA0003285967380000031
Figure FDA0003285967380000032
Figure FDA0003285967380000033
Figure FDA0003285967380000034
其中,
Figure FDA0003285967380000035
表示存在;字符Ci,i=1,2,...n,i是当前观测字符的下标,n为观测窗口的总字符数;j、k是观测窗口的起始下标和末尾下标;
将S1-1-3中所述的候选实体集SUPC中的实体wj,k分别按(式1)~(式4)加入集合SupB、SupM、SupE和SupS中,得到每个字符的候选实体集SupB、SupM、SupE和SupS后,用(式5)计算每个候选实体集的嵌入:
Figure FDA0003285967380000036
其中,Vs(S)表示候选实体集S的嵌入,S∈{SupB,SupM,SupE,SupS},ew(w)表示词项w的嵌入,|·|表示集合中元素的个数;
由此得到每个字符的四个候选实体集的嵌入,将它们与字符本身的嵌入拼接,得到该字符融合了词典信息后的嵌入,如(式6)所示:
es(SupB,SupM,SupE,SupS)=[vs(SupB);vs(SupM);vs(SupE);vs(SupS)], (式6)
xc←[xc;es(SupB,SupM,SupE,SupS)]
其中←表示赋值,vs(SupB)表示经候选实体集SupB压缩后的向量,vs(SupM)表示经候选实体集SupM压缩后的向量,vs(SupE)表示经候选实体集SupE压缩后的向量,vs(SupS)表示经候选实体集SupS压缩后的向量;es(SupB,SupM,SupE,SupS)表示将SupB、SupM、SupE、SupS四个集合的向量表示拼接起来;xc是字符的嵌入,将上面得到的词典信息和字符原本的嵌入融合在一起作为字符新的嵌入;之后将处理好的数据送入Bi-LSTM+CRF模型进行训练。
CN202110263805.5A 2021-03-11 2021-03-11 一种基于连续数字压缩编码的长数字实体抽取方法 Active CN112989807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110263805.5A CN112989807B (zh) 2021-03-11 2021-03-11 一种基于连续数字压缩编码的长数字实体抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110263805.5A CN112989807B (zh) 2021-03-11 2021-03-11 一种基于连续数字压缩编码的长数字实体抽取方法

Publications (2)

Publication Number Publication Date
CN112989807A CN112989807A (zh) 2021-06-18
CN112989807B true CN112989807B (zh) 2021-11-23

Family

ID=76334934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110263805.5A Active CN112989807B (zh) 2021-03-11 2021-03-11 一种基于连续数字压缩编码的长数字实体抽取方法

Country Status (1)

Country Link
CN (1) CN112989807B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997169B (zh) * 2022-05-30 2023-06-13 中电金信软件有限公司 一种实体词识别方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753660A (zh) * 2019-01-07 2019-05-14 福州大学 一种基于lstm的中标网页命名实体抽取方法
CN110134954A (zh) * 2019-05-06 2019-08-16 北京工业大学 一种基于Attention机制的命名实体识别方法
CN112446211A (zh) * 2019-08-16 2021-03-05 株式会社Ntt都科摩 文本处理装置、方法、设备和计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8731901B2 (en) * 2009-12-02 2014-05-20 Content Savvy, Inc. Context aware back-transliteration and translation of names and common phrases using web resources
US10565229B2 (en) * 2018-05-24 2020-02-18 People.ai, Inc. Systems and methods for matching electronic activities directly to record objects of systems of record
CN109885827B (zh) * 2019-01-08 2023-10-27 北京捷通华声科技股份有限公司 一种基于深度学习的命名实体的识别方法和系统
CN111967266B (zh) * 2020-09-09 2024-01-26 中国人民解放军国防科技大学 中文命名实体识别系统、模型构建方法和应用及相关设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753660A (zh) * 2019-01-07 2019-05-14 福州大学 一种基于lstm的中标网页命名实体抽取方法
CN110134954A (zh) * 2019-05-06 2019-08-16 北京工业大学 一种基于Attention机制的命名实体识别方法
CN112446211A (zh) * 2019-08-16 2021-03-05 株式会社Ntt都科摩 文本处理装置、方法、设备和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Simplify the Usage of Lexicon in Chinese NER;Ruotian Ma 等;《https://arxiv.org/pdf/1908.05969.pdf》;20201014;论文第1-10页 *

Also Published As

Publication number Publication date
CN112989807A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN110032648B (zh) 一种基于医学领域实体的病历结构化解析方法
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN110196906B (zh) 面向金融行业的基于深度学习文本相似性检测方法
CN110909549B (zh) 对古汉语进行断句的方法、装置以及存储介质
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN110750993A (zh) 分词方法及分词器、命名实体识别方法及系统
CN110196980A (zh) 一种基于卷积网络在中文分词任务上的领域迁移
CN110188175A (zh) 一种基于BiLSTM-CRF模型的问答对抽取方法、系统及存储介质
CN105955955B (zh) 一种基于纠错输出编码的无需消歧的无监督词性标注方法
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
CN107451106A (zh) 文本纠正方法及装置、电子设备
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN109766553A (zh) 一种基于多正则化结合的胶囊模型的中文分词方法
CN110046356A (zh) 标签嵌入在微博文本情绪多标签分类中的应用研究
CN111651983A (zh) 一种基于自训练与噪声模型的因果事件抽取方法
CN111222329B (zh) 句向量训练方法及模型、句向量预测方法及系统
CN110263147A (zh) 推送信息的生成方法及装置
CN112686044A (zh) 一种基于语言模型的医疗实体零样本分类方法
CN111859967A (zh) 实体识别方法、装置,电子设备
CN112989807B (zh) 一种基于连续数字压缩编码的长数字实体抽取方法
CN109446523A (zh) 基于BiLSTM和条件随机场的实体属性抽取模型
CN110674642B (zh) 一种用于含噪稀疏文本的语义关系抽取方法
CN115935914A (zh) 一种入院记录缺失文本补充方法
CN117034948B (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant