CN113255356B - 一种基于实体词列表的实体识别方法和装置 - Google Patents

一种基于实体词列表的实体识别方法和装置 Download PDF

Info

Publication number
CN113255356B
CN113255356B CN202110648321.2A CN202110648321A CN113255356B CN 113255356 B CN113255356 B CN 113255356B CN 202110648321 A CN202110648321 A CN 202110648321A CN 113255356 B CN113255356 B CN 113255356B
Authority
CN
China
Prior art keywords
subsequence
entity
subsequences
sequence
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110648321.2A
Other languages
English (en)
Other versions
CN113255356A (zh
Inventor
韩瑞峰
金霞
杨红飞
程东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huoshi Creation Technology Co ltd
Original Assignee
Hangzhou Firestone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Firestone Technology Co ltd filed Critical Hangzhou Firestone Technology Co ltd
Priority to CN202110648321.2A priority Critical patent/CN113255356B/zh
Publication of CN113255356A publication Critical patent/CN113255356A/zh
Application granted granted Critical
Publication of CN113255356B publication Critical patent/CN113255356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种基于实体词列表的实体识别方法和装置,其中,该方法包括:通过将预设语料中的所有句子分割得到若干子序列,记录子序列在预设语料中的位置,统计子序列在预设语料中出现的次数,根据实体词列表设置子序列的标签,计算子序列的特征集合和先验概率,最后得到子序列的置信度,基于置信度对句子进行重新分割,保存实体分割结果,实体分割结果用于对序列标注模型预测的结果进行校正,识别出子序列的类型,通过本申请,解决了对标注样本依赖性强和识别准确率低的问题,实现了基于实体词列表进行远程监督学习,结合有监督的序列标注模型可得到准确率更高的抽取模型,降低对标注样本的依赖性,可用于多场景下的实体抽取和新词发现。

Description

一种基于实体词列表的实体识别方法和装置
技术领域
本申请涉及数据识别领域,特别是涉及一种基于实体词列表的实体识别方法和装置。
背景技术
在文本信息抽取的应用场景中,由于场景多样、细化,样本标注成为文本信息抽取过程中重要的一环,工业应用上面临着缺少标注样本,样本标注成本高的现状,目前的文本信息抽取方法中,基于模型训练的方法需要大量的标注样本,虽然有一些深度模型呈现准确度越来越高,需要的标注样本量越来越少的趋势,但仍然需要一定量的标注样本才能训练得到可用的模型,在获取到标注样本前,无法开展工作,这样的过程相当于将开发成本转嫁到样本标注上,整体开发效率仍然低下。
目前针对相关技术中对标注样本依赖性强和识别准确率低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于实体词列表的实体识别方法和装置,以至少解决相关技术中对标注样本依赖性强和识别准确率低的问题。
第一方面,本申请实施例提供了一种基于实体词列表的实体识别方法,所述方法包括:
将预设语料中的所有句子分割得到若干子序列,记录所述子序列在所述预设语料中的位置,统计所述子序列在所述预设语料中出现的次数,定义所述子序列的集合为patterns,定义所述子序列的位置为id2ends;
重复执行预设步骤达到预设次数后,保存模型结果,其中,所述模型结果包括根据实体分割模型得到的所有的子序列,以及所述子序列的置信度;
根据所述模型结果得到实体分割结果,所述实体分割结果用于对序列标注模型预测的结果进行校正,识别出子序列的类型;
所述预设步骤包括:
根据实体词列表设置子序列的标签;
根据子序列在预设语料中出现的次数,计算所述子序列的特征集合;
根据所述子序列的标签和特征集合,通过回归模型得到所述子序列的质量,所述回归模型包括决策树、随机森林和DNN;
计算所述子序列的先验概率,根据所述先验概率和所述子序列的质量得到所述子序列的置信度;
根据所述置信度,通过动态规划方法将所述预设语料中的所有句子重新分割得到若干子序列,重新统计所述子序列在所述预设语料中出现的频率。
在其中一些实施例中,将预设语料中的所有句子分割得到若干子序列,记录所述子序列在所述预设语料中的位置包括:
将预设语料中的所有句子分割,得到长度为1至L的若干子序列;
将预设语料中的所有的字和单词按序排列并记录序号,记录所述子序列在所述预设语料中的位置,其中,所述子序列的位置即所述子序列中第一个字的序号,定义字的序号为ids,创建字到所述序号之间的映射为idsmap。
在其中一些实施例中,根据实体词列表设置子序列的标签包括:
将子序列的标签初始值设置为UNKNOWN,判断所述子序列是否存在于实体词列表中;
若存在,则将所述子序列的标签设置为1,若不存在,则将所述子序列的标签设置为0;
以及将出现频率为0的序列的标签置为UNKNOWN。
在其中一些实施例中,根据子序列在预设语料中出现的次数,计算所述子序列的特征集合包括:
所述特征集合包括出现概率特征、一致性特征、信息性特征、完整性特征和特殊符号特征;
计算所述子序列的出现概率特征,所述出现概率特征为p(v)=i/(j/k),其中,i为所述子序列出现次数、j为所述预设语料字数,k为所述子序列长度;
计算所述子序列的一致性特征,计算所述子序列所有左右分割的PMI点互信息,找到所述子序列的最佳左右分割<ul_best,ur_best>,保证点互信息最小;
计算所述子序列的信息性特征,通过所述子序列从预设语料中检索出文档子集,对所述子序列进行度量;
计算所述子序列的完整性特征,保证所述子序列的完整性;
计算所述子序列的特殊符号特征,其中,所述特殊符号包括停止词和标点符号。
在其中一些实施例中,计算所述子序列的先验概率,根据所述先验概率和所述子序列的质量得到所述子序列的置信度包括:
计算每个所述子序列的先验概率,即prob0=n/m,其中,prob0为先验概率,n为子序列的出现次数,m为全部子序列的出现次数;
根据所述先验概率和所述子序列的质量得到所述子序列的置信度,即prob=log(prob0)+log(quality);其中,prob为置信度,quality为质量。
在其中一些实施例中,根据所述置信度,通过动态规划方法将所述预设语料中的所有句子重新分割得到若干子序列,重新统计所述子序列在所述预设语料中出现的频率包括:
根据所述置信度,通过动态规划方法将所述预设语料中的所有句子重新分割得到若干子序列;
将子序列集合patterns中的计数清0,将子序列位置id2ends清空,若重新分割得到的子序列在所述子序列集合patterns中,则将所述子序列集合中对应的子序列的计数加1,并且同步更新对应的子序列位置id2ends。
在其中一些实施例中,根据所述模型结果得到实体分割结果包括:
通过字与序号之间的映射idsmap将语料中的字映射为序号,对预设语料未出现的未登录序列用新的自增加序号表示,计算所述未登录序列的先验概率和特征集合,得到所述未登录序列的质量,进而得到所述未登录序列的置信度,基于置信度用动态规划方法对语料中的句子分割,得到实体分割结果。
在其中一些实施例中,在所述实体分割结果用于对序列标注模型预测的结果进行校正,识别出子序列的类型之前,所述方法还包括:
根据标注语料对序列标注模型进行训练,所述序列标注模型用于预测句子的BIO标签,所述序列标注模型包括crf和lstm。
在其中一些实施例中,所述实体分割结果用于对序列标注模型预测的结果进行校正,识别出子序列的类型包括:
获取预设业务中的句子,根据所述序列标注模型得到实体识别结果;
根据所述实体分割结果统计所述实体识别结果中标签值,进而对子序列进行投票,识别出所述子序列的类型。
第二方面,本申请实施例提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序时以实现如上述第一方面所述的基于实体词列表的实体识别方法。
相比于相关技术,本申请实施例提供的一种基于实体词列表的实体识别方法和装置,通过将预设语料中的所有句子分割得到若干子序列,记录所述子序列在所述预设语料中的位置,统计所述子序列在所述预设语料中出现的次数,重复执行预设步骤达到预设次数后,保存模型结果,其中,模型结果包括根据实体分割模型得到的所有的子序列,以及子序列的置信度,根据模型结果得到实体分割结果,实体分割结果用于对序列标注模型预测的结果进行校正,识别出子序列的类型,解决了相关技术中对标注样本依赖性强和识别准确率低的问题,实现了基于实体词列表进行远程监督学习,结合有监督的序列标注模型可得到准确率更高的抽取模型,降低对标注样本的依赖性,可用于多场景下的实体抽取和新词发现。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于实体词列表的实体识别方法的步骤流程图;
图2是根据本申请具体实施例的基于实体词列表的实体识别方法的步骤流程图;
图3是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请实施例提供了一种基于实体词列表的实体识别方法,图1是根据本申请实施例的基于实体词列表的实体识别方法的步骤流程图,如图1所示,该方法包括以下步骤:
S102,将预设语料中的所有句子分割得到若干子序列,记录子序列在预设语料中的位置,统计子序列在预设语料中出现的次数,定义子序列的集合为patterns,定义子序列的位置为id2ends;
S104,根据实体词列表设置子序列的标签;
S106,根据子序列在预设语料中出现的次数,计算子序列的特征集合;
S108,根据子序列的标签和特征集合,通过回归模型得到子序列的质量,回归模型包括决策树、随机森林和DNN;
S110,计算子序列的先验概率,根据先验概率和子序列的质量得到子序列的置信度;
S112,根据置信度,通过动态规划方法将预设语料中的所有句子重新分割得到若干子序列,重新统计子序列在预设语料中出现的频率。
S114,重复执行步骤S104至步骤S112达到预设次数后,保存模型结果,其中,模型结果包括根据实体分割模型得到的所有的子序列,以及子序列的置信度;
S116,根据模型结果得到实体分割结果,实体分割结果用于对序列标注模型预测的结果进行校正,识别出子序列的类型;
通过本申请实施例中的步骤S102至步骤S116,解决了相关技术中对标注样本依赖性强和识别准确率低的问题,实现了基于实体词列表进行远程监督学习,结合有监督的序列标注模型可得到准确率更高的抽取模型,降低对标注样本的依赖性,可用于多场景下的实体抽取和新词发现。
在其中一些实施例中,将预设语料中的所有句子分割得到若干子序列,记录子序列在预设语料中的位置包括:
将预设语料中的所有句子分割,得到长度为1至L的若干子序列;
将预设语料中的所有的字和单词按序排列并记录序号,记录子序列在预设语料中的位置,其中,子序列的位置即子序列中第一个字的序号,定义字的序号为ids,创建字到序号之间的映射为idsmap。
在其中一些实施例中,根据实体词列表设置子序列的标签包括:
将子序列的标签初始值设置为UNKNOWN,判断子序列是否存在于实体词列表中;
若存在,则将子序列的标签设置为1,若不存在,则将子序列的标签设置为0;
以及将出现频率为0的序列的标签置为UNKNOWN。
在其中一些实施例中,根据子序列在预设语料中出现的次数,计算子序列的特征集合包括:
特征集合包括出现概率特征、一致性特征、信息性特征、完整性特征和特殊符号特征;
计算子序列的出现概率特征,出现概率特征为p(v)=i/(j/k),其中,i为子序列出现次数、j为预设语料字数,k为子序列长度。
计算子序列的一致性特征,计算子序列所有左右分割的PMI点互信息,找到子序列的最佳左右分割<ul_best,ur_best>,保证点互信息最小;
具体地,计算子序列的所有可能的左右分割的PMI点互信息,找到子序列v的最佳左右分割<ul_best,ur_best>使得点互信息最小,其中PMI=p(v)/(p(ul) x p(ur))。用最佳左右分割<ul_best,ur_best>计算子序列v的一致性特征:
一致性PMI特征f1:f1(v)=p(v)/(p(ul_best) x p(ur_best));
一致性PMI特征f2:f2(v)=p(v)/(sqrt(p(ul_best)) x sqrt(p(ur_best)));
一致性KL特征f3:f3(v)= p(v) x log(f1);
一致性KL特征f4:f4(v)= sqrt(p(v)) x log(f1)。
计算子序列的信息性特征,通过子序列从预设语料中检索出文档子集,对子序列进行度量;
具体地,信息性特征指的是反映能够用子序列从语料中检索出一个文档子集的对子序列的度量,即越是能够用子序列检索到越少量的文档,子序列包含的信息量越大;
计算每个子序列v的idf值idf(v)=log(n_docs/n_docs_v_in),其中n_docs_v_in为出现v的文档数,n_docs为文档总数。idf值越大,v的信息量越大;
进一步地,信息量大的词会在上下文中多次出现。统计子序列v中每个字w在上下文(当前句、前一句和后一句)中出现的次数context[w],在当前子序列v中出现的次数local[w],计算outside[w]=context[w] - local[w]。对出现子序列v的语料句子计算并累加outside[w]。对子序列v中的每个字w用其idf值计算加权平均,得到f5(v)。用idf加权去除了同样多次出现在上下文中的信息量小的词。
另外,F6(v)=sumIdf/len_v,其中sumIdf为v中词的idf值的和,len_v为v中的字的个数。
计算所述子序列的完整性特征,保证所述子序列的完整性;
具体地,完整性特征指的是保证子序列的完整性,防止被切断。
对长度为n的子序列v,统计其前n-1个字组成的序列在语料中出现的频率freq_sub_L,以及其后n-1个字组成的序列出现的频率freq_sub_R,求二者的最大值freq_sub,作为f7(v)。
在子序列v在语料中出现的全部位置,统计包含v往前一个字的长度n+1序列在语料中出现的频率freq_sub_L2,以及包含v往后一个字的长度n+1序列的频率频率freq_sub_R2,求二者在全部语料位置的最大值freq_sub2,作为f8(v)。
计算所述子序列的特殊符号特征,其中,所述特殊符号包括停止词和标点符号
具体地,停止词特征f9(v):子序列v的第一个字是停止词或数字,则f9(v)=1,否则f9(v)=0;
停止词特征f10(v):子序列v的最后一个字是停止词,则f10(v)=1,否则f10(v)=0;
停止词特征f11(v):f11(v)=n_stop/len_v,其中n_stop为子序列v包含的停止词或数字的个数,len_v为v中的字的个数;
标点符号特征f12(v):f12(v)=n_quote/n_v,其中n_quote为v在语料中出现位置上,v前后为引号的个数,n_v为v在语料中出现的次数;
标点符号特征f13(v):f13(v)=n_dash/n_v,其中n_dash为v在语料中出现位置上,v后或v中为破折号的个数,n_v为v在语料中出现的次数;
标点符号特征f14(v):f14(v)=n_parenthesis/n_v,其中n_parenthesis为v在语料中出现位置上,v前后为括号的个数,n_v为v在语料中出现的次数。
在其中一些实施例中,计算子序列的先验概率,根据先验概率和子序列的质量得到子序列的置信度包括:
计算每个子序列的先验概率,即prob0=n/m,其中,prob0为先验概率,n为子序列的出现次数,m为全部子序列的出现次数;
根据先验概率和子序列的质量得到子序列的置信度,即prob=log(prob0)+log(quality);其中,prob为置信度,quality为质量。
在其中一些实施例中,根据置信度,通过动态规划方法将预设语料中的所有句子重新分割得到若干子序列,重新统计子序列在预设语料中出现的频率包括:
根据置信度,通过动态规划方法将预设语料中的所有句子重新分割得到若干子序列,需要说明的是,每个句子重新分割后会得到若干子序列,要按照每个句子得到的子序列的置信度之和为最大的规则,来进行重新分割;将子序列集合patterns中的计数清0,将子序列位置id2ends清空,若重新分割得到的子序列在所述子序列集合patterns中,则将子序列集合中对应的子序列的计数加1,并且同步更新对应的子序列位置id2ends。
在其中一些实施例中,根据模型结果得到实体分割结果包括:
通过idsmap将语料中的字映射为序号,对预设语料未出现的未登录序列用新的自增加序号表示,计算未登录序列的先验概率和特征集合,得到未登录序列的质量,进而得到未登录序列的置信度,基于置信度用动态规划方法对语料中的句子分割,得到实体分割结果。
在其中一些实施例中,在实体分割结果用于对序列标注模型预测的结果进行校正,识别出子序列的类型之前,方法还包括:
根据标注语料对序列标注模型进行训练,序列标注模型用于预测句子的BIO标签,序列标注模型包括crf和lstm。
在其中一些实施例中,实体分割结果用于对序列标注模型预测的结果进行校正,识别出子序列的类型包括:
获取预设业务中的句子,根据序列标注模型得到实体识别结果;
根据实体分割结果统计实体识别结果中标签值,进而对子序列进行投票,识别出子序列的类型。
具体举例如下:
对一个输入句子,用序列分割模型得到实体分割结果seqres1,用序列标注模型得到实体识别结果seqres2,对seqres1中标注出来的每个子序列,统计在seqres2中对应位置上的标签值 ,用该统计结果对该子序列投票,得到该子序列的类型。
当该输入句子为“通过分析英国生物银行的健康大数据,筛查出了80个与抑郁症相关的基因。”
seqres1中包含了“英国生物银行”“健康大数据”“抑郁症”“基因”几个结果,
seqres2的结果为:“O,O,O,O,B-ORG,I-ORG,I-ORG,I-ORG,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,B-DISEASE,I-DISEASE,I-DISEASE,I-DISEASE,O,O,O,O”,
由此可见“英国生物银行”对应了“B-ORG,I-ORG,I-ORG,I-ORG,O,O”,通过投票得到的结果为“B-ORG,I-ORG,I-ORG,I-ORG,I-ORG,I-ORG”;“抑郁症”对应了“B-DISEASE,I-DISEASE,I-DISEASE,I-DISEASE”,通过投票得到的结果为“B-DISEASE,I-DISEASE,I-DISEASE”
最终得到的结果为:“O,O,O,O,B-ORG,I-ORG,I-ORG,I-ORG,I-ORG,I-ORG,O,O,O,O,O,O,O,O,O,O,O,O,O,O,B-DISEASE,I-DISEASE,I-DISEASE,O,O,O,O,O”。
得益于序列分割模型得到的实体分割结果的高召回率,可对实体识别结果进行这样的融合修正。
本申请具体实施例提供了一种基于实体词列表的实体识别方法,图2是根据本申请具体实施例的基于实体词列表的实体识别方法的步骤流程图,如图2所示,该方法包括以下步骤:
S211,挖掘高频子序列。
对语料分割句子,对所有句子中长度为1到L的子序列 ,统计在语料中出现的次数,并记录每个子序列I在语料中所有出现的位置,即把语料中所有的字和单词按序排列并记录序号后,每个子序列的位置即子序列中第一个字的序号。记全部子序列的集合为patterns,子序列的语料位置id2ends,每个字用数字序号表示ids,记录字到序号之间的映射idsmap。
S212,与实体词列表对比,得到序列的标签值。
将序列的标签初始值置为UNKNOWN。如果序列存在于实体词列表中,则标签为1,否则为0。将出现频率为0的序列的标签置为UNKNOWN。
S213,计算所有子序列的特征集合。
该特征集合包括出现概率特征、一致性特征、信息性特征、完整性特征和特殊符号特征。
S214,利用序列样本的特征集合,训练回归模型,得到正负样本序列的置信度。
用标签为1和0的序列作为训练样本,用步骤S213中计算的特征集合作为样本特征,训练预测模型,如决策树、随机森林、DNN等。用训练好的模型对所有序列预测,得到每个序列的置信度(quality)。
S215,利用序列的置信度,重新分割语料中的句子,重新统计子序列的出现频率。
计算每个序列的先验概率prob0,即出现频率/全部序列的出现频率。再结合序列的quality得到序列的置信度prob=log(prob0)+log(quality) 。
基于该置信度,用动态规划方法(如veterbi)对语料的句子重新分割,即得到使得每个句子的置信度值之和最大的分割 。分割后重新计算所有子序列的出现频率,即如果句子分割得到的子序列在patterns中,则patterns中对应的元素的计数加1,更新id2ends。
S216,重复执行步骤S212至步骤S215达到N次后,保存模型结果。
模型结果包括所有可信的子序列及其置信度。
S217,对语料进行实体分割。
通过idsmap将语料中的字映射为数字序号,并对训练语料未出现的未登录词用新的自增加序号表示。对未登录词计算先验概率prob0以及步骤213的特征,得到未登录序列的quality,进而得到置信度prob。与步骤215相同,基于置信度用动态规划方法对语料中的句子分割,得到实体分割结果。
S221,在标注语料上训练用于实体识别的序列标注模型。
用序列标注模型在标注语料上训练,如crf、lstm等,得到一个实体识别模型,用于预测句子的BIO标签。
S231,结合步骤S211至步骤S221,得到语料的实体识别结果。
对一个输入句子,用步骤211至步骤217得到实体分割结果seqres1,步骤S221得到的序列结果seqres2,对seqres1中标注出来的每个实体序列,统计在seqres2中对应位置上的标签值,用该统计结果对该实体序列投票,得到该实体序列的类型。
通过本申请具体实施例中的步骤S211至步骤S231,结合实体词列表和序列标注模型的实体识别方法,对于有实体标注语料和实体词列表的场景,利用实体词列表在语料上的远程监督学习,得到高召回率的实体分割结果 ,结合在标注语料上训练的序列标注模型的识别结果 ,得到高准确率的实体识别结果。在这个过程中,同时发现了新实体,因此也可用于新词发现的场景。
另外,结合上述实施例中的基于实体词列表的实体识别方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于实体词列表的实体识别方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于实体词列表的实体识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在一个实施例中,图3是根据本申请实施例的电子设备的内部结构示意图,如图3所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图3所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种基于实体词列表的实体识别方法,数据库用于存储数据。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于实体词列表的实体识别方法,其特征在于,所述方法包括:
将预设语料中的所有句子分割得到若干子序列,记录所述子序列在所述预设语料中的位置,统计所述子序列在所述预设语料中出现的次数,定义所述子序列的集合为patterns,定义所述子序列的位置为id2ends;
重复执行预设步骤达到预设次数后,保存模型结果,其中,所述模型结果包括根据实体分割模型得到的所有的子序列,以及所述子序列的置信度;
根据所述模型结果得到实体分割结果,所述实体分割结果用于对序列标注模型预测的结果进行校正,识别出子序列的类型;
所述预设步骤包括:
根据实体词列表设置子序列的标签;
根据子序列在预设语料中出现的次数,计算所述子序列的特征集合;
根据所述子序列的标签和特征集合,通过回归模型得到所述子序列的质量,所述回归模型包括决策树、随机森林和DNN;
计算所述子序列的先验概率,根据所述先验概率和所述子序列的质量得到所述子序列的置信度;
根据所述置信度,通过动态规划方法将所述预设语料中的所有句子重新分割得到若干子序列,重新统计所述子序列在所述预设语料中出现的频率。
2.根据权利要求1所述的方法,其特征在于,将预设语料中的所有句子分割得到若干子序列,记录所述子序列在所述预设语料中的位置包括:
将预设语料中的所有句子分割,得到长度为1至L的若干子序列;
将预设语料中的所有的字和单词按序排列并记录序号,记录所述子序列在所述预设语料中的位置,其中,所述子序列的位置即所述子序列中第一个字的序号,定义字的序号为ids,创建字到所述序号之间的映射为idsmap。
3.根据权利要求1所述的方法,其特征在于,根据实体词列表设置子序列的标签包括:
将子序列的标签初始值设置为UNKNOWN,判断所述子序列是否存在于实体词列表中;
若存在,则将所述子序列的标签设置为1,若不存在,则将所述子序列的标签设置为0;
以及将出现频率为0的序列的标签设置为UNKNOWN。
4.根据权利要求1所述的方法,其特征在于,根据子序列在预设语料中出现的次数,计算所述子序列的特征集合包括:
所述特征集合包括出现概率特征、一致性特征、信息性特征、完整性特征和特殊符号特征;
计算所述子序列的出现概率特征,所述出现概率特征为p(v)=i/(j/k),其中,i为所述子序列出现次数、j为所述预设语料字数,k为所述子序列长度;
计算所述子序列的一致性特征,计算所述子序列所有左右分割的PMI点互信息,找到所述子序列的最佳左右分割<ul_best,ur_best>,保证点互信息最小;
计算所述子序列的信息性特征,通过所述子序列从预设语料中检索出文档子集,对所述子序列进行度量;
计算所述子序列的完整性特征,保证所述子序列的完整性;
计算所述子序列的特殊符号特征,其中,所述特殊符号包括停止词和标点符号。
5.根据权利要求1所述的方法,其特征在于,计算所述子序列的先验概率,根据所述先验概率和所述子序列的质量得到所述子序列的置信度包括:
计算每个所述子序列的先验概率,即prob0=n/m,其中,prob0为先验概率,n为子序列的出现次数,m为全部子序列的出现次数;
根据所述先验概率和所述子序列的质量得到所述子序列的置信度,即prob=log(prob0)+log(quality);其中,prob为置信度,quality为质量。
6.根据权利要求1所述的方法,其特征在于,根据所述置信度,通过动态规划方法将所述预设语料中的所有句子重新分割得到若干子序列,重新统计所述子序列在所述预设语料中出现的频率包括:
根据所述置信度,通过动态规划方法将所述预设语料中的所有句子重新分割得到若干子序列;
将子序列集合patterns中的计数清0,将子序列位置id2ends清空,若重新分割得到的子序列在所述子序列集合patterns中,则将所述子序列集合patterns中对应的子序列的计数加1,并且同步更新对应的子序列位置id2ends。
7.根据权利要求1所述的方法,其特征在于,根据所述模型结果得到实体分割结果包括:
通过字与序号之间的映射idsmap将语料中的字映射为序号,对预设语料未出现的未登录序列用新的自增加序号表示,计算所述未登录序列的先验概率和特征集合,得到所述未登录序列的质量,进而得到所述未登录序列的置信度,基于置信度用动态规划方法对语料中的句子分割,得到实体分割结果。
8.根据权利要求1所述的方法,其特征在于,在所述实体分割结果用于对序列标注模型预测的结果进行校正,识别出子序列的类型之前,所述方法还包括:
根据标注语料对序列标注模型进行训练,所述序列标注模型用于预测句子的BIO标签,所述序列标注模型包括crf和lstm。
9.根据权利要求1所述的方法,其特征在于,所述实体分割结果用于对序列标注模型预测的结果进行校正,识别出子序列的类型包括:
获取预设业务中的句子,根据所述序列标注模型得到实体识别结果;
根据所述实体分割结果统计所述实体识别结果中标签值,进而对子序列进行投票,识别出所述子序列的类型。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的基于实体词列表的实体识别方法。
CN202110648321.2A 2021-06-10 2021-06-10 一种基于实体词列表的实体识别方法和装置 Active CN113255356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110648321.2A CN113255356B (zh) 2021-06-10 2021-06-10 一种基于实体词列表的实体识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110648321.2A CN113255356B (zh) 2021-06-10 2021-06-10 一种基于实体词列表的实体识别方法和装置

Publications (2)

Publication Number Publication Date
CN113255356A CN113255356A (zh) 2021-08-13
CN113255356B true CN113255356B (zh) 2021-09-28

Family

ID=77187444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110648321.2A Active CN113255356B (zh) 2021-06-10 2021-06-10 一种基于实体词列表的实体识别方法和装置

Country Status (1)

Country Link
CN (1) CN113255356B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188359A (zh) * 2019-05-31 2019-08-30 成都火石创造科技有限公司 一种文本实体抽取方法
CN111428501A (zh) * 2019-01-09 2020-07-17 北大方正集团有限公司 命名实体的识别方法、识别系统及计算机可读存储介质
CN111832315A (zh) * 2020-06-30 2020-10-27 北京小米松果电子有限公司 语义识别的方法、装置、电子设备和存储介质
CN111985239A (zh) * 2020-07-31 2020-11-24 杭州远传新业科技有限公司 实体识别方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871545B (zh) * 2019-04-22 2022-08-05 京东方科技集团股份有限公司 命名实体识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428501A (zh) * 2019-01-09 2020-07-17 北大方正集团有限公司 命名实体的识别方法、识别系统及计算机可读存储介质
CN110188359A (zh) * 2019-05-31 2019-08-30 成都火石创造科技有限公司 一种文本实体抽取方法
CN111832315A (zh) * 2020-06-30 2020-10-27 北京小米松果电子有限公司 语义识别的方法、装置、电子设备和存储介质
CN111985239A (zh) * 2020-07-31 2020-11-24 杭州远传新业科技有限公司 实体识别方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Subsequence Based Deep Active Learning for Named Entity Recognition;Puria Radmard等;《https://www.researchgate.net/publication/351885762》;20210526;第1-13页 *

Also Published As

Publication number Publication date
CN113255356A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
CN111737474A (zh) 业务模型的训练和确定文本分类类别的方法及装置
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN110750965B (zh) 英文文本序列标注方法、系统及计算机设备
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN113191152B (zh) 一种基于实体扩展的实体识别方法和系统
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN113177411A (zh) 命名实体识别模型的训练方法和命名实体识别的方法
CN111190946A (zh) 报告生成方法、装置、计算机设备和存储介质
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN114223012A (zh) 推送对象确定方法、装置、终端设备及存储介质
CN112989043B (zh) 指代消解方法、装置、电子设备及可读存储介质
CN114281991A (zh) 文本分类方法、装置、电子设备及存储介质
CN113255356B (zh) 一种基于实体词列表的实体识别方法和装置
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN111754352A (zh) 一种观点语句正确性的判断方法、装置、设备和存储介质
CN109614494B (zh) 一种文本分类方法及相关装置
CN116484025A (zh) 漏洞知识图谱构建方法、评估方法、设备及存储介质
CN116069947A (zh) 一种日志数据事件图谱构建方法、装置、设备及存储介质
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN103744830A (zh) 基于语义分析的excel文档中身份信息的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Huoshi Creation Technology Co.,Ltd.

Address before: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder