CN110399452A - 一种基于实例特征建模的命名实体列表生成方法 - Google Patents

一种基于实例特征建模的命名实体列表生成方法 Download PDF

Info

Publication number
CN110399452A
CN110399452A CN201910665716.6A CN201910665716A CN110399452A CN 110399452 A CN110399452 A CN 110399452A CN 201910665716 A CN201910665716 A CN 201910665716A CN 110399452 A CN110399452 A CN 110399452A
Authority
CN
China
Prior art keywords
feature
name
entities
entity
example aspects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910665716.6A
Other languages
English (en)
Inventor
肖清林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Singularity Space-Time Digital Technology Co Ltd
Original Assignee
Fujian Singularity Space-Time Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Singularity Space-Time Digital Technology Co Ltd filed Critical Fujian Singularity Space-Time Digital Technology Co Ltd
Priority to CN201910665716.6A priority Critical patent/CN110399452A/zh
Publication of CN110399452A publication Critical patent/CN110399452A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于实例特征建模的命名实体列表生成方法,所述方法包括以下步骤:S1、采集实例特征数据;S2、通过特征建模建立实例特征库;S3、建立命名实体语料库;S4、对实例数据进行分词并构建命名实体识别模型;S5、利用命名实体识别模型对实例进行识别;S6、根据实例特征库和命名实体语料库生成命名实体列表。本发明通过实例特征建模提高命名实体列表的准确性,实时更新的特征库和语料库不仅提高列表生成效率且列表信息的时效性得以保障。

Description

一种基于实例特征建模的命名实体列表生成方法
技术领域
本发明涉及命名实体列表技术领域,尤其涉及一种基于实例特征建模的命名实体列表生成方法。
背景技术
随着互联网和信息产业的高速发展,海量的文本数据不断产生,如何高效地从海量的文本数据中获得有用的信息成为现在的研究热点,信息抽取技术应运而生,而命名实体识别是信息抽取的一项子任务,其目的是从海量的文本数据中抽取出指定的实体。
一般地,命名实体类型多样,数量众多,不断有新的命名实体出现,传统的命名实体识别技术不能有效地识别出新词;同时,命名实体构成结构比较复杂,命名实体的长度没有一定的限制,不同的实体有不同的结构,实体之间可能存在大量的嵌套、别名、缩略词等问题,所以单一的基于统计模型的命名实体识别技术对边界的识别会变得不够准确,以上所述都会给命名实体识别造成困难。
为解决上述问题,本申请中提出一种基于实例特征建模的命名实体列表生成方法。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于实例特征建模的命名实体列表生成方法,通过实例特征建模提高命名实体列表的准确性,实时更新的特征库和语料库不仅提高列表生成效率且列表信息的时效性得以保障。
(二)技术方案
为解决上述问题,本发明提供了一种基于实例特征建模的命名实体列表生成方法,所述方法包括以下步骤:
S1、采集实例特征数据;
S2、通过特征建模建立实例特征库;
S3、建立命名实体语料库;
S4、对实例数据进行分词并构建命名实体识别模型;
S5、利用命名实体识别模型对实例进行识别;
S6、根据实例特征库和命名实体语料库生成命名实体列表。
优选的,所述步骤S1采集实例特征数据包括以下内容:
S11、对实例数据进行采集;
S12、制定实例评判标准,并根据评判标准对采集实例数据进行分析;
S13、通过分析判断对采集实例数据进行分类筛选;
S14、将筛选后的实例数据进行分类处理。
优选的,所述步骤S2通过特征建模建立实例特征库包括以下内容:
S21、对实例特征进行预定义并建立特征库;
S22、利用特征库识别基于特征的实例;
S23、支持自定义特征并对特征库进行管理操作;
S24、对已有特征进行删除或变更操作。
优选的,所述步骤S3建立命名实体语料库用于命名实体识别模型,语料库为已标注好的字构成的库。
优选的,所述的标注采用的为BMES标注集,其中B标签表示词首,M标签表示词中,E标签表示词尾,S标签表示单字。
优选的,所述步骤S4对实例数据进行分词并构建命名实体识别模型中分词方法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
优选的,所述基于字符串匹配的分词方法包括正向最大匹配法、逆向最大匹配法、最少切分和双向最大匹配法。
优选的,所述步骤S5利用命名实体识别模型对实例进行识别包括以下内容:
S51、抽取特征库中的实例特征;
S52、对实例特征进行识别确认所对应实体;
S53、通过实体语料库对实体命名。
优选的,所述步骤S6根据实例特征库和命名实体语料库生成命名实体列表包括以下内容:
S61、对实体进行实例特征对比以及实体命名识别;
S62、对不同类型命名实体进行分类统计;
S63、根据统计结果生成相应命名实体列表;
S64、将实体列表与特征库核对验证。
本发明的上述技术方案具有如下有益的技术效果:通过对实例数据的采集,以便根据实例使用特征建模建立相应的实例特征库,通过特征库包含的足够实例特征,以适应众多实体,而通过对特征的操作和管理,有利于提高命名实体列表信息的精准度,建立相关的命名实体语料库,方便对实体进行识别命名,通过对实例数据分词识别,使命名实体列表信息更精准,有利于命名实体列表的生成;根据实例特征库和命名实体语料库的双重判断识别,确保命名实体列表信息的准确性和完整性,实时更新的特征库和语料库更确保了命名列表的时效性。本发明通过实例特征建模提高命名实体列表的准确性,实时更新的特征库和语料库不仅提高列表生成效率且列表信息的时效性得以保障。
附图说明
图1为本发明提出的一种基于实例特征建模的命名实体列表生成方法的结构示意图。
图2为图1中步骤S1采集实例特征数据的结构示意图。
图3为图1中步骤S2通过特征建模建立实例特征库的结构示意图。
图4为图1中步骤S5利用命名实体识别模型对实例进行识别的结构示意图。
图5为图1中步骤S6根据实例特征库和命名实体语料库生成命名实体列表的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1-5所示,本发明提出的一种基于实例特征建模的命名实体列表生成方法,所述方法包括以下步骤:
S1、采集实例特征数据;
S2、通过特征建模建立实例特征库;
S3、建立命名实体语料库;
S4、对实例数据进行分词并构建命名实体识别模型;
S5、利用命名实体识别模型对实例进行识别;
S6、根据实例特征库和命名实体语料库生成命名实体列表。
本发明中,通过对实例数据的采集,以便根据实例使用特征建模建立相应的实例特征库,通过特征库包含的足够实例特征,以适应众多实体,而通过对特征的操作和管理,有利于提高命名实体列表信息的精准度,建立相关的命名实体语料库,方便对实体进行识别命名,通过对实例数据分词识别,使命名实体列表信息更精准,有利于命名实体列表的生成;根据实例特征库和命名实体语料库的双重判断识别,确保命名实体列表信息的准确性和完整性,实时更新的特征库和语料库更确保了命名列表的时效性。本发明通过实例特征建模提高命名实体列表的准确性,实时更新的特征库和语料库不仅提高列表生成效率且列表信息的时效性得以保障。
在一个可选的实施例中,所述步骤S1采集实例特征数据包括以下内容:
S11、对实例数据进行采集;
S12、制定实例评判标准,并根据评判标准对采集实例数据进行分析;
S13、通过分析判断对采集实例数据进行分类筛选;
S14、将筛选后的实例数据进行分类处理。
需要说明的是,通过对整体实力数据的采集,确保数据的完整性;根据设置的评判标准对实例数据进行评判分析,选取特征库需要的数据信息,将不需要的数据信息进行剔除,确保特征库数据的准确性,有利于提高命名实体列表信息的准确度,通过对实例数据进行分类筛选并且分类处理,可有效提高命名实体列表生成效率。
在一个可选的实施例中,所述步骤S2通过特征建模建立实例特征库包括以下内容:
S21、对实例特征进行预定义并建立特征库;
S22、利用特征库识别基于特征的实例;
S23、支持自定义特征并对特征库进行管理操作;
S24、对已有特征进行删除或变更操作。
需要说明的是,根据采集筛选分类后的实例数据,通过特征定义建立特征库,有利于提高特征识别效率,而根据自定义特征可以对扩大特征库容量,确保特征库特征数据完整性,对特征库现有特征进行删除和变更,确保特征库数据保持时效性和准确性。
在一个可选的实施例中,所述步骤S3建立命名实体语料库用于命名实体识别模型,语料库为已标注好的字构成的库。
需要说明的是,语料库的设置有利于提高命名实体识别效率,通过已标注好的字所构成的语料库更进一步提高识别效率。
在一个可选的实施例中,所述的标注采用的为BMES标注集,其中B标签表示词首,M标签表示词中,E标签表示词尾,S标签表示单字。
需要说明的是,通过使用BMES标注集的方式对实体命名进行标注,使标注更简洁明了,同时可以提高标注效率,使命名实体列表生成速度提高。
在一个可选的实施例中,所述步骤S4对实例数据进行分词并构建命名实体识别模型中分词方法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
需要说明的是,多种分词方法确保分词准确性,基于字符串匹配的分词方法是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功;
基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典。
在一个可选的实施例中,所述基于字符串匹配的分词方法包括正向最大匹配法、逆向最大匹配法、最少切分和双向最大匹配法。
需要说明的是,基于理解的分词方法按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配;以减少匹配的错误率,从而极大地提高切分的准确率。
在一个可选的实施例中,所述步骤S5利用命名实体识别模型对实例进行识别包括以下内容:
S51、抽取特征库中的实例特征;
S52、对实例特征进行识别确认所对应实体;
S53、通过实体语料库对实体命名。
需要说明的是,通过抽取特征库内的实例信息,并经由实体命名识别进行信息识别,确认实例信息所属语料库分类,从而对实体进行命名。
在一个可选的实施例中,所述步骤S6根据实例特征库和命名实体语料库生成命名实体列表包括以下内容:
S61、对实体进行实例特征对比以及实体命名识别;
S62、对不同类型命名实体进行分类统计;
S63、根据统计结果生成相应命名实体列表;
S64、将实体列表与特征库核对验证。
需要说明的是,通过对特征对比和实体命名识别,确认命名实体,并根据特征库信息分类对命名实体进行分类统计,有利于提高命名实体准确性和条理性,根据分类信息生产相应命名实体列表,并根据列表数据与特征库进行对比,验证核对列表信息是否存在失误,提高列表信息精度。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (9)

1.一种基于实例特征建模的命名实体列表生成方法,其特征在于,所述方法包括以下步骤:
S1、采集实例特征数据;
S2、通过特征建模建立实例特征库;
S3、建立命名实体语料库;
S4、对实例数据进行分词并构建命名实体识别模型;
S5、利用命名实体识别模型对实例进行识别;
S6、根据实例特征库和命名实体语料库生成命名实体列表。
2.根据权利要求1所述的一种基于实例特征建模的命名实体列表生成方法,其特征在于,所述步骤S1采集实例特征数据包括以下内容:
S11、对实例数据进行采集;
S12、制定实例评判标准,并根据评判标准对采集实例数据进行分析;
S13、通过分析判断对采集实例数据进行分类筛选;
S14、将筛选后的实例数据进行分类处理。
3.根据权利要求1所述的一种基于实例特征建模的命名实体列表生成方法,其特征在于,所述步骤S2通过特征建模建立实例特征库包括以下内容:
S21、对实例特征进行预定义并建立特征库;
S22、利用特征库识别基于特征的实例;
S23、支持自定义特征并对特征库进行管理操作;
S24、对已有特征进行删除或变更操作。
4.根据权利要求1所述的一种基于实例特征建模的命名实体列表生成方法,其特征在于,所述步骤S3建立命名实体语料库用于命名实体识别模型,语料库为已标注好的字构成的库。
5.根据权利要求4所述的一种基于实例特征建模的命名实体列表生成方法,其特征在于,所述的标注采用的为BMES标注集,其中B标签表示词首,M标签表示词中,E标签表示词尾,S标签表示单字。
6.根据权利要求1所述的一种基于实例特征建模的命名实体列表生成方法,其特征在于,所述步骤S4对实例数据进行分词并构建命名实体识别模型中分词方法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
7.根据权利要求6所述的一种基于实例特征建模的命名实体列表生成方法,其特征在于,所述基于字符串匹配的分词方法包括正向最大匹配法、逆向最大匹配法、最少切分和双向最大匹配法。
8.根据权利要求1所述的一种基于实例特征建模的命名实体列表生成方法,其特征在于,所述步骤S5利用命名实体识别模型对实例进行识别包括以下内容:
S51、抽取特征库中的实例特征;
S52、对实例特征进行识别确认所对应实体;
S53、通过实体语料库对实体命名。
9.根据权利要求1所述的一种基于实例特征建模的命名实体列表生成方法,其特征在于,所述步骤S6根据实例特征库和命名实体语料库生成命名实体列表包括以下内容:
S61、对实体进行实例特征对比以及实体命名识别;
S62、对不同类型命名实体进行分类统计;
S63、根据统计结果生成相应命名实体列表;
S64、将实体列表与特征库核对验证。
CN201910665716.6A 2019-07-23 2019-07-23 一种基于实例特征建模的命名实体列表生成方法 Pending CN110399452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910665716.6A CN110399452A (zh) 2019-07-23 2019-07-23 一种基于实例特征建模的命名实体列表生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910665716.6A CN110399452A (zh) 2019-07-23 2019-07-23 一种基于实例特征建模的命名实体列表生成方法

Publications (1)

Publication Number Publication Date
CN110399452A true CN110399452A (zh) 2019-11-01

Family

ID=68325774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910665716.6A Pending CN110399452A (zh) 2019-07-23 2019-07-23 一种基于实例特征建模的命名实体列表生成方法

Country Status (1)

Country Link
CN (1) CN110399452A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1877523A (zh) * 2006-06-23 2006-12-13 清华大学 一种支持异构构件的构件库统一管理方法
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
CN102063424A (zh) * 2010-12-24 2011-05-18 上海电机学院 一种中文分词方法
CN102103594A (zh) * 2009-12-22 2011-06-22 北京大学 字符数据识别及处理的方法和装置
WO2011134141A1 (en) * 2010-04-27 2011-11-03 Hewlett-Packard Development Company,L.P. Method of extracting named entity
US8140567B2 (en) * 2010-04-13 2012-03-20 Microsoft Corporation Measuring entity extraction complexity
CN106502994A (zh) * 2016-11-29 2017-03-15 上海智臻智能网络科技股份有限公司 一种文本的关键词提取的方法和装置
CN106682387A (zh) * 2016-10-26 2017-05-17 百度国际科技(深圳)有限公司 用于输出信息的方法和装置
CN106844351A (zh) * 2017-02-24 2017-06-13 黑龙江特士信息技术有限公司 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN107203813A (zh) * 2017-05-22 2017-09-26 成都准星云学科技有限公司 一种新型缺省实体命名方法及其系统
CN108520065A (zh) * 2018-04-12 2018-09-11 苏州大学 命名实体识别语料库的构建方法、系统、设备及存储介质
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1877523A (zh) * 2006-06-23 2006-12-13 清华大学 一种支持异构构件的构件库统一管理方法
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
CN102103594A (zh) * 2009-12-22 2011-06-22 北京大学 字符数据识别及处理的方法和装置
US8140567B2 (en) * 2010-04-13 2012-03-20 Microsoft Corporation Measuring entity extraction complexity
WO2011134141A1 (en) * 2010-04-27 2011-11-03 Hewlett-Packard Development Company,L.P. Method of extracting named entity
CN102063424A (zh) * 2010-12-24 2011-05-18 上海电机学院 一种中文分词方法
CN106682387A (zh) * 2016-10-26 2017-05-17 百度国际科技(深圳)有限公司 用于输出信息的方法和装置
CN106502994A (zh) * 2016-11-29 2017-03-15 上海智臻智能网络科技股份有限公司 一种文本的关键词提取的方法和装置
CN106844351A (zh) * 2017-02-24 2017-06-13 黑龙江特士信息技术有限公司 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN107203813A (zh) * 2017-05-22 2017-09-26 成都准星云学科技有限公司 一种新型缺省实体命名方法及其系统
CN108520065A (zh) * 2018-04-12 2018-09-11 苏州大学 命名实体识别语料库的构建方法、系统、设备及存储介质
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法

Similar Documents

Publication Publication Date Title
CN111428054B (zh) 一种网络空间安全领域知识图谱的构建与存储方法
CN110298032B (zh) 文本分类语料标注训练系统
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN109145260B (zh) 一种文本信息自动提取方法
CN112307153B (zh) 一种产业知识库自动构建方法、装置及存储介质
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN102063424A (zh) 一种中文分词方法
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN111597328B (zh) 一种新事件主题提取方法
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN110910175B (zh) 一种旅游门票产品画像生成方法
CN111026884A (zh) 一种提升人机交互对话语料质量与多样性的对话语料库生成方法
CN108959395A (zh) 一种面向多源异构大数据的层次约减联合清洗方法
CN114139533A (zh) 一种面向中文小说领域的文本内容审核方法
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN109255117A (zh) 中文分词方法及装置
CN113468317A (zh) 一种简历筛选方法、系统、设备和存储介质
CN114997288A (zh) 一种设计资源关联方法
CN102360436A (zh) 一种基于部件的联机手写藏文字符的识别方法
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN115562679A (zh) 一种基于Java语言的自动生成代码的方法及服务器
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191101