CN110210023A - 一种实用有效的命名实体识别的计算方法 - Google Patents

一种实用有效的命名实体识别的计算方法 Download PDF

Info

Publication number
CN110210023A
CN110210023A CN201910436635.9A CN201910436635A CN110210023A CN 110210023 A CN110210023 A CN 110210023A CN 201910436635 A CN201910436635 A CN 201910436635A CN 110210023 A CN110210023 A CN 110210023A
Authority
CN
China
Prior art keywords
result
entity recognition
name entity
practical
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910436635.9A
Other languages
English (en)
Inventor
简仁贤
刘小杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intelligent Technology (shanghai) Co Ltd
Original Assignee
Intelligent Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intelligent Technology (shanghai) Co Ltd filed Critical Intelligent Technology (shanghai) Co Ltd
Priority to CN201910436635.9A priority Critical patent/CN110210023A/zh
Publication of CN110210023A publication Critical patent/CN110210023A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种实用有效的命名实体识别的计算方法,其具体步骤如下:第一步,向命名实体识别系统内输入一段文字,句子的数目计为m;第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;第三步,使用基于词表的方法进行识别得到结果标记为K1;第四步,使用基于规则的方法进行识别得到结果标记为K2;第五步,使用基于模型的方法进行识别得到结果标记为K3;第六步,进行第三步、第四步、第五步的识别,从而获得a个结果K1、b个结果K2、c个结果K3;第七步,将上述获得的a个结果K1、b个结果K2、c个结果K3进行融合,得到最后的识别结果K。本发明灵活使用三个方法,并通过逻辑来解决他们的冲突,从而达到较高的命名实体识别的准确率。

Description

一种实用有效的命名实体识别的计算方法
技术领域
本发明涉及自然语言理解技术领域,具体为一种实用有效的命名实体识别的计算方法。
背景技术
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
其过程通常包括两部分:(1)实体边界识别;(2)确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。
然而对于汉语,(1)汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界,即分词;(2)汉语分词和命名实体识别互相影响;(3)除了英语中定义的实体,外国人名译名和地名译名是存在于汉语中的两类特殊实体类型;(4)现代汉语文本,尤其是网络汉语文本,常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体;(5)不同的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的实体内部特征。
目前的很多论文都是关于使用模型进行识别的方法,比如条件随机场模型(CRF),深度学习模型等,我们统称为基于模型的识别方法,但是只是这些模型的应用还不能解决所有的命名实体识别的问题,它的准确率都无法达到实际应用场景的要求。基于模型的方法是现在比较流行的命名实体识别方法,但是它受限于训练数据的覆盖率,受限于训练数据的准确性,是无法提供较高的识别准确率的。
发明内容
本发明的目的在于提供一种实用有效的命名实体识别的计算方法,以解决上述背景技术中提出的问题。
命名实体识别是自然语言理解中比较重要的问题之一,在实际的应用中也是被用到较多的功能。
命名实体识别的方法包括:基于规则的方法,基于词表的方法,基于模型的方法;单单使用基于模型的方法无法达到实际应用场景的要求,为了更好的识别命名实体,我们需要使用所有的三种方法,在实际的应用中就可以提供较高的命名实体识别的准确率。
为实现上述目的,本发明提供如下技术方案:一种实用有效的命名实体识别的计算方法,其具体步骤如下:
第一步,向命名实体识别系统内输入一段文字,该文字包含多段句子,命名实体识别系统首先根据文字段落的符号,将文字切分成多个连续的单一句子,句子的数目计为m;
第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;
第三步,使用基于词表的方法进行识别得到结果标记为K1;
第四步,使用基于规则的方法进行识别得到结果标记为K2;
第五步,使用基于模型的方法进行识别得到结果标记为K3;
第六步,一个句子识别完成后,循环对下一个句子进行第三步、第四步、第五步的识别,从而获得a个结果K1、b个结果K2、c个结果K3;
第七步,将上述获得的a个结果K1、b个结果K2、c个结果K3进行融合,得到最后的识别结果K。
优选的,所述的结果K的结算公式为:
K=a/m·K1·A%+b/m·K2·B%+c/m·K3·C%;
优选的,所述的A%、B%、C%为计算系数,针对不同的文体,计算系数不同;再将获得结果K与标准阀值K0进行比较,判断K与K0之间的大小,
优选的,所述的K大于等于K0时,则判断该段文字重复度高。
优选的,所述的K小于K0时,,则判断该段文字重复度低。
与现有技术相比,本发明的有益效果是:本发明提供了一种实用有效的命名实体识别的计算方法,在这个算法中会灵活使用基于规则的方法,基于词表的方法和基于模型的方法,并有一个逻辑来解决他们的冲突,从而达到较高的命名实体识别的准确率。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种实用有效的命名实体识别的计算方法,其具体步骤如下:
第一步,向命名实体识别系统内输入一段文字,该文字包含多段句子,命名实体识别系统首先根据文字段落的符号,将文字切分成多个连续的单一句子,句子的数目计为m;
第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;
第三步,使用基于词表的方法进行识别得到结果标记为K1;
第四步,使用基于规则的方法进行识别得到结果标记为K2;
第五步,使用基于模型的方法进行识别得到结果标记为K3;
第六步,一个句子识别完成后,循环对下一个句子进行第三步、第四步、第五步的识别,从而获得a个结果K1、b个结果K2、c个结果K3;
第七步,将上述获得的a个结果K1、b个结果K2、c个结果K3进行融合,得到最后的识别结果K。
优选的,所述的结果K的结算公式为:
K=a/m·K1·A%+b/m·K2·B%+c/m·K3·C%;
优选的,所述的A%、B%、C%为计算系数,针对不同的文体,计算系数不同;再将获得结果K与标准阀值K0进行比较,判断K与K0之间的大小,
优选的,所述的K大于等于K0时,则判断该段文字重复度高。
优选的,所述的K小于K0时,,则判断该段文字重复度低。
实施例1
第一步,向命名实体识别系统内输入一段文字,该文字包含多段句子,命名实体识别系统首先根据文字段落的符号,将文字切分成多个连续的单一句子,句子的数目计为m;
第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;
第三步,使用基于词表的方法进行识别得到结果标记为K1;
第四步,使用基于规则的方法进行识别得到结果标记为K2;
第五步,使用基于模型的方法进行识别得到结果标记为K3;
第六步,一个句子识别完成后,循环对下一个句子进行第三步、第四步、第五步的识别,从而获得a个结果K1、b个结果K2、c个结果K3;
第七步,将上述获得的a个结果K1、b个结果K2、c个结果K3进行融合,得到最后的识别结果K。
优选的,所述的结果K的结算公式为:
K=a/m·K1·A%+b/m·K2·B%+c/m·K3·C%;
K≥K0时,则判断该段文字重复度高。
K<K0时,则判断该段文字重复度低。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种实用有效的命名实体识别的计算方法,其特征在于,其具体步骤如下:
第一步,向命名实体识别系统内输入一段文字,该文字包含多段句子,命名实体识别系统首先根据文字段落的符号,将文字切分成多个连续的单一句子,句子的数目计为m;
第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;
第三步,使用基于词表的方法进行识别得到结果标记为K1;
第四步,使用基于规则的方法进行识别得到结果标记为K2;
第五步,使用基于模型的方法进行识别得到结果标记为K3;
第六步,一个句子识别完成后,循环对下一个句子进行第三步、第四步、第五步的识别,从而获得a个结果K1、b个结果K2、c个结果K3;
第七步,将上述获得的a个结果K1、b个结果K2、c个结果K3进行融合,得到最后的识别结果K。
2.根据权利要求1所述的一种实用有效的命名实体识别的计算方法,其特征在于,所述的结果K的结算公式为:
K=a/m·K1·A%+b/m·K2·B%+c/m·K3·C%。
3.根据权利要求1所述的一种实用有效的命名实体识别的计算方法,其特征在于,所述的A%、B%、C%为计算系数,针对不同的文体,计算系数不同;再将获得结果K与标准阀值K0进行比较,判断K与K0之间的大小。
4.根据权利要求1所述的一种实用有效的命名实体识别的计算方法,其特征在于,所述的K大于等于K0时,则判断该段文字重复度高。
5.根据权利要求1所述的一种实用有效的命名实体识别的计算方法,其特征在于,所述的K小于K0时,,则判断该段文字重复度低。
CN201910436635.9A 2019-05-23 2019-05-23 一种实用有效的命名实体识别的计算方法 Pending CN110210023A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910436635.9A CN110210023A (zh) 2019-05-23 2019-05-23 一种实用有效的命名实体识别的计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910436635.9A CN110210023A (zh) 2019-05-23 2019-05-23 一种实用有效的命名实体识别的计算方法

Publications (1)

Publication Number Publication Date
CN110210023A true CN110210023A (zh) 2019-09-06

Family

ID=67788469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910436635.9A Pending CN110210023A (zh) 2019-05-23 2019-05-23 一种实用有效的命名实体识别的计算方法

Country Status (1)

Country Link
CN (1) CN110210023A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法
CN105138515A (zh) * 2015-09-02 2015-12-09 百度在线网络技术(北京)有限公司 命名实体识别方法和装置
CN106547733A (zh) * 2016-10-19 2017-03-29 中国国防科技信息中心 一种面向特定文本的命名实体识别方法
CN106598950A (zh) * 2016-12-23 2017-04-26 东北大学 一种基于混合层叠模型的命名实体识别方法
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法
CN109710925A (zh) * 2018-12-12 2019-05-03 新华三大数据技术有限公司 命名实体识别方法及装置
CN109791570A (zh) * 2018-12-13 2019-05-21 香港应用科技研究院有限公司 高效且精确的命名实体识别方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法
CN105138515A (zh) * 2015-09-02 2015-12-09 百度在线网络技术(北京)有限公司 命名实体识别方法和装置
CN106547733A (zh) * 2016-10-19 2017-03-29 中国国防科技信息中心 一种面向特定文本的命名实体识别方法
CN106598950A (zh) * 2016-12-23 2017-04-26 东北大学 一种基于混合层叠模型的命名实体识别方法
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法
CN109710925A (zh) * 2018-12-12 2019-05-03 新华三大数据技术有限公司 命名实体识别方法及装置
CN109791570A (zh) * 2018-12-13 2019-05-21 香港应用科技研究院有限公司 高效且精确的命名实体识别方法和装置

Similar Documents

Publication Publication Date Title
CN107066455B (zh) 一种多语言智能预处理实时统计机器翻译系统
CN106096664B (zh) 一种基于社交网络数据的情感分析方法
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN107391486A (zh) 一种基于统计信息和序列标注的领域新词识别方法
CN108021552A (zh) 一种电力系统操作票内容提取方法及系统
CN110175246A (zh) 一种从视频字幕中提取概念词的方法
CN103729474A (zh) 用于识别论坛用户马甲账号的方法和系统
CN106611041A (zh) 一种新的文本相似度求解方法
CN111368540B (zh) 一种基于语义角色分析的关键词信息抽取方法
CN113590810B (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN107894975A (zh) 一种基于Bi‑LSTM的分词方法
CN108363691A (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN110751234A (zh) Ocr识别纠错方法、装置及设备
Ek et al. Identifying speakers and addressees in dialogues extracted from literary fiction
CN110782892A (zh) 语音文本纠错方法
CN105183716B (zh) 一种基于抽象语义的智能交互方法
CN107943783A (zh) 一种基于lstm‑cnn的分词方法
CN107894976A (zh) 一种基于Bi‑LSTM的混合语料分词方法
CN107844475A (zh) 一种基于lstm的分词方法
CN107797986A (zh) 一种基于lstm‑cnn的混合语料分词方法
CN105389303A (zh) 一种异源语料自动融合方法
CN113378513B (zh) 一种面向领域关系抽取的标注语料生成方法
CN110232121A (zh) 一种基于语义网的管制指令分类方法
CN114298021A (zh) 基于情感值选择评论的谣言检测方法
Hsieh et al. Improving PCFG Chinese parsing with context-dependent probability re-estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190906

RJ01 Rejection of invention patent application after publication