CN112784605A - 一种基于句子的实体名识别的方法 - Google Patents
一种基于句子的实体名识别的方法 Download PDFInfo
- Publication number
- CN112784605A CN112784605A CN202110176527.XA CN202110176527A CN112784605A CN 112784605 A CN112784605 A CN 112784605A CN 202110176527 A CN202110176527 A CN 202110176527A CN 112784605 A CN112784605 A CN 112784605A
- Authority
- CN
- China
- Prior art keywords
- sentence
- abstract
- entity name
- entity
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
一种基于句子的实体名识别的方法,包括学习阶段:输入句子,判断句子中是否有实体名,后将句子中的实体名逐个替换成其所对应的抽象事物,将没有抽象事物的部分作为关键字,再对每个关键字单独存储抽象句子信息;还包括识别阶段:对新句子进行分词,通过关键字查找出其对应的抽象句子,判断是否有合适的抽象句子,最后根据匹配到的最合适的抽象句子,猜测实体名。本发明依靠少量的基础数据,从句子的角度,识别出相同实体名下的各种词、字、短语的实体名,不需提前训练数据,节省大量精力、时间,即使未做过标记的没有词性的句子也不影响本发明方法性能,既方便,效果又显著。
Description
技术领域
本发明涉及计算机信息处理技术领域,特别涉及一种基于句子的实体名识别的方法。
背景技术
在计算机对语言的处理过程中,未录入词库的实体名的识别一直是汉语自然语言处理的一大难题,偏偏汉语的实体名很多,根本无法一一录入词库,因此在自然语言处理中,准确及时地识别新的实体名称是非常重要的。常见的实体名称,例如北京大学、北京理工大学等,可录入词库,但很多不是很常见的实体名称,例如北京自动化研究所、北京外国语大学等机构名或公司名,这些实体名称太多,无法一一统计和记录,便需要在语言处理时识别出来,包括一些不常见的人名和地名,都属于实体名识别的范围,所以对汉语自然语言处理的实体名识别是非常重要和迫切的。
现有的对汉语语言处理的实体名识别大多是从词的角度上、基于大数据的机器学习方法,即现有技术通过分词以后,再进行二次实体名判断处理,便需要首先录入大量的词在实体名中的位置和作用,例如:北京自动化研究所,分词之后是——北京、自动化、研究所,再分别判断北京、自动化、研究所是否存在实体名的可能,如果存在,则判断组成的实体名是否合理,整个过程都有对应的机器学习算法计算,通过统计学方法计算出组成实体名的概率,概率足够高,便可认为是实体名。这种实体名的识别方法虽然可以识别出很多实体名,但是都需要大量的统计数据,即必须要事先收集足够的数据,根据需要标记数据,之后才能训练数据,训练好的数据才能用于识别实体名,并且依靠分词的效果才得以实现,对于没有录入的属于实体名的新词,便没有办法识别出来,范围较小,运行起来不够方便。
发明内容
本发明要解决的技术问题是:提供一种不需要大量数据且不需要提前训练的、从句子的角度来对实体名进行识别的方法,以克服已有技术所存在的上述不足。
本发明采取的技术方案是:一种基于句子的实体名识别的方法,包括以下步骤:
(一)学习阶段:
A.学习开始,输入句子,判断句子中是否有实体名,若是,进入步骤B,若否,进入步骤D;
B.将句子中识别出的实体名逐个替换成其所对应的抽象事物,将没有抽象事物的部分作为关键字,所述抽象是对物体的一种概括,包括实体名,不属于实体名的也可以赋予一种抽象;
C.对每个关键字单独存储抽象句子信息,进入步骤F;
D.学习结束;
(二)识别阶段:
E.识别开始,输入新句子,对新句子进行分词,通过关键字查找出其对应的抽象句子;
F.判断是否有合适的抽象句子,若是,进入步骤G,若否,进入步骤I;
G.根据匹配到的最合适的抽象句子,猜测实体名;
H.持续猜测,判断猜测次数是否足够,若是,则猜测的结果为实体名的识别结果,进入步骤I,若否,进入步骤C;
I.识别结束。
由于采用上述技术方案,本发明之一种基于句子的实体名识别的方法具有如下有益效果:
1. 本发明通过对新句子中关键字的抽象句子进行匹配,查找出新的实体名最合适的抽象句子,进而分词截取出实体名的识别结果,从而识别出从未见过的实体名词,不同于现有技术从词的角度上识别实体名,本发明从句子的角度来识别实体名,基于一定的知识储备下,可以识别出相同实体名下的各种词、字、短语的实体名,不拘于识别的词是否录入;
2. 本发明依靠少量的基础数据,便可识别出大量同类型的实体名词,且在用户输入句子的同时进行训练和识别,不需提前训练数据,节省大量精力、时间,即使未做过标记的没有词性的句子也不影响本发明方法性能,既方便,效果又显著。
下面结合附图和实施例对本发明之一种基于句子的实体名识别的方法的技术特征作进一步的说明。
附图说明
图1:本发明实施例之实体名识别流程图。
具体实施方式
实施例
一种基于句子的实体名识别的方法,如图1所示,包括以下步骤:
(一)学习阶段:
A.在具备一定的句子和物体知识情况下,学习开始,输入句子,判断句子中是否有实体名,若是,进入步骤B,若否,进入步骤D;
B.对于每个句子,将句子中识别出的实体名逐个替换成其所对应的抽象事物,将没有抽象事物的部分作为关键字;
C.对每个关键字单独存储抽象句子信息,进入步骤F;
D.学习结束;
例如:句子“小明在北京上班”,其中小明是人名,北京是地名,我们将句子中识别出的实体名“小明”、“北京”替换成其所对应的抽象事物,即得到:人名在地名上班,将没有抽象事物的部分“在”、“上班”作为关键字进行单独存储抽象句子信息;
(二)识别阶段:
E.识别开始,输入新句子,对新句子进行分词,通过关键字(新句子中没有抽象事物的部分)查找出其对应的抽象句子;
F.判断是否有合适的抽象句子,若是,进入步骤G,若否,进入步骤I;
G.根据匹配到的最合适的抽象句子,猜测实体名;
H.持续猜测,判断猜测次数是否足够,若是,则猜测的结果为实体名的识别结果,进入步骤I,若否,则猜测次数不够,进入步骤C,暂时存储计数;
I.识别结束;
例如:新句子“小红在柳州上班”,若已知“小红”是一个人名,但不知“柳州”是什么时,通过关键字“在”、“上班”匹配其合适的抽象句子,可以找到“人名在地名上班”,并且通过字符串匹配,可轻易截取出“柳州”这一字符串(即使不知道“柳州”是一个词,也可通过算法截取出来),“小红”是人名能匹配上,同理推出,“柳州”应该是一个“地名”,但是不能直接就认为正确,也可能有误判,所以还需要更多的抽象句子协同判断,因为有可能会是“人名在公司名上班”,因此需要进行多次持续猜测,通过多个不同的抽象句子,归纳出合理的抽象结果,最后识别出新的实体名词地名“柳州”。
本发明用到的词义:
抽象:对物体的一种概括,包括实体名,不属于实体名的也可以赋予一种抽象,如:苹果的抽象是水果,小明的抽象是人名,概况的粗细可由用户决定。
本发明在事先有正确的抽象知识,还有足够的句子作为判断依据的基础上,识别出新的事物,有助于计算机对句子的理解,运用起来方便快捷,效果大大优于传统的机器学习算法。
以上实施例仅为本发明的较佳实施例,本发明的方法并不限于上述实施例列举的形式,凡在本发明的精神和原则之内所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于句子的实体名识别的方法,其特征在于:包括以下步骤:
(一)学习阶段:
A.学习开始,输入句子,判断句子中是否有实体名,若是,进入步骤B,若否,进入步骤D;
B.将句子中识别出的实体名逐个替换成其所对应的抽象事物,将没有抽象事物的部分作为关键字,所述抽象是对物体的一种概括,包括实体名,不属于实体名的也可以赋予一种抽象;
C.对每个关键字单独存储抽象句子信息,进入步骤F;
D.学习结束;
(二)识别阶段:
E.识别开始,输入新句子,对新句子进行分词,通过关键字查找出其对应的抽象句子;
F.判断是否有合适的抽象句子,若是,进入步骤G,若否,进入步骤I;
G.根据匹配到的最合适的抽象句子,猜测实体名;
H.持续猜测,判断猜测次数是否足够,若是,则猜测的结果为实体名的识别结果,进入步骤I,若否,进入步骤C;
I.识别结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110176527.XA CN112784605A (zh) | 2021-02-09 | 2021-02-09 | 一种基于句子的实体名识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110176527.XA CN112784605A (zh) | 2021-02-09 | 2021-02-09 | 一种基于句子的实体名识别的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112784605A true CN112784605A (zh) | 2021-05-11 |
Family
ID=75761306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110176527.XA Pending CN112784605A (zh) | 2021-02-09 | 2021-02-09 | 一种基于句子的实体名识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112784605A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
KR101724398B1 (ko) * | 2016-01-07 | 2017-04-18 | 서강대학교산학협력단 | 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템 및 방법 |
CN110263120A (zh) * | 2019-04-26 | 2019-09-20 | 北京零秒科技有限公司 | 语料标注方法及装置 |
CN111126039A (zh) * | 2019-12-25 | 2020-05-08 | 贵州大学 | 一种面向关系抽取的句子结构信息获取方法 |
JP2020098594A (ja) * | 2018-12-18 | 2020-06-25 | 富士通株式会社 | 情報処理方法、自然言語処理方法及び情報処理装置 |
-
2021
- 2021-02-09 CN CN202110176527.XA patent/CN112784605A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
KR101724398B1 (ko) * | 2016-01-07 | 2017-04-18 | 서강대학교산학협력단 | 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템 및 방법 |
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
JP2020098594A (ja) * | 2018-12-18 | 2020-06-25 | 富士通株式会社 | 情報処理方法、自然言語処理方法及び情報処理装置 |
CN110263120A (zh) * | 2019-04-26 | 2019-09-20 | 北京零秒科技有限公司 | 语料标注方法及装置 |
CN111126039A (zh) * | 2019-12-25 | 2020-05-08 | 贵州大学 | 一种面向关系抽取的句子结构信息获取方法 |
Non-Patent Citations (3)
Title |
---|
何炎祥;罗楚威;胡彬尧;: "基于CRF和规则相结合的地理命名实体识别方法", 计算机应用与软件, no. 01, pages 185 - 191 * |
刘玉娇;琚生根;李若晨;金玉;: "基于深度学习的中文微博命名实体识别", 四川大学学报(工程科学版), no. 2, pages 145 - 149 * |
高红;黄德根;杨元生;: "汉语自动分词中中文地名识别", 大连理工大学学报, no. 04, pages 113 - 118 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107045496B (zh) | 语音识别后文本的纠错方法及纠错装置 | |
CN109829159B (zh) | 一种古汉语文本的一体化自动词法分析方法及系统 | |
CN107729468B (zh) | 基于深度学习的答案抽取方法及系统 | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN109002473B (zh) | 一种基于词向量与词性的情感分析方法 | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN110377695B (zh) | 一种舆情主题数据聚类方法、装置及存储介质 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN112948543A (zh) | 基于加权TextRank的多语言多文档摘要抽取方法 | |
CN111930933A (zh) | 一种基于人工智能的检务案件处理方法及装置 | |
CN111079384B (zh) | 一种用于智能质检服务禁语的识别方法及系统 | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
CN110413972B (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
CN116127015A (zh) | 基于人工智能自适应的nlp大模型分析系统 | |
CN109344233B (zh) | 一种中文人名识别方法 | |
CN112380848A (zh) | 文本生成方法、装置、设备及存储介质 | |
CN110705295A (zh) | 基于关键词提取的实体名消岐方法 | |
CN115983266A (zh) | 用于银行征信数据审核的拼音变体文本识别方法及系统 | |
CN112784605A (zh) | 一种基于句子的实体名识别的方法 | |
CN114580407A (zh) | 一种基于最大熵的园区产业招商智能咨询方法及系统 | |
Maheswari et al. | Rule based morphological variation removable stemming algorithm | |
CN112000782A (zh) | 一种基于k-means聚类算法的智能客服问答系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210511 |