CN113158677B - 一种命名实体识别方法和系统 - Google Patents
一种命名实体识别方法和系统 Download PDFInfo
- Publication number
- CN113158677B CN113158677B CN202110524581.9A CN202110524581A CN113158677B CN 113158677 B CN113158677 B CN 113158677B CN 202110524581 A CN202110524581 A CN 202110524581A CN 113158677 B CN113158677 B CN 113158677B
- Authority
- CN
- China
- Prior art keywords
- entity
- extraction unit
- text
- information list
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种命名实体识别方法及系统,通过多个实体抽取单元对命名实体进行识别,识别出的实体具有多层语义标签,为使用者提供了更多的信息,能提升业务应用的效果,此外,本发明将实体抽取单元进一步细分为各个实体抽取器,从而规定了实体抽取单元的组织方式、结构和执行过程,通过问题分解降低了实体识别的难度,提升了识别的效果,并且,这种结构化的方式提高了本发明系统的复用性和灵活性。
Description
技术领域
本发明涉及自然语言处理技术领域,具体地,涉及一种命名实体识别方法和系统。
背景技术
命名实体识别是自然语言处理的基础任务之一。所谓的命名实体就是人名、机构名、地名以及其它所有以名称为标识的实体。有些命名实体比较通用,例如人名、机构、事件、地址和数字等;有些命名实体和具体的行业和领域密切相关,例如生物学领域的基因名称。命名实体识别的过程就是从文本中把这些实体识别出来,并标记上名称。
命名实体的标签是存在语义层次的。比如地名可以再细分为运动场馆、餐饮场所、交通站点等,餐饮场所又可以细分汽车站、火车站等。现有的命名实体识别方法往往忽视了实体标签的层次,在具体实现上也缺乏灵活性和复用性。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种命名实体识别方法和系统。
根据本发明的第一个方面,提供一种命名实体识别方法,包括如下步骤:
接收初始文本;
按照抽取规则,抽取所述初始文本中的实体;
所述抽取规则为设置N个确定不同层次语义标签的实体抽取单元,其中,N为整数,且N≥2,N个实体抽取单元按如下规则执行:
第一个实体抽取单元的执行规则为:针对初始文本抽取实体,获得包含实体词、第一层语义标签的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
第二个实体抽取单元至第N-1个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第K-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第K层语义标签的第K信息列表,将新的文本和第K信息列表传递给第K+1个实体抽取单元,其中,K为整数,且2≤K≤N-1;
第N个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第N-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第N层语义标签的第N信息列表;
将第一信息列表至第N信息列表进行合并得到最终结果,并输出该最终结果。
结合第一方面实施例,在一种可能的实施方式中,每一个实体抽取单元均包括一个或多个实体抽取器,每个实体抽取器均包括一类实体抽取算法。
结合第一方面实施例,在一种可能的实施方式中,所述实体抽取算法为基于规则的算法、基于词典的算法、基于模型的算法、基于脚本的算法中的任意一种。
结合第一方面实施例,在一种可能的实施方式中,所述实体抽取器抽取实体后,输出包含实体词、语义标签的实体列表,并将实体列表储存在临时变量中。
结合第一方面实施例,在一种可能的实施方式中,各个实体抽取单元在其所包含的一个或多个实体抽取器完成实体抽取后,将实体抽取器输出的实体列表进行汇总,得到该实体抽取单元的信息列表。
结合第一方面实施例,在一种可能的实施方式中,将实体抽取器输出的实体列表进行汇总时,若一个实体词具有若干个不同的语义标签,则保留概率最高的语义标签。
结合第一方面实施例,在一种可能的实施方式中,所述实体抽取器抽取实体后,输出包含实体词、语义标签、实体词位置信息的实体列表。
结合第一方面实施例,在一种可能的实施方式中,各个实体抽取单元在其所包含的一个或多个实体抽取器完成实体抽取后,基于实体词位置信息将各个实体抽取器输出的实体列表进行汇总,得到该实体抽取单元的信息列表。
结合第一方面实施例,在一种可能的实施方式中,在将第一信息列表至第N信息列表进行合并前,将第二信息列表至第N信息列表的实体词位置信息还原为该实体词在初始文本中的位置信息,再基于实体词的位置信息合并第一信息列表至第N信息列表,得到最终结果。
根据本发明的另一个方面,提供一种命名实体识别系统,其特征在于,包括接收模块、处理模块以及输出模块;
所述接收模块用于接收初始文本,并将初始文本传输至处理模块;
所述处理模块用于抽取实体,处理模块包括N个确定不同层次语义标签的实体抽取单元,其中,N为整数,且N≥2,N个实体抽取单元按如下规则执行:
第一个实体抽取单元的执行规则为:针对初始文本抽取实体,获得包含实体词、第一层语义标签的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
第二个实体抽取单元至第N-1个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第K-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第K层语义标签的第K信息列表,将新的文本和第K信息列表传递给第K+1个实体抽取单元,其中,K为整数,且2≤K≤N-1;
第N个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第N-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第N层语义标签的第N信息列表;
所述输出模块用于将第一信息列表至第N信息列表进行合并得到最终结果,并输出该最终结果。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提供的命名实体识别方法和系统,通过多个实体抽取单元对命名实体进行识别,识别出的实体具有多层语义标签,为使用者提供了更多的信息,能提升业务应用的效果。
2、本发明提供的命名实体识别方法和系统,将实体抽取单元进一步细分为各个实体抽取器,从而规定了实体抽取单元的组织方式、结构和执行过程,通过问题分解降低了实体识别的难度,提升了识别的效果,并且,这种结构化的方式提高了本发明系统的复用性和灵活性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明命名实体识别方法的流程图;
图2为本发明命名实体识别系统的结构框图;
图3为本发明命名实体识别方法包含两个实体抽取单元时的执行流程图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
实施例1:
如图1所示,本发明提供一种命名实体识别方法,包括如下步骤:
接收初始文本;
按照抽取规则,抽取初始文本中的实体;
抽取规则为设置N个确定不同层次语义标签的实体抽取单元,其中,N为整数,且N≥2,N个实体抽取单元按如下规则执行:
第一个实体抽取单元的执行规则为:针对初始文本抽取实体,获得包含实体词、第一层语义标签、实体词位置信息的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
第二个实体抽取单元至第N-1个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第K-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第K层语义标签、实体词位置信息的第K信息列表,将新的文本和第K信息列表传递给第K+1个实体抽取单元,其中,K为整数,且2≤K≤N-1;
第N个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第N-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第N层语义标签、实体词位置信息的第N信息列表;
将第一信息列表至第N信息列表进行合并得到最终结果,并输出该最终结果。
就上述抽取规则来说,举例言之,当抽取规则包含2个实体抽取单元时,即N=2时,2个实体抽取单元按如下规则执行:
1)第一个实体抽取单元对接收到的初始文本抽取实体,获得包含实体词、第一层语义标签、实体词位置信息的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
2)第二个实体抽取单元将接收到的文本中的实体词替换为第一层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第二层语义标签、实体词位置信息的第二信息列表。
当抽取规则包含3个实体抽取单元时,即N=3时,3个实体抽取单元按如下规则执行:
1)第一个实体抽取单元对接收到的初始文本抽取实体,获得包含实体词、第一层语义标签、实体词位置信息的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
2)第二个实体抽取单元将接收到的文本中的实体词替换为第一层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第二层语义标签、实体词位置信息的第二信息列表,将新的文本和第二信息列表传递给第三个实体抽取单元;
3)第三个实体抽取单元将接收到的文本中的实体词替换为第二层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第三层语义标签、实体词位置信息的第三信息列表。
当抽取规则包含的实体抽取单元的数量为其他值时,参照以上所举规则执行。
进一步地,每个实体抽取单元抽取实体后,均获得一个信息列表,在将第一个实体抽取单元至第N个实体抽取单元获得的第一信息列表至第N信息列表进行合并前,将第二信息列表至第N信息列表的实体词位置信息还原为该实体词在初始文本中的位置信息,再基于实体词的位置信息合并第一信息列表至第N信息列表,得到最终结果。如当N=2时,将第二信息列表的实体词位置信息还原为该实体词在初始文本中的位置信息,再基于实体词的位置信息合并第一信息列表和第二信息列表,得到最终结果;当N=3时,将第二信息列表和第三信息列表的实体词位置信息还原为该实体词在初始文本中的位置信息,再基于实体词的位置信息合并第一信息列表、第二信息列表、第三信息列表,得到最终结果。
进一步地,每一个实体抽取单元均包括一个或多个实体抽取器,每个实体抽取器均包括一类实体抽取算法,实体抽取算法可以是基于规则的算法、基于词典的算法、基于模型的算法、基于脚本的算法中的任意一种。举例言之,当实体抽取器基于规则的算法抽取实体,可以采用正则表达式抽取实体,例如使用正则表达式“.*([0-9]*).*”抽取数字;当实体抽取器基于词典的算法抽取实体,可以基于中国城市名称词典的算法抽取输入文本中的城市,具体做法是针对词典中的每个城市,在文本中查找其是否存在;当实体抽取器基于模型的算法抽取实体,可以使用预先训练好的模型例如CRF(条件随机场模型)、BERT(基于Transformers的双向编码器模型)等抽取实体;当实体抽取器基于脚本算法抽取实体,可以基于程序脚本如Java脚本从文本中抽取实体。
进一步地,实体抽取器基于实体抽取算法抽取实体后,输出包含实体词、语义标签、实体词位置信息的实体列表,其中,实体词的位置信息包括实体词的起始位置信息和结束位置信息。例如,当输入文本为:北京和上海是国际化大都市。实体抽取器抽取的城市实体列表为:
实体词 | 语义标签 | 实体词起始位置 | 实体词结束位置 |
北京 | city | 0 | 1 |
上海 | city | 3 | 4 |
进一步地,每个实体抽取器抽取实体后,均将实体列表储存在临时变量中。各个实体抽取单元在其所包含的一个或多个实体抽取器完成实体抽取后,将实体抽取器输出的实体列表进行汇总,并基于实体词的位置信息进行合并,得到该实体抽取单元的信息列表。基于实体词的位置信息进行合并时,若一个实体词具有若干个不同的语义标签,则根据概率保留最有可能的语义标签。须说明的是,不同实体抽取单元中的实体抽取器可能相同,但由于不同实体抽取单元的功能不同,其内在包含的实体抽取器功能也便不同。如第一个实体抽取单元中的实体抽取器基于词典的算法识别城市,第二个实体抽取单元中的实体抽取器基于词典的算法识别省会。
为更好的理解本发明,以包含两个实体抽取单元的命名实体识别方法为例,对该方法的技术方案具体阐述如下:
接收初始文本;
按照抽取规则,抽取初始文本中的实体;
抽取规则为设置两个确定不同层次语义标签的实体抽取单元,两个实体抽取单元按如下规则执行:
1)执行第一个实体抽取单元:
a)如果有实体抽取器基于规则的算法抽取实体,则使用基于规则的算法抽取实体,获得包含实体词、第一层语义标签、实体词位置信息的实体列表,将抽取获得的实体列表储存到临时变量中;
b)如果有实体抽取器基于词典的算法抽取实体,则使用基于词典的算法抽取实体,获得包含实体词、第一层语义标签、实体词位置信息的实体列表,并将抽取获得的实体列表储存到临时变量中;
c)如果有实体抽取器基于模型的算法抽取实体,则使用基于模型的算法抽取实体,获得包含实体词、第一层语义标签、实体词位置信息的实体列表,并将抽取获得的实体列表储存到临时变量中;
d)如果有实体抽取器基于脚本的算法抽取实体,则使用基于脚本的算法抽取实体,获得包含实体词、第一层语义标签、实体词位置信息的实体列表,并将抽取获得的实体列表储存到临时变量中;
e)将上述实体抽取器获得的实体列表进行汇总,并基于实体词的位置信息进行合并,若一个实体词有多个第一层语义标签,则根据概率保留最有可能的第一层语义标签,从而获得包含实体词、第一层语义标签、实体词位置信息的第一信息列表;
f)将初始文本和第一信息列表传递给第二个实体抽取单元;
2)执行第二个实体抽取单元:
a)进行占位符替换,将初始文本中的实体词替换为第一层语义标签形成新的文本,将新的文本传递至后续的实体抽取器抽取实体;
b)如果有实体抽取器基于规则的算法抽取实体,则使用基于规则的算法抽取实体,获得包含实体词、第二层语义标签、实体词位置信息的实体列表,将抽取获得的实体列表储存到临时变量中;
c)如果有实体抽取器基于词典的算法抽取实体,则使用基于词典的算法抽取实体,获得包含实体词、第二层语义标签、实体词位置信息的实体列表,并将抽取获得的实体列表储存到临时变量中;
d)如果有实体抽取器基于模型的算法抽取实体,则使用基于模型的算法抽取实体,获得包含实体词、第二层语义标签、实体词位置信息的实体列表,并将抽取获得的实体列表储存到临时变量中;
e)如果有实体抽取器基于脚本的算法抽取实体,则使用基于脚本的算法抽取实体,获得包含实体词、第二层语义标签、实体词位置信息的实体列表,并将抽取获得的实体列表储存到临时变量中;
f)将上述实体抽取器获得的实体列表进行汇总,并基于实体词的位置信息进行合并,若一个实体词有多个第二层语义标签,则根据概率保留最有可能的第二层语义标签,从而获得包含实体词、第二层语义标签、实体词位置信息的第二信息列表;
进行反向占位符替换,将第二信息列表的实体词位置信息还原为该实体词在初始文本中的位置信息,再基于实体词的位置信息合并第一信息列表和第二信息列表,得到最终结果,并输出该结果。
为更好的理解本实施例,以下以两个具体的应用场景为例,对本实施例的技术方案进行阐述。
应用场景一:本应用场景下,命名实体识别方法为从初始文本中抽取两层语义标签的地名实体识别方法,其中,第一层语义标签是城市(city),第二层语义标签是出发地(from)/目的地(to),本方法的抽取规则包含两个实体抽取单元,第一个实体抽取单元包括一个实体抽取器,该实体抽取器基于中国城市名称词典算法抽取实体,第二个实体抽取单元包括一个实体抽取器,该实体抽取器基于CRF出发地/目的地类型的算法抽取实体。
举例言之,接收初始文本:我家是深圳的,打算买一张从北京到上海的硬座票;
按照抽取规则,抽取初始文本中的实体,具体为:
1)执行第一个实体抽取单元:
a)实体抽取器基于中国城市名称词典的算法抽取实体,获得包括实体词、第一层语义标签、实体词在初始文本中的起始位置信息和结束位置信息的实体列表,因第一个实体抽取单元只包含一个实体抽取器,该实体抽取器获得的实体列表即为第一实体抽取单元获得的第一信息列表,即:
实体词 | 第一层语义标签 | 实体词起始位置 | 实体词结束位置 |
深圳 | city | 3 | 4 |
北京 | city | 13 | 14 |
上海 | city | 16 | 17 |
b)第一个实体抽取单元将初始文本和第一信息列表传递给第二个实体抽取单元;
2)执行第二个实体抽取单元:
a)进行占位符替换,将初始文本中的实体词替换为第一层语义标签,形成新的文本:我家是city的,打算买一张从city到city的硬座票;
b)实体抽取器基于CRF出发地/目的地类型的算法抽取实体,获得包括实体词、第二层语义标签、实体词在新的文中的起始位置信息和结束位置信息的实体列表,因第二实体抽取单元仅包含一个实体抽取器,因此该实体抽取器获得的实体列表即为第二实体抽取单元的第二信息列表,即:
实体词 | 第二层语义标签 | 实体词起始位置 | 实体词结束位置 |
city | from | 15 | 18 |
city | to | 20 | 23 |
进行反向占位替换,将第二信息列表的实体词起始位置替换为初始文本中对应实体词的起始位置,且将第二信息列表中的实体词结束位置替换为初始文本中对应实体词的结束位置;基于实体词的位置信息合并第一信息列表和第二信息列表,获得最终输出的结果为:
可以看到,深圳、北京、上海都是城市实体词,并且北京是出发地,上海是目的地。
应用场景二:本应用场景下,命名实体识别方法为从初始文本中抽取两层语义标签的数字实体识别方法,其中,第一层语义标签是数字(num),第二层语义标签是天数(day-num)/人数(person-num),本方法的抽取规则包含两个实体抽取单元,第一个实体抽取单元包括一个实体抽取器,该实体抽取器基于正则表达式规则的算法抽取实体,第二个实体抽取单元包括一个实体抽取器,该实体抽取器基于CRF天数/人数模型的算法抽取实体。
举例言之,接收初始文本:我一个人去上海,在那待三天;
按照抽取规则,抽取初始文本中的实体,具体为:
1)执行第一个实体抽取单元:
a)实体抽取器基于正则表达式规则的算法抽取实体,获得包含实体词、第一层语义标签、实体词在第一文本中的起始位置信息和结束位置信息的实体列表,因第一个实体抽取单元只包含一个实体抽取器,该实体抽取器获得的实体列表即为第一实体抽取单元获得的第一信息列表,即:
实体词 | 第一层语义标签 | 实体词起始位置 | 实体词结束位置 |
一 | num | 1 | 1 |
三 | num | 11 | 11 |
b)第一个实体抽取单元将初始文本和第一信息列表传递给第二个实体抽取单元;
2)执行第二个实体抽取单元:
c)进行占位符替换,将初始文本中的实体词替换为第一层语义标签,形成新的文本:我num个人去上海,在那待num天;
d)实体抽取器基于CRF天数/人数模型的算法抽取实体,获得包括实体词、第二层语义标签、实体词在新的文中的起始位置信息和结束位置信息的实体列表,因第二实体抽取单元仅包含一个实体抽取器,因此该实体抽取器获得的实体列表即为第二实体抽取单元的第二信息列表,即:
实体词 | 第二层语义标签 | 实体词起始位置 | 实体词结束位置 |
num | person-num | 1 | 3 |
num | day-num | 13 | 15 |
进行反向占位替换,将第二信息列表的实体词起始位置替换为初始文本中对应实体词的起始位置,且将第二信息列表中的实体词结束位置替换为初始文本中对应实体词的结束位置;基于实体词的位置信息合并第一信息列表和第二信息列表,获得最终输出的结果为:
实体词 | 语义标签 | 实体词起始位置 | 实体词结束位置 |
一 | num/person-num | 1 | 1 |
三 | num/day-num | 11 | 11 |
可以看到,一、三都是数字实体词,并且一代表人数,三代表天数。
实施例2:
如图2所示,一种命名实体识别系统,包括接收模块、处理模块以及输出模块;
接收模块用于接收初始文本,并将初始文本传输至处理模块;
处理模块用于抽取实体,处理模块包括N个确定不同层次语义标签的实体抽取单元,其中,N为整数,且N≥2,N个实体抽取单元按如下规则执行:
第一个实体抽取单元的执行规则为:针对初始文本抽取实体,获得包含实体词、第一层语义标签的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
第二个实体抽取单元至第N-1个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第K-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第K层语义标签的第K信息列表,将新的文本和第K信息列表传递给第K+1个实体抽取单元,其中,K为整数,且2≤K≤N-1;
第N个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第N-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第N层语义标签的第N信息列表;
输出模块用于将第一信息列表至第N信息列表进行合并得到最终结果,并输出该最终结果。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种命名实体识别方法,其特征在于,包括如下步骤:
S1、接收初始文本;
S2、按照抽取规则,抽取所述初始文本中的实体;
所述抽取规则为设置N个确定不同层次语义标签的实体抽取单元,其中,N为整数,且N≥2,N个实体抽取单元按如下规则执行:
当N=2时,
1)第一个实体抽取单元的执行规则为:针对初始文本抽取实体,获得包含实体词、第一层语义标签的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
2)第二个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第一层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第二层语义标签的第二信息列表;
当N≥3时,
1)第一个实体抽取单元的执行规则为:针对初始文本抽取实体,获得包含实体词、第一层语义标签的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
2)第二个实体抽取单元至第N-1个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第K-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第K层语义标签的第K信息列表,将新的文本和第K信息列表传递给第K+1个实体抽取单元,其中,K为整数,且2≤K≤N-1;
3)第N个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第N-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第N层语义标签的第N信息列表;
S3、将第一信息列表至第N信息列表进行合并得到最终结果,并输出该最终结果。
2.根据权利要求1所述的命名实体识别方法,其特征在于,每一个实体抽取单元均包括一个或多个实体抽取器,每个实体抽取器均包括一类实体抽取算法。
3.根据权利要求2所述的命名实体识别方法,其特征在于,所述实体抽取算法为基于规则的算法、基于词典的算法、基于模型的算法、基于脚本的算法中的任意一种。
4.根据权利要求2所述的命名实体识别方法,其特征在于,所述实体抽取器抽取实体后,输出包含实体词、语义标签的实体列表,并将实体列表储存在临时变量中。
5.根据权利要求4所述的命名实体识别方法,其特征在于,各个实体抽取单元在其所包含的一个或多个实体抽取器完成实体抽取后,将实体抽取器输出的实体列表进行汇总,得到该实体抽取单元的信息列表。
6.根据权利要求5所述的命名实体识别方法,其特征在于,将实体抽取器输出的实体列表进行汇总时,若一个实体词具有若干个不同的语义标签,则保留概率最高的语义标签。
7.根据权利要求2所述的命名实体识别方法,其特征在于,所述实体抽取器抽取实体后,输出包含实体词、语义标签、实体词位置信息的实体列表。
8.根据权利要求7所述的命名实体识别方法,其特征在于,各个实体抽取单元在其所包含的一个或多个实体抽取器完成实体抽取后,基于实体词位置信息将各个实体抽取器输出的实体列表进行汇总,得到该实体抽取单元的信息列表。
9.根据权利要求8所述的命名实体识别方法,其特征在于,在将第一信息列表至第N信息列表进行合并前,将第二信息列表至第N信息列表的实体词位置信息还原为该实体词在初始文本中的位置信息,再基于实体词的位置信息合并第一信息列表至第N信息列表,得到最终结果。
10.一种命名实体识别系统,其特征在于,
包括接收模块、处理模块以及输出模块;
所述接收模块用于接收初始文本,并将初始文本传输至处理模块;
所述处理模块用于抽取实体,处理模块包括N个确定不同层次语义标签的实体抽取单元,其中,N为整数,且N≥2,N个实体抽取单元按如下规则执行:
当N=2时,
1)第一个实体抽取单元的执行规则为:针对初始文本抽取实体,获得包含实体词、第一层语义标签的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
2)第二个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第一层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第二层语义标签的第二信息列表;
当N≥3时,
1)第一个实体抽取单元的执行规则为:针对初始文本抽取实体,获得包含实体词、第一层语义标签的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
2)第二个实体抽取单元至第N-1个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第K-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第K层语义标签的第K信息列表,将新的文本和第K信息列表传递给第K+1个实体抽取单元,其中,K为整数,且2≤K≤N-1;
3)第N个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第N-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第N层语义标签的第N信息列表;
所述输出模块用于将第一信息列表至第N信息列表进行合并得到最终结果,并输出该最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110524581.9A CN113158677B (zh) | 2021-05-13 | 2021-05-13 | 一种命名实体识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110524581.9A CN113158677B (zh) | 2021-05-13 | 2021-05-13 | 一种命名实体识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158677A CN113158677A (zh) | 2021-07-23 |
CN113158677B true CN113158677B (zh) | 2023-04-07 |
Family
ID=76874963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110524581.9A Active CN113158677B (zh) | 2021-05-13 | 2021-05-13 | 一种命名实体识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158677B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777080A (zh) * | 2016-12-13 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 短摘要生成方法、数据库建立方法及人机对话方法 |
CN106874256A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN108647194A (zh) * | 2018-04-28 | 2018-10-12 | 北京神州泰岳软件股份有限公司 | 信息抽取方法及装置 |
CN109684631A (zh) * | 2018-12-12 | 2019-04-26 | 北京神州泰岳软件股份有限公司 | 命名实体抽取方法、装置及介质 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
WO2020252950A1 (zh) * | 2019-06-17 | 2020-12-24 | 五邑大学 | 基于预训练模型和微调技术的医疗文本命名实体识别方法 |
CN112434535A (zh) * | 2020-11-24 | 2021-03-02 | 上海浦东发展银行股份有限公司 | 基于多模型的要素抽取方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10170114B2 (en) * | 2013-05-30 | 2019-01-01 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
-
2021
- 2021-05-13 CN CN202110524581.9A patent/CN113158677B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874256A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
CN106777080A (zh) * | 2016-12-13 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 短摘要生成方法、数据库建立方法及人机对话方法 |
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN108647194A (zh) * | 2018-04-28 | 2018-10-12 | 北京神州泰岳软件股份有限公司 | 信息抽取方法及装置 |
CN109684631A (zh) * | 2018-12-12 | 2019-04-26 | 北京神州泰岳软件股份有限公司 | 命名实体抽取方法、装置及介质 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
WO2020252950A1 (zh) * | 2019-06-17 | 2020-12-24 | 五邑大学 | 基于预训练模型和微调技术的医疗文本命名实体识别方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN112434535A (zh) * | 2020-11-24 | 2021-03-02 | 上海浦东发展银行股份有限公司 | 基于多模型的要素抽取方法、装置、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
An Instance Transfer-Based Approach Using Enhanced Recurrent Neural Network for Domain Named Entity Recognition;Chuanbo Liu等;《IEEE Access》;20201231;第45263-45270页 * |
基于预训练语言模型的建筑施工安全事故文本的命名实体识别研究;宋建炜等;《图学学报》;20210430;第42卷(第02期);第307-315页 * |
无词典抽词的RMMFS和BMMFS方法及其比较研究;姜韶华等;《情报学报》;20060824(第04期);第116-120页 * |
智能问答系统中命名实体识别问题研究;费建军;《数字技术与应用》;20170715(第07期);第103-106页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113158677A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
Wassler et al. | Sociocultural impacts of COVID-19: A social representations perspective | |
CN109460551B (zh) | 签名信息提取方法及装置 | |
CN107633044A (zh) | 一种基于热点事件的舆情知识图谱构建方法 | |
US8874590B2 (en) | Apparatus and method for supporting keyword input | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
Amba Hombaiah et al. | Dynamic language models for continuously evolving content | |
CN101246486A (zh) | 用于改进的表达式处理的方法和装置 | |
CN111506771B (zh) | 一种视频检索方法、装置、设备及存储介质 | |
CN111639183A (zh) | 一种基于深度学习算法的金融同业舆情分析方法及系统 | |
CN109919437A (zh) | 一种基于大数据的智慧旅游目标匹配方法和系统 | |
Rauchfleisch et al. | Transnational news sharing on social media: Measuring and analysing Twitter news media repertoires of domestic and foreign audience communities | |
CN105992171A (zh) | 一种文本信息的处理方法和装置 | |
Qin et al. | Feature-rich segment-based news event detection on twitter | |
CN114186567A (zh) | 敏感词检测方法及其装置、设备、介质、产品 | |
CN106528894A (zh) | 设置标签信息的方法及装置 | |
Seo et al. | Media representations of refugees, asylum seekers and immigrants: A meta-analysis of research | |
CN112650867A (zh) | 图片匹配方法、装置、电子设备以及存储介质 | |
US20120330928A1 (en) | Method and Apparatus for Generating a Fused View of One or More People | |
Kelling et al. | Analysing community reaction to refugees through text analysis of social media data | |
CN113158677B (zh) | 一种命名实体识别方法和系统 | |
Khurdiya et al. | Extraction and Compilation of Events and Sub-events from Twitter | |
CN112257429A (zh) | 基于bert-btm网络的微博突发事件检测方法 | |
KR102559849B1 (ko) | 악플 필터 장치 및 방법 | |
CN115002508A (zh) | 直播数据流方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |