CN113779997A - 实体识别方法、装置、电子设备及存储介质 - Google Patents

实体识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113779997A
CN113779997A CN202111033947.9A CN202111033947A CN113779997A CN 113779997 A CN113779997 A CN 113779997A CN 202111033947 A CN202111033947 A CN 202111033947A CN 113779997 A CN113779997 A CN 113779997A
Authority
CN
China
Prior art keywords
text
character
recognized
entity
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111033947.9A
Other languages
English (en)
Other versions
CN113779997B (zh
Inventor
唐光远
陈海波
罗琴
李润静
张俊杰
熊琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Zhuhai Lianyun Technology Co Ltd
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Zhuhai Lianyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai, Zhuhai Lianyun Technology Co Ltd filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN202111033947.9A priority Critical patent/CN113779997B/zh
Publication of CN113779997A publication Critical patent/CN113779997A/zh
Application granted granted Critical
Publication of CN113779997B publication Critical patent/CN113779997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种实体识别方法、装置、电子设备及存储介质,所述方法包括:获取待识别的文本,利用预训练的语义表征模型对所述待识别的文本进行处理,得到所述待识别的文本中每个字符对应的字向量;利用预训练的约束关系模型对所述待识别的文本中每个字符对应的字向量进行处理,得到所述待识别的文本中每个字符对应的标签;根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体。如此通过预训练的语义表征模型与预训练的约束关系模型,对待识别的文本中的实体进行识别,可以避免基于规则、统计和机器学习的方法的缺点,提高命名实体识别效果。

Description

实体识别方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种实体识别方法、装置、电子设备及存储介质。
背景技术
近几年来,随着人工智能的发展,在人们的日常生活中得到了广泛的应用。通常人们会从一段本文中获取自己需要的且重要的信息,此时命名实体识别技术就显得十分重要,它能帮助人们很快的从文本中检索出自己需要的且重要的信息。其中,命名实体识别技术可以自动识别出人名、组织结构名、地名、时间等实体,对于非结构化的信息提取具有重要意义作用。
目前,鉴于中文命名实体识别相比英文来说有一定难度,导致中文命名实体识别效果相对于英文来说,效果并不是很好。早期的中文命名实体识别方法,主要是基于规则和统计的方法,这些方法主要用语言学家手工设定的词法、句法和语义规则模板,命名实体识别效果较差。后又产生机器学习的方法,如条件随机场、支持向量机等,命名实体识别效果同样较差。
发明内容
为了解决上述基于规则、统计和机器学习的方法命名实体识别效果较差的技术问题,本发明实施例提供了一种实体识别方法、装置、电子设备及存储介质。
在本发明实施例的第一方面,首先提供了一种实体识别方法,所述方法包括:
获取待识别的文本,利用预训练的语义表征模型对所述待识别的文本进行处理,得到所述待识别的文本中每个字符对应的字向量;
利用预训练的约束关系模型对所述待识别的文本中每个字符对应的字向量进行处理,得到所述待识别的文本中每个字符对应的标签;
根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体。
在一个可选的实施方式中,所述利用预训练的语义表征模型对所述待识别的文本进行处理,得到所述待识别的文本中每个字符对应的字向量,包括:
获取预设的停用词列表,其中,所述预设的停用词列表中包括至少一个停用词;
遍历所述待识别的文本,若所述待识别的文本中存在与所述停用词相匹配的第一字符,则删除所述第一字符,得到第一文本;
利用预训练的语义表征模型对所述第一文本进行处理,得到所述第一文本中每个字符对应的字向量;
所述利用预训练的约束关系模型对所述待识别的文本中每个字符对应的字向量进行处理,得到所述待识别的文本中每个字符对应的标签,包括:
利用预训练的约束关系模型对所述第一文本中每个字符对应的字向量进行处理,得到所述第一文本中每个字符对应的标签;
所述根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体,包括:
根据所述第一文本中每个字符对应的标签,识别所述待识别的文本中的实体。
在一个可选的实施方式中,所述利用预训练的语义表征模型对所述待识别的文本进行处理,得到所述待识别的文本中每个字符对应的字向量,包括:
获取预设的符号列表,其中,所述符号列表中包括空格符号以及至少一个无用符号;
遍历所述待识别的文本,若所述待识别的文本中存在与所述空格符号和/或无用符号相匹配的第二字符,则删除所述第二字符,得到第二文本;
利用预训练的语义表征模型对所述第二文本进行处理,得到所述第二文本中每个字符对应的字向量;
所述利用预训练的约束关系模型对所述待识别的文本中每个字符对应的字向量进行处理,得到所述待识别的文本中每个字符对应的标签,包括:
利用预训练的约束关系模型对所述第二文本中每个字符对应的字向量进行处理,得到所述第二文本中每个字符对应的标签;
所述根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体,包括:
根据所述第二文本中每个字符对应的标签,识别所述待识别的文本中的实体。
在一个可选的实施方式中,所述标签包括实体开头标签、实体非开头标签以及非实体标签;
所述根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体,包括:
从所述待识别的文本中剔除所述非实体标签对应的字符,得到剩余文本;
将剩余文本中所述实体开头标签与所述实体非开头标签对应的字符进行组合,得到所述待识别的文本中的实体。
在一个可选的实施方式中,所述根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体,包括:
从所述待识别的文本中选取所述实体开头标签与所述实体非开头标签对应的字符;
将所述实体开头标签与所述实体非开头标签对应的字符进行组合,得到所述待识别的文本中的实体。
在一个可选的实施方式中,所述预训练的语义表征模型包括BERT模型,所述预训练的约束关系模型包括Linear-CRF模型;
由所述BERT模型与所述Linear-CRF模型组成实体识别模型,所述实体识别模型具体通过以下方式得到;
获取训练样本,其中,采用BIO标注策略对所述训练样本中各个字符进行标注;
基于所述训练样本对实体识别初始模型进行训练,得到所述实体识别模型,所述实体识别初始模型包括BERT初始模型与Linear-CRF初始模型。
在一个可选的实施方式中,在执行所述方法之前,还包括:
获取各初始文本,以及获取预设的停用词列表,其中,所述预设的停用词列表中包括至少一个停用词;
遍历各所述初始文本,若各所述初始文本中存在与所述停用词相匹配的第三字符,则删除所述第三字符,得到各第三文本;
采用BIO标注策略对各所述第三文本中各个字符进行标注,按照预设的划分策略,将各所述第三文本划分为训练样本、验证样本以及测试样本。
在一个可选的实施方式中,在执行所述方法之前,还包括:
获取各初始文本,以及获取预设的符号列表,其中,所述符号列表中包括空格符号以及至少一个无用符号;
遍历各所述初始文本,若各所述初始文本中存在与所述空格符号和/或无用符号相匹配的第四字符,则删除所述第四字符,得到各第四文本;
采用BIO标注策略对各所述第四文本中各个字符进行标注,按照预设的划分策略,将各所述第四文本划分为训练样本、验证样本以及测试样本。
在一个可选的实施方式中,所述基于所述训练样本对实体识别初始模型进行训练,得到所述实体识别模型,包括:
基于所述训练样本对实体识别初始模型进行训练,得到所述实体识别模型;
利用所述验证样本对所述实体识别模型中参数进行调整,以及利用所述测试样本对所述实体识别模型进行测试。
在本发明实施例的第二方面,提供了一种实体识别装置,所述装置包括:
文本获取模块,用于获取待识别的文本;
文本处理模块,用于利用预训练的语义表征模型对所述待识别的文本进行处理,得到所述待识别的文本中每个字符对应的字向量;
字向量处理模块,用于利用预训练的约束关系模型对所述待识别的文本中每个字符对应的字向量进行处理,得到所述待识别的文本中每个字符对应的标签;
实体识别模块,用于根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体。
在本发明实施例的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中所述的实体识别方法。
在本发明实施例的第四方面,还提供了一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面中所述的实体识别方法。
在本发明实施例的第五方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面中所述的实体识别方法。
本发明实施例提供的技术方案,获取待识别的文本,利用预训练的语义表征模型对待识别的文本进行处理,得到待识别的文本中每个字符对应的字向量,利用预训练的约束关系模型对待识别的文本中每个字符对应的字向量进行处理,得到待识别的文本中每个字符对应的标签,根据待识别的文本中每个字符对应的标签,识别待识别的文本中的实体。如此通过预训练的语义表征模型与预训练的约束关系模型,对待识别的文本中的实体进行识别,可以避免基于规则、统计和机器学习的方法的缺点,提高命名实体识别效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中示出的一种命名实体识别方法的实施流程示意图;
图2为本发明实施例中示出的一种BERT模型的架构示意图;
图3为本发明实施例中示出的一种Linear-CRF模型的架构示意图;
图4为本发明实施例中示出的一种待识别的文本中每个字符对应标签的示意图;
图5为本发明实施例中示出的另一种命名实体识别方法的实施流程示意图;
图6为本发明实施例中示出的另一种命名实体识别方法的实施流程示意图;
图7为本发明实施例中示出的一种模型训练的实施流程示意图;
图8为本发明实施例中示出的一种实体识别装置的结构示意图;
图9为本发明实施例中示出的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,为本发明实施例提供的一种命名实体识别方法的实施流程示意图,该方法应用于处理器,具体可以包括以下步骤:
S101,获取待识别的文本,利用预训练的语义表征模型对所述待识别的文本进行处理,得到所述待识别的文本中每个字符对应的字向量。
通常用户会从一段文本中获取自己需要的且重要的信息,比如实体。故用户可以输入一段文本,本发明实施例获取用户输入的一段文本,用户输入的一段文本即待识别的文本,从而获取待识别的文本。
例如,用户将空调相关的工艺技术文件中技术要求部分进行摘取,形成一段文本并输入,本发明实施例获取用户输入的这一段文本,用户输入的一段文本即待识别的文本,从而获取待识别的文本。
此外,对于获取的待识别的文本,本发明实施例利用预训练的语义表征模型对待识别的文本进行处理,得到待识别的文本中每个字符对应的字向量。
具体地,对于获取的待识别的文本,将待识别的文本输入至预训练的语义表征模型,由预训练的语义表征模型对待识别的文本进行转化,获取预训练的语义表征模型输出的待识别的文本中每个字符对应的字向量。
需要说明的是,对于预训练的语义表征模型,具体可以是BERT模型,如图2所示,BERT模型可以把文本转化成向量的形式。BERT模型的底层主要获取词级别的特征信息,中层主要学习句级别特征信息,而顶层则是捕获全句的语义信息。此外,BERT模型能通过双向Transformer编码器生成的字向量可以充分融合字词左右的上下文信息。与传统语言模型相比,BERT模型可以充分的表达出字的多义性。
S102,利用预训练的约束关系模型对所述待识别的文本中每个字符对应的字向量进行处理,得到所述待识别的文本中每个字符对应的标签。
对于待识别的文本中每个字符对应的字向量,利用预训练的约束关系模型对该待识别的文本中每个字符对应的字向量进行处理,得到该待识别的文本中每个字符对应的标签。
对于标签,在本发明实施例中具体可以包括实体开头标签、实体非开头标签以及非实体标签,其中,实体开头标签可以用B表示,实体非开头标签可以用I表示,非实体标签可以用O表示,如下表1所示。
标签
实体开头标签 B
实体非开头标签 I
非实体标签 O
表1
例如,对于文本“张三的……”,这里的字符“张”对应于实体开头标签,而字符“三”对应于实体非开头标签,这里的字符“的”对应于非实体标签。
具体地,对于待识别的文本中每个字符对应的字向量,将待识别的文本中每个字符对应的字向量输入至预训练的约束关系模型,获取预训练的约束关系模型输出的待识别的文本中每个字符对应的标签。
例如,对于待识别的文本中每个字符对应的字向量(X=(X1、X2、……、XN)),输入至预训练的约束关系模型,获取预训练的约束关系模型输出的待识别的文本中每个字符对应的标签(Y=(Y1、Y2、……、YN))。
需要说明的是,对于预训练的约束关系模型,具体可以是Linear-CRF模型,即线性链条件随机场,如图3所示。在线性链条件随机场中输入X=(X1、X2、……、XN)、输出Y=(Y1、Y2、……、YN),均为线性链表示的随机变量序列。Linear-CRF能够考虑各标签间的约束关系,具有特征选择灵活和拟合程度更好的优点,可以得到编码的最优序列。
S103,根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体。
对于待识别的文本中每个字符对应的标签,在本发明实施例中,根据待识别的文本中每个字符对应的标签,识别待识别的文本中的实体。如此可以获取到待识别的文本中的实体。
其中,从待识别的文本中剔除非实体标签对应的字符,得到剩余文本,将剩余文本中实体开头标签与实体非开头标签对应的字符进行组合,得到待识别的文本中的实体。
或者,从待识别的文本中选取实体开头标签与实体非开头标签对应的字符,将实体开头标签与实体非开头标签对应的字符进行组合,得到待识别的文本中的实体。
例如,对于待识别的文本“我爱A国”,其中字符“我”对应于实体开头标签B,字符“爱”对应于非实体标签O,字符“A”对应于实体开头标签B,字符“国”对应于实体非开头标签I,如图4所示。
从待识别的文本“我爱A国”中,剔除非实体标签O对应的字符“爱”,得到剩余文本“我A国”,将剩余文本“我A国”中实体开头标签B与实体非开头标签I对应的字符(“我”、“A”、“国”)进行组合,得到实体“我”、“A国”。
或者,从待识别的文本“我爱A国”中,选取实体开头标签B与实体非开头标签I对应的字符(“我”、“A”、“国”),将实体开头标签B与实体非开头标签I对应的字符(“我”、“A”、“国”)进行组合,得到实体“我”、“A国”。
通过上述对本发明实施例提供的技术方案的描述,获取待识别的文本,利用预训练的语义表征模型对待识别的文本进行处理,得到待识别的文本中每个字符对应的字向量,利用预训练的约束关系模型对待识别的文本中每个字符对应的字向量进行处理,得到待识别的文本中每个字符对应的标签,根据待识别的文本中每个字符对应的标签,识别待识别的文本中的实体。
如此通过预训练的语义表征模型与预训练的约束关系模型,对待识别的文本中的实体进行识别,可以避免基于规则、统计和机器学习的方法的缺点,提高命名实体识别效果。
如图5所示,为本发明实施例提供的另一种命名实体识别方法的实施流程示意图,该方法应用于处理器,具体可以包括以下步骤:
S501,获取预设的停用词列表,其中,所述预设的停用词列表中包括至少一个停用词。
在本发明实施例中,可以预先设置一些停用词,由此组成停用词列表,从而可以获取该停用词列表,用于对待识别的文本进行数据清洗等预处理操作。
需要说明的是,对于预设的停用词列表,其中包括至少一个停用词,停用词可以根据实际需求进行设置,例如“比如”、“比方”等,本发明实施例对此不作限定。
S502,遍历所述待识别的文本,若所述待识别的文本中存在与所述停用词相匹配的第一字符,则删除所述第一字符,得到第一文本。
对于待识别的文本,遍历该待识别的文本,若该待识别的文本中存在与上述停用词相匹配的第一字符,则删除第一字符,从而完成对待识别的文本的数据清洗等预处理操作,得到第一文本。
例如,对于待识别的文本,假设停用词列表中包括停用词:“比如”、“比方”、……,若该待识别的文本中存在与上述停用词相匹配的第一字符,则删除第一字符,得到第一文本。
S503,利用预训练的语义表征模型对所述第一文本进行处理,得到所述第一文本中每个字符对应的字向量。
对于第一文本,本发明实施例利用预训练的语义表征模型对第一文本进行处理,得到第一文本中每个字符对应的字向量。
其中,上述步骤S503的具体处理可参考上述步骤S101,区别仅在于将待识别的文本替换为第一本文。
S504,利用预训练的约束关系模型对所述第一文本中每个字符对应的字向量进行处理,得到所述第一文本中每个字符对应的标签。
对于第一文本中每个字符对应的字向量,利用预训练的约束关系模型对该第一文本中每个字符对应的字向量进行处理,得到该第一文本中每个字符对应的标签。
其中,上述步骤S504的具体处理可参考上述步骤S102,区别仅在于将待识别的文本替换为第一本文。
S505,根据所述第一文本中每个字符对应的标签,识别所述待识别的文本中的实体。
对于第一文本中每个字符对应的标签,在本发明实施例中,根据第一文本中每个字符对应的标签,识别待识别的文本中的实体。如此可以获取到待识别的文本中的实体。
其中,上述步骤S505的具体处理可参考上述步骤S103,区别仅在于将待识别的文本替换为第一本文。
如图6所示,为本发明实施例提供的另一种命名实体识别方法的实施流程示意图,该方法应用于处理器,具体可以包括以下步骤:
S601,获取预设的符号列表,其中,所述符号列表中包括空格符号以及至少一个无用符号。
在本发明实施例中,可以预先设置一些无用符号以及空格符号,由此组成符号列表,从而可以获取该符号列表,用于对待识别的文本进行数据清洗等预处理操作。
需要说明的是,对于预设的符号列表,其中包括空格符号以及至少一个无用符号,无用符号可以根据实际需求进行设置,本发明实施例对此不作限定。
S602,遍历所述待识别的文本,若所述待识别的文本中存在与所述空格符号和/或无用符号相匹配的第二字符,则删除所述第二字符,得到第二文本。
对于待识别的文本,遍历该待识别的文本,若该待识别的文本中存在与上述空格符号和/或无用符号相匹配的第二字符,则删除第二字符,从而完成对待识别的文本的数据清洗等预处理操作,得到第二文本。
例如,对于待识别的文本,若该待识别的文本中存在与上述空格符号相匹配的第二字符,则删除第二字符,从而完成对待识别的文本的数据清洗等预处理操作,得到第二文本。
S603,利用预训练的语义表征模型对所述第二文本进行处理,得到所述第二文本中每个字符对应的字向量。
对于第二文本,本发明实施例利用预训练的语义表征模型对第二文本进行处理,得到第二文本中每个字符对应的字向量。
其中,上述步骤S603的具体处理可参考上述步骤S101,区别仅在于将待识别的文本替换为第二本文。
S604,利用预训练的约束关系模型对所述第二文本中每个字符对应的字向量进行处理,得到所述第二文本中每个字符对应的标签。
对于第二文本中每个字符对应的字向量,利用预训练的约束关系模型对该第二文本中每个字符对应的字向量进行处理,得到该第二文本中每个字符对应的标签。
其中,上述步骤S604的具体处理可参考上述步骤S102,区别仅在于将待识别的文本替换为第二本文。
S605,根据所述第二文本中每个字符对应的标签,识别所述待识别的文本中的实体。
对于第二文本中每个字符对应的标签,在本发明实施例中,根据第二文本中每个字符对应的标签,识别待识别的文本中的实体。如此可以获取到待识别的文本中的实体。
其中,上述步骤S605的具体处理可参考上述步骤S103,区别仅在于将待识别的文本替换为第二本文。
此外,需要说明的是,对于待识别的文本,可以结合停用词列表与符号列表,对待识别的文本进行数据清洗等预处理操作,即获取预设的停用词列表与符号列表,遍历待识别的文本,若该待识别的文本中包括与停用词、空格符号和/或无用符号相匹配的字符,则删除该字符,得到剩余文本。
如此,在剔除待识别的文本中停用词、空格符号和/或无用符号之后,利用预训练的语义表征模型对剩余文本进行处理,得到剩余文本中每个字符对应的字向量,利用预训练的约束关系模型对剩余文本中每个字符对应的字向量进行处理,得到剩余文本中每个字符对应的标签,根据剩余文本中每个字符对应的标签,识别所述待识别的文本中的实体。
在本发明实施例中,预训练的语义表征模型包括BERT模型,预训练的约束关系模型包括Linear-CRF模型,由BERT模型与Linear-CRF模型组成实体识别模型,如图7所示,实体识别模型具体通过以下方式得到:
S701,获取训练样本,其中,采用BIO标注策略对所述训练样本中各个字符进行标注。
在本发明实施例中,获取各初始文本,以及获取预设的停用词列表,其中,预设的停用词列表中包括至少一个停用词,遍历各初始文本,若各初始文本中存在与停用词相匹配的第三字符,则删除第三字符,得到各第三文本,采用BIO标注策略对各第三文本中各个字符进行标注,按照预设的划分策略,将各第三文本划分为训练样本、验证样本以及测试样本。
例如,获取各初始文本,以及获取预设的停用词列表,其中,预设的停用词列表中包括“比如”、“比方”、……等停用词,遍历各初始文本,若各初始文本中存在与停用词相匹配的第三字符,则删除第三字符,得到各第三文本,采用BIO标注策略对各第三文本中各个字符进行标注,按照8/1/1的划分策略,将各第三文本划分为训练样本、验证样本以及测试样本。
此外,在本发明实施例中,获取各初始文本,以及获取预设的符号列表,其中,符号列表中包括空格符号以及至少一个无用符号,遍历各初始文本,若各初始文本中存在与空格符号和/或无用符号相匹配的第四字符,则删除第四字符,得到各第四文本,采用BIO标注策略对各第四文本中各个字符进行标注,按照预设的划分策略,将各第四文本划分为训练样本、验证样本以及测试样本。
例如,获取各初始文本,以及获取预设的符号列表,其中,符号列表中包括空格符号以及至少一个无用符号,遍历各初始文本,若各初始文本中存在与空格符号和/或无用符号相匹配的第四字符,则删除第四字符,得到各第四文本,采用BIO标注策略对各第四文本中各个字符进行标注,按照8/1/1的划分策略,将各第三文本划分为训练样本、验证样本以及测试样本。
需要说明的是,对于各初始文本,可以结合停用词列表与符号列表,对各初始文本进行数据清洗等预处理操作,即获取预设的停用词列表与符号列表,遍历各初始文本,若各初始文本中包括与停用词、空格符号和/或无用符号相匹配的字符,则删除该字符,得到各剩余文本。在剔除各初始文本中停用词、空格符号和/或无用符号之后,从而采用BIO标注策略对各剩余文本进行标注,按照预设的划分策略,将各剩余文本划分为训练样本、验证样本以及测试样本。
这里的BIO标注策略,即如果某个字符属于实体开头,则可以标注为实体开头标签B,如果某个字符属于非实体,则可以标注为非实体标签O,如果某个字符属于实体非开头,则可以标注为实体非开头标签I。
对于训练样本,在本发明实施例中获取该训练样本,其中,采用BIO标注策略对该训练样本中各个字符进行标注。
S702,基于所述训练样本对实体识别初始模型进行训练,得到所述实体识别模型,所述实体识别初始模型包括BERT初始模型与Linear-CRF初始模型。
对于训练样本,在本发明实施例中,基于训练样本对实体识别初始模型进行训练,等到满足模型收敛条件,或者损失函数的值小于某个阈值,停止训练得到实体识别模型,即BERT模型与Linear-CRF模型,这里的实体识别初始模型包括BERT初始模型与Linear-CRF初始模型。
其中,在本发明实施例中,基于所述训练样本对实体识别初始模型进行训练,得到所述实体识别模型,利用所述验证样本对所述实体识别模型中参数进行调整,以及利用所述测试样本对所述实体识别模型进行测试。
与上述方法实施例相对应,本发明实施例还提供了一种命名实体识别装置,如图8所示,该装置可以包括:文本获取模块810、文本处理模块820、字向量处理模块830、实体识别模块840。
文本获取模块810,用于获取待识别的文本;
文本处理模块820,用于利用预训练的语义表征模型对所述待识别的文本进行处理,得到所述待识别的文本中每个字符对应的字向量;
字向量处理模块830,用于利用预训练的约束关系模型对所述待识别的文本中每个字符对应的字向量进行处理,得到所述待识别的文本中每个字符对应的标签;
实体识别模块840,用于根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体。
本发明实施例还提供了一种电子设备,如图9所示,包括处理器91、通信接口92、存储器93和通信总线94,其中,处理器91,通信接口92,存储器93通过通信总线94完成相互间的通信,
存储器93,用于存放计算机程序;
处理器91,用于执行存储器93上所存放的程序时,实现如下步骤:
获取待识别的文本,利用预训练的语义表征模型对所述待识别的文本进行处理,得到所述待识别的文本中每个字符对应的字向量;利用预训练的约束关系模型对所述待识别的文本中每个字符对应的字向量进行处理,得到所述待识别的文本中每个字符对应的标签;根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种存储介质,该存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的命名实体识别方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的命名实体识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中,或者从一个存储介质向另一个存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种实体识别方法,其特征在于,所述方法包括:
获取待识别的文本,利用预训练的语义表征模型对所述待识别的文本进行处理,得到所述待识别的文本中每个字符对应的字向量;
利用预训练的约束关系模型对所述待识别的文本中每个字符对应的字向量进行处理,得到所述待识别的文本中每个字符对应的标签;
根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体。
2.根据权利要求1所述的方法,其特征在于,所述利用预训练的语义表征模型对所述待识别的文本进行处理,得到所述待识别的文本中每个字符对应的字向量,包括:
获取预设的停用词列表,其中,所述预设的停用词列表中包括至少一个停用词;
遍历所述待识别的文本,若所述待识别的文本中存在与所述停用词相匹配的第一字符,则删除所述第一字符,得到第一文本;
利用预训练的语义表征模型对所述第一文本进行处理,得到所述第一文本中每个字符对应的字向量;
所述利用预训练的约束关系模型对所述待识别的文本中每个字符对应的字向量进行处理,得到所述待识别的文本中每个字符对应的标签,包括:
利用预训练的约束关系模型对所述第一文本中每个字符对应的字向量进行处理,得到所述第一文本中每个字符对应的标签;
所述根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体,包括:
根据所述第一文本中每个字符对应的标签,识别所述待识别的文本中的实体。
3.根据权利要求1所述的方法,其特征在于,所述利用预训练的语义表征模型对所述待识别的文本进行处理,得到所述待识别的文本中每个字符对应的字向量,包括:
获取预设的符号列表,其中,所述符号列表中包括空格符号以及至少一个无用符号;
遍历所述待识别的文本,若所述待识别的文本中存在与所述空格符号和/或无用符号相匹配的第二字符,则删除所述第二字符,得到第二文本;
利用预训练的语义表征模型对所述第二文本进行处理,得到所述第二文本中每个字符对应的字向量;
所述利用预训练的约束关系模型对所述待识别的文本中每个字符对应的字向量进行处理,得到所述待识别的文本中每个字符对应的标签,包括:
利用预训练的约束关系模型对所述第二文本中每个字符对应的字向量进行处理,得到所述第二文本中每个字符对应的标签;
所述根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体,包括:
根据所述第二文本中每个字符对应的标签,识别所述待识别的文本中的实体。
4.根据权利要求1所述的方法,其特征在于,所述标签包括实体开头标签、实体非开头标签以及非实体标签;
所述根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体,包括:
从所述待识别的文本中剔除所述非实体标签对应的字符,得到剩余文本;
将剩余文本中所述实体开头标签与所述实体非开头标签对应的字符进行组合,得到所述待识别的文本中的实体。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体,包括:
从所述待识别的文本中选取所述实体开头标签与所述实体非开头标签对应的字符;
将所述实体开头标签与所述实体非开头标签对应的字符进行组合,得到所述待识别的文本中的实体。
6.根据权利要求1所述的方法,其特征在于,所述预训练的语义表征模型包括BERT模型,所述预训练的约束关系模型包括Linear-CRF模型;
由所述BERT模型与所述Linear-CRF模型组成实体识别模型,所述实体识别模型具体通过以下方式得到;
获取训练样本,其中,采用BIO标注策略对所述训练样本中各个字符进行标注;
基于所述训练样本对实体识别初始模型进行训练,得到所述实体识别模型,所述实体识别初始模型包括BERT初始模型与Linear-CRF初始模型。
7.根据权利要求6所述的方法,其特征在于,在执行所述方法之前,还包括:
获取各初始文本,以及获取预设的停用词列表,其中,所述预设的停用词列表中包括至少一个停用词;
遍历各所述初始文本,若各所述初始文本中存在与所述停用词相匹配的第三字符,则删除所述第三字符,得到各第三文本;
采用BIO标注策略对各所述第三文本中各个字符进行标注,按照预设的划分策略,将各所述第三文本划分为训练样本、验证样本以及测试样本。
8.根据权利要求6所述的方法,其特征在于,在执行所述方法之前,还包括:
获取各初始文本,以及获取预设的符号列表,其中,所述符号列表中包括空格符号以及至少一个无用符号;
遍历各所述初始文本,若各所述初始文本中存在与所述空格符号和/或无用符号相匹配的第四字符,则删除所述第四字符,得到各第四文本;
采用BIO标注策略对各所述第四文本中各个字符进行标注,按照预设的划分策略,将各所述第四文本划分为训练样本、验证样本以及测试样本。
9.根据权利要求7或8所述的方法,其特征在于,所述基于所述训练样本对实体识别初始模型进行训练,得到所述实体识别模型,包括:
基于所述训练样本对实体识别初始模型进行训练,得到所述实体识别模型;
利用所述验证样本对所述实体识别模型中参数进行调整,以及利用所述测试样本对所述实体识别模型进行测试。
10.一种实体识别装置,其特征在于,所述装置包括:
文本获取模块,用于获取待识别的文本;
文本处理模块,用于利用预训练的语义表征模型对所述待识别的文本进行处理,得到所述待识别的文本中每个字符对应的字向量;
字向量处理模块,用于利用预训练的约束关系模型对所述待识别的文本中每个字符对应的字向量进行处理,得到所述待识别的文本中每个字符对应的标签;
实体识别模块,用于根据所述待识别的文本中每个字符对应的标签,识别所述待识别的文本中的实体。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1至9中任一项所述的方法步骤。
12.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至9中任一项所述的方法。
CN202111033947.9A 2021-09-03 2021-09-03 实体识别方法、装置、电子设备及存储介质 Active CN113779997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111033947.9A CN113779997B (zh) 2021-09-03 2021-09-03 实体识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111033947.9A CN113779997B (zh) 2021-09-03 2021-09-03 实体识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113779997A true CN113779997A (zh) 2021-12-10
CN113779997B CN113779997B (zh) 2023-10-10

Family

ID=78841222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111033947.9A Active CN113779997B (zh) 2021-09-03 2021-09-03 实体识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113779997B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160071511A1 (en) * 2014-09-05 2016-03-10 Samsung Electronics Co., Ltd. Method and apparatus of smart text reader for converting web page through text-to-speech
CN109119071A (zh) * 2018-09-26 2019-01-01 珠海格力电器股份有限公司 一种语音识别模型的训练方法及装置
CN109992773A (zh) * 2019-03-20 2019-07-09 华南理工大学 基于多任务学习的词向量训练方法、系统、设备及介质
CN110827085A (zh) * 2019-11-06 2020-02-21 北京字节跳动网络技术有限公司 文本处理方法、装置及设备
CN112541438A (zh) * 2020-12-15 2021-03-23 深兰人工智能(深圳)有限公司 文本识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160071511A1 (en) * 2014-09-05 2016-03-10 Samsung Electronics Co., Ltd. Method and apparatus of smart text reader for converting web page through text-to-speech
CN109119071A (zh) * 2018-09-26 2019-01-01 珠海格力电器股份有限公司 一种语音识别模型的训练方法及装置
CN109992773A (zh) * 2019-03-20 2019-07-09 华南理工大学 基于多任务学习的词向量训练方法、系统、设备及介质
CN110827085A (zh) * 2019-11-06 2020-02-21 北京字节跳动网络技术有限公司 文本处理方法、装置及设备
CN112541438A (zh) * 2020-12-15 2021-03-23 深兰人工智能(深圳)有限公司 文本识别方法及装置

Also Published As

Publication number Publication date
CN113779997B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN108121700B (zh) 一种关键词提取方法、装置及电子设备
CN109902307B (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
CN107679032A (zh) 语音转换纠错方法和装置
WO2022188584A1 (zh) 基于预训练语言模型的相似语句生成方法和装置
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN111460149B (zh) 文本分类方法、相关设备及可读存储介质
CN111967264B (zh) 一种命名实体识别方法
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN108399157B (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN111180025A (zh) 表示病历文本向量的方法、装置及问诊系统
CN111160026B (zh) 一种模型训练方法、装置、实现文本处理的方法及装置
CN111079433A (zh) 一种事件抽取方法、装置及电子设备
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
CN113204956A (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN110969005A (zh) 一种确定实体语料之间的相似性的方法及装置
CN113095067A (zh) 一种ocr错误纠正的方法、装置、电子设备及存储介质
CN111783424A (zh) 一种文本分句方法和装置
CN113779997B (zh) 实体识别方法、装置、电子设备及存储介质
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN113255319B (zh) 模型训练方法、文本分段方法、摘要抽取方法及装置
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质
CN112364131B (zh) 一种语料处理方法及其相关装置
CN115270728A (zh) 会议记录处理方法、装置、设备及存储介质
CN114818728A (zh) 一种文本风格迁移模型训练及文本风格迁移方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant