CN114742060B - 实体识别方法、装置、电子设备及存储介质 - Google Patents

实体识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114742060B
CN114742060B CN202210426188.0A CN202210426188A CN114742060B CN 114742060 B CN114742060 B CN 114742060B CN 202210426188 A CN202210426188 A CN 202210426188A CN 114742060 B CN114742060 B CN 114742060B
Authority
CN
China
Prior art keywords
entity
sample
matrix
upper triangular
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210426188.0A
Other languages
English (en)
Other versions
CN114742060A (zh
Inventor
刘羲
舒畅
陈又新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210426188.0A priority Critical patent/CN114742060B/zh
Publication of CN114742060A publication Critical patent/CN114742060A/zh
Application granted granted Critical
Publication of CN114742060B publication Critical patent/CN114742060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能领域,揭露一种实体识别方法,包括:获取携带实体类别信息的样本集,根据实体类别信息构建实体识别模型,实体识别模型的每个实体识别分支对应一个实体类别;将样本集输入实体识别模型,得到样本集中每个样本在每个实体类别的第一上三角标签矩阵,基于实体类别信息、第一上三角标签矩阵及预先确定的损失函数训练实体识别模型,得到训练好的实体识别模型;将待识别文本输入训练好的实体识别模型,得到待识别文本在每个实体类别的第二上三角标签矩阵,基于第二上三角标签矩阵确定待识别文本的实体识别结果。本发明还提供一种实体识别装置、电子设备及存储介质。本发明提高了嵌套实体识别准确度。

Description

实体识别方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种实体识别方法、装置、电子设备及存储介质。
背景技术
实体识别任务是自然语言处理领域的一项重要任务,可广泛应用于关键词提取、意图识别、文本分类等多场景。
当前,主要采用实体识别模型对输入文本进行实体序列标注,以识别输入文本中的实体。在实体识别模型更新迭代的过程中,通常通过在模型上增加CRF层去除实体中不合理的首尾字符,以提高实体识别准确度。在采用CRF层进行实体序列标注时,若共有k种实体,每种实体包括实体开始和实体结束两种标签,则共有2k+1种序列标签(其中1是指非实体),从这2k+1种标签中预测输入文本中每个字符对应的目标标签。这种方式对于嵌套实体的识别准确度不高,例如,“北京大学”只会被识别为机构名,而不会同时识别出里面的城市名“北京”。
因此,亟需一种实体识别方法,以提高嵌套实体的识别准确度。
发明内容
鉴于以上内容,有必要提供一种实体识别方法、装置、电子设备及存储介质,旨在提高嵌套实体的识别准确度。
本发明提供的实体识别方法,包括:
获取携带实体类别信息的样本集,根据所述实体类别信息构建实体识别模型,所述实体识别模型包括多个实体识别分支,每个实体识别分支对应一个实体类别;
将所述样本集输入所述实体识别模型,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,基于所述实体类别信息、所述第一上三角标签矩阵及预先确定的损失函数训练所述实体识别模型,得到训练好的实体识别模型;
将待识别文本输入所述训练好的实体识别模型,得到所述待识别文本在每个实体类别的第二上三角标签矩阵,基于所述第二上三角标签矩阵确定所述待识别文本的实体识别结果。
可选的,所述根据所述实体类别信息构建实体识别模型,包括:
将编码网络的输出及特征提取网络的输入连接,得到主干网络;
将相关性分析网络的输入与两个并行的全连接层的输出分别连接,得到一个实体识别分支;
根据所述实体类别信息确定实体类别的数量,根据所述实体类别的数量确定实体识别分支的数量;
将编码网络的输出及主干网络的输出分别与每个实体识别分支中全连接层的输入连接,得到实体识别模型。
可选的,所述将所述样本集输入所述实体识别模型,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,包括:
将所述样本集输入所述实体识别模型的编码网络执行编码处理,得到所述样本集中每个样本的编码向量;
将所述编码向量输入所述实体识别模型的特征提取网络,得到所述样本集中每个样本的特征向量;
基于所述编码向量及特征向量确定所述样本集中每个样本的融合向量;
将所述融合向量输入所述实体识别模型的每个实体识别分支执行实体识别处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵。
可选的,所述基于所述实体类别信息、所述第一上三角标签矩阵及预先确定的损失函数训练所述实体识别模型,得到训练好的实体识别模型,包括:
基于所述实体类别信息确定所述样本集中每个样本在每个实体类别的初始上三角标签矩阵;
确定所述初始上三角标签矩阵中第一数值的第一位置索引和第二数值的第二位置索引,分别获取对应实体类别的第一上三角标签矩阵中所述第一位置索引和第二位置索引对应的数据;
将所述第一位置索引和第二位置索引对应的数据输入预先确定的损失函数,得到对应实体类别的损失值,通过最小化损失值确定所述实体识别模型的结构参数,得到训练好的实体识别模型。
可选的,所述基于所述实体类别信息确定所述样本集中每个样本在每个实体类别的初始上三角标签矩阵,包括:
从所述样本集中选择一个样本,按照其句长生成所述选择的样本在每个实体类别的原始上三角矩阵;
从所述类别信息中选择一个实体类别,确定所述选择的样本在选择的实体类别上的实体集;
确定所述实体集中每个实体在所述选择的实体类别的原始上三角矩阵中的位置信息;
根据所述位置信息将所述选择的实体类别的原始上三角矩阵中对应位置的数据设置为第一数值;
将所述选择的实体类别的原始上三角矩阵中其它位置的数据设置为第二数值,得到所述选择的样本在选择的实体类别的初始上三角标签矩阵。
可选的,所述将所述融合向量输入所述实体识别模型的每个实体识别分支执行实体识别处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,包括:
将所述样本集中每个样本的融合向量分别输入每个实体识别分支中的每个全连接层执行特征映射处理,得到每个全连接层输出的映射特征;
将每个实体识别分支中全连接层输出的映射特征输入对应的相关性分支网络执行相关性分析处理,得到每个实体识别分支输出的标签矩阵;
对所述标签矩阵进行数据掩盖处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵。
可选的,所述损失函数为:
Figure BDA0003608274370000031
其中,Li为第i个实体类别的损失值,p(i-m)为第i个实体类别的第一上三角标签矩阵中第m个第一位置索引对应的数据,p(i-n)为第i个实体类别的第一上三角标签矩阵中第n个第二位置索引对应的数据,u为第i个实体类别的第一上三角标签矩阵中第一位置索引的总数量,v为第i个实体类别的第一上三角标签矩阵中第二位置索引的总数量。
为了解决上述问题,本发明还提供一种实体识别装置,所述装置包括:
构建模块,用于获取携带实体类别信息的样本集,根据所述实体类别信息构建实体识别模型,所述实体识别模型包括多个实体识别分支,每个实体识别分支对应一个实体类别;
训练模块,用于将所述样本集输入所述实体识别模型,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,基于所述实体类别信息、所述第一上三角标签矩阵及预先确定的损失函数训练所述实体识别模型,得到训练好的实体识别模型;
识别模块,用于将待识别文本输入所述训练好的实体识别模型,得到所述待识别文本在每个实体类别的第二上三角标签矩阵,基于所述第二上三角标签矩阵确定所述待识别文本的实体识别结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的实体识别程序,所述实体识别程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实体识别方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有实体识别程序,所述实体识别程序可被一个或者多个处理器执行,以实现上述实体识别方法。
相较现有技术,本发明首先根据样本集中样本携带的实体类别信息构建实体识别模型,实体识别模型中每个实体识别分支对应一个实体类别;接着,将样本集输入实体识别模型,得到样本集中每个样本在每个实体类别的第一上三角标签矩阵,基于实体类别信息、第一上三角标签矩阵及预先确定的损失函数训练实体识别模型,得到训练好的实体识别模型;最后,将待识别文本输入训练好的实体识别模型,得到待识别文本在每个实体类别的第二上三角标签矩阵,基于第二上三角标签矩阵确定待识别文本的实体识别结果。因实体识别模型的每个实体识别分支识别对应类别的实体,提高了嵌套实体的识别准确度。因此,本发明提高了嵌套实体的识别准确性。
附图说明
图1为本发明一实施例提供的实体识别方法的流程示意图;
图2为本发明一实施例提供的实体识别模型的结构示意图;
图3为本发明一实施例提供的实体识别装置的模块示意图;
图4为本发明一实施例提供的实现实体识别方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种实体识别方法。参照图1所示,为本发明一实施例提供的实体识别方法的流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。
本实施例中,实体识别方法包括以下步骤S1-S3:
S1、获取携带实体类别信息的样本集,根据所述实体类别信息构建实体识别模型,所述实体识别模型包括多个实体识别分支,每个实体识别分支对应一个实体类别。
本实施例中,先采集携带实体类别信息标签的样本集,统计样本集对应的实体类别的数量,根据实体类别的数量构建实体识别模型,实体识别模型的每个实体识别分支对应一个实体类别,从而,根据该实体识别模型,可识别输入文本中所有的实体,可解决嵌套实体识别准确度不高的问题。
所述根据所述实体类别信息构建实体识别模型,包括以下步骤A11-A14:
A11、将编码网络的输出及特征提取网络的输入连接,得到主干网络;
如图2所示,为本发明一实施例提供的实体识别模型的结构示意图。图中左侧,串联连接的编码网络及特征提取网络为实体识别模型的主干网络。
编码网络用于对输入文本进行编码,包括字向量编码、位置向量编码及文本向量编码,所述编码网络包括串联连接的多个嵌入层。
特征提取网络用于提取输入文本的特征,本实施例中,所述特征提取网络可以是Bert模型。
A12、将相关性分析网络的输入与两个并行的全连接层的输出分别连接,得到一个实体识别分支;
每个实体识别分支中包括一对并行的全连接层及一个相关性分析网络,全连接层用于对输入数据进行整合,相关性分析网络用于对输入数据进行相关性分析,本实施例中,相关性分析网络可以是串联连接的多个attention层。
A13、根据所述实体类别信息确定实体类别的数量,根据所述实体类别的数量确定实体识别分支的数量;
本实施例中,根据实体类别的数量确定实体识别分支的数量,每个实体识别分支对应一个实体类别,从而可以识别出输入文本中所有的实体,包括嵌套实体。
A14、将编码网络的输出及主干网络的输出分别与每个实体识别分支中全连接层的输入连接,得到实体识别模型。
实体识别分支的输入,不仅包括主干网络中特征提取网络的输出,还包括编码网络的输出。
S2、将所述样本集输入所述实体识别模型,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,基于所述实体类别信息、所述第一上三角标签矩阵及预先确定的损失函数训练所述实体识别模型,得到训练好的实体识别模型。
不同于现有技术中通过实体序列标注的方式预测输入文本中每个字符对应的标签类别,本实施例中,实体识别模型为输入文本在每个实体类别上输出一个上三角标签矩阵,根据该上三角标签矩阵确定输入文本对应的实体信息。
所述将所述样本集输入所述实体识别模型,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,包括以下步骤B11-B14:
B11、将所述样本集输入所述实体识别模型的编码网络执行编码处理,得到所述样本集中每个样本的编码向量;
具体地,将所述样本集输入所述实体识别模型的编码网络分别执行字向量编码、位置向量编码及文本向量编码处理,得到所述样本集中每个样本的字向量特征、位置向量特征及文本向量特征;拼接所述字向量特征、位置向量特征及文本向量特征,得到所述样本集中每个样本的编码向量。
B12、将所述编码向量输入所述实体识别模型的特征提取网络,得到所述样本集中每个样本的特征向量;
本实施例中的特征提取网络可以是Bert模型,Bert模型中的特征提取器为transformer,transformer可以学习到输入文本中词语之间的联系,分析输入文本的语义信息,从而提取出的特征向量更加准确。
B13、基于所述编码向量及特征向量确定所述样本集中每个样本的融合向量;
本实施例中,将编码向量中的位置向量特征与特征向量加总,得到样本集中每个样本的融合向量。
B14、将所述融合向量输入所述实体识别模型的每个实体识别分支执行实体识别处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵。
所述将所述融合向量输入所述实体识别模型的每个实体识别分支执行实体识别处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,包括以下步骤C11-C13:
C11、将所述样本集中每个样本的融合向量分别输入每个实体识别分支中的每个全连接层执行特征映射处理,得到每个全连接层输出的映射特征;
全连接层可将融合向量从隐层特征空间映射到样本标记空间。
C12、将每个实体识别分支中全连接层输出的映射特征输入对应的相关性分支网络执行相关性分析处理,得到每个实体识别分支输出的标签矩阵;
例如,对于实体识别分支1,将其两个全连接层输出的映射特征输入相关性分析网络,可输出该分支对应的标签矩阵。
本实施例中,相关性分析网络根据attention机制进行相关性分析,该过程为现有技术,在此不再赘述。
C13、对所述标签矩阵进行数据掩盖处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵。
本实施例中,将每个实体识别分支输出的标签矩阵的下三角区域的数据掩盖,得到每个实体识别分支对应的第一上三角标签矩阵。
所述基于所述实体类别信息、所述第一上三角标签矩阵及预先确定的损失函数训练所述实体识别模型,得到训练好的实体识别模型,包括以下步骤D11-D13:
D11、基于所述实体类别信息确定所述样本集中每个样本在每个实体类别的初始上三角标签矩阵;
所述基于所述实体类别信息确定所述样本集中每个样本在每个实体类别的初始上三角标签矩阵,包括以下步骤E11-E15:
E11、从所述样本集中选择一个样本,按照其句长生成所述选择的样本在每个实体类别的原始上三角矩阵;
例如,若选择的样本为“北京大学在深圳有分校吗?”,其句长为12,则原始上三角矩阵是将12*12的矩阵的下三角区域删除得到的。
E12、从所述类别信息中选择一个实体类别,确定所述选择的样本在选择的实体类别上的实体集;
例如,若选择的实体类别为城市实体,则选择的样本在城市实体的实体集为{北京,深圳}。
E13、确定所述实体集中每个实体在所述选择的实体类别的原始上三角矩阵中的位置信息;
本实施例中,根据实体在选择的样本中的位置确定实体在原始上三角矩阵中的位置信息,具体地,对于任一个实体,其在原始上三角矩阵中的横坐标为实体在选择的样本中的起始位置,其在原始上三角矩阵中的纵坐标为实体在选择的样本中的结束位置。
例如,对于实体“北京”,其在选择的样本中的起始位置为1,结束位置为2,则实体“北京”在城市实体的原始上三角矩阵中的位置信息为:第1行第2列。
E14、根据所述位置信息将所述选择的实体类别的原始上三角矩阵中对应位置的数据设置为第一数值;
本实施例中,第一数值可以是1。实体“北京”的位置信息为:第1行第2列,实体“深圳”的位置信息为:第6行第7列,则将城市实体的原始上三角矩阵中这两个位置的数据设置为1。
E15、将所述选择的实体类别的原始上三角矩阵中其它位置的数据设置为第二数值,得到所述选择的样本在选择的实体类别的初始上三角标签矩阵。
所述第二数值可以是0,将城市实体的原始上三角矩阵中其它位置的数据设置为0,得到选择的样本在城市实体的初始上三角标签矩阵。
D12、确定所述初始上三角标签矩阵中第一数值的第一位置索引和第二数值的第二位置索引,分别获取对应实体类别的第一上三角标签矩阵中所述第一位置索引和第二位置索引对应的数据;
在第一上三角标签矩阵中,每个数据代表该位置对应的实体的预测概率值。
D13、将所述第一位置索引和第二位置索引对应的数据输入预先确定的损失函数,得到对应实体类别的损失值,通过最小化损失值确定所述实体识别模型的结构参数,得到训练好的实体识别模型。
本实施例中,所述损失函数为:
Figure BDA0003608274370000091
其中,Li为第i个实体类别的损失值,p(i-m)为第i个实体类别的第一上三角标签矩阵中第m个第一位置索引对应的数据,p(i-n)为第i个实体类别的第一上三角标签矩阵中第n个第二位置索引对应的数据,u为第i个实体类别的第一上三角标签矩阵中第一位置索引的总数量,v为第i个实体类别的第一上三角标签矩阵中第二位置索引的总数量。
通过上述损失函数,可保证负样本的预测值小于正样本的预测值,充分保证了模型的实体识别准确性。
S3、将待识别文本输入所述训练好的实体识别模型,得到所述待识别文本在每个实体类别的第二上三角标签矩阵,基于所述第二上三角标签矩阵确定所述待识别文本的实体识别结果。
得到待识别文本在每个实体类别的第二上三角标签矩阵后,根据该矩阵中数值大于预设阈值(例如,0.8)的数据的位置信息,可确定待识别文本在每个实体类别的实体识别结果。
由上述实施例可知,本发明提出的实体识别方法,首先,根据样本集中样本携带的实体类别信息构建实体识别模型,实体识别模型中每个实体识别分支对应一个实体类别;接着,将样本集输入实体识别模型,得到样本集中每个样本在每个实体类别的第一上三角标签矩阵,基于实体类别信息、第一上三角标签矩阵及预先确定的损失函数训练实体识别模型,得到训练好的实体识别模型;最后,将待识别文本输入训练好的实体识别模型,得到待识别文本在每个实体类别的第二上三角标签矩阵,基于第二上三角标签矩阵确定待识别文本的实体识别结果。因实体识别模型的每个实体识别分支识别对应类别的实体,提高了嵌套实体的识别准确度。因此,本发明提高了嵌套实体的识别准确性。
如图3所示,为本发明一实施例提供的实体识别装置的模块示意图。
本发明所述实体识别装置100可以安装于电子设备中。根据实现的功能,所述实体识别装置100可以包括构建模块110、训练模块120及识别模块130。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
构建模块110,用于获取携带实体类别信息的样本集,根据所述实体类别信息构建实体识别模型,所述实体识别模型包括多个实体识别分支,每个实体识别分支对应一个实体类别。
所述根据所述实体类别信息构建实体识别模型,包括以下步骤A21-A24:
A21、将编码网络的输出及特征提取网络的输入连接,得到主干网络;
A22、将相关性分析网络的输入与两个并行的全连接层的输出分别连接,得到一个实体识别分支;
A23、根据所述实体类别信息确定实体类别的数量,根据所述实体类别的数量确定实体识别分支的数量;
A24、将编码网络的输出及主干网络的输出分别与每个实体识别分支中全连接层的输入连接,得到实体识别模型。
训练模块120,用于将所述样本集输入所述实体识别模型,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,基于所述实体类别信息、所述第一上三角标签矩阵及预先确定的损失函数训练所述实体识别模型,得到训练好的实体识别模型。
所述将所述样本集输入所述实体识别模型,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,包括以下步骤B21-B24:
B21、将所述样本集输入所述实体识别模型的编码网络执行编码处理,得到所述样本集中每个样本的编码向量;
B22、将所述编码向量输入所述实体识别模型的特征提取网络,得到所述样本集中每个样本的特征向量;
B23、基于所述编码向量及特征向量确定所述样本集中每个样本的融合向量;
B24、将所述融合向量输入所述实体识别模型的每个实体识别分支执行实体识别处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵。
所述将所述融合向量输入所述实体识别模型的每个实体识别分支执行实体识别处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,包括以下步骤C21-C23:
C21、将所述样本集中每个样本的融合向量分别输入每个实体识别分支中的每个全连接层执行特征映射处理,得到每个全连接层输出的映射特征;
C22、将每个实体识别分支中全连接层输出的映射特征输入对应的相关性分支网络执行相关性分析处理,得到每个实体识别分支输出的标签矩阵;
C23、对所述标签矩阵进行数据掩盖处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵。
所述基于所述实体类别信息、所述第一上三角标签矩阵及预先确定的损失函数训练所述实体识别模型,得到训练好的实体识别模型,包括以下步骤D21-D23:
D21、基于所述实体类别信息确定所述样本集中每个样本在每个实体类别的初始上三角标签矩阵;
D22、确定所述初始上三角标签矩阵中第一数值的第一位置索引和第二数值的第二位置索引,分别获取对应实体类别的第一上三角标签矩阵中所述第一位置索引和第二位置索引对应的数据;
D23、将所述第一位置索引和第二位置索引对应的数据输入预先确定的损失函数,得到对应实体类别的损失值,通过最小化损失值确定所述实体识别模型的结构参数,得到训练好的实体识别模型。
本实施例中,所述损失函数为:
Figure BDA0003608274370000111
其中,Li为第i个实体类别的损失值,p(i-m)为第i个实体类别的第一上三角标签矩阵中第m个第一位置索引对应的数据,p(i-n)为第i个实体类别的第一上三角标签矩阵中第n个第二位置索引对应的数据,u为第i个实体类别的第一上三角标签矩阵中第一位置索引的总数量,v为第i个实体类别的第一上三角标签矩阵中第二位置索引的总数量。
所述基于所述实体类别信息确定所述样本集中每个样本在每个实体类别的初始上三角标签矩阵,包括以下步骤E21-E25:
E21、从所述样本集中选择一个样本,按照其句长生成所述选择的样本在每个实体类别的原始上三角矩阵;
E22、从所述类别信息中选择一个实体类别,确定所述选择的样本在选择的实体类别上的实体集;
E23、确定所述实体集中每个实体在所述选择的实体类别的原始上三角矩阵中的位置信息;
E24、根据所述位置信息将所述选择的实体类别的原始上三角矩阵中对应位置的数据设置为第一数值;
E25、将所述选择的实体类别的原始上三角矩阵中其它位置的数据设置为第二数值,得到所述选择的样本在选择的实体类别的初始上三角标签矩阵。
识别模块130,用于将待识别文本输入所述训练好的实体识别模型,得到所述待识别文本在每个实体类别的第二上三角标签矩阵,基于所述第二上三角标签矩阵确定所述待识别文本的实体识别结果。
如图4所示,为本发明一实施例提供的实现实体识别方法的电子设备的结构示意图。
所述电子设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子设备1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有实体识别程序10,所述实体识别程序10可被所述处理器12执行。图4仅示出了具有组件11-13以及实体识别程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元,例如该电子设备1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的实体识别程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行实体识别程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的实体识别程序10是多个指令的组合,在所述处理器12中运行时,可以实现上述实体识别方法。
具体地,所述处理器12对上述实体识别程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是非易失性的,也可以是非易失性的。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)。
所述计算机可读存储介质上存储有实体识别程序10,所述实体识别程序10可被一个或者多个处理器执行,以实现上述实体识别方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (7)

1.一种实体识别方法,其特征在于,所述方法包括:
获取携带实体类别信息的样本集,根据所述实体类别信息构建实体识别模型,所述实体识别模型包括多个实体识别分支,每个实体识别分支对应一个实体类别;
将所述样本集中每个样本的融合向量输入所述实体识别模型的每个实体识别分支执行实体识别处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,基于所述实体类别信息、所述第一上三角标签矩阵及预先确定的损失函数训练所述实体识别模型,得到训练好的实体识别模型,所述样本集中每个样本的融合向量是根据所述样本集中每个样本的编码向量和特征向量确定的;
将待识别文本输入所述训练好的实体识别模型,得到所述待识别文本在每个实体类别的第二上三角标签矩阵,基于所述第二上三角标签矩阵确定所述待识别文本的实体识别结果;其中,
所述将所述样本集中每个样本的融合向量输入所述实体识别模型的每个实体识别分支执行实体识别处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,包括:将所述样本集中每个样本的融合向量分别输入每个实体识别分支中的每个全连接层执行特征映射处理,得到每个全连接层输出的映射特征;将每个实体识别分支中全连接层输出的映射特征输入对应的相关性分支网络执行相关性分析处理,得到每个实体识别分支输出的标签矩阵;对所述标签矩阵进行数据掩盖处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵;
所述基于所述实体类别信息、所述第一上三角标签矩阵及预先确定的损失函数训练所述实体识别模型,得到训练好的实体识别模型,包括:基于所述实体类别信息确定所述样本集中每个样本在每个实体类别的初始上三角标签矩阵;确定所述初始上三角标签矩阵中第一数值的第一位置索引和第二数值的第二位置索引,分别获取对应实体类别的第一上三角标签矩阵中所述第一位置索引和第二位置索引对应的数据;将所述第一位置索引和第二位置索引对应的数据输入预先确定的损失函数,得到对应实体类别的损失值,通过最小化损失值确定所述实体识别模型的结构参数,得到训练好的实体识别模型;
所述基于所述实体类别信息确定所述样本集中每个样本在每个实体类别的初始上三角标签矩阵,包括:从所述样本集中选择一个样本,按照其句长生成所述选择的样本在每个实体类别的原始上三角矩阵;从所述类别信息中选择一个实体类别,确定所述选择的样本在选择的实体类别上的实体集;确定所述实体集中每个实体在所述选择的实体类别的原始上三角矩阵中的位置信息;根据所述位置信息将所述选择的实体类别的原始上三角矩阵中对应位置的数据设置为第一数值;将所述选择的实体类别的原始上三角矩阵中其它位置的数据设置为第二数值,得到所述选择的样本在选择的实体类别的初始上三角标签矩阵。
2.如权利要求1所述的实体识别方法,其特征在于,所述根据所述实体类别信息构建实体识别模型,包括:
将编码网络的输出及特征提取网络的输入连接,得到主干网络;
将相关性分析网络的输入与两个并行的全连接层的输出分别连接,得到一个实体识别分支;
根据所述实体类别信息确定实体类别的数量,根据所述实体类别的数量确定实体识别分支的数量;
将编码网络的输出及主干网络的输出分别与每个实体识别分支中全连接层的输入连接,得到实体识别模型。
3.如权利要求1所述的实体识别方法,其特征在于,所述融合向量是按照如下步骤确定的:
将所述样本集输入所述实体识别模型的编码网络执行编码处理,得到所述样本集中每个样本的编码向量;
将所述编码向量输入所述实体识别模型的特征提取网络,得到所述样本集中每个样本的特征向量;
基于所述编码向量及特征向量确定所述样本集中每个样本的融合向量。
4.如权利要求1所述的实体识别方法,其特征在于,所述损失函数为:
其中,Li为第i个实体类别的损失值,p(i-m)为第i个实体类别的第一上三角标签矩阵中第m个第一位置索引对应的数据,p(i-n)为第i个实体类别的第一上三角标签矩阵中第n个第二位置索引对应的数据,u为第i个实体类别的第一上三角标签矩阵中第一位置索引的总数量,v为第i个实体类别的第一上三角标签矩阵中第二位置索引的总数量。
5.一种实体识别装置,其特征在于,所述装置包括:
构建模块,用于获取携带实体类别信息的样本集,根据所述实体类别信息构建实体识别模型,所述实体识别模型包括多个实体识别分支,每个实体识别分支对应一个实体类别;
训练模块,用于将所述样本集中每个样本的融合向量输入所述实体识别模型的每个实体识别分支执行实体识别处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,基于所述实体类别信息、所述第一上三角标签矩阵及预先确定的损失函数训练所述实体识别模型,得到训练好的实体识别模型,所述样本集中每个样本的融合向量是根据所述样本集中每个样本的编码向量和特征向量确定的;
识别模块,用于将待识别文本输入所述训练好的实体识别模型,得到所述待识别文本在每个实体类别的第二上三角标签矩阵,基于所述第二上三角标签矩阵确定所述待识别文本的实体识别结果;其中,
所述将所述样本集中每个样本的融合向量输入所述实体识别模型的每个实体识别分支执行实体识别处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵,包括:将所述样本集中每个样本的融合向量分别输入每个实体识别分支中的每个全连接层执行特征映射处理,得到每个全连接层输出的映射特征;将每个实体识别分支中全连接层输出的映射特征输入对应的相关性分支网络执行相关性分析处理,得到每个实体识别分支输出的标签矩阵;对所述标签矩阵进行数据掩盖处理,得到所述样本集中每个样本在每个实体类别的第一上三角标签矩阵;
所述基于所述实体类别信息、所述第一上三角标签矩阵及预先确定的损失函数训练所述实体识别模型,得到训练好的实体识别模型,包括:基于所述实体类别信息确定所述样本集中每个样本在每个实体类别的初始上三角标签矩阵;确定所述初始上三角标签矩阵中第一数值的第一位置索引和第二数值的第二位置索引,分别获取对应实体类别的第一上三角标签矩阵中所述第一位置索引和第二位置索引对应的数据;将所述第一位置索引和第二位置索引对应的数据输入预先确定的损失函数,得到对应实体类别的损失值,通过最小化损失值确定所述实体识别模型的结构参数,得到训练好的实体识别模型;
所述基于所述实体类别信息确定所述样本集中每个样本在每个实体类别的初始上三角标签矩阵,包括:从所述样本集中选择一个样本,按照其句长生成所述选择的样本在每个实体类别的原始上三角矩阵;从所述类别信息中选择一个实体类别,确定所述选择的样本在选择的实体类别上的实体集;确定所述实体集中每个实体在所述选择的实体类别的原始上三角矩阵中的位置信息;根据所述位置信息将所述选择的实体类别的原始上三角矩阵中对应位置的数据设置为第一数值;将所述选择的实体类别的原始上三角矩阵中其它位置的数据设置为第二数值,得到所述选择的样本在选择的实体类别的初始上三角标签矩阵。
6.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的实体识别程序,所述实体识别程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的实体识别方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有实体识别程序,所述实体识别程序可被一个或者多个处理器执行,以实现如权利要求1至4任一项所述的实体识别方法。
CN202210426188.0A 2022-04-21 2022-04-21 实体识别方法、装置、电子设备及存储介质 Active CN114742060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210426188.0A CN114742060B (zh) 2022-04-21 2022-04-21 实体识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210426188.0A CN114742060B (zh) 2022-04-21 2022-04-21 实体识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114742060A CN114742060A (zh) 2022-07-12
CN114742060B true CN114742060B (zh) 2023-05-02

Family

ID=82284334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210426188.0A Active CN114742060B (zh) 2022-04-21 2022-04-21 实体识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114742060B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257421A (zh) * 2020-12-21 2021-01-22 完美世界(北京)软件科技发展有限公司 嵌套实体数据的识别方法、装置及电子设备
CN112257449A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN113326701A (zh) * 2021-06-17 2021-08-31 广州华多网络科技有限公司 嵌套实体识别方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087086B2 (en) * 2019-07-12 2021-08-10 Adp, Llc Named-entity recognition through sequence of classification using a deep learning neural network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257449A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN112257421A (zh) * 2020-12-21 2021-01-22 完美世界(北京)软件科技发展有限公司 嵌套实体数据的识别方法、装置及电子设备
CN113326701A (zh) * 2021-06-17 2021-08-31 广州华多网络科技有限公司 嵌套实体识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN114742060A (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN112417096B (zh) 问答对匹配方法、装置、电子设备及存储介质
CN111241304B (zh) 基于深度学习的答案生成方法、电子装置及可读存储介质
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
CN110033018B (zh) 图形相似度判断方法、装置及计算机可读存储介质
CN114462412B (zh) 实体识别方法、装置、电子设备及存储介质
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN114706985A (zh) 文本分类方法、装置、电子设备及存储介质
CN114281991A (zh) 文本分类方法、装置、电子设备及存储介质
CN114840684A (zh) 基于医疗实体的图谱构建方法、装置、设备及存储介质
CN114416939A (zh) 智能问答方法、装置、设备及存储介质
CN113344125A (zh) 长文本匹配识别方法、装置、电子设备及存储介质
CN114818685B (zh) 关键词提取方法、装置、电子设备及存储介质
CN113705692B (zh) 基于人工智能的情感分类方法、装置、电子设备及介质
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN116628162A (zh) 语义问答方法、装置、设备及存储介质
CN114742060B (zh) 实体识别方法、装置、电子设备及存储介质
CN113688239B (zh) 少样本下的文本分类方法、装置、电子设备及存储介质
CN114139530A (zh) 同义词提取方法、装置、电子设备及存储介质
CN113656586B (zh) 情感分类方法、装置、电子设备及可读存储介质
CN113706252B (zh) 产品推荐方法、装置、电子设备及存储介质
CN113610580B (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN115510188A (zh) 文本关键词关联方法、装置、设备及存储介质
CN115346095A (zh) 视觉问答方法、装置、设备及存储介质
CN114398877A (zh) 基于人工智能的主题提取方法、装置、电子设备及介质
CN113792539B (zh) 基于人工智能的实体关系分类方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant