CN113420561B - 一种命名实体识别方法、装置、设备及存储介质 - Google Patents

一种命名实体识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113420561B
CN113420561B CN202110795179.4A CN202110795179A CN113420561B CN 113420561 B CN113420561 B CN 113420561B CN 202110795179 A CN202110795179 A CN 202110795179A CN 113420561 B CN113420561 B CN 113420561B
Authority
CN
China
Prior art keywords
character
graph
entity
recognized
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110795179.4A
Other languages
English (en)
Other versions
CN113420561A (zh
Inventor
钟韵辞
万建伟
孙科
贺凯
余非
裴卫民
冯文亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pudong Development Bank Co Ltd filed Critical Shanghai Pudong Development Bank Co Ltd
Priority to CN202110795179.4A priority Critical patent/CN113420561B/zh
Publication of CN113420561A publication Critical patent/CN113420561A/zh
Application granted granted Critical
Publication of CN113420561B publication Critical patent/CN113420561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种命名实体识别方法、装置、设备及存储介质。该方法包括:获取待识别字符的图特征向量;将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别,通过本发明的技术方案,以解决命名实体识别模型初始特征缺少领域字符实体关系的问题,同时改善训练样本不均带来的个别实体被忽略问题。

Description

一种命名实体识别方法、装置、设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种命名实体识别方法、装置、设备及存储介质。
背景技术
命名实体识别是信息抽取任务的一种子任务。信息抽取即从非结构化的数据中(如文本)中提取出结构化的信息及特定的关系,其中,命名实体识别是要确定抽取出的信息实体的名称(类别),并同时确定出命名实体的范围与边界。对于这一应用问题,现有的解决方案有如下几大类:
1.基于规则的方法:对于特定知识领域下文本中的命名实体识别任务,基于规则的方法通常是让该领域的专家制定出一套识别规则,例如关键字/词,结构形式等,从目标文本中筛选出符合规则的实体。
2.传统机器学习方法:这类方法主要是采用对已有数据中的实体进行标注,辅以按照一定规则(例如几种词袋模型)对数据中文本要素(字、词等)生成的数值向量特征,再用数据训练统计机器学习模型,例如最大熵模型(MEME)、隐马尔可夫模型(HMM)、条件随机场模型(CRF)等,最后使用训练完成的模型预测新数据中存在的实体。
3.深度学习方法:这类方法是目前的主流。特点是训练各种神经网络,后进行预测。实际上,这类方法可视为对传统机器学习方法中数值向量特征生成方式的增强。这是因为传统方式中的各种模型往往是神经网络最后进行预测的部分,而在预测之前的神经网络结构事实上完成的任务是生成信息表达能力更强的向量特征。比较典型的方法是各种循环神经网络(如LSTM)加上预测模型(如CRF)。
现有技术的缺点概括如下:
首先,基于规则的方法编制出的规则通常依赖于文本所属的领域以及撰写的风格,这些要素在不同文本中高度不稳定不一致,而规则缺乏灵活性,难以覆盖所有可能出现的情况,泛化能力差。
其次,传统机器学习方法虽然能从大量数据中学习到适应性相对较强的判断逻辑,但由于其特征表达能力尚有欠缺,当数据量增加、语言风格频繁变化时,常规特征工程难以充分表达出文本之间的共性与差异,进而影响方法整体的效果。
最后,基于深度学习的方法作为当前的主流,将传统分类器模型融入到神经网络模型中,使得模型具备更强的特征表达能力,进而对真实数据分布有更强的拟合能力。这一大类方法在各种领域的数据上展示出了良好的效果,得到了广泛的应用。但即便如此,此类方法仍有可改进之处,一个典型的问题就是模型输入特征向量的初始化。具体地,一般在深度学习模型中,作为模型最初输入的样本特征(或称表征、表示)向量若不进行特殊处理,则通常为随机数,不携带有效信息,在以目标函数为指导下进行训练后,其值才发生改变,并开始表达样本携带的信息。
因此,如何初始化特征向量对模型效果会产生相当的影响。目前,业界采用较多的方式是使用一些使用广域、巨量文本数据预训练的词向量作为初始特征向量。这种方式存在一些不足。一方面,虽然提供了比较通用的语义特征,但缺少当前领域内特定的语义关系;另一方面,当训练数据中的实体分布非常不均匀时(例如总共6种实体,出现最多的实体出现10000次,出现最少的实体出现10次),容易出现模型整体预测准确度较好,但对于个别标签的预测准确度很差的情况。
发明内容
本发明实施例提供一种命名实体识别方法、装置、设备及存储介质,以解决命名实体识别模型初始特征缺少领域字符实体关系的问题,同时改善训练样本不均带来的个别实体被忽略问题。
第一方面,本发明实施例提供了一种命名实体识别方法,包括:
获取待识别字符的图特征向量;
将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别。
第二方面,本发明实施例还提供了一种命名实体识别装置,该装置包括:
获取模块,用于获取待识别字符的图特征向量;
识别模块,用于将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的命名实体识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的命名实体识别方法。
本发明实施例通过获取待识别字符的图特征向量;将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别,以解决命名实体识别模型初始特征缺少领域字符实体关系的问题,同时改善训练样本不均带来的个别实体被忽略问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例中的一种命名实体识别方法的流程图;
图1a是本发明实施例中的基于字符-实体图特征的命名实体识别流程图;
图1b是本发明实施例中的带权字符-实体图构建示例图;
图1c是本发明实施例中的图自编码器SDNE结构的示意图;
图1d是本发明实施例中的BiLSTM+CRF命名实体识别模型的示意图;
图2是本发明实施例中的一种命名实体识别装置的结构示意图;
图3是本发明实施例中的一种电子设备的结构示意图;
图4是本发明实施例中的一种包含计算机程序的计算机可读存储介质的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本发明实施例提供的一种命名实体识别方法的流程图,本实施例可适用于命名实体识别的情况,该方法可以由本发明实施例中的命名实体识别装置来执行,该装置可采用软件和/或硬件的方式实现,如图1所示,该方法具体包括如下步骤:
S110,获取待识别字符的图特征向量。
其中,获取待识别字符的图特征向量的方式可以为:获取待识别字符;根据所述待识别字符查询每个字符节点对应的图特征向量,得到所述待识别字符的图特征向量;获取待识别字符的图特征向量的方式还可以为:预先建立字符和图特征向量的对应关系表,在获取到待识别字符后,根据待识别字符查询关系表,得到待识别字符对应的图特征向量,本发明实施例对此不进行限制。
S120,将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别。
其中,所述目标命名实体识别模型可以包括:BiLSTM子模型和CRF子模型,所述目标命名实体识别模型也可以只包括:BiLSTM子模型,本发明实施例对此不进行限制。
示例性的,将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别,例如可以是,获取待识别文本序列,对待识别文本序列中的每个待识别字符,将所述待识别字符的图特征向量输入前向传播后输出与文本序列等长的标签序列,即指明序列中哪些部分是哪种实体。
可选的,在获取待识别字符的图特征向量之前,还包括:
获取文本样本,其中,所述文本样本包括:实体标注;
根据所述文本样本中的字符和字符之间的关系建立字符实体图;
根据所述字符实体图确定每个字符节点对应的邻接向量;
将每个字符节点对应的邻接向量输入SDNE模型,得到每个字符节点对应的图特征向量。
其中,所述实体标注可以包括:哪些字符对应存在实体和字符具体是对应哪一类实体。
具体的,获取文本样本,其中,所述文本样本包括:实体标注;根据所述文本样本中的字符和字符之间的关系建立字符实体图;根据所述字符实体图确定每个字符节点对应的邻接向量;将每个字符节点对应的邻接向量输入SDNE模型,得到每个字符节点对应的图特征向量的方式可以为:获取文本样本,即一组字符序列,完成实体标注后的数据中会标明序列中作为实体的子序列,并确定属于哪一种实体。以此为前提,遍历所有序列,将每一个字符作为字符节点,若一对字符同时出现在一个实体中则建立连边。在此之后,再进行一次遍历,将每个不属于任何实体的字符与其自身序列距离最近的实体中的随机一个字符进行连边。初步建立起字符实体图。将字符实体图作为图自编码器网络SDNE模型的输入训练数据,具体的形式是行列号均为字符节点的邻接矩阵,每一元素都是两节点间边的权重。以此来训练SDNE模型,获取对应字符的图特征向量;获取文本样本,其中,所述文本样本包括:实体标注;根据所述文本样本中的字符和字符之间的关系建立字符实体图;根据所述字符实体图确定每个字符节点对应的邻接向量;将每个字符节点对应的邻接向量输入SDNE模型,得到每个字符节点对应的图特征向量的方式还可以为:获取文本样本,即一组字符序列,完成实体标注后的数据中会标明序列中作为实体的子序列,并确定属于哪一种实体。以此为前提,遍历所有序列,将每一个字符作为字符节点,若一对字符同时出现在一个实体中则建立连边。在此之后,再进行一次遍历,将每个不属于任何实体的字符与其自身序列距离最近的实体中的随机一个字符进行连边。初步建立起字符实体图。对字符实体图按照如下规则赋权重:假设共有n种实体,首先统计各个实体占训练数据总实体数的比例pi,然后将各实体的比例值取倒数并归一化(例如可以是,通过公式
Figure BDA0003162442800000081
计算得到边的权重),最终得到的值即为对应实体产生的边的权重wi(如果有多个对应实体,取可取的最大权重)。对于无实体对应的边,权重直接取-1。如上述建立起来的带权字符-实体图,不仅记录了文本序列中各字符在实体中的关系信息,而且还通过边权重逆置了占比不同的实体关系的重要性,使后续模型在使用该图进行训练时可以对出现较少的实体给予更多的关注。将字符实体图作为图自编码器网络SDNE模型的输入训练数据,具体的形式是行列号均为字符节点的邻接矩阵,每一元素都是两节点间边的权重。以此来训练SDNE模型,获取对应字符的图特征向量。
可选的,获取待识别字符的图特征向量,包括:
获取待识别字符;
根据所述待识别字符查询所述每个字符节点对应的图特征向量,得到所述待识别字符的图特征向量。
其中,所述待识别字符可以为用户输入的字符,也可以为对待识别文本进行拆分后,得到的待识别字符,本发明实施例对此不进行限制。
其中,根据所述待识别字符查询所述每个字符节点对应的图特征向量,得到所述待识别字符的图特征向量的方式可以为:获取每个字符节点对应的图特征向量,根据每个字符节点对应的图特征向量生成目标表,根据所述待识别字符查询所述目标表,得到所述待识别字符的图特征向量。
可选的,根据所述文本样本中的字符和字符之间的关系建立字符实体图,包括:
将所述文本样本中的每一个字符确定为字符节点,根据字符之间的关系建立字符节点之间的边,得到字符实体图。
其中,根据所述文本样本中的字符和字符之间的关系建立字符实体图可以为根据文本样本中的字符和字符之间的实体共属关系建立字符实体图。
示例性的,将所述文本样本中的每一个字符确定为字符节点,根据字符之间的关系建立字符节点之间的边,得到字符实体图,例如可以是,将每一个字符作为字符节点,若一对字符同时出现在一个实体中则建立连边。在此之后,再进行一次遍历,将每个不属于任何实体的字符与其自身序列距离最近的实体中的随机一个字符进行连边。初步建立起字符实体图。
可选的,在根据所述文本样本中的字符和字符之间的关系建立字符实体图之后,还包括:
按照预设规则确定所述字符实体图的边的权重。
其中,所述预设规则可以为假设共有n种实体,首先统计各个实体占训练数据总实体数的比例pi,然后将各实体的比例值取倒数并归一化(例如可以是,通过公式
Figure BDA0003162442800000091
计算得到边的权重),最终得到的值即为对应实体产生的边的权重wi(如果有多个对应实体,取可取的最大权重)。对于无实体对应的边,权重直接取-1,也可以根据用户需求进行设定,本发明实施例对此不进行限制。
可选的,按照预设规则确定所述字符实体图的边的权重:
根据各个实体占总实体数的比例确定各个实体对应的边的权重。
示例性的,根据各个实体占总实体数的比例确定各个实体对应的边的权重的方式可以为:通过公式
Figure BDA0003162442800000101
计算得到边的权重,pi为各个实体占训练数据总实体数的比例。
可选的,所述SDNE模型的损失函数包括:
Figure BDA0003162442800000102
Figure BDA0003162442800000103
其中,|V|为字符实体图中字符节点的数量,W代表SDNE模型的网络参数,xi为字符节点i对应的邻接向量,x′i为SDNE模型的输出,ui为字符i的图特征向量,uj为字符j的图特征向量,sij是邻接矩阵上ij位置对应的边权重,bi是字符i对应的编解码损失权重向量,
Figure BDA0003162442800000104
n+为正边权重的数量,n-为负边权重的数量,n0为权重为0的边的数量。
在一个具体的例子中,为解决现有技术存在的问题,提出一种基于字符-实体图特征的命名实体识别的方法。如图1a所示,该方法分为以下几个步骤:1.建立带权字符-实体图;2.训练图自编码器网络,获取字符的图特征向量;3.将字符的图特征向量作为Bi-LSTM+CRF模型的初始向量,并进行训练;4.预测时,待预测数据中的字符仍采用步骤2已训练出的向量作为特征向量输入到步骤3训练好的Bi-LSTM+CRF模型进行预测。以下对这几个步骤进行详细描述。
1.建立字符-实体图及边权重设定
对于命名实体识别任务,数据为成段的文本,即一组字符序列,完成实体标注后的数据中会标明序列中作为实体的子序列,以此确定字符属于哪一种实体。
边连接:以此为前提,遍历所有序列,将每一个字符作为字符节点,若一对字符同时出现在一个实体中则建立连边。在此之后,再进行一次遍历,将每个不属于任何实体的字符与其自身序列距离最近的实体中的随机一个字符进行连边。初步建立起字符实体图。
权重分配:如图1b所示,对字符实体图按照如下规则赋权重:假设共有n种实体,首先统计各个实体占训练数据总实体数的比例pi,然后将各实体的比例值取倒数并归一化(例如可以是,通过公式
Figure BDA0003162442800000111
计算得到边的权重),最终得到的值即为对应实体产生的边的权重wi(如果有多个对应实体,取可取的最大权重)。对于无实体对应的边,权重直接取-1。如上述建立起来的带权字符-实体图,不仅记录了文本序列中各字符在实体中的关系信息,而且还通过边权重逆置了占比不同的实体关系的重要性,使后续模型在使用该图进行训练时可以对出现较少的实体给予更多的关注。
2.训练图自编码器及特殊超参设定
图自编码器结构与训练:将上一步骤建立起的带权字符-实体图作为图自编码器网络SDNE模型的输入训练数据,具体的形式是行列号均为字符节点的邻接矩阵,每一元素都是两节点间边的权重。以此来训练SDNE模型,获取对应字符的图特征向量。
如图1c所示,SDNE模型包括编码部分,解码部分,以及拉普拉斯特征映射部分。其中,编码部分以单个字符节点i对应的初始邻接向量(邻接矩阵中的对应行)xi为输入,并依次有维度递减的若干全连接隐藏层(层数,和每层隐藏向量维数视具体情况人为设定);解码部分承接编码部分最后的隐藏层输出,依次有维度递增的若干全连接隐藏层,并输出一个维度与初始邻接向量相同的编解码向量;拉普拉斯特征映射部分计算每一对有边节点的特征向量ui、uj(即编码部分输出、解码部分输入)间的L2范数距离。
由此,模型的训练需要拟合两个损失函数:
(1)编解码损失:
Figure BDA0003162442800000121
其中,W代表图自编码器网络全体可训练的网络参数,bi是字符i对应的编解码损失权重向量,其分量视原邻接向量而定,对应位置分量为零,则置1,不为零则置人为设定的大于1的数值;
(2)拉普拉斯特征映射损失:
Figure BDA0003162442800000122
其中,需要训练更新的值是ui,uj,sij是邻接矩阵上ij位置的元素值(即边权重)。使用反向传播算法更新待训练参数。
编解码损失权重设定:上述模型损失(1)中涉及的编解码距离权重向量原始设计动机为,由于常见图(如社交网络)通常极度稀疏,即每个邻接向量绝大多数分量都是0,所以可能出现即使解码后还原的非零分量很少,损失值也不会很高,使训练失效的情况,因而设计此权重向量提高非零分量在损失函数中的影响。
本方案中面向的字符-实体图与常见图存在一定区别,以前述规则构建的字符实体图存在正边权重、负边权重(-1)和0三种,通常情况下后两种数量级相近,且量级高于第一种,但不会达到类似社交网络的量级差。简单而言,即字符-实体图的边权重类型与常见图有差异,且稠密程度相对高。
因此本发明实施例对编解码距离权重向量进行了适配性的调整,本发明实施例中该超参的设定规则为:令正边权重、负边权重、0三种边的数量依次为n+、n-、n0,先以零边权重为基准设定对应损失权重为1,正边权重、负边权重的对应损失权重为零边权重数量与自身数量之比,再由于损失中涉及到平方,为防止量纲过大,损失权重截断于2。如下式所示:
Figure BDA0003162442800000131
以上过程训练出的模型可以较好地将每个字符与其它字符全局的实体关系信息进行压缩,为局部共属同一实体的字符提供与边权重正相关的相似性,形成有效的图特征向量。
需要补充的是,训练数据通常不能涵盖预测时所有可能出现的字符,因此设置‘<UNK>’字符,对应图特征向量为所有无归属实体字符向量的均值,预测时出现训练时为出现的字符即使用该向量。
3.训练命名实体识别模型(BiLSTM+CRF)
该步骤训练双向长短时记忆网络+条件随机场(BiLSTM+CRF)命名实体识别模型,完成的任务具体为,面向文本序列,对序列中的每个字符,取该字符的初始特征向量为输入,前向传播后输出与文本序列等长的标签序列,即指明序列中哪些部分是哪种实体。
在本发明实施例中字符初始特征向量即为步骤2图特征向量。
如图1d所示,BiLSTM+CRF模型结构如下,BiLSTM部分由前向后向两层LSTM层构成,层内是依次连接的LSTM单元。两层LSTM各自均会输出隐藏层向量,二者输出的隐藏层向量进行连接及作为BiLSTM部分的输出。CRF接收BiLSTM输出,经过维特比算法解码后输出最后的标签序列。
训练时,以最大化CRF发射转移得分为目标训练BiLSTM+CRF模型。
4.预测
预测时,将待预测文本序列中的字符一一映射到步骤2产出的图特征向量,并输入到步骤3训练好的BiLSTM+CRF模型预测出标签序列。
本发明实施例能够建立带权字符-实体图以及使用适于生成图特征的图自编码器训练图特征,以解决命名实体识别模型初始特征缺少领域字符实体关系的问题,同时改善训练样本不均带来的个别实体被忽略问题。
本发明实施例能够根据字符实体归属连接边,根据实体在训练数据中的出现频次确定边权重,建立字符-实体图;并且通过特殊处理超参后训练图自编码器抽取字符的图特征,用作常规序列标注模型的输入。
本发明实施例能够建立图以抽象字符关系信息,并根据训练数据实体比例确定图边权重,平衡出现次数不同实体间的关注度。使用图自编码器抽取关系信息。抽取到的关系信息兼顾全局与局部,且可以关注到边权重影响。并将图自编码器进行了调整以适应字符-实体图。
本实施例的技术方案,通过获取待识别字符的图特征向量;将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别,以解决命名实体识别模型初始特征缺少领域字符实体关系的问题,同时改善训练样本不均带来的个别实体被忽略问题。
图2为本发明实施例提供的一种命名实体识别装置的结构示意图。本实施例可适用于命名实体识别的情况,该装置可采用软件和/或硬件的方式实现,该装置可集成在任何提供命名实体识别功能的设备中,如图2所示,所述命名实体识别装置具体包括:获取模块210和识别模块220。
其中,获取模块,用于获取待识别字符的图特征向量;
识别模块,用于将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
本实施例的技术方案,通过获取待识别字符的图特征向量;将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别,以解决命名实体识别模型初始特征缺少领域字符实体关系的问题,同时改善训练样本不均带来的个别实体被忽略问题。
图3为本发明实施例中的一种电子设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图3显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。另外,本实施例中的电子设备12,显示器24不是作为独立个体存在,而是嵌入镜面中,在显示器24的显示面不予显示时,显示器24的显示面与镜面从视觉上融为一体。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的命名实体识别方法:
获取待识别字符的图特征向量;
将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别。
图4为本发明实施例中的一种包含计算机程序的计算机可读存储介质的结构示意图。本发明实施例提供了一种计算机可读存储介质61,其上存储有计算机程序610,该程序被一个或多个处理器执行时实现如本申请所有发明实施例提供的命名实体识别方法:
获取待识别字符的图特征向量;
将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种命名实体识别方法,其特征在于,包括:
获取待识别字符的图特征向量;
将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别;
在获取待识别字符的图特征向量之前,还包括:
获取文本样本,其中,所述文本样本包括:实体标注;
根据所述文本样本中的字符和字符之间的关系建立字符实体图;
根据所述字符实体图确定每个字符节点对应的邻接向量;
将每个字符节点对应的邻接向量输入SDNE模型,得到每个字符节点对应的图特征向量;
所述SDNE模型的损失函数包括:
Figure FDA0003904100650000011
Figure FDA0003904100650000012
其中,|V|为字符实体图中字符节点的数量,W代表SDNE模型的网络参数,xi为字符节点i对应的邻接向量,x′i为SDNE模型的输出,ui为字符i的图特征向量,uj为字符j的图特征向量,sij是邻接矩阵上ij位置对应的边权重,bi是字符i对应的编解码损失权重向量,
Figure FDA0003904100650000013
n+为正边权重的数量,n-为负边权重的数量,n0为权重为0的边的数量。
2.根据权利要求1所述的方法,其特征在于,获取待识别字符的图特征向量,包括:
获取待识别字符;
根据所述待识别字符查询所述每个字符节点对应的图特征向量,得到所述待识别字符的图特征向量。
3.根据权利要求1所述的方法,其特征在于,根据所述文本样本中的字符和字符之间的关系建立字符实体图,包括:
将所述文本样本中的每一个字符确定为字符节点,根据字符之间的关系建立字符节点之间的边,得到字符实体图。
4.根据权利要求1所述的方法,其特征在于,在根据所述文本样本中的字符和字符之间的关系建立字符实体图之后,还包括:
按照预设规则确定所述字符实体图的边的权重。
5.根据权利要求4所述的方法,其特征在于,按照预设规则确定所述字符实体图的边的权重:
根据各个实体占总实体数的比例确定各个实体对应的边的权重。
6.一种命名实体识别装置,其特征在于,包括:
获取模块,用于获取待识别字符的图特征向量;
识别模块,用于将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别;
在获取待识别字符的图特征向量之前,还包括:
获取文本样本,其中,所述文本样本包括:实体标注;
根据所述文本样本中的字符和字符之间的关系建立字符实体图;
根据所述字符实体图确定每个字符节点对应的邻接向量;
将每个字符节点对应的邻接向量输入SDNE模型,得到每个字符节点对应的图特征向量;
所述SDNE模型的损失函数包括:
Figure FDA0003904100650000031
Figure FDA0003904100650000032
其中,|V|为字符实体图中字符节点的数量,W代表SDNE模型的网络参数,xi为字符节点i对应的邻接向量,x′i为SDNE模型的输出,ui为字符i的图特征向量,uj为字符j的图特征向量,sij是邻接矩阵上ij位置对应的边权重,bi是字符i对应的编解码损失权重向量,
Figure FDA0003904100650000033
n+为正边权重的数量,n-为负边权重的数量,n0为权重为0的边的数量。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述处理器实现如权利要求1-5中任一所述的方法。
8.一种包含计算机程序的计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被一个或多个处理器执行时实现如权利要求1-5中任一所述的方法。
CN202110795179.4A 2021-07-14 2021-07-14 一种命名实体识别方法、装置、设备及存储介质 Active CN113420561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110795179.4A CN113420561B (zh) 2021-07-14 2021-07-14 一种命名实体识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110795179.4A CN113420561B (zh) 2021-07-14 2021-07-14 一种命名实体识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113420561A CN113420561A (zh) 2021-09-21
CN113420561B true CN113420561B (zh) 2022-12-13

Family

ID=77721698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110795179.4A Active CN113420561B (zh) 2021-07-14 2021-07-14 一种命名实体识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113420561B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659997A (zh) * 2019-08-15 2020-01-07 中国平安财产保险股份有限公司 数据聚类识别方法、装置、计算机系统及可读存储介质
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN111401064A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种命名实体识别方法、装置及终端设备
US10831452B1 (en) * 2019-09-06 2020-11-10 Digital Asset Capital, Inc. Modification of in-execution smart contract programs
CN112119412A (zh) * 2018-05-18 2020-12-22 伯耐沃伦人工智能科技有限公司 具有注意力的图神经网络
CN112597774A (zh) * 2020-12-14 2021-04-02 山东师范大学 中文医疗命名实体识别方法、系统、存储介质和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271998A (zh) * 2018-08-31 2019-01-25 摩佰尔(天津)大数据科技有限公司 字符识别方法、装置、设备及存储介质
CN112487818A (zh) * 2020-12-17 2021-03-12 神思电子技术股份有限公司 基于预训练模型融合词典信息的中文命名实体识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112119412A (zh) * 2018-05-18 2020-12-22 伯耐沃伦人工智能科技有限公司 具有注意力的图神经网络
CN111401064A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种命名实体识别方法、装置及终端设备
CN110659997A (zh) * 2019-08-15 2020-01-07 中国平安财产保险股份有限公司 数据聚类识别方法、装置、计算机系统及可读存储介质
US10831452B1 (en) * 2019-09-06 2020-11-10 Digital Asset Capital, Inc. Modification of in-execution smart contract programs
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN112597774A (zh) * 2020-12-14 2021-04-02 山东师范大学 中文医疗命名实体识别方法、系统、存储介质和设备

Also Published As

Publication number Publication date
CN113420561A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN108062388A (zh) 人机对话的回复生成方法和装置
CN110737758A (zh) 用于生成模型的方法和装置
CN112270379A (zh) 分类模型的训练方法、样本分类方法、装置和设备
CN112446211A (zh) 文本处理装置、方法、设备和计算机可读存储介质
CN112580733A (zh) 分类模型的训练方法、装置、设备以及存储介质
CN110826327A (zh) 情感分析方法、装置、计算机可读介质及电子设备
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN114416995A (zh) 信息推荐方法、装置及设备
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112214595A (zh) 类别确定方法、装置、设备及介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN116680575B (zh) 模型处理方法、装置、设备及存储介质
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN113420561B (zh) 一种命名实体识别方法、装置、设备及存储介质
CN116340635A (zh) 物品推荐方法、模型训练方法、装置及设备
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN113239215B (zh) 多媒体资源的分类方法、装置、电子设备及存储介质
CN115565177A (zh) 文字识别模型训练、文字识别方法、装置、设备及介质
CN114817476A (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN114648021A (zh) 问答模型的训练方法、问答方法及装置、设备和存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN114298047A (zh) 基于笔画卷积和词向量的中文命名实体识别方法及系统
CN114491030A (zh) 技能标签的抽取、候选短语分类模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant