CN114462412A - 实体识别方法、装置、电子设备及存储介质 - Google Patents
实体识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114462412A CN114462412A CN202210135416.9A CN202210135416A CN114462412A CN 114462412 A CN114462412 A CN 114462412A CN 202210135416 A CN202210135416 A CN 202210135416A CN 114462412 A CN114462412 A CN 114462412A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- recognized
- feature
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 164
- 238000012545 processing Methods 0.000 claims abstract description 83
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 238000006243 chemical reaction Methods 0.000 claims abstract description 37
- 238000007499 fusion processing Methods 0.000 claims abstract description 16
- 238000002372 labelling Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及人工智能领域,揭露一种实体识别方法,包括:对待识别文本及实体标签集执行字向量转换处理,得到待识别文本对应的第一字向量特征及实体类别集对应的第二字向量特征;对待识别文本执行编码处理,得到待识别文本对应的编码特征;对编码特征执行解码处理,得到待识别文本对应的解码特征;对解码特征及第一字向量特征执行特征融合处理,得到待识别文本对应的融合特征;对第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果。本发明还提供一种实体识别装置、电子设备及存储介质。本发明提高了不连续实体及嵌套实体的识别准确性。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种实体识别方法、装置、电子设备及存储介质。
背景技术
实体识别任务是自然语言处理领域中的一项重要任务,可广泛用于信息抽取、文本分类等多场景。
当前,通常采用以下方式进行实体识别:给待识别文本中每个token打一个实体类别标签,一组相邻且实体类别相同的token组成的序列为一个实体。然而,这种方式只能识别连续实体,对于不连续实体及嵌套实体的识别准确度较低。因此,亟需一种实体识别方法,以提高不连续实体及嵌套实体的识别准确度。
发明内容
鉴于以上内容,有必要提供一种实体识别方法,旨在提高不连续实体及嵌套实体的识别准确度。
本发明提供的实体识别方法,包括:
接收待识别文本,确定所述待识别文本对应的目标领域,获取所述目标领域对应的实体标签集;
对所述待识别文本及实体标签集分别执行字向量转换处理,得到所述待识别文本对应的第一字向量特征及所述实体类别集对应的第二字向量特征;
对所述待识别文本执行编码处理,得到所述待识别文本对应的编码特征;
对所述编码特征执行解码处理,得到所述待识别文本对应的解码特征;
对所述解码特征及第一字向量特征执行特征融合处理,得到所述待识别文本对应的融合特征;
对所述第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果。
可选的,通过实体识别模型的字向量转换网络执行字向量转换处理,通过实体识别模型的编码网络执行编码处理,通过实体识别模型的解码网络执行解码处理,通过实体识别模型的特征提取网络执行特征融合处理,通过实体识别模型的分类网络执行实体识别处理及标签识别处理。
可选的,所述对所述第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果,包括:
将所述融合特征与解码特征的点积输入实体识别模型的分类网络执行实体识别处理,得到待生成的目标实体标注序列中每个位置对应的实体分布概率;
将所述第二字向量特征与解码特征的点积输入所述分类网络执行标签识别处理,得到待生成的目标实体标注序列中每个位置对应的标签分布概率;
根据所述实体分布概率及标签分布概率确定实体识别结果。
可选的,所述根据所述实体分布概率及标签分布概率确定实体识别结果,包括:
选择目标实体标注序列中一个位置对应的实体分布概率及标签分布概率;
基于选择的实体分布概率获取选择的位置生成的实体为所述待识别文本中每个字符的概率值;
基于选择的标签分布概率获取选择的位置生成的标签为所述实体标签集中每个标签的概率值;
将概率值最大的字符或标签作为所述目标实体标注序列中选择的位置对应的目标物;
汇总所述目标实体标注序列中每个位置对应的目标物,得到实体识别结果。
可选的,所述对所述待识别文本及实体标签集分别执行字向量转换处理,得到所述待识别文本对应的第一字向量特征及所述实体类别集对应的第二字向量特征,包括:
将所述待识别文本及实体标签集分别输入实体识别模型的字向量转换网络的第一嵌入层执行位置编码,得到每个字符对应的位置向量;
将所述待识别文本及实体标签集分别输入所述字向量转换网络的第二嵌入层执行字符编码,得到每个字符对应的字符向量;
加总所述待识别文本中每个字符的位置向量及字符向量,得到所述待识别文本中每个字符的第一特征向量,汇总第一特征向量,得到所述待识别文本对应的第一字向量特征;
加总所述实体标签集中各个标签的每个字符的位置向量及字符向量,得到所述实体标签集中各个标签的每个字符的第二特征向量,拼接第二特征向量,得到所述实体标签集中每个标签的第三特征向量,汇总第三特征向量,得到所述实体标签集对应的第二字向量特征。
可选的,所述对所述解码特征及第一字向量特征执行特征融合处理,得到所述待识别文本对应的融合特征,包括:
将所述编码特征输入实体识别模型的特征提取网络执行特征提取处理,得到所述待识别文本对应的提取到的特征;
对所述提取到的特征及第一字向量特征执行加权计算,得到所述待识别文本对应的融合特征。
可选的,所述确定所述待识别文本对应的目标领域,包括:
对所述待识别文本执行分词处理,得到词语集合;
将所述词语集合中的每个词语分别与每个领域对应的词语库进行匹配,得到每个领域对应的匹配词集合;
将匹配词数量最多的匹配词集合对应的领域作为所述待识别文本对应的目标领域。
为了解决上述问题,本发明还提供一种实体识别装置,所述装置包括:
接收模块,用于接收待识别文本,确定所述待识别文本对应的目标领域,获取所述目标领域对应的实体标签集;
转换模块,用于对所述待识别文本及实体标签集分别执行字向量转换处理,得到所述待识别文本对应的第一字向量特征及所述实体类别集对应的第二字向量特征;
编码模块,用于对所述待识别文本执行编码处理,得到所述待识别文本对应的编码特征;
解码模块,用于对所述编码特征执行解码处理,得到所述待识别文本对应的解码特征;
融合模块,用于对所述解码特征及第一字向量特征执行特征融合处理,得到所述待识别文本对应的融合特征;
识别模块,用于对所述第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的实体识别程序,所述实体识别程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实体识别方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有实体识别程序,所述实体识别程序可被一个或者多个处理器执行,以实现上述实体识别方法。
相较现有技术,本发明首先对待识别文本及实体标签集执行字向量转换处理,得到待识别文本对应的第一字向量特征及实体类别集对应的第二字向量特征;接着,对待识别文本执行编码处理,得到待识别文本对应的编码特征;对编码特征执行解码处理,得到待识别文本对应的解码特征;对解码特征及第一字向量特征执行特征融合处理,得到待识别文本对应的融合特征;最后,对第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果。本发明在执行实体识别处理及标签识别处理时,生成目标实体标注序列中每个位置对应的实体分布概率及标签分布概率,根据实体分布概率及标签分布概率可确定每个位置生成的是实体还是标签,实体是待识别文本中哪个字符,标签是实体标签集中哪个标签,从而可对不连续实体及嵌套实体进行准确识别。
附图说明
图1为本发明一实施例提供的实体识别方法的流程示意图;
图2为本发明一实施例提供的实体识别模型的结构示意图;
图3为本发明一实施例提供的实体识别装置的模块示意图;
图4为本发明一实施例提供的实现实体识别方法的电子设备的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种实体识别方法。参照图1所示,为本发明一实施例提供的实体识别方法的流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。
本实施例中,实体识别方法包括:
S1、接收待识别文本,确定所述待识别文本对应的目标领域,获取所述目标领域对应的实体标签集。
所述领域包括医疗、教育、科技、体育、财经、旅游等领域,本实施例中,预先在预设数据库中为每个领域配置了对应的实体标签集(即实体类别集),例如,对于医疗领域,实体标签集中包括疾病标签、药品标签、仪器标签等。
确定了待识别文本对应的目标领域,可从预设数据库中获取对应的实体标签集。获取实体标签集的目的,用于判断识别出的实体属于实体标签集中的哪个标签(即用于判断识别出的实体属于哪个实体类别)。
所述确定所述待识别文本对应的目标领域,包括:
A11、对所述待识别文本执行分词处理,得到词语集合;
本实施例中,可采用正向最大匹配法、逆向最大匹配法或最少切分法对待识别文本执行分词处理。
A12、将所述词语集合中的每个词语分别与每个领域对应的词语库进行匹配,得到每个领域对应的匹配词集合;
本实施例中,预先为每个领域配置了对应的词语库。
A13、将匹配词数量最多的匹配词集合对应的领域作为所述待识别文本对应的目标领域。
例如,若医疗领域对应的匹配词集合中匹配词数量最多,则将医疗作为待识别文本对应的目标领域。
S2、对所述待识别文本及实体标签集分别执行字向量转换处理,得到所述待识别文本对应的第一字向量特征及所述实体类别集对应的第二字向量特征。
本实施例中,通过实体识别模型实现实体识别方法。
如图2所示,为本发明一实施例提供的实体识别模型的结构示意图。所述实体识别模型包括字向量转换网络、编码网络、解码网络、特征提取网络及分类网络。其中,步骤S2是通过字向量转换网络实现的,字向量转换网络用于将输入文本中每个字符转换为字向量特征。
所述对所述待识别文本及实体标签集分别执行字向量转换处理,得到所述待识别文本对应的第一字向量特征及所述实体类别集对应的第二字向量特征,包括:
B11、将所述待识别文本及实体标签集分别输入实体识别模型的字向量转换网络的第一嵌入层执行位置编码,得到每个字符对应的位置向量;
字向量转换网络包括第一嵌入层(Position embedding层)及第二嵌入层(TokenEmbedding层),第一嵌入层用于根据输入文本的各个字符的位置信息确定每个字符的位置向量。
B12、将所述待识别文本及实体标签集分别输入所述字向量转换网络的第二嵌入层执行字符编码,得到每个字符对应的字符向量;
第二嵌入层用于对输入文本的各个字符进行字符编码,将字符转换为稠密的字符向量。
B13、加总所述待识别文本中每个字符的位置向量及字符向量,得到所述待识别文本中每个字符的第一特征向量,汇总第一特征向量,得到所述待识别文本对应的第一字向量特征;
若第一特征向量的维度为20维,待识别文本中共10个字符,则第一字向量特征为10*20的矩阵。
第一字向量特征可以用以下公式表示:
Ee=Embed(X)
其中,Ee为待识别文本对应的第一字向量特征,X为待识别文本对应的字符序列,Embed为字向量转换网络。
B14、加总所述实体标签集中各个标签的每个字符的位置向量及字符向量,得到所述实体标签集中各个标签的每个字符的第二特征向量,拼接第二特征向量,得到所述实体标签集中每个标签的第三特征向量,汇总第三特征向量,得到所述实体标签集对应的第二字向量特征。
若第二特征向量的维度为20维,标签中字符的数量皆为2,则第三特征向量为40维,若实体标签集中标签的数量为15,则第二字向量特征为15*40的矩阵。
第二字向量特征可以用以下公式表示:
Gd=Embed(G)
其中,Gd为实体标签集对应的第二字向量特征,G为实体标签集对应的字符序列,Embed为字向量转换操作。
S3、对所述待识别文本执行编码处理,得到所述待识别文本对应的编码特征。
步骤S3是通过编码网络实现的,所述编码网络包括串联连接的多个编码层(Transformer Encoder层),编码网络用于学习输入数据的隐含特征。
编码特征可以用以下公式表示:
He=Encoder(X)
其中,He为待识别文本对应的编码特征,X为待识别文本对应的字符序列,Encoder为编码操作。
S4、对所述编码特征执行解码处理,得到所述待识别文本对应的解码特征。
步骤S4是通过解码网络实现的,解码网络用于根据编码网络输出的隐含特征重构输入数据。
本实施例中,实体识别模型采用的是自回归机制,先对待生成的目标实体标注序列中第一个位置进行预测,然后将第一个位置的预测结果作为输入,对目标实体标注序列中第二个位置进行预测,……,以得到目标实体标注序列,从目标实体标注序列中可得到识别出的实体及其实体类别。
该自回归机制主要体现在解码网络,解码网络首次输入的是编码网络输出的编码特征,在实体识别模型输出目标实体标注序列中第一个位置的预测结果后的下一时刻,解码网络输入的是编码特征及第一个位置的预测结果,用以对目标实体标注序列的第二个位置进行预测,……。
解码特征可以用以下公式表示:
其中,为第t时刻待识别文本对应的解码特征(用于对目标实体标注序列中第t个位置进行预测),He为待识别文本对应的编码特征,为第t时刻之前实体识别模型的输出结果(即目标实体标注序列中第一个位置~第(t-1)个位置的预测结果),Decoder为解码操作。
S5、对所述解码特征及第一字向量特征执行特征融合处理,得到所述待识别文本对应的融合特征。
步骤S5是通过特征提取网络实现的,特征提取网络用于提取输入数据的特征。
所述对所述解码特征及第一字向量特征执行特征融合处理,得到所述待识别文本对应的融合特征,包括:
C11、将所述编码特征输入实体识别模型的特征提取网络执行特征提取处理,得到所述待识别文本对应的提取到的特征;
本实施例中,所述特征提取网络为多层感知机MLP。
C12、对所述提取到的特征及第一字向量特征执行加权计算,得到所述待识别文本对应的融合特征。
融合特征可以用以下公式表示:
S6、对所述第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果。
该步骤是通过分类网络实现的,用以生成目标实体标注序列,目标实体标注序列中包括两类元素:实体及标签(即实体类别)。
本实施例中,目标实体标注序列可以表示为:Y=[s11,e11,...,s1j,e1j,t1,...,si1,ei1,...,sik,eik,ti],其中,[s11,e11,...,s1j,e1j,t1]表示第一个实体,s11表示待识别文本对应的第一个实体的第一段跨度的起始位置索引,e11表示待识别文本对应的第一个实体的第一段跨度的结束位置索引,s1j表示待识别文本对应的第一个实体的第j段跨度的起始位置索引,e1j表示待识别文本对应的第一个实体的第j段跨度的结束位置索引,t1表示第一个实体的标签。[si1,ei1,...,sik,eik,ti]表示第i个实体。
所述对所述第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果,包括:
D11、将所述融合特征与解码特征的点积输入实体识别模型的分类网络执行实体识别处理,得到待生成的目标实体标注序列中每个位置对应的实体分布概率;
实体分布概率可以用如下公式表示:
D12、将所述第二字向量特征与解码特征的点积输入所述分类网络执行标签识别处理,得到待生成的目标实体标注序列中每个位置对应的标签分布概率;
标签分布概率可以用如下公式表示:
D13、根据所述实体分布概率及标签分布概率确定实体识别结果。
根据实体分布概率及标签分布概率可确定目标实体标注序列中每个位置对应的目标物,进而可得到实体识别结果。
所述根据所述实体分布概率及标签分布概率确定实体识别结果,包括:
E11、选择目标实体标注序列中一个位置对应的实体分布概率及标签分布概率;
本实施例中,依次确定目标实体标注序列中每个位置对应的目标物,该目标物可能是实体,也可能是标签,需要根据实体分布概率及标签分布概率来确定,这里以其中一个位置为例进行说明。
E12、基于选择的实体分布概率获取选择的位置生成的实体为所述待识别文本中每个字符的概率值;
每个位置对应的实体分布概率包括该位置生成的实体为待识别文本中每个字符的概率值。例如,若待识别文本中有10个字符,则实体分布概率为1*10的数组,该数组中有10个概率值,一个概率值对应待识别文本中的一个字符,若选择的实体分布概率中第3个概率值最大,其数值为87%,则该位置对应的目标物可能是待识别文本中第3个字符。
E13、基于选择的标签分布概率获取选择的位置生成的标签为所述实体标签集中每个标签的概率值;
每个位置对应的标签分布概率包括该位置生成的标签为实体标签集中每个标签的概率值。例如,若实体标签集中有15个标签,则标签分布概率为1*15的数组,该数组中有15个概率值,一个概率值对应实体标签集中的一个标签,若选择的标签分布概率中第5个概率值最大,其数值为74%,则该位置对应的目标物可能是实体标签集中第5个标签。
E14、将概率值最大的字符或标签作为所述目标实体标注序列中选择的位置对应的目标物;
因87%大于74%,则目标实体标注序列中选择的位置对应的目标物为待识别文本中第3个字符。
E15、汇总所述目标实体标注序列中每个位置对应的目标物,得到实体识别结果。
拼接每个位置对应的目标物,可得到目标实体标注序列,基于目标实体标注序列可得到实体识别结果。
由上述实施例可知,本发明提出的实体识别方法,首先,对待识别文本及实体标签集执行字向量转换处理,得到待识别文本对应的第一字向量特征及实体类别集对应的第二字向量特征;接着,对待识别文本执行编码处理,得到待识别文本对应的编码特征;对编码特征执行解码处理,得到待识别文本对应的解码特征;对解码特征及第一字向量特征执行特征融合处理,得到待识别文本对应的融合特征;最后,对第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果。本发明在执行实体识别处理及标签识别处理时,生成目标实体标注序列中每个位置对应的实体分布概率及标签分布概率,根据实体分布概率及标签分布概率可确定每个位置生成的是实体还是标签,实体是待识别文本中哪个字符,标签是实体标签集中哪个标签,从而可对不连续实体及嵌套实体进行准确识别。
如图3所示,为本发明一实施例提供的实体识别装置的模块示意图。
本发明所述实体识别装置100可以安装于电子设备中。根据实现的功能,所述实体识别装置100可以包括接收模块110、转换模块120、编码模块130、解码模块140、融合模块150及识别模块160。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
接收模块110,用于接收待识别文本,确定所述待识别文本对应的目标领域,获取所述目标领域对应的实体标签集。
所述确定所述待识别文本对应的目标领域,包括:
A21、对所述待识别文本执行分词处理,得到词语集合;
A22、将所述词语集合中的每个词语分别与每个领域对应的词语库进行匹配,得到每个领域对应的匹配词集合;
A23、将匹配词数量最多的匹配词集合对应的领域作为所述待识别文本对应的目标领域。
转换模块120,用于对所述待识别文本及实体标签集分别执行字向量转换处理,得到所述待识别文本对应的第一字向量特征及所述实体类别集对应的第二字向量特征。
所述对所述待识别文本及实体标签集分别执行字向量转换处理,得到所述待识别文本对应的第一字向量特征及所述实体类别集对应的第二字向量特征,包括:
B21、将所述待识别文本及实体标签集分别输入实体识别模型的字向量转换网络的第一嵌入层执行位置编码,得到每个字符对应的位置向量;
B22、将所述待识别文本及实体标签集分别输入所述字向量转换网络的第二嵌入层执行字符编码,得到每个字符对应的字符向量;
B23、加总所述待识别文本中每个字符的位置向量及字符向量,得到所述待识别文本中每个字符的第一特征向量,汇总第一特征向量,得到所述待识别文本对应的第一字向量特征;
B24、加总所述实体标签集中各个标签的每个字符的位置向量及字符向量,得到所述实体标签集中各个标签的每个字符的第二特征向量,拼接第二特征向量,得到所述实体标签集中每个标签的第三特征向量,汇总第三特征向量,得到所述实体标签集对应的第二字向量特征。
编码模块130,用于对所述待识别文本执行编码处理,得到所述待识别文本对应的编码特征。
解码模块140,用于对所述编码特征执行解码处理,得到所述待识别文本对应的解码特征。
融合模块150,用于对所述解码特征及第一字向量特征执行特征融合处理,得到所述待识别文本对应的融合特征。
所述对所述解码特征及第一字向量特征执行特征融合处理,得到所述待识别文本对应的融合特征,包括:
C21、将所述编码特征输入实体识别模型的特征提取网络执行特征提取处理,得到所述待识别文本对应的提取到的特征;
C22、对所述提取到的特征及第一字向量特征执行加权计算,得到所述待识别文本对应的融合特征。
识别模块160,用于对所述第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果。
所述对所述第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果,包括:
D21、将所述融合特征与解码特征的点积输入实体识别模型的分类网络执行实体识别处理,得到待生成的目标实体标注序列中每个位置对应的实体分布概率;
D22、将所述第二字向量特征与解码特征的点积输入所述分类网络执行标签识别处理,得到待生成的目标实体标注序列中每个位置对应的标签分布概率;
D23、根据所述实体分布概率及标签分布概率确定实体识别结果。
所述根据所述实体分布概率及标签分布概率确定实体识别结果,包括:
E21、选择目标实体标注序列中一个位置对应的实体分布概率及标签分布概率;
E22、基于选择的实体分布概率获取选择的位置生成的实体为所述待识别文本中每个字符的概率值;
E23、基于选择的标签分布概率获取选择的位置生成的标签为所述实体标签集中每个标签的概率值;
E24、将概率值最大的字符或标签作为所述目标实体标注序列中选择的位置对应的目标物;
E25、汇总所述目标实体标注序列中每个位置对应的目标物,得到实体识别结果。
本实施例中,实体识别装置100通过实体识别模型实现,所述实体识别模型包括字向量转换网络、编码网络、解码网络、特征提取网络及分类网络,其中:
转换模块120用于通过所述字向量转换网络,对所述待识别文本及实体标签集分别执行字向量转换处理,得到所述待识别文本对应的第一字向量特征及所述实体类别集对应的第二字向量特征;
编码模块130用于通过所述编码网络,对所述待识别文本执行编码处理,得到所述待识别文本对应的编码特征;
解码模块140用于通过所述解码网络,对所述编码特征执行解码处理,得到所述待识别文本对应的解码特征;
融合模块150用于通过所述特征提取网络,对所述解码特征及第一字向量特征执行特征融合处理,得到所述待识别文本对应的融合特征;
识别模块160用于通过所述分类网络,对所述第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果。
如图4所示,为本发明一实施例提供的实现实体识别方法的电子设备的结构示意图。
所述电子设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子设备1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有实体识别程序10,所述实体识别程序10可被所述处理器12执行。图4仅示出了具有组件11-13以及实体识别程序10的电子设备1,本领域技术人员可以理解的是,图4示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元,例如该电子设备1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的实体识别程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行实体识别程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的实体识别程序10是多个指令的组合,在所述处理器12中运行时,可以实现上述实体识别方法中的步骤。
具体地,所述处理器12对上述实体识别程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有实体识别程序10,所述实体识别程序10可被一个或者多个处理器执行,以实现上述实体识别方法中的步骤。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种实体识别方法,其特征在于,所述方法包括:
接收待识别文本,确定所述待识别文本对应的目标领域,获取所述目标领域对应的实体标签集;
对所述待识别文本及实体标签集分别执行字向量转换处理,得到所述待识别文本对应的第一字向量特征及所述实体类别集对应的第二字向量特征;
对所述待识别文本执行编码处理,得到所述待识别文本对应的编码特征;
对所述编码特征执行解码处理,得到所述待识别文本对应的解码特征;
对所述解码特征及第一字向量特征执行特征融合处理,得到所述待识别文本对应的融合特征;
对所述第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果。
2.如权利要求1所述的实体识别方法,其特征在于,通过实体识别模型的字向量转换网络执行字向量转换处理,通过实体识别模型的编码网络执行编码处理,通过实体识别模型的解码网络执行解码处理,通过实体识别模型的特征提取网络执行特征融合处理,通过实体识别模型的分类网络执行实体识别处理及标签识别处理。
3.如权利要求1所述的实体识别方法,其特征在于,所述对所述第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果,包括:
将所述融合特征与解码特征的点积输入实体识别模型的分类网络执行实体识别处理,得到待生成的目标实体标注序列中每个位置对应的实体分布概率;
将所述第二字向量特征与解码特征的点积输入所述分类网络执行标签识别处理,得到待生成的目标实体标注序列中每个位置对应的标签分布概率;
根据所述实体分布概率及标签分布概率确定实体识别结果。
4.如权利要求3所述的实体识别方法,其特征在于,所述根据所述实体分布概率及标签分布概率确定实体识别结果,包括:
选择目标实体标注序列中一个位置对应的实体分布概率及标签分布概率;
基于选择的实体分布概率获取选择的位置生成的实体为所述待识别文本中每个字符的概率值;
基于选择的标签分布概率获取选择的位置生成的标签为所述实体标签集中每个标签的概率值;
将概率值最大的字符或标签作为所述目标实体标注序列中选择的位置对应的目标物;
汇总所述目标实体标注序列中每个位置对应的目标物,得到实体识别结果。
5.如权利要求1所述的实体识别方法,其特征在于,所述对所述待识别文本及实体标签集分别执行字向量转换处理,得到所述待识别文本对应的第一字向量特征及所述实体类别集对应的第二字向量特征,包括:
将所述待识别文本及实体标签集分别输入实体识别模型的字向量转换网络的第一嵌入层执行位置编码,得到每个字符对应的位置向量;
将所述待识别文本及实体标签集分别输入所述字向量转换网络的第二嵌入层执行字符编码,得到每个字符对应的字符向量;
加总所述待识别文本中每个字符的位置向量及字符向量,得到所述待识别文本中每个字符的第一特征向量,汇总第一特征向量,得到所述待识别文本对应的第一字向量特征;
加总所述实体标签集中各个标签的每个字符的位置向量及字符向量,得到所述实体标签集中各个标签的每个字符的第二特征向量,拼接第二特征向量,得到所述实体标签集中每个标签的第三特征向量,汇总第三特征向量,得到所述实体标签集对应的第二字向量特征。
6.如权利要求1所述的实体识别方法,其特征在于,所述对所述解码特征及第一字向量特征执行特征融合处理,得到所述待识别文本对应的融合特征,包括:
将所述编码特征输入实体识别模型的特征提取网络执行特征提取处理,得到所述待识别文本对应的提取到的特征;
对所述提取到的特征及第一字向量特征执行加权计算,得到所述待识别文本对应的融合特征。
7.如权利要求1所述的实体识别方法,其特征在于,所述确定所述待识别文本对应的目标领域,包括:
对所述待识别文本执行分词处理,得到词语集合;
将所述词语集合中的每个词语分别与每个领域对应的词语库进行匹配,得到每个领域对应的匹配词集合;
将匹配词数量最多的匹配词集合对应的领域作为所述待识别文本对应的目标领域。
8.一种实体识别装置,其特征在于,所述装置包括:
接收模块,用于接收待识别文本,确定所述待识别文本对应的目标领域,获取所述目标领域对应的实体标签集;
转换模块,用于对所述待识别文本及实体标签集分别执行字向量转换处理,得到所述待识别文本对应的第一字向量特征及所述实体类别集对应的第二字向量特征;
编码模块,用于对所述待识别文本执行编码处理,得到所述待识别文本对应的编码特征;
解码模块,用于对所述编码特征执行解码处理,得到所述待识别文本对应的解码特征;
融合模块,用于对所述解码特征及第一字向量特征执行特征融合处理,得到所述待识别文本对应的融合特征;
识别模块,用于对所述第二字向量特征、解码特征及融合特征执行实体识别处理及标签识别处理,得到实体识别结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的实体识别程序,所述实体识别程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的实体识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有实体识别程序,所述实体识别程序可被一个或者多个处理器执行,以实现如权利要求1至7任一项所述的实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210135416.9A CN114462412B (zh) | 2022-02-14 | 2022-02-14 | 实体识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210135416.9A CN114462412B (zh) | 2022-02-14 | 2022-02-14 | 实体识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114462412A true CN114462412A (zh) | 2022-05-10 |
CN114462412B CN114462412B (zh) | 2023-05-12 |
Family
ID=81413581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210135416.9A Active CN114462412B (zh) | 2022-02-14 | 2022-02-14 | 实体识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114462412B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115620722A (zh) * | 2022-12-15 | 2023-01-17 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
CN115983271A (zh) * | 2022-12-12 | 2023-04-18 | 北京百度网讯科技有限公司 | 命名实体的识别方法和命名实体识别模型的训练方法 |
CN116092493A (zh) * | 2023-04-07 | 2023-05-09 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
CN110969020A (zh) * | 2019-11-21 | 2020-04-07 | 中国人民解放军国防科技大学 | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 |
CN111339764A (zh) * | 2019-09-18 | 2020-06-26 | 华为技术有限公司 | 一种中文命名实体识别方法以及装置 |
US20210157975A1 (en) * | 2017-10-17 | 2021-05-27 | Handycontract Llc | Device, system, and method for extracting named entities from sectioned documents |
CN113705313A (zh) * | 2021-04-07 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备及介质 |
-
2022
- 2022-02-14 CN CN202210135416.9A patent/CN114462412B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210157975A1 (en) * | 2017-10-17 | 2021-05-27 | Handycontract Llc | Device, system, and method for extracting named entities from sectioned documents |
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
CN111339764A (zh) * | 2019-09-18 | 2020-06-26 | 华为技术有限公司 | 一种中文命名实体识别方法以及装置 |
CN110969020A (zh) * | 2019-11-21 | 2020-04-07 | 中国人民解放军国防科技大学 | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 |
CN113705313A (zh) * | 2021-04-07 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备及介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983271A (zh) * | 2022-12-12 | 2023-04-18 | 北京百度网讯科技有限公司 | 命名实体的识别方法和命名实体识别模型的训练方法 |
CN115983271B (zh) * | 2022-12-12 | 2024-04-02 | 北京百度网讯科技有限公司 | 命名实体的识别方法和命名实体识别模型的训练方法 |
CN115620722A (zh) * | 2022-12-15 | 2023-01-17 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
CN115620722B (zh) * | 2022-12-15 | 2023-03-31 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
CN116092493A (zh) * | 2023-04-07 | 2023-05-09 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
CN116092493B (zh) * | 2023-04-07 | 2023-08-25 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114462412B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114462412B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112417096B (zh) | 问答对匹配方法、装置、电子设备及存储介质 | |
CN113157927B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN113342977B (zh) | 发票图像分类方法、装置、设备及存储介质 | |
CN111860377A (zh) | 基于人工智能的直播方法、装置、电子设备及存储介质 | |
CN113706252B (zh) | 产品推荐方法、装置、电子设备及存储介质 | |
CN112597135A (zh) | 用户分类方法、装置、电子设备及可读存储介质 | |
CN113688239B (zh) | 少样本下的文本分类方法、装置、电子设备及存储介质 | |
CN112800178A (zh) | 答案生成方法、装置、电子设备及可读存储介质 | |
CN114281991A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113850260B (zh) | 关键信息抽取方法、装置、电子设备及可读存储介质 | |
CN114706985A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113658002B (zh) | 基于决策树的交易结果生成方法、装置、电子设备及介质 | |
CN113064984A (zh) | 意图识别方法、装置、电子设备及可读存储介质 | |
CN112036439A (zh) | 依存关系分类方法及相关设备 | |
CN114818685B (zh) | 关键词提取方法、装置、电子设备及存储介质 | |
CN113610580B (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN112434631B (zh) | 目标物识别方法、装置、电子设备及可读存储介质 | |
CN113656586B (zh) | 情感分类方法、装置、电子设备及可读存储介质 | |
CN113705692B (zh) | 基于人工智能的情感分类方法、装置、电子设备及介质 | |
CN112215336B (zh) | 基于用户行为的数据标注方法、装置、设备及存储介质 | |
CN113706207A (zh) | 基于语义解析的订单成交率分析方法、装置、设备及介质 | |
CN113806540A (zh) | 文本打标签方法、装置、电子设备及存储介质 | |
CN112528647A (zh) | 相似文本生成方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |