CN117313728A - 实体识别方法、模型训练方法、装置、设备和存储介质 - Google Patents
实体识别方法、模型训练方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN117313728A CN117313728A CN202311271335.2A CN202311271335A CN117313728A CN 117313728 A CN117313728 A CN 117313728A CN 202311271335 A CN202311271335 A CN 202311271335A CN 117313728 A CN117313728 A CN 117313728A
- Authority
- CN
- China
- Prior art keywords
- target
- entity
- sequence
- category
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 120
- 238000012549 training Methods 0.000 title claims abstract description 90
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 162
- 230000004927 fusion Effects 0.000 claims description 97
- 238000012545 processing Methods 0.000 claims description 61
- 230000008569 process Effects 0.000 claims description 41
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000009826 distribution Methods 0.000 claims description 27
- 230000000750 progressive effect Effects 0.000 claims description 20
- 238000007499 fusion processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 18
- 238000013473 artificial intelligence Methods 0.000 abstract description 17
- 239000013598 vector Substances 0.000 description 30
- 230000006870 function Effects 0.000 description 20
- 230000007704 transition Effects 0.000 description 13
- 238000003058 natural language processing Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 8
- 230000002457 bidirectional effect Effects 0.000 description 7
- 239000000470 constituent Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 239000013604 expression vector Substances 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000070023 Phoenicopterus roseus Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种实体识别方法、模型训练方法、装置、设备和存储介质。本发明实施例可应用于云技术、人工智能、智慧交通、辅助驾驶、地图等各种场景。通过获取需要识别实体的目标文本;然后,通过训练后的目标模型对目标文本进行实体分类,其中,目标模型基于目标文本进行逐个层级的特征提取,获得多个目标深度层级输出的多个目标特征序列,以选择不同深度层级提取的目标特征序列来进行实体分类,并联合不同深度层级对应的实体分类结果来确定目标类别序列;最后,基于目标类别序列包含所述目标文本中各字所属的实体类别,识别出目标文本中的目标实体。以此,通过提取不同深度层级的语义特征进行实体分类,提高实体识别时的准确性。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种实体识别方法、模型训练方法、装置、设备和存储介质。
背景技术
人工智能(Artificial Intelligence,AI)已应用于广泛领域,其所涉及的技术可包含计算机视觉、语音处理、自然语言处理等,其中,自然语言处理技术在文本语义理解的应用方向上具有深远的意义。例如,通过自然语言处理技术来抽取文本中的实体信息,以结合实体信息来理解文本中语义信息。
相关技术在识别文本中的实体信息时,通过传统的预训练模型进行深度层的语义向量抽取,并基于深度层的语义向量识别出实体信息。
在对相关技术的研究和实践过程中,本申请的发明人发现相关技术在识别文本中的实体的过程中,存在实体识别准确性较低的问题。
发明内容
本申请实施例提供一种实体识别方法、模型训练方法、装置、设备和存储介质,可结合文本的深层的语义信息和浅层特征所呈现的句式表达、词性结构来进行实体分类,提高实体识别的准确性。
本申请实施例提供一种实体识别方法,包括:
获取待识别的目标文本;
通过目标模型基于所述目标文本进行实体分类处理,得到目标类别序列,所述目标类别序列包含所述目标文本中各字所属的实体类别;
其中,所述目标类别序列由所述目标模型基于所述目标文本进行逐层级递增的特征提取,以获取不同深度层级输出的多个目标特征序列,并联合所述多个目标特征序列的多个实体分类结果确定得到;其中,所述逐层级递增的特征提取的过程为将上一层级提取的特征序列作为下一层级的特征基础数据进行特征提取;
根据所述目标类别序列中的实体类别,确定所述目标文本中包含的目标实体。
相应的,本申请实施例提供一种模型训练方法,包括:
获取样本目标文本以及样本类别序列,所述样本类别序列包含所述样本目标文本中每个样本字对应的样本实体类别;
将所述样本目标文本输入预设模型进行逐层级递增的特征提取,以获取多个目标深度层级输出的多个预测特征序列,并确定每个预测特征序列的预测实体分类结果,每个所述预测实体分类结果包含所述样本目标文本中每个样本字属于各实体类别的预测概率值;
根据每个所述预测实体分类结果中每个样本字属于各实体类别的预测概率值、所述样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的损失值;
根据各目标深度层级对应的融合权重和各目标深度层级的损失值,确定目标损失值;
根据所述目标损失值调整所述预设模型的网络参数,并进行迭代训练,直至达到预设条件,得到训练后的目标模型。
相应的,本申请实施例提供一种实体识别装置,包括:
获取单元,用于获取待识别的目标文本;
分类单元,用于通过目标模型基于所述目标文本进行实体分类处理,得到目标类别序列,所述目标类别序列包含所述目标文本中各字所属的实体类别;
其中,所述目标类别序列由所述目标模型基于所述目标文本进行逐层级递增的特征提取,以获取不同深度层级输出的多个目标特征序列,并联合所述多个目标特征序列的多个实体分类结果确定得到;其中,所述逐层级递增的特征提取的过程为将上一层级提取的特征序列作为下一层级的特征基础数据进行特征提取;
确定单元,用于根据所述目标类别序列中的实体类别,确定所述目标文本中包含的目标实体。
在一些实施方式中,所述目标模型包括N个级联的特征提取网络和实体分类网络;所述分类单元,还用于:
对所述目标文本进行嵌入表示,得到嵌入表示序列;
通过所述N个级联的特征提取网络基于所述嵌入表示序列进行逐层级的特征提取;其中,所述N个级联的特征提取网络中上一个特征提取网络成的输出作为下一个特征提取网络的输入,N为大于1的正整数;
从所述N个级联的特征提取网络输出的特征序列中,获取其中K个目标特征提取网络输出的K个目标特征序列,2≤K≤N,K为整数;
通过实体分类网络基于所述K个目标特征序列中每个目标特征序列进行实体分类,获得每个目标特征序列对应的实体分类结果;
将多个所述实体分类结果进行融合处理,以获取所述目标文本对应的目标类别序列。
在一些实施方式中,所述分类单元,还用于:
确定各所述实体分类结果的融合权重;
按照所述融合权重对多个所述实体分类结果进行融合处理,得到融合结果;
根据所述融合结果,确定所述目标文本对应的目标类别序列。
在一些实施方式中,所述融合结果包含所述目标文本中每个字属于各实体类别的目标概率值,所述分类单元,还用于:
基于所述融合结果中每个字属于各实体类别的目标概率值,确定所述目标文本中每个字在取得最大的所述目标概率值时的目标实体类别;
基于每个字的目标实体类别,生成所述目标文本对应的目标类别序列。
在一些实施方式中,所述实体分类网络包含标签概率分类层和条件随机场分类层;所述分类单元,还用于:
针对每个目标特征序列,通过所述标签概率分类层对所述目标特征序列中的每个语义特征进行分类处理,得到每个所述目标特征序列对应的概率分布矩阵;
通过所述条件随机场分类层基于每个所述概率分布矩阵中每个语义特征属于各实体类别的概率值,得到每个所述目标特征序列对应的实体分类结果。
在一些实施方式中,所述分类单元,还用于:
针对每个目标特征序列,通过所述条件随机场分类层按照所述目标文本中的字排序关系,针对所述目标特征序列中的每个语义特征选取一个实体类别进行组合,得到多个候选标签路径;
基于所述标签概率分布矩阵中每个语义特征属于各实体类别的概率值,确定每个候选标签路径的路径评分;
从所述多个候选标签路径中选取所述路径评分最大的目标标签路径,得到每个目标特征序列对应的实体分类结果。
在一些实施方式中,所述实体类别的种类包括非实体类别、实体起始字类别、实体中间字类别以及实体结束字类别;所述确定单元,还用于:
根据所述目标类别序列中的实体类别,确定所述目标类别序列中的目标子类别序列;
其中,所述目标子类别序列包括由所述实体起始字类别和所述实体结束字类别依序排列形成的序列,由所述实体起始字类别、所述实体中间字类别和所述实体结束字类别依序排列形成的序列,以及在所述目标类别序列中前后均为所述非实体类别的单个所述实体起始字类别;
基于所述目标子类别序列中的实体类别在所述目标文本中对应的字,确定在所述目标文本中所述目标子类别序列对应的目标实体。
在一些实施方式中,所述实体识别装置还包括训练单元,用于:
获取样本目标文本以及样本类别序列,所述样本类别序列包含所述样本目标文本中每个样本字对应的样本实体类别;
将所述样本目标文本输入预设模型进行逐层级递增的特征提取,以获取多个目标深度层级输出的多个预测特征序列,并确定每个预测特征序列的预测实体分类结果,每个所述预测实体分类结果包含所述样本目标文本中每个样本字属于各实体类别的预测概率值;
根据每个所述预测实体分类结果中每个样本字属于各实体类别的预测概率值、所述样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的损失值;
根据各目标深度层级对应的融合权重和各目标深度层级的损失值,确定目标损失值;
根据所述目标损失值调整所述预设模型的网络参数,并进行迭代训练,直至达到预设条件,得到训练后的目标模型。
在一些实施方式中,所述训练单元,还用于:
根据每个所述预测实体分类结果中每个样本字属于各实体类别的预测概率值、所述样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的预测分类结果中每个样本字的字损失值;
对所述样本目标文本中多个样本字的字损失值进行加权,得到每个目标深度层级的损失值。
在一些实施方式中,所述目标深度层级对应的融合权重与所述目标深度层级的层级深度之间呈负相关关系。
相应的,本申请实施例提供一种模型训练装置,包括训练单元,用于:
获取样本目标文本以及样本类别序列,所述样本类别序列包含所述样本目标文本中每个样本字对应的样本实体类别;
将所述样本目标文本输入预设模型进行逐层级递增的特征提取,以获取多个目标深度层级输出的多个预测特征序列,并确定每个预测特征序列的预测实体分类结果,每个所述预测实体分类结果包含所述样本目标文本中每个样本字属于各实体类别的预测概率值;
根据每个所述预测实体分类结果中每个样本字属于各实体类别的预测概率值、所述样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的损失值;
根据各目标深度层级对应的融合权重和各目标深度层级的损失值,确定目标损失值;
根据所述目标损失值调整所述预设模型的网络参数,并进行迭代训练,直至达到预设条件,得到训练后的目标模型。
此外,本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序实现本申请实施例提供的任一种方法中的步骤。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种方法中的步骤。
此外,本申请实施例还提供一种计算机程序产品,包括计算机指令,所述计算机指被执行时实现本申请实施例所提供的任一种方法中的步骤。
本申请实施例可先获取需要识别实体信息的目标文本;然后,通过训练后的目标模型对目标文本进行实体分类,其中,目标模型基于目标文本进行逐个层级的特征提取,获得多个目标深度层级输出的多个目标特征序列,以选择不同深度层级提取的目标特征序列来进行实体分类,并联合不同深度层级对应的实体分类结果来确定目标类别序列;最后,基于目标类别序列包含所述目标文本中各字所属的实体类别,识别出目标文本中的目标实体。以此,通过提取不同深度层级输出的特征进行分类,以可以融合基于较深层级提取的反映语义的特征进行分类所得到的实体分类结果以及基于从较浅层级提取的反映语法结构和词性的特征进行分类所得到的实体分类结果确定目标文本中的目标实体,相较于仅用于反映语义的特征进行实体分类,本方案实现了在考虑语义信息的同时,又考虑文本的语法结构和词性来进行实体识别,提高实体识别时的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的实体识别系统的场景示意图;
图2是本申请实施例提供的实体识别方法的步骤流程示意图;
图3是本申请实施例提供的双向编码模型的结构示例图;
图4是本申请实施例提供的模型训练方法的步骤流程示意图;
图5是本申请实施例提供的实体识别方法的另一步骤流程示意图;
图6是本申请实施例提供的目标模型的结构示意图;
图7是本申请实施例提供的样本目标文本与样本类别序列之间的对应关系示意图;
图8是本申请实施例提供的预测实体分类结果的数据结构示意图;
图9是本申请实施例提供的实体识别装置的结构示意图;
图10是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地,仅用于解释本申请,而不能理解为对本申请的限制。
在说明书、权利要求书和上述附图所描述的一些流程中,包含了按照特定顺序出现的多个步骤,但应该清楚了解,这些步骤可以不按照其在本文中出现的顺序来执行或并行执行,步骤序号仅仅是用于区分开各个不同的步骤,序号本身不代表任何的执行顺序。此外,本文中的“第一”和“第二”等描述,是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种实体识别方法、模型训练方法、装置、设备和存储介质。具体地,本申请实施例将从实体识别装置的维度进行描述,该实体识别装置具体可以集成在计算机设备中,该计算机设备可以是服务器,也可以是用户终端等设备。其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。其中,用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能家电、车载终端、智能语音交互设备、飞行器等,但并不局限于此。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息(例如下文中目标对象的对象特征信息)、用户使用记录、用户状况等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
需要说明的是,本申请实施例提供的实体识别方法可适用于从文本中提取实体的场景,这些场景不限于通过云服务、大数据、人工智能或结合等方式实现,具体通过如下实施例进行说明:
本申请实施例提供的文本识别方法涉及人工智能(Artificial Intelligence,AI)技术,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学和数学。人工智能领域模型训练的重要技术,预训练模型,即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
然而,本申请实施例可通过自然语言处理技术中的文本处理和/或语义理解技术来实现实体识别任务。具体通过如下实施例进行说明:
需要说明的是,在该实体识别场景中,其主要通过神经网络(Artificial NeuralNetworks,ANNs)模型来实现的,以下简称为“模型”。而该文本识别过程可包括模型的训练阶段(A)和应用阶段(B)。该训练阶段和应用阶段可通过实体识别系统中的一个或多个设备组合来实现。
例如,参见图1,为本申请实施例提供的实体识别系统的场景示意图,该场景系统中的设备可以包括服务器和/或终端;当系统中的设备仅包括服务器或终端时,服务器或终端上包括目标数据库和实体识别装置,该实体识别装置可以包括模型训练装置和模型应用装置;当系统为终端和服务器的组合时,服务器上可包括目标数据库和实体识别装置。
其中,该目标数据库可以存储有大量的数据,该数据不限于包括结构化数据、非结构化的文本类数据,需要说明的是,这些数据可以是包含文字内容的文本、图像等,这些数据可作为模型训练阶段的样本数据,即训练数据。
示例性的,以搜索服务系统对应的目标数据库为例,该搜索服务可以基于目标数据库中的数据返回与用户搜索词条匹配的目标内容,该目标内容不限于包括文本、图像或视频等,其中,搜索服务系统在执行搜索任务时,主要是基于数据的关键信息与用户搜索词条之间的匹配度来确定目标内容的。该关键信息可以是文本、图像或视频的实体、语句描述等。为了实现以上,需要先确定目标数据库中每个数据的关键信息,如识别目标数据库中任一文本、图像和视频中对应的实体。需要说明的是,对于图像或视频中对应的实体,其可以理解为图像中文字内容、视频帧中任意字幕对应的实体。
需要说明的是,在对数据进行实体识别时,其主要是通过训练好的模型来对数据进行实体分类处理。其中,在模型训练阶段时,可以使用目标数据库中的数据作为模型输入数据,如,以文本类的数据作为样本输入数据,以包含文字内容的图像类的数据作为样本输入数据,以视频中包含文字内容的视频帧作为样本输入数据,并针对以上任一类数据设定样本输出数据,至此,得到训练数据,以基于以上训练数据对模型进行训练。
(A)模型的训练阶段:
在模型的训练阶段中,模型训练装置可以在获得样本文本数据后,基于获得的样本文本数据对预设模型进行训练。具体的,在训练阶段可包括准备训练数据和模型训练。
其中,准备训练数据的过程:在获取到样本输入数据后,可以对样本输入数据进行预处理,例如,当样本输入数据为图像时,可以从图像中提取出文字内容来生成样本目标文本,当样本输入数据为视频时,可以从包含关键信息的视频帧中提取出文字内容来生成样本目标文本;此外,可对样本目标文本中的文字内容去标点符号、分词、以及词语规范化等处理,此处不做限定。进一步的,针对样本目标文本中的实体设定样本输出数据,该样本输出数据可以是包含实体类别的序列,作为训练阶段的监督信息,以指导模型训练过程。至此,以获得训练数据。
为了能够快速执行实体识别任务,本申请实施例可选用一种预训练模型,预训练模型(Pre-training model,PTM),也称基石模型、大模型,指具有大参量的深度神经网络(Deep neural network,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(fine tune)、参数高效微调(PEFT)、prompt-tuning等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型、视觉模型(swin-transformer,ViT,V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT,CLIP,Flamingo,Gato)等,其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。例如,在本申请实施例中,可选用一种预训练的深度学习模型,如选用双向编码模型(Bidirectional Encoder Representation fromTransformers,BERT),该模型预训练后,可实现深层的双向语言表征。
其中,模型的训练可以理解为基于输出的预测结果与样本输出数据之间的差异进行对比学习训练,其主要是联合多个预测结果相对于样本输出数据之间的差异构建损失函数,并基于损失函数来训练模型,实现损失最小化。
需要说明的是,为了提高模型在执行实体识别任务时的准确性,本申请实施例考虑了模型中高层级编码层(编码层即下文中的特征提取网络)提取的深度语义特征,该深度语义特征可以表征文本深层的语义,同时,考虑了模型中低层级编码层提取的低层级的语义特征,该低层级的特征更能表征文本的结构、语法、词性等基础信息,以此,实现将不同层级提取的特征进行实体分类,并利用多个层级的特征进行分类所得到的预测结果来实现实体识别,提高准确性。因此,在基于模型中多层级连贯叠加的编码层结构上,可针对模型设定不同深度层级的编码层可分别与分类层(即下文中的实体分类网络)相连接,从而,在模型训练阶段,针对分类层输出的不同深度层级的预测实体分类结果,分别结合样本输出数据与每个预测实体分类结果计算不同深度层级的子损失值,进而,结合多个子损失值来计算总的目标损失值,从而基于目标损失值对模型进行训练。
具体的,模型训练的过程为:获取样本目标文本以及样本类别序列,样本类别序列为上述的样本输出数据,其包含样本目标文本中每个样本字对应的样本实体类别;将样本目标文本输入预设模型进行逐层级递增的特征提取,以获取多个目标深度层级输出的多个预测特征序列,并确定每个预测特征序列的预测实体分类结果,每个预测实体分类结果包含样本目标文本中每个样本字属于各实体类别的预测概率值;根据每个预测实体分类结果中每个样本字属于各实体类别的预测概率值、样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的损失值;根据各目标深度层级对应的融合权重和各目标深度层级的损失值,确定目标损失值;根据目标损失值调整预设模型的网络参数,具体可以采用梯度下降算法,逐步实现对预设模型的微调;按照以上方式,直至达到预设条件,比如,预设模型输出的预测实体分类结果与样本类别序列相同,或者迭代训练的次数达到一定数量,又或者目标损失值(或目标损失函数)最小化,等等,得到训练后的目标模型。该目标模型可以用于参与本申请实施例的实体识别过程。
(B)模型的应用阶段:
在模型的应用阶段中,模型训练装置可将训练后的目标模型上传或安装至模型应用装置中,以使得模型应用装置运行该目标模型,以执行实体识别的相关流程。具体的,模型应用装置在获取待识别的目标文本后,通过目标模型基于目标文本进行实体分类处理,得到目标类别序列,目标类别序列包含目标文本中各字所属的实体类别;其中,目标类别序列由目标模型基于目标文本进行逐层级递增的特征提取,以获取不同深度层级输出的多个目标特征序列,并联合多个目标特征序列的多个实体分类结果确定得到;其中,逐层级递增的特征提取的过程为将上一层级提取的特征序列作为下一层级的特征基础数据进行特征提取;根据目标类别序列中的实体类别,确定目标文本中包含的目标实体。
通过以上模型的训练阶段和应用阶段的场景,可以实现本申请的实体识别方法。
例如,假设服务器或终端上包括目标数据库、模型训练装置和模型应用装置,服务器或终端可以基于目标数据库中的数据准备训练数据,并通过模型训练装置根据训练数据对预设模型进行训练,并将训练获得的目标模型传输到模型应用装置上运行。此时,终端或服务器可以实现如下:在获取待识别的目标文本后,通过目标模型基于目标文本进行实体分类处理,得到目标类别序列,目标类别序列包含目标文本中各字所属的实体类别;其中,目标类别序列由目标模型基于目标文本进行逐层级递增的特征提取,以获取不同深度层级输出的多个目标特征序列,并联合多个目标特征序列的多个实体分类结果确定得到;其中,逐层级递增的特征提取的过程为将上一层级提取的特征序列作为下一层级的特征基础数据进行特征提取;根据目标类别序列中的实体类别,确定目标文本中包含的目标实体。
示例性的,以搜索服务系统为例,该搜索服务系统中具有对应的数据库,该数据库中包含有文本、图像和视频等数据,为了实现内容搜索服务,需要预先针对每个数据进行实体识别,以确定每个数据中的实体,以便基于实体与数据之间的映射关系来完成后续内容搜索业务。关于数据库中每个数据的实体识别过程为:搜索服务系统的终端或服务器从数据库中获取待识别的目标文本,并按照本申请提供的方法进行实体识别。。
又如,以终端和服务器组合的系统为例,终端与服务器之间建立有通信连接。其中,服务器可以是由多个物理服务机构成的分布式服务系统,其至少包含目标数据库、模型训练装置和模型应用装置,可在服务器上完成对模型的训练后,通过服务器运行目标模型。具体的,在模型应用阶段中,可通过终端上的客户端向服务器发送待识别的目标文本;而服务器在获取待识别的目标文本后,可以按照本申请提供的方法进行实体识别。
示例性的,结合图1所示,以搜索服务平台的搜索业务服务为例,该搜索服务平台,用户在通过该客户端向搜索服务平台的服务器发送目标文本,该目标文本中可以包括体现用户所需的搜索内容的关键词、词条、语句或文段。服务器在获取待识别的目标文本后,可以按照本申请提供的方法进行实体识别。以上仅为示例,不作为实施本申请的具体限定。
需要说明的是,以上仅为示例,还可应用于其他实体识别场景中,此处不做一一赘述。
为了便于理解,以下将分别对实体识别方法的各步骤进行详细说明。需说明的是,以下实施例的顺序不作为对实施例优选顺序的限定。
在本申请实施例中,将从实体识别装置的维度进行描述,以该实体识别装置具体可以集成在计算机设备,如终端或服务器中。参见图2,图2为本申请实施例提供的实体识别方法的步骤流程示意图,本申请实施例以实体识别装置具体集成在服务器上为例,服务器上的处理器执行实体识别方法对应的程序指令时,具体流程如下:
101、获取待识别的目标文本。
在本申请实施例中,可通过从文本中提取出实体,该实体又称为命名实体,其是指具体或者抽象的对象(例如人、地点、机构、动物等)的标志符或者专有名称,例如人名、地名、机构名、植物名称、动物名称等,该实体又可以理解为某一概念的实例。文本中的实体是表征句子主题核心信息的主要成分,结合实体信息来理解文本内容,可提高对文本内容的语义信息理解时的准确性和效率。此外,实体也可以一定程度上代表文本内容的语义,因此,可先确定包含需要识别的内容的目标文本,以便后续基于该目标文本进行实体的提取。
其中,该待识别的目标文本可以是任意待识别文件的全部或部分文本,其包含了文件中的全部或部分文字内容信息。示例性的,以一篇文章作为文件为例,可以从文章中选择标题、摘要、一个或多个文段来生成目标文本;又如,以包含文字内容的图像作为文件为例,图像可具有标题或名称,可将图像的标题或名称来生成目标文本,若图像中包含相关的文字内容,还可提取图像中的文字内容来生成目标文本;再如,以包含文字内容的视频作为文件为例,该文字内容可以包括视频的标题,可基于视频的标题来生成目标文本,以及视频中包含字幕、背景简介等信息,可确定包含字幕或背景等任意文字内容的目标视频帧,并从目标视频帧中提取出文字内容来生成目标文本。
在本申请实施例中,目标文件可以来源于任意形式的文件,即不同的文件,可从任意形式的文件中选取部分或全部文字内容来生成目标文本。
在一些实施方式中,以文本类的文件为例,步骤101可以包括:获取待识别的文本文件,并确定文本文件中待识别内容的目标内容位置信息,该目标内容位置信息包含待识别内容在文本文件中的页码和段落;将目标内容位置信息中页码和段落所指示目标文字内容,作为目标文本。
在一些实施方式中,以图像类的文件为例,步骤101可以包括:获取待识别的图像文件,并确定图像文件中待识别内容的目标图像区域;将目标图像区域中的目标文字内容,作为目标文本。
在一些实施方式中,以视频类的文件为例,步骤101可以包括:获取待识别的视频,并确定视频中待识别内容所在的关键视频帧;从关键视频帧中提取出目标文字内容,作为目标文本。
在一些实施方式中,针对文本、图像或视频类的文件,可获取待识别文件对应的标题信息,基于标题信息生成目标文本。
通过以上方式,可获取到待识别的目标文本,以便后续基于目标文本中的内容信息来提取实体。
102、通过目标模型基于目标文本进行实体分类处理,得到目标类别序列。目标类别序列由目标模型基于目标文本进行逐层级递增的特征提取,以获取不同深度层级输出的多个目标特征序列,并联合多个目标特征序列的多个实体分类结果确定得到。
在本申请实施例中,为了提取目标文本中的实体,需要先确定目标文本中各实体在句子中位置信息,具体可通过训练好的目标模型来对目标文本中的内容进行实体分类,以获取对应的目标类别序列,该目标类别序列包含目标文本中各字所属的实体类别,通过该目标类别序列,可确定目标文本中的各个实体,以便后续从目标文本中提取出实体。
其中,该目标类别序列指示了目标文本中每个字所属的实体类别,例如,目标类别序列可以是目标文本中各字所属的实体类别按照字在目标文本中的顺序进行组合得到的序列。在一些实施例中,实体类别的种类包含非实体类别、实体起始字类别、实体中间字类别以及实体结束字类别。
示例性的,通过“O”、“B”、“M”和“E”来分别表示一个实体类别。例如,用“O”表示目标文本中一切非实体类别的字,例如文本中的代词、语气词、助词、连词等,用“B”来表示实体起始字类别,即实体中的第一个字(开始字)、“M”表示实体中间字类别,即实体中处于中间位置的字,“E”表示实体结束字类别,其标识实体中的最后一个字(结束字),例如,针对每一个实体,当实体的名称仅有一个字时,用“B”表示该实体,比如,实体“花”用“B”表示其实体类别;当实体的名称由两个字组成时,用“B”来表示实体中的第一个(开始)字所属的实体类别,用“E”表示实体中的最后一个字(结束字)所属的实体类别;当实体的名称由三个字组成时,用“B”来表示实体中的第一个(开始)字所属的实体类别,用“M”表示实体的第二个字,即实体的中间字,所属的实体类别,用“E”表示实体的最后一个字(结束字)所属的实体类别。例如,当目标文本为“游戏角色A的大招技能很厉害”,则“游戏角色A”和“大招技能”可以理解为实体,目标类别序列中相邻的实体类别之间可以通过预设符号隔开,预设符号例如间隔符“|”或逗号“,”或顿号“、”或空格符,如,对应的目标类别序列可以为“B|M|M|M|E|O|B|M|M|E|O|O|O”或“B、M、M、M、E、O、B、M、M、E、O、O、O”。以上仅为示例,不作为实施本方案的具体限定方式。
目标模型可以包括多个级联的特征提取网络来进行特征提取。需要说明的是,高层级的特征提取网络(即深度越深的特征提取网络,特征提取网络的深度可以理解为沿着目标模型的输入到输出的方向,特征提取网络在目标模型中所在的层级)输出的特征能够更好地表示目标文本的语义,而低层级的特征提取网络(即深度越浅的特征提取网络)提取的特征可以表示目标文本的语法结构、字的词性等基础信息,融合深层次的语义和能够表征文本的语法结构以及词性的特征进行实体分类,有利于实体分类的准确性;因此,本申请实施例在对目标文本进行实体分类时,关注不同深度层级的语义特征,结合不同深度的语义特征的实体分类结果来确定最终的目标类别序列,提高实体分类的准确性,具有可靠性。
其中,逐层级递增的特征提取的过程为将上一层级提取的特征序列作为下一层级的特征基础数据进行特征提取。为了便于理解,结合图3所示,为本申请实施例提供的双向编码模型的结构示意图,该双向编码模型(BERT)包含嵌入层和编码处理层,嵌入层用于对目标文本进行嵌入表示,以将文本转化为数字向量,以供编码处理层进行特征提取;编码处理层可由多层的特征提取网络串接构成,每层特征提取网络包含一个或多个转换编码器(Transformer,Trm),相邻两层的每个转换编码器(Transformer,Trm)之间全连接,例如,嵌入层的输出与第一层中每个转换编码器“Trm”的输入进行全连接,且第一层中每个转换编码器“Trm”的输出与第二层中的每个转换编码器“Trm”的输入进行全连接,以此类推。基于以上双向编码模型的结构,对逐层级递增的特征提取过程进行介绍,具体为:当目标文本完成嵌入表示后,基于嵌入层的输出与第一层中每个转换编码器之间的全连接关系,将嵌入表示序列传输至第一层的特征提取网络中相应的转换编码器进行编码处理(即特征提取);进而,基于第一层中每个转换编码器的输出与第二层中的每个转换编码器的输入之间的全连接关系,将第一层中的每个转换编码器输出的编码向量输入至第二层中的每个转换编码器进行编码处理;按照以上方式,以此类推,直至基于倒数第二层(第N-1层)中每个转换编码器的输出与倒数第一层(第N层)中的每个转换编码器的输入之间的全连接关系,将倒数第二层(第N-1层)中的每个转换编码器输出的编码向量输入至倒数第一层(第N层)中的每个转换编码器进行编码处理,至此,完成基于目标文本的逐层级递增的特征提取过程。至此,每个转换编码器基于自注意力机制(Self-Attention)和全连接,在对相应的嵌入表示序列进行编码处理,以在最高层级输出表示每个字的深度语义信息的语义特征,其中,每个语义特征的长度大小可以是1*512。
在一些实施方式中,目标模型的编码处理层由多个子特征提取层组成,相邻的两个子特征提取层之间基于全连接实现层与层之间的级联关系,每个子特征提取层可以理解为一个特征提取网络,代表一个相应深度的层级,此外,还包括为实体分类网络,为了便于理解目标模型对目标文本的处理过程,结合目标模型的基本结构对实体分类过程进行介绍。例如,目标模型包括N个级联的特征提取网络和实体分类网络,步骤102可以包括:
(102.1)对目标文本进行嵌入表示,得到嵌入表示序列;
(102.2)通过N个级联的特征提取网络基于嵌入表示序列进行逐层级的特征提取;其中,N个级联的特征提取网络中上一个特征提取网络成的输出作为下一个特征提取网络的输入,N为大于1的正整数;
(102.3)从N个级联的特征提取网络输出的特征序列中,获取其中K个目标特征提取网络输出的K个目标特征序列,2≤K≤N,K为整数;
(102.4)通过实体分类网络基于K个目标特征序列中每个目标特征序列进行实体分类,获得每个目标特征序列对应的实体分类结果;
(102.5)将多个实体分类结果进行融合处理,以获取目标文本对应的目标类别序列。
其中,该嵌入表示序列中包含目标文本中每个字对应的字向量。嵌入表示是指将目标文本转化为向量,以通过数字向量方式来表示目标文本,实现特征提取。需要说明的是,嵌入表示的处理过程可以包括三部分,分别为标记嵌入处理、句子分段嵌入处理以及位置嵌入处理,示例性的,假设目标文本为“第一游戏角色的大招技能比第二游戏角色的大招技能更厉害”,嵌入表示的过程可以为:对目标文本中的每个字进行标记嵌入处理,得到每个字的标记嵌入向量,分别表示为“E第”、“E一”、“E游”、“E戏”、“E角”、“E色”、“E的”、“E大”、“E招”、“E技”、“E能”、“E比”、E第”、“E二”、“E游”、“E戏”、“E角”、“E色”、“E的”、“E大”、“E招”、“E技”、“E能”、“E更”、“E厉”、“E害”;然后,对目标文本中的每个字进行句子分段嵌入处理,在分段嵌入时,可以用任意字表示不同的句子片段,如使用字母“A、B、C......”来区分各个句子,由于该示例的目标文本仅包含一个句子,则用“A”来表示,在如上的目标文本中,由于该目标文本中的字处于同一句子中,因此可以用相同的分段嵌入向量表示,例如均表示为为“EA”;此外,对目标文本中的每个字进行位置嵌入处理,得到每个字的位置嵌入向量,该字的位置嵌入向量用于表征该字在目标文本中的位置,分别表示为“E1”、“E2”、“E3”、“E4”、“E5”、“E6”、“E7”、“E8”、“E9”、“E10”、“E11”、“E12”、“E13”、“E14”、“E15”、“E16”、“E17”、“E18”、“E19”、“E20”、“E21”、“E22”、“E23”、“E24”、“E25”、“E26”。经过以上嵌入处理后,可将得到标记嵌入向量、片段嵌入向量和位置嵌入向量进行累加、融合,得到包含每个字符对应的嵌入表示向量的嵌入表示序列。需要说明的是,在对目标文本进行嵌入表示处理之前,还可对目标文本进行去标点符号、词语规范等处理,此处不做限定。
其中,在得到目标文本对应的嵌入表示序列后,按照逐层级递增的特征提取方式,通过N个级联的特征提取网络对嵌入表示序列中的每个字向量进行特征提取,以实现不同深度的特征提取网络之间基于上一层特征提取网络输出的语义特征进行特征提取,并在不同深度层级的特征提取网络处设定对应的输出接口,从而,以获取不同的目标深度层级的特征提取网络输出的目标特征序列,该目标特征序列的数量可以少于或等于层级数量。
例如,针对目标模型的特征提取网络整体,按照层级数量等均设定三个输出接口,将第一层级至第一个输出接口之间的特征提取层定义为浅层编码组合层,将第一个输出接口至第二个输出接口之间的特征提取层定义为中层编码组合层,以及将第二个输出接口至第三个输出接口之间的特征提取层定义为深层编码组合层,则通过浅层编码组合层对嵌入表示序列中的每个字向量进行语义特征提取,得到浅层级的目标特征序列,以及,通过中层编码组合层对浅层级的目标特征序列中的每个浅层语义特征进行特征提取,得到中层级的目标特征序列,此外,通过深层编码组合层对中层级的目标特征序列中的每个中层语义特征进行特征提取,得到深层级的目标特征序列,如此,获得三个不同深度层级的目标特征序列,关于不同深度层级的目标特征序列的获取数量可根据实际需求而定。进一步的,通过实体分类网络分别对每个目标特征序列进行分类,以获取每个目标特征序列对应的实体分类结果。最后,通过融合所有的实体分类结果,以确定目标文本对应的目标类别序列,以此,实现联合多个深度层级的特征序列的实体分类结果来确定目标文本中每个字最终所属的实体类别,提高对目标文本的实体识别的准确性。
在一些实施例中,在如上的步骤(102.3)中,可以按照预设的间隔,从N个级联的特征提取网络输出的特征序列中等间距获取K个特征提取网络输出的特征序列,作为K个目标特征序列。例如,若目标模型包括12个级联的特征提取网络,可以沿从目标模型的输入到输出的方向,将目标模型中第4个特征提取网络、第8个特征提取网络以及将第12个特征提取网络输出的特征序列作为目标特征序列。
在另一些实施例中,也可以从N个级联的特征提取网络输出的特征序列中非等间距获取K个特征提取网络输出的特征序列,作为K个目标特征序列。若目标模型包括6个级联的特征提取网络,可以沿从目标模型的输入到输出的方向,将目标模型中第1个特征提取网络、第3个特征提取网络、第4个特征提取网络、第5个特征提取网络以及将第6个特征提取网络输出的特征序列作为目标特征序列。值得一提的是,K个目标特征序列中包括目标模型中最后一个特征提取网络输出的特征序列。
在一些实施方式中,获取多个不同深度层级的目标特征序列后,针对每个目标特征序列,可基于每个语义特征被分类至各实体类别的概率值来确定每个目标特征序列的实体分类结果,基于此,可设定特定的实体分类网络的结构。例如,实体分类网络包含标签概率分类层和条件随机场分类层,步骤(102.4)可以包括:
(102.4.1)针对每个目标特征序列,通过标签概率分类层对目标特征序列中的每个语义特征进行分类处理,得到每个目标特征序列对应的概率分布矩阵;
(102.4.2)通过条件随机场分类层基于每个概率分布矩阵中每个语义特征属于各实体类别的概率值,得到每个目标特征序列对应的实体分类结果。
其中,目标特征序列对应的概率分布矩阵包含目标特征序列中每个语义特征被分类至每个实体类别的概率值,例如,实体类别的种类包含非实体类(O)、实体起始字类别(B)、实体中间字类别(M)和实体结束字类别(E),则概率分布矩阵中包含每个语义特征被分类至以上各实体类别的概率。可以理解的是的,当目标文本包含n个字时,目标特征序列包含n个语义特征,则概率分布矩阵的大小为4*n的矩阵。
具体的,在得到多个不同深度层级的目标特征序列后,即可分别对每个目标特征序列进行实体分类处理。在该实体分类处理过程中,针对每个目标特征序列,需要确定目标特征序列中每个语义特征被分类至各实体类别的概率值,例如,针对标签概率分类层可以选用softmax激活函数,针对每个目标特征序列,该softmax分类层可以对目标特征序列中的每个语义特征进行标签分类处理,并输出每个语义特征属于各实体类别的概率值,以此,针对每个语义特征可具有多个不同实体类别的概率值,假设包含四个实体类别,则每个语义特征可具有四个实体类别的概率值,则每个目标特征序列经过标签概率分类处理后获得一个概率分布矩阵。进一步的,可通过条件条件场的分类层,结合条件随机场通过训练学习到的约束条件,对每个目标特征序列对应的概率分布矩阵进行实体分类,具体通过分类选取出一条合适标签路径,以作为每个目标特征序列的实体分类结果。
在一些实施方式中,为了提高每个目标特征序列的实体分类的准确性,可通过条件随机场的原理来对每个目标特征序列的标签概率分布矩阵进行实体分类。例如,步骤(102.4.2)可以包括:针对每个目标特征序列,通过条件随机场分类层按照目标文本中的字排序关系,针对目标特征序列中的每个语义特征选取一个实体类别进行组合,得到多个候选标签路径;基于标签概率分布矩阵中每个语义特征属于各实体类别的概率值,确定每个候选标签路径的路径评分;从多个候选标签路径中选取路径评分最大的目标标签路径,得到每个目标特征序列对应的实体分类结果。
其中,该字排序关系可以是目标文本中字与字之间的先后排序关系,用于限定条件随机场分类层在构建候选标签路径时的每个字的实体类别之间的排序。具体的,候选标签路径由多个字的实体类别构成,每个字的实体类别可以是对应的标签概率分布矩阵中的任意一个类别,而候选标签路径中各个实体类别之间的排序关系与所对应的字在目标文本中的排序相同。
其中,该实体分类结果可以包含目标文字属于各个实体类别的概率值,需要说明的是,虽然条件随机场通过分类处理输出最优的目标标签路径作为实体分类结果,但仍包含每个字被排除的实体类别的概率值,而每个字被排除的实体类别的概率值为“0”,只保持最优的目标标签路径所指示的每个字的真实实体类别的概率值,以便于后续对不同深度层级的实体类别结果的融合处理。
其中,该路径评分可以是对应的候选标签路径的评分,用于评估当前候选标签路径是否属于正确标签路径,可以理解的是,候选标签路径的路径评分越大,表示该路径属于正确的标签路径的可能性越大。
需要说明的是,每个候选标签路径的路径评分可由该路径的实体类别的状态评分和状态转移评分来确定。其中,该实体类别的状态评分可以是对应的候选标签路径中包含各个实体类别时的状态分值,其计算过程为:确定当前候选标签路径中指示的每个实体类别相对应的字,查询每个实体类别相对应的字在相应的标签概率分布矩阵中的概率值,并以概率值作为对应字所属的实体类别的类别评分,如此,可确定当前候选标签路径中指示的每个实体类别的类别评分,进而,将候选标签路径中指示的每个实体类别的类别评分进行相加,得到当前候选标签路径的实体类别的状态评分。其中,状态转移评分可以是标签候选路径中各个实体类别之间的状态转移评分,状态转移评分可以由候选标签路径中任意相邻的两个实体类别的类别评分之间的状态转移分值相加得到。具体的,针对每个候选标签路径,确定任意两个相邻的实体类别的组合中由某一实体类别转移到另一实体类别的状态转移分值,需要说明的是,状态转移分值可以理解为由任一实体类别转移到任一实体类别的转移价值,每个状态转移分值由条件随机场(CRF)在训练阶段学习到的约束和状态转移评分矩阵确定;将每个状态转移分值进行相加,以得到候选标签路径的状态转移评分。进一步的,将状态评分和状态转移评分进行相加,并对相加结果进行对数函数的计算,得到对应候选标签路径的路径评分。以此,条件随机场在对每个目标特征序列的标签概率分布矩阵进行实体分类时,可考虑每个字被分类至各实体类别的评分以及整个目标文本中相邻两个字之间的实体类别转移评分,提高每个目标特征序列的实体分类的准确性。
在一些实施方式中,每个目标特征序列的实体分类结果代表一个深度层级,通过联合多个不同深度层级的实体分类结果来确定目标文本最终的实体分类结果,即目标类别序列。例如,步骤(102.5)可以包括:
(102.5.1)确定各实体分类结果的融合权重;
(102.5.2)按照融合权重对多个实体分类结果进行融合处理,得到融合结果;
(102.5.3)根据融合结果,确定目标文本对应的目标类别序列。
其中,该融合权重可以是相应深度层级在模型训练阶段设定的权重系数。具体的,在目标模型的训练阶段中,可针对不同深度层级设定权重系数,以按照各深度层级对应的实体分类结果对应的损失值以及各深度层级对应的权重系数来计算目标损失值,以对模型进行训练,而每个权重系数在模型应用阶段分别作为多个实体分类结果融合时的融合权重。
具体的,在确定得到每个实体分类结果所在深度层级的融合权重后,可按照各个融合权重对前述得到的多个实体分类结果进行融合处理。示例性的,假设得到浅层实体分类结果、中层实体分类结果和深层实体分类结果,它们的融合权重分别为第一融合权重、第二融合权重和第三融合权重,则该融合过程为:确定第一融合权重与浅层实体分类结果之间的第一乘积结果,确定第二融合权重与中层实体分类结果之间的第二乘积结果,以及确定第三融合权重与深层实体分类结果之间的第三乘积结果;对第一乘积结果、第二乘积结果和第三乘积结果进行累加,得到融合结果。进一步的,可基于融合结果中每个字所属实体类别的目标概率值来确定目标文本中每个字最终的实体类别。
在一些实施方式中,融合结果也可以是标签概率分布矩阵的数据形式,其包含目标文本中每个字属于各实体类别的目标概率值,该目标概率值由不同实体分类结果中每个字属于同一实体类别的概率值加权融合得到。针对目标文本中的每个字,可从融合结果中选取目标概率值最大时的目标实体类别,从而得到目标文本的目标类别序列。例如,步骤(102.5.3)可以包括:基于融合结果中每个字属于各实体类别的目标概率值,确定目标文本中每个字在取得最大的目标概率值时的目标实体类别;基于每个字的目标实体类别,生成目标文本对应的目标类别序列。该目标类别序列可以表征目标文本中每个实体的位置信息。
在本申请实施例中,为了提高模型执行实体识别时的准确性,需要对模型进行训练。具体的,可选用预训练的大规模语言模型作为基础,如选用双向编码模型(BERT),并对双向编码模型进行训练,以获取训练后的目标模型,用于前述的目标文本的实体分类过程。
在一些实施方式中,为了提高模型在实体分类时的性能,可分别针对不同深度层级的预测结果构建损失,并联合不同深度层级的损失来对预设模型进行训练,以获取训练后的目标模型。例如,在步骤102之前,还可以包括:
(102.a.1)获取样本目标文本以及样本类别序列;
(102.a.2)将样本目标文本输入预设模型进行逐层级递增的特征提取,以获取多个目标深度层级输出的多个预测特征序列,并确定每个预测特征序列的预测实体分类结果;
(102.a.3)根据每个预测实体分类结果中每个样本字属于各实体类别的预测概率值、样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的损失值;
(102.a.4)根据各目标深度层级对应的融合权重和各目标深度层级的损失值,确定目标损失值;
(102.a.5)根据目标损失值调整预设模型的网络参数,并进行迭代训练,直至达到预设条件,得到训练后的目标模型。
其中,该样本目标文本可以是任意文件的全部或部分文本,其包含了文件中的全部或部分文字内容信息。示例性的,以一篇文章作为文件为例,可以从文章中选择标题、摘要、一个或多个文段来生成样本目标文本。
其中,该样本类别序列可以理解为样本标注标签序列,其包含样本目标文本中每个样本字对应的样本标注标签,每个样本标注标签表示每个字对应的样本实体类别。
其中,该预测特征序列包含每个字在对应深度层级下的特征提取网络所提取的语义特征。
其中,每个预测实体分类结果包含样本目标文本中每个样本字属于各实体类别的预测概率值。具体的,该预测实体分类结果可以是矩阵的数据形式,在该矩阵中,针对每个字都具有其所属实体类别的预测概率值,需要说明的是,该矩阵只保留每个字被决策为所属实体类别的预测概率值,对于其他被排除的实体类别,其预测概率值被置为“0”。
具体的,以预训练的双向编码模型(BERT)作为预设模型的基础模型,该双向编码模型可包含嵌入层和编码处理层,其中,编码处理层包含多个特征提取网络,这多个特征提取网络之间通过串接叠加形成多层级联的编码处理层。为了提高后续实体识别时的准确性,可针对该预训练的双向编码模型设定相应的多个不同目标深度层级的特征输出接口,并将每个特征输出接口与预设模型中的实体分类层进行连接,实现分别对特征输出接口所输出的预测特征序列进行实体分类,以获得每个预测特征序列的预测实体分类结果。在模型训练中,以样本类别序列作为参照数据,针对每个预测实体分类结果构建损失函数,以计算当前目标深度层级的预测实体分类结果的损失值;进而,联合多个预先设定的每个目标深度层级的融合权重与损失值进行加权求和,以确定目标损失值;最后,可基于目标损失值来调整预设模型中的网络参数;按照以上方式对模型进行迭代训练,直至达到预设条件,如预设模型输出的预测实体分类结果与样本类别序列相同或相近,或者迭代训练的次数达到一定数量,又或者目标损失值(或目标损失函数)最小化等等。至此,得到训练后的目标模型。该目标模型可以用于参与本申请实施例前述的目标文本的实体识别过程。
需要说明的是,在模型训练过程中,将样本目标文本输入至预设模型之前,还可对样本目标文本进行预处理,如文本清洗、词语规范化、词语向量化等处理流程,此处不做限定。
在一些实施方式中,针对每个预测实体分类结果,在确定其对应的损失值时,可先单独计算目标文本中每个字的损失值,再通过加权方式来对目标文本中所有字的损失值进行计算,以确定每个目标深度层级对应的预测实体分类结果的损失值。例如,步骤(102.a.3)可以包括:根据每个预测实体分类结果中每个样本字属于各实体类别的预测概率值、样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的预测分类结果中每个样本字的字损失值;对样本目标文本中多个样本字的字损失值进行加权,得到每个目标深度层级的损失值。
示例性的,以某一目标深度层级的预测实体分类结果的损失值计算为例,该计算过程如下:
其中,LossCRF该表示预测实体分类结果的损失值;k表示实体类别的总数量,假设实体类别包含“O”、“B”、“M”和“E”,则k=4;n表示样本目标文本的字数;yij的取值为“0”或“1”,“0”表示样本目标文本中第i个字不属于第j类实体类别,“1”表示样本目标文本中第i个字属于第j类实体类别;aij表示预测实体分类结果中第i个字属于第j类实体类别的概率值。通过以上示例,可计算出每个预测实体分类结果的损失值,以便按照各目标深度层级的融合权重和对应的预测实体分类结果的损失值进行加权计算出最终的目标损失值。
在一些实施方式中,由于深度层级所表达的深度语义信息较为准确,在此前提下,为了使得模型在实体识别时更加关注浅层的语义特征所呈现的句式表达、词性构造等基础信息,可针对浅层级的预测实体分类结果设定较大的融合权重,即,目标深度层级对应的融合权重与目标深度层级的层级深度之间呈负相关关系,层级深度越高,设定的融合权重越小,反之,层级深度越浅,设定的融合权重越大,以此,可识别后续在联合多个实体分类结果进行实体分类时更加关注浅层语义特征所呈现的句式表达、词性构造等基础信息,提高实体分类的准确性。
通过以上方式,可对目标文本进行实体分类处理,得到目标类别序列,以便后续根据该目标类别序列所表征的实体信息(如实体在文本中的排布信息等)来提取出目标文本中的实体,提高实体识别的准确性。
103、根据目标类别序列中的实体类别,确定目标文本中包含的目标实体。
在本申请实施例中,在得到目标类别序列后,可分析该目标类别序列中每个字所属的实体类别,并按照每个字所属的实体类别,筛选出目标文本中表示实体的词,目标文本中表示实体的词即为目标实体。
示例性的,假设目标文本的内容为“第一游戏角色的大招技能很厉害”,则该目标文本中的关键词可以是“第一游戏角色”和/或“大招技能”,对应的目标类别序列可以是“B|M|M|M|M|E|O|B|M|M|E|O|O|O”,根据该目标类别序列对目标文本中的字进行提取,具体提取“B”、“M”和“E”对应位置的字,提取到的目标实体可以包括“第一游戏角色”和/或“大招技能”;以上仅为示例。
在一些实施方式中,实体类别的种类包括非实体类别、实体起始字类别、实体中间字类别以及实体结束字类别,步骤103可以包括:根据目标类别序列中的实体类别,确定目标类别序列中的目标子类别序列,其中,目标子类别序列包括由实体起始字类别和实体结束字类别依序排列形成的序列,由实体起始字类别、实体中间字类别和实体结束字类别依序排列形成的序列,以及在目标类别序列中前后均为非实体类别的单个实体起始字类别;基于目标子类别序列中的实体类别在目标文本中对应的字,确定在目标文本中目标子类别序列对应的目标实体。
其中,该目标子类别序列可以是由至少两个字对应的实体类别串接组成的类别组合,每个组合代表目标文本中对应的一个实体。例如,“B|E”表示一个目标子类别序列,代表目标文本中对应的一个实体;又如,“B|M|E”表示一个目标子类别序列,代表目标文本中对应的一个实体;再如,“B|M|M|E”、“B|M|M|M|M|E”、“B|M|M|M|M|M|E”同样分别表示一个目标子类别序列;以上仅为示例。
具体的,确定非实体类别、实体起始字类别类别、实体中间字类别和实体结束字类别在目标类别序列中的实体类别分布信息,以根据实体标类别分布信息查找出目标类别序列中的每一个目标子类别序列,进而,按照每一个目标子类别序列从目标文本中提取出对应的目标实体。
通过以上方式,可在得到目标类别序列后,可分析该目标类别序列中包含每个字所属的实体类别,以根据每个字所属的实体类别确定实体在目标文本中的排布关系,从而筛选出目标文本中属于实体的字体,得到一个或多个目标实体。
由上可知,本申请实施例可先获取需要识别实体的目标文本;然后,通过训练后的目标模型对目标文本进行实体分类,其中,目标模型基于目标文本进行逐个层级的特征提取,获得多个目标深度层级输出的多个目标特征序列,以选择不同深度层级提取的目标特征序列来进行实体分类,并联合不同深度层级对应的实体分类结果来确定目标类别序列;最后,基于目标类别序列包含目标文本中各字所属的实体类别,识别出目标文本中的目标实体。以此,通过提取不同深度层级输出的特征进行分类,以可以融合基于较深层级提取的反映语义的特征进行分类所得到的实体分类结果以及基于从较浅层级提取的反映语法结构和词性的特征进行分类所得到的实体分类结果确定目标文本中的目标实体,相较于仅用于反映语义的特征进行实体分类,本方案实现了在考虑语义信息的同时,又考虑文本的语法结构和词性来进行实体识别,提高实体识别时的准确性。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
本申请实施例提供一种实体识别模型的训练方法,图4为本申请实施例提供的实体识别模型训练方法的步骤流程图,结合图4,对模型训练过程进行描述。
在本申请实施例中,将从实体识别装置的角度进行描述,该实体识别装置具体可以集成在计算机设备如服务器中。例如,该计算机设备上的处理器执行模型训练方法对应的程序时,该模型训练方法的具体流程如下:
201、获取样本目标文本以及样本类别序列。
其中,该样本目标文本可以是任意文件的全部或部分文本,其包含了文件中的全部或部分文字内容信息。示例性的,以一篇文章作为文件为例,可以从文章中选择标题、摘要、一个或多个文段来生成样本目标文本。
其中,该样本类别序列包含样本目标文本中每个样本字对应的样本实体类别,每个样本实体类别通过对应的样本标注标签来表示,例如,用“O”表示目标文本中一切非实体类别的字,用“B”来表示实体的名称的第一个字(开始字)、“M”表示实体的名称的任一个中间字,“E”表示实体的名称的最后一个字(结束字)。
202、将样本目标文本输入预设模型进行逐层级递增的特征提取,以获取多个目标深度层级输出的多个预测特征序列,并确定每个预测特征序列的预测实体分类结果。
在本申请实施例中,该预设模型在结构上可包含双向编码模型(BERT)和实体分类网络,双向编码模型(BERT)用于对样本目标文本进行逐层级递增的特征提取,实体分类网络用于对双向编码模型所输出的每一个预测特征序列进行实体分类处理,以获得预测实体分类结果。
其中,双向编码模型(BERT)包含嵌入层和编码处理层,编码处理层包含多个特征提取网络,每个特征提取网络由多个转换编码器(Transformer,Trm)并列组成,相邻两个特征提取网络之间的转换编码器全连接,使得这多个特征提取网络之间通过串接叠加形成多层级联的编码处理层,每一特征提取网络对应一个深度层级。进而,可针对该编码处理层中多个不同目标深度层级的特征提取网络设定特征输出接口,并将每个特征输出接口与预设模型中的实体分类网络进行连接,当特征输出接口输出预测特征序列时,将通过实体分类网络进行实体分类,得到每个预测特征序列对应的预测实体分类结果。
其中,每个预测实体分类结果包含样本目标文本中每个样本字属于各实体类别的预测概率值。需要说明的是,该预测实体分类结果可以是矩阵的数据形式,其包含每个字所属实体类别的预测概率值,需要说明的是,该矩阵只保留每个字被决策为所属实体类别的预测概率值,对于其他被排除的实体类别,其预测概率值被置为“0”。
203、根据每个预测实体分类结果中每个样本字属于各实体类别的预测概率值、样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的损失值。
在本申请实施例中,针对每个预测实体分类结果,在确定其对应的损失值时,可先单独计算目标文本中每个字的损失值,再通过加权方式来对目标文本中所有字的损失值进行计算,以确定每个目标深度层级对应的预测实体分类结果的损失值。
具体的,以样本类别序列作为参照数据,针对每个预测实体分类结果构建损失函数,以计算当前目标深度层级的预测实体分类结果的损失值。例如,以某一目标深度层级的预测实体分类结果的损失值计算为例,该计算过程如下:
其中,LossCRF该表示预测实体分类结果的损失值;k表示实体类别集合的大小,假设实体类别集合包含“O”、“B”、“M”和“E”,则k=4;n表示样本目标文本的字数;yij的取值为“0”或“1”,“0”表示样本目标文本中第i个字不属于第j类实体类别,“1”表示样本目标文本中第i个字属于第j类实体类别;aij表示预测实体分类结果中第i个字属于第j类实体类别的概率值。
204、根据各目标深度层级对应的融合权重和各目标深度层级的损失值,确定目标损失值。
其中,目标深度层级对应的融合权重与目标深度层级的层级深度之间呈负相关关系,层级深度越高,设定的融合权重越小,反之,层级深度越浅,设定的融合权重越大,以此,可识别后续在联合多个实体分类结果进行实体分类时更加关注浅层语义特征所呈现的句式表达、词性构造等基础信息,提高实体分类的准确性。
例如,按照编码处理层从浅层到深层的层级方向,依序均衡设定第一目标深度层级、第二目标深度层级和第三目标深度层级作为输出层,第一目标深度层级的深度小于第二目标深度层级和第三目标深度层级,第二目标深度层级的深度小于第三目标深度层级。进而,针对第一目标深度层级设定对应的第一融合权重,针对第二目标深度层级设定第二融合权重,针对第三目标深度层级设定第三融合权重,则第一融合权重大于第二融合权重,第二融合权重大于第三融合权重。最后,确定第一融合权重与第一目标深度层级的损失值之间的第一乘积结果,确定第二融合权重与第二目标深度层级的损失值之间的第二乘积结果,以及确定第三融合权重与第三目标深度层级的损失值之间的第三乘积结果;对第一乘积结果、第二乘积结果和第三乘积结果进行加权计算,得到目标损失值。示例性的,该目标损失值的计算过程如下:
LossALL=λ1*Loss1+λ2*Loss2+λ3*Loss3
其中,LossALL表示目标损失值,λ1表示第一融合权重,λ2表示第二融合权重,λ3表示第三融合权重,Loss1表示第一目标深度层级对应的损失值,Loss2表示第二目标深度层级对应的损失值,Loss3表示第三目标深度层级对应的损失值。
需要说明的是,以上仅为示例,当包含更多或更少目标深度层级的损失值时,还可根据实际情况设定融合权重来计算目标损失值。以此,实现联合多个不同深度层级的损失来确定预设模型的目标损失值,以便后续基于该目标损失值对预设模型进行训练,提高模型后续进行实体识别性能。
205、根据目标损失值调整预设模型的网络参数,并进行迭代训练,直至达到预设条件,得到训练后的目标模型。
在本申请实施例中,可基于目标损失值来调整预设模型中的网络参数,并按照以上方式对模型进行迭代训练,直至达到预设条件,如预设模型输出的预测实体分类结果与样本类别序列相同或相近,或者迭代训练的次数达到一定数量,又或者目标损失值(或目标损失函数)最小化等等。至此,得到训练后的目标模型。该目标模型可以用于参与本申请实施例前述的目标文本的实体识别过程。
由上可知,本申请实施例通过联合不同目标深度层级的预测实体分类结果来分别构建损失,并按照特定融合权重来对多个损失进行融合,以获得最终的目标损失,基于不同深度的多个损失对预设模型进行训练,使得训练后的目标模型能够关注文本的深度语义信息的同时,该关注浅层的语义特征所表示的词性结构、句式表达等基础信息,提高实体识别时的准确性。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
本申请实施例以实体识别为例,对本申请实施例提供的实体识别方法作进一步叙述。
图5是本申请实施例提供的实体识别方法的另一步骤流程示意图。为了便于理解,本申请实施例结合图5进行描述。
在本申请实施例中,将从实体识别装置的角度进行描述,该实体识别装置具体可以集成在计算机设备如服务器中。例如,该计算机设备上的处理器执行实体识别方法对应的程序时,该实体识别方法的具体流程如下:
本申请实施例包括模型训练过程,具体步骤为301~305,以及包括实体识别过程,具体步骤为306~308。
301、获取样本目标文本以及样本类别序列。
其中,该样本目标文本可以是任意文件的全部或部分文本,其包含了文件中的全部或部分文字内容信息。
其中,该样本类别序列包含样本目标文本中每个样本字对应的样本实体类别,每个样本实体类别通过对应的样本标注标签来表示,例如,用“O”表示目标文本中一切非实体类别的字,用“B”来表示实体的名称的第一个字(开始字)、“M”表示实体的名称的任一个中间字,“E”表示实体的名称的最后一个字(结束字)。
302、将样本目标文本输入预设模型进行逐层级递增的特征提取,以获取多个目标深度层级输出的多个预测特征序列,并确定每个预测特征序列的预测实体分类结果。
具体的,预设模型包含双向编码模型和实体分类网络,其中,双向编码模型(BERT)包含嵌入层和编码处理层,编码处理层包含多个特征提取网络,每个特征提取网络由多个转换编码器(Transformer,Trm)并列组成,相邻两个特征提取网络之间的转换编码器全连接,使得这多个特征提取网络之间通过串接叠加形成多层级联的编码处理层,每一特征提取网络对应一个深度层级。进而,可针对该编码处理层中多个不同目标深度层级的特征提取网络设定特征输出接口,并将每个特征输出接口与预设模型中的实体分类网络进行连接,当特征输出接口输出预测特征序列时,将通过实体分类网络进行实体分类,得到每个预测特征序列对应的预测实体分类结果。
303、根据每个预测实体分类结果中每个样本字属于各实体类别的预测概率值、样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的损失值。
在本申请实施例中,针对每个预测实体分类结果,在确定其对应的损失值时,可先单独计算目标文本中每个字的损失值,再通过加权方式来对目标文本中所有字的损失值进行计算,以确定每个目标深度层级对应的预测实体分类结果的损失值。
304、根据各目标深度层级对应的融合权重和各目标深度层级的损失值,确定目标损失值。
其中,目标深度层级对应的融合权重与目标深度层级的层级深度之间呈负相关关系,层级深度越高,设定的融合权重越小,反之,层级深度越浅,设定的融合权重越大。按照这种方式来设各目标深度层级对应的融合权重,可在确保考虑准确的深度语义信息的同时,更加关注浅层语义特征所呈现的句式表达、词性构造等基础信息,提高实体分类的准确性。
具体的,按照编码处理层从浅层到深层的层级方向,依序均衡设定第一目标深度层级、第二目标深度层级和第三目标深度层级作为输出层,第一目标深度层级的深度小于第二目标深度层级和第三目标深度层级,第二目标深度层级的深度小于第三目标深度层级。进而,针对第一目标深度层级设定对应的第一融合权重,针对第二目标深度层级设定第二融合权重,针对第三目标深度层级设定第三融合权重,则第一融合权重大于第二融合权重,第二融合权重大于第三融合权重。则该损失的融合过程为:确定第一融合权重与第一目标深度层级的损失值之间的第一乘积结果,确定第二融合权重与第二目标深度层级的损失值之间的第二乘积结果,以及确定第三融合权重与第三目标深度层级的损失值之间的第三乘积结果;对第一乘积结果、第二乘积结果和第三乘积结果进行加权计算,得到目标损失值
305、根据目标损失值调整预设模型的网络参数,并进行迭代训练,直至达到预设条件,得到训练后的目标模型。
在本申请实施例中,可基于目标损失值来调整预设模型中的网络参数,并按照以上方式对模型进行迭代训练,直至达到预设条件,如预设模型输出的预测实体分类结果与样本类别序列相同或相近,或者迭代训练的次数达到一定数量,又或者目标损失值(或目标损失函数)最小化等等。至此,得到训练后的目标模型。该目标模型可以用于参与本申请实施例前述的目标文本的实体识别过程。
306、获取待识别的目标文本。
其中,该待识别的目标文本可以是任意待识别文件的全部或部分文本,其包含了文件中的全部或部分文字内容信息。示例性的,以一篇文章作为文件为例,可以从文章中选择标题、摘要、一个或多个文段来生成目标文本;又如,以包含文字内容的图像作为文件为例,图像可具有标题或名称,可将图像的标题或名称来生成目标文本,若图像中包含相关的文字内容,还可提取图像中的文字内容来生成目标文本;再如,以包含文字内容的视频作为文件为例,该文字内容可以包括视频的标题,可基于视频的标题来生成目标文本,以及视频中包含字幕、背景简介等信息,可确定包含字幕或背景等任意文字内容的目标视频帧,并从目标视频帧中提取出文字内容来生成目标文本。
307、通过目标模型基于目标文本进行实体分类处理,得到目标类别序列。
在本申请实施例中,为了提取目标文本中的实体,需要先确定目标文本中各实体在句子中位置信息,具体可通过训练好的目标模型来对目标文本中的内容进行实体分类,以获取对应的目标类别序列,该目标类别序列包含目标文本中各字所属的实体类别,通过该目标类别序列,可确定目标文本中的各个实体,以便后续从目标文本中提取出实体。
具体的,目标模型包含双向编码模型和实体分类网络,其中,双向编码模型(BERT)包含嵌入层和编码处理层,编码处理层包含多个特征提取网络,每个特征提取网络由多个转换编码器(Transformer,Trm)并列组成,相邻两个特征提取网络之间的转换编码器全连接,使得这多个特征提取网络之间通过串接叠加形成多层级联的编码处理层,每一特征提取网络对应一个深度层级。目标模型的实体分类过程如下:通过嵌入层对目标文本进行嵌入表示,得到嵌入表示序列;通过N个级联的特征提取网络基于嵌入表示序列进行逐层级的特征提取,其中,N个级联的特征提取网络中上一个特征提取网络成的输出作为下一个特征提取网络的输入,N为大于1的正整数;从N个级联的特征提取网络输出的特征序列中,获取其中K个目标特征提取网络输出的K个目标特征序列,2≤K≤N,K为整数;通过实体分类网络基于K个目标特征序列中每个目标特征序列进行实体分类,获得每个目标特征序列对应的实体分类结果;将多个实体分类结果进行融合处理,以获取目标文本对应的目标类别序列。
其中,该目标类别序列可以表示每个字所属的实体类别。需要说明的是,实体类别的种类包含非实体类别、实体起始字类别、实体中间字类别以及实体结束字类别,目标类别标签由以上任意一个实体类别组成,即包含以上一个或多个实体类别。
308、根据目标类别序列中的实体类别,确定目标文本中包含的目标实体。
在本申请实施例中,确定非实体类别、实体起始字类别、实体中间字类别以及实体结束字类别在目标类别序列中的实体类别分布信息,以根据实体类别分布信息查找出目标类别序列中的每一个目标子类别序列,进而,按照每一个目标子类别序列从目标文本中提取出对应的目标实体。
为了便于对本申请实施例的理解,将以具体的应用场景实例对本申请实施例进行描述。具体的,通过执行以上步骤301-308,对该应用场景实例进行描述。
需要说明的是,该实体识别方法主要用于任一文件对应的文本的实体识别场景,该场景实例的具体如下:
一、该实体识别模型架构介绍:
结合图6所示,为本申请实施例提供的实体识别模型的结构示意图,该实体识别模型在架构上可以包括双向编码模型(BERT)和实体分类网络。
其中,双向编码模型(BERT)包含嵌入层和编码处理层,编码处理层包含多个特征提取网络,每个特征提取网络由多个转换编码器(Transformer,Trm)并列组成,相邻两个特征提取网络之间的转换编码器全连接,使得这多个特征提取网络之间通过串接叠加形成多层级联的编码处理层,每一特征提取网络对应一个深度层级。
其中,实体分类网络可以包括softmax分类器和条件随机场分类器,示例性的,本模型设定的双向编码模型中的编码处理层设定浅、中、深的三个特征提取网络的特征输出接口,这三个特征输出接口可共用一个softmax分类器和条件随机场分类器,或者针对每个特征输出接口单独设定一个softmax分类器和条件随机场分类器。
结合以上模型结构,对本场景实例进行简介如下:基于bert深度模型多层语义向量进行实体抽取,整个模型由模型整体架构由大规模的语义向量模型作为整体编码器,模型包含十二层编码器,将每四层token对应的语义向量输出,使得每个字编码得到三个语义向量,并联合三个语义向量的实体分类结果来对每个字进行最终的实体分类,结合浅层的网络关注提取文本的词性、表达结构等基础信息,以及深层次网络会关注提取文本的语义表达的抽象特征,实现通过强化基础结构信息来提高实体分类的准确率。
二、该场景实例的实施过程具体如下:
(1)准备训练数据,针对样本目标文本设定样本类别序列,例如,参见图7所示,以某一文件的标题作为样本目标文本,其内容为“这鲁班没救了,经济被压制。完全起不来,手机给你来玩!”,对样本目标文本中的每个字标注实体类别。例如,O代表other,也就是无意义字,即前述的非实体类别;B代表begin,为实体词起始字,即前述的实体起始字类别;M代表middle,为实体词中间字,即前述的实体中间字类别;E代表end,为实体词结束字,即前述的实体结束字类别,则对样本目标文本设定的样本类别序列为“O、B、E、O、......”。
(2)将样本目标文本输入到BERT编码模型中,经过编码处理,得到分类符向量CLS_token以及样本目标文本中各个字的编码语义向量“T0,T1,…,Tn”,表示为:CLS,T0,T1…Tn=BERT(样本目标文本)。
按照以上方式,每4层进行一次语义特征的抽取作为输出,最终得到3个语义特征序列,这三个语义特征序列分别代表浅层网络、中层网络以及深度网络表达的语义向量,具体表示如下:
第4层语义网络表达向量为L1_emb=Bert-L4(Sententce);
第8层语义网络表达向量为L2_emb=Bert-L8(Sententce);
第12层语义网络表达向量为L3_emb=Bert-L12(Sententce)。
(3)将上述抽取的三个层次的语义向量分别输入到不同的实体抽取分类器中,这里构建三个不同层次的分类器,分别对三个层次提取到的语义结果做实体抽取结果拟合,具体过程如下:
第一层的实体分类为:A_1=CRF([T1_0,T1_1,..,T1_n]),其中CRF=Model1;
第二层的实体分类为:A_2=CRF([T2_0,T2_1,..,T2_n]),其中CRF=Model2;
第三层的实体分类为:A_3=CRF([T3_0,T3_1,..,T3_n]),其中CRF=Model3。
其中,A_i表示Model_i对样本目标文本的每个字的预测实体分类结果,包含每个字属于各实体类别的预测概率值。结合图8所示,以A_1为例,预测实体分类结果的数据形式为矩阵格式,针对每个字,仅保留被认为所属的实体类别的预测概率值,其他被排除的实体类别的概率值置为0。
(4)分别对A_1、A_2、A_3计算损失,分别得到Loss1、Loss2、Loss3,具体计算过程如下:
其中,LossCRF该表示预测实体分类结果的损失值;k表示实体类别集合的大小,假设实体类别集合包含“O”、“B”、“M”和“E”,则k=4;n表示样本目标文本的字数;yij的取值为“0”或“1”,“0”表示样本目标文本中第i个字不属于第j类实体类别,“1”表示样本目标文本中第i个字属于第j类实体类别;aij表示预测实体分类结果中第i个字属于第j类实体类别的概率值。
进而,融合三个实体分类层的损失,具体计算过程如下:
LossALL=λ1*Loss1+λ2*Loss2+λ3*Loss3
其中,λ1表示第一融合权重,λ2表示第二融合权重,λ3表示第三融合权重,都是超阐述,可根据经验设定,权重越大,表示对相应层级结构造成的损失惩罚越重,一般将权重比例设定为λ1:λ2:λ3=5:3:2,且权重之和为1。而LossALL表示目标损失值,Loss1表示第一目标深度层级对应的损失值,Loss2表示第二目标深度层级对应的损失值,Loss3表示第三目标深度层级对应的损失值。
基于以上目标损失对预设模型进行训练,得到训练后的目标模型。
需要说明的是,在模型训练阶段和模型应用阶段中,每个层级的融合权重的大小保持一致。
(5)获取待识别的目标文本,将目标文本输入至目标模型,得到多个目标深度层级的实体分类结果,融合多个实体分类结果,该融合过程如下:
A=λ1*A_1+λ2*A_2+λ3*A_3
其中,A表示目标类别序列,A_1表示第一目标深度层级针对目标文本的实体分类结果,A_2表示第二目标深度层级针对目标文本的实体分类结果,A_3表示第三目标深度层级针对目标文本的实体分类结果。
通过执行以上(1)到(6)的场景步骤,可以实现如下效果:通过借助大规模预训练模型BERT来同时获取句子的语义向量和句中词的语法信息,融合语法和语义信息来识别文本实体,从而提高实体识别时的准确率。
由以上可知,本申请实施例可先获取需要识别实体的目标文本;然后,通过训练后的目标模型对目标文本进行实体分类,其中,目标模型基于目标文本进行逐个层级的特征提取,获得多个目标深度层级输出的多个目标特征序列,以选择不同深度层级提取的目标特征序列来进行实体分类,并联合不同深度层级对应的实体分类结果来确定目标类别序列;最后,基于目标类别序列包含目标文本中各字所属的实体类别,识别出目标文本中的目标实体。以此,通过提取不同深度层级输出的特征进行分类,以可以融合基于较深层级提取的反映语义的特征进行分类所得到的实体分类结果以及基于从较浅层级提取的反映语法结构和词性的特征进行分类所得到的实体分类结果确定目标文本中的目标实体,相较于仅用于反映语义的特征进行实体分类,本方案实现了在考虑语义信息的同时,又考虑文本的语法结构和词性来进行实体识别,提高实体识别时的准确性。
为了更好地实施以上方法,本申请实施例还提供一种实体识别装置。例如,如图9所示,该实体识别装置可以包括获取单元401、分类单元402和确定单元403。
获取单元401,用于获取待识别的目标文本;
分类单元402,用于通过目标模型基于目标文本进行实体分类处理,得到目标类别序列,目标类别序列包含目标文本中各字所属的实体类别;
其中,目标类别序列由目标模型基于目标文本进行逐层级递增的特征提取,以获取不同深度层级输出的多个目标特征序列,并联合多个目标特征序列的多个实体分类结果确定得到;其中,逐层级递增的特征提取的过程为将上一层级提取的特征序列作为下一层级的特征基础数据进行特征提取;
确定单元403,用于根据目标类别序列中的实体类别,确定目标文本中包含的目标实体。
在一些实施方式中,目标模型包括N个级联的特征提取网络和实体分类网络;分类单元402,还用于:对目标文本进行嵌入表示,得到嵌入表示序列;通过N个级联的特征提取网络基于嵌入表示序列进行逐层级的特征提取;其中,N个级联的特征提取网络中上一个特征提取网络成的输出作为下一个特征提取网络的输入,N为大于1的正整数;从N个级联的特征提取网络输出的特征序列中,获取其中K个目标特征提取网络输出的K个目标特征序列,2≤K≤N,K为整数;通过实体分类网络基于K个目标特征序列中每个目标特征序列进行实体分类,获得每个目标特征序列对应的实体分类结果;将多个实体分类结果进行融合处理,以获取目标文本对应的目标类别序列。
在一些实施方式中,分类单元402,还用于:确定各实体分类结果的融合权重;按照融合权重对多个实体分类结果进行融合处理,得到融合结果;根据融合结果,确定目标文本对应的目标类别序列。
在一些实施方式中,融合结果包含目标文本中每个字属于各实体类别的目标概率值,分类单元402,还用于:基于融合结果中每个字属于各实体类别的目标概率值,确定目标文本中每个字在取得最大的目标概率值时的目标实体类别;基于每个字的目标实体类别,生成目标文本对应的目标类别序列。
在一些实施方式中,实体分类网络包含标签概率分类层和条件随机场分类层;分类单元402,还用于:针对每个目标特征序列,通过标签概率分类层对目标特征序列中的每个语义特征进行分类处理,得到每个目标特征序列对应的概率分布矩阵;通过条件随机场分类层基于每个概率分布矩阵中每个语义特征属于各实体类别的概率值,得到每个目标特征序列对应的实体分类结果。
在一些实施方式中,分类单元402,还用于:针对每个目标特征序列,通过条件随机场分类层按照目标文本中的字排序关系,针对目标特征序列中的每个语义特征选取一个实体类别进行组合,得到多个候选标签路径;基于标签概率分布矩阵中每个语义特征属于各实体类别的概率值,确定每个候选标签路径的路径评分;从多个候选标签路径中选取路径评分最大的目标标签路径,得到每个目标特征序列对应的实体分类结果。
在一些实施方式中,实体类别的种类包括非实体类别、实体起始字类别、实体中间字类别以及实体结束字类别;确定单元403,还用于:根据目标类别序列中的实体类别,确定目标类别序列中的目标子类别序列;其中,目标子类别序列包括由实体起始字类别和实体结束字类别依序排列形成的序列,由实体起始字类别、实体中间字类别和实体结束字类别依序排列形成的序列,以及在目标类别序列中前后均为非实体类别的单个实体起始字类别;基于目标子类别序列中的实体类别在目标文本中对应的字,确定在目标文本中目标子类别序列对应的目标实体。
在一些实施方式中,实体识别装置还包括训练单元,用于:获取样本目标文本以及样本类别序列,样本类别序列包含样本目标文本中每个样本字对应的样本实体类别;将样本目标文本输入预设模型进行逐层级递增的特征提取,以获取多个目标深度层级输出的多个预测特征序列,并确定每个预测特征序列的预测实体分类结果,每个预测实体分类结果包含样本目标文本中每个样本字属于各实体类别的预测概率值;根据每个预测实体分类结果中每个样本字属于各实体类别的预测概率值、样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的损失值;根据各目标深度层级对应的融合权重和各目标深度层级的损失值,确定目标损失值;根据目标损失值调整预设模型的网络参数,并进行迭代训练,直至达到预设条件,得到训练后的目标模型。
在一些实施方式中,训练单元,还用于:根据每个预测实体分类结果中每个样本字属于各实体类别的预测概率值、样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的预测分类结果中每个样本字的字损失值;对样本目标文本中多个样本字的字损失值进行加权,得到每个目标深度层级的损失值。
在一些实施方式中,目标深度层级对应的融合权重与目标深度层级的层级深度之间呈负相关关系。
由以上可知,本申请实施例可先获取需要识别实体的目标文本;然后,通过训练后的目标模型对目标文本进行实体分类,其中,目标模型基于目标文本进行逐个层级的特征提取,获得多个目标深度层级输出的多个目标特征序列,以选择不同深度层级提取的目标特征序列来进行实体分类,并联合不同深度层级对应的实体分类结果来确定目标类别序列;最后,基于目标类别序列包含目标文本中各字所属的实体类别,识别出目标文本中的目标实体。以此,通过提取不同深度层级输出的特征进行分类,以可以融合基于较深层级提取的反映语义的特征进行分类所得到的实体分类结果以及基于从较浅层级提取的反映语法结构和词性的特征进行分类所得到的实体分类结果确定目标文本中的目标实体,相较于仅用于反映语义的特征进行实体分类,本方案实现了在考虑语义信息的同时,又考虑文本的语法结构和词性来进行实体识别,提高实体识别时的准确性。
本申请实施例还提供一种计算机设备,如图10所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图10中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及实体识别过程。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
计算机设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本申请实施例中,计算机设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
获取待识别的目标文本,通过目标模型基于目标文本进行实体分类处理,得到目标类别序列,目标类别序列包含目标文本中各字所属的实体类别;其中,目标类别序列由目标模型基于目标文本进行逐层级递增的特征提取,以获取不同深度层级输出的多个目标特征序列,并联合多个目标特征序列的多个实体分类结果确定得到;其中,逐层级递增的特征提取的过程为将上一层级提取的特征序列作为下一层级的特征基础数据进行特征提取;根据目标类别序列中的实体类别,确定目标文本中包含的目标实体。
或者,获取样本目标文本以及样本类别序列,样本类别序列包含样本目标文本中每个样本字对应的样本实体类别;样本目标文本输入预设模型进行逐层级递增的特征提取,以获取多个目标深度层级输出的多个预测特征序列,并确定每个预测特征序列的预测实体分类结果,每个预测实体分类结果包含样本目标文本中每个样本字属于各实体类别的预测概率值;根据每个预测实体分类结果中每个样本字属于各实体类别的预测概率值、样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的损失值;根据各目标深度层级对应的融合权重和各目标深度层级的损失值,确定目标损失值;根据目标损失值调整预设模型的网络参数,并进行迭代训练,直至达到预设条件,得到训练后的目标模型。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由此可得,本方案可先获取需要识别实体的目标文本;然后,通过训练后的目标模型对目标文本进行实体分类,其中,目标模型基于目标文本进行逐个层级的特征提取,获得多个目标深度层级输出的多个目标特征序列,以选择不同深度层级提取的目标特征序列来进行实体分类,并联合不同深度层级对应的实体分类结果来确定目标类别序列;最后,基于目标类别序列包含目标文本中各字所属的实体类别,识别出目标文本中的目标实体。以此,通过提取不同深度层级输出的特征进行分类,以可以融合基于较深层级提取的反映语义的特征进行分类所得到的实体分类结果以及基于从较浅层级提取的反映语法结构和词性的特征进行分类所得到的实体分类结果确定目标文本中的目标实体,相较于仅用于反映语义的特征进行实体分类,本方案实现了在考虑语义信息的同时,又考虑文本的语法结构和词性来进行实体识别,提高实体识别时的准确性。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种实体识别方法中的步骤。例如,该指令可以执行如下步骤:
获取待识别的目标文本,通过目标模型基于目标文本进行实体分类处理,得到目标类别序列,目标类别序列包含目标文本中各字所属的实体类别;其中,目标类别序列由目标模型基于目标文本进行逐层级递增的特征提取,以获取不同深度层级输出的多个目标特征序列,并联合多个目标特征序列的多个实体分类结果确定得到;其中,逐层级递增的特征提取的过程为将上一层级提取的特征序列作为下一层级的特征基础数据进行特征提取;根据目标类别序列中的实体类别,确定目标文本中包含的目标实体。
或者,获取样本目标文本以及样本类别序列,样本类别序列包含样本目标文本中每个样本字对应的样本实体类别;样本目标文本输入预设模型进行逐层级递增的特征提取,以获取多个目标深度层级输出的多个预测特征序列,并确定每个预测特征序列的预测实体分类结果,每个预测实体分类结果包含样本目标文本中每个样本字属于各实体类别的预测概率值;根据每个预测实体分类结果中每个样本字属于各实体类别的预测概率值、样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的损失值;根据各目标深度层级对应的融合权重和各目标深度层级的损失值,确定目标损失值;根据目标损失值调整预设模型的网络参数,并进行迭代训练,直至达到预设条件,得到训练后的目标模型。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种实体识别方法中的步骤,因此,可以实现本申请实施例所提供的任一种实体识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种实体识别方法、模型训练方法、装置、设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (15)
1.一种实体识别方法,其特征在于,包括:
获取待识别的目标文本;
通过目标模型基于所述目标文本进行实体分类处理,得到目标类别序列,所述目标类别序列包含所述目标文本中各字所属的实体类别;
其中,所述目标类别序列由所述目标模型基于所述目标文本进行逐层级递增的特征提取,以获取不同深度层级输出的多个目标特征序列,并联合所述多个目标特征序列的多个实体分类结果确定得到;其中,所述逐层级递增的特征提取的过程为将上一层级提取的特征序列作为下一层级的特征基础数据进行特征提取;
根据所述目标类别序列中的实体类别,确定所述目标文本中包含的目标实体。
2.根据权利要求1所述的方法,其特征在于,所述目标模型包括N个级联的特征提取网络和实体分类网络;
所述通过目标模型基于所述目标文本进行实体分类处理,得到目标类别序列,包括:
对所述目标文本进行嵌入表示,得到嵌入表示序列;
通过所述N个级联的特征提取网络基于所述嵌入表示序列进行逐层级的特征提取;其中,所述N个级联的特征提取网络中上一个特征提取网络成的输出作为下一个特征提取网络的输入,N为大于1的正整数;
从所述N个级联的特征提取网络输出的特征序列中,获取其中K个目标特征提取网络输出的K个目标特征序列,2≤K≤N,K为整数;
通过实体分类网络基于所述K个目标特征序列中每个目标特征序列进行实体分类,获得每个目标特征序列对应的实体分类结果;
将多个所述实体分类结果进行融合处理,以获取所述目标文本对应的目标类别序列。
3.根据权利要求2所述的方法,其特征在于,所述将多个所述实体分类结果进行融合处理,以获取所述目标文本对应的目标类别序列,包括:
确定各所述实体分类结果的融合权重;
按照所述融合权重对多个所述实体分类结果进行融合处理,得到融合结果;
根据所述融合结果,确定所述目标文本对应的目标类别序列。
4.根据权利要求3所述的方法,其特征在于,所述融合结果包含所述目标文本中每个字属于各实体类别的目标概率值,所述根据所述融合结果,确定所述目标文本对应的目标类别序列,包括:
基于所述融合结果中每个字属于各实体类别的目标概率值,确定所述目标文本中每个字在取得最大的所述目标概率值时的目标实体类别;
基于每个字的目标实体类别,生成所述目标文本对应的目标类别序列。
5.根据权利要求2所述的方法,其特征在于,所述实体分类网络包含标签概率分类层和条件随机场分类层,所述通过实体分类网络基于所述K个目标特征序列中每个目标特征序列进行实体分类,获得每个目标特征序列对应的实体分类结果,包括:
针对每个目标特征序列,通过所述标签概率分类层对所述目标特征序列中的每个语义特征进行分类处理,得到每个所述目标特征序列对应的概率分布矩阵;
通过所述条件随机场分类层基于每个所述概率分布矩阵中每个语义特征属于各实体类别的概率值,得到每个所述目标特征序列对应的实体分类结果。
6.根据权利要求5所述的方法,其特征在于,所述通过所述条件随机场分类层基于所述概率分布矩阵中每个语义特征属于各实体类别的概率值,得到每个所述目标特征序列对应的实体分类结果,包括:
针对每个目标特征序列,通过所述条件随机场分类层按照所述目标文本中的字排序关系,针对所述目标特征序列中的每个语义特征选取一个实体类别进行组合,得到多个候选标签路径;
基于所述标签概率分布矩阵中每个语义特征属于各实体类别的概率值,确定每个候选标签路径的路径评分;
从所述多个候选标签路径中选取所述路径评分最大的目标标签路径,得到每个目标特征序列对应的实体分类结果。
7.根据权利要求1所述的方法,其特征在于,所述实体类别的种类包括非实体类别、实体起始字类别、实体中间字类别以及实体结束字类别,所述根据所述目标类别序列中的实体类别,确定所述目标文本中包含的目标实体,包括:
根据所述目标类别序列中的实体类别,确定所述目标类别序列中的目标子类别序列;
其中,所述目标子类别序列包括由所述实体起始字类别和所述实体结束字类别依序排列形成的序列,由所述实体起始字类别、所述实体中间字类别和所述实体结束字类别依序排列形成的序列,以及在所述目标类别序列中前后均为所述非实体类别的单个所述实体起始字类别;
基于所述目标子类别序列中的实体类别在所述目标文本中对应的字,确定在所述目标文本中所述目标子类别序列对应的目标实体。
8.根据权利要求1所述的方法,其特征在于,所述通过目标模型基于所述目标文本进行实体分类处理,得到目标类别序列之前,所述方法还包括:
获取样本目标文本以及样本类别序列,所述样本类别序列包含所述样本目标文本中每个样本字对应的样本实体类别;
将所述样本目标文本输入预设模型进行逐层级递增的特征提取,以获取多个目标深度层级输出的多个预测特征序列,并确定每个预测特征序列的预测实体分类结果,每个所述预测实体分类结果包含所述样本目标文本中每个样本字属于各实体类别的预测概率值;
根据每个所述预测实体分类结果中每个样本字属于各实体类别的预测概率值、所述样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的损失值;
根据各目标深度层级对应的融合权重和各目标深度层级的损失值,确定目标损失值;
根据所述目标损失值调整所述预设模型的网络参数,并进行迭代训练,直至达到预设条件,得到训练后的目标模型。
9.根据权利要求8所述的方法,其特征在于,所述根据每个所述预测实体分类结果中每个样本字属于各实体类别的预测概率值、所述样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的损失值,包括:
根据每个所述预测实体分类结果中每个样本字属于各实体类别的预测概率值、所述样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的预测分类结果中每个样本字的字损失值;
对所述样本目标文本中多个样本字的字损失值进行加权,得到每个目标深度层级的损失值。
10.根据权利要求8所述的方法,其特征在于,所述目标深度层级对应的融合权重与所述目标深度层级的层级深度之间呈负相关关系。
11.一种模型训练方法,其特征在于,包括:
获取样本目标文本以及样本类别序列,所述样本类别序列包含所述样本目标文本中每个样本字对应的样本实体类别;
将所述样本目标文本输入预设模型进行逐层级递增的特征提取,以获取多个目标深度层级输出的多个预测特征序列,并确定每个预测特征序列的预测实体分类结果,每个所述预测实体分类结果包含所述样本目标文本中每个样本字属于各实体类别的预测概率值;
根据每个所述预测实体分类结果中每个样本字属于各实体类别的预测概率值、所述样本类别序列中每个样本字对应的样本实体类别,确定每个目标深度层级的损失值;
根据各目标深度层级对应的融合权重和各目标深度层级的损失值,确定目标损失值;
根据所述目标损失值调整所述预设模型的网络参数,并进行迭代训练,直至达到预设条件,得到训练后的目标模型。
12.一种实体识别装置,其特征在于,包括:
获取单元,用于获取待识别的目标文本;
分类单元,用于通过目标模型基于所述目标文本进行实体分类处理,得到目标类别序列,所述目标类别序列包含所述目标文本中各字所属的实体类别;
其中,所述目标类别序列由所述目标模型基于所述目标文本进行逐层级递增的特征提取,以获取不同深度层级输出的多个目标特征序列,并联合所述多个目标特征序列的多个实体分类结果确定得到;其中,所述逐层级递增的特征提取的过程为将上一层级提取的特征序列作为下一层级的特征基础数据进行特征提取;
确定单元,用于根据所述目标类别序列中的实体类别,确定所述目标文本中包含的目标实体。
13.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序实现权利要求1至11任一项所述方法中的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至11任一项所述方法中的步骤。
15.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指被执行时实现权利要求1至11任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311271335.2A CN117313728A (zh) | 2023-09-26 | 2023-09-26 | 实体识别方法、模型训练方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311271335.2A CN117313728A (zh) | 2023-09-26 | 2023-09-26 | 实体识别方法、模型训练方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117313728A true CN117313728A (zh) | 2023-12-29 |
Family
ID=89254880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311271335.2A Pending CN117313728A (zh) | 2023-09-26 | 2023-09-26 | 实体识别方法、模型训练方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117313728A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576678A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备、介质及产品 |
CN118013047A (zh) * | 2024-04-03 | 2024-05-10 | 浙江口碑网络技术有限公司 | 一种基于大语言模型的数据分类预测方法和装置 |
-
2023
- 2023-09-26 CN CN202311271335.2A patent/CN117313728A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576678A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备、介质及产品 |
CN117576678B (zh) * | 2024-01-15 | 2024-04-05 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备、介质及产品 |
CN118013047A (zh) * | 2024-04-03 | 2024-05-10 | 浙江口碑网络技术有限公司 | 一种基于大语言模型的数据分类预测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310438B (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
Wang et al. | An overview of image caption generation methods | |
CN107315737A (zh) | 一种语义逻辑处理方法及系统 | |
Perez-Martin et al. | Improving video captioning with temporal composition of a visual-syntactic embedding | |
CN117313728A (zh) | 实体识别方法、模型训练方法、装置、设备和存储介质 | |
CN110796160A (zh) | 一种文本分类方法、装置和存储介质 | |
CN113239169B (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN111325571B (zh) | 一种多任务学习的商品评论标签自动生成方法、装置及系统 | |
CN113065358A (zh) | 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法 | |
CN114328807A (zh) | 一种文本处理方法、装置、设备及存储介质 | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
Zhang et al. | Hierarchical scene parsing by weakly supervised learning with image descriptions | |
CN111464881A (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN114428850A (zh) | 一种文本检索匹配方法和系统 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN110717316B (zh) | 字幕对话流的主题分割方法及装置 | |
Qi et al. | Video captioning via a symmetric bidirectional decoder | |
CN112287690A (zh) | 基于条件句子生成和跨模态重排的手语翻译方法 | |
CN113535946A (zh) | 基于深度学习的文本鉴别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |