CN115186667B - 基于人工智能的命名实体识别方法及装置 - Google Patents
基于人工智能的命名实体识别方法及装置 Download PDFInfo
- Publication number
- CN115186667B CN115186667B CN202210846058.2A CN202210846058A CN115186667B CN 115186667 B CN115186667 B CN 115186667B CN 202210846058 A CN202210846058 A CN 202210846058A CN 115186667 B CN115186667 B CN 115186667B
- Authority
- CN
- China
- Prior art keywords
- named entity
- sentence
- entity recognition
- named
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 146
- 238000012549 training Methods 0.000 claims abstract description 73
- 238000012795 verification Methods 0.000 claims abstract description 66
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 24
- 238000004891 communication Methods 0.000 claims description 17
- 238000007499 fusion processing Methods 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于人工智能的命名实体识别方法及装置,涉及自然语言处理技术领域,主要目的在于解决命名实体识别效率较低的问题。主要包括获取信息提取文本中待识别的目标句子文本;利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果,所述命名实体识别网络模型为基于权重分配网络对至少两个初始句子向量进行权重分配完成模型训练得到的;若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,所述实体语料库中存储有匹配不同信息提取文本的第三方命名实体,主要用于识别文本中的命名实体。
Description
技术领域
本发明涉及人工智能处理技术领域,特别是涉及一种基于人工智能的命名实体识别方法及装置。
背景技术
命名实体是指某领域内具有固定意义或者代表性强的实体词,如新闻领域的事件名、地点名、人物名等。命名实体识别(Named Entity Recognition,NER)是信息提取的一个子任务,是用于提取文本中的命名实体,并确定命名实体的实体类别的一种文本识别技术,该技术在自然语言处理技术走向实用化的过程中占有重要地位。
目前应用较为广泛的命名实体识别方法为基于双向长短期记忆网络模型(LSTM)与随机场模型(CRF)的结合的方法,该方法基于字符的单词表示及无监督的单词表示进行特征提取,从而实现对命名实体的识别。但该方法孤立的对文本中的每个词进行特征提取,没有考虑到每个词在整个句子或整个文本中的全局特征,得到的识别结果准确率较低。
发明内容
有鉴于此,本发明提供一种基于人工智能的命名实体识别方法及装置,主要目的在于解决现有命名实体识别方法识别准确率较低的问题。
依据本发明一个方面,提供了一种基于人工智能的命名实体识别方法,包括:
获取信息提取文本中待识别的目标句子文本;
利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果,所述命名实体识别网络模型为基于权重分配网络对至少两个初始句子向量进行权重分配完成模型训练得到的;
若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,所述实体语料库中存储有匹配不同信息提取文本的第三方命名实体。
进一步地,所述利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果之前,所述方法还包括:
获取命名实体识别训练样本集,并构建识别网络模型,所述命名实体识别训练样本集为基于至少一个初始句子样本构建的,所述识别网络模型包括权重分配网络、条件随机场网络、至少两个句子向量生成网络,其中,所述权重分配网络分别与所述条件随机场网络、所述至少两个句子向量生成网络相连接;
利用所述命名实体识别训练样本集对所述识别网络模型进行模型训练,得到命名实体识别网络模型。
进一步地,所述利用所述命名实体识别训练样本集对所述识别网络模型进行模型训练,得到命名实体识别网络模型,包括:
利用所述句子向量生成网络分别对所述命名实体识别训练样本集中的每个训练样本进行特征提取,得到包含至少两个初始句子向量的初始句子矩阵,所述初始句子向量为基于所述句子向量生成网络中至少三个中间解码层的输出结果确定的;
利用所述权重分配网络对所述初始句子矩阵中的每个字向量进行权重分配,得到句子权重矩阵,并通过对所述初始句子向量中同一位置字向量的权重进行融合处理,得到目标句子向量;
利用所述条件随机场网络对所述目标句子向量中的字向量进行实体类型标记,以使得所述命名实体识别网络模型完成训练。
进一步地,所述命名实体识别结果包括至少一个实体类型的命名实体,所述若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,包括:
获取与所述命名实体识别结果的实体类型对应的至少一个实体语料库;
分别计算每个实体类型的命名实体与所述实体语料库中第三方命名实体的匹配度,所述匹配度为所述命名实体与所述第三方命名实体的相似度最大值;
若所述匹配度大于或等于预设匹配度阈值,则确定匹配校验的结果为通过校验,并输出所述命名实体识别结果。
进一步地,所述方法还包括:
若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为未通过校验,则将所述匹配度小于所述预设匹配度阈值的命名实体与全部实体类型的所述第三方命名实体分别进行二次匹配,得到至少一个二次匹配度;
若所述二次匹配度大于或等于所述预设匹配度阈值,则基于所述二次匹配度所对应的实体类型对所述命名实体识别结果进行更新,并输出更新后的所述命名实体识别结果。
进一步地,所述方法还包括:
若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,且所述实体语料库中未包含所述命名实体识别结果中的命名实体,则将所述命名实体更新至所述实体语料库中。
进一步地,所述获取命名实体识别训练样本集之前,所述方法还包括:
获取至少一个初始句子样本,利用预设字符对所述初始句子样本中的命名实体进行替换处理,得到第一句子样本,并利用句子生成模型对所述第一句子样本进行生成处理,得到第二句子样本;
通过对所述第二句子样本中的所述预设字符进行同类实体语料替换处理,得到第三句子样本,并通过对所述第三句子样本进行非实体随机删除处理,得到第四句子样本;
基于所述第三句子样本、所述第四句子样本构建命名实体识别训练样本集。
依据本发明另一个方面,提供了一种基于人工智能的命名实体识别装置,包括:
获取模块,用于获取用于输入已完成训练的实体识别网络模型的目标句子文本,所述已完成训练的实体识别网络模型包括至少两个句子向量生成网络;
识别模块,用于利用所述句子向量生成网络分别对所述目标句子文本进行特征提取,得到初始句子向量矩阵,并根据所述初始句子向量矩阵进行权重分配,得到权重分配后的目标句子向量矩阵,所述初始句子向量矩阵包括每个所述句子向量生成网络生成的初始句子向量;
确定模块,用于对所述目标句子向量矩阵进行融合处理,得到所述目标句子文本的目标句子向量,并根据所述目标句子向量确定所述目标句子文本中的实体。
进一步地,所述装置还包括:
所述获取模块,还用于获取命名实体识别训练样本集,并构建识别网络模型,所述命名实体识别训练样本集为基于至少一个初始句子样本构建的,所述识别网络模型包括权重分配网络、条件随机场网络、至少两个句子向量生成网络,其中,所述权重分配网络分别与所述条件随机场网络、所述至少两个句子向量生成网络相连接;
训练模块,用于利用所述命名实体识别训练样本集对所述识别网络模型进行模型训练,得到命名实体识别网络模型。
进一步地,所述训练模型包括:
第一训练单元,用于利用所述句子向量生成网络分别对所述命名实体识别训练样本集中的每个训练样本进行特征提取,得到包含至少两个初始句子向量的初始句子矩阵,所述初始句子向量为基于所述句子向量生成网络中至少三个中间解码层的输出结果确定的;
第二训练单元,用于利用所述权重分配网络对所述初始句子矩阵中的每个字向量进行权重分配,得到句子权重矩阵,并通过对所述初始句子向量中同一位置字向量的权重进行融合处理,得到目标句子向量;
第三训练单元,用于利用所述条件随机场网络对所述目标句子向量中的字向量进行实体类型标记,以使得所述命名实体识别网络模型完成训练。
进一步地,所述确定模块包括:
获取单元,用于获取与所述命名实体识别结果的实体类型对应的至少一个实体语料库;
计算单元,用于分别计算每个实体类型的命名实体与所述实体语料库中第三方命名实体的匹配度,所述匹配度为所述命名实体与所述第三方命名实体的相似度最大值;
确定单元,用于若所述匹配度大于或等于预设匹配度阈值,则确定匹配校验的结果为通过校验,并输出所述命名实体识别结果。
进一步地,所述装置还包括:
匹配模块,用于若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为未通过校验,则将所述匹配度小于所述预设匹配度阈值的命名实体与全部实体类型的所述第三方命名实体分别进行二次匹配,得到至少一个二次匹配度;
第一更新模块,用于若所述二次匹配度大于或等于所述预设匹配度阈值,则基于所述二次匹配度所对应的实体类型对所述命名实体识别结果进行更新,并输出更新后的所述命名实体识别结果。
进一步地,所述装置还包括:
第二更新模块,用于若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,且所述实体语料库中未包含所述命名实体识别结果中的命名实体,则将所述命名实体更新至所述实体语料库中。
进一步地,所述装置还包括:
所获取模块,还用于获取至少一个初始句子样本,利用预设字符对所述初始句子样本中的命名实体进行替换处理,得到第一句子样本,并利用句子生成模型对所述第一句子样本进行生成处理,得到第二句子样本;
样本生成模块,用于通过对所述第二句子样本中的所述预设字符进行同类实体语料替换处理,得到第三句子样本,并通过对所述第三句子样本进行非实体随机删除处理,得到第四句子样本;
构建模块,用于基于所述第三句子样本、所述第四句子样本构建命名实体识别训练样本集。
根据本发明的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述基于人工智能的命名实体识别方法对应的操作。
根据本发明的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述基于人工智能的命名实体识别方法对应的操作。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供了一种基于人工智能的命名实体识别方法及装置,本发明实施例通过获取信息提取文本中待识别的目标句子文本;利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果,所述命名实体识别网络模型为基于权重分配网络对至少两个初始句子向量进行权重分配完成模型训练得到的;若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,所述实体语料库中存储有匹配不同信息提取文本的第三方命名实体,对不同模型的特征提取结果进行权重分配,充分发挥了不同模型在特征提取方面的差异性优势,同时,又对识别结果进行校验,进一步提升识别结果的准确性,从而大大提升命名实体识别的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种基于人工智能的命名实体识别方法流程图;
图2示出了本发明实施例提供的另一种基于人工智能的命名实体识别方法流程图;
图3示出了本发明实施例提供的又一种基于人工智能的命名实体识别方法流程图;
图4示出了本发明实施例提供的一种基于人工智能的命名实体识别装置组成框图;
图5示出了本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(AI:Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
针对现有目前应用较为广泛的命名实体识别方法为基于双向长短期记忆网络模型(LSTM)与随机场模型(CRF)的结合的方法,该方法基于字符的单词表示及无监督的单词表示进行特征提取,从而实现对命名实体的识别。但该方法孤立的对文本中的每个词进行特征提取,没有考虑到每个词在整个句子或整个文本中的全局特征,得到的识别结果准确率较低的问题。本发明实施例提供了一种基于人工智能的命名实体识别方法,如图1所示,以该方法应用于服务器等计算机设备为例进行说明,其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN:Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器,如智能医疗系统、数字医疗平台等。该方法包括:
101、获取信息提取文本中待识别的目标句子文本。
本发明实施例中,信息提取文本为需要基于实体识别对其中的文本内容进行信息提取的电子文本,可以为网络文本,也可以为纸质文本的光学字符识别结果。例如,问答调研文本、学术论文文本、网络文章或图书的摘要或正文等。目标句子文本为信息提取文本中当前需要进行实体识别的对象。该目标句子文本中可以包含一个或多个满足预设实体类型的命名实体,也可以不包含满足预设实体类型的命名实体,本发明实施例不做具体限定。其中,预设实体类型包括但不限于人名、机构名、地名、数字、日期、货币、地址等实体类型。
102、利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果。
本发明实施例中,命名实体识别网络模型包括权重分配网络、条件随机场模型、以及至少两个句子向量生成网络。每个句子向量生成网络使用不同的特征提取模型作为基础模型,分别对目标句子文本进行特征提取,得到与目标句子文本对应的至少两个初始句子向量。权重分配网络以Transformer模型为基础模型,为每个初始句子向量中同一位置的字向量分配不同的权重,得到句子权重矩阵。进而,对句子权重矩阵中同一位置字向量的至少两个不同权重进行权重加和,得到目标句子向量。利用所述条件随机场模型对目标句子向量进行字符顺序限定及实体类型标记,得到命名实体识别结果,即目标句子文本中每个命名实体的实体类型。其中,句子向量生成网络的基础模型可以为Roberta、XLNET、GPT等预训练语言模型、也可以为flat-lattice,lstm+crf等能够实现实体识别的模型,本发明实施例不做具体限定。
需要说明的是,命名实体识别网络模型为基于权重分配网络对至少两个初始句子向量进行权重分配完成模型训练得到的。利用句子向量生成网络对目标句子文本进行特征提取,能够实现对目标句子文本中每个字向量全局特征的提取。利用至少两个句子向量生成网络有实现了特征的多角度提取,使得每个字向量具有基于多个特征提取模型进行特征提取后的融合特征。通过训练权重分配网络为不同句子向量生成网络生成的同一位置的字向量分配不同的权重,相比于投票或参数加权平均的方式对不同特征提取模型提取的特征向量进行融合,更能够充分发挥各个模型对不同目标句子文本进行实体识别的优势,从而有效提升命名实体识别的准确性。
103、若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果。
本发明实施例中,在得到命名实体识别结果之后,为了进一步提高命名实体识别结果的准确率,基于实体语料库对命名实体识别结果进行匹配校验。可以通过判定实体语料库中是否包含命名实体识别结果中的实体,确定匹配校验结果。例如,命名实体识别结果中仅包含实体A,获取与实体A相同实体类型的实体语料库,并从实体语料库中匹配是否包含实体A,若包含A实体,则匹配校验结果为通过校验;若不包含实体A,则匹配校验结果为未通过校验。也可以通过判定实体语料库中是否包含与命名实体识别结果中的实体相似度较高的实体,确定匹配校验结果。例如,命名实体识别结果中仅包含实体B,获取与实体B相同实体类型的实体语料库,并计算实体B与实体语料库中任一实体的相似度,若相似度的最大值大于等于预设相似度阈值,则匹配校验结果为通过校验;若相似度的最大值小于预设相似度阈值,则匹配校验结果为未通过校验。
需要说明的是,实体语料库中存储有匹配不同信息提取文本的第三方命名实体。由于实体语料库中的语料是匹配不同信息提取文本的实体,能够匹配不同领域、不同语义环境下的实体类型,因此,更具有代表性和全面性。基于实体语料库对命名实体识别结果的准确性进行匹配校验,能够有效拦截不正确的识别结果,从而有效提升命名实体识别的准确率。
在一个本发明实施例中,为了进一步说明及限定,如图2所示,步骤102所述利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果之前,所述方法还包括:
201、获取命名实体识别训练样本集,并构建识别网络模型。
202、利用所述命名实体识别训练样本集对所述识别网络模型进行模型训练,得到命名实体识别网络模型。
本发明实施例中,为了更加全面、准确地对目标句子文本进行特征提取,在识别网络模型中配置至少两个句子向量生成网络,且每个句子向量生成网络的基础模型不同,以基于每个句子向量生成网络从不同角度对目标句子文本的特征进行提取。在基于句子向量生成网络提取得到初始句子向量之后,为了发挥每个句子向量生成网络的特征提取优势,在至少两个句子向量生成网络之后配置以Transformer为基础模型的权重分配网络,以通过该权重分配网络的自注意力机制学习结果为每个句子向量生成网络提取的字向量分配最优的权重。进一步地,为了基于句子向量得到目标句子文本中每个字的实体类别,并对识别结果进行约束,在权重分配网络之后配置条件随机场网络,以输出命名实体识别结果。在完成对识别网络模型的构建之后,利用基于实体类型识别需求构建的训练样本集对识别网络模型进行训练,得到命名实体识别网络模型。
在一个本发明实施例中,为了进一步说明及限定,步骤202所述利用所述命名实体识别训练样本集对所述识别网络模型进行模型训练,得到命名实体识别网络模型,包括:
利用所述句子向量生成网络分别对所述命名实体识别训练样本集中的每个训练样本进行特征提取,得到包含至少两个初始句子向量的初始句子矩阵。
利用所述权重分配网络对所述初始句子矩阵中的每个字向量进行权重分配,得到句子权重矩阵,并通过对所述初始句子向量中同一位置字向量的权重进行融合处理,得到目标句子向量。
利用所述条件随机场网络对所述目标句子向量中的字向量进行实体类型标记,以使得所述命名实体识别网络模型完成训练。
本发明实施例中,在基于每个句子向量生成网络得到初始句子向量之后,基于全部初始句子向量构建为初始句子矩阵,矩阵中的每一行对应一个初始句子向量,矩阵中的每一列对应不同初始句子向量中相同位置的字向量,以识别模型中包括三个句子向量生成网络为例,初始句子矩阵表示为其中,/>为第一句子向量生成网络模型生成的第i个字向量,/>为第二句子向量生成网络模型生成的第i个字向量,/>为第三句子向量生成网络模型生成的第i个字向量,L为初始句子向量的长度。在经过权重分配网络对初始句子矩阵中每个字向量分配一个对应权重之后,得到句子权重矩阵,表示为其中,/>为第一句子向量生成网络模型生成的第i个字向量的权重,/>为第二句子向量生成网络模型生成的第i个字向量的权重,/>为第三句子向量生成网络模型生成的第i个字向量的权重;针对句子向量矩阵中每一列进行求和,即对该列对应位置上的字向量的特征进行融合,得到初始句子向量基于权重进行融合的结果,即目标句子向量,目标句子向量中每个字向量表示为:/>/>
需要说明的是,在识别网络模型的训练过程中,在利用训练样本分别对每个句子向量生成网络进行微调后,基于句子向量生成网络中至少三个中间解码层的输出结果进行参数平均,确定初始句子向量,即没有使用句子向量生成网络的最后一层解码层的输出结果。例如,将每个句子向量生成网络的倒数第四层至倒数第二层的模型层参数、模型输出进行参数平均,得到初始句子向量。通过放弃最后一层解码层的结果对模型进行训练,能够有效避免模型出现过拟合,从而提升命名实体识别网络模型的准确性及适用性。此外,在命名实体识别网络模型的应用中,可以根据实际应用情况选取每个句子向量生成网络的最后一层输出结果或至少三个中间解码层的输出结果的参数平均作为句子向量生成网络的输出,本发明实施例不做具体限定。
在一个本发明实施例中,为了进一步说明及限定,如图3所示,步骤103所述若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,包括:
301、获取与所述命名实体识别结果的实体类型对应的至少一个实体语料库。
302、分别计算每个实体类型的命名实体与所述实体语料库中第三方命名实体的匹配度,所述匹配度为所述命名实体与所述第三方命名实体的相似度最大值。
303、若所述匹配度大于或等于预设匹配度阈值,则确定匹配校验的结果为通过校验,并输出所述命名实体识别结果。
本发明实施例中,命名实体识别结果中包括目标句子文本中满足目标识别实体类型的至少一个命名实体,其中,目标识别实体类型为一个或多个需要识别的实体类型,每个目标识别实体类型对应一个或多个命名实体。为了确保命名实体与实体类型匹配的准确性,根据命名实体识别结果中每个命名实体的实体类型获取相同实体类型的实体语料库,并将每个命名实体与实体语料库中的第三方命名实体进行匹配校验。具体地,针对每个命名实体,计算其与对应实体语料库中第三方命名实体的相似度,并提取相似度的最大值作为该命名实体的匹配度;在得到命名实体识别结果中每个命名实体的匹配度之后,判断是否每个命名实体的匹配度均大于或等于预设匹配度阈值,若是,则确定匹配校验的结果为通过校验。其中,设匹配度阈值可以根据实际应用需求自定义,本发明实施例不做具体限定。
在一个本发明实施例中,为了进一步说明及限定,如图3所示,所述方法还包括:
若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为未通过校验,则将所述匹配度小于所述预设匹配度阈值的命名实体与全部实体类型的所述第三方命名实体分别进行二次匹配,得到至少一个二次匹配度。
若所述二次匹配度大于或等于所述预设匹配度阈值,则基于所述二次匹配度所对应的实体类型对所述命名实体识别结果进行更新,并输出更新后的所述命名实体识别结果。
本发明实施例中,当匹配校验的结果为未通过校验,即当前命名实体的实体类型错误时,为了提升命名实体识别的成功率,将未通过校验的命名实体与全部实体语料库中的第三方命名实体进行二次匹配,以确认该命名实体的正确实体类型,并利用二次匹配得到正确实体类型对原有错误的实体类型进行替换,以更新命名实体识别结果。
在一个本发明实施例中,为了进一步说明及限定,所述方法还包括:
若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,且所述实体语料库中未包含所述命名实体识别结果中的命名实体,则将所述命名实体更新至所述实体语料库中。
本发明实施例中,在命名实体识别结果中每个命名实体通过匹配校验后,对匹配度做进一步判定,即判定当前命名实体的匹配度是否为100%,若不是,则表明对应实体语料库中不包含当前命名实体,为了提升实体语料库的全面性,将当前命名实体更新至实体语料库中,以丰富实体语料库。
在一个本发明实施例中,为了进一步说明及限定,步骤201所述获取命名实体识别训练样本集之前,所述方法还包括:
获取至少一个初始句子样本,利用预设字符对所述初始句子样本中的命名实体进行替换处理,得到第一句子样本,并利用句子生成模型对所述第一句子样本进行生成处理,得到第二句子样本。
通过对所述第二句子样本中的所述预设字符进行同类实体语料替换处理,得到第三句子样本,并通过对所述第三句子样本进行非实体随机删除处理,得到第四句子样本。
基于所述第三句子样本、所述第四句子样本构建命名实体识别训练样本集。
本发明实施例中,针对一些比较生僻、冷门的实体类型,可获取到的训练样本数量非常有限,为了保证在少样本条件下模型的训练效果,需要对训练样本进行扩充。具体地,在得到初始句子样本后,使用预设字符[MASK]对初始句子样本中的命名实体进行替换,得到第一句子样本。例如,句子:“你经常使用淘宝进行购物吗?”句子中“淘宝”为机构实体,将其替换为[MASK],得到句子“你经常使用[MASK]进行购物吗?”。进一步利用句子生成模型,如GPT模型,生成第一句子样本的相似句子,即第二句子样本。例如,“你平时使用[MASK]进行购物吗?”。进一步,利用相同实体类型的命名实体对第二句子样本中的[MASK]进行替换,得到至少一个第三句子样本。例如,“你平时使用京东进行购物吗?”。进一步,随机删除第三句子样本中的非命名实体,得到第四句子样本。例如,删除句子“你平时使用京东进行购物吗?”中的“平时”。通过对初始句子样本进行生成相似句子、相同实体语料替换,随机删除非命名实体部分的处理,能够有效扩充少样本数据,得到更为丰富的命名实体样本训练集,从而有效提升模型的鲁棒性。
本发明提供了一种基于人工智能的命名实体识别方法,本发明实施例通过获取信息提取文本中待识别的目标句子文本;利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果,所述命名实体识别网络模型为基于权重分配网络对至少两个初始句子向量进行权重分配完成模型训练得到的;若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,所述实体语料库中存储有匹配不同信息提取文本的第三方命名实体,对不同模型的特征提取结果进行权重分配,充分发挥了不同模型在特征提取方面的差异性优势,同时,又对识别结果进行校验,进一步提升识别结果的准确性,从而大大提升命名实体识别的准确率。
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种基于人工智能的命名实体识别装置,如图4所示,该装置包括:
获取模块41,用于获取用于输入已完成训练的实体识别网络模型的目标句子文本,所述已完成训练的实体识别网络模型包括至少两个句子向量生成网络;
识别模块42,用于利用所述句子向量生成网络分别对所述目标句子文本进行特征提取,得到初始句子向量矩阵,并根据所述初始句子向量矩阵进行权重分配,得到权重分配后的目标句子向量矩阵,所述初始句子向量矩阵包括每个所述句子向量生成网络生成的初始句子向量;
确定模块43,用于对所述目标句子向量矩阵进行融合处理,得到所述目标句子文本的目标句子向量,并根据所述目标句子向量确定所述目标句子文本中的实体。
进一步地,所述装置还包括:
所述获取模块,还用于获取命名实体识别训练样本集,并构建识别网络模型,所述命名实体识别训练样本集为基于至少一个初始句子样本构建的,所述识别网络模型包括权重分配网络、条件随机场网络、至少两个句子向量生成网络,其中,所述权重分配网络分别与所述条件随机场网络、所述至少两个句子向量生成网络相连接;
训练模块,用于利用所述命名实体识别训练样本集对所述识别网络模型进行模型训练,得到命名实体识别网络模型。
进一步地,所述训练模型包括:
第一训练单元,用于利用所述句子向量生成网络分别对所述命名实体识别训练样本集中的每个训练样本进行特征提取,得到包含至少两个初始句子向量的初始句子矩阵,所述初始句子向量为基于所述句子向量生成网络中至少三个中间解码层的输出结果确定的;
第二训练单元,用于利用所述权重分配网络对所述初始句子矩阵中的每个字向量进行权重分配,得到句子权重矩阵,并通过对所述初始句子向量中同一位置字向量的权重进行融合处理,得到目标句子向量;
第三训练单元,用于利用所述条件随机场网络对所述目标句子向量中的字向量进行实体类型标记,以使得所述命名实体识别网络模型完成训练。
进一步地,所述确定模块包括:
获取单元,用于获取与所述命名实体识别结果的实体类型对应的至少一个实体语料库;
计算单元,用于分别计算每个实体类型的命名实体与所述实体语料库中第三方命名实体的匹配度,所述匹配度为所述命名实体与所述第三方命名实体的相似度最大值;
确定单元,用于若所述匹配度大于或等于预设匹配度阈值,则确定匹配校验的结果为通过校验,并输出所述命名实体识别结果。
进一步地,所述装置还包括:
匹配模块,用于若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为未通过校验,则将所述匹配度小于所述预设匹配度阈值的命名实体与全部实体类型的所述第三方命名实体分别进行二次匹配,得到至少一个二次匹配度;
第一更新模块,用于若所述二次匹配度大于或等于所述预设匹配度阈值,则基于所述二次匹配度所对应的实体类型对所述命名实体识别结果进行更新,并输出更新后的所述命名实体识别结果。
进一步地,所述装置还包括:
第二更新模块,用于若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,且所述实体语料库中未包含所述命名实体识别结果中的命名实体,则将所述命名实体更新至所述实体语料库中。
进一步地,所述装置还包括:
所获取模块,还用于获取至少一个初始句子样本,利用预设字符对所述初始句子样本中的命名实体进行替换处理,得到第一句子样本,并利用句子生成模型对所述第一句子样本进行生成处理,得到第二句子样本;
样本生成模块,用于通过对所述第二句子样本中的所述预设字符进行同类实体语料替换处理,得到第三句子样本,并通过对所述第三句子样本进行非实体随机删除处理,得到第四句子样本;
构建模块,用于基于所述第三句子样本、所述第四句子样本构建命名实体识别训练样本集。
本发明提供了一种基于人工智能的命名实体识别装置,本发明实施例通过通过获取信息提取文本中待识别的目标句子文本;利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果,所述命名实体识别网络模型为基于权重分配网络对至少两个初始句子向量进行权重分配完成模型训练得到的;若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,所述实体语料库中存储有匹配不同信息提取文本的第三方命名实体,对不同模型的特征提取结果进行权重分配,充分发挥了不同模型在特征提取方面的差异性优势,同时,又对识别结果进行校验,进一步提升识别结果的准确性,从而大大提升命名实体识别的准确率。
根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于人工智能的命名实体识别方法。
图5示出了根据本发明一个实施例提供的一种计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。
如图5所示,该计算机设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述基于人工智能的命名实体识别方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
获取信息提取文本中待识别的目标句子文本;
利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果,所述命名实体识别网络模型为基于权重分配网络对至少两个初始句子向量进行权重分配完成模型训练得到的;
若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,所述实体语料库中存储有匹配不同信息提取文本的第三方命名实体。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (6)
1.一种基于人工智能的命名实体识别方法,其特征在于,包括:
获取信息提取文本中待识别的目标句子文本;
利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果,所述命名实体识别网络模型为基于权重分配网络对至少两个初始句子向量进行权重分配完成模型训练得到的;
若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,所述实体语料库中存储有匹配不同信息提取文本的第三方命名实体;
所述利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果之前,所述方法还包括:
获取命名实体识别训练样本集,并构建识别网络模型,所述命名实体识别训练样本集为基于至少一个初始句子样本构建的,所述识别网络模型包括权重分配网络、条件随机场网络、至少两个句子向量生成网络,其中,所述权重分配网络分别与所述条件随机场网络、所述至少两个句子向量生成网络相连接;
利用所述命名实体识别训练样本集对所述识别网络模型进行模型训练,得到命名实体识别网络模型;
所述利用所述命名实体识别训练样本集对所述识别网络模型进行模型训练,得到命名实体识别网络模型,包括:
利用所述句子向量生成网络分别对所述命名实体识别训练样本集中的每个训练样本进行特征提取,得到包含至少两个初始句子向量的初始句子矩阵,所述初始句子向量为基于所述句子向量生成网络中至少三个中间解码层的输出结果确定的;
利用所述权重分配网络对所述初始句子矩阵中的每个字向量进行权重分配,得到句子权重矩阵,并通过对所述句子权重矩阵中同一位置字向量的权重进行融合处理,得到目标句子向量;
利用所述条件随机场网络对所述目标句子向量中的字向量进行实体类型标记,以使得所述命名实体识别网络模型完成训练;
其中,所述命名实体识别结果包括至少一个实体类型的命名实体,所述若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,包括:
获取与所述命名实体识别结果的实体类型对应的至少一个实体语料库;
分别计算每个实体类型的命名实体与所述实体语料库中第三方命名实体的匹配度,所述匹配度为所述命名实体与所述第三方命名实体的相似度最大值;
若所述匹配度大于或等于预设匹配度阈值,则确定匹配校验的结果为通过校验,并输出所述命名实体识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为未通过校验,则将所述匹配度小于所述预设匹配度阈值的命名实体与全部实体类型的所述第三方命名实体分别进行二次匹配,得到至少一个二次匹配度;
若所述二次匹配度大于或等于所述预设匹配度阈值,则基于所述二次匹配度所对应的实体类型对所述命名实体识别结果进行更新,并输出更新后的所述命名实体识别结果。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,且所述实体语料库中未包含所述命名实体识别结果中的命名实体,则将所述命名实体更新至所述实体语料库中。
4.根据权利要求1所述的方法,其特征在于,所述获取命名实体识别训练样本集之前,所述方法还包括:
获取至少一个初始句子样本,利用预设字符对所述初始句子样本中的命名实体进行替换处理,得到第一句子样本,并利用句子生成模型对所述第一句子样本进行生成处理,得到第二句子样本;
通过对所述第二句子样本中的所述预设字符进行同类实体语料替换处理,得到第三句子样本,并通过对所述第三句子样本进行非实体随机删除处理,得到第四句子样本;
基于所述第三句子样本、所述第四句子样本构建命名实体识别训练样本集。
5.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-4中任一项所述的基于人工智能的命名实体识别方法对应的操作。
6.一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-4中任一项所述的基于人工智能的命名实体识别方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210846058.2A CN115186667B (zh) | 2022-07-19 | 2022-07-19 | 基于人工智能的命名实体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210846058.2A CN115186667B (zh) | 2022-07-19 | 2022-07-19 | 基于人工智能的命名实体识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115186667A CN115186667A (zh) | 2022-10-14 |
CN115186667B true CN115186667B (zh) | 2023-05-26 |
Family
ID=83519249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210846058.2A Active CN115186667B (zh) | 2022-07-19 | 2022-07-19 | 基于人工智能的命名实体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115186667B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
CN113836930A (zh) * | 2021-09-28 | 2021-12-24 | 浙大城市学院 | 一种中文危险化学品命名实体识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150088511A1 (en) * | 2013-09-24 | 2015-03-26 | Verizon Patent And Licensing Inc. | Named-entity based speech recognition |
US9424524B2 (en) * | 2013-12-02 | 2016-08-23 | Qbase, LLC | Extracting facts from unstructured text |
-
2022
- 2022-07-19 CN CN202210846058.2A patent/CN115186667B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
CN113836930A (zh) * | 2021-09-28 | 2021-12-24 | 浙大城市学院 | 一种中文危险化学品命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115186667A (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11151177B2 (en) | Search method and apparatus based on artificial intelligence | |
CN110162749B (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN108763535B (zh) | 信息获取方法及装置 | |
CN111651992A (zh) | 命名实体标注方法、装置、计算机设备和存储介质 | |
CN109766418B (zh) | 用于输出信息的方法和装置 | |
CN112214593A (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN111143536A (zh) | 基于人工智能的信息抽取方法及存储介质和相关装置 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN113705313A (zh) | 文本识别方法、装置、设备及介质 | |
CN107239450B (zh) | 基于交互上下文处理自然语言方法 | |
CN113298197B (zh) | 数据聚类方法、装置、设备及可读存储介质 | |
CN113656547B (zh) | 文本匹配方法、装置、设备及存储介质 | |
KR102666635B1 (ko) | 검색어 추천 장치, 방법 및 기록매체 | |
CN111241310A (zh) | 一种深度跨模态哈希检索方法、设备及介质 | |
CN113342927B (zh) | 敏感词识别方法、装置、设备及存储介质 | |
CN108090044B (zh) | 联系方式的识别方法和装置 | |
CN117668181A (zh) | 信息处理方法、装置、终端设备以及存储介质 | |
CN113537206A (zh) | 推送数据检测方法、装置、计算机设备和存储介质 | |
CN115186667B (zh) | 基于人工智能的命名实体识别方法及装置 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN110851629A (zh) | 一种图像检索的方法 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
CN114116971A (zh) | 用于生成相似文本的模型训练方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231020 Address after: Unit 1201, 12th floor, Block B, 101, 3rd to 24th floors, Xinyuan South Road, Chaoyang District, Beijing, 100016 Patentee after: Ping An Chuangke Technology (Beijing) Co.,Ltd. Address before: 23rd floor, Ping'an financial center, 5033 Yitian Road, Fuan community, Futian street, Shenzhen, Guangdong 518000 Patentee before: PING AN TECHNOLOGY (SHENZHEN) Co.,Ltd. |