CN116976341A - 实体识别方法、装置、电子设备、存储介质及程序产品 - Google Patents
实体识别方法、装置、电子设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN116976341A CN116976341A CN202211477575.3A CN202211477575A CN116976341A CN 116976341 A CN116976341 A CN 116976341A CN 202211477575 A CN202211477575 A CN 202211477575A CN 116976341 A CN116976341 A CN 116976341A
- Authority
- CN
- China
- Prior art keywords
- word
- entity
- training
- text
- training text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012549 training Methods 0.000 claims abstract description 302
- 230000004927 fusion Effects 0.000 claims abstract description 71
- 238000002372 labelling Methods 0.000 claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 21
- 239000002243 precursor Substances 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 7
- 230000000903 blocking effect Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 238000010801 machine learning Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种实体识别方法、装置、电子设备、存储介质及程序产品,涉及人工智能、机器学习、云计算技术领域。通过基于知识图谱对各个训练文本中的实体词进行标注;并通过滤掉各个训练文本中的噪声文本得到第一训练数据,从而保证了训练文本的质量。并通过编码器逐字编码得到各个字的编码特征,并从目标实体词表中查找每个训练文本中每个字对应的匹配词;基于每个字分别与各个匹配词之间的相似度,对每个字的编码特征与各个匹配词的词特征进行融合,得到每个字的第一融合特征。通过解码器进行逐字识别;基于标注实体词和预测实体词进行迭代训练得到实体识别模型。逐字输出能有效识别嵌套实体,可有针对性的提高对特定任务的实体识别的准确性。
Description
技术领域
本申请涉及人工智能、机器学习、云计算等技术领域,本申请涉及一种实体识别方法、装置、电子设备、存储介质及程序产品。
背景技术
实体识别是自然语言处理领域的一项基础技术,被广泛应用于许多场景中。例如,在搜索时,如果能够明确用户输入的搜索语句中的实体,则可结合实体更好的推测用户搜索意图。
相关技术中,通常需先对大量训练数据进行实体序列标注,如标注实体的开头、中间、结尾等处,使用序列标注后的训练数据来训练得到用于实体识别的网络模型。然而,上述方式需大量的序列标注数据,对标注成本有较大压力。因此,如何更好的进行实体识别,仍是本领域中亟待研究的关键问题。
发明内容
本申请提供了一种实体识别方法、装置、电子设备、存储介质及程序产品,可以提高实体识别的准确性。所述技术方案如下:
一方面,提供了一种实体识别方法,所述方法包括:
响应于对待识别文本的识别请求,通过已训练的实体识别模型输出所述待识别文本中的实体词;
其中,所述实体识别模型的训练方式包括:
基于知识图谱中各个实体词,对各个训练文本中的实体词进行标注;
通过已训练的第一网络过滤掉各个训练文本中的噪声文本,得到第一训练数据,所述噪声文本中的标注实体词为假实体词;
通过初始网络中的编码器,对待识别文本中每个字进行编码,得到每个训练文本中各个字的编码特征,并从预配置的目标实体词表中查找每个训练文本中每个字所对应的至少一个匹配词;
对于每个训练文本,基于所述训练文本中每个字分别与其所对应的各个匹配词之间的相似度,对所述训练文本中每个字的编码特征与各个匹配词的词特征进行融合,得到所述训练文本中每个字的第一融合特征;
通过初始网络中的解码器,基于所述每个训练文本中每个字的第一融合特征,对所述每个训练文本中的逐个字进行实体识别,得到所述待识别文本中的预测实体词;
基于所述每个训练文本中的标注实体词和预测实体词,对所述初始网络进行迭代训练,得到所述实体识别模型。
另一方面,提供了一种实体识别装置,所述装置包括:
识别模块,用于响应于对待识别文本的识别请求,通过已训练的实体识别模型输出所述待识别文本中的实体词;
其中,所述装置在训练实体识别模型时,还包括:
标注模块,用于基于知识图谱中各个实体词,对各个训练文本中的实体词进行标注;
过滤模块,用于通过已训练的第一网络过滤掉各个训练文本中的噪声文本,得到第一训练数据,所述噪声文本中的标注实体词为假实体词;
查找匹配词模块,用于通过初始网络中的编码器,对待识别文本中每个字进行编码,得到每个训练文本中各个字的编码特征,并从预配置的目标实体词表中查找每个训练文本中每个字所对应的至少一个匹配词;
融合模块,用于对于每个训练文本,基于所述训练文本中每个字分别与其所对应的各个匹配词之间的相似度,对所述训练文本中每个字的编码特征与各个匹配词的词特征进行融合,得到所述训练文本中每个字的第一融合特征;
逐字识别模块,用于通过初始网络中的解码器,基于所述每个训练文本中每个字的第一融合特征,对所述每个训练文本中的逐个字进行实体识别,得到所述待识别文本中的预测实体词;
训练模块,用于基于所述每个训练文本中的标注实体词和预测实体词,对所述初始网络进行迭代训练,得到所述实体识别模型。
在一个可能实现方式中,所述装置在构建目标实体词表是,还包括:
目标文本获取模块,用于对于目标识别任务中待识别的每个目标实体词,获取包括所述目标实体词的至少一个目标文本,并提取所述目标实体词中每个字在各个目标文本中的上下文特征;
词特征获取模块,用于对所述目标实体词中每个字的上下文特征进行特征融合,得到所述目标实体词的词特征,并基于各个目标实体词的词特征构建得到所述目标实体词表。
在一个可能实现方式中,所述逐字识别模块,用于:
对于每个训练文本,通过所述解码器,基于所述训练文本中每个字的前序字的嵌入特征和所述每个字的第一融合特征,获取所述训练文本中每个字的前序字的第一特征,所述前序字是在所述每个字之前已经过解码并输出的字;
从所述目标实体词表中查找所述前序字所对应的至少一个匹配词;
基于所述前序字分别与其所对应的各个匹配词之间的相似度,对所述前序字的第一特征与各个匹配词的词特征进行融合,得到所述训练文本中每个字的前序字的第二融合特征;
基于所述训练文本中每个字的前序字的第二融合特征,输出所述每个字。
在一个可能实现方式中,所述逐字识别模块,用于:
基于所述训练文本中每个字的前序字的第二融合特征,确定所述每个字对应的概率分布向量,所述概率分布向量包括所述每个字是字典中各个候选字的概率;
基于所述每个字的概率分布向量,输出所述每个字。
在一个可能实现方式中,所述训练模块,用于:
对于每个训练文本,基于所述每个训练文本中的标注实体词和预测实体词,从所述预测实体词中每个字对应的概率分布向量中提取第一概率值,所述第一概率值是指所述每个字是所述标注实体词中对应标注字的概率;
基于所述预测实体词中每个字对应的第一概率值,对所述初始网络进行迭代训练,得到所述实体识别模型。
在一个可能实现方式中,所述装置在对第一网络训练时,还包括:
获取模块,用于获取第二训练数据集,所述第二训练数据集包括已标注正例和负例的多个第二训练数据,所述正例是第二训练数据中的真实体词,所述负例是第二训练数据中的假实体词;
遮挡模块,用于遮挡各个第二训练数据中的正例和负例,并通过初始的第一网络提取各个第二训练数据中遮挡位置对应的预测特征;
确定模块,用于基于所述各个第二训练数据中遮挡位置对应的预测特征,确定遮挡位置对应的实体概率;
第一网络迭代训练模块,用于基于各个第二训练数据中遮挡位置对应的实体概率和标注标签,对所述初始的第一网络进行迭代训练,得到所述第一网络。
另一方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现上述的实体识别方法。
另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的实体识别方法。
另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的实体识别方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请提供的实体识别方法,通过基于知识图谱对各个训练文本中的实体词进行标注;并通过滤掉各个训练文本中的噪声文本得到第一训练数据,从而保证了训练文本的质量。并且,通过初始网络中的编码器对待识别文本进行逐字编码得到各个字的编码特征,并从目标实体词表中查找每个训练文本中每个字对应的匹配词;基于训练文本中每个字分别与各个匹配词之间的相似度,对每个字的编码特征与各个匹配词的词特征进行融合,得到每个字的第一融合特征;从而在字的编码特征中融入了特定任务的目标实体词的特征。通过初始网络中的解码器,基于每个训练文本中每个字的第一融合特征进行逐字识别得到预测实体词;并基于标注实体词和预测实体词进行迭代训练,得到该实体识别模型。由于利用知识图谱进行回标得到训练文本,并通过第一网络进行去噪,在节省了训练数据获取成本前提下,保证了训练数据的质量,提高了训练的准确性;通过在字的编码特征中融入了特定任务的目标实体词的特征,使得训练阶段可有针对性的提高模型对特定任务的实体识别的准确性,并且,通过利用每个字的特征逐个字识别并逐字输出,能够有效识别出嵌套实体,提高了实体识别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种实现实体识别方法的实施环境示意图;
图2为本申请实施例提供的一种实体识别模型的训练方法的流程示意图;
图3为本申请实施例提供的一种第一网络结构示意图图;
图4为本申请实施例提供的一种查找目标实体词流程的示意图;
图5为本申请实施例提供的一种实体识别模型中编码器结构示意图;
图6为本申请实施例提供的一种实体识别模型中解码器结构的示意图;
图7为本申请实施例提供的一种基于生成式的实体识别模型结构示意图;
图8为本申请实施例提供的一种实体识别装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作等。
可以理解的是,在本申请的具体实施方式中,涉及到训练数据、待识别文本、第一文本等任何与用户相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
图1为本申请提供的一种实体识别方法的实施环境示意图。如图1所示,该实施环境包括:服务器101。
该服务器101可采用本申请的实体识别方法,训练得到实体识别模型,并利用该实体识别模型对各个待识别文本进行识别,以输出各个待识别文本中的实体词。一可能实施环境中,该实施环境还可以包括请求设备102,例如,该请求设备102可以是服务器、云计算中心设备或者终端等。该服务器101可接收该请求设备102发送的识别请求,该识别请求用于请求识别各个待识别文本中的实体词。该服务器101可基于该识别请求,向该请求设备102返回各个待识别文本中的实体词。该请求设备102可基于各个待识别文本中的实体词来执行后续的任务。
一些可能应用场景中,该服务器101可对各个待识别文本进行实体识别,该识别结果可满足多种应用场景中所需的场景任务。下面对多种可能应用场景进行举例:
场景示例一,在搜索场景中,query(搜索内容)理解是一项非常重要的技术;则可利用本申请的实体识别方法对query进行识别,以利用query中的实体更深入剖析用户的搜索意图,使得搜索引擎可更有针对性的进行搜索并提供有符合用户意图的搜索结果。例如,“明星ABC cdzj2”这个query,如果利用本申请的实体识别方法,识别出该query中明星ABC是一个影视明星,cdzj2是一个电影,则可明确出用户的搜索意图是查找最新电影cdzj2的相关信息,搜索引擎就可以返回与此更相关的搜索结果。
场景示例二,在问答场景中,需要对用户问题进行精准的分析,则可利用本申请的实体识别方法对用户问题进行识别,以使得问答系统返回的答案能更精准的定位到用户的问答意图。例如,针对用户输入的“model 3是什么时间发布的”这个问题,可利用本申请的实体识别方法,首先识别出该问题中的实体“model 3”是一个车型实体,则可使得问答系统针对该车型去查找其发布时间属性,从而精准的圈定出用户所需答案的范围,提高向用户所反馈答案的准确性。
场景示例三,在推荐场景中,实体识别也是应用非常广泛的,可利用本申请的实体识别方法,对用户所交互的各个文章、广告、热点内容等进行实体分析,以分析出用户所感兴趣的话题、热点等。例如,如果用户点了“xxx操作系统,可能与xx公司的xxx型号的手机一同发布”这篇文章,说明用户可能对“xx公司”、“xxx操作系统”、“xxx型号的手机”这些实体感兴趣,则推荐系统可基于此做更精准的推荐。
一可能情况中,该服务器101也可以是目标应用的后台服务器,例如,该目标应用可以为需要实体识别的任一应用,例如,内容交互平台、信息资讯类应用、问答应用、搜索类应用、游戏应用、社交应用、视频应用、浏览器、购物应用等。其中,该目标应用可以为独立的应用程序或安装在独立的应用程序中的应用插件、组件等,本申请对此不做限定。
服务器101可以是独立的物理服务器,或是多个物理服务器构成的服务器集群或者分布式系统,或是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。若该请求设备102为终端,则该终端可以是智能支付终端、智能收银终端、智能手机、平板电脑、笔记本电脑、数字广播接收器、台式计算机、车载终端(例如车载导航终端、车载电脑等)、智能音箱、智能手表等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,也可基于实际应用场景需求确定,在此不作限定。
可以理解的是,本申请提供的实体识别方法,涉及人工智能、机器学习、自然语言理解等技术,如利用机器学习技术来实现对实体识别模型的训练过程,如利用自然语言理解技术实现对文本或训练数据进行分词、实体词标注等过程。
可以理解的是,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
可以理解的是,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
可以理解的是,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
图2为本申请实施例提供的一种实体识别模型的训练方法的流程示意图。该方法的执行主体可以为电子设备。例如,该电子设备可以是服务器、云计算中心设备或者终端设备等任一电子设备。如图2所示,该方法包括以下步骤。
步骤201、电子设备基于知识图谱中各个实体词,对各个训练文本中的实体词进行标注。
本步骤中,该电子设备可以利用知识图谱中的实体词,来回标各个训练文本,以构造训练数据。例如,训练文本可以是模型训练所使用的文本句子,一个训练文本可以包括一个句子;电子设备可从知识图谱中收集多个实体词,并利用这些实体词遍历每个文本句子中是否包括任一实体词,并标注出每个文本句子中的实体词。例如,明星ABC携妻子参加了周末的活动,则可以回标出“明星ABC”是人物类实体。
需要说明的一点是,该训练文本中的标注实体词的实体词粒度属于非嵌套实体词对应的最小标注粒度,例如,EFGH大学这个实体,“EF”就是一个嵌套的地名,因此,可细化标注粒度,标注出所嵌套的所有实体词:“EF”以及“EFGH大学”、“GH大学”等。
需要说明的又一点是,本申请可通过知识图谱回标文本中实体词的方式,构造出百万级的训练数据,而且,仅需标注一个句子中的实体词,并不需要标注实体词的序列位置,也即是,本申请并不需要标注实体词的开头、中间、结尾等位置,从而极大的降低了训练数据的标注成本。
步骤202、电子设备通过已训练的第一网络过滤掉各个训练文本中的噪声文本,得到第一训练数据。
该噪声文本中的标注实体词为假实体词。该第一网络用于识别出各个训练文本中所标注的实体词为真实实体词的概率。本步骤中,该电子设备可通过该第一网络,输出各个训练文本中标注实体词为真实实体词的概率;该电子设备可基于第一网络所输出的标注实体词为真实实体词的概率,过滤掉各个训练文本中的噪声文本,得到该第一训练数据。其中,该噪声文本是指训练文本对应的概率符合预配置条件的文本,例如,标注实体词为真实实体词的概率不超过预配置概率。例如,标注实体词a为真实实体词只有10%,则标注实体词a极大可能为假实体词,可将包括标注实体词a的训练文本滤除掉,从而保证第一训练数据的质量,提高模型训练的准确性。
在一些可能实施例中,该第一网络的训练方式可包括以下步骤A1-步骤A4:
步骤A1、电子设备获取第二训练数据集。
其中,该第二训练数据集包括已标注正例和负例的多个第二训练数据,该正例是第二训练数据中的真实体词,该负例是第二训练数据中的假实体词。
对于正例,电子设备可标记各个第二训练数据中符合真实实体词条件的实体词,例如,该真实实体词条件可包括但不限于:无歧义的实体词、不存在错别字的真实实体词、不存在多余字或遗漏字的实体词等。例如“明星ABC”是无歧义的实体词。需要说明的是,由于按照上述真实实体词条件进行筛选并标记,因此,所标记的实体词为正例准确率较高。
对于负例,该电子设备随机选择各个第二训练数据的一些文本片段span作为负例。
其中,第二训练数据可以是文本句子;各个第二训练数据可以是步骤201中所获取的各个训练文本中的数据,或者也可以是其它方式所获取的数据。
步骤A2、电子设备遮挡各个第二训练数据中的正例和负例,并通过初始的第一网络提取各个第二训练数据中遮挡位置对应的预测特征。
本步骤中,该电子设备可将各个第二训练数据输入该初始的第一网络,通过初始的第一网络,将每个第二训练数据进行分词,并遮挡属于正例的分词以及遮挡属于负例的分词,然后,利用该初始的第一网络对遮挡后的第二训练数据进行特征提取,得到所遮挡位置对应的预测特征。
如图3所示,该初始的第一网络可以是基于BERT网络的初始分类器。例如,所输入是一句话,则可拆成一个个的分词或字,句子前后分别拼接上两个特殊标记“[CLS]”和“[SEP]”;并且,可将标记为正例或负例的文本片段的位置用特殊的遮挡符号[MASK]来替代。然后,将遮挡后的句子输入BERT网络,输出得到句子中每个字或每个分词的特征向量,可提取[MASK]位置的特征。例如,对于句子“明星ABC携妻子xxx参加了本次活动”,可用[MASK]遮挡xxx,通过BERT网络得到[MASK]位置的特征向量。
步骤A3、电子设备基于该各个第二训练数据中遮挡位置对应的预测特征,确定遮挡位置对应的实体概率。
步骤A4、电子设备基于各个第二训练数据中遮挡位置对应的实体概率和标注标签,对该初始的第一网络进行迭代训练,得到该第一网络。
该电子设备可基于[MASK]位置的特征向量,对[MASK]进行二分类。该过程可如下公式所示:
logit=WVmask+b
Prob=sigmoid(logit)
Loss=-label*log(Prob)-(1-label)*log(1-Prob)
其中,上述第1个公式是将[MASK]位置的特征向量通过线性变换,转换为分数logit,W和b是线性变换所使用的参数矩阵和参数向量,可在迭代训练时对W和b进行迭代优化。上述第2个公式是利用sigmoid函数将分数转换为概率Prob,也即是,该[MASK]位置为真实实体词的概率。上述第3个公式是迭代训练第一网络所使用的损失函数Loss,其中,label是[MASK]位置对应的真值标签,也即是正例或负例,若是正例则label取值为1,若是负例则label取值为0。
在训练完了第一网络后,则可以将步骤201中构造的大量训练文本中标注实体词输入第一网络,如果预测的概率较低,说明标注实体词很可能是一个误标注或者假实体词,则可以将该标注实体词或包括该标注实体词的训练文本丢掉。
例如,知识图谱中包括人物类的实体词“舒畅”,但是该词在语句“我今天心情真舒畅呀!”中并不属于实体词,因此,该词是有歧义的,如果用该词回标文本则可能出现标注错误的情况。而通过第一网络对构造的训练文本进行去噪,可保证训练文本的质量和准确性,进而提高模型训练的准确性。
步骤203、电子设备通过初始网络中的编码器,对待识别文本中每个字进行编码,得到每个训练文本中各个字的编码特征,并从预配置的目标实体词表中查找每个训练文本中每个字所对应的至少一个匹配词。
对于训练文本中每个字,该电子设备可从目标实体词标注查找以该字为开头的至少一个实体词作为对应的匹配词。例如,如图4所示,对于“EFGH大学”,可从目标实体词表中查找到以“E”开头的实体词,包括EF、EFGH大学等。
其中,该编码器可包括特征提取层和实体融合层(entity fusion),该电子设备可通过该编码器中的特征提取层,对待识别文本中每个字进行编码,得到每个训练文本中各个字的编码特征;通过编码器中的实体融合层,从预配置的目标实体词表中查找每个训练文本中每个字所对应的至少一个匹配词。
在一些可能实施例中,该初始网络可以是基于transformer结构的网络,如图5所示,该transformer结构的初始网络中,编码器可包括多个(如n个,n大于1)如图5所示的网络层,该网络层可包括实体融合层(entity fusion)、self-attention(自注意力机制)层和FNN(Feedforward Neural Network,前馈神经网络)层。可通过该self-attention层对每个训练文本中各个字进行特征提取,将所提取的特征作为各个字的编码特征。本申请中,在该编码器中新设计增加了实体融合层(entity fusion),通过该entity fusion将各个字的特征中融入了与其匹配的一些实体词的特征,从而提高了该特征表达的丰富度和全面性。
在一些可能实施例中,该目标实体词表中的各个目标实体词可以是属于目标识别任务中待识别的实体词,该目标识别任务可以是按照需要所设置的特定任务,例如,该目标实体词可以是属于近一周内热点内容的实体词,则可基于本申请的实体识别方法,识别出一些待推送文章或视频标题中的热点实体,以用于热点内容推荐。又例如,该目标实体词可以是属于特定敏感条件的敏感词,则可基于本申请的实体识别方法,识别出待识别文档中的敏感词,以对敏感词进行删除或修改等操作。
在一可能示例中,该电子设备可针对该训练文本中标注实体词进行匹配词查找,也即是,在步骤203中,该电子设备从预配置的目标实体词表中,查找每个训练文本中标注实体词中每个实体字所对应的至少一个匹配词。
示例性的,该目标实体词表的构建方式可包括以下步骤B1-B2:
步骤B1、电子设备对于目标识别任务中待识别的每个目标实体词,获取包括该目标实体词的至少一个目标文本,并提取该目标实体词中每个字在各个目标文本中的上下文特征。
步骤B2、电子设备对该目标实体词中每个字的上下文特征进行特征融合,得到该目标实体词的词特征,并基于各个目标实体词的词特征构建得到该目标实体词表。
示例性的,对于某个目标实体词,该电子设备从文本库中查找到包含该目标实体词的文本句子,例如,对于目标实体词“明星ABC”,可从文本库中找到所有包含明星ABC的句子。然后,可使用BERT模型对包含该目标实体词的文本句子进行特征提取,得到包含该目标实体词的文本句子中每个token(也即是每个字)的特征向量。其中,每个token的特征向量融合该token所在的文本句子的上下文信息。然后,可将目标实体词中每个字进行特征融合,例如,将目标实体词中每个字的特征向量进行最大值池化操作(max pooling),并对最大值池化操作后进行平均值计算,则得到该目标实体词的词特征。例如,将“明星ABC”这三个字的向量进行max pooling并计算平均值,则得到了这个句子中该目标实体词的表示向量Ei。该电子设备可对多个包含明星ABC的句子进行特征提取以及对该目标实体词中各个字的特征进行融合,得到该目标实体词在多个句子中的词特征,并对该目标实体词的在多个句子中的词特征进行平均值池化操作(mean pooling),则得到该目标实体词基于BERT模型所提取的上下文特征图向量。
步骤204、电子设备对于每个训练文本,基于该训练文本中每个字分别与其所对应的各个匹配词之间的相似度,对该训练文本中每个字的编码特征与各个匹配词的词特征进行融合,得到该训练文本中每个字的第一融合特征。
对于训练文本中每个字,该电子设备可通过以下公式,计算每个字与各个匹配词之间的相似度,并进行特征融合,得到每个字的第一融合特征:
Si,j=dot(Vtoken_i,Vword_j)
V′token_i=a1Vword_1+…+anVword_n
Vfinal_token_i=Layer_norm(Vtoken_i+V′token_i)
其中,Vtoken_i表示训练文本中第i个字的编码特征,Vword_j表示与该第i个字对应的第j个匹配词的词特征。上述第1个公式,是第i个字和第j个匹配词进行相似度计算,得到对应的相似度Si,j。例如,可计算第i个字的编码特征与第j个匹配词的词特征之间的余弦相似度。上述第2个公式,是对得到的各个相似度通过softmax进行归一化,得到第j个匹配词对应的权重αi,j。上述第3个公式,是基于每个匹配词对应的权重以及匹配词的词特征进行加权求和,得到加权词特征V′tokon_i。上述第4个公式,是将第i个字的编码特征与加权词特征进行融合,并将融合后的特征经过layer_normalization(层标准化)处理,得到第i个字的第一融合特征。该电子设备可通过上述公式得到训练文本中每个字的第一融合特征。
需要说明的是,该电子设备可通过编码器中的实体融合层(entity fusion),实现步骤203中的从预配置的目标实体词表中查找每个训练文本中每个字所对应的至少一个匹配词步骤和步骤204,并将该每个字的第一融合特征输入编码器中的FNN层进一步处理。本申请中,通过编码器中新增的实体融合层,可将各个字的特征中融入了与其匹配的目标实体词的特征,从而提高了该特征表达的丰富度和全面性。并且,该目标实体词表可以是特定任务的实体词,使得编码过程所得到的特征更多的包括了特定任务中的实体词的特征,基于此进行模型训练,可有针对性的提高对特定任务的实体识别的准确性。
步骤205、电子设备通过初始网络中的解码器,基于该每个训练文本中每个字的第一融合特征,对该每个训练文本中的逐个字进行实体识别,得到该待识别文本中的预测实体词。
该电子设备可基于每个字的第一融合特征,对每个字进行解码,并基于解码结果输出每个字。在一些可能实施例中,该解码器也可包括实体融合层,该电子设备可通过解码器,基于训练文本中每个字的第一融合特征,对训练文本进行逐个字的识别,并进行逐字输出,也即是,逐个字的生成每个字并输出。该电子设备利用之前已输出的字来识别下一个待输出的字。示例性的,该步骤205可包括以下步骤2051-步骤2054。
步骤2051、对于每个训练文本,电子设备通过该解码器,基于该训练文本中每个字的前序字的嵌入特征和该每个字的第一融合特征,获取该训练文本中每个字的前序字的第一特征。
该前序字是在该每个字之前已经过解码并输出的字。
示例性的,该初始网络可以是基于transformer结构的网络,如图6所示,该transformer结构的初始网络中,解码器可包括多个(如n个,n大于1)如图6所示的网络层,该网络层可包括实体融合层(entity fusion)、self-attention(自注意力机制)层、encoder-decoder-attention(编码-解码注意力机制)层和FNN(Feedforward NeuralNetwork,前馈神经网络)层。由于前序字是已经输出的字,因此,该字是已知的。对于当前待输出的字,该电子设备可提取该字的前序字的嵌入特征,可将前序字的嵌入特征输入编码器,通过解码器中的self-attention层对前序字的嵌入特征进行特征提取,得到前序字的第二特征;并将第二特征以及该训练文本中各个字的第一融合特征输入encoder-decoder-attention层,在encoder-decoder-attention层中,基于各个字的第一融合特征和前序字的第二特征,进一步对该前序字进行特征提取,得到该前序字的第一特征。
例如,已输出“明星ABC”中的“A”字,当前待输出的是“B”,则在对“B”进行输出时,可将已输出的“A”字的embedding向量输入解码器的self-attention层。然后将self-attention层所输出的第二特征以及编码器所输出的训练文本中各个字的第一融合特征,均输入至encoder-decoder-attention层,在该层中进一步结合训练文本的上下文对该“A”进行特征提取,得到该字的第一特征。
步骤2052、电子设备从该目标实体词表中查找该前序字所对应的至少一个匹配词。
步骤2053、电子设备基于该前序字分别与其所对应的各个匹配词之间的相似度,对该前序字的第一特征与各个匹配词的词特征进行融合,得到该训练文本中每个字的前序字的第二融合特征。
如图6所示,该电子设备可通过解码器的实体融合层执行步骤2052和步骤2053。示例性的,该电子设备可基于前序字的第一特征以及每个匹配词的词特征,计算前序字与各个匹配词之间的相似度,并进行特征融合,得到前序字的第二融合特征。需要说明的是,步骤2052-2053的实现方式,是与步骤203-204中使用编码器中实体融合层得到第一融合特征同理的过程,此处不再一一赘述。
需要说明的是,通过在解码器中增加实体融合层,使得解码过程不仅结合了训练文本中上下文进行预测,还结合了目标实体词表中实体词进行预测,尤其是该目标实体词表可以是特定任务对应的目标实体词,使得解码进行预测时可有针对性的提高对特定任务的实体识别。并且,目标实体词表中目标实体词的范围、数量等,均可基于所需的任务、所适用的场景等进行配置,从而有针对性的提高特定任务、特定的适用场景的实体识别的准确性。
步骤2054、电子设备基于该训练文本中每个字的前序字的第二融合特征,输出该每个字。
在一些可能实施例中,该电子设备可基于该训练文本中每个字的前序字的第二融合特征,确定该每个字对应的概率分布向量,该概率分布向量包括该每个字是字典中各个候选字的概率;该电子设备基于该每个字的概率分布向量,输出该每个字。
示例性的,该电子设备可通过以下公式,确定每个字对应的概率分布向量,并输出每个字:
logits=tanh(W Vemb+B)
Probs=softmax(logits)
其中,上述第1个公式,是对第二融合特征Vemb进行线性变换,将第二融合特征转换为一个logits分数;其中,W和b是参数向量,可在迭代训练时对W和b进行迭代优化。上述第2个公式,则是将logits分数进行softmax归一化转换为概率分布向量。例如,字典中包括3000个候选字,则该概率分布向量可以包括3000个维度,3000个维度分别对应3000个候选字;每个维度表征该训练文本中待输出的字是该维度所对应候选字的概率。
该电子设备可基于该概率分布向量,将概率值最大维度所对应的候选字作为待输出的字进行输出。例如,待输出的字为“B”,该字对应的概率分布向量中,字典中“B”字所对应的维度的概率值为0.9。当然,在训练阶段,若待输出的字在其他维度的概率值更大,也会输出其他维度对应的候选字。
需要说明的是,如图7所示,本申请的初始网络可以是一个基于生成式的模型,初始网络包括编码器Encoder和解码器Decoder。其中,Encoder的输入是训练文本对应的token序列,也即是,将训练文本句子按照字的粒度逐字拆分,得到句子的字序列,并在字序列前、后分别拼接标志位[CLS]和[SEP],以标记一个句子的开始和结束;通过Encoder可输出每个字的第一融合特征。而Decoder中,是逐个字生成的并输出的,Decoder的输入首先是一个开始标记[S],然后开始逐字的去生成,例如,先生成并输出“E”,再利用已输出的“E”生成并输出“F”。
步骤206、电子设备基于该每个训练文本中的标注实体词和预测实体词,对该初始网络进行迭代训练,得到该实体识别模型。
该电子设备可基于各个训练文本中标注实体词和预测实体词之间的差异,对初始网络进行迭代训练,并在迭代训练时不断调整优化该初始网络中的网络参数,直至达到停止迭代条件时,得到该实体识别模型。该停止迭代条件可以包括但不限于:该标注实体词和预测实体词之间的差异低于目标差异、迭代次数超过预设次数等。
在一些可能实施例中,该电子设备可基于概率分布向量计算该标注实体词和预测实体词之间的损失值,并基于损失值对初始网络进行迭代训练。示例性的,该步骤206可包括以下步骤2061-步骤2062。
步骤2061、该电子设备对于每个训练文本,基于该每个训练文本中的标注实体词和预测实体词,从该预测实体词中每个字对应的概率分布向量中提取第一概率值。
其中,第一概率值是指该每个字是该标注实体词中对应标注字的概率。例如,基于标注实体词确定,待输出的字为“B”,该字对应的概率分布向量中,在字典中“B”字所对应的维度的概率值为0.9。
步骤2062、该电子设备基于该预测实体词中每个字对应的第一概率值,对该初始网络进行迭代训练,得到该实体识别模型。
示例性的,该电子设备可通过以下公式,基于该预测实体词中每个字对应的第一概率值,计算每个训练文本中的标注实体词和预测实体词之间的损失值:
Loss=-log(Problabel)
其中,上述第1个公式中,是每个字对应的第一概率值Problabel的损失值LOSS;上述第2个公式中,最终的损失值LOSSfinal是所输出的所有字的损失值之和。例如,所输出的字为“EF是”,而实际的标注实体词是“EF市”,则会在迭代训练过程中,基于损失值LOSSfinal不断优化网络参数,以使得在对初始网络的不断迭代训练过程中,通过该初始网络所输出的逐个字所构成的词,会不断靠近训练文本中的标注实体词,直至训练文本中标注实体词相同。
在一种可能应用中,该电子设备可利用已训练好的实体识别模型提供实体识别服务。示例性的,该过程可包括:该电子设备响应于对待识别文本的识别请求,通过已训练的实体识别模型输出该待识别文本中的实体词;其中,该实体识别模型是通过上述步骤201-206进行训练得到的。其中,在使用已训练的实体识别模型时,可通过实体识别模型中的编码器,对待识别文本中每个字进行编码,得到待识别文本中每个字的编码特征,并从预配置的实体词表中查找待识别文本中每个字所对应的至少一个匹配词,并基于待识别文本中每个字分别与其所对应的各个匹配词之间的相似度,对该每个字的编码特征与各个匹配词的词特征进行融合,得到每个字的第一融合特征;然后,通过实体识别模型中的解码器,基于待识别文本中各个字的第一特征对待识别文本中的逐个字进行实体识别,并逐字生成并输出每个字,从而得到待识别文本中的各个实体词。在使用已训练的实体识别模型的阶段,该实体识别模型对应的步骤,与上述步骤203-205同理的过程,此处不再一一赘述。
需要说明的是,通过基于本申请的生成式的实体识别模型来识别句子中每个字,逐个字的生成并输出实体词中的每个字,并且,标注实体词的粒度细化到了非嵌套实体的最小粒度,使得本申请的实体识别模可将句子中各个实体词识别出来,即使是嵌套实体,也可将嵌套实体所包括的每个非嵌套实体识别出来,从而提高了实体识别的准确性。并且,还可基于预配置的目标实体词表,有针对性的进行识别,提高了针对特定任务的实体识别的准确性。
本申请提供的实体识别方法,通过基于知识图谱对各个训练文本中的实体词进行标注;并通过滤掉各个训练文本中的噪声文本得到第一训练数据,从而保证了训练文本的质量。并且,通过初始网络中的编码器对待识别文本进行逐字编码得到各个字的编码特征,并从目标实体词表中查找每个训练文本中每个字对应的匹配词;基于训练文本中每个字分别与各个匹配词之间的相似度,对每个字的编码特征与各个匹配词的词特征进行融合,得到每个字的第一融合特征;从而在字的编码特征中融入了特定任务的目标实体词的特征。通过初始网络中的解码器,基于每个训练文本中每个字的第一融合特征进行逐字识别得到预测实体词;并基于标注实体词和预测实体词进行迭代训练,得到该实体识别模型。由于利用知识图谱进行回标得到训练文本,并通过第一网络进行去噪,在节省了训练数据获取成本前提下,保证了训练数据的质量,提高了训练的准确性;通过在字的编码特征中融入了特定任务的目标实体词的特征,使得训练阶段可有针对性的提高模型对特定任务的实体识别的准确性,并且,通过利用每个字的特征逐个字识别并逐字输出,能够有效识别出嵌套实体,提高了实体识别的准确性。
图8为本申请实施例提供的一种实体识别装置的结构示意图。如图8所示,该装置包括:
识别模块801,用于响应于对待识别文本的识别请求,通过已训练的实体识别模型输出该待识别文本中的实体词;
其中,该装置在训练实体识别模型时,还包括:
标注模块802,用于基于知识图谱中各个实体词,对各个训练文本中的实体词进行标注;
过滤模块803,用于通过已训练的第一网络过滤掉各个训练文本中的噪声文本,得到第一训练数据,该噪声文本中的标注实体词为假实体词;
查找匹配词模块804,用于通过初始网络中的编码器,对待识别文本中每个字进行编码,得到每个训练文本中各个字的编码特征,并从预配置的目标实体词表中查找每个训练文本中每个字所对应的至少一个匹配词;
融合模块805,用于对于每个训练文本,基于该训练文本中每个字分别与其所对应的各个匹配词之间的相似度,对该训练文本中每个字的编码特征与各个匹配词的词特征进行融合,得到该训练文本中每个字的第一融合特征;
逐字识别模块806,用于通过初始网络中的解码器,基于该每个训练文本中每个字的第一融合特征,对该每个训练文本中的逐个字进行实体识别,得到该待识别文本中的预测实体词;
训练模块807,用于基于该每个训练文本中的标注实体词和预测实体词,对该初始网络进行迭代训练,得到该实体识别模型。
在一个可能实现方式中,该装置在构建目标实体词表是,还包括:
目标文本获取模块,用于对于目标识别任务中待识别的每个目标实体词,获取包括该目标实体词的至少一个目标文本,并提取该目标实体词中每个字在各个目标文本中的上下文特征;
词特征获取模块,用于对该目标实体词中每个字的上下文特征进行特征融合,得到该目标实体词的词特征,并基于各个目标实体词的词特征构建得到该目标实体词表。
在一个可能实现方式中,该逐字识别模块,用于:
对于每个训练文本,通过该解码器,基于该训练文本中每个字的前序字的嵌入特征和该每个字的第一融合特征,获取该训练文本中每个字的前序字的第一特征,该前序字是在该每个字之前已经过解码并输出的字;
从该目标实体词表中查找该前序字所对应的至少一个匹配词;
基于该前序字分别与其所对应的各个匹配词之间的相似度,对该前序字的第一特征与各个匹配词的词特征进行融合,得到该训练文本中每个字的前序字的第二融合特征;
基于该训练文本中每个字的前序字的第二融合特征,输出该每个字。
在一个可能实现方式中,该逐字识别模块,用于:
基于该训练文本中每个字的前序字的第二融合特征,确定该每个字对应的概率分布向量,该概率分布向量包括该每个字是字典中各个候选字的概率;
基于该每个字的概率分布向量,输出该每个字。
在一个可能实现方式中,该训练模块,用于:
对于每个训练文本,基于该每个训练文本中的标注实体词和预测实体词,从该预测实体词中每个字对应的概率分布向量中提取第一概率值,该第一概率值是指该每个字是该标注实体词中对应标注字的概率;
基于该预测实体词中每个字对应的第一概率值,对该初始网络进行迭代训练,得到该实体识别模型。
在一个可能实现方式中,该装置在对第一网络训练时,还包括:
获取模块,用于获取第二训练数据集,该第二训练数据集包括已标注正例和负例的多个第二训练数据,该正例是第二训练数据中的真实体词,该负例是第二训练数据中的假实体词;
遮挡模块,用于遮挡各个第二训练数据中的正例和负例,并通过初始的第一网络提取各个第二训练数据中遮挡位置对应的预测特征;
确定模块,用于基于该各个第二训练数据中遮挡位置对应的预测特征,确定遮挡位置对应的实体概率;
第一网络迭代训练模块,用于基于各个第二训练数据中遮挡位置对应的实体概率和标注标签,对该初始的第一网络进行迭代训练,得到该第一网络。
本申请提供的实体识别方法,通过基于知识图谱对各个训练文本中的实体词进行标注;并通过滤掉各个训练文本中的噪声文本得到第一训练数据,从而保证了训练文本的质量。并且,通过初始网络中的编码器对待识别文本进行逐字编码得到各个字的编码特征,并从目标实体词表中查找每个训练文本中每个字对应的匹配词;基于训练文本中每个字分别与各个匹配词之间的相似度,对每个字的编码特征与各个匹配词的词特征进行融合,得到每个字的第一融合特征;从而在字的编码特征中融入了特定任务的目标实体词的特征。通过初始网络中的解码器,基于每个训练文本中每个字的第一融合特征进行逐字识别得到预测实体词;并基于标注实体词和预测实体词进行迭代训练,得到该实体识别模型。由于利用知识图谱进行回标得到训练文本,并通过第一网络进行去噪,在节省了训练数据获取成本前提下,保证了训练数据的质量,提高了训练的准确性;通过在字的编码特征中融入了特定任务的目标实体词的特征,使得训练阶段可有针对性的提高模型对特定任务的实体识别的准确性,并且,通过利用每个字的特征逐个字识别并逐字输出,能够有效识别出嵌套实体,提高了实体识别的准确性。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
图9是本申请实施例中提供了一种电子设备的结构示意图。如图9所示,该电子设备包括:存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现实体识别方法的步骤,与相关技术相比可实现:
本申请提供的实体识别方法,通过基于知识图谱对各个训练文本中的实体词进行标注;并通过滤掉各个训练文本中的噪声文本得到第一训练数据,从而保证了训练文本的质量。并且,通过初始网络中的编码器对待识别文本进行逐字编码得到各个字的编码特征,并从目标实体词表中查找每个训练文本中每个字对应的匹配词;基于训练文本中每个字分别与各个匹配词之间的相似度,对每个字的编码特征与各个匹配词的词特征进行融合,得到每个字的第一融合特征;从而在字的编码特征中融入了特定任务的目标实体词的特征。通过初始网络中的解码器,基于每个训练文本中每个字的第一融合特征进行逐字识别得到预测实体词;并基于标注实体词和预测实体词进行迭代训练,得到该实体识别模型。由于利用知识图谱进行回标得到训练文本,并通过第一网络进行去噪,在节省了训练数据获取成本前提下,保证了训练数据的质量,提高了训练的准确性;通过在字的编码特征中融入了特定任务的目标实体词的特征,使得训练阶段可有针对性的提高模型对特定任务的实体识别的准确性,并且,通过利用每个字的特征逐个字识别并逐字输出,能够有效识别出嵌套实体,提高了实体识别的准确性。
在一个可选实施例中提供了一种电子设备,如图9所示,图9所示的电子设备900包括:处理器901和存储器903。其中,处理器901和存储器903相连,如通过总线902相连。可选地,电子设备900还可以包括收发器904,收发器904可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器904不限于一个,该电子设备900的结构并不构成对本申请实施例的限定。
处理器901可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器901也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线902可包括一通路,在上述组件之间传送信息。总线902可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线902可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器903可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质\其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器903用于存储执行本申请实施例的计算机程序,并由处理器901来控制执行。处理器901用于执行存储器903中存储的计算机程序,以实现前述方法实施例所示的步骤。
其中,电子设备包括但不限于:服务器、终端或云计算中心设备等。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作等。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (10)
1.一种实体识别方法,其特征在于,所述方法包括:
响应于对待识别文本的识别请求,通过已训练的实体识别模型输出所述待识别文本中的实体词;
其中,所述实体识别模型的训练方式包括:
基于知识图谱中各个实体词,对各个训练文本中的实体词进行标注;
通过已训练的第一网络过滤掉各个训练文本中的噪声文本,得到第一训练数据,所述噪声文本中的标注实体词为假实体词;
通过初始网络中的编码器,对待识别文本中每个字进行编码,得到每个训练文本中各个字的编码特征,并从预配置的目标实体词表中查找每个训练文本中每个字所对应的至少一个匹配词;
对于每个训练文本,基于所述训练文本中每个字分别与其所对应的各个匹配词之间的相似度,对所述训练文本中每个字的编码特征与各个匹配词的词特征进行融合,得到所述训练文本中每个字的第一融合特征;
通过初始网络中的解码器,基于所述每个训练文本中每个字的第一融合特征,对所述每个训练文本中的逐个字进行实体识别,得到所述待识别文本中的预测实体词;
基于所述每个训练文本中的标注实体词和预测实体词,对所述初始网络进行迭代训练,得到所述实体识别模型。
2.根据权利要求1所述的方法,其特征在于,所述目标实体词表的构建方式包括:
对于目标识别任务中待识别的每个目标实体词,获取包括所述目标实体词的至少一个目标文本,并提取所述目标实体词中每个字在各个目标文本中的上下文特征;
对所述目标实体词中每个字的上下文特征进行特征融合,得到所述目标实体词的词特征,并基于各个目标实体词的词特征构建得到所述目标实体词表。
3.根据权利要求1所述的方法,其特征在于,所述通过初始网络中的解码器,基于所述每个训练文本中每个字的第一融合特征,对所述每个训练文本中的逐个字进行实体识别,得到所述待识别文本中的预测实体词,包括:
对于每个训练文本,通过所述解码器,基于所述训练文本中每个字的前序字的嵌入特征和所述每个字的第一融合特征,获取所述训练文本中每个字的前序字的第一特征,所述前序字是在所述每个字之前已经过解码并输出的字;
从所述目标实体词表中查找所述前序字所对应的至少一个匹配词;
基于所述前序字分别与其所对应的各个匹配词之间的相似度,对所述前序字的第一特征与各个匹配词的词特征进行融合,得到所述训练文本中每个字的前序字的第二融合特征;
基于所述训练文本中每个字的前序字的第二融合特征,输出所述每个字。
4.根据权利要求3所述的方法,其特征在于,所述基于所述训练文本中每个字的前序字的第二融合特征,输出所述每个字,包括:
基于所述训练文本中每个字的前序字的第二融合特征,确定所述每个字对应的概率分布向量,所述概率分布向量包括所述每个字是字典中各个候选字的概率;
基于所述每个字的概率分布向量,输出所述每个字。
5.根据权利要求4所述的方法,其特征在于,所述基于所述每个训练文本中的标注实体词和预测实体词,对所述初始网络进行迭代训练,得到所述实体识别模型,包括:
对于每个训练文本,基于所述每个训练文本中的标注实体词和预测实体词,从所述预测实体词中每个字对应的概率分布向量中提取第一概率值,所述第一概率值是指所述每个字是所述标注实体词中对应标注字的概率;
基于所述预测实体词中每个字对应的第一概率值,对所述初始网络进行迭代训练,得到所述实体识别模型。
6.根据权利要求1所述的方法,其特征在于,所述第一网络的训练方式包括:
获取第二训练数据集,所述第二训练数据集包括已标注正例和负例的多个第二训练数据,所述正例是第二训练数据中的真实体词,所述负例是第二训练数据中的假实体词;
遮挡各个第二训练数据中的正例和负例,并通过初始的第一网络提取各个第二训练数据中遮挡位置对应的预测特征;
基于所述各个第二训练数据中遮挡位置对应的预测特征,确定遮挡位置对应的实体概率;
基于各个第二训练数据中遮挡位置对应的实体概率和标注标签,对所述初始的第一网络进行迭代训练,得到所述第一网络。
7.一种实体识别装置,其特征在于,所述装置包括:
识别模块,用于响应于对待识别文本的识别请求,通过已训练的实体识别模型输出所述待识别文本中的实体词;
其中,所述装置在训练实体识别模型时,还包括:
标注模块,用于基于知识图谱中各个实体词,对各个训练文本中的实体词进行标注;
过滤模块,用于通过已训练的第一网络过滤掉各个训练文本中的噪声文本,得到第一训练数据,所述噪声文本中的标注实体词为假实体词;
查找匹配词模块,用于通过初始网络中的编码器,对待识别文本中每个字进行编码,得到每个训练文本中各个字的编码特征,并从预配置的目标实体词表中查找每个训练文本中每个字所对应的至少一个匹配词;
融合模块,用于对于每个训练文本,基于所述训练文本中每个字分别与其所对应的各个匹配词之间的相似度,对所述训练文本中每个字的编码特征与各个匹配词的词特征进行融合,得到所述训练文本中每个字的第一融合特征;
逐字识别模块,用于通过初始网络中的解码器,基于所述每个训练文本中每个字的第一融合特征,对所述每个训练文本中的逐个字进行实体识别,得到所述待识别文本中的预测实体词;
训练模块基于所述每个训练文本中的标注实体词和预测实体词,对所述初始网络进行迭代训练,得到所述实体识别模型。
8.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211477575.3A CN116976341A (zh) | 2022-11-23 | 2022-11-23 | 实体识别方法、装置、电子设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211477575.3A CN116976341A (zh) | 2022-11-23 | 2022-11-23 | 实体识别方法、装置、电子设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116976341A true CN116976341A (zh) | 2023-10-31 |
Family
ID=88477256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211477575.3A Pending CN116976341A (zh) | 2022-11-23 | 2022-11-23 | 实体识别方法、装置、电子设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116976341A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251650A (zh) * | 2023-11-20 | 2023-12-19 | 之江实验室 | 地理热点中心识别方法、装置、计算机设备和存储介质 |
-
2022
- 2022-11-23 CN CN202211477575.3A patent/CN116976341A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251650A (zh) * | 2023-11-20 | 2023-12-19 | 之江实验室 | 地理热点中心识别方法、装置、计算机设备和存储介质 |
CN117251650B (zh) * | 2023-11-20 | 2024-02-06 | 之江实验室 | 地理热点中心识别方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046132B (zh) | 一种检索多轮对话的客服问答处理方法及其系统 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN113627447A (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
Peng et al. | Image to LaTeX with graph neural network for mathematical formula recognition | |
CN111739520A (zh) | 一种语音识别模型训练方法、语音识别方法、装置 | |
CN115114419A (zh) | 问答处理方法、装置、电子设备和计算机可读介质 | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN113051384B (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
WO2023137903A1 (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN112765940B (zh) | 一种基于主题特征和内容语义的网页去重方法 | |
CN115129885A (zh) | 实体链指方法、装置、设备及存储介质 | |
CN115374259A (zh) | 一种问答数据挖掘方法、装置及电子设备 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN116541517A (zh) | 文本信息处理方法、装置、设备、软件程序以及存储介质 | |
CN114662496A (zh) | 信息识别方法、装置、设备、存储介质及产品 | |
CN112579774A (zh) | 模型训练方法、模型训练装置及终端设备 | |
CN114385903B (zh) | 应用账号的识别方法、装置、电子设备及可读存储介质 | |
Chen et al. | Automatic work‐order assignment method for Chinese government hotline | |
CN112308453B (zh) | 风险识别模型训练方法、用户风险识别方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |