CN110852106B - 基于人工智能的命名实体处理方法、装置及电子设备 - Google Patents
基于人工智能的命名实体处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110852106B CN110852106B CN201911078296.8A CN201911078296A CN110852106B CN 110852106 B CN110852106 B CN 110852106B CN 201911078296 A CN201911078296 A CN 201911078296A CN 110852106 B CN110852106 B CN 110852106B
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- candidate
- processed
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 48
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 163
- 238000012545 processing Methods 0.000 claims abstract description 94
- 230000004927 fusion Effects 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000010801 machine learning Methods 0.000 claims abstract description 37
- 238000007499 fusion processing Methods 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 24
- 238000007637 random forest analysis Methods 0.000 description 10
- 235000013399 edible fruits Nutrition 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种基于人工智能的命名实体处理方法、装置、电子设备及存储介质;方法包括:根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体;确定所述待处理文本中除所述候选实体外的多个词语,并确定所述词语的词向量;对多个所述词语的词向量进行平均处理,得到所述候选实体对应的特征向量;根据至少两个机器学习模型,分别对所述特征向量进行预测处理得到识别结果;对所有所述识别结果进行融合处理得到融合识别结果,并根据所述融合识别结果确定所述候选实体的属性。通过本发明,能够提升进行命名实体处理的效率,适用于线上实时服务。
Description
技术领域
本发明涉及人工智能技术,尤其涉及一种基于人工智能的命名实体处理方法、装置、电子设备及存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。自然语言处理(NLP,Nature Language Processing)是人工智能的一个重要方向,主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
命名实体识别是自然语言处理的一个分支应用,具体指识别文本中具有特定意义的实体。由于实体可能存在歧义属性,例如一个实体可能是水果,也可能是上市公司,故在命名实体识别的过程中会对实体进行消歧,从而确定实际属性。在相关技术中,通常使用基于Transformer的双向编码器表征(BERT,Bidirectional Encoder Representation fromTransformers)模型进行实体消歧,但是BERT模型的复杂度高,训练和预测的效率低下,进行实体消歧的实时性差。
发明内容
本发明实施例提供一种基于人工智能的命名实体处理方法、装置、电子设备及存储介质,能够提升进行实体消歧的实时性,实现快速消歧。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种基于人工智能的命名实体处理方法,包括:
根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体;
确定所述待处理文本中除所述候选实体外的多个词语,并确定所述词语的词向量;
对多个所述词语的词向量进行平均处理,得到所述候选实体对应的特征向量;
根据至少两个机器学习模型,分别对所述特征向量进行预测处理得到识别结果;
对所有所述识别结果进行融合处理得到融合识别结果,并根据所述融合识别结果确定所述候选实体的属性。
在上述方案中,所述根据至少两个机器学习模型,分别对所述特征向量进行预测处理得到识别结果,包括:
根据多层感知机模型、极端梯度提升模型及随机森林模型,分别对所述特征向量进行预测处理,得到各模型输出的识别结果。
本发明实施例提供一种基于人工智能的命名实体处理装置,包括:
实体识别模块,用于根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体;
向量确定模块,用于确定所述待处理文本中除所述候选实体外的多个词语,并确定所述词语的词向量;
向量处理模块,用于对多个所述词语的词向量进行平均处理,得到所述候选实体对应的特征向量;
模型识别模块,用于根据至少两个机器学习模型,分别对所述特征向量进行预测处理得到识别结果;
融合模块,用于对所有所述识别结果进行融合处理得到融合识别结果,并根据所述融合识别结果确定所述候选实体的属性。
在上述方案中,所述模型识别模块,还用于:
根据多层感知机模型、极端梯度提升模型及随机森林模型,分别对所述特征向量进行预测处理,得到各模型输出的识别结果。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的基于人工智能的命名实体处理方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的基于人工智能的命名实体处理方法。
本发明实施例具有以下有益效果:
本发明实施例通过确定待处理文本中除候选实体外的多个词语,对多个词语的词向量进行处理得到特征向量,并根据至少两个机器学习模型,分别对特征向量进行预测处理得到识别结果,从而根据识别结果确定候选实体的属性,提升了实体消歧的效率,能够快速确定候选实体的真正属性,适用于线上实时服务。
附图说明
图1A是本发明实施例提供的BERT模型的一个可选的架构示意图;
图1B是本发明实施例提供的多头注意力模块的一个可选的架构示意图;
图1C是本发明实施例提供的点乘注意力模块的一个可选的架构示意图;
图2是本发明实施例提供的基于人工智能的命名实体处理系统的一个可选的架构示意图;
图3是本发明实施例提供的服务器的一个可选的架构示意图;
图4是本发明实施例提供的基于人工智能的命名实体处理装置的一个可选的架构示意图;
图5A是本发明实施例提供的基于人工智能的命名实体处理方法的一个可选的流程示意图;
图5B是本发明实施例提供的基于人工智能的命名实体处理方法的一个可选的流程示意图;
图5C是本发明实施例提供的基于人工智能的命名实体处理方法的一个可选的流程示意图;
图5D是本发明实施例提供的基于人工智能的命名实体处理方法的一个可选的流程示意图;
图6是本发明实施例提供的基于人工智能的命名实体处理装置的一个可选的架构示意图;
图7是本发明实施例提供的处理效果的一个可选的对比示意图;
图8A是本发明实施例提供的推荐资讯文本的一个可选的示意图;
图8B是本发明实施例提供的推荐资讯文本的一个可选的示意图;
图9A是本发明实施例提供的呈现资讯提示的一个可选的示意图;
图9B是本发明实施例提供的呈现资讯提示的一个可选的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)嵌入映射(Embedding):在数学上表示一个映射关系,F:X->Y,即一个函数。在深度学习中,Embedding特指从语义空间到向量空间的映射,即用一个低维度向量表示一个命名实体。
2)词向量(Word2vector):用于表示自然语言中的词语的向量,其中,自然语言是一套用来表达含义的复杂系统,在该系统中,词语是表达语义的基本单元。
3)命名实体识别(NER,Named Entity Recognition):又称作专名识别,是指识别文本中具有特定意义的实体,命名实体主要包括人名、地名、机构名及专有名词等,还可包括时间、数量、货币及比例数值等文字。
4)基于Transformers的双向编码器表征(BERT,Bidirectional EncoderRepresentations from Transformers)模型:一种利用深度学习算法搭建的模型,可应用于文本分类、语句问答及命名实体识别等自然语言处理任务上。
发明人在实施本发明实施例的过程中发现,命名实体可能存在歧义属性,例如“橘子”可能是水果名称,也可能是一个上市公司的名称,故在命名实体识别中需要对实体进行消歧,确定实体的真实属性。在相关技术中,通常使用BERT模型进行消歧,图1A示出了BERT模型的一个可选的架构示意图,在图1A中,输入序列首先经输入嵌入层转换为词向量,在与位置编码(Positional Encoding)向量相加后,作为编码器中的多头注意力(Multi-HeadAttention)模块的输入。图1A所示的BERT模型包括N个编码器和N个解码器,N为大于0的整数,例如N=6。编码器中除多头注意力模块外,还包括残差&正则(Add&Norm)层及前馈(FeedForward)层。解码器与编码器的结构相似,当前解码器使用上一个解码器的输出作为输入,另外为确保当前解码器的输出仅依靠当前解码器前的输入,故解码器中加入了遮罩多头注意力(Masked Multi-Head Attention)模块及对应的残差&正则层。经编码器和解码器处理后,经过线性(Linear)层和分类层(使用Softmax函数),则可得到输出概率。
图1B示出了BERT模型中的多头注意力模块的一个可选的架构示意图,其中,V指Value向量,K指Key向量,Q指Query向量,其中,Query向量相当于目标语输入序列,Value向量相当于源语输入序列。在图1B中,将Q、K及V通过线性层映射之后,分成h份,对每一份进行点乘注意力并行处理,并将最后的结果通过拼接层拼接在一起,其中,h为超参数,例如可设置为8。
图1C示出了多头注意力模块中的点乘注意力模块的一个可选的架构示意图,点乘注意力模块应用Seq2Seq模型中的注意力机制,Query与Key向量的点乘相当于余弦相似性,经过矩阵(MatMul)层、比例(Scale)层、遮罩(Mask)层及分类层后,可得出一组归一化的概率。这些概率相当于给源语输入序列进行加权平均,即表示在生成一个目标语单词时,源语输入序列中词的重要程度。
根据图1A、图1B及图1C可确定,BERT模型的架构较为复杂,参数量大,模型的训练和预测阶段对运行机器配置要求高。例如使用百万篇语料,单卡图形处理器(GPU,GraphicsProcessing Unit)通常需要训练一周以上。模型预测时同样效率低下,当模型部署在中央处理器(CPU,Central Processing Unit)上时,一次实体消歧处理通常需要耗费300毫秒以上,不适用于对实时性需求较高的线上实时服务。
本发明实施例提供一种基于人工智能的命名实体处理方法、装置、电子设备及存储介质,能够提高命名实体识别消歧的效率,满足实时性需求,下面说明本发明实施例提供的电子设备的示例性应用。
参见图2,图2是本发明实施例提供的基于人工智能的命名实体处理系统100的一个可选的架构示意图,为实现支撑一个基于人工智能的命名实体处理应用,终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200,服务器200运行有至少两个机器学习模型,图2示例性地示出了机器学习模型1和机器学习模型2,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400用于向服务器200发送待处理文本;服务器200用于根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体;确定待处理文本中除候选实体外的多个词语,并确定各词语的词向量;对多个词语的词向量进行平均处理,得到候选实体对应的特征向量;将特征向量输入机器学习模型1和机器学习模型2,得到各机器学习模型输出的识别结果;对所有识别结果进行融合处理得到融合识别结果,并根据融合识别结果确定候选实体的属性;将候选实体及属性发送至终端400;终端400还用于在图形界面410(示例性示出了图形界面410-1和图形界面410-2)显示候选实体及属性。
当然,服务器200在确定出候选实体的属性后,还可进行进一步处理,例如,获取与该属性的候选实体符合的资讯提示,并将资讯提示发送至终端400,以使终端400显示该资讯提示,本发明实施例对此不做限定。
下面继续说明本发明实施例提供的电子设备的示例性应用。电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的终端设备,也可以实施为服务器。下面,以电子设备为服务器为例进行说明。
参见图3,图3是本发明实施例提供的服务器200(例如,可以是图2所示的服务器200)的架构示意图,图3所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的基于人工智能的命名实体处理装置可以采用软件方式实现,图3示出了存储在存储器250中的基于人工智能的命名实体处理装置255,其可以是程序和插件等形式的软件,包括以下软件模块:实体识别模块2551、向量确定模块2552、向量处理模块2553、模型识别模块2554及融合模块2555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的基于人工智能的命名实体处理装置可以采用硬件方式实现,作为示例,本发明实施例提供的基于人工智能的命名实体处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的基于人工智能的命名实体处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex ProgrammableLogic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
本发明实施例提供的基于人工智能的命名实体处理方法可以由上述的服务器执行,也可以由终端设备(例如,可以是图2所示的终端400-1和终端400-2)执行,或者由服务器和终端设备共同执行。
下面将结合上文记载的电子设备的示例性应用和结构,说明电子设备中通过嵌入的基于人工智能的命名实体处理装置而实现基于人工智能的命名实体处理方法的过程。
参见图4和图5A,图4是本发明实施例提供的基于人工智能的命名实体处理装置255的架构示意图,示出了通过一系列模块实现实体消歧,确定属性的流程,图5A是本发明实施例提供的基于人工智能的命名实体处理方法的流程示意图,将结合图4对图5A示出的步骤进行说明。
在步骤101中,根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体。
作为示例,参见图4,在实体识别模块2551中,实体名称可预先设定,且实体名称对应至少两个属性,例如实体名称“橘子”可以是水果名称,同时也可以是一个上市公司的名称。对于获取到的待处理文本,根据实体名称对待处理文本进行命名实体识别,为了便于区分,将识别出的结果命名为候选实体。
在步骤102中,确定所述待处理文本中除所述候选实体外的多个词语,并确定所述词语的词向量。
作为示例,参见图4,在相邻确定模块2552中,确定待处理文本中与候选实体相邻的多个词语,并确定每个词语的词向量。
在步骤103中,对多个所述词语的词向量进行平均处理,得到所述候选实体对应的特征向量。
作为示例,参见图4,在向量处理模块2553中,对与候选实体相邻的多个词语的词向量进行平均处理,得到的即为候选实体对应的特征向量,该特征向量体现了候选实体的上下文特征。
在步骤104中,根据至少两个机器学习模型,分别对所述特征向量进行预测处理得到识别结果。
在已有至少两个训练好的机器学习模型的基础上,将特征向量作为各机器学习模型的输入,得到各机器学习模型输出的识别结果。值得说明的是,该识别结果可直接与具体的属性对应,也可以是分数或概率等。
在一些实施例中,可以通过这样的方式来实现上述的根据至少两个机器学习模型,分别对所述特征向量进行预测处理得到识别结果:根据多层感知机模型、极端梯度提升模型及随机森林模型,分别对所述特征向量进行预测处理,得到各模型输出的识别结果。
作为示例,参见图4,在模型识别模块2554中,应用多层感知机(MLP,Multi LayerPerceptron)模型、极端梯度提升(XGBoost,eXtreme Gradient Boosting)模型及随机森林(RF,Random Forest)模型,分别对特征向量进行预测处理,得到识别结果。相较于BERT模型,MLP模型、XGBoost模型及RF模型的结构较为简单,进行预测处理的效率较高,能够快速得到识别结果,提升了处理的实时性。
在一些实施例中,在步骤104之前,还包括:获取包括所述候选实体的历史资讯文本,并获取所述候选实体对应的标注识别结果;确定所述历史资讯文本中所述候选实体对应的特征向量;根据各所述机器学习模型,分别对所述特征向量进行预测处理得到预测识别结果;确定所述标注识别结果与所述预测识别结果之间的差异;根据所述差异在所述机器学习模型中进行反向传播,并在反向传播的过程中更新所述机器学习模型的权重参数。
在将机器学习模型投入实际的预测处理前,对其进行训练。具体地,获取包括候选实体的历史资讯文本,并获取候选实体对应的标注识别结果,该标注识别结果是人为标注的。然后,确定历史资讯文本中候选实体对应的特征向量,确定特征向量的过程与步骤102~103类似,在此不做赘述。对于每个机器学习模型来说,根据该机器学习模型对特征向量进行预测处理得到预测识别结果,确定标注识别结果与预测识别结果之间的差异,并根据差异在该机器学习模型中进行反向传播,并在反向传播的过程中更新机器学习模型的权重参数,以使根据更新后的机器学习模型得到的预测识别结果与标注识别结果更加接近。通过上述方式,提升了通过机器学习模型进行预测处理的准确性。
在步骤105中,对所有所述识别结果进行融合处理得到融合识别结果,并根据所述融合识别结果确定所述候选实体的属性。
作为示例,参见图4,在融合模块2555中,对所有识别结果进行融合处理得到融合识别结果,根据融合识别结果确定候选实体的属性,例如,确定“橘子”的属性是水果还是上市公司。
在一些实施例中,可以通过这样的方式来实现上述的对所有所述识别结果进行融合处理得到融合识别结果:当所述识别结果为至少两类时,将数量最多的一类识别结果确定为融合识别结果,其中,每类所述识别结果对应一种属性;或者,当所述识别结果为分数时,对所有所述识别结果进行平均处理,得到融合识别结果。
机器学习模型输出的识别结果可能存在两种情况,其一是,识别结果直接对应属性或者直接为属性本身,在该情况下,应用投票表决机制,当识别结果为至少两类时,将数量最多的一类识别结果确定为融合识别结果,当然,当识别结果仅为一类时,直接将该类识别结果确定为融合识别结果。其二是,识别结果是分数或概率,该情况下,对所有识别结果进行数值化的平均处理,得到融合识别结果。通过上述方式,提升了融合处理的灵活性,可根据实际应用场景选用对应的融合处理机制。
通过发明实施例对于图5A的上述示例性实施可知,本发明实施例在待处理文本中确定除候选实体外的多个词语,进一步确定特征向量,将特征向量作为至少两个机器学习模型的输入,并对输出结果进行融合得到融合识别结果,从而根据融合识别结果确定候选实体的属性,实现候选实体属性的快速消歧,提升了实体消歧的效率,适用于线上实时服务。
在一些实施例中,参见图5B,图5B是本发明实施例提供的基于人工智能的命名实体处理方法的一个可选的流程示意图,图5A示出的步骤101可以通过步骤201至步骤204实现,将结合图4及示出的各步骤进行说明。
在步骤201中,获取多个历史资讯文本,并对所述多个历史资讯文本进行向量转换处理,得到多个历史词向量。
作为示例,参见图4,在实体识别模块2551中,获取多个历史资讯文本,例如,实体名称对应的属性包括水果和上市公司,则获取与水果相关的历史资讯文本,以及与上市公司相关的历史资讯文本,总共100万份。然后,对多个历史资讯文本进行向量转换处理,得到多个历史词向量。
在一些实施例中,可以通过这样的方式来实现上述的对所述多个历史资讯文本进行向量转换处理,得到多个历史词向量:对各所述历史资讯文本进行文本句划分,并对得到的各文本句进行分词处理;根据词向量转换模型将分词处理得到的词语映射为历史词向量,直至对所有所述文本句中的词语处理完毕,得到各词语对应的历史词向量。
这里,对各历史资讯文本进行文本句划分,例如,根据标点符号划分出多个文本句,并对得到的各文本句进行分词处理,得到各文本句包括的多个词语。然后,根据词向量转换模型将分词处理得到的词语映射为词向量,直至对所有文本句中的词语处理完毕,得到各词语对应的词向量为止,为了便于区分,将此处得到的词向量命名为历史词向量。其中,词向量转换模型可为连续词袋(CBOW,Continuous Bag-Of-Word)模型或者Skip-Gram模型等,本发明实施例对此不做限定。通过上述的根据多个历史资讯文本得到历史词向量的方式,提升了确定出的历史词向量的准确性。
在步骤202中,获取第一实体名称,将与所述第一实体名称对应的历史词向量确定为搜索词向量。
作为示例,参见图4,在实体识别模块2551中,获取设定的第一实体名称,在多个历史词向量中,确定与第一实体名称对应的历史词向量,并将该历史词向量命名为搜索词向量,以示区分。
在步骤203中,确定与所述搜索词向量之间的相似度满足相似度条件的历史词向量,并将所述相似度满足相似度条件的历史词向量对应的词语确定为第二实体名称。
作为示例,参见图4,在实体识别模块2551中,由于上市公司名称等名称可能存在其他的别名/简称,故在本步骤中,计算搜索词向量与其他的历史词向量之间的相似度,确定满足相似度条件的相似度所对应的历史词向量,并将该历史词向量对应的词语确定为第二实体名称。其中,相似度如余弦相似度,相似度条件如数值最高的前10个相似度。
在步骤204中,根据所述第一实体名称和所述第二实体名称,对待处理文本进行命名实体识别,得到属性具有歧义的候选实体。
这里,进行命名实体识别后,得到的候选实体符合第一实体名称或第二实体名称。
在一些实施例中,可以通过这样的方式来实现上述的根据所述第一实体名称和所述第二实体名称,对待处理文本进行命名实体识别,得到属性具有歧义的候选实体:根据所述第一实体名称和所述第二实体名称构建双数组字典树;对待处理文本进行分词处理,得到多个词语;根据所述双数组字典树从所述待处理文本中识别出命名实体;当所述识别出的命名实体与分词处理后得到的至少一个词语相同时,将所述识别出的命名实体确定为属性具有歧义的候选实体。
作为示例,参见图4,在实体识别模块2551中,根据第一实体名称和第二实体名称构建双数组字典树,即双数组Trie树,根据双数组字典树从待处理文本中识别出命名实体。值得说明的是,除了构建双数组字典树的方式外,还可应用其他的字符串匹配算法,例如暴力匹配或KMP匹配算法等,本发明实施例不做限定。
对于识别出的命名实体,进行独立性判断,具体地,对待处理文本进行分词处理得到多个词语,当该命名实体与分词处理后得到的至少一个词语相同时,独立性判断成功,将该命名实体确定为属性具有歧义的候选实体;当该命名实体与分词处理后得到的所有词语均不同时,例如命名实体是“00700”,分词后得到的词语是“100700元”,则忽略该命名实体。通过上述的搭建字典树及独立性判断的方式,提升了确定出的候选实体的准确性。
图5A示出的步骤102可以通过步骤205至步骤207实现,将结合示出的各步骤进行说明。
在步骤205中,确定所述待处理文本中所述候选实体所在的文本句。
待处理文本包括至少一个文本句,在确定出候选实体后,进一步确定候选实体所在的文本句。
在步骤206中,在所述文本句中提取除所述候选实体外的多个词语。
这里,在候选实体所在的文本句中,提取候选实体相邻的多个词语。
在一些实施例中,可以通过这样的方式来实现上述的在所述文本句中提取除所述候选实体外的多个词语:在所述文本句中提取位于所述候选实体之前的窗口内的词语,并在所述文本句中提取位于所述候选实体之后的窗口内的词语;或者,在所述文本句中提取除所述候选实体外的所有词语。
在提取词语时,一种方式是设置窗口,该窗口对应有窗口尺寸,窗口尺寸为窗口包括的词语数量。然后,根据窗口提取候选实体之前及之后的词语,例如在窗口包括的词语数量为3的情况下,在文本句中提取候选实体之前的3个词语,在文本句中提取候选实体之后的3个词语。当然,当窗口在文本句中覆盖的词语未达到窗口尺寸时,仅提取窗口覆盖的词语。另一种方式是,在文本句中提取除候选实体外的所有词语。通过上述方式,提升了提取词语的灵活性,可根据实际应用场景调整提取方式。
在步骤207中,将提取出的词语对应的历史词向量,确定为所述词语的词向量。
在对多个历史资讯文本进行向量转换处理,得到的多个历史词向量中,确定与提取的词语对应的历史词向量,将该历史词向量确定为词语的词向量。
通过发明实施例对于图5B的上述示例性实施可知,本发明实施例根据第一实体名称和第二实体名称进行命名实体识别,适用于第一实体名称存在别名或简称的场景,提升了识别的成功率,同时,通过提取候选实体所在文本句的其他词语,便于后续确定候选实体的上下文特征向量。
在一些实施例中,参见图5C,图5C是本发明实施例提供的基于人工智能的命名实体处理方法的一个可选的流程示意图,基于图5A,在步骤105之后,还可以在步骤301中,当所述待处理文本为资讯搜索文本时,根据所述待处理文本中所述候选实体的属性,确定所述待处理文本的文本属性。
在不同场景下,待处理文本的用途可能不同,当待处理文本为资讯搜索文本时,根据待处理文本中候选实体的属性,确定待处理文本的文本属性。
在一些实施例中,可以通过这样的方式来实现上述的根据所述待处理文本中所述候选实体的属性,确定所述待处理文本的文本属性:当所述待处理文本包括一个所述候选实体时,将所述候选实体的属性,确定为所述待处理文本的文本属性;当所述待处理文本包括至少两个所述候选实体时,将数量最多的一类所述候选实体的属性,确定为所述待处理文本的文本属性。
当待处理文本仅包括一个候选实体时,直接将该候选实体的属性确定为待处理文本的文本属性;当待处理文本包括至少两个候选实体时,应用投票表决机制,将数量最多的一类候选实体的属性,确定为待处理文本的文本属性。通过上述的将高频属性确定为文本属性的方式,提升了确定文本属性的合理性。
在步骤302中,获取资讯文本,并确定所述资讯文本中候选实体的属性。
这里,资讯文本可以是近期(如2天内)收集到的新闻资讯文本。同样地,根据步骤101~步骤105,确定资讯文本中的候选实体进行实体消歧,确定其属性。
在步骤303中,根据所述资讯文本中候选实体的属性,确定所述资讯文本的文本属性,并将设置有所述文本属性的所述资讯文本添加至索引库。
这里,确定资讯文本的文本属性的方式,可与确定待处理文本的文本属性的方式相同,在此不做赘述。将资讯文本添加至设定的索引库,同时为该资讯文本设置对应的文本属性。值得说明的是,步骤302~303可在步骤301前执行。
在步骤304中,将所述待处理文本与所述索引库中的多个所述资讯文本进行文本匹配,将文本匹配成功的所述资讯文本确定为候选资讯文本。
在根据待处理文本搜索时,首先在文本形式上进行匹配,将索引库中文本匹配成功的资讯文本,确定为候选资讯文本。
在一些实施例中,可以通过这样的方式来实现上述的将所述待处理文本与所述索引库中的多个所述资讯文本进行文本匹配:对所述待处理文本进行分词处理;将所述索引库中包括分词处理后得到的所有词语、且发布热度满足热度条件的所述资讯文本,确定为文本匹配成功。
这里,对待处理文本进行分词处理得到多个词语,将索引库中包括分词处理后得到的所有词语、且发布热度满足热度条件的资讯文本,确定为文本匹配成功。其中,发布热度可为资讯文本的阅览量,可为发布时间,也可为阅览量和发布时间的加权结果,本发明实施例对此不做限定,热度条件可为数值最高的前10名发布热度,或其他的可行条件。通过上述方式,将发布热度较高的资讯文本确定为文本匹配成功,提升对于搜索需求的适应性。
在步骤305中,确定与所述待处理文本的文本属性相符的候选资讯文本,并对所述候选资讯文本进行推荐处理。
在得到候选资讯文本的基础上,确定与待处理文本的文本属性相符的候选资讯文本,并对候选资讯文本进行推荐处理。例如,对文本属性为水果的待处理文本,以列表形式推荐文本属性同样为水果的候选资讯文本。
通过发明实施例对于图5C的上述示例性实施可知,在待处理文本为资讯搜索文本时,通过文本匹配及文本属性匹配的方式,确定出待推荐的候选资讯文本,提升了推荐的准确性,提升了用户体验。
在一些实施例中,参见图5D,图5D是本发明实施例提供的基于人工智能的命名实体处理方法的一个可选的流程示意图,基于图5A,在步骤105之后,还可以在步骤401中,当所述待处理文本为资讯文本时,根据所述待处理文本中所述候选实体的属性,确定所述待处理文本的文本属性。
在待处理文本本身为资讯文本的情况下,根据待处理文本中候选实体的属性,以投票表决机制确定待处理文本的文本属性。
在步骤402中,获取具有所述文本属性的所述候选实体对应的资讯提示,并呈现所述资讯提示。
例如,在包括候选实体“橘子”的待处理文本的文本属性为上市公司时,获取橘子公司的股票的涨跌幅情况作为资讯提示,并在待处理文本的浏览页面呈现该资讯提示,从而便于用户了解候选实体的相关情况。当然,资讯提示的形式并不限于此。
通过发明实施例对于图5D的上述示例性实施可知,本发明实施例根据文本属性获取对应的资讯提示,并呈现资讯提示,实现了多样化的信息推荐,提升了用户体验。
下面,将说明本发明实施例在一些实际的应用场景中的示例性应用。
参见图6,图6是本发明实施例提供的基于人工智能的命名实体处理装置的一个可选的架构示意图,在图6中,将处理装置分为了识别模块和消歧模块,将结合图6示出的内容进行说明。
为了便于理解,以股票实体识别场景进行阐述,并设定候选实体的标识属性包括股票和非股票。首先,收集多个如100万份历史资讯文本,对多个历史资讯文本进行分词,并根据词向量转换模型对得到的多个词语进行嵌入映射处理后,得到每个词语对应的词向量,为示区分,将此处的词向量命名为历史词向量。在后续处理过程中,历史词向量供识别模块和消歧模块使用。
在识别模块中,通过证券交易行情接口访问行情数据,每日定时更新上市公司的股票代码和/或证券名称,股票代码和/或证券名称即为上文的第一实体名称。然后,将第一实体名称对应的历史词向量确定为搜索词向量,确定与搜索词向量之间的余弦相似度最高的前10名历史词向量,将前10名历史词向量对应的词语,确定为第二实体名称,第二实体名称即为上市公司常用的别名/简称。然后,使用第一实体名称和第二实体名称建立双数组字典树,根据双数组字典树对待处理文本进行匹配,得到待处理文本中的候选实体。对于候选实体,还进行独立性判断,具体地,对待处理文本进行分词处理得到多个词语,当候选实体与其中的至少一个词语相同时,独立性判断通过,将候选实体输入至消歧模块;当候选实体与其中的任一词语均不同时,忽略该候选实体。
由于候选实体的属性具有歧义,例如在候选实体为“橘子”时,“橘子股票大跌”中“橘子”的属性,与“橘子好吃”中“橘子”的属性不一致,故需要根据候选实体的上下文,对候选实体的属性进行消歧。具体地,在消歧模块中,根据窗口尺寸(window size),在待处理文本中提取候选实体前后的词语,例如窗口尺寸为3,则在待处理文本中提取候选实体之前的3个词语,以及候选实体之后的3个词语。然后,确定提取出的词语对应的历史词向量,并对确定的历史词向量进行平均处理,得到候选实体的上下文特征向量。将上下文特征向量作为模型输入,使用多层感知机模型、极端梯度提升模型及随机森林模型分别进行预测处理,得到三个识别结果,并使用多数投票表决的方式融合三个识别结果,根据得到的融合识别结果确定候选实体的真正属性,即确定候选实体的属性是股票还是非股票。值得说明的是,上文中提到的模型仅为示例,根据实际应用场景,还可应用更多或更少的模型。
参见图7,图7是本发明实施例提供的处理效果的对比示意图,在图7中,极端梯度提升模型的树深度参数为5,学习率为0.2,树的棵树为200;多层感知机模型的结构有2个隐层,每个隐层有50个神经元;随机森林模型的树深度参数为4,树的棵树为100。经过发明人实验验证,在窗口尺寸一致为3的情况下,对于准确率、召回率及平衡F分数(F1-Score)多个衡量指标,相较于BERT模型,极端梯度提升模型、多层感知机模型及随机森林模型均损失很小,大多在5%以内,处于可接受范围。其中,图7所示的正类是指候选实体的属性为股票,负类是指候选实体的属性为非股票,平衡F分数的计算方式是2×(准确率×召回率)/(准确率+召回率)。同时,使用BERT模型在CPU机器上部署服务时,服务处理一次命名实体识别及消歧请求的平均时间为314毫秒,而使用本发明实施例的基于人工智能的命名实体处理方法,在同样的CPU机器上部署服务时,服务处理一次命名实体识别及消歧请求的平均时间为23毫秒,极大地提升了处理效率,适用于对实时性要求较高的线上服务。
参见图8A,图8A是本发明实施例提供的推荐资讯文本的一个可选的示意图。在图8A所示的资讯页面中,用户输入的待处理文本81为“橘子手机”,此处的待处理文本即为资讯搜索文本。将待处理文本81进行分词后,得到“橘子”和“手机”两个词语,确定出候选实体为“橘子”,进一步确定该候选实体的属性为股票,该属性也是待处理文本81的文本属性。然后,在索引库中搜索包括“橘子”和“手机”的资讯文本,并将文本属性同样为股票的资讯文本确定为候选资讯文本,将候选资讯文本按照发布时间从新到旧进行推荐。例如,图8A示出的候选资讯文本82,包括资讯标题、资讯类别(即新闻)、资讯提供方、发布时间以及资讯示意图,当然,这并不构成对本发明实施例的限定,可根据实际应用场景确定资讯文本的内容。
参见图8B,图8B是本发明实施例提供的推荐资讯文本的一个可选的示意图。在图8B所示的同样的资讯页面中,用户输入的待处理文本83为“吃橘子”,可确定该候选实体的属性为非股票,该属性也是待处理文本83的文本属性。然后,在索引库中搜索在文本上相匹配的资讯文本,并将文本属性同样为非股票的资讯文本确定为候选资讯文本,将候选资讯文本按照发布时间从新到旧进行推荐。例如,图8B示出的候选资讯文本84,包括资讯标题、资讯类别(即新闻)、资讯提供方及发布时间。
参见图9A,图9A是本发明实施例提供的呈现资讯提示的一个可选的示意图。在图9A所示的呈现资讯文本的页面中,待处理文本91即为资讯文本,图9A以两部分的文本内容作为示例。在实体名称为“橘子”的情况下,经命名实体识别及消歧后,得到待处理文本91中候选实体“橘子”的属性为股票,并确定待处理文本91的文本属性同样为股票。然后,获取属性为股票的候选实体“橘子”对应的资讯提示,如从行情数据中获取资讯提示,并呈现该资讯提示,如图9A所示的资讯提示92,在资讯提示92中,示出了橘子股票的涨幅为0.45%。通过上述方式,用户可在阅览待处理文本时,同时了解相关的资讯提示,提升了用户体验。
参见图9B,图9B是本发明实施例提供的呈现资讯提示的一个可选的示意图。在图9B所示的呈现资讯文本的页面中,待处理文本93即为资讯文本,图9B以两部分的文本内容作为示例。在实体名称为“橘子”的情况下,经命名实体识别及消歧后,得到待处理文本93中候选实体“橘子”的属性为非股票,并确定待处理文本93的文本属性同样为非股票。然后,获取属性为非股票的候选实体“橘子”对应的资讯提示,并呈现该资讯提示,如图9B所示的资讯提示94,在资讯提示94中,示出了水果橘子平均价格为xx元每斤。
下面继续说明本发明实施例提供的基于人工智能的命名实体处理装置255实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器250的基于人工智能的命名实体处理装置255中的软件模块可以包括:实体识别模块2551,用于根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体;向量确定模块2552,用于确定所述待处理文本中除所述候选实体外的多个词语,并确定所述词语的词向量;向量处理模块2553,用于对多个所述词语的词向量进行平均处理,得到所述候选实体对应的特征向量;模型识别模块2554,用于根据至少两个机器学习模型,分别对所述特征向量进行预测处理得到识别结果;融合模块2555,用于对所有所述识别结果进行融合处理得到融合识别结果,并根据所述融合识别结果确定所述候选实体的属性。
在一些实施例中,实体识别模块2551,还用于:获取多个历史资讯文本,并对所述多个历史资讯文本进行向量转换处理,得到多个历史词向量;获取第一实体名称,将与所述第一实体名称对应的历史词向量确定为搜索词向量;确定与所述搜索词向量之间的相似度满足相似度条件的历史词向量,并将所述相似度满足相似度条件的历史词向量对应的词语确定为第二实体名称;根据所述第一实体名称和所述第二实体名称,对待处理文本进行命名实体识别,得到属性具有歧义的候选实体。
在一些实施例中,实体识别模块2551,还用于:根据所述第一实体名称和所述第二实体名称构建双数组字典树;对待处理文本进行分词处理,得到多个词语;根据所述双数组字典树从所述待处理文本中识别出命名实体;当所述识别出的命名实体与分词处理后得到的至少一个词语相同时,将所述识别出的命名实体确定为属性具有歧义的候选实体。
在一些实施例中,实体识别模块2551,还用于:对各所述历史资讯文本进行文本句划分,并对得到的各文本句进行分词处理;根据词向量转换模型将分词处理得到的词语映射为历史词向量,直至对所有所述文本句中的词语处理完毕,得到各词语对应的历史词向量。
在一些实施例中,向量确定模块2552,还用于:确定所述待处理文本中所述候选实体所在的文本句;在所述文本句中提取除所述候选实体外的多个词语;将提取出的词语对应的历史词向量,确定为所述词语的词向量。
在一些实施例中,向量确定模块2552,还用于:在所述文本句中提取位于所述候选实体之前的窗口内的词语,并在所述文本句中提取位于所述候选实体之后的窗口内的词语;或者,在所述文本句中提取除所述候选实体外的所有词语。
在一些实施例中,基于人工智能的命名实体处理装置255还包括:第一属性确定模块,用于当所述待处理文本为资讯搜索文本时,根据所述待处理文本中所述候选实体的属性,确定所述待处理文本的文本属性;第二属性确定模块,用于获取资讯文本,并确定所述资讯文本中候选实体的属性;添加模块,用于根据所述资讯文本中候选实体的属性,确定所述资讯文本的文本属性,并将设置有所述文本属性的所述资讯文本添加至索引库;匹配模块,用于将所述待处理文本与所述索引库中的多个所述资讯文本进行文本匹配,将文本匹配成功的所述资讯文本确定为候选资讯文本;推荐模块,用于确定与所述待处理文本的文本属性相符的候选资讯文本,并对所述候选资讯文本进行推荐处理。
在一些实施例中,第一属性确定模块,还用于:当所述待处理文本包括一个所述候选实体时,将所述候选实体的属性,确定为所述待处理文本的文本属性;当所述待处理文本包括至少两个所述候选实体时,将数量最多的一类所述候选实体的属性,确定为所述待处理文本的文本属性。
在一些实施例中,匹配模块,还用于:对所述待处理文本进行分词处理;将所述索引库中包括分词处理后得到的所有词语、且发布热度满足热度条件的所述资讯文本,确定为文本匹配成功。
在一些实施例中,基于人工智能的命名实体处理装置255还包括:第三属性确定模块,用于当所述待处理文本为资讯文本时,根据所述待处理文本中所述候选实体的属性,确定所述待处理文本的文本属性;呈现模块,用于获取具有所述文本属性的所述候选实体对应的资讯提示,并呈现所述资讯提示。
在一些实施例中,基于人工智能的命名实体处理装置255还包括:标注获取模块,用于获取包括所述候选实体的历史资讯文本,并获取所述候选实体对应的标注识别结果;历史特征向量确定模块,用于确定所述历史资讯文本中所述候选实体对应的特征向量;预测模块,用于根据各所述机器学习模型,分别对所述特征向量进行预测处理得到预测识别结果;差异确定模块,用于确定所述标注识别结果与所述预测识别结果之间的差异;参数更新模块,用于根据所述差异在所述机器学习模型中进行反向传播,并在反向传播的过程中更新所述机器学习模型的权重参数。
在一些实施例中,融合模块2555,还用于:当所述识别结果为至少两类时,将数量最多的一类识别结果确定为融合识别结果,其中,每类所述识别结果对应一种属性;或者,当所述识别结果为分数时,对所有所述识别结果进行平均处理,得到融合识别结果。
在一些实施例中,模型识别模块2554,还用于:根据多层感知机模型、极端梯度提升模型及随机森林模型,分别对所述特征向量进行预测处理,得到各模型输出的识别结果。
本发明实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的基于人工智能的命名实体处理方法,例如,如图5A、5B、5C或5D示出的基于人工智能的命名实体处理方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本发明实施例,在保证较高准确率和召回率的基础上,能够较大提升进行命名实体处理的效率,即能够快速完成命名实体识别及消歧,从而确定实体的真实属性,适用于对实时性要求较高的线上服务。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
Claims (15)
1.一种基于人工智能的命名实体处理方法,其特征在于,包括:
根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体;
确定所述待处理文本中除所述候选实体外的多个词语,并确定所述词语的词向量;
对多个所述词语的词向量进行平均处理,得到所述候选实体对应的特征向量;
根据至少两个机器学习模型,分别对所述特征向量进行预测处理得到识别结果;
对所有所述识别结果进行融合处理得到融合识别结果,并根据所述融合识别结果确定所述候选实体的属性。
2.根据权利要求1所述的命名实体处理方法,其特征在于,所述根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体,包括:
获取多个历史资讯文本,并对所述多个历史资讯文本进行向量转换处理,得到多个历史词向量;
获取第一实体名称,将与所述第一实体名称对应的历史词向量确定为搜索词向量;
确定与所述搜索词向量之间的相似度满足相似度条件的历史词向量,并将所述相似度满足相似度条件的历史词向量对应的词语确定为第二实体名称;
根据所述第一实体名称和所述第二实体名称,对待处理文本进行命名实体识别,得到属性具有歧义的候选实体。
3.根据权利要求2所述的命名实体处理方法,其特征在于,所述根据所述第一实体名称和所述第二实体名称,对待处理文本进行命名实体识别,得到属性具有歧义的候选实体,包括:
根据所述第一实体名称和所述第二实体名称构建双数组字典树;
对待处理文本进行分词处理,得到多个词语;
根据所述双数组字典树从所述待处理文本中识别出命名实体;
当识别出的命名实体与分词处理后得到的至少一个词语相同时,将所述识别出的命名实体确定为属性具有歧义的候选实体。
4.根据权利要求2所述的命名实体处理方法,其特征在于,所述对所述多个历史资讯文本进行向量转换处理,得到多个历史词向量,包括:
对各所述历史资讯文本进行文本句划分,并对得到的各文本句进行分词处理;
根据词向量转换模型将分词处理得到的词语映射为历史词向量,直至对所有所述文本句中的词语处理完毕,得到各词语对应的历史词向量。
5.根据权利要求2所述的命名实体处理方法,其特征在于,所述确定所述待处理文本中除所述候选实体外的多个词语,并确定所述词语的词向量,包括:
确定所述待处理文本中所述候选实体所在的文本句;
在所述文本句中提取除所述候选实体外的多个词语;
将提取出的词语对应的历史词向量,确定为所述词语的词向量。
6.根据权利要求5所述的命名实体处理方法,其特征在于,所述在所述文本句中提取除所述候选实体外的多个词语,包括:
在所述文本句中提取位于所述候选实体之前的窗口内的词语,并在所述文本句中提取位于所述候选实体之后的窗口内的词语;或者,
在所述文本句中提取除所述候选实体外的所有词语。
7.根据权利要求1所述的命名实体处理方法,其特征在于,还包括:
当所述待处理文本为资讯搜索文本时,根据所述待处理文本中所述候选实体的属性,确定所述待处理文本的文本属性;
获取资讯文本,并确定所述资讯文本中候选实体的属性;
根据所述资讯文本中候选实体的属性,确定所述资讯文本的文本属性,并将设置有所述文本属性的所述资讯文本添加至索引库;
将所述待处理文本与所述索引库中的多个所述资讯文本进行文本匹配,将文本匹配成功的所述资讯文本确定为候选资讯文本;
确定与所述待处理文本的文本属性相符的候选资讯文本,并对所述候选资讯文本进行推荐处理。
8.根据权利要求7所述的命名实体处理方法,其特征在于,所述根据所述待处理文本中所述候选实体的属性,确定所述待处理文本的文本属性,包括:
当所述待处理文本包括一个所述候选实体时,将所述候选实体的属性,确定为所述待处理文本的文本属性;
当所述待处理文本包括至少两个所述候选实体时,将数量最多的一类所述候选实体的属性,确定为所述待处理文本的文本属性。
9.根据权利要求7所述的命名实体处理方法,其特征在于,所述将所述待处理文本与所述索引库中的多个所述资讯文本进行文本匹配,包括:
对所述待处理文本进行分词处理;
将所述索引库中包括分词处理后得到的所有词语、且发布热度满足热度条件的所述资讯文本,确定为文本匹配成功。
10.根据权利要求1所述的命名实体处理方法,其特征在于,还包括:
当所述待处理文本为资讯文本时,根据所述待处理文本中所述候选实体的属性,确定所述待处理文本的文本属性;
获取具有所述文本属性的所述候选实体对应的资讯提示,并呈现所述资讯提示。
11.根据权利要求1所述的命名实体处理方法,其特征在于,还包括:
获取包括所述候选实体的历史资讯文本,并获取所述候选实体对应的标注识别结果;
确定所述历史资讯文本中所述候选实体对应的特征向量;
根据各所述机器学习模型,分别对所述特征向量进行预测处理得到预测识别结果;
确定所述标注识别结果与所述预测识别结果之间的差异;
根据所述差异在所述机器学习模型中进行反向传播,并在反向传播的过程中更新所述机器学习模型的权重参数。
12.根据权利要求1至11任一项所述的命名实体处理方法,其特征在于,
所述对所有所述识别结果进行融合处理得到融合识别结果,包括:
当所述识别结果为至少两类时,将数量最多的一类识别结果确定为融合识别结果,其中,每类所述识别结果对应一种属性;或者,
当所述识别结果为分数时,对所有所述识别结果进行平均处理,得到融合识别结果。
13.一种基于人工智能的命名实体处理装置,其特征在于,包括:
实体识别模块,用于根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体;
向量确定模块,用于确定所述待处理文本中除所述候选实体外的多个词语,并确定所述词语的词向量;
向量处理模块,用于对多个所述词语的词向量进行平均处理,得到所述候选实体对应的特征向量;
模型识别模块,用于根据至少两个机器学习模型,分别对所述特征向量进行预测处理得到识别结果;
融合模块,用于对所有所述识别结果进行融合处理得到融合识别结果,并根据所述融合识别结果确定所述候选实体的属性。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的基于人工智能的命名实体处理方法。
15.一种存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至12任一项所述的基于人工智能的命名实体处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911078296.8A CN110852106B (zh) | 2019-11-06 | 2019-11-06 | 基于人工智能的命名实体处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911078296.8A CN110852106B (zh) | 2019-11-06 | 2019-11-06 | 基于人工智能的命名实体处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852106A CN110852106A (zh) | 2020-02-28 |
CN110852106B true CN110852106B (zh) | 2024-05-03 |
Family
ID=69598700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911078296.8A Active CN110852106B (zh) | 2019-11-06 | 2019-11-06 | 基于人工智能的命名实体处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852106B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339319B (zh) * | 2020-03-02 | 2023-08-04 | 北京百度网讯科技有限公司 | 一种企业名的消歧方法、装置、电子设备及存储介质 |
CN112084779B (zh) * | 2020-09-07 | 2023-04-18 | 中国平安财产保险股份有限公司 | 用于语义识别的实体获取方法、装置、设备及存储介质 |
CN112685549B (zh) * | 2021-01-08 | 2022-07-29 | 昆明理工大学 | 融入篇章语义的涉案新闻要素实体识别方法及系统 |
CN112989834B (zh) * | 2021-04-15 | 2021-08-20 | 杭州一知智能科技有限公司 | 一种基于平格增强线性转换器的命名实体识别方法和系统 |
CN113158675B (zh) * | 2021-04-23 | 2024-04-02 | 平安科技(深圳)有限公司 | 基于人工智能的实体抽取方法、装置、设备及介质 |
CN113642331B (zh) * | 2021-08-10 | 2022-05-03 | 东方财富信息股份有限公司 | 金融命名实体识别方法及系统、存储介质及终端 |
CN114611521B (zh) * | 2022-04-13 | 2024-04-09 | 国家电网有限公司大数据中心 | 一种实体识别方法、装置、设备及存储介质 |
CN115169352A (zh) * | 2022-09-08 | 2022-10-11 | 深圳市人马互动科技有限公司 | 命名实体识别方法、装置、设备及存储介质 |
CN115600603B (zh) * | 2022-12-15 | 2023-04-07 | 南京邮电大学 | 一种面向中文冠心病诊断报告的命名实体消歧方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503192A (zh) * | 2016-10-31 | 2017-03-15 | 北京百度网讯科技有限公司 | 基于人工智能的命名实体识别方法及装置 |
CN107102989A (zh) * | 2017-05-24 | 2017-08-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
CN107506486A (zh) * | 2017-09-21 | 2017-12-22 | 北京航空航天大学 | 一种基于实体链接的关系扩充方法 |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108280061A (zh) * | 2018-01-17 | 2018-07-13 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
CN110263324A (zh) * | 2019-05-16 | 2019-09-20 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106716402B (zh) * | 2014-05-12 | 2020-08-11 | 销售力网络公司 | 以实体为中心的知识发现 |
US20170124181A1 (en) * | 2015-10-30 | 2017-05-04 | Oracle International Corporation | Automatic fuzzy matching of entities in context |
-
2019
- 2019-11-06 CN CN201911078296.8A patent/CN110852106B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503192A (zh) * | 2016-10-31 | 2017-03-15 | 北京百度网讯科技有限公司 | 基于人工智能的命名实体识别方法及装置 |
CN107102989A (zh) * | 2017-05-24 | 2017-08-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
CN107506486A (zh) * | 2017-09-21 | 2017-12-22 | 北京航空航天大学 | 一种基于实体链接的关系扩充方法 |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108280061A (zh) * | 2018-01-17 | 2018-07-13 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
CN110263324A (zh) * | 2019-05-16 | 2019-09-20 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于词向量的实体链接方法;齐爱芹等;《数据采集与处理》;20170531;第32卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110852106A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852106B (zh) | 基于人工智能的命名实体处理方法、装置及电子设备 | |
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
CN111401066B (zh) | 基于人工智能的词分类模型训练方法、词处理方法及装置 | |
CN109493977A (zh) | 文本数据处理方法、装置、电子设备及计算机可读介质 | |
CN113707300B (zh) | 基于人工智能的搜索意图识别方法、装置、设备及介质 | |
JP2023539532A (ja) | テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム | |
CN110569332B (zh) | 一种语句特征的提取处理方法及装置 | |
CN112749547A (zh) | 文本分类器训练数据的产生 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN111414561B (zh) | 用于呈现信息的方法和装置 | |
CN111767375A (zh) | 语义召回方法、装置、计算机设备及存储介质 | |
CN112860919B (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN110334186A (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN112949320B (zh) | 基于条件随机场的序列标注方法、装置、设备及介质 | |
CN112598039B (zh) | 获取nlp分类领域阳性样本方法及相关设备 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN115714002B (zh) | 抑郁风险检测模型训练方法、抑郁症状预警方法及相关设备 | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN115983271A (zh) | 命名实体的识别方法和命名实体识别模型的训练方法 | |
CN111209468B (zh) | 一种用于生成关键词的方法与设备 | |
CN112307190A (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN116127013A (zh) | 一种个人敏感信息知识图谱查询方法和装置 | |
CN113723077B (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN117874234A (zh) | 基于语义的文本分类方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40022170 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |