CN110852106A - 基于人工智能的命名实体处理方法、装置及电子设备 - Google Patents

基于人工智能的命名实体处理方法、装置及电子设备 Download PDF

Info

Publication number
CN110852106A
CN110852106A CN201911078296.8A CN201911078296A CN110852106A CN 110852106 A CN110852106 A CN 110852106A CN 201911078296 A CN201911078296 A CN 201911078296A CN 110852106 A CN110852106 A CN 110852106A
Authority
CN
China
Prior art keywords
text
entity
candidate
determining
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911078296.8A
Other languages
English (en)
Other versions
CN110852106B (zh
Inventor
陈诚
方高林
王军伟
冯帅
韩可心
王馨苇
黄淼鑫
郑楚涛
郑黄晓为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911078296.8A priority Critical patent/CN110852106B/zh
Publication of CN110852106A publication Critical patent/CN110852106A/zh
Application granted granted Critical
Publication of CN110852106B publication Critical patent/CN110852106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种基于人工智能的命名实体处理方法、装置、电子设备及存储介质;方法包括:根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体;确定所述待处理文本中除所述候选实体外的多个词语,并确定所述词语的词向量;对多个所述词语的词向量进行平均处理,得到所述候选实体对应的特征向量;根据至少两个机器学习模型,分别对所述特征向量进行预测处理得到识别结果;对所有所述识别结果进行融合处理得到融合识别结果,并根据所述融合识别结果确定所述候选实体的属性。通过本发明,能够提升进行命名实体处理的效率,适用于线上实时服务。

Description

基于人工智能的命名实体处理方法、装置及电子设备
技术领域
本发明涉及人工智能技术,尤其涉及一种基于人工智能的命名实体处理方 法、装置、电子设备及存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机 控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得 最佳结果的理论、方法和技术及应用系统。自然语言处理(NLP,Nature Language Processing)是人工智能的一个重要方向,主要研究能实现人与计算机之间用自 然语言进行有效通信的各种理论和方法。
命名实体识别是自然语言处理的一个分支应用,具体指识别文本中具有特 定意义的实体。由于实体可能存在歧义属性,例如一个实体可能是水果,也可 能是上市公司,故在命名实体识别的过程中会对实体进行消歧,从而确定实际 属性。在相关技术中,通常使用基于Transformer的双向编码器表征(BERT, Bidirectional Encoder Representationfrom Transformers)模型进行实体消歧,但 是BERT模型的复杂度高,训练和预测的效率低下,进行实体消歧的实时性差。
发明内容
本发明实施例提供一种基于人工智能的命名实体处理方法、装置、电子设 备及存储介质,能够提升进行实体消歧的实时性,实现快速消歧。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种基于人工智能的命名实体处理方法,包括:
根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选 实体;
确定所述待处理文本中除所述候选实体外的多个词语,并确定所述词语的 词向量;
对多个所述词语的词向量进行平均处理,得到所述候选实体对应的特征向 量;
根据至少两个机器学习模型,分别对所述特征向量进行预测处理得到识别 结果;
对所有所述识别结果进行融合处理得到融合识别结果,并根据所述融合识 别结果确定所述候选实体的属性。
在上述方案中,所述根据至少两个机器学习模型,分别对所述特征向量进 行预测处理得到识别结果,包括:
根据多层感知机模型、极端梯度提升模型及随机森林模型,分别对所述特 征向量进行预测处理,得到各模型输出的识别结果。
本发明实施例提供一种基于人工智能的命名实体处理装置,包括:
实体识别模块,用于根据实体名称对待处理文本进行命名实体识别,得到 属性具有歧义的候选实体;
向量确定模块,用于确定所述待处理文本中除所述候选实体外的多个词语, 并确定所述词语的词向量;
向量处理模块,用于对多个所述词语的词向量进行平均处理,得到所述候 选实体对应的特征向量;
模型识别模块,用于根据至少两个机器学习模型,分别对所述特征向量进 行预测处理得到识别结果;
融合模块,用于对所有所述识别结果进行融合处理得到融合识别结果,并 根据所述融合识别结果确定所述候选实体的属性。
在上述方案中,所述模型识别模块,还用于:
根据多层感知机模型、极端梯度提升模型及随机森林模型,分别对所述特 征向量进行预测处理,得到各模型输出的识别结果。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例 提供的基于人工智能的命名实体处理方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执 行时,实现本发明实施例提供的基于人工智能的命名实体处理方法。
本发明实施例具有以下有益效果:
本发明实施例通过确定待处理文本中除候选实体外的多个词语,对多个词 语的词向量进行处理得到特征向量,并根据至少两个机器学习模型,分别对特 征向量进行预测处理得到识别结果,从而根据识别结果确定候选实体的属性, 提升了实体消歧的效率,能够快速确定候选实体的真正属性,适用于线上实时 服务。
附图说明
图1A是本发明实施例提供的BERT模型的一个可选的架构示意图;
图1B是本发明实施例提供的多头注意力模块的一个可选的架构示意图;
图1C是本发明实施例提供的点乘注意力模块的一个可选的架构示意图;
图2是本发明实施例提供的基于人工智能的命名实体处理系统的一个可选 的架构示意图;
图3是本发明实施例提供的服务器的一个可选的架构示意图;
图4是本发明实施例提供的基于人工智能的命名实体处理装置的一个可选 的架构示意图;
图5A是本发明实施例提供的基于人工智能的命名实体处理方法的一个可 选的流程示意图;
图5B是本发明实施例提供的基于人工智能的命名实体处理方法的一个可 选的流程示意图;
图5C是本发明实施例提供的基于人工智能的命名实体处理方法的一个可 选的流程示意图;
图5D是本发明实施例提供的基于人工智能的命名实体处理方法的一个可 选的流程示意图;
图6是本发明实施例提供的基于人工智能的命名实体处理装置的一个可选 的架构示意图;
图7是本发明实施例提供的处理效果的一个可选的对比示意图;
图8A是本发明实施例提供的推荐资讯文本的一个可选的示意图;
图8B是本发明实施例提供的推荐资讯文本的一个可选的示意图;
图9A是本发明实施例提供的呈现资讯提示的一个可选的示意图;
图9B是本发明实施例提供的呈现资讯提示的一个可选的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发 明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普 通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本 发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集, 但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集, 并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象, 不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以 互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里 图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术 领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发 明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词 和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)嵌入映射(Embedding):在数学上表示一个映射关系,F:X->Y,即一 个函数。在深度学习中,Embedding特指从语义空间到向量空间的映射,即用 一个低维度向量表示一个命名实体。
2)词向量(Word2vector):用于表示自然语言中的词语的向量,其中,自 然语言是一套用来表达含义的复杂系统,在该系统中,词语是表达语义的基本 单元。
3)命名实体识别(NER,Named Entity Recognition):又称作专名识别, 是指识别文本中具有特定意义的实体,命名实体主要包括人名、地名、机构名 及专有名词等,还可包括时间、数量、货币及比例数值等文字。
4)基于Transformers的双向编码器表征(BERT,Bidirectional EncoderRepresentations from Transformers)模型:一种利用深度学习算法搭建的模型, 可应用于文本分类、语句问答及命名实体识别等自然语言处理任务上。
发明人在实施本发明实施例的过程中发现,命名实体可能存在歧义属性, 例如“橘子”可能是水果名称,也可能是一个上市公司的名称,故在命名实体 识别中需要对实体进行消歧,确定实体的真实属性。在相关技术中,通常使用 BERT模型进行消歧,图1A示出了BERT模型的一个可选的架构示意图,在图 1A中,输入序列首先经输入嵌入层转换为词向量,在与位置编码(Positional Encoding)向量相加后,作为编码器中的多头注意力(Multi-Head Attention) 模块的输入。图1A所示的BERT模型包括N个编码器和N个解码器,N为大 于0的整数,例如N=6。编码器中除多头注意力模块外,还包括残差&正则(A dd&Norm)层及前馈(Feed Forward)层。解码器与编码器的结构相似,当前 解码器使用上一个解码器的输出作为输入,另外为确保当前解码器的输出仅依 靠当前解码器前的输入,故解码器中加入了遮罩多头注意力(Masked Multi-He ad Attention)模块及对应的残差&正则层。经编码器和解码器处理后,经过线 性(Linear)层和分类层(使用Softmax函数),则可得到输出概率。
图1B示出了BERT模型中的多头注意力模块的一个可选的架构示意图, 其中,V指Value向量,K指Key向量,Q指Query向量,其中,Query向量 相当于目标语输入序列,Value向量相当于源语输入序列。在图1B中,将Q、 K及V通过线性层映射之后,分成h份,对每一份进行点乘注意力并行处理, 并将最后的结果通过拼接层拼接在一起,其中,h为超参数,例如可设置为8。
图1C示出了多头注意力模块中的点乘注意力模块的一个可选的架构示意 图,点乘注意力模块应用Seq2Seq模型中的注意力机制,Query与Key向量的 点乘相当于余弦相似性,经过矩阵(MatMul)层、比例(Scale)层、遮罩(M ask)层及分类层后,可得出一组归一化的概率。这些概率相当于给源语输入序 列进行加权平均,即表示在生成一个目标语单词时,源语输入序列中词的重要 程度。
根据图1A、图1B及图1C可确定,BERT模型的架构较为复杂,参数量大, 模型的训练和预测阶段对运行机器配置要求高。例如使用百万篇语料,单卡图 形处理器(GPU,Graphics Processing Unit)通常需要训练一周以上。模型预 测时同样效率低下,当模型部署在中央处理器(CPU,Central Processing Unit) 上时,一次实体消歧处理通常需要耗费300毫秒以上,不适用于对实时性需求 较高的线上实时服务。
本发明实施例提供一种基于人工智能的命名实体处理方法、装置、电子设 备及存储介质,能够提高命名实体识别消歧的效率,满足实时性需求,下面说 明本发明实施例提供的电子设备的示例性应用。
参见图2,图2是本发明实施例提供的基于人工智能的命名实体处理系统1 00的一个可选的架构示意图,为实现支撑一个基于人工智能的命名实体处理应 用,终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务 器200,服务器200运行有至少两个机器学习模型,图2示例性地示出了机器 学习模型1和机器学习模型2,网络300可以是广域网或者局域网,又或者是 二者的组合。
终端400用于向服务器200发送待处理文本;服务器200用于根据实体名 称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体;确定待处 理文本中除候选实体外的多个词语,并确定各词语的词向量;对多个词语的词 向量进行平均处理,得到候选实体对应的特征向量;将特征向量输入机器学习 模型1和机器学习模型2,得到各机器学习模型输出的识别结果;对所有识别 结果进行融合处理得到融合识别结果,并根据融合识别结果确定候选实体的属 性;将候选实体及属性发送至终端400;终端400还用于在图形界面410(示例 性示出了图形界面410-1和图形界面410-2)显示候选实体及属性。
当然,服务器200在确定出候选实体的属性后,还可进行进一步处理,例 如,获取与该属性的候选实体符合的资讯提示,并将资讯提示发送至终端400, 以使终端400显示该资讯提示,本发明实施例对此不做限定。
下面继续说明本发明实施例提供的电子设备的示例性应用。电子设备可以 实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动 电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备) 等各种类型的终端设备,也可以实施为服务器。下面,以电子设备为服务器为 例进行说明。
参见图3,图3是本发明实施例提供的服务器200(例如,可以是图2所示 的服务器200)的架构示意图,图3所示的服务器200包括:至少一个处理器2 10、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个 组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件 之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制 总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总 线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处 理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑 器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以 是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包 括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或 多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、 麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包 括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位 置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易 失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的 示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系 统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理 基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到 达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、 和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置23 1(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和 显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一 的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的基于人工智能的命名实体处理装置 可以采用软件方式实现,图3示出了存储在存储器250中的基于人工智能的命 名实体处理装置255,其可以是程序和插件等形式的软件,包括以下软件模块: 实体识别模块2551、向量确定模块2552、向量处理模块2553、模型识别模块2 554及融合模块2555,这些模块是逻辑上的,因此根据所实现的功能可以进行 任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的基于人工智能的命名实体处理装 置可以采用硬件方式实现,作为示例,本发明实施例提供的基于人工智能的命 名实体处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本 发明实施例提供的基于人工智能的命名实体处理方法,例如,硬件译码处理器 形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Spe cific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、 现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
本发明实施例提供的基于人工智能的命名实体处理方法可以由上述的服务 器执行,也可以由终端设备(例如,可以是图2所示的终端400-1和终端400- 2)执行,或者由服务器和终端设备共同执行。
下面将结合上文记载的电子设备的示例性应用和结构,说明电子设备中通 过嵌入的基于人工智能的命名实体处理装置而实现基于人工智能的命名实体处 理方法的过程。
参见图4和图5A,图4是本发明实施例提供的基于人工智能的命名实体处 理装置255的架构示意图,示出了通过一系列模块实现实体消歧,确定属性的 流程,图5A是本发明实施例提供的基于人工智能的命名实体处理方法的流程 示意图,将结合图4对图5A示出的步骤进行说明。
在步骤101中,根据实体名称对待处理文本进行命名实体识别,得到属性 具有歧义的候选实体。
作为示例,参见图4,在实体识别模块2551中,实体名称可预先设定,且 实体名称对应至少两个属性,例如实体名称“橘子”可以是水果名称,同时也 可以是一个上市公司的名称。对于获取到的待处理文本,根据实体名称对待处 理文本进行命名实体识别,为了便于区分,将识别出的结果命名为候选实体。
在步骤102中,确定所述待处理文本中除所述候选实体外的多个词语,并 确定所述词语的词向量。
作为示例,参见图4,在相邻确定模块2552中,确定待处理文本中与候选 实体相邻的多个词语,并确定每个词语的词向量。
在步骤103中,对多个所述词语的词向量进行平均处理,得到所述候选实 体对应的特征向量。
作为示例,参见图4,在向量处理模块2553中,对与候选实体相邻的多个 词语的词向量进行平均处理,得到的即为候选实体对应的特征向量,该特征向 量体现了候选实体的上下文特征。
在步骤104中,根据至少两个机器学习模型,分别对所述特征向量进行预 测处理得到识别结果。
在已有至少两个训练好的机器学习模型的基础上,将特征向量作为各机器 学习模型的输入,得到各机器学习模型输出的识别结果。值得说明的是,该识 别结果可直接与具体的属性对应,也可以是分数或概率等。
在一些实施例中,可以通过这样的方式来实现上述的根据至少两个机器学 习模型,分别对所述特征向量进行预测处理得到识别结果:根据多层感知机模 型、极端梯度提升模型及随机森林模型,分别对所述特征向量进行预测处理, 得到各模型输出的识别结果。
作为示例,参见图4,在模型识别模块2554中,应用多层感知机(MLP, Multi LayerPerceptron)模型、极端梯度提升(XGBoost,eXtreme Gradient B oosting)模型及随机森林(RF,Random Forest)模型,分别对特征向量进行预 测处理,得到识别结果。相较于BERT模型,MLP模型、XGBoost模型及RF 模型的结构较为简单,进行预测处理的效率较高,能够快速得到识别结果,提 升了处理的实时性。
在一些实施例中,在步骤104之前,还包括:获取包括所述候选实体的历 史资讯文本,并获取所述候选实体对应的标注识别结果;确定所述历史资讯文 本中所述候选实体对应的特征向量;根据各所述机器学习模型,分别对所述特 征向量进行预测处理得到预测识别结果;确定所述标注识别结果与所述预测识 别结果之间的差异;根据所述差异在所述机器学习模型中进行反向传播,并在 反向传播的过程中更新所述机器学习模型的权重参数。
在将机器学习模型投入实际的预测处理前,对其进行训练。具体地,获取 包括候选实体的历史资讯文本,并获取候选实体对应的标注识别结果,该标注 识别结果是人为标注的。然后,确定历史资讯文本中候选实体对应的特征向量, 确定特征向量的过程与步骤102~103类似,在此不做赘述。对于每个机器学习 模型来说,根据该机器学习模型对特征向量进行预测处理得到预测识别结果, 确定标注识别结果与预测识别结果之间的差异,并根据差异在该机器学习模型 中进行反向传播,并在反向传播的过程中更新机器学习模型的权重参数,以使 根据更新后的机器学习模型得到的预测识别结果与标注识别结果更加接近。通 过上述方式,提升了通过机器学习模型进行预测处理的准确性。
在步骤105中,对所有所述识别结果进行融合处理得到融合识别结果,并 根据所述融合识别结果确定所述候选实体的属性。
作为示例,参见图4,在融合模块2555中,对所有识别结果进行融合处理 得到融合识别结果,根据融合识别结果确定候选实体的属性,例如,确定“橘 子”的属性是水果还是上市公司。
在一些实施例中,可以通过这样的方式来实现上述的对所有所述识别结果 进行融合处理得到融合识别结果:当所述识别结果为至少两类时,将数量最多 的一类识别结果确定为融合识别结果,其中,每类所述识别结果对应一种属性; 或者,当所述识别结果为分数时,对所有所述识别结果进行平均处理,得到融 合识别结果。
机器学习模型输出的识别结果可能存在两种情况,其一是,识别结果直接 对应属性或者直接为属性本身,在该情况下,应用投票表决机制,当识别结果 为至少两类时,将数量最多的一类识别结果确定为融合识别结果,当然,当识 别结果仅为一类时,直接将该类识别结果确定为融合识别结果。其二是,识别 结果是分数或概率,该情况下,对所有识别结果进行数值化的平均处理,得到 融合识别结果。通过上述方式,提升了融合处理的灵活性,可根据实际应用场 景选用对应的融合处理机制。
通过发明实施例对于图5A的上述示例性实施可知,本发明实施例在待处 理文本中确定除候选实体外的多个词语,进一步确定特征向量,将特征向量作 为至少两个机器学习模型的输入,并对输出结果进行融合得到融合识别结果, 从而根据融合识别结果确定候选实体的属性,实现候选实体属性的快速消歧, 提升了实体消歧的效率,适用于线上实时服务。
在一些实施例中,参见图5B,图5B是本发明实施例提供的基于人工智能 的命名实体处理方法的一个可选的流程示意图,图5A示出的步骤101可以通 过步骤201至步骤204实现,将结合图4及示出的各步骤进行说明。
在步骤201中,获取多个历史资讯文本,并对所述多个历史资讯文本进行 向量转换处理,得到多个历史词向量。
作为示例,参见图4,在实体识别模块2551中,获取多个历史资讯文本, 例如,实体名称对应的属性包括水果和上市公司,则获取与水果相关的历史资 讯文本,以及与上市公司相关的历史资讯文本,总共100万份。然后,对多个 历史资讯文本进行向量转换处理,得到多个历史词向量。
在一些实施例中,可以通过这样的方式来实现上述的对所述多个历史资讯 文本进行向量转换处理,得到多个历史词向量:对各所述历史资讯文本进行文 本句划分,并对得到的各文本句进行分词处理;根据词向量转换模型将分词处 理得到的词语映射为历史词向量,直至对所有所述文本句中的词语处理完毕, 得到各词语对应的历史词向量。
这里,对各历史资讯文本进行文本句划分,例如,根据标点符号划分出多 个文本句,并对得到的各文本句进行分词处理,得到各文本句包括的多个词语。 然后,根据词向量转换模型将分词处理得到的词语映射为词向量,直至对所有 文本句中的词语处理完毕,得到各词语对应的词向量为止,为了便于区分,将 此处得到的词向量命名为历史词向量。其中,词向量转换模型可为连续词袋(C BOW,Continuous Bag-Of-Word)模型或者Skip-Gram模型等,本发明实施例 对此不做限定。通过上述的根据多个历史资讯文本得到历史词向量的方式,提 升了确定出的历史词向量的准确性。
在步骤202中,获取第一实体名称,将与所述第一实体名称对应的历史词 向量确定为搜索词向量。
作为示例,参见图4,在实体识别模块2551中,获取设定的第一实体名称, 在多个历史词向量中,确定与第一实体名称对应的历史词向量,并将该历史词 向量命名为搜索词向量,以示区分。
在步骤203中,确定与所述搜索词向量之间的相似度满足相似度条件的历 史词向量,并将所述相似度满足相似度条件的历史词向量对应的词语确定为第 二实体名称。
作为示例,参见图4,在实体识别模块2551中,由于上市公司名称等名称 可能存在其他的别名/简称,故在本步骤中,计算搜索词向量与其他的历史词向 量之间的相似度,确定满足相似度条件的相似度所对应的历史词向量,并将该 历史词向量对应的词语确定为第二实体名称。其中,相似度如余弦相似度,相 似度条件如数值最高的前10个相似度。
在步骤204中,根据所述第一实体名称和所述第二实体名称,对待处理文 本进行命名实体识别,得到属性具有歧义的候选实体。
这里,进行命名实体识别后,得到的候选实体符合第一实体名称或第二实 体名称。
在一些实施例中,可以通过这样的方式来实现上述的根据所述第一实体名 称和所述第二实体名称,对待处理文本进行命名实体识别,得到属性具有歧义 的候选实体:根据所述第一实体名称和所述第二实体名称构建双数组字典树; 对待处理文本进行分词处理,得到多个词语;根据所述双数组字典树从所述待 处理文本中识别出命名实体;当所述识别出的命名实体与分词处理后得到的至 少一个词语相同时,将所述识别出的命名实体确定为属性具有歧义的候选实体。
作为示例,参见图4,在实体识别模块2551中,根据第一实体名称和第二 实体名称构建双数组字典树,即双数组Trie树,根据双数组字典树从待处理文 本中识别出命名实体。值得说明的是,除了构建双数组字典树的方式外,还可 应用其他的字符串匹配算法,例如暴力匹配或KMP匹配算法等,本发明实施 例不做限定。
对于识别出的命名实体,进行独立性判断,具体地,对待处理文本进行分 词处理得到多个词语,当该命名实体与分词处理后得到的至少一个词语相同时, 独立性判断成功,将该命名实体确定为属性具有歧义的候选实体;当该命名实 体与分词处理后得到的所有词语均不同时,例如命名实体是“00700”,分词后 得到的词语是“100700元”,则忽略该命名实体。通过上述的搭建字典树及独 立性判断的方式,提升了确定出的候选实体的准确性。
图5A示出的步骤102可以通过步骤205至步骤207实现,将结合示出的 各步骤进行说明。
在步骤205中,确定所述待处理文本中所述候选实体所在的文本句。
待处理文本包括至少一个文本句,在确定出候选实体后,进一步确定候选 实体所在的文本句。
在步骤206中,在所述文本句中提取除所述候选实体外的多个词语。
这里,在候选实体所在的文本句中,提取候选实体相邻的多个词语。
在一些实施例中,可以通过这样的方式来实现上述的在所述文本句中提取 除所述候选实体外的多个词语:在所述文本句中提取位于所述候选实体之前的 窗口内的词语,并在所述文本句中提取位于所述候选实体之后的窗口内的词语; 或者,在所述文本句中提取除所述候选实体外的所有词语。
在提取词语时,一种方式是设置窗口,该窗口对应有窗口尺寸,窗口尺寸 为窗口包括的词语数量。然后,根据窗口提取候选实体之前及之后的词语,例 如在窗口包括的词语数量为3的情况下,在文本句中提取候选实体之前的3个 词语,在文本句中提取候选实体之后的3个词语。当然,当窗口在文本句中覆 盖的词语未达到窗口尺寸时,仅提取窗口覆盖的词语。另一种方式是,在文本 句中提取除候选实体外的所有词语。通过上述方式,提升了提取词语的灵活性, 可根据实际应用场景调整提取方式。
在步骤207中,将提取出的词语对应的历史词向量,确定为所述词语的词 向量。
在对多个历史资讯文本进行向量转换处理,得到的多个历史词向量中,确 定与提取的词语对应的历史词向量,将该历史词向量确定为词语的词向量。
通过发明实施例对于图5B的上述示例性实施可知,本发明实施例根据第 一实体名称和第二实体名称进行命名实体识别,适用于第一实体名称存在别名 或简称的场景,提升了识别的成功率,同时,通过提取候选实体所在文本句的 其他词语,便于后续确定候选实体的上下文特征向量。
在一些实施例中,参见图5C,图5C是本发明实施例提供的基于人工智能 的命名实体处理方法的一个可选的流程示意图,基于图5A,在步骤105之后, 还可以在步骤301中,当所述待处理文本为资讯搜索文本时,根据所述待处理 文本中所述候选实体的属性,确定所述待处理文本的文本属性。
在不同场景下,待处理文本的用途可能不同,当待处理文本为资讯搜索文 本时,根据待处理文本中候选实体的属性,确定待处理文本的文本属性。
在一些实施例中,可以通过这样的方式来实现上述的根据所述待处理文本 中所述候选实体的属性,确定所述待处理文本的文本属性:当所述待处理文本 包括一个所述候选实体时,将所述候选实体的属性,确定为所述待处理文本的 文本属性;当所述待处理文本包括至少两个所述候选实体时,将数量最多的一 类所述候选实体的属性,确定为所述待处理文本的文本属性。
当待处理文本仅包括一个候选实体时,直接将该候选实体的属性确定为待 处理文本的文本属性;当待处理文本包括至少两个候选实体时,应用投票表决 机制,将数量最多的一类候选实体的属性,确定为待处理文本的文本属性。通 过上述的将高频属性确定为文本属性的方式,提升了确定文本属性的合理性。
在步骤302中,获取资讯文本,并确定所述资讯文本中候选实体的属性。
这里,资讯文本可以是近期(如2天内)收集到的新闻资讯文本。同样地, 根据步骤101~步骤105,确定资讯文本中的候选实体进行实体消歧,确定其属 性。
在步骤303中,根据所述资讯文本中候选实体的属性,确定所述资讯文本 的文本属性,并将设置有所述文本属性的所述资讯文本添加至索引库。
这里,确定资讯文本的文本属性的方式,可与确定待处理文本的文本属性 的方式相同,在此不做赘述。将资讯文本添加至设定的索引库,同时为该资讯 文本设置对应的文本属性。值得说明的是,步骤302~303可在步骤301前执行。
在步骤304中,将所述待处理文本与所述索引库中的多个所述资讯文本进 行文本匹配,将文本匹配成功的所述资讯文本确定为候选资讯文本。
在根据待处理文本搜索时,首先在文本形式上进行匹配,将索引库中文本 匹配成功的资讯文本,确定为候选资讯文本。
在一些实施例中,可以通过这样的方式来实现上述的将所述待处理文本与 所述索引库中的多个所述资讯文本进行文本匹配:对所述待处理文本进行分词 处理;将所述索引库中包括分词处理后得到的所有词语、且发布热度满足热度 条件的所述资讯文本,确定为文本匹配成功。
这里,对待处理文本进行分词处理得到多个词语,将索引库中包括分词处 理后得到的所有词语、且发布热度满足热度条件的资讯文本,确定为文本匹配 成功。其中,发布热度可为资讯文本的阅览量,可为发布时间,也可为阅览量 和发布时间的加权结果,本发明实施例对此不做限定,热度条件可为数值最高 的前10名发布热度,或其他的可行条件。通过上述方式,将发布热度较高的资 讯文本确定为文本匹配成功,提升对于搜索需求的适应性。
在步骤305中,确定与所述待处理文本的文本属性相符的候选资讯文本, 并对所述候选资讯文本进行推荐处理。
在得到候选资讯文本的基础上,确定与待处理文本的文本属性相符的候选 资讯文本,并对候选资讯文本进行推荐处理。例如,对文本属性为水果的待处 理文本,以列表形式推荐文本属性同样为水果的候选资讯文本。
通过发明实施例对于图5C的上述示例性实施可知,在待处理文本为资讯 搜索文本时,通过文本匹配及文本属性匹配的方式,确定出待推荐的候选资讯 文本,提升了推荐的准确性,提升了用户体验。
在一些实施例中,参见图5D,图5D是本发明实施例提供的基于人工智能 的命名实体处理方法的一个可选的流程示意图,基于图5A,在步骤105之后, 还可以在步骤401中,当所述待处理文本为资讯文本时,根据所述待处理文本 中所述候选实体的属性,确定所述待处理文本的文本属性。
在待处理文本本身为资讯文本的情况下,根据待处理文本中候选实体的属 性,以投票表决机制确定待处理文本的文本属性。
在步骤402中,获取具有所述文本属性的所述候选实体对应的资讯提示, 并呈现所述资讯提示。
例如,在包括候选实体“橘子”的待处理文本的文本属性为上市公司时, 获取橘子公司的股票的涨跌幅情况作为资讯提示,并在待处理文本的浏览页面 呈现该资讯提示,从而便于用户了解候选实体的相关情况。当然,资讯提示的 形式并不限于此。
通过发明实施例对于图5D的上述示例性实施可知,本发明实施例根据文 本属性获取对应的资讯提示,并呈现资讯提示,实现了多样化的信息推荐,提 升了用户体验。
下面,将说明本发明实施例在一些实际的应用场景中的示例性应用。
参见图6,图6是本发明实施例提供的基于人工智能的命名实体处理装置 的一个可选的架构示意图,在图6中,将处理装置分为了识别模块和消歧模块, 将结合图6示出的内容进行说明。
为了便于理解,以股票实体识别场景进行阐述,并设定候选实体的标识属 性包括股票和非股票。首先,收集多个如100万份历史资讯文本,对多个历史 资讯文本进行分词,并根据词向量转换模型对得到的多个词语进行嵌入映射处 理后,得到每个词语对应的词向量,为示区分,将此处的词向量命名为历史词 向量。在后续处理过程中,历史词向量供识别模块和消歧模块使用。
在识别模块中,通过证券交易行情接口访问行情数据,每日定时更新上市 公司的股票代码和/或证券名称,股票代码和/或证券名称即为上文的第一实体名 称。然后,将第一实体名称对应的历史词向量确定为搜索词向量,确定与搜索 词向量之间的余弦相似度最高的前10名历史词向量,将前10名历史词向量对 应的词语,确定为第二实体名称,第二实体名称即为上市公司常用的别名/简称。 然后,使用第一实体名称和第二实体名称建立双数组字典树,根据双数组字典 树对待处理文本进行匹配,得到待处理文本中的候选实体。对于候选实体,还 进行独立性判断,具体地,对待处理文本进行分词处理得到多个词语,当候选 实体与其中的至少一个词语相同时,独立性判断通过,将候选实体输入至消歧模块;当候选实体与其中的任一词语均不同时,忽略该候选实体。
由于候选实体的属性具有歧义,例如在候选实体为“橘子”时,“橘子股票 大跌”中“橘子”的属性,与“橘子好吃”中“橘子”的属性不一致,故需要 根据候选实体的上下文,对候选实体的属性进行消歧。具体地,在消歧模块中, 根据窗口尺寸(window size),在待处理文本中提取候选实体前后的词语,例 如窗口尺寸为3,则在待处理文本中提取候选实体之前的3个词语,以及候选 实体之后的3个词语。然后,确定提取出的词语对应的历史词向量,并对确定 的历史词向量进行平均处理,得到候选实体的上下文特征向量。将上下文特征 向量作为模型输入,使用多层感知机模型、极端梯度提升模型及随机森林模型 分别进行预测处理,得到三个识别结果,并使用多数投票表决的方式融合三个 识别结果,根据得到的融合识别结果确定候选实体的真正属性,即确定候选实 体的属性是股票还是非股票。值得说明的是,上文中提到的模型仅为示例,根 据实际应用场景,还可应用更多或更少的模型。
参见图7,图7是本发明实施例提供的处理效果的对比示意图,在图7中, 极端梯度提升模型的树深度参数为5,学习率为0.2,树的棵树为200;多层感 知机模型的结构有2个隐层,每个隐层有50个神经元;随机森林模型的树深度 参数为4,树的棵树为100。经过发明人实验验证,在窗口尺寸一致为3的情况 下,对于准确率、召回率及平衡F分数(F1-Score)多个衡量指标,相较于BE RT模型,极端梯度提升模型、多层感知机模型及随机森林模型均损失很小,大 多在5%以内,处于可接受范围。其中,图7所示的正类是指候选实体的属性为股票,负类是指候选实体的属性为非股票,平衡F分数的计算方式是2×(准 确率×召回率)/(准确率+召回率)。同时,使用BERT模型在CPU机器上部 署服务时,服务处理一次命名实体识别及消歧请求的平均时间为314毫秒,而 使用本发明实施例的基于人工智能的命名实体处理方法,在同样的CPU机器上 部署服务时,服务处理一次命名实体识别及消歧请求的平均时间为23毫秒,极 大地提升了处理效率,适用于对实时性要求较高的线上服务。
参见图8A,图8A是本发明实施例提供的推荐资讯文本的一个可选的示意 图。在图8A所示的资讯页面中,用户输入的待处理文本81为“橘子手机”, 此处的待处理文本即为资讯搜索文本。将待处理文本81进行分词后,得到“橘 子”和“手机”两个词语,确定出候选实体为“橘子”,进一步确定该候选实体 的属性为股票,该属性也是待处理文本81的文本属性。然后,在索引库中搜索 包括“橘子”和“手机”的资讯文本,并将文本属性同样为股票的资讯文本确 定为候选资讯文本,将候选资讯文本按照发布时间从新到旧进行推荐。例如,图8A示出的候选资讯文本82,包括资讯标题、资讯类别(即新闻)、资讯提供 方、发布时间以及资讯示意图,当然,这并不构成对本发明实施例的限定,可 根据实际应用场景确定资讯文本的内容。
参见图8B,图8B是本发明实施例提供的推荐资讯文本的一个可选的示意 图。在图8B所示的同样的资讯页面中,用户输入的待处理文本83为“吃橘子”, 可确定该候选实体的属性为非股票,该属性也是待处理文本83的文本属性。然 后,在索引库中搜索在文本上相匹配的资讯文本,并将文本属性同样为非股票 的资讯文本确定为候选资讯文本,将候选资讯文本按照发布时间从新到旧进行 推荐。例如,图8B示出的候选资讯文本84,包括资讯标题、资讯类别(即新 闻)、资讯提供方及发布时间。
参见图9A,图9A是本发明实施例提供的呈现资讯提示的一个可选的示意 图。在图9A所示的呈现资讯文本的页面中,待处理文本91即为资讯文本,图 9A以两部分的文本内容作为示例。在实体名称为“橘子”的情况下,经命名实 体识别及消歧后,得到待处理文本91中候选实体“橘子”的属性为股票,并确 定待处理文本91的文本属性同样为股票。然后,获取属性为股票的候选实体“橘 子”对应的资讯提示,如从行情数据中获取资讯提示,并呈现该资讯提示,如 图9A所示的资讯提示92,在资讯提示92中,示出了橘子股票的涨幅为0.45%。 通过上述方式,用户可在阅览待处理文本时,同时了解相关的资讯提示,提升 了用户体验。
参见图9B,图9B是本发明实施例提供的呈现资讯提示的一个可选的示意 图。在图9B所示的呈现资讯文本的页面中,待处理文本93即为资讯文本,图 9B以两部分的文本内容作为示例。在实体名称为“橘子”的情况下,经命名实 体识别及消歧后,得到待处理文本93中候选实体“橘子”的属性为非股票,并 确定待处理文本93的文本属性同样为非股票。然后,获取属性为非股票的候选 实体“橘子”对应的资讯提示,并呈现该资讯提示,如图9B所示的资讯提示9 4,在资讯提示94中,示出了水果橘子平均价格为xx元每斤。
下面继续说明本发明实施例提供的基于人工智能的命名实体处理装置255 实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器 250的基于人工智能的命名实体处理装置255中的软件模块可以包括:实体识 别模块2551,用于根据实体名称对待处理文本进行命名实体识别,得到属性具 有歧义的候选实体;向量确定模块2552,用于确定所述待处理文本中除所述候 选实体外的多个词语,并确定所述词语的词向量;向量处理模块2553,用于对 多个所述词语的词向量进行平均处理,得到所述候选实体对应的特征向量;模 型识别模块2554,用于根据至少两个机器学习模型,分别对所述特征向量进行 预测处理得到识别结果;融合模块2555,用于对所有所述识别结果进行融合处 理得到融合识别结果,并根据所述融合识别结果确定所述候选实体的属性。
在一些实施例中,实体识别模块2551,还用于:获取多个历史资讯文本, 并对所述多个历史资讯文本进行向量转换处理,得到多个历史词向量;获取第 一实体名称,将与所述第一实体名称对应的历史词向量确定为搜索词向量;确 定与所述搜索词向量之间的相似度满足相似度条件的历史词向量,并将所述相 似度满足相似度条件的历史词向量对应的词语确定为第二实体名称;根据所述 第一实体名称和所述第二实体名称,对待处理文本进行命名实体识别,得到属 性具有歧义的候选实体。
在一些实施例中,实体识别模块2551,还用于:根据所述第一实体名称和 所述第二实体名称构建双数组字典树;对待处理文本进行分词处理,得到多个 词语;根据所述双数组字典树从所述待处理文本中识别出命名实体;当所述识 别出的命名实体与分词处理后得到的至少一个词语相同时,将所述识别出的命 名实体确定为属性具有歧义的候选实体。
在一些实施例中,实体识别模块2551,还用于:对各所述历史资讯文本进 行文本句划分,并对得到的各文本句进行分词处理;根据词向量转换模型将分 词处理得到的词语映射为历史词向量,直至对所有所述文本句中的词语处理完 毕,得到各词语对应的历史词向量。
在一些实施例中,向量确定模块2552,还用于:确定所述待处理文本中所 述候选实体所在的文本句;在所述文本句中提取除所述候选实体外的多个词语; 将提取出的词语对应的历史词向量,确定为所述词语的词向量。
在一些实施例中,向量确定模块2552,还用于:在所述文本句中提取位于 所述候选实体之前的窗口内的词语,并在所述文本句中提取位于所述候选实体 之后的窗口内的词语;或者,在所述文本句中提取除所述候选实体外的所有词 语。
在一些实施例中,基于人工智能的命名实体处理装置255还包括:第一属 性确定模块,用于当所述待处理文本为资讯搜索文本时,根据所述待处理文本 中所述候选实体的属性,确定所述待处理文本的文本属性;第二属性确定模块, 用于获取资讯文本,并确定所述资讯文本中候选实体的属性;添加模块,用于 根据所述资讯文本中候选实体的属性,确定所述资讯文本的文本属性,并将设 置有所述文本属性的所述资讯文本添加至索引库;匹配模块,用于将所述待处 理文本与所述索引库中的多个所述资讯文本进行文本匹配,将文本匹配成功的 所述资讯文本确定为候选资讯文本;推荐模块,用于确定与所述待处理文本的 文本属性相符的候选资讯文本,并对所述候选资讯文本进行推荐处理。
在一些实施例中,第一属性确定模块,还用于:当所述待处理文本包括一 个所述候选实体时,将所述候选实体的属性,确定为所述待处理文本的文本属 性;当所述待处理文本包括至少两个所述候选实体时,将数量最多的一类所述 候选实体的属性,确定为所述待处理文本的文本属性。
在一些实施例中,匹配模块,还用于:对所述待处理文本进行分词处理; 将所述索引库中包括分词处理后得到的所有词语、且发布热度满足热度条件的 所述资讯文本,确定为文本匹配成功。
在一些实施例中,基于人工智能的命名实体处理装置255还包括:第三属 性确定模块,用于当所述待处理文本为资讯文本时,根据所述待处理文本中所 述候选实体的属性,确定所述待处理文本的文本属性;呈现模块,用于获取具 有所述文本属性的所述候选实体对应的资讯提示,并呈现所述资讯提示。
在一些实施例中,基于人工智能的命名实体处理装置255还包括:标注获 取模块,用于获取包括所述候选实体的历史资讯文本,并获取所述候选实体对 应的标注识别结果;历史特征向量确定模块,用于确定所述历史资讯文本中所 述候选实体对应的特征向量;预测模块,用于根据各所述机器学习模型,分别 对所述特征向量进行预测处理得到预测识别结果;差异确定模块,用于确定所 述标注识别结果与所述预测识别结果之间的差异;参数更新模块,用于根据所 述差异在所述机器学习模型中进行反向传播,并在反向传播的过程中更新所述 机器学习模型的权重参数。
在一些实施例中,融合模块2555,还用于:当所述识别结果为至少两类时, 将数量最多的一类识别结果确定为融合识别结果,其中,每类所述识别结果对 应一种属性;或者,当所述识别结果为分数时,对所有所述识别结果进行平均 处理,得到融合识别结果。
在一些实施例中,模型识别模块2554,还用于:根据多层感知机模型、极 端梯度提升模型及随机森林模型,分别对所述特征向量进行预测处理,得到各 模型输出的识别结果。
本发明实施例提供一种存储有可执行指令的存储介质,其中存储有可执行 指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的 基于人工智能的命名实体处理方法,例如,如图5A、5B、5C或5D示出的基 于人工智能的命名实体处理方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上 述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代 码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程 性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被 部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被 存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专 用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一 个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一 个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互 连的多个计算设备上执行。
综上所述,通过本发明实施例,在保证较高准确率和召回率的基础上,能 够较大提升进行命名实体处理的效率,即能够快速完成命名实体识别及消歧, 从而确定实体的真实属性,适用于对实时性要求较高的线上服务。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。 凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在 本发明的保护范围之内。

Claims (15)

1.一种基于人工智能的命名实体处理方法,其特征在于,包括:
根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体;
确定所述待处理文本中除所述候选实体外的多个词语,并确定所述词语的词向量;
对多个所述词语的词向量进行平均处理,得到所述候选实体对应的特征向量;
根据至少两个机器学习模型,分别对所述特征向量进行预测处理得到识别结果;
对所有所述识别结果进行融合处理得到融合识别结果,并根据所述融合识别结果确定所述候选实体的属性。
2.根据权利要求1所述的命名实体处理方法,其特征在于,所述根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体,包括:
获取多个历史资讯文本,并对所述多个历史资讯文本进行向量转换处理,得到多个历史词向量;
获取第一实体名称,将与所述第一实体名称对应的历史词向量确定为搜索词向量;
确定与所述搜索词向量之间的相似度满足相似度条件的历史词向量,并将所述相似度满足相似度条件的历史词向量对应的词语确定为第二实体名称;
根据所述第一实体名称和所述第二实体名称,对待处理文本进行命名实体识别,得到属性具有歧义的候选实体。
3.根据权利要求2所述的命名实体处理方法,其特征在于,所述根据所述第一实体名称和所述第二实体名称,对待处理文本进行命名实体识别,得到属性具有歧义的候选实体,包括:
根据所述第一实体名称和所述第二实体名称构建双数组字典树;
对待处理文本进行分词处理,得到多个词语;
根据所述双数组字典树从所述待处理文本中识别出命名实体;
当所述识别出的命名实体与分词处理后得到的至少一个词语相同时,将所述识别出的命名实体确定为属性具有歧义的候选实体。
4.根据权利要求2所述的命名实体处理方法,其特征在于,所述对所述多个历史资讯文本进行向量转换处理,得到多个历史词向量,包括:
对各所述历史资讯文本进行文本句划分,并对得到的各文本句进行分词处理;
根据词向量转换模型将分词处理得到的词语映射为历史词向量,直至对所有所述文本句中的词语处理完毕,得到各词语对应的历史词向量。
5.根据权利要求2所述的命名实体处理方法,其特征在于,所述确定所述待处理文本中除所述候选实体外的多个词语,并确定所述词语的词向量,包括:
确定所述待处理文本中所述候选实体所在的文本句;
在所述文本句中提取除所述候选实体外的多个词语;
将提取出的词语对应的历史词向量,确定为所述词语的词向量。
6.根据权利要求5所述的命名实体处理方法,其特征在于,所述在所述文本句中提取除所述候选实体外的多个词语,包括:
在所述文本句中提取位于所述候选实体之前的窗口内的词语,并在所述文本句中提取位于所述候选实体之后的窗口内的词语;或者,
在所述文本句中提取除所述候选实体外的所有词语。
7.根据权利要求1所述的命名实体处理方法,其特征在于,还包括:
当所述待处理文本为资讯搜索文本时,根据所述待处理文本中所述候选实体的属性,确定所述待处理文本的文本属性;
获取资讯文本,并确定所述资讯文本中候选实体的属性;
根据所述资讯文本中候选实体的属性,确定所述资讯文本的文本属性,并将设置有所述文本属性的所述资讯文本添加至索引库;
将所述待处理文本与所述索引库中的多个所述资讯文本进行文本匹配,将文本匹配成功的所述资讯文本确定为候选资讯文本;
确定与所述待处理文本的文本属性相符的候选资讯文本,并对所述候选资讯文本进行推荐处理。
8.根据权利要求7所述的命名实体处理方法,其特征在于,所述根据所述待处理文本中所述候选实体的属性,确定所述待处理文本的文本属性,包括:
当所述待处理文本包括一个所述候选实体时,将所述候选实体的属性,确定为所述待处理文本的文本属性;
当所述待处理文本包括至少两个所述候选实体时,将数量最多的一类所述候选实体的属性,确定为所述待处理文本的文本属性。
9.根据权利要求7所述的命名实体处理方法,其特征在于,所述将所述待处理文本与所述索引库中的多个所述资讯文本进行文本匹配,包括:
对所述待处理文本进行分词处理;
将所述索引库中包括分词处理后得到的所有词语、且发布热度满足热度条件的所述资讯文本,确定为文本匹配成功。
10.根据权利要求1所述的命名实体处理方法,其特征在于,还包括:
当所述待处理文本为资讯文本时,根据所述待处理文本中所述候选实体的属性,确定所述待处理文本的文本属性;
获取具有所述文本属性的所述候选实体对应的资讯提示,并呈现所述资讯提示。
11.根据权利要求1所述的命名实体处理方法,其特征在于,还包括:
获取包括所述候选实体的历史资讯文本,并获取所述候选实体对应的标注识别结果;
确定所述历史资讯文本中所述候选实体对应的特征向量;
根据各所述机器学习模型,分别对所述特征向量进行预测处理得到预测识别结果;
确定所述标注识别结果与所述预测识别结果之间的差异;
根据所述差异在所述机器学习模型中进行反向传播,并在反向传播的过程中更新所述机器学习模型的权重参数。
12.根据权利要求1至11任一项所述的命名实体处理方法,其特征在于,
所述对所有所述识别结果进行融合处理得到融合识别结果,包括:
当所述识别结果为至少两类时,将数量最多的一类识别结果确定为融合识别结果,其中,每类所述识别结果对应一种属性;或者,
当所述识别结果为分数时,对所有所述识别结果进行平均处理,得到融合识别结果。
13.一种基于人工智能的命名实体处理装置,其特征在于,包括:
实体识别模块,用于根据实体名称对待处理文本进行命名实体识别,得到属性具有歧义的候选实体;
向量确定模块,用于确定所述待处理文本中除所述候选实体外的多个词语,并确定所述词语的词向量;
向量处理模块,用于对多个所述词语的词向量进行平均处理,得到所述候选实体对应的特征向量;
模型识别模块,用于根据至少两个机器学习模型,分别对所述特征向量进行预测处理得到识别结果;
融合模块,用于对所有所述识别结果进行融合处理得到融合识别结果,并根据所述融合识别结果确定所述候选实体的属性。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的基于人工智能的命名实体处理方法。
15.一种存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至12任一项所述的基于人工智能的命名实体处理方法。
CN201911078296.8A 2019-11-06 2019-11-06 基于人工智能的命名实体处理方法、装置及电子设备 Active CN110852106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911078296.8A CN110852106B (zh) 2019-11-06 2019-11-06 基于人工智能的命名实体处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911078296.8A CN110852106B (zh) 2019-11-06 2019-11-06 基于人工智能的命名实体处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110852106A true CN110852106A (zh) 2020-02-28
CN110852106B CN110852106B (zh) 2024-05-03

Family

ID=69598700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911078296.8A Active CN110852106B (zh) 2019-11-06 2019-11-06 基于人工智能的命名实体处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110852106B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339319A (zh) * 2020-03-02 2020-06-26 北京百度网讯科技有限公司 一种企业名的消歧方法、装置、电子设备及存储介质
CN112084779A (zh) * 2020-09-07 2020-12-15 中国平安财产保险股份有限公司 用于语义识别的实体获取方法、装置、设备及存储介质
CN112685549A (zh) * 2021-01-08 2021-04-20 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及系统
CN112989834A (zh) * 2021-04-15 2021-06-18 杭州一知智能科技有限公司 一种基于平格增强线性转换器的命名实体识别方法和系统
CN113158675A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 基于人工智能的实体抽取方法、装置、设备及介质
CN113642331A (zh) * 2021-08-10 2021-11-12 东方财富信息股份有限公司 金融命名实体识别方法及系统、存储介质及终端
CN114611521A (zh) * 2022-04-13 2022-06-10 国家电网有限公司大数据中心 一种实体识别方法、装置、设备及存储介质
CN115169352A (zh) * 2022-09-08 2022-10-11 深圳市人马互动科技有限公司 命名实体识别方法、装置、设备及存储介质
CN115600603A (zh) * 2022-12-15 2023-01-13 南京邮电大学(Cn) 一种面向中文冠心病诊断报告的命名实体消歧方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150324454A1 (en) * 2014-05-12 2015-11-12 Diffeo, Inc. Entity-centric knowledge discovery
CN106503192A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
US20170124181A1 (en) * 2015-10-30 2017-05-04 Oracle International Corporation Automatic fuzzy matching of entities in context
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107506486A (zh) * 2017-09-21 2017-12-22 北京航空航天大学 一种基于实体链接的关系扩充方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN110263324A (zh) * 2019-05-16 2019-09-20 华为技术有限公司 文本处理方法、模型训练方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150324454A1 (en) * 2014-05-12 2015-11-12 Diffeo, Inc. Entity-centric knowledge discovery
US20170124181A1 (en) * 2015-10-30 2017-05-04 Oracle International Corporation Automatic fuzzy matching of entities in context
CN106503192A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107506486A (zh) * 2017-09-21 2017-12-22 北京航空航天大学 一种基于实体链接的关系扩充方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN110263324A (zh) * 2019-05-16 2019-09-20 华为技术有限公司 文本处理方法、模型训练方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
齐爱芹等: "基于词向量的实体链接方法", 《数据采集与处理》, vol. 32, no. 3, 31 May 2017 (2017-05-31) *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339319A (zh) * 2020-03-02 2020-06-26 北京百度网讯科技有限公司 一种企业名的消歧方法、装置、电子设备及存储介质
CN111339319B (zh) * 2020-03-02 2023-08-04 北京百度网讯科技有限公司 一种企业名的消歧方法、装置、电子设备及存储介质
CN112084779B (zh) * 2020-09-07 2023-04-18 中国平安财产保险股份有限公司 用于语义识别的实体获取方法、装置、设备及存储介质
CN112084779A (zh) * 2020-09-07 2020-12-15 中国平安财产保险股份有限公司 用于语义识别的实体获取方法、装置、设备及存储介质
CN112685549A (zh) * 2021-01-08 2021-04-20 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及系统
CN112685549B (zh) * 2021-01-08 2022-07-29 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及系统
CN112989834A (zh) * 2021-04-15 2021-06-18 杭州一知智能科技有限公司 一种基于平格增强线性转换器的命名实体识别方法和系统
CN113158675A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 基于人工智能的实体抽取方法、装置、设备及介质
CN113158675B (zh) * 2021-04-23 2024-04-02 平安科技(深圳)有限公司 基于人工智能的实体抽取方法、装置、设备及介质
CN113642331A (zh) * 2021-08-10 2021-11-12 东方财富信息股份有限公司 金融命名实体识别方法及系统、存储介质及终端
CN114611521A (zh) * 2022-04-13 2022-06-10 国家电网有限公司大数据中心 一种实体识别方法、装置、设备及存储介质
CN114611521B (zh) * 2022-04-13 2024-04-09 国家电网有限公司大数据中心 一种实体识别方法、装置、设备及存储介质
CN115169352A (zh) * 2022-09-08 2022-10-11 深圳市人马互动科技有限公司 命名实体识别方法、装置、设备及存储介质
CN115600603A (zh) * 2022-12-15 2023-01-13 南京邮电大学(Cn) 一种面向中文冠心病诊断报告的命名实体消歧方法

Also Published As

Publication number Publication date
CN110852106B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN110852106B (zh) 基于人工智能的命名实体处理方法、装置及电子设备
CN111090987B (zh) 用于输出信息的方法和装置
US10650102B2 (en) Method and apparatus for generating parallel text in same language
CN111401066B (zh) 基于人工智能的词分类模型训练方法、词处理方法及装置
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111680159A (zh) 数据处理方法、装置及电子设备
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN111767375A (zh) 语义召回方法、装置、计算机设备及存储介质
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN111414561B (zh) 用于呈现信息的方法和装置
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN114564593A (zh) 多模态知识图谱的补全方法、装置和电子设备
CN115983271B (zh) 命名实体的识别方法和命名实体识别模型的训练方法
WO2021190662A1 (zh) 医学文献排序方法、装置、电子设备及存储介质
CN110781302A (zh) 文本中事件角色的处理方法、装置、设备及存储介质
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN114595686A (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN114840869A (zh) 基于敏感度识别模型的数据敏感度识别方法及装置
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN111143534A (zh) 基于人工智能的品牌名的提取方法、装置及存储介质
CN112598039B (zh) 获取nlp分类领域阳性样本方法及相关设备
CN110580294B (zh) 实体融合方法、装置、设备及存储介质
CN116127013A (zh) 一种个人敏感信息知识图谱查询方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022170

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant