CN110688467A - 命名实体识别方法、装置、计算机设备及存储介质 - Google Patents

命名实体识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110688467A
CN110688467A CN201910781748.2A CN201910781748A CN110688467A CN 110688467 A CN110688467 A CN 110688467A CN 201910781748 A CN201910781748 A CN 201910781748A CN 110688467 A CN110688467 A CN 110688467A
Authority
CN
China
Prior art keywords
entity
named entity
entities
query
named
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910781748.2A
Other languages
English (en)
Inventor
许天涵
彭程
罗雪峰
谢子哲
黄庆伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910781748.2A priority Critical patent/CN110688467A/zh
Publication of CN110688467A publication Critical patent/CN110688467A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Abstract

本申请公开了命名实体识别方法、装置、计算机设备及存储介质,涉及云计算领域,其中方法可包括:针对用户输入的query,分别利用至少两种方式对该query进行命名实体识别;将得到的至少两种命名实体识别结果进行融合,将融合结果作为该query的命名实体识别结果,其中,若不同方式对应的命名实体识别结果中存在发生冲突的内容,则按照预先设定的优先级顺序,保留优先级最高的方式对应的内容。应用本申请所述方案,能够提高命名实体识别结果的准确性等。

Description

命名实体识别方法、装置、计算机设备及存储介质
【技术领域】
本申请涉及云计算领域,特别涉及命名实体识别方法、装置、计算机设备及存储介质。
【背景技术】
在智能客服对话系统等场景中,需要对用户输入的查询(query)进行意图识别和命名实体识别(NER,Named Entity Recognition)。
其中,对于命名实体识别,目前通常采用单一的识别方式,如基于模型的命名实体识别方式,这样造成识别结果的准确性较低,从而影响了多轮对话的状态流转等。
【发明内容】
有鉴于此,本申请提供了命名实体识别方法、装置、计算机设备及存储介质。
具体技术方案如下:
一种命名实体识别方法,包括:
针对用户输入的query,分别利用至少两种方式对所述query进行命名实体识别;
将得到的至少两种命名实体识别结果进行融合,将融合结果作为所述query的命名实体识别结果,其中,若不同方式对应的命名实体识别结果中存在发生冲突的内容,则按照预先设定的优先级顺序,保留优先级最高的方式对应的内容。
根据本申请一优选实施例,所述发生冲突的内容包括:
针对同一实体,不同方式将所述实体识别为不同类型;
针对不同方式识别为同样类型的两个实体,所述两个实体中的一个实体对应的文本内容为另外一个实体对应的文本内容中的部分内容。
根据本申请一优选实施例,所述至少两种方式包括:基于检索的方式、基于模板的方式以及基于模型的方式。
根据本申请一优选实施例,所述预先设定的优先级顺序包括:所述基于检索的方式的优先级高于所述基于模板的方式的优先级,所述基于模板的方式的优先级高于所述基于模型的方式的优先级。
根据本申请一优选实施例,该方法进一步包括:若所述query的命名实体识别结果中包含含义不明确的实体,则对所述实体进行实体澄清。
根据本申请一优选实施例,所述对所述实体进行实体澄清包括:根据预先建立的实体间层级关系,确定出所述实体的至少一层上级实体,根据所述至少一层上级实体对用户进行反问,以确定所述实体的含义。
一种命名实体识别装置,包括:识别单元以及融合单元;
所述识别单元,用于针对用户输入的query,分别利用至少两种方式对所述query进行命名实体识别;
所述融合单元,用于将得到的至少两种命名实体识别结果进行融合,将融合结果作为所述query的命名实体识别结果,其中,若不同方式对应的命名实体识别结果中存在发生冲突的内容,则按照预先设定的优先级顺序,保留优先级最高的方式对应的内容。
根据本申请一优选实施例,所述发生冲突的内容包括:
针对同一实体,不同方式将所述实体识别为不同类型;
针对不同方式识别为同样类型的两个实体,所述两个实体中的一个实体对应的文本内容为另外一个实体对应的文本内容中的部分内容。
根据本申请一优选实施例,所述至少两种方式包括:基于检索的方式、基于模板的方式以及基于模型的方式。
根据本申请一优选实施例,所述预先设定的优先级顺序包括:所述基于检索的方式的优先级高于所述基于模板的方式的优先级,所述基于模板的方式的优先级高于所述基于模型的方式的优先级。
根据本申请一优选实施例,所述装置中进一步包括:澄清单元,用于当所述query的命名实体识别结果中包含含义不明确的实体时,对所述实体进行实体澄清。
根据本申请一优选实施例,所述澄清单元根据预先建立的实体间层级关系,确定出所述实体的至少一层上级实体,根据所述至少一层上级实体对用户进行反问,以确定所述实体的含义。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本申请所述方案,可同时采用多种方式对用户输入的query进行命名实体识别,进而可将得到的各命名实体识别结果进行融合,将融合结果作为该query的命名实体识别结果,当不同方式对应的命名实体识别结果中存在发生冲突的内容时,可按照预先设定的优先级顺序,保留优先级最高的方式对应的内容,从而相比于现有方式提高了命名实体识别结果的准确性等。
【附图说明】
图1为本申请所述命名实体识别方法实施例的流程图。
图2为本申请所述命名实体识别方法的整体实现过程示意图。
图3为本申请所述命名实体识别装置实施例的组成结构示意图。
图4示出了适于用来实现本申请实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本申请的技术方案更加清楚、明白,以下参照附图并举实施例,对本申请所述方案进行进一步说明。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本申请所述命名实体识别方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,针对用户输入的query,分别利用至少两种方式对该query进行命名实体识别。
在102中,将得到的至少两种命名实体识别结果进行融合,将融合结果作为该query的命名实体识别结果,其中,若不同方式对应的命名实体识别结果中存在发生冲突的内容,则按照预先设定的优先级顺序,保留优先级最高的方式对应的内容。
命名实体识别又可称作专名识别,是指从文本中识别出命名性指称项,为关系抽取等任务做铺垫,通常是指识别出人名、地名、机构名等类型的命名实体,在特定领域中,也可相应地定义领域内的各种实体类型等,如产品名、职位等。
本实施例中,针对用户输入的query,可分别利用至少两种方式对该query进行命名实体识别,所述至少两种方式可并行执行。
优选地,所述至少两种方式可包括:基于检索的方式、基于模板的方式以及基于模型的方式。
其中,基于检索的方式中,可预先对不同的实体的实体类型进行标注,所标注的实体通常是一些比较特殊的不便于确定类型的实体,当然,也可以对一些常见的实体进行标注,如张三-人名(PER)等,具体方式不限。并且,可采用Elastic Search技术为实体建立索引。针对用户输入的query,可首先对其进行分词处理,然后针对每个分词结果,可分别进行检索,若该分词结果为预先进行了标注的实体,那么则可返回该分词结果/实体的实体类型,否则,可返回为空。
基于模板的方式中,可预先定义多个正则模板,或称为正则表达式,针对用户输入的query,可分别将其与各正则模板进行匹配,若与某一正则模板匹配成功,可根据匹配成功的正则模板确定出query中的实体及实体类型等。这种方式对于识别人名、地名、手机、邮箱、货币、日期、时间等类型的实体尤为适用。
基于模板的方式中,可利用预先训练得到的识别模型来对用户的query进行命名实体识别。所述识别模型主要包含三层,分别为词向量(WordEmbedding)层、双向长短时记忆网络(Bi-LSTM,Bi-directional LongShort-Term Memory)层以及条件随机场(CRF,Conditional Random Field)层。针对用户输入的query,可对其进行分词处理,并在词向量层分别获取到各分词结果的词向量表示,基于获取到的词向量表示,可在Bi-LSTM层进行后向、前向的特征提取,进而可基于提取出的特征由CRF层生成命名实体识别结果,实现对query中的实体进行标注,如可得到IOBES格式的标注结果。IOBES标注结果是在实体标签的基础上,添加实体位置标签后得到的。其中,I即Intermediate,表示中间,O即Other,表示其他,用于标记无关字符,B即Begin,表示开始,E即End,表示结尾,S即Single,表示单个字符。
识别模型的模型质量取决于训练样本,可通过对实际应用中积累的大量语料进行标注等来构建训练样本。
在利用上述三种方式分别对用户输入的query进行命名实体识别后,可得到三种命名实体识别结果,即可分别得到基于检索的方式对应的命名实体识别结果、基于模板的方式对应的命名实体识别结果以及基于模型的方式对应的命名实体识别结果,可将三种命名实体识别结果进行融合,将融合结果最终作为用户输入的query的命名实体识别结果。
其中,若三种命名实体识别结果相同,那么可直接将其中的任意一种命名实体识别结果作为融合结果。
若三种命名实体识别结果不相同,假设利用第一种方式识别出了实体1,利用第二种方式识别出了实体1(与利用第一种方式识别出的实体1相同)和实体2,利用第三种方式识别出了实体2(与利用第二种方式识别出的实体2相同)和实体3,那么可在融合结果中同时保留实体1、实体2和实体3的识别结果。
另外,在实际应用中,有可能不同方式对应的命名实体识别结果中存在发生冲突的内容,那么可按照预先设定的优先级顺序,保留优先级最高的方式对应的内容。
不同方式对应的命名实体识别结果中存在发生冲突的内容包括但不限于以下两种情况:
1)针对同一实体,不同方式将该实体识别为不同类型;
比如,对于实体“李家集”,一种方式将其识别为地名,另一种方式将其识别为人名,那么可比较两种方式的优先级,假设识别为地名的方式的优先级更高,那么则可在融合结果保留“李家集”为地名的识别结果。
2)针对不同方式识别为同样类型的两个实体,两个实体中的一个实体对应的文本内容为另外一个实体对应的文本内容中的部分内容。
比如,query中出现了“保定新市区”的表述,一种方式将“保定”识别为地名,另一种方式将“保定新市区”识别为地名,“保定”为“保定新市区”的一部分,那么可比较两种方式的优先级,假设将“保定新市区”识别为地名的方式的优先级更高,那么则可在融合结果保留将“保定新市区”识别为地名的识别结果。
如前所述,本实施例中所述的三种方式可包括基于检索的方式、基于模板的方式以及基于模型的方式。可预先设定三种方式的优先级顺序,优选地,基于三种方式的识别准确度,可设置基于检索的方式的优先级高于基于模板的方式的优先级,基于模板的方式的优先级高于基于模型的方式的优先级。
按照上述融合方式得到用户输入的query的命名识别识别结果后,可进一步确定命名实体识别结果中是否包含含义不明确的实体,若是,可针对含义不明确的实体进行实体澄清。
优选地,针对任一含义不明确的实体,可根据预先建立的实体间层级关系,确定出该实体的至少一层上级实体,根据所述至少一层上级实体对用户进行反问,以确定该实体的含义。
比如,某一地名类型实体“朝阳区”,其对应的上一层实体为“北京”和“长春”,“长春”的上一层实体为“吉林”,假设用户输入的query为“我想查询朝阳区的**办公处的电话”,那么则可反问用户“请问是北京市的朝阳区还是长春市的朝阳区”,以确定“朝阳区”的含义。
对于存在层级关系的实体,可预先建立实体间层级关系,如何建立不作限制,另外,需要对哪些实体建立层级关系可根据实际需要而定,本实施例中同样不作限制。
基于上述介绍,图2为本申请所述命名实体识别方法的整体实现过程示意图。如图2所示,针对用户输入的query,可分别利用基于检索的方式、基于模板的方式以及基于模型的方式对该query进行命名实体识别,之后,可将三种方式对应的命名实体识别结果进行融合,将融合结果作为该query的命名实体识别结果,其中,若不同方式对应的命名实体识别结果中存在发生冲突的内容,可按照预先设定的优先级顺序,保留优先级最高的方式对应的内容,可设置基于检索的方式的优先级高于基于模板的方式的优先级,基于模板的方式的优先级高于基于模型的方式的优先级,进一步地,若该query的命名实体识别结果中包含含义不明确的实体,可对这类实体进行实体澄清,如针对任一含义不明确的实体,可根据预先建立的实体间层级关系,确定出该实体的至少一层上级实体,根据所述至少一层上级实体对用户进行反问,以确定该实体的含义等。具体实现请参照前述相关说明,不再赘述。
需要说明的是,对于前述的方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
总之,采用本申请方法实施例所述方案,可同时采用多种方式对用户输入的query进行命名实体识别,进而可将得到的各命名实体识别结果进行融合,将融合结果作为该query的命名实体识别结果,当不同方式对应的命名实体识别结果中存在发生冲突的内容时,可按照预先设定的优先级顺序,保留优先级最高的方式对应的内容,从而相比于现有方式提高了命名实体识别结果的准确性,另外,可通过实体澄清操作,明确命名实体识别结果中包含的实体的含义,从而使得query的意图更为明确,进而提升了后续处理结果如针对query给出的应答结果的准确性等。
以上是关于方法实施例的介绍,以下通过装置实施例,对本申请所述方案进行进一步说明。
图3为本申请所述命名实体识别装置实施例的组成结构示意图。如图3所示,包括:识别单元301以及融合单元302。
识别单元301,用于针对用户输入的query,分别利用至少两种方式对该query进行命名实体识别。
融合单元302,用于将得到的至少两种命名实体识别结果进行融合,将融合结果作为该query的命名实体识别结果,其中,若不同方式对应的命名实体识别结果中存在发生冲突的内容,则按照预先设定的优先级顺序,保留优先级最高的方式对应的内容。
优选地,所述至少两种方式可包括:基于检索的方式、基于模板的方式以及基于模型的方式。
识别单元301在利用上述三种方式分别对用户输入的query进行命名实体识别后,可得到三种命名实体识别结果,即可分别得到基于检索的方式对应的命名实体识别结果、基于模板的方式对应的命名实体识别结果以及基于模型的方式对应的命名实体识别结果,进而可由融合单元302将三种命名实体识别结果进行融合,将融合结果最终作为用户输入的query的命名实体识别结果。
其中,若三种命名实体识别结果相同,那么融合单元302可直接将其中的任意一种命名实体识别结果作为融合结果。
若三种命名实体识别结果不相同,假设利用第一种方式识别出了实体1,利用第二种方式识别出了实体1(与利用第一种方式识别出的实体1相同)和实体2,利用第三种方式识别出了实体2(与利用第二种方式识别出的实体2相同)和实体3,那么融合单元302可在融合结果中同时保留实体1、实体2和实体3的识别结果。
另外,在实际应用中,有可能不同方式对应的命名实体识别结果中存在发生冲突的内容,那么融合单元302可按照预先设定的优先级顺序,保留优先级最高的方式对应的内容。
不同方式对应的命名实体识别结果中存在发生冲突的内容包括但不限于以下两种情况:
1)针对同一实体,不同方式将该实体识别为不同类型;
2)针对不同方式识别为同样类型的两个实体,两个实体中的一个实体对应的文本内容为另外一个实体对应的文本内容中的部分内容。
优选地,预先设定的优先级顺序可包括:基于检索的方式的优先级高于基于模板的方式的优先级,基于模板的方式的优先级高于基于模型的方式的优先级。
如图3所示,所述装置中可进一步包括:澄清单元303,用于当query的命名实体识别结果中包含含义不明确的实体时,对实体进行实体澄清。
优选地,针对任一含义不明确的实体,澄清单元303可根据预先建立的实体间层级关系,确定出该实体的至少一层上级实体,根据所述至少一层上级实体对用户进行反问,以确定该实体的含义。
图3所示装置实施例的具体工作流程请参照前述相关说明,不再赘述。
总之,采用本申请装置实施例所述方案,可同时采用多种方式对用户输入的query进行命名实体识别,进而可将得到的各命名实体识别结果进行融合,将融合结果作为该query的命名实体识别结果,当不同方式对应的命名实体识别结果中存在发生冲突的内容时,可按照预先设定的优先级顺序,保留优先级最高的方式对应的内容,从而相比于现有方式提高了命名实体识别结果的准确性,另外,可通过实体澄清操作,明确命名实体识别结果中包含的实体的含义,从而使得query的意图更为明确,进而提升了后续处理结果如针对query给出的应答结果的准确性等。
图4示出了适于用来实现本申请实施方式的示例性计算机系统/服务器12的框图。图4显示的计算机系统/服务器12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法。
本申请同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (14)

1.一种命名实体识别方法,其特征在于,包括:
针对用户输入的query,分别利用至少两种方式对所述query进行命名实体识别;
将得到的至少两种命名实体识别结果进行融合,将融合结果作为所述query的命名实体识别结果,其中,若不同方式对应的命名实体识别结果中存在发生冲突的内容,则按照预先设定的优先级顺序,保留优先级最高的方式对应的内容。
2.根据权利要求1所述的方法,其特征在于,
所述发生冲突的内容包括:
针对同一实体,不同方式将所述实体识别为不同类型;
针对不同方式识别为同样类型的两个实体,所述两个实体中的一个实体对应的文本内容为另外一个实体对应的文本内容中的部分内容。
3.根据权利要求2所述的方法,其特征在于,
所述至少两种方式包括:基于检索的方式、基于模板的方式以及基于模型的方式。
4.根据权利要求3所述的方法,其特征在于,
所述预先设定的优先级顺序包括:所述基于检索的方式的优先级高于所述基于模板的方式的优先级,所述基于模板的方式的优先级高于所述基于模型的方式的优先级。
5.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:若所述query的命名实体识别结果中包含含义不明确的实体,则对所述实体进行实体澄清。
6.根据权利要求5所述的方法,其特征在于,
所述对所述实体进行实体澄清包括:根据预先建立的实体间层级关系,确定出所述实体的至少一层上级实体,根据所述至少一层上级实体对用户进行反问,以确定所述实体的含义。
7.一种命名实体识别装置,其特征在于,包括:识别单元以及融合单元;
所述识别单元,用于针对用户输入的query,分别利用至少两种方式对所述query进行命名实体识别;
所述融合单元,用于将得到的至少两种命名实体识别结果进行融合,将融合结果作为所述query的命名实体识别结果,其中,若不同方式对应的命名实体识别结果中存在发生冲突的内容,则按照预先设定的优先级顺序,保留优先级最高的方式对应的内容。
8.根据权利要求7所述的装置,其特征在于,
所述发生冲突的内容包括:
针对同一实体,不同方式将所述实体识别为不同类型;
针对不同方式识别为同样类型的两个实体,所述两个实体中的一个实体对应的文本内容为另外一个实体对应的文本内容中的部分内容。
9.根据权利要求8所述的装置,其特征在于,
所述至少两种方式包括:基于检索的方式、基于模板的方式以及基于模型的方式。
10.根据权利要求9所述的装置,其特征在于,
所述预先设定的优先级顺序包括:所述基于检索的方式的优先级高于所述基于模板的方式的优先级,所述基于模板的方式的优先级高于所述基于模型的方式的优先级。
11.根据权利要求7所述的装置,其特征在于,
所述装置中进一步包括:澄清单元,用于当所述query的命名实体识别结果中包含含义不明确的实体时,对所述实体进行实体澄清。
12.根据权利要求11所述的装置,其特征在于,
所述澄清单元根据预先建立的实体间层级关系,确定出所述实体的至少一层上级实体,根据所述至少一层上级实体对用户进行反问,以确定所述实体的含义。
13.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~6中任一项所述的方法。
CN201910781748.2A 2019-08-23 2019-08-23 命名实体识别方法、装置、计算机设备及存储介质 Pending CN110688467A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910781748.2A CN110688467A (zh) 2019-08-23 2019-08-23 命名实体识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910781748.2A CN110688467A (zh) 2019-08-23 2019-08-23 命名实体识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110688467A true CN110688467A (zh) 2020-01-14

Family

ID=69108432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910781748.2A Pending CN110688467A (zh) 2019-08-23 2019-08-23 命名实体识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110688467A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926326A (zh) * 2021-02-20 2021-06-08 深圳追一科技有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN115098617A (zh) * 2022-06-10 2022-09-23 杭州未名信科科技有限公司 三元组关系抽取任务的标注方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838870A (zh) * 2014-03-21 2014-06-04 武汉科技大学 基于信息单元融合的新闻原子事件抽取方法
US9454957B1 (en) * 2013-03-05 2016-09-27 Amazon Technologies, Inc. Named entity resolution in spoken language processing
CN106503192A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN107943998A (zh) * 2017-12-05 2018-04-20 竹间智能科技(上海)有限公司 一种基于知识图谱的人机对话控制系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9454957B1 (en) * 2013-03-05 2016-09-27 Amazon Technologies, Inc. Named entity resolution in spoken language processing
CN103838870A (zh) * 2014-03-21 2014-06-04 武汉科技大学 基于信息单元融合的新闻原子事件抽取方法
CN106503192A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN107943998A (zh) * 2017-12-05 2018-04-20 竹间智能科技(上海)有限公司 一种基于知识图谱的人机对话控制系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926326A (zh) * 2021-02-20 2021-06-08 深圳追一科技有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN112926326B (zh) * 2021-02-20 2024-01-19 深圳追一科技有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN115098617A (zh) * 2022-06-10 2022-09-23 杭州未名信科科技有限公司 三元组关系抽取任务的标注方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US20190340574A1 (en) Communication enrichment recommendation
CN108985358B (zh) 情绪识别方法、装置、设备及存储介质
CN109599095B (zh) 一种语音数据的标注方法、装置、设备和计算机存储介质
US9442916B2 (en) Management of language usage to facilitate effective communication
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN107491477B (zh) 一种表情符号搜索方法及装置
US11475588B2 (en) Image processing method and device for processing image, server and storage medium
CN108305050B (zh) 报案信息及服务需求信息的提取方法、装置、设备及介质
CN108897869B (zh) 语料标注方法、装置、设备和存储介质
CN113064964A (zh) 文本分类方法、模型训练方法、装置、设备以及存储介质
CN108073429B (zh) 一种支付方式配置方法、装置、设备及存储介质
CN109960554B (zh) 展示阅读内容的方法、设备和计算机存储介质
US20200097546A1 (en) Detecting and highlighting insightful comments in a thread of content
CN110675867A (zh) 智能对话方法、装置、计算机设备及存储介质
US11354514B2 (en) Real-time on-demand auction based content clarification
CN110688467A (zh) 命名实体识别方法、装置、计算机设备及存储介质
CN113378855A (zh) 用于处理多任务的方法、相关装置及计算机程序产品
CN113220999A (zh) 用户特征的生成方法、装置、电子设备和存储介质
CN110113443B (zh) 社交角色管理方法、计算机设备及存储介质
CN115730591A (zh) 基于知识图谱的用户服务方法、装置、设备和存储介质
CN114880498A (zh) 事件信息展示方法及装置、设备和介质
CN109460511B (zh) 一种获取用户画像的方法、装置、电子设备及存储介质
US11373039B2 (en) Content context aware message intent checker
CN108920715B (zh) 客服的智能化辅助方法、装置、服务器和存储介质
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200114