CN110674264A - 实体归一化方法及装置 - Google Patents

实体归一化方法及装置 Download PDF

Info

Publication number
CN110674264A
CN110674264A CN201810585781.3A CN201810585781A CN110674264A CN 110674264 A CN110674264 A CN 110674264A CN 201810585781 A CN201810585781 A CN 201810585781A CN 110674264 A CN110674264 A CN 110674264A
Authority
CN
China
Prior art keywords
corpus
entity
field
similarity
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810585781.3A
Other languages
English (en)
Inventor
张广鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201810585781.3A priority Critical patent/CN110674264A/zh
Publication of CN110674264A publication Critical patent/CN110674264A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实体归一化方法及装置,该方法包括:以预设解析方式对待归一化实体进行解析得到检索字段;利用语料匹配模型,将检索字段与语料库中各语料字段进行比较,得到检索字段与各语料字段之间的相似度;基于检索字段与各语料字段之间的相似度,确定待归一化实体所对应的标准实体。基于本方法可以以预设解析方式来衡量待归一化实体和预设行业标准词典中各标准实体之间的相关度,从而完成实体归一化任务。这无需人工干预,且为无监督方式,不需要准备领域相关的训练集,精度较高,适用于大部分实体归一化任务。

Description

实体归一化方法及装置
技术领域
本发明涉及自然语言处理领域,尤其涉及实体归一化方法及装置。
背景技术
实体归一化,又名实体消歧,是自然语言处理领域的常见任务之一。其任务就是将从文本中不规范的实体映射到标准实体上。
目前,实体归一化主要依靠机器学习,即使用机器学习算法,从训练集中学习待归一化实体和标准实体之间的相关度,从而将归一化任务转化为排序任务解决。但是,由于机器学习严重依赖于训练数据,在实际应用场景下,需要人工标注,这就会影响归一化的精度。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的实体归一化方法及装置,技术方案如下:
一种实体归一化方法,包括:
以预设解析方式对待归一化实体进行解析得到检索字段;
利用语料匹配模型,将所述检索字段与语料库中各语料字段进行比较,得到所述检索字段与各语料字段之间的相似度;其中,
所述语料库中各语料字段是预先基于所述预设解析方式对预设行业标准词典中各标准实体进行处理后生成的,所述语料匹配模型是预先利用所述语料库所构建的;
基于所述检索字段与各语料字段之间的相似度,确定所述待归一化实体所对应的标准实体。
优选的,所述预设解析方式包括分词、拼音化和字分割中的任意一个或多个。
优选的,在所述预设解析方式为分词、拼音化和字分割中的任意多个的情况下,对于每一个所述预设解析方式,分别生成所对应的语料库,并构建相应的语料匹配模型。
优选的,预先利用所述语料库所构建所述语料匹配模型的过程,包括:
构建所述语料库的BM25模型;
所述利用语料匹配模型,将所述检索字段与语料库中各语料字段进行比较,得到所述检索字段与各语料字段之间的相似度,包括:
利用所述语料库的BM25模型,将所述检索字段与所述语料库中各语料字段进行比较,得到所述检索字段与各语料字段之间的BM25分数。
优选的,所述基于所述检索字段与各语料字段之间的相似度,确定所述待归一化实体所对应的标准实体,包括:
将所述检索字段与各语料字段之间的BM25分数确定为所述待归一化实体与各标准实体之间的BM25相似度;
基于所述BM25相似度,确定所述待归一化实体所对应的标准实体。
优选的,还包括:
计算所述待归一化实体与各标准实体之间的文本相似度;
所述基于所述BM25相似度,确定所述待归一化实体所对应的标准实体,包括:
基于所述BM25相似度和所述文本相似度,确定所述待归一化实体所对应的标准实体。
优选的,所述基于所述BM25相似度和所述文本相似度,确定所述待归一化实体所对应的标准实体,包括:
基于所述BM25相似度和所述文本相似度,计算综合相似度;
将综合相似度最大的标准实体确定为所述待归一化实体所对应的标准实体。
一种实体归一化装置,包括:
解析模块,用于以预设解析方式对待归一化实体进行解析得到检索字段;
比较模块,用于利用语料匹配模型,将所述检索字段与语料库中各语料字段进行比较,得到所述检索字段与各语料字段之间的相似度;其中,
所述语料库中各语料字段是预先基于所述预设解析方式对预设行业标准词典中各标准实体进行处理后生成的,所述语料匹配模型是预先利用所述语料库所构建的;
确定模块,用于基于所述检索字段与各语料字段之间的相似度,确定所述待归一化实体所对应的标准实体。
一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述技术方案中任意一项所述的实体归一化方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述技术方案中任意一项所述的实体归一化方法。
借由上述技术方案,本发明提供的实体归一化方法,可以以预设解析方式来衡量待归一化实体和预设行业标准词典中各标准实体之间的相关度,从而完成实体归一化任务。这无需人工干预,且为无监督方式,不需要准备领域相关的训练集,精度较高,适用于大部分实体归一化任务。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了实体归一化方法的方法流程图;
图2示出了实体归一化方法的另一方法流程图;
图3示出了实体归一化方法的再一方法流程图;
图4示出了实体归一化装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种实体归一化方法,该方法的方法流程图如图1所示,包括如下步骤:
S10,以预设解析方式对待归一化实体进行解析得到检索字段;
本实施中,预设解析方式可以是分词、拼音化和字分割中的任意一个或多个。
在接收到一个待归一化实体集合时,对每一个待归一化实体均会以预设解析方式进行处理,以下以一个待归一化实体进行说明:
如果以词衡量待归一化实体和预设行业标准词典中各标准实体之间的相关度,可以对待归一化实体进行分词操作,构建以词为单位的检索字段。在实际应用过程中,可以使用哈工大LTP开源工具对待归一化实体进行分词。
针对中文领域中经常出现的拼音输入错误,如将“揽胜”误拼写为“缆绳”等情况,需要对待归一化实体进行拼音化,构建以拼音为单位的检索字段,当然,这就可以实现以拼音衡量待归一化实体和预设行业标准词典中各标准实体之间的相关度。
如果以字衡量待归一化实体和预设行业标准词典中各标准实体之间的相关度,可以对待归一化实体进行字分割,构建以字为单位的检索字段。
需要说明的是,预设解析方式可以包括分词、拼音化和字分割中的任意一个或多个。以执行分词、拼音化和字分割三种操作为例,对待归一化实体同时分词、拼音化和字分割,这就会得到3个检索字段。
在其他一些实施例中,为提高检索字段的有效性,在步骤S10之前,还可以包括如下步骤:
对待归一化实体进行预处理;
本实施例中,对于待归一化实体的预处理可以包括停用词去除和同义词替换等。以下对停用词进行简单介绍:
停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。
对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类:一类是人类语言中包含的功能词,功能词没有什么实际含义,比如'the'、'is'、'at'、'which'、'on'等;另一类词包括词汇词,比如'want'等。
S20,利用语料匹配模型,将检索字段与语料库中各语料字段进行比较,得到检索字段与各语料字段之间的相似度;其中,
语料库中各语料字段是预先基于预设解析方式对预设行业标准词典中各标准实体进行处理后生成的,语料匹配模型是预先利用语料库所构建的;
本实施例中,以预设解析方式包括分词、拼音化和字分割为例进行说明,对待归一化实体同时分词、拼音化和字分割,这就会得到3个检索字段——以词为单位的第一检索字段、以拼音为单位的第二检索字段和以字为单位的第三检索字段。
进一步,分别将第一检索字段、第二检索字段和第三检索字段作为查询条件输入到相应的语料匹配模型中,从而得到3组相似度(第一检索字段所对应的第一相似度、第二检索字段所对应的第二相似度以及第三检索字段所对应的第三相似度)。这3组相关度分别表示待归一化实体与预设行业标准词典中各标准实体分别在词、拼音以及字方面的相关性;其中,预设行业标准词典是由某一特定领域或行业内的标准实体构成,如汽车领域的标准车型词。
以下说明语料匹配模型的生成过程:
如果以词衡量待归一化实体和预设行业标准词典中各标准实体之间的相关度,可以对各标准实体进行分词操作,构建以词为单位的第一语料字段。在实际应用过程中,可以使用哈工大LTP开源工具对待归一化实体进行分词;进一步,利用各第一语料字段所构成的第一语料库构建第一语料匹配模型。
如果以拼音衡量待归一化实体和预设行业标准词典中各标准实体之间的相关度,可以对标准实体进行拼音化,构建以拼音为单位的第二语料字段;进一步,利用各第二语料字段所构成的第二语料库构建第二语料匹配模型。
如果以字衡量待归一化实体和预设行业标准词典中各标准实体之间的相关度,可以对待归一化实体进行字分割,构建以字为单位的第三语料字段;进一步,利用各第三语料字段所构成的第三语料库构建第三语料匹配模型。
而在实际应用过程中,可以将语料库的BM25模型作为语料匹配模型。相应的,步骤S20则具体为如下步骤S201,实体归一化方法的方法流程图如图2所示:
S201,利用语料库的BM25模型,将检索字段与语料库中各语料字段进行比较,得到检索字段与各语料字段之间的BM25分数。
以下对BM25模型进行简单介绍:
BM25模型是信息检索领域的一个常用模型,由三部分组成——BM25分数,检索字段在文档中的权值和检索字段自身的特征。其本质上是一个排序模型,即针对一个检索字段,在相关语料库中查找与该检索字段相关的文本。
BM25模型本质上是一个排序模型,通常用来计算搜索的相关性得分,其主要思想是:以对待归一化实体执行分词操作为例,对于以词为单位的第一检索字段中的每个语素,即每个词组来说,计算该语素和词语料库中各第一语料字段之间的相关性得分,最后将全部语素所对应的相关性得分进行加权求和,从而得到检索字段和各第一语料字段的综合相关性得分。由于一个第一语料字段对应一个标准实体,因此上述综合相关性得分即为待归一化实体与标准实体之间的相关性得分,即BM25分数。具体的,可按照如下公式(1)计算BM25分数:
Score(Q,D)=∑Wi*R(qi,d) (1)
其中,Q表示待归一化实体,D表示一个标准实体,Wi表示语素qi的权重,d表示标准实体所对应的第一语料字段,R(qi,d)表示语素qi与第一语料字段d的相关性得分。
Wi常用IDF(qi)(逆文档频率)表示,具体的,可按照如下公式(2)计算IDF:
Figure BDA0001689448680000061
其中,N表示预设行业标准词典中标准实体的总数,n(qi)表示包含语素qi的标准实体总数。
此外,可按照如下公式(3)计算R(qi,d):
Figure BDA0001689448680000071
其中,k1、k2和b表示调节因子(为常数),fi表示语素qi在第一语料字段d中的出现频率(即词频),
Figure BDA0001689448680000072
表示语素qi在待归一化实体中的出现频率(基本上是1),dl表示第一语料字段d的长度,avgdl表示词语料库中第一语料字段的平均长度。
根据上述BM25原理,构建语料BM25模型的过程实际上就是根据语料库预计算词频、逆文档频率的过程。
S30,基于检索字段与各语料字段之间的相似度,确定待归一化实体所对应的标准实体;
本实施例中,如果预设解析方式包括分词、拼音化和字分割中的任意一个,则可以直接将满足预设相似度条件的标准实体选取为待归一化实体所对应的标注实体。比如,选取相似度最高的标准实体作为待归一化实体所对应的标准实体,再比如将相似度大于相似度阈值的标准实体作为待归一化实体所对应的标准实体等等,本实施例对此不做具体限定。
当然,如果相似度大于相似度阈值的标准实体有多个,则需要从多个中选取一个标准实体,具体选取规则本实施例不做具体限定。
而如果预设解析方式包括分词、拼音化和字分割中的任意多个,则需要进行综合处理。以下以预设解析方式包括分词、拼音化和字分割为例进行说明:
“分词”所对应的第一相似度、“拼音化”所对应的第二相似度、“字分割”所对应的第三相似度,以及预先设置的各相似度所对应的权重,按照如下公式(4)计算总相似度:
Score'=Score1*α+Score2*β+Score3*χ (4)
其中,Score'为总相似度,Score1、Score2和Score3分别为第一相似度、第二相似度以及第三相似度,α为第一相似度所对应的权重,β为第二相似度所对应的权重,χ为第三相似度所对应的权重,且α+β+χ=1。
而在实际应用过程中,如果将语料库的BM25模型作为语料匹配模型,则步骤30具体包括图2中的以下步骤:
S301,将检索字段与各语料字段之间的BM25分数确定为待归一化实体与各标准实体之间的BM25相似度。
S302,基于BM25相似度确定待归一化实体所对应的标准实体。
而基于BM25相似度的具体确定过程同上述基于相似度的确定过程,此处不再赘述,参见上述描述内容。
在其他一些实施例中,为保证选取标准实体的准确度,在图2示出的实体归一化方法的基础上,还包括如下步骤,实体归一化方法的方法流程图如图3所示:
S40,计算待归一化实体与各标准实体之间的文本相似度;
本实施例中,可采用编辑距离的方法计算文本相似度。以下对编辑距离的方法进行简单介绍:
编辑距离是衡量字符串相似度的常用方法,其思想是计算两个字符串之间,由一个转化为另一个所需的最少编辑操作次数,如果操作次数越少,那么相似度越高。
相应的,步骤S302具体为以下步骤S3002,实体归一化方法的方法流程图如图2所示:
S3002,基于BM25相似度和文本相似度,确定待归一化实体所对应的标准实体。
在本实施例中,具体可利用BM25相似度、文本相似度以及各自所对应的权重,按照如下公式(5)计算综合相似度,如下公式(5)所示:
Score=Score'*a+Score”*b (5)
其中,Score为综合相似度,Score”为文本相似度,a为BM25相似度所对应的权重,b为文本相似度所对应的权重,且a+b=1。
进一步,将综合相似度最高的标准实体作为待归一化实体所对应的标准实体。
本发明实施例提供的实体归一化方法,可以以预设解析方式来衡量待归一化实体和预设行业标准词典中各标准实体之间的相关度,从而完成实体归一化任务。这无需人工干预,且为无监督方式,不需要准备领域相关的训练集,精度较高,适用于大部分实体归一化任务。
基于上述实施例提供的实体归一化方法,本实施例则对应提供执行上述实体归一化方法的装置,其结构示意图如图4所示,包括:
解析模块10,用于以预设解析方式对待归一化实体进行解析得到检索字段;
比较模块20,用于利用语料匹配模型,将检索字段与语料库中各语料字段进行比较,得到检索字段与各语料字段之间的相似度;其中,
语料库中各语料字段是预先基于预设解析方式对预设行业标准词典中各标准实体进行处理后生成的,语料匹配模型是预先利用语料库所构建的;
确定模块30,用于基于检索字段与各语料字段之间的相似度,确定待归一化实体所对应的标准实体。
在其他一些实施例中,预设解析方式包括分词、拼音化和字分割中的任意一个或多个。
在其他一些实施例中,在预设解析方式为分词、拼音化和字分割中的任意多个的情况下,对于每一个预设解析方式,比较模块20分别生成所对应的语料库,并构建相应的语料匹配模型。
在其他一些实施例中,比较模块20预先利用语料库所构建语料匹配模型的过程,包括:
构建语料库的BM25模型;
比较模块20,具体用于:利用语料库的BM25模型,将检索字段与语料库中各语料字段进行比较,得到检索字段与各语料字段之间的BM25分数。
确定模块30基于检索字段与各语料字段之间的相似度,确定待归一化实体所对应的标准实体,包括:
将检索字段与各语料字段之间的BM25分数确定为待归一化实体与各标准实体之间的BM25相似度;基于BM25相似度,确定待归一化实体所对应的标准实体。
在其他一些实施例中,为保证选取标准实体的准确度,还包括:
计算模块40,用于计算待归一化实体与各标准实体之间的文本相似度;
确定模块30基于BM25相似度,确定待归一化实体所对应的标准实体,包括:
基于BM25相似度和文本相似度,确定待归一化实体所对应的标准实体。
在其他一些实施例中,确定模块30基于BM25相似度和文本相似度,确定待归一化实体所对应的标准实体,包括:
基于BM25相似度和文本相似度,计算综合相似度;将综合相似度最大的标准实体确定为待归一化实体所对应的标准实体。
本发明实施例提供的实体归一化装置,可以以预设解析方式来衡量待归一化实体和预设行业标准词典中各标准实体之间的相关度,从而完成实体归一化任务。这无需人工干预,且为无监督方式,不需要准备领域相关的训练集,精度较高,适用于大部分实体归一化任务。
所述实体归一化装置包括处理器和存储器,上述解析模块、比较模块、和确定模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现实体归一化。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述实体归一化方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述实体归一化方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
一种实体归一化方法,包括:
以预设解析方式对待归一化实体进行解析得到检索字段;
利用语料匹配模型,将检索字段与语料库中各语料字段进行比较,得到检索字段与各语料字段之间的相似度;其中,
语料库中各语料字段是预先基于预设解析方式对预设行业标准词典中各标准实体进行处理后生成的,语料匹配模型是预先利用语料库所构建的;
基于检索字段与各语料字段之间的相似度,确定待归一化实体所对应的标准实体。
优选的,预设解析方式包括分词、拼音化和字分割中的任意一个或多个。
优选的,在预设解析方式为分词、拼音化和字分割中的任意多个的情况下,对于每一个预设解析方式,分别生成所对应的语料库,并构建相应的语料匹配模型。
优选的,预先利用语料库所构建语料匹配模型的过程,包括:
构建语料库的BM25模型;
利用语料匹配模型,将检索字段与语料库中各语料字段进行比较,得到检索字段与各语料字段之间的相似度,包括:
利用语料库的BM25模型,将检索字段与语料库中各语料字段进行比较,得到检索字段与各语料字段之间的BM25分数。
优选的,基于检索字段与各语料字段之间的相似度,确定待归一化实体所对应的标准实体,包括:
将检索字段与各语料字段之间的BM25分数确定为待归一化实体与各标准实体之间的BM25相似度;
基于BM25相似度,确定待归一化实体所对应的标准实体。
优选的,还包括:
计算待归一化实体与各标准实体之间的文本相似度;
基于BM25相似度,确定待归一化实体所对应的标准实体,包括:
基于BM25相似度和文本相似度,确定待归一化实体所对应的标准实体。
优选的,基于BM25相似度和文本相似度,确定待归一化实体所对应的标准实体,包括:
基于BM25相似度和文本相似度,计算综合相似度;
将综合相似度最大的标准实体确定为待归一化实体所对应的标准实体。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
一种实体归一化方法,包括:
以预设解析方式对待归一化实体进行解析得到检索字段;
利用语料匹配模型,将检索字段与语料库中各语料字段进行比较,得到检索字段与各语料字段之间的相似度;其中,
语料库中各语料字段是预先基于预设解析方式对预设行业标准词典中各标准实体进行处理后生成的,语料匹配模型是预先利用语料库所构建的;
基于检索字段与各语料字段之间的相似度,确定待归一化实体所对应的标准实体。
优选的,预设解析方式包括分词、拼音化和字分割中的任意一个或多个。
优选的,在预设解析方式为分词、拼音化和字分割中的任意多个的情况下,对于每一个预设解析方式,分别生成所对应的语料库,并构建相应的语料匹配模型。
优选的,预先利用语料库所构建语料匹配模型的过程,包括:
构建语料库的BM25模型;
利用语料匹配模型,将检索字段与语料库中各语料字段进行比较,得到检索字段与各语料字段之间的相似度,包括:
利用语料库的BM25模型,将检索字段与语料库中各语料字段进行比较,得到检索字段与各语料字段之间的BM25分数。
优选的,基于检索字段与各语料字段之间的相似度,确定待归一化实体所对应的标准实体,包括:
将检索字段与各语料字段之间的BM25分数确定为待归一化实体与各标准实体之间的BM25相似度;
基于BM25相似度,确定待归一化实体所对应的标准实体。
优选的,还包括:
计算待归一化实体与各标准实体之间的文本相似度;
基于BM25相似度,确定待归一化实体所对应的标准实体,包括:
基于BM25相似度和文本相似度,确定待归一化实体所对应的标准实体。
优选的,基于BM25相似度和文本相似度,确定待归一化实体所对应的标准实体,包括:
基于BM25相似度和文本相似度,计算综合相似度;
将综合相似度最大的标准实体确定为待归一化实体所对应的标准实体。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种实体归一化方法,其特征在于,包括:
以预设解析方式对待归一化实体进行解析得到检索字段;
利用语料匹配模型,将所述检索字段与语料库中各语料字段进行比较,得到所述检索字段与各语料字段之间的相似度;其中,
所述语料库中各语料字段是预先基于所述预设解析方式对预设行业标准词典中各标准实体进行处理后生成的,所述语料匹配模型是预先利用所述语料库所构建的;
基于所述检索字段与各语料字段之间的相似度,确定所述待归一化实体所对应的标准实体。
2.根据权利要求1所述的方法,其特征在于,所述预设解析方式包括分词、拼音化和字分割中的任意一个或多个。
3.根据权利要求2所述的方法,其特征在于,在所述预设解析方式为分词、拼音化和字分割中的任意多个的情况下,对于每一个所述预设解析方式,分别生成所对应的语料库,并构建相应的语料匹配模型。
4.根据权利要求1所述的方法,其特征在于,预先利用所述语料库所构建所述语料匹配模型的过程,包括:
构建所述语料库的BM25模型;
所述利用语料匹配模型,将所述检索字段与语料库中各语料字段进行比较,得到所述检索字段与各语料字段之间的相似度,包括:
利用所述语料库的BM25模型,将所述检索字段与所述语料库中各语料字段进行比较,得到所述检索字段与各语料字段之间的BM25分数。
5.根据权利要求4所述的方法,其特征在于,所述基于所述检索字段与各语料字段之间的相似度,确定所述待归一化实体所对应的标准实体,包括:
将所述检索字段与各语料字段之间的BM25分数确定为所述待归一化实体与各标准实体之间的BM25相似度;
基于所述BM25相似度,确定所述待归一化实体所对应的标准实体。
6.根据权利要求5所述的方法,其特征在于,还包括:
计算所述待归一化实体与各标准实体之间的文本相似度;
所述基于所述BM25相似度,确定所述待归一化实体所对应的标准实体,包括:
基于所述BM25相似度和所述文本相似度,确定所述待归一化实体所对应的标准实体。
7.根据权利要求6所述的方法,其特征在于,所述基于所述BM25相似度和所述文本相似度,确定所述待归一化实体所对应的标准实体,包括:
基于所述BM25相似度和所述文本相似度,计算综合相似度;
将综合相似度最大的标准实体确定为所述待归一化实体所对应的标准实体。
8.一种实体归一化装置,其特征在于,包括:
解析模块,用于以预设解析方式对待归一化实体进行解析得到检索字段;
比较模块,用于利用语料匹配模型,将所述检索字段与语料库中各语料字段进行比较,得到所述检索字段与各语料字段之间的相似度;其中,
所述语料库中各语料字段是预先基于所述预设解析方式对预设行业标准词典中各标准实体进行处理后生成的,所述语料匹配模型是预先利用所述语料库所构建的;
确定模块,用于基于所述检索字段与各语料字段之间的相似度,确定所述待归一化实体所对应的标准实体。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至7中任意一项所述的实体归一化方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的实体归一化方法。
CN201810585781.3A 2018-06-08 2018-06-08 实体归一化方法及装置 Pending CN110674264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810585781.3A CN110674264A (zh) 2018-06-08 2018-06-08 实体归一化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810585781.3A CN110674264A (zh) 2018-06-08 2018-06-08 实体归一化方法及装置

Publications (1)

Publication Number Publication Date
CN110674264A true CN110674264A (zh) 2020-01-10

Family

ID=69065855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810585781.3A Pending CN110674264A (zh) 2018-06-08 2018-06-08 实体归一化方法及装置

Country Status (1)

Country Link
CN (1) CN110674264A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101287229A (zh) * 2008-05-26 2008-10-15 北京捷讯畅达科技发展有限公司 应用于手机短信查询的自然语言处理技术及装置
CN102023993A (zh) * 2009-09-22 2011-04-20 株式会社理光 基于聚类/分类和时间的簇页面排名设备和方法
US20160092549A1 (en) * 2014-09-26 2016-03-31 International Business Machines Corporation Information Handling System and Computer Program Product for Deducing Entity Relationships Across Corpora Using Cluster Based Dictionary Vocabulary Lexicon
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及系统
CN106951684A (zh) * 2017-02-28 2017-07-14 北京大学 一种医学疾病诊断记录中实体消歧的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101287229A (zh) * 2008-05-26 2008-10-15 北京捷讯畅达科技发展有限公司 应用于手机短信查询的自然语言处理技术及装置
CN102023993A (zh) * 2009-09-22 2011-04-20 株式会社理光 基于聚类/分类和时间的簇页面排名设备和方法
US20160092549A1 (en) * 2014-09-26 2016-03-31 International Business Machines Corporation Information Handling System and Computer Program Product for Deducing Entity Relationships Across Corpora Using Cluster Based Dictionary Vocabulary Lexicon
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及系统
CN106951684A (zh) * 2017-02-28 2017-07-14 北京大学 一种医学疾病诊断记录中实体消歧的方法

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN109117474B (zh) 语句相似度的计算方法、装置及存储介质
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
CN110597966A (zh) 自动问答方法及装置
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
Chen et al. A study of language modeling for Chinese spelling check
CN110019669B (zh) 一种文本检索方法及装置
US11087745B2 (en) Speech recognition results re-ranking device, speech recognition results re-ranking method, and program
CN110781687B (zh) 相同意图语句的获取方法及装置
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN114861635B (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
CN116484829A (zh) 用于信息处理的方法和设备
CN109684357B (zh) 信息处理方法及装置、存储介质、终端
US9946765B2 (en) Building a domain knowledge and term identity using crowd sourcing
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
CN115964474A (zh) 一种政策关键词抽取方法、装置、存储介质及电子设备
CN110929501B (zh) 文本分析方法和装置
CN110674264A (zh) 实体归一化方法及装置
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110