CN109582969A - 实体匹配方法、装置及电子设备 - Google Patents

实体匹配方法、装置及电子设备 Download PDF

Info

Publication number
CN109582969A
CN109582969A CN201811475749.6A CN201811475749A CN109582969A CN 109582969 A CN109582969 A CN 109582969A CN 201811475749 A CN201811475749 A CN 201811475749A CN 109582969 A CN109582969 A CN 109582969A
Authority
CN
China
Prior art keywords
entity name
similitude
candidate
name
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811475749.6A
Other languages
English (en)
Inventor
杨帆
张成松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201811475749.6A priority Critical patent/CN109582969A/zh
Publication of CN109582969A publication Critical patent/CN109582969A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本申请公开了一种实体匹配方法、装置及电子设备,该方法包括:获取待匹配的实体名称;从包含多个标准实体名称的标准名称库中,搜索出与实体名称的匹配度较高的多个候选实体名称;确定实体名称与候选实体名称分别在至少一个预设维度上的相似性;综合实体名称与候选实体名称在至少一个预设维度上的相似性,从多个候选实体名称中,确定出与实体名称在至少一个预设维度上的综合相似性最高的候选实体名称;将综合相似性最高的候选实体名称确定为实体名称对应的标准实体名称。本申请的方案可以增大实体名称匹配所适用的情况,提高实体名称匹配的精准度,并减少人力资源消耗。

Description

实体匹配方法、装置及电子设备
技术领域
本发明涉及通信技术领域,更具体地说,涉及一种实体匹配方法、装置及电子设备。
背景技术
实体匹配已经被应用到多个不同领域,其是指找出属于同一个实体的两个对象。如,一种比较常见的实体匹配的应用场景为,根据待匹配的实体名称,找出待匹配的实体名称对应的实体标准名称。比如,在销售流通领域中,可能需要统计和跟踪不同公司之间的商品流通,但是由于销售流水记录的数据来源不一,使得销售流水中记录的同一个公司的公司名称并不标准,因此,为了实现对销售流水的跟踪和统计,就需要将销售流水中这些不标准的公司名称匹配到相应的公司标准名称。
目前为了确定待匹配的实体名称所对应的实体标准名称,需要人工预先观察一些不标准的实体名称与实体标准名称所构成的样本数据的特点,并总结出一些规则逻辑,然后依据这些规则逻辑确定实体名称所对应的实体标准名称。然而,人工观察的样本数据较为有限,因此,基于人工观察所制定的规则逻辑并不能覆盖所有情况,从而导致一些不标准的实体名称无法匹配到相应的实体标准名称。而且,通过人工观察样本数据总结规则逻辑的方式也对于人工的经验要求较高,且需要耗费较多的人力资源。
发明内容
本发明的目的是提供一种实体匹配方法、装置及电子设备,以增大实体名称匹配所适用的情况,提高实体名称匹配的精准度,并减少人力资源消耗。
为实现上述目的,本发明提供了如下技术方案:
一种实体匹配方法,包括:
获取待匹配的实体名称;
从包含多个标准实体名称的标准名称库中,搜索出与所述实体名称的匹配度较高的多个候选实体名称;
确定所述实体名称与所述候选实体名称分别在至少一个预设维度上的相似性;
综合所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,从所述多个候选实体名称中,确定出与所述实体名称在所述至少一个预设维度上的综合相似性最高的候选实体名称;
将所述综合相似性最高的候选实体名称确定为所述实体名称对应的标准实体名称。
优选的,所述确定所述实体名称与所述候选实体名称分别在至少一个预设维度上的相似性,包括:
将所述实体名称分词为至少一个第一分词,并将所述候选实体名称分词为至少一个第二分词;
按照预设的至少一种信息类别,从所述实体名称的至少一个第一分词以及所述候选实体名称的至少一个第二分词中,提取出分别属于所述至少一种所述信息类别的至少一个分词集合,其中,每种信息类别对应一种预设维度,属于每种信息类别的分词集合中包括属于该信息类别的至少一个第一分词和至少一个第二分词;
依据分别属于所述至少一种信息类别的至少一个分词集合,确定所述实体名称和所述候选实体名称分别在所述至少一种信息类别中的相似性。
优选的,所述确定所述实体名称与所述候选实体名称分别在至少一个预设维度上的相似性,还包括:
将所述实体名称的字符串与所述候选实体名称的字符串之间的相似度,确定为所述实体名称与所述候选实体名称在一个预设维度上的相似性。
优选的,所述综合所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,从所述多个候选实体名称中,确定出与所述实体名称在所述至少一个预设维度上的综合相似性最高的候选实体名称,包括:
根据所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,并利用预先通过机器学习算法训练出的二分类模型,分别确定所述多个候选实体名称与所述实体名称在所述至少一个预设维度上的综合相似性,以得到综合相似性最高的候选实体名称。
优选的,所述根据所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,并利用预先通过机器学习算法训练出的二分类模型,分别确定所述多个候选实体名称与所述实体名称在所述至少一个预设维度上的综合相似性,包括:
依据所述实体名称和所述候选实体名称分别在所述至少一个预设维度上的相似性,构建出所述实体名称和所述候选实体名称对应的特征向量,所述特征向量的维度与所述至少一个预设维度的数量相同,且所述特征向量中每个维度的数值表征一种预设维度对应的相似度;
将所述实体名称分别与所述多个候选实体名称对应的多个特征向量输入到预先通过机器学习算法训练出的二分类模型中,以通过所述二分类模型确定所述多个特征向量分别对应的综合相似性,并得到综合相似性最高的特征向量所对应的候选实体名称。
优选的,所述二分类模型通过如下方式训练得到:
获取多份正样本和多份负样本,每份正样本包括正确标注的一对实体名称样本和标准实体名称样本;每份负样本包括错误标注的一对实体名称样本和标准实体名称样本;
根据所述正样本中实体名称样本和标准实体名称样本,确定所述正样本的特征向量,所述正样本的特征向量用于表征所述正样本中的实体名称样本与标准实体名称样本在至少一个预设维度上的相似性;
根据所述负样本中实体名称样本和标准实体名称样本,确定所述负样本的特征向量,所述负样本的特征向量用于表征所述负样本中的实体名称样本与标准实体名称样本在至少一个预设维度上的相似性;
依次将所述多份正样本的特征向量以及所述多份负样本的特征向量输入到待训练的二分类模型中,并利用机器学习算法对所述二分类模型训练,直至所述二分类模型的预测精准度符合预设要求。
又一方面,本申请还提供了一种实体匹配装置,包括:
别名获取单元,用于获取待匹配的实体名称;
搜索筛选单元,用于从包含多个标准实体名称的标准名称库中,搜索出与所述实体名称的匹配度较高的多个候选实体名称;
多维度比对单元,用于确定所述实体名称与所述候选实体名称分别在至少一个预设维度上的相似性;
综合匹配单元,用于综合所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,从所述多个候选实体名称中,确定出与所述实体名称在所述至少一个预设维度上的综合相似性最高的候选实体名称;
标准确定单元,用于将所述综合相似性最高的候选实体名称确定为所述实体名称对应的标准实体名称。
优选的,所述多维度比对单元,包括:
分词子单元,用于将所述实体名称分词为至少一个第一分词,并将所述候选实体名称分词为至少一个第二分词;
类别提取子单元,用于按照预设的至少一种信息类别,从所述实体名称的至少一个第一分词以及所述候选实体名称的至少一个第二分词中,提取出分别属于所述至少一种所述信息类别的至少一个分词集合,其中,每种信息类别对应一种预设维度,属于每种信息类别的分词集合中包括属于该信息类别的至少一个第一分词和至少一个第二分词;
类别比对子单元,用于依据分别属于所述至少一种信息类别的至少一个分词集合,确定所述实体名称和所述候选实体名称分别在所述至少一种信息类别中的相似性。
优选的,所述综合匹配单元,包括:
模型匹配子单元,用于根据所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,并利用预先通过机器学习算法训练出的二分类模型,分别确定所述多个候选实体名称与所述实体名称在所述至少一个预设维度上的综合相似性,以得到综合相似性最高的候选实体名称。
又一方面,本申请还提供了一种电子设备,包括:
处理器和存储器;
其中,所述处理器用于,获取待匹配的实体名称;从包含多个标准实体名称的标准名称库中,搜索出与所述实体名称的匹配度较高的多个候选实体名称;确定所述实体名称与所述候选实体名称分别在至少一个预设维度上的相似性;综合所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,从所述多个候选实体名称中,确定出与所述实体名称在所述至少一个预设维度上的综合相似性最高的候选实体名称;将所述综合相似性最高的候选实体名称确定为所述实体名称对应的标准实体名称;
存储器,用于存储所述处理器执行以上操作所需的程序。
通过以上方案可知,为了确定与待匹配的实体名称匹配的标准实体名称,本申请会先从标准名称库中搜索出与待匹配的实体名称匹配度较高的多个候选实体名称,以较为全面的搜索出标准名称库中与实体名称匹配度符合要求的多个候选实体名称。而为了进一步提高匹配标准实体名称的精准度,本申请还确定待匹配的实体名称与候选实体名称分别至少一个预设维度上的相似性,并将与实体名称在至少一个预设维度上的综合相似度最高的候选实体名称确定为实体名称对应的标准实体名称。可见,本申请不需要基于人工总结的规则逻辑,便可以为待匹配的实体名称匹配到标准实体名称,且有利于提高匹配覆盖度以及精准度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种实体匹配方法的一种流程示意图;
图2为本申请实施例中确定待匹配的实体名称与候选实体名称在至少一个维度上的相似性的一种流程示意图;
图3为本申请实施例提供的训练二分类模型的一种实现方式的流程示意图;
图4为本申请实施例提供的一种实体匹配方法又一种流程示意图;
图5为本申请实施例提供的一种实体匹配装置的一种组成结构示意图;
图6为本申请实施例提供的一种电子设备的一种组成结构示意图。
说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。
具体实施方式
本申请的方案适用于对待匹配的实体名称匹配标准名称的场景,其在不需要人工观察样本数据得到匹配规则的前提下,可以提高标准实体名称的召回率和精准度。
本申请实施例的方案适用于具备数据计算能力的电子设备,如个人计算机或者服务器等等。
下面结合附图对本申请实施例的方案进行详细介绍。
如,参见图1,其示出了本申请一种实体匹配方法一个实施例的流程示意图,本实施例可以应用于前面提到的电子设备,本实施例的方法可以包括:
S101,获取待匹配的实体名称。
待匹配的实体名称也就是需要确定所对应的标准实体名称的实体名称。在实际应用中,为了与标准实体名称相区分,也将待匹配的实体名称称为实体别名。但是由于用户并不确定实体别名是否为标准的实体名称,因此,实体别名匹配出的标准实体名称也有可能是实体别名本身。
如,获取用户输入的待匹配的实体名称。又如,从多个待匹配标准实体名称的实体名称中确定当前待匹配的实体名称。当然,在实际应用中,在需要匹配标准实体名称的过程中,获取待匹配的实体名称的方式可以有多种,本申请对此不加以限制。
S102,从包含多个标准实体名称的标准名称库中,搜索出与该实体名称的匹配度较高的多个候选实体名称。
其中,标准名称库中存储了多个实体的标准实体名称(也称为实体标准名称)。
其中,可以基于搜索引擎对该标准名称库检索,以从标准名称库中检索出与实体名称匹配度相对较高的多个候选实体名称。如,基于搜索引擎对标准名称库进行模糊查询,可以得到按照匹配度从高到低的多个候选实体名称的列表。例如,搜索出匹配度排名靠前的指定数量个(如,指定数量通常可以设定为30~50之间的数值)候选实体名称。
其中,基于搜索引擎对标准名称库进行搜索的具体方式可以有多种,本申请对于基于搜索引擎对标准名称库的具体检索方法不加限制。
为了便于理解,以搜索引擎对标准名称库进行检索的一种方式为例进行简单说明。如,可以基于多个标准实体名称,构建出包含该多个标准实体名称的ES数据库,ES数据库包含多个索引,每个索引又包含了很多类型,这样,在输入待匹配的实体名称的字符串和/或者实体名称的字符串的分词信息,可以从该ES数据库中,检索待匹配的实体名称的字符串和/或分词信息的相似度较高的多个候选实体名称。
本申请的发明人经研究发现,基于搜索引擎对标准名称库进行检索不需要依靠人工观察得到的规则逻辑,而且,基于搜索引擎对标准名称库进行检索具有召回率高的特点,往往都能覆盖正确的标准实体名称,从而可以有效解决基于人工观察所制定的规则逻辑并不能覆盖所有情况的问题。然而,如果仅仅基于搜索引擎确定实体名称对应的标准实体名称,却存在精度较低的问题,如,搜索引擎搜索出的匹配度最高的候选标准名称往往不是正确的标准实体名称。因此,为了能够进一步提高匹配出的标准实体名称的精准度,本申请通过搜索从标准实体库中确定出多个候选实体名称之后,还需要进行后续步骤S103到S105的操作,以该多个候选实体名称筛选出与实体名称正确匹配的标准实体名称。
S103,确定该实体名称与该候选实体名称分别在至少一个预设维度上的相似性。
其中,针对每个候选实体名称,均需要计算该候选实体名称与该待匹配的实体名称分别在至少一个预设维度上的相似性。
其中,该预设维度可以根据需要设定,如,预设维度可以为字符串所表征的信息类别、字符串的词性等等。如,信息类别可以包括:地址类别、企业类别、品牌类别、产品类别等等,词性可以是名词、动词、形容词、代词等等。相应的,至少一个预设维度可以包括预设的一个或多个信息类别、预设的一个或者多个属性等中的一种或者多种。
相应的,对于一个候选实体名称而言,需要分别针对每个预设维度,确定该候选实体名称与该实体名称在该预设维度上的相似性,从而得到该候选实体名称与该实体名称分别在各个预设维度上的相似性。
可以理解的是,相对于仅仅单纯计算实体名称与候选实体名称的相似性,本申请从多个维度上来分析实体名称与候选实体名称的相似性,从而可以更为合理的确定出候选实体名称与实体名称的匹配程度,进而有利于后续精准的确定出标准实体名称。
S104,综合该实体名称与该候选实体名称在该至少一个预设维度上的相似性,从该多个候选实体名称中,确定出与该实体名称在所述至少一个预设维度上的综合相似性最高的候选实体名称。
其中,综合相似性是指综合该至少一个预设维度上的相似性所得到的相似性。
可以理解的是,如果候选实体名称与实体名称在预设的至少一个预设维度上的相似度相对较高,则说明该候选实体名称属于该实体名称对应的标准实体名称的可能性越大,因此,需要从多个候选实体名称中,筛选出在该至少一个预设维度上与该实体名称的综合相似性最高的候选实体名称。
其中,对于一个候选实体名称而言,综合该候选实体名称与实体名称在该至少一个预设维度上的相似度,来确定综合相似性的方式可以有多种。如,可以预先设定不同预设维度的相似性与综合相似性的评分的映射关系,从而分别确定各个预设维度上的相似性所表征的综合相似度的评分。相应的,将该至少一个预设维度上的相似性各自对应的综合相似度的评分相加,可以得到表征该候选实体名称与该实体名称在该至少一个预设维度上的综合相似度的总评分。
又如,可以设定每个预设维度对应的权重值,这样,针对每个候选实体名称,可以根据该候选实体名称与实体名称分别在各个预设维度上的相似度以及各个预设维度的权重,可以确定出候选实体名称与该实体名称在该至少一个预设维度上的综合相似度。例如,可以按照各个预设维度对应的权重值,对该至少一个预设维度上的相似度进行加权求和,从而得到该综合相似度。
S105,将该综合相似性最高的候选实体名称确定为该实体名称对应的标准实体名称。
可以理解的是,本实施例是以选取综合相似性最高的候选实体名称为该实体名称对应的标准实体名称为例说明,但是可以理解的是,在实际应用中,还可以是选择综合相似性排名处于前预设位的任意一个候选实体名称为该实体名称对应的标准实体名称。
可见,在本申请实施例中,为了确定与待匹配的实体名称匹配的标准实体名称,本申请会先从标准名称库中搜索出与待匹配的实体名称匹配度较高的多个候选实体名称,以较为全面的搜索出标准名称库中与实体名称匹配度符合要求的多个候选实体名称,相对于依靠人工经验得到的规则逻辑来确定与实体名称匹配的候选实体名称,可以提高匹配的召回率。而且,考虑到单纯通过搜索得到的候选实体名称与待匹配的实体名称的匹配度可能无法真实反映匹配程度,本申请还会进一步确定待匹配的实体名称与候选实体名称分别至少一个预设维度上的相似性,并综合候选实体名称与实体名称分别在至少一个预设维度上的相似度,来从候选实体名称中确定与该实体名称匹配的标准实体名称,从而可以更为精准的匹配出标准实体名称。
可见,本申请在不依靠基于人工总结的规则逻辑的基础上,便可以为待匹配的实体名称匹配到标准实体名称,且有利于提高匹配的覆盖度以及精准度。
可以理解的是,在预设维度确定的情况下,确定实体名称与候选实体名称在该预设维度上的相似性同样可以有多种实现方式,为了便于理解,下面以预设有至少一种信息类别,每种信息类别为一种预设维度为例说明。
如,参见图2,其示出了本申请在确定候选实体名称与待匹配的实体名称分别在至少一个预设维度上的相似度的一种实现流程示意图,其可以包括:
S201,将该实体名称分词为至少一个第一分词,并将该候选实体名称分词为至少一个第二分词。
其中,在本申请实施例中,对实体名称以及每个候选实体名称分别进行分词,为了便于区分,将实体名称分词出的各个词称为第一分词,而将候选实体名称分词出的词称为第二分词。
本实施例是以一个候选实体名称为例说明,但是对于每一个候选实体名称,确定该候选实体名称与该实体名称分别在至少一个预设维度上的相似度均可以采用本实施例的流程方法。
S202,按照预设的至少一种信息类别,从该实体名称的至少一个第一分词以及该候选实体名称的至少一个第二分词中,提取出分别属于该至少一种信息类别的至少一个分词集合。
其中,每种信息类别对应一种预设维度。如,信息类别可以为地址、品牌信息、企业类别信息等等。
在本实施例中,针对每种信息类别,需要分别提取出实体名称中属于该信息类别的至少一个第一分词,以及候选实体名称中属于该信息类别的至少一个第二分词,便将提取出第一分词以及第二分词构成一个分词集合。可见,属于每种信息类别的分词集合中包括属于该信息类别的至少一个第一分词和至少一个第二分词。
如,以信息类别为地址为例,则需要从实体名称分词出的第一分词中,选取出属于地址类的至少一个第一分词,相应的,还需要从候选实体名称分词出的第二分词中,选取出地址类别的至少一个第二分词,这样,后续可以根据地址这一信息类别对应的分词集合,来确定实体名称与候选实体名称在地址这一信息类别上的相似度。
S203,依据分别属于该至少一种信息类别的至少一个分词集合,确定该实体名称和该候选实体名称分别在该至少一种信息类别中的相似性。
如,针对每一种信息类别,确定该信息类别对应的分词集合,可以计算该分词集合中至少一个第一分词与至少一个第二分词之间的相似性,综合分词集合中各个第一分词分别与至少一个第二分词的相似性,可以确定出反映该实体名称和候选实体名称在该信息类别上的相似性。
举例说明,仍以信息类别为地址,假设实体名称为:广东**公司珠海分部,而候选实体名称为:广州**有限责任公司珠海分公司,并假设实体名称分词出的第一分词包括“广东”、“珠海”“**公司”,而候选实体名称分词出第二分词包括:“广州”、“珠海”“**有线责任公司”“珠海分公司”等,则实体名称中属于地址类别的第一分词可以包括“广东”和“珠海”;而候选实体名称中属于地址类别的第二分词可以包括:“广州”和“珠海”,则该信息类别对应的分词集合就包括{第一分词:“广东”、“珠海”;第二分词:“广州”、“珠海”},则可以分别计算第一分词“广东”与“广州”和“珠海”的相似性,并分别计算第一分词“珠海”与“广州”和“珠海”的相似性,这样,基于计算出的这几个相似性,可以综合确定该实体名称与候选实体名称在地址这一维度上的相似性。
当然,对于该信息类别的分词集合而言,也可以直接计算该至少一个第一分词与该至少一个第二分词之间的相似性,并将计算出的相似性作为该实体名称与候选实体名称的相似性。
可以理解的是,与直接根据实体名称与候选实体名称的字符串来确定该信息类别上的信息度相比,在图2的是实施例中,分别针对每个信息类别,会先确定该实体名称中属于该信息类别的第一分词以及该候选实体名称中属于该信息类别的第二分词,从而为确定该实体名称与候选实体名称在该信息类别上的相似度提供了更为可靠的依据,从而有利于更加准确的反映出实体名称与候选实体名称在该信息类别上的相似程度。
可以理解的是,图2实施例仅仅是以预设维度为预设的至少一个信息类别为例说明,但是当预设维度为其他维度的信息时,其过程与此类似,在此不再赘述。
可以理解的是,考虑到实体名称的整个字符串与候选实体名称的整个字符串之间的整体相似性同样可以从一定程度上反映出实体名称与候选实体名称的匹配程度,因此,本申请实施例的预设维度还可以为整个字符串这一维度上的相似性。具体的,在以上提到的预设维度包括信息类别或者词性等维度的情况下,本申请实施例还可以包括:确定该实体名称的字符串与该候选实体名称的字符串之间的相似度,并将该实体名称的字符串与该候选实体名称的字符串之间的相似度确定为实体名称与候选实体名称在一个预设维度上的相似性。
可以理解的是,为了能够更为便捷、快速的确定出与实体名称在至少一个预设维度上的综合相似性最高的候选实体名称,本申请还可以预先训练神经网络模型,这样,可以将各个候选实体名称与实体名称分别在至少一个预设维度上的相似性输入预先训练得到的神经网络模型中,以通过该神经网络模型输出综合相似性最高的候选实体名称。
可选的,预先训练的神经网络模型可以为预先通过机器学习算法训练出的二分类模型。其中,机器学习算法可以为支持向量机、随机森林、逻辑回归、朴素贝叶斯等算法中的一种或者多种。如,可以采用多种机器学习算法,并依据bagging,stacking等集成学习的方式训练得到该二分类模型。
相应的,根据该实体名称与候选实体名称分别在该至少一个预设维度上的相似性,并利用预先通过机器学习算法训练出的二分类模型,分别确定该多个候选实体名称与该实体名称在该至少一个预设维度上的综合相似性,以得到综合相似性最高的候选实体名称。
其中,二分类模型等其他神经网络模型可以采用多份已标注的正样本以及负样本训练得到,其中,正样本包括正确标注的一对实体名称样本和标准实体名称样本;负样本包括错误标注的一对实体名称样本和标准实体名称样本。
为了便于理解本申请中训练得到神经网络模型的过程,下面仍以神经网络模型为二分类模型为例进行介绍,如,参见图3,其示出了本申请实施例中训练二分类模型的一种训练流程示意图,具体可以包括:
S301,获取多份正样本和多份负样本。
其中,每份正样本包括正确标注的一对实体名称样本和标准实体名称样本;每份负样本包括错误标注的一对实体名称样本和标准实体名称样本。
也就是说,正样本中实体名称样本对应的标准实体名称就是该正样本中的标准实体名称;而负样本中标准实体名称样本并不是该负样本中实体名称样本对应的标准实体名称。
S302,根据该正样本中实体名称样本和标准实体名称样本,确定该正样本的特征向量。
其中,该正样本的特征向量用于表征该正样本中的实体名称样本与标准实体名称样本在至少一个预设维度上的相似性。
可以理解的是,正样本的特征向量可以是按照正样本的实体名称样本与标准实体名称在至少一个预设维度上的相似性,构建出的具有该至少一个预设维度对应的维度数量的向量,该向量中每个维度对应一个预设维度的相似性。
其中,正样本中实体名称样本与标准实体名称在至少一个预设维度上的相似性可以参见前面实施例的相关介绍,在此不再赘述。
S303,根据该负样本中实体名称样本和标准实体名称样本,确定该负样本的特征向量。
其中,负样本的特征向量用于表征该负样本中的实体名称样本与标准实体名称样本在至少一个预设维度上的相似性。
其中,负样本的特征向量的构成过程与正样本的特征向量的构建过程相似,具体可以参见前面步骤S302的相关介绍,在此不再赘述。
S304,依次将该多份正样本的特征向量以及该多份负样本的特征向量输入到待训练的二分类模型中,并利用机器学习算法对该二分类模型训练,直至该二分类模型的预测精准度符合预设要求。
其中,二分类模型可以根据输入的样本的特征向量,确定出该样本中的实体名称样本和标准实体名称样本之间的匹配程度,其中,该匹配程度就表征了样本中实体名称样本和标准实体名称在该至少一个预设维度上的综合相似性。
可以理解的是,由于正样本中是正确标注的实体名称样本和标准实体名称样本,因此,当正样本的特征向量输入到该二分类模型之后,该二分类模型针对该正样本的特征向量输出的匹配程度的评分会相对较高;相应的,负样本的特征向量输入到该二分类模型之后,得到的匹配程度的评分应该会相对较低。在此基础上,通过该二分类模型对于正样本的特征向量所得到的匹配程度得分以及对于负样本的特征向量所得到的匹配程度得到,可以确定二分类模型的预测精准度。
其中,如果二分类模型的预测精准度较低,则需要调整该二分类模型中的内部参数,并返回步骤S302以重新对该二分类模型进行训练。相应的,如果该二分类模型的预测精准度满足预设要求,则确定二分类模型训练完成。
其中,二分类模型的预测精准度满足预设要求可以二分类模型预测结果的准确程度超过预设阈值,当然,还可以根据实际需要,采用其他方式判断该二分类模型的预测精准度是否符合要求,本申请对此不加限制。
需要说明的是,图3仅仅是以一种训练二分类模型的方式为例进行说明,但是本领域技术人员可以理解的是,在正样本和负样本确定的情况下,利用机器学习算法训练该二分类模型的具体实现方式还可以有其他可能,本申请对此不加以限制。
可以理解的是,在基于预先训练得到的二分类模型确定候选实体名称与实体名称在至少一个预设维度上的综合相似性时,为了能够直接将候选实体名称与实体名称在至少一个预设维度上的相似性输入到二分类模型,还需要将将候选实体名称与实体名称在至少一个预设维度上的相似性转换为向量形式。为了便于理解,下面结合该场景对本申请实施例的方案进行介绍。
如,参见图4,其示出了本申请一种实体匹配方法又一个实施例的流程示意图,本实施例可以应用于前面所提到的计算机设备,本实施例的方法可以包括:
S401,获取待匹配的实体名称。
S402,基于搜索引擎从包含多个标准实体名称的标准名称库中,搜索出与该实体名称的匹配度较高的多个候选实体名称。
该步骤S402的具体实现方式可以参见前面步骤S101的相关介绍,在此不在赘述。
S403,将该实体名称分词为至少一个第一分词,并将每个候选实体名称分别分词为至少一个第二分词。
S404,针对每个候选实体名称,按照预设的至少一种信息类别,从该实体名称的至少一个第一分词以及该候选实体名称的至少一个第二分词中,提取出分别属于该至少一种信息类别的至少一个分词集合。
其中,每种信息类别对应一种预设维度。属于每种信息类别的分词集合中包括属于该信息类别的至少一个第一分词和至少一个第二分词。
S405,依据分别属于该至少一种信息类别的至少一个分词集合,确定该实体名称和该候选实体名称分别在该至少一种信息类别中的相似性。
以上步骤S403到S405可以参见前面图2实施例的相关介绍,在此不再赘述。
可以理解的是,步骤S403到S405是本申请确定该实体名称与候选实体名称分别在至少一个预设维度上的相似性的一种实现方式,本实施例仅仅是为了便于理解而以该种情况为例说明,但是对于其他实现方式也同样适合域本实施例。
S406,针对每个候选实体名称,依据该实体名称和该候选实体名称分别在至少一个预设维度上的相似性,构建出该实体名称和该候选实体名称对应的特征向量。
其中,特征向量的维度与该至少一个预设维度的数量相同,且该特征向量中每个维度的数值表征一种预设维度对应的相似度。
如,确定出候选实体名称与实体名称在9个预设维度上的相似性,则可以构建一个9维度的特征向量,且构建的特征向量中9个维度的取值分别为该9个预设维度对应的相似性。
可选的,针对每个预设维度上的相似性,还可以确定出该候选实体名称与该实体名称在该预设维度上是否相似,如,相似性大于预设阈值,则认为候选实体名称与实体名称在该预设维度上相似。如果候选实体名称与实体名称在某个预设维度上的相似,则将特征向量中该预设维度对应的取值设置为1;如果该候选实体名称与该实体名称在该预设维度上不相似,则将该特征向量中该预设维度的取值设置为0,基于此,可以构建出表征候选实体名称与实体名称在至少一个预设维度上的相似性的特征向量。
S407,将该实体名称分别与该多个候选实体名称对应的多个特征向量输入到预先通过机器学习算法训练出的二分类模型中,以通过该二分类模型确定该多个特征向量分别对应的综合相似性,并得到综合相似性最高的特征向量所对应的候选实体名称。
其中,该二分类模型的训练可以参见前面的相关介绍,在此不再赘述。
可以理解的是,将候选实体名称与实体名称对应的特征向量输入到二分类模型之后,该二分类模型会基于输入的特征向量,分析该特征向量表征的该候选实体名称与实体名称之间的匹配程度。该匹配程度反映的是综合候选实体名称与实体名称在至少一个预设维度上的相似性所得到的综合匹配程度,也就是综合相似性。
相应的,二分类模型从可以确定出对应的特征向量所保证的综合相似性最高的候选实体名称,该候选实体名称就是与该实体名称最匹配的标准实体名称。
S408,将该综合相似性最高的候选实体名称确定为该实体名称对应的标准实体名称。
对应本申请的一种实体匹配方法,本申请还提供了一种实体匹配装置。
如,参见图5,其示出了本申请一种实体匹配装置一个实施例的组成结构示意图,该装置可以应用于前面提到的电子设备。该装置可以包括:
别名获取单元501,用于获取待匹配的实体名称;
搜索筛选单元502,用于从包含多个标准实体名称的标准名称库中,搜索出与所述实体名称的匹配度较高的多个候选实体名称;
多维度比对单元503,用于确定所述实体名称与所述候选实体名称分别在至少一个预设维度上的相似性;
综合匹配单元504,用于综合所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,从所述多个候选实体名称中,确定出与所述实体名称在所述至少一个预设维度上的综合相似性最高的候选实体名称;
标准确定单元505,用于将所述综合相似性最高的候选实体名称确定为所述实体名称对应的标准实体名称。
在一种可能的实现方式中,所述多维度比对单元可以包括:
分词子单元,用于将所述实体名称分词为至少一个第一分词,并将所述候选实体名称分词为至少一个第二分词;
类别提取子单元,用于按照预设的至少一种信息类别,从所述实体名称的至少一个第一分词以及所述候选实体名称的至少一个第二分词中,提取出分别属于所述至少一种所述信息类别的至少一个分词集合,其中,每种信息类别对应一种预设维度,属于每种信息类别的分词集合中包括属于该信息类别的至少一个第一分词和至少一个第二分词;
类别比对子单元,用于依据分别属于所述至少一种信息类别的至少一个分词集合,确定所述实体名称和所述候选实体名称分别在所述至少一种信息类别中的相似性。
可选的,所述确定所述实体名称与所述候选实体名称分别在至少一个预设维度上的相似性,还包括:
将所述实体名称的字符串与所述候选实体名称的字符串之间的相似度,确定为所述实体名称与所述候选实体名称在一个预设维度上的相似性。
在以上装置的实施例中,所述综合匹配单元可以包括:
模型匹配子单元,用于根据所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,并利用预先通过机器学习算法训练出的二分类模型,分别确定所述多个候选实体名称与所述实体名称在所述至少一个预设维度上的综合相似性,以得到综合相似性最高的候选实体名称。
可选的,所述模型匹配子单元,包括:
向量转换子单元,用于依据所述实体名称和所述候选实体名称分别在所述至少一个预设维度上的相似性,构建出所述实体名称和所述候选实体名称对应的特征向量,所述特征向量的维度与所述至少一个预设维度的数量相同,且所述特征向量中每个维度的数值表征一种预设维度对应的相似度;
模型处理子单元,用于将所述实体名称分别与所述多个候选实体名称对应的多个特征向量输入到预先通过机器学习算法训练出的二分类模型中,以通过所述二分类模型确定所述多个特征向量分别对应的综合相似性,并得到综合相似性最高的特征向量所对应的候选实体名称。
可选的,本申请实施例还可以包括:模型训练单元,用于通过如下方式训练得到所述二分类模型:
获取多份正样本和多份负样本,每份正样本包括正确标注的一对实体名称样本和标准实体名称样本;每份负样本包括错误标注的一对实体名称样本和标准实体名称样本;
根据所述正样本中实体名称样本和标准实体名称样本,确定所述正样本的特征向量,所述正样本的特征向量用于表征所述正样本中的实体名称样本与标准实体名称样本在至少一个预设维度上的相似性;
根据所述负样本中实体名称样本和标准实体名称样本,确定所述负样本的特征向量,所述负样本的特征向量用于表征所述负样本中的实体名称样本与标准实体名称样本在至少一个预设维度上的相似性;
依次将所述多份正样本的特征向量以及所述多份负样本的特征向量输入到待训练的二分类模型中,并利用机器学习算法对所述二分类模型训练,直至所述二分类模型的预测精准度符合预设要求。
又一方面,本申请还提供了一种电子设备,如,参见图6,其示出了本申请实施例的电子设备的一种组成结构示意图,本实施例的电子设备可以包括:
处理器601和存储器602;
其中,所述处理器601用于,获取待匹配的实体名称;从包含多个标准实体名称的标准名称库中,搜索出与所述实体名称的匹配度较高的多个候选实体名称;确定所述实体名称与所述候选实体名称分别在至少一个预设维度上的相似性;综合所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,从所述多个候选实体名称中,确定出与所述实体名称在所述至少一个预设维度上的综合相似性最高的候选实体名称;将所述综合相似性最高的候选实体名称确定为所述实体名称对应的标准实体名称。
存储器602,用于存储所述处理器执行以上操作所需的程序。
可以理解的是,图6仅仅是本申请的电子设备的简单构成的示意图,在实际应用中,该电子设备还可以包括显示器,用于显示确定出的标准实体名称;通信模块,用于接收待匹配的实体名称或者发送匹配出的标准实体名称等等,当然,该电子设备还可以包括输入装置等等,在此不再赘述。
可以理解的是,该处理器所执行的具体操作可以参见前面图1到图4实施例中电子设备侧所执行的操作,在此不再重复赘述。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种实体匹配方法,包括:
获取待匹配的实体名称;
从包含多个标准实体名称的标准名称库中,搜索出与所述实体名称的匹配度较高的多个候选实体名称;
确定所述实体名称与所述候选实体名称分别在至少一个预设维度上的相似性;
综合所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,从所述多个候选实体名称中,确定出与所述实体名称在所述至少一个预设维度上的综合相似性最高的候选实体名称;
将所述综合相似性最高的候选实体名称确定为所述实体名称对应的标准实体名称。
2.根据权利要求1所述的实体匹配方法,其特征在于,所述确定所述实体名称与所述候选实体名称分别在至少一个预设维度上的相似性,包括:
将所述实体名称分词为至少一个第一分词,并将所述候选实体名称分词为至少一个第二分词;
按照预设的至少一种信息类别,从所述实体名称的至少一个第一分词以及所述候选实体名称的至少一个第二分词中,提取出分别属于所述至少一种所述信息类别的至少一个分词集合,其中,每种信息类别对应一种预设维度,属于每种信息类别的分词集合中包括属于该信息类别的至少一个第一分词和至少一个第二分词;
依据分别属于所述至少一种信息类别的至少一个分词集合,确定所述实体名称和所述候选实体名称分别在所述至少一种信息类别中的相似性。
3.根据权利要求2所述的实体匹配方法,其特征在于,所述确定所述实体名称与所述候选实体名称分别在至少一个预设维度上的相似性,还包括:
将所述实体名称的字符串与所述候选实体名称的字符串之间的相似度,确定为所述实体名称与所述候选实体名称在一个预设维度上的相似性。
4.根据权利要求1至3任一项所述的实体匹配方法,其特征在于,所述综合所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,从所述多个候选实体名称中,确定出与所述实体名称在所述至少一个预设维度上的综合相似性最高的候选实体名称,包括:
根据所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,并利用预先通过机器学习算法训练出的二分类模型,分别确定所述多个候选实体名称与所述实体名称在所述至少一个预设维度上的综合相似性,以得到综合相似性最高的候选实体名称。
5.根据权利要求4所述的实体匹配方法,其特征在于,所述根据所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,并利用预先通过机器学习算法训练出的二分类模型,分别确定所述多个候选实体名称与所述实体名称在所述至少一个预设维度上的综合相似性,包括:
依据所述实体名称和所述候选实体名称分别在所述至少一个预设维度上的相似性,构建出所述实体名称和所述候选实体名称对应的特征向量,所述特征向量的维度与所述至少一个预设维度的数量相同,且所述特征向量中每个维度的数值表征一种预设维度对应的相似度;
将所述实体名称分别与所述多个候选实体名称对应的多个特征向量输入到预先通过机器学习算法训练出的二分类模型中,以通过所述二分类模型确定所述多个特征向量分别对应的综合相似性,并得到综合相似性最高的特征向量所对应的候选实体名称。
6.根据权利要求5所述的实体匹配方法,其特征在于,所述二分类模型通过如下方式训练得到:
获取多份正样本和多份负样本,每份正样本包括正确标注的一对实体名称样本和标准实体名称样本;每份负样本包括错误标注的一对实体名称样本和标准实体名称样本;
根据所述正样本中实体名称样本和标准实体名称样本,确定所述正样本的特征向量,所述正样本的特征向量用于表征所述正样本中的实体名称样本与标准实体名称样本在至少一个预设维度上的相似性;
根据所述负样本中实体名称样本和标准实体名称样本,确定所述负样本的特征向量,所述负样本的特征向量用于表征所述负样本中的实体名称样本与标准实体名称样本在至少一个预设维度上的相似性;
依次将所述多份正样本的特征向量以及所述多份负样本的特征向量输入到待训练的二分类模型中,并利用机器学习算法对所述二分类模型训练,直至所述二分类模型的预测精准度符合预设要求。
7.一种实体匹配装置,包括:
别名获取单元,用于获取待匹配的实体名称;
搜索筛选单元,用于从包含多个标准实体名称的标准名称库中,搜索出与所述实体名称的匹配度较高的多个候选实体名称;
多维度比对单元,用于确定所述实体名称与所述候选实体名称分别在至少一个预设维度上的相似性;
综合匹配单元,用于综合所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,从所述多个候选实体名称中,确定出与所述实体名称在所述至少一个预设维度上的综合相似性最高的候选实体名称;
标准确定单元,用于将所述综合相似性最高的候选实体名称确定为所述实体名称对应的标准实体名称。
8.根据权利要求7所述的实体匹配装置,其特征在于,所述多维度比对单元,包括:
分词子单元,用于将所述实体名称分词为至少一个第一分词,并将所述候选实体名称分词为至少一个第二分词;
类别提取子单元,用于按照预设的至少一种信息类别,从所述实体名称的至少一个第一分词以及所述候选实体名称的至少一个第二分词中,提取出分别属于所述至少一种所述信息类别的至少一个分词集合,其中,每种信息类别对应一种预设维度,属于每种信息类别的分词集合中包括属于该信息类别的至少一个第一分词和至少一个第二分词;
类别比对子单元,用于依据分别属于所述至少一种信息类别的至少一个分词集合,确定所述实体名称和所述候选实体名称分别在所述至少一种信息类别中的相似性。
9.根据权利要求7或8所述的实体匹配装置,其特征在于,所述综合匹配单元,包括:
模型匹配子单元,用于根据所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,并利用预先通过机器学习算法训练出的二分类模型,分别确定所述多个候选实体名称与所述实体名称在所述至少一个预设维度上的综合相似性,以得到综合相似性最高的候选实体名称。
10.一种电子设备,包括:
处理器和存储器;
其中,所述处理器用于,获取待匹配的实体名称;从包含多个标准实体名称的标准名称库中,搜索出与所述实体名称的匹配度较高的多个候选实体名称;确定所述实体名称与所述候选实体名称分别在至少一个预设维度上的相似性;综合所述实体名称与所述候选实体名称在所述至少一个预设维度上的相似性,从所述多个候选实体名称中,确定出与所述实体名称在所述至少一个预设维度上的综合相似性最高的候选实体名称;将所述综合相似性最高的候选实体名称确定为所述实体名称对应的标准实体名称;
存储器,用于存储所述处理器执行以上操作所需的程序。
CN201811475749.6A 2018-12-04 2018-12-04 实体匹配方法、装置及电子设备 Pending CN109582969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811475749.6A CN109582969A (zh) 2018-12-04 2018-12-04 实体匹配方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811475749.6A CN109582969A (zh) 2018-12-04 2018-12-04 实体匹配方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN109582969A true CN109582969A (zh) 2019-04-05

Family

ID=65927339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811475749.6A Pending CN109582969A (zh) 2018-12-04 2018-12-04 实体匹配方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109582969A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795515A (zh) * 2019-08-26 2020-02-14 腾讯科技(深圳)有限公司 兴趣点poi的处理方法、装置、电子设备及计算机存储介质
CN110795471A (zh) * 2019-10-31 2020-02-14 北京金堤科技有限公司 数据匹配的方法及装置、计算机可读存储介质、电子设备
CN110928894A (zh) * 2019-11-18 2020-03-27 精硕科技(北京)股份有限公司 实体对齐的方法及装置
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
CN111160011A (zh) * 2019-12-17 2020-05-15 浙江大华技术股份有限公司 一种组织机构单位规范化方法、装置、设备及存储介质
CN111539853A (zh) * 2020-06-19 2020-08-14 支付宝(杭州)信息技术有限公司 标准案由确定方法、装置和设备
CN112612907A (zh) * 2021-01-04 2021-04-06 上海明略人工智能(集团)有限公司 知识图谱的生成方法、装置、电子设备和计算机可读介质
CN113538075A (zh) * 2020-04-14 2021-10-22 阿里巴巴集团控股有限公司 数据的处理方法、模型的训练方法、装置和设备
CN113901264A (zh) * 2021-11-12 2022-01-07 央视频融媒体发展有限公司 一种影视类属性数据源间的周期性实体匹配方法及系统
CN113971216A (zh) * 2021-10-22 2022-01-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN115658692A (zh) * 2022-10-28 2023-01-31 深圳市电巢科技有限公司 适用于原理图网表的校对分析方法、分析装置及电子设备
CN116611429A (zh) * 2023-04-25 2023-08-18 上海任意门科技有限公司 一种意图识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477570A (zh) * 2009-01-12 2009-07-08 浙江大学 一种自学习的中文地址判重方法
CN103218432A (zh) * 2013-04-15 2013-07-24 北京邮电大学 一种基于命名实体识别的新闻搜索结果相似度计算方法
EP2664997A2 (en) * 2012-05-18 2013-11-20 Xerox Corporation System and method for resolving named entity coreference
CN105354199A (zh) * 2014-08-20 2016-02-24 北京羽扇智信息科技有限公司 一种基于场景信息的实体含义识别方法和系统
CN108897810A (zh) * 2018-06-19 2018-11-27 苏州大学 一种实体匹配方法、系统、介质及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477570A (zh) * 2009-01-12 2009-07-08 浙江大学 一种自学习的中文地址判重方法
EP2664997A2 (en) * 2012-05-18 2013-11-20 Xerox Corporation System and method for resolving named entity coreference
CN103218432A (zh) * 2013-04-15 2013-07-24 北京邮电大学 一种基于命名实体识别的新闻搜索结果相似度计算方法
CN105354199A (zh) * 2014-08-20 2016-02-24 北京羽扇智信息科技有限公司 一种基于场景信息的实体含义识别方法和系统
CN108897810A (zh) * 2018-06-19 2018-11-27 苏州大学 一种实体匹配方法、系统、介质及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
蔡圆媛: "《大数据环境下基于知识整合的语义计算技术与应用》", 31 August 2018 *
谭咏梅等: "结合实体链接与实体聚类的命名实体消歧", 《北京邮电大学学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795515A (zh) * 2019-08-26 2020-02-14 腾讯科技(深圳)有限公司 兴趣点poi的处理方法、装置、电子设备及计算机存储介质
CN110795471A (zh) * 2019-10-31 2020-02-14 北京金堤科技有限公司 数据匹配的方法及装置、计算机可读存储介质、电子设备
CN110928894A (zh) * 2019-11-18 2020-03-27 精硕科技(北京)股份有限公司 实体对齐的方法及装置
CN111160011A (zh) * 2019-12-17 2020-05-15 浙江大华技术股份有限公司 一种组织机构单位规范化方法、装置、设备及存储介质
CN111160011B (zh) * 2019-12-17 2023-06-27 浙江大华技术股份有限公司 一种组织机构单位规范化方法、装置、设备及存储介质
CN111144102B (zh) * 2019-12-26 2022-05-31 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
CN113538075A (zh) * 2020-04-14 2021-10-22 阿里巴巴集团控股有限公司 数据的处理方法、模型的训练方法、装置和设备
CN111539853A (zh) * 2020-06-19 2020-08-14 支付宝(杭州)信息技术有限公司 标准案由确定方法、装置和设备
CN112612907A (zh) * 2021-01-04 2021-04-06 上海明略人工智能(集团)有限公司 知识图谱的生成方法、装置、电子设备和计算机可读介质
CN113971216A (zh) * 2021-10-22 2022-01-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN113901264A (zh) * 2021-11-12 2022-01-07 央视频融媒体发展有限公司 一种影视类属性数据源间的周期性实体匹配方法及系统
CN115658692A (zh) * 2022-10-28 2023-01-31 深圳市电巢科技有限公司 适用于原理图网表的校对分析方法、分析装置及电子设备
CN116611429A (zh) * 2023-04-25 2023-08-18 上海任意门科技有限公司 一种意图识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109582969A (zh) 实体匹配方法、装置及电子设备
CN104143005B (zh) 一种相关搜索系统及方法
CN109815314B (zh) 一种意图识别方法、识别设备及计算机可读存储介质
CN109815491B (zh) 答题评分方法、装置、计算机设备及存储介质
CN108268581A (zh) 知识图谱的构建方法及装置
CN110532451A (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
CN108846126A (zh) 关联问题聚合模型的生成、问答式聚合方法、装置及设备
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN105095187A (zh) 一种搜索意图识别方法及装置
CN106980624A (zh) 一种文本数据的处理方法和装置
CN101479728A (zh) 视觉以及多维搜索
CN107086040A (zh) 语音识别能力测试方法和装置
CN108959531A (zh) 信息搜索方法、装置、设备及存储介质
CN108388591A (zh) 图书的推荐方法、装置、系统及可读存储介质
CN109063000A (zh) 问句推荐方法、客服系统以及计算机可读存储介质
CN109614615A (zh) 实体匹配方法、装置及电子设备
CN110134792A (zh) 文本识别方法、装置、电子设备以及存储介质
CN109783624A (zh) 基于知识库的答案生成方法、装置和智能会话系统
CN108287816A (zh) 兴趣点在线检测、机器学习分类器训练方法和装置
CN116628339B (zh) 一种基于人工智能的教育资源推荐方法及系统
CN109492081A (zh) 文本信息搜索和信息交互方法、装置、设备及存储介质
CN109857873A (zh) 推荐实体的方法和装置、电子设备、计算机可读介质
CN109710732A (zh) 信息查询方法、装置、存储介质和电子设备
CN108717519B (zh) 一种文本分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190405