CN111191454A - 一种实体匹配的方法及装置 - Google Patents

一种实体匹配的方法及装置 Download PDF

Info

Publication number
CN111191454A
CN111191454A CN202010011557.0A CN202010011557A CN111191454A CN 111191454 A CN111191454 A CN 111191454A CN 202010011557 A CN202010011557 A CN 202010011557A CN 111191454 A CN111191454 A CN 111191454A
Authority
CN
China
Prior art keywords
entity
word
matched
entity word
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010011557.0A
Other languages
English (en)
Inventor
张梦醒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing second hand Artificial Intelligence Technology Co.,Ltd.
Original Assignee
Admaster Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Admaster Technology Beijing Co ltd filed Critical Admaster Technology Beijing Co ltd
Priority to CN202010011557.0A priority Critical patent/CN111191454A/zh
Publication of CN111191454A publication Critical patent/CN111191454A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种实体匹配的方法及装置,其中,该实体匹配的方法通过获取训练文本信息,对所述训练文本信息进行分词,得到实体词库,然后依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵,从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量,获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量,计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度,依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。这样,可以提高实体匹配的效率。

Description

一种实体匹配的方法及装置
技术领域
本发明涉及数据分析技术领域,具体而言,涉及一种实体匹配的方法及装置。
背景技术
随着社交媒体的不断发展,社交媒体逐渐成为人们获取信息资讯的主要方式,越来越多的人群选择参考社交媒体平台中的信息,制定目标方案,基于多种因素的影响,目标方案并不唯一,在第一目标方案无法实施时,如何高效的寻求相似的替代方案,成为当前迫切需要解决的问题。例如,与明星等实体相关的内容在社交媒体平台中具有较高的讨论热度,在影视、综艺节目选角或是品牌选择代言人推广时,在确定第一顺位人选的同时,还需确定一些与第一顺位人选相似的明星作为备选,以便当第一顺位明星档期不合时,还有多种可选方案,避免延误后续方案的实施进程。
目前,在确定与第一顺位人选相似的备选时,通过获取社交媒体平台上粉丝群的个人信息,例如,性别,年龄,爱好等,将第一顺位人选的粉丝群与其他明星的粉丝群进行匹配,获取与第一顺位人选的粉丝群重合度较大的粉丝群对应的明星作为备选,从而实现实体的匹配。这种实体匹配的方法,由于不同社交媒体平台中用户信息存储格式不同,因此,在匹配过程中,难以分析跨平台获取的数据信息,例如,不同格式的信息无法匹配,造成匹配资源的浪费,或是匹配错误,使得匹配结果的可信度不高,导致实体匹配的效率较低。
发明内容
有鉴于此,本发明的目的在于提供实体匹配的方法及装置,以提高实体匹配的效率。
第一方面,本发明实施例提供了实体匹配的方法,所述方法包括:
获取训练文本信息,对所述训练文本信息进行分词,得到实体词库;
依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵;
从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量;
获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量;
计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度;
依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述获取训练文本信息,对所述训练文本信息进行分词,得到实体词库,包括:
从社交媒体平台上爬取文本信息,得到所述训练文本信息;
对所述训练文本信息进行分词,基于分词结果,合并所述分词结果中的重复词,得到所述实体词库。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵,包括:
依据所述实体词库中包含的实体词,构建实体词行向量,每一实体词对应一实体词行向量,所述实体词行向量的列数为统计的所述实体词库中包含的实体词个数;
针对每一所述实体词行向量,统计该实体词行向量对应的实体词与所述实体词库中的实体词在所述训练文本信息中同时出现的频次,填入该实体词行向量对应的列。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述从所述实体词库中获取待匹配实体映射的目标实体词,包括:
对所述待匹配实体进行分词,得到待匹配分词结果,从所述实体词库中,获取与所述待匹配分词结果相匹配的目标实体词。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述从所述实体词库中获取待匹配实体映射的目标实体词,还包括:
若从所述实体词库中,获取不到与所述待匹配分词结果相匹配的目标实体词,从社交媒体平台上,爬取包含所述待匹配分词结果的补充文本信息,对所述补充文本信息进行分词;
基于分词结果,将不同于所述实体词库中的实体词补充至所述实体词库中;
基于补充的实体词,对所述实体词向量矩阵进行更新。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述获取所述目标实体词对应的行向量,包括:
判断获取的所述目标实体词对应的行向量是否唯一;
若否,通过矩阵运算法则,合并所述目标实体词对应的行向量。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体,包括:
判断所述计算得到的余弦相似度是否超过预设的相似度阈值;
若是,则确定所述计算得到的余弦相似度对应的候选列向量对应的实体与所述待匹配实体相匹配。
第二方面,本发明实施例还提供了一种实体匹配的装置,所述装置包括:
词库构建模块,用于获取训练文本信息,对所述训练文本信息进行分词,得到实体词库;
矩阵构建模块,用于依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵;
行向量获取模块,用于从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量;
列向量获取模块,用于获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量;
相似度计算模块,用于计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度;
实体匹配模块,用于依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实体匹配的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实体匹配的方法的步骤。
本发明实施例提供的实体匹配的方法及装置,通过获取训练文本信息,对所述训练文本信息进行分词,得到实体词库,然后依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵,从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量,获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量,进而计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度,依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。
这样,通过获取训练文本信息,对所述训练文本信息进行分词,得到实体词库,然后依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵,由于所述实体匹配的方法利用的是具有实际讨论内容的文本信息,提高了匹配结果的可信度,并且文本信息在不同的社交媒体平台中格式相同,因此减少了对匹配资源的浪费,进而提高了实体匹配的效率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的实体匹配的方法的流程示意图;
图2示出了本发明实施例所提供的统计两两实体词在文本信息中同时出现的频次的方法的流程示意图;
图3示出了本发明实施例所提供的实体匹配的装置的结构示意图;
图4为本申请实施例提供的一种计算机设备400的结构示意图。
主要元件符号说明:301-词库构建模块;302-矩阵构建模块;303-行向量获取模块;304-列向量获取模块;305-相似度计算模块;306-实体匹配模块;400-计算机设备;401-存储器;402-处理器。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种实体匹配的方法及装置,下面通过实施例进行描述。
实施例一
图1示出了本发明实施例所提供的实体匹配的方法的流程示意图,该方法包括步骤S101-S106;具体的:
S101,获取训练文本信息,对所述训练文本信息进行分词,得到实体词库。
本申请实施例中,作为一可选实施例,所述获取训练文本信息,对所述训练文本信息进行分词,得到实体词库,包括:
从社交媒体平台上爬取文本信息,得到所述训练文本信息;
对所述训练文本信息进行分词,基于分词结果,合并所述分词结果中的重复词,得到所述实体词库。
示例性的说明,例如,可以通过爬虫等方式,从微博、微信、新闻媒体等社交媒体平台上爬取娱乐版块的明星相关讨论帖的文本内容,作为所述训练文本信息。例如,所述训练文本信息为:“ABa,CDB,AbD。”,对所述训练文本信息进行分词,得到分词结果为:A、B、a、C、D、B、A、b、D;由于A、B、D重复出现,因此合并后得到的所述实体词库为:A、B、a、C、D、b。
S102,依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵。
本申请实施例中,作为一可选实施例,可以依据所述实体词库中包含的实体词,构建实体词行向量,每一实体词对应一实体词行向量,所述实体词行向量的列数为统计的所述实体词库中包含的实体词个数。
示例性的说明,例如,所述实体词库为:A、B、a、C、D、b,统计出所述实体词库中包含6个实体词,则确定构建所述实体词行向量的列数为6列,每一列对应一个实体词,按照统计出的顺序:A、B、a、C、D、b,进行排列,依据所述实体词库中包含的实体词,构建实体词行向量,每一实体词对应一实体词行向量。
本申请实施例中,作为一可选实施例,可以针对每一所述实体词行向量,统计该实体词行向量对应的实体词与所述实体词库中的实体词在所述训练文本信息中同时出现的频次,填入该实体词行向量对应的列。
示例性的说明,例如,所述训练文本信息为:“ABa,CDB,AbD。”,所述实体词库为:A、B、a、C、D、b,参见图2所示的统计两两实体词在文本信息中同时出现的频次的方法,构建词向量矩阵如下表1所示:
A B a C D b
A 0 2 0 0 0 1
B 2 0 1 0 1 0
a 0 1 0 1 0 0
C 0 0 1 0 1 0
D 0 1 0 1 0 1
b 1 0 0 0 1 0
表1
本申请实施例中,作为一可选实施例,所述在所述训练文本信息中同时出现,可以不限定只有相邻才记作“同时出现”,可以预设一个步长,只要在步长范围内,都可记作“同时出现”。
示例性的说明,例如,所述训练文本信息为:“ABa,CDB,AbD。”,所述实体词库为:A、B、a、C、D、b,预设步长为:两个实体词,即以a为例,A、B、C、D均为与a同时出现的实体词,统计所述频次,构建词向量矩阵如下表2所示:
Figure BDA0002357326610000081
Figure BDA0002357326610000091
表2
这样,作为一可选实施例,所述依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵,包括:
依据所述实体词库中包含的实体词,构建实体词行向量,每一实体词对应一实体词行向量,所述实体词行向量的列数为统计的所述实体词库中包含的实体词个数;
针对每一所述实体词行向量,统计该实体词行向量对应的实体词与所述实体词库中的实体词在所述训练文本信息中同时出现的频次,填入该实体词行向量对应的列。
S103,从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量。
本申请实施例中,作为一可选实施例,所述从所述实体词库中获取待匹配实体映射的目标实体词,包括:
对所述待匹配实体进行分词,得到待匹配分词结果,从所述实体词库中,获取与所述待匹配分词结果相匹配的目标实体词。
示例性的说明,例如,所述实体词库为:A、B、a、C、D、b,若所述待匹配实体为单独的明星名称:A,则从所述实体词库中,获取所述目标实体词为:A;若所述待匹配实体为明星的一段相关信息:“粉丝对A的爱称是a”,对所述待匹配实体进行分词,得到待匹配分词结果:粉丝、对、A、的、爱称、是、a,则从所述实体词库中,获取所述目标实体词为:A和a。
本申请实施例中,作为一可选实施例,所述从所述实体词库中获取待匹配实体映射的目标实体词,还包括:
若从所述实体词库中,获取不到与所述待匹配分词结果相匹配的目标实体词,从社交媒体平台上,爬取包含所述待匹配分词结果的补充文本信息,对所述补充文本信息进行分词;
基于分词结果,将不同于所述实体词库中的实体词补充至所述实体词库中;
基于补充的实体词,对所述实体词向量矩阵进行更新。
示例性的说明,例如,所述实体词库为:A、B、a、C、D、b,待匹配实体映射的目标实体词为:M和m,由于所述实体词库中不包含目标实体词M和m,因此可以依据所述目标实体词M和m,从微博、微信、新闻媒体等社交媒体平台上,爬取包含M或m的讨论帖的文本内容作为所述补充文本信息,例如,所述补充文本信息为:“MAa,MBD,mAC。”,对所述补充文本信息进行分词,得到分词结果:M、A、a、M、B、D、m、A、C,将M和m补充至所述实体词库中,以A为例,在所述补充文本信息中统计所述频次,A分别与M、a、m、C共同出现1次,A与A、B、D、b共同出现0次,原实体词向量矩阵如表1所示,因此更新后的词向量矩阵如下表3所示:
Figure BDA0002357326610000101
Figure BDA0002357326610000111
表3
本申请实施例中,作为另一可选实施例,对于所述补充文本信息与所述训练文本信息中重复出现的实体词,在统计所述频次时,还可以不统计所述重复出现的实体词在所述补充文本信息中的所述频次,即不改变所述重复出现的实体词原有的所述频次。
示例性的说明,例如,仍以上述举例情况为例,原所述实体词库为:A、B、a、C、D、b,原实体词向量矩阵如表1所示,所述补充文本信息为:“MAa,MBD,mAC。”,对所述补充文本信息进行分词,得到分词结果:M、A、a、M、B、D、m、A、C,补充后的所述实体词库为:A、B、a、C、D、b、M、m,其中,A、B、a、C、D已存在于原所述实体词库中,b未出现在所述补充文本信息中,因此在统计所述频次时,只统计M和m在所述补充文本信息中分别与A、B、a、C、D、b、M、m共同出现的频次,更新原实体词向量矩阵即可,更新后的词向量矩阵如下表4所示:
Figure BDA0002357326610000112
Figure BDA0002357326610000121
表4
本申请实施例中,作为一可选实施例,所述获取所述目标实体词对应的行向量,包括:
判断获取的所述目标实体词对应的行向量是否唯一;
若否,通过矩阵运算法则,合并所述目标实体词对应的行向量。
示例性的说明,例如,以表4为例,若所述目标实体词为M和m,由于所述目标实体词对应的行向量为:
Figure BDA0002357326610000122
Figure BDA0002357326610000123
因而,可以通过矩阵运算法则中的加法法则,合并所述目标实体词对应的行向量为:
Figure BDA0002357326610000124
若所述目标实体词为M,则直接获取所述目标实体词M对应的行向量。
S104,获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量。
示例性的说明,例如,以表4为例,由于所述目标实体词为M和m,因此,获取的所述候选列向量为:
Figure BDA0002357326610000131
若所述目标实体词只为M,则获取所述词向量矩阵中除M对应的列向量之外的其他词向量对应的候选列向量。
S105,计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度。
本申请实施例中,利用下式计算所述余弦相似度:
Figure BDA0002357326610000132
式中:
Figure BDA0002357326610000133
为所述目标实体词对应的行向量;
Figure BDA0002357326610000134
为所述候选列向量;
Figure BDA0002357326610000135
为所述目标实体词对应的行向量与所述候选列向量的余弦相似度。
示例性的说明,例如,仍以表4为例,所述目标实体词为M和m,合并后的所述目标实体词对应的行向量为:
Figure BDA0002357326610000136
经计算得到所述余弦相似度如下:
Figure BDA0002357326610000137
Figure BDA0002357326610000138
Figure BDA0002357326610000139
Figure BDA00023573266100001310
Figure BDA00023573266100001311
Figure BDA0002357326610000141
S106,依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。
本申请实施例中,作为一可选实施例,所述依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体,包括:
判断所述计算得到的余弦相似度是否超过预设的相似度阈值;
若是,则确定所述计算得到的余弦相似度对应的候选列向量对应的实体与所述待匹配实体相匹配。
示例性的说明,例如,若预设的相似度阈值为0.6,则依据上述举例情况中计算得到的所述余弦相似度可知:
Figure BDA0002357326610000142
Figure BDA0002357326610000143
因此,可以确定所述候选列向量
Figure BDA0002357326610000144
Figure BDA0002357326610000145
对应的实体B和b与所述待匹配实体相匹配。
本申请实施例中,作为一可选实施例,若已经确定待匹配实体所属的实体类型,则可以预设实体类型词库,对确定的与所述待匹配实体相匹配的实体进一步过滤,以提高实体匹配的准确度。
示例性的说明,例如,已经确定待匹配实体M所属的实体类型为明星,确定的与M相匹配的实体为:B、b、x,可以预设明星名称库,其中,所述明星名称库包括:明星名称、明星昵称、明星昵称与对应的明星名称之间的映射关系。若x为一个普通人名并且未有与之同名的明星,则依据预设的所述明星名称库,对B、b、x进一步过滤,确定与M相匹配的实体为:B和b;若b为粉丝对明星B的昵称,则依据预设的所述明星名称库中b与B的映射关系,将b和B合并为明星名称B,确定与M相匹配的实体为:B和x。
本申请实施例中,作为一可选实施例,所述方法还包括:
获取所述待匹配实体的第一属性标签库,以及,获取与所述待匹配实体相匹配的实体的第二属性标签库;
计算所述第一属性标签库与所述第二属性标签库的属性相似度,以依据所述属性相似度,对与所述待匹配实体相匹配的实体进行筛选。
示例性的说明,例如,所述待匹配实体为M,所述第一属性标签库为:性别男、未婚、演员;所述待匹配实体相匹配的实体为B和b,B对应的所述第二属性标签库为:性别男、已婚、演员;b对应的所述第二属性标签库为:性别女、未婚、歌手;计算所述第一属性标签库与所述第二属性标签库的属性相似度,以依据所述属性相似度,对与所述待匹配实体相匹配的实体进行筛选。
本申请实施例中,作为一可选实施例,可以根据用户需求,为不同的属性标签设置不同权重,依据设置的所述权重,对于所述第一属性标签库与所述第二属性标签库中一致的属性标签,可以对该属性标签对应的权重进行加法运算,对于所述第一属性标签库与所述第二属性标签库中不一致的属性标签,则不进行运算,以此计算所述属性相似度。
示例性的说明,例如,以上述举例情况为例,若预设性别属性标签权重为0.3,配偶属性标签权重为0.2,职业领域属性标签权重为0.5,由于B与待匹配实体M具有相同的性别属性标签以及职业领域属性标签,b与待匹配实体M具有相同的配偶属性标签,则经过计算得到B对应的属性相似度为:0.8,b对应的属性相似度为:0.2,因此,可以认为B与M更为匹配,更加适应用户的匹配需求,若B和b与待匹配实体M均无相同的属性标签,则可重新获取补充文本信息,再次匹配。
本申请实施例中,作为另一可选实施例,所述计算所述第一属性标签库与所述第二属性标签库的属性相似度,还包括:
依据预设的属性标签以及获取的所述第一属性标签库与所述第二属性标签库,构建实体向量矩阵;
从所述实体向量矩阵中,获取所述待匹配实体对应的行向量;
从所述实体向量矩阵中,获取所述待匹配实体相匹配的实体对应的行向量的转置列向量作为候选列向量;
计算所述待匹配实体对应的行向量与所述候选列向量的余弦相似度作为所述属性相似度。
示例性的说明,例如,待匹配实体A的第一属性标签库为:性别女、已婚、演员,所述待匹配实体相匹配的实体为B和C,B的第二属性标签库为:性别男、已婚、演员,C的第二属性标签库为:性别女、未婚、歌手,预设的属性标签为:性别女、未婚、演员,构建的所述实体向量矩阵如下表5所示:
性别女 未婚 演员
A 1 0 1
B 0 0 1
C 1 1 0
表5
从所述实体向量矩阵中,获取所述待匹配实体A对应的行向量为:
Figure BDA0002357326610000161
从所述实体向量矩阵中,获取所述候选列向量为:
Figure BDA0002357326610000162
利用余弦相似度公式:
Figure BDA0002357326610000171
式中:
Figure BDA0002357326610000172
为所述待匹配实体对应的行向量;
Figure BDA0002357326610000173
为所述候选列向量;
Figure BDA0002357326610000174
为所述待匹配实体对应的行向量与所述候选列向量的余弦相似度。
计算所述待匹配实体对应的行向量与所述候选列向量的余弦相似度为:
Figure BDA0002357326610000175
Figure BDA0002357326610000176
因此,B对应的属性相似度为:0.707,C对应的属性相似度为:0.500,可以认为B与A更为匹配,更加适应用户的匹配需求。
实施例二
图3示出了本发明实施例所提供的实体匹配的装置的结构示意图,该装置包括:
词库构建模块301,用于获取训练文本信息,对所述训练文本信息进行分词,得到实体词库;
矩阵构建模块302,用于依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵;
本申请实施例中,作为一可选实施例,所述依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵,包括:
依据所述实体词库中包含的实体词,构建实体词行向量,每一实体词对应一实体词行向量,所述实体词行向量的列数为统计的所述实体词库中包含的实体词个数;
针对每一所述实体词行向量,统计该实体词行向量对应的实体词与所述实体词库中的实体词在所述训练文本信息中同时出现的频次,填入该实体词行向量对应的列。
行向量获取模块303,用于从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量;
本申请实施例中,作为一可选实施例,所述从所述实体词库中获取待匹配实体映射的目标实体词,包括:
对所述待匹配实体进行分词,得到待匹配分词结果,从所述实体词库中,获取与所述待匹配分词结果相匹配的目标实体词。
本申请实施例中,作为另一可选实施例,所述从所述实体词库中获取待匹配实体映射的目标实体词,还包括:
若从所述实体词库中,获取不到与所述待匹配分词结果相匹配的目标实体词,从社交媒体平台上,爬取包含所述待匹配分词结果的补充文本信息,对所述补充文本信息进行分词;
基于分词结果,将不同于所述实体词库中的实体词补充至所述实体词库中;
基于补充的实体词,对所述实体词向量矩阵进行更新。
列向量获取模块304,用于获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量;
相似度计算模块305,用于计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度;
实体匹配模块306,用于依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。
作为一可选实施例,所述装置还包括:
属性标签库获取模块(图中未示出),用于获取所述待匹配实体的第一属性标签库,以及,获取与所述待匹配实体相匹配的实体的第二属性标签库;
实体筛选模块(图中未示出),用于计算所述第一属性标签库与所述第二属性标签库的属性相似度,以依据所述属性相似度,对与所述待匹配实体相匹配的实体进行筛选。
实施例三
如图4所示,本申请一实施例提供了一种计算机设备400,用于执行本申请中的实体匹配的方法,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述实体匹配的方法的步骤。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述实体匹配的方法。
对应于本申请中的实体匹配的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述实体匹配的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述实体匹配的方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种实体匹配的方法,其特征在于,所述方法包括:
获取训练文本信息,对所述训练文本信息进行分词,得到实体词库;
依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵;
从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量;
获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量;
计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度;
依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。
2.根据权利要求1所述的方法,其特征在于,所述获取训练文本信息,对所述训练文本信息进行分词,得到实体词库,包括:
从社交媒体平台上爬取文本信息,得到所述训练文本信息;
对所述训练文本信息进行分词,基于分词结果,合并所述分词结果中的重复词,得到所述实体词库。
3.根据权利要求1所述的方法,其特征在于,所述依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵,包括:
依据所述实体词库中包含的实体词,构建实体词行向量,每一实体词对应一实体词行向量,所述实体词行向量的列数为统计的所述实体词库中包含的实体词个数;
针对每一所述实体词行向量,统计该实体词行向量对应的实体词与所述实体词库中的实体词在所述训练文本信息中同时出现的频次,填入该实体词行向量对应的列。
4.根据权利要求1所述的方法,其特征在于,所述从所述实体词库中获取待匹配实体映射的目标实体词,包括:
对所述待匹配实体进行分词,得到待匹配分词结果,从所述实体词库中,获取与所述待匹配分词结果相匹配的目标实体词。
5.根据权利要求4所述的方法,其特征在于,所述从所述实体词库中获取待匹配实体映射的目标实体词,还包括:
若从所述实体词库中,获取不到与所述待匹配分词结果相匹配的目标实体词,从社交媒体平台上,爬取包含所述待匹配分词结果的补充文本信息,对所述补充文本信息进行分词;
基于分词结果,将不同于所述实体词库中的实体词补充至所述实体词库中;
基于补充的实体词,对所述实体词向量矩阵进行更新。
6.根据权利要求1所述的方法,其特征在于,所述获取所述目标实体词对应的行向量,包括:
判断获取的所述目标实体词对应的行向量是否唯一;
若否,通过矩阵运算法则,合并所述目标实体词对应的行向量。
7.根据权利要求1所述的方法,其特征在于,所述依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体,包括:
判断所述计算得到的余弦相似度是否超过预设的相似度阈值;
若是,则确定所述计算得到的余弦相似度对应的候选列向量对应的实体与所述待匹配实体相匹配。
8.一种实体匹配的装置,其特征在于,包括:
词库构建模块,用于获取训练文本信息,对所述训练文本信息进行分词,得到实体词库;
矩阵构建模块,用于依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵;
行向量获取模块,用于从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量;
列向量获取模块,用于获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量;
相似度计算模块,用于计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度;
实体匹配模块,用于依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的实体匹配的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的实体匹配的方法的步骤。
CN202010011557.0A 2020-01-06 2020-01-06 一种实体匹配的方法及装置 Pending CN111191454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010011557.0A CN111191454A (zh) 2020-01-06 2020-01-06 一种实体匹配的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010011557.0A CN111191454A (zh) 2020-01-06 2020-01-06 一种实体匹配的方法及装置

Publications (1)

Publication Number Publication Date
CN111191454A true CN111191454A (zh) 2020-05-22

Family

ID=70708810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010011557.0A Pending CN111191454A (zh) 2020-01-06 2020-01-06 一种实体匹配的方法及装置

Country Status (1)

Country Link
CN (1) CN111191454A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287680A (zh) * 2020-10-23 2021-01-29 微医云(杭州)控股有限公司 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN112948633A (zh) * 2021-04-01 2021-06-11 北京奇艺世纪科技有限公司 一种内容标签生成方法、装置及电子设备
CN116227479A (zh) * 2022-12-29 2023-06-06 易方达基金管理有限公司 一种实体识别方法、装置、计算机设备和可读存储介质
CN116522911A (zh) * 2023-06-29 2023-08-01 恒生电子股份有限公司 实体对齐方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528588A (zh) * 2016-09-14 2017-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN108897810A (zh) * 2018-06-19 2018-11-27 苏州大学 一种实体匹配方法、系统、介质及设备
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
CN109543175A (zh) * 2018-10-11 2019-03-29 北京诺道认知医学科技有限公司 一种查找同义词的方法及装置
CN109740167A (zh) * 2019-02-01 2019-05-10 北京字节跳动网络技术有限公司 用于生成信息的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528588A (zh) * 2016-09-14 2017-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN108897810A (zh) * 2018-06-19 2018-11-27 苏州大学 一种实体匹配方法、系统、介质及设备
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
CN109543175A (zh) * 2018-10-11 2019-03-29 北京诺道认知医学科技有限公司 一种查找同义词的方法及装置
CN109740167A (zh) * 2019-02-01 2019-05-10 北京字节跳动网络技术有限公司 用于生成信息的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨胜刚等: "公共信用信息采集技术及其应用研究", 中国金融出版社, pages: 168 - 170 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287680A (zh) * 2020-10-23 2021-01-29 微医云(杭州)控股有限公司 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN112287680B (zh) * 2020-10-23 2024-04-09 微医云(杭州)控股有限公司 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN112948633A (zh) * 2021-04-01 2021-06-11 北京奇艺世纪科技有限公司 一种内容标签生成方法、装置及电子设备
CN112948633B (zh) * 2021-04-01 2023-09-05 北京奇艺世纪科技有限公司 一种内容标签生成方法、装置及电子设备
CN116227479A (zh) * 2022-12-29 2023-06-06 易方达基金管理有限公司 一种实体识别方法、装置、计算机设备和可读存储介质
CN116227479B (zh) * 2022-12-29 2024-05-17 易方达基金管理有限公司 一种实体识别方法、装置、计算机设备和可读存储介质
CN116522911A (zh) * 2023-06-29 2023-08-01 恒生电子股份有限公司 实体对齐方法及装置
CN116522911B (zh) * 2023-06-29 2023-10-03 恒生电子股份有限公司 实体对齐方法及装置

Similar Documents

Publication Publication Date Title
CN111191454A (zh) 一种实体匹配的方法及装置
CN107704512B (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
US9201880B2 (en) Processing a content item with regard to an event and a location
CN106874435B (zh) 用户画像构建方法和装置
CN107786943B (zh) 一种用户分群方法及计算设备
KR20190038751A (ko) 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체
CN110020086B (zh) 一种用户画像查询方法及装置
CN108805598B (zh) 相似度信息确定方法、服务器及计算机可读存储介质
US20220229855A1 (en) Genealogical entity resolution system and method
CN108269122B (zh) 广告的相似度处理方法和装置
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN111428503B (zh) 同名人物的识别处理方法及处理装置
CN111414375A (zh) 基于数据库查询的输入推荐方法、电子装置及存储介质
CN111310011A (zh) 一种信息推送方法、装置、电子设备及存储介质
CN111209411A (zh) 一种文档分析的方法及装置
CN106933878B (zh) 一种信息处理方法及装置
CN114223012A (zh) 推送对象确定方法、装置、终端设备及存储介质
CN110598123A (zh) 基于画像相似性的信息检索推荐方法、装置及存储介质
CN107665222B (zh) 关键词的拓展方法和装置
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
CN115544214B (zh) 一种事件处理方法、设备及计算机可读存储介质
CN110008407B (zh) 一种信息检索方法及装置
CN116450664A (zh) 数据处理方法、装置、设备和存储介质
CN114090891A (zh) 个性化内容推荐方法、装置、设备及存储介质
GB2608112A (en) System and method for providing media content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201222

Address after: A108, 1st floor, curling hall, winter training center, 68 Shijingshan Road, Shijingshan District, Beijing

Applicant after: Beijing second hand Artificial Intelligence Technology Co.,Ltd.

Address before: Room 9014, 9 / F, building 3, yard 30, Shixing street, Shijingshan District, Beijing

Applicant before: ADMASTER TECHNOLOGY (BEIJING) Co.,Ltd.

TA01 Transfer of patent application right