CN112487787A

CN112487787A - 一种基于知识图谱确定目标信息的方法和装置

Info

Publication number: CN112487787A
Application number: CN202010847921.7A
Authority: CN
Inventors: 黄勇
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2021-03-12

Abstract

根据实施例公开一种基于知识图谱确定目标信息的方法和装置。方法包括：相似度计算步骤，其中，基于TFIDF算法，计算目标的名称对于每一个节点条目的TFIDF值作为节点条目与该目标的相似度分数，以及，选择步骤，其中，将相似度分数在阈值以上的节点条目作为候选条目，以及确定步骤，其中，从候选条目中确定目标信息。

Description

一种基于知识图谱确定目标信息的方法和装置

技术领域

本发明涉及数据挖掘技术，并且尤其涉及基于知识图谱确定目标信息的方法和装置。

背景技术

随着电子商务和移动支付的发展，越来越多的商户或者商家的各种相关信息需要被维护以保证经济活动安全、有序地进行。商户的相关信息例如包括商户的行业信息、门店位置信息、营业执照信息等。现有技术中，对商户或者商家的各种相关信息的填写、补充或者核实通常由商户或者商家的负责人或者由相关的市场调查人员维护。这样可能存在商户的相关信息不完整或者不准确的情况。

发明内容

根据一个实施例，公开一种基于知识图谱确定目标信息的方法。方法包括：相似度计算步骤，其中，基于TFIDF算法，计算目标的名称对于每一个节点条目的TFIDF值作为节点条目与该目标的相似度分数，以及，选择步骤，其中，将相似度分数在阈值以上的节点条目作为候选条目，以及确定步骤，其中，从候选条目中确定目标信息。

知识图谱包含多个节点和节点与节点之间的边，两个节点以及这两个节点之间的边构成一个节点条目，一个节点条目能够表示两个节点和这两个节点的关系或者表示一个节点和该节点的属性。

在一个示例中，节点条目中的三个元素由两个节点以及这两个节点之间的边组成，当节点条目表示两个节点和这两个节点的关系时，节点条目中的两个节点指代实体或者概念，当节点条目表示一个节点和该节点的属性时，节点条目中的一个节点指代实体或者概念，另一个节点指点这个实体或者概念的属性值，边指代属性。

在一个示例中，该实施例的方法还包括：分词步骤，其中，对每一个节点条目中的节点描述词和属性值进行分词操作，对目标的名称进行分词操作，以及建立倒排索引步骤，其中，在分词步骤后，针对每一个节点条目，为分词操作的结果的词建立子词到节点条目的倒排索引。

在一个示例中，在相似度计算步骤中，基于TFIDF算法，计算目标的名称的每一个子词对于每一个节点条目的TFIDF值，将目标的名称的每一个子词的TFIDF值的和作为该目标相对于一个节点条目相似度分数。

在一个示例中，在确定步骤中，其中，使用逻辑回归函数计算各个候选条目相对于该目标的名称的估算值，根据估算值从候选条目中确定该目标的信息。

在一个示例中，该实施例的方法还包括：过滤步骤，在该步骤中，根据要确定的目标的关系或者属性从知识图谱中过滤包含该关系或者属性的节点条目。

根据一个实施例，公开一种基于知识图谱确定目标信息的装置。所述装置包括：计算机处理器，计算机可读存储介质，存储在计算机可读存储介质上的程序指令，该程序指令被处理器执行时执行以下步骤：相似度计算步骤，其中，基于TFIDF算法，计算目标的名称对于每一个节点条目的TFIDF值作为节点条目与该目标的相似度分数，以及，选择步骤，其中，将相似度分数在阈值以上的节点条目作为候选条目，以及确定步骤，其中，从候选条目中确定目标信息。

在一个示例中，所述处理器被配置为执行：分词步骤，其中，对每一个节点条目中的节点描述词和属性值进行分词操作，对目标的名称进行分词操作，以及建立倒排索引步骤，其中，在分词步骤后，针对每一个节点条目，为分词操作的结果的词建立子词到节点条目的倒排索引。

在一个示例中，所述处理器被配置为执行：过滤步骤，在该步骤中，根据要确定的目标的关系或者属性从知识图谱中过滤包含该关系或者属性的节点条目。

根据一个实施例，公开一种基于知识图谱确定目标信息的装置。该装置包括：基于知识图谱确定目标信息的装置包括分词单元，用于对每一个节点条目中的节点描述词和属性值进行分词操作，对目标的名称进行分词操作；相似度计算单元，用于基于TFIDF算法，计算目标的名称对于每一个节点条目的TFIDF值作为节点条目与该目标的相似度分数；选择单元，用于将相似度分数在阈值以上的节点条目作为候选条目，以及确定单元，用于从候选条目中确定目标信息。

相似度计算单元还可以配置为基于TFIDF算法，计算目标的名称的每一个子词对于每一个节点条目的TFIDF值，将目标的名称的每一个子词的TFIDF值的和作为该目标相对于一个节点条目相似度分数。确定单元中还可以配置为使用逻辑回归函数计算各个候选条目相对于该目标的名称的估算值，根据估算值从候选条目中确定该目标的信息。

可选地，该装置还可以包括建立倒排索引单元，用于在分词单元后，针对每一个节点条目，为分词操作的结果的词建立子词到节点条目的倒排索引。可选地，该装置还可以包括过滤单元，用于根据要确定的目标的关系或者属性从知识图谱中过滤包含该关系或者属性的节点条目。

根据其它实施例，提供一种计算机可读存储介质，所述计算机可读存储介质具有位于其上的指令，所述指令在被执行时使计算设备执行本文描述的方法各个步骤。

本申请描述的一个或者多个实施例能够主动维护目标信息，对目标的关键信息进行补充或者更正，避免虚假信息。一些实施例的其它优势还包括及时地更新目标数据，提高目标数据治理能力，并且能够对目标自主上报的数据进行交叉验证，提高目标信息的准确性。本申请描述的一个或者多个实施例针对的目标可以是企业、商户、个人、或者任意其它的实体或者概念。

附图说明

通过以下结合附图的详细描述，本发明各个实施例的前述和其它特征以及优点将变得明显。

图1是示出根据一个实施例基于知识图谱确定目标信息的示意图。

图2是示出根据一个实施例的知识图谱中的三元组分类的示意图。

图3是示出根据一个实施例基于知识图谱确定目标信息的方法流程图。

图4是示出根据一个实施例对三元组进行分词并建议倒排序索引的示意图。

图5是示出根据一个实施例的基于知识图谱确定目标信息的系统构成的框图。

图6是示出根据一个实施例的基于知识图谱确定目标信息的装置的程序模块单元的框图。

具体实施方式

在以下描述中，阐述了许多具体细节以便提供对本发明的示例实施例的透彻理解。然而，本领域普通技术人员将理解，可以在没有这些具体细节的情况下实践本文描述的实施例。在其它情况下，本公开没有详细描述已知的算法、过程和组件，以免模糊本文描述的实施例。本文的描述中使用了短语“在实施例中”、“在示例中”、“在实施方式中”，其可以各自指示相同或不同实施例中的一个或多个。本文使用的术语是为了更好地解释各个实施例的原理、实际应用、对技术的改进，或者使本领域普通技术人员能够理解和实施本文公开的实施例。

本申请的实施例涉及基于知识图谱确定商户信息的方法和装置。

如本领域的技术人员已经了解的，知识图谱(Knowledge Graph)是一种语义网络，其旨在描述真实世界中存在的各种实体或概念及其关系，由此构成一张语义网络图。节点可以表示实体(Entity)或概念(Concept)，边表示关系。这里，实体指的是具有可区别性且独立存在的具体事物，例如特定的人、特定的城市、特定的商户等。概念指的是具有共同特性的实体所构成的集合，例如民族、国家、行业等。不同的实体/概念之间存在不同的关系。节点还可以表示实体/概念的属性值，边表示属性。例如，某个国家的属性可以是面积、人口等，此时表示该国家的节点通过作为属性的边指向的另一个节点可以是属性值。

如本领域的技术人员已经了解的，知识图谱的构建可以包括数据获取(DataAcquisition)、信息获取(Information Acquisition)和知识融合(Knowledge Fusion)等过程。数据获取过程可以包括从已有系统的业务数据抽取结构化数据和从互联网上抽取非结构化数据。信息获取过程可以包括从文本数据中识别出命名实体、从相关语料中提取出实体之间的关联关系，通过关系将实体联系起来，以及在数据源中提取实体的属性信息。在知识融合过程中，进行实体链接和知识合并。

在本申请中，利用已经构建的知识图谱表示实体的相关信息。例如，一个商户(实体)与一个行业(概念)存在从属关系(关系)。知识图谱也可以包含实体的属性信息，例如，一个商户(实体)位于(描述词)一个地理位置(属性)。

图1的左侧示意性地示出了已经构建的知识图谱。改知识图谱包含多个节点和节点与节点之间的边。两个节点与这两个节点之间的边可以表示两个实体以及这两个实体之间的关系。例如，A商户-属于-B行业。两个节点与这两个节点之间的边还可以表示一个实体以及通过作为属性的边指向这个实体的属性值。例如，A商户-位置-X城市Y路Z号

在本申请的实施例中，两个节点以及这两个节点之间的边这三个元素可以构成一个节点条目。节点条目的三个元素例如(实体1，关系，实体2)、(实体、属性，属性值)可以形成三元组。知识图谱可以视为三元组的集合。可以采用资源描述框架(RDF)作为数据模型，存储基于RDF的三元组，或者采用图数据库的存储三元组。

如图1的右侧所示，当节点条目表示两个节点和这两个节点的关系时，节点条目中的两个节点指代实体或者概念。这样的节点条目可以被称为关系条目，关系条目的三元组可以由(节点描述词，关系描述词，节点描述词)构成，三元组中的三个元素例如可以分别指代(实体，关系，实体)。当节点条目表示一个节点和该节点的属性时，节点条目中的一个节点指代实体或者概念，另一个节点指点这个实体或者概念的属性值，边指代属性。这样的节点条目可以被称为属性条目，属性条目的三元组可以由(节点描述词，属性描述词，属性值)构成，三元组中的三个元素例如可以分别指代(实体、属性，属性值)。

图1示意性地示出从知识图谱中筛选特定的节点条目并且使用节点条目的三元组信息作为商户的信息的构思。本领域的技术人员可以理解的是，本申请描述的一个或者多个实施例还可以适用于企业、个人、或者任意其它的实体或者概念。例如，将要确定的目标的信息可以是个人的信用信息，以及个人与个人之间的关系、或者个人与其它实体(例如，企业)之间的关系。

根据一个实施例，首先从知识图谱中的n个节点条目中通过计算商户与节点条目的相似度得到各个节点条目相对于商户的相似度分数，然后根据相似度分数选择k个候选条目。例如，可以将相似度分数由高到低排序，从n个节点条目中选取排名前k个节点条目作为候选条目。可以选取从这k个候选条目的三元组的内容作为商户的信息或者基于这k个候选条目的三元组的内容校验商户的信。例如，可以将三元组中的实体的属性值作为商户的改属性的属性值，或者确认三元组中的实体与该商户具有该三元组中的关系。

如上所述，知识图谱包含多个节点和节点与节点之间的边，两个节点以及这两个节点之间的边构成一个节点条目，一个节点条目能够表示两个节点和这两个节点的关系或者表示一个节点和该节点的属性。如图2所示，节点条目可以分为关系条目和属性条目。关系条目例如是(实体，关系，实体)三元组，属性条目例如可以是(实体、属性，属性值)三元组。对于关系条目，由(节点描述词，关系描述词，节点描述词)分别描述(实体，关系，实体)。对于属性条目，由(节点描述词，属性描述词，属性值)分别描述(实体、属性，属性值)。

图3是示出根据一个实施例基于知识图谱确定目标信息的方法流程图。如图3所示，基于知识图谱确定商户信息的方法包括步骤S310至S340。

在分词步骤S310中，对节点条目的元素进行分词。其中，对每一个节点条目中的节点描述词和属性值进行分词操作，对商户的名称进行分词操作。这里，商户的名称可以是用于描述该商户的任意字符或者符号。分词操作的结果是将节点描述词根据语义切分为若干个子词，以及将商户的名称切分为若干个子词。本领域的技术人员可以理解，可以使用多种工具进行中文分词，例如Ansj、jieba、ICTCLAS等。例如，对于一个节点条目，如三元组(永辉超市唐镇门店，位置，上海市浦东新区高科东路777号)，经过分词后成为(永辉超市/唐镇/门店，位置，上海市/浦东新区/高科东路/777号)。节点描述词“永辉超市唐镇门店”被切分为“永辉超市”、“唐镇”、“门店”3个子词，属性值“上海市浦东新区高科东路777号”被切分为“上海市”、“浦东新区”、“高科东路”、“777号”4个子词。又例如，对于商户的名称“高科东路永辉超市”，进行分词后可以得到2个子词“高科东路”和“永辉超市”。

在另一个实施例中，在分词步骤后，针对每一个节点条目，为分词操作的结果的词建立子词到节点条目的倒排索引。对于三元组1-三元组n，将每一个三元组节点描述词和属性值进行分词，然后将得到的各个子词映射到所有包含该子词的三元组。通过倒排索引可以提高步骤S320中的相似度计算的效率。本领域的技术人员可以理解，可以使用多种工具建立倒排索引，例如Lucene、Elasticsearch、Solr等。如图4所示的一个示例所示，在分词步骤中对实体条目(三元组的形式)1-n的每一个所包含的的实体描述词1-n进行分词操作，得到对于每一个实体条目的子词1-m，然后在对每一个子词1-m建立到实体条目的倒排序索引。

在相似度计算步骤S320中，计算商户和节点的相似度，即计算商户和各个三元组的相似度。在本申请的实施例中，基于TFIDF算法，计算商户的名称对于每一个节点条目的TFIDF值作为节点条目与该商户的相似度分数。TFIDF(term frequency–inverse documentfrequency，词频-逆向文件频率)可以用于评估一字词对于一个文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。词频(TF)表示词条(关键字)在文本中出现的频率。逆向文件频率(IDF)：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。TFIDF＝TF*IDF。在一个示例中，计算商户的名称的每一个子词对于每一个节点条目的TFIDF值，将商户的名称的每一个子词的TFIDF值的和作为该商户相对于一个节点条目相似度分数

在一个示例中，通过以下算式(1)计算商户的名称对于每一个节点条目的TFIDF值：

这里M_i是商户的名称，Tr_i是三元组。通过将商户的名称进行分词得到商户的名称的子词(M_i1，M_i2，...M_in)。其中，N_t(M_ij,Tr_i)表示子词M_ij在三元组Tr_i中出现的次数，Ns(M_ij)表示M_ij在所有三元组中出现的数量，|D|表示所使用的知识图谱中的三元组的总数量，N_d(M_ij)表示包含子词M_ij的三元组的数量。通过对每一个子词的TFIDF的值求和得到商户的名称与三元组Tr_i的相似度。这里，k和b为平滑系数。在一个优选的实施例中，k取值为0.75，b取值为0.5。在相似度计算步骤S320中，计算商户和节点的相似度，即计算商户和各个三元组的相似度。在本申请的实施例中，除了TFIDF算法外，也可基于BM25、Jaccard系数等相似度算法等进行候选三元组筛选。

在选择步骤S330中，根据相似度得分筛选候选节点条目，其中，将相似度分数在阈值以上的节点条目(三元组)作为候选条目(候选三元组)。例如，可以将相似度分数由高到低排序，从n个节点条目中选取排名前k个节点条目作为候选条目。在一个示例中，k取值为10。

在确定步骤S340中，从候选条目确定商户的信息。例如，可以选取从这k个候选条目的三元组的内容作为商户的信息或者基于这k个候选条目的三元组的内容校验商户的信。例如，可以将三元组中的实体的属性值作为商户的改属性的属性值，或者确认三元组中的实体与该商户具有该三元组中的关系。

对于步骤S340，在另一个实施例中，进一步对于k个候选条目进行优化匹配和排序。在该确定步骤中可以使用逻辑回归函数计算各个候选条目相对于该商户的名称的估算值，根据估算值从候选条目中确定该商户的信息。

在一个示例中，通过以下算式(2)计算商户的名称对于每一个候选条目的估算值：

这里F(M_i’，Tr_i’)”可以采用Sigmoid函数并使用逻辑回归的分类算法，也可采用其他的机器学习算法例如SVM、GBDT、DNN、LambdaRank等。

M_i’和Tr_i’表示商户的名称M_i和三元组Tr_i的特征向量。本领域的技术人员可以理解，可以使用各种工具计算M_i和三元组Tr_i的特征向量，例如采用one-hot编码计算方法，也可以采用word2vec、BERT等基于上下文信息的嵌入式向量特征计算方法，还可以结合PRA等知识图谱随机游走算法方法。

算式(2)中的[M_i’，Tr_i’]表示特征向量M_i’和Tr_i’的连接得到的向量，其中，w为向量[M_i’，Tr_i’]权重，b为常量系数。本领域的技术人员可以理解，可以通过随机梯度下降算法，可以计算获取w和b的算术值。

通过算式(2)可以计算各个候选条目相对于该商户的名称的估算值。可以将估算值最高的条目的元素作为商户的信息。

在一个示例中，方法还包括过滤步骤，在该步骤中，根据要确定的商户的关系或者属性从知识图谱中过滤包含该关系或者属性的节点条目。由此，可以减少寻找商户信息所使用的数据量，仅仅包含该关系或者属性的知识图谱中的节点条目被用于进行分词、排序、相似度计算等操作。

本发明的其它实施例可以是计算机系统和计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上可以存储计算机可读程序指令，用于使处理器执行本发明的各实施例。

图5是示出根据一个实施例的基于知识图谱确定目标信息的系统构成的框图。图5所示的系统10包括处理器20、存储器30、I/O单元40、通信单元50。

处理器20根据从存储器30中读取的程序和数据进行商户信息的的确定。存储器30可以包括易失性存储器(例如随机存取存储器)和非易失性存储器(例如只读存储器)、以及网络存储器中的一个或者多个。存储器30中存储执行本申请描述的方法的程序、以及执行该程序将要使用的数据(知识图谱)。存储器30中存储程序模块，其被用于实现图3所示的方法的流程。存储器30中的程序模块作为各种编程指令的集合可以以计算机程序产品被分发。I/O单元40可以包括经由I/O接口与处理器30交互的各种设备，例如显示装置、用于接收用户指令的键盘、触摸屏等。通信单元50提供与其它数据处理系统的通信。通信单元50可以通过物理信道和无线通信信道通信。用于实践本发明的各个实施例的程序和数据可以通过通信单元50被传输并到存储器30中。

在一些实施例中，提供基于知识图谱确定目标信息的装置，这样的装置包括：计算机处理器，计算机可读存储介质，存储在计算机可读存储介质上的程序指令，该程序指令被处理器执行时执行以下步骤：相似度计算步骤，其中，基于TFIDF算法，计算目标的名称对于每一个节点条目的TFIDF值作为节点条目与该目标的相似度分数，以及，选择步骤，其中，将相似度分数在阈值以上的节点条目作为候选条目，以及确定步骤，其中，从候选条目中确定目标信息。

在其它实施例中，处理器还可以进一步被配置为执行：分词步骤，其中，对每一个节点条目中的节点描述词和属性值进行分词操作，对目标的名称进行分词操作，以及建立倒排索引步骤，其中，在分词步骤后，针对每一个节点条目，为分词操作的结果的词建立子词到节点条目的倒排索引。可选地，在相似度计算步骤中，基于TFIDF算法，计算目标的名称的每一个子词对于每一个节点条目的TFIDF值，将目标的名称的每一个子词的TFIDF值的和作为该目标相对于一个节点条目相似度分数。可选地，在确定步骤中，其中，使用逻辑回归函数计算各个候选条目相对于该目标的名称的估算值，根据估算值从候选条目中确定该目标的信息。

在其它实施例中，处理器还可以进一步被配置为执行：过滤步骤，在该步骤中，根据要确定的目标的关系或者属性从知识图谱中过滤包含该关系或者属性的节点条目。

图6是示出根据一个实施例的基于知识图谱确定目标信息的装置的程序模块单元的框图。该装置可以包括各种程序模块单元，其存储于图5所示的存储器30中，每个单元用于完成实施例的方法步骤中的功能。

根据一些实施例，基于知识图谱确定目标信息的装置包括分词单元，用于对每一个节点条目中的节点描述词和属性值进行分词操作，对目标的名称进行分词操作；相似度计算单元，用于基于TFIDF算法，计算目标的名称对于每一个节点条目的TFIDF值作为节点条目与该目标的相似度分数；选择单元，用于将相似度分数在阈值以上的节点条目作为候选条目，以及确定单元，用于从候选条目中确定目标信息。相似度计算单元还可以配置为基于TFIDF算法，计算目标的名称的每一个子词对于每一个节点条目的TFIDF值，将目标的名称的每一个子词的TFIDF值的和作为该目标相对于一个节点条目相似度分数。确定单元中还可以配置为使用逻辑回归函数计算各个候选条目相对于该目标的名称的估算值，根据估算值从候选条目中确定该目标的信息。

本发明的一个或多个实施方式的描述并不旨在穷举或将实施方式的范围限制为在此公开或要求保护的精确形式。根据上述教导，修改和变化是可能的，或者可以从各种实施例的各种实现的实践中获得。在不脱离本发明的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。

Claims

1.一种基于知识图谱确定目标信息的方法，其特征在于，所述方法包括：

相似度计算步骤，其中，基于TFIDF算法，计算目标的名称字符对于每一个节点条目的TFIDF值作为节点条目与该目标的相似度分数，以及，

选择步骤，其中，将相似度分数在阈值以上的节点条目作为候选条目，以及

确定步骤，其中，从候选条目中确定目标信息。

2.如权利要求1所述的方法，其特征在于，所述方法包括：

分词步骤，其中，对每一个节点条目中的节点描述词和属性值进行分词操作，对目标的名称进行分词操作，以及

建立倒排索引步骤，其中，在分词步骤后，针对每一个节点条目，为分词操作的结果的词建立子词到节点条目的倒排索引。

3.如权利要求2所述的方法，其特征在于，

在相似度计算步骤中，基于TFIDF算法，计算目标的名称的每一个子词对于每一个节点条目的TFIDF值，将目标的名称的每一个子词的TFIDF值的和作为该目标相对于一个节点条目相似度分数。

4.如权利要求3所述的方法，其特征在于，

在确定步骤中，其中，使用逻辑回归函数计算各个候选条目相对于该目标的名称的估算值，根据估算值从候选条目中确定该目标的信息。

5.如权利要求4所述的方法，其特征在于，所述方法包括：

过滤步骤，在该步骤中，根据要确定的目标的关系或者属性从知识图谱中过滤包含该关系或者属性的节点条目。

6.一种基于知识图谱确定目标信息的装置，其特征在于，所述装置包括：

计算机处理器，

计算机可读存储介质，

存储在计算机可读存储介质上的程序指令，该程序指令被处理器执行时执行以下步骤：

相似度计算步骤，其中，基于TFIDF算法，计算目标的名称对于每一个节点条目的TFIDF值作为节点条目与该目标的相似度分数，以及，

确定步骤，其中，从候选条目中确定目标信息。

7.如权利要求6所述的装置，其特征在于，所述处理器被配置为执行：

8.如权利要求7所述的装置，其特征在于，

9.如权利要求8所述的装置，其特征在于，

10.如权利要求9所述的装置，其特征在于，所述处理器被配置为执行：

11.一种计算机可读存储介质，所述计算机可读存储介质具有位于其上的指令，所述指令在被执行时使计算设备执行按照权利要求1至6中任一项所述的方法。