CN111026921A - 基于图的关联关系获取方法、装置及计算机设备 - Google Patents

基于图的关联关系获取方法、装置及计算机设备 Download PDF

Info

Publication number
CN111026921A
CN111026921A CN201911366824.XA CN201911366824A CN111026921A CN 111026921 A CN111026921 A CN 111026921A CN 201911366824 A CN201911366824 A CN 201911366824A CN 111026921 A CN111026921 A CN 111026921A
Authority
CN
China
Prior art keywords
similarity
associated object
target
objects
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911366824.XA
Other languages
English (en)
Inventor
何海龙
李如先
申志彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Original Assignee
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd filed Critical Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority to CN201911366824.XA priority Critical patent/CN111026921A/zh
Publication of CN111026921A publication Critical patent/CN111026921A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种基于图的关联关系获取方法、装置、计算机设备及存储介质。该方法包括接收客户端发送的查询信息;获取与查询信息中各查询词条分别对应的关联对象;获取各关联对象之间的关联对象相似度组成关联对象相似度集合;获取关联对象相似度集合中超出预设的相似度阈值的关联对象相似度组成目标关联对象相似度集合;获取其中目标关联对象相似度对应的关联对象组成目标关联对象集合;将所述目标关联对象集合中各目标关联对象作为目标顶点并获取各目标顶点之间的关联对象相似度作为连接边的系数,得到与所述目标关联对象集合对应的无向图信息并发送客户端。该方法实现大数据存储的关联查询,有利于利用大数据存储系统进行关联分析。

Description

基于图的关联关系获取方法、装置及计算机设备
技术领域
本发明涉及关联关系技术领域,尤其涉及一种基于图的关联关系获取方法、装置及计算机设备。
背景技术
数据分析中常见的场景之一是对关联关系进行分析,传统的数据库例如Mysql可以进行关联查询,但是对于大数据来说,Mysql进行关联查询很容易导致服务器宕机或者运行时间非常慢,此外大数据存储系统出了Hive、Sparksql外,其余的数据存储系统对Join的支持并不是很好。
发明内容
本发明实施例提供了一种基于图的关联关系获取方法、装置、计算机设备及存储介质,旨在解决现有技术中大数据存储的关联查询运行慢及容易导致服务器宕机的问题。
第一方面,本发明实施例提供了一种基于图的关联关系获取方法,其包括:
接收客户端发送的查询信息;其中,所述查询信息中包括多个查询词条;
获取与各查询词条分别对应的关联对象;
获取各关联对象之间的关联对象相似度,以组成关联对象相似度集合;
获取所述关联对象相似度集合中超出预设的相似度阈值的关联对象相似度,以组成目标关联对象相似度集合;
获取所述目标关联对象相似度集合中每一目标关联对象相似度对应的目标关联对象,以组成目标关联对象集合;
将所述目标关联对象集合中各目标关联对象作为目标顶点,并获取各目标顶点之间的关联对象相似度作为连接边的系数,得到与所述目标关联对象集合对应的无向图信息;
将所述无向图信息发送所述客户端。
第二方面,本发明实施例提供了一种基于图的关联关系获取装置,其包括:
接收单元,用于接收客户端发送的查询信息;
关联对象获取单元,用于获取与各查询词条分别对应的关联对象;
关联对象相似度集合获取单元,用于获取各关联对象之间的关联对象相似度,以组成关联对象相似度集合;
目标关联对象相似度集合获取单元,用于获取所述关联对象相似度集合中超出预设的相似度阈值的关联对象相似度,以组成目标关联对象相似度集合;
目标关联对象集合获取单元,用于获取所述目标关联对象相似度集合中每一目标关联对象相似度对应的目标关联对象,以组成目标关联对象集合;
无向图构建单元,用于将所述目标关联对象集合中各目标关联对象作为目标顶点,并获取各目标顶点之间的关联对象相似度作为连接边的系数,得到与所述目标关联对象集合对应的无向图信息;
发送单元,用于将所述无向图信息发送所述客户端。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于图的关联关系获取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于图的关联关系获取方法。
本发明实施例提供了一种基于图的关联关系获取方法、装置、计算机设备及存储介质。该方法包括接收客户端发送的查询信息;其中,所述查询信息中包括多个查询词条;获取与各查询词条分别对应的关联对象;获取各关联对象之间的关联对象相似度,以组成关联对象相似度集合;获取所述关联对象相似度集合中超出预设的相似度阈值的关联对象相似度,以组成目标关联对象相似度集合;获取所述目标关联对象相似度集合中每一目标关联对象相似度对应的目标关联对象,以组成目标关联对象集合;将所述目标关联对象集合中各目标关联对象作为目标顶点,并获取各目标顶点之间的关联对象相似度作为连接边的系数,得到与所述目标关联对象集合对应的无向图信息;将所述无向图信息发送所述客户端。该方法通过以关联对象作顶点以及关联对象相似度作边构建无向图,实现大数据存储的关联查询,有利于利用大数据存储系统进行关联分析。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于图的关联关系获取方法的应用场景示意图;
图2为本发明实施例提供的基于图的关联关系获取方法的流程示意图;
图3为本发明实施例提供的基于图的关联关系获取方法的子流程示意图;
图4为本发明实施例提供的基于图的关联关系获取方法的另一子流程示意图;
图5为本发明实施例提供的基于图的关联关系获取装置的示意性框图;
图6为本发明实施例提供的基于图的关联关系获取装置的子单元示意性框图;
图7为本发明实施例提供的基于图的关联关系获取装置的另一子单元示意性框图;
图8为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的基于图的关联关系获取方法的应用场景示意图;图2为本发明实施例提供的基于图的关联关系获取方法的流程示意图,该基于图的关联关系获取方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S110~S170。
S110、接收客户端发送的查询信息;其中,所述查询信息中包括多个查询词条。
在本实施例中,当用户在客户终端(如智能手机、平板电脑等)打开网站的用户交互界面,其中,所述用户的交互界面由服务器提供,所述客户端根据需要查询的内容录入查询信息,服务器会接收所述客户端发送的查询信息;其中,所述查询信息可以包括所述客户端所录入的多个查询词条。所述查询词条可以是与关联对象名称相关的名称、特征词语或者字段组合等。
S120、获取与各查询词条分别对应的关联对象。
在本实施例中,当接收所述客户端发送的查询信息之后,读取所述查询信息中所包括的多个查询词条,从而获取与各查询词条分别对应的关联对象。其中,可以选择代表所述关联对象特征的字段例如公司的名称、编号,或者几个特征的组合例如以法人、主要产品、股东等组成的字符串作为关联对象。具体实施时,服务器在读取所述查询词条时,根据存储数据集合读取与各查询词条分别对应的多个字符串词条,从而获取与各字符串词条分别对应的多个关联对象。具体实施时,根据所述查询信息中包括多个查询词条,获取与各查询词条分别对应的关联对象可以应用于Hive、Mongodb、Hbase、Elasticsearch等大数据存储系统。
S130、获取各关联对象之间的关联对象相似度,以组成关联对象相似度集合。
在本实施例中,当根据所述查询信息中包括多个查询词条获取与各查询词条分别对应的关联对象之后,服务器对各关联对象之间的相似度进行计算,以获取各关联对象之间的关联对象相似度,以组成关联对象相似度集合;其中,对于各关联对象之间的相似度计算,服务器在分析对象情况比较简单的情况下,可以直接通过字符串的词频、前缀匹配或者编辑距离的方式进行计算得到各关联对象之间的相似度;或者在分析对象情况比较复杂的情况下,通过词向量算法及余弦相似度等计算得到各关联对象之间的相似度,组成关联对象相似度集合。
在一实施例中,如图3所示,步骤S130包括:
S131、将各关联对象通过基于概率统计分词模型进行分词,得到与各关联对象分别对应的分词结果;
S132、通过用于将单词转化为向量的Word2Vec模型获取各分词结果中各分词对应的词向量;
S133、根据各关联对象对应的词向量,获取各关联对象对应的语义向量;
S134、将各关联对象分别对应的语义向量进行余弦相似度的运算,得到各关联对象之间的相似度,组成所述关联对象相似度集合。
在本实施例中,当获取与各查询词条分别对应的关联对象之后,将各关联对象通过基于概率统计分词模型进行分词,得到与各关联对象分别对应的分词结果;其中,对各关联对象进行分词时,是通过基于概率统计模型的分词方法进行分词。例如,令C=C1C2...Cm,C是待切分的汉字串,令W=W1W2...Wn,W是切分的结果,Wa,Wb,……,Wk是C的所有可能的切分方案。那么,基于概率统计的切分模型就是能够找到目的词串W,使得W满足:P(W|C)=MAX(P(Wa|C),P(Wb|C)...P(Wk|C))的分词模型,上述分词模型得到的词串W即估计概率为最大之词串。
即对一个待分词的子串S,按照从左到右的顺序取出全部候选词w1、w2、…、wi、…、wn;在词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词;计算每个候选词的累积概率,同时比较得到每个候选词的最佳左邻词;如果当前词wn是字串S的尾词,且累积概率P(wn)最大,则wn就是S的终点词;从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即S的分词结果。
当得到与各关联对象分别对应的分词结果,通过用于将词语转化为向量的Word2Vec模型对所述分词结果中每一分词进行转化,得到与每一分词对应的词向量。其中,Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型,能将分词结果中每一词语转化成对应的词向量,具体可将分词结果每一词语都转化为一个k维的行向量。
根据各关联对象对应的词向量,获取各关联对象对应的语义向量,再将各关联对象分别对应的语义向量进行余弦相似度的运算,得到各关联对象之间的相似度,组成所述关联对象相似度集合。计算各关联对象之间对应的语义向量与所述语义网络向量之间夹角的余弦值,以得到各关联对象之间与所述语义网络向量之间的相似度作为各关联对象之间的相似度,组成所述关联对象相似度集合。具体实施时,服务器还可以根据各关联对象对应的词向量,获取各关联对象对应的语义向量,将各关联对象分别对应的语义向量进行欧氏距离的运算,得到各关联对象之间的相似度,组成所述关联对象相似度集合。
S140、获取所述关联对象相似度集合中超出预设的相似度阈值的关联对象相似度,以组成目标关联对象相似度集合。
在本实施例中,服务器会根据预设的相似度阀值进行判断,以得出所述目标关联对象相似度集合,其中,所述相似度阀值的取值范围应该设置在0.8至1之间。将所述关联对象相似度集合中的各关联对象之间的相似度与所述预设相似度阀值进行比较,舍弃相似度小于所述相似度阈值的关联对象相似度;获取所述关联对象相似度集合中超出预设的相似度阈值的关联对象相似度,以组成目标关联对象相似度集合。
在一实施例中,如图4所示,步骤140包括:
S141、获取所述关联对象相似度集合中的各关联对象相似度;
S142、判断各关联对象相似度是否超出预设的相似度阈值;
S143、将超出预设的相似度阈值的关联对象相似度组成所述目标关联对象相似度集合;
S144、将未超出预设的相似度阈值的关联对象相似度剔除。
在本实施例中,当服务器对各关联对象之间的相似度进行计算之后,获取所述关联对象相似度集合中的各关联对象相似度,根据预设的相似度阀值判断各关联对象相似度是否超出预设的相似度阈值,将未超出预设的相似度阈值的关联对象相似度剔除;将超出预设的相似度阈值的关联对象相似度组成所述目标关联对象相似度集合。
S150、获取所述目标关联对象相似度集合中每一目标关联对象相似度对应的目标关联对象,以组成目标关联对象集合。
在本实施例中,当通过所述相似度阀值判断筛选之后得到所述目标关联对象相似度集合,获取所述目标关联对象相似度集合中每一目标关联对象相似度对应的目标关联对象,以组成目标关联对象集合。其中,各目标关联对象之间的相似度均大于所述相似度阀值。
S160、将所述目标关联对象集合中各目标关联对象作为目标顶点,并获取各目标顶点之间的关联对象相似度作为连接边的系数,得到与所述目标关联对象集合对应的无向图信息。
在本实施例中,将所述目标关联对象集合中各目标关联对象作为目标顶点即以各关联对象为主体作为图的顶点,以各目标关联对象之间的关联对象相似度作为连接边的系数连接边构建Graph数据,从而构建各关联对象组成的无向图。
具体实施时,构建各关联对象组成的无向图例如,根据所述用户端发送的查询信息中所包括的多个查询词条,获取与各查询词条分别对应的关联对象,得到所述关联对象有A公司、B公司、C公司、D公司;其中,A公司的名称为:aaaa公司;B公司的名称为:aaaa深圳分公司;C公司的名称为:aaaabb公司;D公司的名称为:ccccab公司。
服务器会根据预设的算法计算各关联对象之间的相似度,获得A公司与B公司之间的相似为0.91;A公司与C公司之间的相似度为0.85;A公司与D公司之间的相似度为0.25;B公司与C公司之间的相似度为0.82;B公司与D公司之间的相似度为0.22;C公司与D公司之间的相似度为0.31。
按筛选要求将预设的相似度阀值设置为0.8,将未超出预设的相似度阈值的关联对象相似度剔除,将超出预设的相似度阈值的关联对象相似度组成所述目标关联对象相似度集合,即得到所述目标关联对象相似度集合为A公司与B公司之间的相似为0.91;A公司与C公司之间的相似度为0.85;B公司与C公司之间的相似度为0.82;从而获取所述目标关联对象相似度集合中每一目标关联对象相似度对应的目标关联对象,以组成目标关联对象集合,所述目标关联对象集合包括有A公司、B公司及C公司,以A公司、B公司及C公司作为目标顶点,以A公司与B公司之间的相似为0.91作为A公司与B公司的连接边系数作A公司与B公司的连接边;以A公司与C公司之间的相似为0.85作为A公司与C公司的连接边系数作A公司与C公司的连接边;以B公司与C公司之间的相似为0.82作为B公司与C公司的连接边系数作B公司与C公司的连接边,得到关于A公司、B公司、C公司的无向图。
S170、将所述无向图信息发送所述客户端。
在本实施例中,当服务器构建生成各目标关联对象组成的无向图之后,将所述无向图信息发送所述客户端,所述客户端便可以通过数据库查到所述无向图中的各目标关联对象的的数据进行合并进行关联分析。
该方法通过以关联对象作顶点以及关联对象相似度作边构建无向图,实现大数据存储的关联查询,有利于利用大数据存储系统进行关联分析。
本发明实施例还提供一种基于图的关联关系获取装置,该基于图的关联关系获取装置用于执行前述基于图的关联关系获取方法的任一实施例。具体地,请参阅图5,图5是本发明实施例提供的基于图的关联关系获取装置的示意性框图。该基于图的关联关系获取装置100可以配置于服务器中。
如图5所示,基于图的关联关系获取装置100包括接收单元110、关联对象获取单元120、关联对象相似度集合获取单元130、目标关联对象相似度集合获取单元140、目标关联对象集合获取单元150、无向图构建单元160、发送单元170。
接收单元110,用于接收单元,用于接收客户端发送的查询信息。
在本实施例中,当用户在客户终端(如智能手机、平板电脑等)打开网站的用户交互界面,其中,所述用户的交互界面由服务器提供,所述客户端根据需要查询的内容录入查询信息,服务器会接收所述客户端发送的查询信息;其中,所述查询信息可以包括所述客户端所录入的多个查询词条。所述查询词条可以是与关联对象名称相关的名称、特征词语或者字段组合等。
关联对象获取单元120,用于获取与各查询词条分别对应的关联对象。
在本实施例中,当接收所述客户端发送的查询信息之后,读取所述查询信息中所包括的多个查询词条,从而获取与各查询词条分别对应的关联对象。其中,可以选择代表所述关联对象特征的字段例如公司的名称、编号,或者几个特征的组合例如以法人、主要产品、股东等组成的字符串作为关联对象。具体实施时,服务器在读取所述查询词条时,根据存储数据集合读取与各查询词条分别对应的多个字符串词条,从而获取与各字符串词条分别对应的多个关联对象。具体实施时,根据所述查询信息中包括多个查询词条,获取与各查询词条分别对应的关联对象可以应用于Hive、Mongodb、Hbase、Elasticsearch等大数据存储系统。
关联对象相似度集合获取单元130,用于获取各关联对象之间的关联对象相似度,以组成关联对象相似度集合。
在本实施例中,当根据所述查询信息中包括多个查询词条获取与各查询词条分别对应的关联对象之后,服务器对各关联对象之间的相似度进行计算,以获取各关联对象之间的关联对象相似度,以组成关联对象相似度集合;其中,对于各关联对象之间的相似度计算,服务器在分析对象情况比较简单的情况下,可以直接通过字符串的词频、前缀匹配或者编辑距离的方式进行计算得到各关联对象之间的相似度;或者在分析对象情况比较复杂的情况下,通过词向量算法及余弦相似度等计算得到各关联对象之间的相似度,组成关联对象相似度集合。
在一实施例中,如图6所示,关联对象相似度集合获取单元130包括:
分词单元131,用于将各关联对象通过基于概率统计分词模型进行分词,得到与各关联对象分别对应的分词结果。
词向量获取单元132,用于通过用于将单词转化为向量的Word2Vec模型获取各分词结果中各分词对应的词向量。
语义词向量获取单元133,用于根据各关联对象对应的词向量,获取各关联对象对应的语义向量。
相似度计算单元134,用于根据各关联对象分别对应的词向量通过余弦相似度计算得到多个关联对象相似度,组成所述关联对象相似度集合。
在本实施例中,当获取与各查询词条分别对应的关联对象之后,将各关联对象通过基于概率统计分词模型进行分词,得到与各关联对象分别对应的分词结果;其中,对各关联对象进行分词时,是通过基于概率统计模型的分词方法进行分词。例如,令C=C1C2...Cm,C是待切分的汉字串,令W=W1W2...Wn,W是切分的结果,Wa,Wb,……,Wk是C的所有可能的切分方案。那么,基于概率统计的切分模型就是能够找到目的词串W,使得W满足:P(W|C)=MAX(P(Wa|C),P(Wb|C)...P(Wk|C))的分词模型,上述分词模型得到的词串W即估计概率为最大之词串。
即对一个待分词的子串S,按照从左到右的顺序取出全部候选词w1、w2、…、wi、…、wn;在词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词;计算每个候选词的累积概率,同时比较得到每个候选词的最佳左邻词;如果当前词wn是字串S的尾词,且累积概率P(wn)最大,则wn就是S的终点词;从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即S的分词结果。
当得到与各关联对象分别对应的分词结果,通过用于将词语转化为向量的Word2Vec模型对所述分词结果中每一分词进行转化,得到与每一分词对应的词向量。其中,Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型,能将分词结果中每一词语转化成对应的词向量,具体可将分词结果每一词语都转化为一个k维的行向量。
根据各关联对象对应的词向量,获取各关联对象对应的语义向量,再将各关联对象分别对应的语义向量进行余弦相似度的运算,得到各关联对象之间的相似度,组成所述关联对象相似度集合。计算各关联对象之间对应的语义向量与所述语义网络向量之间夹角的余弦值,以得到各关联对象之间与所述语义网络向量之间的相似度作为各关联对象之间的相似度,组成所述关联对象相似度集合。具体实施时,服务器还可以根据各关联对象对应的词向量,获取各关联对象对应的语义向量,将各关联对象分别对应的语义向量进行欧氏距离的运算,得到各关联对象之间的相似度,组成所述关联对象相似度集合。
目标关联对象相似度集合获取单元140,用于获取所述关联对象相似度集合中超出预设的相似度阈值的关联对象相似度,以组成目标关联对象相似度集合。
在本实施例中,服务器会根据预设的相似度阀值进行判断,以得出所述目标关联对象相似度集合,其中,所述相似度阀值的取值范围应该设置在0.8至1之间。将所述关联对象相似度集合中的各关联对象之间的相似度与所述预设相似度阀值进行比较,舍弃相似度小于所述相似度阈值的关联对象相似度;获取所述关联对象相似度集合中超出预设的相似度阈值的关联对象相似度,以组成目标关联对象相似度集合。
在一实施例中,如图7所示,目标关联对象相似度集合获取单元140包括:
关联对象相似度获取单元141,用于获取所述关联对象相似度集合中的各关联对象相似度;
判断单元142,用于判断各关联对象相似度是否超出预设的相似度阈值;
组合单元143,用于将超出预设的相似度阈值的关联对象相似度组成所述目标关联对象相似度集合;
剔除单元144,用于将未超出预设的相似度阈值的关联对象相似度剔除。
在本实施例中,当服务器对各关联对象之间的相似度进行计算之后,获取所述关联对象相似度集合中的各关联对象相似度,根据预设的相似度阀值判断各关联对象相似度是否超出预设的相似度阈值,将未超出预设的相似度阈值的关联对象相似度剔除;将超出预设的相似度阈值的关联对象相似度组成所述目标关联对象相似度集合。
目标关联对象集合获取单元150,用于获取所述目标关联对象相似度集合中每一目标关联对象相似度对应的目标关联对象,以组成目标关联对象集合。
在本实施例中,当通过所述相似度阀值判断筛选之后得到所述目标关联对象相似度集合,获取所述目标关联对象相似度集合中每一目标关联对象相似度对应的目标关联对象,以组成目标关联对象集合。其中,各目标关联对象之间的相似度均大于所述相似度阀值。
无向图构建单元160,用于将所述目标关联对象集合中各目标关联对象作为目标顶点,并获取各目标顶点之间的关联对象相似度作为连接边的系数,得到与所述目标关联对象集合对应的无向图信息。
在本实施例中,将所述目标关联对象集合中各目标关联对象作为目标顶点即以各关联对象为主体作为图的顶点,以各目标关联对象之间的关联对象相似度作为连接边的系数连接边构建Graph数据,从而构建各关联对象组成的无向图。
具体实施时,构建各关联对象组成的无向图例如,根据所述用户端发送的查询信息中所包括的多个查询词条,获取与各查询词条分别对应的关联对象,得到所述关联对象有A公司、B公司、C公司、D公司;其中,A公司的名称为:aaaa公司;B公司的名称为:aaaa深圳分公司;C公司的名称为:aaaabb公司;D公司的名称为:ccccab公司。
服务器会根据预设的算法计算各关联对象之间的相似度,获得A公司与B公司之间的相似为0.91;A公司与C公司之间的相似度为0.85;A公司与D公司之间的相似度为0.25;B公司与C公司之间的相似度为0.82;B公司与D公司之间的相似度为0.22;C公司与D公司之间的相似度为0.31。
按筛选要求将预设的相似度阀值设置为0.8,将未超出预设的相似度阈值的关联对象相似度剔除,将超出预设的相似度阈值的关联对象相似度组成所述目标关联对象相似度集合,即得到所述目标关联对象相似度集合为A公司与B公司之间的相似为0.91;A公司与C公司之间的相似度为0.85;B公司与C公司之间的相似度为0.82;从而获取所述目标关联对象相似度集合中每一目标关联对象相似度对应的目标关联对象,以组成目标关联对象集合,所述目标关联对象集合包括有A公司、B公司及C公司,以A公司、B公司及C公司作为目标顶点,以A公司与B公司之间的相似为0.91作为A公司与B公司的连接边系数作A公司与B公司的连接边;以A公司与C公司之间的相似为0.85作为A公司与C公司的连接边系数作A公司与C公司的连接边;以B公司与C公司之间的相似为0.82作为B公司与C公司的连接边系数作B公司与C公司的连接边,得到关于A公司、B公司、C公司的无向图。
发送单元170,用于将所述无向图信息发送所述客户端。
在本实施例中,当服务器构建生成各目标关联对象组成的无向图之后,将所述无向图信息发送所述客户端,所述客户端便可以通过数据库查到所述无向图中的各目标关联对象的的数据进行合并进行关联分析。
该装置通过以关联对象作顶点以及关联对象相似度作边构建无向图,实现大数据存储的关联查询,有利于利用大数据存储系统进行关联分析。
上述基于图的关联关系获取装置可以实现为计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图8,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于图的关联关系获取方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于图的关联关系获取方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例中的基于图的关联关系获取方法。
本领域技术人员可以理解,图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图8所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例中的基于图的关联关系获取方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于图的关联关系获取方法,其特征在于,包括:
接收客户端发送的查询信息;其中,所述查询信息中包括多个查询词条;
获取与各查询词条分别对应的关联对象;
获取各关联对象之间的关联对象相似度,以组成关联对象相似度集合;
获取所述关联对象相似度集合中超出预设的相似度阈值的关联对象相似度,以组成目标关联对象相似度集合;
获取所述目标关联对象相似度集合中每一目标关联对象相似度对应的目标关联对象,以组成目标关联对象集合;
将所述目标关联对象集合中各目标关联对象作为目标顶点,并获取各目标顶点之间的关联对象相似度作为连接边的系数,得到与所述目标关联对象集合对应的无向图信息;
将所述无向图信息发送所述客户端。
2.根据权利要求1所述的基于图的关联关系获取方法,其特征在于,所述获取与各查询词条分别对应的关联对象,包括:
读取存储数据集合中与各查询词条分别对应的多个字符串词条;
获取与各字符串词条分别对应的多个关联对象。
3.根据权利要求1所述的基于图的关联关系获取方法,其特征在于,所述获取各关联对象之间的关联对象相似度,以组成关联对象相似度集合,包括:
将各关联对象通过基于概率统计分词模型进行分词,得到与各关联对象分别对应的分词结果;
通过用于将单词转化为向量的Word2Vec模型获取各分词结果中各分词对应的词向量;
根据各关联对象对应的词向量,获取各关联对象对应的语义向量;
将各关联对象分别对应的语义向量进行余弦相似度的运算,得到各关联对象之间的相似度,组成所述关联对象相似度集合。
4.根据权利要求3所述的基于图的关联关系获取方法,其特征在于,所述根据各关联对象对应的词向量,获取各关联对象对应的语义向量之后,还包括:
将各关联对象分别对应的语义向量进行欧氏距离的运算,得到各关联对象之间的相似度,组成所述关联对象相似度集合。
5.根据权利要求1所述的基于图的关联关系获取方法,其特征在于,所述获取所述关联对象相似度集合中超出预设的相似度阈值的关联对象相似度,以组成目标关联对象相似度集合,包括:
获取所述关联对象相似度集合中的各关联对象相似度;
判断各关联对象相似度是否超出预设的相似度阈值;
将超出预设的相似度阈值的关联对象相似度组成所述目标关联对象相似度集合;
将未超出预设的相似度阈值的关联对象相似度剔除。
6.一种基于图的关联关系获取装置,其特征在于,包括:
接收单元,用于接收客户端发送的查询信息;
关联对象获取单元,用于获取与各查询词条分别对应的关联对象;
关联对象相似度集合获取单元,用于获取各关联对象之间的关联对象相似度,以组成关联对象相似度集合;
目标关联对象相似度集合获取单元,用于获取所述关联对象相似度集合中超出预设的相似度阈值的关联对象相似度,以组成目标关联对象相似度集合;
目标关联对象集合获取单元,用于获取所述目标关联对象相似度集合中每一目标关联对象相似度对应的目标关联对象,以组成目标关联对象集合;
无向图构建单元,用于将所述目标关联对象集合中各目标关联对象作为目标顶点,并获取各目标顶点之间的关联对象相似度作为连接边的系数,得到与所述目标关联对象集合对应的无向图信息;
发送单元,用于将所述无向图信息发送所述客户端。
7.根据权利要求6所述的基于图的关联关系获取装置,其特征在于,所述关联对象相似度集合获取单元,包括:
分词单元,用于将各关联对象通过基于概率统计分词模型进行分词,得到与各关联对象分别对应的分词结果;
词向量获取单元,用于通过用于将单词转化为向量的Word2Vec模型获取各分词结果中各分词对应的词向量;
语义词向量获取单元,用于根据各关联对象对应的词向量,获取各关联对象对应的语义向量;
相似度计算单元,用于根据各关联对象分别对应的词向量通过余弦相似度计算得到多个关联对象相似度,组成所述关联对象相似度集合。
8.根据权利要求6所述的基于图的关联关系获取装置,其特征在于,所述目标关联对象相似度集合获取单元,包括:
关联对象相似度获取单元,用于获取所述关联对象相似度集合中的各关联对象相似度;
判断单元,用于判断各关联对象相似度是否超出预设的相似度阈值;
组合单元,用于将超出预设的相似度阈值的关联对象相似度组成所述目标关联对象相似度集合;
剔除单元,用于将未超出预设的相似度阈值的关联对象相似度剔除。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于图的关联关系获取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的基于图的关联关系获取方法。
CN201911366824.XA 2019-12-26 2019-12-26 基于图的关联关系获取方法、装置及计算机设备 Pending CN111026921A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911366824.XA CN111026921A (zh) 2019-12-26 2019-12-26 基于图的关联关系获取方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911366824.XA CN111026921A (zh) 2019-12-26 2019-12-26 基于图的关联关系获取方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN111026921A true CN111026921A (zh) 2020-04-17

Family

ID=70214652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911366824.XA Pending CN111026921A (zh) 2019-12-26 2019-12-26 基于图的关联关系获取方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN111026921A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297389A (zh) * 2021-04-29 2021-08-24 上海淇玥信息技术有限公司 设备间关联关系的方法、装置和电子设备
CN113761206A (zh) * 2021-09-10 2021-12-07 平安科技(深圳)有限公司 基于意图识别的信息智能查询方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050081146A1 (en) * 2003-10-14 2005-04-14 Fujitsu Limited Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
CN102063433A (zh) * 2009-11-16 2011-05-18 华为技术有限公司 相关项推荐方法和装置
CN106326300A (zh) * 2015-07-02 2017-01-11 富士通株式会社 信息处理方法以及信息处理设备
CN107545036A (zh) * 2017-07-28 2018-01-05 深圳前海微众银行股份有限公司 客服机器人知识库建设方法、客服机器人及可读存储介质
CN109378080A (zh) * 2018-09-14 2019-02-22 浙江大学 一种基于特征词袋模型的相似中药检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050081146A1 (en) * 2003-10-14 2005-04-14 Fujitsu Limited Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
CN102063433A (zh) * 2009-11-16 2011-05-18 华为技术有限公司 相关项推荐方法和装置
CN106326300A (zh) * 2015-07-02 2017-01-11 富士通株式会社 信息处理方法以及信息处理设备
CN107545036A (zh) * 2017-07-28 2018-01-05 深圳前海微众银行股份有限公司 客服机器人知识库建设方法、客服机器人及可读存储介质
CN109378080A (zh) * 2018-09-14 2019-02-22 浙江大学 一种基于特征词袋模型的相似中药检索方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297389A (zh) * 2021-04-29 2021-08-24 上海淇玥信息技术有限公司 设备间关联关系的方法、装置和电子设备
CN113297389B (zh) * 2021-04-29 2023-02-21 上海淇玥信息技术有限公司 设备间关联关系的方法、装置和电子设备
CN113761206A (zh) * 2021-09-10 2021-12-07 平安科技(深圳)有限公司 基于意图识别的信息智能查询方法、装置、设备及介质
WO2023035529A1 (zh) * 2021-09-10 2023-03-16 平安科技(深圳)有限公司 基于意图识别的信息智能查询方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN108133045B (zh) 关键词提取方法与系统、关键词提取模型生成方法与系统
CN109918498B (zh) 一种问题入库方法和装置
CN109871437B (zh) 用于用户问题语句处理的方法及装置
CN111444363A (zh) 一种图片检索方法、装置、终端设备及存储介质
CN111026921A (zh) 基于图的关联关系获取方法、装置及计算机设备
CN114245896A (zh) 向量查询方法、装置、电子设备及存储介质
CN111078639A (zh) 数据标准化方法、装置以及电子设备
CN110969172A (zh) 一种文本的分类方法以及相关设备
CN112070506A (zh) 风险用户识别方法、装置、服务器及存储介质
CN112883736A (zh) 医疗实体关系抽取方法和装置
CN109885831B (zh) 关键术语抽取方法、装置、设备及计算机可读存储介质
CN112347246A (zh) 一种基于谱分解的自适应文档聚类方法及系统
CN113434672B (zh) 文本类型智能识别方法、装置、设备及介质
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
US11281714B2 (en) Image retrieval
CN114691868A (zh) 文本聚类方法、装置及电子设备
CN112597292B (zh) 问题回复推荐方法、装置、计算机设备和存储介质
CN106919554B (zh) 文档中无效词的识别方法及装置
CN113239668A (zh) 关键词智能提取方法、装置、计算机设备及存储介质
CN110399464B (zh) 一种相似新闻判别方法、系统及电子设备
CN112257689A (zh) 人脸识别模型的训练和识别方法、存储介质及相关设备
CN111767419A (zh) 图片搜索方法、装置、设备及计算机可读存储介质
CN113705589A (zh) 数据处理方法、装置及设备
CN113065025A (zh) 视频查重方法、装置、设备及存储介质
CN112965890B (zh) 一种数据处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination