CN113254580A - 一种特殊群体搜索方法及系统 - Google Patents

一种特殊群体搜索方法及系统 Download PDF

Info

Publication number
CN113254580A
CN113254580A CN202110562840.7A CN202110562840A CN113254580A CN 113254580 A CN113254580 A CN 113254580A CN 202110562840 A CN202110562840 A CN 202110562840A CN 113254580 A CN113254580 A CN 113254580A
Authority
CN
China
Prior art keywords
embedded representation
order
entity
target person
suspicious
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110562840.7A
Other languages
English (en)
Other versions
CN113254580B (zh
Inventor
王美红
张嘉乐
邱明
张仲楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202110562840.7A priority Critical patent/CN113254580B/zh
Publication of CN113254580A publication Critical patent/CN113254580A/zh
Application granted granted Critical
Publication of CN113254580B publication Critical patent/CN113254580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种特殊群体搜索方法及系统。该方法包括:根据关联关系拓扑图,确定目标人物各阶邻居实体节点的嵌入表示以及可疑人物各阶邻居实体节点的嵌入表示,并将目标人物的原始嵌入表示与其各阶邻居实体节点的嵌入表示拼接在一起得到目标人物的嵌入表示;将可疑人物原始嵌入表示与其各阶邻居实体节点的嵌入表示拼接在一起得到可疑人物的嵌入表示;所述关联关系拓扑图中的实体节点人群中的各个人物、房屋、博客、地名、社会安全事件、毒品、法律条文,所述关联关系拓扑图中的关联关系包括实体节点之间的交互关系以及属性关系;根据目标人物可疑人物的嵌入表示,确定目标人物是否与可疑人物为同一类。本发明具有准确度高的特点。

Description

一种特殊群体搜索方法及系统
技术领域
本发明涉及群体搜索技术领域,特别是涉及一种特殊群体搜索方法及系统。
背景技术
近年来,聚类分析方法、子图发现方法、基于网络嵌入的方法等被应用于群体发现研究,并取得了一定的效果,但是现有方法都有一定的局限性,还有很大的提升空间。
第一大类,聚类分析的方法,根据不同群体间的属性高度相似性,基于密度聚类算法,将个体聚集成为不同的族。这样的聚类算法虽然在小数据集上可以取得还不错的效果,但是实际应用中,需要综合分析线上多源数据、线下普查数据等,数据类型复杂,数据维度高。基于聚类分析的方法在处理多样化数据、高维数据的能力方面能力不佳。
第二大类是基于图数据的子图发现方法,因为图结构的稀疏性,稀疏子图求解是NP问题,大多只能通过贪婪算法求近似解,准确度不高。
近年来,开始有学者采用网络嵌入的方法寻找稀疏子图,但是如何能一方面充分利用多阶邻居节点信息,另一方面充分考虑每种关系、邻居节点的重要程度,是一个仍需解决的问题。
发明内容
本发明的目的是提供一种准确度高的特殊群体搜索方法及系统。
为实现上述目的,本发明提供了如下方案:
一种特殊群体搜索方法,包括:
获取关联关系拓扑图,所述关联关系拓扑图包括多个实体节点以及实体间的关联关系,所述实体节点包括人物实体节点和非人物实体节点,所述人物实体节点包括人群中的各个人物,所述非人物实体节点的类型包括房屋、博客、地名、社会安全事件、毒品、法律条文中的至少一种,所述关联关系包括实体节点之间的交互关系以及属性关系;
根据所述关联关系拓扑图,确定目标人物实体节点的嵌入表示,所述目标人物为所述人群中除可疑人物的任一人,所述目标人物实体节点的嵌入表示为所述目标人物实体节点的原始嵌入与所述目标人物实体节点1到l阶邻居实体节点嵌入表示的拼接;当l大于等于2时,所述目标人物l阶邻居实体节点的嵌入表示由目标人物l-1阶邻居实体节点的嵌入表示与目标人物l阶邻居实体节点的l阶连接结构的嵌入表示聚合得到,所述目标人物l阶连接结构的嵌入表示为目标人物各l阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到,当l等于1时,所述目标人物1阶邻居实体节点的嵌入表示为所述目标人物节点的原始嵌入表示与所述目标人物节点1阶连接结构的嵌入表示聚合得到。
根据所述关联关系拓扑图,确定可疑人物各阶邻居实体节点的嵌入表示,所述可疑人物实体节点的嵌入表示为所述可疑人物实体节点的原始嵌入表示与所述可疑人物1到l阶邻居实体节点嵌入表示的拼接;当l大于等于2时,所述可疑人物l阶邻居实体节点的嵌入表示由可疑人物l-1阶邻居实体节点的嵌入表示与可疑人物l阶邻居实体节点的l阶连接结构的嵌入表示聚合得到,所述可疑人物l阶连接结构的嵌入表示为可疑人物各l阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到,当l等于1时,所述可疑人物1阶邻居实体节点的嵌入表示为所述可疑人物的原始嵌入表示与所述可疑人物1阶连接结构的嵌入表示聚合得到,所述可疑人物1阶连接结构的嵌入表示可疑人物各1阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到。
根据所述目标人物的嵌入表示和所述可疑人物的嵌入表示,确定所述目标人物是否与所述可疑人物为同一类。
可选的,各阶邻居实体节点的嵌入表示的计算方法包括:
根据
Figure BDA0003079688490000021
计算l阶邻居实体节点的嵌入表示
Figure BDA0003079688490000022
其中,l≥2,
Figure BDA0003079688490000023
表示节点h的l阶连接结构的嵌入表示;
Figure BDA0003079688490000024
表示l-1阶邻居实体节点中实体节点t的嵌入表示;(h,r,t)表示三元组,h和t表示实体节点,r表示h和t的关联关系,Nh表示l阶邻居实体节点的集合,π(h,r,t)表示l阶邻居实体节点中实体节点t的权重,w表示可训练的权重矩阵,w用于提取有用的信息进行传播。
可选的,权重π(h,r,t)的计算方法包括:
根据π(h,r,t)=(wr,et)Τtanh(wreh-wr)计算权重,其中,et表示实体t在所述关联关系拓扑图中的原始嵌入表示,eh表示实体h在所述关联关系拓扑图中的原始嵌入表示,wr表示实体空间到关系空间的投影向量。
可选的,在所述获取关联关系拓扑图之前,还包括:
筛选关联关系拓扑图中的有效关联关系和可信关联关系构成新的关联关系拓扑图,并采用所述新的关联关系拓扑图替换所述关联关系拓扑图。
可选的,所述根据所述目标人物的嵌入表示和所述可疑人物的嵌入表示,确定所述目标人物是否与所述可疑人物为同一类,具体包括:
将所述目标人物嵌入表示与所述可疑人物嵌入表示做内积,得到内积值;
根据内积值的大小确定所述目标人物是否与所述可疑人物为同一类。
本发明还提供了一种特殊群体搜索系统,包括:
关联关系拓扑图获取模块,用于:获取关联关系拓扑图,所述关联关系拓扑图包括多个实体节点以及实体间的关联关系,所述实体节点包括人物实体节点和非人物实体节点,所述人物实体节点包括人群中的各个人物,所述非人物实体节点的类型包括房屋、博客、地名、社会安全事件、毒品、法律条文中的至少一种,所述关联关系包括实体节点之间的交互关系以及属性关系;
目标人物嵌入表示确定模块,用于:根据所述关联关系拓扑图,确定目标人物实体节点的嵌入表示,所述目标人物为所述人群中除可疑人物的任一人,所述目标人物实体节点的嵌入表示为所述目标人物实体节点的原始嵌入与所述目标人物实体节点1到l阶邻居实体节点嵌入表示的拼接;当l大于等于2时,所述目标人物l阶邻居实体节点的嵌入表示由目标人物l-1阶邻居实体节点的嵌入表示与目标人物l阶邻居实体节点的l阶连接结构的嵌入表示聚合得到,所述目标人物l阶连接结构的嵌入表示为目标人物各l阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到,当l等于1时,所述目标人物1阶邻居实体节点的嵌入表示为所述目标人物节点的原始嵌入表示与所述目标人物节点1阶连接结构的嵌入表示聚合得到;
可疑人物嵌入表示确定模块,用于:根据所述关联关系拓扑图,确定可疑人物各阶邻居实体节点的嵌入表示,所述可疑人物实体节点的嵌入表示为所述可疑人物实体节点的原始嵌入表示与所述可疑人物1到l阶邻居实体节点嵌入表示的拼接;当l大于等于2时,所述可疑人物l阶邻居实体节点的嵌入表示由可疑人物l-1阶邻居实体节点的嵌入表示与可疑人物l阶邻居实体节点的l阶连接结构的嵌入表示聚合得到,所述可疑人物l阶连接结构的嵌入表示为可疑人物各l阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到,当l等于1时,所述可疑人物1阶邻居实体节点的嵌入表示为所述可疑人物的原始嵌入表示与所述可疑人物1阶连接结构的嵌入表示聚合得到,所述可疑人物1阶连接结构的嵌入表示可疑人物各1阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到;
分类模块,用于:根据所述目标人物的嵌入表示和所述可疑人物的嵌入表示,确定所述目标人物是否与所述可疑人物为同一类。
可选的,所述特殊群体搜索系统还包括:
邻居实体节点嵌入表示计算模块,用于:根据
Figure BDA0003079688490000041
计算l阶邻居实体节点的嵌入表示
Figure BDA0003079688490000042
其中,l≥2,
Figure BDA0003079688490000043
表示节点h的l阶连接结构的嵌入表示;
Figure BDA0003079688490000044
表示l-1阶邻居实体节点中实体节点t的嵌入表示;(h,r,t)表示三元组,h和t表示实体节点,r表示h和t的关联关系,Nh表示l阶邻居实体节点的集合,π(h,r,t)表示l阶邻居实体节点中实体节点t的权重,w表示可训练的权重矩阵,w用于提取有用的信息进行传播。
可选的,所述特殊群体搜索系统还包括:
权重计算模块,用于根据π(h,r,t)=(wr,et)Τtanh(wreh-wr)计算权重,其中,et表示实体t在所述关联关系拓扑图中的原始嵌入表示,eh表示实体h在所述关联关系拓扑图中的原始嵌入表示,wr表示实体空间到关系空间的投影向量。
可选的,所述特殊群体搜索系统还包括:
关联关系筛选模块,用于筛选关联关系拓扑图中的有效关联关系和可信关联关系构成新的关联关系拓扑图,并采用所述新的关联关系拓扑图替换所述关联关系拓扑图。
可选的,所述分类模块,具体包括:
内积单元,用于将所述目标人物嵌入表示与所述可疑人物嵌入表示做内积,得到内积值。
分类单元,用于根据内积值的大小确定所述目标人物是否与所述可疑人物为同一类。
根据本发明提供的具体实施例,公开了以下技术效果:本发明实施例提供的特殊群体搜索方法及系统基于知识图谱和图注意力网络,引入了高阶邻居节点信息和知识图谱信息(房屋、博客、地名、社会安全事件、毒品、法律条文等),将特殊群体的高阶交互关系信息和知识图谱信息结合到同一个关联关系拓扑图中,根据注意力权重聚合其高阶特征,完成对特殊目标人群的识别。相较于现有技术中基于图数据的子图发现方法,本申请一方面利用了多阶邻居节点信息,另一方面考虑每种关系、邻居节点的重要程度,因而,本申请具有搜索准确度高的特点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的特殊群体搜索方法的流程图;
图2为本发明实施例1中关联关系拓扑图的示意图;
图3为本发明实施例1中特殊群体搜索方法的具体流程图;
图4为本发明实施例2提供的特殊群体搜索系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种准确度高的特殊群体搜索方法及系统。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
参见图1,本实施例提供了一种特殊群体搜索方法,该方法包括以下步骤:
步骤101:获取关联关系拓扑图,所述关联关系拓扑图包括多个实体节点以及实体间的关联关系,所述实体节点包括人物实体节点和非人物实体节点,所述人物实体节点包括人群中的各个人物,所述非人物实体节点的类型包括房屋、博客、地名、社会安全事件、毒品、法律条文中的至少一种,所述关联关系包括实体节点之间的交互关系以及属性关系。
步骤102:根据所述关联关系拓扑图,确定目标人物实体节点的嵌入表示,所述目标人物为所述人群中除可疑人物的任一人,所述目标人物实体节点的嵌入表示为所述目标人物实体节点的原始嵌入与所述目标人物实体节点1到l阶邻居实体节点嵌入表示的拼接;当l大于等于2时,所述目标人物l阶邻居实体节点的嵌入表示由目标人物l-1阶邻居实体节点的嵌入表示与目标人物l阶邻居实体节点的l阶连接结构的嵌入表示聚合得到,所述目标人物l阶连接结构的嵌入表示为目标人物各l阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到,当l等于1时,所述目标人物1阶邻居实体节点的嵌入表示为所述目标人物节点的原始嵌入表示与所述目标人物节点1阶连接结构的嵌入表示聚合得到。
步骤103:根据所述关联关系拓扑图,确定可疑人物各阶邻居实体节点的嵌入表示,所述可疑人物实体节点的嵌入表示为所述可疑人物实体节点的原始嵌入表示与所述可疑人物1到l阶邻居实体节点嵌入表示的拼接;当l大于等于2时,所述可疑人物l阶邻居实体节点的嵌入表示由可疑人物l-1阶邻居实体节点的嵌入表示与可疑人物l阶邻居实体节点的l阶连接结构的嵌入表示聚合得到,所述可疑人物l阶连接结构的嵌入表示为可疑人物各l阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到,当l等于1时,所述可疑人物1阶邻居实体节点的嵌入表示为所述可疑人物的原始嵌入表示与所述可疑人物1阶连接结构的嵌入表示聚合得到,所述可疑人物1阶连接结构的嵌入表示可疑人物各1阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到。
步骤104:根据所述目标人物的嵌入表示和所述可疑人物的嵌入表示,确定所述目标人物是否与所述可疑人物为同一类。比如,可疑人物为吸毒人员、传销人员等,那么通过上述步骤101至104便可以得到与吸毒人员或传销人员为同一类的人员。
在本实施例中,节点的嵌入表示包括节点的属性特征和节点的图关系特征,其中,人物实体节点在关联关系拓扑图中的属性特征可以是人物的姓名、编号等,博客实体节点在关联关系拓扑图中的属性特征可以是博客的名称等,人物实体节点在关联关系拓扑图中的图关系特征可以是与房屋实体节点之间的访问关系、租赁关系、归属关系等,也可以是与博客实体节点之间的访问关系、归属关系等,也可以是与人物实体节点之间的拜访关系、交流互动关系等,也可以是与社会安全事件实体节点之间的嫌疑人关系、负责督办关系,也可以是与地名实体节点之间是籍贯关系,也可以是与毒品实体节点之间是嫌疑人关系。
在本实施例中,在步骤101之前,对关联关系拓扑图中不可信和无效的关联关系进行了过滤,具体方法可以如下:
(1)导入人员知识图谱和交互关系图,其中知识图谱为现有目标节点在数据库中的协同/通用知识图谱,交互关系图为目标节点在数据库中和其他节点的交互图和节点属性关系图,将其融合为同一向量的关联关系拓扑图,将每个节点参数化,其中节点类型为(人、房屋、博客、地名、社会安全事件、毒品、法律条文等),转换为三元组(h,r,t)形式。
采用知识图谱嵌入的TransR方法,将实体节点和关系节点分别嵌入实体空间和关系空间:
eh,et∈Rd,er∈Rk
其中eh,er,et三个参数分别表示实体和关系在实体空间和关系空间的投影向量。
(2)三元组(h,r,t)的得分函数为:
Figure BDA0003079688490000081
该得分函数表示三元组的可信程度,用于筛选可信三元组,得分越高,该三元组越可信。
其中wr为实体空间投影到关系空间的投影矩阵。
(3)使用损失函数进行规范化,去除无效三元组,提高过滤能力,其中输出
Figure BDA0003079688490000082
为结果过滤和筛选的有效、可信三元组:
Figure BDA0003079688490000083
其中
Figure BDA0003079688490000084
G={(h,r,t)|(h,t)∈ε,r∈R}
g(h,r,t')表示从三元组中将t随机替换成另外的一个实体;ε为实体集合,R为关系集合;G为构建出的协同图。
σ函数是激活函数:公式为
Figure BDA0003079688490000085
在本实施例中,在步骤102和步骤103中目标人物或可疑人物大于等于2阶的邻居实体节点的嵌入表示的求解方法可以具体如下:
(1)集成实体连接结构:
将所有三元组中实体通过Nh=(h,r,t)|(h,r,t)∈G表示,刻画实体一阶连接结构:
Figure BDA0003079688490000086
其中π(h,r,t)表示实体之间的传播衰减的系数,来显示出从t到h的信息传播能力,该一阶连接结构用于和高阶信息聚合。
(2)基于注意力机制计算高阶连接信息权重:
已知实体一阶连接结构后,在不同的距离的高阶节点的信息连接过程中,通过注意力机制来判断该节点的连接的权重:
Figure BDA0003079688490000099
其中tanh函数为双曲正切激活函数,将参数非线性化。
再使用softmax函数对与h连接的所有三元组的系数进行归一化:
Figure BDA0003079688490000091
其中使用softmax函数处理π(h,r,t)是为了定量的显示出每个邻居的注意力系数,用来计算下面多层邻居的高阶信息。
(3)使用聚合器聚合信息:
本篇专利使用GCNAggregator来集成实体和它的一阶连接信息,并作为新的实体h的嵌入表示:
Figure BDA0003079688490000092
其中f为
Figure BDA0003079688490000093
(4)传播到多层邻居:
递归地将聚合后的信息使用多层传播函数传播,并表示为新的实体:
Figure BDA0003079688490000094
其中
Figure BDA0003079688490000095
在本实施例中,步骤102和步骤103中的嵌入表示的拼接操作可以如下:
Figure BDA0003079688490000096
其中
Figure BDA0003079688490000097
表示可疑人物节点的原始嵌入表示,
Figure BDA0003079688490000098
表示怀疑对象节点聚合l层高阶连接信息后的新嵌入表示,
Figure BDA0003079688490000101
表示目标人物节点的原始嵌入表示,
Figure BDA0003079688490000102
表示目标节点聚合l层高阶连接信息后的新嵌入表示,
Figure BDA0003079688490000103
Figure BDA0003079688490000104
表示连接高阶信息并拼接后的新节点嵌入表示。
在本实施例中,步骤104的具体实施方式如下:
将每个通过多层传播聚合高阶信息的人的节点和所怀疑对象的节点计算得分,得分前10%的节点放入预警名单,根据预警名单判断人员。
Figure BDA0003079688490000105
其中,其中目标人物的嵌入表示
Figure BDA0003079688490000106
是以向量的形式与可疑人物的嵌入表示
Figure BDA0003079688490000107
进行内积,h表示目标人物节点,h0表示可疑人物节点。
本发明实施例构建了关联关系拓扑图,该图对于每个人物节点采用嵌入过程,聚合节点特征和邻域关系节点的特征。采用注意力机制计算方式聚合信息传播过程中的邻域特征。针对高阶信息,不同于传统的协同过滤算法、因子分解机算法、神经因子分解机算法等模型关注属性信息,而是结合其高阶信息的连通关系提取高阶信息的特征。针对多层高阶的信息使用信息聚合函数聚合其特征,并和当前怀疑对象节点特征相结合,计算怀疑得分,输出节点属于特殊群体的新特征匹配几率。具有以下优势:
(1)提出了针对特殊人群预测的知识图注意力神经网络,引入具有交互关系和基本属性关系的关联关系拓扑图,能够更好地利用节点知识图谱中的知识,集合节点的高阶特征。
(2)采用知识图谱嵌入和注意力机制相结合,在针对多层高阶信息、不同传播深度下避免图个性特点的丧失。
(3)针对性地聚合人群拜访关系、社交媒体交互信息等规律性较强的特征。
实施例2
参见图4,本实施例提供了一种特殊群体搜索系统,该系统包括:
关联关系筛选模块401,用于筛选关联关系拓扑图中的有效关联关系和可信关联关系构成新的关联关系拓扑图,并采用所述新的关联关系拓扑图替换所述关联关系拓扑图。
权重计算模块402,用于根据π(h,r,t)=(wr,et)Τtanh(wreh-wr)计算权重,其中,et表示实体t在所述关联关系拓扑图中的原始嵌入表示,eh表示实体h在所述关联关系拓扑图中的原始嵌入表示,wr表示实体空间到关系空间的投影向量。
邻居实体节点嵌入表示计算模块403,用于:根据
Figure BDA0003079688490000111
计算l阶邻居实体节点的嵌入表示
Figure BDA0003079688490000112
其中,l≥2,
Figure BDA0003079688490000113
表示节点h的l阶连接结构的嵌入表示;
Figure BDA0003079688490000114
表示l-1阶邻居实体节点中实体节点t的嵌入表示;(h,r,t)表示三元组,h和t表示实体节点,r表示h和t的关联关系,Nh表示l阶邻居实体节点的集合,π(h,r,t)表示l阶邻居实体节点中实体节点t的权重,w表示可训练的权重矩阵,w用于提取有用的信息进行传播。
关联关系拓扑图获取模块404,用于:获取关联关系拓扑图,所述关联关系拓扑图包括多个实体节点以及实体间的关联关系,所述实体节点包括人物实体节点和非人物实体节点,所述人物实体节点包括人群中的各个人物,所述非人物实体节点的类型包括房屋、博客、地名、社会安全事件、毒品、法律条文中的至少一种,所述关联关系包括实体节点之间的交互关系以及属性关系。
目标人物嵌入表示确定模块405,用于:根据所述关联关系拓扑图,确定目标人物实体节点的嵌入表示,所述目标人物为所述人群中除可疑人物的任一人,所述目标人物实体节点的嵌入表示为所述目标人物实体节点的原始嵌入与所述目标人物实体节点1到l阶邻居实体节点嵌入表示的拼接;当l大于等于2时,所述目标人物l阶邻居实体节点的嵌入表示由目标人物l-1阶邻居实体节点的嵌入表示与目标人物l阶邻居实体节点的l阶连接结构的嵌入表示聚合得到,所述目标人物l阶连接结构的嵌入表示为目标人物各l阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到,当l等于1时,所述目标人物1阶邻居实体节点的嵌入表示为所述目标人物节点的原始嵌入表示与所述目标人物节点1阶连接结构的嵌入表示聚合得到。
可疑人物嵌入表示确定模块406,用于:根据所述关联关系拓扑图,确定可疑人物各阶邻居实体节点的嵌入表示,所述可疑人物实体节点的嵌入表示为所述可疑人物实体节点的原始嵌入表示与所述可疑人物1到l阶邻居实体节点嵌入表示的拼接;当l大于等于2时,所述可疑人物l阶邻居实体节点的嵌入表示由可疑人物l-1阶邻居实体节点的嵌入表示与可疑人物l阶邻居实体节点的l阶连接结构的嵌入表示聚合得到,所述可疑人物l阶连接结构的嵌入表示为可疑人物各l阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到,当l等于1时,所述可疑人物1阶邻居实体节点的嵌入表示为所述可疑人物的原始嵌入表示与所述可疑人物1阶连接结构的嵌入表示聚合得到,所述可疑人物1阶连接结构的嵌入表示可疑人物各1阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到。
分类模块407,用于:根据所述目标人物的嵌入表示和所述可疑人物的嵌入表示,确定所述目标人物是否与所述可疑人物为同一类。
进一步的,分类模块407可以包括内积单元和分类单元。其中:
内积单元,用于将所述目标人物嵌入表示与可疑人物嵌入表示做内积,得到内积值;
分类单元,用于根据内积值的大小确定所述目标人物是否与所述可疑人物为同一类。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种特殊群体搜索方法,其特征在于,包括:
获取关联关系拓扑图,所述关联关系拓扑图包括多个实体节点以及实体间的关联关系,所述实体节点包括人物实体节点和非人物实体节点,所述人物实体节点包括人群中的各个人物,所述非人物实体节点的类型包括房屋、博客、地名、社会安全事件、毒品、法律条文中的至少一种,所述关联关系包括实体节点之间的交互关系以及属性关系;
根据所述关联关系拓扑图,确定目标人物实体节点的嵌入表示,所述目标人物为所述人群中除可疑人物的任一人,所述目标人物实体节点的嵌入表示为所述目标人物实体节点的原始嵌入与所述目标人物实体节点1到l阶邻居实体节点嵌入表示的拼接;当l大于等于2时,所述目标人物l阶邻居实体节点的嵌入表示由目标人物l-1阶邻居实体节点的嵌入表示与目标人物l阶邻居实体节点的l阶连接结构的嵌入表示聚合得到,所述目标人物l阶连接结构的嵌入表示为目标人物各l阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到,当l等于1时,所述目标人物1阶邻居实体节点的嵌入表示为所述目标人物节点的原始嵌入表示与所述目标人物节点1阶连接结构的嵌入表示聚合得到;
根据所述关联关系拓扑图,确定可疑人物各阶邻居实体节点的嵌入表示,所述可疑人物实体节点的嵌入表示为所述可疑人物实体节点的原始嵌入表示与所述可疑人物1到l阶邻居实体节点嵌入表示的拼接;当l大于等于2时,所述可疑人物l阶邻居实体节点的嵌入表示由可疑人物l-1阶邻居实体节点的嵌入表示与可疑人物l阶邻居实体节点的l阶连接结构的嵌入表示聚合得到,所述可疑人物l阶连接结构的嵌入表示为可疑人物各l阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到,当l等于1时,所述可疑人物1阶邻居实体节点的嵌入表示为所述可疑人物的原始嵌入表示与所述可疑人物1阶连接结构的嵌入表示聚合得到,所述可疑人物1阶连接结构的嵌入表示可疑人物各1阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到;
根据所述目标人物的嵌入表示和所述可疑人物的嵌入表示,确定所述目标人物是否与所述可疑人物为同一类。
2.根据权利要求1所述的特殊群体搜索方法,其特征在于,各阶邻居实体节点的嵌入表示的计算方法包括:
根据
Figure FDA0003079688480000021
计算l阶邻居实体节点的嵌入表示
Figure FDA0003079688480000022
其中,l≥2,
Figure FDA0003079688480000023
表示节点h的l阶连接结构的嵌入表示;
Figure FDA0003079688480000024
表示l-1阶邻居实体节点中实体节点t的嵌入表示;(h,r,t)表示三元组,h和t表示实体节点,r表示h和t的关联关系,Nh表示l阶邻居实体节点的集合,π(h,r,t)表示l阶邻居实体节点中实体节点t的权重,w表示可训练的权重矩阵,w用于提取有用的信息进行传播。
3.根据权利要求2所述的特殊群体搜索方法,其特征在于,权重π(h,r,t)的计算方法包括:
根据π(h,r,t)=(wr,et)Τtanh(wreh-wr)计算权重,其中,et表示实体t在所述关联关系拓扑图中的原始嵌入表示,eh表示实体h在所述关联关系拓扑图中的原始嵌入表示,wr表示实体空间到关系空间的投影向量。
4.根据权利要求1所述的特殊群体搜索方法,其特征在于,在所述获取关联关系拓扑图之前,还包括:
筛选关联关系拓扑图中的有效关联关系和可信关联关系构成新的关联关系拓扑图,并采用所述新的关联关系拓扑图替换所述关联关系拓扑图。
5.根据权利要求1所述的特殊群体搜索方法,其特征在于,所述根据所述目标人物的嵌入表示和所述可疑人物的嵌入表示,确定所述目标人物是否与所述可疑人物为同一类,具体包括:
将所述目标人物嵌入表示与所述可疑人物嵌入表示做内积,得到内积值;
根据内积值的大小确定所述目标人物是否与所述可疑人物为同一类。
6.一种特殊群体搜索系统,其特征在于,包括:
关联关系拓扑图获取模块,用于:获取关联关系拓扑图,所述关联关系拓扑图包括多个实体节点以及实体间的关联关系,所述实体节点包括人物实体节点和非人物实体节点,所述人物实体节点包括人群中的各个人物,所述非人物实体节点的类型包括房屋、博客、地名、社会安全事件、毒品、法律条文中的至少一种,所述关联关系包括实体节点之间的交互关系以及属性关系;
目标人物嵌入表示确定模块,用于:根据所述关联关系拓扑图,确定目标人物实体节点的嵌入表示,所述目标人物为所述人群中除可疑人物的任一人,所述目标人物实体节点的嵌入表示为所述目标人物实体节点的原始嵌入与所述目标人物实体节点1到l阶邻居实体节点嵌入表示的拼接;当l大于等于2时,所述目标人物l阶邻居实体节点的嵌入表示由目标人物l-1阶邻居实体节点的嵌入表示与目标人物l阶邻居实体节点的l阶连接结构的嵌入表示聚合得到,所述目标人物l阶连接结构的嵌入表示为目标人物各l阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到,当l等于1时,所述目标人物1阶邻居实体节点的嵌入表示为所述目标人物节点的原始嵌入表示与所述目标人物节点1阶连接结构的嵌入表示聚合得到;
可疑人物嵌入表示确定模块,用于:根据所述关联关系拓扑图,确定可疑人物各阶邻居实体节点的嵌入表示,所述可疑人物实体节点的嵌入表示为所述可疑人物实体节点的原始嵌入表示与所述可疑人物1到l阶邻居实体节点嵌入表示的拼接;当l大于等于2时,所述可疑人物l阶邻居实体节点的嵌入表示由可疑人物l-1阶邻居实体节点的嵌入表示与可疑人物l阶邻居实体节点的l阶连接结构的嵌入表示聚合得到,所述可疑人物l阶连接结构的嵌入表示为可疑人物各l阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到,当l等于1时,所述可疑人物1阶邻居实体节点的嵌入表示为所述可疑人物的原始嵌入表示与所述可疑人物1阶连接结构的嵌入表示聚合得到,所述可疑人物1阶连接结构的嵌入表示可疑人物各1阶邻居实体节点在关联关系拓扑图中的原始嵌入表示与对应的权重相乘求和得到;
分类模块,用于:根据所述目标人物的嵌入表示和所述可疑人物的嵌入表示,确定所述目标人物是否与所述可疑人物为同一类。
7.根据权利要求6所述的特殊群体搜索系统,其特征在于,所述特殊群体搜索系统还包括:
邻居实体节点嵌入表示计算模块,用于:根据
Figure FDA0003079688480000041
计算l阶邻居实体节点的嵌入表示
Figure FDA0003079688480000042
其中,l≥2,
Figure FDA0003079688480000043
表示节点h的l阶连接结构的嵌入表示;
Figure FDA0003079688480000044
表示l-1阶邻居实体节点中实体节点t的嵌入表示;(h,r,t)表示三元组,h和t表示实体节点,r表示h和t的关联关系,Nh表示l阶邻居实体节点的集合,π(h,r,t)表示l阶邻居实体节点中实体节点t的权重,w表示可训练的权重矩阵,w用于提取有用的信息进行传播。
8.根据权利要求7所述的特殊群体搜索系统,其特征在于,所述特殊群体搜索系统还包括:
权重计算模块,用于根据π(h,r,t)=(wr,et)Τtanh(wreh-wr)计算权重,其中,et表示实体t在所述关联关系拓扑图中的原始嵌入表示,eh表示实体h在所述关联关系拓扑图中的原始嵌入表示,wr表示实体空间到关系空间的投影向量。
9.根据权利要求6所述的特殊群体搜索系统,其特征在于,所述特殊群体搜索系统还包括:
关联关系筛选模块,用于筛选关联关系拓扑图中的有效关联关系和可信关联关系构成新的关联关系拓扑图,并采用所述新的关联关系拓扑图替换所述关联关系拓扑图。
10.根据权利要求6所述的特殊群体搜索系统,其特征在于,所述分类模块,具体包括:
内积单元,用于将所述目标人物嵌入表示与所述可疑人物嵌入表示做内积,得到内积值;
分类单元,用于根据内积值的大小确定所述目标人物是否与所述可疑人物为同一类。
CN202110562840.7A 2021-05-24 2021-05-24 一种特殊群体搜索方法及系统 Active CN113254580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110562840.7A CN113254580B (zh) 2021-05-24 2021-05-24 一种特殊群体搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110562840.7A CN113254580B (zh) 2021-05-24 2021-05-24 一种特殊群体搜索方法及系统

Publications (2)

Publication Number Publication Date
CN113254580A true CN113254580A (zh) 2021-08-13
CN113254580B CN113254580B (zh) 2023-10-03

Family

ID=77183914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110562840.7A Active CN113254580B (zh) 2021-05-24 2021-05-24 一种特殊群体搜索方法及系统

Country Status (1)

Country Link
CN (1) CN113254580B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610034A (zh) * 2021-08-16 2021-11-05 脸萌有限公司 识别视频中人物实体的方法、装置、存储介质及电子设备
CN114782898A (zh) * 2022-05-09 2022-07-22 山东师范大学 基于知识图谱与区域人群密度的人群拥堵预测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347881A (zh) * 2019-06-19 2019-10-18 西安交通大学 一种基于路径回溯图嵌入的群体发现方法
CN110825884A (zh) * 2019-11-05 2020-02-21 腾讯科技(深圳)有限公司 基于人工智能的嵌入表示处理方法、装置及电子设备
CN110866190A (zh) * 2019-11-18 2020-03-06 支付宝(杭州)信息技术有限公司 训练用于表征知识图谱的图神经网络模型的方法及装置
CN110929047A (zh) * 2019-12-11 2020-03-27 中国人民解放军国防科技大学 关注邻居实体的知识图谱推理方法和装置
WO2020147594A1 (zh) * 2019-01-16 2020-07-23 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN111597358A (zh) * 2020-07-22 2020-08-28 中国人民解放军国防科技大学 基于关系注意力的知识图谱推理方法、装置和计算机设备
CN112203291A (zh) * 2020-12-03 2021-01-08 中国科学院自动化研究所 基于知识嵌入的区域覆盖和连通保持的集群控制方法
CN112232925A (zh) * 2020-11-02 2021-01-15 哈尔滨工程大学 一种融合知识图谱对商品进行个性化推荐的方法
WO2021082681A1 (zh) * 2019-10-29 2021-05-06 支付宝(杭州)信息技术有限公司 多方联合训练图神经网络的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020147594A1 (zh) * 2019-01-16 2020-07-23 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN110347881A (zh) * 2019-06-19 2019-10-18 西安交通大学 一种基于路径回溯图嵌入的群体发现方法
WO2021082681A1 (zh) * 2019-10-29 2021-05-06 支付宝(杭州)信息技术有限公司 多方联合训练图神经网络的方法及装置
CN110825884A (zh) * 2019-11-05 2020-02-21 腾讯科技(深圳)有限公司 基于人工智能的嵌入表示处理方法、装置及电子设备
CN110866190A (zh) * 2019-11-18 2020-03-06 支付宝(杭州)信息技术有限公司 训练用于表征知识图谱的图神经网络模型的方法及装置
CN110929047A (zh) * 2019-12-11 2020-03-27 中国人民解放军国防科技大学 关注邻居实体的知识图谱推理方法和装置
CN111597358A (zh) * 2020-07-22 2020-08-28 中国人民解放军国防科技大学 基于关系注意力的知识图谱推理方法、装置和计算机设备
CN112232925A (zh) * 2020-11-02 2021-01-15 哈尔滨工程大学 一种融合知识图谱对商品进行个性化推荐的方法
CN112203291A (zh) * 2020-12-03 2021-01-08 中国科学院自动化研究所 基于知识嵌入的区域覆盖和连通保持的集群控制方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610034A (zh) * 2021-08-16 2021-11-05 脸萌有限公司 识别视频中人物实体的方法、装置、存储介质及电子设备
CN113610034B (zh) * 2021-08-16 2024-04-30 脸萌有限公司 识别视频中人物实体的方法、装置、存储介质及电子设备
CN114782898A (zh) * 2022-05-09 2022-07-22 山东师范大学 基于知识图谱与区域人群密度的人群拥堵预测方法及系统

Also Published As

Publication number Publication date
CN113254580B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN111698247B (zh) 异常账号检测方法、装置、设备及存储介质
CN111612041B (zh) 异常用户识别方法及装置、存储介质、电子设备
CN111737551B (zh) 一种基于异构图注意力神经网络的暗网线索检测方法
Thongsatapornwatana A survey of data mining techniques for analyzing crime patterns
CN112231570B (zh) 推荐系统托攻击检测方法、装置、设备及存储介质
CN111428113B (zh) 一种基于模糊综合评判的网络舆论引导效果预测方法
Gu et al. RaRE: Social rank regulated large-scale network embedding
CN114138968B (zh) 一种网络热点的挖掘方法、装置、设备及存储介质
CN113254580A (zh) 一种特殊群体搜索方法及系统
Wani et al. Mutual clustering coefficient-based suspicious-link detection approach for online social networks
Hewapathirana Change detection in dynamic attributed networks
Tao et al. An efficient method for network security situation assessment
Huang Network Intrusion Detection Based on an Improved Long‐Short‐Term Memory Model in Combination with Multiple Spatiotemporal Structures
Liu et al. Link prediction by multiple motifs in directed networks
CN116776889A (zh) 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法
Hou et al. Understanding social media beyond text: a reliable practice on Twitter
CN115238773A (zh) 异质图元路径自动评估的恶意账号检测方法及装置
Kothamasu et al. Sentiment analysis on twitter data based on spider monkey optimization and deep learning for future prediction of the brands
US20160358087A1 (en) Generating hypotheses in data sets
US10521727B2 (en) System, method, and storage medium for generating hypotheses in data sets
CN111277433B (zh) 基于属性网络表征学习的网络服务异常检测方法及装置
Aliyu et al. Analysis of cyber bullying on Facebook using text mining
CN115471036B (zh) 一种热点事件的群体情绪分析方法、存储介质及设备
CN114049966B (zh) 一种基于链接预测的食源性疾病暴发识别方法和系统
CN116545679A (zh) 一种工业情境安全基础框架及网络攻击行为特征分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant