CN110046260B - 一种基于知识图谱的暗网话题发现方法和系统 - Google Patents

一种基于知识图谱的暗网话题发现方法和系统 Download PDF

Info

Publication number
CN110046260B
CN110046260B CN201910305756.XA CN201910305756A CN110046260B CN 110046260 B CN110046260 B CN 110046260B CN 201910305756 A CN201910305756 A CN 201910305756A CN 110046260 B CN110046260 B CN 110046260B
Authority
CN
China
Prior art keywords
topic
data
knowledge graph
event
darknet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910305756.XA
Other languages
English (en)
Other versions
CN110046260A (zh
Inventor
谭庆丰
陈小龙
谭润楠
张宇
顾钊铨
田志宏
殷丽华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN201910305756.XA priority Critical patent/CN110046260B/zh
Publication of CN110046260A publication Critical patent/CN110046260A/zh
Application granted granted Critical
Publication of CN110046260B publication Critical patent/CN110046260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种基于知识图谱的暗网话题发现方法和系统,包括:对获取的暗网数据进行web页面去重,通过算法对存在同一个页面采集了多次的数据进行去重处理;将去重处理后的所述暗网数据进行降维处理;通过黑话词典和文档/段落/句子的向量表示配合词向量表示,对降维后的所述暗网数据进行黑话检测识别;对检测到黑话后的数据进行自然语言处理,提取出弱信号数据的实体、属性、关系和事件;根据自然语言处理提取的弱信号数据构造事实三元组,构建事件知识图谱;在所述事件知识图谱中通过图匹配和遍历实现弱信号数据间的关联发现,并通过所述事件知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现。

Description

一种基于知识图谱的暗网话题发现方法和系统
技术领域
本发明涉及大数据挖掘技术领域,尤其涉及一种基于知识图谱的暗网话题发现方法和系统。
背景技术
如今,全球已有超过一半人口在使用互联网,但是用户通常所使用的facebook、twitter、youtube、微博等“明网”只是整个互联网的表层部分,而全球互联网绝大部分实际上都是不能被用户通过搜索引擎检索到的,这一部分被称之为“深网”,而“暗网”又是“深网”中可以提供匿名服务与匿名访问的更深层次的互联网络,需要特定的技术手段才可访问暗网。目前正在受到各国政府、企业、公安部门越来越多关注的利用互联网海量异构数据进行话题发现与舆情分析的系统也主要是集中在明网层面,对暗网上的数据进行话题发现与舆情分析往往能产生更具有价值的信息,其发现和分析结果能够对社会安全稳定和经济健康发展产生巨大的情报价值。
现有进行互联网话题发现的技术主要是对可被搜索引擎检索到的web页面进行爬取,然后对网页内容进行相似度计算和聚类分析,或者对web文本内容进行词的共现分析和LDA主题模型算法。相似度计算主要有基于距离的相似度计算、余弦相似度计算、编辑距离相似度计算和Jaccard相似性计算等,聚类主要有K均值聚类、层次聚类、基于密度的聚类等,而共现词分析主要就是关键词词频和共词分析,构建关键词共现网络来发现核心热点词以及话题,LDA主题模型算法根据文档中的各个单词,推测其主题的概率分布,从而确定文档的主题,利用各个文档的主题分布进行话题发现。
但是由于暗网空间中存在大量的黑话导致暗网的话题更加隐秘,上述技术没有充分考虑暗网黑话特定的语义信息,不能实现对拥有众多黑话的暗网空间内容信息的充分提取,另外暗网空间的数据更加稀疏、碎片化,并且由于暗网黑话的大量存在导致数据也呈现出弱信号特点,上述技术对于非常稀疏和弱信号的数据不能直接进行有效处理,也不能对这些数据进行弱关联分析,同时现有的技术只能针对已有的话题进行分析发现,不能进行话题的推理从而预测新兴话题。
发明内容
本发明提供了一种基于知识图谱的暗网话题发现方法和系统,以解决现有技术不能实现对拥有众多黑话的暗网空间内容信息的充分提取,以及无法对非常稀疏和弱信号的数据直接进行有效处理的技术问题,从而通过构建知识图谱对黑话表示的弱信号数据进行关联关系分析,实现暗网话题的发现、推理及预测,为暗网舆情处理和情报分析提供有价值的信息。
为了解决上述技术问题,本发明实施例提供了一种基于知识图谱的暗网话题发现方法,包括:
对获取的暗网数据进行web页面去重,通过算法对存在同一个页面采集了多次的数据进行去重处理;
将去重处理后的所述暗网数据进行降维处理;
通过黑话词典和文档/段落/句子的向量表示配合词向量表示,对降维后的所述暗网数据进行黑话检测识别;
对检测到黑话后的数据进行自然语言处理,提取出弱信号数据的实体、属性、关系和事件;
根据自然语言处理提取的弱信号数据构造事实三元组,构建事件知识图谱;
在所述事件知识图谱中通过图匹配和遍历实现弱信号数据间的关联发现,并通过所述事件知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现。
作为优选方案,在所述对获取的暗网数据进行web页面去重,通过算法对存在同一个页面采集了多次的数据进行去重处理之后,还包括:通过字符串匹配与字典法对与暗网黑话检测无关的停用词进行消除。
作为优选方案,所述通过黑话词典和文档/段落/句子的向量表示配合词向量表示,对降维后的所述暗网数据进行黑话检测识别,包括:
将采集的所述暗网数据作为黑话语料集和正常使用语料集作为训练样本进行黑话和正常使用情况下词语的词向量表示的联合训练;
将所述黑话语料集和所述正常使用语料集中的同一个词根据各自的数据集,在权重方面,从训练过程中的输入到隐藏层,建立各自的关系,同时确保两个语料集中的词的上下文相结合,并通过隐藏层共同贡献神经网络的输出。
作为优选方案,所述训练样本还包括正常使用情况下的语料集和词语原意语料集。
作为优选方案,所述自然语言处理包括分词、命名实体识别、实体及属性对齐与消歧、事件抽取和关系抽取。
作为优选方案,所述分词用于对包含黑话的文本内容按词义进行切分,以使每一个词都有其独立的语义;
所述命名实体识别用于通过算法确定文本内容的各个实体,包括人名、地点、时间日期、机构和产品;
所述实体对齐用于通过属性相似性计算得分根据其属性信息将不同来源的实体映射到统一的实体对象上;
所述实体消歧用于对具有一词多义的实体确定其在当前上下文环境下的真正含义,实现构建知识图谱时不会发生歧义;
所述事件抽取用于将人工标注数据自动生成大规模标注数据并进行事件抽取;
所述事件关系抽取用于计算事件指称的文本语义相似度和事件类型与事件元素之间的相似度。
作为优选方案,所述节点的中心性包括度数中心度、中间中心度、接近中心度和特征值中心度。
作为优选方案,所述通过所述事件知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现,包括:
计算所述事件知识图谱的中心性,得到第一话题发现结果;
根据iMLDA算法对网页内容进行计算,得到第二话题发现结果;
判断所述第一话题发现结果和所述第二话题发现结果中的相同数量是否超过预设的阈值,若是,则根据所述第一话题发现结果和所述第二话题发现结果中相同数量的发现结果直接确定为暗网话题;
若否,则通过所述第一话题发现结果和所述第二话题发现结果及其相关的三元组构造话题知识图谱,重复计算所述话题知识图谱的中心性得到最终的暗网话题。
作为优选方案,在得到最终的暗网话题之后,还包括:在所述事件知识图谱或通过得到的所述话题知识图谱上,进行关联规则挖掘总结出逻辑规则,应用得到的所述逻辑规则进行自动推理实现对暗网话题的推理预测。
本发明实施例还提供了一种基于知识图谱的暗网话题发现系统,包括:
数据预处理与降维模块,包括预处理子模块和降维子模块;所述预处理子模块用于对获取的暗网数据进行web页面去重,通过算法对存在同一个页面采集了多次的数据进行去重处理;所述降维子模块用于将去重处理后的所述暗网数据进行降维处理;
检测识别模块,用于通过黑话词典和文档/段落/句子的向量表示配合词向量表示,对降维后的所述暗网数据进行黑话检测识别;
知识图谱构建与话题发现模块,包括自然语言处理子模块、构建图谱子模块和话题发现子模块;所述自然语言处理子模块用于对检测到黑话后的数据进行自然语言处理,提取出弱信号数据的实体、属性、关系和事件;所述构建图谱子模块用于根据自然语言处理提取的弱信号数据构造事实三元组,构建事件知识图谱;所述话题发现子模块用于在所述事件知识图谱中通过图匹配和遍历实现弱信号数据间的关联发现,并通过所述事件知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现。
相比于现有技术,本发明实施例具有如下有益效果:
本发明的目的是针对暗网空间数据更加稀疏和碎片化,且存在大量黑话的情况,对高度稀疏和碎片化的数据采用降维处理,利用暗网黑话语料集构建黑话字典,并使用分布式词表示技术实现对暗网黑话、行话的特征检测和识别,利用检测出的暗网黑话以及对应抽取的实体、事件和关系构建知识图谱,实现对黑话表示的弱信号数据进行关联关系分析,进一步实现暗网话题的发现、推理及预测,为暗网舆情处理和情报分析提供有价值的信息。
附图说明
图1:为本发明实施例的基于知识图谱的暗网话题发现方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,本发明优选实施例提供了一种基于知识图谱的暗网话题发现方法,包括:
S1,对获取的暗网数据进行web页面去重,通过算法对存在同一个页面采集了多次的数据进行去重处理;
S2,将去重处理后的所述暗网数据进行降维处理;
S3,通过黑话词典和文档/段落/句子的向量表示配合词向量表示,对降维后的所述暗网数据进行黑话检测识别;
S4,对检测到黑话后的数据进行自然语言处理,提取出弱信号数据的实体、属性、关系和事件;
S5,根据自然语言处理提取的弱信号数据构造事实三元组,构建事件知识图谱;
S6,在所述事件知识图谱中通过图匹配和遍历实现弱信号数据间的关联发现,并通过所述事件知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现。
在本实施例中,在所述对获取的暗网数据进行web页面去重,通过算法对存在同一个页面采集了多次的数据进行去重处理之后,还包括:通过字符串匹配与字典法对与暗网黑话检测无关的停用词进行消除。
在本实施例中,所述通过黑话词典和文档/段落/句子的向量表示配合词向量表示,对降维后的所述暗网数据进行黑话检测识别,包括:
将采集的所述暗网数据作为黑话语料集和正常使用语料集作为训练样本进行黑话和正常使用情况下词语的词向量表示的联合训练;
将所述黑话语料集和所述正常使用语料集中的同一个词根据各自的数据集,在权重方面,从训练过程中的输入到隐藏层,建立各自的关系,同时确保两个语料集中的词的上下文相结合,并通过隐藏层共同贡献神经网络的输出。
在本实施例中,所述训练样本还包括正常使用情况下的语料集和词语原意语料集。
在本实施例中,所述自然语言处理包括分词、命名实体识别、实体及属性对齐与消歧、事件抽取和关系抽取。
在本实施例中,所述分词用于对包含黑话的文本内容按词义进行切分,以使每一个词都有其独立的语义;
所述命名实体识别用于通过算法确定文本内容的各个实体,包括人名、地点、时间日期、机构和产品;
所述实体对齐用于通过属性相似性计算得分根据其属性信息将不同来源的实体映射到统一的实体对象上;
所述实体消歧用于对具有一词多义的实体确定其在当前上下文环境下的真正含义,实现构建知识图谱时不会发生歧义;
所述事件抽取用于将人工标注数据自动生成大规模标注数据并进行事件抽取;
所述事件关系抽取用于计算事件指称的文本语义相似度和事件类型与事件元素之间的相似度。
在本实施例中,所述节点的中心性包括度数中心度、中间中心度、接近中心度和特征值中心度。
在本实施例中,所述通过所述事件知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现,包括:
计算所述事件知识图谱的中心性,得到第一话题发现结果;
根据iMLDA算法对网页内容进行计算,得到第二话题发现结果;
判断所述第一话题发现结果和所述第二话题发现结果中的相同数量是否超过预设的阈值,若是,则根据所述第一话题发现结果和所述第二话题发现结果中相同数量的发现结果直接确定为暗网话题;
若否,则通过所述第一话题发现结果和所述第二话题发现结果及其相关的三元组构造话题知识图谱,重复计算所述话题知识图谱的中心性得到最终的暗网话题。
在本实施例中,在得到最终的暗网话题之后,还包括:在所述事件知识图谱或通过得到的所述话题知识图谱上,进行关联规则挖掘总结出逻辑规则,应用得到的所述逻辑规则进行自动推理实现对暗网话题的推理预测。
本发明实施例还提供了一种基于知识图谱的暗网话题发现系统,包括:
数据预处理与降维模块,包括预处理子模块和降维子模块;所述预处理子模块用于对获取的暗网数据进行web页面去重,通过算法对存在同一个页面采集了多次的数据进行去重处理;所述降维子模块用于将去重处理后的所述暗网数据进行降维处理;
检测识别模块,用于通过黑话词典和文档/段落/句子的向量表示配合词向量表示,对降维后的所述暗网数据进行黑话检测识别;
知识图谱构建与话题发现模块,包括自然语言处理子模块、构建图谱子模块和话题发现子模块;所述自然语言处理子模块用于对检测到黑话后的数据进行自然语言处理,提取出弱信号数据的实体、属性、关系和事件;所述构建图谱子模块用于根据自然语言处理提取的弱信号数据构造事实三元组,构建事件知识图谱;所述话题发现子模块用于在所述事件知识图谱中通过图匹配和遍历实现弱信号数据间的关联发现,并通过所述事件知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现。
下面结合具体实施例,对本发明进行详细说明。
本发明涉及人工智能领域的自然语言处理和知识图谱方向,具体涉及一种面向暗网数据的话题发现、追踪及预测的方法和系统。
暗网数据预处理与降维
数据预处理:这一阶段主要是对获取的暗网数据进行web页面去重,比如可能存在同一个页面采集了多次,就需要对该页面去重处理,这里采用局部敏感哈希算法对网页进行去重。再者是对无用信息进行清除,例如将与暗网黑话检测无关的停用词消除掉,这一步采用字符串匹配与字典法实现。
简单预处理后的暗网数据相对于日常表层网络的数据还是非常稀疏和碎片化,不能直接用于黑话的检测识别,所以需要对数据进行降维处理,降维的同时也能够帮助寻找暗网弱信号数据内部的本质结构特征。本专利所采用的高维数据降维方法主要是局部线性逼近(Locally Linear Approximating,LLA)算法,其能够找到一个在平均意义上保留原数据点局部特性到低维空间的映射,实现良好的降维效果。
黑话检测与识别
数据降维之后,需要进行暗网黑话的检测与识别。暗网黑话的特点是这些词看起来都是非常正确的词,比如popcorn(爆米花)、blueberry(蓝莓)、orange(橘子)等,同时黑话在使用上与正常情况下的使用形式很相似,比如sell popcorns(卖爆米花)与正常情况下popcorn(爆米花)的上下文搭配类似,所以很难用传统方法进行识别,这也是暗网数据呈现非常弱信号化的原因之一。本专利采用黑话词典和doc2vec(文档/段落/句子的向量表示)配合word2vec(词向量表示)的方法实现黑话的检测与识别。黑话语料集、正常使用语料集作为训练样本进行黑话和正常使用情况下词语的word2vec的联合训练,为了避免正常语料下所使用的单词语义有可能已经在词典中原意的基础上进行了延伸,所以正常使用情况下的语料集和词语原意语料集也作为训练样本进行正常情况下词语和原意词语的word2vec的联合训练,具体训练过程是让两个不同语料库中的同一个词根据各自的数据集,在权重方面,从训练过程中的输入到隐藏层,建立各自的关系,同时确保两个语料库中的词的上下文相结合,并通过隐藏层共同贡献神经网络的输出。
为了进行联合训练,需要对输入形式也做一下改变。输入的one-hot形式表示为:
Figure BDA0002029763220000091
Vzero是全为0的V维度大小的向量,Vonehot()是w在输入语料里标准的ont-hot向量,这使得两个语料库的单词都表示为统一2V大小维度的ont-hot向量,满足联合训练维度大小的一致性,同时避免了直接将两个语料混在一起使用one-hot表示而导致语义丢失和干扰。计算训练出来黑话词向量与正常使用时的词向量相似性S1,计算正常使用的词向量与词原意的词向量的相似性S2,S1小于阈值α1,S2大于阈值α2,则检测为黑话,并根据黑话字典判定黑话的准确语义,对阈值α1与α2的确定,采用doc2vec算法计算两个语料库分别的句向量,计算包含同一个词的句向量间的相似度,根据相似度大小确定α1、α2的值。
知识图谱构建与话题发现
知识图谱构建主要分为两个步骤,首先是对检测到黑话后的数据进行自然语言处理,提取出弱信号数据的实体、属性、关系和事件,最后进行知识图谱的构建。
自然语言处理:这一步包括分词、命名实体识别、实体及属性对齐与消歧、事件抽取和关系抽取等一系列操作。分词对包含黑话的文本内容按词义进行切分,分词后的结果是每一个词都有其独立的语义;命名实体识别用于确定文本内容的各个实体,包括人名、地点、时间日期、机构、产品等,这里实体识别采用的是双向的LSTM算法实现,实体对齐是根据其属性信息将不同来源的实体映射到统一的实体对象上,实体消歧则是对具有一词多义等情况的实体确定其在当前上下文环境下的真正含义,实现构建知识图谱时不会发生歧义,实体对齐主要通过属性相似性计算得分实现,实体消歧使用基于实体链接的实体消歧方法实现,属性的对齐是通过属性值embedding后计算相似性实现,属性消歧则通过外链验证实现;事件抽取基于Distant Supervision(远程监督)的方法实现,远程监督的方法只需要少量人工标注数据就能自动生成大规模标注数据并进行事件抽取;这里的事件关系抽取主要是指事件共指关系抽取,主要采用的方法是计算事件指称的文本语义相似度和事件类型与事件元素之间的相似度。整个自然语言处理过程采用NLTK和Stanford CoreNLP工具包实现基础操作。
话题知识图谱构建:根据自然语言处理得到的实体、事件等构造事实三元组<subject,predicate,object>,也即是RDF(Resource Description Framework),通过图数据库Neo4j存储RDF。根据得到的所有RDF通过关系链接构建出事件知识图谱,在事件知识图谱中通过图匹配和遍历可以实现弱信号数据间的关联发现,并且通过知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现,节点的中心性包括度数中心度、中间中心度、接近中心度和特征值中心度,度数中心度测量的是一个点与其他点发展联系的能力,一个点控制网络中其他节点之间相互联系的能力是通过中间中心度和接近中心度来测量的。度数中心度和中间中心度越高,接近中心度越小的节点在网络中的地位越高,越可能处于网络核心,拥有的控制优势越大,是主要话题的可能性也就越大。具体的在知识图谱上的话题发现为以下步骤:
步骤1:计算知识图谱的中心性,选出发现的前TopN个话题;
步骤2:采用改进的用于社会网络话题发现的iMLDA算法实现对网页内容的话题发现,根据iMLDA算法的计算结果选出发现的前TopN个话题;
步骤3:如果步骤(1)(2)得到的话题相同数量超出了系统规定的阈值α则根据(1)(2)结果相同的前K个直接确定暗网话题TopK;
步骤4:若(1)(2)相同话题数低于阈值α,则用(1)(2)的TopN话题及其相关的三元组构造话题知识图谱,重复(1)的步骤得到最终的暗网话题TopK;
步骤5:在事件知识图谱或通过(4)得到的话题知识图谱基础上,进一步进行关联规则挖掘(具体的讲是频繁子图挖掘)总结出逻辑规则,应用得到的逻辑规则进行自动推理实现对暗网话题的推理预测。
本发明充分考虑了暗网数据更加稀疏、碎片化的特点,对高维稀疏的数据使用LLA算法实现精确降维,对于大量黑话的存在,对数据采用分布式词向量表示进行黑话检测,利用NLP技术抽取暗网事件三元组构建事件知识图谱实现弱信号数据关联,并结合iMLDA算法得到的话题,共同实现暗网话题发现,同时构建了话题知识图谱实现暗网话题的推理预测。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于知识图谱的暗网话题发现方法,其特征在于,包括:
对获取的暗网数据进行web页面去重,通过算法对存在的采集了多次的同一页面的数据进行去重处理;
将去重处理后的所述暗网数据进行降维处理;
通过黑话词典和doc2vec配合word2vec,对降维后的所述暗网数据进行黑话检测识别;
对检测到黑话后的数据进行自然语言处理,提取出弱信号数据的实体、属性、关系和事件;
根据自然语言处理提取的弱信号数据构造事实三元组,构建事件知识图谱;
在所述事件知识图谱中通过图匹配和遍历实现弱信号数据间的关联发现,并通过所述事件知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现;具体包括:计算所述事件知识图谱的中心性,得到第一话题发现结果;根据iMLDA算法对网页内容进行计算,得到第二话题发现结果;判断所述第一话题发现结果和所述第二话题发现结果中的相同数量是否超过预设的阈值,若是,则根据所述第一话题发现结果和所述第二话题发现结果中相同数量的发现结果直接确定为暗网话题;若否,则通过所述第一话题发现结果和所述第二话题发现结果及其相关的三元组构造话题知识图谱,重复计算所述话题知识图谱的中心性得到最终的暗网话题。
2.如权利要求1所述的基于知识图谱的暗网话题发现方法,其特征在于,在所述对获取的暗网数据进行web页面去重,通过算法对存在同一个页面采集了多次的数据进行去重处理之后,还包括:通过字符串匹配与字典法对与暗网黑话检测无关的停用词进行消除。
3.如权利要求1所述的基于知识图谱的暗网话题发现方法,其特征在于,所述通过黑话词典和文档/段落/句子的向量表示配合词向量表示,对降维后的所述暗网数据进行黑话检测识别,包括:
将采集的所述暗网数据作为黑话语料集和正常使用语料集作为训练样本进行黑话和正常使用情况下词语的词向量表示的联合训练;
将所述黑话语料集和所述正常使用语料集中的同一个词根据各自的数据集,从训练过程中的输入直到隐藏层,建立各自的权重关系,同时确保两个语料集中的词的上下文相结合,并通过隐藏层共同贡献神经网络的输出。
4.如权利要求3所述的基于知识图谱的暗网话题发现方法,其特征在于,所述训练样本还包括正常使用情况下的语料集和词语原意语料集。
5.如权利要求1所述的基于知识图谱的暗网话题发现方法,其特征在于,所述自然语言处理包括分词、命名实体识别、实体及属性对齐与消歧、事件抽取和关系抽取。
6.如权利要求5所述的基于知识图谱的暗网话题发现方法,其特征在于,所述分词用于对包含黑话的文本内容按词义进行切分,以使每一个词都有其独立的语义;
所述命名实体识别用于通过算法确定文本内容的各个实体,包括人名、地点、时间日期、机构和产品;
所述实体对齐用于通过属性相似性计算得分根据其属性信息将不同来源的实体映射到统一的实体对象上;
所述实体消歧用于对具有一词多义的实体确定其在当前上下文环境下的真正含义,实现构建知识图谱时不会发生歧义;
所述事件抽取用于将人工标注数据自动生成大规模标注数据并进行事件抽取;
所述事件关系抽取用于计算事件指称的文本语义相似度和事件类型与事件元素之间的相似度。
7.如权利要求1所述的基于知识图谱的暗网话题发现方法,其特征在于,所述节点的中心性包括度数中心度、中间中心度、接近中心度和特征值中心度。
8.如权利要求1所述的基于知识图谱的暗网话题发现方法,其特征在于,在得到最终的暗网话题之后,还包括:通过在所述事件知识图谱或所述话题知识图谱上,进行关联规则挖掘总结出逻辑规则,应用得到的所述逻辑规则进行自动推理实现对暗网话题的推理预测。
9.一种基于知识图谱的暗网话题发现系统,其特征在于,包括:
数据预处理与降维模块,包括预处理子模块和降维子模块;所述预处理子模块用于对获取的暗网数据进行web页面去重,通过算法对存在的采集了多次的同一页面的数据进行去重处理;所述降维子模块用于将去重处理后的所述暗网数据进行降维处理;
检测识别模块,用于通过黑话词典和doc2vec配合word2vec,对降维后的所述暗网数据进行黑话检测识别;知识图谱构建与话题发现模块,包括自然语言处理子模块、构建图谱子模块和话题发现子模块;所述自然语言处理子模块用于对检测到黑话后的数据进行自然语言处理,提取出弱信号数据的实体、属性、关系和事件;所述构建图谱子模块用于根据自然语言处理提取的弱信号数据构造事实三元组,构建事件知识图谱;所述话题发现子模块用于在所述事件知识图谱中通过图匹配和遍历实现弱信号数据间的关联发现,并通过所述事件知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现;具体包括:计算所述事件知识图谱的中心性,得到第一话题发现结果;根据iMLDA算法对网页内容进行计算,得到第二话题发现结果;判断所述第一话题发现结果和所述第二话题发现结果中的相同数量是否超过预设的阈值,若是,则根据所述第一话题发现结果和所述第二话题发现结果中相同数量的发现结果直接确定为暗网话题;若否,则通过所述第一话题发现结果和所述第二话题发现结果及其相关的三元组构造话题知识图谱,重复计算所述话题知识图谱的中心性得到最终的暗网话题。
CN201910305756.XA 2019-04-16 2019-04-16 一种基于知识图谱的暗网话题发现方法和系统 Active CN110046260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910305756.XA CN110046260B (zh) 2019-04-16 2019-04-16 一种基于知识图谱的暗网话题发现方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910305756.XA CN110046260B (zh) 2019-04-16 2019-04-16 一种基于知识图谱的暗网话题发现方法和系统

Publications (2)

Publication Number Publication Date
CN110046260A CN110046260A (zh) 2019-07-23
CN110046260B true CN110046260B (zh) 2021-06-08

Family

ID=67277498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910305756.XA Active CN110046260B (zh) 2019-04-16 2019-04-16 一种基于知识图谱的暗网话题发现方法和系统

Country Status (1)

Country Link
CN (1) CN110046260B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464666B (zh) * 2019-08-19 2023-07-21 四川大学 一种基于暗网数据的未知网络威胁自动发现方法
CN110489568B (zh) * 2019-08-26 2021-07-23 北京三快在线科技有限公司 生成事件图的方法、装置、存储介质和电子设备
CN110765276A (zh) * 2019-10-21 2020-02-07 北京明略软件系统有限公司 知识图谱中的实体对齐方法及装置
CN110826316B (zh) * 2019-11-06 2021-08-10 北京交通大学 一种应用于裁判文书中敏感信息的识别方法
CN110909178A (zh) * 2019-11-22 2020-03-24 上海交通大学 一种暗网威胁情报收集与信息关联系统和方法
CN110990676A (zh) * 2019-11-28 2020-04-10 福建亿榕信息技术有限公司 一种社交媒体热点主题提取方法与系统
CN111488429A (zh) * 2020-03-19 2020-08-04 杭州叙简科技股份有限公司 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法
CN111813953B (zh) * 2020-06-23 2023-07-07 广州大学 基于知识体的分布式知识图谱构建系统及方法
CN112287118B (zh) * 2020-10-30 2023-06-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 事件模式频繁子图挖掘与预测方法
CN113407728B (zh) * 2021-05-07 2022-06-17 浙江工业大学 一种无线电信号攻防领域的知识图谱构建及查询推荐系统
CN114692593B (zh) * 2022-03-21 2023-04-07 中国刑事警察学院 一种网络信息安全监测预警方法
CN115001861B (zh) * 2022-07-20 2022-12-09 中国电子科技集团公司第三十研究所 一种基于混合指纹特征的暗网服务异常检测方法及系统
CN117194682B (zh) * 2023-11-07 2024-03-01 国网浙江省电力有限公司营销服务中心 构建基于电网相关文件的知识图谱的方法、装置及介质
CN117422063B (zh) * 2023-12-18 2024-02-23 四川省大数据技术服务中心 应用智能辅助决策的大数据处理方法及智能辅助决策系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN107315734A (zh) * 2017-05-04 2017-11-03 中国科学院信息工程研究所 一种基于时间窗口和语义的变体词规范化的方法和系统
CN109145120A (zh) * 2018-07-02 2019-01-04 北京妙医佳信息技术有限公司 医学健康领域知识图谱的关系抽取方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980199A (zh) * 2010-10-28 2011-02-23 北京交通大学 基于态势评估的网络热点话题发现方法及系统
CN104008106B (zh) * 2013-02-25 2018-07-20 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN103699663B (zh) * 2013-12-27 2017-02-08 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN106055627B (zh) * 2016-05-27 2019-06-18 西安电子科技大学 话题领域中社交网络关键节点的识别方法
CN108197144B (zh) * 2017-11-28 2021-02-09 河海大学 一种基于BTM和Single-pass的热点话题发现方法
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN107315734A (zh) * 2017-05-04 2017-11-03 中国科学院信息工程研究所 一种基于时间窗口和语义的变体词规范化的方法和系统
CN109145120A (zh) * 2018-07-02 2019-01-04 北京妙医佳信息技术有限公司 医学健康领域知识图谱的关系抽取方法及系统

Also Published As

Publication number Publication date
CN110046260A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN110046260B (zh) 一种基于知识图谱的暗网话题发现方法和系统
Zhao et al. Cyberbullying detection based on semantic-enhanced marginalized denoising auto-encoder
Gokulakrishnan et al. Opinion mining and sentiment analysis on a twitter data stream
CN111950273B (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
Ghahremanlou et al. Geotagging twitter messages in crisis management
CN108319583B (zh) 从中文语料库提取知识的方法与系统
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
Suleiman et al. Comparative study of word embeddings models and their usage in Arabic language applications
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN112559684A (zh) 一种关键词提取及信息检索方法
Yu et al. Sentiment analysis for news and social media in COVID-19
Faruque et al. Ascertaining polarity of public opinions on Bangladesh cricket using machine learning techniques
CN110728151A (zh) 基于视觉特征的信息深度处理方法及系统
CN114997288A (zh) 一种设计资源关联方法
Al Imran et al. Bnnet: A deep neural network for the identification of satire and fake bangla news
Tahrat et al. Text2geo: from textual data to geospatial information
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
Alorini et al. Machine learning enabled sentiment index estimation using social media big data
Girija et al. A comparative review on approaches of aspect level sentiment analysis
Yang et al. Web service clustering method based on word vector and biterm topic model
Ahmed et al. Temporal positional lexicon expansion for federated learning based on hyperpatism detection
Ibrahim et al. Aspect oriented sentiment analysis model of Arabic tweets
Dashdorj et al. High‐level event identification in social media
Gnanavel et al. Rapid Text Retrieval and Analysis Supporting Latent Dirichlet Allocation Based on Probabilistic Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant