CN111506710B - 基于谣言预测模型的信息发送方法、装置和计算机设备 - Google Patents
基于谣言预测模型的信息发送方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN111506710B CN111506710B CN202010618415.0A CN202010618415A CN111506710B CN 111506710 B CN111506710 B CN 111506710B CN 202010618415 A CN202010618415 A CN 202010618415A CN 111506710 B CN111506710 B CN 111506710B
- Authority
- CN
- China
- Prior art keywords
- rumor
- preset
- network
- text
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 239000013598 vector Substances 0.000 claims abstract description 78
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000003042 antagnostic effect Effects 0.000 claims 2
- 230000002265 prevention Effects 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 13
- 238000007726 management method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006378 damage Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,可应用于智慧城市领域中,揭示了一种基于谣言预测模型的信息发送方法、装置、计算机设备和存储介质,检测网络文章的点击量;若网络文章的点击量的增幅大于预设的增长阈值,则进行向量化处理,从而得到文本向量矩阵;将所述文本向量矩阵输入谣言预测模型中,从而得到预测几率值;若预测几率值大于几率阈值,则得到关键词;调取指定知识图谱;生成知识节点打捞工具;利用知识节点打捞工具进行打捞处理,从而对应得到节点集合;向服务器发送预警信息,预警信息上附带有节点集合。从而实现了对初始网络谣言的识别,以及对二次谣言的预防。本申请还涉及区块链技术,所述谣言预测模型可存储于区块链中。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种基于谣言预测模型的信息发送方法、装置、计算机设备和存储介质。
背景技术
网络谣言是人为制造的,与事实不符,且有人为推动以达到大范围扩散,造成混淆事实的目的的网络信息(以网络文章方式存在)。对于网络谣言,现有的网络谣言发现方案,是在网络谣言大规模传播之后,发现其与事实不符,才能认定其为网络谣言,因此存在时效性差等缺点。并且,网络谣言存在多次传播,在多次传播的过程中还会逐渐滋生出与初始网络谣言不同的延伸谣言(指由初始网络谣言延伸出来的其他谣言),而现有的网络谣言发现方案对延伸谣言的识别时效性更差。因此,现有的网络谣言发现方案无法及时进行网络谣言发现,更无法避免延伸谣言的二次伤害。
发明内容
本申请提出一种基于谣言预测模型的信息发送方法,包括以下步骤:
检测预设网站中的网络文章的点击量,并判断所述网络文章的点击量在预设时间内的增幅是否大于预设的增长阈值;
若所述网络文章的点击量在预设时间内的增幅大于预设的增长阈值,则根据预设的文本向量化方法,对所述网络文章进行向量化处理,从而得到文本向量矩阵;
将所述文本向量矩阵输入预设的谣言预测模型中,从而得到所述谣言预测模型输出的预测几率值,其中所述预测几率值指所述网络文章为网络谣言的几率数值;
判断所述预测几率值是否大于预设的几率阈值;
若所述预测几率值大于预设的几率阈值,则对所述网络文章进行关键词提取处理,从而得到所述网络文章的关键词;
从预设的知识图谱库中调取指定知识图谱;其中所述指定知识图谱中的指定知识节点为所述网络文章的关键词;
采用预设的打捞工具生成方法,根据所述指定知识节点,生成知识节点打捞工具;
利用所述知识节点打捞工具,以所述指定知识节点为打捞基点进行知识节点打捞处理,从而对应得到节点集合;其中所述节点集合至少包括所述指定知识节点;
向预设的服务器发送预警信息,所述预警信息上附带有所述网络文章和所述节点集合。
进一步地,所述将所述文本向量矩阵输入预设的谣言预测模型中,从而得到所述谣言预测模型输出的预测几率值,其中所述预测几率值指所述网络文章为网络谣言的几率数值的步骤之前,包括:
调用预设的谣言文本集,以及调用预设的对抗网络模型;其中所述对抗网络模型包括生成模型和判别模型;
利用所述谣言文本集对所述对抗网络模型进行训练,以得到谣言数据扩充模型;其中,所述对抗网络模型在训练时的目标函数=其中,E表示期望值,x为所述谣言文本集中的真实谣言文本,pdata(x)为所述真实谣言文本的分布,p(z)为噪音分布,D为所述生成模型,G为所述判别模型;
将所述谣言文本集中的真实谣言文本输入所述谣言数据扩充模型中,以得到所述谣言数据扩充模型输出的模拟谣言文本;
将所述真实谣言文本和所述模拟谣言文本共同作为所述谣言预测模型的训练数据。
进一步地,所述对所述网络文章进行关键词提取处理,从而得到所述网络文章的关键词的步骤,包括:
计算所述网络文章的总字符数,并判断所述总字符数是否大于预设的字符数量阈值;
若所述总字符数不大于预设的字符数量阈值,则根据公式:计算出初始向量(Y1,Y2,...,Yi,...,Yn);其中,Q为所述网络文章中的所有单词出现的总次数,Qi为所述网络文章中的第i个单词出现次数,W为预设的文本库中包含的文本总数量,Wi为所述文本库中存在所述第i个单词的文本的数量,所述网络文章中共包含n个不同的单词;
从所述初始向量的所有分向量中,选出数值大于预设的筛选阈值的指定分向量,并将所述指定分向量对应的单词记为所述网络文章的关键词。
进一步地,所述从预设的知识图谱库中调取指定知识图谱;其中所述指定知识图谱中的指定知识节点为所述网络文章的关键词的步骤之前,包括:
采用预设的知识图谱构建工具对预先收集的数据进行实体识别处理,从而得到多个暂时实体;
对所述多个暂时实体进行同义消歧处理,以得到语义不同的多个最终实体;
构建高维空间坐标系,并根据预设的坐标点映射方法,将所有的最终实体映射为所述高维空间坐标系中的坐标点;
从所述预先收集的数据中,提出所述多个最终实体之间的实体关系,并在所述高维空间坐标系中,以最终实体-实体关系-最终实体的结构形成三元组,从而以具有高维空间坐标点的所述三元组为基本结构构建为知识图谱,并将构建得到的知识图谱存入所述知识图谱库中。
进一步地,所述采用预设的打捞工具生成方法,根据所述指定知识节点,生成知识节点打捞工具的步骤,包括:
在所述高维空间坐标系中,获取所述指定知识节点对应的第一坐标(A1,A2,...,An),其中所述高维空间坐标系为n维坐标系;
在所述指定知识图谱中,获取与所述指定知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述指定知识节点最近的近处节点和与所述指定知识节点最远的远处节点;
获取所述近处节点的第二坐标(B1,B2,...,Bn)和所述远处节点的第三坐标(C1,C2,...,Cn),并根据公式:
计算出打捞距离M,其中Ai为第一坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为第二坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为第三坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离M;
生成知识节点打捞工具;其中所述知识节点打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
本申请提供一种基于谣言预测模型的预警信息发送装置,包括:
点击量检测单元,用于检测预设网站中的网络文章的点击量,并判断所述网络文章的点击量在预设时间内的增幅是否大于预设的增长阈值;
文本向量矩阵获取单元,用于若所述网络文章的点击量在预设时间内的增幅大于预设的增长阈值,则根据预设的文本向量化方法,对所述网络文章进行向量化处理,从而得到文本向量矩阵;
预测几率值获取单元,用于将所述文本向量矩阵输入预设的谣言预测模型中,从而得到所述谣言预测模型输出的预测几率值,其中所述预测几率值指所述网络文章为网络谣言的几率数值;
预测几率值判断单元,用于判断所述预测几率值是否大于预设的几率阈值;
关键词提取单元,用于若所述预测几率值大于预设的几率阈值,则对所述网络文章进行关键词提取处理,从而得到所述网络文章的关键词;
指定知识图谱调取单元,用于从预设的知识图谱库中调取指定知识图谱;其中所述指定知识图谱中的指定知识节点为所述网络文章的关键词;
打捞工具生成单元,用于采用预设的打捞工具生成方法,根据所述指定知识节点,生成知识节点打捞工具;
节点集合获取单元,用于利用所述知识节点打捞工具,以所述指定知识节点为打捞基点进行知识节点打捞处理,从而对应得到节点集合;其中所述节点集合至少包括所述指定知识节点;
预警信息发送单元,用于向预设的服务器发送预警信息,所述预警信息上附带有所述网络文章和所述节点集合。
进一步地,所述装置,包括:
模型调用单元,用于调用预设的谣言文本集,以及调用预设的对抗网络模型;其中所述对抗网络模型包括生成模型和判别模型;
谣言数据扩充模型获取单元,用于利用所述谣言文本集对所述对抗网络模型进行训练,以得到谣言数据扩充模型;其中,所述对抗网络模型在训练时的目标函数=其中,E表示期望值,x为所述谣言文本集中的真实谣言文本,pdata(x)为所述真实谣言文本的分布,p(z)为噪音分布,D为所述生成模型,G为所述判别模型;
模拟谣言文本获取单元,用于将所述谣言文本集中的真实谣言文本输入所述谣言数据扩充模型中,以得到所述谣言数据扩充模型输出的模拟谣言文本;
训练数据标记单元,用于将所述真实谣言文本和所述模拟谣言文本共同作为所述谣言预测模型的训练数据。
进一步地,所述关键词提取单元,包括:
总字符数计算子单元,用于计算所述网络文章的总字符数,并判断所述总字符数是否大于预设的字符数量阈值;
初始向量计算子单元,用于若所述总字符数不大于预设的字符数量阈值,则根据公式:计算出初始向量(Y1,Y2,...,Yi,...,Yn);其中,Q为所述网络文章中的所有单词出现的总次数,Qi为所述网络文章中的第i个单词出现次数,W为预设的文本库中包含的文本总数量,Wi为所述文本库中存在所述第i个单词的文本的数量,所述网络文章中共包含n个不同的单词;
关键词获取子单元,用于从所述初始向量的所有分向量中,选出数值大于预设的筛选阈值的指定分向量,并将所述指定分向量对应的单词记为所述网络文章的关键词。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于谣言预测模型的信息发送方法、装置、计算机设备和存储介质,检测预设网站中的网络文章的点击量,并判断所述网络文章的点击量在预设时间内的增幅是否大于预设的增长阈值;若所述网络文章的点击量在预设时间内的增幅大于预设的增长阈值,则对所述网络文章进行向量化处理,从而得到文本向量矩阵;将所述文本向量矩阵输入预设的谣言预测模型中,从而得到预测几率值;若所述预测几率值大于预设的几率阈值,则得到所述网络文章的关键词;调取指定知识图谱;生成知识节点打捞工具;利用所述知识节点打捞工具,以所述指定知识节点为打捞基点进行知识节点打捞处理,从而对应得到节点集合;向预设的服务器发送预警信息,所述预警信息上附带有所述网络文章和所述节点集合。从而实现了对初始网络谣言的识别,以及对二次谣言的预防。
附图说明
图1为本申请一实施例的基于谣言预测模型的信息发送方法的流程示意图;
图2为本申请一实施例的基于谣言预测模型的信息发送装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
网络谣言至少具有两种特性,一是非真实性,二是大范围传播性,这是区别为网络真实信息的特点。为了将网络谣言准确识别出来,本申请采用对网络信息的扩散程度的检测,以及对其真实性的核实(利用谣言预测模型实现),来完成。更采用特别的打捞工具,在知识图谱中进行打捞处理,从而得到延伸谣言,从而减少谣言灾害的扩散。其中,延伸谣言是基于初始网络谣言而来的,其例如为人工恶意准备的二次谣言,或者为初始网络谣言在传播过程中,由于传播过程中信息的自然演变与自然的人为修正(这是人的自然属性所造成的,所谓三人成虎)而形成的二次谣言。本申请尤其适于对延伸谣言的预防,这是本申请的一大特点。本申请可应用于任意可行领域,例如应用于医疗谣言领域。
参照图1,本申请实施例提供一种基于谣言预测模型的信息发送方法,包括以下步骤:
S1、检测预设网站中的网络文章的点击量,并判断所述网络文章的点击量在预设时间内的增幅是否大于预设的增长阈值;
S2、若所述网络文章的点击量在预设时间内的增幅大于预设的增长阈值,则根据预设的文本向量化方法,对所述网络文章进行向量化处理,从而得到文本向量矩阵;
S3、将所述文本向量矩阵输入预设的谣言预测模型中,从而得到所述谣言预测模型输出的预测几率值,其中所述预测几率值指所述网络文章为网络谣言的几率数值;
S4、判断所述预测几率值是否大于预设的几率阈值;
S5、若所述预测几率值大于预设的几率阈值,则对所述网络文章进行关键词提取处理,从而得到所述网络文章的关键词;
S6、从预设的知识图谱库中调取指定知识图谱;其中所述指定知识图谱中的指定知识节点为所述网络文章的关键词;
S7、采用预设的打捞工具生成方法,根据所述指定知识节点,生成知识节点打捞工具;
S8、利用所述知识节点打捞工具,以所述指定知识节点为打捞基点进行知识节点打捞处理,从而对应得到节点集合;其中所述节点集合至少包括所述指定知识节点;
S9、向预设的服务器发送预警信息,所述预警信息上附带有所述网络文章和所述节点集合。
如上述步骤S1-S2所述,检测预设网站中的网络文章的点击量,并判断所述网络文章的点击量在预设时间内的增幅是否大于预设的增长阈值;若所述网络文章的点击量在预设时间内的增幅大于预设的增长阈值,则根据预设的文本向量化方法,对所述网络文章进行向量化处理,从而得到文本向量矩阵。其中,检测预设网站中的网络文章的点击量,其目的在于确定该网络文章是有具有大范围传播性。一般而言,若只是由于非恶意的对事实的误解,不会进行大力扩散,并且在文章发布者核实正确信息后,能够得以纠正,因此不具有大范围传播性的网络文章不被判定为网络谣言。其中,所述预设的文本向量化方法可为任意可行方法,例如为,通过查询预设的词向量库,从而获取网络文章中各个单词对应的词向量,从而构建为文本向量矩阵;或者,采用TF-IDF+LSA算法进行文本向量化,即先采用TF-IDF(其是一种统计学习方法,其通过衡量某词语在文本库的某文本中的重要性,来确定该词语的特征值)算法,计算出所述网络文章中的特征值,并将特征值大于预设的特征阈值的单词提取出来,记为指定单词。再采用LSA算法计算出所有的指定单词的文本向量矩阵,其中,所述LSA算法主要思想是语义分析,通过构建语义结构上隐含的上下文关系,找到这种潜在的语义关系,即某个词语通常与哪些词语同时出现,或者某个词语附近经常会出现哪些词语,从而本申请利用LSA算法计算出文本向量矩阵,以备后续谣言识别使用。
如上述步骤S3所述,将所述文本向量矩阵输入预设的谣言预测模型中,从而得到所述谣言预测模型输出的预测几率值,其中所述预测几率值指所述网络文章为网络谣言的几率数值。其中,所述谣言预测模型用于对输入文本(即网络文章)进行是否为谣言的预判,其可通过对谣言以及非谣言进行有监督学习,并从中识别出两者的差异性和各自的特征,以实现对新进文本进行是否为谣言的预判。所述谣言预测模型可为任意可行模型,例如为基于文本分类算法TextCNN模型训练得到。TextCNN对输入的文本向量借助滑动窗口,通过卷积层进行卷积处理,将特征矩阵进行压缩,再通过最大池化层,进一步提取出文本的关键特征点,以区分谣言和非谣言文本,最后通过softMax层,得到最终的谣言预测结果,通过该网络多次的训练,即可形成性能较好的谣言预测器。其中softMax函数取值范围是[0,1],输出的是该文本是谣言的概率,即输出的是预测几率值,其中所述预测几率值指所述网络文章为网络谣言的几率数值。当然,本申请中的谣言预测模型还能采用除TextCNN模型之外的其他模型。
如上述步骤S4-S5所述,判断所述预测几率值是否大于预设的几率阈值;若所述预测几率值大于预设的几率阈值,则对所述网络文章进行关键词提取处理,从而得到所述网络文章的关键词。其中,若所述预测几率值大于预设的几率阈值,表明所述网络文章为谣言。此时,以传统的谣言预警方法而言,其将直接进行预警,但无法对二次谣言的伤害进行预防。而本申请通过进一步的设计,防止了二次谣言的出现。首先,对所述网络文章进行关键词提取处理,从而得到所述网络文章的关键词。此时的关键词,不仅是初始网络谣言需要预警的内容,更是二次谣言预测的基础。
如上述步骤S6-S8所述,从预设的知识图谱库中调取指定知识图谱;其中所述指定知识图谱中的指定知识节点为所述网络文章的关键词;采用预设的打捞工具生成方法,根据所述指定知识节点,生成知识节点打捞工具;利用所述知识节点打捞工具,以所述指定知识节点为打捞基点进行知识节点打捞处理,从而对应得到节点集合;其中所述节点集合至少包括所述指定知识节点。本申请采用知识图库的设计,更重要的是,采用了特别的知识节点打捞工具,从而得到节点集合,而该节点集合实际上是初始网络谣言和二次谣言的集合。其中,知识图谱是一种可视化的地图,其由知识实体(知识节点)与知识实体之间的连接关系(实体关系)构成。本申请通过预设设置有知识图谱,以将谣言之间的关联关系反应在知识图谱中,从而当一个初始谣言出现后,与其关联的二次谣言能够在知识图谱中发现,例如初始谣言(例如该谣言的目的在于影响股价)为某公司管理高层病重无法理事(此时识别出的知识节点例如包括该管理高层),那么二次谣言在知识图谱中的反映例如为该管理高层负责的事项、对应的其他高层等。从而,本申请能够进行初始谣言和二次谣言的识别。
如上述步骤S9所述,向预设的服务器发送预警信息,所述预警信息上附带有所述网络文章和所述节点集合。其中,所述服务器用于对网络信息进行管理,例如对网络文章进行限流、屏蔽等,从而减少网络谣言的伤害。并且,所述预警信息上附带有所述网络文章和所述节点集合,以使本申请不仅实现了对初始谣言(即网络文章)的伤害减免,更对二次谣言进行了预先防备。进一步地,本申请还包括:对已被确定为网络谣言的网络文章进行地名提取并根据地名出现次数进行降序排列处理,以得到地名降序表,再次所述地名降序表发送给所述服务器,以便于地区谣言的防控。
在一个实施方式中,所述将所述文本向量矩阵输入预设的谣言预测模型中,从而得到所述谣言预测模型输出的预测几率值,其中所述预测几率值指所述网络文章为网络谣言的几率数值的步骤S3之前,包括:
S21、调用预设的谣言文本集,以及调用预设的对抗网络模型;其中所述对抗网络模型包括生成模型和判别模型;
S22、利用所述谣言文本集对所述对抗网络模型进行训练,以得到谣言数据扩充模型;其中,所述对抗网络模型在训练时的目标函数=其中,E表示期望值,x为所述谣言文本集中的真实谣言文本,pdata(x)为所述真实谣言文本的分布,p(z)为噪音分布,D为所述生成模型,G为所述判别模型;
S23、将所述谣言文本集中的真实谣言文本输入所述谣言数据扩充模型中,以得到所述谣言数据扩充模型输出的模拟谣言文本;
S24、将所述真实谣言文本和所述模拟谣言文本共同作为所述谣言预测模型的训练数据。
如上所述,实现了将所述真实谣言文本和所述模拟谣言文本共同作为所述谣言预测模型的训练数据。在现实中,非谣言文本数量远多于谣言文本数量,因此要采集到足够的谣言文本作为训练数据难以实现。因此,本申请采用对抗网络模型进行谣言文本的扩充。其中,所述对抗网络主要由两部分构成,即所述对抗网络模型包括生成模型和判别模型,所述生成模型用于接收输入的谣言文本,从而得到模拟谣言文本,并且若所述判别模型无法识别出模拟谣言文本,则可将模拟谣言文本作为谣言文本的补充,从而扩展训练数据。其中,所述对抗网络模型在训练时的目标函数=其中,E表示期望值,X为所述谣言文本集中的真实谣言文本,pdata(x)为所述真实谣言文本的分布,p(z)为噪音分布,D为所述生成模型,G为所述判别模型,即使判别模型对真假谣言的判别能力越来越差,即最大化(max)判别模型D的误差,同时又希望让模拟谣言与真实谣言的差距越来越小,即最小化(min)生成模型G的误差。从而对抗网络模型能够输出与原有的谣言文本具有相应欺诈性的模拟谣言文本;再将所述真实谣言文本和所述模拟谣言文本共同作为所述谣言预测模型的训练数据,即可实现训练数据扩展,以避免训练数据不足造成模型不准确的缺陷。
在一个实施方式中,所述对所述网络文章进行关键词提取处理,从而得到所述网络文章的关键词的步骤S5,包括:
S501、计算所述网络文章的总字符数,并判断所述总字符数是否大于预设的字符数量阈值;
S502、若所述总字符数不大于预设的字符数量阈值,则根据公式:计算出初始向量(Y1,Y2,...,Yi,...,Yn);其中,Q为所述网络文章中的所有单词出现的总次数,Qi为所述网络文章中的第i个单词出现次数,W为预设的文本库中包含的文本总数量,Wi为所述文本库中存在所述第i个单词的文本的数量,所述网络文章中共包含n个不同的单词;
S503、从所述初始向量的所有分向量中,选出数值大于预设的筛选阈值的指定分向量,并将所述指定分向量对应的单词记为所述网络文章的关键词。
如上所述,实现了对所述网络文章进行关键词提取处理,从而得到所述网络文章的关键词。本申请通过计算所述网络文章的总字符数,并判断所述总字符数是否大于预设的字符数量阈值,以确定所述网络文章的体量。若所述网络文章的体量较小,即所述网络文章短小,那么对所述网络文章直接进行处理,或者将所述网络文章的所有单词或者大部分单词作为关键词即可;反之,则需要对网络文章进一步处理。因此,若所述总字符数不大于预设的字符数量阈值,则根据公式:计算出初始向量(Y1,Y2,...,Yi,...,Yn)。其中,初始向量的计算公式衡量所有单词分别在预设的文本库的重要性。再从所述初始向量的所有分向量中,选出数值大于预设的筛选阈值的指定分向量,因此指定分向量对应的单词则为重要关键词,所以将所述指定分向量对应的单词记为所述网络文章的关键词。
在一个实施方式中,所述从预设的知识图谱库中调取指定知识图谱;其中所述指定知识图谱中的指定知识节点为所述网络文章的关键词的步骤S6之前,包括:
S51、采用预设的知识图谱构建工具对预先收集的数据进行实体识别处理,从而得到多个暂时实体;
S52、对所述多个暂时实体进行同义消歧处理,以得到语义不同的多个最终实体;
S53、构建高维空间坐标系,并根据预设的坐标点映射方法,将所有的最终实体映射为所述高维空间坐标系中的坐标点;
S54、从所述预先收集的数据中,提出所述多个最终实体之间的实体关系,并在所述高维空间坐标系中,以最终实体-实体关系-最终实体的结构形成三元组,从而以具有高维空间坐标点的所述三元组为基本结构构建为知识图谱,并将构建得到的知识图谱存入所述知识图谱库中。
如上所述,实现了将构建得到的知识图谱存入所述知识图谱库中。本申请可采用任意可行的知识图谱构建工具,其例如为开源的SPSS、VOSviewer等。知识图谱的结构是实体-实体关系-实体的三元组结构,因此实体即是知识图谱中的节点,实体关系在知识图谱中为实体与实体的连接关系。其过程例如为:行分词处理,从而获得由多个词构成的词序列,将所述词序列输入预设的语句结构模型,从而在所述词序列中获取暂时实体。需要注意的是,本申请采用的是特别的知识图谱,其相对于普通的知识图谱最重要的一点在于,普通的知识图谱不具有高维空间坐标系,而本申请引入了高维空间坐标系,以使不同知识节点之间除了实体关系之外,还具有空间距离关系,再将构建得到的知识图谱存入所述知识图谱库中,从而使本申请采用打捞工具能够从知识图谱获取更准确更充分的信息。
在一个实施方式中,所述采用预设的打捞工具生成方法,根据所述指定知识节点,生成知识节点打捞工具的步骤S7,包括:
S701、在所述高维空间坐标系中,获取所述指定知识节点对应的第一坐标(A1,A2,...,An),其中所述高维空间坐标系为n维坐标系;
S702、在所述指定知识图谱中,获取与所述指定知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述指定知识节点最近的近处节点和与所述指定知识节点最远的远处节点;
S703、获取所述近处节点的第二坐标(B1,B2,...,Bn)和所述远处节点的第三坐标(C1,C2,...,Cn),并根据公式:
计算出打捞距离M,其中Ai为第一坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为第二坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为第三坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
S704、生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离M;
S705、生成知识节点打捞工具;其中所述知识节点打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
如上所述,实现了采用预设的打捞工具生成方法,根据所述指定知识节点,生成知识节点打捞工具。普通的知识图谱只能依靠实体关系获取关联的知识节点,而本申请不同。本申请通过特别的设计,即通过生成知识节点打捞工具,使得知识图谱的利用率更高,且获得的数据更准确且更全面。具体地,在所述高维空间坐标系中,获取所述指定知识节点对应的第一坐标(A1,A2,...,An);所述指定知识图谱中,获取与所述指定知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述指定知识节点最近的近处节点和与所述指定知识节点最远的远处节点;获取所述近处节点的第二坐标(B1,B2,...,Bn)和所述远处节点的第三坐标(C1,C2,...,Cn),并根据公式:
计算出打捞距离M;生成有界多维空间;生成知识节点打捞工具;其中所述知识节点打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。从而利用知识节点打捞工具得到的知识节点,不仅包括与指定知识节点直接相连的知识节点,还包括在高维空间内距离小于打捞距离M的知识节点,从而实现了非直连知识节点的补充(因为相离较近的知识节点,虽然可能没有直连关系,但其相关程度仍是足够高的,是二次谣言的可能性也足够高)。其中,所述均衡参数a的取值为0.8-0.99,优选0.85。
本申请的基于谣言预测模型的信息发送方法,检测预设网站中的网络文章的点击量,并判断所述网络文章的点击量在预设时间内的增幅是否大于预设的增长阈值;若所述网络文章的点击量在预设时间内的增幅大于预设的增长阈值,则对所述网络文章进行向量化处理,从而得到文本向量矩阵;将所述文本向量矩阵输入预设的谣言预测模型中,从而得到预测几率值;若所述预测几率值大于预设的几率阈值,则得到所述网络文章的关键词;调取指定知识图谱;生成知识节点打捞工具;利用所述知识节点打捞工具,以所述指定知识节点为打捞基点进行知识节点打捞处理,从而对应得到节点集合;向预设的服务器发送预警信息,所述预警信息上附带有所述网络文章和所述节点集合。从而实现了对初始网络谣言的识别,以及对二次谣言的预防。
参照图2,本申请实施例提供一种基于谣言预测模型的信息发送装置,包括:
点击量检测单元10,用于检测预设网站中的网络文章的点击量,并判断所述网络文章的点击量在预设时间内的增幅是否大于预设的增长阈值;
文本向量矩阵获取单元20,用于若所述网络文章的点击量在预设时间内的增幅大于预设的增长阈值,则根据预设的文本向量化方法,对所述网络文章进行向量化处理,从而得到文本向量矩阵;
预测几率值获取单元30,用于将所述文本向量矩阵输入预设的谣言预测模型中,从而得到所述谣言预测模型输出的预测几率值,其中所述预测几率值指所述网络文章为网络谣言的几率数值;
预测几率值判断单元40,用于判断所述预测几率值是否大于预设的几率阈值;
关键词提取单元50,用于若所述预测几率值大于预设的几率阈值,则对所述网络文章进行关键词提取处理,从而得到所述网络文章的关键词;
指定知识图谱调取单元60,用于从预设的知识图谱库中调取指定知识图谱;其中所述指定知识图谱中的指定知识节点为所述网络文章的关键词;
打捞工具生成单元70,用于采用预设的打捞工具生成方法,根据所述指定知识节点,生成知识节点打捞工具;
节点集合获取单元80,用于利用所述知识节点打捞工具,以所述指定知识节点为打捞基点进行知识节点打捞处理,从而对应得到节点集合;其中所述节点集合至少包括所述指定知识节点;
预警信息发送单元90,用于向预设的服务器发送预警信息,所述预警信息上附带有所述网络文章和所述节点集合。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于谣言预测模型的信息发送方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
模型调用单元,用于调用预设的谣言文本集,以及调用预设的对抗网络模型;其中所述对抗网络模型包括生成模型和判别模型;
谣言数据扩充模型获取单元,用于利用所述谣言文本集对所述对抗网络模型进行训练,以得到谣言数据扩充模型;其中,所述对抗网络模型在训练时的目标函数=其中,E表示期望值,x为所述谣言文本集中的真实谣言文本,pdata(x)为所述真实谣言文本的分布,p(z)为噪音分布,D为所述生成模型,G为所述判别模型;
模拟谣言文本获取单元,用于将所述谣言文本集中的真实谣言文本输入所述谣言数据扩充模型中,以得到所述谣言数据扩充模型输出的模拟谣言文本;
训练数据标记单元,用于将所述真实谣言文本和所述模拟谣言文本共同作为所述谣言预测模型的训练数据。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于谣言预测模型的信息发送方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述关键词提取单元,包括:
总字符数计算子单元,用于计算所述网络文章的总字符数,并判断所述总字符数是否大于预设的字符数量阈值;
初始向量计算子单元,用于若所述总字符数不大于预设的字符数量阈值,则根据公式:计算出初始向量(Y1,Y2,...,Yi,...,Yn);其中,Q为所述网络文章中的所有单词出现的总次数,Qi为所述网络文章中的第i个单词出现次数,W为预设的文本库中包含的文本总数量,Wi为所述文本库中存在所述第i个单词的文本的数量,所述网络文章中共包含n个不同的单词;
关键词获取子单元,用于从所述初始向量的所有分向量中,选出数值大于预设的筛选阈值的指定分向量,并将所述指定分向量对应的单词记为所述网络文章的关键词。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于谣言预测模型的信息发送方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
暂时实体获取单元,用于采用预设的知识图谱构建工具对预先收集的数据进行实体识别处理,从而得到多个暂时实体;
同义消歧单元,用于对所述多个暂时实体进行同义消歧处理,以得到语义不同的多个最终实体;
最终实体映射单元,用于构建高维空间坐标系,并根据预设的坐标点映射方法,将所有的最终实体映射为所述高维空间坐标系中的坐标点;
知识图谱构建单元,用于从所述预先收集的数据中,提出所述多个最终实体之间的实体关系,并在所述高维空间坐标系中,以最终实体-实体关系-最终实体的结构形成三元组,从而以具有高维空间坐标点的所述三元组为基本结构构建为知识图谱,并将构建得到的知识图谱存入所述知识图谱库中。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于谣言预测模型的信息发送方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述打捞工具生成单元,包括:
第一坐标获取子单元,用于在所述高维空间坐标系中,获取所述指定知识节点对应的第一坐标(A1,A2,...,An),其中所述高维空间坐标系为n维坐标系;
第一关联节点获取子单元,用于在所述指定知识图谱中,获取与所述指定知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述指定知识节点最近的近处节点和与所述指定知识节点最远的远处节点;
打捞距离计算子单元,用于获取所述近处节点的第二坐标(B1,B2,...,Bn)和所述远处节点的第三坐标(C1,C2,...,Cn),并根据公式:
计算出打捞距离M,其中Ai为第一坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为第二坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为第三坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
有界多维空间生成子单元,用于生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离M;
知识节点打捞工具生成子单元,用于生成知识节点打捞工具;其中所述知识节点打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于谣言预测模型的信息发送方法的步骤一一对应,在此不再赘述。
本申请的基于谣言预测模型的信息发送装置,检测预设网站中的网络文章的点击量,并判断所述网络文章的点击量在预设时间内的增幅是否大于预设的增长阈值;若所述网络文章的点击量在预设时间内的增幅大于预设的增长阈值,则对所述网络文章进行向量化处理,从而得到文本向量矩阵;将所述文本向量矩阵输入预设的谣言预测模型中,从而得到预测几率值;若所述预测几率值大于预设的几率阈值,则得到所述网络文章的关键词;调取指定知识图谱;生成知识节点打捞工具;利用所述知识节点打捞工具,以所述指定知识节点为打捞基点进行知识节点打捞处理,从而对应得到节点集合;向预设的服务器发送预警信息,所述预警信息上附带有所述网络文章和所述节点集合。从而实现了对初始网络谣言的识别,以及对二次谣言的预防。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于谣言预测模型的信息发送方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于谣言预测模型的信息发送方法。
上述处理器执行上述基于谣言预测模型的信息发送方法,其中所述方法包括的步骤分别与执行前述实施方式的基于谣言预测模型的信息发送方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,检测预设网站中的网络文章的点击量,并判断所述网络文章的点击量在预设时间内的增幅是否大于预设的增长阈值;若所述网络文章的点击量在预设时间内的增幅大于预设的增长阈值,则对所述网络文章进行向量化处理,从而得到文本向量矩阵;将所述文本向量矩阵输入预设的谣言预测模型中,从而得到预测几率值;若所述预测几率值大于预设的几率阈值,则得到所述网络文章的关键词;调取指定知识图谱;生成知识节点打捞工具;利用所述知识节点打捞工具,以所述指定知识节点为打捞基点进行知识节点打捞处理,从而对应得到节点集合;向预设的服务器发送预警信息,所述预警信息上附带有所述网络文章和所述节点集合。从而实现了对初始网络谣言的识别,以及对二次谣言的预防。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于谣言预测模型的信息发送方法,其中所述方法包括的步骤分别与执行前述实施方式的基于谣言预测模型的信息发送方法的步骤一一对应,在此不再赘述。
本申请的计算机可读存储介质,检测预设网站中的网络文章的点击量,并判断所述网络文章的点击量在预设时间内的增幅是否大于预设的增长阈值;若所述网络文章的点击量在预设时间内的增幅大于预设的增长阈值,则对所述网络文章进行向量化处理,从而得到文本向量矩阵;将所述文本向量矩阵输入预设的谣言预测模型中,从而得到预测几率值;若所述预测几率值大于预设的几率阈值,则得到所述网络文章的关键词;调取指定知识图谱;生成知识节点打捞工具;利用所述知识节点打捞工具,以所述指定知识节点为打捞基点进行知识节点打捞处理,从而对应得到节点集合;向预设的服务器发送预警信息,所述预警信息上附带有所述网络文章和所述节点集合。从而实现了对初始网络谣言的识别,以及对二次谣言的预防。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
本申请可应用于智慧城市领域中,从而推动智慧城市的建设。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于谣言预测模型的预警信息发送方法,其特征在于,包括:
检测预设网站中的网络文章的点击量,并判断所述网络文章的点击量在预设时间内的增幅是否大于预设的增长阈值;
若所述网络文章的点击量在预设时间内的增幅大于预设的增长阈值,则根据预设的文本向量化方法,对所述网络文章进行向量化处理,从而得到文本向量矩阵;
将所述文本向量矩阵输入预设的谣言预测模型中,从而得到所述谣言预测模型输出的预测几率值,其中所述预测几率值指所述网络文章为网络谣言的几率数值;
判断所述预测几率值是否大于预设的几率阈值;
若所述预测几率值大于预设的几率阈值,则对所述网络文章进行关键词提取处理,从而得到所述网络文章的关键词;
从预设的知识图谱库中调取指定知识图谱;其中所述指定知识图谱中的指定知识节点为所述网络文章的关键词;
采用预设的打捞工具生成方法,根据所述指定知识节点,生成知识节点打捞工具;
利用所述知识节点打捞工具,以所述指定知识节点为打捞基点进行知识节点打捞处理,从而对应得到节点集合;其中所述节点集合至少包括所述指定知识节点;
向预设的服务器发送预警信息,所述预警信息上附带有所述网络文章和所述节点集合。
2.根据权利要求1所述的基于谣言预测模型的预警信息发送方法,其特征在于,所述将所述文本向量矩阵输入预设的谣言预测模型中,从而得到所述谣言预测模型输出的预测几率值,其中所述预测几率值指所述网络文章为网络谣言的几率数值的步骤之前,包括:
调用预设的谣言文本集,以及调用预设的对抗网络模型;其中所述对抗网络模型包括生成模型和判别模型;
利用所述谣言文本集对所述对抗网络模型进行训练,以得到谣言数据扩充模型;其中,所述对抗网络模型在训练时的 其中,E表示期望值,x为所述谣言文本集中的真实谣言文本,pdata(x)为所述真实谣言文本的分布,p(z)为噪音分布,D为所述生成模型,G为所述判别模型;
将所述谣言文本集中的真实谣言文本输入所述谣言数据扩充模型中,以得到所述谣言数据扩充模型输出的模拟谣言文本;
将所述真实谣言文本和所述模拟谣言文本共同作为所述谣言预测模型的训练数据。
3.根据权利要求1所述的基于谣言预测模型的预警信息发送方法,其特征在于,所述对所述网络文章进行关键词提取处理,从而得到所述网络文章的关键词的步骤,包括:
计算所述网络文章的总字符数,并判断所述总字符数是否大于预设的字符数量阈值;
若所述总字符数不大于预设的字符数量阈值,则根据公式:计算出初始向量(Y1,Y2,...,Yi,...,Yn);其中,Q为所述网络文章中的所有单词出现的总次数,Qi为所述网络文章中的第i个单词出现次数,W为预设的文本库中包含的文本总数量,Wi为所述文本库中存在所述第i个单词的文本的数量,所述网络文章中共包含n个不同的单词;
从所述初始向量的所有分向量中,选出数值大于预设的筛选阈值的指定分向量,并将所述指定分向量对应的单词记为所述网络文章的关键词。
4.根据权利要求1所述的基于谣言预测模型的预警信息发送方法,其特征在于,所述从预设的知识图谱库中调取指定知识图谱;其中所述指定知识图谱中的指定知识节点为所述网络文章的关键词的步骤之前,包括:
采用预设的知识图谱构建工具对预先收集的数据进行实体识别处理,从而得到多个暂时实体;
对所述多个暂时实体进行同义消歧处理,以得到语义不同的多个最终实体;
构建高维空间坐标系,并根据预设的坐标点映射方法,将所有的最终实体映射为所述高维空间坐标系中的坐标点;
从所述预先收集的数据中,提出所述多个最终实体之间的实体关系,并在所述高维空间坐标系中,以最终实体-实体关系-最终实体的结构形成三元组,从而以具有高维空间坐标点的所述三元组为基本结构构建为知识图谱,并将构建得到的知识图谱存入所述知识图谱库中。
5.根据权利要求4所述的基于谣言预测模型的预警信息发送方法,其特征在于,所述采用预设的打捞工具生成方法,根据所述指定知识节点,生成知识节点打捞工具的步骤,包括:
在所述高维空间坐标系中,获取所述指定知识节点对应的第一坐标(A1,A2,...,An),其中所述高维空间坐标系为n维坐标系;
在所述指定知识图谱中,获取与所述指定知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述指定知识节点最近的近处节点和与所述指定知识节点最远的远处节点;
获取所述近处节点的第二坐标(B1,B2,...,Bn)和所述远处节点的第三坐标(C1,C2,...,Cn),并根据公式:
计算出打捞距离M,其中Ai为第一坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为第二坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为第三坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离M;
生成知识节点打捞工具;其中所述知识节点打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
6.一种基于谣言预测模型的预警信息发送装置,其特征在于,包括:
点击量检测单元,用于检测预设网站中的网络文章的点击量,并判断所述网络文章的点击量在预设时间内的增幅是否大于预设的增长阈值;
文本向量矩阵获取单元,用于若所述网络文章的点击量在预设时间内的增幅大于预设的增长阈值,则根据预设的文本向量化方法,对所述网络文章进行向量化处理,从而得到文本向量矩阵;
预测几率值获取单元,用于将所述文本向量矩阵输入预设的谣言预测模型中,从而得到所述谣言预测模型输出的预测几率值,其中所述预测几率值指所述网络文章为网络谣言的几率数值;
预测几率值判断单元,用于判断所述预测几率值是否大于预设的几率阈值;
关键词提取单元,用于若所述预测几率值大于预设的几率阈值,则对所述网络文章进行关键词提取处理,从而得到所述网络文章的关键词;
指定知识图谱调取单元,用于从预设的知识图谱库中调取指定知识图谱;其中所述指定知识图谱中的指定知识节点为所述网络文章的关键词;
打捞工具生成单元,用于采用预设的打捞工具生成方法,根据所述指定知识节点,生成知识节点打捞工具;
节点集合获取单元,用于利用所述知识节点打捞工具,以所述指定知识节点为打捞基点进行知识节点打捞处理,从而对应得到节点集合;其中所述节点集合至少包括所述指定知识节点;
预警信息发送单元,用于向预设的服务器发送预警信息,所述预警信息上附带有所述网络文章和所述节点集合。
7.根据权利要求6所述的基于谣言预测模型的预警信息发送装置,其特征在于,所述装置,包括:
模型调用单元,用于调用预设的谣言文本集,以及调用预设的对抗网络模型;其中所述对抗网络模型包括生成模型和判别模型;
谣言数据扩充模型获取单元,用于利用所述谣言文本集对所述对抗网络模型进行训练,以得到谣言数据扩充模型;其中,所述对抗网络模型在训练时的 其中,E表示期望值,x为所述谣言文本集中的真实谣言文本,pdata(x)为所述真实谣言文本的分布,p(z)为噪音分布,D为所述生成模型,G为所述判别模型;
模拟谣言文本获取单元,用于将所述谣言文本集中的真实谣言文本输入所述谣言数据扩充模型中,以得到所述谣言数据扩充模型输出的模拟谣言文本;
训练数据标记单元,用于将所述真实谣言文本和所述模拟谣言文本共同作为所述谣言预测模型的训练数据。
8.根据权利要求6所述的基于谣言预测模型的预警信息发送装置,其特征在于,所述关键词提取单元,包括:
总字符数计算子单元,用于计算所述网络文章的总字符数,并判断所述总字符数是否大于预设的字符数量阈值;
初始向量计算子单元,用于若所述总字符数不大于预设的字符数量阈值,则根据公式:计算出初始向量(Y1,Y2,...,Yi,...,Yn);其中,Q为所述网络文章中的所有单词出现的总次数,Qi为所述网络文章中的第i个单词出现次数,W为预设的文本库中包含的文本总数量,Wi为所述文本库中存在所述第i个单词的文本的数量,所述网络文章中共包含n个不同的单词;
关键词获取子单元,用于从所述初始向量的所有分向量中,选出数值大于预设的筛选阈值的指定分向量,并将所述指定分向量对应的单词记为所述网络文章的关键词。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010618415.0A CN111506710B (zh) | 2020-07-01 | 2020-07-01 | 基于谣言预测模型的信息发送方法、装置和计算机设备 |
PCT/CN2021/096236 WO2022001517A1 (zh) | 2020-07-01 | 2021-05-27 | 基于谣言预测模型的信息发送方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010618415.0A CN111506710B (zh) | 2020-07-01 | 2020-07-01 | 基于谣言预测模型的信息发送方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111506710A CN111506710A (zh) | 2020-08-07 |
CN111506710B true CN111506710B (zh) | 2020-11-06 |
Family
ID=71864564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010618415.0A Active CN111506710B (zh) | 2020-07-01 | 2020-07-01 | 基于谣言预测模型的信息发送方法、装置和计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111506710B (zh) |
WO (1) | WO2022001517A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506710B (zh) * | 2020-07-01 | 2020-11-06 | 平安国际智慧城市科技股份有限公司 | 基于谣言预测模型的信息发送方法、装置和计算机设备 |
CN113434691B (zh) * | 2021-08-26 | 2021-11-19 | 南京山猫齐动信息技术有限公司 | 基于分类模拟模型提升短信触达率的方法及装置 |
CN116341521B (zh) * | 2023-05-22 | 2023-07-28 | 环球数科集团有限公司 | 一种基于文本特征的aigc文章辨识系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002215785A (ja) * | 2001-01-13 | 2002-08-02 | Toshio Shimoyama | マインドセキュリティサービス |
CN109271425A (zh) * | 2018-09-30 | 2019-01-25 | 北京字节跳动网络技术有限公司 | 构建谣言数据库的方法、分析谣言数据的方法及电子设备 |
CN109783629A (zh) * | 2019-01-16 | 2019-05-21 | 福州大学 | 一种融合全局事件关系信息的微博客事件谣言检测方法 |
CN109918648A (zh) * | 2019-01-31 | 2019-06-21 | 内蒙古工业大学 | 一种基于动态滑动窗口特征评分的谣言深度检测方法 |
CN110032733A (zh) * | 2019-03-12 | 2019-07-19 | 中国科学院计算技术研究所 | 一种针对新闻长文本的谣言检测方法及系统 |
CN110633373A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种基于知识图谱和深度学习的汽车舆情分析方法 |
CN111144131A (zh) * | 2019-12-25 | 2020-05-12 | 北京中科研究院 | 一种基于预训练语言模型的网络谣言检测方法 |
CN111159395A (zh) * | 2019-11-22 | 2020-05-15 | 国家计算机网络与信息安全管理中心 | 基于图神经网络的谣言立场检测方法、装置和电子设备 |
CN111221941A (zh) * | 2020-01-10 | 2020-06-02 | 复旦大学 | 基于文本内容和行文风格的社交媒体谣言鉴别算法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258039B (zh) * | 2013-05-20 | 2016-04-06 | 中国地质大学(武汉) | 一种微博伪造信息的检测方法 |
US20170357724A1 (en) * | 2016-06-14 | 2017-12-14 | International Business Machines Corporation | Model independent and network structure driven ranking of nodes for limiting the spread of misinformation through location based social networks |
CN108038240A (zh) * | 2017-12-26 | 2018-05-15 | 武汉大学 | 基于内容、用户多因素分析的社交网络谣言检测方法 |
CN110909125B (zh) * | 2019-10-30 | 2022-11-15 | 中山大学 | 推文级社会媒体谣言检测方法 |
CN110990683B (zh) * | 2019-11-29 | 2022-08-23 | 重庆邮电大学 | 一种基于地域与情感特征的微博谣言集成识别方法及装置 |
IN202021002623A (zh) * | 2020-01-21 | 2020-03-13 | ||
CN111506710B (zh) * | 2020-07-01 | 2020-11-06 | 平安国际智慧城市科技股份有限公司 | 基于谣言预测模型的信息发送方法、装置和计算机设备 |
-
2020
- 2020-07-01 CN CN202010618415.0A patent/CN111506710B/zh active Active
-
2021
- 2021-05-27 WO PCT/CN2021/096236 patent/WO2022001517A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002215785A (ja) * | 2001-01-13 | 2002-08-02 | Toshio Shimoyama | マインドセキュリティサービス |
CN110633373A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种基于知识图谱和深度学习的汽车舆情分析方法 |
CN109271425A (zh) * | 2018-09-30 | 2019-01-25 | 北京字节跳动网络技术有限公司 | 构建谣言数据库的方法、分析谣言数据的方法及电子设备 |
CN109783629A (zh) * | 2019-01-16 | 2019-05-21 | 福州大学 | 一种融合全局事件关系信息的微博客事件谣言检测方法 |
CN109918648A (zh) * | 2019-01-31 | 2019-06-21 | 内蒙古工业大学 | 一种基于动态滑动窗口特征评分的谣言深度检测方法 |
CN110032733A (zh) * | 2019-03-12 | 2019-07-19 | 中国科学院计算技术研究所 | 一种针对新闻长文本的谣言检测方法及系统 |
CN111159395A (zh) * | 2019-11-22 | 2020-05-15 | 国家计算机网络与信息安全管理中心 | 基于图神经网络的谣言立场检测方法、装置和电子设备 |
CN111144131A (zh) * | 2019-12-25 | 2020-05-12 | 北京中科研究院 | 一种基于预训练语言模型的网络谣言检测方法 |
CN111221941A (zh) * | 2020-01-10 | 2020-06-02 | 复旦大学 | 基于文本内容和行文风格的社交媒体谣言鉴别算法 |
Also Published As
Publication number | Publication date |
---|---|
WO2022001517A1 (zh) | 2022-01-06 |
CN111506710A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897673B (zh) | 运维故障根因识别方法、装置、计算机设备和存储介质 | |
CN111506722B (zh) | 基于深度学习技术的知识图谱问答方法、装置及设备 | |
CN111506710B (zh) | 基于谣言预测模型的信息发送方法、装置和计算机设备 | |
WO2020253358A1 (zh) | 业务数据的风控分析处理方法、装置和计算机设备 | |
CN111737493B (zh) | 基于决策树的异常数据源输出方法、装置和计算机设备 | |
CN109886554B (zh) | 违规行为判别方法、装置、计算机设备和存储介质 | |
CN112464117A (zh) | 请求处理方法、装置、计算机设备和存储介质 | |
CN113434310B (zh) | 多线程任务分配方法、装置、设备及存储介质 | |
CN110162958B (zh) | 用于计算设备的综合信用分的方法、装置和记录介质 | |
CN111767192B (zh) | 基于人工智能的业务数据检测方法、装置、设备和介质 | |
CN112836061A (zh) | 智能推荐的方法、装置以及计算机设备 | |
CN112131471A (zh) | 基于无权无向图进行关系推荐的方法、装置、设备及介质 | |
CN112036497A (zh) | 欺诈案件识别模型的训练方法、装置和计算机设备 | |
CN113672654B (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
CN113177109A (zh) | 文本的弱标注方法、装置、设备以及存储介质 | |
CN112035775B (zh) | 基于随机森林模型的用户识别方法、装置和计算机设备 | |
CN112990989A (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN117579332A (zh) | 网络威胁检测方法和装置 | |
CN114692785B (zh) | 行为分类方法、装置、设备及存储介质 | |
CN113312481A (zh) | 基于区块链的文本分类方法、装置、设备以及存储介质 | |
CN113360644B (zh) | 文本模型再训练的方法、装置、设备及存储介质 | |
CN113919953A (zh) | 跨链生成智能合约的实现方法、装置、设备以及存储介质 | |
CN114399190B (zh) | 一种针对大数据信息安全的风险行为识别方法及系统 | |
CN113177396B (zh) | 报表生成方法、装置、计算机设备和存储介质 | |
KR102433831B1 (ko) | 보안관제 의사결정 지원 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231110 Address after: Room 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong 518000 Patentee after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Patentee before: Ping An International Smart City Technology Co.,Ltd. |
|
TR01 | Transfer of patent right |