CN115374372B - 网络社区虚假信息快速识别方法及装置、设备、存储介质 - Google Patents
网络社区虚假信息快速识别方法及装置、设备、存储介质 Download PDFInfo
- Publication number
- CN115374372B CN115374372B CN202211037318.8A CN202211037318A CN115374372B CN 115374372 B CN115374372 B CN 115374372B CN 202211037318 A CN202211037318 A CN 202211037318A CN 115374372 B CN115374372 B CN 115374372B
- Authority
- CN
- China
- Prior art keywords
- value
- false
- information
- text
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于文本信息处理技术领域,公开了一种网络社区虚假信息快速识别方法及装置、设备、存储介质,通过将网络社区上出现的用户关注值较大的候选主题确定为热点主题,并将用户关注值在一定时间内具有较大程度上升的热点主题确定为价值主题,视为可能造成影响的有价值进行虚假信息识别的价值主题,从而可以排除掉可能不会造成影响或影响较小的无价值主题,也即本发明可以动态获取网络社区上新发表的主题筛选出高价值主题,实时更新虚假文本数据库,并仅针对筛选出的高价值主题进行虚假信息识别,可以考虑到对网络社区某个主题进行虚假信息识别的价值,使得识别方法具有更好的适应性,进而在实现高效识别的同时以较大幅度的提高识别准确率。
Description
技术领域
本发明属于文本信息处理技术领域,具体涉及一种网络社区虚假信息快速识别方法及装置、设备、存储介质。
背景技术
随着互联网的快速发展,网络社区成为网民表达意见、发表评论、共享信息等主要平台。近年来,越来越多的案例、研究表明,网络社区逐渐出现大量与事实不符的虚假信息;凭借互联网的特点,在网络空间快速传播。网络社区虚假信息具有传播速度快,影响力大等显著特征。其对网络舆情、社会公共安全等造成重大的影响,严重的虚假信息甚至产生公众财产、生命的损失。因此,如何高效、快速的识别虚假信息具有重要意义。
现有技术中提出一些机器学习方法,诸如贝叶斯分类、支持向量机、随机森林等,用于网络社区虚假文本信息识别。这类方法首先对网络社区发表的文本信息进行大量标注(标注哪些是真实信息,哪些是虚假信息),并建立训练数据库;然后依托建立的训练数据集,采用相应的机器学习算法,完成模型训练。再次采用测试数据集对训练模型进行测试。最后,将训练测试好的训练模型,应用于实际网络社区。但在实践中发现,这类方法依托于大型虚假文本数据库的建立,需要完成虚假信息标注、模型训练、测试等,存在建库时间花费大导致实时性差的问题,因此出现识别滞后等问题。
另外现有技术中还提出一些深度学习方法,诸如LSTM,Bi-LSTM,对抗神经网络等等,用于网络社区虚假文本信息识别。这类方法与机器学习方法类似,其区别在于采用更加复杂的网络结构或算法。以深度神经网络为代表,为了获取更好的虚假信息识别准确率,该类方法会在网络结构中加入更多的卷积和池化部件。因此不仅存在机器学习方法的不足,同时还存在算法复杂、模型训练时间更长、识别时间更长、硬件设备要求更高、应用性差等不足。
此外,还有一种文本对比方法,即对网社区发表的文本信息与真实信息数据库(或虚假信息库)进行文字对比,无需建模,可以更高效的识别网络社区虚假文本信息。但是这类文本对比方法中,通常对比文本信息库静态不变,无法适应网络社区特点主题变化以及层出不穷的新互联网语言,导致虚假文本信息识别准确率低下。
发明内容
本发明的目的在于提供一种网络社区虚假信息快速识别方法及装置、设备、存储介质,可以具有更好的适应性,在实现高效识别的同时提高识别准确率。
本发明第一方面公开一种网络社区虚假信息快速识别方法,包括:
获取网络社区在第一时刻出现的多个候选主题;
计算每个所述候选主题在第一时刻的第一用户关注值;
将所述第一用户关注值大于第一阈值的候选主题确定为热点主题;
计算每个所述热点主题在第二时刻的第二用户关注值;
将第二用户关注值高于第一用户关注值且两者的差分值大于第二阈值的热点主题确定为价值主题;所述第二阈值小于所述第一阈值;
获取与每个所述价值主题相关的多个典型虚假文本;
将多个典型虚假文本与相应的价值主题进行关联存储;
获取所述网络社区在第三时刻出现的文本信息;
从多个所述价值主题中调取与所述文本信息相匹配的目标价值主题,并调取与所述目标价值主题关联的多个目标典型虚假文本;
计算所述文本信息与每个所述目标典型虚假文本之间的相似度;
将所述相似度的最大值确定为所述文本信息的虚假度;
若所述虚假度达到第三阈值,判定所述文本信息为虚假信息。
本发明第二方面公开一种网络社区虚假信息快速识别装置,包括:
主题获取单元,用于获取网络社区在第一时刻出现的多个候选主题;
第一计算单元,用于计算每个所述候选主题在第一时刻的第一用户关注值;
热点确定单元,用于将所述第一用户关注值大于第一阈值的候选主题确定为热点主题;
第二计算单元,用于计算每个所述热点主题在第二时刻的第二用户关注值;
价值确定单元,用于将第二用户关注值高于第一用户关注值且两者的差分值大于第二阈值的热点主题确定为价值主题;所述第二阈值小于所述第一阈值;
建库单元,用于获取与每个所述价值主题相关的多个典型虚假文本;
存储单元,用于将多个典型虚假文本与相应的价值主题进行关联存储;
监测单元,用于获取所述网络社区在第三时刻出现的文本信息;
调取单元,用于从多个所述价值主题中调取与所述文本信息相匹配的目标价值主题,并调取与所述目标价值主题关联的多个目标典型虚假文本;
对比单元,用于计算所述文本信息与每个所述目标典型虚假文本之间的相似度;以及,将所述相似度的最大值确定为所述文本信息的虚假度;
判定单元,用于在所述虚假度达到第三阈值时,判定所述文本信息为虚假信息。
本发明第三方面公开一种电子设备,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行第一方面公开的网络社区虚假信息快速识别方法。
本发明第四方面公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行第一方面公开的网络社区虚假信息快速识别方法。
本发明的有益效果在于,所提供的网络社区虚假信息快速识别方法及装置、设备、存储介质,通过将网络社区上出现的用户关注值较大的候选主题确定为热点主题,并将用户关注值在一定时间内具有较大程度上升的热点主题确定为价值主题,视为可能造成影响的有价值进行虚假信息识别的价值主题,从而可以排除掉可能不会造成影响或影响较小的无价值主题(例如,银河系中心突然出现一个黑洞),也即本发明可以动态获取网络社区上新发表的主题筛选出高价值主题,实时更新虚假文本数据库,并且仅针对筛选出的高价值主题进行虚假信息识别,可以考虑到对网络社区某个主题进行虚假信息识别的价值,使得识别方法具有更好的适应性,进而以较大幅度的提高识别准确率;另外无需建模,运算简单、速度快,可以快速对虚假信息进行识别,从而实现高效识别的同时大幅提升识别准确率。
附图说明
此处的附图,示出了本发明所述技术方案的具体实例,并与具体实施方式构成说明书的一部分,用于解释本发明的技术方案、原理及效果。
除非特别说明或另有定义,不同附图中,相同的附图标记代表相同或相似的技术特征,对于相同或相似的技术特征,也可能会采用不同的附图标记进行表示。
图1是本发明公开的一种网络社区虚假信息快速识别方法的流程图;
图2是本发明公开的一种网络社区虚假信息快速识别装置的结构示意图;
图3是本发明公开的一种电子设备的结构示意图。
附图标记说明:
201、主题获取单元;202、第一计算单元;203、热点确定单元;204、第二计算单元;205、价值确定单元;206、建库单元;207、存储单元;208、监测单元;209、调取单元;210、对比单元;211、判定单元;301、存储器;302、处理器。
具体实施方式
为了便于理解本发明,下面将参照说明书附图对本发明的具体实施例进行更详细的描述。
除非特别说明或另有定义,本文所使用的所有技术和科学术语与所属技术领域的技术人员通常理解的含义相同。在结合本发明的技术方案以现实的场景的情况下,本文所使用的所有技术和科学术语也可以具有与实现本发明的技术方案的目的相对应的含义。本文所使用的“第一、第二…”仅仅是用于对名称的区分,不代表具体的数量或顺序。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
除非特别说明或另有定义,本文所使用的“所述”、“该”为相应位置之前所提及或描述的技术特征或技术内容,该技术特征或技术内容与其所提及的技术特征或技术内容可以是相同的,也可以是相似的。
毫无疑义,与本发明的目的相违背,或者明显矛盾的技术内容或技术特征,应被排除在外。
如图1所示,本发明实施例公开一种网络社区虚假信息快速识别方法,该方法可以通过计算机编程(如Python语言编程)实现。该方法的执行主体可为网络社区的后台服务器或者其它网络服务器,或内嵌于服务器中的网络社区虚假信息快速识别装置,本发明对此不作限定。服务器作为服务端,服务位于计算机、手机或平板等终端上的网页网站。其中,网络社区是指包括BBS/论坛、贴吧、公告栏、个人知识发布、群组讨论、个人空间、无线增值服务等形式在内的网上交流空间。该虚假信息快速识别方法主要包括:价值主题选择、网络社区文本信息获取、虚假文本信息对比、数据库更新等主要步骤。详细过程包括以下步骤S1~S10:
S1、获取网络社区在第一时刻出现的多个候选主题。
S2、计算每个候选主题在第一时刻的第一用户关注值。
步骤S2具体可以包括以下步骤S201~S202:
S201、统计每个候选主题在第一时刻的评论用户数和阅读用户数。
假设第一时刻为t,网络社区上出现的候选主题集合为S={s1,s2,…,s|S|}。对于任意候选主题si∈S,统计该候选主题在第一时刻的评论用户数R(si,t)和阅读用户数V(si,t)(该用户未参与该候选主题的评论,只是查看了相关内容)。
S202、根据每个候选主题在第一时刻的评论用户数和阅读用户数,计算每个候选主题在第一时刻的第一用户关注值。
在一些可能的实施例中,对于每个候选主题,可通过将第一时刻的评论用户数和阅读用户数的总和作为候选主题在第一时刻的第一用户关注值。而在本发明实施例中,优选的通过以下公式(1)计算每个候选主题si∈S在第一时刻t的第一用户关注值U(si,t):
U(si,t)=α·R(si,t)+β·V(si,t) (1)
其中α,β为相关系数。一般地,在实际应用中,第一用户关注值相关系数中取值α=1、β=0.5。当前在其他一些可能的实施例中,也不排除将相关系数设置为其它数值,例如α=0.8、β=0.4,只需满足α>β即可。
另外可选的,除了α,β,用户关注值相关系数还可以包括其它的系数,例如权值δ,因此可以进一步根据用户的权重进行取值,例如,针对不同类别的用户,赋予不同的权值,然后将各个类别的用户数(包括评论用户数和阅读用户数)乘以相应的权值后再相加进行计算。
基于此,具体的步骤S202可以包括:识别每个候选主题在第一时刻参与评论的第一用户,将所有第一用户分成多个类别,统计每个类别中的第一用户数,然后按照相应的权值对各个类别中的第一用户数进行相乘操作后相加,获得新的评论用户数R′(si,t),再输入式(1)中进行计算;以及,识别每个候选主题在第一时刻参与阅读的第二用户,将所有第二用户分成多个类别,统计每个类别中的第二用户数,然后按照相应的权值对各个类别中的第二用户数进行相乘操作后相加,获得新的阅读用户数V′(si,t),再输入式(1)中进行计算。
其中,将所有第一用户/第二用户分成多个类别,可以是根据用户属性信息的种类进行划分,比如:用户的年龄、性别、职业、学历、网络活跃度等。权值是用户属性信息在不同种类上的分布情况,比如:年龄在20-30岁的用户权值为70%,年龄在30-40岁的用户权值为20%,年龄在40岁以上的用户权值为10%。
S3、将第一用户关注值大于第一阈值的候选主题确定为热点主题,并计算每个热点主题在第二时刻的第二用户关注值。
计算各个候选主题在第一时刻的第一用户关注值U(si,t)之后,则遍历各个候选主题,判断各个候选主题的第一用户关注值U(si,t)是否大于第一阈值U0(一般实际应用中取U0为整个网络社区用户总数的50%);如果条件成立,执行步骤S3,并保留该候选主题si∈S;否则从S中删除si。也即,将第一用户关注值大于第一阈值的候选主题确定为热点主题,从而可以从多个候选主题中筛选出多个热点主题。
步骤S3中,第一时刻与第二时刻为连续或者断续的先后两个时刻。优选的在本实施例中,第一时刻与第二时刻为连续的先后两个时刻,也即第一时刻为t,第二时刻为t+1。而第二时刻t+1的第二用户关注值U(si,t+1)与第一时刻t的第一用户关注值U(si,t)的计算方式相同,本发明在此不作赘述。
S4、将第二用户关注值高于第一用户关注值且两者的差分值大于第二阈值的热点主题确定为价值主题。
然后计算第二时刻t+1与第一时刻t之间各个热点主题si∈S的用户关注值之间的差分值ΔU(si)=U(si,t+1)-U(si,t),通过遍历各个热点主题,判断ΔU(si,t)是否大于第二阈值ΔU0(一般实际应用中取ΔU0为整个网络社区用户的30%),来判断各个热点主题si∈S是否为价值主题;如果条件成立,保留si∈S,即执行步骤S4;否则从S中删除si。从而可以筛选出多个价值主题。
其中,第二阈值小于第一阈值。两者的差分值可以是一阶差分值,也可以是二阶差分值。在本实施例中优选采用一阶差分值。
S5、获取与每个价值主题相关的多个典型虚假文本,将多个典型虚假文本与相应的价值主题进行关联存储。
其中,针对筛选出来的每一个价值主题,均建立其虚假文本数据库,该虚假文本数据库包括多个典型虚假文本(即典型句子)。
作为一种可选的实施方式,步骤S5具体可以包括以下步骤:
针对每个价值主题,对价值主题进行语义提取获得语义信息;然后将价值主题及其语义信息推送至网络社区的指定用户节点(例如管理员用户节点或者正常行为节点),当用户(例如管理员用户)通过其身份认证过的账户登陆该指定用户节点时,用户可以接收到推送信息,然后输入一些与该价值主题相关的典型虚假文本,形成语料信息,因此网络社区的后台服务器或者其它网络服务器可以接收该指定用户节点采集到的用户输入的语料信息;之后从语料信息中提取出与价值主题相关的多个典型虚假文本,根据多个典型虚假文本构建该价值主题的虚假文本数据库D={d1,d2,…,d|D|},最后将每个价值主题与其虚假文本数据库进行关联存储。其中,用户节点是指位于用户驻地、包含全部用户设备并通过用户-网络接口(UNI)与接入网相连的节点,而指定用户节点则为经过验证的正常行为用户所属节点或者管理员用户所属节点。
进一步的,构建价值主题的虚假文本数据库之后,可针对虚假文本数据库中的每一个典型虚假文本均进行分词,记dk∈D的候选分词向量为C(dk)。同样将每一典型虚假文本的候选分词向量存储于该价值主题对应的虚假文本数据库中。
S6、获取网络社区在第三时刻出现的文本信息。
在本发明中,构建各个价值主题的虚假文本数据库之后,则可以实时监测网络社区上出现的文本信息(即评论句子),其中第三时刻指的是在上述第二时刻之后的任意一个时刻,并非绝对是第二时刻后的连续时刻,也可以是不连续的时刻。例如第二时刻可以是3点,而第三时刻可以是5点;又例如第二时刻是前一天的1点,第三时刻是后一天的1点,此处虽然时数相同,但天数不同,仍视为第三时刻为在后时刻。
S7、从多个价值主题中调取与文本信息相匹配的目标价值主题,并调取与目标价值主题关联的多个目标典型虚假文本。
在实际应用中,实时监测网络社区上出现的一个或多个文本信息(即评论句子)之后,则可以提取每个文本信息的语义,然后从虚假文本数据库中查询语义与文本信息的语义匹配度最高的价值主题作为目标价值主题,调取该目标价值主题及其关联存储的多个目标典型虚假文本。
其中,当监测到多个文本信息时,多个文本信息可能匹配到同一个目标价值主题,可定义某一目标价值主题匹配到的多个文本信息集合为L={l1,l2,…l|L|}。
S8、计算文本信息与每个目标典型虚假文本之间的相似度。
作为一种优选的实施方式,步骤S8可以包括以下步骤S801~S803:
S801、获取每个目标典型虚假文本的候选分词向量。
S802、对文本信息进行分词处理,获得目标分词向量。
优选的,通过从虚假文本数据库中调取每个目标典型虚假文本的候选分词向量C(dk),以及对所有的文本信息进行分词处理(即抽取每个评论句子中的词语),记第j个评论句子lj∈L的分词向量为C(lj),即可通过分词向量求取文本信息与每个目标典型虚假文本之间的相似度。
当然在其它一些可能的实施例中,如果没有分词,也可以将文本信息与每个目标典型虚假文本进行对齐处理,计算其对齐率作为两者的相似度。
S803、计算目标分词向量与每个目标典型虚假文本的候选分词向量之间的夹角余弦值作为相似度。
具体通过以下公式(2)计算每个文本信息lj∈L的目标分词向量与每个目标典型虚假文本dk∈D的候选分词向量之间的夹角余弦值,作为两个文本间的相似度:
其中,cg(li)为第g个lj∈L的目标分词向量;cg(dk)为第g个dk∈D的候选分词向量;n为分词个数,T代表矩阵的转置符号。
S9、将相似度的最大值确定为文本信息的虚假度。
逐一计算目标分词向量与每个目标典型虚假文本的候选分词向量之间的夹角余弦值作为相似度之后,即得到文本信息lj∈L对应虚假文本数据库D的所有对比值(即相似度);并统计出最大值,并以此最大值定义为该网络社区文本信息的虚假度fv(lj)。也即,将最大的相似度作为文本信息的虚假度。
S10、若虚假度达到第三阈值,判定文本信息为虚假信息。
针对每一个文本信息,均执行上述操作之后,可以获得文本信息集合L={l1,l2,…l|L|}中所有文本信息的虚假度。然后对网络社区的各个文本信息的虚假度进行判断,当fv(lj)≥fv0(实际应用中可取fv0=0.75)时,可将该文本信息lj判断为该目标价值主题的虚假信息,判定文本信息为虚假信息之后,可以将虚假信息作为目标典型虚假文本,并与该目标价值主题进行关联存储。
也即,将该文本信息lj作为一个目标典型虚假文本,记入该目标价值主题si∈S的虚假信息集合FN(si)中,以及将该文本信息lj∈L记入该目标价值主题si∈S的虚假文本数据库D={d1,d2,…,d|D|}中。
综上所述,实施本发明实施例,通过根据网络社区特点,计算用户关注值的差分值,可以动态获取网络社区上新发表的主题筛选出高价值主题,实时更新虚假文本数据库,并且仅针对筛选出的高价值主题进行虚假信息识别,可以考虑到对网络社区某个主题进行虚假信息识别的价值,使得识别方法具有更好的适应性,进而以较大幅度的提高识别准确率;另外无需建模,运算简单、速度快,可以快速对虚假信息进行识别,从而实现高效识别的同时大幅提升识别准确率。
如图2所示,本发明实施例公开一种网络社区虚假信息快速识别装置,包括主题获取单元201、第一计算单元202、热点确定单元203、第二计算单元204、价值确定单元205、建库单元206、存储单元207、监测单元208、调取单元209、对比单元210和判定单元211,其中,
主题获取单元201,用于获取网络社区在第一时刻出现的多个候选主题;
第一计算单元202,用于计算每个候选主题在第一时刻的第一用户关注值;
热点确定单元203,用于将第一用户关注值大于第一阈值的候选主题确定为热点主题;
第二计算单元204,用于计算每个热点主题在第二时刻的第二用户关注值;
价值确定单元205,用于将第二用户关注值高于第一用户关注值且两者的差分值大于第二阈值的热点主题确定为价值主题;第二阈值小于第一阈值;
建库单元206,用于获取与每个价值主题相关的多个典型虚假文本;
存储单元207,用于将多个典型虚假文本与相应的价值主题进行关联存储;
监测单元208,用于获取网络社区在第三时刻出现的文本信息;
调取单元209,用于从多个价值主题中调取与文本信息相匹配的目标价值主题,并调取与目标价值主题关联的多个目标典型虚假文本;
对比单元210,用于计算文本信息与每个目标典型虚假文本之间的相似度;以及,将相似度的最大值确定为文本信息的虚假度;
判定单元211,用于在虚假度达到第三阈值时,判定文本信息为虚假信息。
可选的,图2所示的网络社区虚假信息快速识别装置中,建库单元206可以包括以下未图示的子单元:
第一提取子单元,用于对每个价值主题进行语义提取,获得语义信息;
推送子单元,用于将价值主题及其语义信息推送至网络社区的指定用户节点;
接收子单元,用于接收指定用户节点采集到的用户输入的语料信息;
第二提取子单元,用于从语料信息中提取出与每个价值主题相关的多个典型虚假文本。
可选的,图2所示的网络社区虚假信息快速识别装置中,存储单元207,还用于在判定单元211判定文本信息为虚假信息之后,将虚假信息作为目标价值主题的典型虚假文本进行关联存储。
如图3所示,本发明实施例公开一种电子设备,包括存储有可执行程序代码的存储器301以及与存储器301耦合的处理器302;
其中,处理器302调用存储器301中存储的可执行程序代码,执行上述各实施例中描述的网络社区虚假信息快速识别方法。
本发明实施例还公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行上述各实施例中描述的网络社区虚假信息快速识别方法。
以上实施例的目的,是对本发明的技术方案进行示例性的再现与推导,并以此完整的描述本发明的技术方案、目的及效果,其目的是使公众对本发明的公开内容的理解更加透彻、全面,并不以此限定本发明的保护范围。
以上实施例也并非是基于本发明的穷尽性列举,在此之外,还可以存在多个未列出的其他实施方式。在不违反本发明构思的基础上所作的任何替换与改进,均属本发明的保护范围。
Claims (10)
1.网络社区虚假信息快速识别方法,其特征在于,包括:
获取网络社区在第一时刻出现的多个候选主题;
计算每个所述候选主题在第一时刻的第一用户关注值;
将所述第一用户关注值大于第一阈值的候选主题确定为热点主题;
计算每个所述热点主题在第二时刻的第二用户关注值;
将第二用户关注值高于第一用户关注值且两者的差分值大于第二阈值的热点主题确定为价值主题;所述第二阈值小于所述第一阈值;
获取与每个所述价值主题相关的多个典型虚假文本;
将多个典型虚假文本与相应的价值主题进行关联存储;
获取所述网络社区在第三时刻出现的文本信息;
从多个所述价值主题中调取与所述文本信息相匹配的目标价值主题,并调取与所述目标价值主题关联的多个目标典型虚假文本;
计算所述文本信息与每个所述目标典型虚假文本之间的相似度;
将所述相似度的最大值确定为所述文本信息的虚假度;
若所述虚假度达到第三阈值,判定所述文本信息为虚假信息。
2.如权利要求1所述的网络社区虚假信息快速识别方法,其特征在于,获取与每个所述价值主题相关的多个典型虚假文本,包括:
对每个所述价值主题进行语义提取,获得语义信息;
将所述价值主题及其所述语义信息推送至所述网络社区的指定用户节点;
接收所述指定用户节点采集到的用户输入的语料信息;
从所述语料信息中提取出与每个所述价值主题相关的多个典型虚假文本。
3.如权利要求2所述的网络社区虚假信息快速识别方法,其特征在于,判定所述文本信息为虚假信息之后,所述方法还包括:
将所述虚假信息作为所述目标价值主题的典型虚假文本进行关联存储。
4.如权利要求1至3任一项所述的网络社区虚假信息快速识别方法,其特征在于,计算每个所述候选主题在第一时刻的第一用户关注值,包括:
统计每个所述候选主题在第一时刻的评论用户数和阅读用户数;
根据每个所述候选主题在第一时刻的评论用户数和阅读用户数,计算每个所述候选主题在第一时刻的第一用户关注值。
5.如权利要求1至3任一项所述的网络社区虚假信息快速识别方法,其特征在于,计算所述文本信息与每个所述目标典型虚假文本之间的相似度,包括:
获取每个所述目标典型虚假文本的候选分词向量;
对所述文本信息进行分词处理,获得目标分词向量;
计算所述目标分词向量与每个所述目标典型虚假文本的候选分词向量之间的夹角余弦值作为相似度。
6.网络社区虚假信息快速识别装置,其特征在于,包括:
主题获取单元,用于获取网络社区在第一时刻出现的多个候选主题;
第一计算单元,用于计算每个所述候选主题在第一时刻的第一用户关注值;
热点确定单元,用于将所述第一用户关注值大于第一阈值的候选主题确定为热点主题;
第二计算单元,用于计算每个所述热点主题在第二时刻的第二用户关注值;
价值确定单元,用于将第二用户关注值高于第一用户关注值且两者的差分值大于第二阈值的热点主题确定为价值主题;所述第二阈值小于所述第一阈值;
建库单元,用于获取与每个所述价值主题相关的多个典型虚假文本;
存储单元,用于将多个典型虚假文本与相应的价值主题进行关联存储;
监测单元,用于获取所述网络社区在第三时刻出现的文本信息;
调取单元,用于从多个所述价值主题中调取与所述文本信息相匹配的目标价值主题,并调取与所述目标价值主题关联的多个目标典型虚假文本;
对比单元,用于计算所述文本信息与每个所述目标典型虚假文本之间的相似度;以及,将所述相似度的最大值确定为所述文本信息的虚假度;
判定单元,用于在所述虚假度达到第三阈值时,判定所述文本信息为虚假信息。
7.如权利要求6所述的网络社区虚假信息快速识别装置,其特征在于,所述建库单元包括:
第一提取子单元,用于对每个所述价值主题进行语义提取,获得语义信息;
推送子单元,用于将所述价值主题及其所述语义信息推送至所述网络社区的指定用户节点;
接收子单元,用于接收所述指定用户节点采集到的用户输入的语料信息;
第二提取子单元,用于从所述语料信息中提取出与每个所述价值主题相关的多个典型虚假文本。
8.如权利要求7所述的网络社区虚假信息快速识别装置,其特征在于,
所述存储单元,还用于在所述判定单元判定所述文本信息为虚假信息之后,将所述虚假信息作为所述目标价值主题的典型虚假文本进行关联存储。
9.电子设备,其特征在于,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至5任一项所述的网络社区虚假信息快速识别方法。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至5任一项所述的网络社区虚假信息快速识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211037318.8A CN115374372B (zh) | 2022-08-26 | 2022-08-26 | 网络社区虚假信息快速识别方法及装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211037318.8A CN115374372B (zh) | 2022-08-26 | 2022-08-26 | 网络社区虚假信息快速识别方法及装置、设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115374372A CN115374372A (zh) | 2022-11-22 |
CN115374372B true CN115374372B (zh) | 2023-04-07 |
Family
ID=84069043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211037318.8A Active CN115374372B (zh) | 2022-08-26 | 2022-08-26 | 网络社区虚假信息快速识别方法及装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115374372B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992501A (zh) * | 2016-10-27 | 2018-05-04 | 腾讯科技(深圳)有限公司 | 社交网络信息识别方法、处理方法及装置 |
CN110134762A (zh) * | 2019-04-23 | 2019-08-16 | 南京邮电大学 | 基于事件主题分析的虚假信息识别系统及识别方法 |
CN112508726A (zh) * | 2020-12-25 | 2021-03-16 | 东北电力大学 | 一种基于信息传播特点的虚假舆论识别系统及其处理方法 |
CN112597302A (zh) * | 2020-12-18 | 2021-04-02 | 东北林业大学 | 基于多维评论表示的虚假评论检测方法 |
CN112989056A (zh) * | 2021-04-30 | 2021-06-18 | 中国人民解放军国防科技大学 | 基于方面特征的虚假评论识别方法及装置 |
CN113032525A (zh) * | 2021-03-23 | 2021-06-25 | 深圳大学 | 虚假新闻检测方法、装置、电子设备以及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9917803B2 (en) * | 2014-12-03 | 2018-03-13 | International Business Machines Corporation | Detection of false message in social media |
-
2022
- 2022-08-26 CN CN202211037318.8A patent/CN115374372B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992501A (zh) * | 2016-10-27 | 2018-05-04 | 腾讯科技(深圳)有限公司 | 社交网络信息识别方法、处理方法及装置 |
CN110134762A (zh) * | 2019-04-23 | 2019-08-16 | 南京邮电大学 | 基于事件主题分析的虚假信息识别系统及识别方法 |
CN112597302A (zh) * | 2020-12-18 | 2021-04-02 | 东北林业大学 | 基于多维评论表示的虚假评论检测方法 |
CN112508726A (zh) * | 2020-12-25 | 2021-03-16 | 东北电力大学 | 一种基于信息传播特点的虚假舆论识别系统及其处理方法 |
CN113032525A (zh) * | 2021-03-23 | 2021-06-25 | 深圳大学 | 虚假新闻检测方法、装置、电子设备以及存储介质 |
CN112989056A (zh) * | 2021-04-30 | 2021-06-18 | 中国人民解放军国防科技大学 | 基于方面特征的虚假评论识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
Multi-view learning with distinguishable feature fusion for rumor;Xueqin Chen等;《Knowledge-Based Systems》;1-17 * |
社交网络虚假新闻识别方法;楼靓;《浙江交通职业技术学院学报》;106-110 * |
Also Published As
Publication number | Publication date |
---|---|
CN115374372A (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704626A (zh) | 一种用于短文本的分类方法及装置 | |
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
US11765267B2 (en) | Tool for annotating and reviewing audio conversations | |
CN103885966A (zh) | 电子商务交易平台中的问答交互方法和系统 | |
US20220156460A1 (en) | Tool for categorizing and extracting data from audio conversations | |
CN107291774B (zh) | 错误样本识别方法和装置 | |
CN112163081A (zh) | 标签确定方法、装置、介质及电子设备 | |
CN112235470B (zh) | 基于语音识别的来电客户跟进方法、装置及设备 | |
CN111695357A (zh) | 文本标注方法及相关产品 | |
CN113656699A (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN110633410A (zh) | 信息处理方法及装置、存储介质、电子装置 | |
CN115374372B (zh) | 网络社区虚假信息快速识别方法及装置、设备、存储介质 | |
CN112084408B (zh) | 名单数据筛选方法、装置、计算机设备及存储介质 | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 | |
CN113946668A (zh) | 基于边缘节点的语义处理方法、系统、装置及存储介质 | |
CN113886539A (zh) | 话术推荐方法、装置、客服设备及存储介质 | |
CN113887214A (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
CN113837836A (zh) | 模型推荐方法、装置、设备及存储介质 | |
CN112905662A (zh) | 一种互联网真伪消费者判别方法、系统和装置 | |
CN111783453A (zh) | 文本的情感信息处理方法及装置 | |
Preisendorfer et al. | Social media Emoji analysis, correlations and trust modeling | |
CN111061924A (zh) | 词组提取方法、装置、设备和存储介质 | |
CN113807429B (zh) | 企业的分类方法、装置、计算机设备和存储介质 | |
CN114548263A (zh) | 标注数据的校验方法、装置、计算机设备及存储介质 | |
CN114065002A (zh) | 目标对象处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |