CN112861034B - 检测信息的方法、装置、设备和存储介质 - Google Patents

检测信息的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112861034B
CN112861034B CN202110157698.8A CN202110157698A CN112861034B CN 112861034 B CN112861034 B CN 112861034B CN 202110157698 A CN202110157698 A CN 202110157698A CN 112861034 B CN112861034 B CN 112861034B
Authority
CN
China
Prior art keywords
information
node
shared
nodes
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110157698.8A
Other languages
English (en)
Other versions
CN112861034A (zh
Inventor
陈秀娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110157698.8A priority Critical patent/CN112861034B/zh
Publication of CN112861034A publication Critical patent/CN112861034A/zh
Application granted granted Critical
Publication of CN112861034B publication Critical patent/CN112861034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Automation & Control Theory (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开公开了一种检测信息的方法、装置、设备和存储介质,涉及计算机技术领域,具体涉及人工智能领域中的知识图谱技术和大数据技术。具体实现方案为:获取多个已分享信息;采用预定算法划分多个已分享信息,得到至少一个信息组;确定至少一个信息组中包括已确定违规信息的信息组,作为目标信息组;确定已确定违规信息对多个已分享信息的影响值;以及根据影响值,从目标信息组中召回待检测信息。

Description

检测信息的方法、装置、设备和存储介质
技术领域
本公开涉及计算机技术领域,具体涉及人工智能领域中的知识图谱技术和大数据技术,更具体地涉及一种检测信息的方法、装置、设备和存储介质。
背景技术
随着互联网技术的发展,经由网络分享信息已成为人们进行信息分享的主要手段之一。为了避免不合法、不健康信息的传播,需要对分享的信息进行检测,来确定分享的信息是否为违规信息。
发明内容
提供了一种能够提高信息检测效率的检测信息的方法、装置、设备、介质和程序产品。
根据第一方面,提供了一种检测信息的方法,包括:获取多个已分享信息;采用预定算法划分多个已分享信息,得到至少一个信息组;确定至少一个信息组中包括已确定违规信息的信息组,作为目标信息组;以及确定已确定违规信息对多个已分享信息的影响值;以及根据影响值,从目标信息组中召回待检测信息。
根据第二方面,提供了一种检测信息的装置,包括:信息获取模块,用于获取多个已分享信息;信息划分模块,用于采用预定算法划分多个已分享信息,得到至少一个信息组;信息组确定模块,用于确定至少一个信息组中包括已确定违规信息的信息组,作为目标信息组;影响值确定模块,用于确定已确定违规信息对多个已分享信息的影响值;以及信息召回模块,用于根据影响值,从目标信息组中召回待检测信息。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的检测信息的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的检测信息的方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的检测信息的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的检测信息的方法、装置、设备和存储介质的应用场景示意图;
图2是根据本公开实施例的检测信息的方法的流程示意图;
图3是根据本公开实施例的表征多个已分享信息的关联图谱的示意图;
图4是根据本公开实施例的检测信息的方法的原理示意图;
图5是根据本公开另一实施例的关联图谱的示意图;
图6是根据本公开另一实施例的检测信息的方法的原理示意图;
图7是根据本公开实施例的检测信息的装置的结构框图;以及
图8是用来实现本公开实施例的检测信息的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了一种检测信息的方法,该方法先获取多个已分享信息,并采用预定算法划分多个已分享信息,得到至少一个信息组。通过已确定违规信息与多个已分享信息的比对,确定至少一个信息组中包括已确定违规信息的信息组,作为目标信息组。对于多个已分享信息中的已确定违规信息,确定该已确定违规信息对多个已分享信息的影响值,以根据该影响值,从确定的目标信息组中召回待检测信息。
以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
图1是根据本公开实施例的检测信息的方法、装置、设备、介质和程序产品的应用场景图。
如图1所示,该实施例的应用场景100例如可以包括第一终端设备110、第二终端设备120、第一服务器130和第二服务器140。第一终端设备110与第一服务器130之间、第二终端设备120与第一服务器130之间及第一终端设备110与第二服务器140之间可以通过网络通信,网络例如可以包括有线或无线通信网络。
根据本公开的实施例,第一终端设备110和第二终端设备120例如均可以安装有各种客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、网盘类应用、邮箱客户端、社交平台软件等(仅为示例)。第一终端设备110和第二终端设备120例如可以为具有显示屏并且具有处理功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便捷计算机和台式计算机等等。
示例性地,第一终端设备110的用户可以经由第一服务器130与第二终端设备120的用户进行信息分享。其中,第一服务器130例如可以为应用服务器,用于对第一终端设备110和第二终端设备120运行的第一客户端应用(例如社交平台软件等)提供支持。
示例性地,第二服务器140可以为向第一终端设备110运行的第二客户端应用(例如网盘类应用等)提供支持的后台管理服务器。该第二服务器140可以响应于第一终端设备110发送的分享请求,向第一终端设备110反馈分享链接。第一终端设备110可以通过向第二终端设备120发送该分享链接,使得第二终端设备120通过访问分享链接来获取第二服务器140维护的信息,该信息为第一终端设备110的用户上传至第二服务器140的信息。
根据本公开的实施例,第二服务器140例如还可以对第二客户端应用的注册账户进行管理和维护。例如,可以根据各注册账户分享信息的合规性来为不同注册账户设定不同的权限等级。例如,第二服务器140可以定期对生成的分享链接所关联的信息进行检测,在检测得到违规信息时,对发送针对该违规信息的分享请求的注册账户进行权限降级等处理,以此来减少违规信息的传播,利于第二客户端应用的健康稳定发展。
根据本公开的实施例,第二服务器140可以将分享请求所针对的信息存储至如图1所示的数据库150中,并定期从数据库150中获取信息进行检测。在一实施例中,第二服务器140例如还可以对检测到的违规信息维护违规信息库。根据违规信息库中的违规信息从数据库150维护的全量信息中召回待检测信息,根据待检测信息的检测结果来对第二客户端应用的注册账户进行管理。
根据本公开的实施例,第一服务器130和第二服务器140例如可以是结合了区块链的服务器。或者,第一服务器130和第二服务器140还可以为虚拟服务器或云服务器等。
需要说明的是,本公开提供的检测信息的方法可以由第二服务器140执行。相应地,本公开提供的检测信息的装置可以设置在第二服务器140中。
应该理解,图1中的第一终端设备、第二终端设备、第一服务器、第二服务器和数据库的类型和数目仅仅是示意性的。根据实现需要,可以具有任意类型和数目的第一终端设备、第二终端设备、第一服务器、第二服务器和数据库。
以下将结合图1描述的应用场景,通过图2~图6对本公开提供的检测信息的方法进行详细描述。
图2是根据本公开实施例的检测信息的方法的流程示意图。
如图2所示,该实施例的检测信息的方法200可以包括操作S210、操作S230、操作S250、操作S270和操作S290。该检测信息的方法例如可以由应用服务器执行。
在操作S210,获取多个已分享信息。
根据本公开的实施例,已分享信息为应用服务器所记录的用户经由客户端应用发送给其他用户的信息。例如,已分享信息可以为用户通过社交平台软件分享的信息。该已分享信息可以由应用服务器从本地获取,或者由应用服务器从可以访问的数据库中获取。该已分享信息可以为全量信息,或者为在预定周期时段内分享的信息。预定周期时段例如可以为一周、半个月、一个月等,本公开对此不做限定。
根据本公开的实施例,获取的多个已分享信息可以为至少两个链接所关联的信息。其中,至少两个链接中的每个链接关联一个或多个信息。链接与信息之间的关联指通过对链接的访问可以浏览或下载链接所关联的信息。至少两个链接可以为全量链接,或者可以为应用服务器在预定周期时段内生成的链接。
根据本公开的实施例,已分享信息例如可以包括文本、图片、视频、音频、信息压缩包等任意可以分享的信息。
在操作S230,采用预定算法划分多个已分享信息,得到至少一个信息组。
根据本公开的实施例,可以计算多个已分享信息中任意两个信息之间的相似度。将相似度较低的信息划分至不同的信息组,将相似度较高的信息划分至同一个信息组。或者可以采用分类模型来确定多个已分享信息中各信息的类别,将属于相同类别的信息划分至相同的信息组。
根据本公开的实施例,可以根据多个已分享信息之间的关联关系来划分多个已分享信息。该实施例可以确定多个已分享信息彼此之间的关联关系。例如,若两个已分享信息的分享时间相近,则确定两个已分享信息之间具有关联关系。若两个已分享信息所对应的被分享用户相同或所对应的分享用户相同,则确定两个已分享信息之间具有关联关系。若两个已分享信息与同一链接关联,则确定该两个已分享信息之间具有关联关系。预定算法可以根据该多个已分享信息彼此之间的关联关系划分多个已分享信息。
示例性地,预定算法可以根据任意两个已分享信息之间的关联关系,确定该任意两个已分享信息之间的关联值。例如,两个已分享信息之间的关联关系可以包括多种类型,预定算法可以为每种类型的关联关系分配默认关联值(例如1),并为多种类型的关联关系分配权重。根据两个已分享信息之间具有的关联关系的类型及各类型的权重,可以计算得到该两个已分享信息之间的关联值。若两个已分享信息之间的关联值大于等于预定关联值,则将该两个已分享信息划分至同一信息组,否则被划分至不同信息组。本公开实施例通过根据信息之间的关联关系进行信息分组,可以提高同一信息组中信息之间的粘连性,降低不同信息组之间信息的粘连性。从而可以在一定程度上提高从信息组中召回的待检测信息的准确性。其中,预定关联值可以根据实际需求进行设定,例如可以为大于0.5的任意值,本公开对此不做限定。
在操作S250,确定至少一个信息组中包括已确定违规信息的信息组,作为目标信息组。
本公开实施例可以维护有违规信息库,违规信息库中的每个信息为已检测确定的违规信息,即已确定违规信息。该操作S250可以针对至少一个信息组中的每个信息组,确定该每个信息组中的每个信息与违规信息库中的每个信息进行比对,确定该每个信息组是否包括与违规信息库中的信息。若包括,则确定该每个信息组为目标信息组。
根据本公开的实施例,该实施例可以为每个信息维护有唯一的标识。在确定包括已确定违规信息的信息组时,将每个信息组中信息的标识与违规信息库中已确定违规信息的标识进行比对。若某个信息组中包括与已确定违规信息的标识具有相同标识的信息时,则确定该某个信息组为目标信息组。
在操作S270,确定已确定违规信息对多个已分享信息的影响值。
在操作S290,根据影响值,从目标信息组中召回待检测信息。
根据本公开的实施例,影响值例如可以根据已确定违规信息与多个已分享信息中其他信息之间的关联关系来确定。例如,若已确定违规信息与其他信息之间的关联关系较大,则已确定违规信息针对多个已分享信息的影响值较大。可以理解的是,影响值可以表示已确定违规信息对多个已分享信息构成的信息网络的影响程度,影响程度越高,影响值越大。该影响值可以采用任意算法来确定,本公开对此不做限定。
根据本公开的实施例,在目标信息组为多个时,可以先根据每个目标信息组中已确定违规信息针对多个已分享信息的影响值,从多个目标信息组中筛选出满足预定条件的目标信息组。从满足预定条件的目标信息组中召回待检测信息。预定条件可以为信息组包括的已确定违规信息针对多个已分享信息的影响值均大于预定值。或者预定条件可以为信息组中包括的已确定违规信息中,存在针对多个已分享信息的影响值大于预定值的信息。
示例性地,可以在已确定违规信息针对多个已分享信息的影响值大于等于预定值的情况下,召回已确定违规信息所属目标信息组中的信息,以作为待检测信息。若某个目标信息组包括的已确定违规信息,针对多个已分享信息的影响值均小于预定值,则无需从该某个目标信息组中召回信息。例如在已确定违规信息为多个的情况下,可以先确定每个已确定违规信息针对多个已分享信息的影响值。若影响值大于预定值,则召回包括该每个已确定违规信息的目标信息组中的所有信息,将召回的信息作为待检测信息。
示例性地,预定值可以根据实际需求进行设定。在一实施例中,预定值可以根据历史召回浓度来设定,以此保证召回的待检测信息中违规信息的浓度符合实际需求。其中,违规信息的浓度为违规信息占召回的待检测信息的比例。预定值例如可以为使得违规信息的浓度在20%以上的值。
本公开实施例通过先采用预定算法划分信息得到信息组,再根据已确定违规信息相对于多个已分享信息的影响值来从目标信息组中召回待检测信息,相较于相关技术中召回全量信息作为待检测信息的技术方案,可以提高被召回信息属于违规信息的浓度,提高信息检测的效率。
图3是根据本公开实施例的表征多个已分享信息的关联图谱的示意图。
根据本公开的实施例,在获取多个已分享信息时,可以根据多个已分享信息彼此之间的关联关系建立关联图谱,使得多个已分享信息由关联图谱表征。例如,多个已分享信息中的每个分享信息可以由关联图谱中的一个第一节点表征,表征具有关联关系的两个已分享信息的两个第一节点之间通过边连接,以表征该两个已分享信息之间的关联关系。
示例性地,如图3所示,该实施例中获取的多个已分享信息例如可以包括信息1~信息n。信息1、信息2和信息3由同一用户分享,则表征信息1的第一节点301与表征信息2的第一节点302之间通过边311连接,表征信息3的第一节点303与表征信息1的第一节点301之间通过边312连接,表征信息2的第一节点302与表征信息3的第一节点303之间通过边313连接。信息3与信息1与同一链接关联,则由于信息1与信息3之间具有两种类型的关联,则可以向第一节点301与第一节点303之间的边312分配较大的权重。基于类似的方法,表征信息3的第一节点303与表征信息4的第一节点之间通过边连接,表征信息2的第一节点302与表征信息5的第一节点之间通过边连接等,从而构建得到如图3所示的关联图谱300。
图4是根据本公开实施例的检测信息的方法的原理示意图。
根据本公开的实施例,在构建得到表征多个已分享信息的关联图谱的情况下,该实施例400可以采用社区发现算法来对多个已分享信息进行信息组的划分。
示例性地,可以采用社区发现算法410划分关联图谱420包括的节点,得到至少一个节点社区。对于得到的第一节点社区431、第二节点社区432和第三节点社区433,确定每个节点社区包括的节点所表征的已分享信息组成一个信息组,从而可以得到第一信息组441、第二信息组442和第三信息组443。
示例性地,社区发现(community detection)算法例如可以包括Louvain算法、标签传播(Label Propagation)算法或Infomap算法等。以下以Louvain算法为例进行详细描述。
Louvain算法又称快速展开(Fast Unfolding)算法。Fast Unfolding算法是基于模块度对社区划分的算法。Fast Unfolding算法是一种迭代的算法,主要目标是不断划分社区使得划分后的整个网络的模块度不断增大。本公开实施例可以在Spark上使用FastUnfolding算法对关联图谱中的节点进行社区划分。具体划分步骤如下:
1)初始化,将每个点划分在不同的社区中;
2)对于每个节点,将每个点尝试划分到与其邻接的点所在的社区中,计算此时的模块度Q,判断划分前后的模块度的差值ΔQ是否为正数,若为正数,则接受本次的划分,若不为正数,则放弃本次的划分;
3)重复2)中的过程,直至不能再增大模块度为止;
4)构造新图,新图中的每个点代表的是步骤3)中划出来的每个社区,继续循环执行步骤2)和3),直到社区的结构不再改变为止。
模块度Q是社区发现中用来衡量社区划分质量的参量。模块度的定义为:
假设有x个节点,每个节点代表一个输入,并且已经将这些输入划分为了N个社区,节点彼此之间共有m个连接,i,j是x中的任意两个节点。当两个节点直接相连时,Aij=1,否则Aij=0。ki代表的是节点i的度,即从节点i出发有几个边,则该节点i的度是多少。2m为整个关联图谱中的度(每个节点都计算一次度,那么每条边对应两个节点,因此需乘以2)。δ(Ci,Cj)用来判断节点i和节点j是否在同一个社区内,若在同一个社区内,δ(Ci,Cj)=1,否则δ(Ci,Cj)=0。
本公开实施例通过基于关联图谱,采用社区发现算法来实现信息组的划分,可以使得位于同一信息组中的信息具有较大的关联关系,不同信息组彼此之间具有尽可能小的关联关系,从而提高信息组划分的精度。
根据本公开的实施例,在构建关联图谱后,例如还可以根据信息标识确定维护的违规信息库中各已确定违规信息所针对的第一节点,以便于在对关联图谱中的节点进行社区划分后,确定包括表征已确定违规信息的第一节点的节点社区。该确定各已确定违规信息所针对的第一节点的操作可以与对社区进行划分的操作同步进行,或者可以根据任意顺序执行。
根据本公开的实施例,可以针对关联图谱中的各节点,采用中心性算法450(centrality algorithm)确定各节点针对关联图谱的影响力,并将表征影响力大小的影响值作为节点表征的信息针对多个已分享信息的影响值。基于此,可以根据已确定违规信息的标识定位到关联图谱中表征已确定违规信息的节点,并将该表征已确定违规信息的节点针对关联图谱的影响值,作为已确定违规信息针对多个已分享信息的影响值。例如,针对前述的第一信息组441、第二信息组442和第三信息组443,可以得到第一信息组441中已确定违规信息针对多个已分享信息的第一影响值461,第二信息组442中已确定违规信息针对多个已分享信息的第二影响值462,及第三信息组443中已确定违规信息针对多个已分享信息的第三影响值463。
示例性地,中心性算法用于理解节点社区中特定节点的角色及其对节点社区网络的影响。中心性算法例如可以包括以下算法类型:度中心性、紧密中心性、中介中心性(RA-Brandes)和网页排名(pagerank)等。可以理解的是,上述中心性算法仅作为示例以利于理解本公开,本公开对此不做限定。可以理解的是,该确定关联图谱中各节点对关联图谱的影响力的方法与对关联图谱中各节点进行社区划分的方法可以并行执行,或者也可以根据任意顺序执行。
基于该实施例的检测信息的方法,可以在只检出少数违规信息的基础上,通过分析图的社区特性和传播特性,召回更多的疑似违规文件,因此不用对千亿级别的文件进行全检测,就能召回更多的违规文件。
图5是根据本公开另一实施例的关联图谱的示意图。
根据本公开的实施例,在构建关联图谱时,还可以考虑信息关联的链接及分享链接的用户,以此便于提高信息分组的准确性。
该实施例中,关联图谱不仅包括表征已分享信息的第一节点,还包括表征与已分享信息关联的链接的第二节点及表征分享链接的用户的第三节点。再者,构建的关联图谱中,可以包括连接第二节点与第三节点的边及连接第一节点与第二节点的边。
示例性地,若用户A分享了链接a和链接b,链接a所关联的信息包括信息1和信息2,链接b所关联的信息为信息3。则关联图谱500中表征用户A的第三节点511与表征链接a的第二节点521之间通过边连接,表征用户A的第三节点511与表征链接b的第二节点522之间通过边连接,表征链接a的第二节点521与表征信息1的第一节点531之间、表征链接a的第二节点521与表征信息2的第一节点532之间均通过边连接,表征链接b的第二节点522与表征信息3的第一节点533之间通过边连接。若用户B分享了链接c,链接c所关联的信息包括信息2、信息3和信息4,则关联图谱500中表征用户B的第三节点512与表征链接c的第二节点523之间通过边连接,表征链接c的第二节点523与表征信息2的第一节点532之间、表征链接c的第二节点523与表征信息3的第一节点533之间及表征链接c的第二节点523与表征信息4的第一节点534之间均通过边连接。
基于构建的关联图谱500,在对信息进行信息组划分时,可以采用社区发现算法划分关联图谱500包括的节点,得到至少一个节点社区。该实施例中,每个节点社区包括的节点例如可以包括以下至少之一:表征已分享信息的第一节点、表征链接的第二节点和表征用户的第三节点。属于同一节点社区的第一节点所表征的已分享信息构成一个信息组。在确定各节点针对每个节点社区的影响值时,不仅考虑每个节点社区中的第一节点,还考虑节点社区中包括的第二节点和第三节点。
本公开实施例通过根据表征链接、信息和用户的关联图谱来进行信息组划分及影响值计算,可以实现对信息之间关联关系的更全面的评估,并因此可以提高确定的影响值的准确性,提高召回的待检测信息的准确性和浓度。
图6是根据本公开另一实施例的检测信息的方法的原理示意图。
根据本公开的实施例,在至少一个信息组中存在包括多个已确定违规信息的某个信息组,且该多个已确定违规信息中有至少两个信息针对多个已分享信息的影响值均大于等于预定值的情况下,可能会存在该某个信息组中的信息被多次召回,从而导致待检测信息中存在重复信息的情况。因此,该实施例在得到待检测信息后,还可以删除待检测信息中的重复信息,剩余的信息作为目标信息。随之检测目标信息中的每个信息,以确定目标信息中的违规信息。通过该实施例,可以避免对相同信息的重复检测,从而进一步提高检测信息的效率。
如图6所示,该实施例的检测信息的方法600可以先采用与前文描述的社区发现方法类似的方法划分多个已分享信息610,得到第一信息组621和第二信息组622。根据违规信息库630中维护的已确定违规信息,查询第一信息组621中的信息,确定第一信息组621包括第一违规信息641,查询第二信息组622中的信息,确定第二信息组622包括第二违规信息642和第三违规信息643。同时,可以采用与前文描述的中心性算法类似的算法来计算第一违规信息641针对多个已分享信息的影响值,得到第一影响值651,计算第二违规信息642和第三违规信息643针对多个已分享信息的影响值,分别得到第二影响值652和第三影响值653。随后执行操作S610,以分别确定第一影响值651、第二影响值652和第三影响值653是否大于等于预定值。在第一影响值651大于等于预定值时,执行操作S620,召回第一信息组中的信息。在第二影响值652大于等于预定值时,执行操作S630,召回第二信息组中的信息,并在第三影响值653大于等于预定值时,执行操作S630,召回第二信息组中的信息。最终将召回得到的信息作为待检测信息660。
示例性地,在得到待检测信息660后,可以对待检测信息进行去重操作,以删除待检测信息660中的重复信息,得到目标信息670。通过对目标信息670中的每个信息进行检测,可以得到目标信息670中的违规信息680。在得到违规信息680后,还可以根据该违规信息680对违规信息库630进行扩充。
示例性地,在删除重复信息时,可以先确定待检测信息中是否包括具有相同标识的信息,若包括,则确定存在重复信息。从重复信息中随机选取一个作为目标信息,并删除重复信息中的其他信息。
示例性地,在多个已分享信息为文本时,例如可以采用光学字符识别(OpticalCharacter Recognition,OCR)技术来对目标信息进行字符识别,并将识别得到的字符与违规字符进行比对,若目标信息中包括的违规字符的比例大于预定比例,则确定目标信息为违规信息。可以理解的是,上述对信息进行检测的方法仅作为示例以利于理解本公开,本公开对此不做限定。对于不同类型的信息,例如可以采用不同的方法进行检测,例如,对于音频信息,例如可以采用自动语音识别(Automatic Speech Recognition,ASR)技术来对音频信息进行检测。
在一实施例中,可以采用神经网络模型对目标信息进行是否为违规信息的分类,神经网络模型例如可以包括长短时记忆网络模型、引入注意力机制的循环神经网络模型等,本公开对此不做限定。
经试验,对于违规信息标注准确的情况下,经由该实施例召回的违规信息的违规浓度高达80%以上,从而使得发现违规信息的效率大大地提升,不但节省了检测资源,也降低了网盘等用于维护信息的客户端应用的使用风险。
基于前文描述的检测信息的方法,本公开还提供了一种检测信息的装置。以下将结合图7对该装置进行详细描述。
图7是根据本公开实施例的检测信息的装置的结构框图。
如图7所示,该实施例的检测信息的装置700可以包括信息获取模块710、信息划分模块730、信息组确定模块750、影响值确定模块770和信息召回模块790。
信息获取模块710用于获取多个已分享信息。在一实施例中,信息获取模块710可以用于执行前文描述的操作S210,在此不再赘述。
信息划分模块730用于采用预定算法划分所述多个已分享信息,得到至少一个信息组。在一实施例中,信息划分模块730可以用于执行前文描述的操作S230,在此不再赘述。
信息组确定模块750用于确定所述至少一个信息组中包括已确定违规信息的信息组,作为目标信息组。在一实施例中,信息组确定模块750可以用于执行前文描述的操作S250,在此不再赘述。
影响值确定模块770用于确定已确定违规信息对多个已分享信息的影响值。在一实施例中,影响值确定模块770可以用于执行前文描述的操作S270,在此不再赘述。
信息召回模块790用于根据影响值,从目标信息组中召回待检测信息。在一实施例中,信息召回模块790可以用于执行前文描述的操作S290,在此不再赘述。
根据本公开的实施例,信息召回模块790用于在已确定违规信息针对多个已分享信息的影响值大于等于预定值的情况下,召回已确定违规信息所属目标信息组中的信息,以作为待检测信息。
根据本公开的实施例,多个已分享信息由关联图谱表征,关联图谱包括分别表征多个已分享信息的多个第一节点以及多个边,多个边中的每个边连接的两个第一节点所表征的两个已分享信息具有关联关系。信息划分模块730可以包括节点划分子模块和信息组确定子模块。节点划分子模块用于采用社区发现算法划分关联图谱包括的节点,得到至少一个节点社区。信息组确定子模块用于针对至少一个节点社区中的每个节点社区:确定每个节点社区包括的节点所表征的已分享信息组成一个信息组。
根据本公开的实施例,上述影响值确定模块770可以包括目标节点确定子模块和影响值确定子模块。目标节点确定子模块用于确定多个第一节点中表征已确定违规信息的节点,作为目标节点。影响值确定子模块用于采用中心性算法确定目标节点针对关联图谱的影响值。
根据本公开的实施例,多个已分享信息包括至少两个链接所关联的信息,至少两个链接中的每个链接关联一个或多个信息。关联图谱还包括分别表征至少两个链接的至少两个第二节点和表征分享至少两个链接的用户的第三节点,且多个边还包括连接第二节点和第三节点的边和连接第一节点和第二节点的边。
根据本公开的实施例,上述检测信息的装置700还可以包括重复信息删除模块和信息检测模块。重复信息删除模块用于删除待检测信息中的重复信息,得到目标信息。信息检测模块用于检测目标信息中的每个信息,以确定目标信息中的违规信息。
根据本公开的实施例,上述检测信息的装置700还可以包括关联关系确定模块,用于确定多个已分享信息彼此之间的关联关系。其中,预定算法根据多个已分享信息彼此之间的关联关系划分多个已分享信息。
根据本公开的实施例,多个已分享信息包括至少两个链接所关联的信息,至少两个链接中的每个链接关联一个或多个信息。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实现本公开实施例的检测信息的方法的电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如检测信息的方法。例如,在一些实施例中,确定检测信息的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的检测信息的方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行检测信息的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (6)

1.一种检测信息的方法,包括:
获取多个已分享信息;
采用预定算法划分所述多个已分享信息,得到至少一个信息组;
确定所述至少一个信息组中包括已确定违规信息的信息组,作为目标信息组;
确定所述已确定违规信息对所述多个已分享信息的影响值;以及
根据所述影响值,从所述目标信息组中召回待检测信息;
其中,所述多个已分享信息由关联图谱表征,所述关联图谱包括分别表征所述多个已分享信息的多个第一节点以及多个边,所述多个边中每个边连接的两个第一节点所表征的两个已分享信息具有关联关系;
其中,采用预定算法划分所述多个已分享信息包括:
采用社区发现算法划分所述关联图谱包括的节点,得到至少一个节点社区;以及
针对所述至少一个节点社区中的每个节点社区:确定所述每个节点社区包括的节点所表征的已分享信息组成一个信息组;
其中,所述确定所述已确定违规信息对所述多个已分享信息的影响值包括:
确定所述多个第一节点中表征所述已确定违规信息的节点,作为目标节点;以及
采用中心性算法确定所述目标节点针对所述关联图谱的影响值;
其中,从所述目标信息组中召回待检测信息包括:
在所述已确定违规信息针对所述多个已分享信息的影响值大于等于预定值的情况下,召回所述已确定违规信息所属目标信息组中的信息,以作为待检测信息,
其中,所述多个已分享信息包括至少两个链接所关联的信息,所述至少两个链接中的每个链接关联一个或多个信息;所述关联图谱还包括分别表征所述至少两个链接的至少两个第二节点和表征分享所述至少两个链接的用户的第三节点,且所述多个边还包括连接第二节点和第三节点的边和连接第一节点和第二节点的边。
2. 根据权利要求1所述的方法,还包括:
删除所述待检测信息中的重复信息,得到目标信息;以及
检测所述目标信息中的每个信息,以确定所述目标信息中的违规信息。
3.根据权利要求1所述的方法,还包括:
确定所述多个已分享信息彼此之间的关联关系,
其中,所述预定算法根据所述多个已分享信息彼此之间的关联关系划分所述多个已分享信息。
4.一种检测信息的装置,包括:
信息获取模块,用于获取多个已分享信息;
信息划分模块,用于采用预定算法划分所述多个已分享信息,得到至少一个信息组;
信息组确定模块,用于确定所述至少一个信息组中包括已确定违规信息的信息组,作为目标信息组;
影响值确定模块,用于确定所述已确定违规信息对所述多个已分享信息的影响值;以及
信息召回模块,用于根据所述影响值,从所述目标信息组中召回待检测信息;
其中,所述多个已分享信息由关联图谱表征,所述关联图谱包括分别表征所述多个已分享信息的多个第一节点以及多个边,所述多个边中每个边连接的两个第一节点所表征的两个已分享信息具有关联关系;所述信息划分模块包括:
节点划分子模块,用于采用社区发现算法划分所述关联图谱包括的节点,得到至少一个节点社区;以及
信息组确定子模块,用于针对所述至少一个节点社区中的每个节点社区:确定所述每个节点社区包括的节点所表征的已分享信息组成一个信息组;
其中,所述影响值确定模块包括:
目标节点确定子模块,用于确定所述多个第一节点中表征所述已确定违规信息的节点,作为目标节点;以及
影响值确定子模块,用于采用中心性算法确定所述目标节点针对所述关联图谱的影响值;
其中,所述信息召回模块用于在所述已确定违规信息针对所述多个已分享信息的影响值大于等于预定值的情况下,召回所述已确定违规信息所属目标信息组中的信息,以作为待检测信息,
其中,所述多个已分享信息包括至少两个链接所关联的信息,所述至少两个链接中的每个链接关联一个或多个信息;所述关联图谱还包括分别表征所述至少两个链接的至少两个第二节点和表征分享所述至少两个链接的用户的第三节点,且所述多个边还包括连接第二节点和第三节点的边和连接第一节点和第二节点的边。
5. 一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~3中任一项所述的方法。
6.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~3中任一项所述的方法。
CN202110157698.8A 2021-02-04 2021-02-04 检测信息的方法、装置、设备和存储介质 Active CN112861034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110157698.8A CN112861034B (zh) 2021-02-04 2021-02-04 检测信息的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110157698.8A CN112861034B (zh) 2021-02-04 2021-02-04 检测信息的方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112861034A CN112861034A (zh) 2021-05-28
CN112861034B true CN112861034B (zh) 2023-08-15

Family

ID=75988707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110157698.8A Active CN112861034B (zh) 2021-02-04 2021-02-04 检测信息的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112861034B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829379A (zh) * 2018-12-28 2019-05-31 广州华多网络科技有限公司 信息处理方法、装置、服务器以及存储介质
CN110611651A (zh) * 2019-07-19 2019-12-24 中国工商银行股份有限公司 网络监控方法、网络监控装置和电子设备
CN111538869A (zh) * 2020-04-29 2020-08-14 支付宝(杭州)信息技术有限公司 一种交易异常群组的检测方法、装置及设备
CN112100400A (zh) * 2020-09-14 2020-12-18 京东方科技集团股份有限公司 基于知识图谱的节点推荐方法及装置
CN112307770A (zh) * 2020-10-13 2021-02-02 深圳前海微众银行股份有限公司 敏感信息的检测方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10528880B2 (en) * 2016-10-11 2020-01-07 International Business Machines Corporation System, method and computer program product for detecting policy violations

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829379A (zh) * 2018-12-28 2019-05-31 广州华多网络科技有限公司 信息处理方法、装置、服务器以及存储介质
CN110611651A (zh) * 2019-07-19 2019-12-24 中国工商银行股份有限公司 网络监控方法、网络监控装置和电子设备
CN111538869A (zh) * 2020-04-29 2020-08-14 支付宝(杭州)信息技术有限公司 一种交易异常群组的检测方法、装置及设备
CN112100400A (zh) * 2020-09-14 2020-12-18 京东方科技集团股份有限公司 基于知识图谱的节点推荐方法及装置
CN112307770A (zh) * 2020-10-13 2021-02-02 深圳前海微众银行股份有限公司 敏感信息的检测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于相似性模块度的层次聚合社区发现算法;占文威;席景科;王志晓;;系统仿真学报(第05期);全文 *

Also Published As

Publication number Publication date
CN112861034A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
US20190286657A1 (en) Object clustering method and system
AU2017268599B2 (en) Method, device, server and storage medium of searching a group based on social network
CN112506864B (zh) 文件检索的方法、装置、电子设备及可读存储介质
US11625438B2 (en) Monitoring information processing systems utilizing co-clustering of strings in different sets of data records
EP2980701B1 (en) Stream processing with context data affinity
CN110751354B (zh) 一种异常用户的检测方法和装置
CN109241360B (zh) 组合字符串的匹配方法及装置和电子设备
CN111667018B (zh) 一种对象聚类的方法、装置、计算机可读介质及电子设备
CN112784102A (zh) 视频检索方法、装置和电子设备
CN116597443A (zh) 素材标签处理方法、装置、电子设备及介质
CN112861034B (zh) 检测信息的方法、装置、设备和存储介质
CN109992960B (zh) 一种伪造参数检测方法、装置、电子设备及存储介质
CN116309002B (zh) 图数据存储、访问、处理方法、训练方法、设备及介质
CN112905885B (zh) 向用户推荐资源的方法、装置、设备、介质和程序产品
CN110852078A (zh) 生成标题的方法和装置
CN113326436A (zh) 确定推荐资源的方法、装置、电子设备和存储介质
CN113722593A (zh) 事件数据处理方法、装置、电子设备和介质
CN114398558B (zh) 信息推荐方法、装置、电子设备和存储介质
CN105468603A (zh) 数据选择方法及装置
CN111858917A (zh) 文本分类方法和装置
CN113312521B (zh) 内容检索方法、装置、电子设备和介质
KR20200009887A (ko) 디바이스에서 실시간 이미지 유사성을 결정하는 방법 및 시스템
CN114615092B (zh) 网络攻击序列生成方法、装置、设备和存储介质
CN115578583B (zh) 图像处理方法、装置、电子设备和存储介质
CN114037058B (zh) 预训练模型的生成方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant