CN109086961B - 一种信息风险监测方法及装置 - Google Patents

一种信息风险监测方法及装置 Download PDF

Info

Publication number
CN109086961B
CN109086961B CN201810672073.3A CN201810672073A CN109086961B CN 109086961 B CN109086961 B CN 109086961B CN 201810672073 A CN201810672073 A CN 201810672073A CN 109086961 B CN109086961 B CN 109086961B
Authority
CN
China
Prior art keywords
information
risk
cluster
clustering
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810672073.3A
Other languages
English (en)
Other versions
CN109086961A (zh
Inventor
周书恒
祝慧佳
赵智源
郭亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ant Zhian Safety Technology Shanghai Co ltd
Original Assignee
Ant Zhian Safety Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ant Zhian Safety Technology Shanghai Co ltd filed Critical Ant Zhian Safety Technology Shanghai Co ltd
Priority to CN201810672073.3A priority Critical patent/CN109086961B/zh
Publication of CN109086961A publication Critical patent/CN109086961A/zh
Application granted granted Critical
Publication of CN109086961B publication Critical patent/CN109086961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)

Abstract

本说明书一个或多个实施例提供了一种信息风险监测方法及装置,该方法包括:获取待监测的多个目标信息以及各目标信息的初始风险标签;利用预设聚类算法对多个目标信息进行聚类处理,得到多个信息聚类簇;针对每个信息聚类簇,根据该信息聚类簇中的目标信息的初始风险标签,确定该信息聚类簇的风险识别结果;在多个信息聚类簇中,根据各风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的目标聚类簇中的各目标信息进行风险回溯。通过对目标信息进行聚类,得到多个信息聚类簇,以信息聚类簇为最小识别对象,选取风险程度高的疑似风险聚类簇进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。

Description

一种信息风险监测方法及装置
技术领域
本说明书一个或多个涉及信息识别领域,尤其涉及一种信息风险监测方法及装置。
背景技术
目前,随着移动互联网的快速发展,网络直播、短视频发布已成为人们日常生活的一部分,并且倡导全民直播,对主播的真实身份并没有任何限制,因此,往往会出现一些不利于平台健康有序发展的不良信息在网络上传播的情况,从而造成了不良的社会影响。
当前,为了维护用户体验,保障平台规范健康发展,平台会利用技术手段对信息进行风险监测,进而对风险信息进行相应的处理,例如,拦截或删除等操作。其中,常用的风险信息识别方法有:利用预先训练的算法模型对信息进行风险识别,或者,通过人工审核判断信息是否为风险信息。但是,往往由于算法模型的受限以及人工审核效率低的问题,导致存在风险信息识别遗漏的问题,为了尽可能消除残留在平台上的风险信息,采用风险回溯的方式对标记为非风险的信息进行再次风险识别。
但是,针对采用抽检回溯的方式或者基于初审得分的方式,存在回溯信息选取准确度低的问题,如果为了减少风险信息遗漏,采用增大抽检样本的方式,又存在回溯效率低的问题。因此,现有技术中的确定需要进行风险回溯信息的过程,存在识别准确度低、风险回溯效率低的问题。
发明内容
本说明书一个或多个实施例的目的是提供一种信息风险监测方法及装置,通过对目标信息进行聚类,得到多个信息聚类簇,以信息聚类簇为最小识别对象,选取风险程度高的疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
本说明书一个或多个实施例提供了一种信息风险监测方法,包括:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
本说明书一个或多个实施例提供了一种信息风险监测方法,包括:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
本说明书一个或多个实施例提供了一种信息风险监测装置,包括:
信息获取模块,用于获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
信息聚类模块,用于利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
信息簇识别模块,用于针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
风险簇确定模块,用于在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
本说明书一个或多个实施例提供了一种信息风险监测装置,包括:
信息获取模块,用于获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
信息聚类模块,用于利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
信息簇识别模块,用于针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
风险簇确定模块,用于在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
本说明书一个或多个实施例提供了一种信息风险监测设备,包括:处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
本说明书一个或多个实施例提供了一种信息风险监测设备,包括:处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
本说明书一个或多个实施例提供了一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
本说明书一个或多个实施例提供了一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
本说明书一个或多个实施例中的信息风险监测方法及装置,获取待监测的多个目标信息以及各目标信息的初始风险标签;利用预设聚类算法对多个目标信息进行聚类处理,得到多个信息聚类簇;针对每个信息聚类簇,根据该信息聚类簇中的目标信息的初始风险标签,确定该信息聚类簇的风险识别结果;在多个信息聚类簇中,根据各风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的目标聚类簇中的各目标信息进行风险回溯。通过对目标信息进行聚类,得到多个信息聚类簇,以信息聚类簇为最小识别对象,选取风险程度高的疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的信息风险监测的应用场景示意图;
图2为本说明书一个或多个实施例提供的信息风险监测方法的第一种流程示意图;
图3为本说明书一个或多个实施例提供的信息风险监测方法的第二种流程示意图;
图4为本说明书一个或多个实施例提供的信息风险监测方法的第三种流程示意图;
图5为本说明书一个或多个实施例提供的信息风险监测方法中目标信息的语义特征获取的实现原理示意图;
图6a为本说明书一个或多个实施例提供的信息风险监测方法的第四种流程示意图;
图6b为本说明书一个或多个实施例提供的信息风险监测方法的第五种流程示意图;
图7为本说明书一个或多个实施例提供的信息风险监测方法的第六种流程示意图;
图8为本说明书一个或多个实施例提供的信息风险监测方法的第七种流程示意图;
图9为本说明书一个或多个实施例提供的信息风险监测装置的第一种模块组成示意图;
图10为本说明书一个或多个实施例提供的信息风险监测装置的第二种模块组成示意图;
图11为本说明书一个或多个实施例提供的信息风险监测设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一个或多个一部分实施例,而不是全部的实施例。基于本说明书一个或多个中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书一个或多个保护的范围。
本说明书一个或多个实施例提供了一种信息风险监测方法及装置,通过对目标信息进行聚类,得到多个信息聚类簇,以信息聚类簇为最小识别对象,选取风险程度高的疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
图1为本说明书一个或多个实施例提供的信息风险监测方法的应用场景示意图,具体的,在图1中,先获取目标信息集合和初始风险标签集合,该初始风险标签集合包括目标信息集合中各目标信息对应的初始风险标签,在获取到目标信息集合和初始风险标签集合后,首先,利用预设聚类算法并基于指定特征,对目标信息集合中的多个目标信息进行聚类,得到多个信息聚类簇,例如,聚类簇A、聚类簇B、聚类簇C、聚类簇D、聚类簇E,其中,每个聚类簇中各目标信息均具有相同或相近的指定特征;
然后,在获取到的初始风险标签集合中,根据目标信息聚类结果,划分得到各信息聚类簇对应的初始风险标签子集,其中,该初始风险标签子集包括对应的信息聚类簇中各目标信息对应的初始风险标签;
接下来,根据各信息聚类簇对应的初始风险标签子集,进行聚类簇风险识别,确定各信息聚类簇的风险识别结果,即根据各信息聚类簇中包含的多个目标信息对应的多个初始风险标签,综合得到各信息聚类簇的风险识别结果;
最后,针对每个信息聚类簇,根据该信息聚类簇对应的风险识别结果,判断该信息聚类簇的风险程度是否满足预设条件,若是,则将该信息聚类簇确定为目标聚类簇,即确定需要对该信息聚类簇中各目标信息进行风险回溯。
基于上述确定需要进行风险回溯的目标信息的过程,通过对目标信息进行聚类,得到多个信息聚类簇,以信息聚类簇为最小识别对象,选取风险程度高的疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
图2为本说明书一个或多个实施例提供的信息风险监测方法的第一种流程示意图,图2中的方法能够由风险回溯监测服务器执行,如图2所示,该方法至少包括以下步骤:
S201,获取待监测的多个目标信息,以及获取各目标信息的初始风险标签;其中,目标信息的类型包括:文本信息、语音信息、图像信息中至少一种,目标信息的初始风险标签是预先利用风险识别模型对目标信息进行风险识别得到的第一风险标签、或者预先人工对目标信息进行风险标记的第二风险标签、或者第一风险标记和第二风险标记的组合,具体的,由于人工标记效率比较低,因此,对于某些目标信息可能只具有第一风险标签。
S202,利用预设聚类算法对多个目标信息进行聚类处理,得到多个信息聚类簇;
具体的,利用预设聚类算法并基于指定特征,对目标信息进行聚类,使得将指定特征相同或相近的目标信息划分到同一个簇中,得到多个具有相同或相近指定特征的信息聚类簇,其中,该指定特征与信息风险程度密切相关,具体的,考虑到信息的语义与风险程度直接相关,该指定特征可以是目标信息的语义特征,这样能够将风险程度高的目标信息集中到某些信息聚类簇中,将风险程度低的目标信息集中到其余信息聚类簇中,以便后续快速锁定风险聚类簇。
S203,针对每个信息聚类簇,根据该信息聚类簇中包含的各目标信息对应的初始风险标签,确定该信息聚类簇的风险识别结果;
具体的,在获取的针对目标信息的初始风险标签集合中,根据目标信息ID,查找各信息聚类簇中包含的多个目标信息分别对应的初始风险标签,得到针对每个信息聚类簇各自的初始风险标签子集,例如,以图1中的聚类簇A为例,根据划分到聚类簇A中的各目标信息ID,在初始风险标签集合中,查找该聚类簇A中包含的多个目标信息各自对应的初始风险标签,得到该聚类簇A的初始风险标签子集A,再根据各信息聚类簇分别对应的初始风险标签子集中的多个初始风险标签,得到该信息聚类簇的风险识别结果。
S204,在多个信息聚类簇中,根据各信息聚类簇对应的风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的目标聚类簇中包含的各目标信息进行风险回溯。
具体的,选取出需要进行风险回溯的目标聚类簇后,即选取出了需要进行风险回溯的目标信息,在对选取出的目标信息进行风险回溯的过程中,可以采用自动识别的方式对目标信息进行风险重检,也可以采用人工识别的方式对目标信息进行风险重检,另外,还可以根据目标聚类簇的风险程度来确定采用哪种风险回溯方式。
本说明书一个或多个实施例中,通过对目标信息进行聚类,得到多个信息聚类簇,以信息聚类簇为最小识别对象,选取风险程度高的疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
其中,可以选用任一种现有的聚类算法对获取到的多个目标信息进行聚类,例如,可以选用K-means算法,还可以选用DBSCAN聚类算法,也可以选用BIRCH聚类算法,基于各聚类算法的优缺点和使用场景,优选地,采用K-means算法进行信息聚类,具体的,如图3所示,上述S202利用预设聚类算法对多个目标信息进行聚类处理,得到多个信息聚类簇,具体包括:
S2021,利用K-means算法并基于各目标信息的语义特征,对多个目标信息进行聚类处理,得到多个信息聚类簇。
具体的,上述S2021利用K-means算法并基于各目标信息的语义特征,对多个目标信息进行聚类处理,得到多个信息聚类簇,具体包括:
步骤一,在多个目标信息中,选取K个目标信息分别作为K个类别的聚类中心,其中,K为分类得到的类别的个数;
其中,类别的个数可以是按照预设规则确定的,K个类别的聚类中心在持续进行信息聚类收敛的过程是不断变化的,首次确定的K个类别的聚类中心可以是从多个目标信息中随机选取的,后续确定的K个类别的聚类中心是根据最新得到的聚类结果确定的,具体的,可以选取簇中所有元素各自维度的算术平均数作为下次K个类别的聚类中心。
步骤二,基于各目标信息的语义特征,根据未被选取的多个目标信息与已被选取的K个目标信息的语义关联程度,将未被选取的多个目标信息划分到已被选取的K个目标信息所在信息聚类簇中,得到K个信息聚类簇;
具体的,针对利用K-means算法并基于语义对目标信息进行聚类的细化过程,具体为:
针对每个未被选取的目标信息,计算该目标信息与已被选取的K个目标信息之间的语义相异度;
将未被选取的目标信息划分到语义相异度的最小值对应的信息聚类簇;
根据各信息聚类簇中包含的目标信息的语义,重新确定K个信息聚类簇各自的中心作为下次聚类过程使用的已被选取的K个目标信息,直到下次聚类过程使用的聚类中心与本次聚类过程使用的聚类中心之间变化满足预设最小波动条件。
具体的,每次基于选取的K个类别的聚类中心和各目标信息的语义特征,对多个目标信息划分到对应的信息聚类簇后,先根据该聚类结果确定下一次使用的K个类别的聚类中心,再判断新的K个类别的聚类中心与原聚类中心之间变化是否满足预设最小波动条件,若是,则说明聚类结果趋于收敛,将当前得到的多个聚类簇确定为最终的K个信息聚类簇。
其中,考虑到信息的语义与风险概率关联性比较大,为了使得风险程度相似的信息尽可能聚类到一个信息聚类簇中,在对目标信息进行聚类时,基于目标信息的语义特征进行聚类,因此,在获取目标信息之后且对目标信息进行聚类之前,需要获取各目标信息的语义特征,具体的,如图4所示,在S201获取待监测的多个目标信息,以及获取各目标信息的初始风险标签之后,还包括:
S205,将各目标信息输入至预先训练的神经网络模型,其中,该神经网络模型是利用机器学习方法并基于预设训练样本训练得到;
具体的,预设训练样本包括:用于描述风险信息的正样本和用于描述非风险信息的负样本,将选取的多个正样本和负样本输入至初始神经网络模型,利用机器学习方法不断训练优化神经网络模型中的模型参数,得到训练好的神经网络模型;其中,该神经网络模型包括:输入层、中间层和输出层,将目标信息由输入层再经中间层处理后,可以提取出各目标信息的语义特征,即中间层的输出结果为语义向量。
S206,将神经网络模型的中间层输出的特征向量确定为目标信息的语义特征。
具体的,通过预先训练好的神经网络模型提取出各目标信息的语义特征后,即可利用预设聚类算法并基于各目标信息的语义特征,对目标信息进行聚类,并得到多个语义特征不同的信息聚类簇。
如图5所示,将获取到的目标信息输入至神经网络模型的输入层,多个目标信息可以并行输入或者依次输入,目标信息经输入层相应的处理后,传输至中间层,其中,神经网络模型可以具有多个中间层,通过预设接口采集用于语义特征提取的中间层的输出结果,即获取各目标信息的语义特征,以便于基于该语义特征对目标信息进行聚类。
进一步的,在利用预设聚类算法得到多个信息聚类簇后,将每个信息聚类簇作为最小风险识别对象,确定各信息聚类簇的风险程度,其中,上述初始风险标签包括:用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
其中,可以采用如下任一种处理方式确定各信息聚类簇的风险识别结果,具体为:
对应的,如图6a所示,上述S203针对每个信息聚类簇,根据该信息聚类簇中包含的各目标信息对应的初始风险标签,确定该信息聚类簇的风险识别结果,具体包括:
S2031,针对信息聚类簇中每个目标信息,根据该目标信息的第一风险标签和第二风险标签,判断目标信息是否为疑似风险信息;
S2032,根据各目标信息的判断结果,确定信息聚类簇中疑似风险信息的数量;
S2033,根据疑似风险信息的数量以及信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
具体的,第一风险标签可以是模型自动针对目标信息的风险打分,也可以是模型自动针对目标信息的风险分类,即标记目标信息是风险信息还是非风险信息;同样的,第二风险标签也可以是人工手动针对目标信息的风险打分,还可以是人工手动针对目标信息的风险分类;
如果第一风险标签为风险打分,此时若目标信息的风险分数大于预设分数阈值,则认为该目标信息模型标记为风险信息;同样的,如果第二风险标签为风险打分,此时若目标信息的风险分数大于预设分数阈值,则认为该目标信息人工标记为风险信息;针对每个目标信息,判断该目标信息的第一风险标签和第二风险标签中是否至少一个为风险信息,若是,则确定该目标信息为疑似风险信息。
针对每个目标信息,均判断该目标信息的第一风险标签和第二风险标签中是否至少一个为风险信息后,即可确定信息聚类簇中疑似风险信息的数量,进而将疑似风险信息的数量与信息聚类簇的信息总数相除,即可确定信息聚类簇的风险概率。
其中,另一种确定各信息聚类簇的风险识别结果的处理方式,具体为:
对应的,如图6b所示,上述S203针对每个信息聚类簇,根据该信息聚类簇中包含的各目标信息对应的初始风险标签,确定该信息聚类簇的风险识别结果,具体包括:
S2034,针对每个信息聚类簇,根据与该信息聚类簇相关的各第一风险标签,确定模型标记为风险信息的第一数量,具体的,针对该信息聚类簇中包含的各目标信息的第一风险标签,判断该第一风险标签是否表征目标信息为风险信息,若是,则将模型标记为风险信息的数量加一,直到将该信息聚类簇中所有目标信息的第一风险标签均判断完成,得到第一数量;
S2035,针对每个信息聚类簇,根据与该信息聚类簇相关的各第二风险标签,确定人工标记为风险信息的第二数量,具体的,针对该信息聚类簇中包含的各目标信息的第二风险标签,判断该第二风险标签是否表征目标信息为风险信息,若是,则将人工标记为风险信息的数量加一,直到将该信息聚类簇中所有目标信息的第二风险标签均判断完成,得到第二数量;
S2036,根据确定出的第一数量、第二数量和该信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
具体的,上述S2036根据确定出的第一数量、第二数量和该信息聚类簇的信息总数,确定该信息聚类簇的风险概率,具体包括:
步骤一,根据第一数量和信息聚类簇的信息总数,确定第一风险概率,其中,将用于表征模型标记为风险信息的第一数量与信息聚类簇的信息总数相除,即可确定信息聚类簇的模型标记风险概率;
步骤二,根据第二数量和信息聚类簇的信息总数,确定第二风险概率,其中,将用于表征人工标记为风险信息的第二数量与信息聚类簇的信息总数相除,即可确定信息聚类簇的人工标记风险概率;
步骤三,根据第一风险概率和第二风险概率,确定该信息聚类簇的综合风险概率,具体的,可以将第一风险概率和第二风险概率中的最大值作为最终的综合风险概率,也可以预先对模型标记结果和人工标记结果设置参考权重,将第一风险概率和第二风险概率的加权平均值作为最终的综合风险概率。
其中,在基于上述任一种方式确定出各信息聚类簇的风险概率后,可以根据各信息聚类簇的风险概率来确定是否对该信息聚类簇进行风险回溯,具体的,如图7所示,上述S204在多个信息聚类簇中,根据各信息聚类簇对应的风险识别结果选取需要进行风险回溯的目标聚类簇,具体包括:
S2041,判断确定出的信息聚类簇的风险概率是否大于预设阈值;
若是,则执行S2042,将信息聚类簇确定为需要进行风险回溯的目标聚类簇,以便对确定出的目标聚类簇中包含的各目标信息进行风险回溯。
具体的,在分别确定出各信息聚类簇对应的风险概率后,针对每个信息聚类簇,判断该信息聚类簇对应的风险概率是否大于预设阈值,若是,则说明该信息聚类簇中包含的目标信息为风险信息的概率比较大,需要对该信息聚类簇中包含的目标信息进行风险重检,以便降低初次风险识别后残留的风险信息进行管控。
本说明书一个或多个实施例中的信息风险监测方法,获取待监测的多个目标信息以及各目标信息的初始风险标签;利用预设聚类算法对多个目标信息进行聚类处理,得到多个信息聚类簇;针对每个信息聚类簇,根据该信息聚类簇中的目标信息的初始风险标签,确定该信息聚类簇的风险识别结果;在多个信息聚类簇中,根据各风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的目标聚类簇中的各目标信息进行风险回溯。通过对目标信息进行聚类,得到多个信息聚类簇,以信息聚类簇为最小识别对象,选取风险程度高的疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
对应上述图2至图7描述的信息风险监测方法,基于相同的技术构思,本说明书一个或多个实施例还提供了一种信息风险监测方法,图8为本说明书一个或多个实施例提供的信息风险监测方法的第七种流程示意图,图8中的方法能够由风险回溯监测服务器执行,如图8所示,该方法至少包括以下步骤:
S801,获取待监测的多个目标信息,以及获取各目标信息的初始风险标签;其中,步骤S801的具体实施方式参见步骤S201,这里不再赘述。
S802,利用预设聚类算法并基于各目标信息的语义特征,对多个目标信息进行聚类处理,得到多个信息聚类簇;其中,步骤S802的具体实施方式参见步骤S202,这里不再赘述。
S803,针对每个信息聚类簇,根据该信息聚类簇中包含的目标信息的初始风险标签,确定该信息聚类簇的风险识别结果;其中,步骤S803的具体实施方式参见步骤S203,这里不再赘述。
S804,在多个信息聚类簇中,根据各风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的目标聚类簇中包含的各目标信息进行风险回溯;其中,步骤S804的具体实施方式参见步骤S204,这里不再赘述。
本说明书一个或多个实施例中,通过利用预设聚类算法并基于目标信息的语义对目标信息进行聚类,得到多个信息聚类簇,由于信息的语义与风险程度直接相关,因此,在对目标信息进行聚类时,基于目标信息的语义特征进行聚类,能够使得风险程度相似的信息尽可能聚类到一个信息聚类簇中,再以信息聚类簇为最小识别对象,根据各信息聚类簇中包含的目标信息对应的初始风险标签,对该信息聚类簇进行风险识别,再根据信息聚类簇的风险识别结果,选取风险程度高的疑似风险聚类簇,以便对该疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
其中,考虑到信息的语义与风险概率关联性比较大,为了使得风险程度相似的信息尽可能聚类到一个信息聚类簇中,在对目标信息进行聚类时,基于目标信息的语义特征进行聚类,因此,在获取目标信息之后且对目标信息进行聚类之前,需要获取各目标信息的语义特征,具体的,在上述S802利用预设聚类算法并基于各目标信息的语义特征,对多个目标信息进行聚类处理,得到多个信息聚类簇之前,还包括:
将各所述目标信息输入至预先训练的神经网络模型,其中,所述神经网络模型是利用机器学习方法并基于预设训练样本训练得到;
将所述神经网络模型的中间层输出的特征向量确定为所述目标信息的语义特征。
其中,可以选用任一种现有的聚类算法对获取到的多个目标信息进行聚类,例如,可以选用K-means算法,还可以选用DBSCAN聚类算法,也可以选用BIRCH聚类算法,基于各聚类算法的优缺点和使用场景,优选地,采用K-means算法进行信息聚类,具体的,上述S802利用预设聚类算法并基于各目标信息的语义特征,对多个目标信息进行聚类处理,得到多个信息聚类簇,具体包括:
利用K-means算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇,其中,每个所述信息聚类簇中两两目标信息的语义相异度小于预设相异度阈值。
其中,所述初始风险标签包括:用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
对应的,上述S803针对每个信息聚类簇,根据该信息聚类簇中包含的目标信息的初始风险标签,确定该信息聚类簇的风险识别结果,具体包括:
针对所述信息聚类簇中每个所述目标信息,根据该目标信息的所述第一风险标签和所述第二风险标签,判断所述目标信息是否为疑似风险信息;
根据各所述目标信息的判断结果,确定所述信息聚类簇中疑似风险信息的数量;
根据所述疑似风险信息的数量以及所述信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
其中,上述S804在多个信息聚类簇中,根据各风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的目标聚类簇中包含的各目标信息进行风险回溯,具体包括:
判断确定出的所述信息聚类簇的所述风险概率是否大于预设概率阈值;
若是,则将所述信息聚类簇确定为需要进行风险回溯的目标聚类簇。
具体的,在分别确定出各信息聚类簇对应的风险概率后,针对每个信息聚类簇,判断该信息聚类簇对应的风险概率是否大于预设阈值,若是,则说明该信息聚类簇中包含的目标信息为风险信息的概率比较大,需要对该信息聚类簇中包含的目标信息进行风险重检,以便降低初次风险识别后残留的风险信息进行管控。
本说明书一个或多个实施例中的信息风险监测方法,通过利用预设聚类算法并基于目标信息的语义对目标信息进行聚类,得到多个信息聚类簇,由于信息的语义与风险程度直接相关,因此,在对目标信息进行聚类时,基于目标信息的语义特征进行聚类,能够使得风险程度相似的信息尽可能聚类到一个信息聚类簇中,再以信息聚类簇为最小识别对象,根据各信息聚类簇中包含的目标信息对应的初始风险标签,对该信息聚类簇进行风险识别,再根据信息聚类簇的风险识别结果,选取风险程度高的疑似风险聚类簇,以便对该疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
需要说明的是,本说明书中该实施例与本说明书中上一实施例基于同一发明构思,因此该实施例的具体实施可以参见前述信息风险监测方法的实施,重复之处不再赘述。
对应上述图2至图7描述的信息风险监测方法,基于相同的技术构思,本说明书一个或多个实施例还提供了一种信息风险监测装置,图9为本说明书一个或多个实施例提供的信息风险监测装置的第一种模块组成示意图,该装置用于执行图2至图7描述的信息风险监测方法,如图9所示,该装置包括:信息获取模块901、信息聚类模块902、信息簇识别模块903和风险簇确定模块904,信息获取模块901、信息聚类模块902、信息簇识别模块903和风险簇确定模块904依次连接。
在一个具体的实施例中,信息获取模块901,用于获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
信息聚类模块902,用于利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
信息簇识别模块903,用于针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
风险簇确定模块904,用于在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
可选地,上述信息聚类模块902,具体用于:
利用K-means算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇。
可选地,上述信息聚类模块902,进一步具体用于:
在所述多个目标信息中,选取K个目标信息分别作为K个类别的聚类中心,其中,K为分类得到的类别的个数;
基于各所述目标信息的语义特征,根据未被选取的多个所述目标信息与已被选取的K个目标信息的语义关联程度,将未被选取的多个所述目标信息划分到已被选取的K个目标信息所在信息聚类簇中,得到K个信息聚类簇。
可选地,所述初始风险标签包括:用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
对应的,上述信息簇识别模块903,具体用于:
针对所述信息聚类簇中每个所述目标信息,根据该目标信息的所述第一风险标签和所述第二风险标签,判断所述目标信息是否为疑似风险信息;
根据各所述目标信息的判断结果,确定所述信息聚类簇中疑似风险信息的数量;
根据所述疑似风险信息的数量以及所述信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
可选地,所述初始风险标签包括:用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
对应的,上述信息簇识别模块903,具体用于:
针对每个所述信息聚类簇,根据与该信息聚类簇相关的各所述第一风险标签,确定模型标记为风险信息的第一数量;
针对每个所述信息聚类簇,根据与该信息聚类簇相关的各所述第二风险标签,确定人工标记为风险信息的第二数量;
根据所述第一数量、所述第二数量和该信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
可选地,上述信息簇识别模块903,进一步具体用于:
根据所述第一数量和所述信息聚类簇的信息总数,确定第一风险概率;
根据所述第二数量和所述信息聚类簇的信息总数,确定第二风险概率;
根据所述第一风险概率和所述第二风险概率,确定该信息聚类簇的综合风险概率。
可选地,上述风险簇确定模块904,具体用于:
判断确定出的所述信息聚类簇的所述风险概率是否大于预设阈值;
若是,则将所述信息聚类簇确定为需要进行风险回溯的目标聚类簇。
可选地,如图10所示,上述装置还包括:
信息输入模块905,用于在获取待监测的多个目标信息之后,将各所述目标信息输入至预先训练的神经网络模型,其中,所述神经网络模型是利用机器学习方法并基于预设训练样本训练得到;
语义特征获取模块906,用于将所述神经网络模型的中间层输出的特征向量确定为所述目标信息的语义特征。
本说明书一个或多个实施例中的信息风险监测装置,获取待监测的多个目标信息以及各目标信息的初始风险标签;利用预设聚类算法对多个目标信息进行聚类处理,得到多个信息聚类簇;针对每个信息聚类簇,根据该信息聚类簇中的目标信息的初始风险标签,确定该信息聚类簇的风险识别结果;在多个信息聚类簇中,根据各风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的目标聚类簇中的各目标信息进行风险回溯。通过对目标信息进行聚类,得到多个信息聚类簇,以信息聚类簇为最小识别对象,选取风险程度高的疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
在另一个具体的实施例中,信息获取模块901,用于获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
信息聚类模块902,用于利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
信息簇识别模块903,用于针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
风险簇确定模块904,用于在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
可选地,上述装置还包括:
信息输入模块,用于将各所述目标信息输入至预先训练的神经网络模型,其中,所述神经网络模型是利用机器学习方法并基于预设训练样本训练得到;
语义特征获取模块,用于将所述神经网络模型的中间层输出的特征向量确定为所述目标信息的语义特征。
可选地,上述信息聚类模块902,具体用于:
利用K-means算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇,其中,每个所述信息聚类簇中两两目标信息的语义相异度小于预设相异度阈值。
可选地,所述初始风险标签包括:用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
对应的,上述信息簇识别模块903,具体用于:
针对所述信息聚类簇中每个所述目标信息,根据该目标信息的所述第一风险标签和所述第二风险标签,判断所述目标信息是否为疑似风险信息;
根据各所述目标信息的判断结果,确定所述信息聚类簇中疑似风险信息的数量;
根据所述疑似风险信息的数量以及所述信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
可选地,上述风险簇确定模块904,具体用于:
判断确定出的所述信息聚类簇的所述风险概率是否大于预设概率阈值;
若是,则将所述信息聚类簇确定为需要进行风险回溯的目标聚类簇。
本说明书一个或多个实施例中的信息风险监测装置,通过利用预设聚类算法并基于目标信息的语义对目标信息进行聚类,得到多个信息聚类簇,由于信息的语义与风险程度直接相关,因此,在对目标信息进行聚类时,基于目标信息的语义特征进行聚类,能够使得风险程度相似的信息尽可能聚类到一个信息聚类簇中,再以信息聚类簇为最小识别对象,根据各信息聚类簇中包含的目标信息对应的初始风险标签,对该信息聚类簇进行风险识别,再根据信息聚类簇的风险识别结果,选取风险程度高的疑似风险聚类簇,以便对该疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
进一步地,对应上述图2至图7所示的方法,基于相同的技术构思,本说明书一个或多个实施例还提供了一种信息风险监测设备,该设备用于执行上述的信息风险监测方法,如图11所示。
信息风险监测设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器1101和存储器1102,存储器1102中可以存储有一个或一个以上存储应用程序或数据。其中,存储器1102可以是短暂存储或持久存储。存储在存储器1102的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对信息风险监测设备中的一系列计算机可执行指令。更进一步地,处理器1101可以设置为与存储器1102通信,在信息风险监测设备上执行存储器1102中的一系列计算机可执行指令。信息风险监测设备还可以包括一个或一个以上电源1103,一个或一个以上有线或无线网络接口1104,一个或一个以上输入输出接口1105,一个或一个以上键盘1106等。
在一个具体的实施例中,信息风险监测设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对信息风险监测设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
可选地,计算机可执行指令在被执行时,所述利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇,包括:
利用K-means算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇。
可选地,计算机可执行指令在被执行时,所述利用K-means算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇,包括:
在所述多个目标信息中,选取K个目标信息分别作为K个类别的聚类中心,其中,K为分类得到的类别的个数;
基于各所述目标信息的语义特征,根据未被选取的多个所述目标信息与已被选取的K个目标信息的语义关联程度,将未被选取的多个所述目标信息划分到已被选取的K个目标信息所在信息聚类簇中,得到K个信息聚类簇。
可选地,计算机可执行指令在被执行时,所述初始风险标签包括:用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
所述针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果,包括:
针对所述信息聚类簇中每个所述目标信息,根据该目标信息的所述第一风险标签和所述第二风险标签,判断所述目标信息是否为疑似风险信息;
根据各所述目标信息的判断结果,确定所述信息聚类簇中疑似风险信息的数量;
根据所述疑似风险信息的数量以及所述信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
可选地,计算机可执行指令在被执行时,所述初始风险标签包括:用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
所述针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果,包括:
针对每个所述信息聚类簇,根据与该信息聚类簇相关的各所述第一风险标签,确定模型标记为风险信息的第一数量;
针对每个所述信息聚类簇,根据与该信息聚类簇相关的各所述第二风险标签,确定人工标记为风险信息的第二数量;
根据所述第一数量、所述第二数量和该信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
可选地,计算机可执行指令在被执行时,所述根据所述第一数量、所述第二数量和该信息聚类簇的信息总数,确定该信息聚类簇的风险概率,包括:
根据所述第一数量和所述信息聚类簇的信息总数,确定第一风险概率;
根据所述第二数量和所述信息聚类簇的信息总数,确定第二风险概率;
根据所述第一风险概率和所述第二风险概率,确定该信息聚类簇的综合风险概率。
可选地,计算机可执行指令在被执行时,在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,包括:
判断确定出的所述信息聚类簇的所述风险概率是否大于预设阈值;
若是,则将所述信息聚类簇确定为需要进行风险回溯的目标聚类簇。
可选地,计算机可执行指令在被执行时,还包含用于进行以下计算机可执行指令:
在获取待监测的多个目标信息之后,还包括:
将各所述目标信息输入至预先训练的神经网络模型,其中,所述神经网络模型是利用机器学习方法并基于预设训练样本训练得到;
将所述神经网络模型的中间层输出的特征向量确定为所述目标信息的语义特征。
本说明书一个或多个实施例中的信息风险监测设备,获取待监测的多个目标信息以及各目标信息的初始风险标签;利用预设聚类算法对多个目标信息进行聚类处理,得到多个信息聚类簇;针对每个信息聚类簇,根据该信息聚类簇中的目标信息的初始风险标签,确定该信息聚类簇的风险识别结果;在多个信息聚类簇中,根据各风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的目标聚类簇中的各目标信息进行风险回溯。通过对目标信息进行聚类,得到多个信息聚类簇,以信息聚类簇为最小识别对象,选取风险程度高的疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
在另一个具体的实施例中,信息风险监测设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对信息风险监测设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
可选地,计算机可执行指令在被执行时,还包含用于进行以下计算机可执行指令:
在利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇之前,还包括:
将各所述目标信息输入至预先训练的神经网络模型,其中,所述神经网络模型是利用机器学习方法并基于预设训练样本训练得到;
将所述神经网络模型的中间层输出的特征向量确定为所述目标信息的语义特征。
可选地,计算机可执行指令在被执行时,所述利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇,包括:
利用K-means算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇,其中,每个所述信息聚类簇中两两目标信息的语义相异度小于预设相异度阈值。
可选地,计算机可执行指令在被执行时,所述初始风险标签包括:用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
所述针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果,包括:
针对所述信息聚类簇中每个所述目标信息,根据该目标信息的所述第一风险标签和所述第二风险标签,判断所述目标信息是否为疑似风险信息;
根据各所述目标信息的判断结果,确定所述信息聚类簇中疑似风险信息的数量;
根据所述疑似风险信息的数量以及所述信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
可选地,计算机可执行指令在被执行时,在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,包括:
判断确定出的所述信息聚类簇的所述风险概率是否大于预设概率阈值;
若是,则将所述信息聚类簇确定为需要进行风险回溯的目标聚类簇。
本说明书一个或多个实施例中的信息风险监测设备,通过利用预设聚类算法并基于目标信息的语义对目标信息进行聚类,得到多个信息聚类簇,由于信息的语义与风险程度直接相关,因此,在对目标信息进行聚类时,基于目标信息的语义特征进行聚类,能够使得风险程度相似的信息尽可能聚类到一个信息聚类簇中,再以信息聚类簇为最小识别对象,根据各信息聚类簇中包含的目标信息对应的初始风险标签,对该信息聚类簇进行风险识别,再根据信息聚类簇的风险识别结果,选取风险程度高的疑似风险聚类簇,以便对该疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
进一步地,对应上述图2至图7所示的方法,基于相同的技术构思,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇,包括:
利用K-means算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述利用K-means算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇,包括:
在所述多个目标信息中,选取K个目标信息分别作为K个类别的聚类中心,其中,K为分类得到的类别的个数;
基于各所述目标信息的语义特征,根据未被选取的多个所述目标信息与已被选取的K个目标信息的语义关联程度,将未被选取的多个所述目标信息划分到已被选取的K个目标信息所在信息聚类簇中,得到K个信息聚类簇。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述初始风险标签包括:用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
所述针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果,包括:
针对所述信息聚类簇中每个所述目标信息,根据该目标信息的所述第一风险标签和所述第二风险标签,判断所述目标信息是否为疑似风险信息;
根据各所述目标信息的判断结果,确定所述信息聚类簇中疑似风险信息的数量;
根据所述疑似风险信息的数量以及所述信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述初始风险标签包括:用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
所述针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果,包括:
针对每个所述信息聚类簇,根据与该信息聚类簇相关的各所述第一风险标签,确定模型标记为风险信息的第一数量;
针对每个所述信息聚类簇,根据与该信息聚类簇相关的各所述第二风险标签,确定人工标记为风险信息的第二数量;
根据所述第一数量、所述第二数量和该信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述根据所述第一数量、所述第二数量和该信息聚类簇的信息总数,确定该信息聚类簇的风险概率,包括:
根据所述第一数量和所述信息聚类簇的信息总数,确定第一风险概率;
根据所述第二数量和所述信息聚类簇的信息总数,确定第二风险概率;
根据所述第一风险概率和所述第二风险概率,确定该信息聚类簇的综合风险概率。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,包括:
判断确定出的所述信息聚类簇的所述风险概率是否大于预设阈值;
若是,则将所述信息聚类簇确定为需要进行风险回溯的目标聚类簇。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,还实现以下流程:
在获取待监测的多个目标信息之后,还包括:
将各所述目标信息输入至预先训练的神经网络模型,其中,所述神经网络模型是利用机器学习方法并基于预设训练样本训练得到;
将所述神经网络模型的中间层输出的特征向量确定为所述目标信息的语义特征。
本说明书一个或多个实施例中的存储介质存储的计算机可执行指令在被处理器执行时,获取待监测的多个目标信息以及各目标信息的初始风险标签;利用预设聚类算法对多个目标信息进行聚类处理,得到多个信息聚类簇;针对每个信息聚类簇,根据该信息聚类簇中的目标信息的初始风险标签,确定该信息聚类簇的风险识别结果;在多个信息聚类簇中,根据各风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的目标聚类簇中的各目标信息进行风险回溯。通过对目标信息进行聚类,得到多个信息聚类簇,以信息聚类簇为最小识别对象,选取风险程度高的疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
在另一个具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;
利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,还实现以下流程:
在利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇之前,还包括:
将各所述目标信息输入至预先训练的神经网络模型,其中,所述神经网络模型是利用机器学习方法并基于预设训练样本训练得到;
将所述神经网络模型的中间层输出的特征向量确定为所述目标信息的语义特征。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇,包括:
利用K-means算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇,其中,每个所述信息聚类簇中两两目标信息的语义相异度小于预设相异度阈值。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述初始风险标签包括:用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
所述针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果,包括:
针对所述信息聚类簇中每个所述目标信息,根据该目标信息的所述第一风险标签和所述第二风险标签,判断所述目标信息是否为疑似风险信息;
根据各所述目标信息的判断结果,确定所述信息聚类簇中疑似风险信息的数量;
根据所述疑似风险信息的数量以及所述信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,包括:
判断确定出的所述信息聚类簇的所述风险概率是否大于预设概率阈值;
若是,则将所述信息聚类簇确定为需要进行风险回溯的目标聚类簇。
本说明书一个或多个实施例中的存储介质存储的计算机可执行指令在被处理器执行时,通过利用预设聚类算法并基于目标信息的语义对目标信息进行聚类,得到多个信息聚类簇,由于信息的语义与风险程度直接相关,因此,在对目标信息进行聚类时,基于目标信息的语义特征进行聚类,能够使得风险程度相似的信息尽可能聚类到一个信息聚类簇中,再以信息聚类簇为最小识别对象,根据各信息聚类簇中包含的目标信息对应的初始风险标签,对该信息聚类簇进行风险识别,再根据信息聚类簇的风险识别结果,选取风险程度高的疑似风险聚类簇,以便对该疑似风险聚类簇中的目标信息进行风险回溯,这样能够提高回溯信息选取的准确度,还能够提高信息风险回溯的时效性。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HD Cal、JHDL(Java Hardware Description Language)、Lava、Lola、My HDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个是参照根据本说明书一个或多个实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书一个或多个的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书一个或多个的实施例而已,并不用于限制本说明书一个或多个。对于本领域技术人员来说,本说明书一个或多个可以有各种更改和变化。凡在本说明书一个或多个的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个的权利要求范围之内。

Claims (19)

1.一种信息风险监测方法,其特征在于,包括:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;其中,所述初始风险标签包括用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
2.根据权利要求1所述的方法,其特征在于,所述利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇,包括:
利用K-means算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇。
3.根据权利要求2所述的方法,其特征在于,所述利用K-means算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇,包括:
在所述多个目标信息中,选取K个目标信息分别作为K个类别的聚类中心,其中,K为分类得到的类别的个数;
基于各所述目标信息的语义特征,根据未被选取的多个所述目标信息与已被选取的K个目标信息的语义关联程度,将未被选取的多个所述目标信息划分到已被选取的K个目标信息所在信息聚类簇中,得到K个信息聚类簇。
4.根据权利要求1所述的方法,其特征在于,所述针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果,包括:
针对所述信息聚类簇中每个所述目标信息,根据该目标信息的所述第一风险标签和所述第二风险标签,判断所述目标信息是否为疑似风险信息;
根据各所述目标信息的判断结果,确定所述信息聚类簇中疑似风险信息的数量;
根据所述疑似风险信息的数量以及所述信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
5.根据权利要求1所述的方法,其特征在于,所述针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果,包括:
针对每个所述信息聚类簇,根据与该信息聚类簇相关的各所述第一风险标签,确定模型标记为风险信息的第一数量;
针对每个所述信息聚类簇,根据与该信息聚类簇相关的各所述第二风险标签,确定人工标记为风险信息的第二数量;
根据所述第一数量、所述第二数量和该信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一数量、所述第二数量和该信息聚类簇的信息总数,确定该信息聚类簇的风险概率,包括:
根据所述第一数量和所述信息聚类簇的信息总数,确定第一风险概率;
根据所述第二数量和所述信息聚类簇的信息总数,确定第二风险概率;
根据所述第一风险概率和所述第二风险概率,确定该信息聚类簇的综合风险概率。
7.根据权利要求4或5任一项所述的方法,其特征在于,在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,包括:
判断确定出的所述信息聚类簇的所述风险概率是否大于预设阈值;
若是,则将所述信息聚类簇确定为需要进行风险回溯的目标聚类簇。
8.根据权利要求1所述的方法,其特征在于,在获取待监测的多个目标信息之后,还包括:
将各所述目标信息输入至预先训练的神经网络模型,其中,所述神经网络模型是利用机器学习方法并基于预设训练样本训练得到;
将所述神经网络模型的中间层输出的特征向量确定为所述目标信息的语义特征。
9.一种信息风险监测方法,其特征在于,包括:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;其中,所述初始风险标签包括用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
10.根据权利要求9所述的方法,其特征在于,在利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇之前,还包括:
将各所述目标信息输入至预先训练的神经网络模型,其中,所述神经网络模型是利用机器学习方法并基于预设训练样本训练得到;
将所述神经网络模型的中间层输出的特征向量确定为所述目标信息的语义特征。
11.根据权利要求9所述的方法,其特征在于,所述利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇,包括:
利用K-means算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇,其中,每个所述信息聚类簇中两两目标信息的语义相异度小于预设相异度阈值。
12.根据权利要求9所述的方法,其特征在于,所述针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果,包括:
针对所述信息聚类簇中每个所述目标信息,根据该目标信息的所述第一风险标签和所述第二风险标签,判断所述目标信息是否为疑似风险信息;
根据各所述目标信息的判断结果,确定所述信息聚类簇中疑似风险信息的数量;
根据所述疑似风险信息的数量以及所述信息聚类簇的信息总数,确定该信息聚类簇的风险概率。
13.根据权利要求12所述的方法,其特征在于,在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,包括:
判断确定出的所述信息聚类簇的所述风险概率是否大于预设概率阈值;
若是,则将所述信息聚类簇确定为需要进行风险回溯的目标聚类簇。
14.一种信息风险监测装置,其特征在于,包括:
信息获取模块,用于获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;其中,所述初始风险标签包括用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
信息聚类模块,用于利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
信息簇识别模块,用于针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
风险簇确定模块,用于在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
15.一种信息风险监测装置,其特征在于,包括:
信息获取模块,用于获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;其中,所述初始风险标签包括用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
信息聚类模块,用于利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
信息簇识别模块,用于针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
风险簇确定模块,用于在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
16.一种信息风险监测设备,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;其中,所述初始风险标签包括用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
17.一种信息风险监测设备,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;其中,所述初始风险标签包括用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
18.一种存储介质,用于存储计算机可执行指令,其特征在于,所述可执行指令在被执行时实现以下流程:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;其中,所述初始风险标签包括用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
利用预设聚类算法对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
19.一种存储介质,用于存储计算机可执行指令,其特征在于,所述可执行指令在被执行时实现以下流程:
获取待监测的多个目标信息,以及获取所述目标信息的初始风险标签;其中,所述初始风险标签包括用于表征模型标记结果的第一风险标签和/或用于表征人工标记结果的第二风险标签;
利用预设聚类算法并基于各所述目标信息的语义特征,对所述多个目标信息进行聚类处理,得到多个信息聚类簇;
针对每个所述信息聚类簇,根据该信息聚类簇中包含的所述目标信息的所述初始风险标签,确定该信息聚类簇的风险识别结果;
在多个所述信息聚类簇中,根据各所述风险识别结果选取需要进行风险回溯的目标聚类簇,以便对选取出的所述目标聚类簇中包含的各所述目标信息进行风险回溯。
CN201810672073.3A 2018-06-26 2018-06-26 一种信息风险监测方法及装置 Active CN109086961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810672073.3A CN109086961B (zh) 2018-06-26 2018-06-26 一种信息风险监测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810672073.3A CN109086961B (zh) 2018-06-26 2018-06-26 一种信息风险监测方法及装置

Publications (2)

Publication Number Publication Date
CN109086961A CN109086961A (zh) 2018-12-25
CN109086961B true CN109086961B (zh) 2022-04-01

Family

ID=64839844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810672073.3A Active CN109086961B (zh) 2018-06-26 2018-06-26 一种信息风险监测方法及装置

Country Status (1)

Country Link
CN (1) CN109086961B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059479A (zh) * 2019-01-29 2019-07-26 阿里巴巴集团控股有限公司 风险信息识别方法及装置和电子设备
CN110033092B (zh) * 2019-01-31 2020-06-02 阿里巴巴集团控股有限公司 数据标签生成、模型训练、事件识别方法和装置
CN110008986B (zh) * 2019-02-19 2023-05-12 创新先进技术有限公司 批量风险案件识别方法、装置及电子设备
CN109783823A (zh) * 2019-03-07 2019-05-21 百度在线网络技术(北京)有限公司 语音监控方法、装置、设备及计算机可读介质
CN110852761B (zh) * 2019-10-11 2023-07-04 支付宝(杭州)信息技术有限公司 制定反作弊策略的方法、装置及电子设备
CN113763057B (zh) * 2020-05-28 2024-05-14 北京金山云网络技术有限公司 用户身份画像的数据处理方法和装置
CN112148880A (zh) * 2020-09-28 2020-12-29 深圳壹账通智能科技有限公司 一种客服对话语料聚类方法、系统、设备及存储介质
CN112505678A (zh) * 2020-10-23 2021-03-16 中国第一汽车股份有限公司 一种车辆航迹计算方法、装置、车辆及介质
CN112560842B (zh) * 2020-12-07 2021-10-22 马上消费金融股份有限公司 一种信息识别方法、装置、设备和可读存储介质
CN114331686A (zh) * 2021-12-30 2022-04-12 鲁信科技股份有限公司 一种基于标签的不良资产管理方法、设备及介质
CN116792370B (zh) * 2023-08-29 2023-11-21 德州华海石油机械股份有限公司 Tpb智能安全报警方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005248455A1 (en) * 2004-05-26 2005-12-08 Atherocheck Aps Method of evaluation of the relative risk of developing atherosclerosis in patients
CN104182539A (zh) * 2014-09-02 2014-12-03 五八同城信息技术有限公司 异常信息批量处理的方法及系统
CN105843947A (zh) * 2016-04-08 2016-08-10 华南师范大学 基于大数据关联规则挖掘的异常行为检测方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2757290C (en) * 2008-04-01 2020-12-15 Leap Marketing Technologies Inc. Systems and methods for implementing and tracking identification tests

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005248455A1 (en) * 2004-05-26 2005-12-08 Atherocheck Aps Method of evaluation of the relative risk of developing atherosclerosis in patients
CN104182539A (zh) * 2014-09-02 2014-12-03 五八同城信息技术有限公司 异常信息批量处理的方法及系统
CN105843947A (zh) * 2016-04-08 2016-08-10 华南师范大学 基于大数据关联规则挖掘的异常行为检测方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OP-DCI: A Riskless K-Means Clustering for Influential User Identification in MOOC Forum;Xiangyu Hou 等;《2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA)》;20180118;第936-939页 *
基于K—means聚类分析的地铁施工风险评价方法;候寒冰 等;《学术论坛》;20120305;第343-345页 *

Also Published As

Publication number Publication date
CN109086961A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109086961B (zh) 一种信息风险监测方法及装置
CN111881973A (zh) 一种样本选择方法、装置、存储介质及电子设备
CN112507704B (zh) 多意图识别方法、装置、设备及存储介质
CN107679082A (zh) 问答搜索方法、装置以及电子设备
US20210358570A1 (en) Method and system for claim scope labeling, retrieval and information labeling of gene sequence
CN110457578A (zh) 一种客服服务需求识别方法及装置
CN112308113A (zh) 一种基于半监督的目标识别方法、设备及介质
US9436891B2 (en) Discriminating synonymous expressions using images
CN112672184A (zh) 一种视频审核及发布方法
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN112417093B (zh) 一种模型训练的方法及装置
CN115712866B (zh) 数据处理方法、装置及设备
CN108846069B (zh) 一种基于标记语言的文档执行方法及装置
CN110502614A (zh) 文本拦截方法、装置、系统以及设备
CN111652286A (zh) 一种基于图嵌入的物体识别方法、设备及介质
CN110033092B (zh) 数据标签生成、模型训练、事件识别方法和装置
CN117932058A (zh) 基于文本分析的情绪识别方法、装置及设备
CN117113174A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN115221523B (zh) 数据处理方法、装置及设备
CN109146395B (zh) 一种数据处理的方法、装置及设备
CN108595395B (zh) 一种昵称的生成方法、装置及设备
KR102413588B1 (ko) 학습 데이터에 따른 객체 인식 모델 추천 방법, 시스템 및 컴퓨터 프로그램
CN114841471A (zh) 知识点预测方法、装置、电子设备和存储介质
CN111242195B (zh) 模型、保险风控模型训练方法、装置及电子设备
CN115423485B (zh) 数据处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220309

Address after: 200120 room 1607, 16th floor, No. 447, Nanquan North Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant after: Ant Zhian safety technology (Shanghai) Co.,Ltd.

Address before: Ky1-9008 business centre, 27 Hospital Road, Georgetown, grand caiman, UK

Applicant before: Innovative advanced technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant