CN115391701A

CN115391701A - 一种互联网内容风险分析及预警方法

Info

Publication number: CN115391701A
Application number: CN202210883763.XA
Authority: CN
Inventors: 李俊杰; 谢凌; 符伟剑; 王婷
Original assignee: Hangzhou Upyun Technology Co ltd
Current assignee: Hangzhou Upyun Technology Co ltd
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-11-25

Abstract

本发明公开了一种互联网内容风险分析及预警方法，包括：对信息的事件主体和焦点实体进行提取，确定与风险内容相关联，建立知识图谱，对内容数据进行提取处理，构建基础知识库；对基础知识库中的内容进行打标签，通过标签与对应企业进行关联；针对潜在风险内容以及风险内容的舆论影响程度、敏感要素和舆论发展阶段，既定模块的维度进行计算分析评分，并根据评分与标签构建内容风险预警规则，利用内容风险预警规则对客户系统进行风险预警。本本发明根据风险要素计算的权重结果进行预警判断，对需要预警的事件，例如风险指数超过设定预警阈值时，产生预警消息并推送，能够实时、有效、有针对性地对特殊风险进行预警。

Description

一种互联网内容风险分析及预警方法

技术领域

本发明涉及互联网内容风险分析及预警领域，具体涉及一种互联网内容风险分析及预警方法。

背景技术

现有的互联网内容风险预警技术，是基于网络舆情数据、事件做的简单分析并设定阀值，对热度较高或与客户关键词属性相关联的信息进行消息推送，以达到风险预警的目的。

但是现有的舆情内容风险预警技术，无法在潜伏期发现事件未来的可能风险，从而无法进行相关预警。

例如某一电商企业售卖的物品有负面事件影响，则可能该企业的物品评论区会产生相关事件的讨论，从而影响内容安全，但根据现有技术，无法在事件发酵初期就对相关企业进行预警，且在这种情况下，系统给出的分析结果和风控策略往往过于简略，导致预警内容不够全面，风控效果不够理想。

目前，互联网内容风险预警主要是基于网络舆情数据、事件做的简单分析，在此情况下，产生的预警往往过于繁杂，得到的分析结果也往往过于简单，难以较为精准、有效地发现真正需要注意的问题，同时也对风控策略的制定产生难度。

发明内容

本发明目的是提供了一种互联网内容风险分析及预警方法，获取各规则所需要的风险要素数据，利用各规则进行风险计算评分，综合各规则的预警结果获得最终内容风控指数，基于知识图谱挖掘的企业与知识库事件案例的关联关系，利用标签传播算法定位风险传导企业，对企业进行风险预警。

一种互联网内容风险分析及预警方法，包括以下步骤：

步骤1）：采集来自互联网潜在风险内容以及风险内容的信息，对信息的事件主体和焦点实体进行提取，确定与风险内容相关联，建立知识图谱，对内容数据进行提取处理，构建基础知识库；

步骤2）：对基础知识库中的内容进行打标签，通过标签与对应企业进行关联；

步骤3）：针对潜在风险内容以及风险内容的舆论影响程度、敏感要素和舆论发展阶段，既定模块的维度进行计算分析评分，并根据评分与标签构建内容风险预警规则，在系统新增或更新事件案例时，利用内容风险预警规则对客户系统进行风险预警。

本发明通过互联网上的舆情事件、需要关注的重点案例、新发布的法律法规、行业政策及特殊节日时期等信息来构建知识图谱，分析目标知识图谱中的风控要点以及相关联的其他舆情事件，使得多个事件之间产生关系图谱，输出详实的分析结果，并及时根据风控建议进行较为准确有效的问题定位、风控策略部署，并以此知识图谱为基础，当平台系统中每产生新的事件案例或有重要更新动态时，都将对用户在系统中发送预警提醒，以达到更全面精准的内容风险提示效果。

步骤1）中，与风险内容相关联包括敏感要素关联、媒体舆论关联、风险布控关联（违规样本、运营策略、技术策略、应急与保障机制）、法律法规政策关联、行业治理参考关联、相关事件关联。

基础知识库中存储标准化的数据，包括提取的对应标准字段以及对应的取值范围。

步骤2）中，标签包括行业分类、事件分类和风控属性。

步骤3）中，既定模块的维度进行计算分析评分，具体包括：

3.1）将各风险要素进行去量纲化处理，总共有m个风险要素，m表示风险要素总数，j表示第j个风险要素，这些风险要素将会分入n个方案中，n表示方案数量，i表示第i个方案；

其中在第i个方案中，风险要素的数值分别是

，

分别代表第i个方案中

有m个风险要素的数值；

3.2）各风险要素数据标准化后的值分别为

，其中，Y表示对各风险要素数据标准化后的值，

对应第m个风险要素指标，那么由此公式为：

求各风险要素在各不同方案下的比值，

表示第j项风险要素在第i个方案中的指标值，

表示第j项风险要素在第i个方案中占该数据标准化后比值，然后通过下方公式：

表示第j项风险要素在第i个方案中占该风险要素的比重，是为了计算该风险要素的变异大小；

3.3）求各风险要素的信息熵，根据信息论中信息熵的定义，一组数据的信息熵为：

其中

≥0；若

=0，定义

=0；

其中，公式中的

表示第j项风险要素的信息熵；

确定各风险要素的权重，根据信息熵的计算公式，计算出各个风险要素的信息熵为E1，E2，…，Em；

3.4）通过信息熵计算各风险要素的权重：

这里k指的是风险要素个数，即k=m，W表示各风险要素的权重值，

表示第j项风险要素的权重值；

3.5）最后计算每个方案的综合风险指数

其中，

为第i个方案的综合风险指数，其中j表示第j项风险要素，也就是一个方案i中的所有风险要素经过计算得出的此方案模块的综合得分。

根据评分与标签构建内容风险预警规则，包括：

只有事件中的风险指数超过阈值时，才会触发预警；

预警系统只针对标签属性相同的企业进行对应的内容预警通知。

利用内容风险预警规则对客户系统进行风险预警，具体包括：

若综合风险指数超过设定的阈值，则触发预警条件，此时对企业信息进行轮询，找到匹配的企业进行预警推送。

进一步，本发明的互联网内容风险分析及预警方法包括如下步骤：

步骤1：采集事件信息，对信息的事件主体和焦点实体进行提取，确定与事件相关联的敏感要素等，对内容数据进行提取处理，构建基础知识库，同时采集针对此事件，相关企业机构的处理方法，存入策略数据库；

基础知识库中存储标准结构化的数据，包括提取内容对应的分类字段以及对应的取值范围；

步骤2：针对内容进行语义分析以及NLP处理，分析提取出关键词以及对应的标签，标签包括行业分类、事件分类和风控属性等，通过标签与对应企业进行关联，预警系统只针对标签属性相同的企业进行对应的内容预警通知；

步骤3：根据预先构建的知识图谱检索与此事件有关联的其他信息，从而将事件与其他内容联系起来，形成关系图谱；

步骤4：针对事件的舆论影响程度、敏感要素和舆论发展阶段等既定模块的维度进行评分，并根据评分与标签构建内容风险预警规则；

步骤5：在系统新增或更新事件案例时，利用内容风险预警规则对客户系统进行风险预警。

对系统中的企业数据进行批量处理，获取各规则所需要的风险要素数据，利用既定模块的维度进行计算分析评分，综合各规则的预警结果获得最终内容风控指数，基于知识图谱挖掘的企业与知识库事件案例的关联关系，利用标签传播算法定位风险传导企业，对企业进行风险预警。

与现有技术相比，本发明具有如下优点：

一、本发明针对不同事件案例进行二次分析以及持续更新，以提供更为准确详实的内容和风控策略，参考价值高，有助于让用户快速理解吸收内容风控要点，为本企业的风控部署提供帮助；

二、本发明通过对事件案例信息的模块化布局和利用知识图谱的关联信息技术，让信息结构化，方便浏览，能更为精准简洁的为客户提供内容预警；

三、本发明根据风险要素计算的权重结果进行预警判断，对需要预警的事件，风险指数超过设定预警阈值时，产生预警消息并推送，能够实时、有效、有针对性地对特殊风险进行预警。

附图说明

图1是本发明实施例提供的互联网内容风险分析及预警方法的流程示意图。

图2是本发明实施例提供的基于知识图谱的互联网内容风险预警系统的结构框图。

图3是本发明实施例提供的系统知识图谱的示意图。

具体实施方式

下面将结合附图和本发明的实例对本发明作进一步的描述说明。

本发明一种互联网内容风险分析及预警系统，通过目标事件涉及的对象及相关元素建立目标的知识图谱，分析目标的知识图谱中的匹配其他舆情事件、需要关注的重点案例、法律法规、行业政策及特殊节日时期等信息，使得分析结果更加深入、具体和形象，便于客户较为准确、有效地定位产品问题，同时经过系统分析后，还会向对应客户发送预警通知，以便于对应客户及时跟进、快速吸收信息、定位问题、精准布控和处理问题。

如图1所示，本发明实施例提供的一种互联网内容风险分析及预警方法，需要说明的是以下步骤仅仅是示意性的，并不作为执行先后的顺序的限定，包括以下步骤：

步骤S001：采集事件案例信息，对信息的事件内容数据进行提取处理，构建基础知识库；

步骤S002：根据内容进行打标签，标签包括行业分类、事件分类和风控属性等，通过标签与对应企业进行关联；

步骤S003：根据预先构建的知识图谱检索与此事件有关联的其他信息，从而将事件与其他内容联系起来，并获取企业所关注的行业信息，形成关系图谱；

步骤S004：针对事件的舆论影响程度、敏感要素和舆论发展阶段等既定模块的维度进行评分，并根据评分与标签构建内容风险预警规则；

步骤S005：在系统新增或更新事件案例时，利用内容风险预警规则对客户系统进行风险预警。

对于步骤S001：可以通过手工录入，或直接从各内容网站等渠道获取上述相关信息，然后提取出事件案例的标签类型，事件主题，事件内容，及舆论的焦点实体。

在一个优选的实施中，事件案例中的信息元素，可以包括新闻、公告、法律、行业政策和微博评论等，需要说明的是，事件案例中的元素是多样的并不局限于上述的五种来源；上述事件案例中的信息是需要进行提取处理的。

例如一资讯信息的资讯内容为：“某某电商公司6月1日因售卖带有违规图片印花的衣服被下架整改”，则这里的“某某公司”就是上述的事件实体元素。

对于如何找到焦点实体，可以采用现有的概率生成模型方法，对候选实体与实体指称项之间的相似性评分，从而根据评分进行语义消歧。通过现有的语义分析技术可以获取，在此不再赘述。

获取相应的经过提取的信息元素之后，就可以收录到系统知识库，根据对应关系形成知识图谱。

为了更加全面且准确地获取平台的风险事件，一个实施例中，在爬取数据之前，对事件的风险要素进行了分类，分别是：舆论阶段、媒体观点、网民观点、违规样本、应急与保障机制、行业类型、敏感关键词、法律法规、专项行动与关联事件。

当然，这个风险要素分类包括10种类别，是基于比较完善的方案而言的，是根据当前实施的具体用户需求，作为其他实施方式，可以选择其中的一种或多种风险要素构成风险要素分类模块，爬取网络信息数据时，基于该风险要素分类模块而进行爬取聚类，之后统一存入数据库中。

对于步骤S002：信息构建模块包括风险指数计算系统，首先从数据库中获取风险要素数据，并基于所述风险要素数据构建得到风险权重模型，并根据输入的待计算数据进行综合风险指数测算，输出风险指数。

风险要素数据用于构建风险权重模型所用，构建出风险权重模型后，即可输入待计算数据，此步骤可根据企业用户的需求不同，输入不同的初始化数据，进行综合风险指数测算，得到所述待计算数据对应的风险指数。

此处的权重模型是指用于进行综合风险指数测算的模型，而如前所述，针对每一类风险要素，都有相对应的测算权重结果，此权重模型则是融合了多种风险要素类型的综合模型，因此输出的风险指数是一个综合值。

根据内容进行分析聚类和关键词提取，对事件内容进行打标签，可以手工增删或修改标签，标签有不同类型，知识库中的内容也会根据标签建立联系。

企业也会被打标，标签就是联系事件与事件、事件与案例、事件与企业等等的关键元素。

对于步骤S003：在步骤S002的基础上，系统会依据知识图谱中的关键词匹配与语义分析技术对相似度高的内容进行关联，同时获取企业的标签关键词，系统内会根据这些关联关系形成关系图谱，如图3示意图。

对于如何通过标签建立关联关系，可以采用现有的知识图谱技术，通过语义分析和关键词提取，标记对应的标签并建立关联关系。通过现有的语义分析技术和知识图谱技术可以实现，在此不再赘述。

对于步骤S004：主要是对事件和知识图谱做各风险要素类型模块的权重计算，以及对事件进行深入分析，按照步骤S002中经过处理后的各风险要素进行权重计算，此步骤可以是人工录入初始值，之后经过公式计算出最终的风控指数得分，根据综合风险指数得分与标签构建内容风险预警规则，即当分数超过设定阀值且与对应企业标签相同时，发送预警的前提条件达成。

既定模块的维度进行评分采用公式计算：

在本实施例中，先将10个风险要素进行初始化赋值，由于不同风险要素在不同风险模块中的权重不同，则在本次实施例中列举三个模块进行计算，例如：

表示风险要素之一，而ABC分别表示每个风险要素在企业对应行业的权重、在官方媒体的权重和在应急公关模块的权重；

赋值标准按照100分制，风险权重越大，得分越高，将各风险要素进行去量纲化处理，具体如表1所示：

由于各风险要素的风险程度不同，因此要对10项要素进行赋权，以便能够更加合理的对各个风险要素的风险进行权重计算。

数据预处理：

根据上述原始评分表，对数据进行标准化后可以得到下列数据标准化表

所用公式：

10个风险要素权重指标得分表标准化表，具体表2所示：

接着计算第j个指标在第i个方案中所占比重，如表3所示：

求各风险要素的信息熵，如表4所示：

通过信息熵计算各风险要素的权重：

这里k指的是风险要素个数，即k=m；

可以得到各个风险要素的权重，如表5下所示：

最后计算每个模块的综合风险指数

各模块最终得分如表6所示：

在本次实施中，设定预警阈值为90，则B超过设定的阈值，触发预警条件。

对于步骤S005：是在知识图谱的基础上最终触发预警的最后步骤，在系统新增或更新事件案例时，通过获取内容与企业的对应关系与事件的综合风控指数，利用内容风险预警规则对相应的客户系统进行风险预警的推送。

预警系统的数据输入端与知识库的数据输出端连接，用于根据事件详情，在风险指数超过设定预警阈值时产生并发送预警消息，同时获取事件与企业的标签关联关系，确定预警消息的发送对象。预警推送可以采用短信、邮件、微信等一种或多种方式进行发送。

在具体实施例中，风险预警系统主要根据风险要素计算的权重结果进行预警判断，对需要预警的事件，例如风险指数超过设定预警阈值时，产生预警消息并推送。此处的风险指数超过设定的预警阈值可以包括两种情况，第一种情况是综合风险指数超过设定的预警阈值；第二种情况是某单类风险的风险要素的权重超过设定的对应权重预警阈值。例如，关于女权的舆论风险的风险权重超过设定的对应预警阈值，即使其他风险要素类型的权重值及综合风险指数没有超过对应的预警阈值，也会产生预警消息，以实现有针对性地对特殊风险进行预警。

如图2所示，基于知识图谱的互联网内容风险预警系统包括：信息获取模块、信息构建模块、内容分析模块以及预警发送模块。

信息获取模块是基于数据爬虫，爬取全网信息，获取事件的相关媒体内容与网友评论内容，获取的内容进入数据中台进行数据清洗整理后，输出给下一模块。

信息构建模块需要对获取的信息进行整理，通过数据聚类把信息分到不同分类下，通过语义分析技术把评论的正反语义进行区分以及主要观点提取，构建分类清晰的基础信息框架。

内容分析模块主要是对上一模块中经过清洗整理的数据进行NLP技术分析，以及同时把网络上针对此事件，其他企业机构进行应对的方法，进行标记处理并存储在策略数据库中，同时针对此事件的风险要素与语义分析主体，匹配策略数据库中的应对策略，输出风险指数，整合输出到知识库中。

预警发送模块需要根据内容分析模块中的风险指数是否超过阈值和是否有新风险策略更新，来确定是否对企业发送预警。

如图3所示，系统知识图谱包括事件主体、企业主体与相关事件元素，其中事件主体通过标签与企业建立关联，事件主体通过关键词、标签和内容关联算法与其他事件进行关联，由此形成事件与事件、事件与企业的关系图谱，用来更准确、更高效的对企业进行预警。

以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。