CN116451787B - 内容风险识别方法、装置、系统及设备 - Google Patents

内容风险识别方法、装置、系统及设备 Download PDF

Info

Publication number
CN116451787B
CN116451787B CN202310127372.XA CN202310127372A CN116451787B CN 116451787 B CN116451787 B CN 116451787B CN 202310127372 A CN202310127372 A CN 202310127372A CN 116451787 B CN116451787 B CN 116451787B
Authority
CN
China
Prior art keywords
risk
target
content
knowledge
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310127372.XA
Other languages
English (en)
Other versions
CN116451787A (zh
Inventor
黄龙涛
毛丁辉
肖鹏
薛晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202310127372.XA priority Critical patent/CN116451787B/zh
Publication of CN116451787A publication Critical patent/CN116451787A/zh
Application granted granted Critical
Publication of CN116451787B publication Critical patent/CN116451787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了内容风险识别方法、内容风险知识点构建及更新方法、内容风险识别语句生成方法。其中,内容风险识别方法通过将运营专家的内容风险识别知识通过特定领域语言形式进行表达,使得风险识别规则适用于符合知识点筛选条件的所有知识点,这样就无需在风险识别规则中对相关知识点进行枚举,只要为知识点设置属性信息,即可基于知识点的属性信息通过知识点筛选条件选取出适用于相关风险识别规则的知识点,由此可实现规则的快速迭代。同时,通过设置风险识别规则子句,并设置至少一个风险算子的目标风险要素值作为规则子句的构成要素,使得风险识别算法与风险识别规则相结合,这样即达到风险识别方式具有可解释性,又可利用风险算子提升泛化性。

Description

内容风险识别方法、装置、系统及设备
技术领域
本申请涉及数据处理技术领域,具体涉及内容风险识别方法、装置和系统,以及电子设备。
背景技术
随着互联网技术广泛应用于各个行业,每天生产内容的用户量已达到上亿级。海量的大数据积累,极大地丰富了人们的精神和物质生活,但互联网内容风险和隐患越来越突出。为了有效控制内容风险,可通过内容风险识别技术从海量数据中快速识别存在风险的内容。
目前,内容风险识别技术主要分为两类,一类是基于神经网络的方法,另一类是基于规则的方法。这两种方法有各自的优缺点,基于规则的方法擅长逻辑推理,具有很强的可解释性,但它对自然语言的多义性和变化性鲁棒性不强,对噪声数据的识别效果不佳;相反,神经网络具有很强的容错性,能够利用嵌入向量学习抽象语义,而不只是实体和关系之间的字面意义,但存在着鲁棒差、可解释差、更新慢的问题。
综上所述,如何弥补神经网络方法和规则方法之间的鸿沟,使得在保证高召回高准确的同时,能够快速迭代人工提供的先验知识,是亟需进行研究和攻关的问题。
发明内容
本申请提供内容风险识别方法,以解决现有技术存在的无法兼具算法模型的高泛化性和规则策略的高时效性的问题。本申请另外提供内容风险识别装置和系统,以及电子设备。
本申请提供一种内容风险知识点构建方法,包括:
配置风险点信息;
根据风险点配置信息,设置知识点关联的风险点信息;
根据知识点信息和知识点关联的风险点信息,生成内容风险知识点条目,将所述内容风险知识点条目存储到内容风险知识库。
本申请提供一种内容风险知识点更新方法,包括:
确定目标风险点;
获取所述目标风险点的知识点更新信息;
根据所述知识点更新信息,更新内容风险知识库。
可选的,还包括:
从内容风险知识库中获取与所述目标风险点关联的内容风险知识点条目;
展示所述内容风险知识点条目;
所述获取所述目标风险点的知识点更新信息,包括:
根据展示的内容风险知识点条目,确定所述知识点更新信息。
可选的,所述知识点更新信息包括新增知识点信息;所述根据所述知识点更新信息,更新内容风险知识库,包括:
根据新增知识点信息,生成所述目标风险点的新增内容风险知识点条目;
将所述新增内容风险知识点条目存储到内容风险知识库。
可选的,所述知识点更新信息包括删除知识点信息;所述根据所述知识点更新信息,更新内容风险知识库,包括:
根据删除知识点信息,删除内容风险知识库中的对应内容风险知识点条目。
可选的,所述知识点更新信息包括更新知识点信息;所述根据所述知识点更新信息,更新内容风险知识库,包括:
根据所述更新知识点信息,更新内容风险知识库中的对应内容风险知识点条目的知识点信息。
本申请提供一种内容风险识别语句生成方法,包括:
设置目标风险点的知识点筛选条件信息、与风险识别规则相关的至少一个风险算子对应的目标风险要素值;
根据所述知识点筛选条件信息,生成知识点筛选条件子句;
根据所述至少一个风险算子对应的目标风险要素值,生成风险识别规则子句;
根据所述知识点筛选条件子句和所述风险识别规则子句,生成目标风险点的风险定义脚本语句。
可选的,所述知识点筛选条件信息包括:知识点的目标风险属性信息和/或目标客观属性信息。
可选的,还包括:
获取多个风险算子信息;
设置与风险识别规则相关的至少一个风险算子对应的目标风险要素值,包括:
根据所述多个风险算子信息,设置与风险识别规则相关的至少一个风险算子、与所述风险算子对应的目标风险要素值。
本申请提供一种内容风险识别方法,包括:
获取目标内容;
获取目标风险点的风险定义脚本语句,所述脚本语句包括知识点筛选条件子句和风险识别规则子句,所述规则子句的构成要素包括至少一个风险算子对应的目标风险要素值;
根据所述条件子句,获取与所述目标风险点对应的目标知识点集合;
通过所述至少一个风险算子,根据所述目标内容和所述目标知识点集合,获取对应的风险要素值;
根据所述至少一个风险算子对应的风险要素值和目标风险要素值,确定所述目标内容是否具有所述目标风险点。
可选的,所述知识点的属性信息包括:风险属性信息和/或客观属性信息;
所述条件子句包括:所述风险属性信息为目标风险属性信息,和/或所述客观属性信息为目标客观属性信息;
所述根据所述条件子句,获取与所述目标风险点对应的目标知识点集合,包括:
获取所述风险属性信息为所述目标风险属性信息、和/或所述客观属性信息为所述目标客观属性信息的知识点,形成所述目标知识点集合。
可选的,所述至少一个风险算子包括知识点提及方式算子,所述知识点提及方式算子,用于根据所述目标知识点集合和所述目标内容,获取所述目标内容对所述目标知识点的提及方式信息,作为与所述知识点提及方式算子对应的风险要素值。
可选的,所述知识点提及方式算子对应的目标风险要素值包括:不当提及,攻击,或者负面提及;
所述根据所述至少一个风险算子对应的风险要素值和目标风险要素值,确定所述目标内容是否具有所述目标风险点,包括:
若所述提及方式信息为所述不当提及,攻击,或者负面提及,则判定所述目标内容具有所述目标风险点。
可选的,所述至少一个风险算子还包括:内容特征算子;
所述内容特征算子对应的目标风险要素值为目标内容特征信息;
所述通过所述至少一个风险算子,根据所述目标内容,或者根据所述目标内容和所述目标知识点集合,获取对应的风险要素值,包括:
通过所述内容特征算子,根据所述目标内容,获取所述目标内容的内容特征信息;
所述根据所述至少一个风险算子对应的风险要素值和目标风险要素值,确定所述目标内容是否具有所述目标风险点,包括:
若所述提及方式信息为提及、且所述内容特征信息为对应的目标内容特征信息,则判定所述目标内容具有所述目标风险点。
可选的,所述目标风险点包括多个并列关系的所述风险定义脚本语句;
若任意一个所述风险定义脚本语句的结果为所述目标内容具有所述目标风险点,则所述目标内容具有所述目标风险点。
可选的,还包括:
通过机器学习算法,从训练数据中学习得到所述风险算子。
可选的,还包括:
从多个风险点中选取所述目标风险点。
可选的,所述从多个风险点中选取所述目标风险点,包括:
针对所述多个风险点中的各风险点,根据与所述风险点对应的所述条件子句,获取与所述风险点对应的知识点集合;
若所述目标内容包括所述知识点集合中的知识点,则将所述风险点作为所述目标风险点。
可选的,所述风险定义脚本语句还包括:内容类型子句;
所述内容类型包括:文本类,图片类,视频类,音频类;
所述从多个风险点中选取所述目标风险点,包括:
针对所述多个风险点中的各风险点,若所述目标内容的内容类型为与所述风险点对应的内容类型,则将所述风险点作为所述目标风险点。
本申请提供一种风险点选取方法,包括:
获取目标内容;
获取多个风险点的风险定义脚本语句,所述脚本语句包括知识点筛选条件子句和风险识别规则子句,所述规则子句的构成要素包括至少一个风险算子对应的目标风险要素值;
根据与所述风险点对应的所述条件子句,获取与所述风险点对应的知识点集合;
若所述目标内容包括所述知识点集合中的知识点,则将所述风险点作为与所述目标内容相关的目标风险点。
本申请提供一种内容风险识别装置,包括:
目标内容获取单元,用于获取目标内容;
风险定义脚本语句获取单元,用于获取目标风险点的风险定义脚本语句,所述脚本语句包括知识点筛选条件子句和风险识别规则子句,所述规则子句的构成要素包括至少一个风险算子对应的目标风险要素值;
知识点筛选单元,用于根据所述条件子句,获取与所述目标风险点对应的目标知识点集合;
风险算子单元,用于通过所述至少一个风险算子,根据所述目标内容和所述目标知识点集合,获取对应的风险要素值;
判断单元,用于根据所述至少一个风险算子对应的风险要素值和目标风险要素值,确定所述目标内容是否具有所述目标风险点。
本申请提供一种内容风险识别语句生成装置,包括:
设置单元,用于设置目标风险点的知识点筛选条件信息、与风险识别规则相关的至少一个风险算子对应的目标风险要素值;
条件子句生成单元,用于根据所述知识点筛选条件信息,生成知识点筛选条件子句;
规则子句生成单元,用于根据所述至少一个风险算子对应的目标风险要素值,生成风险识别规则子句;
脚本语句生成单元,用于根据所述知识点筛选条件子句和所述风险识别规则子句,生成目标风险点的风险定义脚本语句。
本申请提供一种内容风险识别系统,包括:
根据上述内容风险识别语句生成装置,以及,根据上述内容风险识别装置。
本申请提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现上述任一项所述的方法的程序,该设备通电并通过所述处理器运行该方法的程序。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的内容风险知识点构建方法,通过配置风险点信息;根据风险点配置信息,设置知识点关联的风险点信息;根据知识点信息和知识点关联的风险点信息,生成内容风险知识点条目,将所述内容风险知识点条目存储到内容风险知识库。采用这种处理方式,使得通过构建风险知识库,可以将内容风险控制领域知识进行体系化建模,实现结构化表示和存储,从而实现知识的沉淀和转移,可实现自动化知识构建,提升人工创建知识的效率。
本申请实施例提供的内容风险知识点更新方法,通过确定目标风险点;获取所述目标风险点的知识点更新信息;根据所述知识点更新信息,更新内容风险知识库。采用这种处理方式,使得自动化更新内容风险知识,提升人工更新知识的效率。
本申请实施例提供的内容风险识别方法,通过设置目标风险点的知识点筛选条件信息、与风险识别规则相关的至少一个风险算子对应的目标风险要素值;根据所述知识点筛选条件信息,生成知识点筛选条件子句;根据所述至少一个风险算子对应的目标风险要素值,生成风险识别规则子句;根据所述知识点筛选条件子句和所述风险识别规则子句,生成目标风险点的风险定义脚本语句。采用这种处理方式,使得基于面向内容风险域的领域特定语言(DSL,风险定义脚本语言),支持对风险防控标准的描述,运营专家通过定义DSL及更新知识,可以实现对内容风险识别能力的更新升级,更新过程可以实现分钟级时效。
本申请实施例提供的内容风险识别方法,通过将运营专家的内容风险识别知识通过特定领域语言形式进行表达,使得风险识别规则适用于符合知识点筛选条件的所有知识点,这样就无需在风险识别规则中对相关知识点进行枚举,只要为知识点设置属性信息(如风险属性信息、基本属性信息等),即可基于知识点的属性信息通过知识点筛选条件选取出适用于相关风险识别规则的知识点,由此可实现规则的快速迭代。同时,通过设置风险识别规则子句,并设置至少一个风险算子的目标风险要素值作为规则子句的构成要素,使得风险识别算法(风险算子)与风险识别规则相结合,这样即可达到风险识别方式具有可解释性,又可利用算法(风险算子)提升泛化性。综上所述,本申请实施例提供的方法,通过采用数据和知识双驱动的内容风险识别方式,将专家知识快速转化为算法能力,可以有效兼具算法模型的高泛化性和规则策略的高时效性。
附图说明
图1本申请提供的内容风险识别方法的实施例的流程示意图;
图2本申请提供的内容风险识别方法的实施例的场景示意图;
图3本申请提供的内容风险识别方法的实施例的DSL配置界面示意图;
图4本申请提供的内容风险识别方法的实施例的具体流程示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了内容风险识别方法、装置和系统,以及电子设备。下面在各实施例中逐一对各种方案进行详细说明。
第一实施例
请参考图1,其为本申请的内容风险识别方法的流程图。在本实施例中,所述方法可包括如下步骤:
步骤S101:获取目标内容。
目标内容是待识别风险的内容。如图2所示,运营人员可通过客户端为目标风险点设置风险定义信息,包括知识点筛选条件和至少一个风险算子对应的目标风险要素值;客户端将风险定义信息上传至服务端,服务端根据接收到的风险定义信息生成风险定义脚本语句。服务端获取目标内容,如文本内容、图片内容、视频内容、音频内容等,根据目标风险点的风险定义脚本语句,判断目标内容是否具有目标风险点。如果目标内容具有目标风险点,则可对目标内容进行风险控制,如敏感词过滤、违规图片处理、违规视频过滤、违规音频过滤等。
本申请实施例提供的方法可应用于各个行业,如社交平台、贴吧论坛、电商平台、游戏应用、直播平台等。这类平台内容量大,包括用户资料、私信聊天、商品资料、发帖回帖、留言评论、字幕弹幕、直播视频、语音聊天等场景,涉政敏感、广告、灌水、谩骂等违规信息较多。
例如,目标内容为社交平台上的信息,如“算是洗白XXX吗?这么看来,XXX也不是什么好人。对比全部有贡献的人,其实XXX并没有做很大的贡献,死的有点亏。XXX死了,还害死了XXX。”,该内容包括歪曲有贡献的人的违规内容。
再例如,目标内容为直播平台上的信息,如“XX先生、XXX人物是信仰!真的真的太喜欢XXX先生了。XXX的死最大罪人是XXX。恰恰有了这些“傻瓜”,所以国家越来越强大!XXX、XXX等有贡献的人…这就是那个年代的悲剧!XXX只是先XXX他们一步!骂XX的你们傻吧。”,该内容正常,没有风险。
目标内容的形式可以是文本、图片、视频、音频等。对于图片形式的目标内容,可通过文字识别技术(OCR)识别出图片中的文字内容;对于音频或者视频形式的目标内容,可通过语音识别技术将语音转换为文字内容;对于视频形式的目标内容,还可通过字幕识别技术获取视频画面中的字幕内容。
步骤S103:获取目标风险点的风险定义脚本语句。
本申请实施例提供的方法,将运营专家的内容风险识别知识通过内容风险识别领域特定语言(DSL,风险定义脚本语言)形式进行表示,将采用DSL语言表示的内容风险识别知识称为风险定义脚本语句。
领域特定语言指的是专注于某个应用程序领域的计算机语言,又称为领域专用语言。不同于普通的跨领域通用计算机语言(GPL,如Objective-C、JAVA等),领域特定语言并不是真正的编程语言,其只用在某些特定的领域,如HTML是DSL的一个典型,它是在Web应用上使用的语言,再比如用于数据处理的SQL语言、用于建模的UML语言、用于数值计算和模拟的MATLAB语言等。
在实施例中,内容风险识别领域特定语言是用于描述内容风险定义的内容风险识别领域的特定语言。领域特定语言可以采用一阶逻辑,也叫一阶谓词演算,允许量化陈述的公式,是一种形式系统。风险定义脚本语句的结构至少包括以下两个子句:
(一)知识点筛选条件子句
知识点筛选条件子句用于规定知识点选择的标准,简称为条件子句。条件子句的关键词可以是“WHERE”或者其它关键词。例如,条件子句为WHERE{a:侮辱X国},表示从知识库中选取带有“侮辱X国”标签的知识点,并将选取的知识点存储在知识点集合a中。
条件子句可以是简单的查询子句,如WHERE{a:侮辱X国}只包括一个查询条件。条件子句还可以是复杂的条件子句,以层层递进的方式查询符合条件的知识点。例如,条件子句为:WHERE{a:^代表作品b,b:传播某事件次要人物相关信息&人物类},表示先选取带有标签“传播某事件次要人物相关信息”和“人物类”的知识点,形成知识点集合b;再对集合b中的人物选取其代表作品,形成知识点集合a。
具体实施时,条件子句可包括知识点属性名和知识点属性值,还可包括运算符,如下表1所示:
操作符 描述
等于
<> 不等于
> 大于
< 小于
>= 大于等于
<= 小于等于
BETWEEN 在某个范围内
LIKE 搜索某种模式
表1、在条件子句中使用的运算符
在条件子句中,可根据知识点属性名、知识点属性值和运算符设置知识点筛选条件,如条件子句为:WHERE{a:^代表作品After(1990)b,b:传播某事件次要人物相关信息&人物类},表示先选取带有标签“传播某事件次要人物相关信息”和“人物类”的知识点,形成知识点集合b;再对集合b中的人物选取其在1990年后出版的代表作品,形成知识点集合a。
在一个示例中,用户可通过客户端为目标风险点设置知识点筛选条件,如图3所示,用户可从多个风险类型中选取目标风险类型,客户端将用户设置的知识点筛选条件上传至服务端,由服务端根据用户设置的知识点筛选条件生成对应的条件子句。如图4所示,具体实施时,客户端可基于风险知识库的内容,显示知识点的多维度属性的可选属性值,用户可对感兴趣的属性设置目标属性值。
本申请实施例提供的方法,通过设置知识点筛选条件子句,使得风险识别规则适用于符合知识点筛选条件的所有知识点,这样就无需在风险识别规则中对相关知识点进行枚举,只要为知识点设置属性信息(如风险属性信息、基本属性信息等),即可基于知识点的属性信息通过知识点筛选条件选取出适用于相关风险识别规则的知识点,由此可实现规则的快速迭代。
(二)风险识别规则子句
风险识别规则子句用于规定基于通过上述条件子句获得的知识点集合对目标内容进行风险识别处理的方式。风险识别规则由一个或者多个风险要素构成,如内容对知识点的提及方式要素、内容的文本风格要素和文本情感要素等。在本实施例中,每个风险要素对应一个算子,称为风险算子。所述规则子句包括至少一个风险算子对应的目标风险要素值,使得将风险识别规则与风险识别算法相结合。如果所述规则子句中的各风险算子输出的目标内容的风险要素值与目标风险要素值相同,则表示目标内容具有该目标风险要素,当目标内容具备各风险算子对应的目标风险要素时,表示目标内容满足风险识别规则,目标内容存在对应的风险点。规则子句的关键词可以是“er:”等。
所述至少一个风险算子可包括知识点提及方式算子,该算子的输入数据为通过条件子句获得的知识点集合和目标内容,该算子的输出数据为目标内容对知识点集合的提及方式信息,提及方式可以是提及、不当提及、攻击、负面提及等。例如,规则子句“er:不当提及a”的含义为:风险识别规则包括风险要素“内容对知识点的提及方式为不当提及”,如果通过知识点提及方式算子,根据所述目标内容和目标知识点集合a,获取到目标内容对该知识点集合的提及方式信息为“不当提及”,则可判定目标内容具有风险要素“内容对知识点的提及方式为不当提及”,从而判定目标内容具有为对应的风险点。
除了知识点提及方式算子以外,所述至少一个风险算子还可包括只与目标内容有关,而与知识点无关的算子,如“文本情感”算子、“文本风格”算子、“反事实”算子、“营销宣传”算子、“极端吹捧”算子、“歧视文本”、“恶搞”算子等。其中,“文本情感”算子的输入数据为目标内容,输出数据为负向情感或者正向情感。“文本风格”算子的输入数据为目标内容,输出数据为“清新”、“凝练”、“含蓄”等。例如,规则子句“er:提及a文本情感(X,负向)”的含义为:风险识别规则包括风险要素“内容对知识点的提及方式为不当提及”和“内容情感为负向”,如果通过知识点提及方式算子,根据所述目标内容和目标知识点集合a,获取到目标内容对该知识点集合的提及方式信息为“提及”,且通过文本情感算子,根据所述目标内容,获取到目标内容的情感为“负向”,则可判定目标内容具有风险要素“内容对知识点的提及方式为提及”和“内容情感为负向”,从而判定目标内容具有为对应的风险点。
具体实施时,目标风险点可以包括风险定义脚本语句,不同脚本语句之间为并列关系,即:如果目标内容符合其中任意一个脚本语句的风险识别规则,则目标内容具有目标风险点。其中,不同脚本语句的条件子句可以相同或者不同。
具体实施时,目标风险点也可以只包括一条风险定义脚本语句,该脚本语句可包括一个条件子句和多个并列关系的规则子句,多个规则子句适用于通过该条件子句获取的同一目标知识点集合。
在一个示例中,用户可通过客户端为目标风险点设置至少一个风险算子,以及设置对应的目标风险要素值。如图3所示,用户可从风险算子的多个可选风险要素值中选取目标风险要素值,客户端将用户设置的风险算子及对应的目标风险要素值上传至服务端,由服务端根据用户设置的风险要素信息生成对应的规则子句。如图4所示,具体实施时,客户端可基于多个风险算子(如文本风格、反事实、营销宣传等),显示多个风险算子的多个可选要素值,用户可选择风险算子,并为风险算子设置目标风险要素值。
本申请实施例提供的方法,通过设置风险识别规则子句,并设置至少一个风险算子的目标风险要素值作为规则子句的构成要素,使得风险识别算法(风险算子)与风险识别规则相结合,这样即可达到风险识别方式具有可解释性,又可利用算法(风险算子)提升泛化性。
具体实施时,风险定义脚本语句的结构还可包括如下子句:
(三)内容类型子句
内容类型子句用于规定风险定义适用的内容类型,内容类型子句的关键词可以是“:-”,如“:-[文本内容]”的含义为:内容类型是文本内容。
具体实施时,内容风险定义语言可以是外部DSL,也可以是内部DSL,还可以是语言工作台。外部DSL是指不同于应用系统(如内容风险识别系统)主要使用语言的语言(如Java等),而是采用自定义语法,宿主应用(如内容风险识别系统)的代码采用文本解析技术对外部DSL编写的脚本进行解析。内部DSL是指通用语言的特定语法,用内部DSL写成的脚本是一段合法的程序,但是它具有特定的风格,而且仅仅用到了语言的一部分特性。语言工作台是一种专用的集成开发环境(IDE),用于定义和构建DSL,具体的讲,语言工作台不仅用来确定DSL的语言结构,而且是编写DSL脚本的编辑环境,最终的脚本将编辑环境和语言本身紧密的结合在一起。
在一个示例中,内容类型子句的关键词可以是“:-”,规则子句的关键词可以是“er:”,条件子句的关键词可以是“WHERE”。表2列举了本实施例中的风险识别脚本语句。
表2、风险定义脚本语句
如图3所示,系统在DSL配置界面中以下拉列表的方式显示多个内容类型(包括文本内容、图片内容、音频内容、视频内容等)、多个知识点提及方式(如不当提及、攻击、负面提及等)、多个风险类型(如侮辱X国、涉黄、广告、灌水等)。用户可根据显示的选项来设置风险识别脚本语句的三方面信息:内容类型、知识点筛选条件、与风险算子对应的目标风险要素值。对于图3中设置的信息,DSL配置归纳为上述表2中的风险点“侮辱X国”的三个脚本语句。由上述语句可以看出,本实施例基于一阶逻辑对风险进行定义,对风险的判定以逻辑描述来组合知识图谱中的实体与风险算子之间的关系。
步骤S105:根据所述条件子句,获取与所述目标风险点对应的目标知识点集合。
本步骤通过执行所述条件子句,获取与所述目标风险点对应的目标知识点集合。具体实施时,可先通过DSL解析器对脚本语句进行解析,从中获得条件子句;然后,可根据条件子句生成知识库查询代码,如根据知识点筛选条件生成SQL语句,通过执行SQL语句获取所述目标知识点集合。
风险知识库是构建内容风控的领域知识库,存储风险域中的知识实体及其之间的关系。
表3给出了本实施例中的知识库内容。
表3、风险知识库
在一个示例中,所述知识点的属性信息包括:风险属性信息;所述条件子句包括:所述风险属性信息为目标风险属性信息;步骤S105可采用如下方式实现:获取所述风险属性信息为所述目标风险属性信息的知识点,形成所述目标知识点集合。
在一个示例中,所述知识点的属性信息包括:客观属性信息;所述条件子句包括:所述客观属性信息为目标客观属性信息;步骤S105可采用如下方式实现:获取所述客观属性信息为所述目标客观属性信息的知识点,形成所述目标知识点集合。
在一个示例中,所述知识点的属性信息包括:风险属性信息和客观属性信息;所述条件子句包括:所述风险属性信息为目标风险属性信息,且所述客观属性信息为目标客观属性信息;步骤S105可采用如下方式实现:获取所述风险属性信息为所述目标风险属性信息、所述客观属性信息为所述目标客观属性信息的知识点,形成所述目标知识点集合。
步骤S107:通过所述至少一个风险算子,根据所述目标内容,或者根据所述目标内容和所述目标知识点集合,获取对应的风险要素值。
本步骤通过调用所述规则子句包括的各风险算子,根据所述目标内容,或者根据所述目标内容和所述目标知识点集合,获取与各风险算子对应的风险要素值。其中,通过所述知识点提及方式算子,根据所述目标知识点集合和所述目标内容,获取所述目标内容对所述目标知识点的提及方式信息,作为与所述知识点提及方式算子对应的风险要素值。
具体实施时,可先通过DSL解析器对脚本语句进行解析,从中获得规则子句;然后,可根据规则子句生成算子调用代码,算子调用代码可采用宿主应用的语言进行编写,如采用Java语言编写算子调用代码。
风险算子的输入数据可以是目标内容,也可以是目标内容和目标知识点集合。本实施例将风险算子的输出数据称为风险要素值。风险算子可以是采用机器学习算法从训练数据中学习得到的算子。具体实施时,可采用神经网络学习算法训练得到神经算子,也可以采用决策树等算法学习得到决策树算子。
由于风险定义脚本语句既包括知识点筛选条件信息,又包括风险算子的目标风险要素值,且风险算子的输入数据可包括根据知识点筛选条件筛选出的知识点集合,风险算子又是从训练数据中学习得到,因此本实施例提供的风险识别方式采用的是数据和知识双驱动的内容风险识别方式,能够高效地将专家知识转化为算法能力,可以有效兼具算法模型的高泛化性和规则策略的高时效性。
步骤S109:根据所述至少一个风险算子对应的风险要素值和目标风险要素值,确定所述目标内容是否具有所述目标风险点。
本步骤将各风险算子对应的风险要素值和目标风险要素值进行比对,如果比对结果是相同,则判定目标内容具有相应的目标风险要素,如果所有风险算子对应的风险要素值和目标风险要素值的比对结果均为相同,则判定所述目标内容具有所述目标风险点。
在一个示例中,所述至少一个风险算子只包括所述知识点提及方式算子,所述知识点提及方式算子对应的目标风险要素值包括:不当提及,攻击,或者负面提及;步骤S109可采用如下方式实现:若所述提及方式信息为所述不当提及,攻击,或者负面提及,则判定所述目标内容具有所述目标风险点。
在一个示例中,所述至少一个风险算子还包括:内容特征算子;所述内容特征算子对应的目标风险要素值为目标内容特征信息;所述方法还可包括如下步骤:通过所述内容特征算子,根据所述目标内容,获取所述目标内容的内容特征信息;步骤S109可采用如下方式实现:若所述提及方式信息为提及、且所述内容特征信息为对应的目标内容特征信息,则判定所述目标内容具有所述目标风险点。
在一个示例中,所述目标风险点包括多个并列关系的所述风险定义脚本语句;若任意一个所述风险定义脚本语句的结果为所述目标内容具有所述目标风险点,则所述目标内容具有所述目标风险点。采用这种处理方式,使得可采用多种方式确定同一风险点,因此可以有效提升内容风险召回率。
在一个示例中,所述方法还可包括如下步骤:从多个风险点中选取所述目标风险点。采用这种处理方式,可以过滤掉与目标内容无关的风险点,有效减少风险识别量,从而提升风险识别效率。
具体实施时,所述从多个风险点中选取所述目标风险点,包括:针对所述多个风险点中的各风险点,根据与所述风险点对应的所述条件子句,获取与所述风险点对应的知识点集合;若所述目标内容是否包括所述知识点集合中的知识点,则将所述风险点作为所述目标风险点。采用这种处理方式,可以过滤掉基于知识点筛选条件选取的知识点未出现在目标内容中的风险点。
具体实施时,所述风险定义脚本语句还包括:内容类型子句;所述内容类型包括:文本类,图片类,视频类,音频类;所述从多个风险点中选取所述目标风险点,包括:针对所述多个风险点中的各风险点,若所述目标内容的内容类型为与所述风险点对应的内容类型,则将所述风险点作为所述目标风险点。采用这种处理方式,可以过滤掉内容类型与目标内容的内容类型不符的风险点。
从上述实施例可见,本申请实施例提供的内容风险识别方法,通过将运营专家的内容风险识别知识通过特定领域语言形式进行表达,使得风险识别规则适用于符合知识点筛选条件的所有知识点,这样就无需在风险识别规则中对相关知识点进行枚举,只要为知识点设置属性信息(如风险属性信息、基本属性信息等),即可基于知识点的属性信息通过知识点筛选条件选取出适用于相关风险识别规则的知识点,由此可实现规则的快速迭代。同时,通过设置风险识别规则子句,并设置至少一个风险算子的目标风险要素值作为规则子句的构成要素,使得风险识别算法(风险算子)与风险识别规则相结合,这样即可达到风险识别方式具有可解释性,又可利用算法(风险算子)提升泛化性。综上所述,本申请实施例提供的方法,通过采用数据和知识双驱动的内容风险识别方式,将专家知识快速转化为算法能力,可以有效兼具算法模型的高泛化性和规则策略的高时效性。
第二实施例
在上述的实施例中,提供了一种内容风险识别方法,与之相对应的,本申请还提供一种内容风险识别装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种内容风险识别装置,包括:
目标内容获取单元,用于获取目标内容;
风险定义脚本语句获取单元,用于获取目标风险点的风险定义脚本语句,所述脚本语句包括知识点筛选条件子句和风险识别规则子句,所述规则子句的构成要素包括至少一个风险算子对应的目标风险要素值;
知识点筛选单元,用于根据所述条件子句,获取与所述目标风险点对应的目标知识点集合;
风险算子单元,用于通过所述至少一个风险算子,根据所述目标内容,或者根据所述目标内容和所述目标知识点集合,获取对应的风险要素值;
判断单元,用于根据所述至少一个风险算子对应的风险要素值和目标风险要素值,确定所述目标内容是否具有所述目标风险点。
在一个示例中,所述知识点的属性信息包括:风险属性信息和/或客观属性信息;所述条件子句包括:所述风险属性信息为目标风险属性信息,和/或所述客观属性信息为目标客观属性信息;所述知识点筛选单元,具体用于获取所述风险属性信息为所述目标风险属性信息、和/或所述客观属性信息为所述目标客观属性信息的知识点,形成所述目标知识点集合。
在一个示例中,所述知识点提及方式算子对应的目标风险要素值包括:不当提及,攻击,或者负面提及;所述判断单元,具体用于若所述提及方式信息为所述不当提及,攻击,或者负面提及,则判定所述目标内容具有所述目标风险点。
在一个示例中,所述至少一个风险算子还包括:内容特征算子;所述内容特征算子对应的目标风险要素值为目标内容特征信息;所述风险算子单元,用于通过所述内容特征算子,根据所述目标内容,获取所述目标内容的内容特征信息;所述判断单元,具体用于若所述提及方式信息为提及、且所述内容特征信息为对应的目标内容特征信息,则判定所述目标内容具有所述目标风险点。
在一个示例中,所述目标风险点包括多个并列关系的所述风险定义脚本语句;若任意一个所述风险定义脚本语句的结果为所述目标内容具有所述目标风险点,则所述目标内容具有所述目标风险点。
在一个示例中,所述装置还包括:算子生成单元,用于通过机器学习算法,从训练数据中学习得到所述风险算子。
在一个示例中,所述装置还包括:风险点选取单元,用于从多个风险点中选取所述目标风险点。
在一个示例中,风险点选取单元,具体用于针对所述多个风险点中的各风险点,根据与所述风险点对应的所述条件子句,获取与所述风险点对应的知识点集合;若所述目标内容是否包括所述知识点集合中的知识点,则将所述风险点作为所述目标风险点。
在一个示例中,所述风险定义脚本语句还包括:内容类型子句;所述内容类型包括:文本类,图片类,视频类,音频类;风险点选取单元,具体用于针对所述多个风险点中的各风险点,若所述目标内容的内容类型为与所述风险点对应的内容类型,则将所述风险点作为所述目标风险点。
第三实施例
在上述的实施例中,提供了一种内容风险识别方法,与之相对应的,本申请还提供一种内容风险识别语句生成方法,用于客户端。该方法是与上述方法的实施例相对应,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
本实施例的内容风险识别语句生成方法,包括如下步骤:
步骤S501:设置目标风险点的知识点筛选条件信息、与风险识别规则相关的至少一个风险算子对应的目标风险要素值。
所述至少一个风险算子可包括知识点提及方式算子。所述知识点筛选条件信息可包括知识点的目标风险属性信息,还可包括目标客观属性信息,或者同时包括知识点的目标风险属性信息和目标客观属性信息。
步骤S503:根据所述知识点筛选条件信息,生成知识点筛选条件子句。
步骤S505:根据所述至少一个风险算子对应的目标风险要素值,生成风险识别规则子句。
在一个示例中,用户可通过客户端为目标风险点设置知识点筛选条件,如图3所示,用户可从多个风险类型中选取目标风险类型,客户端将用户设置的知识点筛选条件上传至服务端,由服务端根据用户设置的知识点筛选条件生成对应的条件子句。如图4所示,具体实施时,客户端可基于风险知识库的内容,显示知识点的多维度属性的可选属性值,用户可对感兴趣的属性设置目标属性值。
在一个示例中,用户可通过客户端为目标风险点设置至少一个风险算子,以及设置对应的目标风险要素值。如图3所示,用户可从风险算子的多个可选风险要素值中选取目标风险要素值,客户端将用户设置的风险算子及对应的目标风险要素值上传至服务端,由服务端根据用户设置的风险要素信息生成对应的规则子句。如图4所示,具体实施时,客户端可基于多个风险算子(如文本风格、反事实、营销宣传等),显示多个风险算子的多个可选要素值,用户可选择风险算子,并为风险算子设置目标风险要素值。
步骤S507:根据所述知识点筛选条件子句和所述风险识别规则子句,生成目标风险点的风险定义脚本语句。
具体实施时,风险定义脚本语句的结构还可包括如下子句:内容类型子句;所述方法还可包括如下步骤:设置内容类型,如文本类型、图片类型、视频类型、音频类型等。
如图3所示,系统在DSL配置界面中以下拉列表的方式显示多个内容类型(包括文本内容、图片内容、音频内容、视频内容等)、多个知识点提及方式(如不当提及、攻击、负面提及等)、多个风险类型(如侮辱X国、涉黄、广告、灌水等)。用户可根据显示的选项来设置风险识别脚本语句的三方面信息:内容类型、知识点筛选条件、与风险算子对应的目标风险要素值。对于图3中设置的信息,DSL配置归纳为上述表2中的风险点“侮辱X国”的三个脚本语句。由上述语句可以看出,本实施例基于一阶逻辑对风险进行定义,对风险的判定以逻辑描述来组合知识图谱中的实体与风险算子之间的关系。
在一个示例中,所述方法还可包括:获取多个风险算子信息;设置与风险识别规则相关的至少一个风险算子对应的目标风险要素值,包括:根据所述多个风险算子信息,设置与风险识别规则相关的至少一个风险算子、与所述风险算子对应的目标风险要素值。例如,向用户展示多个风险算子信息(可包括算子名,算子输出数据的种类),用户从中选取与当前设置的风险识别规则相关的风险算子,并指定算子输出的目标数据,作为目标风险要素值。
本申请实施例提供的内容风险配置方法,通过设置知识点筛选条件,并生成对应的条件子句,使得风险识别规则适用于符合知识点筛选条件的所有知识点,这样就无需在风险识别规则中对相关知识点进行枚举,只要为知识点设置属性信息(如风险属性信息、基本属性信息等),即可基于知识点的属性信息通过知识点筛选条件选取出适用于相关风险识别规则的知识点,由此可实现规则的快速迭代。本申请实施例提供的方法,通过设置至少一个风险算子的目标风险要素值,并将其作为风险识别规则子句的构成要素,使得风险识别算法(风险算子)与风险识别规则相结合,这样即可达到风险识别方式具有可解释性,又可利用算法(风险算子)提升泛化性。
第四实施例
在上述的实施例中,提供了一种内容风险识别方法,与之相对应的,本申请还提供一种内容风险识别装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的内容风险识别装置,包括:
设置单元,用于设置目标风险点的知识点筛选条件信息、与风险识别规则相关的至少一个风险算子对应的目标风险要素值;
条件子句生成单元,用于根据所述知识点筛选条件信息,生成知识点筛选条件子句;
规则子句生成单元,用于根据所述至少一个风险算子对应的目标风险要素值,生成风险识别规则子句;
脚本语句生成单元,用于根据所述知识点筛选条件子句和所述风险识别规则子句,生成目标风险点的风险定义脚本语句。
第五实施例
在上述的实施例中,提供了一种内容风险识别方法,与之相对应的,本申请还提供一种内容风险识别系统。该系统是与上述方法的实施例相对应。由于系统实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。
本实施例的内容风险识别系统,包括:实施例四的内容风险配置装置,以及,实施例二的内容风险识别装置。内容风险配置装置和内容风险识别装置的具体实施方案请见上述实施例的相关说明,此处不再赘述。
所述目标内容可以是文本内容,所述内容风险识别系统可识别出文本内容中存在的风险点,进而可通过内容风险控制系统对敏感词进行过滤等处理。
所述目标内容可以是图片内容,所述内容风险识别系统可识别出图片中存在的违规内容,进而可通过内容风险控制系统对违规图片进行处理。
所述目标内容可以是视频内容,所述内容风险识别系统可识别出视频中存在的违规内容,进而可通过内容风险控制系统对违规视频进行过滤等处理。
所述目标内容可以是音频内容,所述内容风险识别系统可识别出音频中存在的违规内容,进而可通过内容风险控制系统对违规音频进行过滤等处理。
第六实施例
在上述的实施例中,提供了一种内容风险识别方法,与之相对应的,本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的电子设备,包括:存储器和处理器;存储器,用于存储实现内容风险识别方法的程序,该设备通电并通过所述处理器运行上述内容风险识别方法的程序。
所述内容风险识别方法可包括如下步骤:获取目标内容;获取目标风险点的风险定义脚本语句,所述脚本语句包括知识点筛选条件子句和风险识别规则子句,所述规则子句的构成要素包括至少一个风险算子对应的目标风险要素值,所述至少一个风险算子包括知识点提及方式算子;根据所述条件子句,获取与所述目标风险点对应的目标知识点集合;通过所述至少一个风险算子,根据所述目标内容,或者根据所述目标内容和所述目标知识点集合,获取对应的风险要素值;其中,所述知识点提及方式算子,用于根据所述目标知识点集合和所述目标内容,获取所述目标内容对所述目标知识点的提及方式信息,作为与所述知识点提及方式算子对应的风险要素值;根据所述至少一个风险算子对应的风险要素值和目标风险要素值,确定所述目标内容是否具有所述目标风险点。
具体实施时,所述电子设备可以是视频网站服务器,也可以是电商平台的服务器,还可以是能够实现所述方法的任意设备。
存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
具体实施时,电子设备还可以包括以下一个或多个组件:电源组件,输入/输出(I/O)的接口,及通信组件。电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。I/O接口为处理器503和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。通信组件被配置为便于电子设备和用户设备(如智能手机、平板电脑等)之间有线或无线方式的通信。
第七实施例
在上述的实施例中,提供了一种内容风险识别方法,与之相对应的,本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的电子设备,包括:存储器和处理器;存储器,用于存储实现内容风险配置方法的程序,该设备通电并通过所述处理器运行上述内容风险配置方法的程序。
所述内容风险配置方法可包括如下步骤:设置目标风险点的知识点筛选条件信息、与风险识别规则相关的至少一个风险算子对应的目标风险要素值,所述至少一个风险算子包括知识点提及方式算子;根据所述知识点筛选条件信息,生成知识点筛选条件子句;根据所述至少一个风险算子对应的目标风险要素值,生成风险识别规则子句;根据所述知识点筛选条件子句和所述风险识别规则子句,生成目标风险点的风险定义脚本语句。
具体实施时,所述电子设备可以是个人电脑、平板电脑、智能手机等能够实现所述方法的任意设备。
存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
具体实施时,电子设备还可以包括以下一个或多个组件:电源组件,输入/输出(I/O)的接口,及通信组件。电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。I/O接口为处理器503和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。通信组件被配置为便于电子设备和服务器之间有线或无线方式的通信。
第八实施例
本申请还提供一种计算机可读存储介质。由于计算机可读存储介质实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的计算机可读存储介质实施例仅仅是示意性的。
在本实施例中,提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备的处理器执行以完成本公开技术方案提供的内容风险识别方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
第九实施例
在上述的实施例中,提供了一种内容风险识别方法,与之相对应的,本申请还提供一种内容风险知识点构建方法。该方法是与上述方法的实施例一相对应。由于方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
本申请实施例提供的内容风险知识点构建方法可包括如下步骤:
步骤1:配置风险点信息。
具体实施时,内容风险识别相关用户可配置风险点信息,如设置如下风险点:侮辱X国,传播“事件A”次要人物的代表作品,歪曲历史正面人物,等等。
步骤2:根据风险点配置信息,设置知识点关联的风险点信息。
具体实施时,可向用户展示预先配置的多个风险点,用户为知识点设置相关的风险点信息。
步骤3:根据知识点信息和知识点关联的风险点信息,生成内容风险知识点条目,将所述内容风险知识点条目存储到内容风险知识库。
风险知识库是构建内容风控的领域知识库,存储风险域中的知识实体及其之间的关系,如实施例1中的表3所示。知识点信息可包括知识点的客观属性信息,如知识点为一本书,其客观属性信息包括出版社、作者、出版日期等。不同类型的知识点可具有不同属性信息。知识点关联的风险点信息可作为知识点的风险属性信息存储在风险知识库中。
从上述实施例可见,本申请实施例提供的内容风险知识点构建方法,通过配置风险点信息;根据风险点配置信息,设置知识点关联的风险点信息;根据知识点信息和知识点关联的风险点信息,生成内容风险知识点条目,将所述内容风险知识点条目存储到内容风险知识库。采用这种处理方式,使得通过构建风险知识库,可以将内容风险控制领域知识进行体系化建模,实现结构化表示和存储,从而实现知识的沉淀和转移,可实现自动化知识构建,提升人工创建知识的效率。
第十实施例
在上述的实施例中,提供了一种内容风险识别方法,与之相对应的,本申请还提供一种内容风险知识点更新方法。该方法是与上述方法的实施例一相对应。由于方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
本申请实施例提供的内容风险知识点更新方法可包括如下步骤:
步骤1:确定目标风险点。
具体实施时,可包括多个风险点,可从中选取一个或者多个风险点作为目标风险点。
步骤2:获取所述目标风险点的知识点更新信息。
知识点更新信息是指与目标风险点关联的知识点发生变化,如出现新增知识点,或者修改了某个知识点,再或者是删除了某个知识点。
步骤3:根据所述知识点更新信息,更新内容风险知识库。
根据知识点更新信息,对内容风险知识库中目标风险点关联的知识点进行更新,如修改知识点的风险属性信息、新增目标风险点关联的知识点,删除目标风险点关联的知识点。
在一个示例中,所述方法还可包括如下步骤:从内容风险知识库中获取与所述目标风险点关联的内容风险知识点条目;展示所述内容风险知识点条目;所述获取所述目标风险点的知识点更新信息,包括:根据展示的内容风险知识点条目,确定所述知识点更新信息。
具体实施时,所述知识点更新信息包括新增知识点信息;所述根据所述知识点更新信息,更新内容风险知识库,包括:根据新增知识点信息,生成所述目标风险点的新增内容风险知识点条目;将所述新增内容风险知识点条目存储到内容风险知识库。
具体实施时,所述知识点更新信息包括删除知识点信息;所述根据所述知识点更新信息,更新内容风险知识库,包括:根据删除知识点信息,删除内容风险知识库中的对应内容风险知识点条目。
具体实施时,所述知识点更新信息包括更新知识点信息;所述根据所述知识点更新信息,更新内容风险知识库,包括:根据所述更新知识点信息,更新内容风险知识库中的对应内容风险知识点条目的知识点信息。
本申请实施例提供的内容风险知识点更新方法,通过确定目标风险点;获取所述目标风险点的知识点更新信息;根据所述知识点更新信息,更新内容风险知识库。采用这种处理方式,使得自动化更新内容风险知识,提升人工更新知识的效率。
第十一实施例
在上述的实施例中,提供了一种内容风险识别方法,与之相对应的,本申请还提供一种风险点选取方法。该方法是与上述方法的实施例一相对应。由于方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
本申请实施例提供的风险点选取方法可包括如下步骤:
步骤1:获取目标内容;
步骤2:获取多个风险点的风险定义脚本语句,所述脚本语句包括知识点筛选条件子句和风险识别规则子句,所述规则子句的构成要素包括至少一个风险算子对应的目标风险要素值;
步骤3:根据与所述风险点对应的所述条件子句,获取与所述风险点对应的知识点集合;
步骤4:若所述目标内容包括所述知识点集合中的知识点,则将所述风险点作为与所述目标内容相关的目标风险点。
从上述实施例可见,本申请实施例提供的风险点选取方法,通过获取目标内容;获取多个风险点的风险定义脚本语句,所述脚本语句包括知识点筛选条件子句和风险识别规则子句,所述规则子句的构成要素包括至少一个风险算子对应的目标风险要素值;根据与所述风险点对应的所述条件子句,获取与所述风险点对应的知识点集合;若所述目标内容包括所述知识点集合中的知识点,则将所述风险点作为与所述目标内容相关的目标风险点。采用这种处理方式,使得可识别出与目标内容相关的风险点,在对目标内容进行风险识别时,可仅对相关风险点进行处理,判断目标内容是否具有这些风险点,因此,可以有效提升内容风险识别效率。
第十二实施例
在上述的实施例中,提供了一种内容风险识别方法,与之相对应的,本申请还提供一种风险算子处理方法。该方法是与上述方法的实施例一相对应。由于方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
本申请实施例提供的风险算子处理方法可包括如下步骤:
步骤1:获取训练数据集。
所述训练数据包括内容与至少一个风险要素值之间的对应关系。如下表所示:
步骤2:从所述训练数据集内学习得到至少一个风险算子,所述风险算子用于构建内容风险识别语句,所述内容风险识别语句用于内容风险识别。
例如,根据内容与文本情感要素之间的对应关系,学习出文本情感识别模型(文本情感算子);根据内容与文本风格要素之间的对应关系,学习出文本风格识别模型(文本风格算子);根据内容与反事实要素之间的对应关系,学习出反事实识别模型(反事实算子);根据内容与营销宣传要素之间的对应关系,学习出营销宣传识别模型(营销宣传算子);根据内容、知识点集合与对知识点的提及方式要素之间的对应关系,学习出知识点提及方式算子,等等。
从上述实施例可见,本申请实施例提供的风险算子处理方法,通过获取训练数据集;所述训练数据包括内容与至少一个风险要素值之间的对应关系;从所述训练数据集内学习得到至少一个风险算子,所述风险算子用于构建内容风险识别语句,所述内容风险识别语句用于内容风险识别。采用这种处理方式,使得风险识别算法(风险算子)与风险识别规则相结合,这样即可达到风险识别方式具有可解释性,又可利用算法(风险算子)提升泛化性。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(f l ash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (13)

1.一种内容风险识别方法,其特征在于,包括:
获取目标内容;
获取目标风险点的风险定义脚本语句,所述风险定义脚本语句是采用内容风险识别领域特定语言表示的内容风险识别知识;所述风险定义脚本语句包括知识点筛选条件子句和风险识别规则子句,所述知识点筛选条件子句用于规定知识点选择的标准,风险识别规则由至少一个风险要素构成,包括内容对知识点的提及方式要素;
根据所述知识点筛选条件子句,获取与所述目标风险点对应的目标知识点集合;
通过所述风险识别规则子句中的至少一个风险算子,根据所述目标内容和所述目标知识点集合,获取对应的风险要素值;
根据所述至少一个风险算子输出的目标内容的风险要素值和目标风险要素值,判断目标内容是否具有对应的风险要素;当目标内容具备所述至少一个风险要素时,则确定所述目标内容具有所述目标风险点;
所述知识点的属性信息包括:风险属性信息和/或客观属性信息;
所述知识点筛选条件子句包括:所述风险属性信息为目标风险属性信息,和/或所述客观属性信息为目标客观属性信息;
所述根据所述知识点筛选条件子句,获取与所述目标风险点对应的目标知识点集合,包括:
获取所述风险属性信息为所述目标风险属性信息、和/或所述客观属性信息为所述目标客观属性信息的知识点,形成所述目标知识点集合。
2.根据权利要求1所述的方法,其特征在于,
所述至少一个算子包括知识点提及方式算子,所述知识点提及方式算子,用于根据所述目标知识点集合和所述目标内容,获取所述目标内容对所述目标知识点的提及方式信息,作为与所述知识点提及方式算子对应的风险要素值。
3.根据权利要求2所述的方法,其特征在于,
所述至少一个算子还包括:内容特征算子;
所述内容特征算子对应的目标风险要素值为目标内容特征信息;
所述通过至少一个算子,根据所述目标内容,或者根据所述目标内容和所述目标知识点集合,获取对应的风险要素值,包括:
通过所述内容特征算子,根据所述目标内容,获取所述目标内容的内容特征信息;
所述根据所述至少一个算子对应的风险要素值和目标风险要素值,判断目标内容是否具有对应的风险要素;当目标内容具备所述至少一个风险要素时,则确定所述目标内容具有所述目标风险点,包括:
若所述提及方式信息为提及、且所述内容特征信息为对应的目标内容特征信息,则判定所述目标内容具有所述目标风险点。
4.根据权利要求1所述的方法,其特征在于,
所述目标风险点对应多个并列关系的所述风险定义脚本语句;
若任意一个所述风险定义脚本语句的结果为所述目标内容具有所述目标风险点,则所述目标内容具有所述目标风险点。
5.根据权利要求1所述的方法,其特征在于,还包括:
通过机器学习算法,从训练数据中学习得到所述算子。
6.根据权利要求1所述的方法,其特征在于,还包括:
获取多个风险点;
根据与所述风险点对应的所述条件子句,获取与所述风险点对应的知识点集合;
若所述目标内容包括所述知识点集合中的知识点,则将所述风险点作为所述目标风险点。
7.一种基于权利要求1-6任一项的内容风险知识点构建方法,其特征在于,包括:
配置风险点信息;
根据风险点配置信息,设置知识点关联的风险点信息;
根据知识点信息和知识点关联的风险点信息,生成内容风险知识点条目,将所述内容风险知识点条目存储到内容风险知识库。
8.一种基于权利要求1-6任一项的内容风险知识点更新方法,其特征在于,包括:
确定目标风险点;
获取所述目标风险点的知识点更新信息;
根据所述知识点更新信息,更新内容风险知识库。
9.一种基于权利要求1-6任一项的内容风险识别语句生成方法,其特征在于,包括:
设置目标风险点的知识点筛选条件信息、与风险识别规则相关的至少一个风险要素对应的算子对应的目标风险要素值;
根据所述知识点筛选条件信息,生成知识点筛选条件子句;
根据所述算子对应的目标风险要素值,生成风险识别规则子句;
根据所述知识点筛选条件子句和所述风险识别规则子句,生成目标风险点的风险定义脚本语句。
10.根据权利要求9的方法,其特征在于,还包括:
获取多个算子信息;
设置与风险识别规则相关的至少一个风险要素对应的算子对应的目标风险要素值,包括:
根据所述多个算子信息,设置与风险识别规则相关的至少一个算子、与所述算子对应的目标风险要素值。
11.一种基于权利要求1-6任一项的风险点选取方法,其特征在于,包括:
获取目标内容;
获取多个风险点对应的风险定义脚本语句;
根据与所述风险点对应的所述条件子句,获取与所述风险点对应的知识点集合;
若所述目标内容包括所述知识点集合中的知识点,则将所述风险点作为与所述目标内容相关的目标风险点。
12.一种基于权利要求1-6任一项的算子处理方法,其特征在于,包括:
获取训练数据集;所述训练数据包括内容与至少一个风险要素值之间的对应关系;
从所述训练数据集内学习得到至少一个算子,所述算子用于构建内容风险识别语句,所述内容风险识别语句用于内容风险识别。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现根据权利要求1至12任一项所述的方法的程序,该设备通电并通过所述处理器运行该方法的程序。
CN202310127372.XA 2023-02-16 2023-02-16 内容风险识别方法、装置、系统及设备 Active CN116451787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310127372.XA CN116451787B (zh) 2023-02-16 2023-02-16 内容风险识别方法、装置、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310127372.XA CN116451787B (zh) 2023-02-16 2023-02-16 内容风险识别方法、装置、系统及设备

Publications (2)

Publication Number Publication Date
CN116451787A CN116451787A (zh) 2023-07-18
CN116451787B true CN116451787B (zh) 2023-12-26

Family

ID=87126208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310127372.XA Active CN116451787B (zh) 2023-02-16 2023-02-16 内容风险识别方法、装置、系统及设备

Country Status (1)

Country Link
CN (1) CN116451787B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
CN112015869A (zh) * 2020-09-14 2020-12-01 支付宝(杭州)信息技术有限公司 一种待发布文本的风险检测方法、装置及设备
CN113783874A (zh) * 2021-09-10 2021-12-10 国网电子商务有限公司 基于安全知识图谱的网络安全态势评估方法及系统
CN115470504A (zh) * 2022-09-25 2022-12-13 蔡龙花 结合人工智能的数据风险分析方法及服务器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108346107B (zh) * 2017-12-28 2020-11-10 创新先进技术有限公司 一种社交内容风险识别方法、装置以及设备
WO2021026639A1 (en) * 2019-08-09 2021-02-18 Mastercard Technologies Canada ULC Determining a fraud risk score associated with a transaction
US11297021B2 (en) * 2019-09-05 2022-04-05 Benjamin Kwitek Predictive privacy screening and editing of online content
CN112507700A (zh) * 2020-11-26 2021-03-16 北京百度网讯科技有限公司 事件抽取方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
CN112015869A (zh) * 2020-09-14 2020-12-01 支付宝(杭州)信息技术有限公司 一种待发布文本的风险检测方法、装置及设备
CN113783874A (zh) * 2021-09-10 2021-12-10 国网电子商务有限公司 基于安全知识图谱的网络安全态势评估方法及系统
CN115470504A (zh) * 2022-09-25 2022-12-13 蔡龙花 结合人工智能的数据风险分析方法及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A DSL for Specifying Autonomic Security Management Strategies;Ruan He 等;《DPM 2010 and SETOP 2010》;216–230 *
利用深度学习融合模型提升文本内容安全的研究;汪少敏 等;《专题:网络安全的智能化和高对抗性发展》;25-30 *

Also Published As

Publication number Publication date
CN116451787A (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
US11599714B2 (en) Methods and systems for modeling complex taxonomies with natural language understanding
US10878184B1 (en) Systems and methods for construction, maintenance, and improvement of knowledge representations
US9535902B1 (en) Systems and methods for entity resolution using attributes from structured and unstructured data
EP3144822A1 (en) Tagging text snippets
CN109543034B (zh) 基于知识图谱的文本聚类方法、装置及可读存储介质
US8868609B2 (en) Tagging method and apparatus based on structured data set
US20200327432A1 (en) Intelligent communication manager and summarizer
US20110112986A1 (en) Generative Investment Method and System
US20130191395A1 (en) Social media data analysis system and method
EP2562659A1 (en) Data mapping acceleration
CN104933081A (zh) 一种搜索建议提供方法及装置
JP2013536484A (ja) コンピュータ化エージェントのシステムとユーザ指図セマンティックネットワーキング
CN110765348B (zh) 一种热词的推荐方法、装置、电子设备及存储介质
US20160283876A1 (en) System and method for providing automomous contextual information life cycle management
CN110110218B (zh) 一种身份关联方法及终端
Bogárdi-Mészöly et al. Tag and topic recommendation systems
CN102662929A (zh) 一种基于本体的问题智能分析处理的方法和装置
CN117290481A (zh) 基于深度学习的问答方法、装置、存储介质及电子设备
CN116595191A (zh) 一种交互式低代码知识图谱的构建方法及装置
KR20240020166A (ko) Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버
CN116451787B (zh) 内容风险识别方法、装置、系统及设备
CN113535939A (zh) 文本处理方法和装置、电子设备以及计算机可读存储介质
US10529002B2 (en) Classification of visitor intent and modification of website features based upon classified intent
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
Weigand et al. How to identify your design science research artifact

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant