CN112015999A - 风险提示方法、信息提示方法、计算机设备、存储介质 - Google Patents
风险提示方法、信息提示方法、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN112015999A CN112015999A CN201910395520.XA CN201910395520A CN112015999A CN 112015999 A CN112015999 A CN 112015999A CN 201910395520 A CN201910395520 A CN 201910395520A CN 112015999 A CN112015999 A CN 112015999A
- Authority
- CN
- China
- Prior art keywords
- risk
- text
- target text
- data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 239000013598 vector Substances 0.000 claims description 51
- 238000003062 neural network model Methods 0.000 claims description 48
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000012550 audit Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012954 risk control Methods 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种风险提示方法。所述方法包括:获取目标文本中的文本元素,确定所述文本元素的第一风险数据,根据所述第一风险数据,确定所述目标文本具有风险,根据所述第一风险数据,对至少一个目标文本元素进行风险提示,从而能够对使目标文本具有风险的至少一个目标文本元素进行提示,更加精准的定位到具有风险的部分,避免了人工搜寻目标文本元素时的漏报或误报问题,提高了工作效率和质量。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种风险提示方法、一种信息提示方法、一种计算机设备、一种计算机可读存储介质。
背景技术
随着互联网的飞速发展和信息量的猛增,大量的色情、暴力、违法等不良信息夹杂在其中,严重影响着互联网的健康发展。对于互联网平台而言,每天都会有大量的用户在不断地生产内容,需要支出非常大的成本来进行内容审核。
目前,内容审核需要依赖大量人力将网站产生的内容一一审看,并根据内容进行鉴定结论。但是互联网信息的极速增长,让人工审核难以兼顾准确性和工作效率两个方面。人工智能内容审核应运而生,但只能帮助人工进行粗略的筛选,将有风险的文章、图片或视频等筛选出来,减少了一部分人工的工作量。
申请人经研究发现,人工智能内容审核通常是一个黑盒,仅能将存在风险的文章筛选出来,但筛选出的文章仍然是很多的,需要人工进行审核,仍然存在大量漏报、误报的问题,审核的效率和质量难以保证。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的风险提示方法、信息提示方法以及计算机设备、计算机可读存储介质。
依据本申请的一个方面,提供了一种风险提示方法,包括:
获取目标文本中的文本元素,确定所述文本元素的第一风险数据;
根据所述第一风险数据,确定所述目标文本具有风险;
根据所述第一风险数据,对至少一个目标文本元素进行风险提示。
可选地,所述确定所述文本元素的第一风险数据包括:
以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据,其中,所述风险识别模型包括神经网络模型,所述神经网络模型包括注意力层。
可选地,在所述以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据之前,所述方法还包括:
采用标记风险数据的文本样本,训练所述风险识别模型。
可选地,在所述获取目标文本中的文本元素,确定所述文本元素的第一风险数据之前,所述方法还包括:
获取所述目标文本对应的风险类别;
选取针对所述风险类别的风险识别模型。
可选地,所述获取目标文本中的文本元素包括:
从文本中提取所述目标文本;
对所述目标文本进行分词,得到文本元素。
可选地,所述根据所述第一风险数据,确定所述目标文本具有风险包括:
对所述第一风险数据进行加权处理,得到所述目标文本的第二风险数据;
根据所述第二风险数据以及文本元素对应的元素向量,确定所述目标文本是否具有风险。
可选地,在所述根据所述第二风险数据以及文本元素对应的元素向量,确定所述目标文本是否具有风险之前,所述方法还包括:
构建所述文本元素的元素向量。
可选地,所述根据所述第一风险数据,对至少一个目标文本元素进行风险提示包括:
确定所述第一风险数据符合预设条件的至少一个文本元素,并以所述至少一个文本元素作为使所述目标文本具有风险的目标文本元素;
在所述目标文本元素的对应位置处添加用于提示的预设展示元素。
可选地,在所述在所述目标文本元素的对应位置处添加用于提示的预设展示元素之前,所述方法还包括:
根据所述目标文本元素的第一风险数据,选取所述预设展示元素的样式属性;
根据所述样式属性,添加所述预设展示元素。
可选地,所述目标文本具有多种风险类别的风险,在所述在所述目标文本元素的对应位置处添加用于提示的预设展示元素之前,所述方法还包括:
将所述目标文本具有的目标风险类别,确定为所述目标文本元素具有的目标风险类别;
选取与所述目标风险类别对应的预设展示元素。
可选地,所述根据所述第一风险数据,对至少一个目标文本元素进行风险提示包括:
对所述目标文本元素的第一风险数据进行展示。
依据本申请的另一个方面,提供了一种信息提示方法,包括:
获取目标文本;
提取所述目标文本中的文本元素,其中,所述文本元素包括词语、和/或短语、和/或句子;
根据神经网络模型,确定所述文本元素对应的第一数据,其中,所述第一数据属于风控类数据,所述神经网络模型包括注意力层;
根据所述第一数据,针对所述文本元素,进行信息提示。
可选地,所述根据神经网络模型,确定所述文本元素对应的第一数据包括:
构建所述文本元素的元素向量;
采用所述注意力层根据各个文本元素的语句环境为所述元素向量分配权重,作为所述文本元素对应的第一数据。
依据本申请的另一个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述一个或多个的方法。
依据本申请的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一个或多个的方法。
依据本申请实施例,通过获取目标文本中的文本元素,确定所述文本元素的第一风险数据,根据所述第一风险数据,确定所述目标文本具有风险,根据所述第一风险数据,对至少一个目标文本元素进行风险提示,从而能够对使目标文本具有风险的至少一个目标文本元素进行提示,更加精准的定位到具有风险的部分,避免了人工搜寻目标文本元素时的漏报或误报问题,提高了工作效率和质量。
进一步,通过获取所述目标文本对应的风险类别,选取针对所述风险类别的风险识别模型,以提高识别不同风险类别的风险的准确性,使得确定的第一风险数据更加准确。
进一步,通过将目标文本具有的目标风险类别,确定为目标文本元素具有的目标风险类别,选取与目标风险类别对应的预设展示元素,以使得在提示时可以对不同的风险类别进行区分,以帮助审核人员加快审核时思考的速度,提高工作效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了风险提示过程的示意图;
图2示出了根据本申请实施例一的一种风险提示方法实施例的流程图;
图3示出了根据本申请实施例二的一种风险提示方法实施例的流程图;
图4示出了风险识别模型的示意图;
图5示出了根据本申请实施例三的一种风险提示方法实施例的流程图;
图6示出了根据本申请实施例四的一种信息提示方法实施例的流程图;
图7示出了根据本申请实施例五的一种风险提示装置实施例的结构框图;
图8示出了根据本申请实施例六的一种信息提示装置实施例的结构框图;
图9示出了可被用于实现本公开中所述的各个实施例的示例性系统。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为使本领域技术人员更好地理解本申请,以下对本申请涉及的概念进行说明:
文本是计算机中的一种数据存在形式。例如,门户网站中多种类型的文章可以包括有文本,或者,博客或贴吧等网站中用户发布的文章可以包括有文本。如果文本没有符合相关规定,例如涉及色情、暴力、违法等,网站就可以将该文本认定为具有风险。
在本申请中,在对文本进行处理时,需要以文章、或段落、或句子等为单位进行处理,将每次处理的文本,记为目标文本。目标文本由文本元素组成,文本元素包括词语、短语、句子等形式,文本元素的形式取决于对目标文本的细化方式,具体可以采用任意适用的细化方式,本申请实施例对此不做限制。例如,文本可以由多个词组合而成,对文本进行分词,可以得到对应的多个词。
在对目标文本进行审核时,认定目标文本具有风险的原因可以是目标文本中的文本元素具有风险。根据本申请一个实施例,将用于表征文本元素是否有风险、或风险程度的数据,记为第一风险数据。具体可以采用数字、文字、符号等各种方式表征,也可以结合多种表征方式。例如,在0-1的数值区间内,数值越大表示风险程度越严重,某个文本元素的风险程度为0.7,表示比较严重的风险。可以理解的是,也可以采用文字或符号来表示第一风险数据,例如文本元素的风险程度为a级(例如,a级-e级对应之前的0-1的数值区间)。
根据第一风险数据,可以从目标文本的文本元素中选取出至少一个文本元素进行风险提示,记为目标文本元素,以便提醒审核者使得目标文本具有风险的是目标文本元素,目标文本元素需要被重点审核,以避免风险的漏报、误报等情况。
在本申请的一种可选实施例中,同样的一个文本元素在一些目标文本中可能具有风险,但在另一些目标文本中可能不具有风险,即同一个词语是否具有风险或具有的风险程度是取决于整个语句的,因此,文本元素的第一风险数据是相对目标文本而言的,目标文本中不同的文本元素的第一风险数据各有不同,不同的目标文本中同样一个文本元素的第一风险数据也各有不同。
为了确定文本元素相对目标文本的第一风险数据,可以采用风险识别模型。其中,风险识别模型包括神经网络模型,神经网络模型包括有注意力层。以目标文本及其中的文本元素作为输入内容,输入到风险识别模型,风险识别模型就可以输出文本元素对象目标文本的第一风险数据。
神经网络模型可以采用有监督的学习方式,根据大量的标记风险数据的文本样本,得到能识别风险的模型。考虑到人类在处理语言时,会运用注意力机制,重点关注全局中的一些局部,从大量信息中快速筛选出高价值信息。神经网络模型引入注意力层,注意力层可以识别出目标文本中文本元素的风险,即第一风险数据。
在本申请的一种可选实施例中,风险可以有多种风险类别,例如,涉及色情的风险、涉及暴力的风险、涉及违法的风险、涉及宗教的风险等,具体可以包括任意适用的风险类别,本申请实施例对此不做限制。针对不同风险类别,可以采用同类别的文本样本训练出针对该风险类别的风险识别模型。
在本申请的一种可选实施例中,对应于文本元素的第一风险数据,将用于表征目标文本是否有风险、或风险程度的数据,记为第二风险数据。具体可以采用数字、文字、符号等各种方式表征,也可以结合多种表征方式。由于目标文本是由文本元素组成的,因此可以根据第一风险数据确定第二风险数据。
在根据所述第二风险数据以及文本元素对应的元素向量,确定所述目标文本是否具有风险之前,还可以包括:构建文本元素的元素向量。
在自然语言处理(NLP)中,要想让机器识别语言,就需要将自然语言抽象表示成可被机器理解的形式,所以要把文本进行数学化。目标文本可以被拆分为多个文本元素,元素向量就是用向量把文本元素进行数学化的一种常用形式,文本向量就是把一个文本元素表示成一个向量。
在本申请的一种可选实施例中,为了向审核者提示目标文本中哪些文本元素是目标文本元素,或者向审核者提示目标文本元素之间风险程度的区别,需要添加用于提示的预设展示元素到文本中。预设展示元素包括但不限于下划线、波浪线、方形框、背景色、文字色彩等形式,本申请实施例对预设展示元素的形式不做限制。
在本申请的一种可选实施例中,预设展示元素具有样式属性,样式属性包括颜色、形状等方面,或者其他任意适用的样式属性,本申请实施例对此不做限制。例如,预设展示元素为下划线,预设的样式属性包括有红色、橙色、黄色、绿色、蓝色等几种。
根据本申请的一种实施例,人工智能内容审核通常是一个黑盒,仅能将存在风险的文章筛选出来,但筛选出的文章仍然是很多的,需要人工进行审核,存在漏报、误报的问题,审核的效率和质量难以保证。如图1所示的风险提示过程的示意图,本申请提供了一种风险提示机制,通过依据本申请实施例,通过获取目标文本中的文本元素,确定所述文本元素的第一风险数据,根据所述第一风险数据,确定所述目标文本具有风险,根据所述第一风险数据,对至少一个目标文本元素进行风险提示,从而能够对使目标文本具有风险的至少一个目标文本元素进行提示,更加精准的定位到具有风险的部分,避免了人工搜寻目标文本元素时的漏报或误报问题,提高了工作效率和质量。本申请适用但不局限于上述应用场景。
参照图2,示出了根据本申请实施例一的一种风险提示方法实施例的流程图,该方法具体可以包括以下步骤:
步骤101,获取目标文本中的文本元素,确定所述文本元素的第一风险数据。
在本申请实施例中,在处理目标文本时,可以先获取目标文本中的文本元素。例如,对句子进行分词处理,得到词语,即文本元素,还可以将一些诸如“的”、“地”、“得”、“啊”、“呀”等对于识别风险无用的词语删除掉,具体可以采用任意适用的方式获取文本元素,本申请实施例对此不做限制。
在本申请实施例中,文本元素的第一风险数据的确定方式可以包括多种,例如,以目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定文本元素相对目标文本的第一风险数据,或者,根据预设的规则确定文本元素的第一风险数据,或者其他任意适用的实现方式,本申请实施例对此不做限制。
例如,以目标文本为“某地有枪支售卖”作为例子,文本元素包括“某地”、“有”、“枪支”、“售卖”,其中,“某地”的第一风险数据为0.3,“有”的第一风险数据为0.1,“枪支”的第一风险数据为0.8,“售卖”的第一风险数据为0.5。
步骤102,根据所述第一风险数据,确定所述目标文本具有风险。
在本申请实施例中,第一风险数据是目标文本中的文本元素的。目标文本是否具有风险取决于其中包含的文本元素。根据第一风险数据,确定目标文本具有风险的实现方式可以包括多种,例如,对第一风险数据进行加权处理,得到目标文本的第二风险数据,根据第二风险数据以及文本元素对应的元素向量,确定目标文本是否具有风险,或者当目标文本中第一风险数据超过设定阈值的文本元素的数量达到设定数量,则确定目标文本具有风险,或者其他任意适用的实现方式,本申请实施例对此不做限制。
例如,针对“某地有枪支售卖”这个例子,将各个文本元素的第一风险数据进行加权求和,得到句子“某地有枪支售卖”的第二风险数据为0.425,由于第二风险数据0.425超过了预设的风险阈值0.4,因此确定该目标文本具有风险。
步骤103,根据所述第一风险数据,对至少一个目标文本元素进行风险提示。
在本申请实施例中,为了便于风险审核人员能够快速定位到目标文本中需要关注的目标文本元素,对至少一个目标文本元素进行风险提示。
根据第一风险数据,对至少一个目标文本元素进行风险提示的实现方式可以包括多种,例如,确定第一风险数据符合预设条件的至少一个文本元素,并以至少一个文本元素作为使目标文本具有风险的目标文本元素,在目标文本元素的对应位置处添加用于提示的预设展示元素;或者对目标文本元素的第一风险数据进行展示;当目标文本具有的风险有多种风险类别时,还可以将目标文本具有的目标风险类别,确定为目标文本元素具有的目标风险类别,选取与目标风险类别对应的预设展示元素以供添加,具体可以采用任意适用的实现方式,本申请实施例对此不做限制。
例如,在“某地有枪支售卖”这个目标文本中,“枪支”的第一风险数据为0.8是目标文本中最高的,将“枪支”确定为目标文本元素,在“枪支”这个词语的下方位置添加红色下划线,以提示风险审核人员重点关注这个文本元素。
依据本申请实施例,通过获取目标文本中的文本元素,确定所述文本元素的第一风险数据,根据所述第一风险数据,确定所述目标文本具有风险,根据所述第一风险数据,对至少一个目标文本元素进行风险提示,从而能够对使目标文本具有风险的至少一个目标文本元素进行提示,更加精准的定位到具有风险的部分,避免了人工搜寻目标文本元素时的漏报或误报问题,提高了工作效率和质量。
在本申请实施例中,可选地,根据所述第一风险数据,对至少一个目标文本元素进行风险提示的一种实现方式可以包括:对所述目标文本元素的第一风险数据进行展示。
为了起到更加准确的提示作用,以便提高审核人员工作的效率和质量,可以将目标文本元素的第一风险数据直接展示到风险审核人员的审核页面中,例如,将第一风险数据展示在对应的目标文本元素的旁边,或者在审核页面中文本的右侧将目标文本元素及其第一风险数据单独展示出来,具体可以采用任意适用的展示方式,本申请实施例对此不做限制。
参照图3,示出了根据本申请实施例二的一种风险提示方法实施例的流程图,该方法具体可以包括以下步骤:
步骤201,从文本中提取所述目标文本。
在本申请实施例中,为了更加准确的定位的具有风险的文本元素,每次处理的文本不宜过长,通常需要从文本中提取目标文本。例如,将整个文章按照句子进行划分,将每个句子提取为一个目标文本。
在从文本中提取目标文本时,可以按照标点符号进行划分成各个目标文本,也可以将每一行划分成一个目标文本,具体可以根据实际需要设定任意适用的规则进行提取,本申请实施例对此不做限制。
步骤202,对所述目标文本进行分词,得到文本元素。
在本申请实施例中,目标文本可以由多个文本元素组合而成,对目标文本进行分词,得到对应的多个文本元素。具体分词处理方式有很多种,例如基于字符匹配的分词方法、基于词语频率统计的分词方法或者基于规则的分词方法,具体采用任意适用的分词方法,本申请实施例对此不作限制。例如,解析电商网站抽取的文本,分词得到的多个文本元素包括“手机”、“国产”、“巅峰之作”等。
步骤203,以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据,其中,所述风险识别模型包括神经网络模型,所述神经网络模型包括注意力层。
在本申请实施例中,采用风险识别模型确定文本元素相对目标文本的第一风险数据时,输入的数据为目标文本、以及其中的文本元素,先对目标文本和文本元素进行编码后,得到对应的向量,神经网络模型中的注意力层会给每一个时刻的输出结果(即各个文本元素的元素向量)赋一个权重,即第一风险数据。
步骤204,对所述第一风险数据进行加权处理,得到所述目标文本的第二风险数据。
在本申请实施例中,对第一风险数据的加权处理包括但不限于加权平均、加权求和等,将加权处理后得到的数据,作为目标文本的第二风险数据。第一风险数据是用于表征局部的风险,而第二风险数据是用于表征全局的风险。
在实际应用中,第二风险数据还需要经过归一化处理,例如,将加权处理得到的第二风险数据作为Softmax函数的输入,Softmax函数用于多分类过程中,它将神经网络中的多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而进行多分类。
步骤205,根据所述第二风险数据以及文本元素对应的元素向量,确定所述目标文本是否具有风险。
在本申请实施例中,根据第二风险数据以及文本元素对应的元素向量,确定目标文本是否具有风险时,一种实现方式可以预先采用标记有风险数据的文本样本训练得到的识别目标文本是否具有风险的二分类模型,然后将第二风险数据以及文本元素对应的元素向量作为输入,该二分类模型输出目标文本是否具有风险的分类结果,具体可以包括任意适用的实现方式,本申请实施例对此不做限制。
如图4所示的风险识别模型的示意图。首先,对句子(即目标文本)分词得到图中Input Layer(输入层)的xi(x0……xT),分词后的数据输入到BRNN(BidirectionalRecurrent Neural Network,双向循环神经网络)模型中。为了获得词(即文本元素)的上下文信息,采用简单串联方式将前向和后向表示拼接作为encoder(编码)的隐藏层状态,得到编码后的词向量,即图中的hi(h0……hT)。然后使用Attention层(注意力层),通过前馈网络进行参数化,给任意时刻的输出结果(各个文本元素的元素向量)赋权重(即第一风险数据),得到ai(a0……aT)。将权重加权求和得到一个向量作为Softmax(归一化指数)函数的输入。Softmax函数将输入转换成一个概率分布,取概率值最大的作为样本的风险。
步骤206,确定所述第一风险数据符合预设条件的至少一个文本元素,并以所述至少一个文本元素作为使所述目标文本具有风险的目标文本元素。
在本申请实施例中,可以认为是由于某些目标文本元素使得目标文本具有风险,而确定目标文本元素可以根据预设条件来确定。预设条件包括但不限于第一风险数据超过预设阈值,或者第一风险数据排序在前预设名次等,本申请实施例对于预设条件不做限制。
例如,在“某地有枪支售卖”这个目标文本中,“枪支”的第一风险数据为0.8是目标文本中最高的,“售卖”的第一风险数据为0.5是目标文本中第二高的,将“枪支”和“售卖”都确定为目标文本元素。
步骤207,在所述目标文本元素的对应位置处添加用于提示的预设展示元素。
在本申请实施例中,为了标明目标文本中的目标文本元素,需要在目标文本元素的对应位置处,添加预设展示元素,例如,目标文本元素的下方位置、目标文本元素的背景位置、目标文本元素本身所处的位置等。
在本申请实施例中,可选地,在在所述目标文本元素的对应位置处添加用于提示的预设展示元素之前,还可以包括:根据所述目标文本元素的第一风险数据,选取所述预设展示元素的样式属性;根据所述样式属性,添加所述预设展示元素。
预设展示元素包括有多种样式属性,为了在进行提示时,可以对第一风险数据有所区别,可以根据第一风险数据选取对应的样式属性。具体可以针对所有不同的第一风险数据都预先设置有对应不同的样式属性,也可以针对第一风险数据所属的数据范围预设设置有对应不同的样式属性。例如,第一风险数据在0-0.2这个范围内,则选择下划线的样式属性为绿色,第一风险数据在0.2-0.4这个范围内,则选择下划线的样式属性为蓝色,第一风险数据在0.4-0.6这个范围内,则选择下划线的样式属性为黄色,第一风险数据在0.6-0.8这个范围内,则选择下划线的样式属性为橙色,第一风险数据在0.8-1这个范围内,则选择下划线的样式属性为红色。
为一个目标文本元素选取预设展示元素的样式属性后,根据该样式属性就可以在该目标文本元素的对应位置处添加预设展示元素。
依据本申请实施例,通过从文本中提取所述目标文本,对所述目标文本进行分词,得到文本元素,以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据,其中,所述风险识别模型包括神经网络模型,所述神经网络模型包括注意力层,对所述第一风险数据进行加权处理,得到所述目标文本的第二风险数据,根据所述第二风险数据以及文本元素对应的元素向量,确定所述目标文本是否具有风险,确定所述第一风险数据符合预设条件的至少一个文本元素,在所述目标文本元素的对应位置处添加用于提示的预设展示元素,从而能够对使目标文本具有风险的至少一个目标文本元素进行提示,更加精准的定位到具有风险的部分,避免了人工搜寻目标文本元素时的漏报或误报问题,提高了工作效率和质量。
参照图5,示出了根据本申请实施例三的一种风险提示方法实施例的流程图,该方法具体可以包括以下步骤:
步骤301,获取所述目标文本对应的风险类别。
在本申请实施例中,对目标文本进行处理之前,先获取目标文本对应的风险类别,一个目标文本可以对应于一种或多种风险类别。目标文本的风险类别可以预先确定,例如,目标文本所发布的网络平台容易出现具有某几种风险类别的风险的文本,则将目标文本的风险类别确定为这几种风险类别;或者目标文本的发布者在历史上出现过具有某几种风险类别的风险的文本,则将目标文本的风险类别确定为这几种风险类别。
步骤302,选取针对所述风险类别的风险识别模型。
在本申请实施例中,风险识别模型可以识别一种或多种风险类别的风险,这取决于训练风险识别模型的样本的风险类别。为了让风险识别模型更加准确,可以针对不同的风险类别分别训练风险识别模型。在对目标文本进行处理前,选取针对目标文本对应的风险类别的风险识别模型。
步骤303,从文本中提取所述目标文本。
在本申请实施例中,此步骤的具体实现方式可以参见前述实施例中的描述,此处不另赘述。
步骤304,对所述目标文本进行分词,得到文本元素。
在本申请实施例中,此步骤的具体实现方式可以参见前述实施例中的描述,此处不另赘述。
步骤305,以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据,其中,所述风险识别模型包括神经网络模型,所述神经网络模型包括注意力层。
在本申请实施例中,此步骤的具体实现方式可以参见前述实施例中的描述,此处不另赘述。
步骤306,根据所述第一风险数据,确定所述目标文本具有风险。
在本申请实施例中,此步骤的具体实现方式可以参见前述实施例中的描述,此处不另赘述。
步骤307,确定所述第一风险数据符合预设条件的至少一个文本元素,并以所述至少一个文本元素作为使所述目标文本具有风险的目标文本元素。
在本申请实施例中,此步骤的具体实现方式可以参见前述实施例中的描述,此处不另赘述。
步骤308,将所述目标文本具有的目标风险类别,确定为所述目标文本元素具有的目标风险类别。
在本申请实施例中,目标文本采用针对多种风险类别的风险识别模型,并最终确定同一个目标文本具有多种风险类别的风险,或者不同的目标文本具有不同的风险类别时,将针对不同风险类别的目标文本元素分开来进行提示。
例如,针对“某地有枪支售卖”这个目标文本,识别出的目标风险类别是含有违禁物品的风险类别,那么“枪支”这个文本元素具有的目标风险类别也是含有违禁物品的风险类别,而“此款手机为国产手机的巅峰之作”这个目标文本,识别出的目标风险类别是含有垃圾广告的风险类别,那么“巅峰之作”这个文本元素具有的目标风险类别也是含有垃圾广告的风险类别。
步骤309,选取与所述目标风险类别对应的预设展示元素。
在本申请实施例中,不同的风险类别可以对应不同种的预设展示元素,例如,含有违禁物品的风险类别对应的预设展示元素为方框,含有垃圾广告的风险类别对应的预设展示元素为下划线。按照预设的对应关系,选取与目标风险类别对应的预设展示元素,以使得在提示时可以对不同的风险类别进行区分,以帮助审核人员加快审核时思考的速度,提高工作效率。
步骤310,在所述目标文本元素的对应位置处添加用于提示的预设展示元素。
在本申请实施例中,此步骤的具体实现方式可以参见前述实施例中的描述,此处不另赘述。
依据本申请实施例,通过从文本中提取所述目标文本,对所述目标文本进行分词,得到文本元素,以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据,其中,所述风险识别模型包括神经网络模型,所述神经网络模型包括注意力层,根据所述第一风险数据,确定所述目标文本具有风险,确定所述第一风险数据符合预设条件的至少一个文本元素,以所述至少一个文本元素作为使所述目标文本具有风险的目标文本元素,在所述目标文本元素的对应位置处添加用于提示的预设展示元素,从而能够对使目标文本具有风险的至少一个目标文本元素进行提示,更加精准的定位到具有风险的部分,避免了人工搜寻目标文本元素时的漏报或误报问题,提高了工作效率和质量。
进一步,通过获取所述目标文本对应的风险类别,选取针对所述风险类别的风险识别模型,以提高识别不同风险类别的风险的准确性,使得确定的第一风险数据更加准确。
进一步,通过将目标文本具有的目标风险类别,确定为目标文本元素具有的目标风险类别,选取与目标风险类别对应的预设展示元素,以使得在提示时可以对不同的风险类别进行区分,以帮助审核人员加快审核时思考的速度,提高工作效率。
参照图6,示出了根据本申请实施例四的一种信息提示方法实施例的流程图,该方法具体可以包括以下步骤:
步骤401,获取目标文本。
在本申请实施例中,在对文本进行风险控制时,首先需要获取需要进行风险控制的目标文本。
步骤402,提取所述目标文本中的文本元素,其中,所述文本元素包括词语、和/或短语、和/或句子。
在本申请实施例中,为了更加准确地定位到目标文本中具有风险的部分,从目标文本中提取出文本元素。文本元素包括但不限于词语、和/或短语、和/或句子中的一种或多种,本申请实施例对此不做限制。
步骤403,根据神经网络模型,确定所述文本元素对应的第一数据,其中,所述第一数据属于风控类数据,所述神经网络模型包括注意力层。
在本申请实施例中,第一数据属于风控类数据,包括表征文本元素是否有风险、或者风险程度的第一风险数据,或者其他任意适用的风控类数据,本申请实施例对此不做限制。
同一个文本元素在不同的目标文本中,文本元素的第一数据可能是不相同的。例如,同一个词语在一个句子中,可能是具有风险的,而在另一个句子中,可能就不具有风险。为了确定文本元素对应的第一数据,可以用标记有需要进行风控的文本元素标签的目标文本样本,对包括有注意力层的神经网络模型进行训练,直至神经网络模型学习到这种模式,即可以确定目标文本中文本元素对应的第一数据,以用于确定目标文本中需要进行风控的文本元素。
在本申请实施例中,可选地,所述根据神经网络模型,确定所述文本元素对应的第一数据的一种实现方式可以包括:构建所述文本元素的元素向量;采用所述注意力层根据各个文本元素的语句环境为所述元素向量分配权重,作为所述文本元素对应的第一数据。
在本申请实施例中,为了让机器可以理解目标文本和文本元素,首先需要先对目标文本和文本元素进行编码,构建相应的向量。
不同的语句环境下文本元素的第一数据可能是不同的。在训练过程中,注意力层将为每个文本元素对应的元素向量分配权重,起始时这个权重分配将是不准确的,那么输出的需要进行风控的文本元素将和标记的文本元素标签是不同的,然后将差异进行回传,修正注意力层中的参数,以使注意力层重新分配权重,然后多轮迭代,直至输出结果满足所需的性能。训练好的神经网络模型就学会了文本元素在不同语句环境下的权重,将注意力层分配的权重作为第一数据。在预测过程中,输入目标文本及其文本元素对应的向量,注意力层就可以根据学习到的参数,根据各个文本元素的语句环境为元素向量分配权重,作为文本元素对应的第一数据。
在本申请实施例中,神经网络模型训练好后,针对需要确定第一数据的新输入的目标文本,将目标文本和文本元素输入到神经网络模型中,神经网络模型输出文本元素的第一数据。
步骤404,根据所述第一数据,针对所述文本元素,进行信息提示。
在本申请实施例中,为了便于快速定位目标文本中需要关注的文本元素,根据第一数据对目标文本中的文本元素进行信息提示。例如,第一数据表征文本元素的风险程度,那么对目标文本中风险程度最高的文本元素进行高亮显示,以提示风控人员重点关注该文本元素,加快审核速度。
依据本申请实施例,通过获取目标文本,提取所述目标文本中的文本元素,其中,所述文本元素包括词语、和/或短语、和/或句子,根据神经网络模型,确定所述文本元素对应的第一数据,其中,所述第一数据属于风控类数据,所述神经网络模型包括注意力层,根据所述第一数据,针对所述文本元素,进行信息提示,从而能够对使目标文本中的文本元素进行信息提示,更加精准的定位到风控需要关注的部分,避免了人工搜寻文本元素时的漏报或误报问题,提高了工作效率和质量。
参照图7,示出了根据本申请实施例五的一种风险提示装置实施例的结构框图,具体可以包括:
第一数据确定模块501,用于获取目标文本中的文本元素,确定所述文本元素的第一风险数据;
风险确定模块502,用于根据所述第一风险数据,确定所述目标文本具有风险;
提示模型503,用于根据所述第一风险数据,对至少一个目标文本元素进行风险提示。
在本申请实施例中,可选地,所述第一数据确定模块包括:
第一数据确定子模块,用于以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据,其中,所述风险识别模型包括神经网络模型,所述神经网络模型包括注意力层。
在本申请实施例中,可选地,所述装置还包括:
训练模块,用于在所述以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据之前,采用标记风险数据的文本样本,训练所述风险识别模型。
在本申请实施例中,可选地,所述装置还包括:
类别获取模块,用于在所述获取目标文本中的文本元素,确定所述文本元素的第一风险数据之前,获取所述目标文本对应的风险类别;
模型选取模块,用于选取针对所述风险类别的风险识别模型。
在本申请实施例中,可选地,所述第一数据确定模块包括:
提取子模块,用于从文本中提取所述目标文本;
分词子模块,用于对所述目标文本进行分词,得到文本元素。
在本申请实施例中,可选地,所述风险确定模块包括:
加权处理子模块,用于对所述第一风险数据进行加权处理,得到所述目标文本的第二风险数据;
风险确定子模块,用于根据所述第二风险数据以及文本元素对应的元素向量,确定所述目标文本是否具有风险。
在本申请实施例中,可选地,所述装置还包括:
向量构建模块,用于在所述根据所述第二风险数据以及文本元素对应的元素向量,确定所述目标文本是否具有风险之前,构建所述文本元素的元素向量。
在本申请实施例中,可选地,所述提示模块包括:
目标元素确定子模块,用于确定所述第一风险数据符合预设条件的至少一个文本元素,并以所述至少一个文本元素作为使所述目标文本具有风险的目标文本元素;
元素添加子模块,用于在所述目标文本元素的对应位置处添加用于提示的预设展示元素。
在本申请实施例中,可选地,所述装置还包括:
样式属性选取模块,用于在所述在所述目标文本元素的对应位置处添加用于提示的预设展示元素之前,根据所述目标文本元素的第一风险数据,选取所述预设展示元素的样式属性;
添加模块,用于根据所述样式属性,添加所述预设展示元素。
在本申请实施例中,可选地,所述目标文本具有多种风险类别的风险,所述装置还包括:
类别确定模块,用于在所述在所述目标文本元素的对应位置处添加用于提示的预设展示元素之前,将所述目标文本具有的目标风险类别,确定为所述目标文本元素具有的目标风险类别;
元素选取模块,用于选取与所述目标风险类别对应的预设展示元素。
在本申请实施例中,可选地,所述提示模块包括:
数据展示子模块,用于对所述目标文本元素的第一风险数据进行展示。
依据本申请实施例,通过获取目标文本中的文本元素,确定所述文本元素的第一风险数据,根据所述第一风险数据,确定所述目标文本具有风险,根据所述第一风险数据,对至少一个目标文本元素进行风险提示,从而能够对使目标文本具有风险的至少一个目标文本元素进行提示,更加精准的定位到具有风险的部分,避免了人工搜寻目标文本元素时的漏报或误报问题,提高了工作效率和质量。
参照图8,示出了根据本申请实施例六的一种信息提示装置实施例的结构框图,具体可以包括:
文本获取模块601,用于获取目标文本;
元素提取模块602,用于提取所述目标文本中的文本元素,其中,所述文本元素包括词语、和/或短语、和/或句子;
数据确定模块603,用于根据神经网络模型,确定所述文本元素对应的第一数据,其中,所述第一数据属于风控类数据,所述神经网络模型包括注意力层;
提示模块604,用于根据所述第一数据,针对所述文本元素,进行信息提示。
在本申请实施例中,可选地,所述数据确定模块包括:
向量构建子模块,用于构建所述文本元素的元素向量;
权重分配子模块,用于采用所述注意力层根据各个文本元素的语句环境为所述元素向量分配权重,作为所述文本元素对应的第一数据。
依据本申请实施例,通过获取目标文本,提取所述目标文本中的文本元素,其中,所述文本元素包括词语、和/或短语、和/或句子,根据神经网络模型,确定所述文本元素对应的第一数据,其中,所述第一数据属于风控类数据,所述神经网络模型包括注意力层,根据所述第一数据,针对所述文本元素,进行信息提示,从而能够对使目标文本中的文本元素进行信息提示,更加精准的定位到风控需要关注的部分,避免了人工搜寻文本元素时的漏报或误报问题,提高了工作效率和质量。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的系统。图9示意性地示出了可被用于实现本公开中所述的各个实施例的示例性系统(或装置)700。
对于一个实施例,图9示出了示例性系统700,该系统具有一个或多个处理器702、被耦合到(一个或多个)处理器702中的至少一个的系统控制模块(芯片组)704、被耦合到系统控制模块704的系统存储器706、被耦合到系统控制模块704的非易失性存储器(NVM)/存储设备708、被耦合到系统控制模块704的一个或多个输入/输出设备710,以及被耦合到系统控制模块706的网络接口712。
处理器702可包括一个或多个单核或多核处理器,处理器702可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,系统700能够作为本申请实施例中所述的浏览器。
在一些实施例中,系统700可包括具有指令的一个或多个计算机可读介质(例如,系统存储器706或NVM/存储设备708)以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本公开中所述的动作的一个或多个处理器702。
对于一个实施例,系统控制模块704可包括任意适当的接口控制器,以向(一个或多个)处理器702中的至少一个和/或与系统控制模块704通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块704可包括存储器控制器模块,以向系统存储器706提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
系统存储器706可被用于例如为系统700加载和存储数据和/或指令。对于一个实施例,系统存储器706可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器706可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块704可包括一个或多个输入/输出控制器,以向NVM/存储设备708及(一个或多个)输入/输出设备710提供接口。
例如,NVM/存储设备708可被用于存储数据和/或指令。NVM/存储设备708可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备708可包括在物理上作为系统700被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备708可通过网络经由(一个或多个)输入/输出设备710进行访问。
(一个或多个)输入/输出设备710可为系统700提供接口以与任意其他适当的设备通信,输入/输出设备710可以包括通信组件、音频组件、传感器组件等。网络接口712可为系统700提供接口以通过一个或多个网络通信,系统700可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器702中的至少一个可与系统控制模块704的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器702中的至少一个可与系统控制模块704的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器702中的至少一个可与系统控制模块704的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器702中的至少一个可与系统控制模块704的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统700可以但不限于是:浏览器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统700可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统700包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,如果显示器包括触摸面板,显示屏可以被实现为触屏显示器,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在终端设备时,可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。
在一个示例中提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如本申请实施例的方法。
在一个示例中还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本申请实施例的一个或多个的方法。
本申请实施例公开了一种风险提示方法和装置,示例1包括一种风险提示方法,包括:
获取目标文本中的文本元素,确定所述文本元素的第一风险数据;
根据所述第一风险数据,确定所述目标文本具有风险;
根据所述第一风险数据,对至少一个目标文本元素进行风险提示。
示例2可包括示例1所述的方法,其中,所述确定所述文本元素的第一风险数据包括:
以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据,其中,所述风险识别模型包括神经网络模型,所述神经网络模型包括注意力层。
示例3可包括示例1和/或示例2所述的方法,其中,在所述以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据之前,所述方法还包括:
采用标记风险数据的文本样本,训练所述风险识别模型。
示例4可包括示例1-示例3一个或多个所述的方法,其中,在所述获取目标文本中的文本元素,确定所述文本元素的第一风险数据之前,所述方法还包括:
获取所述目标文本对应的风险类别;
选取针对所述风险类别的风险识别模型。
示例5可包括示例1-示例4一个或多个所述的方法,其中,所述获取目标文本中的文本元素包括:
从文本中提取所述目标文本;
对所述目标文本进行分词,得到文本元素。
示例6可包括示例1-示例5一个或多个所述的方法,其中,所述根据所述第一风险数据,确定所述目标文本具有风险包括:
对所述第一风险数据进行加权处理,得到所述目标文本的第二风险数据;
根据所述第二风险数据以及文本元素对应的元素向量,确定所述目标文本是否具有风险。
示例7可包括示例1-示例6一个或多个所述的方法,其中,在所述根据所述第二风险数据以及文本元素对应的元素向量,确定所述目标文本是否具有风险之前,所述方法还包括:
构建所述文本元素的元素向量。
示例8可包括示例1-示例7一个或多个所述的方法,其中,所述根据所述第一风险数据,对至少一个目标文本元素进行风险提示包括:
确定所述第一风险数据符合预设条件的至少一个文本元素,并以所述至少一个文本元素作为使所述目标文本具有风险的目标文本元素;
在所述目标文本元素的对应位置处添加用于提示的预设展示元素。
示例9可包括示例1-示例8一个或多个所述的方法,其中,在所述在所述目标文本元素的对应位置处添加用于提示的预设展示元素之前,所述方法还包括:
根据所述目标文本元素的第一风险数据,选取所述预设展示元素的样式属性;
根据所述样式属性,添加所述预设展示元素。
示例10可包括示例1-示例9一个或多个所述的方法,其中,所述目标文本具有多种风险类别的风险,在所述在所述目标文本元素的对应位置处添加用于提示的预设展示元素之前,所述方法还包括:
将所述目标文本具有的目标风险类别,确定为所述目标文本元素具有的目标风险类别;
选取与所述目标风险类别对应的预设展示元素。
示例11可包括示例1-示例10一个或多个所述的方法,其中,所述根据所述第一风险数据,对至少一个目标文本元素进行风险提示包括:
对所述目标文本元素的第一风险数据进行展示。
示例12包括一种信息提示方法,包括:
获取目标文本;
提取所述目标文本中的文本元素,其中,所述文本元素包括词语、和/或短语、和/或句子;
根据神经网络模型,确定所述文本元素对应的第一数据,其中,所述第一数据属于风控类数据,所述神经网络模型包括注意力层;
根据所述第一数据,针对所述文本元素,进行信息提示。
示例13可包括示例12所述的方法,其中,所述根据神经网络模型,确定所述文本元素对应的第一数据包括:
构建所述文本元素的元素向量;
采用所述注意力层根据各个文本元素的语句环境为所述元素向量分配权重,作为所述文本元素对应的第一数据。
示例14包括一种风险提示装置,包括:
第一数据确定模块,用于获取目标文本中的文本元素,确定所述文本元素的第一风险数据;
风险确定模块,用于根据所述第一风险数据,确定所述目标文本具有风险;
提示模型,用于根据所述第一风险数据,对至少一个目标文本元素进行风险提示。
示例15可包括示例14所述的装置,其中,所述第一数据确定模块包括:
第一数据确定子模块,用于以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据,其中,所述风险识别模型包括神经网络模型,所述神经网络模型包括注意力层。
示例16可包括示例14和/或示例15所述的装置,其中,所述装置还包括:
训练模块,用于在所述以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据之前,采用标记风险数据的文本样本,训练所述风险识别模型。
示例17可包括示例14-示例16一个或多个所述的装置,其中,所述装置还包括:
类别获取模块,用于在所述获取目标文本中的文本元素,确定所述文本元素的第一风险数据之前,获取所述目标文本对应的风险类别;
模型选取模块,用于选取针对所述风险类别的风险识别模型。
示例18可包括示例14-示例17一个或多个所述的装置,其中,所述第一数据确定模块包括:
提取子模块,用于从文本中提取所述目标文本;
分词子模块,用于对所述目标文本进行分词,得到文本元素。
示例19可包括示例14-示例18一个或多个所述的装置,其中,所述风险确定模块包括:
加权处理子模块,用于对所述第一风险数据进行加权处理,得到所述目标文本的第二风险数据;
风险确定子模块,用于根据所述第二风险数据以及文本元素对应的元素向量,确定所述目标文本是否具有风险。
示例20可包括示例14-示例19一个或多个所述的装置,其中,所述装置还包括:
向量构建模块,用于在所述根据所述第二风险数据以及文本元素对应的元素向量,确定所述目标文本是否具有风险之前,构建所述文本元素的元素向量。
示例21可包括示例14-示例20一个或多个所述的装置,其中,所述提示模块包括:
目标元素确定子模块,用于确定所述第一风险数据符合预设条件的至少一个文本元素,并以所述至少一个文本元素作为使所述目标文本具有风险的目标文本元素;
元素添加子模块,用于在所述目标文本元素的对应位置处添加用于提示的预设展示元素。
示例22可包括示例14-示例21一个或多个所述的装置,其中,所述装置还包括:
样式属性选取模块,用于在所述在所述目标文本元素的对应位置处添加用于提示的预设展示元素之前,根据所述目标文本元素的第一风险数据,选取所述预设展示元素的样式属性;
添加模块,用于根据所述样式属性,添加所述预设展示元素。
示例23可包括示例14-示例22一个或多个所述的装置,其中,所述目标文本具有多种风险类别的风险,所述装置还包括:
类别确定模块,用于在所述在所述目标文本元素的对应位置处添加用于提示的预设展示元素之前,将所述目标文本具有的目标风险类别,确定为所述目标文本元素具有的目标风险类别;
元素选取模块,用于选取与所述目标风险类别对应的预设展示元素。
示例24可包括示例14-示例23一个或多个所述的装置,其中,所述提示模块包括:
数据展示子模块,用于对所述目标文本元素的第一风险数据进行展示。
示例25包括一种信息提示装置,包括:
文本获取模块,用于获取目标文本;
元素提取模块,用于提取所述目标文本中的文本元素,其中,所述文本元素包括词语、和/或短语、和/或句子;
数据确定模块,用于根据神经网络模型,确定所述文本元素对应的第一数据,其中,所述第一数据属于风控类数据,所述神经网络模型包括注意力层;
提示模块,用于根据所述第一数据,针对所述文本元素,进行信息提示。
示例26可包括示例25所述的装置,其中,所述数据确定模块包括:
向量构建子模块,用于构建所述文本元素的元素向量;
权重分配子模块,用于采用所述注意力层根据各个文本元素的语句环境为所述元素向量分配权重,作为所述文本元素对应的第一数据。
示例27包括一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如示例1-13一个或多个的方法。
示例28包括一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如示例1-13一个或多个的方法。
虽然某些实施例是以说明和描述为目的的,各种各样的替代、和/或、等效的实施方案、或计算来达到同样的目的实施例示出和描述的实现,不脱离本申请的实施范围。本申请旨在覆盖本文讨论的实施例的任何修改或变化。因此,显然本文描述的实施例仅由权利要求和它们的等同物来限定。
Claims (15)
1.一种风险提示方法,其特征在于,包括:
获取目标文本中的文本元素,确定所述文本元素的第一风险数据;
根据所述第一风险数据,确定所述目标文本具有风险;
根据所述第一风险数据,对至少一个目标文本元素进行风险提示。
2.根据权利要求1所述的方法,其特征在于,所述确定所述文本元素的第一风险数据包括:
以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据,其中,所述风险识别模型包括神经网络模型,所述神经网络模型包括注意力层。
3.根据权利要求2所述的方法,其特征在于,在所述以所述目标文本及其中的文本元素作为输入内容,根据风险识别模型,确定所述文本元素相对目标文本的第一风险数据之前,所述方法还包括:
采用标记风险数据的文本样本,训练所述风险识别模型。
4.根据权利要求2所述的方法,其特征在于,在所述获取目标文本中的文本元素,确定所述文本元素的第一风险数据之前,所述方法还包括:
获取所述目标文本对应的风险类别;
选取针对所述风险类别的风险识别模型。
5.根据权利要求1所述的方法,其特征在于,所述获取目标文本中的文本元素包括:
从文本中提取所述目标文本;
对所述目标文本进行分词,得到文本元素。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一风险数据,确定所述目标文本具有风险包括:
对所述第一风险数据进行加权处理,得到所述目标文本的第二风险数据;
根据所述第二风险数据以及文本元素对应的元素向量,确定所述目标文本是否具有风险。
7.根据权利要求6所述的方法,其特征在于,在所述根据所述第二风险数据以及文本元素对应的元素向量,确定所述目标文本是否具有风险之前,所述方法还包括:
构建所述文本元素的元素向量。
8.根据权利要求1所述的方法,其特征在于,所述根据所述第一风险数据,对至少一个目标文本元素进行风险提示包括:
确定所述第一风险数据符合预设条件的至少一个文本元素,并以所述至少一个文本元素作为使所述目标文本具有风险的目标文本元素;
在所述目标文本元素的对应位置处添加用于提示的预设展示元素。
9.根据权利要求8所述的方法,其特征在于,在所述在所述目标文本元素的对应位置处添加用于提示的预设展示元素之前,所述方法还包括:
根据所述目标文本元素的第一风险数据,选取所述预设展示元素的样式属性;
根据所述样式属性,添加所述预设展示元素。
10.根据权利要求8所述的方法,其特征在于,所述目标文本具有多种风险类别的风险,在所述在所述目标文本元素的对应位置处添加用于提示的预设展示元素之前,所述方法还包括:
将所述目标文本具有的目标风险类别,确定为所述目标文本元素具有的目标风险类别;
选取与所述目标风险类别对应的预设展示元素。
11.根据权利要求1所述的方法,其特征在于,所述根据所述第一风险数据,对至少一个目标文本元素进行风险提示包括:
对所述目标文本元素的第一风险数据进行展示。
12.一种信息提示方法,其特征在于,包括:
获取目标文本;
提取所述目标文本中的文本元素,其中,所述文本元素包括词语、和/或短语、和/或句子;
根据神经网络模型,确定所述文本元素对应的第一数据,其中,所述第一数据属于风控类数据,所述神经网络模型包括注意力层;
根据所述第一数据,针对所述文本元素,进行信息提示。
13.根据权利要求12所述的方法,其特征在于,所述根据神经网络模型,确定所述文本元素对应的第一数据包括:
构建所述文本元素的元素向量;
采用所述注意力层根据各个文本元素的语句环境为所述元素向量分配权重,作为所述文本元素对应的第一数据。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-13一个或多个的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-13一个或多个的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395520.XA CN112015999A (zh) | 2019-05-13 | 2019-05-13 | 风险提示方法、信息提示方法、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395520.XA CN112015999A (zh) | 2019-05-13 | 2019-05-13 | 风险提示方法、信息提示方法、计算机设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112015999A true CN112015999A (zh) | 2020-12-01 |
Family
ID=73500352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910395520.XA Pending CN112015999A (zh) | 2019-05-13 | 2019-05-13 | 风险提示方法、信息提示方法、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112015999A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113034000A (zh) * | 2021-03-24 | 2021-06-25 | 数贸科技(北京)有限公司 | 一种风控处理方法、装置、计算设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117462A (zh) * | 2015-08-24 | 2015-12-02 | 北京锐安科技有限公司 | 一种敏感词检查方法和装置 |
CN105956740A (zh) * | 2016-04-19 | 2016-09-21 | 北京深度时代科技有限公司 | 一种基于文本逻辑特征的语义风险计算方法 |
CN107222865A (zh) * | 2017-04-28 | 2017-09-29 | 北京大学 | 基于可疑行为识别的通讯诈骗实时检测方法和系统 |
CN108280130A (zh) * | 2017-12-22 | 2018-07-13 | 中国电子科技集团公司第三十研究所 | 一种在文本大数据中发现敏感数据的方法 |
CN108287823A (zh) * | 2018-02-07 | 2018-07-17 | 平安科技(深圳)有限公司 | 消息数据处理方法、装置、计算机设备和存储介质 |
-
2019
- 2019-05-13 CN CN201910395520.XA patent/CN112015999A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117462A (zh) * | 2015-08-24 | 2015-12-02 | 北京锐安科技有限公司 | 一种敏感词检查方法和装置 |
CN105956740A (zh) * | 2016-04-19 | 2016-09-21 | 北京深度时代科技有限公司 | 一种基于文本逻辑特征的语义风险计算方法 |
CN107222865A (zh) * | 2017-04-28 | 2017-09-29 | 北京大学 | 基于可疑行为识别的通讯诈骗实时检测方法和系统 |
CN108280130A (zh) * | 2017-12-22 | 2018-07-13 | 中国电子科技集团公司第三十研究所 | 一种在文本大数据中发现敏感数据的方法 |
CN108287823A (zh) * | 2018-02-07 | 2018-07-17 | 平安科技(深圳)有限公司 | 消息数据处理方法、装置、计算机设备和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113034000A (zh) * | 2021-03-24 | 2021-06-25 | 数贸科技(北京)有限公司 | 一种风控处理方法、装置、计算设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190311210A1 (en) | Automated extraction of product attributes from images | |
CN107423278B (zh) | 评价要素的识别方法、装置及系统 | |
CN110175609B (zh) | 界面元素检测方法、装置及设备 | |
CN105069041A (zh) | 基于视频用户性别分类的广告投放方法 | |
US12051256B2 (en) | Entry detection and recognition for custom forms | |
CN111738252B (zh) | 图像中的文本行检测方法、装置及计算机系统 | |
CN111651981A (zh) | 数据的审核方法、装置及设备 | |
CN114663904A (zh) | 一种pdf文档布局检测方法、装置、设备及介质 | |
CN112948575A (zh) | 文本数据处理方法、装置和计算机可读存储介质 | |
CN110363206B (zh) | 数据对象的聚类、数据处理及数据识别方法 | |
CN111291551B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN116109373A (zh) | 金融产品的推荐方法、装置、电子设备和介质 | |
CN111986259B (zh) | 颜文字检测模型的训练、视频数据的审核方法及相关装置 | |
CN113837836A (zh) | 模型推荐方法、装置、设备及存储介质 | |
CN112015999A (zh) | 风险提示方法、信息提示方法、计算机设备、存储介质 | |
CN110765872A (zh) | 一种基于视觉特征的在线数学教育资源分类方法 | |
US11232325B2 (en) | Data analysis system, method for controlling data analysis system, and recording medium | |
CN115775386A (zh) | 用户界面组件的识别方法、装置、计算机设备和存储介质 | |
US11455179B1 (en) | Processing system and processing method for performing emphasis process on button object of user interface | |
CN116050382A (zh) | 章节检测方法、装置、电子设备和存储介质 | |
CN115168575A (zh) | 应用于审计领域的主语补全方法及相关设备 | |
CN114741494A (zh) | 问答方法、装置、设备及介质 | |
CN114417860A (zh) | 一种信息检测方法、装置及设备 | |
CN112231655B (zh) | 一种数据处理方法、计算机设备、存储介质 | |
CN113569741A (zh) | 图像试题的答案生成方法、装置、电子设备及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |