CN107871088A - 一种信息处理方法、装置、终端和计算机可读存储介质 - Google Patents
一种信息处理方法、装置、终端和计算机可读存储介质 Download PDFInfo
- Publication number
- CN107871088A CN107871088A CN201711124275.6A CN201711124275A CN107871088A CN 107871088 A CN107871088 A CN 107871088A CN 201711124275 A CN201711124275 A CN 201711124275A CN 107871088 A CN107871088 A CN 107871088A
- Authority
- CN
- China
- Prior art keywords
- ugc
- sensitive content
- sensitive
- content
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6263—Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提出一种信息处理方法、装置、终端和计算机可读存储介质,方法包括:用户终端获取UGC、及UGC产生过程中的行为数据;用户终端根据UGC产生过程中的行为数据,并利用UGC敏感内容预测模型对UGC进行敏感内容预测,获得针对UGC的敏感内容预测结果;在敏感内容预测结果表征UGC未通过敏感内容预测时,生成提示信息,提示信息用于提示用户提交的UGC存在敏感内容。通过实施本发明,使敏感内容检测不过度依赖于服务器端和网络交互,在用户终端侧即能实现一定程度的UGC敏感内容预测,不仅减轻服务器端负担,也提升了用户提交UGC的审核响应时效;基于UGC产生过程中的行为数据进行UGC敏感内容预测,使UGC敏感内容判定的形式不再单一,有利于提升敏感内容判定的准确率。
Description
技术领域
本发明涉及用户创作内容(UGC,User Generated Content)的信息处理技术领域,尤其涉及一种信息处理方法、装置、终端和计算机可读存储介质。
背景技术
UGC属于互联网技术术语,是指用户创作内容,即用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。UGC敏感内容检测一直是内容平台必备的技术手段。现有的UGC敏感内容检测流程参见图1所示,通常是在用户通过终端提交UGC内容给服务器端时,服务器端直接对UGC内容利用敏感内容库、或敏感内容检测规则、或基于前述二者训练的机器学习模型来进行判定;若判定符合UGC发布要求,则服务器端进行UGC发布;若判定不符合UGC发布要求,则提示用户,并在用户修改UGC后重新利用敏感内容库、或敏感内容检测规则、或基于前述二者训练的机器学习模型来进行判定;服务器端只允许发布符合要求的UGC。现有技术存在至少以下技术缺陷:
1、每次的UGC敏感内容检测都依赖于服务器端,即必须要依赖于至少一次的网络交互才能完成;
2、UGC敏感内容检测的准确率不高;
3、需要较多的人工干预,有很多UGC需要靠人工召回重新筛选补充敏感内容到服务器端检测的规则或模型中。
发明内容
本发明实施例提供一种信息处理方法、装置、终端和计算机可读存储介质,以至少解决现有技术中以上技术问题的其中之一。
第一方面,本发明实施例提供了一种信息处理方法,包括:
用户终端获取用户创作内容(UGC)、以及所述UGC产生过程中的行为数据;
所述用户终端根据所述UGC产生过程中的行为数据,并利用UGC敏感内容预测模型对所述UGC进行敏感内容预测,获得针对所述UGC的敏感内容预测结果;
在所述敏感内容预测结果表征所述UGC未通过敏感内容预测时,生成提示信息,所述提示信息用于提示用户提交的UGC存在敏感内容。
结合第一方面,本发明在第一方面的第一种实施方式中,在所述生成提示信息后,所述方法还包括:
获得修改后的UGC,并根据所述UGC修改过程中的行为数据,利用UGC敏感内容预测模型对所述修改后的UGC进行敏感内容预测,获得针对所述修改后的UGC的敏感内容预测结果,所述敏感内容预测结果用于表征所述修改后的UGC是否通过敏感内容预测。
结合第一方面或第一方面的第一种实施方式,本发明在第一方面的第二实施方式中,还包括:
所述用户终端发送通过敏感内容预测的UGC到服务器端,供所述服务器端利用敏感内容过滤模型进行UGC敏感内容过滤,获得最终的UGC敏感内容检测结果,所述最终的UGC敏感内容检测结果用于表征所述UGC是否通过所述服务器端的UGC敏感内容检测。
结合第一方面的第二实施方式,本发明在第一方面的第三实施方式中,还包括:
若通过敏感内容预测的UGC存在对应的历史版本UGC,所述用户终端将所述对应的历史版本UGC也随所述通过敏感内容预测的UGC一同发送到所述服务器端,供所述服务器端进行所述敏感内容过滤模型的更新训练。
结合第一方面的第三实施方式,本发明在第一方面的第四实施方式中,所述历史版本UGC以快照的形式保存在所述用户终端。
结合第一方面或第一方面的第一实施方式,在本发明第一方面的第五实施方式中,还包括:
根据预设的行为数据样本,并通过学习训练获得所述UGC敏感内容预测模型;或者,
根据预设的敏感内容库、敏感内容判定规则、以及行为数据样本,并通过学习训练获得所述UGC敏感内容预测模型。
结合第一方面或第一方面的第一实施方式,在本发明第一方面的第六实施方式中,
所述行为数据包括以下一种或多种的组合:
用户浏览行为数据、用户操作路径、用户手势、用户语音、用户视频、用户终端的摄像头使用情况、UGC的输入方式、UGC的整体操作时长、用户终端的抖动数据、用户登录账号、IP地址。
第二方面,本发明实施例提供了一种信息处理装置,包括:
数据获取单元,用于获取用户终端上的用户创作内容(UGC)、以及所述UGC产生过程中的行为数据;
敏感内容预测单元,用于根据所述UGC产生过程中的行为数据,并利用UGC敏感内容预测模型对所述UGC进行敏感内容预测,获得针对所述UGC的敏感内容预测结果;
提示单元,用于在所述敏感内容预测结果表征所述UGC未通过敏感内容预测时,生成提示信息,所述提示信息用于提示用户提交的UGC存在敏感内容。
结合第二方面,在本发明第二方面的第一实施方式中,
所述数据获取单元进一步用于,在所述提示单元生成提示信息后,获得修改后的UGC;
所述敏感内容预测单元进一步用于,根据所述UGC修改过程中的行为数据,利用UGC敏感内容预测模型对所述修改后的UGC进行敏感内容预测,获得针对所述修改后的UGC的敏感内容预测结果,所述敏感内容预测结果用于表征所述修改后的UGC是否通过敏感内容预测。
结合第二方面或第二方面的第一实施方式,在本发明第二方面的第二实施方式中,所述装置还包括:
发送单元,用于发送通过敏感内容预测的UGC到服务器端,供所述服务器端利用敏感内容过滤模型进行UGC敏感内容过滤,获得最终的UGC敏感内容检测结果,所述最终的UGC敏感内容检测结果用于表征所述UGC是否通过所述服务器端的UGC敏感内容检测。
结合第二方面的第二实施方式,在本发明第二方面的第三实施方式中,所述发送单元进一步用于,在通过敏感内容预测的UGC存在对应的历史版本UGC时,将所述对应的历史版本UGC也随所述通过敏感内容预测的UGC一同发送到所述服务器端,供所述服务器端进行所述敏感内容过滤模型的更新训练。
结合第二方面或第二方面的第一实施方式,在本发明第二方面的第四实施方式中,所述UGC敏感内容预测模型通过以下方式获得:
根据预设的行为数据样本,并通过学习训练获得;或者,
根据预设的敏感内容库、敏感内容判定规则、以及行为数据样本,并通过学习训练获得。
所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元。
在一个可能的设计中,信息处理装置的结构中包括处理器和存储器,所述存储器用于存储支持信息处理装置执行上述第一方面中信息处理方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述信息处理装置还可以包括通信接口,用于信息处理装置与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种计算机可读存储介质,用于存储信息处理装置所用的计算机软件指令,其包括用于执行上述第一方面中信息处理方法为信息处理装置所涉及的程序。
上述技术方案中的一个技术方案至少具有如下优点或有益效果:使敏感内容检测不过度依赖于服务器端和网络交互,在用户终端侧即能实现一定程度的UGC敏感内容预测,不仅减轻服务器端负担,也提升了用户提交UGC的审核响应时效。
上述技术方案中的另一个技术方案至少具有如下优点或有益效果:基于UGC产生过程中的行为数据进行UGC敏感内容预测,使得UGC敏感内容判定的形式不再单一,有利于提升敏感内容判定的准确率。
上述技术方案中的再一个技术方案至少具有如下优点或有益效果:通过对UGC提交的各历史版本之间进行演化对比,有利于对UGC敏感内容的真实判定,能有效防范各种敏感内容规避行为。
上述技术方案中的又一个技术方案至少具有如下优点或有益效果:自动根据UGC提交的各历史版本进行UGC敏感内容预测模型和/或UGC敏感内容过滤模型的学习更新,无需人工干预即能实现模型的自动学习更新,实现模型的回溯增强。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为现有技术中的UGC敏感内容检测流程示意图;
图2为本发明实施例一的一种信息处理方法的流程示意图;
图3为本发明实施例三的一种信息处理装置的组成结构示意图;
图4为本发明实施例四的一种终端的组成结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本申请的发明人在实践中发现,导致UGC敏感内容检测的准确率不高的因素,主要体现在至少以下方面:
A、检测普遍缺乏连续性,即每次用户修改敏感内容后的提交版本与用户提交的历史修改版本之间无演化对比,不利于对UGC敏感内容的真实判定;
B、只能基于UGC来做判定,形式单一;
C、用户一旦采取了使用某些特殊替代词汇规避了敏感词检验,服务器端的检测规则或模型针对用户的特殊替代词汇不能及时防范;
有鉴于此,本发明实施例期望提出一种基于UGC的信息处理方法,一方面使敏感内容检测不过度依赖于服务器端和网络交互,在用户终端侧即能实现一定程度的UGC敏感内容预测,不仅减轻服务器端负担,也提升了用户提交UGC的审核响应时效;另一方面,基于UGC产生过程中的行为数据进行UGC敏感内容预测,使得UGC敏感内容判定的形式不再单一,有利于提升敏感内容判定的准确率;再一方面,通过对UGC提交的各历史版本之间进行演化对比,有利于对UGC敏感内容的真实判定,能有效防范各种敏感内容规避行为;又一方面,自动根据UGC提交的各历史版本进行UGC敏感内容预测模型和/或UGC敏感内容过滤模型的学习更新,无需人工干预即能实现模型的自动学习更新(筛选补充敏感内容到服务器端检测的规则或模型中),实现模型的回溯增强。
下面结合具体实施分别阐述本发明为实现上述至少一种发明目的各种实施例。
实施例一
本发明实施例一提供了一种信息处理方法,如图2所示,该方法主要包括:
步骤201,用户终端获取UGC、以及UGC产生过程中的行为数据。
用户制作UGC的方式或途径有很多种,例如,通过账号登录网页版UGC发布平台进行UGC制作和提交、通过账号登录app版UGC发布平台进行UGC制作和提交等等。本发明实施例不对用户制作UGC的方式途径、以及用户终端获取UGC的方式途径进行限制,实际应用中,任何形式的UGC制作、以及用户终端获取UGC,应当都属于本发明实施例的保护范围内。
其中,UGC产生过程中的行为数据是指,与UGC产生过程相关的行为数据,包括但不仅限于UGC产生过程中的用户行为数据、以及用户终端相关信息等等,通常可以包括以下一种或多种的组合:
用户浏览行为数据、用户操作路径、用户手势、用户语音、用户视频、用户终端的摄像头使用情况、UGC的输入方式、UGC的整体操作时长、用户终端的抖动数据、用户登录账号、IP地址等等。本发明实施例的行为数据不仅限于上述所列,实际应用中可以根据具体应用场景需要、以及不同的敏感内容检测需求,对行为数据的内容及其组合方式进行任意扩充和组合,本发明实施例不做过多限制。另外,本发明实施例所述的UGC产生过程,狭义的讲,可以至少包括从用户进入UGC发布界面到UGC制作与提交的全过程;广义的讲,可以包括与产生UGC相关的任何用户执行过程和用户终端实施过程,本发明实施例不做过多限制,可以根据实际应用场景和敏感内容检测需要进行扩充。
其中,用户浏览行为数据是指UGC产生过程中的用户浏览UGC发布平台的行为;用户操作路径是指UGC产生过程中的用户操作的路径,如账户切换等;UGC的输入方式包括键盘输入、复制粘贴输入、语音输入、写字板输入等等;UGC的整体操作时长是指UGC从制作到提交的时长;用户终端的抖动数据是指UGC产生过程中用户终端的抖动监测数据。
步骤202,用户终端根据UGC产生过程中的行为数据,并利用UGC敏感内容预测模型对UGC进行敏感内容预测,获得针对UGC的敏感内容预测结果。
本发明实施例在用户终端侧获取UGC产生过程中的行为数据的目的是,在用户终端侧完成对UGC的敏感内容预测,即首先在用户终端侧预测产生的UGC为敏感内容或包含敏感内容的可能性或概率,此即构成了UGC的敏感内容预测结果。若所述概率超过预设的阈值,则用户终端侧判定产生的UGC为敏感内容或包含敏感内容;若所述概率未超过预设的阈值,则用户判定产生的UGC不是敏感内容或不包含敏感内容。
需要说明的是,用户终端侧做出的UGC的敏感内容预测结果,是用户终端侧至少根据UGC产生过程中的行为数据,利用用户终端侧保存的UGC敏感内容预测模型进行预测的结果,其代表了用户终端侧的判定结果。服务器端可以直接遵循用户终端侧的预测结果,即服务器端不再执行敏感内容的进一步筛选和判定;当然,服务器端也可以仅将用户终端的预测结果作为一个参考,例如作为服务器端进一步筛选和判定敏感内容的一个输入特征,并利用服务器端自有的敏感内容过滤模型进行服务器端的敏感内容再筛选和判定,从而得到最终的UGC敏感内容检测结果。
前述已经对UGC产生过程中的行为数据进行了解释说明,移动终端可以根据行为数据中的至少一种或多种的组合,并利用UGC敏感内容预测模型来进行UGC敏感内容预测,当然,这种行为数据的内容和组合方式取决于UGC敏感内容预测模型的架构和内容。
另外,实际应用中可以根据预设的行为数据样本,并通过学习训练获得UGC敏感内容预测模型;或者,
也可以根据预设的敏感内容库、敏感内容判定规则、以及行为数据样本,并通过学习训练获得UGC敏感内容预测模型。
如果是基于预设的行为数据样本训练获得的UGC敏感内容预测模型,那么,移动终端可以只根据UGC产生过程中的行为数据,并利用UGC敏感内容预测模型对UGC进行敏感内容预测;如果是基于预设的敏感内容库、敏感内容判定规则、以及行为数据样本训练获得的UGC敏感内容预测模型,那么,移动终端需要根据UGC产生过程中的行为数据,并结合UGC的具体内容,并利用UGC敏感内容预测模型对UGC进行敏感内容预测,也就是说,后一种敏感内容预测方式可能会涉及对UGC的敏感词过滤等一系列与内容有关的筛选和判定过程,而前一种敏感内容预测方式则无需涉及与UGC的内容有关的筛选和判定过程,而只是基于UGC产生过程中的行为数据做出的预测。
步骤203,在敏感内容预测结果表征UGC未通过敏感内容预测时,生成提示信息,提示信息用于提示用户提交的UGC存在敏感内容。
如果用户终端侧的敏感内容预测结果显示产生的UGC为敏感内容或存在敏感内容,则在用户终端侧直接生成提示信息,提示用户提交的UGC存在敏感内容,要求用户进行UGC的内容修改。这样,也就无需用户终端侧与服务器侧的交互过程,无需联网,在用户终端侧本地即完成了UGC敏感内容的预测。
如果用户终端侧的敏感内容预测结果显示产生的UGC不为敏感内容或不存在敏感内容,则用户终端可以将UGC发送到服务器端,服务器端要么直接根据用户终端侧的预测结果进行UGC发布,要么根据用户终端侧的预测结果做进一步的敏感内容过滤,并根据服务器端最终的敏感内容检测结果,决定是否进行UGC发布。具体的,如果最终的敏感内容检测结果表征UGC不为敏感内容或不存在敏感内容,则服务器端进行UGC发布;如果最终的敏感内容检测结果表征UGC为敏感内容或存在敏感内容,则服务器端生成提示信息并反馈给用户终端,以提示用户进行UGC修改,或者干脆屏蔽该UGC或转为人工判定;总之无论如何修改UGC,只有既通过用户终端侧敏感内容预测、以及服务器端敏感内容过过滤的UGC才被允许在服务器端进行发布。
另外,在步骤203中,在移动终端侧生成提示信息后,该方法还包括:
获得用户修改后的UGC,并根据UGC修改过程中的行为数据,利用UGC敏感内容预测模型对修改后的UGC进行敏感内容预测,获得针对修改后的UGC的敏感内容预测结果,敏感内容预测结果用于表征修改后的UGC是否通过敏感内容预测。
在移动终端侧生成提示信息后,如果用户修改UGC后重新提交,那么移动终端继续利用UGC敏感内容预测模型对修改后的UGC进行敏感内容预测,从而判定修改后的UGC是否通过敏感内容预测。针对修改后的UGC的敏感内容预测,可以只依据UGC修改过程中的行为数据,也可以结合UGC修改过程中的行为数据以及相关的历史版本的UGC生产过程中的行为数据,总之根据实际应用场景和预测需求来定。
对于通过敏感内容预测的UGC,移动终端会发送此UGC到服务器端,供服务器端利用敏感内容过滤模型进行UGC敏感内容过滤,获得最终的UGC敏感内容检测结果,最终的UGC敏感内容检测结果用于表征UGC是否通过服务器端的UGC敏感内容检测。前面已经介绍,此处不再赘述。
另外,若通过敏感内容预测的UGC存在对应的历史版本UGC,即通过敏感内容预测的UGC为修改版的UGC,那么,用户终端将所述对应的历史版本UGC也随通过敏感内容预测的UGC一同发送到服务器端,供服务器端进行敏感内容过滤模型的更新训练。用户修改UGC的行为很可能是通过一定的规避手段(替代词、缩写,火星文,富豪文,颜文字、将文字转换为图片等,还包括将一些营销联系方式进行转码)使修改后的UGC通过了敏感内容预测,这时可将一系列替换行为和内容收集用于重新训练敏感内容过滤模型的数据和特征,可以将重新训练好的敏感内容过滤模型重新替换现有模型以实现模型的自我替换与增强。当然,本发明实施例也不仅限于服务器端的模型自我替换与增强,如果用户终端侧的预测模型有自我增强的需求,也可以根据各种历史版本的UGC实现用户终端侧模型的自我替换与增强,此过程无需人工干预,完全由服务器端或用户终端侧自动完成模型的替换与增强。
通过实施本发明的实施例一,敏感内容检测不过度依赖于服务器端和网络交互,在用户终端侧即能实现一定程度的UGC敏感内容预测,不仅减轻服务器端负担,也提升了用户提交UGC的审核响应时效;另外,基于UGC产生过程中的行为数据进行UGC敏感内容预测,使得UGC敏感内容判定的形式不再单一,有利于提升敏感内容判定的准确率;再有,通过对UGC提交的各历史版本之间进行演化对比,有利于对UGC敏感内容的真实判定,能有效防范各种敏感内容规避行为;最后,自动根据UGC提交的各历史版本进行UGC敏感内容预测模型和/或UGC敏感内容过滤模型的学习更新,无需人工干预即能实现模型的自动学习更新(筛选补充敏感内容到服务器端检测的规则或模型中),实现模型的回溯增强。
实施例二
本发明实施例二以移动终端为例,阐述一些应用于移动终端侧的UGC敏感内容预测的实施实例。在本实施例二中,移动终端侧预设有用于UGC敏感内容预测的模型,该模型不包括对UGC内容中的敏感词的过滤部分,也就是说,在移动终端侧不实施对UGC的敏感词过滤,敏感词过滤由服务器端来实施。当然,这并不意味着本发明放弃可在移动终端侧实施对UGC的敏感词过滤的实施方式。
首先,用户通过账号登录移动终端上的UGC发布平台,制作UGC并提交。在UGC的产生过程中,移动终端会记录UGC产生过程中的行为数据。
其次,在用户触发提交UGC时,移动终端根据UGC产生过程中的行为数据,并利用UGC敏感内容预测模型对UGC进行敏感内容预测,获得针对UGC的敏感内容预测结果。具体可包括但不限于以下预测(可根据实际需要进行扩充):
1、预测是否机器操作:存在以下的情况可以判定为是机器在刷内容,包括:从开始激活输入框到点击提交按钮,在没有使用复制粘贴的情况下,根据产生的内容的时长远远小于人类的输入平均速度,即可认为是机器行为;
或者,用户在提交内容时,设备处于充电状态的时长(超过几十小时等),极高可能为长期通电刷内容的机器;
2、是否重复刷内容:针对同一设备,不停的切换账户产生同样的UCG内容,存在散布营销信息的可能性极高;
或者,类似针对信息、新闻、视频等内容作评论时,用户进入内容页到触发评论输入框而后录入内容到提交的整体时间远远小于人类浏览内容后再发表评论的时间,则可以视为有针对性的刷评论、广告等;
3、用户在制作UGC内容输入时,移动设备是否有抖动,如无抖动,则可判定是机器录入,如有抖动,则可判定是人为录入;判定移动设备是否有抖动的方式有多种,例如根据移动设备的陀螺仪采集数据来判定等等,本发明实施例不做限制;
4、视频点击刷量筛查:某些剧集或者视频的点击来自于某一区域的IP占比过高,或者查看IP的地区分布,某些地区分布极其不合理,例如来自宁夏或者青海的分布远远大于北、上、广。
需要说明的是,具体的预测内容方式是可以根据实际需要进行扩展的,本发明实施例并不仅限于此处所举示例。
如果移动终端侧的敏感内容预测结果显示产生的UGC为敏感内容或存在敏感内容,则在移动终端侧直接生成提示信息,提示用户提交的UGC存在敏感内容,要求用户进行UGC的内容修改。如果移动终端侧的敏感内容预测结果显示产生的UGC不为敏感内容或不存在敏感内容,则移动终端可以将UGC发送到服务器端,服务器端根据移动终端侧的预测结果做进一步的敏感内容过滤,并根据服务器端最终的敏感内容检测结果,决定是否进行UGC发布。
实施例三
对应本发明实施例一的信息处理方法,本发明实施例三还提供了一种信息处理装置,如图3所示,该装置主要包括:
数据获取单元10,用于获取用户终端上的UGC、以及UGC产生过程中的行为数据;
敏感内容预测单元20,用于根据UGC产生过程中的行为数据,并利用UGC敏感内容预测模型对UGC进行敏感内容预测,获得针对UGC的敏感内容预测结果;
提示单元30,用于在敏感内容预测结果表征UGC未通过敏感内容预测时,生成提示信息,提示信息用于提示用户提交的UGC存在敏感内容。
在一种可实施方式中,数据获取单元10进一步用于,在提示单元30生成提示信息后,获得修改后的UGC;
敏感内容预测单元20进一步用于,根据UGC修改过程中的行为数据,利用UGC敏感内容预测模型对修改后的UGC进行敏感内容预测,获得针对修改后的UGC的敏感内容预测结果,敏感内容预测结果用于表征修改后的UGC是否通过敏感内容预测。
在一种可实施方式中,该装置还包括:
发送单元40,用于发送通过敏感内容预测的UGC到服务器端,供服务器端利用敏感内容过滤模型进行UGC敏感内容过滤,获得最终的UGC敏感内容检测结果,最终的UGC敏感内容检测结果用于表征UGC是否通过服务器端的UGC敏感内容检测。
在一种可实施方式中,发送单元40进一步用于,在通过敏感内容预测的UGC存在对应的历史版本UGC时,将对应的历史版本UGC也随通过敏感内容预测的UGC一同发送到服务器端,供服务器端进行敏感内容过滤模型的更新训练。
其中,UGC敏感内容预测模型通过以下方式获得:
根据预设的行为数据样本,并通过学习训练获得;或者,
根据预设的敏感内容库、敏感内容判定规则、以及行为数据样本,并通过学习训练获得。
行为数据可以包括但不限于以下一种或多种的组合:
用户浏览行为数据、用户操作路径、用户手势、用户语音、用户视频、用户终端的摄像头使用情况、UGC的输入方式、UGC的整体操作时长、用户终端的抖动数据、用户登录账号、IP地址。
实施例四
对应本发明实施例一所述的信息处理方法,以及实施例三所述的信息处理装置,本发明的实施例四还提供了一种终端,如图4所示,该终端包括:存储器21和处理器22,存储器21内存储有可在处理器22上运行的计算机程序。处理器22执行所述计算机程序时实现上述实施例中的信息处理方法。存储器21和处理器22的数量可以为一个或多个。
该设备还包括:
通信接口23,用于存储器21和处理器22之间的通信。
存储器21可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器21、处理器22和通信接口23独立实现,则存储器21、处理器22和通信接口23可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器21、处理器22及通信接口23集成在一块芯片上,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (14)
1.一种信息处理方法,其特征在于,所述方法包括:
用户终端获取用户创作内容UGC、以及所述UGC产生过程中的行为数据;
所述用户终端根据所述UGC产生过程中的行为数据,并利用UGC敏感内容预测模型对所述UGC进行敏感内容预测,获得针对所述UGC的敏感内容预测结果;
在所述敏感内容预测结果表征所述UGC未通过敏感内容预测时,生成提示信息,所述提示信息用于提示用户提交的UGC存在敏感内容。
2.根据权利要求1所述的方法,其特征在于,在所述生成提示信息后,所述方法还包括:
获得修改后的UGC,并根据所述UGC修改过程中的行为数据,利用UGC敏感内容预测模型对所述修改后的UGC进行敏感内容预测,获得针对所述修改后的UGC的敏感内容预测结果,所述敏感内容预测结果用于表征所述修改后的UGC是否通过敏感内容预测。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
所述用户终端发送通过敏感内容预测的UGC到服务器端,供所述服务器端利用敏感内容过滤模型进行UGC敏感内容过滤,获得最终的UGC敏感内容检测结果,所述最终的UGC敏感内容检测结果用于表征所述UGC是否通过所述服务器端的UGC敏感内容检测。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若通过敏感内容预测的UGC存在对应的历史版本UGC,所述用户终端将所述对应的历史版本UGC也随所述通过敏感内容预测的UGC一同发送到所述服务器端,供所述服务器端进行所述敏感内容过滤模型的更新训练。
5.根据权利要求4所述的方法,其特征在于,所述历史版本UGC以快照的形式保存在所述用户终端。
6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
根据预设的行为数据样本,并通过学习训练获得所述UGC敏感内容预测模型;或者,
根据预设的敏感内容库、敏感内容判定规则、以及行为数据样本,并通过学习训练获得所述UGC敏感内容预测模型。
7.根据权利要求1或2所述的方法,其特征在于,所述行为数据包括以下一种或多种的组合:
用户浏览行为数据、用户操作路径、用户手势、用户语音、用户视频、用户终端的摄像头使用情况、UGC的输入方式、UGC的整体操作时长、用户终端的抖动数据、用户登录账号、IP地址。
8.一种信息处理装置,其特征在于,所述装置包括:
数据获取单元,用于获取用户终端上的用户创作内容UGC、以及所述UGC产生过程中的行为数据;
敏感内容预测单元,用于根据所述UGC产生过程中的行为数据,并利用UGC敏感内容预测模型对所述UGC进行敏感内容预测,获得针对所述UGC的敏感内容预测结果;
提示单元,用于在所述敏感内容预测结果表征所述UGC未通过敏感内容预测时,生成提示信息,所述提示信息用于提示用户提交的UGC存在敏感内容。
9.根据权利要求8所述的装置,其特征在于,
所述数据获取单元进一步用于,在所述提示单元生成提示信息后,获得修改后的UGC;
所述敏感内容预测单元进一步用于,根据所述UGC修改过程中的行为数据,利用UGC敏感内容预测模型对所述修改后的UGC进行敏感内容预测,获得针对所述修改后的UGC的敏感内容预测结果,所述敏感内容预测结果用于表征所述修改后的UGC是否通过敏感内容预测。
10.根据权利要求8或9所述的装置,其特征在于,所述装置还包括:
发送单元,用于发送通过敏感内容预测的UGC到服务器端,供所述服务器端利用敏感内容过滤模型进行UGC敏感内容过滤,获得最终的UGC敏感内容检测结果,所述最终的UGC敏感内容检测结果用于表征所述UGC是否通过所述服务器端的UGC敏感内容检测。
11.根据权利要求10所述的装置,其特征在于,所述发送单元进一步用于,在通过敏感内容预测的UGC存在对应的历史版本UGC时,将所述对应的历史版本UGC也随所述通过敏感内容预测的UGC一同发送到所述服务器端,供所述服务器端进行所述敏感内容过滤模型的更新训练。
12.根据权利要求8或9所述的装置,其特征在于,所述UGC敏感内容预测模型通过以下方式获得:
根据预设的行为数据样本,并通过学习训练获得;或者,
根据预设的敏感内容库、敏感内容判定规则、以及行为数据样本,并通过学习训练获得。
13.一种终端,其特征在于,所述终端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
14.一种计算机可读介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711124275.6A CN107871088B (zh) | 2017-11-14 | 2017-11-14 | 一种信息处理方法、装置、终端和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711124275.6A CN107871088B (zh) | 2017-11-14 | 2017-11-14 | 一种信息处理方法、装置、终端和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107871088A true CN107871088A (zh) | 2018-04-03 |
CN107871088B CN107871088B (zh) | 2020-07-03 |
Family
ID=61753953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711124275.6A Active CN107871088B (zh) | 2017-11-14 | 2017-11-14 | 一种信息处理方法、装置、终端和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107871088B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985067A (zh) * | 2018-06-07 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 基于自动化回溯的内容处理方法和装置 |
CN109740369A (zh) * | 2018-12-07 | 2019-05-10 | 中国联合网络通信集团有限公司 | 一种信息隐写的检测方法及装置 |
CN111327609A (zh) * | 2020-02-14 | 2020-06-23 | 北京奇艺世纪科技有限公司 | 数据审核方法及装置 |
CN111651436A (zh) * | 2020-04-14 | 2020-09-11 | 海南车智易通信息技术有限公司 | 用户生成内容的处理方法、系统及计算设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090089829A1 (en) * | 2007-07-03 | 2009-04-02 | Sun Woo Park | Method and system for blocking hazardous information |
CN103176984A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种用户生成内容中欺骗性垃圾意见检测方法 |
CN103795612A (zh) * | 2014-01-15 | 2014-05-14 | 五八同城信息技术有限公司 | 即时通讯中的垃圾和违法信息检测方法 |
CN106055701A (zh) * | 2016-06-21 | 2016-10-26 | 武汉斗鱼网络科技有限公司 | 一种论坛内容审核发布方法及装置 |
-
2017
- 2017-11-14 CN CN201711124275.6A patent/CN107871088B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090089829A1 (en) * | 2007-07-03 | 2009-04-02 | Sun Woo Park | Method and system for blocking hazardous information |
CN103176984A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种用户生成内容中欺骗性垃圾意见检测方法 |
CN103795612A (zh) * | 2014-01-15 | 2014-05-14 | 五八同城信息技术有限公司 | 即时通讯中的垃圾和违法信息检测方法 |
CN106055701A (zh) * | 2016-06-21 | 2016-10-26 | 武汉斗鱼网络科技有限公司 | 一种论坛内容审核发布方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985067A (zh) * | 2018-06-07 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 基于自动化回溯的内容处理方法和装置 |
CN109740369A (zh) * | 2018-12-07 | 2019-05-10 | 中国联合网络通信集团有限公司 | 一种信息隐写的检测方法及装置 |
CN111327609A (zh) * | 2020-02-14 | 2020-06-23 | 北京奇艺世纪科技有限公司 | 数据审核方法及装置 |
CN111327609B (zh) * | 2020-02-14 | 2022-09-30 | 北京奇艺世纪科技有限公司 | 数据审核方法及装置 |
CN111651436A (zh) * | 2020-04-14 | 2020-09-11 | 海南车智易通信息技术有限公司 | 用户生成内容的处理方法、系统及计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107871088B (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108628741B (zh) | 网页页面测试方法、装置、电子设备和介质 | |
CN109034660B (zh) | 基于预测模型的风险控制策略的确定方法及相关装置 | |
US20190333118A1 (en) | Cognitive product and service rating generation via passive collection of user feedback | |
CN107871088A (zh) | 一种信息处理方法、装置、终端和计算机可读存储介质 | |
US11514250B2 (en) | Computer-based interlocutor understanding using classifying conversation segments | |
CN106919579B (zh) | 一种信息处理方法及装置、设备 | |
CN107608874A (zh) | 测试方法和装置 | |
CN109218390B (zh) | 用户筛选方法及装置 | |
US20130132851A1 (en) | Sentiment estimation of web browsing user | |
CN104091276A (zh) | 在线分析点击流数据的方法和相关装置及系统 | |
CN105446864B (zh) | 缓存文件删除影响的校验方法、装置及移动终端 | |
CN113590497A (zh) | 业务服务的测试方法、装置、电子设备及存储介质 | |
CN107256428A (zh) | 数据处理方法、数据处理装置、存储设备及网络设备 | |
US20200143000A1 (en) | Customized display of emotionally filtered social media content | |
CN113271322B (zh) | 异常流量的检测方法和装置、电子设备和存储介质 | |
CN109710490A (zh) | 客户端日志的采集方法、装置、存储介质和电子设备 | |
CN107203470B (zh) | 页面调试方法和装置 | |
CN112966865B (zh) | 携号转网预测方法、装置及设备 | |
CN106230809A (zh) | 一种基于url的移动互联网舆情监测方法及系统 | |
CN111695357A (zh) | 文本标注方法及相关产品 | |
CN112995690B (zh) | 直播内容品类识别方法、装置、电子设备和可读存储介质 | |
CN110442803A (zh) | 由计算设备执行的数据处理方法、装置、介质和计算设备 | |
CN110704614B (zh) | 对应用中的用户群类型进行预测的信息处理方法及装置 | |
CN106156093A (zh) | 广告内容的识别方法和装置 | |
CN107135220A (zh) | 欺诈网页检测方法、计算机设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |