CN109783689A - 信息处理方法、装置及电子设备 - Google Patents
信息处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN109783689A CN109783689A CN201811626652.0A CN201811626652A CN109783689A CN 109783689 A CN109783689 A CN 109783689A CN 201811626652 A CN201811626652 A CN 201811626652A CN 109783689 A CN109783689 A CN 109783689A
- Authority
- CN
- China
- Prior art keywords
- information
- violation
- sample
- punishment
- regulations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种信息处理方法、装置及电子设备,涉及直播领域。该包括:获取在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集;由所述信息集内抽取指定比例的信息,作为信息样本;确定所述信息样本中的违规信息,作为违规处理样本;根据所述违规处理样本和信息样本确定所述信息集的违规参数,所述信息集的违规参数用于表示所述信息集中违规信息的占比。因此,本申请实施例采用抽检的方式得到客户端的公屏区域内的信息的违规情况,能够直接提高审核速度,并且间接地通过各种违规信息的占比获取到公屏区域输入的所有信息的真实违规情况,为审核人员和运行人员的决策和判断提供参考依据。
Description
技术领域
本申请涉及直播领域,更具体地,涉及一种信息处理方法、装置及电子设备。
背景技术
网络视频直播是当前最热门的移动互联网应用,直播平台由于直播间的大量增加导致实时数据量巨大,目前各个直播平台针对直播内容的监管时由于直播内容数据量巨大,所需要审核的内容过于庞大,导致无法快速准确地获知直播间的违规情况。
发明内容
本申请提出了一种信息处理方法、装置及电子设备,以改善上述缺陷。
第一方面,本申请实施例提供了一种信息处理方法,包括:获取在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集;由所述信息集内抽取指定比例的信息,作为信息样本;确定所述信息样本中的违规信息,作为违规处理样本;根据所述违规处理样本和信息样本确定所述信息集的违规参数,所述信息集的违规参数用于表示所述信息集中违规信息的占比。
第二方面,本申请实施例还提供了一种信息处理装置,包括:获取单元、抽取单元、确定单元和处理单元。获取单元,用于获取在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集。抽取单元,用于由所述信息集内抽取指定比例的信息,作为信息样本。确定单元,用于确定所述信息样本中的违规信息,作为违规处理样本。处理单元,用于根据所述违规处理样本和信息样本确定所述信息集的违规参数,所述信息集的违规参数用于表示所述信息集中违规信息的占比。
第三方面,本申请实施例还提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述方法。
本申请提供的信息处理方法、装置、电子设备及计算机可读存储介质,对客户端的公屏区域内的信息检测,具体地,采集在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集,然后,从该信息集中抽取指定比例的信息,作为信息样本,并确定该信息样本中违规的信息,将违规信息作为违规处理样本,再根据违规处理样本和信息样本确定所述信息集的违规参数,其中,所述信息集的违规参数用于表示所述信息集中违规信息的占比。因此,本申请实施例采用抽检的方式得到客户端的公屏区域内的信息的违规情况,能够直接提高审核速度,并且间接地通过各种违规信息的占比获取到公屏区域输入的所有信息的真实违规情况,为审核人员和运行人员的决策和判断提供参考依据。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的信息处理方法及装置的应用场景图;
图2示出了本申请一实施例提供的信息处理方法的方法流程图;
图3示出了本申请实施例提供的直播界面的示意图;
图4示出了本申请实施例提供的信息集中各信息的占比的示意图;
图5示出了本申请另一实施例提供的信息处理方法的方法流程图;
图6示出了本申请又一实施例提供的信息处理方法的方法流程图;
图7示出了本申请再一实施例提供的信息处理方法的方法流程图;
图8示出了本申请再又一实施例提供的信息处理方法的方法流程图;
图9示出了本申请再再又一实施例提供的信息处理方法的方法流程图;
图10示出了本申请再再再又一实施例提供的信息处理方法的方法流程图;
图11示出了本申请一实施例提供的信息处理装置的模块框图;
图12示出了本申请实施例提供的电子设备的结构框图;
图13示出了本申请实施例的用于保存或者携带实现根据本申请实施例的信息处理方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
请参阅图1,示出了本申请实施例提供的方法及装置的应用场景图,如图1所示,该客户端安装在电子设备100内,电子设备100和前端服务器 200以及后端服务器300位于无线网络或有线网络中,电子设备100和前端服务器200进行数据交互,并且前端服务器200与后端服务器300也能够进行数据交互。
其中,电子设备100可以为移动电话或智能电话(例如,基于iPhone TM,基于Android TM的电话),便携式游戏设备(例如Nintendo DS TM, PlayStation Portable TM,Gameboy Advance TM,iPhone TM)、膝上型电脑、PDA、便携式互联网设备、音乐视频播放器以及数据存储设备。
在一些实施例中,客户端安装在电子设备100内,例如,该客户端可以是安装在电子设备100的计算机应用程序(Application,APP),也可以是web客户端,该web客户端指基于Web架构而开发的应用程序。用户在客户端通过帐号登录,则该帐号对应的所有信息可以存储在前端服务器200 的存储空间内,其中,该账号对应的信息包括用户通过客户端输入的信息以及用户通过客户端接收的信息等。
则作为一种实施方式,该客户端可以是实时交互应用程序,该客户端具有信息输入界面,用户在该界面内输入信息,并且该信息在客户端的聊天界面内显示,其中,该信息可以包括文本以及图片、视频以及语音等,则该客户端可以是聊天软件、直播软件或者视频播放软件等。
则客户端获取用户输入的信息之后将该信息发送至前端服务器200,前端服务器200将所获取的信息发送至后端服务器300去审核,如果审核通过,就将该信息发布,也就是说,在网络上的其他用户能够接收到该信息,而如果审核不通过,就拦截,从而避免违规信息散播。
但是,发明人在研究中发现,由于客户端内需要被审核的信息过于庞大,则如果要评价一定时间段内的客户端的信息的违规情况,需要对客户端的庞大的信息全部审核,造成审核效率低下。
因此,为了克服上述缺陷,本申请实施例提供了一种信息处理方法,如图2所示,该方法应用于电子设备,该电子设备可以是能够审核客户端内的信息的违规与否的终端,例如,可以是图1中的后端服务器,具体地,该方法包括:S201至S204。
S201:获取在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集。
具体地,客户端内设置有公屏区域,则客户端可以是直播软件,在该客户端内设置有直播界面,如图3所示,在该直播界面内设置有公屏区域 301,用户通过文本输入区域输入的评论信息能够在公屏区域301内显示,则客户端采集直播界面内的公屏区域内的所展示的评论信息。
电子设备采集客户端的公屏区域内的信息,具体地,可以是客户端将每个直播界面内的公屏区域内的信息均上传至电子设备,电子设备将客户端所采集的公屏区域内的信息存储,具体地,可以是将公屏区域内的信息与客户端的每个直播间的标识对应存储,则其中,该公屏区域内的信息可以包括评论信息和用户标识,而评论信息又可以包括文本信息和图片信息,其中,该图片信息可以是用户评论时输入的表情或者插入的图片,而用户标识为在公屏区域内显示的用户名称,例如,图3中的“用户1”为用户标识。
则电子设备能够通过公屏区域内的所有信息获取一定时间段内整个直播平台的信息的违规情况,则电子设备获取预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集,作为一种实施方式,可以是通过预先存储的每个客户端上传的不同直播间内的公屏区域内的信息中,获取在预设时间段内的信息,作为信息集。作为另一种实施方式,可以是实时获取用户通过客户端的公屏区域输入的所有信息,例如,以某一个时间点为起点,获取预设时间长度内,用户通过客户端的公屏区域输入的所有信息,作为信息集,则该预设时间长度对应上述预设时间段。其中,预设时间段可以是用户设定根据实际需求而设定的时间段,也可以是根据对信息的监控周期而设定,例如,每间隔一定周期采集在该周期内客户端的公屏区域内的信息,作为信息集。
S202:由所述信息集内抽取指定比例的信息,作为信息样本。
在获取到预设时间段内公屏区域内的所有信息之后,如果直接对所有信息进行审核的话,会导致审核量过于庞大,则可以对所有信息按照指定比例抽取一定数量的信息作为信息样本。具体地,该指定比例可以根据时间间隔设定,也就是说,由所述信息集内抽取指定比例的信息的方式可以是,以执行S202的时间点为起点,每间隔指定采样时间间隔抽取一定数量的信息,例如,每1分钟抽取一个信息,作为一种实施方式,可以是在该起点之后的1分钟所获取的所有信息中随机抽取一个信息,作为信息样本中的一个信息,依次类推,直至对所有信息抽取完毕。另外,也可以在获取到信息集之后,由信息集中随机抽取指定数量的信息,作为信息样本。
S203:确定所述信息样本中的违规信息,作为违规处理样本。
作为一种实施方式,电子设备内包括审核模块,其中,审核模块的数量可以是1个或多个,而多个审核模块是指两个或两个以上的审核模块。于本申请实施例中,所述审核模块的数量为多个,各个审核模块的审核策略不全相同,从而能够保证以多种不同的审核策略对待审核的内容审核,以使所审核得到的结果更加准确。具体地,该多个审核模块可以包括正则模块、分类审核模块和内容匹配模块。所述正则模块用于查找违规处理样本中的信息是否包括指定内容,如果包括,则确定该信息违规,可以反馈一个该信息确定违规的审核结果。所述分类审核模块用于确定信息所属类别,如果所属类别为指定类别,则确定该信息违规,且反馈一个该信息确定违规的审核结果。所述内容匹配模块用于判断所述信息是否与指定内容匹配,如果匹配,则确定该信息违规,且反馈一个该信息确定违规的审核结果。
其中,正则模块为根据正则表达式判断待审核的内容当中是否包括某些指定的内容,正则表达式(也称为“regex”或“regexp”)是一种描述文本字符串或模式的方式,这样程序就可以将该模式与任意文本字符串相匹配,具体地,正则表达式是一种查找以及字符串替换操作,其常被用于检查文本中是否含有指定的特征词、找出文中匹配特征词的位置、从文本中提取信息,比如:字符串的子串等。
例如,phone<-"([0-9]{2})[-.]([0-9]{3})[-.]([0-9]{4})",其中,[0-9]表示我门要匹配一个数字,用花括号括起来的2则表示[0-9]重复两次,即开头有两个数字,[-.]表示数字之间的分隔符可以“-”也可以是“”和“.”,该正则算法用于判断字符串中是否包括电话号码。则依据此法则,可以预先定义一些指定内容,该指定内容可以属于一些政治敏感类、涉黄类、诈骗类或者广告类,例如,“兼职加qq”等,则在判定该信息包括上述指定内容的时候,确定该信息是违规的内容,可以输出一个确定违规的审核结果,否则,可以输出一个不违规的审核结果。
分类审核模块采用的是机器学习文本分类算法。文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程。具体的包含贝叶斯文本分类、SVM文本分类、CNN文本分类。则预先定义一些指定类别,如政治敏感类、违背社会公德类等类别,如果该信息属于该指定类别,则判定该信息违规,则给出第一个确定违规的审核结果。否则,可以输出一个不违规的审核结果。
内容匹配模块用于判断所述待审核内容是否与指定内容匹配,则虽然内容匹配模块也是用于将待审核内容与指定内容匹配,但是二者的策略上有所不同,在内容匹配模块中给出的结果是二者不同,但是在正则模块可能判定二者是相同,再例如“加额的QQ”通过正则模块可以确定该内容包括“加qq”这个内容,而如果通过内容匹配模块将“加额的QQ”与“加qq”匹配,得到的结果可能是二者不匹配,即“加额的QQ”未包括“加qq”。
作为一种实施方式,电子设备内包括多个词典,每个词典为包含多个文本的数据集,例如,按照词库的类别划分,多个词库可以包括商品广告、涉嫌赌博、药物毒品、枪械刀具、涉及政治、色情广告、非法网址以及低俗谩骂等。而每个词库中又包括多个词条。
作为一种实施方式,电子设备内包括多个词典,每个词典为包含多个文本的数据集,例如,按照词库的类别划分,多个词库可以包括商品广告、涉嫌赌博、药物毒品、枪械刀具、涉及政治、色情广告、非法网址以及低俗谩骂等。而每个词库中又包括多个词条。
另外,在将用户发送的信息与词库里的各个词条匹配的时候,会存在完全一致以及部分一致的情况,例如,商品广告类中,如果信息包括商品广告类的全部词条,则判定信息属于商品广告类,并且反馈确定违规的审核结果。而对于低俗谩骂来的词条,只要部分包含词条,就确定为违规,则判定为命中了该低俗谩骂的词条,则反馈确定违规的审核结果。
另外,多个审核模块可并行执行,具体地,在获取到信息之后,同时启动多个线程,且多个线程同时运行,而每个线程用于运行一个审核模块。作为另一种实施方式,还可以是电子设备内包括多个运算芯片,每个运算芯片运行一个审核模块,多个运算芯片同时运行以使多个审核同步执行,即实现并行。
则根据上述审核模块查找信息样本中的所有违规信息,将所查找到的所有违规信息作为违规处理样本。
S204:根据所述违规处理样本和信息样本确定所述信息集的违规参数,所述信息集的违规参数用于表示所述信息集中违规信息的占比。
在获取到违规处理样本和信息样本之后,就能够确定信息样本中属于违规信息的数量,从而能够得到信息样本中信息被判定为违规信息的情况,例如,可以计算违规处理样本和信息样本的比值,从而得到信息样本中违规信息的占比。具体地,信息样本中违规信息的占比能够反映信息集中的违规信息的占比,则可以将违规处理样本和信息样本的比值作为信息集的违规参数,即将信息样本中违规信息的违规率作为信息集的违规率,其中,信息样本中违规信息的违规率为违规处理样本和信息样本的比值。
具体地,该违规信息可以是广告信息,即如果信息集中的信息属于广告信息,则判定该信息违规,因而,通过抽检的方式能够获取该信息集的广告占有率,从而能够判断直播公屏绿色健康状况,辅助运营和决策。
具体地,公屏区域内的信息可以包括拦截信息和上屏信息,而上屏信息又包括被处罚的处罚信息和未被处罚的合格信息,如图4所示,信息集中包括上屏信息和拦截信息,而上屏信息中又包括处罚信息和合格信息。其中,上屏信息为用户在客户端内的公屏区域的文本输入区域输入的信息中在客户端的直播界面内显示,能够被其他用户看到的信息。而由于上屏信息中的各个信息会被审核员审核,一旦发现是违规信息的时候,会对该信息和发送该信息的用户处罚,例如,将该信息标记违规,并且将该信息加入上述用于拦截信息的审核策略中,例如,加入词典,则之后再有用户发送该信息,会被审核模块拦截。因此,上屏信息中会包括被处罚的信息,记为处罚信息,以及未被处罚的信息,记为合格信息。而拦截信息是指用户在客户端内的公屏区域的文本输入区域输入的信息为成功在客户端的界面上显示,而是直接被拦截,作为一种实施方式,可以是用户在公屏区域输入信息的时候,由审核服务器,例如上述后端服务器调用上述审核模块对该信息审核,如果确定为违规信息,则将该信息拦截,使得该信息不会被发送至其他客户端,并且不会在客户端的界面上显示。
因此,针对上述信息集中所包括的上屏信息和拦截信息,以及上屏信息中所包括的处罚信息和合格信息,可以分别对各类信息抽取以形成不同的样本,从而得到不同的违规参数,具体地,信息样本包括处罚信息样本、拦截信息样本和合格信息样本,其中,所述处罚信息样本为所有所述处罚信息中的部分信息,拦截信息样本为所有所述拦截信息中的部分信息,合格信息样本为所有所述合格信息中的部分信息。
则对应的违规处理样本包括正确处罚样本、正确拦截样本和残留违规样本,其中,正确处罚样本与处罚信息样本对应,用于表示处罚信息样本中被正确处罚的信息;正确拦截样本与拦截信息样本对应,用于表示拦截信息样本中被正确拦截的信息;残留违规样本与合格信息样本对应,用于表示合格信息样本中所残留的违规信息。
则进一步地,违规参数可以包括处罚准确率、拦截准确率和违规残留率,其中,处罚准确率可以根据正确处罚样本与处罚信息样本得到,拦截准确率可以根据正确拦截样本与拦截信息样本得到,违规残留率可以根据残留违规样本与合格信息样本得到。则还可以根据处罚准确率、拦截准确率和违规残留率的部分参数得到信息集的违规信息控制率、违规信息控制准确率、上屏违规率以及信息初始违规率等,具体地,在后续的实施例中介绍。
如图5所示,示出了本申请实施例提供的信息处理方法,具体地,所述信息集包括成功发布的上屏信息;所述上屏信息中包括被处罚的处罚信息,所述违规处理样本包括正确处罚样本,所述违规参数包括处罚准确率;则本申请实施例提供了根据该信息集中的处罚信息得到处罚准确率的方法流程,具体地,该方法包括:S501至S504。
S501:获取在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集。
S502:由所述信息集内获取处罚信息样本。
具体地,获取所述信息集中的所有处罚信息,构成处罚信息子集,再由处罚信息子集中按比例抽取信息,将所抽取的信息作为处罚信息样本,具体地,该信息集为实时获取的信息构成,则在实时获取的处罚信息中按照第一抽取比例抽取信息,其中,该第一抽取比例为第一时间间隔,则在实时获取的处罚信息中按照第一抽取比例抽取信息的具体实施方式为,按照第一时间间隔采集第一指定数量的处罚信息,直至预设时间段结束。
例如,以执行本次方法时的时刻作为时间起点,并采集1小时内的用户通过客户端的公屏区域输入的所有信息,则以该时间起点,每间隔第一时间间隔由公屏区域内的信息中所有被处罚的信息中抽取第一指定数量的处罚信息,直至1小时结束,具体地,该第一时间间隔可以是1分钟,则第一指定数量可以是1,则获取处罚信息样本的过程为每间隔1分钟,从公屏区域的信息中被处罚的信息中获取一个处罚信息,然后,依照此方式获取多个处罚信息,作为处罚信息样本。
则由于所获取的处罚信息样本是实时获取的,因此,所得到的处罚准确率表达了实时处罚的一个准确率。
S503:核实所述处罚信息样本中违规的信息,作为正确处罚样本。
对处罚信息样本中的各个处罚信息再次审核,具体地,可以是将处罚信息样本发送至审核客户端,由质检审核人员在审核客户端内对处罚信息样本中的各个信息再次审核,将确定为违规的信息,标记为正确处罚信息,则将所有的正确处罚信息作为正确处罚样本。
另外,需要说明的时候,在质检审核人员在审核客户端内对处罚信息样本中的各个信息再次审核时,所定义的违规与前述对公屏区域内的信息处罚时的违规依据是一致,例如,以违规信息为广告信息为例,初步审核员对公屏区域内的信息并且是在客户端的界面内显示的信息审核,发现有广告信息时,对该信息处罚而得到处罚信息,按照上述抽取方式在处罚信息中抽取到处罚信息样本,将处罚信息样本发送至审核客户端,由质检审核人员在审核客户端内对处罚信息样本中找到属于广告信息的处罚信息,作为正确处罚样本。
则初步审核员在审核的过程中,可能对所处罚的信息存在不合理的情况,例如,将本不应该处罚的信息处罚,则由质检审核人员再次审核,确定哪些信息属于确实应当被处罚的信息,而哪些信息属于不应当被处罚的信息,将属于应当被处罚的信息作为正确处罚样本。
S504:根据所述正确处罚样本与所述处罚信息样本获取所述信息集中被处罚的信息的处罚准确率。
正确处罚样本中的信息的数量能够表征处罚信息样本中被正确处罚的信息的数量,则根据正确处罚样本的信息数量与所述处罚信息样本的信息数量获取所述信息集中被处罚的信息的处罚准确率,则处罚准确率的表达式如下:
其中,CFR为处罚准确率,RJW为正确处罚样本中的信息的数量,RJ为处罚信息样本的信息数量,需要说明的是,上式得到的是处罚准确率所表达的是处罚信息样本中被正确处罚的信息的处罚准确率,但是,可以通过将根据处罚信息样本得到的处罚准确率作为所述信息集内所有被处罚信息的处罚准确率,则相比上屏信息内被处罚的处罚信息,该处罚准确率能够更加真实的表达上屏信息中真实违规信息的占比。
另外,还可以将该处罚准确率发送至审核人员,使得审核人员根据该处罚准确率调整处罚策略,进而提高处罚准确率。
如图6所示,示出了本申请实施例提供的信息处理方法,具体地,所述信息集还包括被拦截的拦截信息,所述信息样本包括拦截信息样本,所述违规参数包括拦截准确率;则本申请实施例提供了根据该信息集中的拦截信息得到拦截准确率的方法流程,具体地,该方法包括:S601至S604。
S601:获取在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集。
S602:由所述信息集内获取拦截信息样本。
具体地,获取所述信息集中的所有拦截信息,构成拦截信息子集,再由拦截信息子集中按比例抽取信息,将所抽取的信息作为拦截信息样本,具体地,该信息集为实时获取的信息构成,则在实时获取的拦截信息中按照第二抽取比例抽取信息,其中,该第二抽取比例为第二时间间隔,则在实时获取的拦截信息中按照第二抽取比例抽取信息的具体实施方式为,按照第二时间间隔采集第二指定数量的拦截信息,直至预设时间段结束。
例如,以执行本次方法时的时刻作为时间起点,并采集1小时内的用户通过客户端的公屏区域输入的所有信息,则以该时间起点,每间隔第二时间间隔由公屏区域内的信息中所有被拦截的信息中抽取第二指定数量的拦截信息,直至1小时结束,具体地,该第二时间间隔可以是1分钟,则第二指定数量可以是4,则获取拦截信息样本的过程为每间隔1分钟,从公屏区域的信息中被拦截的信息中获取4个拦截信息,然后,依照此方式获取多个拦截信息,作为拦截信息样本。
则由于所获取的拦截信息样本是实时获取的,因此,所得到的拦截准确率表达了实时拦截的一个准确率。
S603:核实所述拦截信息样本中违规的信息,作为正确拦截样本。
对拦截信息样本中的各个拦截信息再次审核,具体地,可以是将拦截信息样本发送至审核客户端,由质检审核人员在审核客户端内对拦截信息样本中的各个信息再次审核,将确定为违规的信息,标记为正确拦截信息,则将所有的正确拦截信息作为正确拦截样本。
另外,需要说明的时候,在质检审核人员在审核客户端内对拦截信息样本中的各个信息再次审核时,所定义的违规与前述对公屏区域内的信息拦截时的违规依据是一致,例如,以违规信息为广告信息为例,审核服务器获取公屏区域内的所有信息,依据上述审核模块对所获取的公屏区域内的所有信息中输入广告信息的信息拦截,而被拦截的广告信息无法发布至客户端内,即避免被其他用户看到。按照上述抽取方式在拦截信息中抽取到拦截信息样本,将拦截信息样本发送至审核客户端,由质检审核人员在审核客户端内对拦截信息样本中找到属于广告信息的拦截信息,作为正确拦截样本。
则在依据上述审核模块的初步审核的过程中,可能对所拦截的信息存在不合理的拦截情况,例如,将本不应该拦截的信息拦截,则由质检审核人员再次审核,确定哪些信息属于确实应当被拦截的信息,而哪些信息属于不应当被拦截的信息,将属于应当被拦截的信息作为正确拦截样本。
S604:根据所述正确拦截样本与所述拦截信息样本获取所述信息集中被拦截的信息的拦截准确率。
正确拦截样本中的信息的数量能够表征拦截信息样本中被正确拦截的信息的数量,则根据正确拦截样本的信息数量与所述拦截信息样本的信息数量获取所述信息集中被拦截的信息的拦截准确率,则拦截准确率的表达式如下:
其中,LJR为拦截准确率,ZJW为正确拦截样本中的信息的数量,ZJ为拦截信息样本的信息数量,需要说明的是,上式得到的是拦截准确率所表达的是拦截信息样本中被正确拦截的信息的拦截准确率,但是,可以通过将根据拦截信息样本得到的拦截准确率作为所述信息集内所有被拦截信息的拦截准确率,则相比公屏区域内的信息内被拦截的拦截信息,该拦截准确率能够更加真实的表达公屏区域内的被拦截的信息中真实违规信息的占比。
另外,还可以将该拦截准确率发送至审核人员,使得审核人员根据该拦截准确率调整拦截策略,具体地,可以修改上述审核模块,例如,修改词库中的词条或者修改正则表达式等,进而提高拦截准确率。
如图7所示,示出了本申请实施例提供的信息处理方法,具体地,所述信息集还包括成功发布的上屏信息;所述上屏信息中还包括未被处罚的合格信息;所述信息样本包括合格信息样本,所述违规参数包括违规残留率;则本申请实施例提供了根据该信息集中的合格信息得到违规残留率的方法流程,具体地,该方法包括:S701至S704。
S701:获取在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集。
S702:由所述信息集内获取合格信息样本。
具体地,获取所述信息集中的所有合格信息,构成合格信息子集,再由合格信息子集中按比例抽取信息,将所抽取的信息作为合格信息样本,具体地,该信息集为实时获取的信息构成,则在实时获取的合格信息中按照第三抽取比例抽取信息,其中,该第三抽取比例为第三时间间隔,则在实时获取的合格信息中按照第三抽取比例抽取信息的具体实施方式为,按照第三时间间隔采集第三指定数量的合格信息,直至预设时间段结束。
例如,以执行本次方法时的时刻作为时间起点,并采集1小时内的用户通过客户端的公屏区域输入的所有信息,则以该时间起点,每间隔第三时间间隔由公屏区域内的信息中所有合格的信息中抽取第三指定数量的合格信息,直至1小时结束,具体地,该第三时间间隔可以是1分钟,则第三指定数量可以是6,则获取合格信息样本的过程为每间隔1分钟,从公屏区域的信息中合格的信息中获取6个合格信息,然后,依照此方式获取多个合格信息,作为合格信息样本。
则由于所获取的合格信息样本是实时获取的,因此,所得到的违规残留率表达了实时在屏幕上显示的信息中未被处罚的信息中的违规信息残留占比。
S703:核实所述合格信息样本中违规的信息,作为残留违规样本。
对合格信息样本中的各个合格信息再次审核,具体地,可以是将合格信息样本发送至审核客户端,由质检审核人员在审核客户端内对合格信息样本中的各个信息再次审核,将确定为违规的信息,标记为残留违规信息,则将所有的残留违规信息作为残留违规样本。
另外,需要说明的时候,在质检审核人员在审核客户端内对合格信息样本中的各个信息再次审核时,所定义的违规与前述对公屏区域内的信息处罚时的违规依据是一致,例如,以违规信息为广告信息为例,初步审核员对公屏区域内的信息中在界面内显示的信息审核,发现有广告信息时,对该信息处罚,而其余未被处罚的信息为合格信息,按照上述抽取方式在合格信息中抽取到合格信息样本,将合格信息样本发送至审核客户端,由质检审核人员在审核客户端内对合格信息样本中找到属于广告信息的信息,作为残留违规样本。
则初步审核员在审核的过程中,可能对上屏信息中的部分违规信息遗漏,而导致违规信息在屏幕上显示,则由质检审核人员再次审核,确定在所有的合格信息中,哪些信息属于应当被处罚的信息,而哪些信息属于不应当被处罚的信息,将属于应当被处罚的信息作为残留违规样本。
S704:根据所述残留违规处理样本与所述合格信息样本获取所述信息集的违规残留率。
残留违规样本中的信息的数量能够表征合格信息样本中未被处罚的信息的数量,则根据残留违规样本的信息数量与所述合格信息样本的信息数量获取所述信息集中合格信息的违规残留率,则违规残留率的表达式如下:
其中,CLR为违规残留率,CJW为残留违规样本中的信息的数量,CJ为合格信息样本的信息数量,需要说明的是,上式得到的是违规残留率所表达的是合格信息样本中未被处罚的信息的违规残留率,但是,可以通过将根据合格信息样本得到的违规残留率作为所述信息集内所有合格信息的违规残留率,则相比上屏信息内的合格信息,该违规残留率能够更加真实的表达上屏信息中未被处罚的违规信息的占比。
另外,还可以将该违规残留率发送至审核人员,使得审核人员根据该违规残留率调整处罚策略,进而提高处罚准确率而降低违规残留率。
如图8所示,示出了本申请实施例提供的信息处理方法,具体地,在获取到处罚准确率和拦截准确率的时候,还可以根据该处罚准确率拦截准确率获取到违规信息控制率,具体地,该方法包括:S801至S807。
S801:获取在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集。
S802:由所述信息集内获取处罚信息样本和拦截信息样本。
S803:根据所述处罚信息样本获取所述信息集中被处罚的信息的处罚准确率。
S804:根据所述拦截信息样本获取所述信息集中被拦截的信息的拦截准确率。
其中,根据所述处罚信息样本获取所述信息集中被处罚的信息的处罚准确率的具体实施方式为核实所述处罚信息样本中违规的信息,作为正确处罚样本;根据所述正确处罚样本与所述处罚信息样本获取所述信息集中被处罚的信息的处罚准确率。根据所述拦截信息样本获取所述信息集中被拦截的信息的拦截准确率的具体实施方式为核实所述拦截信息样本中违规的信息,作为正确拦截样本;根据所述正确拦截样本与所述拦截信息样本获取所述信息集中被拦截的信息的拦截准确率。具体地,上述处罚准确率和拦截准确率的获取方式可参考前述实施例,在此不再赘述。
S805:根据拦截准确率获取所有所述拦截信息中正确被拦截的拦截真实违规量。
在根据所述拦截信息样本获取所述信息集中被拦截的信息的拦截准确率,将拦截准确率乘以所述信息集中所有的拦截信息,得到所述所有的拦截信息中的正确被拦截的拦截信息的数量,作为拦截真实违规量。
S806:根据处罚准确率获取所有所述处罚信息中正确被处罚的处罚真实违规量。
根据所述处罚信息样本获取所述信息集中被处罚的信息的处罚准确率,将处罚准确率乘以所述信息集中所有的处罚信息,得到所述所有的处罚信息中的正确被处罚的处罚信息的数量,作为处罚真实违规量。
S807:根据所述处罚真实违规量、拦截真实违规量和所述信息集中所有信息的总量确定违规信息控制率。
则获取到处罚真实违规量和拦截真实违规量,能够得到用户在在公屏区域中输入的所有信息中准确地被违规控制的信息的数量,其中,被违规控制的信息可以包括在屏幕上显示之前就被拦截的信息以及在屏幕上显示之后被处罚的信息。则信息集中所有信息中被违规控制的信息的占比能够反应所述信息集中所有信息的违规信息控制率。
作为一种实施方式,根据所述处罚真实违规量、拦截真实违规量和所述信息集中所有信息的总量确定违规信息控制率的具体实施方式为:将所述处罚真实违规量和拦截真实违规量之和作为违规处罚总量;将所述违规处罚总量与所述信息集中所有信息的总量的比值作为违规信息控制率。则违规信息控制率的表达式如下:
其中,SCR为违规信息控制率,ZJW为正确拦截样本中的信息的数量, ZJ为拦截信息样本的信息数量,LJ为所述信息集中所有拦截信息的数量, RJW为正确处罚样本中的信息的数量,RJ为处罚信息样本的信息数量,CF 为所述信息集中的上屏信息中所有处罚信息的数量,CT为所述信息集中所有信息的数量。违规信息控制率体现的是在公屏区域的所有信息总量中,真实违规数据在公屏区域的所有信息总量中的占比情况。
另外,根据所获取的处罚准确率和拦截准确率,还可以获取违规信息控制准确率,与图8所示的方法实施例中不同的是,S807变为:根据所述处罚真实违规量、拦截真实违规量和所述信息集中所有处罚信息以及拦截信息的总量确定违规信息控制准确率,则具体地,将所述处罚真实违规量和拦截真实违规量之和作为违规处罚总量;将所述违规处罚总量与所述信息集中所有处罚信息以及拦截信息的总量的比值作为违规信息控制准确率。则违规信息控制准确率的表达式如下:
上式中,SZR为违规信息控制准确率,而其他变量的含义可参考前述描述,则上式中,分子为上述信息集,即用户在公屏区域内输入的所有信息中,被准确处罚的信息的数量,其中,被准确处罚的信息包括所有被拦截的中除去被错误拦截的信息以及所有被处罚的信息中除去被错误处罚的信息,而分母为上述信息集中所有被拦截的信息和未被拦截的信息中被处罚的信息的总量,而拦截和处罚均属于对违规信息的控制,则二者之和表示信息集中的初始违规控制信息。因此,违规信息控制准确率能够表示违规信息控制的精准程度,则以违规信息为广告信息为例,则违规信息控制准确率能够表示反广告的精准程度。
如图9所示,示出了本申请实施例提供的信息处理方法,具体地,在获取到违规残留率、处罚准确率和拦截准确率的时候,还可以根据该处罚准确率、拦截准确率和违规残留率获取到信息初始违规率,具体地,该方法包括:S901至S909。
S901:获取在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集。
S902:由所述信息集内获取处罚信息样本、拦截信息样本和合格信息样本。
S903:根据所述处罚信息样本获取所述信息集中被处罚的信息的处罚准确率。
S904:根据所述拦截信息样本获取所述信息集中被拦截的信息的拦截准确率。
S905:根据所述合格信息样本获取所述信息集的违规残留率。
核实所述合格信息样本中违规的信息,作为残留违规样本;根据所述残留违规处理样本与所述合格信息样本获取所述信息集的违规残留率。
S906:根据拦截准确率获取所有所述拦截信息中正确被拦截的拦截真实违规量。
S907:根据处罚准确率获取所有所述处罚信息中正确被处罚的处罚真实违规量。
具体地,上述S901至S907的具体实施方式可参考前述实施例,在此不再赘述。
S908:根据所述违规残留率获取所有所述合格信息中未被处罚的上屏残留违规量。
具体地,违规残留率表征了合格信息样本中未被处罚的残留违规信息,将违规残留率乘以所述信息集中所有的合格信息,得到所述所有的合格信息中的未被处罚的残留违规信息的数量,作为上屏残留违规量。
S909:根据所述处罚真实违规量、拦截真实违规量、上屏残留违规量和所述信息集中所有信息的总量确定信息初始违规率。
则获取到处罚真实违规量、拦截真实违规量、上屏残留违规量,能够得到公屏区域内的所有信息,即上述信息集中所有的真实违规的违规信息的数量,具体地,将所述处罚真实违规量、拦截真实违规量和上屏残留违规量之和作为初始违规数据总量;将所述初始违规数据总量与所述信息集中所有信息的总量的比值作为所述信息初始违规率,则信息初始违规率的表达式如下:
其中,OSR为信息初始违规率,CJ为上屏信息中除去处罚信息之外的信息,即合格信息,其他的变量的含义看参考前述实施例。则以违规信息为广告信息为例,则上式中,分子部分表示真实广告数据,即上述信息集中正确被判定为广告信息的总量,而分母表示上述信息集中的所有信息的总量,则信息初始违规率表明原生态系统中广告信息占比越多。
另外,还可以根据信息初始违规率和违规信息控制率获取违规信息控制能力参数,具体地,违规信息控制能力参数为违规信息控制率与信息初始违规率的比值,则比值越高,表明对违规信息的控制力度越高,打击程度越高。
如图10所示,示出了本申请实施例提供的信息处理方法,具体地,在获取到违规残留率和处罚准确率的时候,还可以根据该处罚准确率和违规残留率获取到上屏违规率,具体地,该方法包括:S1001至S1007。
S1001:获取在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集。
S1002:由所述信息集内获取处罚信息样本和合格信息样本。
S1003:根据所述处罚信息样本获取所述信息集中被处罚的信息的处罚准确率。
S1004:根据所述合格信息样本获取所述信息集的违规残留率。
S1005:根据处罚准确率获取所有所述处罚信息中正确被处罚的处罚真实违规量。
S1006:根据所述违规残留率获取所有所述合格信息中未被处罚的上屏残留违规量。
具体地,上述S1001至S1006的具体实施方式可参考前述实施例,在此不再赘述。
S1007:根据所述处罚真实违规量、上屏残留违规量和所述信息集中所有上屏信息的总量确定上屏违规率。
其中,处罚真实违规量表示在屏幕上显示的所有上屏信息中正确被处罚的信息的总数量,而上屏残留违规量表示在屏幕上显示的所有上屏信息中遗漏处罚的信息的总数量,则处罚真实违规量和上屏残留违规量之和表示上屏信息中违规信息的数量,则将其与所有上屏信息的总量相除,能够得到上屏信息中的违规信息的占有量,具体地,该上屏违规率的表达式如下:
其中,SPR为上屏违规率,而其他变量的含义可参考前述实施例,则上屏违规率表明曝光给用户的信息的数量,则上屏违规率越高表明曝光给用户的违规信息越多。
另外,上述所获取的处罚准确率、拦截准确率、违规残留率、违规信息控制率、违规信息控制准确率、上屏违规率以及信息初始违规率等均可以提送给审核人员或者其他工作人员,以便审核人员或者其他工作人员根据所推送的信息调整审核策略,例如,准确率低于某个值了,那就说明有误拦截,需要修正,再例如,上屏违规率过高,则可以补充新的处罚手段或者增加新的拦截关键词等。另外,还可以设置一个阈值,在上屏违规率超过该阈值的时候,发送提醒信息至审核人员,指示审核人员实时审核客户端所显示的信息。再者,上述的处罚准确率、拦截准确率、违规残留率、违规信息控制率、违规信息控制准确率、上屏违规率以及信息初始违规率等数据可以通过报表的形式输出,例如,可以是折线图等的展示形式。
请参阅图11,其示出了本申请实施例提供的一种信息处理装置1100的结构框图。该装置可以包括:获取单元1101、抽取单元1102、确定单元1103 和处理单元1104。
获取单元1101,用于获取在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集。
抽取单元1102,用于由所述信息集内抽取指定比例的信息,作为信息样本。
确定单元1103,用于确定所述信息样本中的违规信息,作为违规处理样本。
进一步地,确定单元1103还用于核实所述处罚信息样本中违规的信息,作为正确处罚样本。
进一步地,确定单元1103还用于核实所述拦截信息样本中违规的信息,作为正确拦截样本。
进一步地,确定单元1103还用于核实所述合格信息样本中违规的信息,作为残留违规样本。
处理单元1104,用于根据所述违规处理样本和信息样本确定所述信息集的违规参数,所述信息集的违规参数用于表示所述信息集中违规信息的占比。
进一步地,处理单元1104还用于根据所述正确处罚样本与所述处罚信息样本获取所述信息集中被处罚的信息的处罚准确率。
进一步地,处理单元1104还用于根据所述正确拦截样本与所述拦截信息样本获取所述信息集中被拦截的信息的拦截准确率。
进一步地,处理单元1104还用于根据所述残留违规处理样本与所述合格信息样本获取所述信息集的违规残留率。
该装置还包括第一统计单元,用于根据所述拦截准确率获取所有所述拦截信息中正确被拦截的拦截真实违规量;根据预先获取的处罚准确率获取所有所述处罚信息中正确被处罚的处罚真实违规量;根据所述处罚真实违规量、拦截真实违规量和所述信息集中所有信息的总量确定违规信息控制率。其中,根据所述处罚真实违规量、拦截真实违规量和所述信息集中所有信息的总量确定违规信息控制率的实施方式为:将所述处罚真实违规量和拦截真实违规量之和作为违规处罚总量;将所述违规处罚总量与所述信息集中所有信息的总量的比值作为违规信息控制率。
该装置还包括第二统计单元,用于根据所述拦截准确率获取所有所述拦截信息中正确被拦截的拦截真实违规量;根据预先获取的处罚准确率获取所有所述处罚信息中正确被处罚的处罚真实违规量;根据所述处罚真实违规量、拦截真实违规量和所述信息集中所有处罚信息以及拦截信息的总量确定违规信息控制准确率,具体地,将所述处罚真实违规量和拦截真实违规量之和作为违规处罚总量;将所述违规处罚总量与所述信息集中所有处罚信息以及拦截信息的总量的比值作为违规信息控制准确率。
该装置还包括第三统计单元,用于根据所述违规残留率获取所有所述合格信息中未被处罚的上屏残留违规量;根据预先获取的处罚准确率获取所有所述处罚信息中正确被处罚的处罚真实违规量;根据预先获取的拦截准确率获取所有所述拦截信息中正确被拦截的拦截真实违规量;根据所述处罚真实违规量、拦截真实违规量、上屏残留违规量和所述信息集中所有信息的总量确定信息初始违规率,具体地,将所述处罚真实违规量、拦截真实违规量和上屏残留违规量之和作为初始违规数据总量;将所述初始违规数据总量与所述信息集中所有信息的总量的比值作为所述信息初始违规率。
该装置还包括第四统计单元,用于根据所述违规残留率获取所有所述合格信息中未被处罚的上屏残留违规量;根据预先获取的处罚准确率获取所有所述处罚信息中正确被处罚的处罚真实违规量;根据所述处罚真实违规量、上屏残留违规量和所述信息集中所有上屏信息的总量确定上屏违规率,具体地,将所述处罚真实违规量和上屏残留违规量之和作为上屏违规数据总量;将所述上屏违规数据总量与所述信息集中所有上屏信息的总量的比值作为所述上屏违规率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参考图12,其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备300’可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。于本申请实施中,该电子设备300’为上述的后端服务器300。
本申请中的电子设备300’可以包括一个或多个如下部件:处理器110、存储器120以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110 可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列 (ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器 (Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参考图13,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质1300中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质1300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质1300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1300具有执行上述方法中的任何方法步骤的程序代码1310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1310可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种信息处理方法,其特征在于,包括:
获取在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集;
由所述信息集内抽取指定比例的信息,作为信息样本;
确定所述信息样本中的违规信息,作为违规处理样本;
根据所述违规处理样本和信息样本确定所述信息集的违规参数,所述信息集的违规参数用于表示所述信息集中违规信息的占比。
2.根据权利要求1所述的方法,其特征在于,所述信息集包括成功发布的上屏信息;所述上屏信息中包括被处罚的处罚信息;所述信息样本包括处罚信息样本,所述处罚信息样本为所有所述处罚信息中的部分信息;
所述违规处理样本包括正确处罚样本,所述违规参数包括处罚准确率,所述确定所述信息样本中的违规信息,作为违规处理样本;根据所述违规处理样本和信息样本确定所述信息集的违规参数,包括:
核实所述处罚信息样本中违规的信息,作为正确处罚样本;
根据所述正确处罚样本与所述处罚信息样本获取所述信息集中被处罚的信息的处罚准确率。
3.根据权利要求1所述的方法,其特征在于,所述信息集包括被拦截的拦截信息,所述信息样本包括拦截信息样本,所述拦截信息样本为所有所述拦截信息中的部分信息;
所述违规处理样本包括正确拦截样本,所述违规参数包括拦截准确率,所述确定所述信息样本中的违规信息,作为违规处理样本;根据所述违规处理样本和信息样本确定所述信息集的违规参数,包括:
核实所述拦截信息样本中违规的信息,作为正确拦截样本;
根据所述正确拦截样本与所述拦截信息样本获取所述信息集中被拦截的信息的拦截准确率。
4.根据权利要求3所述的方法,其特征在于,所述信息集还包括成功发布的上屏信息;所述上屏信息中包括被处罚的处罚信息;所述方法还包括:
根据所述拦截准确率获取所有所述拦截信息中正确被拦截的拦截真实违规量;
根据预先获取的处罚准确率获取所有所述处罚信息中正确被处罚的处罚真实违规量;
根据所述处罚真实违规量、拦截真实违规量和所述信息集中所有信息的总量确定违规信息控制率。
5.根据权利要求3所述的方法,其特征在于,所述信息集还包括成功发布的上屏信息;所述上屏信息中包括被处罚的处罚信息;所述方法还包括:
根据所述拦截准确率获取所有所述拦截信息中正确被拦截的拦截真实违规量;
根据预先获取的处罚准确率获取所有所述处罚信息中正确被处罚的处罚真实违规量;
根据所述处罚真实违规量、拦截真实违规量和所述信息集中所有处罚信息以及拦截信息的总量确定违规信息控制准确率。
6.根据权利要求1所述的方法,其特征在于,所述信息集包括成功发布的上屏信息;所述上屏信息中包括未被处罚的合格信息;所述信息样本包括合格信息样本,所述合格信息样本为所有所述合格信息中的部分信息;
所述违规处理样本包括残留违规样本,所述违规参数包括违规残留率,所述确定所述信息样本中的违规信息,作为违规处理样本;根据所述违规处理样本和信息样本确定所述信息集的违规参数,包括:
核实所述合格信息样本中违规的信息,作为残留违规样本;
根据所述残留违规处理样本与所述合格信息样本获取所述信息集的违规残留率。
7.根据权利要求6所述的方法,其特征在于,所述信息集还包括被拦截的拦截信息,所述上屏信息还包括被处罚的处罚信息;所述方法还包括:
根据所述违规残留率获取所有所述合格信息中未被处罚的上屏残留违规量;
根据预先获取的处罚准确率获取所有所述处罚信息中正确被处罚的处罚真实违规量;
根据预先获取的拦截准确率获取所有所述拦截信息中正确被拦截的拦截真实违规量;
根据所述处罚真实违规量、拦截真实违规量、上屏残留违规量和所述信息集中所有信息的总量确定信息初始违规率。
8.根据权利要求6所述的方法,其特征在于,所述信息集还包括被拦截的拦截信息,所述上屏信息还包括被处罚的处罚信息;所述方法还包括:
根据所述违规残留率获取所有所述合格信息中未被处罚的上屏残留违规量;
根据预先获取的处罚准确率获取所有所述处罚信息中正确被处罚的处罚真实违规量;
根据所述处罚真实违规量、上屏残留违规量和所述信息集中所有上屏信息的总量确定上屏违规率。
9.一种信息处理装置,其特征在于,包括:
获取单元,用于获取在预设时间段内用户通过客户端的公屏区域输入的所有信息,作为信息集;
抽取单元,用于由所述信息集内抽取指定比例的信息,作为信息样本;
确定单元,用于确定所述信息样本中的违规信息,作为违规处理样本;
处理单元,用于根据所述违规处理样本和信息样本确定所述信息集的违规参数,所述信息集的违规参数用于表示所述信息集中违规信息的占比。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811626652.0A CN109783689B (zh) | 2018-12-28 | 2018-12-28 | 信息处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811626652.0A CN109783689B (zh) | 2018-12-28 | 2018-12-28 | 信息处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109783689A true CN109783689A (zh) | 2019-05-21 |
CN109783689B CN109783689B (zh) | 2021-05-21 |
Family
ID=66498747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811626652.0A Active CN109783689B (zh) | 2018-12-28 | 2018-12-28 | 信息处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783689B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634090A (zh) * | 2020-12-15 | 2021-04-09 | 深圳市彬讯科技有限公司 | 家装信息举报管理方法、系统、计算机设备及存储介质 |
CN113780723A (zh) * | 2021-08-02 | 2021-12-10 | 南京蓝鲸人网络科技有限公司 | 一种多媒体内容评估质检的方法、系统与设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8341085B2 (en) * | 2006-05-11 | 2012-12-25 | Cfph, Llc | Methods and apparatus for playback of an electronic file |
CN103064940A (zh) * | 2012-12-25 | 2013-04-24 | 深圳先进技术研究院 | 一种基于感知知识库的视频内容审查系统及方法 |
US20150324395A1 (en) * | 2014-05-09 | 2015-11-12 | Lyve Minds, Inc. | Image organization by date |
CN106454492A (zh) * | 2016-10-12 | 2017-02-22 | 武汉斗鱼网络科技有限公司 | 一种基于延时传送的直播色情内容审核系统及方法 |
CN107222780A (zh) * | 2017-06-23 | 2017-09-29 | 中国地质大学(武汉) | 一种直播平台综合状态感知和内容实时监管方法及系统 |
CN107992578A (zh) * | 2017-12-06 | 2018-05-04 | 任明和 | 敏感视频源的数据库自动检测方法 |
-
2018
- 2018-12-28 CN CN201811626652.0A patent/CN109783689B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8341085B2 (en) * | 2006-05-11 | 2012-12-25 | Cfph, Llc | Methods and apparatus for playback of an electronic file |
CN103064940A (zh) * | 2012-12-25 | 2013-04-24 | 深圳先进技术研究院 | 一种基于感知知识库的视频内容审查系统及方法 |
US20150324395A1 (en) * | 2014-05-09 | 2015-11-12 | Lyve Minds, Inc. | Image organization by date |
CN106454492A (zh) * | 2016-10-12 | 2017-02-22 | 武汉斗鱼网络科技有限公司 | 一种基于延时传送的直播色情内容审核系统及方法 |
CN107222780A (zh) * | 2017-06-23 | 2017-09-29 | 中国地质大学(武汉) | 一种直播平台综合状态感知和内容实时监管方法及系统 |
CN107992578A (zh) * | 2017-12-06 | 2018-05-04 | 任明和 | 敏感视频源的数据库自动检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634090A (zh) * | 2020-12-15 | 2021-04-09 | 深圳市彬讯科技有限公司 | 家装信息举报管理方法、系统、计算机设备及存储介质 |
CN113780723A (zh) * | 2021-08-02 | 2021-12-10 | 南京蓝鲸人网络科技有限公司 | 一种多媒体内容评估质检的方法、系统与设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109783689B (zh) | 2021-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109831698B (zh) | 信息审核方法、装置、电子设备及计算机可读取存储介质 | |
De Gibert et al. | Hate speech dataset from a white supremacy forum | |
CN108647309B (zh) | 基于敏感词的聊天内容审核方法及系统 | |
CN107291780A (zh) | 一种用户评论信息展示方法和装置 | |
CN106803168A (zh) | 一种异常转账侦测方法和装置 | |
CN102542063B (zh) | 内容过滤的方法、装置及系统 | |
CN106713579B (zh) | 一种电话号码识别方法及装置 | |
CN113127746B (zh) | 基于用户聊天内容分析的信息推送方法及其相关设备 | |
CN109766508B (zh) | 信息审核方法、装置及电子设备 | |
CN113076735B (zh) | 目标信息的获取方法、装置和服务器 | |
CN109831682A (zh) | 信息审核方法、装置、电子设备及存储介质 | |
CN112016317A (zh) | 基于人工智能的敏感词识别方法、装置及计算机设备 | |
CN109558384A (zh) | 日志分类方法、装置、电子设备和存储介质 | |
CN110069769A (zh) | 应用标签生成方法、装置及存储设备 | |
CN109783689A (zh) | 信息处理方法、装置及电子设备 | |
CN109933775B (zh) | Ugc内容处理方法及装置 | |
CN109960719A (zh) | 一种文件处理方法和相关装置 | |
CN117745237A (zh) | 内容审查方法、装置、设备以及存储介质 | |
CN110728146B (zh) | 评论发现方法、装置、终端设备以及存储介质 | |
CN109829043A (zh) | 词性确认方法、装置、电子设备及存储介质 | |
CN114817518B (zh) | 基于大数据档案识别的证照办理方法、系统及介质 | |
CN105975642A (zh) | 一种基于网络大数据的舆情监控方法 | |
CN109831696A (zh) | 处理违规视频内容的方法、装置、电子设备及存储介质 | |
CN113923011B (zh) | 一种网络诈骗的预警方法、装置、计算机设备及存储介质 | |
CN106446696A (zh) | 一种信息处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20190521 Assignee: GUANGZHOU CUBESILI INFORMATION TECHNOLOGY Co.,Ltd. Assignor: GUANGZHOU HUADUO NETWORK TECHNOLOGY Co.,Ltd. Contract record no.: X2021440000031 Denomination of invention: Information processing method, device and electronic equipment License type: Common License Record date: 20210125 |
|
GR01 | Patent grant | ||
GR01 | Patent grant |