CN109933775B - Ugc内容处理方法及装置 - Google Patents

Ugc内容处理方法及装置 Download PDF

Info

Publication number
CN109933775B
CN109933775B CN201711354275.5A CN201711354275A CN109933775B CN 109933775 B CN109933775 B CN 109933775B CN 201711354275 A CN201711354275 A CN 201711354275A CN 109933775 B CN109933775 B CN 109933775B
Authority
CN
China
Prior art keywords
content
detected
words
legal
illegal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711354275.5A
Other languages
English (en)
Other versions
CN109933775A (zh
Inventor
孙子荀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201711354275.5A priority Critical patent/CN109933775B/zh
Publication of CN109933775A publication Critical patent/CN109933775A/zh
Application granted granted Critical
Publication of CN109933775B publication Critical patent/CN109933775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种UGC内容处理方法,该方法包括:获取待检测内容;对待检测内容进行分割,得到多个词语;对待检测内容进行句法结构分析,得到待检测内容的句法结构;当多个词语在预设合法词典中且句法结构在预设合法句法集合中时,确定待检测内容为合法内容。此外,还提供了一种UGC内容处理装置、一种计算机设备和存储介质。

Description

UGC内容处理方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种UGC内容处理方法、装置、计算机设备和存储介质。
背景技术
伴随着自媒体的发展,个性化阅读产品也越来越丰富,对于文本、图集、视频的内容都会产生大量的UGC(User Generated Content,用户原创内容),但是在这些用户原创内容也会掺杂着不良内容或者垃圾内容。
传统技术中,对于众多的用户原创内容都非常依赖人工审核,如果每一条都通过人工审核会产生巨大的成本,并且对UGC内容采用人工审核,其中非法内容占所有的UGC内容的比例较小。经统计发现,在众多UGC内容中非法评论比例占比不到5%。这样,对众多的UGC内容都采用人工审核不仅需要花费了很多时间,浪费众多人力,审核成本大。
发明内容
基于此,有必要针对上述问题,提供一种能节省人工审核成本的UGC内容处理方法、装置、计算机设备和存储介质。
一种UGC内容处理方法,该方法包括:
获取待检测内容;
对待检测内容进行分割,得到多个词语;
对待检测内容进行句法结构分析,得到待检测内容的句法结构;
当多个词语在预设合法词典中且句法结构在预设合法句法集合中时,确定待检测内容为合法内容。
一种UGC内容处理装置,该装置包括:
获取模块,用于获取待检测内容;
分割模块,用于对待检测内容进行分割,得到多个词语;
分析模块,用于对待检测内容进行句法结构分析,得到待检测内容的句法结构;
第一检测模块,用于当多个词语在预设合法词典中且句法结构在预设合法句法集合中时,确定待检测内容为合法内容。
一种UGC内容处理方法,该方法包括:
获取UGC内容审核请求;
根据UGC内容审核请求获取经合法内容确认时未命中的待检测内容,经合法内容确认时未命中的待检测内容是:对待检测内容进行分割得到的多个词语未在预设合法词典中,或对待检测内容进行句法结构分析得到的句法结构未在预设合法句法集合中的待检测内容;
显示经合法内容确认时未命中的待检测内容。
一种UGC内容处理装置,该装置包括:
审核请求获取模块,用于获取UGC内容审核请求,根据UGC内容审核请求获取经合法内容确认时未命中的待检测内容,经合法内容确认时未命中的待检测内容是:对待检测内容进行分割得到的多个词语未在预设合法词典中,或且对待检测内容进行句法结构分析得到的句法结构未在预设合法句法集合中的待检测内容;
显示模块,用于显示经合法内容确认时未命中的待检测内容。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行所述程序时实现以下步骤:
获取待检测内容;
对待检测内容进行分割,得到多个词语;
对待检测内容进行句法结构分析,得到待检测内容的句法结构;
当多个词语在预设合法词典中且句法结构在预设合法句法集合中时,确定待检测内容为合法内容。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行所述程序时实现以下步骤:
获取UGC内容审核请求;
根据UGC内容审核请求获取经合法内容确认时未命中的待检测内容,经合法内容确认时未命中的待检测内容是:对待检测内容进行分割得到的多个词语未在预设合法词典中,或对待检测内容进行句法结构分析得到的句法结构未在预设合法句法集合中的待检测内容;
显示经合法内容确认时未命中的待检测内容。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取UGC内容审核请求;
根据UGC内容审核请求获取经合法内容确认时未命中的待检测内容,经合法内容确认时未命中的待检测内容是:对待检测内容进行分割得到的多个词语未在预设合法词典中,或对待检测内容进行句法结构分析得到的句法结构未在预设合法句法集合中的待检测内容;
显示经合法内容确认时未命中的待检测内容。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待检测内容;
对待检测内容进行分割,得到多个词语;
对待检测内容进行句法结构分析,得到待检测内容的句法结构;
当多个词语在预设合法词典中且句法结构在预设合法句法集合中时,确定待检测内容为合法内容。
上述UGC内容处理方法、装置、计算机设备和存储介质,通过对待检测的UGC内容进行分割得到多个词语,并对待检测的UGC内容进行句法结构的分析,得到待检测的UGC内容的句法结构,如果分割得到的多个词语在预设合法词典中且句法结构也在预设合法句法集合中,就可以确定待检测的UGC内容为合法内容。由此,在人工审核之前先对千变万化的UGC内容进行合法内容的检测,不仅降低了人工审核人员的工作量,而且节省了人工审核的成本。
附图说明
图1为一个实施例中UGC内容处理方法的应用环境图;
图2为一个实施例中计算机设备的内部结构示意图;
图3为一个实施例中UGC内容处理方法的流程图;
图4为另一个实施例中UGC内容处理方法的流程图;
图5为又一个实施例中UGC内容处理方法的流程图;
图6为一个实施例中待检测内容进行非法检测处理,确定待检测内容是否为非法内容的流程图;
图7为一个实施例中句法分析树分析的原理图;
图8为一个实施例中先非法检测处理后合法内容确认的流程图;
图9为一个实施例中UGC内容处理方法的原理图;
图10为一个实施例中先合法内容确认后非法检测处理的流程图;
图11为又一个实施例中UGC内容处理方法的原理图;
图12为另一个实施例中UGC内容处理方法的应用环境图;
图13为一个实施例中人工审核UGC内容标注平台的界面图;
图14为一个实施例中对UGC内容进行句法结构分析的界面图;
图15为另一个实施例中的UGC内容处理方法的流程图;
图16为又一个实施例中的UGC内容处理方法的流程图;
图17为一个实施例中UGC内容处理装置的结构框图;
图18为另一个实施例中UGC内容处理装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出一个实施例中UGC内容处理方法的应用环境图。参照图1,该UGC内容处理方法应用于UGC内容处理的系统中,该系统包括终端110和服务器120,终端110通过网络与服务器120连接。终端110可以是但不限于各种能输入各种UGC内容功能的个人计算机、笔记本电脑、个人数字助理、智能手机、平板电脑、便捷式可穿戴式设备等。服务器120可以是实现单一功能的服务器,也可以是实现多种功能的服务器,具体可以是独立的物理服务器,也可以是物理服务器集群。
终端110可以通过相关的应用程序输入各种UGC内容产生了待检测内容,并将该待检测内容发送到服务器120,服务器120获取待检测内容,对该待检测内容进行分割,得到分割后的多个词语;并对待检测内容进行句法结构分析,得到待检测内容的句法结构,当多个词语在预设合法词典中且句法结构在预设合法句法集合中时,就可以确定待检测内容为合法内容,最终可以将合法内容显示在终端110的相关界面上。
图2为一个实施例中计算机设备的内部结构示意图。该计算机设备可以是图1中的服务器120。如图2所述,该服务器包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该处理器用于提供计算和控制能力,支撑整个服务器的运行。存储器包括非易失性存储介质和内存储器,该服务器的非易失性存储介质存储有操作系统和一种UGC内容处理装置的计算机程序,该UGC内容处理装置的计算机程序被处理器执行时,用于实现一种UGC内容处理方法。该服务器中的内存储器为非易失性存储介质中的UGC内容处理装置的运行提供了环境,该服务器的网络接口用于与终端通过网络进行通信,例如,接收终端发送的待检测内容,服务器将最终确定的合法内容发送至终端进行显示,该输入装置可以是显示屏上覆盖的触摸层,也可以是外接的键盘、触控板或鼠标等,该显示屏用于显示应用界面等,该服务器可以是液晶显示屏或者电子墨水显示屏,触摸层与显示屏构成触控屏。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,在一个实施例中,提供了一种UGC内容处理方法,该方法以应用于如图1和图2中的服务器中进行举例说明。包括:
步骤302,获取待检测内容。
这里的待检测内容可以是UGC(User Generated Content,用户原创内容),包括但不限于各种文章、评论等。可以通过终端相关的应用程序上传UGC内容,这里的应用程序可以是但不限于各种能够发表UGC内容的新闻应用、视频应用、社交网络应用、论坛应用等。
步骤304,对待检测内容进行分割,得到多个词语。
由于终端发送的待检测内容一般是以句子形式的评论或者文章,因此需要对待检测内容进行分割,得到分割后的多个词语。具体的,服务器在获取待检测内容后,会对待检测内容按照一定的规则进行分割,得到多个词语。其中,分割规则可根据词语在句子中的成分、词语的词性以及词语的搭配习惯进行分割。
步骤306,对待检测内容进行句法结构分析,得到待检测内容的句法结构。
这里的句法结构是指词语与词语之间按照一定的规则组合构成的。而待检测内容是由多个词语组成的句子,在实际情况中,由于词语间的组合方式有多种,那么多个词语组合形成的句子也会有多个。在这种情况下,就需要对待检测内容进行句法结构分析。在进行句法结构分析时,会先将待检测内容分割成多个词语,再对分割后的多个词语进行句法结构分析,得到对应的句法结构,其中,句法结构分析是指确定哪些词语构成一个短语,哪些词语是动词的主语或宾语等等。
步骤308,当多个词语在预设合法词典中且句法结构在预设合法句法集合中时,确定待检测内容为合法内容。
在对待检测内容进行分割得到多个词语以及对待检测内容进行句法结构分析得到待检测内容的句法结构后,需要对分割后的多个词语与预设合法词典进行匹配,所谓合法词典是由各种合法词语组成的集合。同样的,需要对得到的待检测内容的句法结构与预设合法句法集合的句法结构进行匹配,当同时匹配成功时,确定待检测内容为合法内容。其中,预设合法句法集合是指多个合法的句法结构组成的集合。
本实施例中,通过对获取的待检测内容进行分割得到多个词语以及对待检测内容进行句法结构分析得到待检测内容的句法结构,当得到的多个词语在预设合法词典且得到待检测内容的句法结构在预设合法句法集合中时,可以确定待检测内容为合法内容。在人工审核之前先确定待检测内容中的合法内容,因此不仅降低了人工审核人员的工作量,而且节省了人工审核的成本。
在一个实施例中,该方法还包括:当多个词语不在预设合法词典中或者句法结构不在预设合法句法集合中时,则对待检测内容进行非法检测处理,确定所述待检测内容是否为非法内容。
图4示出了一个实施例中UGC内容处理方法的流程图,该方法以应用于如图1和图2中的服务器中进行举例说明。包括:
步骤402,获取待检测内容。
步骤404,对待检测内容进行分割,得到多个词语。
终端通过相关的应用程序上传的UGC内容,都可以作为待检测内容进行处理,服务器获取到待检测内容,由于待检测内容是由多个句子组成的,对于各个句子的合法性并不知,因此需要对待检测内容按照一定的规则进行分割,得到多个词语。其中,分割规则可根据词语在句子中的成分、词语的词性以及词语的搭配习惯进行分割。
步骤406,对待检测内容进行句法结构分析,得到待检测内容的句法结构。
由于句法结构是由词语与词语按照一定的规则进行组合构成的,句子是句法结构的其中一种表现形式,而待检测内容是由多个词语组成的句子,由于多个词语之间可以互相组合,得到多个不同的句子,因此需要对待检测内容进行句法结构分析。具体的,对待检测内容进行分割,得到分割后的多个词语,对多个词语在待检测内容中的相互关系或者句法功能进行标注,根据标注后各个词语不同的名称,得到待检测内容对应的句法结构。
步骤408,判断多个词语是否在预设合法词典中且句法结构是否在预设合法句法集合中,若是,则进入步骤410,若否,则进入步骤412。
这里的预设合法词典是预先获得人工审核标注出的合法内容的正样本内容中的词语,由于正样本内容是由多个词语组成的句子,因此对正样本内容进行分割得到多个词语,将分割后的多个词语进行清理处理得到最终的合法词典。同样的,所谓预设合法句法集合是预先获得人工审核标注出的合法内容的正样本内容中的句法结构。具体地,对正样本内容进行分割得到多个分割后的词语,对分割后得到的多个词语进行词性标注,根据一定的词性规则对标注后的多个词语进行排序,得到由多个句法组合组成的句法结构集合,再根据句法分析树对句法结构集合中的各个句法组合进行分析,得到由多个合法的句法结构组成的合法句法集合。待检测内容无论是分割后得到多个词语,还是进行句法结构分析后得到的句法结构,都可能存在着非法词语或者非法句法结构,因此需根据预设合法词典和预设合法句法集合对分割后的多个词语以及分析得到的句法结构进行匹配,当分割后的多个词语在预设合法词典中且分析得到的句法结构在预设合法句法集合中时,则进入步骤410,反之,进入步骤412。
步骤410,确定待检测内容为合法内容。
当分割后的多个词语在预设合法词典中且分析得到的句法结构在预设合法句法集合中时,说明分割后得到的多个词语是合法词语的,同样的,也说明进行句法结构分析得到的句法结构也是合法的句法结构的,最终确定待检测内容为合法内容。
步骤412,对待检测内容进行非法检测处理,确定待检测内容是否为非法内容。
由于分割后的多个词语不在预设合法词典或者进行句法结构分析得到的句法结构不在预设句法集合中,说明分割得到的多个词语可能是非法词语或者分析得到的句法结构可能存在非法的句法结构,因此需要对待检测内容进行非法检测处理,通过非法检测处理再来确定待检测内容是否是非法内容,其中,非法检测处理是通过识别非法词语,将命中的非法词语组成的待检测内容丢弃。
本实施例中,在人工审核之前通过对分割后得到的多个词语以及句法结构分析后得到句法结构进行判断是否在预设合法词典中且在预设句法集合中,先确认待检测内容中的合法评论,再通过非法检测处理来确认待检测内容中的非法内容,因此,不仅减少了人工审核人员的工作量,而且也能确保能够检测出UGC中的非法内容,提高了检测的准确性。
在一个实施例中,对待检测内容进行句法结构分析,得到待检测内容的句法结构之前,还包括:对待检测内容进行非法检测处理,确定待检测内容是否为非法内容;当待检测内容不是非法内容时,则进入对待检测内容进行句法结构分析,得到待检测内容的句法结构的步骤。
图5示出了一个实施例中UGC内容处理方法的流程图,该方法以应用于如图1和图2中的服务器中进行举例说明。包括:
步骤502,获取待检测内容。
步骤504,对待检测内容进行分割,得到多个词语。
由于需要对待检测内容的合法性进行确认,因待检测内容容易千变万幻,也容易出现新的变种,如果直接对待检测内容的合法性进行确认,不仅容易产生漏网之鱼,而且对于新变种的待检测内容的合法性也无法检测出来。因此需要对获取到的待检测内容按照一定的规则进行分割,得到多个词语;由于新变种的待检测内容也是由多个词语组成的句子,因此需要先对待检测内容进行分割,得到分割后的多个词语,其中,分割可根据词语在句子中的成分、词语的词性以及词语的搭配习惯进行分割。
步骤506,对待检测内容进行非法检测处理,确定待检测内容是否为非法内容。
由于待检测内容是由多个词语组成的多个句子,而各个句子中可能是由多个或单个非法词语组成的句子。因此需要对获取到的待检测内容进行非法检测处理,确认待检测内容是否是非法内容。所谓非法检测处理是通过识别非法词语,将命中的非法词语组成的待检测内容丢弃。具体的,服务器对获取到的待检测内容进行分割得到多个词语,再对分割后得到的每个词语进行检测,即检测由该词语组成的待检测内容是否为非法内容。
步骤508,当待检测内容不是非法内容时,则对待检测内容进行句法结构分析,得到待检测内容的句法结构。
在通过非法检测处理确认待检测内容不是非法内容后,还需要确认剩余的待检测内容是否是合法内容,因此需对待检测内容进行句法结构分析,得到待检测内容的句法结构。如上所述,句法结构是词语与词语之间按照一定的规则组合构成的,而待检测内容是由多个词语组成的句子,而多个词语之间的组合方式有很多种,所以得到的句子也会有多个,因此需要对待检测内容进行句法结构分析,得到待检测内容的句法结构。具体的,句法结构分析需对待检测内容中的句法成分进行切分,再根据切分后的各个成分在句法结构中的相互关系以及语法功能标注不同的名称,例如:主语、谓语、定语、名词短语、动词短语、形容词短语、副词短语等。根据各个标注后的词语之间的逻辑关系、词语与词语之间的句法等进行分析,最终得到待检测内容的句法结构,如名词短语+动词短语+名词短语+副词+动词短语+名词短语+名词短语。
步骤510,当多个词语在预设合法词典中且句法结构在预设合法句法集合中时,确定待检测内容为合法内容。
对于分割后得到的多个词语以及句法结构分析得到待检测内容的句法结构,需要分别根据预设合法词典对分割后得到的词语进行匹配,当分割后得到的词语属于预设合法词典的合法词语时,说明分割后得到的词语是合法词语。同样的,也需要对分析得到的句法结构与预设合法句法集合进行匹配,当句法结构在预设合法句法集合中时,说明句法结构分析得到的句法结构是合法的句法结构,当同时满足这两个条件,确定待检测内容是合法内容。
本实施例中,先对获取到的待检测内容进行非法检测处理得到非法内容,再对待检测内容进行合法内容确认,经过非法检测处理和合法内容确认后,再进入人工审核。能够更加准确检测出新变种的待检测内容中的合法内容,确保了检测的准确率。
在一个实施例中,如图6所示,对待检测内容进行非法检测处理,确定待检测内容是否为非法内容,包括:
步骤602,对多个词语进行拼音化处理,将拼音化处理后的多个词语与拼音化处理后的非法词语进行匹配,当匹配成功时,则判定待检测内容为非法内容。
对于分割后得到的多个词语,由于词语之间可以相互组合,而组合后的词语中存在敏感人物的名字或者是禁用词,如果不做任何的处理,对于敏感人物的名字或者禁用词使用谐音词语替换就会无法识别出来。因此需要对词语进行拼音化处理,通过拼音化处理后的词语与拼音化处理后的非法词语进行匹配,当匹配成功时,确定该拼音化前的词语组成的句子对应的待检测内容为非法内容。
步骤604,将待检测内容输入到预先训练好的负面评论分类器中,得到分类结果。
这里的负面评论分类器是已经训练好对负面内容进行分类的模型,通过样本数据以及样本数据对应的样本标签进行训练得到最终的负面评论分类器。其中,负面评论分类器中包含有各种负面内容的分类标签。具体地,将待检测内容进行分割得到多个词语作为训练好的负面评论分类器的输入,负面评论分类器会根据输入的词语输出由该词语组成的句子判定对应的待检测内容的标签,最终确定待检测内容的分类结果。应当说明的是,步骤602和步骤604并没有先后执行顺序,也可以同时执行,或者先执行步骤604再执行步骤602。在其它实施例中,对待检测内容进行非法检测处理,确定待检测内容是否为非法内容也可包括步骤602和步骤604中的一个步骤。
在一个实施例中,预设合法词典通过对标注为合法内容的正样本内容进行处理得到;对标注为合法内容的正样本内容进行处理包括:对正样本内容进行分词,统计得到词频最高的预设数量的词语;对预设数量的词语进行清洗处理,得到清洗处理后剩余的词语,将剩余的词语添加到合法词典中。
本实施例中,通过人工审核已经标注出很多为合法内容的正样本内容,由于正样本内容也是由多个词语组成的句子,因此预先对正样本内容分割得到多个词语,将这些多个词语组成合法词典。具体的,对标注为合法内容的正样本内容进行整理,对整理后的正样本内容进行分割,提取出所有的词语,由于提取后的词语会重复出现的,因此需要对提取出的所有词语进行统计,得到词频最高的预设数量的词语。其中,预设数量的词语可根据在提取出所有的词语中出现频率前50%的词语。在统计出词频最高的预设数量的词语后,对统计出的词语进行清洗处理,所谓清洗处理是指对词语进行重新审查和校验的过程,按照一定的规则过滤掉一些不符合要求的词语,将清洗处理后的剩余的词语添加到合法词典中,最终得到合法词典。
在一个实施例中,对预设数量的词语进行清洗处理,包括以下方式的至少一种:去除预设数量的词语中的数字和英文字母的词;去除预设数量的词语中的标注为实体名称的词;去除预设数量的词语中的非法词语。
本实施例中,为了最终得到预设合法词典,在对正样本内容进行分割,对分割后的多个词语进行统计,得出词频最高的预设数量词语后,需对预设数量的词语进行清洗处理,其中,清洗处理是根据一定的清理规则去除不符合要求的词语。其中,清理规则可以是将统计得到词频最高的预设数量的词语中包含数字和英文字母的词语,词语中人工审核标注为人名的词语或者是人工审核标注为非法的词语等等进行去除。
在一个实施例中,预设合法句法集合是通过对标注为合法内容的正样本内容进行句法结构分析后得到的句法结构集合。
本实施例中,通过人工审核已经标注出很多是合法内容的正样本内容,由于正样本内容由多个词语组成的句子,因此需要先对组成正样本内容的句子进行分词,对分词后的多个词语进行词性标注,根据一定的词性排序规则对词性标注后的词语进行排序。其中,词性排序规则根据词语之间的搭配习惯或者词语之间的逻辑关系进行排序,得到多个句法组合,由多个句法组合组成句法结构集合,根据句法分析树对句法结构集合中的多个句法组合进行分析,得到多个合法的句法结构,由多个合法句法结构组成合法句法集合。所谓句法分析树是借助树形图来说明句法结构中词语与词语、词组与词组之间的句法、语义和逻辑关系。
如图7所示,正样本内容分词后得到的多个词语为:“俄国希望伊朗没有制造核武器计划”,根据一定的词性排序规则进行排序,得到多个句法组合,包括但不限于:“俄国希望伊朗没有制造核武器计划”、“俄国伊朗希望没有制造核武器计划”“俄国没有希望伊朗制造核武器计划”等等,句法分析树根据词语之间的搭配习惯或者词语之间的逻辑关系对多个句法组合进行分析,将“俄国”标注为名词短语,“希望”标注为动词短语,“伊朗”标注为名词短语,“没有”标注为副词短语,“制造”标注为动词短语,“核武器”标注为名词短语以及“计划”标注为名词短语,将最后得到的“NR(专有名词)+VV(其他动词)+NR(专有名词)+VV(专有名词)+NN(专有名词)+NN(其他名词)”这个句法结构加入到合法句法集合中,即合法句法集合中包括了多个不同的句法结构。
图8示出了一个实施例中UGC内容处理方法的流程图,该方法以应用于如图1和图2中的服务器中进行举例说明。包括:
步骤802,获取待检测内容。
如上所述,待检测内容可以是UGC内容,包括但不限于各种文章、评论等。可以通过终端相关的应用程序上传UGC内容,这里的应用程序可以是但不限于各种能够发表UGC内容的新闻应用、视频应用、社交网络应用、论坛应用等。
步骤804,对待检测内容进行分割,得到多个词语。
一般情况下,获取到的待检测内容是以句子的形式体现的,句子又是由多个词语组成的,因此需要将待检测内容按照一定的规则进行分割,得到分割后的多个词语,其中,分割的规则可根据在句子中的成分或者词语之间的搭配习惯进行分割。例如,获取到的待检测内容为:“我去上班了你们今天自己做饭”,将待检测内容进行分割为:“我^去^上班^了^你们^今天^自己^做饭”,得到分割后的多个词语:“我、去、上班、了、你们、今天、自己、做饭”,其中,^是用来分割词语的。
步骤806,对多个词语进行拼音化处理,将拼音化处理后的多个词语与拼音化处理后的非法词语进行匹配,当匹配成功时,则判定待检测内容为非法内容。
如图9所示,图9示出UGC内容处理方法的原理图,可将UGC内容作为待检测内容,对UGC内容先进行非法检测处理,将非法检测处理后得到的非法内容进行丢弃。具体的,在对UGC内容进行分割得到多个词语后,为了避免用谐音词替换敏感人物的名字或者禁用词,因此需对多个词语进行拼音化处理。将拼音化处理得到的多个词语与预先拼音化处理的非法词语进行匹配,其中,非法词语包括敏感人物的名字、敏感词语或者是禁用词。例如,分割后得到的词语为:“他、可能、是、个、纸张、或者、白痴”,对多个词语进行拼音化处理为:“ta、keneng、shi、ge、zhi zhang、huo zhe、bai chi”,由于拼音化处理后的多个词语中“zhi zhangbai chi”与预先拼音化处理的非法词语匹配成功,判定由该词语组成的待检测内容“他可能是个纸张或者白痴”为非法内容,将非法内容进行丢弃。
步骤808,将待检测内容输入到预先训练好的负面评论分类器中,得到分类结果。
应当说明的是,步骤806和步骤808并没有先后执行顺序,也可以同时执行,或者先执行步骤806再执行步骤808。在其它实施例中,对待检测内容进行非法检测处理,确定待检测内容是否为非法内容也可包括步骤806和步骤808中的一个步骤。为了判定待检测内容是否为非法内容,由于待检测内容是由多个词语组成的句子,因此对待检测内容需进行分割得到多个词语,将分割后得到的多个词语作为预先训练好的负面评论分类器的输入,得到对应的输出结果,即分类结果。其中,负面评论分类器是包含有各种负面内容分类标签的模型。例如,待检测内容为:“如果你赞我可以获得一千万”,对待检测内容进行分割得到多个词语:“如果、你、赞、我、可以、获得、一千万”,将分割得到的多个词语作为负面评论分类器的输入,根据负面评论分类器中包含的负面内容标签得到的由该词语组成的待检测内容对应的标签为:“欺骗”,最终确定该待检测内容分类结果为:非法内容,将非法内容进行丢弃。
步骤810,当待检测内容不是非法内容时,则对待检测内容进行句法结构分析,得到待检测内容的句法结构。
如图9所示,在对待检测内容进行非法检测处理确定分类结果为不是非法内容后,需将通过的待检测内容进行合法内容确认。具体的,对剩余的待检测内容的构成是否符合特定的语法,对待检测内容进行句法结构分析来确定句子的结构以及句法成分之间的关系,最终得到待检测内容的句法结构。由于待检测内容是由多个词语组成的句子,多个词语之间有不同的组合方式得到多个句子,因此根据句法成分对句子进行切分,根据切分后的各个成分在句法结构中的相互关系以及语法功能给予不同的名称,根据切分后的各个成分在句法结构中的相互关系以及语法功能标注不同的名称,得到待检测内容的句法结构。例如,待检测内容为“小王洗好了衣服”组成的句子,对其进行分割得到多个词语为:“小王、衣服、洗、好、了”,由于词语之间的组合方式有很多种,得到多个句法组合,如“小王洗好了衣服”、“衣服洗好了小王”或者“洗好了小王衣服”等等,根据各个词语在句子中的相互关系或者是句法功能对多个句法组合进行分析,得到待检测内容最终的句法结构其中一种为:“主语+谓语+状语+宾语”。
步骤812,当多个词语在预设合法词典中且句法结构在预设合法句法集合中时,确定待检测内容为合法内容。
如图9所示,图9示出UGC内容处理方法的原理图,在对待检测内容进行分割,得到多个词语后,将分割后得到的多个词语与预设合法词典中的合法词语进行匹配。同样的,在对待检测内容进行句法结构分析,得到待检测内容的句法结构后,将得到的句法结构与预设合法句法集合进行匹配,当同时匹配成功时,通过的待检测内容确定为合法内容。例如,待检测内容为“你今天吃了饭”,对待检测内容进行分割得到多个词语为:“你、今天、吃、了、饭”。由于多个词语之间是可以互相组合得到多个句子,如:“你今天吃饭了”“你吃饭了今天”“今天你吃了饭”等等,对不同的句子进行句法结构分析,得到最终待检测内容的句法结构其中一种为:“主语+副词+动词+宾语”。将最终得到的待检测内容的句法结构与预设合法句法集合中的合法句法进行匹配且将分割后的多个词语与预设合法词典中的合法词语进行匹配,当同时匹配成功时,判定待检测内容为:“你今天吃了饭”是合法内容。
图10示出了一个实施例中UGC内容处理方法的流程图,该方法以应用于如图1和图2中的服务器中进行举例说明。包括:
步骤1002,获取待检测内容。
步骤1004,对待检测内容进行分割,得到多个词语。
可通过终端的相关的应用上传UGC内容,可将其作为待检测内容,终端获取到的待检测内容一般都是以句子的形式体现,则待检测内容实际上是由多个词语组成的句子,因此需对待检测内容按照一定的规则进行分割,得到多个词语。其中,分割的规则根据词语与词语之间的搭配习惯、词语在句子中的成分等等进行分割。例如,上传的UGC内容为:“你明天有时间去爬山吗”,根据词语与词语之间的搭配习惯,会将UGC内容分割为:“你、明天、有、时间、去、爬山、吗”,得到分割后的多个词语。
步骤1006,对待检测内容进行句法结构分析,得到待检测内容的句法结构。
如图11所示,图11示出UGC内容处理方法的原理图,将UGC内容作为待检测内容,对UGC内容先进行合法内容确认处理,将确认为合法内容的待检测内容进行非法检测处理,通过两次检测,提高了检测的准确性。具体的,由于句法结构是词语与词语之间按照一定的规则组合构成的,句子是句法结构中的其中一种表现形式。因待检测内容是由多个词语组成的句子,在对待检测内容进行分割得到多个词语后,对分割后得到的多个词语根据在句法结构中的相互关系以及语法功能标注不同的名称,根据得到最终的待检测内容的句法结构。例如,将待检测内容分割得到的多个词语为:“俄国、希望、伊朗、没有、制造、核武器、计划”,将“俄国”标注为名词短语,“希望”标注为动词短语,“伊朗”标注为名词短语,“没有”标注为副词短语,“制造”标注为动词短语,“核武器”标注为名词短语以及“计划”标注为名词短语,最终得到待检测内容的句法结构其中一种为:“NR+VV+NR+AD+VV+NN+NN”。
步骤1008,判断多个词语是否在预设合法词典中且句法结构是否在预设合法句法集合中,若是,则进入步骤1010,若否,则进入步骤1012。
如图11所示,图11示出UGC内容处理方法的原理图,在对待检测内容根据一定的规则进行分割,得到多个分割后的词语后,将分割后的词语与预设合法词典中的合法词语进行匹配,同样的,在对待检测内容进行句法结构分析,得到待检测内容的句法结构后,将得到的句法结构与预设合法句法结合中的句法结构进行匹配,当同时匹配成功时,则进入步骤1010,反之,进入步骤1012。
步骤1010,确定待检测内容为合法内容。
当分割后的多个词语在预设合法词典中且句法结构分析得到的句法结构在预设合法集合中时,确定待检测内容为合法内容。具体的,待检测内容为:“他的话很有道理”,进行分割得到的多个词语为:“他、的、话、很、有、道理”,进行句法结构分析得到的句法结构为:“主语+谓语+宾语”,因分割后的多个词语在预设合法词典中的,且得到的句法结构“主语+谓语+宾语”也属于预设合法集合中合法句法结构中的其中一种,则可确定待检测内容为:“他的话很有道理”为合法内容。
步骤1012,对多个词语进行拼音化处理,将拼音化处理后的多个词语与拼音化处理后的非法词语进行匹配,当匹配成功时,则判定待检测内容为非法内容。
如图11所示,在对待检测内容进行非法检测处理确定待检测内容为合法内容后,需要对通过的待检测内容再次进行非法检测处理。具体的,在对待检测内容进行分割,得到分割后的多个词语后,词语中可能存在敏感人物的名称或者禁用词等等,而对于用谐音词替换敏感人物的名称或者禁用词时,避免漏掉,则需对分割后的多个词语进行拼音化。例如,分割后的多个词语为:“小明、是、个、纸张”,由于“纸张”与“智障”属于谐音词语,如果直接识别,将会将“纸张”识别会合法词语,因此需要对分割后的词语进行拼音化处理,即:“xiaoming shi ge zhizhang”,因拼音化处理的“zhizhang”与预先拼音化处理的非法词语“zhizhang”相匹配,则判定待检测内容:“小明是个纸张”为非法内容。
步骤1014,将待检测内容输入到预先训练好的负面评论分类器中,得到分类结果。
在对待检测内容进行分割,得到分割后的多个词语后,将分割后的多个词语作为预先训练好的负面评论分类器的输入,输出由各个词语组成的待检测内容的标签,最终确定待检测内容的分类结果。其中,负面评论分类器是包含有各种负面内容分类标签的模型。应当说明的是,步骤1012和步骤1014并没有先后执行顺序,也可以同时执行,或者先执行步骤1012再执行步骤1014。在其它实施例中,对待检测内容进行非法检测处理,确定待检测内容是否为非法内容也可包括步骤1012和步骤1014中的一个步骤。例如,待检测内容为:“如果想购买商品请加我微信号”,对待检测内容进行分割,得到多个分割后的词语为:“如果、想、购买、请、加、我、微信号”,将分割后地得到的多个词语作为预先训练好的负面评论分类器的输入,负面评论分类器根据分割后的多个词语得到由该词语组成的待检测内容对应的标签为:“广告”,最终确定待检测内容分类结果为非法内容,将确定为非法内容的待检测内容进行丢弃。
本发明实施例提供的一种UGC内容处理方法,可应用于公众号、网络文章等应用场景中的UGC内容处理。如图12所示,图12示出一个实施例中UGC内容处理方法的应用环境图。用户终端1210可通过相关应用程序发表UGC内容,例如对某一公众号发布的文章进行评论,可将该评论作为待检测内容发送至服务器1220。该服务器接收到用户终端发送的UGC内容,对UGC内容进行分割得到若干个词语,再通过对接收到的UGC内容进行句法结构分析,得到该UGC内容对应的句法结构。当分割得到的若干个词语在预设合法词典中且该UGC内容对应的句法结构在预设合法句法集合中时,则可确定该UGC内容为合法内容。同时,将未确定合法性的UGC内容发送至审核终端1230,审核人员可通过相关应用程序登录UGC内容标注平台页面,将服务器发送的未确定合法性的UGC内容显示在该UGC内容标注平台页面供审核人员进行审核。
进一步,由于敏感人物的名字或者禁用词可能会使用谐音词语替换,因此服务器还需对已经确定为合法内容的UGC内容再次进行非法检测处理,若非法检测处理也确定该UGC内容为合法内容,则可将该UGC内容发送至用户终端进行显示。
其中,审核终端1230接收到服务器发送的未确定合法性的UGC内容,将通过相关的应用程序登录UGC内容标注平台页面对未确定合法性的UGC内容进行人工审核。如图13所示,图13示出人工审核UGC内容标注平台界面图,UGC内容审核人员可通过该UGC内容标注平台页面对来自某一文章来源的UGC内容进行人工审核,得到未确定合法性的UGC内容的合法性。例如,对UGC内容为来自某一文章为“王者荣耀:还能不能好好玩耍了?”进行人工审核,根据该UGC内容其中一个评论为“假的”可通过该UGC内容标注平台页面上的评论标注选项,将该UGC内容为“王者荣耀:还能不能好好玩耍了?”标注为“认为是谣言/瞎编/文章有错误”,且将该UGC内容标注对应的标签为“无”,因此将该UGC内容确定为非法内容。进一步地,服务器再对UGC内容进行句法结构分析时,可通过相关应用程序对待检测内容的句法结构进行分析。如图14所示,图14示出一个实施例中对UGC内容进行句法结构分析的界面图。具体地,将待检测内容为“俄国希望伊朗没有制作核武器计划”作为该应用程序的句法结构分析的语料,可通过应用程序对待检测内容进行句法结构分析,得到该待检测内容的句法结构为:“NR+VV+NR+AD+VV+NN+NN”。其中,NR、NN都为名词短语,VV为动词短语,AD为副词短语。
如图15所示,在一个实施例中,提供了一种UGC内容处理方法,该方法以应用于如图12中的审核终端中进行举例说明。包括:
步骤1502,获取UGC内容审核请求。
这里的UGC内容,包括但不限于各种文章、评论等。由于服务器对待检测内容进行分割得到多个词语且对待检测内容进行句法结构分析得到待检测内容的句法结构,需要对分割得到多个词语与预设合法词典中的合法词语进行匹配。同样的,需对待检测内容的句法结构与预设句法集合中的句法结构进行匹配,当同时命中时,服务器则将命中的待检测内容确定为合法内容。对于未命中的待检测内容,服务器需将未命中的待检测内容发送至审核终端进行审核,因此发送UGC内容审核请求至审核终端。
步骤1504,根据UGC内容审核请求获取经合法内容确认时未命中的待检测内容,经合法内容确认时未命中的待检测内容是:对待检测内容进行分割得到的多个词语未在预设合法词典中,或对待检测内容进行句法结构分析得到的句法结构未在预设合法句法集合中的待检测内容。
步骤1506,显示经合法内容确认时未命中的待检测内容。
审核终端在获取到UGC内容审核请求后,会根据该UGC内容审核请求接收服务器下发的用于显示未命中的待检测内容的标注界面,审核终端通过接收该标注界面并显示经服务器进行合法内容确认时未命中的待检测内容。其中,经合法内容确认时未命中的待检测内容是对待检测内容进行分割得到的多个词语,分割得到的若干个词语未在预设句法词典中,或对待检测内容进行句法结构分析得到的句法结构也未在预设合法句法集合中的待检测内容。上述实施例中,审核终端通过接收服务器发送的UGC内容审核请求以及显示下发的经服务器合法内容确认时未命中的待检测内容。先通过服务器对待检测内容的合法性进行确认,再将服务器未确定合法性的待检测内容发送至审核终端供审核终端显示。不仅能够降低了审核人员的工作量,而且也能够确保待检测内容的合法性检测的准确性。
在一个实施例中,在显示经合法内容确认时未命中的待检测内容之后,还包括:获取对经合法内容确认时未命中的待检测内容的标注指令;当标注指令用于标注非法内容时,将经合法内容确认时未命中的待检测内容标注为非法内容;当标注指令用于标注合法内容时,将经合法内容确认时未命中的待检测内容标注为合法内容。
如图16所示,在一个实施例中,提供了一种UGC内容处理方法,该方法以应用于如图12中的审核终端中进行举例说明。包括:
步骤1602,获取UGC内容审核请求。
在服务器对待检测内容的合法性进行检测后,需将经合法内容确认时未命中的待检测内容发送至审核终端进行审核,因此需要发送对待检测内容审核的UGC内容审核请求至审核终端,告知审核终端对待检测内容的合法性进行审核。其中,待检测内容可以是UGC内容,包括但不限于各种文章、评论等。
步骤1604,根据UGC内容审核请求获取经合法内容确认时未命中的待检测内容,经合法内容确认时未命中的待检测内容是:对待检测内容进行分割得到的多个词语未在预设合法词典中,或对待检测内容进行句法结构分析得到的句法结构未在预设合法句法集合中的待检测内容。
步骤1606,显示经合法内容确认时未命中的待检测内容。
由于服务器已经通过对待检测内容进行分割得到若干个词语,以及对待检测内容进行句法结构分析得到待检测内容的句法结构,需要对分割得到的多个词语与预设合法词典进行匹配以及对待检测内容的句法结构与预设句法集合中的句法结构进行匹配。当同时命中时,可以确定待检测内容为合法内容。对于未命中的待检测内容,服务器则需要发送UGC内容审核请求至审核终端,为了告知审核终端对未命中的待检测内容进行审核。同样的,服务器需将未命中的待检测内容下发至审核终端供审核终端显示。具体地,服务器发送UGC内容审核请求至审核终端后,会根据UGC内容审核请求接收服务器下发的用于显示未命中的待检测内容的标注界面,审核终端通过接收标注界面并在该标注界面上显示未命中的待检测内容。
步骤1608,获取对经合法内容确认时未命中的待检测内容的标注指令。
步骤1610,判断标注指令是否用于标注非法内容,若是,则进入步骤1612,反之,则进入步骤1614。
在审核终端显示服务器下发的标注界面后,通过标注界面可触发对服务器下发的未命中的待检测内容的合法性进行标注,从而获得对未命中的待检测内容的标注指令。由于服务器下发的待检测内容的合法性未知,则需对获取到的的标注指令是否用于标注非法内容进行判断,若是,则进入步骤1612,反之,则进入步骤1614。
步骤1612,将经合法内容确认时未命中的待检测内容标注为非法内容;步骤1614,将经合法内容确认时未命中的待检测内容标注为合法内容。
在判断用于标注未命中的待检测内容的标注指令是用于标注非法内容后,则将未命中的待检测内容标注为非法内容。同样地,在判断用于标注未命中的待检测内容的标注指令是不是用于标注非发内容后,则将为命中的待检测内容标注为合法内容。具体地,服务器将经合法内容确认时未命中的待检测内容发送至审核终端显示,如图13所示,图13示出人工审核UGC内容标注平台界面图,UGC内容审核人员可通过该标注平台界面对该标注平台界面上的待检测内容进行标注。如待检测内容为“王者荣耀:还能不能好好玩耍了?”进行人工审核,根据该UGC内容其中一个评论为“假的”可通过该UGC内容标注平台页面上的评论标注选项,将该UGC内容为“王者荣耀:还能不能好好玩耍了?”标注为“认为是谣言/瞎编/文章有错误”,且将该UGC内容标注对应的标签为“无”。由于将该UGC内容标注为“认为是谣言/瞎编/文章有错误”,因此可将该待检测内容为“王者荣耀:还能不能好好玩耍了?”标注为非法内容。
上述实施例中,审核人员可通过审核终端上显示的审核标注界面对经服务器合法内容确认时未命中的待检测内容的合法性进行标注。由于通过审核人员对未命中的待检测内容的人工审核二次审核,不仅减少了审核人员二次审核的工作量,而且也确保了待检测内容合法性检测的准确性。
如图17所示,在一个实施例中,提供了一种UGC内容处理装置1700,该装置包括:
获取模块1702,用于获取待检测内容。
分割模块1704,用于对待检测内容进行分割,得到多个词语。
分析模块1706,用于对待检测内容进行句法结构分析,得到待检测内容的句法结构。
第一检测模块1708,用于当多个词语在预设合法词典中且句法结构在预设合法句法集合中时,确定待检测内容为合法内容。
在一个实施例中,UGC内容处理装置1700还包括第二检测模块(图中未示出),用于当多个词语不在预设合法词典中或者句法结构不在预设合法句法集合中时,则对待检测内容进行非法检测处理,确定待检测内容是否为非法内容。
在一个实施例中,第二检测模块用于对待检测内容进行非法检测处理,确定待检测内容是否为非法内容。当第二检测模块检测出待检测内容不是非法内容时,则分析模块1706用于对待检测内容进行句法结构分析,得到待检测内容的句法结构。
在一个实施例中,第二检测模块还用于对多个词语进行拼音化处理,将拼音化处理后的多个词语与拼音化处理后的非法词语进行匹配,当匹配成功时,则判定待检测内容为非法内容。在本实施例或另一个实施例中,第二检测模块还用于将待检测内容输入到预先训练好的负面评论分类器中,得到分类结果。
在一个实施例中,预设合法词典通过对标注为合法内容的正样本内容进行处理得到。
在一个实施例中,上述UGC内容处理装置1700还包括分词模块和清洗模块(图中未示出),其中:
分词模块,用于对正样本内容进行分词,统计得到词频最高的预设数量的词语。
清洗模块,对预设数量的词语进行清洗处理,得到清洗处理后剩余的词语,将剩余的词语添加到合法词典中。
在一个实施例中,对预设数量的词语进行清洗处理,包括以下方式的至少一种:去除预设数量的词语中的数字和英文字母的词;去除预设数量的词语中的标注为实体名称的词;去除预设数量的词语中的非法词语。
在一个实施例中,预设合法句法集合是通过对标注为合法内容的正样本内容进行句法结构分析后得到的句法结构集合。
如图18所示,在一个实施例中,提供了一种UGC内容处理装置1800,该装置包括:
审核请求获取模块1802,用于获取UGC内容审核请求,根据UGC内容审核请求获取经合法内容确认时未命中的待检测内容,经合法内容确认时未命中的待检测内容是:对待检测内容进行分割得到的多个词语未在预设合法词典中,并且对待检测内容进行句法结构分析得到的句法结构未在预设合法句法集合中的待检测内容。
显示模块1804,用于显示经合法内容确认时未命中的待检测内容。
在一个实施例中,该UGC内容处理装置1800还包括标注指令获取模块(图中未示出)、非法内容检测模块(图中未示出)、合法内容检测模块(图中未示出),其中:标注指令获取模块,用于获取对经合法内容确认时未命中的待检测内容的标注指令;非法内容检测模块,用于当标注指令用于标注非法内容时,将经合法内容确认时未命中的待检测内容标注为非法内容;合法内容检测模块,用于当标注指令用于标注合法内容时,将经合法内容确认时未命中的待检测内容标注为合法内容。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待检测内容;对待检测内容进行分割,得到多个词语;对待检测内容进行句法结构分析,得到待检测内容的句法结构;当多个词语在预设合法词典中且句法结构在预设合法句法集合中时,确定待检测内容为合法内容。
在一个实施例中,该方法还包括:当多个词语不在预设合法词典中或者句法结构不在预设合法句法集合中时,则对待检测内容进行非法检测处理,确定待检测内容是否为非法内容。
在一个实施例中,在对待检测内容进行句法结构分析,得到待检测内容的句法结构之前,还包括:对待检测内容进行非法检测处理,确定待检测内容是否为非法内容;当待检测内容不是非法内容时,则进入对待检测内容进行句法结构分析,得到待检测内容的句法结构的步骤。
在一个实施例中,对待检测内容进行非法检测处理,确定待检测内容是否为非法内容,包括:对多个词语进行拼音化处理,将拼音化处理后的多个词语与拼音化处理后的非法词语进行匹配,当匹配成功时,则判定待检测内容为非法内容;和/或将待检测内容输入到预先训练好的负面评论分类器中,得到分类结果。
在一个实施例中,预设合法词典通过对标注为合法内容的正样本内容进行处理得到;对标注为合法内容的正样本内容进行处理包括:对正样本内容进行分词,统计得到词频最高的预设数量的词语;对预设数量的词语进行清洗处理,得到清洗处理后剩余的词语,将剩余的词语添加到合法词典中。
在一个实施例中,对预设数量的词语进行清洗处理,包括以下方式的至少一种:去除预设数量的词语中的数字和英文字母的词;去除预设数量的词语中的标注为实体名称的词;去除预设数量的词语中的非法词语。
在一个实施例中,预设合法句法集合是通过对标注为合法内容的正样本内容进行句法结构分析后得到的句法结构集合。
在一个实施例中,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述各个实施例提供的应用于审核终端中的UGC内容处理方法中的步骤。
在又一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取UGC内容审核请求;根据UGC内容审核请求获取经合法内容确认时未命中的待检测内容,经合法内容确认时未命中的待检测内容是:对待检测内容进行分割得到的多个词语未在预设合法词典中,并且对待检测内容进行句法结构分析得到的句法结构未在预设合法句法集合中的待检测内容;显示经合法内容确认时未命中的待检测内容。
在一个实施例中,在显示经合法内容确认时未命中的待检测内容之后,还包括:获取对经合法内容确认时未命中的待检测内容的标注指令;当标注指令用于标注非法内容时,将经合法内容确认时未命中的待检测内容标注为非法内容;当标注指令用于标注合法内容时,将经合法内容确认时未命中的待检测内容标注为合法内容。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (21)

1.一种UGC内容处理方法,其特征在于,所述方法包括:
获取待检测内容;
对所述待检测内容进行分割,得到多个词语;
对所述待检测内容进行句法结构分析,得到所述待检测内容的句法结构,包括,对所述多个词语在所述待检测内容中的相互关系或句法功能进行标注,根据标注后各个词语不同的名称,得到所述待检测内容对应的句法结构;
当所述多个词语在预设合法词典中且所述句法结构在预设合法句法集合中时,确定所述待检测内容为合法内容。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述多个词语不在预设合法词典中或者所述句法结构不在预设合法句法集合中时,则对所述待检测内容进行非法检测处理,确定所述待检测内容是否为非法内容。
3.根据权利要求1所述的方法,其特征在于,在对所述待检测内容进行句法结构分析,得到所述待检测内容的句法结构之前,还包括:
对所述待检测内容进行非法检测处理,确定所述待检测内容是否为非法内容;
当所述待检测内容不是非法内容时,则进入对所述待检测内容进行句法结构分析,得到所述待检测内容的句法结构的步骤。
4.根据权利要求2或3所述的方法,其特征在于,所述对所述待检测内容进行非法检测处理,确定所述待检测内容是否为非法内容,包括:
对所述多个词语进行拼音化处理,将拼音化处理后的多个词语与拼音化处理后的非法词语进行匹配,当匹配成功时,则判定所述待检测内容为非法内容;
和/或
将所述待检测内容输入到预先训练好的负面评论分类器中,得到分类结果。
5.根据权利要求1所述的方法,其特征在于,所述预设合法词典通过对标注为合法内容的正样本内容进行处理得到;
所述对标注为合法内容的正样本内容进行处理包括:
对正样本内容进行分词,统计得到词频最高的预设数量的词语;
对所述预设数量的词语进行清洗处理,得到清洗处理后剩余的词语,将所述剩余的词语添加到合法词典中。
6.根据权利要求5所述的方法,其特征在于,所述对所述预设数量的词语进行清洗处理,包括以下方式的至少一种:
去除所述预设数量的词语中的数字和英文字母的词;
去除所述预设数量的词语中的标注为实体名称的词;
去除所述预设数量的词语中的非法词语。
7.根据权利要求1所述的方法,其特征在于,所述预设合法句法集合是通过对标注为合法内容的正样本内容进行句法结构分析后得到的句法结构集合。
8.一种UGC内容处理方法,其特征在于,所述方法包括:
获取UGC内容审核请求;
根据所述UGC内容审核请求获取经合法内容确认时未命中的待检测内容,所述经合法内容确认时未命中的待检测内容,包括,对待检测内容进行句法结构分析得到的句法结构未在预设合法句法集合中的待检测内容,其中,对所述待检测内容分割得到的多个词语在所述待检测内容中的相互关系或句法功能进行标注,根据标注后各个词语不同的名称,得到所述待检测内容对应的句法结构;
显示所述经合法内容确认时未命中的待检测内容。
9.根据权利要求8所述的方法,其特征在于,在所述显示所述经合法内容确认时未命中的待检测内容之后,还包括:
获取对所述经合法内容确认时未命中的待检测内容的标注指令;
当所述标注指令用于标注非法内容时,将所述经合法内容确认时未命中的待检测内容标注为非法内容;
当所述标注指令用于标注合法内容时,将所述经合法内容确认时未命中的待检测内容标注为合法内容。
10.根据权利要求8所述的方法,其特征在于,所述经合法内容确认时未命中的待检测内容是:对待检测内容进行分割得到的多个词语未在预设合法词典中,或对待检测内容进行句法结构分析得到的句法结构未在预设合法句法集合中的待检测内容。
11.一种UGC内容处理装置,其特征在于,所述装置包括:
获取模块,用于获取待检测内容;
分割模块,用于对所述待检测内容进行分割,得到多个词语;
分析模块,用于对所述待检测内容进行句法结构分析,得到所述待检测内容的句法结构,包括,对所述多个词语在所述待检测内容中的相互关系或句法功能进行标注,根据标注后各个词语不同的名称,得到所述待检测内容对应的句法结构;
第一检测模块,用于当所述多个词语在预设合法词典中且所述句法结构在预设合法句法集合中时,确定所述待检测内容为合法内容。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二检测模块,用于当所述多个词语不在预设合法词典中或者所述句法结构不在预设合法句法集合中时,则对所述待检测内容进行非法检测处理,确定所述待检测内容是否为非法内容。
13.根据权利要求11所述的装置,其特征在于,第二检测模块用于对所述待检测内容进行非法检测处理,确定所述待检测内容是否为非法内容;当所述待检测内容不是非法内容时,则进入对所述待检测内容进行句法结构分析,得到所述待检测内容的句法结构的步骤。
14.根据权利要求12或13所述的装置,其特征在于,所述第二检测模块还用于对所述多个词语进行拼音化处理,将拼音化处理后的多个词语与拼音化处理后的非法词语进行匹配,当匹配成功时,则判定所述待检测内容为非法内容;和/或将所述待检测内容输入到预先训练好的负面评论分类器中,得到分类结果。
15.根据权利要求11所述的装置,其特征在于,所述预设合法词典通过对标注为合法内容的正样本内容进行处理得到;
所述装置还包括:
分词模块,用于对正样本内容进行分词,统计得到词频最高的预设数量的词语;
清洗模块,用于对所述预设数量的词语进行清洗处理,得到清洗处理后剩余的词语,将所述剩余的词语添加到合法词典中。
16.根据权利要求15所述的装置,其特征在于,所述对所述预设数量的词语进行清洗处理,包括以下方式的至少一种:
去除所述预设数量的词语中的数字和英文字母的词;
去除所述预设数量的词语中的标注为实体名称的词;
去除所述预设数量的词语中的非法词语。
17.根据权利要求11所述的装置,其特征在于,所述预设合法句法集合是通过对标注为合法内容的正样本内容进行句法结构分析后得到的句法结构集合。
18.一种UGC内容处理装置,其特征在于,所述装置包括:
审核请求获取模块,用于获取UGC内容审核请求,根据所述UGC内容审核请求获取经合法内容确认时未命中的待检测内容,所述经合法内容确认时未命中的待检测内容,包括,对待检测内容进行句法结构分析得到的句法结构未在预设合法句法集合中的待检测内容,其中,对所述待检测内容分割得到的多个词语在所述待检测内容中的相互关系或句法功能进行标注,根据标注后各个词语不同的名称,得到所述待检测内容对应的句法结构;
显示模块,用于显示所述经合法内容确认时未命中的待检测内容。
19.根据权利要求18所述的装置,其特征在于,所述装置,还包括:
标注指令获取模块获取,用于对所述经合法内容确认时未命中的待检测内容的标注指令;
非法内容检测模块,用当所述标注指令用于标注非法内容时,将所述经合法内容确认时未命中的待检测内容标注为非法内容;
合法内容检测模块,用于当所述标注指令用于标注合法内容时,将所述经合法内容确认时未命中的待检测内容标注为合法内容。
20.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
21.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
CN201711354275.5A 2017-12-15 2017-12-15 Ugc内容处理方法及装置 Active CN109933775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711354275.5A CN109933775B (zh) 2017-12-15 2017-12-15 Ugc内容处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711354275.5A CN109933775B (zh) 2017-12-15 2017-12-15 Ugc内容处理方法及装置

Publications (2)

Publication Number Publication Date
CN109933775A CN109933775A (zh) 2019-06-25
CN109933775B true CN109933775B (zh) 2022-02-18

Family

ID=66980679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711354275.5A Active CN109933775B (zh) 2017-12-15 2017-12-15 Ugc内容处理方法及装置

Country Status (1)

Country Link
CN (1) CN109933775B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949285B (zh) * 2020-10-13 2024-04-05 广州市百果园网络科技有限公司 语句文本检测方法、系统、电子设备及存储介质
CN115221884A (zh) * 2022-09-15 2022-10-21 北京铀媒科技有限公司 特定人物检测方法、系统、存储介质及终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068154A (zh) * 2006-07-27 2007-11-07 腾讯科技(深圳)有限公司 一种垃圾信息过滤方法及装置
CN104462509A (zh) * 2014-12-22 2015-03-25 北京奇虎科技有限公司 垃圾评论检测方法及装置
CN104484330A (zh) * 2014-10-31 2015-04-01 浙江工商大学 基于分档关键词阈值组合评估的垃圾评论预选方法及装置
CN106777341A (zh) * 2017-01-13 2017-05-31 广东欧珀移动通信有限公司 信息处理方法、装置及计算机设备
CN106934008A (zh) * 2017-02-15 2017-07-07 北京时间股份有限公司 一种垃圾信息的识别方法及装置
CN107291780A (zh) * 2016-04-12 2017-10-24 腾讯科技(深圳)有限公司 一种用户评论信息展示方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9338162B2 (en) * 2014-06-13 2016-05-10 International Business Machines Corporation CAPTCHA challenge incorporating obfuscated characters
CN105323751A (zh) * 2014-08-04 2016-02-10 陕西银河景天电子有限责任公司 一种手机短信监控装置
CN104331475B (zh) * 2014-11-04 2018-03-23 郑州悉知信息科技股份有限公司 一种信息检测方法及装置
CN104484336B (zh) * 2014-11-19 2017-12-19 湖州师范学院 一种中文评论分析方法及其系统
CN106708966B (zh) * 2016-11-29 2023-04-25 中国计量大学 基于相似度计算的垃圾评论检测方法
CN107229610B (zh) * 2017-03-17 2019-06-21 咪咕数字传媒有限公司 一种情感数据的分析方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068154A (zh) * 2006-07-27 2007-11-07 腾讯科技(深圳)有限公司 一种垃圾信息过滤方法及装置
CN104484330A (zh) * 2014-10-31 2015-04-01 浙江工商大学 基于分档关键词阈值组合评估的垃圾评论预选方法及装置
CN104462509A (zh) * 2014-12-22 2015-03-25 北京奇虎科技有限公司 垃圾评论检测方法及装置
CN107291780A (zh) * 2016-04-12 2017-10-24 腾讯科技(深圳)有限公司 一种用户评论信息展示方法和装置
CN106777341A (zh) * 2017-01-13 2017-05-31 广东欧珀移动通信有限公司 信息处理方法、装置及计算机设备
CN106934008A (zh) * 2017-02-15 2017-07-07 北京时间股份有限公司 一种垃圾信息的识别方法及装置

Also Published As

Publication number Publication date
CN109933775A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
WO2019200806A1 (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
JP5160601B2 (ja) 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置
JP5356197B2 (ja) 単語意味関係抽出装置
CN110263248B (zh) 一种信息推送方法、装置、存储介质和服务器
US10878233B2 (en) Analyzing technical documents against known art
US9817821B2 (en) Translation and dictionary selection by context
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN112631436B (zh) 输入法敏感词的过滤方法及装置
CN107077640B (zh) 经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理
CN109766447B (zh) 一种确定敏感信息的方法和装置
CN112328747B (zh) 事件脉络生成方法、装置、终端设备及存储介质
CN111753089A (zh) 话题聚类方法、装置、电子设备及存储介质
Swanson et al. Extracting the native language signal for second language acquisition
KR101473239B1 (ko) 단어 패턴을 이용한 카테고리 및 감성 분석시스템
CN110069769A (zh) 应用标签生成方法、装置及存储设备
Haq et al. USAD: An Intelligent System for Slang and Abusive Text Detection in PERSO‐Arabic‐Scripted Urdu
Balazevic et al. Language detection for short text messages in social media
CN109933775B (zh) Ugc内容处理方法及装置
Kobyliński et al. Part of speech tagging for Polish: State of the art and future perspectives
EP3425531A1 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
Saralegi et al. Cross-lingual projections vs. corpora extracted subjectivity lexicons for less-resourced languages
Archana et al. Explicit sarcasm handling in emotion level computation of tweets-A big data approach
Oudah et al. Person name recognition using the hybrid approach
CN111581950B (zh) 同义名称词的确定方法和同义名称词的知识库的建立方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant