CN112181636A - 互联网内容的识别方法及装置、终端及可读存储介质 - Google Patents
互联网内容的识别方法及装置、终端及可读存储介质 Download PDFInfo
- Publication number
- CN112181636A CN112181636A CN202010911186.1A CN202010911186A CN112181636A CN 112181636 A CN112181636 A CN 112181636A CN 202010911186 A CN202010911186 A CN 202010911186A CN 112181636 A CN112181636 A CN 112181636A
- Authority
- CN
- China
- Prior art keywords
- identification
- internet content
- tasks
- task
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 61
- 238000013145 classification model Methods 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种互联网内容的识别方法,识别方法包括:识别互联网内容的类型,以配置至少一个识别任务;在识别任务为多个时,获取不同识别任务之间的关联度;并行处理关联度小于第一预定关联度的识别任务,串行处理关联度大于第二预定关联度的识别任务;及根据识别任务的识别结果确定互联网内容的标签。本申请还公开了一种互联网内容的识别装置、终端和非易失性计算机可读存储介质。本申请实施方式的识别方法中,通过并行处理关联度小于第一预定关联度的识别任务,串行处理关联度大于第二预定关联度的任务,节省了计算资源,减少了识别时长。
Description
技术领域
本申请涉及图像处理技术领域,更具体而言,涉及一种互联网内容的识别方法、图像处理装置、终端及非易失性计算机可读存储介质。
背景技术
在互联网、移动上网设备、花样百出的社交APP和4G,5G的普及下,人们的生活渐渐地从现实搬到了网上,在网络上进行社交、学习、购物,发表博客等等网络行为,这些网络行为就会产生无比巨大的互联网内容。随着数据的不断增加,垃圾数据(色情,赌博,毒品等等相关数据)也是不断浮现在大众的眼中,给人们的生活带来了很多不便。同时存在相关法律法规严格要求互联网内容的合规性。在进行互联网内容的识别时,如果对互联网识别时消耗较长的时间,那么容易产生较大的延时导致互联网内容传输较慢;如果对互联网内容进行识别时,占用了较多的资源的话容易影响终端正在执行的其他任务。
发明内容
本申请实施方式提供一种互联网内容的识别方法、识别装置、终端及非易失性计算机可读存储介质。
本申请实施方式的互联网内容的识别方法包括:识别所述互联网内容的类型,以配置至少一个识别任务;在所述识别任务为多个时,获取不同所述识别任务之间的关联度;并行处理关联度小于第一预定关联度的所述识别任务,串行处理关联度大于第二预定关联度的所述识别任务;及根据所述识别任务的识别结果确定所述互联网内容的标签。
本申请实施方式的识别方法中,在识别任务为多个时,获取不同识别任务之间的关联度,对小于第一预定关联度的识别任务进行并行处理,对大于第二预定关联度的识别任务进行串行处理,一方面,避免了对多个识别任务同时进行并行处理导致占用较多的资源;另一方面,避免了对多个识别任务进行串行处理导致需要较多的时间,由此,减少了对互联网内容进行识别时的消耗时长及占用的计算资源。
本申请实施方式的互联网内容的识别装置包括识别模块、第一获取模块、处理模块和第一确定模块,所述识别模块用于识别所述互联网内容的类型,以配置至少一个识别任务;所述第一获取模块用于在所述识别任务为多个时,获取不同所述识别任务之间的关联度;所述处理模块用于并行处理关联度小于第一预定关联度的所述识别任务,串行处理关联度大于第二预定关联度的所述识别任务;所述第一确定模块用于根据所述识别任务的识别结果确定所述互联网内容的标签。
本申请实施方式的互联网内容的识别装置中,在识别任务为多个时,获取不同识别任务之间的关联度,对小于第一预定关联度的识别任务进行并行处理,对大于第二预定关联度的识别任务进行串行处理,一方面,避免了对多个识别任务同时进行并行处理导致占用较多的资源;另一方面,避免了对多个识别任务进行串行处理导致需要较多的时间,由此,减少了对互联网内容进行识别时的消耗时长及占用的计算资源。
本申请实施方式的终端包括处理器,所述处理器用于:识别所述互联网内容的类型,以配置至少一个识别任务;在所述识别任务为多个时,获取不同识别任务之间的关联度;并行处理关联度小于第一预定关联度的所述识别任务,串行处理关联度大于第二预定关联度的所述识别任务;及根据所述识别任务的识别结果确定所述互联网内容的标签。
本申请实施方式的终端中,在识别任务为多个时,获取不同识别任务之间的关联度,对小于第一预定关联度的识别任务进行并行处理,对大于第二预定关联度的识别任务进行串行处理,一方面,避免了对多个识别任务同时进行并行处理导致占用较多的资源;另一方面,避免了对多个识别任务进行串行处理导致需要较多的时间,由此,减少了对互联网内容进行识别时的消耗时长及占用的计算资源。
本申请实施方式的一种存储有计算机程序的非易失性计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,实现本申请实施方式所述的互联网内容的识别方法。本申请实施方式的互联网内容的识别方法包括:识别所述互联网内容的类型,以配置至少一个识别任务;在所述识别任务为多个时,获取不同所述识别任务之间的关联度;并行处理关联度小于第一预定关联度的所述识别任务,串行处理关联度大于第二预定关联度的所述识别任务;及根据所述识别任务的识别结果确定所述互联网内容的标签。
本申请实施方式的非易失性计算机可读存储介质中,在识别任务为多个时,获取不同识别任务之间的关联度,对小于第一预定关联度的识别任务进行并行处理,对大于第二预定关联度的识别任务进行串行处理,一方面,避免了对多个识别任务同时进行并行处理导致占用较多的资源;另一方面,避免了对多个识别任务进行串行处理导致需要较多的时间,由此,减少了对互联网内容进行识别时的消耗时长及占用的计算资源。
本申请的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实施方式的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本申请实施方式的识别方法的流程示意图;
图2是本申请实施方式的识别装置的模块示意图;
图3是本申请实施方式的终端的模块示意图;
图4是本申请实施方式的识别方法的原理示意图;
图5是本申请实施方式的识别方法的流程示意图;
图6是本申请实施方式的识别装置的模块示意图;
图7是本申请实施方式的识别方法的流程示意图;
图8是本申请实施方式的识别装置的处理模块的模块示意图;
图9是本申请实施方式的识别方法的流程示意图;
图10是本申请实施方式的识别装置的处理模块的执行单元的模块示意图;
图11是本申请实施方式的识别方法的流程示意图;
图12是本申请实施方式的识别装置的确定模块的模块示意图;
图13是本申请实施方式的识别方法的流程示意图;
图14是本申请实施方式的识别装置的模块示意图
图15是本申请实施方式的识别方法的流程示意图;
图16是本申请实施方式的识别方法的流程示意图;
图17是本申请实施方式的计算机可读存储介质和处理器的连接关系示意图。
具体实施方式
以下结合附图对本申请的实施方式作进一步说明。附图中相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。另外,下面结合附图描述的本申请的实施方式是示例性的,仅用于解释本申请的实施方式,而不能理解为对本申请的限制。
请参阅图1至图3,本申请实施方式的互联网内容的识别方法包括以下步骤:
011:识别互联网内容的类型,以配置至少一个识别任务;
012:在识别任务为多个时,获取不同识别任务之间的关联度;
013:并行处理关联度小于第一预定关联度的识别任务,串行处理关联度大于第二预定关联度的识别任务;和
014:根据识别任务的识别结果确定互联网内容的标签。
本申请实施方式的互联网内容的识别装置10包括识别模块11、第一获取模块12、处理模块13和确定模块,识别模块11、第一获取模块12、处理模块13和第一确定模块14可分别用于实现步骤011、步骤012、步骤013和步骤014。即,识别模块11可以用于识别互联网内容的类型,以配置至少一个识别任务;第一获取模块12可以用于在识别任务为多个时,获取不同识别任务之间的关联度;处理模块13可以用于并行处理关联度小于第一预定关联度的识别任务,串行处理关联度大于第二预定关联度的识别任务;第一确定模块14可以用于根据识别任务的识别结果确定互联网内容的标签。
本申请实施方式的终端100包括处理器20,处理器20可以用于:识别互联网内容的类型,以配置至少一个识别任务;在识别任务为多个时,获取不同识别任务之间的关联度;并行处理关联度小于第一预定关联度的识别任务,串行处理关联度大于第二预定关联度的识别任务;和根据识别任务的识别结果确定互联网内容的标签。也即是说,处理器20可以用于实现步骤011、步骤012、步骤013和步骤014。
本申请实施方式的互联网内容的识别方法、识别装置10及终端100中,在识别任务为多个时,获取不同识别任务之间的关联度,对小于第一预定关联度的识别任务进行并行处理,对大于第二预定关联度的识别任务进行串行处理,一方面,避免了对多个识别任务同时进行并行处理导致占用较多的资源;另一方面,避免了对多个识别任务进行串行处理导致需要较多的时间,由此,减少了对互联网内容进行识别时的消耗时长及占用的计算资源。
终端100包括壳体30和处理器20,处理器20安装在壳体30内。终端100具体可以是手机、平板电脑、笔记本电脑、台式电脑、显示器、智能手表、头显设备、摄像机、闸机、门禁机、游戏机等,在此不一一列举。本申请实施方式以终端100是手机为例进行说明,可以理解,终端100的具体形式并不限于手机。壳体30还可用于安装终端100 的供电装置、成像装置、通信装置等功能模块,以使壳体30为功能模块提供防尘、防摔、防水等保护。
具体地,在步骤011中,识别互联网内容的类型,以配置至少一个识别任务。互联网内容的类型较多,互联网内容可以是图片、视频、音频、文本等内容中的一个或多个。例如,互联网内容可以是图片,互联网内容可以是视频,互联网内容可以是音频,互联网内容可以是文本;或者互联网内容可以是图片及文本;互联网内容可以是文本及音频。互联网内容的具体形式在此不做限制。互联网内容可以是终端100的显示页面正在显示的内容,或者互联网内容可以是编辑好待发送出去或者待展示的内容。例如,互联网内容可以是在发送过程中的视频或者语音,互联网内容可以是已经编辑好待审核的文章、短视频、长视频等内容。其中,音频可以是实时音频、异步音频等,视频可以是长视频、短视频等;文本可以是公众号文章、小说、杂志等,图片可以是动态图片、静态图片等
如果对于不同类型的互联网内容均配置相同的识别任务的话,容易导致消耗较多的资源及时间,或者造成无法识别出互联网内容的具体内容。具体地,终端100内可以设置有一个配置中心,配置中心内预先设置了各个类型的互联网内容相对应的识别任务。识别到互联网内容的类型时,配置与该类型相对应的识别任务。例如,互联网内容为视频时,则配置的识别任务为:视频截帧、图片分类、自动语音识别(Automatic Speech Recognition,ASR)、文本分类等。或者,互联网内容为音频时,则配置的识别任务为:语音分类、ASR、文本分类等。由此,根据互联网内容的类型的类型配置识别任务,可以提高对互联网内容识别时的灵活性,减少资源的浪费。
其中,有些互联网内容可以只对应有一个识别任务,有些互联网内容可以对应有多个识别任务(例如两个、三个、四个、五个、六个、七个、八个等多个识别任务)。
在步骤012中,在识别任务为多个时,获取不同识别任务之间的关联度。可以理解,在步骤011中,配置了多个识别任务。需要获取不同识别任务之间的关联度,以便于分析不同的识别任务之间是否存在相互依赖。具体地,通过多次测试及训练可以预先知道每个类型下的不同的识别任务之间的关联度,在配置识别任务时,多个识别任务之间的关联度将一并存储在识别任务中,进一步读取识别任务的具体内容可以知道不同识别任务之间的关联度。
在步骤013中,并行处理关联度小于第一预定关联度的识别任务,串行处理关联度大于第二预定关联度的识别任务。第一预定关联度可以是预先设置的数值,例如可以是多次测试得到的经验值。第二预定关联度可以是预先是预先设置的数值,例如可以是多次测试得到的经验。第一预定关联度和第二预定关联度可以相同或不相同。第一预定关联度可以是接近于0的数值,例如0、2%、4%、5%、7%、8%、10%等,不同识别任务之间的关联度小于或等于第一预定关联度则认为这两个识别任务之间相互不关联,可以同时执行且不会造成识别紊乱。第二预定关联度可以是接近于100%的数值,例如90%、 92%、93%、95%、98%、100%等数值,不同识别任务之间的关联度大于或等于第一预定关联度则认为这两个识别任务之间相互关联,需要先后执行,无法同时执行。
进一步地,并行处理关联度小于或等于第一预定关联度的识别任务,即,同时处理关联度小于或等于第一预定关联度的识别任务,如此,可以加快识别进度,减少识别时间。串行处理处理关联度大于或等于第二预定关联度的识别任务,即,先后处理关联度大于或等于第二预定关联度的识别任务,如此,可以避免计算资源的浪费。
其中,对于关联度在第一预定关联度至第二预定关联度之间的识别任务,可以根据实际业务需求选择并行处理或者串行处理,在此不详细描述。
请结合图4,在一个实施例中,根据识别到的互联网内容的类型,配置了识别任务A、识别任务B、识别任务C、识别任务D。通过不断的测试与训练,发现识别任务A 与识别任务B及识别任务C关联度大于第二预定关联度,识别任务B与识别任务C之间的关联度小于第一预定关联度,识别任务D和识别任务B及C的关联度均大于第二预定关联度。那么处理这些识别任务的顺序为:先执行识别任务A,然后同时执行识别任务B和识别任务C,当识别任务B和识别任务C均执行完毕后执行识别任务D。相较于依次执行识别任务A、识别任务B、识别任务C、识别任务D,消耗的时间更短;相较于同时执行识别任务A、识别任务B、识别任务C、识别任务D,占用的资源更少。
在步骤014中,根据识别任务的识别结果确定互联网内容的标签。在步骤013中对各个识别任务均进行处理后可以得到识别结果,根据识别结果确定互联网内容的具体标签。例如,根据识别结果确定互联网内容为色情、政治敏感、广告等,然后根据确定的标签对互联网内容进行处理。若不同的识别任务识别到的结果不同时,可以根据预设的规则,确定互联网内容的标签。例如,三个识别任务中,两个识别结果为色情,还有一个识别结果为广告,则可以确定互联网内容为色情。
进一步地,可以根据用户的需求选择性对对应标签的互联网内容进行处理,例如,用户不想看到色情内容,则将色情标签对应的互联网内容清除,即使识别部分互联网内容为广告时,仍然保留广告标签对应的互联网内容。或者,用户不想看到任何敏感内容 (例如色情、广告),则将所有的敏感标签对应的互联网内容全部清除。
请参阅图5和图6,在某些实施方式中,上述实施方式中的识别方法应用于终端100,终端100包括多个不同的二分类模型,识别方法还包括以下步骤:
001:获取互联网内容的数据分布情况;
002:根据数据分布情况确定对应的二分类模型;和
003:基于二分类模型,确定互联网内容的标签;
及步骤011包括步骤:
0111:识别未确定标签的互联网内容的类型,以配置至少一个识别任务。
在某些实施方式中,识别装置10还包括第二获取模块15、第二确定模块16及第三确定模块17,识别模块11还包括识别单元,第二获取模块15可以用于获取互联网内容的数据分布情况;第二确定模块16可以用于根据数据分布情况确定对应的二分类模型;第三确定模块17可以用于基于二分类模型,确定互联网内容的标签;识别单元可以用于识别未确定标签的互联网内容的类型,以配置至少一个识别任务。也即是说,第二获取模块 15、第二确定模块16、第三确定模块17及识别单元可以分别用于实现步骤001、步骤002、步骤003和步骤0111。
在某些实施方式中,处理器20还可以用于:获取互联网内容的数据分布情况;根据数据分布情况确定对应的二分类模型;和基于二分类模型,确定互联网内容的标签;以及识别未确定标签的互联网内容的类型,以配置至少一个识别任务。
具体地,终端100包括多个不同的二分类模型,二分类模型可以将互联网内容分为两类,例如二分类模型为色情二分类模型时,则可以将互联网内容分为色情和非色情两类。终端 100可以包括色情二分类模型、涉政二分类模型、广告二分类模型或更多二分类模型。首先,可以通过对互联网内容进行一个初步识别,获取到互联网内容的数据分布情况,以便于进一步选取对应的二分类模型。获取到互联网内容的数据分布情况后,确定使用哪个二分类模型来确定互联网内容的标签。具体可以选择数据分布情况中百分比大于设定阈值的数据类型对应的二分类模型,为确定互联网内容的标签的二分类模型。例如,互联网内容中的大部分数据为色情,则选用色情二分类模型,确定互联网内容中的色情数据并赋予色情标签,其余数据则不赋予标签。
进一步地,通过二分类模型未确定标签的互联网内容,则进一步识别该部分互联网内容的类型,然后根据识别到的类型配置至少一个识别任务。即,对于通过二分类模型未确定标签的互联网内容,执行步骤011、步骤012、步骤013和步骤014。
在一个实施例中,通过对互联网内容的初步分析,发现互联网内容的数据分布情况为: 75%为色情、5%为违禁、5%为广告,15%为其他。由此,可以选用色情二分类模型对互联网内容进行分类,将互联网内容中的色情内容确定为色情标签,互联网内容中的违禁、广告和其他则不贴上标签,然后对这些未贴上标签的互联网内容的类型进行识别,配置对应的识别任务,进一步确定该部分互联网内容的标签。
需要说明的是,二分类模型不局限于上述实施方式中所述的类型,还可以是其他的模型;以及,还可以通过其他方式确定使用哪个二分类模型;在此不做限制。
请参阅图7和图8,在某些实施方式中,步骤013包括以下步骤:
0131:根据互联网内容的类型,确定多个识别任务的优先级;和
0132:根据优先级,逐级执行多个识别任务。
在某些实施方式中,处理模块13还包括确定单元131和执行单元132,确定单元131可以用于根据互联网内容的类型,确定多个识别任务的优先级;执行单元132可以用于根据优先级,逐级执行多个识别任务。也即是说,确定单元131可以用于实现步骤0131,执行单元132可以用于实现步骤0132。
在某些实施方式中,处理器20还可以用于:根据互联网内容的类型,确定多个识别任务的优先级;和根据优先级,逐级执行多个识别任务。也即是说,处理器20还可以用于实现步骤0131和步骤0132。
具体地,由于串行处理多个识别任务时,只有当前识别任务执行完毕后才能执行下一个识别任务,因此需要判断各个识别任务的优先级,以便于按顺序执行识别任务。如果识别任务的优先级设置错误的话,容易导致整个识别过程的时间较长且效率低。因此,需要确定好多个识别任务的优先级。
更具体地,可以根据互联网内容的类型及预定的优先级映射关系,确定多个识别任务的优先级。多个识别任务是根据互联网内容的类型进行确定的,因此多个识别任务跟互联网内容之间的关联性是比较强的。可以是,互联网内容的类型与对应的多个识别任务是呈映射关系,多个识别任务的优先级与互联网内容的类型也是呈映射关系,通过互联网内容的类型即可确定各个识别任务的优先级,然后按照确定的优先级,逐级执行多个识别任务,以减少识别时间提升识别效率。
在一个实施例中,会对每种类型的互联网内容对应的多个识别任务进行排列组合训练,然后可以得到各个排列方式下的识别时长,取识别时长最短的多个识别任务的排列方式作为该类型的互联网内容的优先级顺序。在后续对互联网内容的识别时,确定互联网内容的类型时,即可确定对应的多个识别任务的优先级。例如,对于音频识别是否为色情语音,根据之前的训练得到,首先根据语音判断的方式进行识别时,识别的效率及效果较佳,那么串行处理音频对应的识别任务时,可以将语音分类部件放在第一位,以直接识别音频是否为色情语音。
请参阅图9和图10,在某些实施方式中,步骤0132包括以下步骤:
01321:判断当前优先级的识别任务是否识别出敏感内容;
若是,执行步骤01322:结束识别,输出识别结果;和
若否,执行步骤01323:处理下一优先级的识别任务。
在某些实施方式中,执行单元132包括判断子单元1321、输出子单元1322及处理子单元1323,判断子单元1321可以用于判断当前优先级的识别任务是否识别出敏感内容;输出子单元1322可以用于在判断子单元1321的输出结果为是时,结束识别,输出识别结果;处理子单元1323可以用于在判断子单元1321的输出结果为否时,处理下一优先级的识别任务。也即是说,判断子单元1321可以用于实现步骤01321,输出子单元1322可以用于实现步骤 01322,处理子单元1323可以用于实现步骤01323。
在某些实施方式中,处理器20还可以用于:判断当前优先级的识别任务是否识别出敏感内容;若是,结束识别,输出识别结果;及若否,处理下一优先级的识别任务。也即是说,处理器20还可以用于实现步骤01321、步骤01322及步骤01323。
具体地,根据优先级逐级执行多个识别任务时,每次执行完当前优先级的识别任务时,判断当前处理的识别任务是否识别出敏感内容,敏感内容具体可以是色情、广告、违禁业务或者其他需要根据业务需求设定需要识别的内容。如果当前任务识别到敏感内容,则结束识别,并输出识别结果赋予互联网内容对应的标签,不再执行后续优先级的识别任务,以降低计算量及减少了资源的占用,同时提高了识别效率。
进一步地,如果当前优先级的识别任务未识别出敏感内容,则处理下一优先级的识别任务,并继续判断下一优先级的识别任务是否识别出敏感内容,直至识别出敏感内容,结束该识别任务。若全部的识别任务均未识别出敏感内容,则认为该互联网内容无敏感内容,为正常内容。
请参阅图11至图12,在某些实施方式中,互联网内容的标签包括多个子标签,终端100 包括多个细分模型,细分模型用于细分互联网内容,步骤014包括以下步骤:
0141:基于预设的映射关系,选择与识别任务的识别结果相对应的细分模型;和
0142:使用细分模型对互联网内容进行细分,以确定互联网内容对应的子标签。
在某些实施方式中,确定模块包括选择单元141及细分单元142,选择单元141可以用于基于预设的映射关系,选择与识别任务的识别结果相对应的细分模型;细分单元142可以用于使用细分模型对互联网内容进行细分,以确定互联网内容对应的子标签。也即是说,选择单元141可以用于实现步骤0141,细分单元142可以用于实现步骤0142。
在某些实施方式中,处理器20还可以用于:基于预设的映射关系,选择与识别任务的识别结果相对应的细分模型;和使用细分模型对互联网内容进行细分,以确定互联网内容对应的子标签。也即是说,处理器20还可以用于实现步骤0141和步骤0142。
具体地,在步骤013后处理完多个识别任务之后,可以得到对应的识别结果,根据识别结果可以确定互联网内容的标签。例如,识别结果为色情,则确定对应的互联网内容的标签为色情;识别结果为政治敏感,则确定对应的互联网内容的标签为政治敏感。如果业务需求比较精细,需要了解互联网内容的细分标签,那么还需要进一步对互联网内容进行细分。
终端100包括有多个细分模型,不同的细分模型可以对不同的识别结果进行细分。基于预设的映射关系,可以根据识别结果可以选择细分模型。可以理解,在预设的映射关系中,细分模型与识别结果之间是一一对应,根据识别结果即可确定对应的细分模型。然后使用选择的细分模型对互联网内容进行细分,以确定互联网内容对应的子标签。如此,可以通过细分模型对互联网内容进行进一步细分,使得可以根据实际业务需求对互联网内容进行筛选,提高了对互联网内容识别的准确度。
在一个例子中,终端100包括色情细分模型、违禁细分模型及广告细分模型,色情细分模型可以用于对识别结果为色情的互联网内容进行细分,违禁细分模型可以对识别结果为违禁内容的互联网内容进行细分,广告细分模型可以对识别结果为广告的互联网内容进行细分。例如,当识别到互联网内容为色情时,需要进一步确定到底是性感、露胸、裸露、露腿等子标签,需要通过色情细分模型对互联网内容细分以确定色情下相应的子标签。再例如,识别到互联网内容为违禁业务时,需要进一步确定是第一敏感内容、第二敏感内容还是第三敏感内容,则通过违禁细分模型对互联网内容进行细分,以确定互联网内容为违禁业务下的哪个子标签。
如此,可以根据用户的实际需求,选择性过滤对应的子标签的互联网内容。例如,用户不想出现第一敏感内容时,当识别到互联网内容为违禁业务时,进一步细分互联网内容确定为第一敏感内容,那么对于该互联网内容则不进行过滤。
请参阅图13和图14,在某些实施方式中,识别方法还包括步骤:
015:根据预设的融合规则对多个识别结果进行融合,以确定互联网内容的标签。
在某些实施方式中,识别装置10包括融合模块18,融合模块18可以用于根据预设的融合规则对多个识别结果进行融合,以确定互联网内容的标签。也即是说,识别模块11可以用于实现步骤015。
在某些实施方式中,处理器20还可以用于根据预设的融合规则对多个识别结果进行融合,以确定互联网内容的标签。也即是说,处理器20还可以用于实现步骤015。
具体地,步骤015可以是在步骤014的子步骤,步骤015和步骤014也可以是两个独立的步骤。由于识别任务为多个,每个识别任务的识别结果可能存在差异,例如,识别互联网内容对应有一个识别任务的识别结果为色情,另一个识别任务的识别结果为违禁,那么需要对这两个识别结果进行融合,以确定该互联网内容的标签。
在一个例子中,融合规则为选择比重大于设定阈值的识别结果对应的标签,确定为互联网内容的标签,例如,设定阈值为50%,配置有识别任务R1、识别任务R2及识别任务R3,识别任务R1的识别结果为色情,识别任务R2的识别结果为违禁,识别任务R3的识别结果为色情,则确定互联网内容的标签为色情。
在另一个例子中,融合规则为根据业务需求进行配置的,只选与业务需求相关的结果作为有效结果进行确定互联网的标签。即,业务需求为确定互联网内容是否为色情,共有三个识别结果,分别为色情、广告、违禁,那么直接确定互联网内容为色情,忽略广告和违禁的识别结果。
在再一个例子中,融合规则根据确定各个识别结果的权重,根据权重大于预设阈值的识别结果,确定互联网内容的标签。即,识别结果存在差异时,则确定各个识别结果的权重,并与预设阈值做比较,根据大于预设阈值的识别结果,确定互联网内容的标签。例如,识别任务R4的识别结果为色情,识别任务R5的识别结果为违禁,识别任务R6的识别结果为广告,分别确定互联网内容中色情内容的权重、违禁内容的权重、广告内容的权重,假如,互联网内容中色情内容的权重为25%、违禁内容的权重为10%、广告内容的权重为5%,设定阈值为8%,则确定互联网内容的标签为色情与违禁。
请参阅图15,在一个实施例中,对互联网内容进行安全审核,以判断互联网内容是否符合要求,识别方法包括以下步骤:
021:判断互联网内容是否为文本;
022:进行文本黑库匹配;
若匹配,执行步骤023:结果返回;
若不匹配,执行步骤024:判断是否为色情文本;
若是,执行步骤025:结果返回;
若否,执行步骤026:进行文本处理;
027:关系抽取;028:文本分类;029:实体抽取;及
在步骤028后,执行步骤0281。
其中,步骤021、步骤022、步骤024及步骤026之间的关联度较高(即,大于第二预定关联度),进行串联处理,步骤027、步骤028和步骤029之间的关联度较低(即,小于第一预定关联度),可以并行处理,步骤028和步骤0281之间的关联度较高,进行串联处理。可以理解,如果步骤027、步骤028及步骤029串行处理的话,将会导致消耗较长的时间。如果步骤步骤021、步骤022、步骤024及步骤026并行处理的话,将会消耗较多的计算资源。因此,本实施例中,串联处理关联度高的识别任务,并行处理关联度低的识别任务,使得计算资源及消耗时间均得到有效的降低。
其中,文本黑库具体可以是敏感内容的文本集,通过将文本与文本黑库进行匹配,可以得到该文本是否为敏感内容。
请参阅图16,在另一个实施例中,对互联网内容进行安全审核,以判断互联网内容是否符合要求,识别方法包括以下步骤:
021:判断互联网内容是否为文本:
若否,执行步骤031:判断是否为视频;
若是,执行以下步骤:
032:视频截帧;
033:图片处理;
034:光学字符识别;及038:文本处理;
035:物体检测;
036:图片黑库匹配;
若匹配,执行步骤037:结果返回;
若不匹配,执行以下步骤039:图片分类;
040:判断是否为色情图片;若是,执行步骤041:结果返回;若否,执行以下步骤:
042:对互联网内容进行自动语音识别;043:执行文本处理的步骤
其中,步骤021、步骤031、步骤032及步骤033之间的关联度较高(即,大于第二预定关联度),可以串行处理,步骤034、步骤035及步骤036之间的关联度较低(即,小于第一预定关联度),可以并行处理;步骤034与步骤038之间的关联度较高,可以串行处理;步骤039、步骤041、步骤042及步骤043之间的关联度较高,可以串行处理;步骤038和步骤039之间的关联度较低,可以并行处理。因此,本实施方式中,串联处理关联度高的识别任务,并行处理关联度低的识别任务,使得计算资源及消耗时间均得到有效的降低。
其中,图片黑库具体可以是预设的敏感内容的图片集,通过将视频截帧的图片与图片黑库进行匹配,然后判断该图片是不是色情图片。其中,光学字符识别(OpticalCharacter Recognition,OCR)指的是对图片上的字符进行识别,例如识别字幕。自动语音识别(Automatic Speech Recognition,ASR)指的是对视频的音频进行识别,将音频转换为文本。步骤043:执行文本处理的步骤,即是互联网内容为文本时的处理步骤。
请参阅图17,本申请实施方式的一个或多个包含计算机程序301的非易失性计算机可读存储介质300,当计算机程序301被一个或多个处理器20执行时,使得处理器20可执行上述任一实施方式的识别方法。
例如,请结合图3,当计算机程序301被一个或多个处理器20执行时,使得处理器20执行以下步骤:
011:识别互联网内容的类型,以配置至少一个识别任务;
012:在识别任务为多个时,获取不同识别任务之间的关联度;
013:并行处理关联度小于第一预定关联度的识别任务,串行处理关联度大于第二预定关联度的识别任务;和
014:根据识别任务的识别结果确定互联网内容的标签。
再例如,请结合图11,在计算机程序301被一个或多个处理器20执行时,使得处理器 20执行以下步骤:
0141:基于预设的映射关系,选择与识别任务的识别结果相对应的细分模型;和
0142:使用细分模型对互联网内容进行细分,以确定互联网内容对应的子标签。
在本说明书的描述中,参考术语“某些实施方式”、“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”、或“一些示例”的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个所述特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
Claims (14)
1.一种互联网内容的识别方法,其特征在于,包括:
识别所述互联网内容的类型,以配置至少一个识别任务;
在所述识别任务为多个时,获取不同所述识别任务之间的关联度;
并行处理关联度小于第一预定关联度的所述识别任务,串行处理关联度大于第二预定关联度的所述识别任务;及
根据所述识别任务的识别结果确定所述互联网内容的标签。
2.根据权利要求1所述的识别方法,其特征在于,应用于终端,所述终端包括多个不同的二分类模型,所述识别方法还包括:
获取所述互联网内容的数据分布情况;
根据所述数据分布情况确定对应的所述二分类模型;及
基于所述二分类模型,确定所述互联网内容的标签;
所述识别所述互联网内容的类型,以配置至少一个识别任务,包括:
识别未确定所述标签的所述互联网内容的类型,以配置至少一个所述识别任务。
3.根据权利要求1所述的识别方法,其特征在于,所述串行处理关联度大于第二预定关联度的所述识别任务,包括:
根据所述互联网内容的类型,确定多个所述识别任务的优先级;及
根据所述优先级,逐级执行多个所述识别任务。
4.根据权利要求3所述的识别方法,其特征在于,所述根据所述优先级,逐级执行多个所述识别任务,包括:
判断当前优先级的所述识别任务是否识别出敏感内容;
若是,结束识别,输出识别结果;及
若否,处理下一优先级的所述识别任务。
5.根据权利要求1所述的识别方法,其特征在于,应用于终端,所述互联网内容的标签包括多个子标签,所述终端包括多个细分模型,所述细分模型用于细分所述互联网内容,所述根据所述识别任务的识别结果确定所述互联网内容的标签,包括:
基于预设的映射关系,选择与所述识别任务的识别结果相对应的细分模型;及
使用所述细分模型对所述互联网内容进行细分,以确定所述互联网内容对应的所述子标签。
6.根据权利要求1所述的识别方法,其特征在于,所述识别方法还包括:
根据预设的融合规则对多个所述识别结果进行融合,以确定所述互联网内容的标签。
7.一种互联网内容的识别装置,其特征在于,包括:
识别模块,所述识别模块用于识别所述互联网内容的类型,以配置至少一个识别任务;
第一获取模块,所述第一获取模块用于在所述识别任务为多个时,获取不同所述识别任务之间的关联度;
处理模块,所述处理模块用于并行处理关联度小于第一预定关联度的所述识别任务,串行处理关联度大于第二预定关联度的所述识别任务;及
第一确定模块,所述确定模块用于根据所述识别任务的识别结果确定所述互联网内容的标签。
8.一种终端,其特征在于,所述终端包括处理器,所述处理器用于:
识别所述互联网内容的类型,以配置至少一个识别任务;
在所述识别任务为多个时,获取不同识别任务之间的关联度;
并行处理关联度小于第一预定关联度的所述识别任务,串行处理关联度大于第二预定关联度的所述识别任务;及
根据所述识别任务的识别结果确定所述互联网内容的标签。
9.根据权利要求8所述的终端,其特征在于,所述终端包括多个不同的二分类模型,所述处理器还用于:
获取所述互联网内容的数据分布情况;
根据所述数据分布情况确定对应的所述二分类模型;及
基于所述二分类模型,确定所述互联网内容的标签;及
所述处理器还用于:
识别未确定所述标签的所述互联网内容的类型,以配置至少一个所述识别任务。
10.根据权利要求8所述的终端,其特征在于,所述处理器还用于:
根据所述互联网内容的类型,确定多个所述识别任务的优先级;及
根据所述优先级,逐级执行多个所述识别任务。
11.根据权利要求10所述的终端,其特征在于,所述处理器还用于:
判断当前优先级的所述识别任务是否识别出敏感内容;
若是,结束识别,输出识别结果;及
若否,处理下一优先级的所述识别任务。
12.根据权利要求8所述的终端,其特征在于,所述互联网内容的标签包括多个子标签,所述终端包括多个细分模型,所述细分模型用于细分所述互联网内容,所述处理器还用于:
基于预设的映射关系,选择与所述识别任务的识别结果相对应的细分模型;及
使用所述细分模型对所述互联网内容进行细分,以确定所述互联网内容对应的所述子标签。
13.根据权利要求8所述的终端,其特征在于,所述处理器还用于:
根据预设的融合规则对多个所述识别结果进行融合,以确定所述互联网内容的标签。
14.一种存储有计算机程序的非易失性计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,实现权利要求1至6任意一项所述的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010911186.1A CN112181636A (zh) | 2020-09-02 | 2020-09-02 | 互联网内容的识别方法及装置、终端及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010911186.1A CN112181636A (zh) | 2020-09-02 | 2020-09-02 | 互联网内容的识别方法及装置、终端及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112181636A true CN112181636A (zh) | 2021-01-05 |
Family
ID=73924670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010911186.1A Pending CN112181636A (zh) | 2020-09-02 | 2020-09-02 | 互联网内容的识别方法及装置、终端及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112181636A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032599A1 (en) * | 2016-07-29 | 2018-02-01 | Blue Coat Systems, Inc. | Grouped categorization of internet content |
CN107832925A (zh) * | 2017-10-20 | 2018-03-23 | 阿里巴巴集团控股有限公司 | 互联网内容风险评价方法、装置及服务器 |
CN108255602A (zh) * | 2017-11-01 | 2018-07-06 | 平安普惠企业管理有限公司 | 任务组合方法及终端设备 |
CN110798703A (zh) * | 2019-11-04 | 2020-02-14 | 云目未来科技(北京)有限公司 | 视频违规内容检测的方法、装置以及存储介质 |
-
2020
- 2020-09-02 CN CN202010911186.1A patent/CN112181636A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032599A1 (en) * | 2016-07-29 | 2018-02-01 | Blue Coat Systems, Inc. | Grouped categorization of internet content |
CN107832925A (zh) * | 2017-10-20 | 2018-03-23 | 阿里巴巴集团控股有限公司 | 互联网内容风险评价方法、装置及服务器 |
CN108255602A (zh) * | 2017-11-01 | 2018-07-06 | 平安普惠企业管理有限公司 | 任务组合方法及终端设备 |
CN110798703A (zh) * | 2019-11-04 | 2020-02-14 | 云目未来科技(北京)有限公司 | 视频违规内容检测的方法、装置以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110826006B (zh) | 基于隐私数据保护的异常采集行为识别方法和装置 | |
US20190026367A1 (en) | Navigating video scenes using cognitive insights | |
CN106874314B (zh) | 信息推荐的方法和装置 | |
CN112733042B (zh) | 推荐信息的生成方法、相关装置及计算机程序产品 | |
CN105787133B (zh) | 广告信息过滤方法及装置 | |
CN113383362B (zh) | 用户识别方法及相关产品 | |
CN110392155B (zh) | 通知消息的显示、处理方法、装置及设备 | |
CN110221747B (zh) | 电子书阅读页面的呈现方法、计算设备及计算机存储介质 | |
EP3739470A1 (en) | Method and apparatus for performing categorised matching of videos, and selection engine | |
CN107948730B (zh) | 基于图片生成视频的方法、装置、设备及存储介质 | |
CN109903172A (zh) | 理赔信息提取方法和装置、电子设备 | |
US20210295109A1 (en) | Method and device for generating painting display sequence, and computer storage medium | |
CN113301360A (zh) | 一种信息的提示方法、计算设备及存储介质 | |
CN111182367A (zh) | 一种视频的生成方法、装置及计算机系统 | |
CN111061867A (zh) | 基于质量感知的文本生成方法、设备、存储介质及装置 | |
CN111813929A (zh) | 资讯处理方法、装置及电子设备 | |
CN112860416A (zh) | 标注任务分派策略方法、装置 | |
US20190171745A1 (en) | Open ended question identification for investigations | |
CN114416986A (zh) | 一种文本数据清洗方法、装置及存储介质 | |
CN112948526A (zh) | 用户画像的生成方法及装置、电子设备、存储介质 | |
CN112712394A (zh) | 客户线索共享方法、系统、计算机和可读存储介质 | |
CN112181636A (zh) | 互联网内容的识别方法及装置、终端及可读存储介质 | |
CN115860829A (zh) | 一种智能广告图像生成方法及装置 | |
CN115809889A (zh) | 基于营销效果的智能客群筛选方法、系统、介质及设备 | |
CN112818984B (zh) | 标题生成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |