CN107870945A - 内容分级方法和装置 - Google Patents
内容分级方法和装置 Download PDFInfo
- Publication number
- CN107870945A CN107870945A CN201610858363.8A CN201610858363A CN107870945A CN 107870945 A CN107870945 A CN 107870945A CN 201610858363 A CN201610858363 A CN 201610858363A CN 107870945 A CN107870945 A CN 107870945A
- Authority
- CN
- China
- Prior art keywords
- content
- text
- sensitive
- sensitive word
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 238000010606 normalization Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 abstract description 8
- 230000035945 sensitivity Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 14
- 238000003860 storage Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010845 search algorithm Methods 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种内容分级方法和装置。其中包括以下处理:获取要分级的内容,并从中提取文本;加载敏感词词典,其中该敏感词词典中包括具有预设的权重和类别的敏感词;用敏感词词典中的敏感词,匹配所提取的文本,以确定所述文本中出现的各敏感词及其出现的次数;根据所述文本中出现的各敏感词的所述权重和其在所述文本中出现的次数,计算所述文本中出现的各敏感词所属各类别的分数;根据所述各类别的分数和对各类别设置的分级标准,对所述内容进行分级。通过本申请实施例的内容分级方案,可以全面地评价要分级的内容,快速有效地对要分级的内容进行自动分级,减少了人工的耗费,分级准确性和质量较高。
Description
技术领域
本申请涉及互联网技术领域,特别涉及一种内容分级方法和装置。
背景技术
近年来,随着聚合有各种内容提供者提供的内容的网络平台的发展,例如,网络小说网站、电子书应用平台、资讯类应用平台、社交网站、网络论坛等,使用网络平台的用户可以接触的信息越来越多。然而,有时候网络平台上的内容并不适合提供给用户,例如可能内容中包括有色情、暴力、政治等敏感信息。因此,对内容提供者提供的内容进行审核是网络平台需要做的工作。通常,网络平台是通过人力审核这些内容,在数据量很大的情况下,会消耗大量的人力成本和时间成本。
发明内容
有鉴于此,本申请的主要目的在于提供一种自动的内容分级方法,减少人工的耗费。
为了达到上述目的,本发明提出的技术方案为:
本申请实施例提供一种内容分级方法,其中,该方法包括:
获取要分级的内容,并从中提取文本;
加载敏感词词典,其中该敏感词词典中包括具有预设的权重和类别的敏感词;
用敏感词词典中的敏感词,匹配所提取的文本,以确定所述文本中出现的各敏感词及其出现的次数;
根据所述文本中出现的各敏感词的所述权重和其在所述文本中出现的次数,计算所述文本中出现的各敏感词所属各类别的分数;
根据所述各类别的分数和对各类别设置的分级标准,对所述内容进行分级。
本申请实施例还提供了一种内容分级装置,包括:
文本提取模块:用于获取要分级的内容,并从中提取文本;
词典加载模块:用于加载敏感词词典,其中该敏感词词典中包括具有预设的权重和类别的敏感词;
匹配模块:用敏感词词典中的敏感词,匹配所提取的文本,以确定所述文本中出现的各敏感词及其出现的次数;
计算模块:根据所述文本中出现的各敏感词的所述权重和其在所述文本中出现的次数,计算所述文本中出现的各敏感词所属各类别的分数;
分级模块:根据所述各类别的分数和对各类别设置的分级标准,对所述内容进行分级。
通过本申请实施例的内容分级方法,可以全面地评价要分级的内容,快速有效地对要分级的内容进行自动分级,减少了人工的耗费,分级准确性和质量较高。
附图说明
为了更清楚的说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。其中,
图1为根据本申请实施例的一种内容分级方法的流程图;
图2为根据本申请实施例的一种内容分级方法的流程图;
图3为根据本申请实施例的一种内容分级方法的流程图;
图4为根据本申请实施例的一种内容分级方法的流程图;
图5为根据本申请实施例的一种内容分级装置的示意图;
图6为根据本申请实施例的一种内容分级装置的示意图;
图7为根据本申请实施例的一种内容分级装置的示意图;
图8为根据本申请实施例的一种内容分级装置的示意图;
图9为根据本申请实施例的一种内容分级装置硬件结构示意图。
具体实施方式
以下结合说明书附图及具体实施例进一步说明本申请。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供了一种内容分级方法和装置,可以应用于各种需要对内容进行分级的场合,例如网络小说网站、电子书应用平台、资讯类应用平台、社交网站、网络论坛等内容提供平台。
图1为根据本申请实施例的一种内容分级方法的流程图,其具体可以通过计算机设备(例如内容提供平台的服务器)实现。如图1所示,该内容分级方法可以包括以下步骤:
步骤101:获取要分级的内容,并从中提取文本。
内容提供平台通常可以由内容提供者提供内容,这些内容提供者可以是内容提供平台的注册用户。例如,在网络小说网站上,注册用户可以发表网络小说;在电子书应用平台上,注册用户可以上传电子书应用;在资讯类应用平台上,注册用户可以提供新闻类应用;在社交网站上,注册用户可以分享信息;在网络论坛上,注册用户可以发帖子等等。这些注册用户提供的内容可以由其他注册的或非注册的用户浏览、下载。
步骤101例如是服务器在判断到注册用户在内容提供平台上上传内容时触发的;或者是在注册用户将内容上传到内容提供平台之后触发的。在后一种情况下,例如,服务器可以定期获取内容提供平台上要分级的新内容。
服务器获取要分级的内容后,从内容中提取文本。
例如,当所要分级的内容为电子书或者网络小说时,服务器可以根据电子书或网络小说的章节数目,抽取一定数目的章节,该一定数目的章节例如是随机抽取的,或者是从开始章节、中间章节、末尾章节抽取的,然后提取所抽取章节中的文本,在此过程中,可以排除电子书或网络小说的序。另外,在电子书的情况下,也可以根据电子书的页数随机抽取多页,提取所抽取的页面中的文本。这样,在要分级的内容量比较大的情况下,通过抽取要分级的内容中的一部分进行审核,在保证分级准确度的同时,可以减少服务器的运算量、降低服务器的负荷、提高审核效率。
当所要分级的内容为新闻类应用中的新闻、社交网站上用户分享的信息、网络论坛的帖子时,服务器可以提取新闻全文文本、分享的信息的全部文本、或者帖子的全部文本。
步骤102:加载敏感词词典,其中该敏感词词典中包括具有预设的权重和类别的敏感词。
根据本申请实施例,可以预先设置一个敏感词词典。该敏感词词典例如为一个包括各种敏感词的数据列表,存储于一个单独的存储器中,或者存储在服务器中的存储器上。敏感词词典的敏感词可以人为设置和/或通过在网络上学习获得,例如,服务器在网络上发现高频率出现的新的字与字的组合。在需要对内容进行分级时,服务器加载该敏感词词典。敏感词词典中的敏感词例如可以分为政治、色情、暴力等类别。另外,根据本申请实施例,可以基于敏感词词典中的敏感词的敏感程度,为敏感词分配权重。敏感程度可以根据社会环境人为设定,例如分为1~3级。1级为敏感程度较低、2级为敏感程度稍高、3级为敏感程度最高。权重例如为:敏感程度为1级的敏感词的权重为1分、敏感程度为2级的敏感词的权重为5分、敏感程度为3级的敏感词的权重为10分。通过给不同程度的敏感词分配不同的权重分数,能够对要分级的内容的敏感度进行更为准确的评估。例如,敏感词词典中的敏感词包括:敏感词“ab”,权重1分,一级,属于暴力类;敏感词“ac”,权重5分,二级,属于政治类;敏感词“ad”,权重10分,三级,属于政治类,权重5分;敏感词“abc”,权重5分,二级,属于色情类。
步骤101、102的顺序可以互换。在步骤102先执行时,可以定期加载敏感词词典,再供分级所用。在加载敏感词词典时,如之前加载过,则可以在之前加载的敏感词词典的基础上,判断要加载的敏感词词典是否有新的敏感词,如有则可以只更新新的敏感词,如果没有,则可以使用已加载的敏感词词典。另外,在加载敏感词词典时,还包括加载和/或更新敏感词的权重、分级、类别。
步骤103:用敏感词词典中的敏感词,匹配所提取的文本,以确定所述文本中出现的各敏感词及其出现的次数。
在该步骤中,可以使用一种Aho-Corasick算法和Boyer-Moore算法结合的AC_BM算法。其中,Aho-Corasick算法是一种字符串搜索算法,在输入的文本中同时匹配有限集合的所有字符串(敏感词词典)。而Boyer-Moore算法是一种基于后缀匹配的字符串搜索算法。不需要对所提取文本中的字符串中的字符进行逐一的比较,而是可以跳过其中某些字符。后缀匹配是指用敏感词的字符串从右到左开始与所提取文本中的字符串比较,而敏感词的字符串在所提取文本中是从左到右移动的。用Boyer-Moore算法,搜索所用的敏感词越长,该算法的速度越快,因为如果有一次匹配失败,则该信息用来排除尽可能多的无法匹配的位置。通过结合Aho-Corasick算法和Boyer-Moore算法,在对所提取文本中的字符串进行基于后缀匹配时,使用的是由整个敏感词词典的所有字符串组成的状态机。本申请基于AC_BM算法,可以同时匹配多个敏感词并统计其出现的次数(词频),匹配速度快,效率高,同时可以保障匹配质量。
步骤104:根据所述文本中出现的各敏感词的所述权重和其在所述文本中出现的次数,计算所述文本中出现的各敏感词所属各类别的分数。
在该步骤中,例如根据步骤103的匹配结果,在所提取的文本中,敏感词词典中的敏感词“ab”出现6次,敏感词“ac”出现2次、“ad”出现3次、“abc”出现4次。而根据敏感词词典,“ab”的预设的权重为1分;“ac”的预设的权重为5分;“ad”的预设的权重为10分;“abc”的预设的权重为5分。另外,例如,根据敏感词词典,“ab”的类别为暴力类,“ac”、“ad”的类型为政治类,“abc”的类别为色情类。通过计算得到以下结果:
暴力类敏感词的分数为:1*6=6分;
政治类敏感词的分数为:5*2+10*3=40分;
色情类敏感词的分数为:5*4=20分。
步骤105:根据所述各类别的分数和对各类别设置的分级标准,对所述内容进行分级。
其中,对各类别设置的分级标准可以为一定的分数区间或者阈值,例如为:[0,50)为一级、[50,200)为二级、[200,200+)为三级。不同的类别可以设置相同或不同的分级标准。
例如,根据步骤104的计算结果,所要分级的内容包括一级暴力内容(共6分)、一级政治内容(共40分)、一级色情内容(共20分)。
在对内容分级之后,分级结果及相关数据可以以列表的形式在服务器的显示屏上显示。例如,这些相关数据包括:分级时间、敏感词、命中次数、内容标识(例如,分配给内容的序列号)、敏感词的类别、敏感词的分级、内容的分级、内容的敏感分类。另外,在内容分级之后,可以根据分级结果,对内容进行相应的处理。
通过本申请实施例的内容分级方法,可以全面地评价要分级的内容,快速有效地对要分级的内容进行自动分级,减少了人工的耗费,分级准确性和质量较高。
图2所示为根据本申请实施例的内容分级方法的流程图,其中如图2所示,在图1的内容分级方法的基础上,步骤105例如具体包括以下步骤:
步骤201:根据所述各类别的分数,确定分数最高的类别;
步骤202:比较所述分数最高的类别的分数和对该分数最高的类别设置的分级标准,并根据比较结果,对所述内容进行分级。
根据步骤201、202和步骤104中的示例,因为政治类的匹配的敏感词的分数最高,所以比较政治类的匹配的敏感词的分数40和预设的分级标准。通过比较得出,40落在[0,50)的区间,则所要分级的内容属于一级政治类敏感内容。
通过本申请实施例的内容分级方法,可以根据所要分级的内容的主要敏感内容对其进行分级,使得分级结果更为突出和明确。
图3为根据本申请实施例的内容分级方法的流程图。如图3所示,根据本申请实施例的内容分级方法的步骤202中可以包括:
步骤301:根据所提取的文本的长度,用预设的惩罚因子对所述分数最高的类别的分数进行归一化处理,其中,所述预设的惩罚因子是依据文本长度预设的,与文本长度成反比;
步骤302:比较所述归一化处理结果和对所述分数最高的类别设置的分级标准,对所述要分级的内容进行分级。
惩罚因子和文本长度的关系例如是:文本越长,惩罚因子越小,文本越短,惩罚因子越大。例如,可以设置文本长度区间,在文本长度>100000字节时,惩罚因子为1;长度在(10000,100000]字节时,长度惩罚因子为5;长度在(0,10000]字节时,长度惩罚因子为10。可以设置其他的惩罚因子,只要保证按文本长度和惩罚因子成反比例相关即可,相应的惩罚因子可以根据不同应用场景测试和调整。
在步骤302中,具体地,可以先确定所述归一化处理结果所落入的预设分级分数区间;再根据所确定的所述分级分数区间,确定所述内容属于所述分级分数区间所对应的级别。
例如,考虑到所提取的文本为短文本的情况下,上述敏感词的分数40会再乘以惩罚因子10,则最终的敏感词分数为40*10=400。落入在[200,200+)的区间,会被分为三级政治类敏感内容。
根据本申请实施例的内容分级方法,在文本中的敏感词分数相同的情况下,若是这些敏感词出现在短文本中,但因为其所占整个文本的比重比较大,通过引入较大的惩罚因子,也有可能将文本分到一个较高敏感的级别;若这些敏感词出现在长文本中,但因为其所占的比重比较小,通过引入较小的惩罚因子,可能会将文本分到一个较低敏感的级别。这样,可以解决敏感词分布不均、文本长短不均等问题,减少了误判或漏判,比较健壮。
图4为根据本申请实施例的内容分级方法的流程图。如图4所示,在步骤105之后,本申请实施例的内容分级方法还可以包括以下步骤:
步骤106:根据所述内容对应的级别,对所述内容执行不同程度的控制操作。
所述控制操作例如包括:禁止将该内容的名称或标题提供给搜索引擎;禁止将该内容提供给用户;禁止在内容提供平台提供该内容。上述对所述内容执行至少一个操作可以是根据不同的时间段,或者根据受众群体的特征进行的。
例如,在电子书平台,是可以通过标题或作者搜索到电子书的。在电子书对应的级别比较高、内容比较敏感度的情况下,电子书平台的服务器可以不将该电子书的标题或作者添加到一个供搜索引擎搜索的搜索列表中,这样,其他用户便不能搜索到该电子书。
或者,在电子书对应一定的级别时,电子书平台的服务器可以根据访问该电子书的用户的注册信息或者用户与该电子书平台相关联的其他社交帐号信息、浏览器的使用历史等,判断用户的年龄,如果用户年龄不满足要求,使得用户可以搜索到该电子书,但不能阅读。
或者,在电子书对应的级别达到最高,不适宜在电子书平台上供用户阅读时,电子书平台服务器可以禁止提供该电子书,例如对该电子书进行下架,即从电子书平台上删除该电子书,或者不允许其上架。
通过本申请实施例的内容分级方法,可以对要分级的内容进行屏蔽、过滤、或针对不同受众做分类和分级曝光处理,有效地控制将内容提供给用户,适应不同用户的要求。
与上述的内容分级方法相对应,本申请实施例还提供了一种内容分级装置。
图5所示为根据本申请实施例的一种内容分级装置,可以在计算机设备(例如内容提供平台的服务器)上实现,其包括以下模块:
文本提取模块501:用于获取要分级的内容,并从中提取文本。
文本提取模块501的处理例如是在判断到注册用户在内容提供平台上上传内容时触发的;或者是在注册用户将内容上传到内容提供平台之后触发的。在后一种情况下,例如,文本提取模块501可以定期获取内容提供平台上要分级的新内容。
文本提取模块501在获取要分级的内容之后,从内容中提取文本。
例如,当所要分级的内容为电子书或者网络小说时,文本提取模块501可以根据电子书或网络小说的章节数目,抽取一定数目的章节,该一定数目的章节例如是随机抽取的,或者是从开始章节、中间章节、末尾章节抽取的,然后提取所抽取章节中的文本,在此过程中,可以排除电子书或网络小说的序。另外,在电子书的情况下,也可以根据电子书的页数随机抽取多页,提取所抽取的页面中的文本。这样,在要分级的内容量比较大的情况下,通过抽取要分级的内容中的一部分进行审核,在保证分级准确度的同时,可以减少服务器的运算量、降低服务器的负荷、提高审核效率。
当所要分级的内容为新闻类应用中的新闻、社交网站上用户分享的信息、网络论坛的帖子时,文本提取模块501可以提取新闻全文文本、分享的信息的全部文本、或者帖子的全部文本。
词典加载模块502:用于加载敏感词词典,其中该敏感词词典中包括具有预设的权重和类别的敏感词。
根据本申请实施例,可以预先设置一个敏感词词典。该敏感词词典例如为一个包括各种敏感词的数据列表,存储于一个单独的存储器中,或者存储在服务器中的存储器上。敏感词词典的敏感词可以人为设置和/或通过在网络上学习获得,例如,在网络上发现高频率出现的新的字与字的组合。在需要对内容进行分级时,词典加载模块502加载该敏感词词典。敏感词词典中的敏感词例如可以分为政治、色情、暴力等类别。另外,根据本申请实施例,可以基于敏感词词典中的敏感词的敏感程度,为敏感词分配权重。敏感程度可以根据社会环境人为设定,例如分为1~3级。1级为敏感程度较低、2级为敏感程度稍高、3级为敏感程度最高。权重例如为:敏感程度为1级的敏感词的权重为1分、敏感程度为2级的敏感词的权重为5分、敏感程度为3级的敏感词的权重为10分。通过给不同程度的敏感词分配不同的权重分数,能够对要分级的内容的敏感度进行更为准确的评估。例如,敏感词词典中的敏感词包括:敏感词“ab”,权重1分,一级,属于暴力类;敏感词“ac”,权重5分,二级,属于政治类;敏感词“ad”,权重10分,三级,属于政治类,权重5分;敏感词“abc”,权重5分,二级,属于色情类。
词典加载模块502可以定期加载敏感词词典,然后再供分级使用;或者在提取了要分级的内容的文本之后加载敏感词词典。在加载敏感词词典时,如之前加载过,则可以在之前加载的敏感词词典的基础上,判断要加载的敏感词词典是否有新的敏感词,如有则可以只更新新的敏感词,如果没有,则可以使用已加载的敏感词词典。另外,在加载敏感词词典时,还包括加载和/或更新敏感词的权重、分级、类别。
匹配模块503:用敏感词词典中的敏感词,匹配所提取的文本,以确定所述文本中出现的各敏感词及其出现的次数。
在该模块中,可以使用一种结合了Aho-Corasick算法和Boyer-Moore算法的AC_BM算法。其中,Aho-Corasick算法是一种字符串搜索算法,在输入的文本中同时匹配有限集合的所有字符串(敏感词词典)。而Boyer-Moore算法是一种基于后缀匹配的字符串搜索算法。不需要对所提取文本中的字符串中的字符进行逐一的比较,而是可以跳过其中某些字符。后缀匹配是指用敏感词的字符串从右到左开始与所提取文本中的字符串比较,而敏感词的字符串在所提取文本中是从左到右移动的。用Boyer-Moore算法,搜索所用的敏感词越长,该算法的速度越快,因为如果有一次匹配失败,则该信息用来排除尽可能多的无法匹配的位置。通过结合Aho-Corasick算法和Boyer-Moore算法,在对所提取文本中的字符串进行基于后缀匹配时,使用的是由整个敏感词词典的所有字符串组成的状态机。本申请基于AC_BM算法,可以同时匹配多个敏感词并统计其出现的次数(词频),匹配速度快,效率高,同时可以保障匹配质量。
计算模块504:根据所述文本中出现的各敏感词的所述权重和其在所述文本中出现的次数,计算所述文本中出现的各敏感词所属各类别的分数。
在该模块中,例如根据匹配模块503的匹配结果,在所提取的文本中,敏感词词典中的敏感词“ab”出现6次,敏感词“ac”出现2次、“ad”出现3次、“abc”出现4次。而根据敏感词词典,“ab”的预设的权重为1分;“ac”的预设的权重为5分;“ad”的预设的权重为10分;“abc”的预设的权重为5分。另外,例如,根据敏感词词典,“ab”的类别为暴力类,“ac”、“ad”的类型为政治类,“abc”的类别为色情类。通过计算得到以下结果:
暴力类敏感词的分数为:1*6=6分;
政治类敏感词的分数为:5*2+10*3=40分;
色情类敏感词的分数为:5*4=20分。
分级模块505:根据所述各类别的分数和对各类别设置的分级标准,对所述内容进行分级。
其中,对各类别设置的分级标准可以为一定的分数区间或者阈值,例如为:[0,50)为一级、[50,200)为二级、[200,200+)为三级。不同的类别可以设置相同或不同的分级标准。
例如,根据计算模块504的计算结果,所要分级的内容包括一级暴力内容(共6分)、一级政治内容(共40分)、一级色情内容(共20分)。
在对内容分级之后,分级结果及相关数据可以以列表的形式在服务器的显示屏上显示。例如,这些相关数据包括:分级时间、敏感词、命中次数、内容标识(例如,分配给内容的序列号)、敏感词的类别、敏感词的分级、内容的分级、内容的敏感分类。另外,在内容分级之后,可以根据分级结果,对内容进行相应的处理。
通过本申请实施例的内容分级装置,可以全面地评价要分级的内容,快速有效地对要分级的内容进行自动分级,减少了人工的耗费,分级准确性和质量较高。
图6为根据本申请实施例的内容分级装置的示意图,其中,如图6所示,在图5的分级模块505中,例如具体包括以下模块:
类别确定模块601:用于根据所述各类别的分数,确定分数最高的类别;
比较模块602:用于比较所述分数最高的类别的分数和对该分数最高的类别设置的分级标准,并根据比较结果,对所述内容进行分级。
根据上述示例,因为政治类的匹配的敏感词的分数最高,所以比较政治类的匹配的敏感词的分数40和预设的分级标准。通过比较得出,40落在[0,50)的区间,则所要分级的内容属于一级政治类敏感内容。
通过本申请实施例的内容分级装置,可以根据所要分级的内容的主要敏感内容对其进行分级,使得分级结果更为突出和明确。
图7为根据本申请实施例的内容分级装置的示意图,如图7所示,在图6的基础上,比较模块602中可以包括:
归一化模块701:用于根据所提取的文本的长度,用预设的惩罚因子对所述分数最高的类别的分数进行归一化处理,其中,所述预设的惩罚因子是依据文本长度预设的,与文本长度成反比;
子分级模块702:用于比较所述归一化处理结果和对所述分数最高的类别设置的分级标准,对所述要分级的内容进行分级。
惩罚因子和文本长度的关系例如是:文本越长,惩罚因子越小,文本越短,惩罚因子越大。例如,可以设置文本长度区间,在文本长度>100000字节时,惩罚因子为1;长度在(10000,100000]字节时,长度惩罚因子为5;长度在(0,10000]字节时,长度惩罚因子为10。可以设置其他的惩罚因子,只要保证按文本长度和惩罚因子成反比例相关即可,相应的惩罚因子可以根据不同应用场景测试和调整。
具体地,分级模块702也可用于先确定所述归一化处理结果所落入的预设分级分数区间;再根据所确定的所述分级分数区间,确定所述内容属于所述分级分数区间所对应的级别。
例如,考虑到所提取的文本为短文本的情况下,上述敏感词的分数40会再乘以惩罚因子10,则最终的敏感词分数为40*10=400。落入在[200,200+)的区间,会被分为三级,政治类敏感内容。
根据本申请实施例的内容分级装置,在文本中的敏感词分数相同的情况下,若是这些敏感词出现在短文本中,但因为其所占整个文本的比重比较大,通过引入较大的惩罚因子,也有可能将文本分到一个较高敏感的级别;若这些敏感词出现在长文本中,但因为其所占的比重比较小,通过引入较小的惩罚因子,可能会将文本分到一个较低敏感的级别。这样,可以解决敏感词分布不均、文本长短不均等问题,减少了误判或漏判,比较健壮。
图8为根据本申请实施例的内容分级装置,其中,在图5的基础上可以进一步包括:控制模块506,用于根据所述内容对应的级别,对所述内容执行相应程度的控制操作。
所述控制操作例如包括:禁止将该内容的名称或标题提供给搜索引擎;禁止将该内容提供给用户;禁止在内容提供平台提供该内容。上述对所述内容执行至少一个操作可以是根据不同的时间段,或者根据受众群体的特征进行的。
例如,在电子书平台,是可以通过标题或作者搜索到电子书的。在电子书对应的级别比较高、内容比较敏感度的情况下,电子书平台的服务器可以不将该电子书的标题或作者添加到一个供搜索引擎搜索的搜索列表中,这样,其他用户便不能搜索到该电子书。
或者,在电子书对应一定的级别时,电子书平台的服务器可以根据访问该电子书的用户的注册信息或者用户与该电子书平台相关联的其他社交帐号信息、浏览器的使用历史等,判断用户的年龄,如果用户年龄不满足要求,使得用户可以搜索到该电子书,但不能阅读。
或者,在电子书对应的级别达到最高,不适宜在电子书平台上供用户阅读时,电子书平台服务器可以禁止提供该电子书,例如对该电子书进行下架,即从电子书平台上删除该电子书,或者不允许其上架。
通过本申请实施例的内容分级方法,可以对要分级的内容进行屏蔽、过滤、或针对不同受众做分类和分级曝光处理,有效地控制将内容提供给用户,适应不同用户的要求。
图9所示为根据本申请实施例的内容分级装置的硬件结构示意图。该内容分级装置例如实现为服务器。
参照图9,该内容分级装置可以包括:处理器901(例如CPU)、通信总线902、接口903、存储器904。其中,通信总线902用于实现该内容分级装置中各组成部件之间的连接通信。接口903包括用户接口和网络接口。用户接口可以包括显示器、键盘、鼠标等外设,用于接收内容分级平台工作人员输入的信息,并将接收的信息发送至处理器901进行处理。显示器可以为LCD显示器、LED显示器,也可以为触摸屏,用于显示需要显示的数据。可选的用户接口还可以包括标准的有线接口、无线接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器904可以是高速RAM存储器,也可以是稳定的或非易失性存储器,例如磁盘存储器。存储器904可选的还可以是独立于前述处理器901的存储装置。如图9所示,作为一种计算机存储介质的存储器904中可以存储有图5-图8中的各个模块。在图9中,仅示出了模块501-505用于示例。这些模块例如为指令模块。处理器901执行存储于存储器904中的模块,用于完成这些模块的指定功能。作为一种计算机存储介质的存储器904中还可以存储计算机程序指令,用于当由处理器901执行时,执行图1-图4中的方法。
通过本申请实施例的内容分级方法,可以全面地评价要分级的内容,快速有效地对要分级的内容进行自动分级,减少了人工的耗费,分级准确性和质量较高。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的,应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述各实施例的功能模块可以位于一个终端或网络节点,或者也可以分布到多个终端或网络节点上。
另外,本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本申请。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储介质也构成了本申请。存储介质可以使用任何类型的记录方式,例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。
因此,本申请还提供了一种非易失性存储介质,其中存储有内容分级程序,该内容分级程序用于执行本申请上述实施例方法中的任何一种实例。
以上所述仅为本申请的实例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (15)
1.一种内容分级方法,其特征在于,该方法包括:
获取要分级的内容,并从中提取文本;
加载敏感词词典,其中该敏感词词典中包括具有预设的权重和类别的敏感词;
用敏感词词典中的敏感词,匹配所提取的文本,以确定所述文本中出现的各敏感词及其出现的次数;
根据所述文本中出现的各敏感词的所述权重和其在所述文本中出现的次数,计算所述文本中出现的各敏感词所属各类别的分数;
根据所述各类别的分数和对各类别设置的分级标准,对所述内容进行分级。
2.根据权利要求的1内容分级方法,其中,根据所述各类别的分数和对各类别设置的分级标准,对所述内容进行分级包括:
根据所述各类别的分数,确定分数最高的类别;
比较所述分数最高的类别的分数和对该分数最高的类别设置的分级标准,并根据比较结果,对所述内容进行分级。
3.根据权利要求2的内容分级方法,其中,比较所述分数最高的类别的分数和对该分数最高的类别设置的分级标准,并根据比较结果,对所述内容进行分级包括:
根据所提取的文本的长度,用预设的惩罚因子对所述分数最高的类别的分数进行归一化处理,其中,所述预设的惩罚因子是依据文本长度预设的,与文本长度成反比;
比较所述归一化处理结果和对所述分数最高的类别设置的分级标准,对所述要分级的内容进行分级。
4.根据权利要求3的内容分级方法,其中,比较所述归一化处理结果和对所述分数最高的类别设置的分级标准,对所述要分级的内容进行分级包括:
确定所述归一化处理结果所落入的预设分级分数区间;
根据所确定的所述分级分数区间,确定所述内容属于所述分级分数区间所对应的级别。
5.根据权利要求1至4任一项的内容分级方法,其中,用敏感词词典中的敏感词,匹配所提取的文本,以确定所述文本中出现的各敏感词及其出现的次数包括:
使用基于后缀匹配的Boyer-Moore算法和Aho-Corasick算法的结合,用敏感词词典中的所有敏感词的字符串所构成的自动状态机在所提取的文本中进行字符串的从右至左的匹配,确定敏感词词典中的敏感词的字符串出现在所提取的文本中的次数。
6.根据权利要求1的内容分级方法,其特征在于,所述方法进一步包括:
根据所述内容对应的级别,对所述内容执行相应程度的控制操作;
所述控制操作包括以下至少一项:禁止将所述内容的名称或标题提供给搜索引擎,禁止将所述内容提供给用户,禁止在内容提供平台提供所述内容。
7.根据权利要求1的内容分级方法,其特征在于,所述要分级的内容为电子书,其中,从要分级的内容中提取文本包括:
根据电子书的页数,随机抽取多页,提取该多页中的文本;或者
根据电子书的章节数目,抽取一定数目的章节,然后提取所抽取章节中的文本,其中,所述一定数目的章节是随机抽取的,或者是从开始章节、中间章节、末尾章节抽取的。
8.根据权利要求6的内容分级方法,其特征在于,其中,对所述电子书执行所述相应程度的控制操作进一步依据的是使用所述内容提供平台的用户的特征。
9.一种内容分级装置,其特征在于,其包括:
文本提取模块:用于获取要分级的内容,并从中提取文本;
词典加载模块:用于加载敏感词词典,其中该敏感词词典中包括具有预设的权重和类别的敏感词;
匹配模块:用敏感词词典中的敏感词,匹配所提取的文本,以确定所述文本中出现的各敏感词及其出现的次数;
计算模块:根据所述文本中出现的各敏感词的所述权重和其在所述文本中出现的次数,计算所述文本中出现的各敏感词所属各类别的分数;
分级模块:根据所述各类别的分数和对各类别设置的分级标准,对所述内容进行分级。
10.根据权利要求9的内容分级装置,其中,所述分级模块包括以下模块:
类别确定模块:用于根据所述各类别的分数,确定分数最高的类别;
比较模块:用于比较所述分数最高的类别的分数和对该分数最高的类别设置的分级标准,并根据比较结果,对所述内容进行分级。
11.根据权利要求10的内容分级装置,其中,所述比较模块包括:
归一化模块:用于根据所提取的文本的长度,用预设的惩罚因子对所述分数最高的类别的分数进行归一化处理,其中,所述预设的惩罚因子是依据文本长度预设的,与文本长度成反比;
子分级模块:用于比较所述归一化处理结果和对所述分数最高的类别设置的分级标准,对所述要分级的内容进行分级。
12.根据权利要求11的内容分级装置,其中,所述子分级模块用于:
确定所述归一化处理结果所落入的预设分级分数区间;
根据所确定的所述分级分数区间,确定所述内容属于所述分级分数区间所对应的级别。
13.根据权利要求9至12任一项的内容分级装置,其中,所述匹配模块用于:
使用基于后缀匹配的Boyer-Moore算法和Aho-Corasick算法的结合,用敏感词词典中的所有敏感词的字符串所构成的自动状态机在所提取的文本中进行字符串的从右至左的匹配,确定敏感词词典中的敏感词的字符串出现在所提取的文本中的次数。
14.根据权利要求9的内容分级装置,其特征在于其进一步包括控制模块,用于根据所述内容对应的级别,对所述内容执行相应程度的控制操作;
所述控制操作包括以下至少一项:禁止将所述内容的名称或标题提供给搜索引擎,禁止将所述内容提供给用户,禁止在内容提供平台提供所述内容。
15.根据权利要求9的内容分级装置,其特征在于,所述要分级的内容为电子书,其中,从要分级的内容中提取文本包括:
根据电子书的页数,随机抽取多页,提取该多页中的文本;或者
根据电子书的章节数目,抽取一定数目的章节,然后提取所抽取章节中的文本,其中,所述一定数目的章节是随机抽取的,或者是从开始章节、中间章节、末尾章节抽取的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610858363.8A CN107870945B (zh) | 2016-09-28 | 2016-09-28 | 内容分级方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610858363.8A CN107870945B (zh) | 2016-09-28 | 2016-09-28 | 内容分级方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107870945A true CN107870945A (zh) | 2018-04-03 |
CN107870945B CN107870945B (zh) | 2020-10-02 |
Family
ID=61761259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610858363.8A Active CN107870945B (zh) | 2016-09-28 | 2016-09-28 | 内容分级方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107870945B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985067A (zh) * | 2018-06-07 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 基于自动化回溯的内容处理方法和装置 |
CN111031329A (zh) * | 2018-10-10 | 2020-04-17 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
CN111107380A (zh) * | 2018-10-10 | 2020-05-05 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
CN111723280A (zh) * | 2019-03-20 | 2020-09-29 | 北京字节跳动网络技术有限公司 | 信息的处理方法、装置、存储介质及电子设备 |
CN112037818A (zh) * | 2020-08-30 | 2020-12-04 | 北京嘀嘀无限科技发展有限公司 | 异常情况确定方法和正向匹配式生成方法 |
CN112182461A (zh) * | 2020-08-21 | 2021-01-05 | 杭州安恒信息技术股份有限公司 | 网页敏感度的计算方法、装置 |
CN112287268A (zh) * | 2019-07-23 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 网络资源搜索的处理方法及装置 |
CN113449199A (zh) * | 2021-09-01 | 2021-09-28 | 深圳市知酷信息技术有限公司 | 一种基于综合安全审计的文档监控管理系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040030741A1 (en) * | 2001-04-02 | 2004-02-12 | Wolton Richard Ernest | Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery |
CN103514174A (zh) * | 2012-06-18 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种文本分类方法和装置 |
US20140297658A1 (en) * | 2007-05-25 | 2014-10-02 | Piksel, Inc. | User Profile Recommendations Based on Interest Correlation |
CN104866465A (zh) * | 2014-02-25 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 敏感文本检测方法及装置 |
CN105373528A (zh) * | 2015-08-18 | 2016-03-02 | 新华网股份有限公司 | 一种文本内容敏感性分析方法和装置 |
-
2016
- 2016-09-28 CN CN201610858363.8A patent/CN107870945B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040030741A1 (en) * | 2001-04-02 | 2004-02-12 | Wolton Richard Ernest | Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery |
US20140297658A1 (en) * | 2007-05-25 | 2014-10-02 | Piksel, Inc. | User Profile Recommendations Based on Interest Correlation |
CN103514174A (zh) * | 2012-06-18 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种文本分类方法和装置 |
CN104866465A (zh) * | 2014-02-25 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 敏感文本检测方法及装置 |
CN105373528A (zh) * | 2015-08-18 | 2016-03-02 | 新华网股份有限公司 | 一种文本内容敏感性分析方法和装置 |
Non-Patent Citations (1)
Title |
---|
李晓娟: "地图标注内容的文本异常识别", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985067A (zh) * | 2018-06-07 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 基于自动化回溯的内容处理方法和装置 |
CN111031329A (zh) * | 2018-10-10 | 2020-04-17 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
CN111107380A (zh) * | 2018-10-10 | 2020-05-05 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
CN111107380B (zh) * | 2018-10-10 | 2023-08-15 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
CN111031329B (zh) * | 2018-10-10 | 2023-08-15 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
CN111723280A (zh) * | 2019-03-20 | 2020-09-29 | 北京字节跳动网络技术有限公司 | 信息的处理方法、装置、存储介质及电子设备 |
CN111723280B (zh) * | 2019-03-20 | 2023-06-16 | 北京字节跳动网络技术有限公司 | 信息的处理方法、装置、存储介质及电子设备 |
CN112287268A (zh) * | 2019-07-23 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 网络资源搜索的处理方法及装置 |
CN112182461A (zh) * | 2020-08-21 | 2021-01-05 | 杭州安恒信息技术股份有限公司 | 网页敏感度的计算方法、装置 |
CN112037818A (zh) * | 2020-08-30 | 2020-12-04 | 北京嘀嘀无限科技发展有限公司 | 异常情况确定方法和正向匹配式生成方法 |
CN113449199A (zh) * | 2021-09-01 | 2021-09-28 | 深圳市知酷信息技术有限公司 | 一种基于综合安全审计的文档监控管理系统 |
CN113449199B (zh) * | 2021-09-01 | 2021-11-26 | 深圳市知酷信息技术有限公司 | 一种基于综合安全审计的文档监控管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107870945B (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107870945B (zh) | 内容分级方法和装置 | |
CN109684483B (zh) | 知识图谱的构建方法、装置、计算机设备及存储介质 | |
WO2021098648A1 (zh) | 文本推荐方法、装置、设备及介质 | |
US8095547B2 (en) | Method and apparatus for detecting spam user created content | |
CN105893533B (zh) | 一种文本匹配方法及装置 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN109740152B (zh) | 文本类目的确定方法、装置、存储介质和计算机设备 | |
CN112328909B (zh) | 信息推荐方法、装置、计算机设备及介质 | |
CN108304426B (zh) | 标识的获取方法及装置 | |
CN109104421B (zh) | 一种网站内容篡改检测方法、装置、设备及可读存储介质 | |
CN113849760B (zh) | 敏感信息风险评估方法、系统和存储介质 | |
CN109766441A (zh) | 文本分类方法、装置及系统 | |
CN110175264A (zh) | 视频用户画像的构建方法、服务器及计算机可读存储介质 | |
CN108388556B (zh) | 同类实体的挖掘方法及系统 | |
CN113392329A (zh) | 内容推荐方法、装置、电子设备及存储介质 | |
US20100057724A1 (en) | Server device for creating list of general words to be excluded from search result | |
CN108810577B (zh) | 一种用户画像的构建方法、装置及电子设备 | |
TWI447662B (zh) | An ad management apparatus, an advertisement selecting apparatus, an advertisement management method, an advertisement management program, and a recording medium on which an advertisement management program is recorded | |
CN113656575A (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN113791837A (zh) | 页面处理方法、装置、设备和存储介质 | |
CN105190619B (zh) | 终端装置以及装置的程序 | |
CN110633408A (zh) | 智能商业资讯的推荐方法和系统 | |
CN110675205B (zh) | 基于应用的竞品分析方法、装置及存储介质 | |
KR101614843B1 (ko) | 사회 이슈에 대한 은폐를 탐지하는 방법 및 판단 장치 | |
CN110826310B (zh) | 一种应用内容质量分析方法及应用内容质量分析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221122 Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518133 Patentee after: Shenzhen Yayue Technology Co.,Ltd. Address before: 2, 518044, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |