CN106815200A - 基于关键词的不良文本检测方法及装置 - Google Patents
基于关键词的不良文本检测方法及装置 Download PDFInfo
- Publication number
- CN106815200A CN106815200A CN201510863334.6A CN201510863334A CN106815200A CN 106815200 A CN106815200 A CN 106815200A CN 201510863334 A CN201510863334 A CN 201510863334A CN 106815200 A CN106815200 A CN 106815200A
- Authority
- CN
- China
- Prior art keywords
- text
- term vector
- word
- web page
- seed words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于关键词的不良文本检测方法及装置,涉及网页内容检测领域,能够提高基于关键词进行不良文本检测的准确率。所述方法包括如下步骤:S0、获取多个种子词,所述种子词为用于表征不良信息的词语;S1、根据语义聚类法对所述种子词进行扩展,得到与所述种子词语义关联的语义关联词,以所述种子词和所述语义关联词作为用于检测不良文本的关键词;S2、在网页文本在宽带环境中传输的情况下,统计每个网页文本中所述关键词的出现次数,并根据所述出现次数确定属于不良文本的网页文本。
Description
技术领域
本发明涉及网页内容检测领域,更具体地说,涉及一种基于关键词的不良文本检测方法及装置。
背景技术
随着互联网的普及和网络带宽的提高,互联网中可访问的网站数量及网页内容也呈现出爆炸性增加的趋势。由于互联网的开放性,网页内容中掺杂了不少涉黄、涉赌及涉毒等违规的不良信息。为了封锁包含不良信息的违规网页,净化网络环境,需对网页内容进行实时监控。
以往,为了对网页内容进行实时监控,提出了根据关键词出现的次数来衡量一个网页是否违规。具体地,当某一网页中的关键词出现的次数超过阈值时,判断该网页违规。
然而,互联网中网站数量庞大,网页内容繁多,其中涉黄、涉赌及涉毒的违规词的基数庞大,违规词的伪装词也五花八门。例如,对于涉黄的违规词“性爱”,违规网站常常不直接使用该违规词,而是使用近音词、近形词来替代,例如“悻愛”、“性噯⌒”、“狌暧”等,而且还可能在违规词中间加上分隔符来干扰违规词的识别,例如“性☆爱”。
因此,按照以往的检测方法,即使耗费大量的人工去标记各种违规词作为关键词,也会不可避免地遗漏很多违规词。另一方面,基于违规词进行检测时难以识别伪装词。因此,现有技术由于关键词的限制,识别网页违规的准确率较低。
发明内容
本发明提供一种基于关键词的不良文本检测方法及装置,能够提高基于关键词进行不良文本检测的准确率。
本发明解决其技术问题所采用的技术方案是:
第一方面,提供一种基于关键词的不良文本检测方法,包括如下步骤:
S0、获取多个种子词,所述种子词为用于表征不良信息的词语;
S1、根据语义聚类法对所述种子词进行扩展,得到与所述种子词语义关联的语义关联词,以所述种子词和所述语义关联词作为用于检测不良文本的关键词;
S2、在网页文本在宽带环境中传输的情况下,统计每个网页文本中所述关键词的出现次数,并根据所述出现次数确定属于不良文本的网页文本。
结合第一方面,在其第一种可能的实现方式中,所述种子词为N个,N为整数且N≥2,所述步骤S1具体包括:
S11、获取含有不良信息的训练文档,将所述训练文档中的每个词转换为词向量形式的待训练词向量,并将所述种子词转换为词向量形式的种子词向量,所述待训练词向量与所述种子词向量位于同一词向量空间中;
S12、计算每个所述待训练词向量与每个所述种子词向量之间的余弦距离;
S13、在所述词向量空间中,以N个所述种子词向量作为初始质心,利用K-means聚类算法对所述待训练词向量进行聚类,得到K个词向量簇,每个所述词向量簇分别具有一个聚类质心,其中K为正整数且K≤N;
S14、对于所述聚类质心距所述种子词向量的余弦距离最小的所述词向量簇,确定其中的所述待训练词向量对应的词,并将所确定的词作为与该种子词向量对应的所述种子词的所述语义关联词。
结合第一方面的第一种可能的实现方式,在其第二种可能的实现方式中,所述步骤S11中的所述获取含有不良信息的训练文档具体包括:
获取所述步骤S2中被确定为不良文本的所述网页文本。
结合第一方面,在其第三种可能的实现方式中,所述步骤S2具体包括:
S21、统计每个网页文本中所述关键词的出现次数,并判断所述出现次数是否超出阈值;
S22、当所述出现次数超出所述阈值时,初步判断所述网页文本为不良文本;
S23、显示被初步判断为不良文本的所述网页文本;
S24、接收检测人员输入的、表示被初步判断为不良文本的所述网页文本属于不良文本的指示,并根据所述指示,确定被初步判断为不良文本的所述网页文本属于不良文本。
结合第一方面,在其第四种可能的实现方式中,所述步骤S0还包括:
对获取的多个所述种子词进行分类;
所述步骤S1具体包括:对于每种类型的所述种子词,分别根据语义聚类法进行扩展得到与该种类型的所述种子词语义关联的语义关联词,以该种类型的所述种子词及其所述语义关联词作为用于检测该种类型的不良文本的关键词。
结合第一方面或其第一种至第四种任一可能的实现方式,在其第五种可能的实现方式中,
所述步骤S0、步骤S1在离线模式下进行,所述步骤S2在在线模式下进行。
第二方面,提供一种基于关键词的不良文本检测装置,包括:
种子词获取单元,其用于获取多个种子词,所述种子词为用于表征不良信息的词语;
语义关联词扩展单元,其用于根据语义聚类法对所述种子词获取单元获取的种子词进行扩展,得到与所述种子词语义关联的语义关联词,以所述种子词和所述语义关联词作为用于检测不良文本的关键词;
不良文本判断单元,其在网页文本在宽带环境中传输的情况下,统计每个网页文本中所述语义关联词扩展单元得到的关键词的出现次数,并根据所述出现次数确定属于不良文本的网页文本。
结合第二方面,在其第一种可能的实现方式中,所述种子词为N个,N为整数且N≥2,所述语义关联词扩展单元具体用于:
获取含有不良信息的训练文档;
将所述训练文档中的每个词转换为词向量形式的待训练词向量,并将所述种子词获取单元获取的种子词转换为词向量形式的种子词向量,所述待训练词向量与所述种子词向量位于同一词向量空间中;
计算所述每个所述待训练词向量与每个所述种子词向量之间的余弦距离;
在所述词向量空间中,以N个所述种子词向量作为初始质心,利用K-means聚类算法对所述待训练词向量进行聚类,得到K个词向量簇,每个所述K个词向量簇分别具有一个聚类质心,其中K为正整数且K≤N;
对所述聚类质心距所述种子词向量的余弦距离最小的所述词向量簇,确定其中的所述待训练词向量对应的词,并将所确定的词作为与该种子词向量对应的所述种子词的所述语义关联词。
结合第二方面的第一种可能的实现方式,在其第二种可能的实现方式中,
所述语义关联词扩展单元具体用于:获取在所述不良文本判断单元中被确定为不良文本的所述网页文本。
结合第二方面,在其第三种可能的实现方式中,所述不良文本判断单元具体用于:
统计每个网页文本中所述语义关联词扩展单元得到的关键词的出现次数;
判断所述出现次数是否超出阈值;
在所述出现次数超出所述阈值时,初步判断所述网页文本为不良文本;
显示被初步判断为不良文本的所述网页文本;
接收检测人员输入的、表示被初步判断为不良文本的所述网页文本属于不良文本的指示,并根据所述指示,确定被初步判断为不良文本的所述网页文本属于不良文本。
根据本发明提供的基于关键词的不良文本检测方法及装置,由于能够根据较少的种子词自动拓展得到较为全面的关键词,因此,能够解决现有技术中因遗漏较多违规词及难以识别伪装词造成的识别网页违规的准确率较低的问题,提高基于关键词进行不良文本检测的准确率。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为基于关键词的不良文本检测方法的流程图;
图2为基于关键词的不良文本检测装置的结构框图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
实施例一
本实施例提供一种基于关键词的不良文本检测方法,可由具有信息处理功能的计算机、网络服务器等执行。不良文本是指含有涉黄、涉赌及涉毒等违规的不良信息的文本内容。关键词是检测人员为进行不良文本检测而预先获取的、具有不良信息或敏感信息的词语,例如“性爱”等违规词。作为本发明的一个应用场景,在本实施例中,网络服务器根据本发明提供的方法,检测网络中数据流形式的网页文本。可以理解的是,为了进行检测,可将数据流形式的网页文本还原为自然语言形式的网页文本。以下,对本实施例提供的基于关键词的不良文本检测方法进行说明。
图1为实施例一提供的基于关键词的不良文本检测方法流程图。如图1所示,所述方法包括如下步骤:
S0、获取多个种子词,种子词为用于表征不良信息的词语。
如上所述,为了进行检测,需预先准备关键词。而为了提高基于关键词进行不良文本检测的准确率,需准备全面的关键词。所谓全面,是指关键词的数量足够庞大,能够涵盖绝大部分违规词。为了获得全面或趋于全面的关键词,本发明采用这样的方式:预先准备一部分关键词作为种子词,并根据种子词进行自动扩展得到更全面的关键词。也就是说,顾名思义,种子词作为种子使用,通过对种子进行信息处理,衍生出更多的关键词。种子词实质上是关键词的一部分,同样用于表征不良信息。
在此步骤中,网络服务器可从其他设备获取种子词,或者直接接收检测人员输入的种子词。在兼顾为获取或接收种子词所需耗费的资源或人力不过大的前提下,种子词的数量优选越多越好。需要说明的是,现有技术中为了尽可能取得全面的关键词,需要检测人员竭尽所能地标记、获取关键词。虽然这种方式有可能取得较多的关键词,但需要耗费了巨大的资源及人力,并且,相对于变化多样、数量庞大的关键词库,通过人力获取的关键词的数量毕竟有限。与此相对,在本步骤中,对于作为种子词的关键词,可进行适度的获取,这种适度以所耗费的资源及人力合理为限。也就是说,相对于现有技术,本步骤中能够节约为获取关键词的资源及人力。
在一种可选的实现方式中,网络服务器可分门别类地获取或接收种子词,即,网络服务器可对获取的种子词进行分类。举例而言,网络服务器可分别按照涉黄、涉赌及涉毒的类型,获取涉黄种子词、涉赌种子词及涉毒种子词。涉黄种子词例如包括性爱等,涉赌种子词例如包括六合彩、百家乐等,涉毒种子词例如包括K粉、摇头丸等。
S1、根据语义聚类法对种子词进行扩展,得到与种子词语义关联的语义关联词,以种子词和语义关联词作为用于检测不良文本的关键词。
在本发明中,语义聚类法是指,使用少量的关键词作为种子词,以种子词为标杆将与其语义相近或关联的词聚类在一起,从而自动扩展关键词的总量。
在此,对通过对种子进行信息处理衍生出更多关键词的过程进行说明。假定种子词为N个,N为整数且N≥2。步骤S1具体可分为步骤S11~S14。
S11、获取含有不良信息的训练文档,将训练文档中的每个词转换为词向量形式的待训练词向量,并将种子词转换为词向量形式的种子词向量。
作为拓展关键词的训练资料,需准备含有不良信息的文档,称为训练文档。例如,一篇被判定为涉黄的文档,其中含有违规词,此外,还含有其他非违规词。
为了对训练文档中的词语与关键词之间语义是否相近或关联进行判断,本实施例采用了词向量及余弦距离。词向量是指,通过训练将某种语言中的每一个词语映射成一个固定长度(即固定维度)的向量。例如,一个词可以被映射成一个M(M为整数且M≥2)维向量Wi:
Wi=(V1,V2,...,VM),其中,V1、V1、……、VM为在各维上的值。
每个词都转换为唯一的词向量,所有词向量构成一个词向量空间。像这样地,将一个词语转换为具有某一固定维度的模型,可称为词向量模型。
对于词向量模型,可使用Google公司提供的word2vec工具。word2vec是Google在2013年开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。与潜在语义分析(Latent Semantic Index,LSI)、潜在狄立克雷分配(Latent DirichletAllocation,LDA)的经典过程相比,word2vec利用了词的上下文,语义信息更加地丰富。
S12、计算每个待训练词向量与每个种子词向量之间的余弦距离。
余弦距离也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。两个向量之间的夹角越大,它们之间的余弦距离越大,反之越小。若两个向量的方向趋于一致,即夹角接近零,那么这两个向量的余弦距离趋于零。由于词向量是根据自然语言的词法、语义进行映射得到的,因此,余弦距离能够表征两个词向量各自对应的词语在词法、语义上的关联性。余弦距离越小,两个词语在语义上越相近或关联。
在本步骤中,为了确定训练文本中哪些词语与种子词在语义上关联,首先需要分别计算训练文本中的每个词语转换为待训练词向量后每个待训练词向量与每个种子词向量之间的余弦距离。具体地,令N个种子词对应的词向量分别为S1、S2、……、SN,训练文本中的词语对应的待训练词向量分别为W1、W2、W3、……。在本步骤中,对于种子词向量S1,计算它与各个待训练词向量之间的余弦距离,即D11=CosinDistance(S1,W1)、D12=CosinDistance(S1,W2)、D13=CosinDistance(S1,W3)……。对于种子词向量S2,计算它与各个待训练词向量之间的余弦距离,即D21=CosinDistance(S2,W1)、D22=CosinDistance(S2,W2)、D23=CosinDistance(S2,W3)……。对于种子词向量SN,计算它与各个待训练词向量之间的余弦距离,即DN1=CosinDistance(SN,W1)、DN2=CosinDistance(SN,W2)、DN3=CosinDistance(SN,W3)……。从而得到每个待训练词向量与每个种子词向量之间的余弦距离:
Dij=Co sin Dis tan ce(Si,Wj)。
S13、在词向量空间中,以N个种子词向量作为初始质心,利用K-means聚类算法对待训练词向量进行聚类,得到K个词向量簇,每个词向量簇分别具有一个聚类质心。
在确定每个待训练词向量与每个种子词向量之间的余弦距离之后,为了高效快捷地确定与种子词向量对应的种子词的语义关联词,在本步骤中,采用K-means聚类算法对待训练词向量进行聚类。
具体地,首先选取N个种子词向量作为初始质心,利用步骤S12中计算得到的余弦距离进行第一轮聚类:对于某一初始质心,使余弦距离距该初始质心比距其他质心都要小的待训练词向量聚成一类;对于其他另外每个初始质心同样进行类似的聚类处理。经过第一轮聚类后,得到至多N个词向量簇(由于存在这样的初始质心,任意一个待训练词向量距该初始质心的余弦距离都要大于距其他初始质心的余弦距离,因此没有待训练词向量聚类到该初始质心下,因此,存在词向量簇的个数K小于或等于种子词向量个数N的情况。以下,以K个词向量簇进行说明,其中K为正整数且K≤N)。每个词向量簇分别具有一个质心,可称为第一轮聚类质心。
接着,又可根据K个第一轮聚类质心进行第二轮聚类,经过第二轮聚类之后,得到的K个词向量簇更加集中,同时对应K个第二轮聚类质心。接着,可重复上述过程,进行第三次、第四次乃至更多次的聚类。当某一轮聚类质心与其前一轮的聚类质心之间的变化小于预先设定的值,可停止K-means聚类算法,最终得到聚类质心稳定的K个词向量簇。
S14、对于聚类质心距种子词向量的余弦距离最小的词向量簇,确定其中的待训练词向量对应的词,并将所确定的词作为与该种子词向量对应的种子词的语义关联词。
在此步骤中,根据步骤S13所得到的K个词向量簇,进行种子词的语义关联词的判断。具体地,对于每个词向量簇,重新计算其聚类质心距每个种子词向量的余弦距离。然后,对于某个词向量簇,判断其聚类质心距哪个种子词向量的余弦距离最小,并记录该词向量簇与该种子词向量之间余弦距离最小的对应关系。对于其他每个词向量簇,进行类似的判断,得到每个词向量簇及与其余弦距离最小的种子词向量之间的对应关系。最后,根据上述余弦距离最小的对应关系,将词向量簇中的所有待训练词向量所对应的词语,作为对应的种子词向量所对应的种子词的语义关联词。
据此,完成了根据语义聚类法将种子词扩展为语义关联词得到包括种子词和语义关联词在内的关键词的过程。
需要说明的是,在上述说明中对根据步骤S11至S14的处理能够扩展关键词的数量,这包括两方面的含义。具体地,如背景技术部分所述,一方面,违规词的基数庞大;另一方面,违规词的伪装词也五花八门。在本实施例中,关键词的扩展一方面包括违规词的拓展,另一方面还包括违规词的伪装词的拓展。所谓违规词的拓展,是指不考虑伪装词的情况下的拓展;而违规词的伪装词的拓展,是指在违规词的基础上拓展其伪装词。举例而言,对于涉毒违规词,假设已标记的种子词为“六合彩”、“百家乐”,但是未标记“时时彩”、“老虎机”等,根据种子词“六合彩”、“百家乐”拓展得到“时时彩”、“老虎机”等属于违规词的拓展。而涉黄违规词,假设已标记的种子词为“性爱”,但是未标记“悻愛”、“性噯⌒”、“狌暧”等,根据种子词“性爱”拓展得到“悻愛”、“性噯⌒”、“狌暧”等则属于违规词的伪装词的拓展。
由此可见,根据本发明提供的基于关键词的不良文本检测方法,既能够避免遗漏过多违规词,又能够识别违规词的伪装词。
另外,如步骤S0所述,网络服务器可对获取的种子词进行分类。对应地,在步骤S1中,可对于每种类型的种子词,分别根据语义聚类法进行扩展得到与该种类型的种子词语义关联的语义关联词,以该种类型的种子词及其语义关联词作为用于检测该种类型的不良文本的关键词。即,对于每种类型的种子词,分别进行上述步骤S11至S14。
S2、在网页文本在宽带环境中传输的情况下,统计每个网页文本中关键词的出现次数,并根据出现次数确定属于不良文本的网页文本。
在根据步骤S1拓展用于检测不良文本的关键词后,可根据拓展的关键词对网页文本中的词语进行检测。具体地,步骤S2可分为步骤S21~S22。
S21、统计每个网页文本中关键词的出现次数,并判断出现次数是否超出阈值。
对于作为待检测的对象,在利用网络服务器对网络中传输的内容进行检测的情况下,其一般为数据流形式的网页代码,为了进行关键词出现次数的统计,需将数据流形式的网页代码还原为自然语言形式的网页文本。因此,在执行步骤S21之前,对应于数据流形式的网页代码先进行网页文本还原。网页文本还原属于现有技术中较为成熟的技术,本发明对采用何种还原技术不做限定。
在得到自然语言形式的网页文本后,提取文本中的每个特征词,然后,逐一比较网页文本中的特征词是否与某一关键词相同,每当一个特征词与某一关键词相同时,计数一次。对网页文本中的每个特征词重复上述比较,得到整个网页文本中关键词出现的次数,即总出现次数。
接着,对于每篇网页文本,将其对应的关键词的总出现次数与一个阈值进行比较,判断其是否超出该阈值。在此,阈值是用于衡量一篇网页文本中关键词出现的总次数到达何种程度时可以被判定为不良文本的标准,具体可为检测人员根据实际情况进行设置的一个数量。
S22、当出现次数超出阈值时,初步判断网页文本为不良文本。
一般地,当某个网页文本中关键词的出现次数超出了阈值时,即可判断该网页文本为不良文本,并进行进一步处理,例如,实时地阻止该不良文本的网络数据流的传输或封锁其网页。具体地,可利用如下公式:
其中,p表示网页,c表示类别,np是网页p中特征词的个数,Mc,i是类别c中第i个关键词出现的次数。
如果E(p,c)>λ,则认为网页p属于c类违规,其中E(p,c)为某一网页文本中关键词的出现次数,λ为阈值。
在本发明中,根据拓展的关键词进行检测能够简单高效地确定属于不良文本的网页文本。与此相对,现有技术中还存在通过语义分析方法来对整个文档使用语义分析技术以进行判断的方法,这种方法虽然能够保证较高的准确率,但由于语义分析技术过于复杂,会增加额外的在线计算开销,同时监管部门通常还需要安排专人对机器检测的结果进行审核,需人工参与的工作量较大。然而,对监管部门而言,如何快速稳定的处理高带宽下用户访问的网页信息里是否包含不良信息,尽量减少人工参与的工作量,才是最为关注的重点。对于这一问题,本发明所提供的基于关键词的不良文本检测方法具有简单高效的特点,因此适用于在高带宽传输环境下进行不良文本检测这一场景。
在本实施例中,为了更准确地判断不良文本,步骤S2还可包括为步骤S23~S24。
S23、显示被初步判断为不良文本的网页文本。
对于被初步判断为不良文本的网页文本,网络服务器可控制显示器使其显示这些网页文本,据此,检测人员可观察被初步判断为不良文本的网页文本。
S24、接收检测人员输入的、表示被初步判断为不良文本的网页文本属于不良文本的指示,并根据指示,确定被初步判断为不良文本的网页文本属于不良文本。
通过观察、阅读,检测人员能够确定被初步判断为不良文本的网页文本是否真为不良文本。然后,检测人员可向网络服务器输入自身的确定结果,即输入用于表示被初步判断为不良文本的网页文本是否属于不良文本的指示。当该网页文本确为不良文本时,输入用于表示被初步判断为不良文本的网页文本属于不良文本的指示;当该网页文本被误判为不良文本时,输入用于表示被初步判为不良文本的网页文本并非不良文本的指示。
基于检测人员输入的指示,网络服务器可从被初步判断为不良文本的网页文本中,进一步确定真正属于不良文本的网页文本。
这种将自动判断(步骤S21~S22)与人工判断(步骤S23~S24)结合起来的不良文本检测方式,能够显著提高不良文本检测的效率与准确率。其中,由于步骤S21~S22中的自动判断已经筛选掉了大部分不属于不良文本的网页文本,因此,步骤S23~S24中人工判断的工作量得以大大缩减,效率得以显著提高,而人工判断能够弥补自动判断的智能性限制,因而准确率得以显著提高。
需要说明的是,这种在自动判断的基础上结合人工判断的检测方式,尤其适用于基于关键词的不良文本检测方法的初始实现阶段。在此,所谓初始实现阶段不是指步骤S0~S2中靠前的步骤,而是指在该检测方法的整个过程一次次地实现过程中靠前的若干次实现过程。例如,对于成千上万的待检测网页文本,使用该检测方法对开始的前几篇、前几十篇甚至前几百篇进行检测的过程,可称为该检测方法的初始实现阶段。这是因为,基于关键词的不良文本检测方法需要一定的试用、调试、学习期间,才能取得较为稳定、准确的结果。
在本实施例的一个更具体的实现方式中,在步骤S11中,具体地,网络服务器可获取步骤S2中被确定为不良文本的网页文本。在此,步骤S2中被确定为不良文本的网页文本可为步骤S21~S22中自动判断得到的被确定为不良文本的网页文本,还可为步骤S23~S24中人工判断得到的被确定为不良文本的网页文本。
也就是说,在本实施例中,作为拓展关键词训练资料的训练文档,除了检测人员人工获取外,还可采用网络服务器自身判断得到的。一方面,能够减少检测人员为获取及输入训练文档所需耗费的工作量;另一方面,由于网络服务器自身判断得到的不良文本的数量庞大、种类繁多,且这些不良文本含有较多的与种子词语义关联的不良词语及敏感词语,因此,以这些不良文本作为训练文档能够扩展得到更多的语义关联词(步骤S11~S14),从而能够进一步优化基于关键词的不良文本检测方法,进一步提高不良文本检测的准确率。
需要说明的是,在基于关键词的不良文本检测方法的初始实现阶段,步骤S11中网络服务器优选步骤S23~S24中人工判断得到的被确定为不良文本的网页文本,这是因为,人工判断的判断准确率高,因而使用人工判断得到的不良文本进行语义关联词扩展,能够取得更加优化的扩展结果。
在本实施例的一个更具体的实现方式中,步骤S0、步骤S1在离线模式下进行,而仅步骤S2在在线模式下进行。如上所述,在现有技术中,由于通过语义分析方法来对整个文档使用语义分析技术以进行判断的方法在在线模式下进行,因此,在线开销大,检测效率低下。与此相对,在本实施例中,由于步骤S0、步骤S1所对应的训练过程不需要网络的参与,在离线模式下进行能够避免额外的在线处理开销,提高检测效率。
由上可知,根据实施例一提供的基于关键词的不良文本检测方法,由于能够根据较少的种子词自动拓展得到较为全面的关键词,因此,能够解决现有技术中因遗漏较多违规词及难以识别伪装词造成的识别网页违规的准确率较低的问题,提高基于关键词进行不良文本检测的准确率。
实施例二
对应于实施例一提供的基于关键词的不良文本检测方法,实施例二提供的一种基于关键词的不良文本检测装置。该装置具体可为具有信息处理功能的计算机、网络服务器等。如图2所示,基于关键词的不良文本检测装置100包括:
种子词获取单元101,其用于获取多个种子词,种子词为用于表征不良信息的词语;
语义关联词扩展单元102,其用于根据语义聚类法对种子词获取单元101获取的种子词进行扩展,得到与种子词语义关联的语义关联词,以种子词和语义关联词作为用于检测不良文本的关键词;
不良文本判断单元103,其在网页文本在宽带环境中传输的情况下,统计每个网页文本中语义关联词扩展单元102得到的关键词的出现次数,并根据出现次数确定属于不良文本的网页文本。
在实施例二的一个更具体的实现方式中,种子词为N个,N为整数且N≥2,语义关联词扩展单元102具体用于:
获取含有不良信息的训练文档;
将训练文档中的每个词转换为词向量形式的待训练词向量,并将种子词获取单元101获取的种子词转换为词向量形式的种子词向量,待训练词向量与种子词向量位于同一词向量空间中;
计算每个待训练词向量与每个种子词向量之间的余弦距离;
在词向量空间中,以N个种子词向量作为初始质心,利用K-means聚类算法对待训练词向量进行聚类,得到K个词向量簇,每个K个词向量簇分别具有一个聚类质心,其中K为正整数且K≤N;
对聚类质心距种子词向量的余弦距离最小的词向量簇,确定其中的待训练词向量对应的词,并将所确定的词作为与该种子词向量对应的种子词的语义关联词。
在实施例二的另一个更具体的实现方式中,语义关联词扩展单元102具体用于:获取在不良文本判断单元103中被确定为不良文本的网页文本。
在实施例二的另一个更具体的实现方式中,不良文本判断单元103具体用于:统计每个网页文本中语义关联词扩展单元102得到的关键词的出现次数;判断出现次数是否超出阈值;在出现次数超出阈值时,初步判断网页文本为不良文本;显示被初步判断为不良文本的网页文本;接收检测人员输入的、表示被初步判断为不良文本的网页文本属于不良文本的指示,并根据该指示,确定被初步判断为不良文本的网页文本属于不良文本。
由于实施例一中已经对基于关键词的不良文本检测装置所进行的处理进行了说明,在此,不再进行赘述。同样地,根据本实施例提供的基于关键词的不良文本检测装置,由于能够根据较少的种子词自动拓展得到较为全面的关键词,因此,能够解决现有技术中因遗漏较多违规词及难以识别伪装词造成的识别网页违规的准确率较低的问题,提高基于关键词进行不良文本检测的准确率。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种基于关键词的不良文本检测方法,其特征在于,包括如下步骤:
S0、获取多个种子词,所述种子词为用于表征不良信息的词语;
S1、根据语义聚类法对所述种子词进行扩展,得到与所述种子词语义关联的语义关联词,以所述种子词和所述语义关联词作为用于检测不良文本的关键词;
S2、在网页文本在宽带环境中传输的情况下,统计每个网页文本中所述关键词的出现次数,并根据所述出现次数确定属于不良文本的网页文本。
2.根据权利要求1所述的方法,其特征在于,所述种子词为N个,N为整数且N≥2,所述步骤S1具体包括:
S11、获取含有不良信息的训练文档,将所述训练文档中的每个词转换为词向量形式的待训练词向量,并将所述种子词转换为词向量形式的种子词向量,所述待训练词向量与所述种子词向量位于同一词向量空间中;
S12、计算每个所述待训练词向量与每个所述种子词向量之间的余弦距离;
S13、在所述词向量空间中,以N个所述种子词向量作为初始质心,利用K-means聚类算法对所述待训练词向量进行聚类,得到K个词向量簇,每个所述词向量簇分别具有一个聚类质心,其中K为正整数且K≤N;
S14、对于所述聚类质心距所述种子词向量的余弦距离最小的所述词向量簇,确定其中的所述待训练词向量对应的词,并将所确定的词作为与该种子词向量对应的所述种子词的所述语义关联词。
3.根据权利要求2所述的方法,其特征在于,所述步骤S11中的所述获取含有不良信息的训练文档具体包括:
获取所述步骤S2中被确定为不良文本的所述网页文本。
4.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括:
S21、统计每个网页文本中所述关键词的出现次数,并判断所述出现次数是否超出阈值;
S22、当所述出现次数超出所述阈值时,初步判断所述网页文本为不良文本;
S23、显示被初步判断为不良文本的所述网页文本;
S24、接收检测人员输入的、表示被初步判断为不良文本的所述网页文本属于不良文本的指示,并根据所述指示,确定被初步判断为不良文本的所述网页文本属于不良文本。
5.根据权利要求1所述的方法,其特征在于,所述步骤S0还包括:
对获取的多个所述种子词进行分类;
所述步骤S1具体包括:对于每种类型的所述种子词,分别根据语义聚类法进行扩展得到与该种类型的所述种子词语义关联的语义关联词,以该种类型的所述种子词及其所述语义关联词作为用于检测该种类型的不良文本的关键词。
6.根据权利要求1至5任一项所述的方法,其特征在于,
所述步骤S0、步骤S1在离线模式下进行,所述步骤S2在在线模式下进行。
7.一种基于关键词的不良文本检测装置,其特征在于,包括:
种子词获取单元,其用于获取多个种子词,所述种子词为用于表征不良信息的词语;
语义关联词扩展单元,其用于根据语义聚类法对所述种子词获取单元获取的种子词进行扩展,得到与所述种子词语义关联的语义关联词,以所述种子词和所述语义关联词作为用于检测不良文本的关键词;
不良文本判断单元,其在网页文本在宽带环境中传输的情况下,统计每个网页文本中所述语义关联词扩展单元得到的关键词的出现次数,并根据所述出现次数确定属于不良文本的网页文本。
8.根据权利要求7所述的装置,其特征在于,所述种子词为N个,N为整数且N≥2,所述语义关联词扩展单元具体用于:
获取含有不良信息的训练文档;
将所述训练文档中的每个词转换为词向量形式的待训练词向量,并将所述种子词获取单元获取的种子词转换为词向量形式的种子词向量,所述待训练词向量与所述种子词向量位于同一词向量空间中;
计算所述每个所述待训练词向量与每个所述种子词向量之间的余弦距离;
在所述词向量空间中,以N个所述种子词向量作为初始质心,利用K-means聚类算法对所述待训练词向量进行聚类,得到K个词向量簇,每个所述K个词向量簇分别具有一个聚类质心,其中K为正整数且K≤N;
对所述聚类质心距所述种子词向量的余弦距离最小的所述词向量簇,确定其中的所述待训练词向量对应的词,并将所确定的词作为与该种子词向量对应的所述种子词的所述语义关联词。
9.根据权利要求8所述的装置,其特征在于,
所述语义关联词扩展单元具体用于:获取在所述不良文本判断单元中被确定为不良文本的所述网页文本。
10.根据权利要求7所述的装置,其特征在于,所述不良文本判断单元具体用于:
统计每个网页文本中所述语义关联词扩展单元得到的关键词的出现次数;
判断所述出现次数是否超出阈值;
在所述出现次数超出所述阈值时,初步判断所述网页文本为不良文本;
显示被初步判断为不良文本的所述网页文本;
接收检测人员输入的、表示被初步判断为不良文本的所述网页文本属于不良文本的指示,并根据所述指示,确定被初步判断为不良文本的所述网页文本属于不良文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510863334.6A CN106815200A (zh) | 2015-11-30 | 2015-11-30 | 基于关键词的不良文本检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510863334.6A CN106815200A (zh) | 2015-11-30 | 2015-11-30 | 基于关键词的不良文本检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106815200A true CN106815200A (zh) | 2017-06-09 |
Family
ID=59108212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510863334.6A Pending CN106815200A (zh) | 2015-11-30 | 2015-11-30 | 基于关键词的不良文本检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106815200A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197098A (zh) * | 2017-11-22 | 2018-06-22 | 阿里巴巴集团控股有限公司 | 一种关键词组合策略的生成及关键词扩展方法、装置和设备 |
CN108563713A (zh) * | 2018-03-29 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 关键词规则生成方法及装置和电子设备 |
CN109447469A (zh) * | 2018-10-30 | 2019-03-08 | 阿里巴巴集团控股有限公司 | 一种文本检测方法、装置及设备 |
CN109819128A (zh) * | 2019-01-23 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种电话录音的质检方法和装置 |
CN109829043A (zh) * | 2018-12-28 | 2019-05-31 | 广州华多网络科技有限公司 | 词性确认方法、装置、电子设备及存储介质 |
CN109871426A (zh) * | 2018-12-18 | 2019-06-11 | 国网浙江桐乡市供电有限公司 | 一种涉密数据的监测识别方法 |
CN109886683A (zh) * | 2019-02-25 | 2019-06-14 | 北京神荼科技有限公司 | 监控区块链数据的方法、装置以及存储介质 |
CN109918921A (zh) * | 2018-12-18 | 2019-06-21 | 国网浙江桐乡市供电有限公司 | 一种网络通信数据涉密检测方法 |
CN110048936A (zh) * | 2019-04-18 | 2019-07-23 | 合肥天毅网络传媒有限公司 | 一种语义关联词判断垃圾邮件的方法 |
CN111274822A (zh) * | 2018-11-20 | 2020-06-12 | 华为技术有限公司 | 语义匹配方法、装置、设备及存储介质 |
CN111859013A (zh) * | 2020-07-17 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102170640A (zh) * | 2011-06-01 | 2011-08-31 | 南通海韵信息技术服务有限公司 | 基于模式库的智能手机端不良内容网站鉴别方法 |
CN102201048A (zh) * | 2010-03-24 | 2011-09-28 | 日电(中国)有限公司 | 对文档集合进行主题级别隐私保护的方法和系统 |
CN102523130A (zh) * | 2011-12-06 | 2012-06-27 | 中国科学院计算机网络信息中心 | 不良网页检测方法及装置 |
CN102905236A (zh) * | 2011-07-27 | 2013-01-30 | 华为技术有限公司 | 一种垃圾短消息监控方法、装置及系统 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
-
2015
- 2015-11-30 CN CN201510863334.6A patent/CN106815200A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102201048A (zh) * | 2010-03-24 | 2011-09-28 | 日电(中国)有限公司 | 对文档集合进行主题级别隐私保护的方法和系统 |
CN102170640A (zh) * | 2011-06-01 | 2011-08-31 | 南通海韵信息技术服务有限公司 | 基于模式库的智能手机端不良内容网站鉴别方法 |
CN102905236A (zh) * | 2011-07-27 | 2013-01-30 | 华为技术有限公司 | 一种垃圾短消息监控方法、装置及系统 |
CN102523130A (zh) * | 2011-12-06 | 2012-06-27 | 中国科学院计算机网络信息中心 | 不良网页检测方法及装置 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
Non-Patent Citations (1)
Title |
---|
杜慧平等: "《自然语言叙词表自动构建研究》", 31 December 2009, 东南大学出版社 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197098A (zh) * | 2017-11-22 | 2018-06-22 | 阿里巴巴集团控股有限公司 | 一种关键词组合策略的生成及关键词扩展方法、装置和设备 |
CN108197098B (zh) * | 2017-11-22 | 2021-12-24 | 创新先进技术有限公司 | 一种关键词组合策略的生成及关键词扩展方法、装置和设备 |
CN108563713B (zh) * | 2018-03-29 | 2021-08-10 | 创新先进技术有限公司 | 关键词规则生成方法及装置和电子设备 |
CN108563713A (zh) * | 2018-03-29 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 关键词规则生成方法及装置和电子设备 |
CN109447469A (zh) * | 2018-10-30 | 2019-03-08 | 阿里巴巴集团控股有限公司 | 一种文本检测方法、装置及设备 |
CN109447469B (zh) * | 2018-10-30 | 2022-06-24 | 创新先进技术有限公司 | 一种文本检测方法、装置及设备 |
CN111274822A (zh) * | 2018-11-20 | 2020-06-12 | 华为技术有限公司 | 语义匹配方法、装置、设备及存储介质 |
CN109918921B (zh) * | 2018-12-18 | 2023-02-17 | 国网浙江桐乡市供电有限公司 | 一种网络通信数据涉密检测方法 |
CN109871426A (zh) * | 2018-12-18 | 2019-06-11 | 国网浙江桐乡市供电有限公司 | 一种涉密数据的监测识别方法 |
CN109918921A (zh) * | 2018-12-18 | 2019-06-21 | 国网浙江桐乡市供电有限公司 | 一种网络通信数据涉密检测方法 |
CN109871426B (zh) * | 2018-12-18 | 2021-08-10 | 国网浙江桐乡市供电有限公司 | 一种涉密数据的监测识别方法 |
CN109829043A (zh) * | 2018-12-28 | 2019-05-31 | 广州华多网络科技有限公司 | 词性确认方法、装置、电子设备及存储介质 |
CN109829043B (zh) * | 2018-12-28 | 2021-07-20 | 广州华多网络科技有限公司 | 词性确认方法、装置、电子设备及存储介质 |
CN109819128A (zh) * | 2019-01-23 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种电话录音的质检方法和装置 |
CN109886683A (zh) * | 2019-02-25 | 2019-06-14 | 北京神荼科技有限公司 | 监控区块链数据的方法、装置以及存储介质 |
CN110048936B (zh) * | 2019-04-18 | 2021-09-10 | 宁波青年优品信息科技有限公司 | 一种语义关联词判断垃圾邮件的方法 |
CN110048936A (zh) * | 2019-04-18 | 2019-07-23 | 合肥天毅网络传媒有限公司 | 一种语义关联词判断垃圾邮件的方法 |
CN111859013A (zh) * | 2020-07-17 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106815200A (zh) | 基于关键词的不良文本检测方法及装置 | |
Ahmed et al. | Detection of online fake news using n-gram analysis and machine learning techniques | |
Shwartz et al. | Hypernyms under siege: Linguistically-motivated artillery for hypernymy detection | |
CN108647309B (zh) | 基于敏感词的聊天内容审核方法及系统 | |
Hartson et al. | Criteria for evaluating usability evaluation methods | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN100485684C (zh) | 文本内容过滤方法和系统 | |
Bentivogli et al. | SICK through the SemEval glasses. Lesson learned from the evaluation of compositional distributional semantic models on full sentences through semantic relatedness and textual entailment | |
CN106611052A (zh) | 文本标签的确定方法及装置 | |
CN106202211A (zh) | 一种基于微博类型的集成微博谣言识别方法 | |
CN106997341B (zh) | 一种创新方案匹配方法、装置、服务器及系统 | |
CN106446070B (zh) | 一种基于专利群的信息处理装置及方法 | |
CN107977575A (zh) | 一种基于私有云平台的代码组成分析系统和方法 | |
CN104077396A (zh) | 一种钓鱼网站检测方法及装置 | |
Zhong et al. | Overview of CAIL2018: Legal judgment prediction competition | |
CN106227756A (zh) | 一种基于情感分类的股票指数预测方法及系统 | |
KR20180072167A (ko) | 유사특허 추출 시스템 및 그 방법 | |
CN109922065A (zh) | 恶意网站快速识别方法 | |
WO2020122487A1 (ko) | 기업 부도 예측 시스템 및 이의 동작 방법 | |
CN110009224A (zh) | 嫌疑人违规概率预测方法、装置、计算机设备及存储介质 | |
CN102880631A (zh) | 一种基于双层分类模型的中文作者识别方法及其装置 | |
Usino et al. | Document similarity detection using k-means and cosine distance | |
CN110347701A (zh) | 一种面向实体检索查询的目标类型标识方法 | |
CN112052424A (zh) | 一种内容审核方法及装置 | |
Pinnaparaju et al. | Identifying Fake News Spreaders in Social Media. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170609 |
|
RJ01 | Rejection of invention patent application after publication |