CN107239440B - 一种垃圾文本识别方法和装置 - Google Patents

一种垃圾文本识别方法和装置 Download PDF

Info

Publication number
CN107239440B
CN107239440B CN201710273503.XA CN201710273503A CN107239440B CN 107239440 B CN107239440 B CN 107239440B CN 201710273503 A CN201710273503 A CN 201710273503A CN 107239440 B CN107239440 B CN 107239440B
Authority
CN
China
Prior art keywords
text
probability
features
semantic
junk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710273503.XA
Other languages
English (en)
Other versions
CN107239440A (zh
Inventor
斯义谱
郑侃侃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Bodun Xiyan Technology Co.,Ltd.
Original Assignee
Tongdun Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongdun Holdings Co Ltd filed Critical Tongdun Holdings Co Ltd
Priority to CN201710273503.XA priority Critical patent/CN107239440B/zh
Publication of CN107239440A publication Critical patent/CN107239440A/zh
Application granted granted Critical
Publication of CN107239440B publication Critical patent/CN107239440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种垃圾文本识别方法和系统,该方法和系统应用于互联网,具体为获取互联网的用户输入的文本;对文本的特征进行特征提取,得到文本的多个文本特征;利用预设的垃圾文本识别模型对用户输入的文本进行识别,得到文本的垃圾概率。通过用户输入的文本的垃圾概率和一定的预设标准可以确定出该文本是否为垃圾文本,并可进一步对判定的垃圾文本采取一定的预防措施,从而能够避免垃圾文本对互联网的健康发展带来不利影响。

Description

一种垃圾文本识别方法和装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种垃圾文本息识别方法和装置。
背景技术
随着现在通信技术的迅猛发展和互联网的普及,在带给用户更多方便的同时,垃圾文本问题也充斥着人们的视野。具体来说,一些不良用户在互联网上发布大量涉政、涉黄、涉赌、虚假广告、不文明用语等垃圾信息,给互联网的健康发展带来严重的不利影响。因此,有必要对互联网上的垃圾文本进行识别,以便对这些垃圾文本进行过滤或者删除。
发明内容
有鉴于此,本发明提供了一种垃圾文本识别方法和装置,用于对用户上传的文本是否垃圾文本进行识别,以避免垃圾文本对互联网的健康发展带来不利影响。
为了解决上述问题,本发明公开了一种垃圾文本识别方法,应用于互联网,所述方法具体包括步骤:
获取互联网的用户输入的文本;
对所述文本的特征进行特征提取,得到所述文本的多个文本特征;
利用预设的垃圾文本识别模型对所述文本特征进行识别,得到所述文本的垃圾概率。
优选的,所述对所述文本的特征进行特征提取,包括:
利用预先构建的语料库、停用词表、关键词表和变异词表对所述文本进行特征提取,得到所述多个文本特征。
优选的,所述关键词表的构建方法包括如下步骤:
根据所述语料库对所述文本进行分词处理,并统计所述分词处理得到的每个词或字符所出现的频次;
将通过分词处理提取出的各个类别的词、字符和词组合作为关键词;
根据所述关键词和所述频次得到所述关键词的垃圾概率;
将所述关键词及其对应的所述垃圾概率加入预设的表格,得到所述关键词表。
优选的,所述文本特征包括语义文本特征和非语义文本特征,所述利用预设的垃圾文本识别模型对所述文本特征进行识别,包括:
将所述语义文本特征输入预设的语义特征垃圾文本识别模型进行识别,得到第一概率;
进一步,将所述非语义文本特征输入预设的非语义特征垃圾文本识别模型进行识别,得到第二概率;
对所述第一概率和所述第二概率进行综合处理,最终得到所述垃圾概率。
优选的,所述非语义特征垃圾文本识别模型为根据预设的多个关键词表、运用机器学习模型训练得到。
优选的,所述多个非语义文本特征包括关键词垃圾概率、变异词垃圾概率、标点符号占比、火星文占比、常用字占比、字符类型变换次数、实体词个数占比和连续n个及以上重复字符出现次数中的部分或全部,n为正整数。
优选的,在所述对所述文本的特征进行计算步骤之前,还包括:
对所述文本进行预处理,剔除其中无益于垃圾识别的字符。
相应的,为了保证上述方法的实施,本发明还提供了一种垃圾文本识别系统,应用于互联网,所述系统具体包括:
文本获取模块,用于获取互联网的用户输入的文本;
特征提取模块,用于对所述文本的特征进行特征提取,得到所述文本的多个文本特征;
垃圾识别模块,用于利用预设的垃圾文本识别模型对用户输入的文本进行识别,得到所述文本的垃圾概率。
优选的,所述特征提取模块包括:
文本特征提取单元,用于利用预先构建的语料库、停用词表、关键词表和变异词表对所述文本进行特征提取,得到所述多个文本特征。
优选的,所述特征提取模块还包括关键词表构建单元,所述关键词表构建单元包括:
分词处理子单元,用于根据所述语料库对所述文本进行分词处理,并统计所述分词处理得到的每个词或字符所出现的频次;
关键词归类子单元,用于将通过分词处理提取出的各个类别的词、字符和词组合作为关键词;
垃圾概率计算子单元,用于根据所述关键词和所述频次得到所述关键词的垃圾概率;
关键词表构建子单元,用于将所述关键词及其对应的所述垃圾概率加入预设的表格,得到所述关键词表。
优选的,所述文本特征包括语义文本特征和非语义文本特征,所述特征识别模块包括:
第一识别单元,用于将所述语义文本特征输入预设的语义特征垃圾文本识别模型,得到第一概率;
第二识别单元,用于进一步,将所述非语义文本特征输入预设的非语义特征垃圾文本识别模型进行识别,得到第二概率;
综合处理单元,用于对所述第一概率和所述第二概率进行综合处理,最终得到所述垃圾概率。
优选的,还包括:
模型训练模块,用于通过根据预设的多个非语义文本特征、并运用机器学习模型进行训练,得到所述非语义特征垃圾文本识别模型。
优选的,所述多个非语义文本特征包括关键词垃圾概率、变异词垃圾概率、标点符号占比、火星文占比、常用字占比、字符类型变换次数、实体词个数占比和连续n个及以上重复字符出现次数中的部分或全部,n为正整数。
优选的,还包括:
文本预处理模块,用于对所述文本进行预处理,剔除其中无益于垃圾识别的字符。
从上述技术方案可以看出,本发明提供了一种垃圾文本识别方法和系统,该方法和系统应用于互联网,具体为获取互联网的用户输入的文本;对文本的特征进行特征提取,得到文本的多个文本特征;利用预设的垃圾文本识别模型对用于输入的文本进行识别,得到文本的垃圾概率。通过用户输入的文本的垃圾概率和一定的预设标准可以确定出该文本是否为垃圾文本,并可进一步对判定的垃圾文本采取一定的预防措施,从而能够避免垃圾文本对互联网的健康发展带来不利影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种垃圾文本识别方法实施例的步骤流程图;
图2为本发明提供的另一种垃圾文本识别方法实施例的步骤流程图;
图3为本发明提供的一种垃圾文本识别系统实施例的结构框图;
图4为本发明提供的垃圾文本识别系统实施例的另一结构框图;
图5为本发明提供的另一种垃圾文本识别系统实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明提供的一种垃圾文本识别方法实施例的步骤流程图。
参照图1所示,本实施例提供的垃圾文本识别方法应用于互联网,用于在用户输入文本时对其是否垃圾文本进行判断。该识别方法具体包括如下步骤:
S101:获取互联网的用户输入的文本。
用户在使用互联网过程中,经常会利用相应网络工具的输入界面输入相应的文本,例如通过即时通软件的输入窗口、论坛或微博的回复窗口等输入文本。当用户通过相应的操作,产生发帖事件、回帖事件、评论事件、即时通讯事件、弹幕事件等事件时,获取上述事件产生的输入数据,即这里的文本。
S102:对获取的文本进行特征提取,得到多个文本特征。
在获取上述用户输入的文本后,对该文本进行特征提取,得到文本的多个文本特征,这里的文本特征包括语义文本特征和非语义文本特征。在对文本进行特征提取时,利用预先构建的语料库、停用词表、关键词表和变异词表对文本进行提前,得到上述的语义文本特征和非语义文本特征。
值得指出的是,本发明中仅选取一些典型的词汇作为上述语义文本特征。同时,由于任何一种语言都具备海量的词汇,但是词性的个数且较为有限,为此,在选取非语义文本特征时,对于词语本身的特征,我们将其词性作为非语义文本特征予以提取,而不是将其本身作为特征,这样就能够大大降低上述非语义文本特征的维度,较好地规避了维度灾难。
例如,当用户输入的文本为“我爱爸爸妈妈”,进行分词处理后可以得到“我”、“爱”、“爸爸”和“妈妈”这四个词汇,对应的词性分别为代词、动词、名词和名词,则用户传入的文本中携带有代词、动词和名词这三个非语义文本特征。
在预构相应语料库时,需预先收集大量的文本数据,并经过自动或者人工标注,给每条文本数据打上相应的标签,如涉黄、涉政、涉毒、涉赌、含不文明用语、广告、灌水等,从而得到上述的语料库。
在预构相应停用词表时,依据上述构建好的语料库,对文本进行分词处理,并统计出每个词或字符的频次,自动或人工提取出高频且无实际意义的词或字符,将提取出的词或字符做为停用词,从而构建出上述停用词表。
在预构相应关键词表时,依据上述构建的语料库,对文本进行分词处理,并统计出得到的每个词和字符出现的频次,同时用关联分析得出词组合;例如,例如对于“制造&10&气枪”,表示某一文本同时出现“制造”和“气枪”两个词,且两个词之间的距离小于10个字符,则认为该文本为垃圾文本。将上述词、字符和词组合作为关键词;进一步,依据上述词、字符和词组合的频次,得到每个词、字符和词组合的垃圾概率;从而最终将上述词、字符和词组合以及相应的垃圾概率代入预设的表格中,最终得到相应的关键词表。
在预构相应的变异词表时,依据上述构建的语料库,找出目前已经发现的关键词的形近词和同音词,确定相应的垃圾概率,从而构建出关键词的变异词表。
S103:利用预设的垃圾文本识别模型对文本特征进行识别。
鉴于上述的文本特征包括语义文本特征和非语义文本特征,因此,这里的垃圾文本识别模型分别为语义特征垃圾文本识别模型和非语义特征垃圾文本识别模型,利用相应的识别模型对分别对语义文本特征和非语义文本特征进行识别,从而最终的到用户输入的文本的垃圾概率,以供决策者根据该垃圾概率确定相应的对策。
在对用户输入的文本进行识别时,首先将语义文本特征输入上述语义特征垃圾文本识别模型进行识别,从而得到对应语义文本特征的垃圾概率,这里描述为第一概率;
然后,将非语义文本特征输入上述非语义特征垃圾文本识别模型进行识别,从而得到对应于非语义文本特征的垃圾概率,这里描述为第二概率;
在得到上述分别对应于语义文本特征和非语义文本特征的第一概率和第二概率后,通过预设的计算规律,例如直接平均或者加权平均方法,得到用户输入的文本的垃圾概率。
上述的非语义特征垃圾文本识别模型是通过利用多个非语义文本特征进行训练得到的,上述训练类似于对数学模型的训练,即将历史数据代入预设的数学模型对其进行训练,最终得到相应的模型。本发明中的非语义文本特征可达79个之多,例如:关键词垃圾概率、变异词垃圾概率、标点符号占比、火星文占比、常用字占比、字符类型变换次数、实体词个数占比和连续n个及以上重复字符出现次数,其中n为正整数,例如可选择5。
上述的关键词垃圾概率用于判断文本中关键词的垃圾概率,文本中的关键词的垃圾概率越高,则文本为垃圾文本的概率越大,具体垃圾概率的计算方法如下,且与变异词垃圾概率相似:
步骤一:匹配出用户输入的文本中所有的关键词,构建关键词集合;
{W1,W2,…,Wn}
步骤二:根据事先构建好的关键词表,找出对应的垃圾概率集合;
{Pl,P2,…,Pn}
步骤三:计算依据如下文本关键词垃圾概率公式,得到关键词垃圾概率。
Figure GDA0001341170590000071
变异词垃圾概率的作用同上述的关键词垃圾概率,即变异词的垃圾概率越高,则用户输入的文本的垃圾概率越大。其计算过程同关键词垃圾概率的过程一致,只是其中使用的词表为变异词表。
在许多灌水的文本中,标点符号的使用常常不规范,常见的情况是过多重复地使用某一个或几个标点符号。另外,在广告的文本中,不良分子为了规避现有的垃圾识别方法,常常在联系方式内容中加入无关的标点符号,例如“加扣扣2.3.5,32,1,3《7》”。因此,标点符号照壁这一特征在一定程度上能够识别用户输入的文本是否为垃圾文本。
本发明中,将字符分为汉字、字幕、数字、标点符号、其他符号等五大类。字符类型变换此时是指文本中不同类型的字符两两相互变换的总次数。计算公式如下:
Figure GDA0001341170590000081
其中Counti,j表示类型i与类型j的变换次数。
例如:在文本“加扣扣2.3.5,32,1,3《7》”中,汉字与数字的变换次数为1,数字与标点符号的变换次数为7,标点符号与数字的变换次数为6,其他两两变换的次数为0,因此,该文本的字符类型变换次数为1+7+6=14。
在实际中,灌水的文本内容常常实体词较少,即能够表达实际意义的词较少。这里的实体词包括名词、动词、形容词等在句子中有实际含义的词。
从上述技术方案中可以看出,本实施例提供了一种垃圾文本识别方法,该方法应用于互联网,具体为获取互联网的用户输入的文本;对文本的特征进行特征提取,得到文本的多个文本特征;利用预设的垃圾文本识别模型对用户输入的文本进行识别,得到文本的垃圾概率。通过用户输入的文本的垃圾概率和一定的预设标准可以确定出该文本是否为垃圾文本,并可进一步对判定的垃圾文本采取一定的预防措施,从而能够避免垃圾文本对互联网的健康发展带来不利影响。
实施例二
图2为本发明提供的另一种垃圾文本识别方法实施例的步骤流程图。
参照图2所示,本实施例提供的垃圾文本识别方法应用于互联网,用于在用户输入文本时对其是否垃圾文本进行判断。该识别方法具体包括如下步骤:
S201:获取互联网的用户输入的文本。
用户在使用互联网过程中,经常会利用相应网络工具的输入界面输入相应的文本,例如通过即时通软件的输入窗口、论坛或微博的回复窗口等输入文本。当用户通过相应的操作,产生发帖事件、回帖事件、评论事件、即时通讯事件、弹幕事件等事件时,获取上述事件产生的输入数据,即这里的文本。
S202:对获取的文本进行预处理。
通过预处理,将用户输入的文本中无益于垃圾识别的字符予以剔除,例如HTTP标签、表情符号、停用词等,通过减少需要辨识的字符能够减少整个识别所需的计算量,从而一定意义上能够提高识别效率。
S203:对获取的文本进行特征提取,得到多个文本特征。
在获取上述用户输入的文本后,对该文本进行特征提取,得到文本的多个文本特征,这里的文本特征包括语义文本特征和非语义文本特征。在对文本进行特征提取时,利用预先构建的语料库、停用词表、关键词表和变异词表对文本进行提前,得到上述的语义文本特征和非语义文本特征。
值得指出的是,本发明中仅选取一些典型的词汇作为上述语义文本特征。同时,由于任何一种语言都具备海量的词汇,但是词性的个数且较为有限,为此,在选取非语义文本特征时,对于词语本身的特征,我们将其词性作为非语义文本特征予以提取,而不是将其本身作为特征,这样就能够大大降低上述非语义文本特征的维度,较好地规避了维度灾难。
例如,当用户输入的文本为“我爱爸爸妈妈”,进行分词处理后可以得到“我”、“爱”、“爸爸”和“妈妈”这四个词汇,对应的词性分别为代词、动词、名词和名词,则用户传入的文本中携带有代词、动词和名词这三个非语义文本特征。
在预构相应语料库时,需预先收集大量的文本数据,并经过自动或者人工标注,给每条文本数据打上相应的标签,如涉黄、涉政、涉毒、涉赌、含不文明用语、广告、灌水等,从而得到上述的语料库。
在预构相应停用词表时,依据上述构建好的语料库,对文本进行分词处理,并统计出每个词或字符的频次,自动或人工提取出高频且无实际意义的词或字符,将提取出的词或字符做为停用词,从而构建出上述停用词表。
在预构相应关键词表时,依据上述构建的语料库,对文本进行分词处理,并统计出得到的每个词和字符出现的频次,同时用关联分析得出词组合;例如,例如对于“制造&10&气枪”,表示某一文本同时出现“制造”和“气枪”两个词,且两个词之间的距离小于10个字符,则认为该文本为垃圾文本。将上述词、字符和词组合作为关键词;进一步,依据上述词、字符和词组合的频次,得到每个词、字符和词组合的垃圾概率;从而最终将上述词、字符和词组合以及相应的垃圾概率代入预设的表格中,最终得到相应的关键词表。
在预构相应的变异词表时,依据上述构建的语料库,找出目前已经发现的关键词的形近词和同音词,确定相应的垃圾概率,从而构建出关键词的变异词表。
S204:利用预设的垃圾文本识别模型对文本特征进行识别。
鉴于上述的文本特征包括语义文本特征和非语义文本特征,因此,这里的垃圾文本识别模型分别为语义特征垃圾文本识别模型和非语义特征垃圾文本识别模型,利用相应的识别模型分别对语义文本特征和非语义文本特征进行识别,从而最终的到用户输入的文本的垃圾概率,以供决策者根据该垃圾概率确定相应的对策。
在对用户输入的文本进行识别时,首先将语义文本特征输入上述语义特征垃圾文本识别模型进行识别,从而得到对应语义文本特征的垃圾概率,这里描述为第一概率;
然后,将非语义文本特征输入上述非语义特征垃圾文本识别模型进行识别,从而得到对应于非语义文本特征的垃圾概率,这里描述为第二概率;
在得到上述分别对应于语义文本特征和非语义文本特征的第一概率和第二概率后,通过预设的计算规律,例如直接平均或者加权平均方法,得到用户输入的文本的垃圾概率。
上述的非语义特征垃圾文本识别模型是通过利用多个非语义文本特征进行训练得到的,上述训练类似于对数学模型的训练,即将历史数据代入预设的数学模型对其进行训练,最终得到相应的模型。本发明中的多个关键词可达79个之多,其中的关键词例如:关键词垃圾概率、变异词垃圾概率、标点符号占比、火星文占比、常用字占比、字符类型变换次数、实体词个数占比和连续n个及以上重复字符出现次数,其中n为正整数,例如可选择5。
上述的关键词垃圾概率用于判断文本中关键词的垃圾概率,文本中的关键词的垃圾概率越高,则文本为垃圾文本的概率越大。
从上述技术方案中可以看出,本实施例提供了另一种垃圾文本识别方法,该方法应用于互联网,具体为获取互联网的用户输入的文本;对文本进行预处理,剔除其中无益于垃圾识别的字符;对文本的特征进行特征提取,得到文本的多个文本特征;利用预设的垃圾文本识别模型对文本特征进行识别,得到文本的垃圾概率。通过用户输入的文本的垃圾概率和一定的预设标准可以确定出该文本是否为垃圾文本,并可进一步对判定的垃圾文本采取一定的预防措施,从而能够避免垃圾文本对互联网的健康发展带来不利影响。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例三
图3为本发明提供的一种垃圾文本识别系统实施例的结构框图。
参照图3所示,本实施例提供的垃圾文本识别系统应用于互联网,用于在用户输入文本时对其是否垃圾文本进行判断。该识别系统具体包括文本获取模块10、特征提取模块20和垃圾识别模块30。
文本获取模块用于获取互联网的用户输入的文本。
用户在使用互联网过程中,经常会利用相应网络工具的输入界面输入相应的文本,例如通过即时通软件的输入窗口、论坛或微博的回复窗口等输入文本。当用户通过相应的操作,产生发帖事件、回帖事件、评论事件、即时通讯事件、弹幕事件等事件时,获取上述事件产生的输入数据,即这里的文本。
特征提取模块用于对获取的文本进行特征提取,得到多个文本特征。
在获取上述用户输入的文本后,对该文本进行特征提取,得到文本的多个文本特征,这里的文本特征包括语义文本特征和非语义文本特征。相应的,该模块包括文本特征提取单元21,用于在对文本进行特征提取时,利用预先构建的语料库、停用词表、关键词表和变异词表对文本进行提前,得到上述的语义文本特征和非语义文本特征。
值得指出的是,本发明中仅选取一些典型的词汇作为上述语义文本特征。同时,由于任何一种语言都具备海量的词汇,但是词性的个数且较为有限,为此,在选取非语义文本特征时,对于词语本身的特征,我们将其词性作为非语义文本特征予以提取,而不是将其本身作为特征,这样就能够大大降低上述非语义文本特征的维度,较好地规避了维度灾难。
例如,当用户输入的文本为“我爱爸爸妈妈”,进行分词处理后可以得到“我”、“爱”、“爸爸”和“妈妈”这四个词汇,对应的词性分别为代词、动词、名词和名词,则用户传入的文本中携带有代词、动词和名词这三个非语义文本特征。
本模块还包括语料库构建单元(未示出)、停用词表构建单元(未示出)、关键词表构建单元22和变异词表构建单元(未示出)。
语料库构建单元用于构建语料库,在预构相应语料库时,需预先收集大量的文本数据,并经过自动或者人工标注,给每条文本数据打上相应的标签,如涉黄、涉政、涉毒、涉赌、含不文明用语、广告、灌水等,从而得到上述的语料库。
停用词表构建单元用于构建停用词表,在预构相应停用词表时,依据上述构建好的语料库,对文本进行分词处理,并统计出每个词或字符的频次,自动或人工提取出高频且无实际意义的词或字符,将提取出的词或字符作为停用词,从而构建出上述停用词表。
关键词表构建单元具体包括分词处理子单元221、关键词归类子单元222、垃圾概率计算子单元223和关键词表构建子单元224。分词处理子单元用于在预构相应关键词表时,依据上述构建的语料库,对文本进行分词处理,并统计出得到的每个词和字符出现的频次,同时用关联分析得出词组合;例如,例如对于“制造&10&气枪”,表示某一文本同时出现“制造”和“气枪”两个词,且两个词之间的距离小于10个字符,则认为该文本为垃圾文本。关键词归类子单元用于将上述词、字符和词组合作为关键词;进一步,垃圾概率计算子单元用于依据上述词、字符和词组合的频次,得到每个词、字符和词组合的垃圾概率;关键词表构建子单元用于将上述词、字符和词组合以及相应的垃圾概率代入预设的表格中,最终得到相应的关键词表。
在预构相应的变异词表时,依据上述构建的语料库,找出目前已经发现的关键词的形近词和同音词,确定相应的垃圾概率,从而构建出关键词的变异词表。
垃圾识别模块用于利用预设的垃圾文本识别模型对文本特征进行识别。
鉴于上述的文本特征包括语义文本特征和非语义文本特征,因此,这里的垃圾文本识别模型分别为语义特征垃圾文本识别模型和非语义特征垃圾文本识别模型,利用相应的识别模型分别对语义文本特征和非语义文本特征进行识别,从而最终的到用户输入的文本的垃圾概率,以供决策者根据该垃圾概率确定相应的对策。
该特征识别模块包括第一识别单元31、第二识别单元32和综合处理单元33,在对用户输入的文本进行识别时,第一识别单元用于将语义文本特征输入上述语义特征垃圾文本识别模型进行识别,从而得到对应语义文本特征的垃圾概率,这里描述为第一概率;
第二识别单元则用于将非语义文本特征输入上述非语义特征垃圾文本识别模型进行识别,从而得到对应于非语义文本特征的垃圾概率,这里描述为第二概率;
综合处理单元用于在第一识别单元和第二识别单元分别得到上述分别对应于语义文本特征和非语义文本特征的第一概率和第二概率后,通过预设的计算规律,例如直接平均或者加权平均方法,得到用户输入的文本的垃圾概率。
本发明还包括模型训练模块40,参照图4所示,模型训练模块用于通过利用多个非语义文本特征进行训练,从而得到上述的非语义特征垃圾文本识别模型,上述训练类似于对数学模型的训练,即将历史数据代入预设的数学模型对其进行训练,最终得到相应的模型。本发明中的多个关键词可达79个之多,其中的关键词例如:关键词垃圾概率、变异词垃圾概率、标点符号占比、火星文占比、常用字占比、字符类型变换次数、实体词个数占比和连续n个及以上重复字符出现次数,其中n为正整数,例如可选择5。
上述的关键词垃圾概率用于判断文本中关键词的垃圾概率,文本中的关键词的垃圾概率越高,则文本为垃圾文本的概率越大,具体的垃圾概率的计算方法如下:
步骤一:匹配出用户输入的文本中所有的关键词,构建关键词集合;
{W1,W2,…,Wn}
步骤二:根据事先构建好的关键词表,找出对应的垃圾概率集合;
{P1,P2,…,Pn}
步骤三:计算依据如下文本关键词垃圾概率公式,得到关键词垃圾概率。
Figure GDA0001341170590000141
变异词垃圾概率的作用同上述的关键词垃圾概率,即变异词的垃圾概率越高,则用户输入的文本的垃圾概率越大。其计算过程同关键词垃圾概率的过程一致,只是其中使用的词表为变异词表。
在许多灌水的文本中,标点符号的使用常常不规范,常见的情况是过多重复地使用某一个或几个标点符号。另外,在广告的文本中,不良分子为了规避现有的垃圾识别方法,常常在联系方式内容中加入无关的标点符号,例如“加扣扣2.3.5,32,1,3《7》”。因此,标点符号照壁这一特征在一定程度上能够识别用户输入的文本是否为垃圾文本。
本发明中,将字符分为汉字、字幕、数字、标点符号、其他符号等五大类。字符类型变换此时是指文本中不同类型的字符两两相互变换的总次数。计算公式如下:
Figure GDA0001341170590000151
其中Counti,j表示类型i与类型j的变换次数。
例如:在文本“加扣扣2.3.5,32,1,3《7》”中,汉字与数字的变换次数为1,数字与标点符号的变换次数为7,标点符号与数字的变换次数为6,其他两两变换的次数为0,因此,该文本的字符类型变换次数为1+7+6=14。
在实际中,灌水的文本内容常常实体词较少,即能够表达实际意义的词较少。这里的实体词包括名词、动词、形容词等在句子中有实际含义的词。
从上述技术方案中可以看出,本实施例提供了一种垃圾文本识别方法,该方法应用于互联网,具体为获取互联网的用户输入的文本;对文本的特征进行特征提取,得到文本的多个文本特征;利用预设的垃圾文本识别模型对用户输入的文本进行识别,得到文本的垃圾概率。通过用户输入的文本的垃圾概率和一定的预设标准可以确定出该文本是否为垃圾文本,并可进一步对判定的垃圾文本采取一定的预防措施,从而能够避免垃圾文本对互联网的健康发展带来不利影响。
实施例四
图5为本发明提供的另一种垃圾文本识别系统实施例的结构框图。
参照图5所示,本实施例提供的垃圾文本识别系统是在上一实施例的基础上增设了文本预处理模块50。
文本预处理模块用于对文本获取模块获取的文本进行预处理。
通过该模块的预处理,将用户输入的文本中无益于垃圾识别的字符予以剔除,例如HTTP标签、表情符号、停用词等,通过减少需要辨识的字符能够减少整个识别所需的计算量,从而一定意义上能够提高识别效率。
从上述技术方案中可以看出,本实施例提供了另一种垃圾文本识别方法,该方法应用于互联网,具体为获取互联网的用户输入的文本;对文本进行预处理,剔除其中无益于垃圾识别的字符;对文本的特征进行特征提取,得到文本的多个文本特征;利用预设的垃圾文本识别模型对文本特征进行识别,得到文本的垃圾概率。通过用户输入的文本的垃圾概率和一定的预设标准可以确定出该文本是否为垃圾文本,并可进一步对判定的垃圾文本采取一定的预防措施,从而能够避免垃圾文本对互联网的健康发展带来不利影响。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种垃圾文本识别方法,应用于互联网,其特征在于,所述方法具体包括步骤:
获取互联网的用户输入的文本;
对所述文本的特征进行特征提取,得到所述文本的多个文本特征;
利用预设的垃圾文本识别模型对所述文本特征进行识别,得到所述文本的垃圾概率;
其中,所述对所述文本的特征进行特征提取,包括:
利用预先构建的语料库、停用词表、关键词表和变异词表对所述文本进行特征提取,得到所述多个文本特征;
其中,所述文本特征包括语义文本特征和非语义文本特征,所述利用预设的垃圾文本识别模型对所述文本特征进行识别,包括:
将所述语义文本特征输入预设的语义特征垃圾文本识别模型进行识别,得到第一概率;
进一步,将所述非语义文本特征输入预设的非语义特征垃圾文本识别模型进行识别,得到第二概率;
对所述第一概率和所述第二概率进行综合处理,最终得到所述垃圾概率;
所述语义文本特征仅包含典型词汇,所述非语义文本特征包括关键词垃圾概率、变异词垃圾概率、标点符号占比、火星文占比、常用字占比、字符类型变换次数、实体词个数占比和连续n个及以上重复字符出现次数中的部分或全部,n为正整数。
2.如权利要求1所述的垃圾文本识别方法,其特征在于,所述关键词表的构建方法包括如下步骤:
根据所述语料库对所述文本进行分词处理,并统计所述分词处理得到的每个词或字符所出现的频次;
将通过分词处理提取出的各个类别的词、字符和词组合作为关键词;
根据所述关键词和所述频次得到所述关键词的垃圾概率;
将所述关键词及其对应的所述垃圾概率加入预设的表格,得到所述关键词表。
3.如权利要求2所述的垃圾文本识别方法,其特征在于,所述非语义特征垃圾文本识别模型为根据非语义文本特征、运用机器学习模型训练得到。
4.如权利要求1~3任一所述的垃圾文本识别方法,其特征在于,在所述对所述文本的特征进行计算步骤之前,还包括:
对所述文本进行预处理,剔除其中无益于垃圾识别的字符。
5.一种垃圾文本识别系统,应用于互联网,其特征在于,所述系统具体包括:
文本获取模块,用于获取互联网的用户输入的文本;
特征提取模块,用于对所述文本的特征进行特征提取,得到所述文本的多个文本特征;
特征识别模块,用于利用预设的垃圾文本识别模型对所述文本特征进行识别,得到所述文本的垃圾概率;
其中,所述特征提取模块包括:
文本特征提取单元,用于利用预先构建的语料库、停用词表、关键词表和变异词表对所述文本进行特征提取,得到所述多个文本特征;
其中,所述文本特征包括语义文本特征和非语义文本特征,所述特征识别模块包括:
第一识别单元,用于将所述语义文本特征输入预设的语义特征垃圾文本识别模型进行识别,得到第一概率;
第二识别单元,用于进一步,将所述非语义文本特征输入预设的非语义特征垃圾文本识别模型进行识别,得到第二概率;
综合处理单元,用于对所述第一概率和所述第二概率进行综合处理,最终得到所述垃圾概率;
所述语义文本特征仅包含典型词汇,所述非语义文本特征包括关键词垃圾概率、变异词垃圾概率、标点符号占比、火星文占比、常用字占比、字符类型变换次数、实体词个数占比和连续n个及以上重复字符出现次数中的部分或全部,n为正整数。
6.如权利要求5所述的垃圾文本识别系统,其特征在于,所述特征提取模块还包括关键词表构建单元,所述关键词表构建单元包括:
分词处理子单元,用于根据所述语料库对所述文本进行分词处理,并统计所述分词处理得到的每个词或字符所出现的频次;
关键词归类子单元,用于将通过分词处理提取出的各个类别的词、字符和词组合作为关键词;
垃圾概率计算子单元,用于根据所述关键词和所述频次得到所述关键词的垃圾概率;
关键词表构建子单元,用于将所述关键词及其对应的所述垃圾概率加入预设的表格,得到所述关键词表。
7.如权利要求6所述的垃圾文本识别系统,其特征在于,还包括:
模型训练模块,用于通过根据预设的非语义文本特征、并运用机器学习模型进行训练,得到所述非语义特征垃圾文本识别模型。
8.如权利要求5~7任一所述的垃圾文本识别系统,其特征在于,还包括:
文本预处理模块,用于对所述文本进行预处理,剔除其中无益于垃圾识别的字符。
CN201710273503.XA 2017-04-21 2017-04-21 一种垃圾文本识别方法和装置 Active CN107239440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710273503.XA CN107239440B (zh) 2017-04-21 2017-04-21 一种垃圾文本识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710273503.XA CN107239440B (zh) 2017-04-21 2017-04-21 一种垃圾文本识别方法和装置

Publications (2)

Publication Number Publication Date
CN107239440A CN107239440A (zh) 2017-10-10
CN107239440B true CN107239440B (zh) 2021-05-25

Family

ID=59984086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710273503.XA Active CN107239440B (zh) 2017-04-21 2017-04-21 一种垃圾文本识别方法和装置

Country Status (1)

Country Link
CN (1) CN107239440B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228704B (zh) * 2017-11-03 2021-07-13 创新先进技术有限公司 识别风险内容的方法及装置、设备
CN108804413B (zh) * 2018-04-28 2022-03-22 百度在线网络技术(北京)有限公司 文本作弊的识别方法及装置
CN108650546B (zh) * 2018-05-11 2021-07-23 武汉斗鱼网络科技有限公司 弹幕处理方法、计算机可读存储介质及电子设备
CN109036570B (zh) * 2018-05-31 2021-08-31 云知声智能科技股份有限公司 超声科非病历内容的过滤方法及系统
CN109255069A (zh) * 2018-07-31 2019-01-22 阿里巴巴集团控股有限公司 一种离散文本内容风险识别方法和系统
CN110875959B (zh) * 2018-08-13 2022-10-18 阿里巴巴集团控股有限公司 识别数据的方法、识别垃圾邮箱的方法及文件识别的方法
CN110929530B (zh) * 2018-09-17 2023-04-25 阿里巴巴集团控股有限公司 一种多语言垃圾文本的识别方法、装置和计算设备
CN109766435A (zh) * 2018-11-06 2019-05-17 武汉斗鱼网络科技有限公司 弹幕类别识别方法、装置、设备及存储介质
CN109582788A (zh) * 2018-11-09 2019-04-05 北京京东金融科技控股有限公司 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN109783804B (zh) * 2018-12-17 2023-07-07 北京百度网讯科技有限公司 低质言论识别方法、装置、设备及计算机可读存储介质
CN109873755B (zh) * 2019-03-02 2021-01-01 北京亚鸿世纪科技发展有限公司 一种基于变体词识别技术的垃圾短信分类引擎
CN110717328B (zh) * 2019-07-04 2021-06-18 北京达佳互联信息技术有限公司 文本识别方法、装置、电子设备及存储介质
CN112287100A (zh) * 2019-07-12 2021-01-29 阿里巴巴集团控股有限公司 文本识别方法、拼写纠错方法及语音识别方法
CN110543632B (zh) * 2019-08-23 2024-04-16 北京粉笔蓝天科技有限公司 一种文本信息识别方法、装置、储存介质及电子设备
CN113626561A (zh) * 2021-08-16 2021-11-09 深圳市云采网络科技有限公司 一种元器件的型号识别方法、装置、介质和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101184259B (zh) * 2007-11-01 2010-06-23 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN101477544B (zh) * 2009-01-12 2011-09-21 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN103678373B (zh) * 2012-09-17 2017-11-17 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN104702492B (zh) * 2015-03-19 2019-10-18 百度在线网络技术(北京)有限公司 垃圾消息模型训练方法、垃圾消息识别方法及其装置
CN104731772B (zh) * 2015-04-14 2017-05-24 辽宁大学 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法

Also Published As

Publication number Publication date
CN107239440A (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN107239440B (zh) 一种垃圾文本识别方法和装置
Gupta et al. Study of Twitter sentiment analysis using machine learning algorithms on Python
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
WO2009026850A1 (en) Domain dictionary creation
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
Susanti et al. Twitter’s sentiment analysis on GSM services using Multinomial Naïve Bayes
CN108009297B (zh) 基于自然语言处理的文本情感分析方法与系统
CN110298041B (zh) 垃圾文本过滤方法、装置、电子设备及存储介质
CN109829151B (zh) 一种基于分层狄利克雷模型的文本分割方法
Swanson et al. Extracting the native language signal for second language acquisition
CN111782793A (zh) 智能客服处理方法和系统及设备
CN112883734A (zh) 区块链安全事件舆情监测方法及系统
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN112270191A (zh) 提取工单文本主题的方法及装置
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN107797981B (zh) 一种目标文本识别方法及装置
Andriotis et al. Smartphone message sentiment analysis
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
KR20200064490A (ko) 프로필 자동생성서버 및 방법
Hussain et al. A technique for perceiving abusive bangla comments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180524

Address after: 310000 704, room 18, 998 West Wen Yi Road, Wuchang Street, Yuhang District, Hangzhou, Zhejiang.

Applicant after: Tong shield Holdings Limited

Address before: 311100 18 Yuhang 207, Wen Yi Xi Road, Yuhang District, Hangzhou, Zhejiang.

Applicant before: With Shield Technology Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210908

Address after: 311121 room 210, building 18, No. 998, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Bodun Xiyan Technology Co.,Ltd.

Address before: 310000 704, room 18, 998 West Wen Yi Road, Wuchang Street, Yuhang District, Hangzhou, Zhejiang.

Patentee before: TONGDUN HOLDINGS Co.,Ltd.

TR01 Transfer of patent right