CN112287684A - 融合变体词识别的短文本审核方法及装置 - Google Patents

融合变体词识别的短文本审核方法及装置 Download PDF

Info

Publication number
CN112287684A
CN112287684A CN202011192254.XA CN202011192254A CN112287684A CN 112287684 A CN112287684 A CN 112287684A CN 202011192254 A CN202011192254 A CN 202011192254A CN 112287684 A CN112287684 A CN 112287684A
Authority
CN
China
Prior art keywords
text
word
words
variant
harmful
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011192254.XA
Other languages
English (en)
Inventor
孔庆超
王婧宜
王宇琪
王磊
毛文吉
曾大军
王祥
王元杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
National Computer Network and Information Security Management Center
Original Assignee
Institute of Automation of Chinese Academy of Science
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, National Computer Network and Information Security Management Center filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202011192254.XA priority Critical patent/CN112287684A/zh
Publication of CN112287684A publication Critical patent/CN112287684A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。

Description

融合变体词识别的短文本审核方法及装置
技术领域
本发明属于文本分析领域,具体涉及了一种融合变体词识别的短文本审核方法及装置。
背景技术
随着Twitter、微博等各种社交媒体平台逐渐走向成熟,信息传播的门槛逐渐降低,用户可以便捷的在网络上传播信息。在用户贡献规模不断增长的同时,内容乱象也日渐凸显。一些不法分子利用社交媒体传播政治敏感、恶意推广、色情暴力的内容。这些有害内容不仅影响了用户体验,还给平台带来极大的法律风险,给网络环境造成了很坏的影响。因此,如何从海量信息里甄别、过滤有害内容成为了一个重要问题。
传统内容审核方式主要是人工审核:内容审核人员发现有害信息后,定位有害信息的关键词,构建敏感词库,之后通过敏感词匹配的方式过滤新的有害信息。人工审核的弊端也很明显:(1)有害信息内容迭代快,敏感词库更新有延迟。(2)敏感词匹配的方式可能会“误伤”一些无害文本,因此需要人工进行二次审核。(3)有害文本信息数量大,人工审核成本高。
后来工业界出现了基于机器学习的文本审核方法,一定程度上降低了人工审核的成本,此类方法有以下缺点:(1)基于传统机器学习的有害短文本分类方法准确率不高,这是由于社交媒体信息具有长度短、内容少的特点,传统机器学习方法非常容易误伤一些包含敏感词的无害短文本。(2)有害信息有表达不规范的特点,信息发布人会使用敏感词的变体(例如同音词)替换敏感词,基于机器学习的文本审核方法不具有识别变体的能力。(3)有害信息主题及内容更新快,需要频繁更新模型以保证模型的召回率。
发明内容
为了解决现有技术中的上述问题,即如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题,本发明提供了一种融合变体词识别的短文本审核方法,所述方法包括:
步骤S100,构建配置词库;所述配置词库的配置包括:敏感词、变体词及其组合,其中敏感词还包括目标词;
步骤S200,基于社交媒体平台获取待审核文本数据;
步骤S300,基于所述配置词库的配置对待审核文本数据进行筛选,获得可疑文本数据;
步骤S400,对所述可疑文本数据进行去除无意义信息的预处理,获得有效可疑文本数据;
步骤S500,通过预设的文本特征提取方法获取所述有效可疑文本数据的文本特征向量,通过正则表达式获取所述有效可疑文本数据的统计特征向量;
步骤S600,将所述文本特征向量和统计特征向量进行特征融合,生成最终特征矩阵;
步骤S700,基于所述最终特征矩阵,通过训练好的基于支持向量机的有害文本分类模型,获得所述最终特征矩阵对应的有效可疑文本数据为有害文本的有害概率;
步骤S800,将所述有害概率大于预设的有害阈值的对应的有效可疑文本数据设定为有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词,将所述敏感词写入所述配置词库,当敏感词个数大于1时,用^把敏感词拼接起来,将拼接后的敏感词写入所述配置词库;所述预设的关键词抽取算法包括TextRank、TF-IDF和基于规则统计的方法中的一个或多个。
进一步地,所述对可疑文本数据进行去除无意义信息的预处理,其方法包括:文本去噪、文本清洗、同类别信息归一化、分词断句和去除停用词中的一种或多种;
所述文本去噪,其方法为通过正则表达式删除所述可疑文本数据中的对中文分词无帮助的特殊符号;
所述文本清洗,其方法为将所述可疑文本数据中的繁体字转化为简体字,将标点符号转化为半角形式的标点符号,将大写英文字母转换为小写英文字母;
所述同类别信息归一化,其方法为利用正则表达式,对所述可疑文本数据中的微信号、qq号、银行账号、网址、邮箱、手机号码和表情符号进行归并,使用统一名称替换;
所述分词断句,其方法为基于分词算法和分词词表将连续的字序列组合成词序列;所述分词算法为基于前缀词典的词图扫描算法、隐马尔科夫算法、动态规划算法中的一种或是多种的叠加;
所述去除停用词,其方法为将所述可疑文本数据中属于预先设定的停用词表中的词汇删除。
进一步地,步骤S400和步骤S500之间还设置有自动更新配置词库的步骤,包括:
步骤S400A,基于所述目标词,通过预设的变体词算法获取所述有效可疑文本数据中变体词;所述变体词包括字音变体词、字形变体词、数字类变体词和拼音类变体词;
步骤S400B,将所述变体词加入分词词表和所述配置词库;
其中,步骤S400A包括:
步骤S410A,基于所述可疑文本数据,通过汉语语言模型,获取所有与所述目标词长度相同的连续子字符串序列;
步骤S420A,计算所述连续子字符串序列中的子字符串与目标词的字音相似度和字形相似度;
步骤S430A,将字音相似度大于预设的字音变体阈值的子字符串作为字音变体词,将字形相似度大于预设的字形变体阈值的子字符串作为字形变体词。
进一步地,所述字音相似度,其计算方法为:
将所述目标词与子字符串拆解成单字序列;
通过汉字拼音转化模块将每个单字转化为汉语拼音,其中汉语拼音由声母和韵母组成;
基于预设的汉语声母、韵母相似度字典,计算所述子字符串对应的单字与所述目标词对应的单字的声母相似度和韵母相似度,通过加权平均的方法得到子字符串和目标词的字音相似度。
进一步地,所述字形相似度,其计算方法为:
将所述目标词与子字符串拆解成单字序列;
获取每个单字的四角码、汉字笔画数;
计算对应的单字的四角码相似度、汉字笔画数相似度和结构相似度,通过加权平均的方法获得对应单字的字形相似度。
进一步地,步骤S410A之后还设置有数字类变体词和拼音类变体词筛选步骤;
所述数字类变体词获取,其方法为:基于所述目标词,获取所述子字符串中包含中文数字的目标词,将所述中文数字转化为阿拉伯数字,将包含所述阿拉伯数字的目标词作为数字类变体词;
所述拼音类变体词获取,其方法为:基于所述目标词,当目标词的长度为n时,保留原有字序,在子字符串中取r个子字符,其中1≤r≤n,将所述子字符转化为拼音或拼音首字母,将包含与目标词相同的拼音或拼音首字母的字符小组作为拼音类变体词。
进一步地,所述文本特征提取方法包括:
通过训练好的TF-IDF词典计算所述有效可疑文本的文本特征向量。具体的,IDF值由TF-IDF词典中词项的idf值决定,而tf值由测试文本自身决定。
进一步地,所述统计特征向量,包括:变体词个数、文本长度、实体个数、数字占比、字母占比、特殊字符占比、动词个数、名词个数、相同字符的比例。变体词个数通过变体词库计算获得。
进一步地,步骤S600包括:将所述文本特征向量和统计特征向量通过横向拼接的方式融合。
进一步地,所述训练好的基于支持向量机的有害文本分类模型,其训练方法为:
步骤B100,基于社交媒体平台获取训练数据;
步骤B200,通过配置匹配和输入指令的方式对所述训练数据添加有害文本和无害文本的标签;
B300,通过步骤S400-步骤S600对应的方法,获取所述训练数据的最终特征矩阵;
步骤B400,基于所述训练数据的最终特征矩阵,通过Python网格搜索,对基于支持向量机的分类模型进行调参,直至损失函数收敛,获得训练好的基于支持向量机的有害文本分类模型。
进一步地,步骤S800中利用预设的关键词抽取算法获取所述有害文本的敏感词之前,将文本中出现的还包括:
步骤S801,设定白名单库;
步骤S802,将所述有害文本与白名单库的数据进行比较,将不完全一致的有害文本作为最终的有害文本。
本发明第二方面请求保护一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的融合变体词识别的短文本审核方法。
本发明第三方面请求保护一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的融合变体词识别的短文本审核方法。
本发明的有益效果:
(1)本发明融合变体词识别的短文本审核方法,通过将变体词识别融合到文本特征和统计特征的计算中,再将包含了变体词信息的文本特征和统计特征通过基于支持向量机的分类模型进行分类,提高了文本审核的准确性,避免了用户恶意规避检查而造成漏检;
(2)本发明融合变体词识别的短文本审核方法,通过将文本特征和统计特征融合的方式结合基于支持向量机的分类模型对社交平台中的文本数据进行有害文本的审核,提高了找出有害文本的准确性,避免无害文本误判和有害文本漏判;
(3)本发明融合变体词识别的短文本审核方法,通过结合变体词识别算法,识别目标词及其变体词,提高了有害文本审核的准确性,避免用户恶意规避检查而造成漏检;
(4)本发明融合变体词识别的短文本审核方法,通过将识别出的变体词和目标词词自动加入配置词库,引入了自动更新机制,改善了文本审核的系统召回率,加快了迭代速度;
(5)本发明融合变体词识别的短文本审核方法,通过设置白名单自由定制,降低了误判的可能性。
(6)本发明融合变体词识别的短文本审核方法,训练数据构建方式比较特别,使得训练出的分类器不仅能很好的区分正常文本和有害文本,同时可以区分可疑无害文本和有害文本,避免了因为短文中存在敏感词但是全文属于无害文本而被错误屏蔽的情况。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明融合变体词识别的短文本审核方法实施例的流程示意图;
图2是本发明融合变体词识别的短文本审核方法实施例中的基于支持向量机的有害文本分类模型训练的流程示意图;
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种融合变体词识别技术和特征向量分析的文本审核方法,本方法包括:
步骤S100,构建配置词库;所述配置词库的配置包括:敏感词、变体词,其中敏感词还包括目标词;
步骤S200,基于社交媒体平台获取待审核文本数据;
步骤S300,基于所述配置词库的配置对待审核文本数据进行筛选,获得可疑文本数据;
步骤S400,对所述可疑文本数据进行去除无意义信息的预处理,获得有效可疑文本数据;
步骤S500,通过预设的文本特征提取方法获取所述有效可疑文本数据的文本特征向量,通过正则表达式获取所述有效可疑文本数据的统计特征向量;
步骤S600,将所述文本特征向量和统计特征向量进行特征融合,生成最终特征矩阵;
步骤S700,基于所述最终特征矩阵,通过训练好的基于支持向量机的有害文本分类模型,获得所述最终特征矩阵对应的有效可疑文本数据为有害文本的有害概率;
步骤S800,将所述有害概率大于预设的有害阈值的对应的有效可疑文本数据设定为有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词,将所述敏感词写入所述配置词库,当敏感词个数大于1时,用^把敏感词拼接起来,将拼接后的敏感词写入所述配置词库;所述预设的关键词抽取算法包括TextRank、TF-IDF和基于规则统计的方法中的一个或多个。
为了更清晰地对本发明融合变体词识别技术和特征向量分析的文本审核方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。
本发明一种实施例的融合变体词识别技术和特征向量分析的文本审核方法,包括步骤S100-步骤S800,各步骤详细描述如下:
步骤S100,构建配置词库;所述配置词库的配置包括:敏感词、变体词,其中敏感词还包括目标词;
在本实施例中,敏感词是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语。
在本实施例中,所述配置词库中的配置是从过往有害文本中提炼出的敏感词,包括领域相近的敏感词或者敏感词组合。其中领域可以是政治、赌博、色情等领域;组合指AND(与)搜索逻辑关系。例如,配置可以是单个词,例如“辣鸡”、“伽溦”;也可以是词语组合,例如“网址^零风险”、“下单^领取^网址”、“彩飘^买即送”,后一种情况更为常见。配置中的词语可以是有害的(自焚)、敏感词(加微)、或者变体词(伽溦)。对于多个词构成的配置,例如“网址^零风险”,当文本中同时出现“网址”和“零风险”时,文本命中配置。包含配置的文本可能是无害的,例如当配置为“辣鸡”时,“厨师长教你香辣鸡块的做法,开胃解馋,越吃越过瘾”是无害的,也可能是有害的,例如“什么辣鸡审美,简直太畸形了!”。因此当文本中出现所述配置,认为文本为可疑文本,需要通过文本分类算法,进一步判定其性质。
步骤S200,基于社交媒体平台获取待审核文本数据;
步骤S300,基于所述配置词库的配置对待审核文本数据进行筛选,获得可疑文本数据;
步骤S400,对所述可疑文本数据进行去除无意义信息的预处理,获得有效可疑文本数据;
所述对可疑文本数据进行去除无意义信息的预处理,其方法包括:文本去噪、文本清洗、同类别信息归一化、分词断句和去除停用词中的一种或多种;
所述文本去噪,其方法为通过正则表达式删除所述可疑文本数据中的对中文分词无帮助的特殊符号;
在本实施例中,中文标点符号中的句号、逗号、问号、感叹号、冒号、顿号、分号是重要的标点,应该被保留;对中文分词无帮助的特殊符号包括英文标点、编号序号、数学符号、符号图案、空格、数字、表情符号,需要被删除。
有害信息的发布者为了躲避审查机制,故意对文本中的敏感词进行变形,使用所述符号对原有关键词进行分割,例如“网#址”“游`戏”“彩票”。删除这些句子成分有助于后续正确分词,而且减小了文本噪声。
所述文本清洗,其方法为将所述可疑文本数据中的繁体字转化为简体字,将标点符号转化为半角形式的标点符号,将大写英文字母转换为小写英文字母,仅保留汉字和英文;
所述同类别信息归一化,其方法为利用正则表达式,对所述可疑文本数据中的微信号、qq号、银行账号、网址、邮箱、手机号码和表情符号进行归并,使用统一名称替换;
例如,对于没有经过任何处理的短文本,对使用正则获得的网址信息统一用中文词“网址”替换。
所述分词断句,其方法为基于分词算法和分词词表将连续的字序列组合成词序列;所述分词算法为基于前缀词典的词图扫描算法、隐马尔科夫算法、动态规划算法中的一种或是多种的叠加;以上举例仅为方便对本发明的分词断句过程的理解,不作为对本发明的具体限定;
在本实施例中,采取设置分词词表的措施辅助分词,来增强歧义纠错能力,提升分词准确率。词表包括容易被分错的新词或者未登录词,例如领域相关的专有名词(如人名、机构、事件)、辱骂词语、变体词、网络用语等。
所述去除停用词,其方法为将所述可疑文本数据中属于预先设定的停用词表中的词汇删除;
在本实施例中,人工构建一个停用词表,在特征抽取前删除停用词表中的词;其中停用词指在各类文档中频繁出现的,附带极少语义信息的功能词;常见停用词类型有连词、副词、介词、助词、语气词,例如“的”“了”“啊”“哈哈”等;停用词在文本中大量出现且对区分文本类别没有帮助,因此在文本表示时将它去掉;短文本长度较短,一般在180个字以内,其中有意义的词汇可能只有十几个,因此在构建停用词表时应谨慎,避免误删有意义的词汇,造成信息丢失。
在本实施例中,步骤S400和步骤S500之间还设置有自动更新配置词库的步骤,包括:步骤S400A,基于所述敏感词,通过预设的变体词算法获取所述有效可疑文本数据中变体词;所述变体词包括字音变体词、字形变体词、数字类变体词和拼音类变体词;
在本实施例中,变体词指有害信息发布者出于躲避审核机制、表达情感的目的,通过更换某个字的方式,对一些严肃、敏感的词做了一些变形,用不敏感的词代替,这些代替的词被称为变体词,被代替的词称为目标词,目标词是敏感词的子集,主要包括领域相关的敏感人物、地点、事件、组织、游戏、行为等。目标词社交媒体文本中常见的变体词类别及其示例如下:
类别 示例
汉字异序 小米手机:小米机手
字音相似 网址:旺址
字形相似 下载:丅载
汉语拼音缩写 章子怡:章Z怡、Zhang子yi
数字代替字词 六合彩:⑥合彩
拆字 低俗:亻氐亻谷
其他 加微:+v
由于变体词在有害短文本中出现频率非常高,且可以轻松躲避目标词匹配机制,如何识别变体词成为了文本审核任务的一个关键点。
所述步骤S400A包括步骤S410A-S430A:
判断待检测可疑文本“下载棋盘游戏,邻取彩金。”中是否包含目标词“领取”的变体词,可以采用如下方式:
去除可疑文本中的标点符号,保留文字“下载棋盘游戏邻取彩金”。
步骤S410A,基于所述可疑文本数据,通过汉语语言模型,获取所有与所述目标词长度相同的连续子字符串序列;
在本实施例中,采用N-GARM模型将子字符串拆解成单字序列。例如“棋盘游戏丅载app领取彩金100元”被拆解为“下载”、“载棋”、“棋盘”、“盘游”、“游戏”、“戏邻”、“邻取”、“取彩”、“彩金”。
在本实施例中,步骤S410A之后还设置有数字类变体词和拼音类变体词筛选步骤;
所述数字类变体词获取,其方法为:基于所述目标词,获取所述子字符串中包含中文数字的目标词,将所述中文数字转化为阿拉伯数字,将包含所述阿拉伯数字的目标词作为数字类变体词;
所述拼音类变体词获取,其方法为:基于所述目标词,当目标词的长度为n时,保留原有字序,在子字符串中取r个子字符,其中1≤r≤n,将所述子字符转化为拼音或拼音首字母,将包含与目标词相同的拼音或拼音首字母的字符小组作为拼音类变体词。
步骤S420A,计算所述连续子字符串序列中的子字符串与目标词的字音相似度和字形相似度;
所述字音相似度,其计算方法为:将所述目标词与子字符串拆解成单字序列;通过汉字拼音转化模块将每个单字转化为汉语拼音,其中汉语拼音由声母和韵母组成;基于预设的汉语声母、韵母相似度字典,计算子字符串对应的单字与所述目标词对应的单字的声母相似度和韵母相似度,加权平均的方法得到子字符串和目标词的字音相似度。
举例来说,针对目标词“领取”和子字符串“邻取”,分别将单字序列“领”“取”以及“邻”“取”转化为汉语拼音“ling”“qu”和“lin”“qu”;根据经验,“ling”和“lin”属于声母相同,韵母相近的情况,给予相似度0.8,“qu”和“qu”的声母、韵母完全相同,给与相似度1,取单字相似度均值作为词相似度。
所述字形相似度,其计算方法为:将所述目标词与子字符串拆解成单字序列;获取每个单字的四角码、汉字笔画数;计算对应的单字的四角码相似度、汉字笔画数相似度和结构相似度,通过加权平均的方法获得对应单字的字形相似度。
步骤S430A,将字音相似度大于预设的字音变体阈值的子字符串作为字音变体词,将字形相似度大于预设的字形变体阈值的子字符串作为字形变体词;
在本实施例中,若在社交媒体文本信息中出现数字类变体词和拼音类变体词则将数字类变体词和拼音类变体词还原为对应的目标词,继续进行审核;
举例说明,目标词“六合彩”包含中文数字“六”,将“六”替换为数字符号⑥、
Figure BDA0002753065510000131
Figure BDA0002753065510000133
或者⒍,生成“⑥合彩”、“
Figure BDA0002753065510000132
合彩”、“
Figure BDA0002753065510000134
合彩”、“⒍合彩”为数字类变体词。
若在社交媒体文本信息中出现此类变体词,则将文本中的变体词还原为对应的目标词;
举例说明,目标词“法院”的拼音类变体词可以是“fa院”。
步骤S400B,将所述变体词加入分词词表和所述配置词库;
可通过人工复审的方法提升变体词识别算法的准确率。
步骤S500,通过预设的文本特征提取方法获取所述有效可疑文本数据的文本特征向量,通过正则表达式获取所述有效可疑文本数据的统计特征向量;
在本实施例中,通过TF-IDF融合3-gram语言模型获取样本的文本特征,保存训练好点的TF-IDF词典;利用正则表达式,计算文本的统计特征;拼接所述文本特征向量和统计特征,获得训练样本最终特征向量表示。
本实施例中通过把变体词的个数作为统计特征,以及把变体词写入用户定义的分词词表的方式,将变体词识别结果融入模型;其中,把变体词写入用户定义的分词词表能够大大提升分词的准确率。变体词属于新词的一种,传统分词工具很难将变体词正确分词。例如,“彩金”属于赌博类的关键词,但是变体词“彩釒”会被分为“彩”“釒”,丢失了其本来的语义,写入用户定义的分词词表提升了分词的准确率,使变体词可以作为文本特征被赋予权重,提升了短文本语义丰富性;
在本实施例中,所述文本特征提取方法包括:通过训练好的TF-IDF词典计算获取所述有效可疑文本的文本特征向量。
在本实施例中,所述统计特征向量,包括:变体词个数、文本长度、实体个数、数字占比、字母占比、特殊字符占比、动词个数、名词个数、相同字符的比例。
上述所举例的统计特征向量的要素仅为使本发明的统计特征向量便于理解,不作为本发明统计特征向量的具体限定。
步骤S600,将所述文本特征向量和统计特征向量进行特征融合,生成最终特征矩阵;
在本实施例中,将所述文本特征向量和统计特征向量通过横向拼接的方式融合。
步骤S700,基于所述最终特征矩阵,通过训练好的基于支持向量机的有害文本分类模型,获得所述最终特征矩阵对应的有效可疑文本数据为有害文本的有害概率;
支持向量机算法是一种有坚实理论基础的分类方法,基于特征的SVM模型可以提高模型判别的准确率。
步骤S800,将所述有害概率大于预设的有害阈值的对应的有效可疑文本数据设定为有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词,将所述敏感词写入所述配置词库,当敏感词个数大于1时,用^把敏感词拼接起来,将拼接后的敏感词写入所述配置词库;所述预设的关键词抽取算法包括TextRank、TF-IDF和基于规则统计的方法中的一个或多个;
当文本中关键词个数>1时,用^把关键词拼接起来,作为配置。所述预设的关键词抽取算法包括TextRank、TF-IDF和基于规则统计的方法中的一个或多个。
在本实施例中,所述训练好的基于支持向量机的有害文本分类模型,如图2所示其训练方法为:
步骤B100,基于社交媒体平台获取训练数据;
步骤B200,通过配置匹配和输入指令的方式对所述训练数据添加有害文本和无害文本的标签;
所述输入指令的方式为经人工审核后对方法暂时无法准确判断的文本添加有害文本和无害文本的标签。
获取待处理的社交媒体信息数据;根据预设的配置词库,获取匹配到配置的可疑文本;通过人工审核的方式对候选文本进行打标,获得一批高质量的带标签的有害样本,候选文本剩下的部分作为无害样本,有害样本和无害样本组成训练样本。
步骤B300,通过步骤S400-步骤S600对应的方法,获取所述训练数据的最终特征矩阵;步骤B400,基于所述训练数据的最终特征矩阵,通过Python网格搜索,对基于支持向量机的分类模型进行调参,直至损失函数收敛,获得训练好的基于支持向量机的有害文本分类模型。
本实施例通过TF-IDF结合3元语法的文本向量表示方法获取所述文本特征向量。TFIDF计算公式就是TF和IDF的乘积,TF是词频(Term Frequency)指的是某个词语i在文本j中出现的频率:具体的表示如公式(1)所示:
Figure BDA0002753065510000161
ni,j:词语i在文本j中出现的次数
k:文本k包含的词语个数
IDF是指逆文本频率指数(Inverse Document Frequency),是一个词语普遍重要性的度量,具体表示如公式(2)所示:
Figure BDA0002753065510000162
|D|指总文本数
|{j:ti∈dj}|指包含词语i的文档数
若词ti在所有文档中均未出现,则IDF公式中的分母为0;因此需要对IDF做平滑(smooth):
Figure BDA0002753065510000163
TFIDF的主要思想是:如果某个词在一条短文本中出现的TF高,并且在其他文章中很少出现(IDF高),则认为此词或者短语具有很好的类别区分能力。社交媒体文本受其长度的限制,通常关键词的出现次数比较小,因此发挥主要作用的是IDF,即某个单词或词组在语料中的区分度。TF-IDF有一个缺点,它认为词与词之间是相互独立的,因此损失了词的顺序信息。本发明结合3-gram思想,不仅考虑单个词的TF-IDF,也考虑两个词和三个词组成的短语的TF-IDF分值,这种表示方法的好处是可以获取更丰富的特征,保留词序信息。
在本实施例中,步骤S800还包括:
步骤S801,设定白名单库;
步骤S802,将所述有害文本与白名单库的数据进行比较,将不完全一致的有害文本作为最终的有害文本。
本发明第二实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的融合变体词识别技术和特征向量分析的文本审核方法。
本发明第三实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的融合变体词识别技术和特征向量分析的文本审核方法。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (13)

1.一种融合变体词识别的短文本审核方法,其特征在于,所述方法包括:
步骤S100,构建配置词库;所述配置词库的配置包括:敏感词、变体词及其组合,其中敏感词还包括目标词;
步骤S200,基于社交媒体平台获取待审核文本数据;
步骤S300,基于所述配置词库的配置对待审核文本数据进行筛选,获得可疑文本数据;
步骤S400,对所述可疑文本数据进行去除无意义信息的预处理,获得有效可疑文本数据;
步骤S500,通过预设的文本特征提取方法获取所述有效可疑文本数据的文本特征向量,通过正则表达式获取所述有效可疑文本数据的统计特征向量;
步骤S600,将所述文本特征向量和统计特征向量进行特征融合,生成最终特征矩阵;
步骤S700,基于所述最终特征矩阵,通过训练好的基于支持向量机的有害文本分类模型,获得所述最终特征矩阵对应的有效可疑文本数据为有害文本的有害概率;
步骤S800,将所述有害概率大于预设的有害阈值的对应的有效可疑文本数据设定为有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词,将所述敏感词写入所述配置词库,当敏感词个数大于1时,用^把敏感词拼接起来,将拼接后的敏感词写入所述配置词库;所述预设的关键词抽取算法包括TextRank、TF-IDF和基于规则统计的方法中的一个或多个。
2.根据权利要求1所述的融合变体词识别的短文本审核方法,所述对可疑文本数据进行去除无意义信息的预处理,其方法包括:文本去噪、文本清洗、同类别信息归一化、分词断句和去除停用词中的一种或多种;
所述文本去噪,其方法为通过正则表达式删除所述可疑文本数据中的对中文分词无帮助的特殊符号;
所述文本清洗,其方法为将所述可疑文本数据中的繁体字转化为简体字,将标点符号转化为半角形式的标点符号,将大写英文字母转换为小写英文字母;
所述同类别信息归一化,其方法为利用正则表达式,对所述可疑文本数据中的微信号、qq号、银行账号、网址、邮箱、手机号码和表情符号进行归并,使用统一名称替换;
所述分词断句,其方法为基于分词算法和分词词表将连续的字序列组合成词序列;所述分词算法为基于前缀词典的词图扫描算法、隐马尔科夫算法、动态规划算法中的一种或是多种的叠加;
所述去除停用词,其方法为将所述可疑文本数据中属于预先设定的停用词表中的词汇删除。
3.根据权利要求2所述的融合变体词识别的短文本审核方法,其特征在于,步骤S400和步骤S500之间还设置有自动更新配置词库的步骤,包括:
步骤S400A,基于所述目标词,通过预设的变体词算法获取所述有效可疑文本数据中变体词;所述变体词包括字音变体词、字形变体词、数字类变体词和拼音类变体词;
步骤S400B,将所述变体词加入分词词表和所述配置词库;
其中,步骤S400A包括:
步骤S410A,基于所述可疑文本数据,通过汉语语言模型,获取所有与所述目标词长度相同的连续子字符串序列;
步骤S420A,计算所述连续子字符串序列中的子字符串与目标词的字音相似度和字形相似度;
步骤S430A,将字音相似度大于预设的字音变体阈值的子字符串作为字音变体词,将字形相似度大于预设的字形变体阈值的子字符串作为字形变体词。
4.根据权利要求3所述的融合变体词识别的短文本审核方法,其特征在于,所述字音相似度,其计算方法为:
将所述目标词与子字符串拆解成单字序列;
通过汉字拼音转化模块将每个单字转化为汉语拼音,其中汉语拼音由声母和韵母组成;
基于预设的汉语声母、韵母相似度字典,计算所述子字符串对应的单字与所述目标词对应的单字的声母相似度和韵母相似度,通过加权平均的方法得到子字符串和目标词的字音相似度。
5.根据权利要求3所述的融合变体词识别的短文本审核方法,其特征在于,所述字形相似度,其计算方法为:
将所述目标词与子字符串拆解成单字序列;
获取每个单字的四角码、汉字笔画数;
计算对应的单字的四角码相似度、汉字笔画数相似度和结构相似度,通过加权平均的方法获得对应单字的字形相似度。
6.根据权利要求3所述的融合变体词识别的短文本审核方法,其特征在于,步骤S410A之后还设置有数字类变体词和拼音类变体词筛选步骤;
所述数字类变体词获取,其方法为:基于所述目标词,获取所述子字符串中包含中文数字的目标词,将所述中文数字转化为阿拉伯数字,将包含所述阿拉伯数字的目标词作为数字类变体词;
所述拼音类变体词获取,其方法为:基于所述目标词,当目标词的长度为n时,保留原有字序,在子字符串中取r个子字符,其中1≤r≤n,将所述子字符转化为拼音或拼音首字母,将包含与目标词相同的拼音或拼音首字母的字符小组作为拼音类变体词。
7.根据权利要求3所述的融合变体词识别的短文本审核方法,其特征在于,所述文本特征提取方法包括:
通过训练好的TF-IDF词典计算所述有效可疑文本的文本特征向量。
8.根据权利要求3所述的融合变体词识别的短文本审核方法,其特征在于,所述统计特征向量,包括:变体词个数、文本长度、实体个数、数字占比、字母占比、特殊字符占比、动词个数、名词个数、相同字符的比例。
9.根据权利要求3所述的融合变体词识别的短文本审核方法,其特征在于,步骤S600包括:将所述文本特征向量和统计特征向量通过横向拼接的方式融合。
10.根据权利要求1所述的融合变体词识别的短文本审核方法,其特征在于,所述训练好的基于支持向量机的有害文本分类模型,其训练方法为:
步骤B100,基于社交媒体平台获取训练数据;
步骤B200,通过配置匹配和输入指令的方式对所述训练数据添加有害文本和无害文本的标签;
步骤B300,通过步骤S400-步骤S600对应的方法,获取所述训练数据的最终特征矩阵;
步骤B400,基于所述训练数据的最终特征矩阵,通过Python网格搜索,对基于支持向量机的分类模型进行调参,直至损失函数收敛,获得训练好的基于支持向量机的有害文本分类模型。
11.根据权利要求1所述的融合变体词识别的短文本审核方法,其特征在于,步骤S800中利用预设的关键词抽取算法获取所述有害文本的敏感词之前还包括:
步骤S801,设定白名单库;
步骤S802,将所述有害文本与白名单库的数据进行比较,将不完全一致的有害文本作为最终的有害文本。
12.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-11任一项所述的融合变体词识别的短文本审核方法。
13.一种处理装置,包括处理器,适于执行各条程序;以及存储装置,适于存储多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-11任一项所述的融合变体词识别的短文本审核方法。
CN202011192254.XA 2020-10-30 2020-10-30 融合变体词识别的短文本审核方法及装置 Pending CN112287684A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011192254.XA CN112287684A (zh) 2020-10-30 2020-10-30 融合变体词识别的短文本审核方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011192254.XA CN112287684A (zh) 2020-10-30 2020-10-30 融合变体词识别的短文本审核方法及装置

Publications (1)

Publication Number Publication Date
CN112287684A true CN112287684A (zh) 2021-01-29

Family

ID=74354212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011192254.XA Pending CN112287684A (zh) 2020-10-30 2020-10-30 融合变体词识别的短文本审核方法及装置

Country Status (1)

Country Link
CN (1) CN112287684A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989838A (zh) * 2021-05-17 2021-06-18 北京智慧易科技有限公司 文本联系实体提取方法、装置、设备及可读存储介质
CN113127715A (zh) * 2021-03-04 2021-07-16 微梦创科网络科技(中国)有限公司 一种对涉赌信息进行识别的方法及系统
CN113408270A (zh) * 2021-06-10 2021-09-17 广州三七极创网络科技有限公司 变体文本的识别方法、装置及电子设备
CN113486656A (zh) * 2021-07-16 2021-10-08 支付宝(杭州)信息技术有限公司 一种语料生成方法及装置
CN113591464A (zh) * 2021-07-28 2021-11-02 百度在线网络技术(北京)有限公司 变体文本检测方法、模型训练方法、装置及电子设备
CN114020651A (zh) * 2022-01-06 2022-02-08 深圳市明源云科技有限公司 基于接口地址去重方法、装置、设备及可读存储介质
CN114091436A (zh) * 2022-01-21 2022-02-25 万商云集(成都)科技股份有限公司 一种基于决策树及变体识别的敏感词检测方法
CN115809662A (zh) * 2023-02-03 2023-03-17 北京匠数科技有限公司 一种文本内容异常检测的方法、装置、设备及介质
CN116628584A (zh) * 2023-07-21 2023-08-22 国网智能电网研究院有限公司 电力敏感数据处理方法、装置、电子设备及存储介质
CN117435692A (zh) * 2023-11-02 2024-01-23 北京云上曲率科技有限公司 一种基于变体对抗敏感文本识别方法和系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000268034A (ja) * 1999-03-16 2000-09-29 Sharp Corp テキスト自動前編集装置及び方法並びにこれに利用される記憶媒体
US20050283540A1 (en) * 2004-06-02 2005-12-22 Vadim Fux Handheld electronic device with text disambiguation
CN101324883A (zh) * 2008-07-31 2008-12-17 电子科技大学 一种变异关键词的提取方法
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
CN107463666A (zh) * 2017-08-02 2017-12-12 成都德尔塔信息科技有限公司 一种基于文本内容的敏感词过滤方法
CN109408824A (zh) * 2018-11-05 2019-03-01 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109873755A (zh) * 2019-03-02 2019-06-11 北京亚鸿世纪科技发展有限公司 一种基于变体词识别技术的垃圾短信分类引擎
CN109977416A (zh) * 2019-04-03 2019-07-05 中山大学 一种多层次自然语言反垃圾文本方法及系统
CN110298041A (zh) * 2019-06-24 2019-10-01 北京奇艺世纪科技有限公司 垃圾文本过滤方法、装置、电子设备及存储介质
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
CN111738011A (zh) * 2020-05-09 2020-10-02 完美世界(北京)软件科技发展有限公司 违规文本的识别方法及装置、存储介质、电子装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000268034A (ja) * 1999-03-16 2000-09-29 Sharp Corp テキスト自動前編集装置及び方法並びにこれに利用される記憶媒体
US20050283540A1 (en) * 2004-06-02 2005-12-22 Vadim Fux Handheld electronic device with text disambiguation
CN101324883A (zh) * 2008-07-31 2008-12-17 电子科技大学 一种变异关键词的提取方法
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
CN107463666A (zh) * 2017-08-02 2017-12-12 成都德尔塔信息科技有限公司 一种基于文本内容的敏感词过滤方法
CN109408824A (zh) * 2018-11-05 2019-03-01 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
CN109873755A (zh) * 2019-03-02 2019-06-11 北京亚鸿世纪科技发展有限公司 一种基于变体词识别技术的垃圾短信分类引擎
CN109977416A (zh) * 2019-04-03 2019-07-05 中山大学 一种多层次自然语言反垃圾文本方法及系统
CN110298041A (zh) * 2019-06-24 2019-10-01 北京奇艺世纪科技有限公司 垃圾文本过滤方法、装置、电子设备及存储介质
CN111738011A (zh) * 2020-05-09 2020-10-02 完美世界(北京)软件科技发展有限公司 违规文本的识别方法及装置、存储介质、电子装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SOPAN KHOSHA ETAL: "Incorporating Multi-Level Features for Multi-Granular Propaganda Span Identification", Retrieved from the Internet <URL:https://xueshu.baidu.com/usercenter/paper/show?paperid=13040jr0a2460800nr2m0jr0g7020366&site=xueshu_se> *
王毅 等: "基于向量空间模型的毕业论文 相似性辨识研究", 科学技术与工程, vol. 7, no. 9, 31 May 2007 (2007-05-31), pages 2111 - 2113 *
赵菲菲 等: "个人信息保护政策网络评价的 文本分析建模研究", 情报杂志, vol. 39, no. 8, 31 August 2020 (2020-08-31), pages 154 - 159 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127715A (zh) * 2021-03-04 2021-07-16 微梦创科网络科技(中国)有限公司 一种对涉赌信息进行识别的方法及系统
CN112989838A (zh) * 2021-05-17 2021-06-18 北京智慧易科技有限公司 文本联系实体提取方法、装置、设备及可读存储介质
CN113408270A (zh) * 2021-06-10 2021-09-17 广州三七极创网络科技有限公司 变体文本的识别方法、装置及电子设备
CN113408270B (zh) * 2021-06-10 2023-02-10 广州三七极创网络科技有限公司 变体文本的识别方法、装置及电子设备
CN113486656B (zh) * 2021-07-16 2023-11-10 支付宝(杭州)信息技术有限公司 一种语料生成方法及装置
CN113486656A (zh) * 2021-07-16 2021-10-08 支付宝(杭州)信息技术有限公司 一种语料生成方法及装置
CN113591464A (zh) * 2021-07-28 2021-11-02 百度在线网络技术(北京)有限公司 变体文本检测方法、模型训练方法、装置及电子设备
CN113591464B (zh) * 2021-07-28 2022-06-10 百度在线网络技术(北京)有限公司 变体文本检测方法、模型训练方法、装置及电子设备
CN114020651A (zh) * 2022-01-06 2022-02-08 深圳市明源云科技有限公司 基于接口地址去重方法、装置、设备及可读存储介质
CN114091436A (zh) * 2022-01-21 2022-02-25 万商云集(成都)科技股份有限公司 一种基于决策树及变体识别的敏感词检测方法
CN115809662A (zh) * 2023-02-03 2023-03-17 北京匠数科技有限公司 一种文本内容异常检测的方法、装置、设备及介质
CN116628584A (zh) * 2023-07-21 2023-08-22 国网智能电网研究院有限公司 电力敏感数据处理方法、装置、电子设备及存储介质
CN117435692A (zh) * 2023-11-02 2024-01-23 北京云上曲率科技有限公司 一种基于变体对抗敏感文本识别方法和系统

Similar Documents

Publication Publication Date Title
CN112287684A (zh) 融合变体词识别的短文本审核方法及装置
US8538745B2 (en) Creating a terms dictionary with named entities or terminologies included in text data
US8275600B2 (en) Machine learning for transliteration
US8463598B2 (en) Word detection
CA2642217C (en) Method and system for verification of uncertainly recognized words in an ocr system
US8380488B1 (en) Identifying a property of a document
US20110071817A1 (en) System and Method for Language Identification
US20110144992A1 (en) Unsupervised learning using global features, including for log-linear model word segmentation
CN108628822B (zh) 无语义文本的识别方法及装置
CN111554272A (zh) 一种面向中文语音识别的语言模型建模方法
US7328404B2 (en) Method for predicting the readings of japanese ideographs
CN113076748A (zh) 弹幕敏感词的处理方法、装置、设备及存储介质
EP2653981A1 (en) Natural language processing device, method, and program
Chen et al. Integrating natural language processing with image document analysis: what we learned from two real-world applications
EP1471440A2 (en) System and method for word analysis
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Barrón-Cedeño et al. Word length n-Grams for text re-use detection
Singh et al. Review of real-word error detection and correction methods in text documents
Muhamad et al. Proposal: A hybrid dictionary modelling approach for malay tweet normalization
CN116450896A (zh) 文本模糊匹配方法、装置、电子设备及可读存储介质
US8977538B2 (en) Constructing and analyzing a word graph
CN105511636B (zh) 改进的全部汉字汉词简易无重码统一输入法
CN113987172A (zh) 恶意评论识别方法、装置、系统及计算机可读存储介质
Mohapatra et al. Spell checker for OCR
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination