CN112287684A - 融合变体词识别的短文本审核方法及装置 - Google Patents
融合变体词识别的短文本审核方法及装置 Download PDFInfo
- Publication number
- CN112287684A CN112287684A CN202011192254.XA CN202011192254A CN112287684A CN 112287684 A CN112287684 A CN 112287684A CN 202011192254 A CN202011192254 A CN 202011192254A CN 112287684 A CN112287684 A CN 112287684A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- words
- variant
- harmful
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 239000013598 vector Substances 0.000 claims abstract description 44
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000012706 support-vector machine Methods 0.000 claims abstract description 18
- 238000013145 classification model Methods 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 18
- 238000012552 review Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 240000004282 Grewia occidentalis Species 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 241000287828 Gallus gallus Species 0.000 description 3
- 208000001613 Gambling Diseases 0.000 description 2
- 244000062793 Sorghum vulgare Species 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 235000019713 millet Nutrition 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000989913 Gunnera petaloidea Species 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 235000015228 chicken nuggets Nutrition 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 235000019788 craving Nutrition 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。
Description
技术领域
本发明属于文本分析领域,具体涉及了一种融合变体词识别的短文本审核方法及装置。
背景技术
随着Twitter、微博等各种社交媒体平台逐渐走向成熟,信息传播的门槛逐渐降低,用户可以便捷的在网络上传播信息。在用户贡献规模不断增长的同时,内容乱象也日渐凸显。一些不法分子利用社交媒体传播政治敏感、恶意推广、色情暴力的内容。这些有害内容不仅影响了用户体验,还给平台带来极大的法律风险,给网络环境造成了很坏的影响。因此,如何从海量信息里甄别、过滤有害内容成为了一个重要问题。
传统内容审核方式主要是人工审核:内容审核人员发现有害信息后,定位有害信息的关键词,构建敏感词库,之后通过敏感词匹配的方式过滤新的有害信息。人工审核的弊端也很明显:(1)有害信息内容迭代快,敏感词库更新有延迟。(2)敏感词匹配的方式可能会“误伤”一些无害文本,因此需要人工进行二次审核。(3)有害文本信息数量大,人工审核成本高。
后来工业界出现了基于机器学习的文本审核方法,一定程度上降低了人工审核的成本,此类方法有以下缺点:(1)基于传统机器学习的有害短文本分类方法准确率不高,这是由于社交媒体信息具有长度短、内容少的特点,传统机器学习方法非常容易误伤一些包含敏感词的无害短文本。(2)有害信息有表达不规范的特点,信息发布人会使用敏感词的变体(例如同音词)替换敏感词,基于机器学习的文本审核方法不具有识别变体的能力。(3)有害信息主题及内容更新快,需要频繁更新模型以保证模型的召回率。
发明内容
为了解决现有技术中的上述问题,即如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题,本发明提供了一种融合变体词识别的短文本审核方法,所述方法包括:
步骤S100,构建配置词库;所述配置词库的配置包括:敏感词、变体词及其组合,其中敏感词还包括目标词;
步骤S200,基于社交媒体平台获取待审核文本数据;
步骤S300,基于所述配置词库的配置对待审核文本数据进行筛选,获得可疑文本数据;
步骤S400,对所述可疑文本数据进行去除无意义信息的预处理,获得有效可疑文本数据;
步骤S500,通过预设的文本特征提取方法获取所述有效可疑文本数据的文本特征向量,通过正则表达式获取所述有效可疑文本数据的统计特征向量;
步骤S600,将所述文本特征向量和统计特征向量进行特征融合,生成最终特征矩阵;
步骤S700,基于所述最终特征矩阵,通过训练好的基于支持向量机的有害文本分类模型,获得所述最终特征矩阵对应的有效可疑文本数据为有害文本的有害概率;
步骤S800,将所述有害概率大于预设的有害阈值的对应的有效可疑文本数据设定为有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词,将所述敏感词写入所述配置词库,当敏感词个数大于1时,用^把敏感词拼接起来,将拼接后的敏感词写入所述配置词库;所述预设的关键词抽取算法包括TextRank、TF-IDF和基于规则统计的方法中的一个或多个。
进一步地,所述对可疑文本数据进行去除无意义信息的预处理,其方法包括:文本去噪、文本清洗、同类别信息归一化、分词断句和去除停用词中的一种或多种;
所述文本去噪,其方法为通过正则表达式删除所述可疑文本数据中的对中文分词无帮助的特殊符号;
所述文本清洗,其方法为将所述可疑文本数据中的繁体字转化为简体字,将标点符号转化为半角形式的标点符号,将大写英文字母转换为小写英文字母;
所述同类别信息归一化,其方法为利用正则表达式,对所述可疑文本数据中的微信号、qq号、银行账号、网址、邮箱、手机号码和表情符号进行归并,使用统一名称替换;
所述分词断句,其方法为基于分词算法和分词词表将连续的字序列组合成词序列;所述分词算法为基于前缀词典的词图扫描算法、隐马尔科夫算法、动态规划算法中的一种或是多种的叠加;
所述去除停用词,其方法为将所述可疑文本数据中属于预先设定的停用词表中的词汇删除。
进一步地,步骤S400和步骤S500之间还设置有自动更新配置词库的步骤,包括:
步骤S400A,基于所述目标词,通过预设的变体词算法获取所述有效可疑文本数据中变体词;所述变体词包括字音变体词、字形变体词、数字类变体词和拼音类变体词;
步骤S400B,将所述变体词加入分词词表和所述配置词库;
其中,步骤S400A包括:
步骤S410A,基于所述可疑文本数据,通过汉语语言模型,获取所有与所述目标词长度相同的连续子字符串序列;
步骤S420A,计算所述连续子字符串序列中的子字符串与目标词的字音相似度和字形相似度;
步骤S430A,将字音相似度大于预设的字音变体阈值的子字符串作为字音变体词,将字形相似度大于预设的字形变体阈值的子字符串作为字形变体词。
进一步地,所述字音相似度,其计算方法为:
将所述目标词与子字符串拆解成单字序列;
通过汉字拼音转化模块将每个单字转化为汉语拼音,其中汉语拼音由声母和韵母组成;
基于预设的汉语声母、韵母相似度字典,计算所述子字符串对应的单字与所述目标词对应的单字的声母相似度和韵母相似度,通过加权平均的方法得到子字符串和目标词的字音相似度。
进一步地,所述字形相似度,其计算方法为:
将所述目标词与子字符串拆解成单字序列;
获取每个单字的四角码、汉字笔画数;
计算对应的单字的四角码相似度、汉字笔画数相似度和结构相似度,通过加权平均的方法获得对应单字的字形相似度。
进一步地,步骤S410A之后还设置有数字类变体词和拼音类变体词筛选步骤;
所述数字类变体词获取,其方法为:基于所述目标词,获取所述子字符串中包含中文数字的目标词,将所述中文数字转化为阿拉伯数字,将包含所述阿拉伯数字的目标词作为数字类变体词;
所述拼音类变体词获取,其方法为:基于所述目标词,当目标词的长度为n时,保留原有字序,在子字符串中取r个子字符,其中1≤r≤n,将所述子字符转化为拼音或拼音首字母,将包含与目标词相同的拼音或拼音首字母的字符小组作为拼音类变体词。
进一步地,所述文本特征提取方法包括:
通过训练好的TF-IDF词典计算所述有效可疑文本的文本特征向量。具体的,IDF值由TF-IDF词典中词项的idf值决定,而tf值由测试文本自身决定。
进一步地,所述统计特征向量,包括:变体词个数、文本长度、实体个数、数字占比、字母占比、特殊字符占比、动词个数、名词个数、相同字符的比例。变体词个数通过变体词库计算获得。
进一步地,步骤S600包括:将所述文本特征向量和统计特征向量通过横向拼接的方式融合。
进一步地,所述训练好的基于支持向量机的有害文本分类模型,其训练方法为:
步骤B100,基于社交媒体平台获取训练数据;
步骤B200,通过配置匹配和输入指令的方式对所述训练数据添加有害文本和无害文本的标签;
B300,通过步骤S400-步骤S600对应的方法,获取所述训练数据的最终特征矩阵;
步骤B400,基于所述训练数据的最终特征矩阵,通过Python网格搜索,对基于支持向量机的分类模型进行调参,直至损失函数收敛,获得训练好的基于支持向量机的有害文本分类模型。
进一步地,步骤S800中利用预设的关键词抽取算法获取所述有害文本的敏感词之前,将文本中出现的还包括:
步骤S801,设定白名单库;
步骤S802,将所述有害文本与白名单库的数据进行比较,将不完全一致的有害文本作为最终的有害文本。
本发明第二方面请求保护一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的融合变体词识别的短文本审核方法。
本发明第三方面请求保护一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的融合变体词识别的短文本审核方法。
本发明的有益效果:
(1)本发明融合变体词识别的短文本审核方法,通过将变体词识别融合到文本特征和统计特征的计算中,再将包含了变体词信息的文本特征和统计特征通过基于支持向量机的分类模型进行分类,提高了文本审核的准确性,避免了用户恶意规避检查而造成漏检;
(2)本发明融合变体词识别的短文本审核方法,通过将文本特征和统计特征融合的方式结合基于支持向量机的分类模型对社交平台中的文本数据进行有害文本的审核,提高了找出有害文本的准确性,避免无害文本误判和有害文本漏判;
(3)本发明融合变体词识别的短文本审核方法,通过结合变体词识别算法,识别目标词及其变体词,提高了有害文本审核的准确性,避免用户恶意规避检查而造成漏检;
(4)本发明融合变体词识别的短文本审核方法,通过将识别出的变体词和目标词词自动加入配置词库,引入了自动更新机制,改善了文本审核的系统召回率,加快了迭代速度;
(5)本发明融合变体词识别的短文本审核方法,通过设置白名单自由定制,降低了误判的可能性。
(6)本发明融合变体词识别的短文本审核方法,训练数据构建方式比较特别,使得训练出的分类器不仅能很好的区分正常文本和有害文本,同时可以区分可疑无害文本和有害文本,避免了因为短文中存在敏感词但是全文属于无害文本而被错误屏蔽的情况。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明融合变体词识别的短文本审核方法实施例的流程示意图;
图2是本发明融合变体词识别的短文本审核方法实施例中的基于支持向量机的有害文本分类模型训练的流程示意图;
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种融合变体词识别技术和特征向量分析的文本审核方法,本方法包括:
步骤S100,构建配置词库;所述配置词库的配置包括:敏感词、变体词,其中敏感词还包括目标词;
步骤S200,基于社交媒体平台获取待审核文本数据;
步骤S300,基于所述配置词库的配置对待审核文本数据进行筛选,获得可疑文本数据;
步骤S400,对所述可疑文本数据进行去除无意义信息的预处理,获得有效可疑文本数据;
步骤S500,通过预设的文本特征提取方法获取所述有效可疑文本数据的文本特征向量,通过正则表达式获取所述有效可疑文本数据的统计特征向量;
步骤S600,将所述文本特征向量和统计特征向量进行特征融合,生成最终特征矩阵;
步骤S700,基于所述最终特征矩阵,通过训练好的基于支持向量机的有害文本分类模型,获得所述最终特征矩阵对应的有效可疑文本数据为有害文本的有害概率;
步骤S800,将所述有害概率大于预设的有害阈值的对应的有效可疑文本数据设定为有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词,将所述敏感词写入所述配置词库,当敏感词个数大于1时,用^把敏感词拼接起来,将拼接后的敏感词写入所述配置词库;所述预设的关键词抽取算法包括TextRank、TF-IDF和基于规则统计的方法中的一个或多个。
为了更清晰地对本发明融合变体词识别技术和特征向量分析的文本审核方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。
本发明一种实施例的融合变体词识别技术和特征向量分析的文本审核方法,包括步骤S100-步骤S800,各步骤详细描述如下:
步骤S100,构建配置词库;所述配置词库的配置包括:敏感词、变体词,其中敏感词还包括目标词;
在本实施例中,敏感词是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语。
在本实施例中,所述配置词库中的配置是从过往有害文本中提炼出的敏感词,包括领域相近的敏感词或者敏感词组合。其中领域可以是政治、赌博、色情等领域;组合指AND(与)搜索逻辑关系。例如,配置可以是单个词,例如“辣鸡”、“伽溦”;也可以是词语组合,例如“网址^零风险”、“下单^领取^网址”、“彩飘^买即送”,后一种情况更为常见。配置中的词语可以是有害的(自焚)、敏感词(加微)、或者变体词(伽溦)。对于多个词构成的配置,例如“网址^零风险”,当文本中同时出现“网址”和“零风险”时,文本命中配置。包含配置的文本可能是无害的,例如当配置为“辣鸡”时,“厨师长教你香辣鸡块的做法,开胃解馋,越吃越过瘾”是无害的,也可能是有害的,例如“什么辣鸡审美,简直太畸形了!”。因此当文本中出现所述配置,认为文本为可疑文本,需要通过文本分类算法,进一步判定其性质。
步骤S200,基于社交媒体平台获取待审核文本数据;
步骤S300,基于所述配置词库的配置对待审核文本数据进行筛选,获得可疑文本数据;
步骤S400,对所述可疑文本数据进行去除无意义信息的预处理,获得有效可疑文本数据;
所述对可疑文本数据进行去除无意义信息的预处理,其方法包括:文本去噪、文本清洗、同类别信息归一化、分词断句和去除停用词中的一种或多种;
所述文本去噪,其方法为通过正则表达式删除所述可疑文本数据中的对中文分词无帮助的特殊符号;
在本实施例中,中文标点符号中的句号、逗号、问号、感叹号、冒号、顿号、分号是重要的标点,应该被保留;对中文分词无帮助的特殊符号包括英文标点、编号序号、数学符号、符号图案、空格、数字、表情符号,需要被删除。
有害信息的发布者为了躲避审查机制,故意对文本中的敏感词进行变形,使用所述符号对原有关键词进行分割,例如“网#址”“游`戏”“彩票”。删除这些句子成分有助于后续正确分词,而且减小了文本噪声。
所述文本清洗,其方法为将所述可疑文本数据中的繁体字转化为简体字,将标点符号转化为半角形式的标点符号,将大写英文字母转换为小写英文字母,仅保留汉字和英文;
所述同类别信息归一化,其方法为利用正则表达式,对所述可疑文本数据中的微信号、qq号、银行账号、网址、邮箱、手机号码和表情符号进行归并,使用统一名称替换;
例如,对于没有经过任何处理的短文本,对使用正则获得的网址信息统一用中文词“网址”替换。
所述分词断句,其方法为基于分词算法和分词词表将连续的字序列组合成词序列;所述分词算法为基于前缀词典的词图扫描算法、隐马尔科夫算法、动态规划算法中的一种或是多种的叠加;以上举例仅为方便对本发明的分词断句过程的理解,不作为对本发明的具体限定;
在本实施例中,采取设置分词词表的措施辅助分词,来增强歧义纠错能力,提升分词准确率。词表包括容易被分错的新词或者未登录词,例如领域相关的专有名词(如人名、机构、事件)、辱骂词语、变体词、网络用语等。
所述去除停用词,其方法为将所述可疑文本数据中属于预先设定的停用词表中的词汇删除;
在本实施例中,人工构建一个停用词表,在特征抽取前删除停用词表中的词;其中停用词指在各类文档中频繁出现的,附带极少语义信息的功能词;常见停用词类型有连词、副词、介词、助词、语气词,例如“的”“了”“啊”“哈哈”等;停用词在文本中大量出现且对区分文本类别没有帮助,因此在文本表示时将它去掉;短文本长度较短,一般在180个字以内,其中有意义的词汇可能只有十几个,因此在构建停用词表时应谨慎,避免误删有意义的词汇,造成信息丢失。
在本实施例中,步骤S400和步骤S500之间还设置有自动更新配置词库的步骤,包括:步骤S400A,基于所述敏感词,通过预设的变体词算法获取所述有效可疑文本数据中变体词;所述变体词包括字音变体词、字形变体词、数字类变体词和拼音类变体词;
在本实施例中,变体词指有害信息发布者出于躲避审核机制、表达情感的目的,通过更换某个字的方式,对一些严肃、敏感的词做了一些变形,用不敏感的词代替,这些代替的词被称为变体词,被代替的词称为目标词,目标词是敏感词的子集,主要包括领域相关的敏感人物、地点、事件、组织、游戏、行为等。目标词社交媒体文本中常见的变体词类别及其示例如下:
类别 | 示例 |
汉字异序 | 小米手机:小米机手 |
字音相似 | 网址:旺址 |
字形相似 | 下载:丅载 |
汉语拼音缩写 | 章子怡:章Z怡、Zhang子yi |
数字代替字词 | 六合彩:⑥合彩 |
拆字 | 低俗:亻氐亻谷 |
其他 | 加微:+v |
由于变体词在有害短文本中出现频率非常高,且可以轻松躲避目标词匹配机制,如何识别变体词成为了文本审核任务的一个关键点。
所述步骤S400A包括步骤S410A-S430A:
判断待检测可疑文本“下载棋盘游戏,邻取彩金。”中是否包含目标词“领取”的变体词,可以采用如下方式:
去除可疑文本中的标点符号,保留文字“下载棋盘游戏邻取彩金”。
步骤S410A,基于所述可疑文本数据,通过汉语语言模型,获取所有与所述目标词长度相同的连续子字符串序列;
在本实施例中,采用N-GARM模型将子字符串拆解成单字序列。例如“棋盘游戏丅载app领取彩金100元”被拆解为“下载”、“载棋”、“棋盘”、“盘游”、“游戏”、“戏邻”、“邻取”、“取彩”、“彩金”。
在本实施例中,步骤S410A之后还设置有数字类变体词和拼音类变体词筛选步骤;
所述数字类变体词获取,其方法为:基于所述目标词,获取所述子字符串中包含中文数字的目标词,将所述中文数字转化为阿拉伯数字,将包含所述阿拉伯数字的目标词作为数字类变体词;
所述拼音类变体词获取,其方法为:基于所述目标词,当目标词的长度为n时,保留原有字序,在子字符串中取r个子字符,其中1≤r≤n,将所述子字符转化为拼音或拼音首字母,将包含与目标词相同的拼音或拼音首字母的字符小组作为拼音类变体词。
步骤S420A,计算所述连续子字符串序列中的子字符串与目标词的字音相似度和字形相似度;
所述字音相似度,其计算方法为:将所述目标词与子字符串拆解成单字序列;通过汉字拼音转化模块将每个单字转化为汉语拼音,其中汉语拼音由声母和韵母组成;基于预设的汉语声母、韵母相似度字典,计算子字符串对应的单字与所述目标词对应的单字的声母相似度和韵母相似度,加权平均的方法得到子字符串和目标词的字音相似度。
举例来说,针对目标词“领取”和子字符串“邻取”,分别将单字序列“领”“取”以及“邻”“取”转化为汉语拼音“ling”“qu”和“lin”“qu”;根据经验,“ling”和“lin”属于声母相同,韵母相近的情况,给予相似度0.8,“qu”和“qu”的声母、韵母完全相同,给与相似度1,取单字相似度均值作为词相似度。
所述字形相似度,其计算方法为:将所述目标词与子字符串拆解成单字序列;获取每个单字的四角码、汉字笔画数;计算对应的单字的四角码相似度、汉字笔画数相似度和结构相似度,通过加权平均的方法获得对应单字的字形相似度。
步骤S430A,将字音相似度大于预设的字音变体阈值的子字符串作为字音变体词,将字形相似度大于预设的字形变体阈值的子字符串作为字形变体词;
在本实施例中,若在社交媒体文本信息中出现数字类变体词和拼音类变体词则将数字类变体词和拼音类变体词还原为对应的目标词,继续进行审核;
若在社交媒体文本信息中出现此类变体词,则将文本中的变体词还原为对应的目标词;
举例说明,目标词“法院”的拼音类变体词可以是“fa院”。
步骤S400B,将所述变体词加入分词词表和所述配置词库;
可通过人工复审的方法提升变体词识别算法的准确率。
步骤S500,通过预设的文本特征提取方法获取所述有效可疑文本数据的文本特征向量,通过正则表达式获取所述有效可疑文本数据的统计特征向量;
在本实施例中,通过TF-IDF融合3-gram语言模型获取样本的文本特征,保存训练好点的TF-IDF词典;利用正则表达式,计算文本的统计特征;拼接所述文本特征向量和统计特征,获得训练样本最终特征向量表示。
本实施例中通过把变体词的个数作为统计特征,以及把变体词写入用户定义的分词词表的方式,将变体词识别结果融入模型;其中,把变体词写入用户定义的分词词表能够大大提升分词的准确率。变体词属于新词的一种,传统分词工具很难将变体词正确分词。例如,“彩金”属于赌博类的关键词,但是变体词“彩釒”会被分为“彩”“釒”,丢失了其本来的语义,写入用户定义的分词词表提升了分词的准确率,使变体词可以作为文本特征被赋予权重,提升了短文本语义丰富性;
在本实施例中,所述文本特征提取方法包括:通过训练好的TF-IDF词典计算获取所述有效可疑文本的文本特征向量。
在本实施例中,所述统计特征向量,包括:变体词个数、文本长度、实体个数、数字占比、字母占比、特殊字符占比、动词个数、名词个数、相同字符的比例。
上述所举例的统计特征向量的要素仅为使本发明的统计特征向量便于理解,不作为本发明统计特征向量的具体限定。
步骤S600,将所述文本特征向量和统计特征向量进行特征融合,生成最终特征矩阵;
在本实施例中,将所述文本特征向量和统计特征向量通过横向拼接的方式融合。
步骤S700,基于所述最终特征矩阵,通过训练好的基于支持向量机的有害文本分类模型,获得所述最终特征矩阵对应的有效可疑文本数据为有害文本的有害概率;
支持向量机算法是一种有坚实理论基础的分类方法,基于特征的SVM模型可以提高模型判别的准确率。
步骤S800,将所述有害概率大于预设的有害阈值的对应的有效可疑文本数据设定为有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词,将所述敏感词写入所述配置词库,当敏感词个数大于1时,用^把敏感词拼接起来,将拼接后的敏感词写入所述配置词库;所述预设的关键词抽取算法包括TextRank、TF-IDF和基于规则统计的方法中的一个或多个;
当文本中关键词个数>1时,用^把关键词拼接起来,作为配置。所述预设的关键词抽取算法包括TextRank、TF-IDF和基于规则统计的方法中的一个或多个。
在本实施例中,所述训练好的基于支持向量机的有害文本分类模型,如图2所示其训练方法为:
步骤B100,基于社交媒体平台获取训练数据;
步骤B200,通过配置匹配和输入指令的方式对所述训练数据添加有害文本和无害文本的标签;
所述输入指令的方式为经人工审核后对方法暂时无法准确判断的文本添加有害文本和无害文本的标签。
获取待处理的社交媒体信息数据;根据预设的配置词库,获取匹配到配置的可疑文本;通过人工审核的方式对候选文本进行打标,获得一批高质量的带标签的有害样本,候选文本剩下的部分作为无害样本,有害样本和无害样本组成训练样本。
步骤B300,通过步骤S400-步骤S600对应的方法,获取所述训练数据的最终特征矩阵;步骤B400,基于所述训练数据的最终特征矩阵,通过Python网格搜索,对基于支持向量机的分类模型进行调参,直至损失函数收敛,获得训练好的基于支持向量机的有害文本分类模型。
本实施例通过TF-IDF结合3元语法的文本向量表示方法获取所述文本特征向量。TFIDF计算公式就是TF和IDF的乘积,TF是词频(Term Frequency)指的是某个词语i在文本j中出现的频率:具体的表示如公式(1)所示:
ni,j:词语i在文本j中出现的次数
k:文本k包含的词语个数
IDF是指逆文本频率指数(Inverse Document Frequency),是一个词语普遍重要性的度量,具体表示如公式(2)所示:
|D|指总文本数
|{j:ti∈dj}|指包含词语i的文档数
若词ti在所有文档中均未出现,则IDF公式中的分母为0;因此需要对IDF做平滑(smooth):
TFIDF的主要思想是:如果某个词在一条短文本中出现的TF高,并且在其他文章中很少出现(IDF高),则认为此词或者短语具有很好的类别区分能力。社交媒体文本受其长度的限制,通常关键词的出现次数比较小,因此发挥主要作用的是IDF,即某个单词或词组在语料中的区分度。TF-IDF有一个缺点,它认为词与词之间是相互独立的,因此损失了词的顺序信息。本发明结合3-gram思想,不仅考虑单个词的TF-IDF,也考虑两个词和三个词组成的短语的TF-IDF分值,这种表示方法的好处是可以获取更丰富的特征,保留词序信息。
在本实施例中,步骤S800还包括:
步骤S801,设定白名单库;
步骤S802,将所述有害文本与白名单库的数据进行比较,将不完全一致的有害文本作为最终的有害文本。
本发明第二实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的融合变体词识别技术和特征向量分析的文本审核方法。
本发明第三实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的融合变体词识别技术和特征向量分析的文本审核方法。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (13)
1.一种融合变体词识别的短文本审核方法,其特征在于,所述方法包括:
步骤S100,构建配置词库;所述配置词库的配置包括:敏感词、变体词及其组合,其中敏感词还包括目标词;
步骤S200,基于社交媒体平台获取待审核文本数据;
步骤S300,基于所述配置词库的配置对待审核文本数据进行筛选,获得可疑文本数据;
步骤S400,对所述可疑文本数据进行去除无意义信息的预处理,获得有效可疑文本数据;
步骤S500,通过预设的文本特征提取方法获取所述有效可疑文本数据的文本特征向量,通过正则表达式获取所述有效可疑文本数据的统计特征向量;
步骤S600,将所述文本特征向量和统计特征向量进行特征融合,生成最终特征矩阵;
步骤S700,基于所述最终特征矩阵,通过训练好的基于支持向量机的有害文本分类模型,获得所述最终特征矩阵对应的有效可疑文本数据为有害文本的有害概率;
步骤S800,将所述有害概率大于预设的有害阈值的对应的有效可疑文本数据设定为有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词,将所述敏感词写入所述配置词库,当敏感词个数大于1时,用^把敏感词拼接起来,将拼接后的敏感词写入所述配置词库;所述预设的关键词抽取算法包括TextRank、TF-IDF和基于规则统计的方法中的一个或多个。
2.根据权利要求1所述的融合变体词识别的短文本审核方法,所述对可疑文本数据进行去除无意义信息的预处理,其方法包括:文本去噪、文本清洗、同类别信息归一化、分词断句和去除停用词中的一种或多种;
所述文本去噪,其方法为通过正则表达式删除所述可疑文本数据中的对中文分词无帮助的特殊符号;
所述文本清洗,其方法为将所述可疑文本数据中的繁体字转化为简体字,将标点符号转化为半角形式的标点符号,将大写英文字母转换为小写英文字母;
所述同类别信息归一化,其方法为利用正则表达式,对所述可疑文本数据中的微信号、qq号、银行账号、网址、邮箱、手机号码和表情符号进行归并,使用统一名称替换;
所述分词断句,其方法为基于分词算法和分词词表将连续的字序列组合成词序列;所述分词算法为基于前缀词典的词图扫描算法、隐马尔科夫算法、动态规划算法中的一种或是多种的叠加;
所述去除停用词,其方法为将所述可疑文本数据中属于预先设定的停用词表中的词汇删除。
3.根据权利要求2所述的融合变体词识别的短文本审核方法,其特征在于,步骤S400和步骤S500之间还设置有自动更新配置词库的步骤,包括:
步骤S400A,基于所述目标词,通过预设的变体词算法获取所述有效可疑文本数据中变体词;所述变体词包括字音变体词、字形变体词、数字类变体词和拼音类变体词;
步骤S400B,将所述变体词加入分词词表和所述配置词库;
其中,步骤S400A包括:
步骤S410A,基于所述可疑文本数据,通过汉语语言模型,获取所有与所述目标词长度相同的连续子字符串序列;
步骤S420A,计算所述连续子字符串序列中的子字符串与目标词的字音相似度和字形相似度;
步骤S430A,将字音相似度大于预设的字音变体阈值的子字符串作为字音变体词,将字形相似度大于预设的字形变体阈值的子字符串作为字形变体词。
4.根据权利要求3所述的融合变体词识别的短文本审核方法,其特征在于,所述字音相似度,其计算方法为:
将所述目标词与子字符串拆解成单字序列;
通过汉字拼音转化模块将每个单字转化为汉语拼音,其中汉语拼音由声母和韵母组成;
基于预设的汉语声母、韵母相似度字典,计算所述子字符串对应的单字与所述目标词对应的单字的声母相似度和韵母相似度,通过加权平均的方法得到子字符串和目标词的字音相似度。
5.根据权利要求3所述的融合变体词识别的短文本审核方法,其特征在于,所述字形相似度,其计算方法为:
将所述目标词与子字符串拆解成单字序列;
获取每个单字的四角码、汉字笔画数;
计算对应的单字的四角码相似度、汉字笔画数相似度和结构相似度,通过加权平均的方法获得对应单字的字形相似度。
6.根据权利要求3所述的融合变体词识别的短文本审核方法,其特征在于,步骤S410A之后还设置有数字类变体词和拼音类变体词筛选步骤;
所述数字类变体词获取,其方法为:基于所述目标词,获取所述子字符串中包含中文数字的目标词,将所述中文数字转化为阿拉伯数字,将包含所述阿拉伯数字的目标词作为数字类变体词;
所述拼音类变体词获取,其方法为:基于所述目标词,当目标词的长度为n时,保留原有字序,在子字符串中取r个子字符,其中1≤r≤n,将所述子字符转化为拼音或拼音首字母,将包含与目标词相同的拼音或拼音首字母的字符小组作为拼音类变体词。
7.根据权利要求3所述的融合变体词识别的短文本审核方法,其特征在于,所述文本特征提取方法包括:
通过训练好的TF-IDF词典计算所述有效可疑文本的文本特征向量。
8.根据权利要求3所述的融合变体词识别的短文本审核方法,其特征在于,所述统计特征向量,包括:变体词个数、文本长度、实体个数、数字占比、字母占比、特殊字符占比、动词个数、名词个数、相同字符的比例。
9.根据权利要求3所述的融合变体词识别的短文本审核方法,其特征在于,步骤S600包括:将所述文本特征向量和统计特征向量通过横向拼接的方式融合。
10.根据权利要求1所述的融合变体词识别的短文本审核方法,其特征在于,所述训练好的基于支持向量机的有害文本分类模型,其训练方法为:
步骤B100,基于社交媒体平台获取训练数据;
步骤B200,通过配置匹配和输入指令的方式对所述训练数据添加有害文本和无害文本的标签;
步骤B300,通过步骤S400-步骤S600对应的方法,获取所述训练数据的最终特征矩阵;
步骤B400,基于所述训练数据的最终特征矩阵,通过Python网格搜索,对基于支持向量机的分类模型进行调参,直至损失函数收敛,获得训练好的基于支持向量机的有害文本分类模型。
11.根据权利要求1所述的融合变体词识别的短文本审核方法,其特征在于,步骤S800中利用预设的关键词抽取算法获取所述有害文本的敏感词之前还包括:
步骤S801,设定白名单库;
步骤S802,将所述有害文本与白名单库的数据进行比较,将不完全一致的有害文本作为最终的有害文本。
12.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-11任一项所述的融合变体词识别的短文本审核方法。
13.一种处理装置,包括处理器,适于执行各条程序;以及存储装置,适于存储多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-11任一项所述的融合变体词识别的短文本审核方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011192254.XA CN112287684A (zh) | 2020-10-30 | 2020-10-30 | 融合变体词识别的短文本审核方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011192254.XA CN112287684A (zh) | 2020-10-30 | 2020-10-30 | 融合变体词识别的短文本审核方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287684A true CN112287684A (zh) | 2021-01-29 |
Family
ID=74354212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011192254.XA Pending CN112287684A (zh) | 2020-10-30 | 2020-10-30 | 融合变体词识别的短文本审核方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287684A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989838A (zh) * | 2021-05-17 | 2021-06-18 | 北京智慧易科技有限公司 | 文本联系实体提取方法、装置、设备及可读存储介质 |
CN113127715A (zh) * | 2021-03-04 | 2021-07-16 | 微梦创科网络科技(中国)有限公司 | 一种对涉赌信息进行识别的方法及系统 |
CN113408270A (zh) * | 2021-06-10 | 2021-09-17 | 广州三七极创网络科技有限公司 | 变体文本的识别方法、装置及电子设备 |
CN113486656A (zh) * | 2021-07-16 | 2021-10-08 | 支付宝(杭州)信息技术有限公司 | 一种语料生成方法及装置 |
CN113591464A (zh) * | 2021-07-28 | 2021-11-02 | 百度在线网络技术(北京)有限公司 | 变体文本检测方法、模型训练方法、装置及电子设备 |
CN114020651A (zh) * | 2022-01-06 | 2022-02-08 | 深圳市明源云科技有限公司 | 基于接口地址去重方法、装置、设备及可读存储介质 |
CN114091436A (zh) * | 2022-01-21 | 2022-02-25 | 万商云集(成都)科技股份有限公司 | 一种基于决策树及变体识别的敏感词检测方法 |
CN115809662A (zh) * | 2023-02-03 | 2023-03-17 | 北京匠数科技有限公司 | 一种文本内容异常检测的方法、装置、设备及介质 |
CN116628584A (zh) * | 2023-07-21 | 2023-08-22 | 国网智能电网研究院有限公司 | 电力敏感数据处理方法、装置、电子设备及存储介质 |
CN117435692A (zh) * | 2023-11-02 | 2024-01-23 | 北京云上曲率科技有限公司 | 一种基于变体对抗敏感文本识别方法和系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000268034A (ja) * | 1999-03-16 | 2000-09-29 | Sharp Corp | テキスト自動前編集装置及び方法並びにこれに利用される記憶媒体 |
US20050283540A1 (en) * | 2004-06-02 | 2005-12-22 | Vadim Fux | Handheld electronic device with text disambiguation |
CN101324883A (zh) * | 2008-07-31 | 2008-12-17 | 电子科技大学 | 一种变异关键词的提取方法 |
CN105574090A (zh) * | 2015-12-10 | 2016-05-11 | 北京中科汇联科技股份有限公司 | 一种敏感词过滤方法及系统 |
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
CN109408824A (zh) * | 2018-11-05 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN109873755A (zh) * | 2019-03-02 | 2019-06-11 | 北京亚鸿世纪科技发展有限公司 | 一种基于变体词识别技术的垃圾短信分类引擎 |
CN109977416A (zh) * | 2019-04-03 | 2019-07-05 | 中山大学 | 一种多层次自然语言反垃圾文本方法及系统 |
CN110298041A (zh) * | 2019-06-24 | 2019-10-01 | 北京奇艺世纪科技有限公司 | 垃圾文本过滤方法、装置、电子设备及存储介质 |
CN111368535A (zh) * | 2018-12-26 | 2020-07-03 | 珠海金山网络游戏科技有限公司 | 一种敏感词识别方法、装置及设备 |
CN111738011A (zh) * | 2020-05-09 | 2020-10-02 | 完美世界(北京)软件科技发展有限公司 | 违规文本的识别方法及装置、存储介质、电子装置 |
-
2020
- 2020-10-30 CN CN202011192254.XA patent/CN112287684A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000268034A (ja) * | 1999-03-16 | 2000-09-29 | Sharp Corp | テキスト自動前編集装置及び方法並びにこれに利用される記憶媒体 |
US20050283540A1 (en) * | 2004-06-02 | 2005-12-22 | Vadim Fux | Handheld electronic device with text disambiguation |
CN101324883A (zh) * | 2008-07-31 | 2008-12-17 | 电子科技大学 | 一种变异关键词的提取方法 |
CN105574090A (zh) * | 2015-12-10 | 2016-05-11 | 北京中科汇联科技股份有限公司 | 一种敏感词过滤方法及系统 |
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
CN109408824A (zh) * | 2018-11-05 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN111368535A (zh) * | 2018-12-26 | 2020-07-03 | 珠海金山网络游戏科技有限公司 | 一种敏感词识别方法、装置及设备 |
CN109873755A (zh) * | 2019-03-02 | 2019-06-11 | 北京亚鸿世纪科技发展有限公司 | 一种基于变体词识别技术的垃圾短信分类引擎 |
CN109977416A (zh) * | 2019-04-03 | 2019-07-05 | 中山大学 | 一种多层次自然语言反垃圾文本方法及系统 |
CN110298041A (zh) * | 2019-06-24 | 2019-10-01 | 北京奇艺世纪科技有限公司 | 垃圾文本过滤方法、装置、电子设备及存储介质 |
CN111738011A (zh) * | 2020-05-09 | 2020-10-02 | 完美世界(北京)软件科技发展有限公司 | 违规文本的识别方法及装置、存储介质、电子装置 |
Non-Patent Citations (3)
Title |
---|
SOPAN KHOSHA ETAL: "Incorporating Multi-Level Features for Multi-Granular Propaganda Span Identification", Retrieved from the Internet <URL:https://xueshu.baidu.com/usercenter/paper/show?paperid=13040jr0a2460800nr2m0jr0g7020366&site=xueshu_se> * |
王毅 等: "基于向量空间模型的毕业论文 相似性辨识研究", 科学技术与工程, vol. 7, no. 9, 31 May 2007 (2007-05-31), pages 2111 - 2113 * |
赵菲菲 等: "个人信息保护政策网络评价的 文本分析建模研究", 情报杂志, vol. 39, no. 8, 31 August 2020 (2020-08-31), pages 154 - 159 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127715A (zh) * | 2021-03-04 | 2021-07-16 | 微梦创科网络科技(中国)有限公司 | 一种对涉赌信息进行识别的方法及系统 |
CN112989838A (zh) * | 2021-05-17 | 2021-06-18 | 北京智慧易科技有限公司 | 文本联系实体提取方法、装置、设备及可读存储介质 |
CN113408270A (zh) * | 2021-06-10 | 2021-09-17 | 广州三七极创网络科技有限公司 | 变体文本的识别方法、装置及电子设备 |
CN113408270B (zh) * | 2021-06-10 | 2023-02-10 | 广州三七极创网络科技有限公司 | 变体文本的识别方法、装置及电子设备 |
CN113486656B (zh) * | 2021-07-16 | 2023-11-10 | 支付宝(杭州)信息技术有限公司 | 一种语料生成方法及装置 |
CN113486656A (zh) * | 2021-07-16 | 2021-10-08 | 支付宝(杭州)信息技术有限公司 | 一种语料生成方法及装置 |
CN113591464A (zh) * | 2021-07-28 | 2021-11-02 | 百度在线网络技术(北京)有限公司 | 变体文本检测方法、模型训练方法、装置及电子设备 |
CN113591464B (zh) * | 2021-07-28 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 变体文本检测方法、模型训练方法、装置及电子设备 |
CN114020651A (zh) * | 2022-01-06 | 2022-02-08 | 深圳市明源云科技有限公司 | 基于接口地址去重方法、装置、设备及可读存储介质 |
CN114091436A (zh) * | 2022-01-21 | 2022-02-25 | 万商云集(成都)科技股份有限公司 | 一种基于决策树及变体识别的敏感词检测方法 |
CN115809662A (zh) * | 2023-02-03 | 2023-03-17 | 北京匠数科技有限公司 | 一种文本内容异常检测的方法、装置、设备及介质 |
CN116628584A (zh) * | 2023-07-21 | 2023-08-22 | 国网智能电网研究院有限公司 | 电力敏感数据处理方法、装置、电子设备及存储介质 |
CN117435692A (zh) * | 2023-11-02 | 2024-01-23 | 北京云上曲率科技有限公司 | 一种基于变体对抗敏感文本识别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287684A (zh) | 融合变体词识别的短文本审核方法及装置 | |
US8538745B2 (en) | Creating a terms dictionary with named entities or terminologies included in text data | |
US8275600B2 (en) | Machine learning for transliteration | |
US8463598B2 (en) | Word detection | |
CA2642217C (en) | Method and system for verification of uncertainly recognized words in an ocr system | |
US8380488B1 (en) | Identifying a property of a document | |
US20110071817A1 (en) | System and Method for Language Identification | |
US20110144992A1 (en) | Unsupervised learning using global features, including for log-linear model word segmentation | |
CN108628822B (zh) | 无语义文本的识别方法及装置 | |
CN111554272A (zh) | 一种面向中文语音识别的语言模型建模方法 | |
US7328404B2 (en) | Method for predicting the readings of japanese ideographs | |
CN113076748A (zh) | 弹幕敏感词的处理方法、装置、设备及存储介质 | |
EP2653981A1 (en) | Natural language processing device, method, and program | |
Chen et al. | Integrating natural language processing with image document analysis: what we learned from two real-world applications | |
EP1471440A2 (en) | System and method for word analysis | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
Barrón-Cedeño et al. | Word length n-Grams for text re-use detection | |
Singh et al. | Review of real-word error detection and correction methods in text documents | |
Muhamad et al. | Proposal: A hybrid dictionary modelling approach for malay tweet normalization | |
CN116450896A (zh) | 文本模糊匹配方法、装置、电子设备及可读存储介质 | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
CN105511636B (zh) | 改进的全部汉字汉词简易无重码统一输入法 | |
CN113987172A (zh) | 恶意评论识别方法、装置、系统及计算机可读存储介质 | |
Mohapatra et al. | Spell checker for OCR | |
JP3975825B2 (ja) | 文字認識誤り訂正方法、装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |