CN113127715A - 一种对涉赌信息进行识别的方法及系统 - Google Patents
一种对涉赌信息进行识别的方法及系统 Download PDFInfo
- Publication number
- CN113127715A CN113127715A CN202110241782.8A CN202110241782A CN113127715A CN 113127715 A CN113127715 A CN 113127715A CN 202110241782 A CN202110241782 A CN 202110241782A CN 113127715 A CN113127715 A CN 113127715A
- Authority
- CN
- China
- Prior art keywords
- gambling
- text
- information
- cleaning
- betting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000001613 Gambling Diseases 0.000 title claims abstract description 236
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004140 cleaning Methods 0.000 claims abstract description 129
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000002452 interceptive effect Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000010365 information processing Effects 0.000 claims description 5
- 238000005406 washing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 12
- 238000003860 storage Methods 0.000 description 11
- 238000009825 accumulation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种对涉赌信息进行识别的方法及系统,包括:获取线上每条实时信息并且其文本转化成统一可识别文字格式且保留关键信息,得到清洗文本;针对每条清洗文本,当清洗文本中具有任一涉赌关键词时,则认定该条清洗文本与涉赌关键词库匹配成功;针对每条清洗文本,如果清洗文本中所涉及的网站地址与所述涉赌网站库中任一涉赌网站地址相同,则认定该清洗文本与涉赌网站库匹配成功;当某条清洗文本与涉赌关键词库或者涉赌网站库之一匹配成功时,则认定为涉赌信息,将该条涉赌信息设置为对其他用户不可见。分别识别信息文本和网站地址,提高对涉赌网站的命中率,即时处理涉赌信息对其他用户不可见,降低对其他用户无意伤害的几率。
Description
技术领域
本发明涉及反欺诈,具体涉及一种对涉赌信息进行识别的方法及系统。
背景技术
基于语义分析技术的赌博人员识别方法,此方法首先通过爬虫获取失信人员信息,然后使用分词和关键词匹配的方式来识别失信人员中的赌博人员,最后再通过赌博人员的其他关键信息作多维验证。
在实现本发明过程中,申请人发现现有技术中至少存在如下问题:前述方法只能通过关键词识别,无法进行网站地址识别。如果用不断积累的网站关键词去匹配涉赌网站,由于线上对抗的存在,网站关键词的积累速度无法跟上变体产生的速度。
发明内容
本发明实施例提供一种对涉赌信息进行识别的方法及系统,本涉赌内容识别方案分别识别信息文本和网站地址,高效地达成了涉赌内容的实时识别工作,提高对涉赌网站的命中率,信息发布的同时即时处理涉赌信息对其他用户不可见,降低对其他用户的无意伤害的几率。
为达上述目的,一方面,本发明实施例提供一种对涉赌信息进行识别的方法,包括:
获取信息发布互动平台的线上实时信息流,将实时信息流中的每条实时信息的文本转化成统一可识别文字格式,保留每条实时信息中的关键信息,得到每条实时信息的清洗文本;
针对每条清洗文本,将清洗文本与涉赌关键词库进行比对,当清洗文本中具有所述涉赌关键词库中任一涉赌关键词时,则认定该条清洗文本与涉赌关键词库匹配成功;其中,涉赌关键词是指涉及到与赌博相关的词语;
针对每条清洗文本,将清洗文本与涉赌网站库进行比对,如果清洗文本中所涉及的网站地址与所述涉赌网站库中任一涉赌网站地址相同,则认定该清洗文本与涉赌网站库匹配成功;
当某条清洗文本与涉赌关键词库或者涉赌网站库之一匹配成功时,则认定该条清洗文本所对应的实时信息为涉赌信息,将该条涉赌信息设置为对其他用户不可见;其中,涉赌信息是指该条信息的文本中包含与赌博相关的内容。
另一方面,本发明实施例提供一种对涉赌信息进行识别的系统,包括:
实时信息处理单元,用于获取信息发布互动平台的线上实时信息流,将实时信息流中的每条实时信息的文本转化成统一可识别文字格式,保留每条实时信息中的关键信息,得到每条实时信息的清洗文本;
第一识别单元,用于针对每条清洗文本,将清洗文本与涉赌关键词库进行比对,当清洗文本中具有所述涉赌关键词库中任一涉赌关键词时,则认定该条清洗文本与涉赌关键词库匹配成功;其中,涉赌关键词是指涉及到与赌博相关的词语;
第二识别单元,用于针对每条清洗文本,将清洗文本与涉赌网站库进行比对,如果清洗文本中所涉及的网站地址与所述涉赌网站库中任一涉赌网站地址相同,则认定该清洗文本与涉赌网站库匹配成功;
涉赌信息导流单元,用于当某条清洗文本与涉赌关键词库或者涉赌网站库之一匹配成功时,则认定该条清洗文本所对应的实时信息为涉赌信息,将该条涉赌信息设置为对其他用户不可见;其中,涉赌信息是指该条信息的文本中包含与赌博相关的内容。
上述技术方案具有如下有益效果:本涉赌内容识别方案分别识别信息文本和网站地址,高效地达成了涉赌内容的实时识别工作,提高对涉赌网站的命中率,信息发布的同时即时处理涉赌信息对其他用户不可见,降低对其他用户的无意伤害的几率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的对涉赌信息进行识别方法的流程图;
图2是本发明实施例的对涉赌信息进行识别系统的结构图;
图3是涉赌网站变体推广内容;
图4是本发明实施例的另一对涉赌信息进行识别方法的流程图;
图5是对实时信息的文本清洗详细的逻辑流程图;
图6是字母变体的示例;
图7是音近变体的示例;
图8是母形近变体的示例;
图9是同音形近字变体的示例;
图10是同音形近字匹配流程图;
图11是涉赌网站地址匹配的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,结合本发明的实施例,提供一种对涉赌信息进行识别的方法,包括:
S101:获取信息发布互动平台的线上实时信息流,将实时信息流中的每条实时信息的文本转化成统一可识别文字格式,保留每条实时信息中的关键信息,得到每条实时信息的清洗文本;
S102:针对每条清洗文本,将清洗文本与涉赌关键词库进行比对,当清洗文本中具有所述涉赌关键词库中任一涉赌关键词时,则认定该条清洗文本与涉赌关键词库匹配成功;其中,涉赌关键词是指涉及到与赌博相关的词语;
S103:针对每条清洗文本,将清洗文本与涉赌网站库进行比对,如果清洗文本中所涉及的网站地址与所述涉赌网站库中任一涉赌网站地址相同,则认定该清洗文本与涉赌网站库匹配成功;
S104:当某条清洗文本与涉赌关键词库或者涉赌网站库之一匹配成功时,则认定该条清洗文本所对应的实时信息为涉赌信息,将该条涉赌信息设置为对其他用户不可见;其中,涉赌信息是指该条信息的文本中包含与赌博相关的内容。
优选地,步骤101具体包括:
S1011:删除每条实时信息的文本中的表情符号、平台认证通过的短链接,得到每条实时信息的第一文本;
S1012:遍历第一文本的每个字符,确认第一文本的每个字符是否为相似字符词典内的字符,当第一文本中具有相似字符词典中的字符时,将第一文本中具有的该字符替换成相似字符字典中规定的相应值,将第一文本转化成具有统一可识别文字格式的相似字符替换文本;其中,相似字符的类型包括至少一种:字母变体、字母形近变体和音近变体;
S1013:使用正则表达式删除相似字符替换文本中的无效字符,得到每条实时信息的清洗文本。
优选地,步骤102具体包括:
S1021将清洗文本中的汉字转化为不包含声调的拼音序列,且将预设的分割符号设于相邻的单字拼音之间,所述分割符号用于将两个单字拼音进行分割;
S1022:将涉赌关键词库中的涉赌关键词转化为不包含声调的拼音序列,且将预设的分割符号设于相邻的单字拼音之间以便将两个单字拼音进行分割;其中,涉赌关键词包括正常关键词、以及变体关键词,所述正常关键词是指常用、且表达语义基本与事实相符的词,所述变体关键词是指与正常关键词具有相同或相似发音的词、或者与正常关键词具有相同或相近词义的词;
S1023:遍历拼音序列形式的清洗文本,确认拼音序列形式的清洗文本内是否存在涉赌关键词库中拼音序列形式的涉赌关键词,当在清洗文本中查找到与涉赌关键词库中的任一涉赌关键词具有相同拼音序列的词时,则认定该条清洗文本与涉赌关键词库匹配成功。
优选地,步骤103具体包括:
S1031:使用正则表达式自每条清洗文本中提取符合网站地址格式的字符串,所述字符串即为该清洗文本所涉及的网站地址;
S1032:如果在涉赌网站库内查询到与该提取出来的字符串相同的网站地址,则认定该清洗文本与涉赌网站库匹配成功,该清洗文本所涉及的网站地址被认定为涉赌网站地址。
优选地,还包括:
S105:将涉赌信息写入到信息发布互动平台的数据库,并将该涉赌信息的涉赌关键词更新到涉赌关键词库中,将涉赌信息所涉及的涉赌网站地址更新到涉赌网站库;
S106:将发布涉赌信息的用户加入涉赌黑名单。
如图2所示,结合本发明的实施例,提供一种对涉赌信息进行识别的系统,包括:
实时信息处理单元21,用于获取信息发布互动平台的线上实时信息流,将实时信息流中的每条实时信息的文本转化成统一可识别文字格式,保留每条实时信息中的关键信息,得到每条实时信息的清洗文本;
第一识别单元22,用于针对每条清洗文本,将清洗文本与涉赌关键词库进行比对,当清洗文本中具有所述涉赌关键词库中任一涉赌关键词时,则认定该条清洗文本与涉赌关键词库匹配成功;其中,涉赌关键词是指涉及到与赌博相关的词语;
第二识别单元23,用于针对每条清洗文本,将清洗文本与涉赌网站库进行比对,如果清洗文本中所涉及的网站地址与所述涉赌网站库中任一涉赌网站地址相同,则认定该清洗文本与涉赌网站库匹配成功;
涉赌信息导流单元24,用于当某条清洗文本与涉赌关键词库或者涉赌网站库之一匹配成功时,则认定该条清洗文本所对应的实时信息为涉赌信息,将该条涉赌信息设置为对其他用户不可见;其中,涉赌信息是指该条信息的文本中包含与赌博相关的内容。
优选地,所述实时信息处理单元21包括:
第一清理子单元211,用于删除每条实时信息的文本中的表情符号、平台认证通过的短链接,得到每条实时信息的第一文本;
文本统一子单元212,用于遍历第一文本的每个字符,确认第一文本的每个字符是否为相似字符词典内的字符,当第一文本中具有相似字符词典中的字符时,将第一文本中具有的该字符替换成相似字符字典中规定的相应值,将第一文本转化成具有统一可识别文字格式的相似字符替换文本;其中,相似字符的类型包括至少一种:字母变体、字母形近变体和音近变体;
第二清理子单元213,用于使用正则表达式删除相似字符替换文本中的无效字符,得到每条实时信息的清洗文本。
优选地,所述第一识别单元22包括:
清洗文本转化子单元221,用于将清洗文本中的汉字转化为不包含声调的拼音序列,且将预设的分割符号设于相邻的单字拼音之间,所述分割符号用于将两个单字拼音进行分割;
涉赌关键词转化子单元222,用于将涉赌关键词库中的涉赌关键词转化为不包含声调的拼音序列,且将预设的分割符号设于相邻的单字拼音之间以便将两个单字拼音进行分割;其中,涉赌关键词包括正常关键词、以及变体关键词,所述正常关键词是指常用、且表达语义基本与事实相符的词,所述变体关键词是指与正常关键词具有相同或相似发音的词、或者与正常关键词具有相同或相近词义的词;
第一匹配子单元223,用于遍历拼音序列形式的清洗文本,确认拼音序列形式的清洗文本内是否存在涉赌关键词库中拼音序列形式的涉赌关键词,当在清洗文本中查找到与涉赌关键词库中的任一涉赌关键词具有相同拼音序列的词时,则认定该条清洗文本与涉赌关键词库匹配成功。
优选地,所述第二识别单元23包括:
网站地址提取子单元231,用于使用正则表达式自每条清洗文本中提取符合网站地址格式的字符串,所述字符串即为该清洗文本所涉及的网站地址;
第二匹配子单元232,用于如果在涉赌网站库内查询到与该提取出来的字符串相同的网站地址,则认定该清洗文本与涉赌网站库匹配成功,该清洗文本所涉及的网站地址被认定为涉赌网站地址。
优选地,还包括:
涉赌信息更新单元25,用于将涉赌信息写入到信息发布互动平台的数据库,并将该涉赌信息的涉赌关键词更新到涉赌关键词库中,将涉赌信息所涉及的涉赌网站地址更新到涉赌网站库;
发布涉赌信息用户处置单元26,用于将发布涉赌信息的用户加入涉赌黑名单。
本发明所取得的有益效果如下:
本发明的涉赌内容识别方案采用字符转化(形近、音近、字体变体替换)匹配和拼音匹配等方法,有效地还原了涉赌网站和涉赌关键词信息,有效地提取了文本中包含的涉赌网站信息和涉赌关键词,同时依赖历史积累和研究得到大量涉赌关键词和涉赌网站库,保证了识别的效率和精确率,高效地达成了涉赌内容的实时识别工作,使得此类信息可以被快速识别并处理。一方面相比于其他机器学习方法极大的减少了计算资源的消耗,特别是在算力有限的场景下,可以高效的达成对变体涉赌网站的识别,同时本发明的技术方案具有开发周期短,可解释性强、易于实施等特点。另一方面相比于传统的关键词匹配的方案,本发明的技术方案结合了变体字符清洗替换和拼音匹配的策略,有效的提高了涉赌内容的命中率,同时还可使用人工审核过的涉赌网站库做匹配的对象,也使得涉赌网站的命中具有极高的准确率。信息发布的同时即时处理涉赌信息对其他用户不可见,降低对其他用户的无意伤害的几率。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
本发明的设计的缩略语和关键术语定义如下:
字符变体:各种非法赌博网站通常会在社交平台上通过多个账号推广其网站的地址,推广信息中通常会采用各种变体字符来规避一般的反欺诈策略。
字符混淆:为了规避风控策略,在字符变体的基础上,有时也会增加无关的混淆字符(下划线、删除线、上标等)来进一步增加反欺诈识别的难度。
同音形近字:指的是读音相同,同时写法相似的字。涉赌信息中通常会用此类字组成词语替换正常的词语来规避关键词检测策略,也属于一种字符变体。
赌博内容识别:识别正常文字内容中夹带的涉赌关键词和涉赌网站。
ASCII:ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,它主要用于显示现代英语。
UNICODE:中文又称万国码、国际码、统一码、单一码,是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。
本发明为基于变体字符转换识别的涉赌信息、对进行导流信息的方法及系统,用于识别涉赌信息并对涉赌信息进行导流处理。
社交应用是当前互联网生态的重要组成部分,国内头部的社交应用通常有着数亿级别的DAU(日活跃用户数量)和用户量,参与者既可以作为观众也可以作为信息的发布者,且发布的信息具有内容短,传播速度快等特性,所以其内容质量对用户体验有着十分重要的影响。
在发布的信息中具有欺诈信息,其中涉赌信息是数量较多的一种欺诈类型,本发明能够处理基于文字的内容识别来进行识别正常文字形式的涉赌内容;以及,本发明还能够处理识别难度的涉赌内容,比如,对于同音形近字组合而成的涉赌内容做出有效的识别,尤其适用于涉赌信息(涉赌内容)发送者在使用多种中文社交网站少见的UNICODE字符将网站做各种变体处理(解决涉赌文字关键词中存在大量变体的问题;如附图3内的第一条信息所示)。另外,本发明还能对涉赌网站做出识别。
本发明首先通过文本清洗保留文本的关键信息,然后抽取其中的疑似网站列表去对比已有的涉赌网站库,同时将文本序列转化为拼音序列对比同音关键词,从而实现对涉赌关键词和涉赌网站的识别。相比于单纯使用关键词的方式,极大地提升了涉赌内容的命中率。
如附图4所示,本发明包括文本清洗、网站匹配、同音关键词匹配(涉赌关键词匹配)和数据存储四个部分。文本清洗的数据来源是平台线上的实时数据流(实时信息流),包含原始的数据内容,即便是涉赌信息,其中大部分文本(比如90%以上)是正常文本,少部分可能包含涉赌内容。文本清洗是使用已有的相似字符表对文本中的变体字符做替换,使得各种类型的变体字符转化已有的相似字符(比如为ASCII编码)范围的正常字符,便于后续做匹配。本法的匹配策略为:
(1)同音关键词匹配使用的方法是通过历史涉赌内容收集到的多个涉赌关键词,在对清洗文本进行匹配过程中,将涉赌关键词和文本都转化为拼音序列,并根据拼音序列形式的涉赌关键词与拼音序列清洗文本作匹配。
(2)网站匹配是使用历史积累的数千个涉赌网站对文本清洗后抽取的疑似网站(或者疑似网站列表)做匹配。
以上两条匹配策略中如果至少有一条匹配成功,则认为此条数据是涉赌内容,做入库处理;涉赌关键词和涉赌网站库会通过人工的方式不断更新。如果全部匹配失败,则视为正常内容,做丢弃处理。
如图5所示,是对实时信息的文本清洗详细的逻辑流程图。对获取的实时信息进行清洗时,首先删除掉文本中的自定义表情符号、通过平台认证的短链接等可能等会对匹配造成干扰的内容;然后使用已有的相似字符词典,逐个匹配文本的每个字符,如果在字典中找到,则替换为相应的value值;最后使用正则表达式删除无效的字符(比如用于字符混淆的下划线、删除线、上标等),仅保留对下一步匹配的有效字符,此操作同时也删除了各种混淆字符,因此保留了文本中的关键信息。并使用正则表达式提取符合网站格式的字符串列表。
其中,如图6-图8是涉赌网站的网址中变体字符(或称“字符变体”)常见的三种类型的示例,分别是字母变体、音近变体和字母形近变体,其中形近变体最为多见。对于涉赌网站的网址,发布者通常会使用各种相似的UNICODE字符来替代常见的ASCII字符,以期这样可以达到既能规避一般识别手段,同时又保证涉赌信息传播效果的目的。由于现有的UNICODE字符数量非常多,同时和常用ASCII字符相似的也非常多,所以通过长期积累和对两类字符的研究,建立了一个字符词典,词典的第一列是正常的字符,后面几列是各种变体字符。通过这种方式可以做到对大多数相似字符的替换,这样就保证了后续涉赌网站识别的效果。
针对信息的文字内容,采用同音形近字匹配判断是否涉及涉赌内容。如图9所示的是同音形近字变体的示例图,通过历史涉赌内容,我们收集了很多此类的变体关键词(“|”前是正常关键词,后面是多个变体关键词),通过同音词匹配的方式去命中此类变体关键词。图10是同音形近字匹配的流程图,将清洗后的文本转化为拼音序列,每个单字拼音之间用“,”做分割,同时把关键词也做同样的处理,最后做匹配查找。也就是涉赌关键词包括正常关键词、以及变体关键词,所述正常关键词是指常用、且表达语义基本与事实相符的词,所述变体关键词是指与正常关键词具有相同或相似发音的词、或者与正常关键词具有相同或相近词义的词。
如图11为涉赌网站地址匹配的流程,在清洗文本中提取到疑似涉赌网站地址(或者赌网站地址的列表)后,需要通过查询涉赌网站库的方式来确定疑似涉赌网站地址是否为真正的涉赌网站。
当某条信息如果是涉赌内容,则将涉赌内容写入数据库,并将涉赌信息的同音关键词更新到相似字符词典中,将涉赌信息的涉赌网站地址更新到涉赌网站库;以及,将发布涉赌信息的用户加入涉赌黑名单。非涉赌内容,则不做处理。
本发明所取得的有益效果如下:
本涉赌内容识别方案采用字符转化(形近、音近、字体变体替换)匹配和拼音匹配等方法,有效地还原了涉赌网站和涉赌关键词信息,有效地提取了文本中包含的涉赌网站信息和涉赌关键词,同时依赖历史积累和研究得到大量涉赌关键词和涉赌网站库,保证了识别的效率和精确率,高效地达成了涉赌内容的实时识别工作,使得此类信息可以被快速识别并处理。一方面相比于其他机器学习方法极大的减少了计算资源的消耗,特别是在算力有限的场景下,可以高效的达成对变体涉赌网站的识别,同时本发明的技术方案具有开发周期短,可解释性强、易于实施等特点。另一方面相比于传统的关键词匹配的方案,本发明的技术方案结合了变体字符清洗替换和拼音匹配的策略,有效的提高了涉赌内容的命中率,同时还可使用人工审核过的涉赌网站库做匹配的对象,也使得涉赌网站的命中具有极高的准确率。信息发布的同时即时处理涉赌信息对其他用户不可见,降低对其他用户的无意伤害的几率。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种对涉赌信息进行识别的方法,其特征在于,包括:
获取信息发布互动平台的线上实时信息流,将实时信息流中的每条实时信息的文本转化成统一可识别文字格式,保留每条实时信息中的关键信息,得到每条实时信息的清洗文本;
针对每条清洗文本,将清洗文本与涉赌关键词库进行比对,当清洗文本中具有所述涉赌关键词库中任一涉赌关键词时,则认定该条清洗文本与涉赌关键词库匹配成功;其中,涉赌关键词是指涉及到与赌博相关的词语;
针对每条清洗文本,将清洗文本与涉赌网站库进行比对,如果清洗文本中所涉及的网站地址与所述涉赌网站库中任一涉赌网站地址相同,则认定该清洗文本与涉赌网站库匹配成功;
当某条清洗文本与涉赌关键词库或者涉赌网站库之一匹配成功时,则认定该条清洗文本所对应的实时信息为涉赌信息,将该条涉赌信息设置为对其他用户不可见;其中,涉赌信息是指该条信息的文本中包含与赌博相关的内容。
2.根据权利要求1所述的对涉赌信息进行识别的方法,其特征在于,所述将实时信息流中的每条实时信息的文本转化统一成可识别文字格式,保留每条实时信息中的关键信息,得到每条实时信息的清洗文本,具体包括:
删除每条实时信息的文本中的表情符号、平台认证通过的短链接,得到每条实时信息的第一文本;
遍历第一文本的每个字符,确认第一文本的每个字符是否为相似字符词典内的字符,当第一文本中具有相似字符词典中的字符时,将第一文本中具有的该字符替换成相似字符字典中规定的相应值,将第一文本转化成具有统一可识别文字格式的相似字符替换文本;其中,相似字符的类型包括至少一种:字母变体、字母形近变体和音近变体;
使用正则表达式删除相似字符替换文本中的无效字符,得到每条实时信息的清洗文本。
3.根据权利要求2所述的对涉赌信息进行识别的方法,其特征在于,所述针对每条清洗文本,将清洗文本与涉赌关键词库进行比对,当清洗文本中具有所述涉赌关键词库中任一涉赌关键词时,则认定该条清洗文本与涉赌关键词库匹配成功,具体包括:
将清洗文本中的汉字转化为不包含声调的拼音序列,且将预设的分割符号设于相邻的单字拼音之间,所述分割符号用于将两个单字拼音进行分割;
将涉赌关键词库中的涉赌关键词转化为不包含声调的拼音序列,且将预设的分割符号设于相邻的单字拼音之间以便将两个单字拼音进行分割;其中,涉赌关键词包括正常关键词、以及变体关键词,所述正常关键词是指常用、且表达语义基本与事实相符的词,所述变体关键词是指与正常关键词具有相同或相似发音的词、或者与正常关键词具有相同或相近词义的词;
遍历拼音序列形式的清洗文本,确认拼音序列形式的清洗文本内是否存在涉赌关键词库中拼音序列形式的涉赌关键词,当在清洗文本中查找到与涉赌关键词库中的任一涉赌关键词具有相同拼音序列的词时,则认定该条清洗文本与涉赌关键词库匹配成功。
4.根据权利要求2所述的对涉赌信息进行识别的方法,其特征在于,所述针对每条清洗文本,将清洗文本与涉赌网站库进行比对,如果清洗文本中所涉及的网站地址与涉赌网站库中任一涉赌网站地址相同,则认定该清洗文本与涉赌网站库匹配成功,具体包括:
使用正则表达式自每条清洗文本中提取符合网站地址格式的字符串,所述字符串即为该清洗文本所涉及的网站地址;
如果在涉赌网站库内查询到与该提取出来的字符串相同的网站地址,则认定该清洗文本与涉赌网站库匹配成功,该清洗文本所涉及的网站地址被认定为涉赌网站地址。
5.根据权利要求1所述的对涉赌信息进行识别的方法,其特征在于,还包括:
将涉赌信息写入到信息发布互动平台的数据库,并将该涉赌信息的涉赌关键词更新到涉赌关键词库中,将涉赌信息所涉及的涉赌网站地址更新到涉赌网站库;以及,
将发布涉赌信息的用户加入涉赌黑名单。
6.一种对涉赌信息进行识别的系统,其特征在于,包括:
实时信息处理单元,用于获取信息发布互动平台的线上实时信息流,将实时信息流中的每条实时信息的文本转化成统一可识别文字格式,保留每条实时信息中的关键信息,得到每条实时信息的清洗文本;
第一识别单元,用于针对每条清洗文本,将清洗文本与涉赌关键词库进行比对,当清洗文本中具有所述涉赌关键词库中任一涉赌关键词时,则认定该条清洗文本与涉赌关键词库匹配成功;其中,涉赌关键词是指涉及到与赌博相关的词语;
第二识别单元,用于针对每条清洗文本,将清洗文本与涉赌网站库进行比对,如果清洗文本中所涉及的网站地址与所述涉赌网站库中任一涉赌网站地址相同,则认定该清洗文本与涉赌网站库匹配成功;
涉赌信息导流单元,用于当某条清洗文本与涉赌关键词库或者涉赌网站库之一匹配成功时,则认定该条清洗文本所对应的实时信息为涉赌信息,将该条涉赌信息设置为对其他用户不可见;其中,涉赌信息是指该条信息的文本中包含与赌博相关的内容。
7.根据权利要求6所述的对涉赌信息进行识别的系统,其特征在于,所述实时信息处理单元包括:
第一清理子单元,用于删除每条实时信息的文本中的表情符号、平台认证通过的短链接,得到每条实时信息的第一文本;
文本统一子单元,用于遍历第一文本的每个字符,确认第一文本的每个字符是否为相似字符词典内的字符,当第一文本中具有相似字符词典中的字符时,将第一文本中具有的该字符替换成相似字符字典中规定的相应值,将第一文本转化成具有统一可识别文字格式的相似字符替换文本;其中,相似字符的类型包括至少一种:字母变体、字母形近变体和音近变体;
第二清理子单元,用于使用正则表达式删除相似字符替换文本中的无效字符,得到每条实时信息的清洗文本。
8.根据权利要求7所述的对涉赌信息进行识别的系统,其特征在于,所述第一识别单元包括:
清洗文本转化子单元,用于将清洗文本中的汉字转化为不包含声调的拼音序列,且将预设的分割符号设于相邻的单字拼音之间,所述分割符号用于将两个单字拼音进行分割;
涉赌关键词转化子单元,用于将涉赌关键词库中的涉赌关键词转化为不包含声调的拼音序列,且将预设的分割符号设于相邻的单字拼音之间以便将两个单字拼音进行分割;其中,涉赌关键词包括正常关键词、以及变体关键词,所述正常关键词是指常用、且表达语义基本与事实相符的词,所述变体关键词是指与正常关键词具有相同或相似发音的词、或者与正常关键词具有相同或相近词义的词;
第一匹配子单元,用于遍历拼音序列形式的清洗文本,确认拼音序列形式的清洗文本内是否存在涉赌关键词库中拼音序列形式的涉赌关键词,当在清洗文本中查找到与涉赌关键词库中的任一涉赌关键词具有相同拼音序列的词时,则认定该条清洗文本与涉赌关键词库匹配成功。
9.根据权利要求7所述的对涉赌信息进行识别的系统,其特征在于,所述第二识别单元包括:
网站地址提取子单元,用于使用正则表达式自每条清洗文本中提取符合网站地址格式的字符串,所述字符串即为该清洗文本所涉及的网站地址;
第二匹配子单元,用于如果在涉赌网站库内查询到与该提取出来的字符串相同的网站地址,则认定该清洗文本与涉赌网站库匹配成功,该清洗文本所涉及的网站地址被认定为涉赌网站地址。
10.根据权利要求6所述的对涉赌信息进行识别的系统,其特征在于,还包括:
涉赌信息更新单元,用于将涉赌信息写入到信息发布互动平台的数据库,并将该涉赌信息的涉赌关键词更新到涉赌关键词库中,将涉赌信息所涉及的涉赌网站地址更新到涉赌网站库;
发布涉赌信息用户处置单元,用于将发布涉赌信息的用户加入涉赌黑名单。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110241782.8A CN113127715A (zh) | 2021-03-04 | 2021-03-04 | 一种对涉赌信息进行识别的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110241782.8A CN113127715A (zh) | 2021-03-04 | 2021-03-04 | 一种对涉赌信息进行识别的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113127715A true CN113127715A (zh) | 2021-07-16 |
Family
ID=76772519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110241782.8A Pending CN113127715A (zh) | 2021-03-04 | 2021-03-04 | 一种对涉赌信息进行识别的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113127715A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779935A (zh) * | 2021-09-10 | 2021-12-10 | 北京金堤科技有限公司 | 文本信息的获取方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102279875A (zh) * | 2011-06-24 | 2011-12-14 | 成都市华为赛门铁克科技有限公司 | 钓鱼网站的识别方法和装置 |
CN103455758A (zh) * | 2013-08-22 | 2013-12-18 | 北京奇虎科技有限公司 | 恶意网站的识别方法及装置 |
CN103475642A (zh) * | 2013-08-22 | 2013-12-25 | 北京奇虎科技有限公司 | 恶意论坛的识别方法及装置 |
CN105099996A (zh) * | 2014-04-30 | 2015-11-25 | 北京奇虎科技有限公司 | 网站验证方法及装置 |
CN105095178A (zh) * | 2014-05-09 | 2015-11-25 | 安徽科大讯飞信息科技股份有限公司 | 实现文本语义容错理解的方法及系统 |
CN106453351A (zh) * | 2016-10-31 | 2017-02-22 | 重庆邮电大学 | 基于Web页面特征的金融类钓鱼网页检测方法 |
CN108874777A (zh) * | 2018-06-11 | 2018-11-23 | 北京奇艺世纪科技有限公司 | 一种文本反垃圾的方法及装置 |
CN111078979A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于ocr和文本处理技术识别网贷网站的方法及系统 |
CN112287684A (zh) * | 2020-10-30 | 2021-01-29 | 中国科学院自动化研究所 | 融合变体词识别的短文本审核方法及装置 |
-
2021
- 2021-03-04 CN CN202110241782.8A patent/CN113127715A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102279875A (zh) * | 2011-06-24 | 2011-12-14 | 成都市华为赛门铁克科技有限公司 | 钓鱼网站的识别方法和装置 |
CN103455758A (zh) * | 2013-08-22 | 2013-12-18 | 北京奇虎科技有限公司 | 恶意网站的识别方法及装置 |
CN103475642A (zh) * | 2013-08-22 | 2013-12-25 | 北京奇虎科技有限公司 | 恶意论坛的识别方法及装置 |
CN105099996A (zh) * | 2014-04-30 | 2015-11-25 | 北京奇虎科技有限公司 | 网站验证方法及装置 |
CN105095178A (zh) * | 2014-05-09 | 2015-11-25 | 安徽科大讯飞信息科技股份有限公司 | 实现文本语义容错理解的方法及系统 |
CN106453351A (zh) * | 2016-10-31 | 2017-02-22 | 重庆邮电大学 | 基于Web页面特征的金融类钓鱼网页检测方法 |
CN108874777A (zh) * | 2018-06-11 | 2018-11-23 | 北京奇艺世纪科技有限公司 | 一种文本反垃圾的方法及装置 |
CN111078979A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于ocr和文本处理技术识别网贷网站的方法及系统 |
CN112287684A (zh) * | 2020-10-30 | 2021-01-29 | 中国科学院自动化研究所 | 融合变体词识别的短文本审核方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779935A (zh) * | 2021-09-10 | 2021-12-10 | 北京金堤科技有限公司 | 文本信息的获取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CA2488814A1 (en) | System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages | |
WO2018201600A1 (zh) | 信息挖掘方法、系统、电子装置及可读存储介质 | |
US20180293302A1 (en) | Natural question generation from query data using natural language processing system | |
WO2012037649A1 (en) | Systems and methods for normalizing input media | |
CN112287684A (zh) | 融合变体词识别的短文本审核方法及装置 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
US10853569B2 (en) | Construction of a lexicon for a selected context | |
CN111191008A (zh) | 一种基于数字因子逆序的口令猜测方法 | |
Bedrick et al. | Robust kaomoji detection in Twitter | |
US20160283582A1 (en) | Device and method for detecting similar text, and application | |
CN114357989A (zh) | 视频标题生成方法、装置、电子设备及存储介质 | |
CN111985212A (zh) | 文本关键字识别方法、装置、计算机设备及可读存储介质 | |
CN113127715A (zh) | 一种对涉赌信息进行识别的方法及系统 | |
CN113343717A (zh) | 一种基于翻译记忆库的神经机器翻译方法 | |
CN110991169B (zh) | 一种风险内容变种的识别方法、装置及电子设备 | |
CN103116607B (zh) | 一种新的基于汉语拼音的全文检索系统 | |
CN115906851A (zh) | 一种实体识别方法、装置、电子设备及存储介质 | |
Bataineh | A Printed PAW Image Database of Arabic Language for Document Analysis and Recognition. | |
CN114647727A (zh) | 应用于实体信息识别的模型训练方法、装置和设备 | |
CN103605692A (zh) | 用于问答社区中屏蔽广告内容的装置和方法 | |
CN111159996B (zh) | 基于文本指纹算法的短文本集合相似度比较方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |