CN111666765A - 一种基于k-means文本聚类的诈骗话题分析方法和系统 - Google Patents
一种基于k-means文本聚类的诈骗话题分析方法和系统 Download PDFInfo
- Publication number
- CN111666765A CN111666765A CN202010490594.4A CN202010490594A CN111666765A CN 111666765 A CN111666765 A CN 111666765A CN 202010490594 A CN202010490594 A CN 202010490594A CN 111666765 A CN111666765 A CN 111666765A
- Authority
- CN
- China
- Prior art keywords
- text
- fraud
- dictionary
- words
- early warning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 48
- 239000013598 vector Substances 0.000 claims description 42
- 230000011218 segmentation Effects 0.000 claims description 27
- 238000010276 construction Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 22
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000013515 script Methods 0.000 description 4
- 230000009849 deactivation Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 235000009754 Vitis X bourquina Nutrition 0.000 description 1
- 235000012333 Vitis X labruscana Nutrition 0.000 description 1
- 240000006365 Vitis vinifera Species 0.000 description 1
- 235000014787 Vitis vinifera Nutrition 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于日志文本的诈骗话题聚类领域,特别涉及一种基于k‑means文本聚类的诈骗话题分析方法和系统。该方法包括:收集日志文本,使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;使用k‑means对所述多个特征模型进行学习,建立诈骗文本预警模型;将对新的文本加入到所述日志文本中重新建立新文本预警模型;使用新文本预警模型与所述诈骗文本预警模型比较,对所述新的文本进行判断。本发明利用k‑means技术对日志文本进行自动识别,有利于降低误判率,提高日志文本的识别准确率,节省时间。
Description
技术领域
本发明属于日志文本的诈骗话题聚类领域,特别涉及一种基于k-means文本聚类的诈骗话题分析方法和系统。
背景技术
目前日志文本诈骗发现主要依靠关键词和分类过滤技术,这些分析的日志文本都是已知的剧本。目前诈骗团伙中,有专门成员负责编写诈骗剧本,紧跟社会热点,针对不同群体,量身定做、精心设计、编制骗术,其犯罪类型多,手段变化快,针对新型的诈骗剧本,传统的识别方法越来越难发现。
发明内容
针对上述问题,本发明设计实现了一种基于k-means文本聚类的诈骗话题分析方法,包括:
收集日志文本,使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;
使用k-means对所述多个特征模型进行学习,建立诈骗文本预警模型;
将对新的文本加入到所述日志文本中重新建立新文本预警模型;使用新文本预警模型与所述诈骗文本预警模型比较,对所述新的文本进行判断。
进一步地,所述使用诈骗去留字典对所述文本进行预处理,生成多个特征模型包括:
对文本进行切词,生成切词文本;
对所述切词文本去除停用词,生成去除停用词文本;
使用诈骗去留字典处理去除停用词文本,构建词袋空间并计算所述日志文本在所述词袋空间中的向量;
使用TF-IDF构建词权重,生成多个特征模型。
进一步地,所述诈骗去留字典包括诈骗去字典和诈骗留字典;
所述使用诈骗去留字典处理包括:
使用诈骗去字典对文本进行处理;
和/或使用诈骗留字典对文本进行处理。
进一步地,所述使用诈骗去字典对文本进行处理包括:
依据诈骗去字典;
查找文本中去词语;
把文本中的去词语去除。
进一步地,所述使用诈骗留字典对文本进行处理包括:
依据诈骗留字典;
查找文本中留词语;
在文本中的留词语做了权重设置。
进一步地,所述方法还包括:
诈骗文本预警模型自动化更新;
所述自动化更新包括:
使用所述新文本预警模型,对下一个文本进行判断。
本发明还提供一种基于k-means文本聚类的诈骗话题分析系统,包括:
收集模块,用于收集日志文本;
预处理模块,用于使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;
学习模块,用于使用k-means对所述多个特征模型进行学习;
建立模块,用于建立诈骗文本预警模型;
重建立模块,用于重新建立新文本预警模型;
比较模块,用于使用新文本预警模型与所述诈骗文本预警模型比较;
判断模块,用于对新的文本进行判断。
进一步地,所述预处理模块包括:
切词组件,用于对文本进行切词,生成切词文本;
去除组件,用于去除停用词,生成去除停用词文本;
处理组件,用于使用诈骗去留字典处理去除停用词文本;
构建组件,用于构建词袋空间;
计算组件,用于计算日志文本在所述词袋空间中的向量;
权重组件,用于使用TF-IDF构建词权重。
进一步地,所述诈骗去留字典包括诈骗去字典和诈骗留字典;
所述处理组件包括:
诈骗去字典单元,用于使用诈骗去字典对文本进行处理;
诈骗留字典单元,用于使用诈骗留字典对文本进行处理。
进一步地,所述使用诈骗去字典对文本进行处理包括:
依据诈骗去字典,查找文本中去词语,把文本中的去词语去除。
进一步地,所述使用诈骗留字典对文本进行处理包括:
依据诈骗留字典,查找文本中留词语,在文本中的留词语做了权重设置。
进一步地,所述系统还包括:
自学习模块,用于对诈骗文本预警模型自动化更新;
所述自动化更新包括:
使用所述新文本预警模型,对下一个文本进行判断。
本发明的利用k-means技术对日志文本进行自动识别,有利于降低误判率,提高日志文本的识别准确率,节省时间。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的一种基于k-means文本聚类的诈骗话题分析方法流程图;
图2示出了根据本发明实施例的一种基于k-means文本聚类的诈骗话题分析系统结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明可以对日志文本进行判断。本发明公开了一种基于k-means文本聚类的诈骗话题分析方法,所述方法可以采用但不限于以下流程。示例性的,如图1所示,所述方法包括:
收集日志文本,使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;使用k-means对所述多个特征模型进行学习,建立诈骗文本预警模型;将新的文本加入到所述日志文本中重新建立新文本预警模型;使用新文本预警模型与所述诈骗文本预警模型比较,对所述新的文本进行判断;诈骗文本预警模型自动化更新。
具体的,收集日志文本,使用诈骗去留字典对所述文本进行预处理,生成多个特征模型。
收集日志文本,对所述文本进行切词、生成切词文本;对所述切词文本去除停用词,生成去除停用词文本;使用诈骗去留字典处理去除停用词文本,构建词袋空间,使用TF-IDF构建词权重,生成多个特征模型。
具体的,收集日志文本,对所述文本进行切词。
通过各种方式收集日志文本。示例性的,公安系统破获相关诈骗集团,得到诈骗集团所写的诈骗剧本,得到公安系统或相关部门授权后获得所述诈骗剧本,对所述诈骗剧本通过大数据分析+人工复标,最终生成日志文本。
具体的,切词指的是将一个汉字序列切分成一个一个单独的词。切词是文本挖掘的基础,对于输入的一段中文,成功的进行切词,可以达到电脑自动识别语句含义的效果。这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
示例性的,可以使用但不限以下方法进行切词:
基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。
示例性的,可以使用但不限以下工具进行切词:
SCWS、ICTCLAS、HTTPCWS、CC-CEDICT。
具体的,如果文本A包括文本B和文本C,那么对于文本A进行切词和对于文本B和文本C进行切词,生成的结果是一样的。
具体的,对已收集的日志文本进行切词,去除重复的词语,生成切词文本。
示例性的,对日志文本“澳门新葡京博彩集团招代理,代理新的博彩”和日志文本“最新的代理模式”切词。经切词后,生成如下切词文本“澳门新葡京博彩集团招代理的最新模式”,其中“代理”词在原日志文本中共出现三次,切词整理后,重复的词只出现一次。“新”和“最新”虽然意思接近,但是在词典中是两个词,所以切词后生成这两个词。对日志文本“澳门新葡京博彩集团招代理,代理新的博彩,最新的代理模式”切词,生成的切词文本也是“澳门新葡京博彩集团招代理的最新模式”。
具体的,去除停用词。
停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词(StopWords)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。
示例性的,可以使用或但不限于以下停用词表,哈工大停用词表、百度停用词表。也可以依据现有停词表进一步生成新的停用词表。
示例性的,如“的”、“在”,本身并无明确的意义,只有将其放入一个完整的句子中才有一定作用。如“是”一词几乎在每个文本上均会出现,对这样的词进行搜索,无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率。这样的词就是停用词。
具体的,切词文本根据停用词表去除其中的停用词,生成去停用词文本。
示例性的,可以使用但限于以下工具进行去停用词:stop停用词过滤器。
示例性的,对切词文本“澳门新葡京博彩集团招代理的最新模式”去除停用词,生成新的去除停用词文本“澳门新葡京博彩集团招代理最新模式”中。其中“的”是停用词。
具体的,使用诈骗去留字典进行处理。
预设诈骗去留字典。所述诈骗去留字典包括诈骗去字典和诈骗留字典。
存在部分动词或名词,该类词语有自己具体意思,基本不会出现在诈骗场景中,也无法运用在诈骗文本判断中。此类词并不在停用词表中。示例性的,该类词语包括但不限于如下名词:电流、电阻、公斤、电梯;动词:提水、种田、坐、站、招。诈骗去字典中包含所有此类词语,此类词语称为去词语。
存在部分词语,该类词语有自己具体意思,平时基本不使用,在当前社会中出现在诈骗场景概率较高,此类词语定义为诈骗专业词语。示例性的,该类词语包括但不限于如下名词:重金求子,博彩。存在部分词语,该类词语有自己具体意思,平时正常使用,出现在诈骗场景概率也较高。示例性的,该类词语包括但不限于如下词语:汇款,账号,此类词语定义为诈骗普通词语。目前诈骗集团常冒充官方机构进行诈骗,官方机构类型的名词或者官方机构类的动词出现在诈骗场景概率也较高,此类词语定义为诈骗仿官方词语。诈骗留字典中包含所有这三类词语:诈骗专业词语、诈骗普通词语、诈骗仿官方词语。对这三类词语预设不同的权重。此三类词语称为留词语。
具体的,使用诈骗去留字典进行处理,所述处理包括:使用诈骗去字典进行处理;使用诈骗留字典进行处理。所述使用诈骗去字典进行处理,包括,依据诈骗去字典,把文本中的去词语去除,生成诈骗去字典文本。所述使用诈骗留字典进行处理,包括,依据诈骗留字典,在文本中的留词语做了权重设置,生成诈骗留字典文本。所述使用诈骗去留字典进行处理,可以是使用诈骗留字典和诈骗去字典中其一进行处理,也可以是使用诈骗留字典和诈骗去字典一起进行处理,所述一起进行处理可以是先用诈骗去字典进行处理,然后再用诈骗留字典进行处理;也可以是先用诈骗留字典进行处理,然后再用诈骗去字典进行处理。诈骗去字典文本和诈骗留字典文本统称诈骗去留字典文本。
示例性的,可以使用但不限于以下方式,使用诈骗去留词典对去除停用词文本“澳门新葡京博彩集团招代理最新模式”进行处理。
诈骗去字典中,去词语中包含词语“招”。使用诈骗去字典对去除停用词文本“澳门新葡京博彩集团招代理最新模式”进行处理,生成诈骗去字典文本“澳门新葡京博彩集团代理最新模式”。
诈骗留字典中,留词语中包含词语“博彩”。使用诈骗留字典对诈骗去字典文本“澳门新葡京博彩集团代理最新模式”进行处理,即对文本中“博彩”词语重新设置权重,生成诈骗留字典文本“澳门新葡京博彩集团代理最新模式”。一个诈骗留字典文本对应一个普通文本,诈骗留字典文本内容与普通文本没有区别;但在诈骗留字典文本中,某些词语设置了权重,这些词语称为权重词语;其他未设置权重的词语,称为非权重词语。对于权重词语,依据权重设置,设定权重词语对应的权重阈值。示例性的,设定“博彩”的权重阈值为2。
具体的,构建词袋空间并计算所述日志文本在所述词袋空间中的向量。
词袋(Bag-of-words),是在自然语言处理和信息检索(Information Retrieval,IR)下被简化的表达方式,是一种用机器学习算法对文本进行建模时表示文本数据的方法。在信息检索中,词袋假定对于一个文本,忽略其词序和语法,句法,将其仅仅看作是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,不考虑文本中词与词之间的上下文关系,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。只考虑所有词的权重。而权重与词在文本中出现的频率有关。
具体的,一个文本,在构建词袋空间中,通过统计每个词袋词语在文本中出现的次数,可以得到该文本基于词袋空间的特征,将各个文本的这些词与对应的词频放在一起,就是常说的向量化。可以用词向量表示这个文本。
可以使用切词文本、去除停用词文本、诈骗去字典文本和诈骗留字典文本构建词袋空间。当使用一个文本构建词袋空间时,所述文本包含m个不同的词,则构建的词袋空间维数为m维。每一个文本在构建的词袋空间中,可以使用对应的向量值来表示。
示例性的,一个由文本“m1 m2 m3……mk”构建词袋空间{"m1":1,"m2":2,"m3":3,……"mk":k}。
在文本中,k表示该文本中词语的个数;mi表示第i个词语,其中1≤i≤k。
在词袋空间中,k表示词袋空间的维数;mi表示第i个词袋词语,其中1≤i≤k。
一个文本在构建的词袋空间{"m1":1,"m2":2,"m3":3,……"mk":k}中,可以用向量值N表示。向量值N表现为如下形式:[n1,n2,n3,······,nk],其中k表示词袋空间的维数,nj为向量数据,其中1≤j≤k,nj表示第j个词语,在文本中出现的次数。例如词袋空间第g个词袋词语是B,即构建的词袋空间为:{"m1":1,"m2":2,"m3":3,……,"mg-1":g-1,"B":g,"mg+1":g+1,……"mk":k}。假设在文本A中,词语B出现次数为3,则文本A对应向量值为词语B对应的向量数据为3。
示例性的,可以使用但不限于以下工具构建词袋空间:scikit-learn的CountVectorizer类。
示例性的,可以使用但不限于以下方式对诈骗去留字典文本构建词袋空间:利用诈骗去留字典文本对应的普通文本构建词袋空间,并计算日志文本在这个词袋空间中的向量;在构建的词袋空间中进行标识,并利用权重对日志文本生成新的向量。
具体的,利用诈骗去留字典文本对应的普通文本构建词袋空间,并计算日志文本在这个词袋空间中的向量。
一个诈骗去留字典文本对应一个普通文本。使用所述普通文本构建词袋空间。利用所述词袋空间,计算日志文本在此空间中的向量。进一步地,也可以计算其他文本在此空间中的向量。
示例性的,对诈骗去留字典文本“澳门新葡京博彩集团代理最新模式”正常构建词袋空间。与诈骗去留字典文本“澳门新葡京博彩集团代理最新模式”对应的普通文本为“澳门新葡京博彩集团代理最新模式”。
基于上述普通文本中出现的词语,构建如下词袋空间:{"澳门":1,"新":2,"葡京":3,"博彩":4,"集团":5,"代理":6,"最新":7,"模式":8}。
上面的词袋空间中包含8个词袋词语,每个词袋词语有唯一的索引。
不同的文本,在构建的词袋空间中,可以使用不同的向量来表示。
具体的,如果文本A为文本B和文本C的组合,那么对于文本A在词袋空间的向量为文本B和文本C在词袋空间的向量的和。
如日志文本“澳门新葡京博彩集团招代理,代理新的博彩”和日志文本“最新的代理模式”在构建的词袋空间中,可以使用两个8维的向量来表示。如下:[1,2,1,2,1,2,0,0]和[0,0,0,0,0,1,1,1]。该两个向量与原来日志文本中单词出现的顺序没有关系,每个向量的索引内容对应到词袋空间中词语出现的次数。
而日志文本“澳门新葡京博彩集团招代理,代理新的博彩,最新的代理模式”在构建的词袋空间中,可以使用如下向量来表示:[1,2,1,2,1,3,1,1],即为向量[1,2,1,2,1,2,0,0]与向量[0,0,0,0,0,1,1,1]之和。该向量与原来日志文本中单词出现的顺序没有关系,向量的索引内容对应到词袋空间中词语出现的次数。
具体的,在构建的词袋空间中进行标识,并利用权重对日志文本生成新的向量。
诈骗去留字典文本已经对权重词语设置权重。在构建的词袋空间中,对权重词语所对应的词袋词语进行标识。
文本包含权重词语和非权重词语。非权重词语对应的向量数据不发生改变。
权重词语对应的向量数据为原向量数据加上该权重词语的权重阈值。
利用非权重词语和权重词语对应的向量数据,生成文本新的向量值。
示例性的,诈骗去留字典文本中,“博彩”已经被诈骗去留字典设置了权重,对应的权重阈值为2。在生成的词袋空间{"澳门":1,"新":2,"葡京":3,"博彩":4,"集团":5,"代理":6,"最新":7,"模式":8}中,“博彩”为第四个词语,对包含“博彩”项进行标识。
而日志文本“澳门新葡京博彩集团招代理,代理新的博彩,最新的代理模式”,在构建的词袋空间中,使用如下向量来表示:[1,2,1,2,1,3,1,1]。其中,词语“博彩”对应的原向量数据为2。而权重词语“博彩”对应的权重阈值为2。所以权重词语“博彩”对应的向量数据=2+2,即4。非权重词语所对应的向量数据不发生变化。所以,该文本新的向量值为[1,2,1,4,1,3,1,1]。
所有日志文本对应词袋空间的向量值,即是所述日志文本的模型,称为文本模型。
具体的,所有文本模型进行TF-IDF构建词权重,生成多个特征模型。
TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
使用以下公式计算TF-IDF:
TF=该词在文档中出现的次数/该文档的总词数;
IDF=lg(文档总数/包含该词的文档数);
TF-IDF=TF*IDF。
构建词袋空间之后,使用TF-IDF进行特征的权重修正,形成多个特征模型。
示例性的,可以使用但不限于以下工具进行TF-IDF构建词权重:scikit-learn的TfidfTransformer类。
也可以使用但不限于以下工具同时进行构建词袋空间和进行TF-IDF构建词权重:scikit-learn的TfidfVectorizer类。
示例性的,在日志文本“澳门新葡京博彩集团招代理,代理新的博彩,最新的代理模式”中,词语一共有15个词,对应的向量值为[1,2,1,4,1,3,1,1]。这表示“新”、“博彩”和“代理”分别对应值为2、4和3,那么它们的词频就分别为2/15,4/15和3/15。那么这三个数之和9/15即是在整个文本中查询“代理新的博彩”相关性的一个简单的度量,即TF值。可以看出“新”、“博彩”和“代理”度量值比较接近。又因为“代理”和“新”是比较通用的词,在许多文本中都会出现;当看到这样的词后,对该文本主题基本上还是无法了解。而“博彩”是比较专业化的词,在诈骗文本中出现概率较高,当看到这样的词后,或多或少地能了解文本的主题。在判断日志文本是否诈骗文本中,“博彩”在相关性排名中更为重要。因此需要给日志文本中的每一个词设置一个权重。
假定已知日志文本有1亿个,包含“新”的文本有2000万,则“新”的IDF=lg(1亿/2000万)=0.70;包含“博彩”的文本有50万,则“博彩”的IDF=lg(1亿/50万)=2.3;包含“代理”的文本有1000万,则“代理”的IDF=lg(1亿/1000万)=1。
将“新”、“博彩”和“代理”的TF值乘以IDF值,即得到“新”、“博彩”和“代理”的TF-IDF值,即这三个词的权重,分别是0.09、0.61和0.20。这时,“博彩”权重远高于“新”和“代理”。这三个数即这三个词的特征模型。
各日志文本生成的文本模型进行TF-IDF构建词权重。预设低权重值。当某个词构建的词权重小于预设低权重值时,去除该值。最终形成多个特征模型。
具体的,使用k-means对所述多个特征模型进行学习,建立诈骗文本预警模型。
k-means算法,又叫做k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
进一步的,在相同的类别中数据之间的距离应该都很近,也就是说离得越近的数据应该越相似,再进一步说明,数据之间的相似度与它们之间的欧式距离成反比,尽可能将离得近的数据划分为一个类别。假设需要将数据{xi}聚为k类,经过聚类之后每个数据所属的类别为{ti},而这k个聚类的中心为{ui}。于是定义如下的损失函数:
k-means算法的目的是找寻最佳的{ti},使损失函数最小,之后就可以对聚类中心{ui}直接计算。
具体的,利用k-means算法对多个特征模型进行学习,计算其中心点间距。示例性的,可以使用但不限于以下方式:计算中心点间距时,针对余弦算法和距离公式的结果进行对比,并使用距离公式。最后形成若干聚类,有对应的聚类中心点。所述若干聚类,代表着日志文本不同的类别。可能是正常类别,可能是已知诈骗场景类别,也可能是未知诈骗场景类别,具体由人工进行判断。如果出现未知诈骗场景类别,由人工对此诈骗方式进行命名。这个若干类别,即建立诈骗文本预警模型。
具体的,将新的文本加入到所述日志文本中重新建立新文本预警模型;使用新文本预警模型与所述诈骗文本预警模型比较,对所述新的文本进行判断。
将新的文本加入到所述日志文本中重新建立新文本预警模型。当一个新的文本出现后,将新文本加入到所述日志文本中,生成新的日志文本;使用诈骗去留字典对所述新的日志文本进行预处理,生成多个新的特征模型;使用k-means对所述新的多个特征模型进行学习,建立新文本预警模型。
示例性的,需要对一个新的疑似诈骗案例进行分析时,会根据案例生成一个新的文本;将新的文本加入到收集的日志文本中,形成新的日志文本。按之前方式,使用诈骗去留字典对所述新的日志文本进行预处理,生成多个新的特征模型;使用k-means对所述新的多个特征模型进行学习,建立新文本预警模型。
具体的,使用新文本预警模型与所述诈骗文本预警模型比较,对所述新的文本进行判断。
新的文本,切词产生的词语,会聚到同一类别中,这个类别有对应的聚类中心点,这个中心点为新文本聚类中心点。测量新文本聚类中心点与各聚类中心点的距离。
预先测量各聚类中心点之间相互的距离,其中的最小值为最小相互距离。预先设置诈骗阈值。其中诈骗阈值<最小相互距离/2。
当新文本聚类中心点与某聚类中心点距离在诈骗阈值内,认为新文本日志文本属于这个聚类。如果这个聚类属于正常类别,则该新文本为非诈骗文本;如果这个聚类属于已知诈骗场景类别,则该新文本为已知诈骗场景类型文本;如果这个聚类属于未知诈骗场景类别,则该日志文本为未知诈骗场景类型文本。
由于诈骗阈值<最小相互距离/2,所以不会出现新文本聚类中心点与两个或两个聚类中心点距离都在诈骗阈值内情况。
如果新文本聚类中心点与所有类簇中心点距离都不在诈骗阈值内,则交人工进行验证。
具体的,诈骗文本预警模型自动化更新
当使用新的文本重新建立新文本预警模型后,使用新文本预警模型去判断下一个文本;下一个文本生成更新的文本预警模型,利用更新的文本预警模型,去判断下下一个文本,这样就完成诈骗文本预警模型自动化更新。
本发明还提供一种基于k-means文本聚类的诈骗话题分析系统,示例性的,如图2所示,包括:
收集模块,用于收集日志文本;
预处理模块,用于使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;
学习模块,用于使用k-means对所述多个特征模型进行学习;
建立模块,用于建立诈骗文本预警模型;
重建立模块,用于重新建立新文本预警模型;
比较模块,用于使用新文本预警模型与所述诈骗文本预警模型比较;
判断模块,用于对新的文本进行判断;
自学习模块,用于对诈骗文本预警模型自动化更新。
具体的,收集模块,用于收集日志文本,传入预处理模块;
预处理模块,用于使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;
所述预处理模块包括:
切词组件,用于对文本进行切词,接收收集模块传来的日志文本,生成切词文本;
去除组件,用于去除停用词,生成去除停用词文本,接收切词组件传来的切词文本,生成去除停用词文本;
处理组件,用于使用诈骗去留字典处理去除停用词文本,接收去除组件传来的去除停用词文本,生成诈骗去留字典文本;
所述诈骗去留字典包括诈骗去字典和诈骗留字典;
所述处理组件包括:
诈骗去字典单元,用于使用诈骗去字典对文本进行处理;所述处理包括:依据诈骗去字典,查找文本中去词语,把文本中的去词语去除;
诈骗留字典单元,用于使用诈骗留字典对文本进行处理;所述处理包括:依据诈骗留字典,查找文本中留词语,在文本中的留词语做了权重设置;
构建组件,用于构建词袋空间,接收处理组件传来的诈骗去留字典文本,生成词袋空间;
计算组件,用于计算日志文本在所述词袋空间中的向量,接收收集模块传来的日志文本,接收构建组件传来的词袋空间,生成文本模型;
权重组件,用于使用TF-IDF构建词权重,接收计算组件传来的文本模型,生成多个特征模型。
学习模块,用于使用k-means对所述多个特征模型进行学习,接收预处理模块传来的多个特征模型,生成若干聚类;
建立模块,用于建立诈骗文本预警模型,接收学习模块传来的若干聚类,生成文本诈骗预警模型;
重建立模块,用于重新建立新文本预警模型,接收新文本,将新文本和日志文本传入预处理模块,并收集建立模块生成的新文本预警模型;
比较模块,用于使用新文本预警模型与所述诈骗文本预警模型比较,接收建立模块传来的文本诈骗预警模型和重建立模块传来的新文本预警模型,进行比较,生成比较结果;
判断模块,用于对新的文本进行判断,接收比较模块传来的比较结果,对新的文本进行判断。
自学习模块,用于对诈骗文本预警模型自动化更新。
所述自动化更新包括:
使用所述新文本预警模型,对下一个文本进行判断。
示例性的,所述系统还包括:
数据查询管理模块,用于提供全量文本查询、诈骗文本查询、模型参数管理。
所述全量文本数据查询用于对所有文本进行查询;
所述诈骗文本查询用于对所有诈骗文本进行查询;
所述模型参数管理用于设置系统模型参数;
所述系统模型参数用于设置系统内参数,如:
n_clusters:簇的个数,超参数,需要人为设置。
init:每个随机数种子运行下的次数,默认k-means++(使得质心彼此远离),random随机,n维数组(n_clusters,n_features)。
n_init:使用不同质心随机初始化的种子来运行k-means算法的次数,默认10次。
max_iter:最大迭代次数,默认300。
tol:容差,两次迭代间Inertia下降的量,默认10e-4。
数据存储模块,用于采用分布式存储系统,大数据分析处理引擎为整个系统提供快速数据抓取、数据分发、数据查询功能。
示例性的,数据存储模块可以采用但不限以下技术:Hadoop分布式计算框架中MapReduce、Hive、Spark分布式技术。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于k-means文本聚类的诈骗话题分析方法,其特征在于,
所述方法包括:
收集日志文本,使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;
使用k-means对所述多个特征模型进行学习,建立诈骗文本预警模型;
将新的文本加入到所述日志文本中重新建立新文本预警模型;使用新文本预警模型与所述诈骗文本预警模型比较,对所述新的文本进行判断。
2.根据权利要求1所述的分析方法,其特征在于,
所述使用诈骗去留字典对所述文本进行预处理,生成多个特征模型包括:
对文本进行切词,生成切词文本;
对所述切词文本去除停用词,生成去除停用词文本;
使用诈骗去留字典处理去除停用词文本,构建词袋空间并计算所述日志文本在所述词袋空间中的向量;
使用TF-IDF构建词权重,生成多个特征模型。
3.根据权利要求2所述的分析方法,其特征在于,
所述诈骗去留字典包括诈骗去字典和诈骗留字典;
所述使用诈骗去留字典处理包括:
使用诈骗去字典对文本进行处理;
和/或使用诈骗留字典对文本进行处理。
4.根据权利要求3所述的分析方法,其特征在于,
所述使用诈骗去字典对文本进行处理包括:
依据诈骗去字典;
查找文本中去词语;
把文本中的去词语去除;所述使用诈骗留字典对文本进行处理包括:
依据诈骗留字典;
查找文本中留词语;
在文本中的留词语做了权重设置。
5.根据权利要求1所述的分析方法,其特征在于,
所述方法还包括:
诈骗文本预警模型自动化更新;
所述自动化更新包括:
使用所述新文本预警模型,对下一个文本进行判断。
6.一种基于k-means文本聚类的诈骗话题分析系统,其特征在于,
所述系统包括:
收集模块,用于收集日志文本;
预处理模块,用于使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;
学习模块,用于使用k-means对所述多个特征模型进行学习;
建立模块,用于建立诈骗文本预警模型;
重建立模块,用于重新建立新文本预警模型;
比较模块,用于使用新文本预警模型与所述诈骗文本预警模型比较;
判断模块,用于对新的文本进行判断。
7.根据权利要求6所述的分析系统,其特征在于,
所述预处理模块包括:
切词组件,用于对文本进行切词,生成切词文本;
去除组件,用于去除停用词,生成去除停用词文本;
处理组件,用于使用诈骗去留字典处理去除停用词文本;
构建组件,用于构建词袋空间;
计算组件,用于计算日志文本在所述词袋空间中的向量;
权重组件,用于使用TF-IDF构建词权重。
8.根据权利要求7所述的分析系统,其特征在于,
所述诈骗去留字典包括诈骗去字典和诈骗留字典;
所述处理组件包括:
诈骗去字典单元,用于使用诈骗去字典对文本进行处理;
诈骗留字典单元,用于使用诈骗留字典对文本进行处理。
9.根据权利要求8所述的分析系统,其特征在于,
所述使用诈骗去字典对文本进行处理包括:
依据诈骗去字典,查找文本中去词语,把文本中的去词语去除;
所述使用诈骗留字典对文本进行处理包括:
依据诈骗留字典,查找文本中留词语,在文本中的留词语做了权重设置。
10.根据权利要求6所述的分析系统,其特征在于,
所述系统还包括:
自学习模块,用于对诈骗文本预警模型自动化更新;
所述自动化更新包括:
使用所述新文本预警模型,对下一个文本进行判断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010490594.4A CN111666765A (zh) | 2020-06-02 | 2020-06-02 | 一种基于k-means文本聚类的诈骗话题分析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010490594.4A CN111666765A (zh) | 2020-06-02 | 2020-06-02 | 一种基于k-means文本聚类的诈骗话题分析方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111666765A true CN111666765A (zh) | 2020-09-15 |
Family
ID=72385527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010490594.4A Pending CN111666765A (zh) | 2020-06-02 | 2020-06-02 | 一种基于k-means文本聚类的诈骗话题分析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666765A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117891926A (zh) * | 2024-03-15 | 2024-04-16 | 环球数科集团有限公司 | 一种基于人工智能的文本特征诈骗预警系统 |
CN118445673A (zh) * | 2024-07-03 | 2024-08-06 | 北京秒信科技有限公司 | 基于智能分析的电信诈骗识别分析系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN105068991A (zh) * | 2015-07-30 | 2015-11-18 | 成都鼎智汇科技有限公司 | 一种基于大数据的舆情发现方法 |
US20190138599A1 (en) * | 2017-11-09 | 2019-05-09 | Conduent Business Services, Llc | Performing semantic analyses of user-generated text content using a lexicon |
-
2020
- 2020-06-02 CN CN202010490594.4A patent/CN111666765A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN105068991A (zh) * | 2015-07-30 | 2015-11-18 | 成都鼎智汇科技有限公司 | 一种基于大数据的舆情发现方法 |
US20190138599A1 (en) * | 2017-11-09 | 2019-05-09 | Conduent Business Services, Llc | Performing semantic analyses of user-generated text content using a lexicon |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117891926A (zh) * | 2024-03-15 | 2024-04-16 | 环球数科集团有限公司 | 一种基于人工智能的文本特征诈骗预警系统 |
CN117891926B (zh) * | 2024-03-15 | 2024-05-14 | 环球数科集团有限公司 | 一种基于人工智能的文本特征诈骗预警系统 |
CN118445673A (zh) * | 2024-07-03 | 2024-08-06 | 北京秒信科技有限公司 | 基于智能分析的电信诈骗识别分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112581006B (zh) | 筛选舆情信息及监测企业主体风险等级的舆情系统及方法 | |
CN107515877B (zh) | 敏感主题词集的生成方法和装置 | |
CN110297988B (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
CN103914494B (zh) | 一种微博用户身份识别方法及系统 | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN110705247B (zh) | 基于χ2-C的文本相似度计算方法 | |
CN108268554A (zh) | 一种生成垃圾短信过滤策略的方法和装置 | |
CN106991312B (zh) | 基于声纹识别的互联网反欺诈认证方法 | |
CN111539612B (zh) | 一种风险分类模型的训练方法和系统 | |
CN111144106A (zh) | 一种不平衡数据集下的两阶段文本特征选择方法 | |
CN111159404A (zh) | 文本的分类方法及装置 | |
CN108268470A (zh) | 一种基于演化聚类的评论文本分类提取方法 | |
CN111666765A (zh) | 一种基于k-means文本聚类的诈骗话题分析方法和系统 | |
CN115577080A (zh) | 一种问题回复匹配方法、系统、服务器及存储介质 | |
CN111767404B (zh) | 一种事件挖掘方法和装置 | |
CN109508557A (zh) | 一种关联用户隐私的文件路径关键词识别方法 | |
CN110377706A (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
Cheng et al. | A Chinese Short Text Classification Method Based on TF-IDF and Gradient Boosting Decision Tree | |
CN113095073B (zh) | 语料标签生成方法、装置、计算机设备和存储介质 | |
CN112069392B (zh) | 涉网犯罪防控方法、装置、计算机设备及存储介质 | |
CN111667152B (zh) | 一种基于众包的文本类数据标定任务的自动审核方法 | |
CN114943285A (zh) | 互联网新闻内容数据智能审核系统 | |
CN113988878A (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
CN115034799A (zh) | 营销预测方法、装置、电子设备及存储介质 | |
WO2020024448A1 (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200915 |