CN113095858A - 一种涉诈短文本识别方法 - Google Patents

一种涉诈短文本识别方法 Download PDF

Info

Publication number
CN113095858A
CN113095858A CN202110497356.0A CN202110497356A CN113095858A CN 113095858 A CN113095858 A CN 113095858A CN 202110497356 A CN202110497356 A CN 202110497356A CN 113095858 A CN113095858 A CN 113095858A
Authority
CN
China
Prior art keywords
short text
fraud
character
keyword
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110497356.0A
Other languages
English (en)
Inventor
周小敏
应鸿晖
黄福鸿
卓采标
史燕飞
李高翔
叶宇中
石易
潘国良
陈金林
陈德兴
吴雁琛
曾茂晰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Branch Center Of National Computer Network And Information Security Management Center
Guangzhou criminal science and technology research institute
Original Assignee
Guangzhou Branch Center Of National Computer Network And Information Security Management Center
Guangzhou criminal science and technology research institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Branch Center Of National Computer Network And Information Security Management Center, Guangzhou criminal science and technology research institute filed Critical Guangzhou Branch Center Of National Computer Network And Information Security Management Center
Priority to CN202110497356.0A priority Critical patent/CN113095858A/zh
Publication of CN113095858A publication Critical patent/CN113095858A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为解决没有考虑对文本信息的过滤及涉诈类别的分类导致存在识别准确率和效率低的问题,提出一种涉诈短文本识别方法,包括以下步骤:获取待识别的短文本,对所述短文本中的正常短文本进行过滤,得到疑似涉诈短文本数据集;将所述疑似涉诈短文本数据集输入神经网络模型中提取语义特征;根据所述疑似涉诈短文本数据集中字符的拼音和笔顺与预设的涉诈关键词的相似度对所述疑似涉诈短文本数据集进行特征抽取得到人工特征,并基于预设的涉诈关键词进行硬匹配,得到硬匹配特征;将所述语义特征、人工特征和硬匹配特征进行特征融合后通过多分类算法进行建模训练,生成用于诈骗短文本识别的分类器,输出得到涉诈短文本识别结果。

Description

一种涉诈短文本识别方法
技术领域
本发明涉及机器学习技术领域,更具体地,涉及一种涉诈短文本识别方法。
背景技术
随着电信网络诈骗案件的持续高发,作为犯罪分子传播诈骗信息重要形式之一的短文本(如短信、微博、网页评论等),引起了监管部门、运营商、研究人员越来越多的关注。目前较多的研究工作主要针对如何识别诈骗短信,主要采用神经网络相关技术对涉诈短文本中的攻击手法进行识别,而针对短文本内容的具体涉诈类别关注较少。
如公开号为CN109982272A(公开日2019-07-05)提出的一种诈骗短信识别方法,提出利用短信识别神经网络的不同分支对短信中不同类型的特征字段进行处理,基于神经网络的正向传播,得到短信识别预测结果。该技术考虑了多种特征字段,针对文本信息的特征字段采用对其词向量进行LSTM编码后通过全连接层输出识别结果,没有考虑对文本信息的过滤及涉诈类别的分类,因此存在识别准确率低的缺陷。
发明内容
本发明为解决上述现有技术所述的没有考虑对文本信息的过滤及涉诈类别的分类导致存在识别准确率和效率低的问题,提供一种涉诈短文本识别方法。
为解决上述技术问题,本发明的技术方案如下:
一种涉诈短文本识别方法,包括以下步骤:
S1:获取待识别的短文本,对所述短文本中的正常短文本进行过滤,得到疑似涉诈短文本数据集;
S2:将所述疑似涉诈短文本数据集输入神经网络模型中提取语义特征;
S3:根据所述疑似涉诈短文本数据集中字符的拼音和笔顺与预设的涉诈关键词的相似度对所述疑似涉诈短文本数据集进行特征抽取得到人工特征,并基于预设的涉诈关键词进行硬匹配,得到硬匹配特征;
S4:将所述语义特征、人工特征和硬匹配特征进行特征融合后通过多分类算法进行建模训练,生成用于诈骗短文本识别的分类器,输出得到涉诈短文本识别结果。
作为优选方案,所述短文本包括常见中文字符、非常见中文字符、数字字符、英文字符、其他字符;其中,所述常见中文字符包括现代汉语言字典中最常用的3500个字符;所述非常见中文字符包括所述常见中文字符以外的中文字符;所述数字字符包括数字0~9;所述英文字符包括小写英文字母a~z和大写英文字母A~Z;所述其他字符包括不属于所述常见中文字符、非常见中文字符、数字字符、英文字符的字符。
作为优选方案,所述S1步骤中,对所述短文本中x的正常短文本进行过滤的步骤包括:对所述短文本x进行字符计数统计,根据短文本x中各类型字符的个数进行判断:当所述非常见中文字符个数Cuc(x)和其他字符个数C0(x)的总和大于预设的第一阈值Threshold1,且所述数字字符个数Cn(x)和英文字符个数Ce(x)的总和大于预设的第二阈值Threshold2时,将所述短文本判别为疑似涉诈短文本,并执行S2步骤;否则,将所述短文本判别为正常短文本,并进行过滤。
作为优选方案,所述S1步骤中还包括以下步骤:
定义2个指示函数luco(x)和lne(x):
Figure BDA0003054945830000021
Figure BDA0003054945830000022
则得到疑似涉诈短文本数据集表示为:
clss1(x)=x⊙(luco(x)∧lne(x))
式中,clss1(x)表示疑似涉诈短文本数据集,当指示函数luco(x)和lne(x)同时为1时,疑似涉诈短文本数据集clss1(x)保留当前待识别的短文本。
作为优选方案,所述S2步骤中,采用Bert-wmm模型提取语义特征,其中,将所述模型第一个字符的输出向量作为所述短文本的语义特征。
作为优选方案,根据所述疑似涉诈短文本数据集中字符的拼音和笔顺与预设的涉诈关键词的相似度对所述疑似涉诈短文本数据集进行特征抽取的步骤包括:
S31:预设涉诈关键词集合keywordsA={ka1,ka2,...,kai,...,kan};
S32:对所述疑似涉诈短文本数据集进行分析,判断所述短文本中是否存在分割攻击手法,若是,则对分割词进行组合得到纠正后的短文本;若否,则直接进行S33步骤;
S33:从所述涉诈关键词集合中选取第一个关键词中的第一个字符作为当前判定的关键词字符,以及从所述短文本中选取第一个短文本字符作为当前判定的短文本字符进行比较:
1)判断当前短文本字符与关键词字符的拼音是否相同,若是,则执行步骤3);若否,则执行步骤2);
2)判断当前短文本字符与关键词字符的笔顺相似度是否大于预设的相似度阈值,若是,则执行步骤3);若否,则执行步骤4);
3)判断当前关键词字符是否为当前关键词中的最后一个关键词字符,若是,则输出表示该关键词存在短文本中的特征向量,并执行步骤4);若否,则将当前关键词中下一关键词字符作为当前判定的关键词字符,将所述短文本中下一短文本字符作为当前判定的短文本字符,并跳转执行步骤1);
4)判断当前短文本字符是否为所述短文本中的最后一个短文本字符,若是,则输出表示该关键词不存在短文本中的特征向量,并执行步骤5);若否,则将所述短文本中下一短文本字符作为当前判定的短文本字符,将当前关键词中第一个关键词字符作为当前判定的关键词字符,并跳转执行步骤1);
5)判断当前关键词是否为所述涉诈关键词集合中的最后一个关键词,若是,则执行S34步骤;若否,则从所述涉诈关键词集合中选取下一个关键词中的第一个字符作为当前判定的关键词字符,从所述短文本中选取第一个短文本字符作为当前判定的短文本字符,并跳转执行步骤1);
S34:将输出的特征向量整合为抽取得到的人工特征fpb(x)。
作为优选方案,所述步骤S33中,判断当前短文本字符与关键词字符的笔顺相似度的步骤包括:对字符的笔画进行编码得到笔顺编码串,其中,横笔画编码为1,竖笔画编码为2,撇笔画编码为3,捺笔画编码为4,折笔画编码为5;将当前短文本字符与关键词字符对比,对连续相同的笔顺编码串中的编码数进行统计,并计算其与关键词字符的笔顺编码总数相同的比例,得到当前短文本字符的笔顺相似度。
作为优选方案,基于预设的涉诈关键词进行硬匹配的步骤包括:预设硬匹配关键词集合keywordsB={kb1,kb2,...,kbj,...,kbm};将所述短文本中逐个短文本字符与所述匹配关键词集合中的匹配关键词字符进行比对,当比对一致时,将当前比对的匹配关键词字符作为特征向量输出;当比对不一致时,对所述短文本中下一短文本字符与所述匹配关键词集合进行比对,至所述短文本中所有短文本字符完成比对,将输出的特征向量整合为硬匹配特征fhm(x)。
作为优选方案,所述S4步骤中,将所述语义特征fdeep(x)、人工特征fpb(x)和硬匹配特征fhm(x)进行特征融合结果V(x)表示为:
V(x)=fdeep(x)⊕fpb(x)⊕fhm(x)
则通过多分类算法进行建模训练,其表达公式如下:
clss2(x)=clsml(V(x);θ)
式中,clsml(·;θ)表示多分类算法模型,θ表示多分类算法的相关参数;输出clss2(x)为涉诈短文本判定类别。
作为优选方案,所述S4步骤中采用支持向量机作为多分类算法、决策树分类算法或K最近邻分类算法进行建模。
与现有技术相比,本发明技术方案的有益效果是:本发明针对不同涉诈类别采用不同的识别手段,包括对正常短文本的快速过滤,以及对涉诈短文本的细粒度区分,基于深度模型的语义特征、关键词的拼音和笔顺的人工特征,以及关键词的硬匹配人工特征,其组合得到的特征向量能够有效识别涉诈短文本的类别,提高识别准确率和识别效率,且可适用于大部分多分类算法,具有较强的鲁棒性。
附图说明
图1为本发明的涉诈短文本识别方法的流程图。
图2为实施例的对涉诈短文本数据集进行特征抽取的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例
本实施例提出一种涉诈短文本识别方法,如图1所示,为本实施例的涉诈短文本识别方法的流程图。
本实施例提出的涉诈短文本识别方法中,包括以下步骤:
步骤1:获取待识别的短文本,对所述短文本中的正常短文本进行过滤,得到疑似涉诈短文本数据集。
本实施例中,将短文本中的字符进行分类,包括常见中文字符、非常见中文字符、数字字符、英文字符、其他字符。其中,所述常见中文字符包括现代汉语言字典中最常用的3500个字符;所述非常见中文字符包括所述常见中文字符以外的中文字符;所述数字字符包括数字0~9;所述英文字符包括小写英文字母a~z和大写英文字母A~Z;所述其他字符包括不属于上述四种类别的字符。
则本步骤中,对所述短文本中x的正常短文本进行过滤的步骤包括:
对所述短文本x进行字符计数统计,根据短文本x中各类型字符的个数进行判断:
当所述非常见中文字符个数Cuc(x)和其他字符个数C0(x)的总和大于预设的第一阈值Threshold1,且所述数字字符个数Cn(x)和英文字符个数Ce(x)的总和大于预设的第二阈值Threshold2时,将所述短文本判别为疑似涉诈短文本,并执行S2步骤;
否则,将所述短文本判别为正常短文本,并进行过滤。
上述步骤可以用以下表达公式表示:
定义2个指示函数luco(x)和lne(x):
Figure BDA0003054945830000051
Figure BDA0003054945830000052
则得到疑似涉诈短文本数据集表示为:
clss1(x)=x⊙(luco(x)∧lne(x))
式中,clss1(x)表示疑似涉诈短文本数据集,当指示函数luco(x)和lne(x)同时为1时,疑似涉诈短文本数据集clss1(x)保留当前待识别的短文本;当指示函数luco(x)和/或lne(x)为0时,疑似涉诈短文本数据集clss1(x)不保留当前待识别的短文本,即过滤处理。
步骤2:将所述疑似涉诈短文本数据集输入神经网络模型中提取语义特征。
本实施例中采用Bert-wmm模型提取语义特征,其中,将所述模型第一个字符的输出向量作为所述短文本的语义特征。本实施例中语义特征的维度数可通过修改Bert-wmm模型的参数实现自定义。
步骤3:根据所述疑似涉诈短文本数据集中字符的拼音和笔顺与预设的涉诈关键词的相似度对所述疑似涉诈短文本数据集进行特征抽取得到人工特征,并基于预设的涉诈关键词进行硬匹配,得到硬匹配特征。
本步骤中,如图2所示,根据所述疑似涉诈短文本数据集中字符的拼音和笔顺与预设的涉诈关键词的相似度对所述疑似涉诈短文本数据集进行特征抽取的步骤包括:
S31:预设涉诈关键词集合keywordsA={ka1,ka2,...,kai,...,kan};
S32:对所述疑似涉诈短文本数据集进行分析,判断所述短文本中是否存在分割攻击手法,若是,则对分割词进行组合得到纠正后的短文本;若否,则直接进行S33步骤;
S33:从所述涉诈关键词集合中选取第一个关键词中的第一个字符作为当前判定的关键词字符,以及从所述短文本中选取第一个短文本字符作为当前判定的短文本字符进行比较:
1)判断当前短文本字符与关键词字符的拼音是否相同,若是,则执行步骤3);若否,则执行步骤2);
2)判断当前短文本字符与关键词字符的笔顺相似度是否大于预设的相似度阈值,若是,则执行步骤3);若否,则执行步骤4);
3)判断当前关键词字符是否为当前关键词中的最后一个关键词字符,若是,则输出表示该关键词存在短文本中的特征向量“1”,并执行步骤4);若否,则将当前关键词中下一关键词字符作为当前判定的关键词字符,将所述短文本中下一短文本字符作为当前判定的短文本字符,并跳转执行步骤1);
4)判断当前短文本字符是否为所述短文本中的最后一个短文本字符,若是,则输出表示该关键词不存在短文本中的特征向量“0”,并执行步骤5);若否,则将所述短文本中下一短文本字符作为当前判定的短文本字符,将当前关键词中第一个关键词字符作为当前判定的关键词字符,并跳转执行步骤1);
5)判断当前关键词是否为所述涉诈关键词集合中的最后一个关键词,若是,则执行S34步骤;若否,则从所述涉诈关键词集合中选取下一个关键词中的第一个字符作为当前判定的关键词字符,从所述短文本中选取第一个短文本字符作为当前判定的短文本字符,并跳转执行步骤1);
S34:将输出的特征向量整合为抽取得到的人工特征fpb(x),本实施例中的人工特征fpb(x)为由特征向量“1”和“0”组成的特征矩阵。
其中,S33步骤中判断当前短文本字符与关键词字符的笔顺相似度的步骤包括:对字符的笔画进行编码得到笔顺编码串,其中,横笔画编码为1,竖笔画编码为2,撇笔画编码为3,捺笔画编码为4,折笔画编码为5;将当前短文本字符与关键词字符对比,对连续相同的笔顺编码串中的编码数进行统计,并计算其与关键词字符的笔顺编码总数相同的比例,得到当前短文本字符的笔顺相似度。
在一具体实施过程中,当前短文本字符“徽”经过编码得到笔顺编码串为“33225215542343134”,而关键词字符“微”经过编码得到笔顺编码串为“3322521353134”,其中相同笔顺字符串为“3322521”以及“3134”,因此当前短文本字符与关键词字符的笔顺相似度为(7+4)/13≈0.846。
本步骤主要针对涉诈手段类型进行判断,包括分割攻击手法(如:将赌博分割为贝者博)、同音攻击手法(如:将微信转换为威信)、相近字攻击手法(如:将出力转换为出
Figure BDA0003054945830000071
)。
进一步的,基于预设的涉诈关键词进行硬匹配,得到硬匹配特征的步骤包括:
预设硬匹配关键词集合keywordsB={kb1,kb2,...,kbj,...,kbm};将所述短文本中逐个短文本字符与所述匹配关键词集合中的匹配关键词字符进行比对,当比对一致时,将当前比对的匹配关键词字符作为特征向量输出;当比对不一致时,对所述短文本中下一短文本字符与所述匹配关键词集合进行比对,至所述短文本中所有短文本字符完成比对,将输出的特征向量整合为硬匹配特征fhm(x)。
本步骤旨在针对无法用拼音、笔顺相似度判断识别的字符特征进行识别,如将数字“0”替换为“o”、“。”等非中文字符或其他字符。本实施例中的硬匹配关键词集合keywordsB={kb1,kb2,...,kbj,...,kbm}包括m个预设的关键词,通过对短文本x进行核查是否存在硬匹配关键词,输出得到m维特征fhm(x)。
步骤4:将所述语义特征、人工特征和硬匹配特征进行特征融合后通过多分类算法进行建模训练,生成用于诈骗短文本识别的分类器,输出得到涉诈短文本识别结果。
本步骤将所述语义特征fdeep(x)、人工特征fpb(x)和硬匹配特征fhm(x)进行特征融合结果V(x)表示为:
V(x)=fdeep(x)⊕fpb(x)⊕fhm(x)
则通过多分类算法进行建模训练,其表达公式如下:
clss2(x)=clsml(V(clss1(x));θ)
式中,clsml(·;θ)表示多分类算法模型,θ表示多分类算法的相关参数;输出clss2(x)为涉诈短文本判定类别。
本实施例中采用支持向量机作为多分类算法进行建模。在另一实施例中,多分类算法可采用决策树分类算法、K最近邻分类算法。
本实施例中,通过对神经网络模型的参数进行调整,以及对关键词集合keywordsA、keywordsB中的关键词进行调整,能够输出具体的诈骗短文本类别,如刷单诈骗、兼职诈骗等。
在一具体实施过程中,如下表1所示,为诈骗短文本及各算法识别结果。
表1诈骗短文本及各算法识别结果
Figure BDA0003054945830000081
其中,GROUND TRUTH为样本的真实标签,TFC为本实施例提出的涉诈短文本识别方法,JWE为Yu J等提出的一种文本识别方法(Yu J,Xun J,Hao X,et al.Joint Embeddingsof Chinese Words,Characters,and Fine-grained Subcharacter Components[C]//Conference on Empirical Methods in Natural Language Processing.2017.),cw2vec为一种新的汉字嵌入学习方法(cw2vec:Learning Chinese Word Embeddings withStroke n-gram Information),PyCor+Bert为一个中文错误字符纠错软件配合bert神经网络。由上表可知,本实施例提出的涉诈短文本识别方法与其他现有算法相比的准确率更高。
进一步的,将本实施例提出的涉诈短文本识别方法与现有的识别算法进行对比实验,如下表2所示。
表2不同算法的识别结果
Figure BDA0003054945830000091
本实施例采用JWE、cw2vec等算法,以及采用BERT-wwm神经网络模型、结合STAGE1指示函数过滤的BERT-wwm神经网络模型、结合PyCor软件和BERT-wwm神经网络模型等,另外TFC without Stage1为采用本实施例提出的涉诈短文本识别方法TFC且没有经指示函数过滤的算法,采用上述算法分别对两个不同的数据集DATASET1和DATASET2进行文本识别,并计算F1-score和识别准确率Accuracy。根据上表可知,本实施例提出的涉诈短文本识别方法与其他算法相比,其在不同的数据集下的准确率及F1-score更高。
本实施例提出的涉诈短文本识别方法考虑了涉诈短文本中的攻击手法以及短文本具体涉诈类别,针对不同涉诈类别采用不同的识别手段,包括对正常短文本的快速过滤,以及对涉诈短文本的细粒度区分,基于深度模型的语义特征、关键词的拼音和笔顺的人工特征,以及关键词的硬匹配特征,其组合得到的特征向量能够有效识别涉诈短文本的类别,提高识别准确率,且可适用于大部分多分类算法,具有较强的鲁棒性。对运营商等拥有海量短文本数据处理需求的机构而言,本实施例能大幅减少计算资源开销,有效降低计算成本,提高识别效率。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种涉诈短文本识别方法,其特征在于,包括以下步骤:
S1:获取待识别的短文本,对所述短文本中的正常短文本进行过滤,得到疑似涉诈短文本数据集;
S2:将所述疑似涉诈短文本数据集输入神经网络模型中提取语义特征;
S3:根据所述疑似涉诈短文本数据集中字符的拼音和笔顺与预设的涉诈关键词的相似度对所述疑似涉诈短文本数据集进行特征抽取得到人工特征,并基于预设的涉诈关键词进行硬匹配,得到硬匹配特征;
S4:将所述语义特征、人工特征和硬匹配特征进行特征融合后通过多分类算法进行建模训练,生成用于诈骗短文本识别的分类器,输出得到涉诈短文本识别结果。
2.根据权利要求1所述的涉诈短文本识别方法,其特征在于,所述短文本包括常见中文字符、非常见中文字符、数字字符、英文字符、其他字符;其中,所述常见中文字符包括现代汉语言字典中最常用的3500个字符;所述非常见中文字符包括所述常见中文字符以外的中文字符;所述数字字符包括数字0~9;所述英文字符包括小写英文字母a~z和大写英文字母A~Z;所述其他字符包括不属于所述常见中文字符、非常见中文字符、数字字符、英文字符的字符。
3.根据权利要求2所述的涉诈短文本识别方法,其特征在于,所述S1步骤中,对所述短文本中x的正常短文本进行过滤的步骤包括:对所述短文本x进行字符计数统计,根据短文本x中各类型字符的个数进行判断:当所述非常见中文字符个数Cuc(x)和其他字符个数C0(x)的总和大于预设的第一阈值Threshold1,且所述数字字符个数Cn(x)和英文字符个数Ce(x)的总和大于预设的第二阈值Threshold2时,将所述短文本判别为疑似涉诈短文本,并执行S2步骤;否则,将所述短文本判别为正常短文本,并进行过滤。
4.根据权利要求3所述的涉诈短文本识别方法,其特征在于,所述S1步骤中还包括以下步骤:
定义2个指示函数luco(x)和lne(x):
Figure FDA0003054945820000011
Figure FDA0003054945820000021
则得到疑似涉诈短文本数据集表示为:
clss1(x)=x⊙(luco(x)∧lne(x))
式中,clss1(x)表示疑似涉诈短文本数据集,当指示函数luco(x)和lne(x)同时为1时,疑似涉诈短文本数据集clss1(x)保留当前待识别的短文本。
5.根据权利要求1所述的涉诈短文本识别方法,其特征在于,所述S2步骤中,采用Bert-wmm模型提取语义特征,其中,将所述模型第一个字符的输出向量作为所述短文本的语义特征。
6.根据权利要求1所述的涉诈短文本识别方法,其特征在于,根据所述疑似涉诈短文本数据集中字符的拼音和笔顺与预设的涉诈关键词的相似度对所述疑似涉诈短文本数据集进行特征抽取的步骤包括:
S31:预设涉诈关键词集合keywordsA={ka1,ka2,...,kai,...,kan};
S32:对所述疑似涉诈短文本数据集进行分析,判断所述短文本中是否存在分割攻击手法,若是,则对分割词进行组合得到纠正后的短文本;若否,则直接进行S33步骤;
S33:从所述涉诈关键词集合中选取第一个关键词中的第一个字符作为当前判定的关键词字符,以及从所述短文本中选取第一个短文本字符作为当前判定的短文本字符进行比较:
1)判断当前短文本字符与关键词字符的拼音是否相同,若是,则执行步骤3);若否,则执行步骤2);
2)判断当前短文本字符与关键词字符的笔顺相似度是否大于预设的相似度阈值,若是,则执行步骤3);若否,则执行步骤4);
3)判断当前关键词字符是否为当前关键词中的最后一个关键词字符,若是,则输出表示该关键词存在短文本中的特征向量,并执行步骤4);若否,则将当前关键词中下一关键词字符作为当前判定的关键词字符,将所述短文本中下一短文本字符作为当前判定的短文本字符,并跳转执行步骤1);
4)判断当前短文本字符是否为所述短文本中的最后一个短文本字符,若是,则输出表示该关键词不存在短文本中的特征向量,并执行步骤5);若否,则将所述短文本中下一短文本字符作为当前判定的短文本字符,将当前关键词中第一个关键词字符作为当前判定的关键词字符,并跳转执行步骤1);
5)判断当前关键词是否为所述涉诈关键词集合中的最后一个关键词,若是,则执行S34步骤;若否,则从所述涉诈关键词集合中选取下一个关键词中的第一个字符作为当前判定的关键词字符,从所述短文本中选取第一个短文本字符作为当前判定的短文本字符,并跳转执行步骤1);
S34:将输出的特征向量整合为抽取得到的人工特征fpb(x)。
7.根据权利要求6所述的涉诈短文本识别方法,其特征在于,所述步骤S33中,判断当前短文本字符与关键词字符的笔顺相似度的步骤包括:对字符的笔画进行编码得到笔顺编码串,其中,横笔画编码为1,竖笔画编码为2,撇笔画编码为3,捺笔画编码为4,折笔画编码为5;将当前短文本字符与关键词字符对比,对连续相同的笔顺编码串中的编码数进行统计,并计算其与关键词字符的笔顺编码总数相同的比例,得到当前短文本字符的笔顺相似度。
8.根据权利要求6所述的涉诈短文本识别方法,其特征在于,所述基于预设的涉诈关键词进行硬匹配的步骤包括:
预设硬匹配关键词集合keywordsB={kb1,kb2,...,kbj,...,kbm};将所述短文本中逐个短文本字符与所述匹配关键词集合中的匹配关键词字符进行比对,当比对一致时,将当前比对的匹配关键词字符作为特征向量输出;当比对不一致时,对所述短文本中下一短文本字符与所述匹配关键词集合进行比对,至所述短文本中所有短文本字符完成比对,将输出的特征向量整合为硬匹配特征fhm(x)。
9.根据权利要求8所述的涉诈短文本识别方法,其特征在于,所述S4步骤中,将所述语义特征fdeep(x)、人工特征fpb(x)和硬匹配特征fhm(x)进行特征融合结果V(x)表示为:
Figure FDA0003054945820000031
则通过多分类算法进行建模训练,其表达公式如下:
clss2(x)=clsml(V(x);θ)
式中,clsml(·;θ)表示多分类算法模型,θ表示多分类算法的相关参数;输出clss2(x)为涉诈短文本判定类别。
10.根据权利要求1~9任一项所述的涉诈短文本识别方法,其特征在于,所述S4步骤中采用支持向量机作为多分类算法、决策树分类算法或K最近邻分类算法进行建模。
CN202110497356.0A 2021-05-07 2021-05-07 一种涉诈短文本识别方法 Pending CN113095858A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110497356.0A CN113095858A (zh) 2021-05-07 2021-05-07 一种涉诈短文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110497356.0A CN113095858A (zh) 2021-05-07 2021-05-07 一种涉诈短文本识别方法

Publications (1)

Publication Number Publication Date
CN113095858A true CN113095858A (zh) 2021-07-09

Family

ID=76681752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110497356.0A Pending CN113095858A (zh) 2021-05-07 2021-05-07 一种涉诈短文本识别方法

Country Status (1)

Country Link
CN (1) CN113095858A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114049508A (zh) * 2022-01-12 2022-02-15 成都无糖信息技术有限公司 一种基于图片聚类和人工研判的诈骗网站识别方法及系统
CN116996840A (zh) * 2023-09-26 2023-11-03 北京百悟科技有限公司 短信审核方法、装置、设备和存储介质
CN117891926A (zh) * 2024-03-15 2024-04-16 环球数科集团有限公司 一种基于人工智能的文本特征诈骗预警系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114049508A (zh) * 2022-01-12 2022-02-15 成都无糖信息技术有限公司 一种基于图片聚类和人工研判的诈骗网站识别方法及系统
CN116996840A (zh) * 2023-09-26 2023-11-03 北京百悟科技有限公司 短信审核方法、装置、设备和存储介质
CN116996840B (zh) * 2023-09-26 2023-12-29 北京百悟科技有限公司 短信审核方法、装置、设备和存储介质
CN117891926A (zh) * 2024-03-15 2024-04-16 环球数科集团有限公司 一种基于人工智能的文本特征诈骗预警系统
CN117891926B (zh) * 2024-03-15 2024-05-14 环球数科集团有限公司 一种基于人工智能的文本特征诈骗预警系统

Similar Documents

Publication Publication Date Title
CN113095858A (zh) 一种涉诈短文本识别方法
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及系统
CN113220919B (zh) 一种大坝缺陷图像文本跨模态检索方法及模型
CN109977416B (zh) 一种多层次自然语言反垃圾文本方法及系统
CN108228915B (zh) 一种基于深度学习的视频检索方法
CN109871955B (zh) 一种航空安全事故因果关系抽取方法
CA3080916C (en) Deep-learning-based system and process for image recognition
CN109831460B (zh) 一种基于协同训练的Web攻击检测方法
Chandio et al. Cursive text recognition in natural scene images using deep convolutional recurrent neural network
CN112347223B (zh) 文档检索方法、设备及计算机可读存储介质
CN111198947B (zh) 基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统
Vijaya Kumar et al. Classification and recognition of handwritten digits by using mathematical morphology
Roy et al. Date-field retrieval in scene image and video frames using text enhancement and shape coding
CN112860889A (zh) 一种基于bert的多标签分类方法
CN114997169B (zh) 一种实体词识别方法、装置、电子设备及可读存储介质
Nasir et al. Mmu-ocr-21: Towards end-to-end urdu text recognition using deep learning
US20160283582A1 (en) Device and method for detecting similar text, and application
CN111488732A (zh) 一种变形关键词检测方法、系统及相关设备
CN107992508B (zh) 一种基于机器学习的中文邮件签名提取方法及系统
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
CN115374325A (zh) 网站分类方法、装置、分类设备及存储介质
CN112069307B (zh) 一种法律法条引用信息抽取系统
Sundaram et al. Bigram language models and reevaluation strategy for improved recognition of online handwritten Tamil words
Zhang et al. Deep contextual stroke pooling for scene character recognition
CN111737688B (zh) 基于用户画像的攻击防御系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination