CN110633466B - 基于语义分析的短信犯罪识别方法、系统和可读存储介质 - Google Patents

基于语义分析的短信犯罪识别方法、系统和可读存储介质 Download PDF

Info

Publication number
CN110633466B
CN110633466B CN201910798793.9A CN201910798793A CN110633466B CN 110633466 B CN110633466 B CN 110633466B CN 201910798793 A CN201910798793 A CN 201910798793A CN 110633466 B CN110633466 B CN 110633466B
Authority
CN
China
Prior art keywords
short message
crime
data
message data
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910798793.9A
Other languages
English (en)
Other versions
CN110633466A (zh
Inventor
高磊
肖安鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Secxun Technology Co ltd
Original Assignee
Shenzhen Secxun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Secxun Technology Co ltd filed Critical Shenzhen Secxun Technology Co ltd
Priority to CN201910798793.9A priority Critical patent/CN110633466B/zh
Publication of CN110633466A publication Critical patent/CN110633466A/zh
Application granted granted Critical
Publication of CN110633466B publication Critical patent/CN110633466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开基于语义分析的短信犯罪识别方法、系统和可读存储介质,其中,短信犯罪识别方法包括:以文本概念为维,建立文本语义表示空间;根据所述文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习,得到每种所述短信犯罪类型对应的语义特征和黑白样本;根据所述语义特征和黑白样本,研判真实短信数据是否为犯罪短信数据;若判定所述真实短信数据为犯罪短信数据,则输出研判结果信息。本发明的技术方案能解决现有技术中以字词为基本特征进行文本分类的方法在对短信内容进行分析时,难以真实重现短信文本信息,还原短信真实语义,进而难以准确识别短信犯罪的问题。

Description

基于语义分析的短信犯罪识别方法、系统和可读存储介质
技术领域
本发明涉及语义分析技术领域,尤其涉及一种基于语义分析的短信犯罪识别方法、系统和可读存储介质。
背景技术
现今,使用高科技诈骗的犯罪行为层出不穷;特别是网络诈骗、短信诈骗及电话诈骗等犯罪行为已发展到公开化和产业化的程度,严重影响了金融秩序稳定及社会安全。其中,短信诈骗是较为常见也是较为严重的犯罪行为。
为了展开反短信犯罪行动,需要对短信数据进行信息检索和文本挖掘。目前,信息检索和文本挖掘技术的研究大多可归结为文本分类问题。文本分类技术是指在预先给定的类别标记集合下,根据文本内容对文本进行有序组织,把文本划分到相关联的类别中去的技术;其中,在具体场合中,文本是根据一定的语言衔接和语义连贯规则组成的语句系统。文本分类技术能较好地解决大量文本信息归类的问题,在自然语言理解与处理、信息自动检索和文本过滤等领域都有着广泛的应用。
现今,基于机器学习的文本分类技术正逐渐成熟,它更注重分类器的模型自动挖掘、生成及动态优化能力,相比过去的基于知识工程的文本分类技术,需要的人工干预较少,在分类效果和灵活性上均有所突破。针对短信犯罪,该基于机器学习的文本分类方法,利用统计学的观点和方法进行分类,这种分类方法是以字词作为文本的基本特征进行分类。
然而,字词往往存在多个意义,而在特定文本中的特定位置,只会用到多个意义中的某一个;另外,文本分类是统计方法,各种统计方法又会摒弃字词的位置信息,导致基本的短语及常用词汇组合都会被拆开从而失去原有含义。因此,上述以字词为基本特征的文本分类方法,在对短信内容进行分析时,难以重现短信的真实文本信息,还原短信的真实语义,进而导致难以准确识别犯罪短信。
发明内容
本发明提供基于语义分析的短信犯罪识别方法、系统和可读存储介质,旨在解决现有技术中以字词为基本特征进行文本分类的方法在对短信内容进行分析时,难以重现短信的真实文本信息,还原短信的真实语义,导致难以准确识别短信犯罪的问题。
为实现上述目的,根据本发明的第一方面,本发明提出了一种基于语义分析的短信犯罪识别方法,包括:
以文本概念为维,建立文本语义表示空间;
根据文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习,得到每种短信犯罪类型分别对应的语义特征和黑白样本;
根据语义特征和黑白样本,研判输入的真实短信数据是否为犯罪短信数据;
若判定真实短信数据为犯罪短信数据,则输出研判结果信息。
优选地,上述短信犯罪识别方法还包括:
建立与每种短信犯罪类型分别对应的语义特征库和黑白样本库;
在得到每种短信犯罪类型分别对应的语义特征和黑白样本的步骤之后,所述方法还包括:将所述语义特征和黑白样本添加至与每种短信犯罪类型分别对应的语义特征库和黑白样本库中;
在判定真实短信数据为犯罪短信数据的步骤之后,还包括:
根据文本语义表示空间,对犯罪短信数据进行机器学习,得到犯罪短信数据的语义特征;
将犯罪短信数据的语义特征添加至犯罪短信数据所属短信犯罪类型对应的语义特征库中,并且,将犯罪短信数据添加至对应的黑白样本库中。
优选地,上述短信犯罪识别方法,在根据文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习的步骤之前,还包括:
选取原始短信数据,其中,原始短信数据包括文本流数据和多源样本数据;
按照每种文本流数据所属的短信犯罪类型,对文本流数据进行数据加工和分类存储,以确定每种短信犯罪类型对应的语义特征;以及,
筛选多源样本数据,得到样本短信数据;
按照每种短信犯罪类型对应的语义特征,对样本短信数据进行分类,确定每个样本短信数据对应的短信犯罪类型。
优选地,上述短信犯罪识别方法,在根据文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习的步骤之后,还包括:
对机器学习检出的样本短信数据进行正差和评分处理,得到正差和评分结果;
使用正差和评分结果,调整机器学习的神经网络模型自身参数。
优选地,上述短信犯罪识别方法中,所述根据语义特征和黑白样本,研判输入的真实短信数据是否为犯罪短信数据的步骤,包括:
对真实短信数据进行机器学习,得到真实短信数据的语义特征;
比较真实短信数据的语义特征与每种短信犯罪类型对应的犯罪短信语义特征之间的相似分值;
根据相似分值,判断真实短信数据是否为犯罪短信数据。
根据本发明的第二方面,还提供了一种基于语义分析的短信犯罪识别系统,包括:
空间建立模块,用于以文本概念为维,建立文本语义表示空间;
第一机器学习模块,用于根据文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习,得到每种短信犯罪类型对应的语义特征和黑白样本;
数据研判模块,用于根据语义特征和黑白样本,研判输入的真实短信数据是否为犯罪短信数据;
结果输出模块,用于若真实短信数据为犯罪短信数据时,输出研判结果信息。
优选地,上述短信犯罪识别系统,还包括:
数据库建立模块,用于建立与每种短信犯罪类型分别对应的语义特征库和黑白样本库;
数据添加模块,用于将语义特征和黑白样本添加至与每种短信犯罪类型分别对应的语义特征库和黑白样本库中;
第二机器学习模块,用于根据文本语义表示空间,对犯罪短信数据进行机器学习,得到犯罪短信数据的语义特征;
所述数据添加模块,还用于将犯罪短信数据的语义特征添加至犯罪短信数据所属短信犯罪类型对应的语义特征库中,并且,将犯罪短信数据添加至对应的黑白样本库中。
优选地,上述短信犯罪识别系统,还包括:
数据选取模块,用于选取原始短信数据,其中,原始短信数据包括文本流数据和多源样本数据;
数据处理模块,用于按照每种文本流数据所属的短信犯罪类型,对文本流数据进行数据加工和分类存储,以确定每种短信犯罪类型对应的语义特征;以及,
数据筛选模块,用于筛选多源样本数据,得到样本短信数据;
数据分类模块,用于按照每种短信犯罪类型对应的语义特征,对样本短信数据进行分类,确定每个样本短信数据对应的短信犯罪类型。
优选地,上述短信犯罪识别系统中,数据研判模块,包括:
机器学习子模块,用于对真实短信数据进行机器学习,得到真实短信数据的语义特征;
特征比较子模块,用于比较真实短信数据的语义特征与每种短信犯罪类型对应的犯罪短信语义特征之间的相似分值;
数据判断子模块,用于根据相似分值,判断真实短信数据是否为犯罪短信数据。
根据本发明的第三方面,还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有基于语义分析的短信犯罪识别方法的程序,该基于语义分析的短信犯罪识别方法的程序被处理器执行时实现如上述任一项技术方案所述的基于语义分析的短信犯罪识别方法的步骤。
本申请提出的技术方案,通过以文本概念为维,建立文本语义表示空间;由于文本语义表示空间是以概念为维建立的,因此在该文本语义表示空间中,短信数据是以文本概念为基本特征的向量,这样根据所述文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习,就能够真实还原向本短信数据的语义,并将该语义匹配到各种短信犯罪类型,从而得到与每种所述短信犯罪类型分别对应的语义特征和黑白样本。然后当处理真实短信数据时,能够根据该语义特征和黑白样本,研判真实短信数据是否为犯罪短信数据;当判定所述真实短信数据为犯罪短信数据时,则输出研判结果信息。
综上,通过上述以文本概念为维,建立文本语义表示空间,将短信数据顺序输入至文本语义表示空间,则该短信数据将作为文本语义表示空间中的向量,从而能够清楚地还原短信数据的真实涵义,能够解决现有技术中存在的以字词为基本特征进行文本分类的方法在对短信内容进行分析时,难以重现短信的真实文本信息和还原短信的真实语义,导致的难以准确识别犯罪短信的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明实施例提供的第一种基于语义分析的短信犯罪识别方法的流程示意图;
图2是图1所示实施例提供的一种真实短信数据研判方法的流程示意图;
图3是本发明实施例提供的第二种基于语义分析的短信犯罪识别方法的流程示意图;
图4是本发明实施例提供的第三种基于语义分析的短信犯罪识别方法的流程示意图;
图5是本发明实施例提供的第四种基于语义分析的短信犯罪识别方法的流程示意图;
图6是本发明实施例提供的第五种基于语义分析的短信犯罪识别方法的流程示意图;
图7是本发明实施例提供的第六种基于语义分析的短信犯罪识别方法的流程示意图;
图8是本发明实施例提供的第一种基于语义分析的短信犯罪识别系统的结构示意图;
图9是本发明实施例提供的第二种基于语义分析的短信犯罪识别系统的结构示意图;
图10是本发明实施例提供的第三种基于语义分析的短信犯罪识别系统的结构示意图;
图11是图8所示实施例提供的一种数据研判模块的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:
识别短信犯罪,需要对短信数据的文本进行分类,目前使用较多分类方法为基于机器学习的文本分类方法,该文本分类方法是利用统计学的观点和方法,以字词作为文本的基本特征进行分类的。然而,以字词为基本特征进行文本分类的方法在对短信数据进行分析时,难以重现短信的真实文本信息,还原短信的真实语义,导致难以准确识别犯罪短信。
为了解决上述问题,本发明提供了基于语义分析的短信犯罪识别方案,通过以文本概念为维,建立文本语义表示空间。以文本概念为维,即将文本概念作为对文本进行语义分析的基本要素。通过建立这样的利用基本语义要素构成的空间,才能对字词进行真正意义上的语义解释,还原文本的语义流向。根据该文本语义表示空间,对输入的各种短信数据进行机器学习,得到语义特征库和黑白样本库,然后根据该语义特征库和黑白样本库,研判真实短信数据,能够根据语义准确判断该短信是否为犯罪短信。
为实现上述目的,请参见图1,图1是本发明实施例提供的第一种基于语义分析的短信犯罪识别方法的流程示意图,如图1所示,该基于语义分析的短信犯罪识别方法包括以下步骤:
S110:以文本概念为维,建立文本语义表示空间。
要对文本进行语义分析,必须有对文本表示的一个语义表示空间,而这个语义表示空间的维是文本概念,即将文本概念作为对文本进行语义分析的基本语义要素。由于基本语义要素是文本的概念而非词语,因此使用文本概念为维能够一定程度上对词语和文本片段的语义进行分析;进而建立一个利用文本概念作为基本语义要素构成的空间,能够对字或词进行真正意义上的语义解释。概念空间即是这样一个空间。一系列的文本概念被通过一定的方式预先定义,并以这些文本概念为维建立文本语义表示空间。在这个文本语义表示空间中,字词或文本片段被表示为单个或多个向量,即可以用另一种方式对文本进行表示,即将整个文本表示为词语的有序集合,从而能够将文本表示为由词向量首尾相接形成的向量串,这样就能够还原文本的语义流向。在识别犯罪短信数据时,能够还原短信数据的语义流向,方便机器准确解读短信数据的真实语义,进而研判短信数据是否为犯罪短信数据。
其中,文本概念的数量直接决定语义分析的详尽程度;文本概念的可读性直接关系到分析后语义的可读性。
S120:根据文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习,得到与每种短信犯罪类型分别对应的语义特征和黑白样本。在得到语义特征和黑白样本后,可按照短信犯罪类型添加至对应的语义特征库和黑白样本库中。
通过该文本语义表示空间,能够获得输入的各种短信犯罪类型的样本短信数据的语义,还原各种短信犯罪类型的短信数据的语义流向。并且通过机器学习算法,能够逐步准确识别出各种短信犯罪类型对应的语义特征,从而提高对各种短信犯罪类型的研判能力。
具体,可将各种短信犯罪类型的样本短信数据输入至文本语义表示空间,得到各种短信犯罪类型的样本短信数据的文本语义,然后通过机器学习不断学习和提取各种短信犯罪类型的样本短信数据的语义特征,然后将短信犯罪类型与语义特征进行对应。当输入新的短信数据时,能够根据该黑白样本比对样本短信数据的特征,然后确定所述新的短信数据的短信犯罪类型,再匹配该短信犯罪类型对应的语义特征,从而检出所述新的短信数据是否为犯罪短信数据。
S130:根据语义特征和黑白样本,研判输入的真实短信数据是否为犯罪短信数据。
其中,参见图2,该根据语义特征库和黑白样本库,研判真实短信数据是否为犯罪短信数据的步骤,包括以下内容:
S131:对真实短信数据进行机器学习,得到真实短信数据的语义特征。
S132:比较真实短信数据的语义特征与每种短信犯罪类型对应的犯罪短信的语义特征之间的相似分值。
S133:根据该相似分值,判断真实短信数据是否为犯罪短信数据。
在获取真实短信数据时,将该真实短信数据与各种样本类型的样本短信数据进行比对,能够快速查找并确定该真实短信数据的犯罪类型,然后将该真实短信数据与该犯罪类型下的语义特征进行特征匹配,能够准确确定该真实短信数据是否为犯罪短信数据,在确定该真实短信数据是否为犯罪短信数据后,将该真实短信数据添加按照样本类型添加至黑白样本库中。或者直接通过文本语义表示空间获取真实短信数据的语义,然后通过机器学习提取真实短信数据的语义特征,匹配黑白样本库或者语义特征库中样本短信数据的语义特征,统计短信数据的文本语义特征与各个犯罪类型对应语义特征的相似分值,当相似分值达到预定相似分值范围内时,即研判真实短信数据为犯罪短信数据,从而能够准确地确定真实短信数据的短信犯罪类型,进而再将真实短信数据添加至黑白样本库中。
S140:若判定真实短信数据为犯罪短信数据,则输出研判结果信息。
该研判结果信息包括真实短信数据是否为犯罪短信,该真实短信数据的短信犯罪类型和短信犯罪类型对应的语义特征,以及该短信自身信息,如短信犯罪行为的疑似嫌疑人信息及疑似受害人信息等。通过输出研判结果信息,能够使得相关用户在大量短信数据中检索处同语义文本,从而发现短信诈骗行为的疑似嫌疑人和受害者,为相关部门提供案件预警,从而达到案情覆盖,降低案件发生量。
若判定该真实短信数据为正常短信数据,可将该真实短信数据加入黑白样本库中的白样本中,或不进行任何标注。
本申请实施例提出的技术方案,通过以文本概念为维,建立文本语义表示空间;由于文本语义表示空间是以概念为维建立的,因此在该文本语义表示空间中,短信数据是以文本概念为基本特征的向量,这样根据所述文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习,能够真实还原向本短信数据的语义,并将该语义匹配到各种短信犯罪类型,从而得到与每种所述短信犯罪类型分别对应的语义特征和黑白样本。然后当处理真实短信数据时,能够根据该语义特征和黑白样本,研判真实短信数据是否为犯罪短信数据;当判定所述真实短信数据为犯罪短信数据时,则输出研判结果信息。
综上,通过上述以文本概念为维,建立文本语义表示空间,将短信数据表示为文本语义表示空间中由词向量首尾相接形成的向量串,这样就生成能够还原短信文本的语义流向的向量,从而能够解决现有技术中存在的以字词为基本特征进行文本分类的方法在对短信内容进行分析时,难以重现短信的真实文本信息和还原短信的真实语义,导致的难以准确识别犯罪短信的问题。
另外,如图3所示,在图3所示的短信犯罪识别方法中,除了图1所示的各个步骤外,还包括以下步骤:
S210:建立每种短信犯罪类型分别对应的语义特征库和黑白样本库;
S220:将语义特征和黑白样本添加至与每种短信犯罪类型分别对应的语义特征库和黑白样本库中。
本申请实施例提供的技术方案中,通过建立与每种短信犯罪类型对应的语义特征库和黑白样本库,能够通过该语义特征库的语义特征和黑白样本库中黑白样本快速地确定新输入的短信数据是否为犯罪短信数据。
另外,机器学习算法对应的神经网络模型能够从该语义特征库和黑白样本库中提取短信数据,作为训练集,从而不断进行机器学习,提高机器学习算法自身的特征识别和提取能力。
另外,如图4所示,在图4所示的短信犯罪识别方法中,在图3所示实施例中的步骤判定真实短信数据为犯罪短信数据之后,还包括以下步骤:
S310:根据文本语义表示空间,对犯罪短信数据进行机器学习,得到犯罪短信数据的语义特征。
通过语义特征库和黑白样本库研判真实短信数据是否为犯罪短信数据的过程中,犯罪短信数据可能出现语义特征库和黑白样本库不包含的犯罪语义特征,因此通过文本语义表示空间得到犯罪短信数据的语义后,再对该犯罪短信数据进行机器学习,能够获取该犯罪短信数据的语义特征,提高机器学习算法对犯罪短信的识别能力。
S320:将犯罪短信数据的语义特征添加至犯罪短信数据所属短信犯罪类型对应的语义特征库中,并且,将犯罪短信数据添加至对应的黑白样本库中。
本申请实施例提供的技术方案,在提取犯罪短信数据的语义特征后,将犯罪短信数据的语义特征添加至犯罪短信数据所属犯罪类型对应的语义特征库中,能够丰富该语义特征库中的语义特征,提高机器学习算法后续特征提取的准确度,并将将该犯罪短信数据添加至黑白样本库中,方便后续研判引擎根据该黑白样本库快速查找和研判相同类型的犯罪短信数据。
其中,为了提高机器学习算法特征提取的准确度,减少机器学习算法误判和漏判的情况,本申请实施例中会以人工干预学习为基础,对接真实短信数据后会根据语义特征和黑白样本等方式进行多维度的学习分析。
另外,参见图5,图5所示实施例提供的短信犯罪识别方法,在图1实施例中的步骤S120:根据文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习之前,还包括以下步骤:
S410:选取原始短信数据,其中,原始短信数据包括文本流数据和多源样本数据。
其中,文本流数据可选用运营商采集的计费文本流数据,作为最原始的分析数据;并将各种渠道获得的样本数据,加工为能够进行机器学习的样本数据。
S420:按照每种文本流数据所属的短信犯罪类型,对文本流数据进行数据加工和分类存储,以确定每种短信犯罪类型对应的语义特征。以及,
具体地,建立数据仓库,对文本流数据进行清洗、扩展、存储等加工处理,并按照短信犯罪类型将文本流数据分类存储至数据仓库,得到各种短信犯罪类型的文本流数据。
通过对文本流数据进行加工和分类存储,能够提取每种短信犯罪类型对应的语义特征,从而根据该语义特征识别短信数据的犯罪类型,为研判短信数据的研判引擎提供最基础的特征和画像支持。
S430:筛选多源样本数据,得到样本短信数据。
原始的多源样本数据并不能直接用于机器学习,因此需要对该多源样本数据进行清洗,得到可用于机器学习的样本短信数据。
S440:按照每种短信犯罪类型对应的语义特征,对样本短信数据进行分类,确定每个样本短信数据对应的短信犯罪类型。
首先通过文本语义表示空间获取样本短信数据的语义,然后提取样本短信数据的语义特征,并与每种短信犯罪类型对应的语义特征相匹配,能够确定样本短信数据的短信犯罪类型,进而对该样本短信数据进行机器学习,得到内容丰富的语义特征库和黑白样本库,并且能提高机器学习算法的准确度。
本申请实施例提供的技术方案,通过选取文本流数据和多源样本数据,然后按照每种文本流数据所属的短信犯罪类型,确定每种短信犯罪类型对应的语义特征,再筛选得到样本短信数据,根据上述短信犯罪类型对应的语义特征确定每个样本短信数据对应的短信犯罪类型,能够准确地确定样本短信数据的短信犯罪类型,为后续对真实短信数据的研判提供基础的特征和画像支持,并通过对样本短信数据的机器学习,得到丰富的语义特征库和黑白样本库,以提高后续对真实短信数据的判断准确率,并通过大量的特征提取和研判,能够不断提高机器学习算法的准确度。
另外,如图6所示,图6所示实施例提供的短信犯罪识别方法,在图1所示步骤S120:根据文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习的步骤之后,还包括:
S510:对机器学习检出的样本短信数据进行正差和评分处理,得到正差和评分结果。
S520:使用正差和评分结果,调整机器学习的神经网络模型自身参数。
本申请实施例提供的技术方案,通过对样本短信数据进行正差和评分处理,能够矫正机器学习识别样本短信数据的语义特征的误差,并通过每次的正差和评分,调整机器学习的神经网络模型自身参数,进而能够提高机器学习识别犯罪类型对应的语义特征及检出样本短信数据的准确率。
另外,如图7所示,图7为本申请实施例提供的第六种基于语义分析的短信犯罪识别方法的流程示意图,其主要是针对短信文本进行语义分析。该基于语义分析的短信犯罪识别方法,包括以下步骤:
S610:通过人工样本检索脚本从历史海量数据仓库中检出学习样本数据。
S620:通过机器语义学习,从学习样本数据中提取各种短信犯罪类型对应的语义特征,并检出黑白样本,通过语义特征和黑白样本生成语义特征库和黑白样本库,添加至行为仓库中。
S630:通过机器语义学习从多源样本数据中提取语义特征和黑白样本,添加至行为仓库中。
S640:研判引擎根据行为仓库中的语义特征和数据,从实时海量数据中提取海量短信数据,并进行研判;
S650:检出研判结果,传递至机器学习部分。
S660:推出结果。
S670:接收研判引擎检出的研判结果,并进行机器语义学习,将学习得到的语义特征和样本数据添加至行为仓库中。
上述基于语义分析的短信犯罪识别方法对应的文本语义分析系统整体分为五大功能模块:原始数据模块、加工数据模块、机器人工干预学习模块、研判引擎模块和AI机器学习模块。其中,
原始数据模块:
用于获取文本流数据和多源样本数据。文本流数据的语义分析是使用文本语义表示空间基于各类型文字内容进行的语义分析研判,程序能够根据训练人员所指定的学习样本进行语义特征的学习。
其中,文本流数据包括采集的运营商处的计费文本流数据,作为最原始的语义分析数据;多源样本数据为通过各种渠道获得的样本数据,需要对该多源样本数据进行加工,加工为能够用于基础机器学习过程的样本数据。
加工数据模块:
主要用于建立数据仓库,即图7中的行为仓库,并提取黑白样本。其中,建立数据仓库,对原始文本流数据进行清洗、扩展和存储,并人工将数据按照短信犯罪类型进行分类存储,得到各个短信犯罪类型的文本流特征表;其中,该文本流特征表包含的文本流特征,包括文本的语义特征。该语义特征可先将文本流数据输入至文本语义表示空间进行语义识别,然后通过一定算法提取语义特征得到。其中,数据仓库是基于最原始的文本流数据,进行清洗、扩展、加工和分析得到的,其中包含最基础的原始数据、各类型多维度的语义分析表、黑白名单表等,为研判引擎提供最基础的画像支撑。
提取黑白样本,主要通过对多源样本数据进行加工,清洗得到的可用于机器学习的黑白样本,并且建立黑白样本库添加至行为仓库中。
人工干预机器学习模块:
用于检出样本数据并按照上述短信犯罪类型进行分类整理,其中该过程可通过人工检出和分类;然后,将整理后的样本数据投入机器学习程序进行学习过程,得到黑白样本库和语义特征库等数据库。
在机器检出结果后,人为对检出数据进行正差及评分,以提高机器学习的特征识别准确率。
其中,在得到黑白样本库后,可由训练者自行挑选出各个类型的黑样本数据进行少量样本学习后接入实际数据进行正差及学习,达到一定量学习后再进行数据回滚检测结果即可。
研判引擎:
智能研判引擎能够根据人工干预机器学习模块生成各短信犯罪类型的文本流的语义特征库和黑白样本库等数据库。
并且,能够根据各短信犯罪类型的语义特征对海量短信数据的文本流内容进行研判,统计出文本流内容的语义特征与各个短信犯罪类型的语义特征的相似分值,根据该相似分值研判海量短信数据中的犯罪短信数据。
研判引擎能够对文本语义进行分析,能够根据训练者提供的样本短信数据进行语义特征学习,并能够在大量的短信数据中检索出包含学习样本的同语义文本。
AI机器学习模块能够以人工干预学习为基础,对接研判引起提炼的实时文本流数据,然后根据语义特征库、黑白样本库等方式,开启AI机器学习模式对实时文本流数据进行多维度的机器学习分析,不断丰富语义特征库和黑白样本库,并提高AI自身的机器学习能力,进而提高机器学习的识别语义特征的准确率。
基于上述方法实施例的同一构思,本发明实施例还提出了基于语义分析的短信犯罪识别系统,用于实现本发明的上述方法,由于该系统实施例解决问题的原理与方法相似,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
具体如图8所示,图8为本申请实施例提供的第一种基于语义分析的短信犯罪识别系统的结构示意图。如图8所示,该基于语义分析的短信犯罪识别系统,包括:
空间建立模块101,用于以文本概念为维,建立文本语义表示空间;
第一机器学习模块102,用于根据文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习,得到每种短信犯罪类型对应的语义特征和黑白样本;
数据研判模块103,用于根据语义特征和黑白样本,研判输入的真实短信数据是否为犯罪短信数据;
结果输出模块104,用于若真实短信数据为犯罪短信数据时,输出研判结果信息。
本申请实施例提出的短信犯罪识别系统中,空间建立模块101以文本概念为维,建立文本语义表示空间;由于文本语义表示空间是以概念为维建立的,因此在该文本语义表示空间中,短信数据是以文本概念为基本特征的向量。这样,使用第一机器学习模块102根据所述文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习,就能够真实还原向本短信数据的语义,并将该语义匹配到各种短信犯罪类型,从而得到与每种所述短信犯罪类型分别对应的语义特征库和黑白样本库。然后当数据研判模块103处理真实短信数据时,能够根据该语义特征库和黑白样本库,研判真实短信数据是否为犯罪短信数据;当数据研判模块103判定所述真实短信数据为犯罪短信数据时,则通过结果输出模块104输出研判结果信息。
综上,通过上述以文本概念为维,建立文本语义表示空间,将短信数据作为文本语义表示空间中的向量的方法,能够解决现有技术中存在的以字词为基本特征进行文本分类的方法在对短信内容进行分析时,难以重现短信的真实文本信息和还原短信的真实语义,导致的难以准确识别犯罪短信的问题。
如图9所示,本实施例提供的基于语义分析的短信犯罪识别系统除了图8所示的各个结构模块外,还包括:
数据库建立模块201,用于建立与每种短信犯罪类型分别对应的语义特征库和黑白样本库;
数据添加模块202,用于将语义特征和黑白样本添加至与每种短信犯罪类型分别对应的语义特征库和黑白样本库中。
第二机器学习模块203,用于根据文本语义表示空间,对犯罪短信数据进行机器学习,得到犯罪短信数据的语义特征;
所述数据添加模块202,用于将犯罪短信数据的语义特征添加至犯罪短信数据所属短信犯罪类型对应的语义特征库中,并且,将犯罪短信数据添加至对应的黑白样本库中。
如图10所示,图10所示的基于语义分析的短信犯罪识别系统,除了图8所示的各个结构模块外,还包括:
数据选取模块301,用于选取原始短信数据,其中,原始短信数据包括文本流数据和多源样本数据;
数据处理模块302,用于按照每种文本流数据所属的短信犯罪类型,对文本流数据进行数据加工和分类存储,以确定每种短信犯罪类型对应的语义特征;以及,
数据筛选模块303,用于筛选多源样本数据,得到样本短信数据;
数据分类模块304,用于按照每种短信犯罪类型对应的语义特征,对样本短信数据进行分类,确定每个样本短信数据对应的短信犯罪类型。
如图11所示,图8所示的短信犯罪识别系统中的数据研判模块103包括:
机器学习子模块1031,用于对真实短信数据进行机器学习,得到真实短信数据的语义特征;
特征比较子模块1032,用于比较真实短信数据的语义特征与每种短信犯罪类型对应的犯罪短信语义特征之间的相似分值;
数据判断子模块1033,用于根据相似分值,判断真实短信数据是否为犯罪短信数据。
另外,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有基于语义分析的短信犯罪识别方法的程序,该基于语义分析的短信犯罪识别方法的程序被处理器执行时实现如上述任一项技术方案所述的基于语义分析的短信犯罪识别方法的步骤。
本发明计算机可读存储介质具体实施例与上述多相机实现屏幕检测的方法的各实施例基本相同,在此不再详细赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于语义分析的短信犯罪识别方法,其特征在于,包括:
以文本概念为维,建立文本语义表示空间;
根据所述文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习,得到每种所述短信犯罪类型分别对应的语义特征和黑白样本;
建立每种短信犯罪类型分别对应的语义特征库和黑白样本库;
在得到每种所述短信犯罪类型分别对应的语义特征和黑白样本的步骤之后,所述方法还包括:将所述语义特征和黑白样本添加至每种短信犯罪类型分别对应的语义特征库和黑白样本库中;
根据所述语义特征和黑白样本,研判输入的真实短信数据是否为犯罪短信数据;
若判定所述真实短信数据为犯罪短信数据,则输出研判结果信息;
在判定所述真实短信数据为犯罪短信数据的步骤之后,所述方法还包括:
根据所述文本语义表示空间,对所述犯罪短信数据进行机器学习,得到所述犯罪短信数据的语义特征;
将所述犯罪短信数据的语义特征添加至所述犯罪短信数据所属短信犯罪类型对应的语义特征库中,并且,将所述犯罪短信数据添加至对应的所述黑白样本库中。
2.根据权利要求1所述的短信犯罪识别方法,其特征在于,在所述根据文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习的步骤之前,所述方法还包括:
选取原始短信数据,其中,所述原始短信数据包括文本流数据和多源样本数据;
按照每种文本流数据所属的短信犯罪类型,对所述文本流数据进行数据加工和分类存储,以确定每种短信犯罪类型对应的语义特征;以及,
筛选所述多源样本数据,得到所述样本短信数据;
按照每种短信犯罪类型对应的语义特征,对所述样本短信数据进行分类,确定每个样本短信数据对应的短信犯罪类型。
3.根据权利要求1所述的短信犯罪识别方法,其特征在于,在所述根据文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习的步骤之后,所述方法还包括:
对机器学习检出的样本短信数据进行正差和评分处理,得到正差和评分结果;
使用所述正差和评分结果,调整机器学习的神经网络模型自身参数。
4.根据权利要求1所述的短信犯罪识别方法,其特征在于,所述根据语义特征和黑白样本,研判输入的真实短信数据是否为犯罪短信数据的步骤,包括:
对所述真实短信数据进行机器学习,得到所述真实短信数据的语义特征;
比较所述真实短信数据的语义特征与每种所述短信犯罪类型对应的犯罪短信的语义特征之间的相似分值;
根据所述相似分值,判断所述真实短信数据是否为犯罪短信数据。
5.一种基于语义分析的短信犯罪识别系统,其特征在于,包括:
空间建立模块,用于以文本概念为维,建立文本语义表示空间;
第一机器学习模块,用于根据所述文本语义表示空间,对输入的各种短信犯罪类型的样本短信数据进行机器学习,得到每种所述短信犯罪类型对应的语义特征和黑白样本;
数据研判模块,用于根据所述语义特征和黑白样本,研判输入的真实短信数据是否为犯罪短信数据;
结果输出模块,用于若所述真实短信数据为犯罪短信数据时,输出研判结果信息;
数据库建立模块,用于建立与每种短信犯罪类型分别对应的语义特征库和黑白样本库;
数据添加模块,用于将所述语义特征和黑白样本添加至与每种短信犯罪类型分别对应的语义特征库和黑白样本库中;
第二机器学习模块,用于根据所述文本语义表示空间,对所述犯罪短信数据进行机器学习,得到所述犯罪短信数据的语义特征;
所述数据添加模块,还用于将所述犯罪短信数据的语义特征添加至所述犯罪短信数据所属短信犯罪类型对应的语义特征库中,并且,将所述犯罪短信数据添加至对应的所述黑白样本库中。
6.根据权利要求5所述的短信犯罪识别系统,其特征在于,还包括:
数据选取模块,用于选取原始短信数据,其中,所述原始短信数据包括文本流数据和多源样本数据;
数据处理模块,用于按照每种文本流数据所属的短信犯罪类型,对所述文本流数据进行数据加工和分类存储,以确定每种短信犯罪类型对应的语义特征;以及,
数据筛选模块,用于筛选所述多源样本数据,得到样本短信数据;
数据分类模块,用于按照每种短信犯罪类型对应的语义特征,对所述样本短信数据进行分类,确定每个样本短信数据对应的短信犯罪类型。
7.根据权利要求5所述的短信犯罪识别系统,其特征在于,所述数据研判模块,包括:
机器学习子模块,用于对所述真实短信数据进行机器学习,得到所述真实短信数据的语义特征;
特征比较子模块,用于比较所述真实短信数据的语义特征与每种所述短信犯罪类型对应的犯罪短信的语义特征之间的相似分值;
数据判断子模块,用于根据所述相似分值,判断所述真实短信数据是否为犯罪短信数据。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于语义分析的短信犯罪识别方法的程序,所述基于语义分析的短信犯罪识别方法的程序被处理器执行时实现如权利要求1-4中任一项所述的基于语义分析的短信犯罪识别方法的步骤。
CN201910798793.9A 2019-08-26 2019-08-26 基于语义分析的短信犯罪识别方法、系统和可读存储介质 Active CN110633466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910798793.9A CN110633466B (zh) 2019-08-26 2019-08-26 基于语义分析的短信犯罪识别方法、系统和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910798793.9A CN110633466B (zh) 2019-08-26 2019-08-26 基于语义分析的短信犯罪识别方法、系统和可读存储介质

Publications (2)

Publication Number Publication Date
CN110633466A CN110633466A (zh) 2019-12-31
CN110633466B true CN110633466B (zh) 2021-01-19

Family

ID=68970774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910798793.9A Active CN110633466B (zh) 2019-08-26 2019-08-26 基于语义分析的短信犯罪识别方法、系统和可读存储介质

Country Status (1)

Country Link
CN (1) CN110633466B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186263A (zh) * 2022-07-15 2022-10-14 深圳安巽科技有限公司 一种反非法诱导活动方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202330A (zh) * 2016-07-01 2016-12-07 北京小米移动软件有限公司 垃圾信息的判断方法及装置
CN107835496A (zh) * 2017-11-24 2018-03-23 北京奇虎科技有限公司 一种垃圾短信的识别方法、装置和服务器
CN109191167A (zh) * 2018-07-17 2019-01-11 阿里巴巴集团控股有限公司 一种目标用户的挖掘方法和装置
CN109413595A (zh) * 2017-08-17 2019-03-01 中国移动通信集团公司 一种垃圾短信的识别方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567304B (zh) * 2010-12-24 2014-02-26 北大方正集团有限公司 一种网络不良信息的过滤方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202330A (zh) * 2016-07-01 2016-12-07 北京小米移动软件有限公司 垃圾信息的判断方法及装置
CN109413595A (zh) * 2017-08-17 2019-03-01 中国移动通信集团公司 一种垃圾短信的识别方法、装置及存储介质
CN107835496A (zh) * 2017-11-24 2018-03-23 北京奇虎科技有限公司 一种垃圾短信的识别方法、装置和服务器
CN109191167A (zh) * 2018-07-17 2019-01-11 阿里巴巴集团控股有限公司 一种目标用户的挖掘方法和装置

Also Published As

Publication number Publication date
CN110633466A (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
CN109697162B (zh) 一种基于开源代码库的软件缺陷自动检测方法
CA2423033C (en) A document categorisation system
CN109325148A (zh) 生成信息的方法和装置
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
US7769759B1 (en) Data classification based on point-of-view dependency
CN111831790A (zh) 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
CN108804421A (zh) 文本相似性分析方法、装置、电子设备及计算机存储介质
CN111090763A (zh) 一种图片自动标签方法及装置
CN110134777A (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN111767382A (zh) 生成反馈信息的方法、装置及终端设备
CN112651296A (zh) 一种无先验知识数据质量问题自动探查方法及系统
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN115758183A (zh) 日志异常检测模型的训练方法及装置
CN110633466B (zh) 基于语义分析的短信犯罪识别方法、系统和可读存储介质
CN111125443A (zh) 一种基于自动去重的试题题库在线更新方法
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN114764463A (zh) 基于事件传播特征的互联网舆情事件自动预警系统
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备
CN115794803A (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN115994531A (zh) 一种多维度文本综合辨识方法
CN111695117B (zh) 一种webshell脚本检测方法及装置
CN115842645A (zh) 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质
CN113537802A (zh) 一种基于开源情报的地缘政治风险推演方法
CN109446330B (zh) 网络服务平台情感倾向识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant