CN114786184B - 涉诈短信拦截模板生成方法及装置 - Google Patents

涉诈短信拦截模板生成方法及装置 Download PDF

Info

Publication number
CN114786184B
CN114786184B CN202210702038.8A CN202210702038A CN114786184B CN 114786184 B CN114786184 B CN 114786184B CN 202210702038 A CN202210702038 A CN 202210702038A CN 114786184 B CN114786184 B CN 114786184B
Authority
CN
China
Prior art keywords
fraud
short message
keyword
template
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210702038.8A
Other languages
English (en)
Other versions
CN114786184A (zh
Inventor
林美玉
常雯
万晓玥
杜伟
张远晶
郭海璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Information and Communications Technology CAICT
Original Assignee
China Academy of Information and Communications Technology CAICT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Information and Communications Technology CAICT filed Critical China Academy of Information and Communications Technology CAICT
Priority to CN202210702038.8A priority Critical patent/CN114786184B/zh
Publication of CN114786184A publication Critical patent/CN114786184A/zh
Application granted granted Critical
Publication of CN114786184B publication Critical patent/CN114786184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/128Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及通信领域,提供一种涉诈短信拦截模板生成方法及装置。所述方法包括:根据多条已标注涉诈类型的历史涉诈短信构建知识图谱;根据所述知识图谱选取单一目标短信的关键词;所述单一目标短信为未标注涉诈类型的当前短信;根据所述单一目标短信的关键词生成涉诈短信拦截模板。本申请实施例提供的涉诈短信拦截模板生成方法及装置可以对下一时刻新进的涉诈短信进行有效的拦截,保护用户的财产安全。

Description

涉诈短信拦截模板生成方法及装置
技术领域
本申请涉及通信技术领域,具体涉及一种涉诈短信拦截模板生成方法及装置。
背景技术
目前,现有的涉诈短信拦截模板生成方法比较依赖人力,需要具有专业知识的技术人员分析海量短信样本,根据办案经验或者线索,筛选出涉诈短信,再人工从涉诈短信中提取涉诈关键词,根据其中的与或非关系得到诈短信拦截模板,最后编写正则表达式对与模板相似的短信进行拦截。
但基于专家知识和人力劳动手动构造涉诈短信拦截模板的方法耗时耗力,无法对模板库进行长期维护和更新,一旦频繁出现新型诈骗短信,则无法快速找到对应的涉诈短信拦截模板进行短信拦截,同时,传统的基于词频、共现关系提取涉诈关键词的方法由于仅针对当前短信信息进行提取,忽略了大量有益的历史短信经验,因而可能忽略短信文本中隐含的语义信息,在涉诈关键词提取时出现遗漏或不准确,从而无法生成有效的拦截模板,影响涉诈短信拦截的效果。
发明内容
本申请实施例提供一种涉诈短信拦截模板生成方法及装置,用以解决在涉诈关键词提取时出现遗漏或不准确,从而无法生成有效的拦截模板,影响涉诈短信拦截的效果的技术问题。
第一方面,本申请实施例提供一种涉诈短信拦截模板生成方法,包括:
根据多条已标注涉诈类型的历史涉诈短信构建知识图谱;
根据所述知识图谱选取单一目标短信的关键词;所述单一目标短信为未标注涉诈类型的当前短信;
根据所述单一目标短信的关键词生成涉诈短信拦截模板。
在一个实施例中,所述根据多条已标注涉诈类型的历史涉诈短信构建知识图谱,包括:
提取多条已标注涉诈类型的历史涉诈短信文本中的第一涉诈元素,将剩余的所述历史涉诈短信文本作为第一待分词文本;所述第一涉诈元素为每条所述已标注涉诈类型的历史涉诈短信文本中的联系方式本文;
对所述第一待分词文本进行分词处理,得到多个词性的第一词语;
选取所述多个词性的第一词语中常用词性的第一词语作为涉诈关键词,利用词频-逆文本频率TF-IDF算法确定所述涉诈关键词在所述多条所述已标注涉诈类型的涉诈短信文本中的涉诈程度;所述常用词性包括名词、动词和形容词;
根据第一实体节点、关系和属性构建知识图谱,所述第一实体节点包括所述涉诈类型、所述第一涉诈元素以及所述涉诈关键词,所述关系包括所述涉诈类型与所述涉诈关键词之间的从属关系、所述第一涉诈元素与所述涉诈关键词之间的从属关系以及所述涉诈关键词的共现次数,所述属性包括所述涉诈关键词的涉诈程度,所述涉诈关键词的共现次数为每两个所述涉诈关键词在所述多条已标注涉诈类型的历史涉诈短信文本中共现次数的总和。
在一个实施例中,所述根据所述知识图谱选取单一目标短信的关键词,包括:
提取单一目标短信文本中的第二涉诈元素,将剩余的所述单一目标短信文本作为第二待分词文本;所述第二涉诈元素为所述单一目标短信文本中的联系方式本文;
对所述第二待分词文本进行分词处理,得到多个词性的第二词语;
选取所述多个词性的第二词语中常用词性的第二词语作为候选关键词;所述常用词性包括名词、动词和形容词;
根据预设长度将所述候选关键词划分为N个滑动窗口,在每个所述滑动窗口中的每两个所述候选关键词之间构建一条无向边;其中,N为大于等于1的整数;
将所述候选关键词映射到所述知识图谱上,若所述知识图谱上存在与所述候选关键词相同的所述涉诈关键词,则将所述涉诈关键词对应的所述涉诈程度、所述涉诈类型、所述第一涉诈元素、所述涉诈类型与所述涉诈关键词之间的从属关系、所述第一涉诈元素与所述涉诈关键词之间的从属关系以及所述涉诈关键词的共现次数链接至与所述涉诈关键词相同的所述候选关键词;
根据所述无向边两端连接的两个候选关键词的涉诈程度、所述两个候选关键词同属的涉诈类型个数、所述两个候选关键词同属的涉诈元素个数以及所述两个候选关键词的共现总数之积,确定所述无向边的权重;其中,未链接到所述涉诈程度的所述候选关键词的涉诈程度为第一预设值,所述涉诈元素包括所述第一涉诈元素和所述第二涉诈元素,所述两个候选关键词的共现总数为所述两个候选关键词在所述单一目标短信文本中的共现次数与所述两个候选关键词通过所述知识图谱链接到的共现次数之和;
对每条所述无向边的权重进行归一化处理,得到每个候选关键词转移到相邻候选关键词位置的转移概率;
根据所述转移概率以及重启式随机游走算法,确定每个所述候选关键词的最终权重;
对所述每个所述候选关键词的最终权重由大到小排序,选取排序的前M个所述候选关键词作为所述单一目标短信的关键词,其中,M为大于等于1的整数。
在一个实施例中,所述根据所述单一目标短信的关键词生成涉诈短信拦截模板,包括:
按照所述单一目标短信的关键词在所述单一目标短信中的先后顺序组合所述单一目标短信的关键词,得到所述单一目标短信对应的关键词组;
对多条目标短信的所述关键词组进行聚类,将同一类关键词组中的所有关键词作为第二实体节点,并以所述第二实体节点在对应目标短信中的先后顺序为方向在所述第二实体节点之间构建有向边,得到有向图,确定所述有向图为涉诈短信拦截模板。
在一个实施例中,所述根据所述单一目标短信的关键词生成涉诈短信拦截模板之后,包括:
将所述涉诈短信拦截模板与模板库内的现有模板进行匹配,若所述涉诈短信拦截模板与模板库内的现有模板均不相同,则确定所述涉诈短信拦截模板为新模板;
将所述新模板加入至所述模板库;
将所述新模板对应的所述目标短信加入至涉诈短信分类器的训练集中进行训练分类,得到并标注所述新模板对应的所述目标短信的涉诈类型后,返回根据多条已标注涉诈类型的历史涉诈短信构建知识图谱的步骤。
在一个实施例中,所述对多条目标短信的所述关键词组进行聚类,包括:
根据所述多条目标短信的所述关键词组之间的最短编辑距离和涉诈类型相同率对多条目标短信的所述关键词组进行聚类,所述涉诈类型相同率为所述多条目标短信的所述关键词组中任意两个关键词组同属的涉诈类型个数与所述任意两个关键词组从属的涉诈类型总数的比值。
在一个实施例中,所述根据所述多条目标短信的所述关键词组之间的最短编辑距离和涉诈类型相同率对多条目标短信的所述关键词组进行聚类,包括:
遍历所述多条目标短信的所述关键词组中的每个关键词组,将每次访问到的所述关键词组作为目标关键词组;
将所述多条目标短信的所述关键词组中除了目标关键词组以外的关键词组作为待聚类关键词组;
计算所述目标关键词组与每个待聚类关键词组之间的所述最短编辑距离和所述涉诈类型相同率,若所述最短编辑距离小于第二预设值且所述涉诈类型相同率大于第三预设值,则将所述待聚类关键词组与所述目标关键词组聚类为一类。
第二方面,本申请实施例提供一种涉诈短信拦截模板生成装置,包括:
知识图谱构建模块,用于:根据多条已标注涉诈类型的历史涉诈短信构建知识图谱;
目标短信关键词选取模块,用于:根据所述知识图谱选取单一目标短信的关键词;所述单一目标短信为未标注涉诈类型的当前短信;
涉诈短信拦截模板生成模块,用于:根据所述单一目标短信的关键词生成涉诈短信拦截模板。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的涉诈短信拦截模板生成方法的步骤。
第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的涉诈短信拦截模板生成方法的步骤。
本申请实施例提供的涉诈短信拦截模板生成方法及装置,先根据多条已标注涉诈类型的历史涉诈短信构建知识图谱,再根据知识图谱选取单一目标短信的关键词,该单一目标短信为未标注涉诈类型的当前短信,最后根据该单一目标短信的关键词生成涉诈短信拦截模板,由于本申请实施例是参照知识图谱来选取当前短信的涉诈关键词,而知识图谱是基于多条已标注涉诈类型的历史涉诈短信构建的,因此选取当前短信的涉诈关键词时,引入了历史短信经验,从而可借助历史短信经验和当前短信的特征对比,在当前短信中选取尽可能完整而准确的涉诈关键词,再利用选取的涉诈关键词生成涉诈短信拦截模板,该模板融合了历史短信和当前短信的经验,能够对下一时刻新进的涉诈短信进行有效的拦截,保护用户的财产安全。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的涉诈短信拦截模板生成方法的流程示意图之一;
图2是本申请实施例提供的涉诈短信拦截模板生成方法的流程示意图之二;
图3是本申请实施例提供的涉诈短信拦截模板生成方法的流程示意图之三;
图4是本申请实施例提供的涉诈短信拦截模板生成方法的流程示意图之四;
图5是本申请实施例提供的涉诈短信拦截模板生成方法的流程示意图之五;
图6是本申请实施例提供的涉诈短信拦截模板生成方法的流程示意图之六;
图7是本申请实施例提供的涉诈短信拦截模板生成装置的结构示意图;
图8是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的涉诈短信拦截模板生成方法的流程示意图之一。参照图1,本申请实施例提供一种涉诈短信拦截模板生成方法,可以包括:
101、根据多条已标注涉诈类型的历史涉诈短信构建知识图谱;
102、根据该知识图谱选取单一目标短信的关键词;
该单一目标短信为未标注涉诈类型的当前短信,如果能够通过该知识图谱选取到该单一目标短信的关键词,则说明该单一目标短信与历史涉诈短信之间存在某种对应关系,即可判断该单一目标短信为涉诈短信;如果不能通过该知识图谱选取到该单一目标短信的关键词,则说明该单一目标短信与历史涉诈短信之间对应关系很弱,即可判断该单一目标短信为非涉诈短信。
103、根据该单一目标短信的关键词生成涉诈短信拦截模板。
本实施例提供的涉诈短信拦截模板生成方法,先根据多条已标注涉诈类型的历史涉诈短信构建知识图谱,再根据知识图谱选取单一目标短信的关键词,该单一目标短信为未标注涉诈类型的当前短信,最后根据该单一目标短信的关键词生成涉诈短信拦截模板,由于本实施例是参照知识图谱来选取当前短信的涉诈关键词,而知识图谱是基于多条已标注涉诈类型的历史涉诈短信构建的,因此选取当前短信的涉诈关键词时,引入了历史短信经验,从而可借助历史短信经验和当前短信的特征对比,在当前短信中选取尽可能完整而准确的涉诈关键词,再利用选取的涉诈关键词生成涉诈短信拦截模板,该模板融合了历史短信和当前短信的经验,能够对下一时刻新进的涉诈短信进行有效的拦截,保护用户的财产安全。
图2为本申请实施例提供的涉诈短信拦截模板生成方法的流程示意图之二。参照图2,在一个实施例中,根据多条已标注涉诈类型的历史涉诈短信构建知识图谱,可以包括:
201、提取多条已标注涉诈类型的历史涉诈短信文本中的第一涉诈元素,将剩余的历史涉诈短信文本作为第一待分词文本;
该第一涉诈元素为每条已标注涉诈类型的历史涉诈短信文本中的联系方式本文,例如QQ号、微信号、网站或电话号码等,需要说明的是,由于将多条已标注涉诈类型的历史涉诈短信文本综合起来执行该步骤,而每条已标注涉诈类型的历史涉诈短信文本中的第一涉诈元素可能并不一样,因此,从多条已标注涉诈类型的历史涉诈短信文本中提取的第一涉诈元素可能有多个,例如既包括QQ号也包括微信号,或是包括多个QQ号,但每个QQ号不相同等。
另外,剩余的历史涉诈短信文本指的是多条已标注涉诈类型的历史涉诈短信文本提取了第一涉诈元素后的文本,也是多条历史涉诈短信文本的综合。
202、对该第一待分词文本进行分词处理,得到多个词性的第一词语;
需要说明的是,分词处理后的第一词语为互不相同的词语,由于第一待分词文本涉及到多条历史涉诈短信,可能存在多条历史涉诈短信文本中出现同一个第一词语的情况,在这种情况下,同一词性的该第一词语只选取一次。
分词方法此处不作限定,分词后对每个词语标注词性,如名词、动词、形容词、副词、数词等。
203、选取该多个词性的第一词语中常用词性的第一词语作为涉诈关键词,利用词频-逆文本频率TF-IDF算法确定该涉诈关键词在该多条已标注涉诈类型的涉诈短信文本中的涉诈程度;
常用词性包括名词、动词和形容词,即在第一待分词文本分词处理后得到的各类词性的词语中选取名词、动词和形容词等常用词性的词语作为涉诈关键词。
TF-IDF算法是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
利用词频-逆文本频率TF-IDF算法确定该涉诈关键词在该多条已标注涉诈类型的涉诈短信文本中的涉诈程度,即利用TF-IDF算法对该涉诈关键词按照其在已标注涉诈类型的涉诈短信文本中的重要程度进行加权,每个涉诈关键词的权重即为其涉诈程度,权重越高,涉诈程度越高。
204、根据第一实体节点、关系和属性构建知识图谱。
该第一实体节点包括涉诈类型、第一涉诈元素以及涉诈关键词,该关系包括涉诈类型与涉诈关键词之间的从属关系、第一涉诈元素与涉诈关键词之间的从属关系以及涉诈关键词的共现次数,该属性包括涉诈关键词的涉诈程度,该涉诈关键词的共现次数为每两个涉诈关键词在该多条已标注涉诈类型的历史涉诈短信文本中的共现次数的总和。
由于该知识图谱是基于多条已标注涉诈类型的历史涉诈短信构建,因此该步骤中的涉诈类型可能有多个。
涉诈类型与涉诈关键词之间从属关系可以通过一条有向线来表示,例如某一涉诈关键词为彩票,其对应的历史涉诈短信被标注为E类,则在实体节点“彩票”和实体节点“E类”之间构建一条由“彩票”指向“E类”的有向线,表示“彩票”属于“E类”,第一涉诈元素与涉诈关键词之间的从属关系可以同理表示。
需要说明的是,由于涉诈类型和第一涉诈元素可以为多个,某一涉诈关键词可以同时属于不同的涉诈类型或不同的第一涉诈元素。
本实施例通过对多条已标注涉诈类型的历史涉诈短信文本进行第一涉诈元素提取、文本分词、涉诈关键词选取及加权,再综合多种涉诈类型、第一涉诈元素、涉诈关键词、涉诈程度以及它们之间的关系构建知识图谱,充分利用了历史涉诈短信中的多种涉诈信息,使得知识图谱中的涉诈知识信息完备,有助于后续对未标注涉诈类型的当前信息进行对比参考。
图3为本申请实施例提供的涉诈短信拦截模板生成方法的流程示意图之三。参照图3,在一个实施例中,根据知识图谱选取单一目标短信的关键词,可以包括:
301、提取单一目标短信文本中的第二涉诈元素,将剩余的单一目标短信文本作为第二待分词文本;
该第二涉诈元素为单一目标短信文本中的联系方式本文,例如QQ号、微信号、网站或电话号码等,需要说明的是,单一目标短信中的第二涉诈元素可能有多个,例如既包括QQ号也包括微信号,或是包括多个QQ号,但每个QQ号不相同等。
另外,剩余的单一目标短信文本指的是单一目标短信文本提取了第二涉诈元素后的文本。
302、对该第二待分词文本进行分词处理,得到多个词性的第二词语;
需要说明的是,分词处理后的第二词语为互不相同的词语,由于同一个第二词语在第二待分词文本可能出现多次,在这种情况下,同一词性的该第二词语只选取一次。
分词方法此处不作限定,分词后对每个词语标注词性,如名词、动词、形容词、副词、数词等。
303、选取该多个词性的第二词语中常用词性的第二词语作为候选关键词;
常用词性包括名词、动词和形容词,即在第二待分词文本分词处理后得到的各类词性的词语中选取名词、动词和形容词等常用词性的词语作为候选关键词。
304、根据预设长度将该候选关键词划分为N个滑动窗口,在每个滑动窗口中的每两个候选关键词之间构建一条无向边;
其中,N为大于等于1的整数;
如候选关键词为{今天,天气,下雨,带,伞},滑动窗口预设长度为3,那么共产生3个窗口,分别是:{今天,天气,下雨}、{天气,下雨,带}和{下雨,带,伞},则三个窗口内的词互相之间存在共现关系,则在每个滑动窗口中的每两个候选关键词之间构建一条无向边,表示该每两个候选关键词之间存在共现关系。
305、将该候选关键词映射到知识图谱上,若知识图谱上存在与该候选关键词相同的涉诈关键词,则将该涉诈关键词对应的涉诈程度、涉诈类型、第一涉诈元素、涉诈类型与涉诈关键词之间的从属关系、第一涉诈元素与涉诈关键词之间的从属关系以及涉诈关键词的共现次数链接至与该涉诈关键词相同的候选关键词;
例如知识图谱上的涉诈关键词语与候选关键词相同的有“玩”和“彩票”,则将“玩”和“彩票”在知识图谱上的涉诈程度、涉诈类型第一涉诈元素、涉诈类型与“玩”和“彩票”之间的从属关系、第一涉诈元素与“玩”和“彩票”之间的从属关系以及“玩”和“彩票”的共现次数链接至候选关键词“玩”和“彩票”,这样一来,候选关键词“玩”和“彩票”具备了涉诈程度、涉诈类型、第一涉诈元素、第二涉诈元素、涉诈类型与“玩”和“彩票”之间的从属关系、第一涉诈元素与“玩”和“彩票”之间的从属关系、第二涉诈元素与“玩”和“彩票”之间的从属关系以及在多条已标注涉诈类型的历史涉诈短信文本中的共现次数的总和。
需要说明的是,若知识图谱上存在与该候选关键词相同的涉诈关键词,则说明该单一目标短信与历史涉诈短信之间存在某种对应关系,即可判断该单一目标短信为涉诈短信;若知识图谱上不存在与该候选关键词相同的涉诈关键词,则说明该单一目标短信与历史涉诈短信之间对应关系很弱,即可判断该单一目标短信为非涉诈短信。
306、根据该无向边两端连接的两个候选关键词的涉诈程度、该两个候选关键词同属的涉诈类型个数、该两个候选关键词同属的涉诈元素个数以及该两个候选关键词的共现总数之积,确定该无向边的权重;
其中,未链接到涉诈程度的候选关键词的涉诈程度为第一预设值,该涉诈元素包括第一涉诈元素和第二涉诈元素,两个候选关键词的共现总数为该两个候选关键词在该单一目标短信文本中的共现次数与该两个候选关键词通过知识图谱链接到的共现次数之和。
即每条无向边的权重可以按照如下公式计算:
Figure 669740DEST_PATH_IMAGE001
其中,
Figure 177819DEST_PATH_IMAGE002
表示单条无向边的权重,
Figure 493394DEST_PATH_IMAGE003
分别表示候选关键词a和候选关键词b,e 表示a和b之间的边,
Figure 766244DEST_PATH_IMAGE004
分别表示候选关键词a和候选关键词b的涉诈程度,
Figure 432848DEST_PATH_IMAGE005
表示 涉诈类型,
Figure 622915DEST_PATH_IMAGE006
表示统计次数,
Figure 792996DEST_PATH_IMAGE007
表示涉诈元素,
Figure 299064DEST_PATH_IMAGE008
表示共现总数,则
Figure 685920DEST_PATH_IMAGE009
为候选关键词a和候选关键词b同属的涉诈类型个数,例如 候选关键词a属于A涉诈类型、B涉诈类型和C涉诈类型,候选关键词b属于B涉诈类型、C涉诈 类型和D涉诈类型,则候选关键词a和候选关键词b同属的涉诈类型为B涉诈类型和C涉诈类 型,个数为2,
Figure 240530DEST_PATH_IMAGE010
的值为2,同理,
Figure 530697DEST_PATH_IMAGE011
为候选 关键词a和候选关键词b同属的涉诈元素个数,将候选关键词a从属的第一涉诈元素和第二 涉诈元素加总,候选关键词b从属的第一涉诈元素和第二涉诈元素加总,若候选关键词a属 于A涉诈元素、B涉诈元素和C涉诈元素,候选关键词b属于A涉诈元素、C涉诈元素和D涉诈元 素,则候选关键词a和候选关键词b同属的涉诈元素为A涉诈元素和C涉诈元素,个数为2,
Figure 584497DEST_PATH_IMAGE012
的值为2。
需要说明的是,若存在某一候选关键词没有涉诈程度,则该候选关键词的涉诈程 度默认为0.1,即第一预设值为0.1,若候选关键词a和候选关键词b之间没有同属的涉诈类 型,则
Figure 960114DEST_PATH_IMAGE013
的值为1,若候选关键词a和候选关键词b之间没有同属 的涉诈元素,则
Figure 52835DEST_PATH_IMAGE014
的值为1。
共现总数为同时出现的次数加总,本实施例中,为候选关键词a和候选关键词b同时出现在同一条目标短信文本中的次数,与候选关键词a和候选关键词b同时出现在同一条已标注涉诈类型的历史涉诈短信文本中的次数的总和,例如,候选关键词a和候选关键词b同时出现在目标短信文本X中的次数为1,候选关键词a和候选关键词b同时出现在已标注涉诈类型的历史涉诈短信文本Y中的次数为2,候选关键词a和候选关键词b同时出现在已标注涉诈类型的历史涉诈短信文本Z中的次数为1,且候选关键词a和候选关键词b在多条已标注涉诈类型的历史涉诈短信文本中只同时出现在历史涉诈短信文本Y和Z中,则候选关键词a和候选关键词b的共现总数为4(即1+2+1)次。
该次数的统计不考虑候选关键词a和候选关键词b在该目标短信文本以及历史涉诈短信文本中的先后顺序,即候选关键词a和候选关键词b在该目标短信文本中或历史涉诈短信文本中以a到b的顺序出现一次,以b到a的顺序再出现一次,则候选关键词a和候选关键词b同时出现在同一条目标短信文本中或历史涉诈短信文本中的次数为2。
307、对每条无向边的权重进行归一化处理,得到每个候选关键词转移到相邻候选关键词位置的转移概率;
308、根据该转移概率以及重启式随机游走算法,确定每个候选关键词的最终权重;
该重启式随机游走算法步骤如下:
1、随机初始化各候选关键词的初始权重;
2、设定重启概率r,表示当前候选关键词以1-r的概率选择根据该候选关键词的转移概率随机转移到对应的相邻候选关键词位置,以r的概率返回到起始候选关键词;
若当前候选关键词本身就在起始位置,则该候选关键词以r的概率停留在原位;
候选关键词的初始权重跟随该候选关键词进行转移。
3、所有候选关键词完成一次转移计算即为迭代一轮,将转移至每个候选候选关键词位置的权重相加作为该候选关键词的权重,获得一轮迭代后的权重分布;
4、重复第3步,直至权重分布趋近收敛,得到各候选关键词的最终权重。
309、对每个候选关键词的最终权重由大到小排序,选取排序的前M个候选关键词作为该单一目标短信的关键词。
其中,M为大于等于1的整数。
本实施例将单一目标短信与知识图谱对应选取候选关键词,并计算每两个候选关键词之间无向边的权重,通过无向边的权重计算每个候选关键词的转移概率,再根据重启式随机游走算法计算每个候选关键词的最终权重,选取权重较大的几个候选关键词作为该单一目标短信的关键词,由于充分参考了历史短信经验,且对候选关键词进行了权重计算,能够更加准确的得到候选关键词与历史涉诈关键词之间的相关性,以及候选关键词之间的相关性,从而能够准确的选取相关性高的候选关键词作为单一目标短信的关键词。
图4为本申请实施例提供的涉诈短信拦截模板生成方法的流程示意图之四。参照图4,在一个实施例中,根据单一目标短信的关键词生成涉诈短信拦截模板,可以包括:
401、按照单一目标短信的关键词在该单一目标短信中的先后顺序组合该单一目标短信的关键词,得到该单一目标短信对应的关键词组;
若同一条目标短信中关键词的顺序不一样,如出现两次“彩票”和“玩”,但第一次两个关键词的顺序是“彩票”到“玩”,第二次两个关键词的顺序是“玩”到“彩票”,则得到两个关键词组,分别为[彩票,玩]和[玩,彩票]。
402、对多条目标短信的关键词组进行聚类,将同一类关键词组中的所有关键词作为第二实体节点,并以该第二实体节点在对应目标短信中的先后顺序为方向在该第二实体节点之间构建有向边,得到有向图,确定该有向图为涉诈短信拦截模板。
需要说明的是,如果两个第二实体节点在对应目标短信中同时出现次数大于一次,且存在先后顺序不同的情况,则可以在该两个第二实体节点之间构建两条有向边,且该两条有向边的方向相反。
例如“彩票”和“玩”在同一目标短信中出现两次,但第一次两个关键词的顺序是“彩票”到“玩”,第二次两个关键词的顺序是“玩”到“彩票”,则在“彩票”和“玩”之间构建两条有向边,一条从“彩票”指向“玩”,另一条从“玩”指向“彩票”。
本实施例通过单一目标短信的关键词在单一目标短信中的先后顺序组合单一目标短信的关键词,得到单一目标短信对应的关键词组,并对多条目标短信的关键词组进行聚类后,再根据同类关键词组中的关键词在对应目标短信中的先后顺序构建有向图,得到涉诈短信拦截模板,该涉诈短信拦截模板由于经过了聚类更加具有代表性,且由于构建了关键词之间的有向边,能够准确表达其在目标短信中的顺序关系,使得涉诈短信拦截模板信息更加全面。
图5为本申请实施例提供的涉诈短信拦截模板生成方法的流程示意图之五。参照图5,在一个实施例中,根据单一目标短信的关键词生成涉诈短信拦截模板之后,可以包括:
501、将涉诈短信拦截模板与模板库内的现有模板进行匹配,若该涉诈短信拦截模板与模板库内的现有模板均不相同,则确定该涉诈短信拦截模板为新模板;
若该涉诈短信拦截模板与模板库内的某一现有模板相同,则流程结束。
502、将该新模板加入至模板库;
503、将该新模板对应的目标短信加入至涉诈短信分类器的训练集中进行训练分类,得到并标注该新模板对应的目标短信的涉诈类型后,将该已标注涉诈类型的目标短信作为历史涉诈短信加入知识图谱的构建。
需要说明的是,在实际应用中,步骤502和步骤503之间没有严格的时序关系;即,可同时执行,或任一步骤先执行,具体根据实际需求而定,此处不做限定。
本实施例通过将涉诈短信拦截模板与模板库内的现有模板进行匹配判断该涉诈短信拦截模板是否为新模板,若为新模板则更新模板库并训练分类该新模板对应的目标短信,将训练后的目标短信加入知识图谱构建,一方面完成了模板库的更新,另一方面有助于知识图谱的更新,使得模板库和知识图谱能够不断适应和识别新的涉诈类型。
图6为本申请实施例提供的涉诈短信拦截模板生成方法的流程示意图之六。参照图6,在一个实施例中,对多条目标短信的关键词组进行聚类,可以包括:
601、遍历多条目标短信的关键词组中的每个关键词组,将每次访问到的关键词组作为目标关键词组;
602、将该多条目标短信的关键词组中除了该目标关键词组以外的关键词组作为待聚类关键词组;
603、计算该目标关键词组与每个待聚类关键词组之间的最短编辑距离和涉诈类型相同率,若最短编辑距离小于第二预设值且涉诈类型相同率大于第三预设值,则将该待聚类关键词组与该目标关键词组聚类为一类。
最短编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,本实施例中,即为该目标关键词组转成某一对应待聚类关键词组所需的最少编辑操作次数;涉诈类型相同率为该多条目标短信的关键词组中任意两个关键词组同属的涉诈类型个数与该任意两个关键词组从属的涉诈类型总数的比值。
需要说明的是,对多条目标短信的关键词组进行聚类的方法此处不作限定,本实施例仅为其中一种聚类方法。
本实施例通过计算该目标关键词组与每个待聚类关键词组之间的最短编辑距离和涉诈类型相同率,将该待聚类关键词组与该目标关键词组聚类,能够将相似度高、涉诈类型相同的关键词组聚类到一起,达到较好的聚类效果。
下面对本申请实施例提供的涉诈短信拦截模板生成装置进行描述,下文描述的涉诈短信拦截模板生成装置与上文描述的涉诈短信拦截模板生成方法可相互对应参照。
图7为本申请实施例提供的涉诈短信拦截模板生成装置的结构示意图。参照图7,本申请实施例提供一种涉诈短信拦截模板生成装置,可以包括:
知识图谱构建模块701,用于:根据多条已标注涉诈类型的历史涉诈短信构建知识图谱;
目标短信关键词选取模块702,用于:根据所述知识图谱选取单一目标短信的关键词;所述单一目标短信为未标注涉诈类型的当前短信;
涉诈短信拦截模板生成模块703,用于:根据所述单一目标短信的关键词生成涉诈短信拦截模板。
本实施例提供的涉诈短信拦截模板生成装置,先根据多条已标注涉诈类型的历史涉诈短信构建知识图谱,再根据知识图谱选取单一目标短信的关键词,该单一目标短信为未标注涉诈类型的当前短信,最后根据该单一目标短信的关键词生成涉诈短信拦截模板,由于本实施例是参照知识图谱来选取当前短信的涉诈关键词,而知识图谱是基于多条已标注涉诈类型的历史涉诈短信构建的,因此选取当前短信的涉诈关键词时,引入了历史短信经验,从而可借助历史短信经验和当前短信的特征对比,在当前短信中选取尽可能完整而准确的涉诈关键词,再利用选取的涉诈关键词生成涉诈短信拦截模板,该模板融合了历史短信和当前短信的经验,能够对下一时刻新进的涉诈短信进行有效的拦截,保护用户的财产安全。
在一个实施例中,知识图谱构建模块701具体用于:
提取多条已标注涉诈类型的历史涉诈短信文本中的第一涉诈元素,将剩余的所述历史涉诈短信文本作为第一待分词文本;所述第一涉诈元素为每条所述已标注涉诈类型的历史涉诈短信文本中的联系方式本文;
对所述第一待分词文本进行分词处理,得到多个词性的第一词语;
选取所述多个词性的第一词语中常用词性的第一词语作为涉诈关键词,利用词频-逆文本频率TF-IDF算法确定所述涉诈关键词在所述多条所述已标注涉诈类型的涉诈短信文本中的涉诈程度;所述常用词性包括名词、动词和形容词;
根据第一实体节点、关系和属性构建知识图谱,所述第一实体节点包括所述涉诈类型、所述第一涉诈元素以及所述涉诈关键词,所述关系包括所述涉诈类型与所述涉诈关键词之间的从属关系、所述第一涉诈元素与所述涉诈关键词之间的从属关系以及所述涉诈关键词的共现次数,所述属性包括所述涉诈关键词的涉诈程度,所述涉诈关键词的共现次数为每两个所述涉诈关键词在所述多条已标注涉诈类型的历史涉诈短信文本中共现次数的总和。
在一个实施例中,目标短信关键词选取模块702具体用于:
提取单一目标短信文本中的第二涉诈元素,将剩余的所述单一目标短信文本作为第二待分词文本;所述第二涉诈元素为所述单一目标短信文本中的联系方式本文;
对所述第二待分词文本进行分词处理,得到多个词性的第二词语;
选取所述多个词性的第二词语中常用词性的第二词语作为候选关键词;所述常用词性包括名词、动词和形容词;
根据预设长度将所述候选关键词划分为N个滑动窗口,在每个所述滑动窗口中的每两个所述候选关键词之间构建一条无向边;其中,N为大于等于1的整数;
将所述候选关键词映射到所述知识图谱上,若所述知识图谱上存在与所述候选关键词相同的所述涉诈关键词,则将所述涉诈关键词对应的所述涉诈程度、所述涉诈类型、所述第一涉诈元素、所述涉诈类型与所述涉诈关键词之间的从属关系、所述第一涉诈元素与所述涉诈关键词之间的从属关系以及所述涉诈关键词的共现次数链接至与所述涉诈关键词相同的所述候选关键词;
根据所述无向边两端连接的两个候选关键词的涉诈程度、所述两个候选关键词同属的涉诈类型个数、所述两个候选关键词同属的涉诈元素个数以及所述两个候选关键词的共现总数之积,确定所述无向边的权重;其中,未链接到所述涉诈程度的所述候选关键词的涉诈程度为第一预设值,所述涉诈元素包括所述第一涉诈元素和所述第二涉诈元素,所述两个候选关键词的共现总数为所述两个候选关键词在所述单一目标短信文本中的共现次数与所述两个候选关键词通过所述知识图谱链接到的共现次数之和;
对每条所述无向边的权重进行归一化处理,得到每个候选关键词转移到相邻候选关键词位置的转移概率;
根据所述转移概率以及重启式随机游走算法,确定每个所述候选关键词的最终权重;
对所述每个所述候选关键词的最终权重由大到小排序,选取排序的前M个所述候选关键词作为所述单一目标短信的关键词,其中,M为大于等于1的整数。
在一个实施例中,涉诈短信拦截模板生成模块703具体用于:
按照所述单一目标短信的关键词在所述单一目标短信中的先后顺序组合所述单一目标短信的关键词,得到所述单一目标短信对应的关键词组;
对多条目标短信的所述关键词组进行聚类,将同一类关键词组中的所有关键词作为第二实体节点,并以所述第二实体节点在对应目标短信中的先后顺序为方向在所述第二实体节点之间构建有向边,得到有向图,确定所述有向图为涉诈短信拦截模板。
在一个实施例中,还包括模板匹配模块(图中未示出),用于:
将所述涉诈短信拦截模板与模板库内的现有模板进行匹配,若所述涉诈短信拦截模板与模板库内的现有模板均不相同,则确定所述涉诈短信拦截模板为新模板;
将所述新模板加入至所述模板库;
将所述新模板对应的所述目标短信加入至涉诈短信分类器的训练集中进行训练分类,得到并标注所述新模板对应的所述目标短信的涉诈类型后,返回根据多条已标注涉诈类型的历史涉诈短信构建知识图谱的步骤。
在一个实施例中,涉诈短信拦截模板生成模块703具体用于:
根据所述多条目标短信的所述关键词组之间的最短编辑距离和涉诈类型相同率对多条目标短信的所述关键词组进行聚类,所述涉诈类型相同率为所述多条目标短信的所述关键词组中任意两个关键词组同属的涉诈类型个数与所述任意两个关键词组从属的涉诈类型总数的比值。
在一个实施例中,涉诈短信拦截模板生成模块703具体用于:
遍历所述多条目标短信的所述关键词组中的每个关键词组,将每次访问到的所述关键词组作为目标关键词组;
将所述多条目标短信的所述关键词组中除了目标关键词组以外的关键词组作为待聚类关键词组;
计算所述目标关键词组与每个待聚类关键词组之间的所述最短编辑距离和所述涉诈类型相同率,若所述最短编辑距离小于第二预设值且所述涉诈类型相同率大于第三预设值,则将所述待聚类关键词组与所述目标关键词组聚类为一类。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communication Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的计算机程序,以执行涉诈短信拦截模板生成方法的步骤,例如包括:
根据多条已标注涉诈类型的历史涉诈短信构建知识图谱;
根据所述知识图谱选取单一目标短信的关键词;所述单一目标短信为未标注涉诈类型的当前短信;
根据所述单一目标短信的关键词生成涉诈短信拦截模板。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的涉诈短信拦截模板生成方法的步骤,例如包括:
根据多条已标注涉诈类型的历史涉诈短信构建知识图谱;
根据所述知识图谱选取单一目标短信的关键词;所述单一目标短信为未标注涉诈类型的当前短信;
根据所述单一目标短信的关键词生成涉诈短信拦截模板。
另一方面,本申请实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行上述各实施例提供的方法的步骤,例如包括:
根据多条已标注涉诈类型的历史涉诈短信构建知识图谱;
根据所述知识图谱选取单一目标短信的关键词;所述单一目标短信为未标注涉诈类型的当前短信;
根据所述单一目标短信的关键词生成涉诈短信拦截模板。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (7)

1.一种涉诈短信拦截模板生成方法,其特征在于,包括:
根据多条已标注涉诈类型的历史涉诈短信构建知识图谱;
根据所述知识图谱选取单一目标短信的关键词;所述单一目标短信为未标注涉诈类型的当前短信;
根据所述单一目标短信的关键词生成涉诈短信拦截模板;
所述根据多条已标注涉诈类型的历史涉诈短信构建知识图谱,包括:
提取多条已标注涉诈类型的历史涉诈短信文本中的第一涉诈元素,将剩余的所述历史涉诈短信文本作为第一待分词文本;所述第一涉诈元素为每条所述已标注涉诈类型的历史涉诈短信文本中的联系方式本文;
对所述第一待分词文本进行分词处理,得到多个词性的第一词语;
选取所述多个词性的第一词语中常用词性的第一词语作为涉诈关键词,利用词频-逆文本频率TF-IDF算法确定所述涉诈关键词在所述多条所述已标注涉诈类型的涉诈短信文本中的涉诈程度;所述常用词性包括名词、动词和形容词;
根据第一实体节点、关系和属性构建知识图谱,所述第一实体节点包括所述涉诈类型、所述第一涉诈元素以及所述涉诈关键词,所述关系包括所述涉诈类型与所述涉诈关键词之间的从属关系、所述第一涉诈元素与所述涉诈关键词之间的从属关系以及所述涉诈关键词的共现次数,所述属性包括所述涉诈关键词的涉诈程度,所述涉诈关键词的共现次数为每两个所述涉诈关键词在所述多条已标注涉诈类型的历史涉诈短信文本中共现次数的总和;
所述根据所述知识图谱选取单一目标短信的关键词,包括:
提取单一目标短信文本中的第二涉诈元素,将剩余的所述单一目标短信文本作为第二待分词文本;所述第二涉诈元素为所述单一目标短信文本中的联系方式本文;
对所述第二待分词文本进行分词处理,得到多个词性的第二词语;
选取所述多个词性的第二词语中常用词性的第二词语作为候选关键词;所述常用词性包括名词、动词和形容词;
根据预设长度将所述候选关键词划分为N个滑动窗口,在每个所述滑动窗口中的每两个所述候选关键词之间构建一条无向边;其中,N为大于等于1的整数;
将所述候选关键词映射到所述知识图谱上,若所述知识图谱上存在与所述候选关键词相同的所述涉诈关键词,则将所述涉诈关键词对应的所述涉诈程度、所述涉诈类型、所述第一涉诈元素、所述涉诈类型与所述涉诈关键词之间的从属关系、所述第一涉诈元素与所述涉诈关键词之间的从属关系以及所述涉诈关键词的共现次数链接至与所述涉诈关键词相同的所述候选关键词;
根据所述无向边两端连接的两个候选关键词的涉诈程度、所述两个候选关键词同属的涉诈类型个数、所述两个候选关键词同属的涉诈元素个数以及所述两个候选关键词的共现总数之积,确定所述无向边的权重;其中,未链接到所述涉诈程度的所述候选关键词的涉诈程度为第一预设值,所述涉诈元素包括所述第一涉诈元素和所述第二涉诈元素,所述两个候选关键词的共现总数为所述两个候选关键词在所述单一目标短信文本中的共现次数与所述两个候选关键词通过所述知识图谱链接到的共现次数之和;
对每条所述无向边的权重进行归一化处理,得到每个候选关键词转移到相邻候选关键词位置的转移概率;
根据所述转移概率以及重启式随机游走算法,确定每个所述候选关键词的最终权重;
对所述每个所述候选关键词的最终权重由大到小排序,选取排序的前M个所述候选关键词作为所述单一目标短信的关键词,其中,M为大于等于1的整数;
所述根据所述单一目标短信的关键词生成涉诈短信拦截模板,包括:
按照所述单一目标短信的关键词在所述单一目标短信中的先后顺序组合所述单一目标短信的关键词,得到所述单一目标短信对应的关键词组;
对多条目标短信的所述关键词组进行聚类,将同一类关键词组中的所有关键词作为第二实体节点,并以所述第二实体节点在对应目标短信中的先后顺序为方向在所述第二实体节点之间构建有向边,得到有向图,确定所述有向图为涉诈短信拦截模板。
2.根据权利要求1所述的涉诈短信拦截模板生成方法,其特征在于,所述根据所述单一目标短信的关键词生成涉诈短信拦截模板之后,包括:
将所述涉诈短信拦截模板与模板库内的现有模板进行匹配,若所述涉诈短信拦截模板与模板库内的现有模板均不相同,则确定所述涉诈短信拦截模板为新模板;
将所述新模板加入至所述模板库;
将所述新模板对应的所述目标短信加入至涉诈短信分类器的训练集中进行训练分类,得到并标注所述新模板对应的所述目标短信的涉诈类型后,返回根据多条已标注涉诈类型的历史涉诈短信构建知识图谱的步骤。
3.根据权利要求1所述的涉诈短信拦截模板生成方法,其特征在于,所述对多条目标短信的所述关键词组进行聚类,包括:
根据所述多条目标短信的所述关键词组之间的最短编辑距离和涉诈类型相同率对多条目标短信的所述关键词组进行聚类,所述涉诈类型相同率为所述多条目标短信的所述关键词组中任意两个关键词组同属的涉诈类型个数与所述任意两个关键词组从属的涉诈类型总数的比值。
4.根据权利要求3所述的涉诈短信拦截模板生成方法,其特征在于,所述根据所述多条目标短信的所述关键词组之间的最短编辑距离和涉诈类型相同率对多条目标短信的所述关键词组进行聚类,包括:
遍历所述多条目标短信的所述关键词组中的每个关键词组,将每次访问到的所述关键词组作为目标关键词组;
将所述多条目标短信的所述关键词组中除了目标关键词组以外的关键词组作为待聚类关键词组;
计算所述目标关键词组与每个待聚类关键词组之间的所述最短编辑距离和所述涉诈类型相同率,若所述最短编辑距离小于第二预设值且所述涉诈类型相同率大于第三预设值,则将所述待聚类关键词组与所述目标关键词组聚类为一类。
5.一种涉诈短信拦截模板生成装置,其特征在于,包括:
知识图谱构建模块,用于:根据多条已标注涉诈类型的历史涉诈短信构建知识图谱;
目标短信关键词选取模块,用于:根据所述知识图谱选取单一目标短信的关键词;所述单一目标短信为未标注涉诈类型的当前短信;
涉诈短信拦截模板生成模块,用于:根据所述单一目标短信的关键词生成涉诈短信拦截模板;
所述根据多条已标注涉诈类型的历史涉诈短信构建知识图谱,包括:
提取多条已标注涉诈类型的历史涉诈短信文本中的第一涉诈元素,将剩余的所述历史涉诈短信文本作为第一待分词文本;所述第一涉诈元素为每条所述已标注涉诈类型的历史涉诈短信文本中的联系方式本文;
对所述第一待分词文本进行分词处理,得到多个词性的第一词语;
选取所述多个词性的第一词语中常用词性的第一词语作为涉诈关键词,利用词频-逆文本频率TF-IDF算法确定所述涉诈关键词在所述多条所述已标注涉诈类型的涉诈短信文本中的涉诈程度;所述常用词性包括名词、动词和形容词;
根据第一实体节点、关系和属性构建知识图谱,所述第一实体节点包括所述涉诈类型、所述第一涉诈元素以及所述涉诈关键词,所述关系包括所述涉诈类型与所述涉诈关键词之间的从属关系、所述第一涉诈元素与所述涉诈关键词之间的从属关系以及所述涉诈关键词的共现次数,所述属性包括所述涉诈关键词的涉诈程度,所述涉诈关键词的共现次数为每两个所述涉诈关键词在所述多条已标注涉诈类型的历史涉诈短信文本中共现次数的总和;
所述根据所述知识图谱选取单一目标短信的关键词,包括:
提取单一目标短信文本中的第二涉诈元素,将剩余的所述单一目标短信文本作为第二待分词文本;所述第二涉诈元素为所述单一目标短信文本中的联系方式本文;
对所述第二待分词文本进行分词处理,得到多个词性的第二词语;
选取所述多个词性的第二词语中常用词性的第二词语作为候选关键词;所述常用词性包括名词、动词和形容词;
根据预设长度将所述候选关键词划分为N个滑动窗口,在每个所述滑动窗口中的每两个所述候选关键词之间构建一条无向边;其中,N为大于等于1的整数;
将所述候选关键词映射到所述知识图谱上,若所述知识图谱上存在与所述候选关键词相同的所述涉诈关键词,则将所述涉诈关键词对应的所述涉诈程度、所述涉诈类型、所述第一涉诈元素、所述涉诈类型与所述涉诈关键词之间的从属关系、所述第一涉诈元素与所述涉诈关键词之间的从属关系以及所述涉诈关键词的共现次数链接至与所述涉诈关键词相同的所述候选关键词;
根据所述无向边两端连接的两个候选关键词的涉诈程度、所述两个候选关键词同属的涉诈类型个数、所述两个候选关键词同属的涉诈元素个数以及所述两个候选关键词的共现总数之积,确定所述无向边的权重;其中,未链接到所述涉诈程度的所述候选关键词的涉诈程度为第一预设值,所述涉诈元素包括所述第一涉诈元素和所述第二涉诈元素,所述两个候选关键词的共现总数为所述两个候选关键词在所述单一目标短信文本中的共现次数与所述两个候选关键词通过所述知识图谱链接到的共现次数之和;
对每条所述无向边的权重进行归一化处理,得到每个候选关键词转移到相邻候选关键词位置的转移概率;
根据所述转移概率以及重启式随机游走算法,确定每个所述候选关键词的最终权重;
对所述每个所述候选关键词的最终权重由大到小排序,选取排序的前M个所述候选关键词作为所述单一目标短信的关键词,其中,M为大于等于1的整数;
所述根据所述单一目标短信的关键词生成涉诈短信拦截模板,包括:
按照所述单一目标短信的关键词在所述单一目标短信中的先后顺序组合所述单一目标短信的关键词,得到所述单一目标短信对应的关键词组;
对多条目标短信的所述关键词组进行聚类,将同一类关键词组中的所有关键词作为第二实体节点,并以所述第二实体节点在对应目标短信中的先后顺序为方向在所述第二实体节点之间构建有向边,得到有向图,确定所述有向图为涉诈短信拦截模板。
6.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的涉诈短信拦截模板生成方法的步骤。
7.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述的涉诈短信拦截模板生成方法的步骤。
CN202210702038.8A 2022-06-21 2022-06-21 涉诈短信拦截模板生成方法及装置 Active CN114786184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210702038.8A CN114786184B (zh) 2022-06-21 2022-06-21 涉诈短信拦截模板生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210702038.8A CN114786184B (zh) 2022-06-21 2022-06-21 涉诈短信拦截模板生成方法及装置

Publications (2)

Publication Number Publication Date
CN114786184A CN114786184A (zh) 2022-07-22
CN114786184B true CN114786184B (zh) 2022-09-16

Family

ID=82420282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210702038.8A Active CN114786184B (zh) 2022-06-21 2022-06-21 涉诈短信拦截模板生成方法及装置

Country Status (1)

Country Link
CN (1) CN114786184B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101043656A (zh) * 2007-04-29 2007-09-26 中兴通讯股份有限公司 一种垃圾短信可疑用户监控方法和系统
WO2016058390A1 (zh) * 2014-10-13 2016-04-21 中兴通讯股份有限公司 一种垃圾短信的拦截方法及装置
WO2016177148A1 (zh) * 2015-08-18 2016-11-10 中兴通讯股份有限公司 短信拦截方法和装置
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN107122399A (zh) * 2017-03-16 2017-09-01 中国科学院自动化研究所 基于公共文化知识图谱平台的综合推荐系统
CN111198947A (zh) * 2020-01-06 2020-05-26 南京中新赛克科技有限责任公司 基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统
CN112333709A (zh) * 2020-11-09 2021-02-05 中国信息通信研究院 一种跨网络涉诈关联分析方法、系统及计算机存储介质
CN112887923A (zh) * 2021-01-22 2021-06-01 中国科学院自动化研究所 基于动态通信网络的无监督异常短文本监测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334533B (zh) * 2017-10-20 2021-12-24 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101043656A (zh) * 2007-04-29 2007-09-26 中兴通讯股份有限公司 一种垃圾短信可疑用户监控方法和系统
WO2016058390A1 (zh) * 2014-10-13 2016-04-21 中兴通讯股份有限公司 一种垃圾短信的拦截方法及装置
WO2016177148A1 (zh) * 2015-08-18 2016-11-10 中兴通讯股份有限公司 短信拦截方法和装置
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN107122399A (zh) * 2017-03-16 2017-09-01 中国科学院自动化研究所 基于公共文化知识图谱平台的综合推荐系统
CN111198947A (zh) * 2020-01-06 2020-05-26 南京中新赛克科技有限责任公司 基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统
CN112333709A (zh) * 2020-11-09 2021-02-05 中国信息通信研究院 一种跨网络涉诈关联分析方法、系统及计算机存储介质
CN112887923A (zh) * 2021-01-22 2021-06-01 中国科学院自动化研究所 基于动态通信网络的无监督异常短文本监测方法及系统

Also Published As

Publication number Publication date
CN114786184A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
US11017178B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN107544982B (zh) 文本信息处理方法、装置及终端
JP6335898B2 (ja) 製品認識に基づく情報分類
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN111291195A (zh) 一种数据处理方法、装置、终端及可读存储介质
CN107885717B (zh) 一种关键词提取方法及装置
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
CN109902290B (zh) 一种基于文本信息的术语提取方法、系统和设备
CN107783976A (zh) 用户信息挖掘方法及装置
CN106528768A (zh) 一种咨询热点分析方法及装置
Zhang et al. EX‐Action: Automatically Extracting Threat Actions from Cyber Threat Intelligence Report Based on Multimodal Learning
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN111930936A (zh) 一种平台留言文本挖掘方法及系统
CN107665442B (zh) 获取目标用户的方法及装置
CN114786184B (zh) 涉诈短信拦截模板生成方法及装置
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN114266255B (zh) 基于聚类模型的语料分类方法、装置、设备及存储介质
CN113553398B (zh) 搜索词纠正方法、装置、电子设备及计算机存储介质
CN115422000A (zh) 异常日志处理方法及装置
CN115391541A (zh) 智能合约代码自动审查方法、存储介质和电子设备
CN111767730A (zh) 一种事件类型识别方法及装置
Syafiandini et al. Implementing graph based rank on online news media keyword extraction
CN113821528A (zh) 一种文本的处理方法、装置和可读存储介质
Ahmad et al. A Feature-Based Optimization Approach for Fake News Detection on Social Media Using K-Means Clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant