CN110309299B - 通信防诈骗方法、装置、计算机可读介质及电子设备 - Google Patents
通信防诈骗方法、装置、计算机可读介质及电子设备 Download PDFInfo
- Publication number
- CN110309299B CN110309299B CN201810327176.6A CN201810327176A CN110309299B CN 110309299 B CN110309299 B CN 110309299B CN 201810327176 A CN201810327176 A CN 201810327176A CN 110309299 B CN110309299 B CN 110309299B
- Authority
- CN
- China
- Prior art keywords
- current
- vector
- communication
- fraud
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
- H04W12/128—Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明的实施例提供了一种通信防诈骗方法、装置、计算机可读介质及电子设备。该通信防诈骗方法包括:提取相关于当前通讯的文本信息的词向量;根据所述文本信息的词向量获得所述文本信息的句向量;根据所述文本信息的句向量获得所述当前通讯的诈骗类型概率分布;根据所述当前通讯的诈骗类型概率分布确定所述当前通讯的目标诈骗类型。本发明实施例的技术方案能够准确、实时的识别当前通讯的目标诈骗类型,从而有利于防止用户上当受骗。
Description
技术领域
本申请涉及移动通信技术领域,具体而言,涉及一种通信防诈骗方法、装置、计算机可读介质及电子设备。
背景技术
随着移动通信技术的不断发展,移动终端例如手机、iPAD等也变得越来越普及。但是,在移动通信技术给人们的生活带来便利的同时,也给犯罪活动带来了方便,尤其是电话诈骗、网络聊天诈骗等犯罪活动也日益猖獗起来。
目前,通信诈骗的手段越来越多,让人们防不胜防,特别是老年人、未成年人群体更容易上当受骗,因此给人们的生活造成很大的影响。
目前,例如针对电话诈骗的防范措施,主要是通过收集诈骗人常用电话号码,建立一个诈骗号码数据库,然后识别来电号码是否在该诈骗号码数据库中,如果当前来电号码在该诈骗号码数据库中,则提示接听电话的用户当前通话是诈骗电话。
但是,上述现有方案中,一方面,诈骗人可以更换电话号码继续行骗,因此不仅成本高,而且防欺诈效果无法达到要求;另一方面,仅能识别出当前通话是否诈骗电话,并不能识别出具体的诈骗类型。
因此,需要一种新的通信防诈骗方法、装置、计算机可读介质及电子设备。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种通信防诈骗方法、装置、计算机可读介质及电子设备,进而至少在一定程度上克服相关技术中存在的通信防诈骗效果不够实时、准确,同时识别手段不够丰富的问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的一方面,提供了一种通信防诈骗方法,包括:提取相关于当前通讯的文本信息的词向量;根据所述文本信息的词向量获得所述文本信息的句向量;根据所述文本信息的句向量获得所述当前通讯的诈骗类型概率分布;根据所述当前通讯的诈骗类型概率分布确定所述当前通讯的目标诈骗类型。
根据本发明实施例的一方面,提供了一种通信防诈骗装置,包括:词向量提取模块,配置为提取相关于当前通讯的文本信息的词向量;句向量提取模块,配置为根据所述文本信息的词向量获得所述文本信息的句向量;概率分布获得模块,配置为根据所述文本信息的句向量获得所述当前通讯的诈骗类型概率分布;诈骗类型确定模块,配置为根据所述当前通讯的诈骗类型概率分布确定所述当前通讯的目标诈骗类型。
根据本发明实施例的一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的通信防诈骗方法。
根据本发明实施例的一方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的通信防诈骗方法。
在本发明的一些实施例所提供的技术方案中,通过提取相关于当前通讯的文本信息的词向量,基于所述文本信息的词向量获取所述文本信息的句向量,从而可以实现通过所述文本信息的句向量获得所述当前通讯的诈骗类型概率分布,以根据所述当前通讯的诈骗类型概率分布确定所述当前通讯的目标诈骗类型,这种方式相比于现有技术,可以实时、准确地识别当前通讯的诈骗类型,防止人们上当受骗,以达到保护人们的财产甚至人身安全,维护社会稳定。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本发明实施例的通信防诈骗方法或通信防诈骗装置的示例性系统架构的示意图;
图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图;
图3示意性示出了根据本发明的一实施例的通信防诈骗方法的流程图;
图4示出了图3中所示的步骤S320在一实施例中的处理过程示意图;
图5示出了图4中所示的步骤S322在一实施例中的处理过程示意图;
图6示意性示出了根据本发明的一实施例的LSTM网络与词向量对应的网络层的结构图;
图7示意性示出了根据本发明的一实施例的LSTM网络各个控制门的结构图;
图8示意性示出了根据本发明的一实施例的训练递归神经网络的流程图;
图9示出了图8中所示的步骤S830在一实施例中的处理过程示意图;
图10示出了图3中所示的步骤S330在一实施例中的处理过程示意图;
图11示意性示出了根据本发明的一实施例的训练多分类模型的流程图;
图12示意性示出了根据本发明的另一实施例的通信防诈骗方法的流程图;
图13示意性示出了根据本发明的又一实施例的通信防诈骗方法的流程图;
图14示意性示出了根据本发明的一实施例的通信防诈骗系统的示意图;
图15示意性示出了根据本发明的再一实施例的通信防诈骗方法的流程图;
图16示意性示出了根据本发明的再一实施例的通信防诈骗方法的流程图;
图17示意性示出了根据本发明的一实施例的通信防诈骗方法的示意图;
图18示意性示出了根据本发明的一实施例的通信防诈骗装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本发明实施例的通信防诈骗方法或通信防诈骗装置的示例性系统架构100的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105上传网络聊天信息。服务器105可以基于该网络聊天信息分析当前网络聊天内容是否涉及网络诈骗,以及如果该当前网络聊天内容涉及网络诈骗,则其所属的具体诈骗类型,并将分析结果反馈给终端设备103,进而用户可以基于终端设备103上显示的内容或者发出的语音提示确定该当前网络聊天是否涉及到诈骗以及具体的诈骗类型,从而避免用户上当受骗,造成财产或其他方面的损失。
又如用户利用终端设备101(也可以是终端设备102或103)向服务器105上传了通话语音转换而成的文本信息。服务器105在获取到该通话语音转换而成的文本信息后,可以对该文本信息进行分析处理,判断当前通话是否涉及电话诈骗,以及如果涉及电话诈骗,其所属的具体诈骗类型。具体地,比如服务器105可以基于训练好的网络模型和多分类模型,获得该当前通话涉及金钱类诈骗,此时可以向接听该当前来电的终端设备101发送告警信息,提示该接听用户不要转账给来电者,从而可以有效的防止用户上当受骗。
图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的存储部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入存储部分208。
特别地,根据本发明的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中,这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图3或图4或图5或图8或图9或图10或图11或图12或图13或图15或图16所示的各个步骤。
图3示意性示出了根据本发明的一实施例的通信防诈骗方法的流程图。
如图3所示,本实施例提供的通信防诈骗方法包括以下步骤。
在步骤S310中,提取相关于当前通讯的文本信息的词向量(word embedding)。
本公开实施例中,所述当前通讯例如可以包括电话通信、QQ语音通话和/或微信语音通话、网络聊天、短信、彩信等任意一种通讯方式,本公开对此不作限定。相关于所述当前通讯的文本信息可以直接来自网络聊天、短信、彩信等文本内容,也可以是来自电话通信、QQ语音通话和/或微信语音通话等中的通话语音转换成的文本信息,本公开对此不作限定。
需要说明的是,本公开实施例中相关于所述当前通讯的文本信息可以来自所述当前通讯中的任意一方,也可以同时来自所述当前通讯中的双方甚至多方,本公开对此不作限定。例如,在电话通信中,可以录取主叫方的通话语音,将被叫方的通话语音转换成所述文本信息。再例如,也可以同时录取被叫方和主叫方的通话语音,将被叫方和主叫方的通话语音转换成所述文本信息。在其他实施例中,可以录取整个通话过程中的通话语音,也可以部分录取通话过程中的通话语音,本公开对此不作限定。
本公开实施例中,在电话通信中,被拨打的号码为被叫号码(接听电话一方的号码),被拨打并接听的一方被称为被叫方,主动拨打的号码为主叫号码,主动拨打被叫方号码的一方称为主叫方,拨打被叫方号码并接通语音通话的通话过程称为被叫通话。
本公开实施例中,由于通常训练网络或者模型时,会将输入处理为固定的长度,这样可以加快计算速度。所述文本信息分词后的长短不一,因此可以取预定长度例如32(用于举例说明,可以根据实际应用场景进行自主调整)作为文本长度,当所述文本信息的长度超过32个字或者词语时,将第32个字或者词语后面的字或者词语去掉,当所述文本信息的长度少于32个字或者词语时,将用指定字符(例如“0”)填充。
本公开实施例中,可以将经过分词处理后的每个字或者词语转换为数值id(一个整数)的形式。将id经过embedding(向量)操作之后,就变成了一个长度为embedding_size(词向量的长度,其数值可以根据实际需求指定词向量的长度)的实数向量,下文中假设所述文本信息的词向量可以表示为:
X={X1,X2,…,Xn},
其中,n为大于等于1的正整数,表示所述文本信息经过分词后的词语数量;t(1≤t≤n)时刻的词向量Xt是一个m维的向量,这里m为大于等于1的正整数。
在步骤S320中,根据所述文本信息的词向量获得所述文本信息的句向量。
本公开实施例中,根据所述文本信息的词向量获得所述文本信息的句向量例如可以通过递归神经网络来实现,其具体实现方式参考下文,但本公开并不限定于此。
在步骤S330中,根据所述文本信息的句向量获得所述当前通讯的诈骗类型概率分布。
本公开实施例中,根据所述文本信息的句向量获得所述当前通讯的诈骗类型概率分布例如可以通过softmax模型来实现,其具体实现方式参考下文,但本公开并不限定于此。
本公开实施例中,所述当前通讯的各诈骗类型的概率之和可以为一个预设常数,例如1。
其中,所述诈骗类型概率分布是指所述当前通讯属于各诈骗类型的概率,各诈骗类型例如可以包括保险推销类、金钱诈骗类、冒充公检法类、保健品推销类、绑架诈骗类等等。
需要说明的是,本公开实施例中各诈骗类型可以根据具体情况进行划分,也可以根据诈骗的最新动态进行实时更新。
在步骤S340中,根据所述当前通讯的诈骗类型概率分布确定所述当前通讯的目标诈骗类型。
本公开实施例中,例如可以选取所述当前通讯的诈骗类型概率分布中概率最大(也就是值对应最大的)的一个诈骗类型概率对应的一个诈骗类型作为所述当前通讯的目标诈骗类型。再例如还可以选取所述当前通讯的诈骗类型概率分布中概率最大的两个或者以上诈骗类型概率对应的两个或者以上诈骗类型作为所述当前通讯的目标诈骗类型,本公开对此不作限定。
本公开实施方式提供的通信防诈骗方法,通过提取相关于当前通讯的文本信息的词向量,基于所述文本信息的词向量获取所述文本信息的句向量,从而可以实现通过所述文本信息的句向量获得所述当前通讯的诈骗类型概率分布,以根据所述当前通讯的诈骗类型概率分布确定所述当前通讯的目标诈骗类型,这种方式相比于现有技术,可以实时、准确地识别当前通讯的诈骗类型,防止人们上当受骗,以达到保护人们的财产甚至人身安全,维护社会稳定。
图4示出了图3中所示的步骤S320在一实施例中的处理过程示意图。
如图4所示,上述图3实施例中的步骤S320可以进一步包括以下步骤。
在步骤S321中,将所述文本信息的词向量输入至训练好的递归神经网络。
本公开实施例中,所述递归神经网络的训练可以参照下文。
在步骤S322中,通过所述递归神经网络输出所述文本信息的句向量。
本公开实施例中,可以使用递归神经网络(Recurrent neural network,RNN)完成所述文本信息的词向量至句向量的转化。在传统RNN中,训练算法为BPTT(Back-propagation Through Time,通过时间反向传播)。但是,当时间段比较长时,BPTT导致RNN网络需要回传的残差会呈指数级下降,导致网络权重更新缓慢,无法体现出RNN的长期记忆的效果,因此需要一个存储单元来存储记忆。因此,提出长短期记忆模型(Long-short TermMemory,简称LSTM)这种特殊的RNN网络模型以解决RNN模型梯度弥散的问题。RNN与LSTM最大的区别在于LSTM网络将RNN网络中的每个隐含网络层替换成具有记忆功能的单元(cell),其它结构则保持与RNN网络相同。
因此,在本公开实施例中以LSTM网络这种RNN网络为例介绍所述文本信息的词向量转换至句向量的过程。本领域技术人员将理解,还可以采用其它类型的RNN网络完成该转换过程。
图5示出了图4中所示的步骤S322在一实施例中的处理过程示意图。
如图4所示,上述图4实施例中的步骤S322可以进一步包括以下步骤。
在步骤S3223中,根据所述当前输出向量ot和所述当前单元状态向量Ct获得当前隐藏状态ht。
在步骤S3224中,根据所述当前隐藏状态ht获得所述文本信息的句向量。
本公开实施例中,可以取最后一个step的隐藏状态作为所述文本信息的句向量,例如将所述文本信息的句向量按顺序一次(即一个step)输入一个词向量,所述递归神经网络根据各输入的词向量更新隐藏状态,当最后一个词向量输入xn时,获得的隐藏状态hn作为所述文本信息的句向量;也可以对所有step的隐藏状态加权(attention)或者直接平均作为所述文本信息的句向量,可以根据具体情况灵活调整。
下面结合图6和图7对图5所示的实施例进行说明。
图6示意性示出了根据本发明的一实施例的LSTM网络与词向量对应的网络层的结构图。
如图6所示,假设所述文本信息分词后总长度为n个词语,整个文本信息的词向量矩阵可以表示为{X1,X2,…,Xn}。
本公开实施例中,将以在时间t的LSTM网络层602为例进行说明,其具有三个输入和两个输出。三个输入分别为上一时间t-1的LSTM网络层601的前一单元状态向量Ct-1和前一隐藏状态ht-1,以及当前时间t输入的当前词向量Xt。LSTM网络层602的两个输出分别为在当前时间t的LSTM网络层的当前隐藏状态ht和当前单元状态向量Ct。当前隐藏状态ht表征了在当前时间t的LSTM网络层的特征,输入当前词向量Xt表征在当前时间t的文本特征对LSTM网络层的影响,当前单元状态向量Ct表征在LSTM网络中的长时记忆状态。为对多维度变量进行逐元素相加的运算符,×与⊙相同,为对多维度变量进行逐元素相乘(点乘)的运算符,σ为sigmoid激活函数,tanh为双曲正切函数。
其中,LSTM网络层的整体函数可以表达如下:
ht=ot⊙tanh(Ct) (3)
其中,公式(1)中的it、ft、ot、ht分别为LSTM网络层的当前信息向量、当前遗忘向量、当前输出向量和当前隐藏状态,其中当前信息向量it用于表示记忆当前时间t的输入信息Xt、当前遗忘向量ft用于表示选择忘记当前时间t之前的信息,当前输出向量ot用于表示将当前隐藏状态ht输出到下一时间t+1,分别对应LSTM网络层的输入门、遗忘门、输出门三个控制门。T为变换映射矩阵,在图6所示的LSTM网络中,T采用单位阵的特定形式以便于描述。公式(2)则表示记忆状态的传送,为当前时间t的当前候选单元状态向量,则该当前候选单元状态向量的传送为前一时间t的前一单元状态向量Ct-1与当前遗忘向量ft的点乘与当前候选单元状态向量与当前信息向量it的点乘的和,代表部分忘记当前时间t之前的前一单元状态向量Ct-1再根据当前时间t的输入对记忆的影响获得更新后的当前单元状态向量Ct。公式(3)则表示根据当前时间t的当前单元状态向量Ct和当前输出向量ot的点乘获得当前时间t的当前隐藏状态ht。
图7示意性示出了根据本发明的一实施例的LSTM网络各个控制门的结构图。
如图7所示,图7则详细示出图6中的LSTM网络层602的具体结构和各个控制门的信息处理过程,其中变换映射矩阵T仍然以单位阵举例。
模块701示出遗忘门的信息处理过程,其函数式如下:
ft=σ(WfxXt+Wfhht-1+bf) (4)
其中Wfx、Wfh、bf分别为遗忘门对当前时间t输入的当前词向量Xt和前一时间t-1的前一隐藏状态ht-1的网络权重参数和线性变换参数。
模块702则示出输入门和中间记忆状态的信息处理过程,其函数式如下:
it=σ(WixXt+Wihht-1+bi) (5)
其中Wix、Wih、bi分别为输入门对当前时间t输入的当前词向量Xt和前一时间t-1的前一隐藏状态ht-1的网络权重参数和线性变换参数,WCx、WCh、bC分别为中间记忆状态对当前时间t输入的当前词向量Xt和前一时间t-1的前一隐藏状态ht-1的网络权重参数和线性变换参数。
模块703则示出记忆状态传送的过程,其函数式参见公式(2)。
模块704示出输出门和隐藏状态的信息处理过程,其函数式如下:
ot=σ(WoxXt+Wohht-1+bo) (7)
其中Wox、Woh、bo分别为输出门对当前时间t输入的当前词向量Xt和前一时间t-1的前一隐藏状态ht-1的网络权重参数和线性变换参数。
对于当前时间t的当前隐藏状态,其函数式参见公式(3)。
对于总长度为n的文本信息,可以设置对应的具有n层如上所述的改进的LSTM网络层的RNN网络进行在预定时间t的文本特征的预测。
另外,在使用当前隐藏状态ht进行预测时,还可以将当前隐藏状态ht线性变换映射到标量数值以便于计算。
基于LSTM网络的记忆传送特性,当对文本信息的词向量预测在预定时间t的文本特征时,从前一时间t-1输出的前一单元状态向量Ct-1和前一隐藏状态ht-1不仅包含该时间t-1的特征信息,还包含在之前若干时间的特征信息。因此,上文中的上一时间t-1还可以扩展为当前时间t之前的任一时间或之前的所有时间,则基于所述文本信息在时间t之前的时间的特征预测所述文本信息在该时间t的句向量,可以理解为基于在时间t之前的一段或累积特征信息预测当前时间t的文本特征。
本领域技术人员将理解,在实际应用中,RNN网络将不限于上述实施例作为举例的LSTM网络。可以使用同样是RNN网络的GRU(Gated Recurrent Unit,控制门循环单元)网络基于文本信息在预定时间之前的时间的特征信息预测文本信息在预定时间的文本特征。GRU网络仅有两个控制门(更新门和重置门),其需要学习调整的模型参数更少,训练计算速度更快。
图8示意性示出了根据本发明的一实施例的训练递归神经网络的流程图。
如图8所示,基于上述实施例的通信防诈骗方法还包括以下步骤。
在步骤S810中,获取样本数据,所述样本数据包括正样本数据和负样本数据。
本公开实施例中,将上述通信防诈骗方法应用于电话诈骗领域时,例如可以将移动终端例如手机的历史诈骗电话数据作为所述正样本数据,可以将手机的历史正常通话数据作为所述负样本数据,但本公开并不限定于此。当所述通信防诈骗方法应用于不同场景时,可以选取相应的样本数据,本公开对此不作限定。
在步骤S820中,根据不同的诈骗类型,对所述样本数据进行标注。
例如,针对上述获得的手机的历史诈骗电话数据,可以对相应的正样本数据标注不同的诈骗类型,例如将金钱类诈骗标注为1,保健品推销类标注为2等等。
在步骤S830中,利用标注的所述样本数据训练所述递归神经网络。
本公开实施例中,将上述步骤S820获得的标注后的样本数据作为训练数据集,用于训练所述递归神经网络例如LSTM网络。
图9示出了图8中所示的步骤S830在一实施例中的处理过程示意图。
如图9所示,上述图8所示的实施例中的步骤S830还可以进一步包括以下步骤。
在步骤S831中,对标注的所述样本数据进行分词,获得所述样本数据的分词结果。
本公开实施例中,可以采用任意一种分词工具对标注的所述样本数据分别进行分词,从而获得所述样本数据的分词结果。下面的实施例中以结巴分词工具为例进行说明,但本公开对此不作限定。
在步骤S832中,对所述样本数据的分词结果进行处理,获得所述样本数据的词向量。
本公开实施例中,对所述样本数据的分词结果进行处理,获得所述样本数据的词向量可以采用任意一种适合的方式,下面的实施例中利用word2vector模型为例进行说明,但本公开对此不作限定。
本公开实施例中,对所述样本数据分词后的各个词语进行处理,获得各个词语的词向量,最终各个词语的词向量可以用词向量矩阵的形式表示所述样本数据。
在步骤S833中,利用所述样本数据的词向量训练所述递归神经网络,获得所述递归神经网络的参数。
本公开实施例中,可以按照顺序将获得的所述样本数据的词向量,每一时刻输入一个词向量至所述递归神经网络例如LSTM网络,从而获得所述递归神经网络的参数。
在步骤S834中,通过所述递归神经网络输出所述样本数据的句向量。
本公开实施例中,利用所述样本数据的词向量训练所述递归神经网络时,还输出了所述样本数据的句向量,以用于后续训练多分类模型。
图10示出了图3中所示的步骤S330在一实施例中的处理过程示意图。
如图10所示,上述图3所示实施例中的步骤S330还可以进一步包括以下步骤。
在步骤S331中,将所述文本信息的句向量输入至训练好的多分类模型。
在步骤S332中,通过所述多分类模型输出所述当前通讯的诈骗类型概率分布。
本公开实施例中,以所述多分类模型为softmax模型为例进行说明,但本公开并不限定于此,在其他实施例中,还可以采用其他能够用于实现多分类目的的多分类模型。
图11示意性示出了根据本发明的一实施例的训练多分类模型的流程图。
如图11所示,基于上述实施例的通信防诈骗方法还可以进一步包括以下步骤。
在步骤S1110中,将所述样本数据的句向量输入至所述多分类模型。
这里,可以预先定义softmax的连接权重矩阵和偏置。
在步骤S1120中,通过所述多分类模型输出所述样本数据对应的样本通讯的诈骗类型概率分布。
在步骤S1130中,根据所述样本通讯的诈骗类型概率分布预测所述样本通讯的目标诈骗类型。
在步骤S1140中,根据预测的所述样本通讯的目标诈骗类型以及相应的样本数据标注的诈骗类型,调整所述多分类模型的参数。
图12示意性示出了根据本发明的另一实施例的通信防诈骗方法的流程图。
如图12所示,本实施例提供的防诈骗方法与上述图3所示实施例的不同之处在于,所述方法还可以包括以下步骤。
在步骤S1210中,根据所述当前通讯的目标诈骗类型,触发执行相应的防诈骗操作。
在示例性实施例中,根据所述当前通讯的目标诈骗类型,触发执行相应的防诈骗操作,可以包括:根据所述目标诈骗类型从所述文本信息中提取相关信息;根据所述相关信息从诈骗数据库中获取匹配结果;将所述匹配结果发送至所述当前通讯的相关用户终端。
本实施例中,当确定所述当前通讯的目标诈骗类型为保健品推销类时,可以从所述当前通讯的文本信息中提取出相应的保健品关键词,将该保健品关键词输入至所述诈骗数据库中,当在该诈骗数据库中匹配到相关的保健品信息时,将该相关的保健品信息作为匹配结果,返回至所述当前通讯的被叫方对应的用户终端;或者,如果预先设置所述被叫方的亲属号码,可以根据该预先设置的所述被叫方的亲属号码,将该相关的保健品信息发送至相应的亲属号码,提醒相应的亲属,该被叫方当前正在接听保健品推销的电话,但是该保健品是三无产品,不要购买以免上当受骗。
上述实施例中,所述诈骗数据库可以通过搜集历史诈骗电话数据并根据诈骗类型进行分类存储获得。
另一些实施例中,当确定所述当前通讯的目标诈骗类型为冒充公检法类时,可以提取所述当前通讯的文本信息中的相关关键词例如某派出所的名称,根据该派出所的名称去所述诈骗数据库中检索,将该派出所的官方公布的对外联系电话、办公地址甚至目前值班的民警信息等作为匹配结果,返回给所述当前通讯的被叫方或者该被叫方的亲属号码(例如被叫方是老人时,该老人的子女的号码等),用于提示该被叫方不要上当受骗。
以上两类目标诈骗类型仅用于举例说明,但本公开并不限定于此,可以根据不同的目标诈骗类型提取相应的关键词信息,并根据该关键词信息检索已有的诈骗数据库,从该诈骗数据库中检索到匹配的相关信息返回给相关用户终端。
在示例性实施例中,根据所述当前通讯的目标诈骗类型,触发执行相应的防诈骗操作,可以包括:根据所述目标诈骗类型建立与第三方平台的数据链接;通过所述数据链接向所述第三方平台发送安全事件。
其中,所述第三方平台例如可以是银行联网系统、公安联网系统、铁路联网系统、物流联网系统等中的任意一种。
例如,所述第三方平台可以是银行联网系统,当该当前通讯确定为金钱类诈骗时,可以向该被叫方持有的银行卡对应的银行联网系统发出锁定银行卡的请求,该银行联网系统可以根据接收的锁定银行卡的请求锁定相应的银行卡,使得该被叫方暂时无法对外进行转账等操作,从而避免被叫方的财产损失。
需要说明的是,这里也可以向预先设定的该被叫方的亲属和/或朋友发送提示信息,提示该被叫方目前正在通话的是一个金钱类诈骗电话,为了防止该被叫方的财物损失,提醒该被叫方的亲属和/或朋友向相应的银行联网系统发出锁定银行卡的请求。
在示例性实施例中,所述方法还可以包括:将所述当前通讯的目标对象的通讯信息加入至黑名单数据库,并关联存储所述当前通讯的目标诈骗类型。
本实施例中,所述当前通讯的目标对象可以是所述当前通讯的主叫方,所述目标对象的通讯信息例如可以包括所述主叫方的主叫号码、主叫号码归属地、主叫语音的类型、所述当前通讯确定的目标诈骗类型等中的任意一种或者多种。
本公开实施方式提供的通信防诈骗方法,通过样本数据训练递归神经网络和多分类模型,之后将可以将当前通讯的文本信息经过处理后输入至训练好的递归神经网络和多分类模型,从而可以较为准确、实时地识别出当前通讯是否涉及到诈骗,这样即使骗子使用新号码进行诈骗,还是可以准确识别出当前通讯是诈骗类的例如诈骗电话。另一方面,本公开实施例所述方法不仅能够识别出当前通讯是否诈骗电话,同时还能够识别出具体的诈骗类型,并可以根据不同的诈骗类型进行不同的提示和/或防范措施,从而可以进一步降低诈骗带来的损失。
图13示意性示出了根据本发明的又一实施例的通信防诈骗方法的流程图。
如图13所示,本实施例提供的通信防诈骗方法与上述图3所示实施例的不同之处在于,还可以包括以下步骤。
在步骤S1310中,响应于所述当前通讯的相关用户的选择操作,触发针对所述当前通讯的录音操作。
本公开实施例中,所述通信防诈骗方法应用于电话诈骗领域。为了更好的保护用户隐私,可以仅在用户选择触发录音操作时,录取所述当前通讯的通话语音。其中所述相关用户例如可以为所述当前通讯的被叫方。
例如,被叫方的移动终端可以对来电状态进行监听,例如可以采用静态注册广播的方式,获取电话状态广播,当被叫方接通当前通话时,可以在其手机显示页面上弹出对话框,询问用户是否愿意开启对当前通话的录音操作,且该录音操作录取的通话语音用于识别该当前通讯是否诈骗电话以及确定具体的目标诈骗类型,如果被叫方点击确认,则可以开启该录音操作,在电话挂断时停止录音。
再例如,当被叫方为老人或者孩子等特殊人群时,可以由其亲属和/或朋友例如子女为其移动终端设定自动录音功能,这样,当该被叫方接通当前通话时,可以自动触发针对所述当前通讯的录音操作。
在步骤S1320中,根据所述录音操作录取所述当前通讯的通话语音。
在步骤S1330中,将所述当前通讯的通话语音转换成所述文本信息。
本公开实施例中,例如可以调用被叫方的移动终端语的语音听写接口对录取的通话语音进行识别生成所述文本信息。
其中,语音听写接口功能的实现例如可以采用科大讯飞接口,科大讯飞接口提供了两种调用方式,分别是在线的“语音听写接口”和离线的“语音听写SDK”,调用方法如下:到科大讯飞官网注册账号,并创建应用获取appid,下载sdk文件;在项目添加要用的类库,包括讯飞语音的类库iflyMSC,在下载的sdk文件里有,导入即可;导入的时候要注意把iflyMSC类库拷贝到工程目录里;导完类库之后,在建好的工程里添加好要用的头文件;语音识别返回的结果是json数据格式的。需要进行Json数据解析的工作,经解析后通过遍历把分割的识别内容拼接起来,最后组合成一句完整的话即可。
图14示意性示出了根据本发明的一实施例的通信防诈骗系统的示意图。
如图14所示,本实施例提供的通信防诈骗系统可以包括移动终端和通话内容分析服务器。这里以被叫方采用的移动终端为例进行说明。
该移动终端可以包括语音识别模块、内容上报模块和诈骗告警模块。该通话内容分析服务端可以包括自然语言处理模块、诈骗分类处理模块和诈骗信息数据存储模块。
其中,通过所述移动终端的语音识别模块将当前通讯的通话内容转换成文本信息,并通过所述内容上报模块将通话内容文本信息上传至所述通话内容分析服务端的自然语言处理模块。在其他实施例中,还可以将所述文本信息经过加密后再上传至所述通话内容分析服务端,可以进一步保证数据传输的安全性。通过所述语音识别模块将通话语音转换成文本信息后再上传至通话内容分析服务端,由于语音转换成文字后,一次通话的内容数据量在KB级别,不会出现数据量特别大的情况,从而可以降低上传的数据量,降低网络开销,方便通话数据的上传及后续的处理,实现通话语音的实时处理,可以及时的判断当前通话是否诈骗电话。当然,在其他实施例中,也可以将所述语音识别模块设置于所述通话内容分析服务端,通过所述移动终端的内容上报模块直接将通话语音上传至所述通话内容分析服务器。
其中,所述内容上报模块可以用于负责对所述通话语音的文本信息进行压缩,并可以通过例如TCP协议上传至所述通话内容分析服务端。
进一步的,所述通话内容文本信息经过所述自然语言处理模块的处理后,可以判断当前通讯是否属于诈骗电话,以及当所述当前通讯属于诈骗电话时,其所属的目标诈骗类型。当确定所述当前通讯的目标诈骗类型后,可以再通过所述诈骗分类处理模块对该诈骗类型进行相应的处理,例如,当确定当前通讯的目标诈骗类型为金钱类诈骗时,可以调用银行卡锁定模块锁定该被叫方的银行卡;还例如,当确定当前通讯的目标诈骗类型为药品推销类时,可以调用药品信息查询模块对该文本信息中提及的药品进行检索,并根据检索结果向被叫方和/或亲属朋友返回相应的信息;再例如,当确定当前通讯涉及到诈骗时,可以调用微信/短信通知模块向被叫方和/或亲属朋友通过微信和/或短信发送告警信息或者提示信息等。
其中,所述通话内容分析服务端可以向所述移动终端的诈骗告警模块返回诈骗识别结果。此外,所述通话内容分析服务端还可以通过所述诈骗信息数据存储模块存储所述当前通话的相关信息,例如所述当前通话的主叫方号码、主叫方来源地、主叫方的通话内容中提及的关键字等等。
在其他实施例中,所述移动终端的诈骗告警模块可以用于处理所述通话内容分析服务端返回的结果,如果识别结果为当前通话为诈骗电话并给出具体的目标诈骗类型,则根据返回结果进行相应的告警和/或采取相应的防诈骗操作。另一方面,还可以同时把所述当前通话的主叫方号码自动加入至黑名单数据库中,防止骗子利用该同一个电话号码再次来电。
具体的,上述移动终端可以以各种形式来实施。例如,本发明中描述的移动终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(Personal DigitalAssistant,个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
图15示意性示出了根据本发明的再一实施例的通信防诈骗方法的流程图。
如图15所示,第一步,被叫方接通电话主叫方的来电。这里,当被叫方接收到呼叫请求时,可以根据预先建立的号码识别库,判断呼叫类型。
例如,获取所述呼叫请求中包括的主叫号码,将获取的主叫号码与预先建立的号码识别库(例如,可以根据被叫方的通讯录建立)中的号码进行匹配,当有可匹配的号码时,确定呼叫类型为已知号码的呼叫;否则确定呼叫类型为未知号码的呼叫。若是已知号码的呼叫,则正常接听;若为未知号码,则可能是诈骗号码,将根据未知号码的类型,进行后续的防诈骗处理操作。
第二步,通话过程中,利用语音识别技术,可以把主叫方(或者把主叫方和被叫方两者)的通话语音转换成文本信息。
第三步,所述通话语音转换成文本信息后,上传到所述通话内容分析服务端。
第四步,通过所述通话内容分析服务端的自然语言处理模块,分析通话文本信息是否存在诈骗行为。
第五步,当所述自然语言处理模块判断当前通话为诈骗电话时,进入分析诈骗类型的步骤。当所述当前通话不为诈骗电话时,返回上述第二步。
第六步,分析所述当前通话的诈骗类型。
其中,当判定所述当前通话属于金钱类诈骗时,后台可以发信息通知该被呼叫方的亲属,告知该被呼叫方收到诈骗电话,提醒亲属及时确认被呼叫人不要上当受骗。此外,还可以提供银行锁定能力或锁定引导,让亲属能够及时帮助锁定被呼叫人银行卡,防止财产流失。
针对不同的人群均适合使用该功能,特别是老人和小孩,遇到诈骗电话可通过提醒自动发送短信到监护人身上,能够及时有效地减少不必要的麻烦和损失。
其中,当判定所述当前通话属于保健品推销时,通过药品数据库查询药品是否正规,确认是三无产品,则提供被呼叫人切勿购买。
需要说明的是,上述金钱类诈骗和保健品推销仅用于举例说明,实际情况中还可以包括更多种不同的诈骗类型以及相应的防诈骗操作。例如,可以断开网络,不接受手机通过互联网发送信息的请求,比如存在主叫方要求发送验证码的请求、主叫方要求发送银行账号的请求、主叫方要求发送身份证信息的请求,则对通过网络发送这些涉及到钱财、个人隐私信息的请求拒绝执行等。
继续参考图15所示实施例,所述方法还可以包括:返回告警提醒信息至所述当前通话的相关用户终端,例如被叫方用户终端和/或被叫方亲属朋友终端。
其中,所述告警提醒信息可以是发出报警蜂鸣声;也可以是发出振动提醒用户对方可能存在诈骗;或通知栏消息提示;或通话过程中有语音提醒;或如果设定有监护人信息,自动发送告警提醒信息给监护人,或自动发短信报警;弹窗提醒;邮件提醒;手机APP通知等中的任意一种或者多种,减少受骗事件发生。
例如,当通话录音转换成的文本信息中包括类似于“转账”、“身份证”、“密码”等信息时,被叫方的移动终端会震动并提示“可能是涉及到金钱的请注意”。
再例如,如果根据当前通话包括类似“转账”的文本信息时,用户在预定时间内进行支付转账操作,就会提示刚才电话可能是诈骗来电,请不要转账给陌生人。当发现用户使用支付类应用程序时,也可以进行提示预警,还可以将相关应用锁定。
继续参考图15所示实施例,所述方法还可以包括:自动把诈骗电话列入黑名单,从而拒绝该相同主叫号码的来电。
图16示意性示出了根据本发明的再一实施例的通信防诈骗方法的流程图。
如图16所示,本实施例提供的通信防诈骗方法可以包括以下步骤。
在步骤S1610中,例如可以通过公安部门等渠道获取手机历史诈骗电话数据,作为正样本。
在步骤S1620中,例如可以通过移动通信公司获取正常的通话录音,作为负样本。
在步骤S1630中,把通话数据从语音转换成样本文本。
在步骤S1640中,根据不同的诈骗类型,对样本文本进行标注。
在步骤S1650中,数据标注完成后,通过分词工具把样本文本分词。
这里假设采用结巴(jieba)分词工具对通话数据转换而成的样本文本进行分词处理,其过程具体为使用jieb分词库作为分词工具,对已收录词和未收录词进行处理,其处理流程可以为:加载词典dict.txt;从内存的词典中构建该样本文本的DAG(DirectedAcyclic Graph,有向无环图);对于词典中未收录词,使用HMM(Hidden Markov Model,隐马尔科夫)模型的viterbi算法尝试分词处理;已收录词和未收录词全部分词完毕后,寻找DAG的最大概率路径;输出分词结果。还可以包括去除停用词的步骤,其中去除停用词的过程中,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,字连起来组成词语。
本公开实施例中,为了降低时空复杂度,提高存储和计算效率,会自动忽略某些词,即为停用词。停用词包括过滤词,如特定时期的黄色、政治等敏感关键词。停用词主要有两类:过于频繁的词语,包括"然而"、"下面"等等;文本中出现频率很高,但没有语义含义的词,包括副词、介词、连词等等。
在步骤S1660中,完成分词后把样本文本转成词向量矩阵表示。
本实施例中,采用word2vector模型将分词后的所述样本文本转换成词向量矩阵形式表示。
其中,word2vector也叫word embeddings,中文名“词向量”,作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。在word2vector出现之前,自然语言处理经常把字词转为离散的单独的符号,也就是One-Hot Encoder。但是使用One-HotEncoder有以下问题。一方面,编码是随机的,向量之间相互独立,看不出向量之间可能存在的关联关系。其次,向量维度的大小取决于语料库中字词的多少。如果将文本信息对应的向量合为一个矩阵的话,那这个矩阵过于稀疏,并且会造成维度灾难。
使用Vector Representations可以有效解决这个问题。word2vector可以将One-Hot Encoder转化为低维度的连续值,也就是稠密向量,并且其中意思相近的词将被映射到向量空间中相近的位置。
在步骤S1670中,利用以上样本文本训练LSTM网络,找到合适的分层及参数,并把样本文本转成句向量。
本实施例中,可以利用以上样本文本并基于TensorFlow训练LSTM网络,其中TensorFlow中的Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。TensorFlow可在小到一部智能手机、大到数千台数据中心服务器的各种设备上运行。TensorFlow表达了高层次的机器学习计算,大幅简化了第一代系统,并且具备更好的灵活性和可延展性。TensorFlow支持异构设备分布式计算,它能够在各个平台上自动运行模型,从手机、单个CPU(Central ProcessingUnit,中央处理器)/GPU(Graphics Processing Unit,图形处理器)到成百上千GPU卡组成的分布式系统。基于TensorFlow这一比较底层的框架,可以比较灵活的进行模型修改。
在步骤S1680中,利用样本文本句向量训练softmax模型,通过softmax模型预测目标诈骗类型。
其中,softmax模型计算如下公式所示:
本公开实施例中,可以取样本文本句向量为LSTM网络输出的最后一个step的隐藏状态hn向量,即将隐藏状态hn作为x(i),再输入至softmax模型进行分类,但本公开并不限定于此。
经过softmax分类后,可获得目标诈骗类型的概率分布,根据概率预测诈骗类型,例如选取各诈骗类型概率中最大值对应的诈骗类型作为所述目标诈骗类型。
图17示意性示出了根据本发明的一实施例的通信防诈骗方法的示意图。
如图17所示,本实施例提供的通信防诈骗方法可以分为两部分。
第一部分是句子特征提取(向量化)。
需要说明的是,本公开实施例中的文本信息可以是一句话,也可以是多句话,即多个句子组成,但在图17所示的实施例中,将用于判断当前通讯是否诈骗电话以及具体的诈骗类型时的文本信息当成一个整体的句子来看待,而不区分其是一个句子还是多个句子。
假设所述文本信息对应的原始语句通过结巴分词分词后获得的分词结果包括词语1和词语2(这里仅以两个词语为例,但实际情况可以包括更多或者更少的词语)。
上述分词后的词语1和词语2经过word2vector模型分别转换成三维(仅用于举例说明,可以根据具体情况设定词向量的维度)的词向量:
将上述词语1和词语2的词向量按顺序输入至训练好的LSTM网络中,输出三维的句向量:
第二部分是句子分类。
将上述获得的句向量输入至训练好的softmax模型,可以分别输出各诈骗类型的概率。例如诈骗类型1、诈骗类型2和诈骗类型3等的概率。
以下介绍本发明的装置实施例,可以用于执行本发明上述的通信防诈骗方法。对于本发明装置实施例中未披露的细节,请参照本发明上述的通信防诈骗方法的实施例。
图18示意性示出了根据本发明的一实施例的通信防诈骗装置的框图。
参照图18所示,根据本发明的一个实施例的通信防诈骗装置1800,可以包括:词向量提取模块1810、句向量提取模块1820、概率分布获得模块1830以及诈骗类型确定模块1840。
其中,词向量提取模块1810可以配置为提取相关于当前通讯的文本信息的词向量。
句向量提取模块1820可以配置为根据所述文本信息的词向量获得所述文本信息的句向量。
在示例性实施例中,句向量提取模块1820可以进一步包括词向量输入单元和句向量输出单元。其中,所述词向量输入单元可以配置为将所述文本信息的词向量输入至训练好的递归神经网络。所述句向量输出单元可以配置为通过所述递归神经网络输出所述文本信息的句向量。
在示例性实施例中,所述句向量输出单元可以更进一步包括第一向量计算子单元、第二向量计算子单元、隐藏状态计算子单元以及句向量输出子单元。其中,所述第一向量计算子单元可以配置为根据前一隐藏状态和当前词向量获得当前遗忘向量、当前信息向量、当前候选单元状态向量以及当前输出向量。所述第二向量计算子单元可以配置为根据所述当前遗忘向量、前一单元状态向量、所述当前信息向量和所述当前候选单元状态向量获得所述当前单元状态向量。所述隐藏状态计算子单元可以配置为根据所述当前输出向量和所述当前单元状态向量获得当前隐藏状态。所述句向量输出子单元可以配置为根据所述当前隐藏状态获得所述文本信息的句向量。
概率分布获得模块1830可以配置为根据所述文本信息的句向量获得所述当前通讯的诈骗类型概率分布。
诈骗类型确定模块1840可以配置为根据所述当前通讯的诈骗类型概率分布确定所述当前通讯的目标诈骗类型。
在示例性实施例中,通信防诈骗装置1800还可以包括样本采集模块、数据标注模块以及网络训练模块。其中,所述样本采集模块可以配置为获取样本数据,所述样本数据包括正样本数据和负样本数据。所述数据标注模块可以配置为根据不同的诈骗类型,对所述样本数据进行标注。所述网络训练模块可以配置为利用标注的所述样本数据训练所述递归神经网络。
在示例性实施例中,所述网络训练模块可以进一步包括分词单元、词向量获得单元、网络训练单元和句向量输出单元。其中,所述分词单元可以配置为对标注的所述样本数据进行分词,获得所述样本数据的分词结果。所述词向量获得单元可以配置为对所述样本数据的分词结果进行处理,获得所述样本数据的词向量。所述网络训练单元可以配置为利用所述样本数据的词向量训练所述递归神经网络,获得所述递归神经网络的参数。所述句向量输出单元可以配置为通过所述递归神经网络输出所述样本数据的句向量。
在示例性实施例中,概率分布获得模块1830可以进一步包括句向量输入单元和概率分布获得单元。其中,所述句向量输入单元可以配置为将所述文本信息的句向量输入至训练好的多分类模型。所述概率分布获得单元可以配置为通过所述多分类模型输出所述当前通讯的诈骗类型概率分布。
在示例性实施例中,通信防诈骗装置1800还可以包括句向量输入模块、概率分布输出模块、诈骗类型预测模块以及参数调整模块。其中,所述句向量输入模块可以配置为将所述样本数据的句向量输入至所述多分类模型。所述概率分布输出模块可以配置为通过所述多分类模型输出所述样本数据对应的样本通讯的诈骗类型概率分布。所述诈骗类型预测模块可以配置为根据所述样本通讯的诈骗类型概率分布预测所述样本通讯的目标诈骗类型。所述参数调整模块可以配置为根据预测的所述样本通讯的目标诈骗类型以及相应的样本数据标注的诈骗类型,调整所述多分类模型的参数。
在示例性实施例中,通信防诈骗装置1800还可以包括操作触发模块。其中,所述操作触发模块可以配置为根据所述当前通讯的目标诈骗类型,触发执行相应的防诈骗操作。
在示例性实施例中,所述操作触发模块还可以进一步包括信息提取单元、信息匹配单元以及结果发送单元。其中,所述信息提取单元可以配置为根据所述目标诈骗类型从所述文本信息中提取相关信息。所述信息匹配单元可以配置为根据所述相关信息从诈骗数据库中获取匹配结果。所述结果发送单元可以配置为将所述匹配结果发送至所述当前通讯的相关用户终端。
在示例性实施例中,所述操作触发模块还可以进一步包括链接建立单元和事件发送单元。其中,所述链接建立单元可以配置为根据所述目标诈骗类型建立与第三方平台的数据链接。所述事件发送单元可以配置为通过所述数据链接向所述第三方平台发送安全事件。
在示例性实施例中,通信防诈骗装置1800还可以包括诈骗信息存储模块。其中,所述诈骗信息存储模块可以配置为将所述当前通讯的目标对象的通讯信息加入至黑名单数据库,并关联存储所述当前通讯的目标诈骗类型。
在示例性实施例中,通信防诈骗装置1800还可以包括触发录音操作模块、录音模块和语音转换模块。其中,所述触发录音操作模块可以配置为响应于所述当前通讯的相关用户的选择操作,触发针对所述当前通讯的录音操作。所述录音模块可以配置为根据所述录音操作录取所述当前通讯的通话语音。所述语音转换模块可以配置为将所述当前通讯的通话语音转换成所述文本信息。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (22)
1.一种通信防诈骗方法,其特征在于,包括:
提取相关于当前通讯的文本信息的词向量,所述文本信息的词向量表示为X={X1,X2,…,Xn},n为大于或等于1的正整数,表示所述文本信息经过分词后的词语数量;t时刻的词向量Xt是一个m维的向量,1≤t≤n,m为大于等于1的正整数;
根据所述文本信息的词向量获得所述文本信息的句向量;
根据所述文本信息的句向量获得所述当前通讯的诈骗类型概率分布;
根据所述当前通讯的诈骗类型概率分布确定所述当前通讯的目标诈骗类型;
其中,根据所述文本信息的词向量获得所述文本信息的句向量,包括:
将所述文本信息的词向量输入至训练好的递归神经网络;
通过所述递归神经网络输出所述文本信息的句向量;
其中,通过所述递归神经网络输出所述文本信息的句向量,包括:
根据所述当前输出向量ot和所述当前单元状态向量Ct获得当前隐藏状态ht;
根据所述当前隐藏状态ht获得所述文本信息的句向量,将所述文本信息的句向量按顺序一个步骤输入一个词向量,取最后一个步骤的隐藏状态hn作为所述文本信息的句向量;或者,对所有步骤的隐藏状态加权或者直接平均作为所述文本信息的句向量;
用公式表示如下:
ht=ot⊙tanh(Ct)
2.根据权利要求1所述的通信防诈骗方法,其特征在于,还包括:
获取样本数据,所述样本数据包括正样本数据和负样本数据;
根据不同的诈骗类型,对所述样本数据进行标注;
利用标注的所述样本数据训练所述递归神经网络。
3.根据权利要求2所述的通信防诈骗方法,其特征在于,利用标注的所述样本数据训练所述递归神经网络,包括:
对标注的所述样本数据进行分词,获得所述样本数据的分词结果;
对所述样本数据的分词结果进行处理,获得所述样本数据的词向量;
利用所述样本数据的词向量训练所述递归神经网络,获得所述递归神经网络的参数;
通过所述递归神经网络输出所述样本数据的句向量。
4.根据权利要求3所述的通信防诈骗方法,其特征在于,根据所述文本信息的句向量获得所述当前通讯的诈骗类型概率分布,包括:
将所述文本信息的句向量输入至训练好的多分类模型;
通过所述多分类模型输出所述当前通讯的诈骗类型概率分布。
5.根据权利要求4所述的通信防诈骗方法,其特征在于,还包括:
将所述样本数据的句向量输入至所述多分类模型;
通过所述多分类模型输出所述样本数据对应的样本通讯的诈骗类型概率分布;
根据所述样本通讯的诈骗类型概率分布预测所述样本通讯的目标诈骗类型;
根据预测的所述样本通讯的目标诈骗类型以及相应的样本数据标注的诈骗类型,调整所述多分类模型的参数。
6.根据权利要求1所述的通信防诈骗方法,其特征在于,还包括:
根据所述当前通讯的目标诈骗类型,触发执行相应的防诈骗操作。
7.根据权利要求6所述的通信防诈骗方法,其特征在于,根据所述当前通讯的目标诈骗类型,触发执行相应的防诈骗操作,包括:
根据所述目标诈骗类型从所述文本信息中提取相关信息;
根据所述相关信息从诈骗数据库中获取匹配结果;
将所述匹配结果发送至所述当前通讯的相关用户终端。
8.根据权利要求6所述的通信防诈骗方法,其特征在于,根据所述当前通讯的目标诈骗类型,触发执行相应的防诈骗操作,包括:
根据所述目标诈骗类型建立与第三方平台的数据链接;
通过所述数据链接向所述第三方平台发送安全事件。
9.根据权利要求1所述的通信防诈骗方法,其特征在于,还包括:
将所述当前通讯的目标对象的通讯信息加入至黑名单数据库,并关联存储所述当前通讯的目标诈骗类型。
10.根据权利要求1所述的通信防诈骗方法,其特征在于,还包括:
响应于所述当前通讯的相关用户的选择操作,触发针对所述当前通讯的录音操作;
根据所述录音操作录取所述当前通讯的通话语音;
将所述当前通讯的通话语音转换成所述文本信息。
11.一种通信防诈骗装置,其特征在于,包括:
词向量提取模块,配置为提取相关于当前通讯的文本信息的词向量,所述文本信息的词向量表示为X={X1,X2,…,Xn},n为大于或等于1的正整数,表示所述文本信息经过分词后的词语数量;t时刻的词向量Xt是一个m维的向量,1≤t≤n,m为大于等于1的正整数;
句向量提取模块,配置为根据所述文本信息的词向量获得所述文本信息的句向量;
概率分布获得模块,配置为根据所述文本信息的句向量获得所述当前通讯的诈骗类型概率分布;
诈骗类型确定模块,配置为根据所述当前通讯的诈骗类型概率分布确定所述当前通讯的目标诈骗类型;
其中,所述句向量提取模块包括:
词向量输入单元,配置为将所述文本信息的词向量输入至训练好的递归神经网络;
句向量输出单元,配置为通过所述递归神经网络输出所述文本信息的句向量;
其中,所述句向量输出单元包括:
隐藏状态计算子单元,配置为根据所述当前输出向量ot和所述当前单元状态向量Ct获得当前隐藏状态ht;
句向量输出子单元,配置为根据所述当前隐藏状态ht获得所述文本信息的句向量,将所述文本信息的句向量按顺序一个步骤输入一个词向量,取最后一个步骤的隐藏状态hn作为所述文本信息的句向量;或者,对所有步骤的隐藏状态加权或者直接平均作为所述文本信息的句向量;
用公式表示如下:
ht=ot⊙tanh(Ct)
12.根据权利要求11所述的通信防诈骗装置,其特征在于,还包括:
样本采集模块,配置为获取样本数据,所述样本数据包括正样本数据和负样本数据;
数据标注模块,配置为根据不同的诈骗类型,对所述样本数据进行标注;
网络训练模块,配置为利用标注的所述样本数据训练所述递归神经网络。
13.根据权利要求12所述的通信防诈骗装置,其特征在于,所述网络训练模块包括:
分词单元,配置为对标注的所述样本数据进行分词,获得所述样本数据的分词结果;
词向量获得单元,配置为对所述样本数据的分词结果进行处理,获得所述样本数据的词向量;
网络训练单元,配置为利用所述样本数据的词向量训练所述递归神经网络,获得所述递归神经网络的参数;
句向量输出单元,配置为通过所述递归神经网络输出所述样本数据的句向量。
14.根据权利要求13所述的通信防诈骗装置,其特征在于,所述概率分布获得模块包括:
句向量输入单元,配置为将所述文本信息的句向量输入至训练好的多分类模型;
概率分布获得单元,配置为通过所述多分类模型输出所述当前通讯的诈骗类型概率分布。
15.根据权利要求14所述的通信防诈骗装置,其特征在于,还包括:
句向量输入模块,配置为将所述样本数据的句向量输入至所述多分类模型;
概率分布输出模块,配置为通过所述多分类模型输出所述样本数据对应的样本通讯的诈骗类型概率分布;
诈骗类型预测模块,配置为根据所述样本通讯的诈骗类型概率分布预测所述样本通讯的目标诈骗类型;
参数调整模块,配置为根据预测的所述样本通讯的目标诈骗类型以及相应的样本数据标注的诈骗类型,调整所述多分类模型的参数。
16.根据权利要求11所述的通信防诈骗装置,其特征在于,还包括:
操作触发模块,配置为根据所述当前通讯的目标诈骗类型,触发执行相应的防诈骗操作。
17.根据权利要求16所述的通信防诈骗装置,其特征在于,所述操作触发模块包括:
信息提取单元,配置为根据所述目标诈骗类型从所述文本信息中提取相关信息;
信息匹配单元,配置为根据所述相关信息从诈骗数据库中获取匹配结果;
结果发送单元,配置为将所述匹配结果发送至所述当前通讯的相关用户终端。
18.根据权利要求16所述的通信防诈骗装置,其特征在于,所述操作触发模块包括:
链接建立单元,配置为根据所述目标诈骗类型建立与第三方平台的数据链接;
事件发送单元,配置为通过所述数据链接向所述第三方平台发送安全事件。
19.根据权利要求11所述的通信防诈骗装置,其特征在于,还包括:
诈骗信息存储模块,配置为将所述当前通讯的目标对象的通讯信息加入至黑名单数据库,并关联存储所述当前通讯的目标诈骗类型。
20.根据权利要求11所述的通信防诈骗装置,其特征在于,还包括:
触发录音操作模块,配置为响应于所述当前通讯的相关用户的选择操作,触发针对所述当前通讯的录音操作;
录音模块,配置为根据所述录音操作录取所述当前通讯的通话语音;
语音转换模块,配置为将所述当前通讯的通话语音转换成所述文本信息。
21.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至10中任一项所述的通信防诈骗方法。
22.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至10中任一项所述的通信防诈骗方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810327176.6A CN110309299B (zh) | 2018-04-12 | 2018-04-12 | 通信防诈骗方法、装置、计算机可读介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810327176.6A CN110309299B (zh) | 2018-04-12 | 2018-04-12 | 通信防诈骗方法、装置、计算机可读介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110309299A CN110309299A (zh) | 2019-10-08 |
CN110309299B true CN110309299B (zh) | 2023-01-20 |
Family
ID=68073883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810327176.6A Active CN110309299B (zh) | 2018-04-12 | 2018-04-12 | 通信防诈骗方法、装置、计算机可读介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309299B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110868501A (zh) * | 2019-11-13 | 2020-03-06 | 刘峰刚 | 一种基于语音识别的防欺诈方法及防欺诈助听器 |
CN111601000B (zh) * | 2020-05-14 | 2022-03-08 | 支付宝(杭州)信息技术有限公司 | 通信网络诈骗的识别方法、装置和电子设备 |
CN111669757B (zh) * | 2020-06-15 | 2023-03-14 | 国家计算机网络与信息安全管理中心 | 一种基于通话文本词向量的终端诈骗电话识别方法 |
CN113037610B (zh) * | 2021-02-25 | 2022-08-19 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN113068191A (zh) * | 2021-03-12 | 2021-07-02 | 深圳市安络科技有限公司 | 一种防诈骗信息推送方法、装置及设备 |
CN112950773A (zh) * | 2021-04-07 | 2021-06-11 | 万翼科技有限公司 | 基于建筑信息模型的数据处理方法与装置、处理服务器 |
CN117132392B (zh) * | 2023-10-23 | 2024-01-30 | 蓝色火焰科技成都有限公司 | 车辆贷款欺诈风险预警方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631049B (zh) * | 2016-02-17 | 2019-03-05 | 北京奇虎科技有限公司 | 一种识别诈骗短信的方法和系统 |
CN106980683B (zh) * | 2017-03-30 | 2021-02-12 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
CN107222865B (zh) * | 2017-04-28 | 2019-08-13 | 北京大学 | 基于可疑行为识别的通讯诈骗实时检测方法和系统 |
CN107547718B (zh) * | 2017-08-22 | 2020-11-03 | 电子科技大学 | 基于深度学习的电信诈骗识别与防御系统 |
-
2018
- 2018-04-12 CN CN201810327176.6A patent/CN110309299B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110309299A (zh) | 2019-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309299B (zh) | 通信防诈骗方法、装置、计算机可读介质及电子设备 | |
CN107846350B (zh) | 一种语境感知网络聊天的方法、计算机可读介质和系统 | |
US10650311B2 (en) | Suggesting resources using context hashing | |
US9892414B1 (en) | Method, medium, and system for responding to customer requests with state tracking | |
US20190188590A1 (en) | Chatbot Integrating Derived User Intent | |
US20190373111A1 (en) | Automatic call classification using machine learning | |
CN111753551B (zh) | 基于词向量生成模型的信息生成方法和装置 | |
CN111681653A (zh) | 呼叫控制方法、装置、计算机设备以及存储介质 | |
WO2023108994A1 (zh) | 一种语句生成方法及电子设备、存储介质 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
US20240078385A1 (en) | Method and apparatus for generating text | |
CN111368551A (zh) | 一种确定事件主体的方法和装置 | |
CN112235470B (zh) | 基于语音识别的来电客户跟进方法、装置及设备 | |
CN111914076A (zh) | 一种基于人机对话的用户画像构建方法、系统、终端及存储介质 | |
CN110637321A (zh) | 动态申索提交系统 | |
CN114706945A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
Windiatmoko et al. | Developing FB chatbot based on deep learning using RASA framework for university enquiries | |
CN115376495A (zh) | 语音识别模型训练方法、语音识别方法及装置 | |
WO2022188534A1 (zh) | 信息推送的方法和装置 | |
CN114974253A (zh) | 一种基于人物画像的自然语言解释方法、装置及存储介质 | |
CN113051384B (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN110222333A (zh) | 一种语音交互方法、装置以及相关设备 | |
KR102434666B1 (ko) | 사전 데이터베이스를 활용하여 음성 데이터에 기반한 텍스트를 생성하기 위한 방법 및 컴퓨팅 장치 | |
CN111538998B (zh) | 文本定密方法和装置、电子设备及计算机可读存储介质 | |
CN110740212B (zh) | 基于智能语音技术的通话接听方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |