CN114117003A - 一种识别非法语音的方法及系统 - Google Patents

一种识别非法语音的方法及系统 Download PDF

Info

Publication number
CN114117003A
CN114117003A CN202111392944.4A CN202111392944A CN114117003A CN 114117003 A CN114117003 A CN 114117003A CN 202111392944 A CN202111392944 A CN 202111392944A CN 114117003 A CN114117003 A CN 114117003A
Authority
CN
China
Prior art keywords
voice
illegal
log data
signaling
recording file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111392944.4A
Other languages
English (en)
Inventor
杨威
丁正
顾晓东
韩慎勇
庄承源
张锡林
齐庆庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinfang Software Co ltd
Shanghai Cintel Intelligent System Co ltd
Original Assignee
Shanghai Xinfang Software Co ltd
Shanghai Cintel Intelligent System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinfang Software Co ltd, Shanghai Cintel Intelligent System Co ltd filed Critical Shanghai Xinfang Software Co ltd
Priority to CN202111392944.4A priority Critical patent/CN114117003A/zh
Publication of CN114117003A publication Critical patent/CN114117003A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种识别非法语音的方法及系统,基于在设定时间段内获取的信令日志数据筛选出疑似非法语音后,再对疑似非法语音的录音文件进行分析以最终确定非法语音并确定非法类型,将最终确定的非法语音标识与确定的非法类型进行存储。在后续使用时,就可以根据当前的语音标识是否匹配存储的非法语音标识,确认当前的语音是否为非法语音及对应的非法类型。这样,本申请实施例在确认非法语音时采用了信令日志数据及录音文件进行双重认证,并在设定时间段内进行存储更新,使得确定的非法语音标识准确,从而在后续基于此对当前语音进行非法语音的认证时,提高识别非法语音的准确率。

Description

一种识别非法语音的方法及系统
技术领域
本发明涉及计算机人工智能技术领域,特别涉及一种识别非法语音的方法及系统。
背景技术
随着互联网时代的高速发展,人们生活也发生了巨大的变化。用户之间可以采用用户终端实现语音通话或短信交互,多种多样的应用也进入到人们的视野中。但也给我们生活带来便利的同时,也产生了很多潜在的危险,用户个人隐私在互联网中的泄露有可能被诈骗分子有机可乘,甚至导致了个人财产损失。近年来,电信诈骗成爆发式增长,诈骗手法层出不穷,诈骗中所使用的技术手段也不断升级。诈骗分子通过语音通话或发送文本短信的方式对用户进行诈骗,给用户带来了很多损失。在这种情况下,需要对网络中的语音进行识别,从中识别出非法语音,并针对识别出的非法语音进行诸如屏蔽或提醒用户的相关处理,以减少或避免用户的损失。因此,如何识别非法语音成为了亟待解决的问题。
目前,识别非法语音有两种方法:第一种方法,在通信网络侧设置非法语音标识数据库,数据库中存储所收集的非法语音的标识,当通信网络侧接收到语音时,识别该语音的标识是否在该数据库中,如果是,则确认是非法语音;第二种方法,在通信网络侧设置非法语音的特征规则,当通信网络侧接收到语音时,从该语音中提取特征,确定所提取的特征是否符合所设置的规则,以此确定该语音是否为非法语音。
采用这两种方法都存在识别非法语音的识别准确率不高的问题:第一种方法受到数据库收集的非法语音的标识限制,无法全面且准确地识别出非法语音,导致识别准确率不高;第二种方法受到所指定的非法语音的特征规则限制,无法全面且准确地识别出非法语音,导致识别准确率不高。
发明内容
有鉴于此,本申请实施例提供一种识别非法语音的方法及系统,能够提高识别非法语音的准确率。
本申请实施例是这样实现的:
一种识别非法语音的方法,所述方法包括:
通过通信网络采集设定采集时间段内的信令日志数据;
对所述信令日志数据进行数据清洗,从清洗后的所述信令日志数据中提取各个语音的特征,采用数据特征模型进行特征分析,得出疑似非法语音标识;
获取具有疑似非法语音标识的语音的录音文件,将所述录音文件进行文本转换后,与设置的对应非法类型的关键词匹配,确认匹配成功的语音为非法语音,对应非法类型存储该非法语音的标识;
当通过通信网络获取到语音时,确定所述语音的标识是否已经作为非法语音标识存储,如果是,输出所述语音的表示对应的非法类型,拦截所述语音;如果否,将所述语音进行传输。
较佳地,所述采集设定采集时间段内的信令日志数据包括:
采集通信网络中的7号信令日志数据、Abis信令日志数据及IP信令日志数据后,进行设定统一格式的转换后,汇聚得到所述信令日志数据,其中,
7号信令日志数据采用高阻跨接方式采集、采用交换机内部收敛终结方式采集或分光器分光方式采集,IP信令日志数据采用网络分流器TAP方式采集、镜像方式采集或分光器分光方式采集。
较佳地,所述对所述信令日志数据进行数据清洗包括:
采用设置的大数据流计算框架对所述信令日志数据进行过滤后,对其中不符合所设定清洗规则的过滤后的信令日志数据进行补全或删除。
较佳地,所述从清洗后的所述信令日志数据中提取各个语音的特征,采用数据特征模型进行特征分析包括:
对各个语音的呼叫特征及短信特征分别进行分析,得出疑似非法语音标识。
较佳地,所述获取具有疑似非法语音标识的语音的录音文件,将所述录音文件进行文本转换包括:
采用回调方式或轮询方式从通信网络中获取得到具有疑似非法语音标识的语音的录音文件;
将获取的录音文件进行文本转换后,将转换结果返回。
较佳地,所述将文本转换后的录音文件与设置的对应非法类型的关键词匹配包括:将文本转换后的录音文件进行关联匹配,根据所述疑似非法语音标识、所述疑似信号的主叫标识及所述语音的通话开始时间与所设定的匹配条件进行匹配,匹配成功后,将所述文本转换后的录音文件与对应非法类型的关键词进行匹配,如果匹配成功,则将所述疑似非法语音确认为是非法语音并确认非法类型。
一种识别非法语音的系统,包括:采集层单元、共享层单元及应用层单元,其中,
采集层单元,用于通过通信网络采集设定采集时间段内的信令日志数据,发送给共享层单元;
共享层单元,用于对所述信令日志数据进行数据清洗,从清洗后的所述信令日志数据中提取各个语音的特征,采用数据特征模型进行特征分析,得出疑似非法语音标识;获取具有疑似非法语音标识的语音的录音文件,将所述录音文件进行文本转换后,与设置的对应非法类型的关键词匹配,确认匹配成功的语音为非法语音,对应非法类型存储该非法语音的标识;
应用层单元,用于当通过通信网络获取到语音时,确定所述语音的标识是否已经作为非法语音标识存储,如果是,输出所述语音的表示对应的非法类型,拦截所述语音;如果否,所述语音为正常语音,将所述语音进行传输。
较佳地,所述采集层单元还包括:汇聚设备、信令采集网关、7号信令采集设备、Abis信令采集设备及IP信令采集设备,其中,
信令采集网关,用于通过7号信令采集设备采集通信网络中的7号信令日志数据,通过Abis信令采集设备采集Abis信令日志数据,通过IP信令采集设备采集IP信令日志数据,进行进行设定统一格式的转换后,得到所述信令日志数据,发送给汇聚设备,其中,
7号信令日志数据采用高阻跨接方式采集、采用交换机内部收敛终结方式采集或分光器分光方式采集,IP信令日志数据采用网络分流器TAP方式采集、镜像方式采集或分光器分光方式采集;
汇聚设备,用于接收所述信令日志数据,进行汇聚后,发送给共享层单元。
较佳地,所述共享层单元,还用于对所述信令日志数据进行数据清洗包括:
采用设置的大数据流计算框架对所述信令日志数据进行过滤后,对其中不符合所设定清洗规则的过滤后的信令日志数据进行补全或删除;
所述共享层单元,还用于所述从清洗后的所述信令日志数据中提取各个语音的特征,采用数据特征模型进行特征分析包括:对各个语音的呼叫特征及短信特征分别进行分析,得出疑似非法语音标识。
较佳地,所述共享层单元,还用于所述获取具有疑似非法语音标识的语音的录音文件,将所述录音文件进行文本转换包括:
采用回调方式或轮询方式从通信网络中获取得到具有疑似非法语音标识的语音的录音文件;将获取的录音文件进行文本转换后,将转换结果返回;
所述共享层单元,还用于所述将文本转换后的录音文件与设置的对应非法类型的关键词匹配包括:将文本转换后的录音文件进行关联匹配,根据所述疑似非法语音标识、所述疑似信号的主叫标识及所述语音的通话开始时间与所设定的匹配条件进行匹配,匹配成功后,将所述文本转换后的录音文件与对应非法类型的关键词进行匹配,如果匹配成功,则将所述疑似非法语音确认为是非法语音并确认非法类型。
如上所见,本申请实施例基于在设定时间段内获取的信令日志数据筛选出疑似非法语音后,再对疑似非法语音的录音文件进行分析以最终确定非法语音并确定非法类型,将最终确定的非法语音标识与确定的非法类型进行存储。在后续使用时,就可以根据当前的语音标识是否匹配存储的非法语音标识,确认当前的语音是否为非法语音及对应的非法类型。这样,本申请实施例在确认非法语音时采用了信令日志数据及录音文件进行双重认证,并在设定时间段内进行存储更新,使得确定的非法语音标识准确,从而在后续基于此对当前语音进行非法语音的认证时,提高识别非法语音的准确率。
附图说明
图1为本申请实施例提供的识别非法语音的方法流程图;
图2为本申请实施例提供的识别非法语音的系统示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面以具体实施例对本申请的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
基于背景技术提出的识别非法语音的方案,一方面诈骗人员可以更换语音的标识进行继续诈骗,导致不仅识别非法语音标识的成本高,而且识别准确率不高导致防欺诈效果无法达到要求;另一方面,仅能识别出当前语音是否为非法语音号码,而无法识别出具体的诈骗类型。综上,背景技术提供的识别非法语音的方案识别非法语音的准确率不高。
本申请为了解决上述技术问题,基于在设定时间段内获取的信令日志数据筛选出疑似非法语音后,再对疑似非法语音的录音文件进行分析以最终确定非法语音并确定非法类型,将最终确定的非法语音标识与确定的非法类型进行存储。在后续使用时,就可以根据当前的语音标识是否匹配存储的非法语音标识,确认当前的语音是否为非法语音及对应的非法类型。这样,本申请的方案在确认非法语音时采用了信令日志数据及录音文件进行双重认证,并在设定时间段内进行存储更新,从而使得确定的非法语音标识准确,在后续基于此对当前语音进行非法语音的认证时,提高识别非法语音的准确率。
图1为本申请实施例提供的识别非法语音的方法流程图,其具体步骤包括:
步骤101、通过通信网络采集设定采集时间段内的信令日志数据;
步骤102、对所述信令日志数据进行数据清洗,从清洗后的所述信令日志数据中提取各个语音的特征,采用数据特征模型进行特征分析,得出疑似非法语音标识;
步骤103、获取具有疑似非法语音标识的语音的录音文件,将所述录音文件进行文本转换后,与设置的对应非法类型的关键词匹配,确认匹配成功的语音为非法语音,对应非法类型存储该非法语音的标识;
步骤104、当通过通信网络获取到语音时,确定所述语音的标识是否已经作为非法语音标识存储,如果是,执行步骤105;如果否,执行步骤106;
步骤105、输出所述语音的表示对应的非法类型,拦截所述语音;
步骤106、所述语音为正常语音,将所述语音进行传输。
在该方法中,所述设定的采集时间段根据需要设置,比如一天或多天等。
在该方法中,所述采集设定采集时间段内的信令日志数据包括:
采集通信网络中的7号信令日志数据、Abis信令日志数据及IP信令日志数据后,进行设定统一格式的转换后,汇聚得到所述信令日志数据,其中,
7号信令日志数据采用高阻跨接方式采集、采用交换机内部收敛终结方式采集或分光器分光方式采集,IP信令日志数据采用网络分流器TAP方式采集、镜像方式采集或分光器分光方式采集。
在该方法中,所述对所述信令日志数据进行数据清洗包括:
采用设置的大数据流计算框架对所述信令日志数据进行过滤后,对其中不符合所设定清洗规则的过滤后的信令日志数据进行补全或删除。这样,就可以使得后续处理的信令日志数据完整,不存在丢包的情况。
在该方法中,所述从清洗后的所述信令日志数据中提取各个语音的特征,采用数据特征模型进行特征分析包括:
对各个语音的呼叫特征及短信特征分别进行分析,得出疑似非法语音标识。
在该方法中,所述获取具有疑似非法语音标识的语音的录音文件,将所述录音文件进行文本转换包括:
采用回调方式或轮询方式从通信网络中获取得到具有疑似非法语音标识的语音的录音文件;
将获取的录音文件进行文本转换后,将转换结果返回。
在该方法中,所述将文本转换后的录音文件与设置的对应非法类型的关键词匹配包括:将文本转换后的录音文件进行关联匹配,根据所述疑似非法语音标识、所述疑似信号的主叫标识及所述语音的通话开始时间与所设定的匹配条件进行匹配,匹配成功后,将所述文本转换后的录音文件与对应非法类型的关键词进行匹配,如果匹配成功,则将所述疑似非法语音确认为是非法语音并确认非法类型。这样,就可以准确得到设定时间段内的通信网络中的非法语音。
图2为本申请实施例提供的识别非法语音的系统示意图,如图所示,包括:采集层单元、共享层单元及应用层单元,其中,
采集层单元,用于通过通信网络采集设定采集时间段内的信令日志数据,发送给共享层单元;
共享层单元,用于对所述信令日志数据进行数据清洗,从清洗后的所述信令日志数据中提取各个语音的特征,采用数据特征模型进行特征分析,得出疑似非法语音标识;获取具有疑似非法语音标识的语音的录音文件,将所述录音文件进行文本转换后,与设置的对应非法类型的关键词匹配,确认匹配成功的语音为非法语音,对应非法类型存储该非法语音的标识;
应用层单元,用于当通过通信网络获取到语音时,确定所述语音的标识是否已经作为非法语音标识存储,如果是,输出所述语音的表示对应的非法类型,拦截所述语音;如果否,所述语音为正常语音,将所述语音进行传输。
在该系统中,采集层单元包括了多个信令采集网关(SCG,Signal CollectionGateway)及汇聚设备,其中,多个信令采集网关通过通信网络采集得到不同的信令日志数据,封装为设定的格式后,比如封装为网际协议(IP)格式后,通过信令数据接口(IF1)数据通道向汇聚设备发送;汇聚设备接收到后,对来自不同信令采集网关的信令日志数据进行汇聚后,发送给共享层单元。
在该系统中,诸如移动通信网络的通信网络提供信令日志数据,在提供时,通过Mc接口、A接口、Abis接口、低级信令转接点(LSTP)、高级信令转接点(HSTP)、归属位置寄存器(HLP)、关口局等网元或/和接口等提供。信令采集网关分别通过Abis信令采集设备、7号信令采集设备及IP信令采集设备接收得到不同的信令日志数据。
在这里,7号信令采集设备,可以采用三种方式接入7号信令日志数据。第一种方式,采用高阻跨接方式接入7号信令日志数据,即将高阻隔离器件跨接在交换侧数字配线架(DDF)的E1中继端口上,进行信令数据采集,配置数字交叉连接(DXC)设备进行信号放大,并对2M中继中的64K信令链路进行收敛。第二种方式交换机内部收敛终结接入方式接入7号信令日志数据,即由通信网络中的交换机将分别在多个E1中的64K信令链路收敛到仅承载信令链路的专用E1接口中,无需高阻跨界,可直接从专用E1接口得到7号信令日志数据。第三种方式,分光器方式接入7号信令日志数据,即监测以光纤为载体的通信网络中的链路,监测到7号信令日志数据时直接接入。
IP信令采集设备可以采用三种方式接入信令日志数据。第一种方式采用网络分流器(TAP)方式,TAP方式类似于7号信令采集设备采用的高阻跨接方式,通过TAP设备实现接口的三通,将端口的信令日志数据复制为两路后接入,一路用于监测,另一路接续到原接续端口中。第二种方式为镜像方式,镜像方式是从交换机的测试口得到协议的信令日志数据。第三种方式为分光方式,分光方式是采用分光器对通信网络中的光纤进行分光,一路用于监测,另一路接续到原接续端口。在这种情况下,IP信令采集设备需要支持单模光纤接入方式及多模光纤接入方式。
IP信令采集设备还可以包括主备用IP信令采集设备,其中,主用IP信令采集设备和备用IP信令采集设备分别接入不同的TAP设备中,以避免单点故障。
信令采集网关主要通过通信网络收集信令日志数据,将数据进行统一格式封装后传输到汇聚设备中。当全量信令日志数据未成功传输到汇聚设备的情况下,信令采集网关可以缓存全量信令日志数据,以便数据重传,同时应提供相应的告警信息。信令采集网关支持主动传输方式,进行信令日志数据的主动传输。另外,汇聚设备的对端提取方式作为可选项,在确定后,也可以由汇聚设备提取信令采集网关中的信令日志数据。
在该系统中,采集层单元通过IF1数据通道将汇聚得到的信令日志数据,传输给共享层单元。IF1数据通道采用安全数据传输协议(SDTP),是采集单元与共享层之间的接口,主要传输经过网际协议(IP)转换后的信令日志数据。
在该系统中,共享层单元接收到信令日志数据时,由于有可能出现通信网络波动一系列原因造成丢包现象,最终导致所接收的信令日志数据的不完整性,则需要共享层单元对所述信令日志数据进行数据清洗。在进行数据清洗时,通过大数据实时处理技术对不符合设定清洗规则的信令日志数据进行提取或补全,以达到信令日志数据清洗的目的,防止对后续进行信令日志数据的分析造成干扰。
具体地说,在进行数据清洗时,采用实时处理技术包括诸如storm、sparkstreaming或flink的大数据流计算框架对信令日志数据进行过滤,对符合所设定清洗规则的过滤后的信令日志数据直接进行后续分析,对不符合所设定清洗规则的过滤后的信令日志数据进行补全或删除。也就是对于因为丢包等原因造成过滤后的信令日志数据不完整时,如果可以回填的字段进行回填,不可以回填的且重要字段丢失的信令日志数据则删除并通知采集层单元进行重新采集,采集层单元接收到向通信网络发送重新采集该信令日志数据的通知,进行该信令日志数据的重新采集。
在该系统中,共享层单元对数据清洗后的信令日志数据采用数据特征模型进行特征分析包括:对呼叫特征进行分析及对短信特征进行分析,得出疑似非法语音标识。
具体地说,对呼叫特征分析包括:提取信令日志数据中的语音标识并进行统计,判断该语音标识是否与非法语音有通话,如果否,则确定该语音不是疑似非法语音,结束;如果否,则从该信令日志数据中提取通话频次峰值特征,判断是否大于所设定的均值通话频次特征阈值,如果是,则确认是疑似非法语音,得出该疑似非法语音标识;如果否,则确定该语音不是疑似非法语音,结束。
在这里,通话频次峰值特征包括但不限于:呼叫次数、呼叫时长、正常挂机次数、非0时长通话次数、非0时长号码数、通话时长为0次数、本地通话次数、异地通话次数、接通率、被叫号码离散度、呼入呼出占比、以及是否存在拨打同一被叫的语音标识。
对短信特征进行分析包括:读取信令日志数据中的短信日志,对其中的语音标识进行分析,提取语音标识的短信频次特征,判断是否大于所设定的均值短信频次特征阈值,如果是,则确认是疑似非法语音,得出该疑似非法语音标识,如果否,则确定该语音不是疑似非法语音,结束。
在这里,语音标识的短信频次特征包括但不限于:累计发送短信的次数、累计接收短信的次数、发送跨区域被叫次数占比、发送含设定关键字短信次数、以及接收所设定交友网站码次数等。
在该系统中,共享层单元当确定疑似非法语音标识后,对具有疑似非法语音标识的语音进行录音并文本转换。具体地说,建立疑似非法语音标识列表后,获取该列表中的语音并生成录音文件,通信网络中的Ines服务从用户终端(MS)下载.wav结尾的录音文件到MS本地,Ines服务中的RecordInes业务将本地不加密文件上传到文件传输协议(FTP)服务器,最后共享层单元从FTP服务器下载.wav的不加密录音文件。其中,MS是模拟桩,用于发送录音文件;Ines服务接收共享层单元的SCP消息并执行相关操作;Ines服务中的RecordInes业务用于对录音文件的加密功能进行检测,以确定录音文件是否可用。
在对录音文件进行文本转换时,需要设置录音文件转写功能,进行录音文件的文本转换。录音文件转写功能包括:支持单轨或双轨的WAV格式、MP3格式的录音文件识别;支持轮询方式或回调方式的两种调用方式;支持自学习平台和热词;支持8000赫兹(Hz)或1600Hz的采样率;支持汉语普通话、汉语方言、或欧美英语等多种模型识别;支持设置有效时间段信息,用来排除一些不必要时间段的识别;录音文件地址链接支持超文本传输协议(HTTP)/基于安全层的超文本传输协议(HTTPS),FTP协议,或者存放在录音文件识别所在服务器的本地路径(在docker环境中的目录映射)。
在对录音文件进行文本转换时,对录音文件是有限制条件的:第一,录音文件大小需要控制在512兆字节(MB)以下;第二,在提交录音文件进行转换后,需要在设定的时间内,比如设置24小时内完成文本转换,将文本转换结果在设定的保存时间内进行保存,比如设置保存时间为72小时;第三,录音文件的访问权限需要保证能够被业务层单元访问及下载。
在对录音文件进行文本转换时,采用录音文件转写功能进行时,可以采用轮询方式或回调方式获取到录音文件并进行文本转换,以下详细说明。
采用轮询方式获取到录音文件包括:第一个步骤,确定录音文件的格式及采样率,确认是否与选取的文本转换模型匹配;第二个步骤,将录音文存储在设定服务器上或本地目录下,保证录音文件转写功能中的录音文件识别服务能访问和下载;第三个步骤,接收客户端发送的录音文件识别请求,服务器端返回该请求任务的标识,以查询识别结果;第四个步骤,客户端进行识别结果的查询,通过第三个步骤获取的请求任务标识查询录音文件识别的结果,录音文件识别的结果保存在服务器端设定的时间内,比如72小时。
采用回调方式获取到录音文件包括:第一个步骤,确定录音文件的格式及采样率,确认是否与选取的文本转换模型匹配;第二个步骤,将录音文存储在设定服务器上,保证录音文件转写功能中的录音文件识别服务能访问和下载;第三个步骤,服务器将录音文件的识别结果发送到回调的统一资源定位符(URL)指示的资源中。
在该系统中的共享层单元中,与设置的对应非法类型的关键词进行匹配的过程具体包括:
将对应每个疑似非法语音标识的录音文件转换为文本后,进行关联匹配,根据该疑似非法语音标识、该疑似信号的主叫标识及该语音的通话开始时间进行所设定的匹配条件进行匹配,匹配成功后,将文本与对应非法类型的关键词进行匹配,如果匹配成功,则将该疑似非法语音确认为是非法语音,将确认为是非法语音标识对应非法类型进行存储。
举一个具体例子对本申请进行详细说明。
本申请的应用实例为某区域提供的在某一周内的信令日志数据以及根据信令日志数据分析出的疑似非法语音标识对应的录音文件。从信令日志数据中提取的主要特征有语音标识、语音的被叫标识、开始时间、国际移动用户识别码(imsi)、国际移动设备识别码(imei)、源位置区码(source lac)、或/和源小区识别码(source ic)等,通过特征分析后,具体是针对呼叫特征及短信特征对非法语音标识对应的信令日志数据进行分析后,得出疑似非法语音。对疑似非法信号进行录音得到录音文件,并将录音文件转换为文本后进行所设定的对应非法类型的关键词匹配,最后得到匹配结果,包括:非法语音标识、非法语音的imsi、非法语音的imei、非法语音的source lac、或/和非法语音的source ic。从而得到非法语音为2598个,将非法语音的识别信息存储并推送给相关人员进行处理。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
本文中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思路,并不用于限制本申请。对于本领域的技术人员来说,可以依据本申请的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种识别非法语音的方法,其特征在于,所述方法包括:
通过通信网络采集设定采集时间段内的信令日志数据;
对所述信令日志数据进行数据清洗,从清洗后的所述信令日志数据中提取各个语音的特征,采用数据特征模型进行特征分析,得出疑似非法语音标识;
获取具有疑似非法语音标识的语音的录音文件,将所述录音文件进行文本转换后,与设置的对应非法类型的关键词匹配,确认匹配成功的语音为非法语音,对应非法类型存储该非法语音的标识;
当通过通信网络获取到语音时,确定所述语音的标识是否已经作为非法语音标识存储,如果是,输出所述语音的表示对应的非法类型,拦截所述语音;如果否,将所述语音进行传输。
2.如权利要求1所述的方法,其特征在于,所述采集设定采集时间段内的信令日志数据包括:
采集通信网络中的7号信令日志数据、Abis信令日志数据及IP信令日志数据后,进行设定统一格式的转换后,汇聚得到所述信令日志数据,其中,
7号信令日志数据采用高阻跨接方式采集、采用交换机内部收敛终结方式采集或分光器分光方式采集,IP信令日志数据采用网络分流器TAP方式采集、镜像方式采集或分光器分光方式采集。
3.如权利要求1所述的方法,其特征在于,所述对所述信令日志数据进行数据清洗包括:
采用设置的大数据流计算框架对所述信令日志数据进行过滤后,对其中不符合所设定清洗规则的过滤后的信令日志数据进行补全或删除。
4.如权利要求1所述的方法,其特征在于,所述从清洗后的所述信令日志数据中提取各个语音的特征,采用数据特征模型进行特征分析包括:
对各个语音的呼叫特征及短信特征分别进行分析,得出疑似非法语音标识。
5.如权利要求1所述的方法,其特征在于,所述获取具有疑似非法语音标识的语音的录音文件,将所述录音文件进行文本转换包括:
采用回调方式或轮询方式从通信网络中获取得到具有疑似非法语音标识的语音的录音文件;
将获取的录音文件进行文本转换后,将转换结果返回。
6.如权利要求1所述的方法,其特征在于,所述将文本转换后的录音文件与设置的对应非法类型的关键词匹配包括:将文本转换后的录音文件进行关联匹配,根据所述疑似非法语音标识、所述疑似信号的主叫标识及所述语音的通话开始时间与所设定的匹配条件进行匹配,匹配成功后,将所述文本转换后的录音文件与对应非法类型的关键词进行匹配,如果匹配成功,则将所述疑似非法语音确认为是非法语音并确认非法类型。
7.一种识别非法语音的系统,其特征在于,包括:采集层单元、共享层单元及应用层单元,其中,
采集层单元,用于通过通信网络采集设定采集时间段内的信令日志数据,发送给共享层单元;
共享层单元,用于对所述信令日志数据进行数据清洗,从清洗后的所述信令日志数据中提取各个语音的特征,采用数据特征模型进行特征分析,得出疑似非法语音标识;获取具有疑似非法语音标识的语音的录音文件,将所述录音文件进行文本转换后,与设置的对应非法类型的关键词匹配,确认匹配成功的语音为非法语音,对应非法类型存储该非法语音的标识;
应用层单元,用于当通过通信网络获取到语音时,确定所述语音的标识是否已经作为非法语音标识存储,如果是,输出所述语音的表示对应的非法类型,拦截所述语音;如果否,所述语音为正常语音,将所述语音进行传输。
8.如权利要求7所述的系统,其特征在于,所述采集层单元还包括:汇聚设备、信令采集网关、7号信令采集设备、Abis信令采集设备及IP信令采集设备,其中,
信令采集网关,用于通过7号信令采集设备采集通信网络中的7号信令日志数据,通过Abis信令采集设备采集Abis信令日志数据,通过IP信令采集设备采集IP信令日志数据,进行进行设定统一格式的转换后,得到所述信令日志数据,发送给汇聚设备,其中,
7号信令日志数据采用高阻跨接方式采集、采用交换机内部收敛终结方式采集或分光器分光方式采集,IP信令日志数据采用网络分流器TAP方式采集、镜像方式采集或分光器分光方式采集;
汇聚设备,用于接收所述信令日志数据,进行汇聚后,发送给共享层单元。
9.如权利要求7所述的系统,其特征在于,所述共享层单元,还用于对所述信令日志数据进行数据清洗包括:
采用设置的大数据流计算框架对所述信令日志数据进行过滤后,对其中不符合所设定清洗规则的过滤后的信令日志数据进行补全或删除;
所述共享层单元,还用于所述从清洗后的所述信令日志数据中提取各个语音的特征,采用数据特征模型进行特征分析包括:对各个语音的呼叫特征及短信特征分别进行分析,得出疑似非法语音标识。
10.如权利要求7所述的系统,其特征在于,所述共享层单元,还用于所述获取具有疑似非法语音标识的语音的录音文件,将所述录音文件进行文本转换包括:
采用回调方式或轮询方式从通信网络中获取得到具有疑似非法语音标识的语音的录音文件;将获取的录音文件进行文本转换后,将转换结果返回;
所述共享层单元,还用于所述将文本转换后的录音文件与设置的对应非法类型的关键词匹配包括:将文本转换后的录音文件进行关联匹配,根据所述疑似非法语音标识、所述疑似信号的主叫标识及所述语音的通话开始时间与所设定的匹配条件进行匹配,匹配成功后,将所述文本转换后的录音文件与对应非法类型的关键词进行匹配,如果匹配成功,则将所述疑似非法语音确认为是非法语音并确认非法类型。
CN202111392944.4A 2021-11-23 2021-11-23 一种识别非法语音的方法及系统 Pending CN114117003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111392944.4A CN114117003A (zh) 2021-11-23 2021-11-23 一种识别非法语音的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111392944.4A CN114117003A (zh) 2021-11-23 2021-11-23 一种识别非法语音的方法及系统

Publications (1)

Publication Number Publication Date
CN114117003A true CN114117003A (zh) 2022-03-01

Family

ID=80439820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111392944.4A Pending CN114117003A (zh) 2021-11-23 2021-11-23 一种识别非法语音的方法及系统

Country Status (1)

Country Link
CN (1) CN114117003A (zh)

Similar Documents

Publication Publication Date Title
US8041592B2 (en) Collection and analysis of multiple data sources
US9426046B2 (en) Web page download time analysis
CN109819127B (zh) 骚扰电话的管理方法和系统
US20040003070A1 (en) Centrally controlled end-to-end service quality monitoring system and method in a distributed environment
CN110337059B (zh) 一种用户家庭关系的分析算法、服务器及网络系统
US20060258339A1 (en) Tools, methods and systems of storing remotely and retrieving detail records given a specific call or data session
CN111885270B (zh) 一种异常通信的检测方法、装置、设备及存储介质
GB2427102A (en) Filtering and viewing real-time call detail records based upon user specific criteria
KR100669948B1 (ko) 링백톤 대체음 복사 시스템 및 그 방법
CN111565253B (zh) 一种猫池诈骗数据预警方法及系统
WO2010076470A1 (fr) Systeme d'adaptation pour interception legale dans differents reseaux de telecommunications
CN101883374A (zh) 一种终端上报信息的方法及终端设备
CN103024206A (zh) 一种基于电信网防范疑似电话诈骗的实现方法
CN114117003A (zh) 一种识别非法语音的方法及系统
CN101534354A (zh) 呼叫中心系统
CN107786931A (zh) 音频检测方法及装置
FR2925999A1 (fr) Dispositif et procede de determination de la presence d'un terminal mobile dans une femto-cellule
KR20150047378A (ko) 보이스 피싱 방지 장치
CN114338617A (zh) 基于视频呼叫的音视频审核方法、非法号码识别方法
CN108833125B (zh) 还原语音话路的绘制方法、系统、计算机设备和存储介质
CN102572840B (zh) 一种利用信令监测技术鉴别新型恶意回拨业务的方法
CN109639919B (zh) 一种拨测方法、装置、设备及介质
EP2169879B1 (en) Real-time traffic monitoring in a mobile data network
Khan et al. Automatic Monitoring & Detection System (AMDS) for Grey Traffic
CN101472254A (zh) 确定预约号码、控制预约回拨业务的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination