CN110111814B - 网络类型识别方法及装置 - Google Patents

网络类型识别方法及装置 Download PDF

Info

Publication number
CN110111814B
CN110111814B CN201910419117.6A CN201910419117A CN110111814B CN 110111814 B CN110111814 B CN 110111814B CN 201910419117 A CN201910419117 A CN 201910419117A CN 110111814 B CN110111814 B CN 110111814B
Authority
CN
China
Prior art keywords
model
preset
training data
network
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910419117.6A
Other languages
English (en)
Other versions
CN110111814A (zh
Inventor
林格平
戚梦苑
沈亮
李娅强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201910419117.6A priority Critical patent/CN110111814B/zh
Publication of CN110111814A publication Critical patent/CN110111814A/zh
Application granted granted Critical
Publication of CN110111814B publication Critical patent/CN110111814B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供一种网络类型识别方法及装置。所述方法包括:获取待识别语音;将待识别语音输入至预设的网络识别模型,得到识别结果;其中,所述网络识别模型为通过样本数据对随机森林模型以及支持向量机模型进行预设数据训练得到的。本发明实施例将网络类型识别的过程自动化实现,效率较高,可有效降低人工成本;且网络识别通过机器学习的方式建立,满足精确度需求;预先通过大量样本数据建立网络识别模型,适用于VoIP通话;本发明实施例解决了现有技术中,VoIP电话的出现使得难以准确地根据号码判断主叫方网络类型的问题。

Description

网络类型识别方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种网络类型识别方法及装置。
背景技术
通话(即电话)按照呼叫发起方选择的网络类型通常可以分为固定电话、移动电话以及网络电话;具体地,固定电话主要为公共交换电话网络电话(Public SwitchedTelephone Network,PSTN)、移动电话主要为蜂窝移动网络电话,网络电话即基于IP的语音传输(Voice over Internet Protocol,VoIP)。
具体地,VoIP电话是一种语音通话技术,其经由网际协议(Internet Protocol,IP)来达成语音通话与多媒体会议,也即经由互联网来进行通信。
VoIP电话与传统的PSTN电话具有明显区别。首先,VoIP的基本原理是通过语音压缩算法对语音信号数据编码进行压缩处理,把经压缩处理的语音信号数据按传输控制协议/因特网互联协议(Transmission Control Protocol/Internet Protocol,TCP/IP)标准进行打包,再经过IP网络把数据包传送至接收地,最后将这些语音数据包串起来,经过解压处理后,恢复成原来的语音信号,从而达到由互联网传送语音的目的。
其次,传统电话使用公众电话网作为语音传输的媒介;而VoIP电话则是将语音信号在公共交换电话网和Internet之间进行转换,对语音信号进行压缩封装,转换成IP数据包;此外,IP技术允许多个用户共用同一带宽资源,改变了传统电话由单个用户独占一个信道的方式,节省了用户使用单独信道的费用。由于技术和市场的推动,将语音转化成IP包的技术已变得更为实用且价格相对低廉,这也是VoIP电话迅速发展的重要原因。
然而,VoIP电话,使得运营商或被叫方难以准确地根据号码判断主叫方网络类型。目前,运营商或被叫方判断主叫方网络类型的方法主要是根据主叫号码判断,固定电话与移动电话在编号规则上有显著区别因此容易判断,但VoIP电话的出现使得根据号码判断对方网络类型出现了困难;具体地,VoIP电话在发起呼叫时可以通过平台任意修改号码,致使很多VoIP电话伪装成了固定电话或移动电话号码,用以迷惑被叫,因此难以根据号码准确判断对方的网络类型。
发明内容
本发明实施例提供一种网络类型识别方法及装置,用以解决现有技术中,VoIP电话的出现,使得难以准确地根据号码判断主叫方网络类型的问题。
一方面,本发明实施例提供一种网络类型识别方法,所述方法包括:
获取待识别语音;
将待识别语音输入至预设的网络识别模型,得到识别结果;其中,所述网络识别模型为通过样本数据对随机森林模型以及支持向量机模型进行预设数据训练得到的。
一方面,本发明实施例提供一种网络类型识别装置,所述装置包括:
语音获取模块,用于获取待识别语音;
网络识别模块,用于将待识别语音输入至预设的网络识别模型,得到识别结果;其中,所述网络识别模型为通过样本数据对随机森林模型以及支持向量机模型进行预设数据训练得到的。
另一方面,本发明实施例还提供了一种电子设备,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述网络类型识别方法中的步骤。
再一方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述网络类型识别方法中的步骤。
本发明实施例提供的网络类型识别方法及装置,通过获取待识别语音,将待识别语音输入至预设的网络识别模型,得到识别结果,将网络类型识别的过程自动化实现,效率较高,可有效降低人工成本;且网络识别通过机器学习的方式建立,满足精确度需求;预先通过大量样本数据建立网络识别模型,适用于VoIP通话;本发明实施例解决了现有技术中,VoIP电话的出现使得难以准确地根据号码判断主叫方网络类型的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的网络类型识别方法的流程示意图;
图2为本发明实施例提供的训练网络识别模型的流程示意图;
图3为本发明实施例的示例的网络类型识别装置的示意图;
图4为本发明实施例的示例的服务器的架构示意图;
图5为本发明实施例提供的网络类型识别装置的结构示意图;
图6为本发明实施例提供的服务器的结构示意图;
图7为本发明实施例的示例的支持向量机模型进行特征分类的过程;
图8为本发明实施例的示例的随机森林模型进行特征分类的过程;
图9为本发明实施例的示例的SVM模型与随机森林模型集成的过程。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
应理解,说明书通篇中提到的“实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
图1示出了本发明实施例提供的一种网络类型识别方法的流程示意图。
如图1所示,本发明实施例提供的网络类型识别方法,所述方法具体包括以下步骤:
步骤101,获取待识别语音。
其中,待识别语音可以是来自主叫用户的语音,语音可以是电话通话中的语音,或音频通话、视频通话中的语音;作为一种实施方式,本发明实施例可以应用于被叫终端(用户),若被叫用户接收到呼叫时,可在接通后根据主叫用户的语音对其网络类型进行识别。
作为另一种实施方式,本发明实施例还可以应用于第三方,第三方获取主叫用户的语音对其网络类型进行识别。
步骤102,将待识别语音输入至预设的网络识别模型,得到识别结果;其中,所述网络识别模型为通过样本数据对随机森林模型以及支持向量机模型进行预设数据训练得到的。
其中,网络识别模型的输入为待识别语音(即待识别语音的语音信号数据),而经过网络识别模型,可自动输出该待识别语音的网络类型识别结果;识别结果可以为具体的网络类型或其他形式的参数,网络类型可以是PSTN通话、蜂窝移动网络通话或VoIP通话。
不同网络类型的通话,在信道媒介、网络架构、编解码方式、调制方法、传输协议等方面通常具有较大的差异,因此在各类网络上传输的语音信号也会受到影响而发生变化,这类变化变化语音的综合特征,这种特征是与主叫网络类型是强相关的,经过不同网络的话音携带的综合特征也不同,可以作为电话网络类型的判别依据。
网络识别模型为通过样本数据对随机森林模型以及支持向量机模型进行预设的数据训练得到的,样本数据可以是来自于使用电信网的固定电话机、移动电话机和网络电话的人工拨打测试,采集样本中的语音数据,并分别记录这些语音数据的网络类型。
预设数据训练即机器学习,通过样本数据中的语音数据分别输入至由支持向量机模型以及随机森林模型构成的网络识别模型得到初始的识别结果,再用预先记录的语音数据的网络类型对网络识别模型进行反向优化;并将样本数据中下一篇语音数据迭代至优化后的模型,如此循环至迭代次数满足要求,得到网络识别模型。
将待识别语音输入至网络识别模型后,便可得到识别结果。
其中,支持向量机(Support Vector Machine,SVM)与随机森林都是以分类为基础的机器学习算法;具体地,支持向量机模型是一类按监督学习方式对数据进行二元分类的广义线性分类器;随机森林模型是一种由多个决策树分类器构成的集成学习模式。以随机森林进行分类为例,随机森林每棵决策树的建立依赖于一个独立抽取的样本,森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它们之间的相关性。单棵树的分类能力可能很小,但在随机产生大量的决策树后,分类能力必然增强,统计后选择最可能的分类。通过大量的分类、回归训练,最终得到准确率最高的一组权重数值,由该组权重数值构成网络识别模型,因此精确度也较高。
本发明上述实施例中,通过获取待识别语音,将待识别语音输入至预设的网络识别模型,得到识别结果,将网络类型识别的过程自动化实现,效率较高,可有效降低人工成本;且网络识别通过机器学习的方式建立,满足精确度需求;预先通过大量样本数据建立网络识别模型,适用于VoIP通话;本发明实施例解决了现有技术中,VoIP电话的出现使得难以准确地根据号码判断主叫方网络类型的问题。
进一步地,如图2所示,本发明一实施例中,训练网络识别模型的过程主要包括以下步骤:
步骤201,获取样本数据;所述样本数据中包括至少两种网络类型的语音通话数据。
其中,样本数据中包括多种网络类型的语音通话数据,比如PSTN通话、蜂窝移动网络通话或VoIP通话。样本数据可以是来自于使用电信网的固定电话机、移动电话机和网络电话的人工拨打测试,采集样本中的语音数据,并分别记录这些语音数据的网络类型。
步骤202,将所述样本数据按照预设比例分成训练数据集以及测试数据集。
其中,训练数据集用于训练模型,测试数据集用于测试模型;可选地,预设比例可以是训练数据集比测试数据集等于7:3。
步骤203,通过所述训练数据集对随机森林模型以及支持向量机模型进行预设训练,得到初始识别模型。
具体地,步骤203包括:
通过所述初始识别结果、所述训练数据的预设分析结果分别对所述随机森林模型、支持向量机模型进行反向优化,得到优化后的模型;
将当前训练数据的下一组训练数据、所述组训练数据的预设分析结果迭代输入至所述优化后的模型,并进行反向优化,至迭代次数满足预设次数要求。
其中,通过第一初始识别结果、所述训练数据的预设分析结果对所述所述随机森林模型、支持向量机模型进行反向优化,得到优化后的模型,并通过第二初始识别结果、所述训练数据的预设分析结果对所述支持向量机模型进行反向优化,得到优化后的模型;然后将当前训练数据的下一组训练数据、所述组训练数据的预设分析结果迭代输入至每个所述优化后的模型,并进行反向优化当迭代的次数满足要求时,再通过测试数据集对当前网络识别模型进行测试。
步骤204,通过所述测试数据集对所述初始识别模型进行测试,得到满足预设精确度要求的网络识别模型。
当测试精度满足预设精确度要求,确定测试通过,确定当前网络识别模型为最终的当前网络识别模型。
可选地,本发明上述实施例中,步骤203包括第一步至第四步,具体地:
第一步,分别对所述训练数据集中的每组所述训练数据进行特征提取,得到每组所述训练数据的综合特征的原始特征向量;
其中,不同网络类型的通话,在信道媒介、网络架构、编解码方式、调制方法、传输协议等方面通常具有较大的差异,因此在各类网络上传输的语音信号也会受到影响而发生变化,这类变化变化语音的综合特征,这种特征是与主叫网络类型是强相关的,经过不同网络的话音携带的综合特征也不同,可以作为电话网络类型的判别依据。
可选地,特征提取时可采用一些开源音频处理工具,例如Kaidi、Librosa、Yaffe和Essentia等。
所述综合特征包括静态特征和/或动态特征;
所述静态特征包括时域特征、频域特征和/或倒谱域特征;时域特征包括短时平均能量、自相关性、过零率等特征;频域特征包括短时频谱、频谱中心矩、频谱带宽、滚降系数等特征;倒谱域特征主要包括梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)。
所述动态特征包括梅尔频率倒谱系数MFCCs的一阶差分参数特征和/或二阶差分参数特征。
通过支持向量机模型、随机森林模型分别对所述综合特征进行分类,筛选得到可以用于分类的特征向量。
第二步,通过随机森林模型、支持向量机模型对所述原始特征向量进行分类,得到初始识别结果。
其中,将原始特征向量分别迭代输入至所述随机森林模型、支持向量机模型,得到初始识别结果,初始识别结果为具体的网络类型或其他形式的参数,网络类型可以是PSTN通话、蜂窝移动网络通话或VoIP通话。
第三步,通过所述初始识别结果,以及所述训练数据的预设识别结果对所述随机森林模型、支持向量机模型进行反向优化,得到优化后的随机森林模型、支持向量机模型。
其中,通过已知的预设识别结果与初始结果之间的差异,对模型进行反向优化。
第四步,通过预设集成算法将所述优化后的随机森林模型、支持向量机模型进行集成,得到初始识别模型。
其中,可采用AdaBoost方法集成随机森林模型、支持向量机模型,得到初始识别模型,提升学习性能。
具体地,本发明上述实施例中,上述第一步包括:
将所述训练数据集中的训练数据转换为预设处理格式;
从转换后的所述训练数据中提取预设噪声信号;
提取每组所述训练数据的综合特征,所述综合特征参数包括提取自所述训练数据的第一预设特征以及提取自所述预设噪声信号的第二预设特征。
其中,将所述训练数据集中的训练数据转换为预设处理格式,预设处理格式可以是MP3等格式,转换时可采用Librosa等处理工具处理;并从转换后的所述训练数据中中提取噪声信号以及第一预设特征,噪声是体现不同语音网络和线路的重要依据,可对语音的线路信道中携带的加性噪声特征信息分析和处理;提取噪声信号后,再从预设噪声信号中提取第二预设特征。
可选地,本发明上述实施例中,上述第二步包括:
通过支持向量机模型对所述综合特征的原始特征向量进行分类,得到第一初始识别结果;以及
通过随机森林模型对所述综合特征的原始特征向量进行筛选,得到第一预设数目个特征向量,并对所述特征向量进行分类,得到第二初始识别结果。
其中,首先通过支持向量机模型进行对原始特征向量进行分类,得到第一初始识别结果;并通过随机森林模型对所述综合特征的原始特征向量进行筛选,得到第一预设数目个特征向量,并对筛选得到的所述特征向量进行分类,得到第二初始识别结果。
支持向量机模型对特征向量分类的过程中,包括对其统计学处理以及组合和筛选,统计量包括平均值、方差、标准差、中位数、平方差、中心矩、回归系数、偏差、峰态、导数等。对特征向量的统计学处理,一方面可以对特征向量中的内容进行更深层次的分析和表达,另一方面可以实现降维。在分类任务中,更深层次的特征挖掘与提炼,可以使分类算法对数据有更强大的类别区分能力与同类泛化能力。
作为一个示例,参见图7,图7示出了通过支持向量机模型进行特征分类的过程,以75维特征向量为例,首先从短时能量、过零率、能量熵、频谱熵等综合特征中筛选出75维特征向量,经过SVM分类器,得到识别结果。
作为又一示例,参见图8,图8示出了通过随机森林模型进行特征分类的过程,以75维特征向量为例,首先从短时能量、过零率、能量熵、频谱熵等综合特征中筛选出75维特征向量,经过随机森林监督学习,进一步筛选筛选出20维具有分类能力的特征,再通过随机森林分类器得到识别结果。
特征向量的组合和筛选过程中,由于随机森林可以根据贡献度权重输出特征排序,采用随机森林有监督学习方法进行训练,而后根据训练结果选取前第二预设数目个(比如20维)最具区分能力的特征,用以网络类型分类判别。
作为又一示例,参见图9,将训练好的SVM模型与随机森林模型经过AdaBoost方法集成,得到初始识别模型。
本发明上述实施例中,通过获取待识别语音,将待识别语音输入至预设的网络识别模型,得到识别结果,将网络类型识别的过程自动化实现,效率较高,可有效降低人工成本;且网络识别通过机器学习的方式建立,满足精确度需求;预先通过大量样本数据建立网络识别模型,适用于VoIP通话。
作为具体示例,图3示出了一种应用于本示例实施例提供的网络类型识别方法的网络类型识别装置,该装置包括以下模块:
数据获取模块301、数据预处理模块302、特征提取模块303、语音特征处理模块304、分类判别模块305以及测试模块306。
具体地,各模块主要执行以下功能:
(1)数据获取模块301:
此模块的功能是存储和标注;存储即将电话的语音进行录音和存储作为样本数据,并将样本数据转换为便于处理的格式,为后续的分析工作做好数据准备。样本数据来自于使用电信网固定电话机、移动电话机和网络电话进行的人工拨打测试,标注即分别记录这些语音数据的网络类型为PSTN、CELL和VOIP。
该模块还将数据按照7:3的比例分割为训练集和测试集,将训练集发送给数据预处理模块302,将测试集发送给测试模块306。
(2)数据预处理模块302:
此模块的功能包括格式转换、噪声提取,目的是将数据格式转换为可以进行处理的格式,比如将电信网中普遍采用的G.729、PCM等编码的语音格式转换为适合Librosa等处理工具处理的MP3等格式,并进行从中提取噪声信号。提取噪声的原因是,噪声是体现不同语音网络和线路的重要依据,对语音的线路信道中携带的加性噪声特征信息分析和处理是进行电话网络类型的重要步骤。
(3)语音特征提取模块303:
该模块功能是对语音数据(包括噪声和语音)的关键特征进行提取。本示例采用开源音频处理工具Kaidi、Librosa、Yaffe和Essentia等计算语音特征,包括静态特征和动态特征。
a、静态基础特征分为时域、频域、倒谱域三种,时域特征包括短时平均能量、自相关性、过零率等,频域特征包括短时频谱、频谱中心矩、频谱带宽、滚降系数等,倒谱域特征主要包括梅尔倒谱系数(mfcc)。
b、动态特征主要是指梅尔倒谱系数的一阶或二阶差分参数。
(4)语音特征处理模块304:
包括对语音特征的统计、组合、筛选,采用自编码器、随机森林等方法对语音特征提取模块303得到的特征进行处理后,得到可以用于分类的特征。
特征向量的统计量包括平均值、方差、标准差、中位数、平方差、中心矩、回归系数、偏差、峰态、导数等。对特征向量的统计学处理,一方面可以对特征向量中的内容进行更深层次的分析和表达,另一方面可以实现降维。在分类任务中,更深层次的特征挖掘与提炼,可以使分类算法对数据有更强大的类别区分能力与同类泛化能力。本示例中,多维语音特征经过统计量处理后,得到75维特征向量。
特征向量的组合和筛选。由于随机森林可以根据贡献度权重输出特征排序,故据此得到的75维语音特征向量,采用随机森林有监督学习方法进行训练,而后根据训练结果选取前20维最具区分能力的特征,用以网络类型分类判别。
(5)网络识别分类模块:
本模块采用机器学习方法,输入20维语音特征,经过支持向量机和随机森林两种分类器的分类处理后,再采用AdaBoost方法集成两种分类器,提升学习性能,得到最终对电话语音来源网络类型的识别。此模块需要采用训练数据进行训练,分类器采用sklearn开源框架构建。
(6)测试模块306;
针对以上电话网络分类判别模块305,使用测试集中的数据进行测试,判断分类模块的性能,指标包括准确率、召回率、F1值等。根据测试结果调整分类器参数,最终给出电话网络识别的网络识别模型。
进一步地,如图4所示,该示例主要包括三类计算资源服务器,分别为存储服务器、计算服务器和训练服务器。其中,存储服务器负责存储电话语音数据和分析结果;计算服务器用于进行语音数据预处理、特征计算、分类判别、结果融合上报等计算功能;训练服务器用于各模块数据模型的训练。这几类计算资源在条件允许的情况下可共用服务器。
以上介绍了本发明实施例提供的网络类型识别方法,下面将结合附图介绍本发明实施例提供的网络类型识别装置。
参见图5,本发明实施例提供了一种网络类型识别装置,所述装置包括:
语音获取模块501,用于获取待识别语音。
其中,待识别语音可以是来自主叫用户的语音,语音可以是电话通话中的语音,或音频通话、视频通话中的语音;作为一种实施方式,本发明实施例可以应用于被叫终端(用户),若被叫用户接收到呼叫时,可在接通后根据主叫用户的语音对其网络类型进行识别。
作为另一种实施方式,本发明实施例还可以应用于第三方,第三方获取主叫用户的语音对其网络类型进行识别。
网络识别模块502,用于将待识别语音输入至预设的网络识别模型,得到识别结果;其中,所述网络识别模型为通过样本数据对随机森林模型以及支持向量机模型进行预设数据训练得到的。
其中,网络识别模型的输入为待识别语音,而经过网络识别模型,可自动输出该待识别语音的网络类型识别结果;识别结果可以为具体的网络类型或其他形式的参数,网络类型可以是PSTN通话、蜂窝移动网络通话或VoIP通话。
网络识别模型为通过样本数据对随机森林模型以及支持向量机模型进行预设数据训练得到的,样本数据可以是来自于使用电信网的固定电话机、移动电话机和网络电话的人工拨打测试,采集样本中的语音数据,并分别记录这些语音数据的网络类型。
预设数据训练即机器学习,通过样本数据中的语音数据分别输入至由支持向量机模型以及随机森林模型构成的网络识别模型得到初始的识别结果,再用预先记录的语音数据的网络类型对网络识别模型进行反向优化;并将样本数据中下一篇语音数据迭代至优化后的模型,如此循环至迭代次数满足要求,得到网络识别模型。
将待识别语音输入至网络识别模型后,便可得到识别结果。
其中,支持向量机与随机森林都是以分类为基础的机器学习算法;具体地,支持向量机模型是一类按监督学习方式对数据进行二元分类的广义线性分类器;随机森林模型是一种由多个决策树分类器构成的集成学习模式。以随机森林进行分类为例,随机森林每棵决策树的建立依赖于一个独立抽取的样本,森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它们之间的相关性。单棵树的分类能力可能很小,但在随机产生大量的决策树后,分类能力必然增强,统计后选择最可能的分类。通过大量的分类、回归训练,最终得到准确率最高的一组权重数值,由该组权重数值构成网络识别模型,因此精确度也较高。
可选地,本发明上述实施例中,所述装置包括:
样本获取模块,用于获取样本数据;所述样本数据中包括至少两种网络类型的语音通话数据;
分类模块,用于将所述样本数据按照预设比例分成训练数据集以及测试数据集;
模型建立模块,用于通过所述训练数据集对随机森林模型以及支持向量机模型进行预设训练,得到初始识别模型;
测试模块,用于通过所述测试数据集对所述初始识别模型进行测试,得到满足预设精确度要求的网络识别模型。
可选地,本发明上述实施例中,所述模型建立模块包括:
提取子模块,用于分别对所述训练数据集中的每组所述训练数据进行特征提取,得到每组所述训练数据的综合特征的原始特征向量;
初始识别子模块,用于通过随机森林模型、支持向量机模型对所述原始特征向量进行分类,得到初始识别结果;
优化子模块,用于通过所述原始特征向量,以及所述训练数据的预设识别结果对所述随机森林模型、支持向量机模型进行反向优化,得到优化后的随机森林模型、支持向量机模型;
集成子模块,用于通过预设集成算法将所述优化后的随机森林模型、支持向量机模型进行集成,得到初始识别模型。
可选地,本发明上述实施例中,所述提取子模块用于:
将所述训练数据集中的训练数据转换为预设处理格式;
从转换后的所述训练数据中提取预设噪声信号;
提取每组所述训练数据的综合特征,所述综合特征参数包括提取自所述训练数据的第一预设特征以及提取自所述预设噪声信号的第二预设特征。
可选地,本发明上述实施例中,所述初始识别子模块用于:
通过支持向量机模型对所述综合特征的原始特征向量进行分类,得到第一初始识别结果;以及
通过随机森林模型对所述综合特征的原始特征向量进行筛选,得到第一预设数目个特征向量,并对所述特征向量进行分类,得到第二初始识别结果。
可选地,本发明上述实施例中,所述综合特征包括静态特征和/或动态特征;
所述静态特征包括时域特征、频域特征和/或倒谱域特征;
所述动态特征包括梅尔频率倒谱系数MFCCs的一阶差分参数特征和/或二阶差分参数特征。
可选地,本发明上述实施例中,所述模型建立模块用于:
通过所述初始识别结果、所述训练数据的预设分析结果分别对所述随机森林模型、支持向量机模型进行反向优化,得到优化后的模型;
将当前训练数据的下一组训练数据、所述组训练数据的预设分析结果迭代输入至所述优化后的模型,并进行反向优化,至迭代次数满足预设次数要求,得到网络识别模型。
本发明上述实施例中,通过语音获取模块501获取待识别语音,网络识别模块502将待识别语音输入至预设的网络识别模型,得到识别结果,将网络类型识别的过程自动化实现,效率较高,可有效降低人工成本;且网络识别通过机器学习的方式建立,满足精确度需求;预先通过大量样本数据建立网络识别模型,适用于VoIP通话。
另一方面,本发明实施例还提供了一种电子设备,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述网络类型识别方法中的步骤。
举个例子如下,当电子设备为服务器时,图6示例了一种服务器的实体结构示意图。
如图6所示,该服务器可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行如下方法:
获取待识别语音;
将待识别语音输入至预设的网络识别模型,得到识别结果;其中,所述网络识别模型为通过样本数据对随机森林模型以及支持向量机模型进行预设数据训练得到的。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
再一方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的网络类型识别方法,例如包括:获取待识别语音;将待识别语音输入至预设的网络识别模型,得到识别结果;其中,所述网络识别模型为通过样本数据对随机森林模型以及支持向量机模型进行预设数据训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种网络类型识别方法,其特征在于,所述方法包括:
获取待识别语音;
将待识别语音输入至预设的网络识别模型,得到识别结果;其中,所述网络识别模型为通过样本数据对随机森林模型以及支持向量机模型进行预设数据训练得到的;
所述方法还包括:
获取样本数据;所述样本数据中包括至少两种网络类型的语音通话数据;
将所述样本数据按照预设比例分成训练数据集以及测试数据集;
通过所述训练数据集对随机森林模型以及支持向量机模型进行预设训练,得到初始识别模型;
通过所述测试数据集对所述初始识别模型进行测试,得到满足预设精确度要求的网络识别模型;
所述通过所述训练数据集对随机森林模型以及支持向量机模型进行预设训练,得到初始识别模型的步骤,包括:
分别对所述训练数据集中的每组所述训练数据进行特征提取,得到每组所述训练数据的综合特征的原始特征向量;
通过随机森林模型、支持向量机模型对所述原始特征向量进行分类,得到初始识别结果;
通过所述初始识别结果,以及所述训练数据的预设识别结果对所述随机森林模型、支持向量机模型进行反向优化,得到优化后的随机森林模型、支持向量机模型;
通过预设集成算法将所述优化后的随机森林模型、支持向量机模型进行集成,得到初始识别模型;
所述对所述训练数据集中的每组所述训练数据进行特征提取的步骤,包括:
将所述训练数据集中的训练数据转换为预设处理格式;
从转换后的所述训练数据中提取预设噪声信号;
提取每组所述训练数据的综合特征,所述综合特征参数包括提取自所述训练数据的第一预设特征以及提取自所述预设噪声信号的第二预设特征。
2.根据权利要求1所述的网络类型识别方法,其特征在于,所述通过随机森林模型、支持向量机模型对所述原始特征向量进行分类,得到初始识别结果的步骤,包括:
通过支持向量机模型对所述综合特征的原始特征向量进行分类,得到第一初始识别结果;以及
通过随机森林模型对所述综合特征的原始特征向量进行筛选,得到第一预设数目个特征向量,并对所述特征向量进行分类,得到第二初始识别结果。
3.根据权利要求1所述的网络类型识别方法,其特征在于,所述综合特征包括静态特征和/或动态特征;
所述静态特征包括时域特征、频域特征和/或倒谱域特征;
所述动态特征包括梅尔频率倒谱系数MFCCs的一阶差分参数特征和/或二阶差分参数特征。
4.根据权利要求1所述的网络类型识别方法,其特征在于,所述通过所述初始识别结果,以及所述训练数据的预设识别结果对所述随机森林模型、支持向量机模型进行反向优化,得到优化后的随机森林模型、支持向量机模型的步骤,包括:
通过所述初始识别结果、所述训练数据的预设分析结果分别对所述随机森林模型、支持向量机模型进行反向优化,得到优化后的模型;
将当前训练数据的下一组训练数据、所述组训练数据的预设分析结果迭代输入至所述优化后的模型,并进行反向优化,至迭代次数满足预设次数要求。
5.一种网络类型识别装置,其特征在于,所述装置包括:
语音获取模块,用于获取待识别语音;
网络识别模块,用于将待识别语音输入至预设的网络识别模型,得到识别结果;其中,所述网络识别模型为通过样本数据对随机森林模型以及支持向量机模型进行预设数据训练得到的;
所述装置还用于:
获取样本数据;所述样本数据中包括至少两种网络类型的语音通话数据;
将所述样本数据按照预设比例分成训练数据集以及测试数据集;
通过所述训练数据集对随机森林模型以及支持向量机模型进行预设训练,得到初始识别模型;
通过所述测试数据集对所述初始识别模型进行测试,得到满足预设精确度要求的网络识别模型;
所述通过所述训练数据集对随机森林模型以及支持向量机模型进行预设训练,得到初始识别模型的步骤,包括:
分别对所述训练数据集中的每组所述训练数据进行特征提取,得到每组所述训练数据的综合特征的原始特征向量;
通过随机森林模型、支持向量机模型对所述原始特征向量进行分类,得到初始识别结果;
通过所述初始识别结果,以及所述训练数据的预设识别结果对所述随机森林模型、支持向量机模型进行反向优化,得到优化后的随机森林模型、支持向量机模型;
通过预设集成算法将所述优化后的随机森林模型、支持向量机模型进行集成,得到初始识别模型;
所述对所述训练数据集中的每组所述训练数据进行特征提取的步骤,包括:
将所述训练数据集中的训练数据转换为预设处理格式;
从转换后的所述训练数据中提取预设噪声信号;
提取每组所述训练数据的综合特征,所述综合特征参数包括提取自所述训练数据的第一预设特征以及提取自所述预设噪声信号的第二预设特征。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4中任一项所述的网络类型识别方法中的步骤。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求1至4中任一项所述的网络类型识别方法中的步骤。
CN201910419117.6A 2019-05-20 2019-05-20 网络类型识别方法及装置 Expired - Fee Related CN110111814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910419117.6A CN110111814B (zh) 2019-05-20 2019-05-20 网络类型识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910419117.6A CN110111814B (zh) 2019-05-20 2019-05-20 网络类型识别方法及装置

Publications (2)

Publication Number Publication Date
CN110111814A CN110111814A (zh) 2019-08-09
CN110111814B true CN110111814B (zh) 2021-09-21

Family

ID=67491199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910419117.6A Expired - Fee Related CN110111814B (zh) 2019-05-20 2019-05-20 网络类型识别方法及装置

Country Status (1)

Country Link
CN (1) CN110111814B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728993A (zh) * 2019-10-29 2020-01-24 维沃移动通信有限公司 一种变声识别方法及电子设备
CN111314489B (zh) * 2020-03-19 2022-04-01 腾讯科技(深圳)有限公司 识别接入网络类型方法、服务器及装置
CN111641599B (zh) * 2020-05-11 2022-04-15 国家计算机网络与信息安全管理中心 一种VoIP网络流量所属平台的识别方法
CN113037749B (zh) * 2021-03-08 2022-06-03 中国科学院信息工程研究所 一种c&c信道判别方法及系统
CN113689863B (zh) * 2021-09-24 2024-01-16 广东电网有限责任公司 一种声纹特征提取方法、装置、设备及存储介质
CN114049881A (zh) * 2021-11-23 2022-02-15 深圳依时货拉拉科技有限公司 语音性别识别方法、装置、存储介质和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110213508A1 (en) * 2010-02-26 2011-09-01 International Business Machines Corporation Optimizing power consumption by dynamic workload adjustment
CN105845143A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于支持向量机的说话人确认方法及其系统
CN107943865A (zh) * 2017-11-10 2018-04-20 阿基米德(上海)传媒有限公司 一种适用于多场景、多类型的音频分类标签方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018107128A1 (en) * 2016-12-09 2018-06-14 U2 Science Labs, Inc. Systems and methods for automating data science machine learning analytical workflows
US20180225391A1 (en) * 2017-02-06 2018-08-09 Neural Algorithms Ltd. System and method for automatic data modelling
CN107038256B (zh) * 2017-05-05 2018-06-29 平安科技(深圳)有限公司 基于数据源的业务定制装置、方法及计算机可读存储介质
CN108650194B (zh) * 2018-05-14 2022-03-25 南开大学 基于K_means和KNN融合算法的网络流量分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110213508A1 (en) * 2010-02-26 2011-09-01 International Business Machines Corporation Optimizing power consumption by dynamic workload adjustment
CN105845143A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于支持向量机的说话人确认方法及其系统
CN107943865A (zh) * 2017-11-10 2018-04-20 阿基米德(上海)传媒有限公司 一种适用于多场景、多类型的音频分类标签方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于大数据的VoIP音频溯源方法的研究与实现;王一平;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181115(第11期);18,24-32 *

Also Published As

Publication number Publication date
CN110111814A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110111814B (zh) 网络类型识别方法及装置
JP6668501B2 (ja) 音声データ処理方法、装置及び記憶媒体
US10552457B2 (en) System and method for fingerprinting datasets
CN108833720B (zh) 诈骗电话号码识别方法与系统
US11605394B2 (en) Speech signal cascade processing method, terminal, and computer-readable storage medium
CN104766608A (zh) 一种语音控制方法及装置
CN109065051B (zh) 一种语音识别处理方法及装置
CN111128241A (zh) 语音通话的智能质检方法及系统
EP3059731A1 (en) Method and apparatus for automatically sending multimedia file, mobile terminal, and storage medium
CN110232919A (zh) 实时语音流提取与语音识别系统及方法
CN110782901B (zh) 一种识别网络电话语音的方法、存储介质及装置
CN110556114A (zh) 基于注意力机制的通话人识别方法及装置
CN110784603A (zh) 一种离线质检用智能语音分析方法及系统
CN116110373B (zh) 智能会议系统的语音数据采集方法及相关装置
CN110868732A (zh) VoLTE接通无线失败的问题定位方法、系统和设备
CN111833897B (zh) 一种用于交互式教育的语音增强方法
Mello et al. Reference-free speech quality assessment for mobile phones based on audio perception
US20230386484A1 (en) Methods and apparatus for generating and/or using communications media fingerprints
CN116403602A (zh) 一种针对语音合成垃圾电话的检测识别方法及装置
CN118018649A (zh) 基于人工智能的外呼效率提升方法、系统及存储介质
CN116962572A (zh) 一种通过mrcp对接检查回铃音声纹的方法
CN116013342A (zh) 针对音视频通话的数据处理方法、装置、电子设备及介质
CN111081264A (zh) 一种语音信号处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210921

CF01 Termination of patent right due to non-payment of annual fee