CN110728993A - 一种变声识别方法及电子设备 - Google Patents

一种变声识别方法及电子设备 Download PDF

Info

Publication number
CN110728993A
CN110728993A CN201911040454.0A CN201911040454A CN110728993A CN 110728993 A CN110728993 A CN 110728993A CN 201911040454 A CN201911040454 A CN 201911040454A CN 110728993 A CN110728993 A CN 110728993A
Authority
CN
China
Prior art keywords
sound
sound signal
training
signal sequence
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911040454.0A
Other languages
English (en)
Inventor
盛玉娇
程慧莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN201911040454.0A priority Critical patent/CN110728993A/zh
Publication of CN110728993A publication Critical patent/CN110728993A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明实施例提供了一种变声识别方法及电子设备。所述方法包括:获取目标声音数据;对所述目标声音数据进行预处理,得到声音信号序列,所述声音信号序列包括至少两个声音信号以及每个所述声音信号的特征值,所述特征值至少包括基音以及共振峰;将所述声音信号序列输入至预设的变声识别模型,输出识别结果,所述识别结果用于指示所述目标声音数据是否经过变声处理。本发明实施例实现了对目标声音数据进行变声识别,避免变声功能被应用于非正常场景中导致不良后果。

Description

一种变声识别方法及电子设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种变声识别方法及电子设备。
背景技术
随着计算机技术的迅速发展,各种电子设备已成为人们生活中各方面不可或缺的工具。电子设备的各种应用程序(Application,APP)的功能也逐渐完善,为用户提供各种智能化服务,给用户工作、生活带来了极大的便利。
目前,一些APP提供变声功能,通过变声功能实现声音变化已经变成了一种常见的娱乐形式,比如在一些游戏、娱乐类APP中,可提供多种变声音效,其变声效果逼真,人耳难以判断是否经过变声处理。然而,由于其效果逼真,变声功能容易被用于非正常场景中,因此,如何对声源进行变声识别,显得尤为重要。
发明内容
本发明实施例提供一种变声识别方法及电子设备,以解决如何对声源进行变声识别的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种变声识别方法,所述方法包括:
获取目标声音数据;
对所述目标声音数据进行预处理,得到声音信号序列,所述声音信号序列包括至少两个声音信号以及每个所述声音信号的特征值,所述特征值至少包括基音以及共振峰;
将所述声音信号序列输入至预设的变声识别模型,输出识别结果,所述识别结果用于指示所述目标声音数据是否经过变声处理。
第二方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
声音获取模块,用于获取目标声音数据;
预处理模块,用于对所述目标声音数据进行预处理,得到声音信号序列,所述声音信号序列包括至少两个声音信号以及每个所述声音信号的特征值,所述特征值至少包括基音以及共振峰;
识别模块,用于将所述声音信号序列输入至预设的变声识别模型,输出识别结果,所述识别结果用于指示所述目标声音数据是否经过变声处理。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的变声识别方法中的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的变声识别方法中的步骤。
在本发明实施例中,通过获取待识别的目标声音数据;然后对所述目标声音数据进行预处理,得到所述目标声音数据的声音信号序列;最后将所述声音信号序列输入至预设的变声识别模型,得出所述目标声音数据是否经过变声处理的识别结果,实现对目标声音数据进行变声识别,避免变声功能被应用于非正常场景中导致不良后果;且变声识别模型为经过机器学习得到的,其判别精确度度较高。
附图说明
图1表示本发明实施例提供的变声识别方法的流程图之一;
图2表示本发明实施例提供的变声识别方法的流程图之一;
图3表示本发明实施例的第一示例的流程图;
图4表示本发明实施例的第一示例的示意图;
图5表示本发明的实施例提供的电子设备的框图之一;
图6表示本发明的实施例提供的电子设备的框图之二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
参见图1,本发明一实施例提供了一种变声识别方法,所述方法包括:
步骤101,获取目标声音数据。
其中,目标声音数据即待识别的声音数据,其中包括生物声音,生物声音即人声和/或动物声音。
可选地,目标声音数据可以是已经录制完成的声音数据,也可以是实时录制的声音数据。
步骤102,对所述目标声音数据进行预处理,得到声音信号序列,所述声音信号序列包括至少两个声音信号以及每个所述声音信号的特征值;所述特征值至少包括基音以及共振峰。
其中,对目标声音数据进行预处理,首先将目标声音数据切片,切割成多段声音;然后分别对每段声音逐段进行处理,提取每段声音的多个声音信号,声音信号即数字信号,并进一步提取每个声音信号的特征值,得到声音信号序列。
所述特征值至少包括基音以及共振峰。
具体地,基音是指发浊音时声带振动的周期;生物体在发音时,气流通过声门使声带产生张弛振荡式振动,同时产生一股准周期脉冲气流,这一气流激励声道就产生浊音,即有声语音,其携带着语音中的大部分能量。这种声带振动的频率称为基频,相应的周期就称为基音周期,基音周期由声带逐渐开启到面积最大(约占基音周期的50%)、逐渐关闭到完全闭合(约占基音周期的35%)、完全闭合(约占基音周期的15%)三部分组成。发音体整体振动产生的音为基音,部分振动产生的音为泛音。
共振峰即谐振峰,是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且是反映声道(共振腔)的物理特征的重要参数,其代表了声音的最直接的来源;并且,生物的语音感知中主要利用共振峰信息。
步骤103,将所述声音信号序列输入至预设的变声识别模型,输出识别结果,所述识别结果用于指示所述目标声音数据是否经过变声处理。
其中,将声音信号序列输入至预设的变声识别模型,使变声识别模型根据每个声音信号的特征值,判断该声音信号是否经过变声处理,得到针对该声音信号的判别结果;得到声音信号序列中每个声音信号的判别结果之后,变声识别模型将所有的判别结果进行统计,得到最终的识别结果。
具体地,所述变声识别模型为经过机器学习得到的;可选地,机器学习的过程中,可以以随机森林、卷积神经网络或支持向量机(Support Vector Machine,SVM)等形式训练所述变声识别模型,所训练出的变声识别模型可对目标声音数据是否经过变声处理进行分类,分类结果可达到所训练过程中的精度要求。
以支持向量机与随机森林为例,二者都是以分类为基础的机器学习算法;支持向量机模型是一类按监督学习方式对数据进行二元分类的广义线性分类器;随机森林模型是一种由多个决策树分类器构成的集成学习模式。进一步地,以随机森林进行分类为例,随机森林每棵决策树的建立依赖于一个独立抽取的样本,森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它们之间的相关性。单棵树的分类能力可能很小,但在随机产生大量的决策树后,分类能力必然增强,统计后选择最可能的分类。通过大量的分类、回归训练,最终得到准确率最高的一组权重数值,由该组权重数值构成变声识别模型,因此变声识别模型的精确度也较高。
将目标声音数据的每段声音信号序列输入至预设的变声识别模型,得出所述目标声音数据是否经过变声处理的识别结果,实现对目标声音数据是否经过变声处理进行识别。
本发明上述实施例中,获取待识别的目标声音数据;然后对所述目标声音数据进行预处理,得到所述目标声音数据的声音信号序列;最后将所述声音信号序列输入至预设的变声识别模型,得出所述目标声音数据是否经过变声处理的识别结果,实现对目标声音数据进行变声识别,避免变声功能被应用于非正常场景中导致不良后果;且变声识别模型为经过机器学习得到的,其判别精确度度较高。
可选地,本发明实施例中,所述对所述目标声音数据进行预处理的步骤,包括:
对所述目标声音数据进行采样处理,得到至少两个所述声音信号;
对每个所述声音信号,分别进行基音提取和共振峰提取,得到每个所述声音信号的特征值。
其中,对目标声音数据进行预处理,首先将目标声音数据切片,切割成多段声音;然后分别对每段声音逐段进行处理:
首先对所述目标声音数据进行采样处理,提取每段声音的多个声音信号,声音信号即数字信号,并进一步提取每个声音信号的特征值,所述特征值至少包括基音以及共振峰。
提取特征值的过程包括基音提取和共振峰提取;具体地,基音提取的过程中可通过自相关函数法(Autocorrelation Function,ACF)或平均幅度差函数(AverageMagnitude Difference Function,AMDF)提取基音周期。以自相关函数为例,自相关函数提供了一种获取周期信号周期的方法。在周期信号周期的整数倍位置上,它的自相关函数可以达到最大值,因此可以不考虑起始时间,而从自相关函数的第一个最大值的位置估计出信号的基音周期。浊音信号的自相关函数在基因周期的整数倍位置上出现峰值,而清音的自相关函数没有明显峰值。因而检测是否有峰值就可以判断是清音还是浊音,检测峰值位置就可提取基音周期。
共振峰提取的过程中,主要依据目标声音的频谱包络;通常情况下,频谱包络中的最大值即共振峰。共振峰提取的算法可以是基于线性预测(Linear PredictionCoefficient,LPC)的共振峰求取方法或倒谱法。LPC从线性预测分析角度推导出声道滤波器,然后根据这个声道滤波器找出共振峰;倒谱法主要是构造倒谱滤波器,由于声道响应的倒谱衰减很快,在[-25,25]之外的值相当小,因此可以构造一个相应的倒谱滤波器,将声道的倒谱分离,对分离出来的倒谱做相应的反变换,就可以得到声道函数的对数功率谱;通过对数功率谱的逆傅里叶变换,分离频谱包络和细微结构,精确地得到共振峰信息。
参见图2,本发明一实施例提供了一种变声识别方法,所述方法包括:
步骤201,获取训练集合中的训练样本,所述训练样本中包括至少两个训练声音信号、每个所述训练声音信号的特征值以及所述训练样本的已知识别结果。
其中,预设训练集合中包括预设数目的训练样本;每个训练样本中包括至少两个训练声音信号,具体地,首先每个训练样本经过切片处理,切割成多段子声音段,且然后分别对每段声音逐段进行采样处理,提取每段声音的多个训练声音信号,并进一步提取每个声音信号的特征值。
优选地,每段子声音段经采样处理后保留的训练声音信号数目与所述声音信号序列中的声音信号数目一致,或相差数据在一预设误差范围内;即在对目标声音数据采样时,参考训练声音信号数目进行采样,使得所训练的变声识别模型的识别结果精确度更高。
训练样本中每个所述训练声音信号的特征值、已知识别结果;特征值即基音以及谐振峰;已知识别结果即该训练样本是否经过变声处理。
步骤202,根据所述训练样本,训练变声识别模型。
其中,根据所述训练样本,训练满足精确度要求的变声识别模型;可选地,可以以随机森林、卷积神经网络或支持向量机等形式训练所述变声识别模型,所训练出的变声识别模型可对目标声音数据是否经过变声处理进行分类,分类结果可达到所训练过程中的精度要求。
步骤203,获取待识别的目标声音数据。
其中,目标声音数据即待识别的声音数据,其中包括生物声音,生物声音即人声和/或动物声音。
可选地,目标声音数据可以是已经录制完成的声音数据,也可以是实时录制的声音数据。
步骤204,对所述目标声音数据进行预处理,得到声音信号序列,所述声音信号序列包括至少两个声音信号以及每个所述声音信号的特征值;所述特征值至少包括基音以及共振峰。
其中,对目标声音数据进行预处理,首先将目标声音数据切片,切割成多段声音;然后分别对每段声音逐段进行处理,提取每段声音的多个声音信号,声音信号即数字信号,并进一步提取每个声音信号的特征值,得到声音信号序列。
所述特征值至少包括基音以及共振峰。
步骤205,将所述声音信号序列输入至预设的变声识别模型,输出识别结果;所述识别结果用于指示所述目标声音数据是否经过变声处理。
其中,将声音信号序列输入至预设的变声识别模型,使变声识别模型根据每个声音信号的特征值,判断该声音信号是否经过变声处理,得到针对该声音信号的判别结果;得到声音信号序列中每个声音信号的判别结果之后,变声识别模型将所有的判别结果进行统计,得到最终的识别结果。
可选地,本发明实施例中,步骤202包括:
第一步,将所述训练集合中的第一训练样本的每个训练声音信号的特征值分别输入至初始识别模型,得到初始识别结果;
第二步,通过所述已知识别结果和初始识别结果,对初始识别模型进行反向优化,得到优化后的模型;
第三步,将所述训练集合中的第二训练样本的每个训练声音信号特征值迭代至所述优化后的模型,至所述优化后的模型的损失函数的损失值降低至预设损失阈值,得到变声识别模型。
其中,第一步中首先选取第一训练样本中,将其每个训练声音信号的特征值输入至初始识别模型,得到初始识别结果;第二步中,每输入一组特征值,得到一个初始识别结果,根据已知识别结果和初始识别结果质检的差异对当前的识别模型优化一次,得到优化后的模型。
完成第一训练样本的训练及优化后,执行第三步,选择下一篇样本继续进行优化,即第二训练样本,循环执行上述第一步以及第二步,至损失函数的损失值降低至预设损失阈值,得到变声识别模型。
可选地,本发明实施例中,所述输出识别结果之后,所述方法包括:
在所述识别结果指示所述目标声音数据经过变声处理的情况下,将所述声音信号序列输入至预设的声音还原模型,输出原始声音信号序列。
其中,若目标声音数据经过变声处理,则将声音信号序列输入至预设的声音还原模型,对其进行还原;且所述声音还原模型为经过机器学习得到的,此时机器学习的训练样本为经过变声处理的变声声音信号,变声声音信号的特征值,变声声音信号对应的未经过变声处理的原始声音信号;训练过程与上述第一步至第三步相同,本发明实施例在此不再赘述。
其中,为了输出的原始声音信号的质量更好,可以通过一些声音处理(去噪,增强等等)方法提升得到的原始声音信号的质量。
可选地,本发明实施例中,所述输出原始声音信号序列之后,所述方法包括:
对所述原始声音信号序列进行声纹识别,提取原始声音信号序列的声纹信息;
若所述声纹信息为目标声纹信息,发出提示信息。
其中,得到所述原始声音信号序列后,提取声音信号的声纹信息,进行声纹识别;可选地,可对一些等特殊人群的声纹进行存档,建立声纹数据库,将所提取的声纹信息与声纹数据库中的样本进行匹配,以筛选特殊人群。
此外,还可通过自然语言分析技术,对声音进行文字识别,对识别结果中的特殊的关键字进行识别,以实现对声音内容进行分析。
这样,通过声纹匹配、关键字匹配,得到对原始声音信号序列的分析结果,若分析结果中指示声纹为特殊人群,且关键字包括特殊关键字,可发出提示信息。
作为第一示例,参见图3,图3示出了一变声识别方法的主要过程,包括以下步骤:
步骤301、获取用于训练模型的声音信号。
步骤302、对声音信号进行预处理,并训练变声识别模型。
对声音信号进行切片,得到多段声音信号[a1,a2,a3,……,am],对每段信号进行音频采样将声音信号转化为数字信号序列[x1,x2,x3,……,xn];
提取每个xi声音信号的基音bi和谐振峰hi,经过变声处理之后的信号在基音和谐振峰数据变化的规律会产生明显的变化,结合当前声音数据,构建声音特征(xi,bi,hi);
根据上述数据,进行机器学习,得到一个变声识别模型。
具体地,以卷积神经网络为例,机器学习的过程中,获取经过变声处理声音信号和没有进行过变声处理的声音信号。变声处理信号可以直接获取,也可以通过各种变声软件把未经行变声处理信号进行变声处理得到。
对进行过变声的声音X1打标为正样本Y1,未进行过声音处理声音X2的作为负样本Y2,把数据送入到M层的卷积神经网络训练,每一层神经网络可以看作一个函数,经过M层网络之后,得到预测结果为∑fi(X),将输出结果与打标的结果进行对比,反向传播迭代训练,拟合∑fi(X)=Y,最终得变声识别模型。
步骤303,将待识别的目标声音数据输入至变声识别模型。
目标声音数据声音信号经过与步骤302中相同的采样、数字化提取特征过程,然后经过变声识别模型计算得到一个概率值,概率值大小表示是否有变声的可能性。
步骤304,若识别结果指示所述目标声音数据经过变声处理,则将其还原为原始声音信号。
本步骤通过训练一个声音还原模型,把经过变声的声音信号进行还原处理,得到声音信号的原始状态。
本步骤中,模型训练的步骤,包括:
收集成对的原声信号Y及其对应的变声信号X;原声信号Y和变声信号X可以通过现有的变声软件获得,或者直接搜集得到。
变声过程可以看成X=F(Y);F为变声处理函数;由于变声处理的方法有多种,因此F可以为不定函数。
而还原过程为:Y=F-1(X),F-1为F的逆操作。
如图4所示,F(Y)和F-1(X),由多层卷积网络组成,通过这种反变化就可以得到未变声的原始声音信号。训练一个重建网络就是去拟合F-1的过程。
并且,本步骤通过训练一个声音还原模型,把Y作为输入,而X作为Ground truth信息,计算损失函数loss;
其中,loss=∑i F-1(F(Yi))-Xi;
通过反向优化,不断迭代,使得loss最小化,得到声音还原模型。
步骤305,输出还原后的原始声音信号序列。
本发明上述实施例中,获取训练集合中的训练样本,根据所述训练样本,训练变声识别模型;然后获取待识别的目标声音数据,对所述目标声音数据进行预处理,得到所述目标声音数据的声音信号序列;最后将所述声音信号序列输入至预设的变声识别模型,得出所述目标声音数据是否经过变声处理的识别结果,实现对目标声音数据进行变声识别,避免变声功能被应用于非正常场景中导致不良后果;且变声识别模型为经过机器学习得到的,其判别精确度度较高。
以上介绍了本发明实施例提供的变声识别方法,下面将结合附图介绍本发明实施例提供的电子设备。
参见图5,本发明实施例还提供了一种电子设备500,包括:
声音获取模块501,用于获取目标声音数据。
其中,目标声音数据即待识别的声音数据,其中包括生物声音,生物声音即人声和/或动物声音。
可选地,目标声音数据可以是已经录制完成的声音数据,也可以是实时录制的声音数据。
预处理模块502,用于对所述目标声音数据进行预处理,得到声音信号序列,所述声音信号序列包括至少两个声音信号以及每个所述声音信号的特征值,所述特征值至少包括基音以及共振峰。
其中,对目标声音数据进行预处理,首先将目标声音数据切片,切割成多段声音;然后分别对每段声音逐段进行处理,提取每段声音的多个声音信号,声音信号即数字信号,并进一步提取每个声音信号的特征值,得到声音信号序列。
所述特征值至少包括基音以及共振峰。
具体地,基音是指发浊音时声带振动的周期;生物体在发音时,气流通过声门使声带产生张弛振荡式振动,同时产生一股准周期脉冲气流,这一气流激励声道就产生浊音,即有声语音,其携带着语音中的大部分能量。这种声带振动的频率称为基频,相应的周期就称为基音周期,基音周期由声带逐渐开启到面积最大(约占基音周期的50%)、逐渐关闭到完全闭合(约占基音周期的35%)、完全闭合(约占基音周期的15%)三部分组成。发音体整体振动产生的音为基音,部分振动产生的音为泛音。
共振峰即谐振峰,是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且是反映声道(共振腔)的物理特征的重要参数,其代表了声音的最直接的来源;并且,生物的语音感知中主要利用共振峰信息。
识别模块503,用于将所述声音信号序列输入至预设的变声识别模型,输出识别结果,所述识别结果用于指示所述目标声音数据是否经过变声处理。
其中,将声音信号序列输入至预设的变声识别模型,使变声识别模型根据每个声音信号的特征值,判断该声音信号是否经过变声处理,得到针对该声音信号的判别结果;得到声音信号序列中每个声音信号的判别结果之后,变声识别模型将所有的判别结果进行统计,得到最终的识别结果。
具体地,所述变声识别模型为经过机器学习得到的;可选地,机器学习的过程中,可以以随机森林、卷积神经网络或支持向量机(Support Vector Machine,SVM)等形式训练所述变声识别模型,所训练出的变声识别模型可对目标声音数据是否经过变声处理进行分类,分类结果可达到所训练过程中的精度要求。
将目标声音数据的每段声音信号序列输入至预设的变声识别模型,得出所述目标声音数据是否经过变声处理的识别结果,实现对目标声音数据是否经过变声处理进行识别。
可选地,本发明实施例中,所述预处理模块502包括:
采样子模块,用于对所述目标声音数据进行采样处理,得到至少两个所述声音信号;
提取子模块,用于对每个所述声音信号,分别进行基音提取和共振峰提取,得到每个所述声音信号的特征值。
可选地,本发明实施例中,所述电子设备500包括:
样本获取模块,用于获取训练集合中的训练样本,所述训练样本中包括至少两个训练声音信号、每个所述训练声音信号的特征值以及所述训练样本的已知识别结果;
模型训练模块,用于根据所述训练样本,训练变声识别模型。
可选地,本发明实施例中,所述模型训练模块包括:
输入子模块,用于将所述训练集合中的第一训练样本的每个训练声音信号的特征值分别输入至初始识别模型,得到初始识别结果;
优化子模块,用于通过所述已知识别结果和初始识别结果,对初始识别模型进行反向优化,得到优化后的模型;
迭代子模块,用于将所述训练集合中的第二训练样本的每个训练声音信号特征值迭代至所述优化后的模型,至所述优化后的模型的损失函数的损失值降低至预设损失阈值,得到变声识别模型。
可选地,本发明实施例中,所述电子设备500包括:
声音还原模块,用于在所述识别结果指示所述目标声音数据经过变声处理的情况下,将所述声音信号序列输入至预设的声音还原模型,输出原始声音信号序列。
可选地,本发明实施例中,所述电子设备500包括:
声纹识别模块,用于对所述原始声音信号序列进行声纹识别,提取原始声音信号序列的声纹信息;
若所述声纹信息为目标声纹信息,发出提示信息。
本发明实施例提供的电子设备500能够实现图1至图5的方法实施例中电子设备500实现的各个过程,为避免重复,这里不再赘述。
本发明的实施例中,声音获取模块501获取待识别的目标声音数据;预处理模块502对所述目标声音数据进行预处理,得到所述目标声音数据的声音信号序列;识别模块503将所述声音信号序列输入至预设的变声识别模型,得出所述目标声音数据是否经过变声处理的识别结果,实现对目标声音数据进行变声识别,避免变声功能被应用于非正常场景中导致不良后果;且变声识别模型为经过机器学习得到的,其判别精确度度较高。
图6为实现本发明各个实施例的一种电子设备的硬件结构示意图;
该电子设备600包括但不限于:射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解,图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
其中,处理器610,用于获取目标声音数据;
对所述目标声音数据进行预处理,得到声音信号序列,所述声音信号序列包括至少两个声音信号以及每个所述声音信号的特征值,所述特征值至少包括基音以及共振峰;
将所述声音信号序列输入至预设的变声识别模型,输出识别结果,所述识别结果用于指示所述目标声音数据是否经过变声处理。
本发明的实施例中,获取待识别的目标声音数据;然后对所述目标声音数据进行预处理,得到所述目标声音数据的声音信号序列;最后将所述声音信号序列输入至预设的变声识别模型,得出所述目标声音数据是否经过变声处理的识别结果,实现对目标声音数据进行变声识别,避免变声功能被应用于非正常场景中导致不良后果;且变声识别模型为经过机器学习得到的,其判别精确度度较高。
需要说明的是,本实施例中上述电子设备600可以实现本发明实施例中方法实施例中的各个过程,以及达到相同的有益效果,为避免重复,此处不再赘述。
应理解的是,本发明实施例中,射频单元601可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器610处理;另外,将上行的数据发送给基站。通常,射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元601还可以通过无线通信系统与网络和其他设备通信。
电子设备通过网络模块602为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元603还可以提供与电子设备600执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。
输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(Graphics Processing Unit,GPU)6041和麦克风6042,图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元606上。经图形处理器6041处理后的图像帧可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6042可以接收声音,并且能够将这样的预处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。
电子设备600还包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度,接近传感器可在电子设备600移动到耳边时,关闭显示面板6061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元606用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板6061。
用户输入单元607可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器610,接收处理器610发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071,用户输入单元607还可以包括其他输入设备6072。具体地,其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板6071可覆盖在显示面板6061上,当触控面板6071检测到在其上或附近的触摸操作后,传送给处理器610以确定触摸事件的类型,随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图6中,触控面板6071与显示面板6061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板6071与显示面板6061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元608为外部装置与电子设备600连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元608可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备600内的一个或多个元件或者可以用于在电子设备600和外部装置之间传输数据。
存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器609可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器610是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器609内的软件程序和/或模块,以及调用存储在存储器609内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器610可包括一个或多个处理单元;优选的,处理器610可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器610中。
电子设备600还可以包括给各个部件供电的电源611(比如电池),优选的,电源611可以通过电源管理系统与处理器610逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备600包括一些未示出的功能模块,在此不再赘述。
优选的,本发明实施例还提供一种电子设备,包括处理器610,存储器609,存储在存储器609上并可在所述处理器610上运行的计算机程序,该计算机程序被处理器610执行时实现上述变声识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述变声识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种变声识别方法,其特征在于,所述方法包括:
获取目标声音数据;
对所述目标声音数据进行预处理,得到声音信号序列,所述声音信号序列包括至少两个声音信号以及每个所述声音信号的特征值,所述特征值至少包括基音以及共振峰;
将所述声音信号序列输入至预设的变声识别模型,输出识别结果,所述识别结果用于指示所述目标声音数据是否经过变声处理。
2.根据权利要求1所述的变声识别方法,其特征在于,所述对所述目标声音数据进行预处理,包括:
对所述目标声音数据进行采样处理,得到至少两个所述声音信号;
对每个所述声音信号,分别进行基音提取和共振峰提取,得到每个所述声音信号的特征值。
3.根据权利要求1所述的变声识别方法,其特征在于,所述获取目标声音数据之前,所述方法包括:
获取训练集合中的训练样本,所述训练样本中包括至少两个训练声音信号、每个所述训练声音信号的特征值以及所述训练样本的已知识别结果;
根据所述训练样本,训练变声识别模型。
4.根据权利要求3所述的变声识别方法,其特征在于,所述根据所述训练样本,训练变声识别模型,包括:
将所述训练集合中的第一训练样本的每个训练声音信号的特征值分别输入至初始识别模型,得到初始识别结果;
通过所述已知识别结果和初始识别结果,对初始识别模型进行反向优化,得到优化后的模型;
将所述训练集合中的第二训练样本的每个训练声音信号特征值迭代至所述优化后的模型,至所述优化后的模型的损失函数的损失值降低至预设损失阈值,得到变声识别模型。
5.根据权利要求1所述的变声识别方法,其特征在于,所述输出识别结果之后,所述方法包括:
在所述识别结果指示所述目标声音数据经过变声处理的情况下,将所述声音信号序列输入至预设的声音还原模型,输出原始声音信号序列。
6.根据权利要求5所述的变声识别方法,其特征在于,所述输出原始声音信号序列之后,所述方法包括:
对所述原始声音信号序列进行声纹识别,提取原始声音信号序列的声纹信息;
若所述声纹信息为目标声纹信息,发出提示信息。
7.一种电子设备,其特征在于,包括:
声音获取模块,用于获取目标声音数据;
预处理模块,用于对所述目标声音数据进行预处理,得到声音信号序列,所述声音信号序列包括至少两个声音信号以及每个所述声音信号的特征值,所述特征值至少包括基音以及共振峰;
识别模块,用于将所述声音信号序列输入至预设的变声识别模型,输出识别结果,所述识别结果用于指示所述目标声音数据是否经过变声处理。
8.根据权利要求7所述的电子设备,其特征在于,所述预处理模块包括:
采样子模块,用于对所述目标声音数据进行采样处理,得到至少两个所述声音信号;
提取子模块,用于对每个所述声音信号,分别进行基音提取和共振峰提取,得到每个所述声音信号的特征值。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的变声识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的变声识别方法的步骤。
CN201911040454.0A 2019-10-29 2019-10-29 一种变声识别方法及电子设备 Pending CN110728993A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911040454.0A CN110728993A (zh) 2019-10-29 2019-10-29 一种变声识别方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911040454.0A CN110728993A (zh) 2019-10-29 2019-10-29 一种变声识别方法及电子设备

Publications (1)

Publication Number Publication Date
CN110728993A true CN110728993A (zh) 2020-01-24

Family

ID=69223402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911040454.0A Pending CN110728993A (zh) 2019-10-29 2019-10-29 一种变声识别方法及电子设备

Country Status (1)

Country Link
CN (1) CN110728993A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310836A (zh) * 2020-02-20 2020-06-19 浙江工业大学 一种基于声谱图的声纹识别集成模型的防御方法及防御装置
CN111739546A (zh) * 2020-07-24 2020-10-02 深圳市声扬科技有限公司 变声语音还原方法、装置、计算机设备和存储介质
CN112053699A (zh) * 2020-09-18 2020-12-08 网易(杭州)网络有限公司 一种游戏卡牌变声的处理方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567428A (zh) * 2003-06-19 2005-01-19 北京中科信利技术有限公司 一种基于数字信号处理的语音变声方法
CN105304092A (zh) * 2015-09-18 2016-02-03 深圳市海派通讯科技有限公司 一种基于智能终端的实时变声方法
US20160117684A1 (en) * 2005-06-24 2016-04-28 Iii Holdings 1, Llc Evaluation of voice communications
CN106571135A (zh) * 2016-10-27 2017-04-19 苏州大学 一种耳语音特征提取方法及系统
CN106797521A (zh) * 2014-09-19 2017-05-31 耳蜗有限公司 基于音频的控制信号表征来配置听力假体声音处理器
CN108198574A (zh) * 2017-12-29 2018-06-22 科大讯飞股份有限公司 变声检测方法及装置
CN108492832A (zh) * 2018-03-21 2018-09-04 北京理工大学 基于小波变换的高质量声音变换方法
CN109215680A (zh) * 2018-08-16 2019-01-15 公安部第三研究所 一种基于卷积神经网络的语音还原方法
CN109410971A (zh) * 2018-11-13 2019-03-01 无锡冰河计算机科技发展有限公司 一种美化声音的方法和装置
CN110111814A (zh) * 2019-05-20 2019-08-09 国家计算机网络与信息安全管理中心 网络类型识别方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567428A (zh) * 2003-06-19 2005-01-19 北京中科信利技术有限公司 一种基于数字信号处理的语音变声方法
US20160117684A1 (en) * 2005-06-24 2016-04-28 Iii Holdings 1, Llc Evaluation of voice communications
CN106797521A (zh) * 2014-09-19 2017-05-31 耳蜗有限公司 基于音频的控制信号表征来配置听力假体声音处理器
CN105304092A (zh) * 2015-09-18 2016-02-03 深圳市海派通讯科技有限公司 一种基于智能终端的实时变声方法
CN106571135A (zh) * 2016-10-27 2017-04-19 苏州大学 一种耳语音特征提取方法及系统
CN108198574A (zh) * 2017-12-29 2018-06-22 科大讯飞股份有限公司 变声检测方法及装置
CN108492832A (zh) * 2018-03-21 2018-09-04 北京理工大学 基于小波变换的高质量声音变换方法
CN109215680A (zh) * 2018-08-16 2019-01-15 公安部第三研究所 一种基于卷积神经网络的语音还原方法
CN109410971A (zh) * 2018-11-13 2019-03-01 无锡冰河计算机科技发展有限公司 一种美化声音的方法和装置
CN110111814A (zh) * 2019-05-20 2019-08-09 国家计算机网络与信息安全管理中心 网络类型识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张向荣等: "《人工智能前沿技术丛书 模式识别》", 30 September 2019, 西安电子科技大学出版社 *
王永全等: "基于DC-CNN的电子伪装语音还原研究", 《计算机科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310836A (zh) * 2020-02-20 2020-06-19 浙江工业大学 一种基于声谱图的声纹识别集成模型的防御方法及防御装置
CN111310836B (zh) * 2020-02-20 2023-08-18 浙江工业大学 一种基于声谱图的声纹识别集成模型的防御方法及防御装置
CN111739546A (zh) * 2020-07-24 2020-10-02 深圳市声扬科技有限公司 变声语音还原方法、装置、计算机设备和存储介质
CN112053699A (zh) * 2020-09-18 2020-12-08 网易(杭州)网络有限公司 一种游戏卡牌变声的处理方法及装置

Similar Documents

Publication Publication Date Title
CN110853618B (zh) 一种语种识别的方法、模型训练的方法、装置及设备
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN110838286B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN109558512B (zh) 一种基于音频的个性化推荐方法、装置和移动终端
CN110853617B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
US11854550B2 (en) Determining input for speech processing engine
CN110570873B (zh) 声纹唤醒方法、装置、计算机设备以及存储介质
CN110097875B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN110428806B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN110223711B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN109885162B (zh) 振动方法及移动终端
CN112735388B (zh) 网络模型训练方法、语音识别处理方法及相关设备
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
CN110111776A (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN113421547A (zh) 一种语音处理方法及相关设备
CN110728993A (zh) 一种变声识别方法及电子设备
CN113192537B (zh) 唤醒程度识别模型训练方法及语音唤醒程度获取方法
CN109064720B (zh) 位置提示方法、装置、存储介质及电子设备
CN108989551B (zh) 位置提示方法、装置、存储介质及电子设备
CN116978359A (zh) 音素识别方法、装置、电子设备及存储介质
CN112259077B (zh) 语音识别方法、装置、终端和存储介质
WO2021147417A1 (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
CN113870862A (zh) 声纹识别模型训练方法、声纹识别方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200124

WD01 Invention patent application deemed withdrawn after publication