CN114333802B - 语音处理方法、装置、电子设备及计算机可读存储介质 - Google Patents
语音处理方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114333802B CN114333802B CN202210002981.8A CN202210002981A CN114333802B CN 114333802 B CN114333802 B CN 114333802B CN 202210002981 A CN202210002981 A CN 202210002981A CN 114333802 B CN114333802 B CN 114333802B
- Authority
- CN
- China
- Prior art keywords
- voice
- segment
- target
- feature
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例提供了一种语音处理方法、装置、电子设备及计算机可读存储介质,涉及人工智能、多媒体、游戏及云技术领域。该方法包括:获取应用场景中目标对象对应的待处理语音数据;将该语音数据划分为至少两个语音段;基于应用场景对应的非目标语音的第一音频特征分布模式,提取各语音段对应于该分布模式的第一音频特征,目标语音是指目标对象的语音;根据各语音段的目标音频特征,确定各语音段的识别结果,目标音频特征包括第一音频特征,一个语音段的识别结果表征了该语音段是否为目标语音段;基于各语音段的识别结果,确定待处理语音数据中目标对象的有效语音数据。基于本申请实施例提供的方法,可以有效提升语音数据的识别准确性。
Description
技术领域
本申请涉及人工智能、多媒体技术、游戏以及云技术领域,具体而言,本申请涉及一种语音处理方法、装置、电子设备及计算机可读存储介质。
背景技术
随着科学技术的飞速发展,语音技术由于其简单、便捷的实现方式,已经出现在人们日程生活中的很多场景中。比如,用户之间通过通信软件进行交流时,可以采用语音的方式向对方发送信息,再比如,游戏玩家在玩游戏时,可以发送语音给其他玩家或者是发起语音指令等。
在很多应用场景中,为了提升数据处理效率或者满足其他应用需求,通常都需要对原始的语音数据进行一些预处理,找出语音数据中真正需要处理的数据,之后可以只对这部分数据进行处理。比如,在对用户的一段语音数据进行处理时,可以先通过语音活性检测找出语音数据中真实需要处理的片段,以简化语音处理,提高处理效率。现有技术中虽然已经存在很多不同的语音活性检测方式,比如,可以基于语音数据的频谱能量进行语音活性检测,但是目前的大部分处理方式的鲁棒性不足,尤其是在一些复杂的应用场景中,检测效果不佳,不能够很好的满足实际应用需求,仍需改进。
发明内容
本申请的目的旨在提供一种能够提高语音数据处理准确性的语音处理方法、装置、电子设备及计算机可读存储介质。为了实现上述目的,本申请实施例提供的技术方案如下:
一方面,本申请实施例提供了一种语音处理方法,该方法包括:
获取应用场景中目标对象对应的待处理语音数据;将待处理语音数据划分为至少两个语音段;
基于应用场景对应的非目标语音的第一音频特征分布模式,提取各语音段对应于第一音频特征分布模式的第一音频特征,其中,目标语音是指目标对象的语音;
根据各语音段的目标音频特征,确定各语音段的识别结果,目标音频特征包括第一音频特征,一个语音段的识别结果表征了该语音段是否为目标语音段;
基于各语音段的识别结果,确定待处理语音数据中目标对象的有效语音数据。
另一方面,本申请实施例提供了一种语音处理装置,该装置包括:
语音数据获取模块,用于获取应用场景中目标对象对应的待处理语音数据;
数据预处理模块,用于将待处理语音数据划分为至少两个语音段;
数据识别模块,用于基于应用场景对应的非目标语音的第一音频特征分布模式,提取各语音段对应于第一音频特征分布模式的第一音频特征,其中,目标语音是指目标对象的语音;
数据识别模块,还用于根据各语音段的目标音频特征,确定各语音段的识别结果,基于各语音段的识别结果,确定待处理语音数据中的有效语音数据,其中,目标音频特征包括第一音频特征,一个语音段的识别结果表征了该语音段是否为目标语音
可选的,数据识别模块在提取各语音段对应于第一音频特征分布模式的第一音频特征时,可以用于:
在应用场景为目标场景时,基于应用场景对应的非目标语音的第一音频特征分布模式,提取各语音段对应于第一音频特征分布模式的第一音频特征。
可选的,目标场景包括游戏场景,非目标语音包括音乐或噪声中的至少一项,上述音乐包括目标对象的用户终端在运行目标游戏应用时所播放的音乐或目标游戏应用的虚拟游戏场景中播放的音乐中的至少一项。
可选的,数据识别模块还可以用于:基于目标语音的第二音频特征分布模式,提取各语音段对应于第二音频特征分布模式的第二音频特征;其中,目标音频特征包括第二音频特征。
可选的,数据识别模块在根据各语音段的目标音频特征,确定各语音段的识别结果时,可以用于:
确定应用场景的场景类型,场景类型为目标场景或非目标场景;根据应用场景的场景类型,确定第一音频特征的第一权重和第二音频特征的第二权重;根据第一权重对各语音段的第一音频特征进行加权,根据第二权重对各语音段的第二音频特征进行加权;根据各语音段加权后的第一音频特征和加权后的第二音频特征,确定各语音段的识别结果。
可选的,数据识别模块还可以用于:提取有效语音数据的第三音频特征;根据第三音频特征,确定目标对象的对象类型。
可选的,数据识别模块还可以用于:确定有效语音数据在待处理语音数据中的占比;若占比大于设定阈值,获取目标对象的待检测语音数据,待检测语音数据包括至少两段语音数据,至少两段语音数据包括待处理语音数据或在待处理语音数据的采集时间之后采集的语音数据中的至少一项;对至少两段语音数据中的每段语音数据包含的各语音段进行识别,得到每段语音数据中各语音段的识别结果;对于每段语音数据,基于该段语音数据包含的各语音段的识别结果,确定该段语音数据对应的语音分布模式;根据各段语音数据对应的语音分布模式,确定语音判别结果,该语音判别结果表征了至少两段语音数据中是否存在指定类型的语音数据。
可选的,数据识别模块在根据各语音段的目标音频特征,确定各语音段的识别结果时,可以用于:
对于每个语音段,基于该语音段的目标音频特征、以及该语音段的关联语音段的目标音频特征,确定该语音段的识别结果;其中,一个语音段的关联语音段包括位于该语音段之前的至少一个语音段或位于该语音段之后的至少一语音段中的至少一项。
可选的,数据识别模块在根据各语音段的目标音频特征,确定各语音段的识别结果时,可以用于:
按照各语音段在待处理语音数据中的时序信息,对各语音段依次执行第一操作,得到各语音段的第一特征表示;基于各语音段的第一特征表示,确定各语音段的识别结果;其中,对于每个语音段,上述第一操作包括:
基于该语音段的目标音频特征和该语音段的前一语音段的隐层特征,确定该语音段的前一语音段的隐层特征中与该语音段关联的关联特征、以及该语音段的前序语音段对于该语音段的影响程度;其中,第一个语音段的隐层特征是基于第一个语音段的目标音频特征提取得到的;一个语音段的前序语音段包括位于该语音段之前的各个语音段;
将该语音段的目标音频特征和关联特征融合,得到融合特征;
基于影响程度,将该语音段的前一语音段的隐层特征与上述融合特征进行融合,得到该语音段的隐层特征,并基于该语音段的隐层特征得到该语音段的第一特征表示。
可选的,数据识别模块在基于各语音段的第一特征表示,确定各语音段的识别结果时,可以用于:
将各语音段的第一特征表示作为各语音段的新的目标音频特征,并按照时序信息的倒排顺序,基于各语音段的第一特征表示,对各语音段执行上述第一操作,得到各语音段的第二特征表示;
对于每个语音段,基于该语音段的第二特征表示,得到该语音段的识别结果。
另一方面,本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器,存储器中存储有计算机程序,处理器执行该计算机程序以实现本申请任一可选实施例中提供的方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。
另一方面,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。
本申请实施例提供的技术方案带来的有益效果如下:
本申请实施例提供了一种新的语音处理方法,该方法创新性的从非目标语音的角度出发,实现了对语音数据的处理。在实际应用中,很多应用场景中非目标语音的存在是影响语音数据处理效果的重要因素之一,而现有的语音处理方式中,通常都是通过一些处理方式来减少待处理语音数据中非目标语音的影响,但是处理结果仍有待提升。而本申请实施例提供的方法,反其道而行,该方法突破常规方式,创新性的想到基于应用场景中非目标语音对应的音频特征分布模式,提取对应于该模式的音频特征,从非目标语音的角度实现待处理语音数据的处理。本申请实施例的该方法有效利用了在语音数据识别时,会对目标语音识别效果产生影响的非目标语音,基于该方法,可以有效提升语音识别效果,尤其是对噪声严重的应用场景中采集的语音数据而言,效果更加明显。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种语音处理方法的流程示意图;
图2为本申请实施例提供的一种语音处理系统的结构示意图;
图3为本申请实施例提供的一种语音处理方法的流程示意图;
图4为本申请实施例提供的一种神经网络模型的结构示意图;
图5为本申请实施例提供的一种用户界面中的提示信息的示意图;
图6为本申请实施例提供的一种提取音频特征的流程示意图;
图7为本申请实施例提供的一种通过神经网络模型对语音帧进行识别的流程示意图;
图8为本申请实施例提供的一种基于语音数据进行目标对象识别的原理示意图;
图9为本申请实施例提供的一种基于语音数据进行广告识别的原理示意图;
图10为本申请实施例提供的一种语音处理装置的结构示意图;
图11为本申请实施例所适用的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。在描述多个(两个或两个以上)项目时,如果没有明确限定多个项目之间的关系,这多个项目之间可以是指多个项目中的一个、多个或者全部,例如,对于“参数A包括A1、A2、A3”的描述,可以实现为参数A包括A1或A2或A3,还可以实现为参数A包括参数A1、A2、A3这三项中的至少两项。
需要说明的是,在本申请的可选实施例中,所涉及到的用户信息(如用户对应的语音数据)等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说,本申请实施例中如果涉及到与用户有关的数据,这些数据需要经由用户授权同意、且符合国家和地区的相关法律法规和标准的情况下获取的。
可选的,本申请实施例提供的语音处理方法,可以基于人工智能(ArtificialIntelligence,AI)技术实现。比如,基于各语音段的目标音频特征,确定各语音段的识别结果,可以通过训练好的神经网络模型实现。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。随着人工智能技术研究和进步,人工智能技术已经在多个领域广泛展开研究和应用,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
可选的,本申请实施例所涉及的数据处理可以基于云技术(Cloud technology)实现,比如,上述神经网络模型的训练中涉及到的数据计算、提取各语音段的目标音频特征的数据计算可以采用云技术实现。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。云计算则是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
为了更好的理解和说明本申请实施例提供的方案,下面先对本申请实施例所涉及的一些相关技术用语进行说明。
语音活性检测(VAD,Voice activity detection):VAD是一项用于语音处理的技术,旨在检测出一段音频信号(语音数据/语音信号)中语音的起止时间点,在语音信号处理领域中几乎是不可或缺的一部分。本申请实施例提供了一种新的实现VAD检测的方法,基于该方法,可以检测出待处理语音数据中的有效语音数据,也就是目标对象说话时的语音信号。
恒Q变换(CQT,constant-Q transform):CQT是指中心频率按指数规律分布,滤波带宽不同、但中心频率与带宽比为常量Q的滤波器组,是一种具有相同指数分布规律的时频变换算法。
梅尔频谱(Mel spectrum):将语音信号经过短时傅里叶变换后,通过梅尔滤波器,使特征更加符合人耳听觉特性,该特征广泛用于语音领域。
下面对本申请提供的多种可选实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
图1示出了本申请实施例提供的一种语音处理方法的流程示意图,该方法可以由任意的电子设备执行,如可以由用户终端或服务器执行,还可以由用户终端和服务器交互完成。例如,用户终端可以通过执行该方法,确定出待处理语音数据中的有效语音数据,还可以基于有效语音数据进行后续处理,用户终端还可以将待处理语音数据和有效语音数据中的至少一项发送服务器,由服务器进行后续处理。再例如,该方法也可以由服务器执行,服务器可以从用户终端获取目标对象对应的待处理语音数据,通过执行该方法确定出待处理语音数据中的有效语音数据,还可以基于有效语音数据进行后续处理。
其中,上述用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、可穿戴电子设备、AR/VR设备等。
如图1中所示,本申请实施例提供的该方法可以包括以下步骤S110至步骤S140。
步骤S110:获取应用场景中目标对象对应的待处理语音数据,将待处理语音数据划分为至少两个语音段。
其中,目标对象可以是任一用户,应用场景可以是任一应用场景,比如,应用场景可以是用户之间的交互场景,例如,用户之间进行通过发送语音数据进行信息交互,此时,待处理语音数据(也就是待处理语音信号)可以是用户之间交互的语音信息,目标对象可以是进行信息交互的任一用户。应用场景也可以人机交互场景,比如,用户通过应用的用户界面发起语音指令,此时,待处理语音数据可以是语音指令,目标对象是发起该语音指令的用户,例如,游戏玩家在玩游戏时,可以通过语音方式与其他玩家交互,还可以通过其用户终端或者是与用户终端连接的用户输入设备发起语音指令,用户终端可以将该语音指令发送给游戏服务器,游戏服务器可以根据用户的语音指令执行对应操作。
需要说明的是,在实际应用场景中,用户通常不会是一直在说话的,因此,待处理语音数据中可能包含目标对象的语音(也就是目标对象说话时的语音信号),也可能不包含目标对象的语音。本申请实施例中,将目标对象语音之外的数据称为非目标语音。在不同的应用场景中,非目标语音的形式和种类也可能是不同的。可选的,非目标语音可以包括音乐或噪声中的至少一项。
本申请的可选实施例中,应用场景可以是指定的目标场景,目标场景可以是通常带有复杂的非目标语音的场景,也就是周围背景噪声严重的场景,其中,目标场景可以包括但不限于游戏场景(游戏玩家在玩游戏时通常会边播放音乐边玩游戏,而且很多游戏的游戏虚拟环境中也通常会带有背景音乐),在游戏场景下,非目标语音可以是除游戏玩家说话的声音之外的任何声音,可选的,非目标语音可以包括但不限于噪声或音乐中的至少一项,音乐可以包括目标对象(即游戏玩家)的终端设备在运行目标游戏应用(当前玩的游戏应用)时所播放的音乐,或目标游戏应用的虚拟游戏场景中播放的音乐(即游戏背景音乐)中的至少一项。
对于待处理语音数据的获取方式本申请实施例不做限定,可以是在用户授权同意的前提下,采集到的用户所在场景中的任意语音数据,该数据中可能有用户自身说话的语音,也可能没有。比如,待处理语音数据可以是按照设定时间间隔采集的目标对象的至少一段语音数据中的任意一段语音数据,还可以是在检测到语音信息录入触发操作时,采集到的语音数据。例如,在游戏场景时,为了防止未成年人过度使用甚至沉迷游戏,需要禁止未成年参与或者是对未成年人进行相应的管控,采取对应的防沉迷措施,并符合相应的规定,作为一种可选的方案,可以在玩家授权的情况下获取玩家的语音数据,并根据语音数据来判别玩家是否为未成年人,并根据判别结果进行对应的管控,该场景下,待处理语音数据是指获取到的玩家的语音数据。
在获取到目标对象对应的待处理语音数据之后,由于语音数据在宏观上来看是不平稳的,但是从微观上来看,在比较短的时间内语音数据可以看成是平稳的,因此,为了提升语音信号的处理效果,在获取到待处理语音数据之后,可以先对待处理语音数据进行预处理,预处理包括但不限于分帧处理,通过分帧处理可以将待处理语音数据分为至少两个语音段。分帧处理利用信号的短时平稳性,使待处理语音数据的各语音段之间可以平滑过渡,保持其连续性。可选的,预处理还可以包括去噪处理、回音消除处理等。
分帧处理就是将原始语音信号(即待处理语音数据)分成大小固定的若干段语音信号,切分后的每一段语音信号可以称为一帧,也就是本申请实施例中的语音段。对于分帧处理的具体方式本申请实施例不做限定,可选的,由于人说话并不是间断的,待处理语音数据中的各部分之间通常都是有关系的,为了防止分帧后的帧之间的不连续,可以采用交叠分段的方式,按照设定帧长(即帧长,可以根据应用需求配置,比如,设定帧长可以取10ms(毫秒)到30ms)将待处理语音信息划分为至少两个语音段,相邻语音段之间可以具有一定长度的交叠,相邻语音段之间的交叠部分可以称为帧移,通过增加相邻语音段之间的帧移,可以使得分帧后的语音段更好的与实际的语音接近。其中,帧移的时长可以根据需求配置,比如,帧移的时长与设定帧长的比值可以是n,n的取值为小于1的整数,比如,n的取值范围可以是[0,1/2]。可以理解的是,如果待处理语音数据的时长不大于设定帧长,划分后的语音段的数量是一个,也就是说,如果待处理语音数据的时长小于设定帧长,不用进行分帧处理,待处理语音数据作为一个语音段。
可选的,在对待处理语音进行分帧后,为了使帧与帧之间平滑过渡,保持连续性,也就是为了消除各个帧两端可能会造成的信号不连续性(即谱泄露,spectral leakage),还可以对分帧后的各语音帧进行加窗处理,对于加窗处理所采用的窗函数的形式本申请实施例不做限定,比如,可以采用矩形窗、汉明窗或者其他窗函数,通过加窗处理可以减少截断带来的影响。具体的,可以将分帧处理后的每一帧带入窗函数,形成加窗语音信号sw(n)=s(n)*w(n),其中,w(n)表示窗函数,s(n)表示加窗处理前的语音信号,sw(n)表示加窗后的语音信号,后续的处理可以是对加窗后的信号进行处理。
步骤S120:基于应用场景对应的非目标语音的第一音频特征分布模式,提取各语音段对应于第一音频特征分布模式的第一音频特征。
步骤S130:根据各语音段的目标音频特征,确定各语音段的识别结果,目标音频特征包括第一音频特征;
其中,一个语音段的识别结果表征了该语音段是否为目标语音段,也就是该语音段是否是目标对象说话时的语音段。
步骤S140:基于各语音段的识别结果,确定待处理语音数据中目标对象的有效语音数据。
其中,目标语音段也就是包含目标对象说话声音的语音段,有效语音数据则是指待处理语音数据中目标对象说话时的语音数据,也就是去除了背景噪声部分(相对于目标对象的语音而言的、除目标对象的语音之外的语音)的语音数据。
在实际应用中,在获取目标对象对应的待处理语音数据时,由于应用场景通常很难是纯净的,场景中很难保证只有目标对象的声音,尤其是在比较复杂的应用场景中,比如,主讲人(即目标对象)语音发生损伤、周围背景噪声严重、或者环境中存在带歌词的音乐时,获取到的待处理语音数据中会包含很多的背景噪声,如果采用现有的语音处理方式(例如,将待处理语音数据通过傅里叶变换转换为频域数据,并提取特征进行识别),往往很难取得好的效果。考虑到上述问题,本申请实施例提供的该方法,在获取待处理语音数据的音频特征时,从另一个角度出发,通过提取待处理语音数据中对应于非目标语音的第一音频特征来进行语音识别。具体的,由于很多应用场景中,非目标语音的音频特征分布模式与目标对象的音频特征分布模式通常是不同的,因此,可以基于当前应用场景中非目标语音的第一音频特征分布模式,提取待处理语音数据的各语音段对应于该第一音频特征分布模式的第一音频特征,从这个角度出发实现对待处理语音数据的识别,以确定待处理语音数据的各语音段是否是目标语音段,并根据各语音段的识别结果,确定出待处理语音数据中目标对象的有效语音数据。
本申请实施例中的音频特征分布模式(也可以称为声音分布特征),可以是指语音数据的频域特征的分布模式,可以是频谱的分布模式,如将语音数据进行转换后对应的频率点的分布规律。比如,对于音乐而言,音乐中的声音都是以指数分布的,对于人平时说话的声音而言,其音频谱通常是线性分布的,两种声音的音频特征分布模式是不同的。可选的,第一音频特征分布模式可以是频率点非等间隔分布(频谱的横轴频率不是线性的)的频域特征分布模式,第二音频特征分布模式(后文中出现的)可以是频率点等间隔分布的频域特征分布模式。
对于应用场景对应的非目标语音的第一音频特征分布模式的确定方式,本申请实施例不做限定,比如,应用场景是指定的目标场景时,该场景下通常存在的非目标语音的音频特征分布模式是确定的,对应于该音频特征分布模式的第一音频特征的特征类型则可以是预先配置好的。也就是说,可以通过应用场景的场景类型表征非目标语音的第一音频特征分布模式。
作为一可选方案,可以预配置不同场景类型所对应的第一音频特征的特征类型,比如,如果应用场景中通常是播放有音乐的场景,那么可以配置该场景对应的第一音频特征的符合音乐中的声音分布模式(即第一音频特征分布模式)的CQT特征。也就是说,可以根据场景类型配置对应的第一音频特征的特征类型,如场景类型A对应的第一音频特征为音频特征a,场景类型B对应的第一音频特征为音频特征b。
本申请的可选实施例中,上述应用场景可以是游戏场景,目标场景中对应的上述第一音频特征分布模式可以是音乐中的声音分布模式,第一音频特征可以包括CQT特征。在该目标场景下,本申请实施例提供的该语音处理方法的实施步骤则可以包括如下步骤:
获取目标场景中目标对象的待处理语音数据;将该待处理语音数据进行分帧处理,得到至少两个语音帧(即语音段),分别对各语音帧进行CQT变换,得到各语音帧的CQT特征,基于各语音帧的CQT特征,确定各语音帧的识别结果,根据各语音帧的识别结果,确定待处理语音数据中的有效语音数据。
其中,可以将待处理语音数据中非目标语音段进行删除后的语音数据作为有效语音数据,也就是将待处理语音数据中各目标语音段对应的部分作为有效语音数据。
本申请实施例的该语音处理方法,提供了一种全新的语音处理方法,该方法创新性提出了从非目标语音的角度出发,实现对语音数据处理的方案。由于很多的应用场景(尤其是存在一些复杂噪音的场景)中,非目标语音的存在是影响语音数据处理效果的很重要的因素之一,而现有的语音处理方式中,通常都是尝试通过多种多样的处理方式尽可能减少待处理语音数据中非目标语音的影响,虽然这些预处理方式能够产生一些效果,但是在一些噪声严重的应用场景中,现有的处理方式是很难让语音数据的最终处理效果产生明显提升的。而本申请实施例提供的方法,反其道而行,基于应用场景中非目标语音对应的音频特征分布模式,提取对应于该模式的音频特征,从非目标语音的角度实现待处理语音数据的识别。该方法充分、有效的利用待处理语音数据中对目标语音识别效果产生影响的非目标语音,基于该方法,可以有效提升待处理语音数据的语音识别效果,尤其是对复杂的应用场景中采集的语音数据而言,效果更加明显。
本申请的可选实施例中,提取各语音段对应于第一音频特征分布模式的第一音频特征,可以包括:
在上述应用场景为目标场景时,基于应用场景对应的非目标语音的第一音频特征分布模式,提取各语音段对应于所述第一音频特征分布模式的第一音频特征。
需要说明的是,如果应用场景是已知的应用场景,在实际实施时,可以不用执行确定应用场景是否为目标场景的步骤。
在实际应用中,由于不同的场景中非目标语音(也可以称为背景噪声)的形式通常是不同的,比如,在主讲人语音纯净、声学场景简单的场景中,采集到的语音数据中背景噪声会比较少,背景噪声对于语音数据的识别结果的影响较小。而对于一些声学场景比较复杂的场景,背景噪声对于语音数据的识别结果的影响就会较大。考虑于此,本申请提供的该可选方案,可以根据应用场景的不同来确定待处理语音数据的处理方式。其中,在应用场景为指定的目标场景时,通过提取各语音段对应于非目标语音的音频特征分布模式的音频特征进行处理。其中,目标场景可以是背景语音通常比较复杂的场景,可选的,可以是通常会带有音乐的应用场景,可以包括但不限于游戏场景。
对于应用场景的场景类型(应用场景是否为目标场景)的确定方式,本申请实施例不做限定,可以根据实际需求配置。可选的,可以根据用户所操作的应用程序确定应用场景的场景类型,例如,可以根据采集待处理语音数据时,目标对象的用户终端当前所运行的应用的类型来确定场景类型。例如,目标场景包括游戏场景,如果待处理语音数据是用户在玩游戏时采集的语音数据,那么根据用户终端上运行的应用程序的标识可以确定是游戏类应用,相应的,可以确定应用场景是游戏场景。
可选的,还可以根据用户输入信息来确定场景类型,比如,可以在采集待处理语音数据之前,提示用户输入其当前所在的应用场景的相关信息,如可以为用户提供场景信息选项,由用户选择其当前所在的应用场景,并根据用户选择确定应用场景是否为目标场景。例如,目标场景包括游戏场景或带有音乐播放的场景中的至少一项,上述场景信息选项可以包括“当前环境有音乐播放”、“当前场景没有音乐播放”、“在玩游戏”等选项,可以根据用户的选择确定用户当前所在的场景是否属于目标场景。
需要说明的是,目标场景可以包括一种或至少两种应用场景,在目标场景包括至少两种应用场景时,如果当前的应用场景属于目标场景中的任一场景,则确定当前的应用场景是目标场景。
可选的,在应用场景不是目标场景时,可以基于目标语音的音频特征分布模式,提取各语音段对应的音频特征,根据各音频段对应的音频特征,,确定各语音段的识别结果,并基于各语音段的识别结果,确定待处理语音数据的识别结果。
比如,目标对象是游戏应用的用户,如果应用场景是该用户玩该游戏时的场景(即目标场景),对于该场景对应的待处理语音数据,提取的音频特征可以是各个语音段的CQT特征。如果是非目标场景对应的待处理语音数据,提取的音频特征可以是各个语音段的梅尔频谱特征或其他将各语音段进行傅里叶变换后获取的音频特征。
根据应用场景的不同,可以更加有针对性的进行符合场景类型的音频特征的提取,从而可以更好实现对各种不同应用场景中语音数据的识别,提高识别效果。
本申请的可选实施例中,该方法还可以包括:
基于目标语音的第二音频特征分布模式,提取各语音段对应于第二音频特征分布模式的第二音频特征;其中,目标音频特征包括第二音频特征。
对待处理语音数据进行处理的目的是为了确定出语音数据中的有效语音数据,因此,除了可以利用对应于非目标语音的音频特征分布模式的第一音频特征外,还可以提取对应于目标语音的音频特征分布模式的第二音频特征,从而可以基于不同维度的多种语音特征实现对待处理语音数据的识别。
对于每个语音段,其目标音频特征可以包括该语音段的第一音频特征或第二音频特征中的至少一项,可选的,目标音频特征可以包括该语音段的第一音频特征和第二音频特征,此时在基于各语音段的目标音频特征确定各语音段的识别结果时,可以将两种音频特征进行融合,基于融合后的特征进行语音段的识别,得到各语音段的识别结果。对于融合方式本申请实施例不做限定,例如,可以采用拼接的方式。
可选的,对于一个语音段而言,第一音频特征是通过对语音段进行CQT变换得到的该语音段的频域特征,即CQT特征,第二音频特征可以是通过对语音段进行傅里叶变换变换得到的该语音段的频域特征,第一音频特征可以包括但不限于梅尔频谱特征。
作为另一可选方式,第一音频特征和第二音频特征也可以分开使用,具体的,根据各语音段的目标音频特征,确定各语音段中识别结果,可以包括:
基于各语音段的第一音频特征,确定各语音段的第一识别结果;
基于各语音段的第二音频特征,确定各语音段的第二识别结果;
基于各语音段的第一识别结果和第二识别结果,确定各语音段的识别结果。
也就是说,可以从两个不同的维度,分别对各语音段进行识别,再通过融合两个不同维度的判断结果,得到各语音段的最终识别结果。其中,对于一个语音段而言,第一识别结果和第二识别结果可以均包括表征该语音段属于目标语音段的一个概率值以及表征该语音段属于非目标语音段的一个概率值,在基于第一识别结果和第二识别结果确定该语音段的最终识别结果时,如果第一识别结果和第二识别结果中表征该语音段属于非目标语音段的概率均大于或等于设定值,可以确定该语音段属于目标语音段,如果两个识别结果中表征该语音段属于目标语音段的概率均小于设定值,可以确定该语音段属于非目标语音段,如果两个识别结果中表征该语音段属于目标语音段的概率一个大于或等于设定值,另一个小于设定值,可以基于两者的均值确定该语音段是否属于目标语音段,如均值大于或等于设定值,确定该语音段属于目标语音段,如果均值小于设定值,确定该语音段属于非目标语音段。
作为一可选方案,上述根据各语音段的目标音频特征,确定各语音段中识别结果,可以包括:
在应用场景是目标场景时,提取各语音段的第一音频特征,基于各语音段的第一音频特征,确定各语音段的识别结果;
在应用场景不是目标场景时,提取各语音段的第二音频特征,基于各语音段的第二音频特征,确定各语音段的识别结果。
也就是说,可以根据应用场景的不同,选择是采用第一音频特征还是第二音频特征,如果是目标场景,目标音频特征为第一音频特征,如果不是目标场景,目标音频特征为第二音频特征。
作为另一可选方案,上述根据各语音段的目标音频特征,确定各语音段中识别结果,可以包括:
确定应用场景的场景类型,其中,场景类型为目标场景或非目标场景;
根据应用场景的场景类型,确定第一音频特征的第一权重和第二音频特征的第二权重;
根据第一权重对各语音段的第一音频特征进行加权,根据第二权重对各语音段的第二音频特征进行加权;
根据各语音段的加权后的第一音频特征和加权后的第二音频特征,确定各语音段的识别结果。
由于不同的应用场景中,非目标语音的形式以及影响程度可能是不同的,因此,可以根据应用场景的场景类型,来确定第一音频特征和第二音频特征的影响权重,通过权重来调节第一音频特征和第二音频特征所起到的作用,从而可以进一步提升待处理语音数据的处理效果。
其中,第一权重和第二权重之和可以为1,取值范围都是[0,1]。可以理解的是,如果其中一个权重的取值可以为1或0,在实际实施该可选方案时,可以只提取权重为1的特征,比如,应用场景为目标场景时,第一权重可以取值为1,可以只提取第一音频特征。可选的,在应用场景为目标场景时,第一权重大于第二权重,在应用场景不是目标场景时,第一权重小于第二权重。
采用上述加权处理的方式,得到加权后的第一音频特征和加权后的第二音频特征之后,根据各语音段的加权后的第一音频特征和加权后的第二音频特征,确定各语音段的识别结果时,同样可以是将两种加权后的特征进行融合(如拼接),基于各语音段对应的融合特征确定各语音段的识别结果,或者,可以分别基于每种加权后的特征,分别得到两种特征对应的识别结果,再通过融合两种特征对应的识别结果,得到语音段的识别结果。
本申请的实施例中,在确定出待处理语音数据中的有效语音数据之后,可以根据应用需求,确定是否需要对待处理语音数据或有效语音数据进行进一步的处理或者是进行何种处理。
作为一可选方案,该方法还可以包括:
提取有效语音数据的第三音频特征;根据第三音频特征,确定目标对象的对象类型。
其中,有效语音数据也就是包含目标对象说话时的语音数据。在确定出有效语音数据之后,可以根据实际需求对这部分数据进行进一步处理。作为一种应用需求,可以根据有效语音数据的第三音频特征,确定目标对象的对象类型。可选的,目标对象的类型可以是未成年人或者是成年人,也就是说,可以根据有效语音数据的音频特征判别目标对象是否是未成年人。
可以理解的是,该可选方案中,由于是对目标对象的有效语音数据进行进一步处理,因此,第三音频特征是目标语音对应的音频特征分布模式的特征,第三音频特征和第二音频特征可以是同种音频特征,也可以是不同种音频特征。作为一可选方案,第二音频特征和第三音频特征可以是相同类型的特征,比如,都是梅尔频谱特征,此时,在确定出有效语音数据之后,可以直接采用有效语音数据中各目标语音段的第二音频特征进行后续处理,比如,可以基于各目标语音段的第二音频特征,确定目标对象的对象类型。当然,也可以对有效语音数据重新进行分帧等预处理之后,重新提取音频特征。
可选的,目标对象的对象类型可以是未成年人或成年人中的一种。在根据第三音频特征确定目标对象的对象类型时,可以通过训练好的分类网络实现,比如,分类网络对应的类别可以包括两个类别,其中一个对应未成年人,另一个对应成年人,可以将第三音频特征输入到分类网络中,通过该网络预测出目标对象属于成年人的概率和属于未成年人的概率,根据两个概率确定目标对象是否是未成年人。可选的,分类网络也可以是对应于两个类别以上的多分类网络,比如,每个类别对应一个年龄段,可以基于第三音频特征识别目标对象所属的目标年龄段,此时对象类型可以是目标对象所属的年龄段,例如,可以将年龄分为少年、青年、老年三个年龄段,可以将三音频特征输入到多分类网络中,预测出目标对象属于这三个年龄对的概率,将最大概率对应的年龄段确定为目标对象的目标年龄段。
可以理解的是,在实际应用中,在通过分类网络在识别目标对象的对象类型时,分类网络可以至少包括特征提取模块和分类模块,特征提取模块用于基于第三音频特征提取具有更好的特征表达能力的特征,分类模块则可以基于特征提取模块提取的特征预测出目标对象所属各个类别的概率。
基于本申请实施例提供的该方案,在确定出待处理语音数据中的有效语音数据之后,可以只对待处理语音数据中的有效语音数据进行处理,有效减少数据处理量,另外,由于有效语音数据是去除了非目标语音段之后的数据,基于该数据进行后续处理,还可以减少非目标语音的影响,提升处理效果。
作为另一可选方案,该方法还可以包括:
确定有效语音数据在待处理语音数据中的占比;
若上述占比大于设定阈值,获取目标对象的待检测语音数据,待检测语音数据包括至少两段语音数据,该至少两段语音数据包括待处理语音数据或在待处理语音数据的采集时间之后采集的语音数据中的至少一项;
对至少两段语音数据中的每段语音数据包含的各语音段进行识别,得到每段语音数据中各语音段的识别结果;
对于每段语音数据,基于该段语音数据包含的各语音段的识别结果,确定该段语音数据对应的语音分布模式;
根据各段语音数据对应的语音分布模式,确定语音判别结果,语音判别结果表征了上述至少两段语音数据中是否存在指定类型的语音数据。
其中,上述待检测语音数据中的至少两段语音数据可以是在待处理语音数据之后采集的至少两段语音数据,也可以包括上述待处理语音数据,即待处理语音数据可以作为至少两段语音数据中的一段,也可以不作为其中的一段。
一段语音数据对应的语音分布模式表征了该段语音数据的各语音段的语音类型的分布模式,语音类型为目标语音段或非目标语音段。上述指定类型的语音数据具体是哪种类型可以根据实际需求配置,对于不同的应用需求,指定类型可以不同,本申请实施例不做限定。可选的,该指定类型可以包括但不限于不符合设定准则的信息以及不符合道德规范的信息(可以统称为不合规信息)等,其中,设定准则包括但不限于相关国家和地区的相关法律法规和标准。
对于一些类型的信息(如上述不合规信息、广告信息等)而言,其语音数据通常都是存在一定的模式的,比如,对于一些广告信息,其语音数据通常会在一段时间内多次出现的,而且语音数据的内容通常是相对固定的,其语音分布模式也是相对不变的,也就是说,语音分布模式会在一定时间内重复出现。因此,可以通过识别一段时间内所获取到的多段语音数据对应的语音分布模式,来识别目标对象的各段语音数据中是否存在指定类型的语音数据。可选的,若在一段时长内采集到的目标对象对应的至少两段语音数据中存在至少两段数据对应的语音分布模式的相似程度满足一定条件,则可以确定该目标对象对应的至少两段语音数据中存在指定类型的语音数据。上述满足一定条件可以是大于设定相似度,或者是相同。
作为一实际应用需求,在一些应用程序中,有时会有不法分子通过语音方式向应用中的其他用户传播不合规信息,比如,在游戏应用中,尤其是团队游戏时,经常会有不法分子通过发布语音向对内玩家传播不合规信息,如何有效且快速的定位不法分子,已成为游戏语音中急需优化的点,而基于本申请实施例提供的上述方案,可以通过目标对象对应的待处理语音数据进行识别,根据该语音数据中有效语音数据的占比判定是否需要开启对指定类型的语音数据的检测,在有效语音数据的占比大于设定阈值时,说明待处理语音数据中目标对象说话的时长相对较长,也就是有效语音数据的占比较高,此时则可以开启指定类型的语音数据的检测,以判别目标对象是否有发布指定类型的语音数据,以满足实际应用需求。
本申请实施例提供的语音处理方法中,在得到待处理语音数据中各语音段的目标音频特征(包括第一音频特征或第二音频特征中的至少一项)之后,基于各语音段的目标音频特征确定各语音段的识别结果的具体实现方式,本申请实施例不做限定,可选的,可以采用训练好的神经网络模型实现,其中,神经网络模型的输入包括各语音段的目标音频特征,输出为各语音段的识别结果,一个语音段的识别结果可以表征该语音段是目标语音段还是非目标语音段。对于神经网络模型的具体模型结构本申请实施例不做限定。
作为本申请的一可选实施方式,上述根据各语音段的目标音频特征,确定各语音段的识别结果,可以包括:
对于每个语音段,基于该语音段的目标音频特征、以及该语音段的关联语音段的目标音频特征,确定该语音段的识别结果;
其中,一个语音段的关联语音段包括位于该语音段之前的至少一个语音段、或位于该语音段之后的至少一语音段中的至少一项。
在实际应用中,由于一段待处理语音数据中每个语音段通常不是独立存在的,各语音段的内容之间很可能是有所关联的,并且人在说话时其语速等也多是有规律的,例如,在说话时的语音信号通常是有一定时长的,停顿通常也是在说完一句话或者一句较长的话的某个相对固定的地方进行停顿。对于非目标语音而言,各语音段的音频特征也同样是有关联的。因此,为了提升各语音段的识别准确性,本申请的该可选实施例中,在对各语音段进行识别时,除了考虑一个语音段本身的目标音频特征,还考虑该语音段的关联语音段的目标音频特征,其中,关联语音段包括但不限于位于该语音段之前的至少一个语音段或位于该语音段之后的至少一个语音段。
对于一个语音段,基于该语音段的目标音频特征、以及该语音段的关联语音段的目标音频特征,确定该语音段的识别结果的具体实现,本申请实施例不做限定,比如,可以将各语音段的目标音频特征作为循环神经网络的输入,基于循环神经网络预测得到各语音段的识别结果。
作为本申请的一可选实施例,上述根据各语音段的目标音频特征,确定各语音段的识别结果,可以包括:
按照各语音段在待处理语音数据中的时序信息,对各语音段依次执行第一操作,得到各语音段的第一特征表示;基于各语音段的第一特征表示,确定各语音段的识别结果;其中,对于每个语音段,第一操作包括:
基于该语音段的目标音频特征和该语音段的前一语音段的隐层特征,确定该语音段的前一语音段的隐层特征中与该语音段关联的关联特征、以及该语音段的前序语音段对于该语音段的影响程度;
其中,上述各语音段中的第一个语音段的隐层特征是基于第一个语音段的目标音频特征提取得到的,一个语音段的前序语音段包括位于该语音段之前的各个语音段;
将该语音段的目标音频特征和上述关联特征融合,得到融合特征;
基于上述影响程度,将该语音段的前一语音段的隐层特征与融合特征进行融合,得到该语音段的隐层特征,并基于该语音段的隐层特征得到该语音段的第一特征表示。
通过对语音段的目标音频特征进行进一步的特征提取,可以得到更好的能够用于区分语音段是目标语音段还是非目标语音段的高层特征,从而可以基于该高层特征更加准确的得到语音段的识别结果。而通过融合不同语音段之间的特征,可以在考虑了语音段自身特征的基础上,融入时序上与该语音段关联(有影响)的语音段的特征,以提升识别准确性。
上述各语音段在待处理语音数据中的时序信息,指的就是各语音段在待处理语音数据中的位置前后。上述隐层特征也可以称为隐藏状态或隐状态,对于一个语音段而言,该语音段的前一语音段的隐层特征中包含了该语音段的前序语音段的相关信息,也就是从位于该语音段之前的各个语音段中传递下来的特征信息。可以理解的是,对于第一个语音段而言,该语音段没有前序语音段,在对第一个语音段进行上述第一操作时,是基于第一个语音段的目标语音特征进行进一步特征提取,得到该语音段的隐层特征,并基于隐层特征得到该语音段的第一特征表示。
对于除第一个语音段之外每个语音段,其第一特征表示(也就是第一特征向量)的提取,则可以是基于该语音段的目标音频特征和该语音段的前一语音段的隐层特征来获取的。具体的,可以基于该语音段的目标音频特征和该语音段的前一语音段的隐层特征,分别确定历史语音段(即前序语音段)中传递下来的信息对于当前语音段(当前处理的语音段)的影响程度和两者之间的关联特征,影响程度越大说明隐层特征中能够影响到当前语音段的信息越多,也就是前序语音段对于该语音段的影响相对越大,而关联特征则是隐层特征中隐含的对于当前语音段的识别有用的特征(可以理解成为隐层特征中对于当前语音段的识别有用的局部信息)。在得到关联特征之后,则可以通过将关联特征和该语音段的目标语音特征进行融合(如拼接),得到融合了当前语音段的特征以及该语音段的历史特征(即隐层特征)中有用特征的融合特征,进一步的,根据影响程度对这融合特征和隐层特征这两个层面的特征进行融合,得到当前语音段的隐层特征,也就是包含了当前语音段以及位于当前语音段之前的各语音段中相关信息的特征,基于该隐层特征可以得到该语音段的第一特征表示。可以理解的是,当前语音段的隐层特征是对下一语音段进行上述第一操作是的输入信息。
其中,上述第一操作可以采用神经网络模型实现,可以通过训练得到可以执行上述第一操作的神经网络模型。可选的,对于各语音段中的第一个语音段,神经网络模型的输入包括该语音段的目标音频特征,输出包括该语音段的识别结果以及用作下一个语音段处理时的隐层特征,从第二个语音段开始的每个语音段,神经网络模型的输入包括该语音段的目标音频特征和上一语音段的隐层特征,基于这两部分输入,可以通过神经网络模型的第一特征提取模块确定出该隐层特征中各个特征值对于当前语音段的识别的有用程度(也可以理解为权重),根据该有用程度可以得到上述关联特征,具体的,可以将隐层特征中的各个特征值与各个特征值对应的有用程度相乘,得到关联特征,比如,某个特征值对应的有用程度是0,则表示关联特征中该特征值对应的新的特征值为0,也就是隐层特征中该特征值对应的信息在对当前语音段进行识别时是被遗忘了的。同样的,可以基于上述两部分输入,通过神经网络模型的第二特征提取模块确定出当前该语音段的前一语音段对于该语音段的影响程度。可以理解的是,第一特征提取模块和第二特征提取模块的模型参数是不同的,第一特征提取模块和第二特征提取模块的模型参数可以通过训练得到。
在得到上述影响程度之后,则可以将目标音频特征和上述关联特征拼接,得到拼接特征,可选的,在得到拼接特征之后,还可以对该拼接特征进行进一步处理,如进一步特征提取,以得到具有更好的特征表达能力的高层特征,之后,可以将基于该影响程度(数据形式也可以一个特征向量)分别确定上述高层特征和隐层特征的权重向量,将高层特征和隐层特征进行加权求和,得到当前语音段的隐层特征,并可以基于该隐层特征得到该语音段的第一特征表示。
对于上述神经网络模型的模型结构本申请实施例不做限定,可选的,可以根据执行该方法的电子设备的配置信息和应用需求(如处理效率和识别准确性的需求),来构建神经网络模型。比如,可以采用基于循环神经网络的神经网络模型来提取各语音段的第一特征表示,可选的,为了提高处理效率,可以采用相对轻量级的神经网络模型,例如,可以采用基于GRU(Gate Recurrent Unit,门控循环单元)的神经网络模型,可选的,该神经网络模型可以包括依次级联的第一特征提取网络、GRU特征提取网络和分类网络,GRU特征提取网络可以包括上述的第一特征提取模块和第二特征提取模块,第一特征提取网络的输入包括各语音段的目标音频特征,用于提取得到各语音段的初始特征,GRU特征提取网络的输入包括各语音段的初始特征(也就是上述第一操作所依据的输入特征,在执行第一操作之前,可以对目标音频特征进行一次或多次特征提取,得到更高维度的初始特征,用于提取得到各语音段的第一特征表示,之后可以基于各语音段的第一特征表示,通过分类网络得到各语音段的识别结果。
可选的,在得到各语音段的第一特征表示之后,可以根据每个语音段的第一特征表示通过分类网络得到每个语音段的识别结果,其中,分类网络是一个二分类网络,其中一个类别代表语音段是目标语音段,另一个类别代表语音段是非目标语音段。基于该可选方式,通过训练神经网络模型,可以使神经网络模型充分学习到待处理语音数据的每个语音段的前序信息(即前序语音段中包含的相关信息),提高识别的准确性。
作为本申请的一可选方案,上述基于各语音段的第一特征表示,确定各语音段的识别结果,可以包括:
将各语音段的第一特征表示作为各语音段的新的目标音频特征,并按照时序信息的倒排顺序,基于各语音段的第一特征表示,对各语音段分别执行第一操作,得到各语音段的第二特征表示;
对于每个语音段,基于该语音段的第二特征表示,得到该语音段的识别结果。
基于该可选方案,可以通过训练使得神经网络模型在对各语音段的目标音频特征进行处理时,不仅可以充分学习当前语音段的前序信息,还可以学习当前语音段的后序信息(即位于该语音段之后的各语音段中对于当前语音段的识别有用的信息),从而可以进一步提升各语音段的识别效果。可选的,在通过神经网络模型实现该可选方案时,可以采用基于双层循环神经网络的神经网络模型来实现各语音段的第二特征表示的提取,比如,可以采用基于双层GRU的神经网络模型,可选,该神经网络模型可以包括依次级联的第一特征提取网络、第一层GRU特征提取网络、第二层GRU特征提取网络和分类网络,其中,第一特征提取网络和第一层GRU特征提取网络的作用与前文中描述的第一特征提取网络和GRU特征提取网络的作用相同,第二层GRU特征提取网络用于基于通过第一层GRU特征提取网络得到的各语音段的第一特征表示,来进一步提取各语音段的第二特征表示,第二层GRU特征提取网络在对各语音段的第一特征表示进行处理时,将按照各语音段的时序信息,将各个第一特征表示进行倒排序处理,也就是将最后一个语音段作为第一个语音段,将倒数第二个语音段作为第二个语音段,依次类推,基于各语音段的第一特征表示,依次执行上述第一操作,得到各个语音段的第二特征表示,之后将各个语音段的第二特征表示输入分类网络,得到各个语音段的识别结果。
基于本申请实施例提供的方法,一方面,创新性的采用应用场景中对应的非目标语音的音频特征分布模式实现了语音数据的识别,将非目标语音作为了语音识别时的有用信息,从一个新的思路实现了语音数据的处理。该方法可以待处理语音数据中尽可能多的潜在有用信息用于语音数据识别,提高识别效果,尤其是在声音相对比较复杂的应用场景中,效果更加明显。另一方面,在进行各语音段的识别时,可以充分利用相关语音段中有用的信息,通过融合当前语音段中的有用信息以及相关语音段中的有用的信息,进一步提升语音识别的准确性。
本申请实施例提供的方法,可以应用于任何需要对语音数据进行识别的场景中。通过该方法,可以识别出语音数据中的有效语音数据,还可以根据实际应用需求,基于有效语音数据进行进一步的处理。
为了更好的理解本申请实施例提供的方法以及该方法的实用价值,下面结合具体的场景实施例,对本申请实施例提供的方法进行说明。
该场景实施例对应的应用场景为游戏场景,在游戏场景中,尤其是团队游戏,经常会有不法分子通过游戏语音向队内玩家传播不合规信息,如何有效且快速的定位不法分子,是游戏场景中急需优化的点。
而随着国家越来越重视未成年人沉迷游戏的问题,未成年人识别问题也成为当下最重要的研究热点之一,而游戏语音作为游戏中不可或缺的一部分,自然就成为了未成年人鉴别的重要入口。在一段游戏语音中,通常有效的玩家说话时间不超过50%,大量的非语音部分(本申请实施例中的非目标语音,也就是玩家不说话时的语音信号)不但会加重未成年人鉴别系统的计算负担,而且会影响未成年人语音鉴别系统的准确率。
基于本申请实施例提供的方法,可以在玩家授权同意的前提下,通过获取游戏应用的客户端的语音数据,进行未成年人的识别或者是检测语音数据是否是不合规信息。以不合规信息是广告为例,基于本申请实施例提供的方案,可以通过计算出一段音频(即待处理语音数据)中目标语音段的占比(也就是有效语音数据的占比),将该占比作为广告检测系统开关的条件,若有效语音数据的占比超过所设阈值,则可以基于在该语音数据的采集时间之后继续采集目标对象的语音数据(即待检测语音数据)进行广告检测,否则,不启动检测。对于未成年人的识别,可以基于本申请实施例提供的方法,去除待处理语音数据中的非语音部分(非目标语音),将纯净的玩家语音(有效语音数据)输入未成年人鉴别系统,可以有效提升了鉴别准确率。
游戏场景中的声学环境通常都是比较复杂的,比如,很多玩家在玩游戏时,通常都会一边播放音乐一边玩游戏,而且游戏应用的很多虚拟游戏场景中也是带有音乐的,除此之外,还有很多其他的背景噪声,如果是采用现有的语音处理技术对获取到的玩家客户端的语音数据(即待处理语音数据)进行处理,语音数据的识别效果是很难取得较好效果的。而基于本申请实施例提供的方案,无论是在未成年人识别还是在广告识别方面,都取得了很好的效果。本申请的该场景实施例中,第一音频特征为CQT特征,应用场景的类型表征了该场景中对应的非目标语音的第一音频特征分布模式。
图2示出了本申请该场景实施例中适用的一种语音处理系统的结构示意图,如图2中所示,该语音处理系统可以包括用户终端10、游戏服务器20和训练服务器30,用户终端10可以通过网络与游戏服务器20通信连接,用户终端10可以是任一游戏玩家的用户终端,游戏服务器用于为玩家提供游戏服务,其中,游戏应用的类型本申请实施例不做限定,可以是需要用户下载安装的游戏应用,也可以是云游戏应用,还可以是小程序中的游戏应用。训练服务器30可以通过网络与游戏服务器20通信连接,训练服务器30可以用于执行神经网络模型的训练操作,并将训练好的神经网络模型提供给游戏服务器20。
下面结合图2中所示的语音处理系统,对游戏场景中本申请提供的方法的一种可选实施流程进行说明。图3为本申请提供的该应用场景中的一种语音处理方法的流程示意图,如图3中所示,该方法可以包括如下步骤:
步骤S31:训练神经网络模型。
该步骤可以由训练服务器30执行,用于基于训练数据集对构建好的初始神经网络模型进行训练,得到训练好的神经网络模型,在得到训练好的神经网络模型之后,可以将该神经网络模型提供给游戏服务器20,即部署到游戏服务器20中。
本申请提供的该基于深度学习的语音处理方法,考虑到计算复杂度与时序信号的前后相关性,神经网络模型可以采取全连接神经网络加循环神经网络的模型架构。作为一可选方案,图4示出了本申请提供的一种神经网络模型的结构示意图,如图4所示,该神经网络可以包括依次级联的全连接神经网络、双层GRU网络(图4中所示的GRU部分,也就是前文中的GRU特征提取网络)以及分类网络,其中,该分类网络包括级联的全连接神经网络和激活函数层(图4中的全连接神经网络+激活函数)。该模型的输入特征包括各语音段的目标音频特征,输出为各语音段的识别结果(图4中的预测值)。
对于上述神经网络模型的具体训练方式,本申请不做限定,可选的,可以基于训练数据集采用梯度下降方法进行模型的训练,直至网络的损失函数收敛,可选的,在得到满足预设的训练结束条件的神经网络之后,还可以采用测试数据集对模型进行测试,如果满足预设的测试条件,则可以将该神经网络模型作为训练好的神经网络模型,部署到游戏服务器20中,如果不满足测试条件,可以对神经网络模型继续进行训练,直至得到满足训练结束条件和测试条件的神经网络模型,或者是训练次数达到预设的迭代次数。
步骤S32:获取游戏语音(也就是本应用场景中的待处理语音数据)。
该步骤用于从游戏应用的客户端获取玩家在游戏当中的游戏语音。可选的,可以通过游戏应用客户端的音频采集设备即拾音器采集当前应用场景中的语音数据(即游戏语音),其中,音频采集设备可以是用户终端10自带的部件,也可以是用户终端10外接的音频采集设备。游戏语音是在用户授权同意的前提下进行的。比如,在对游戏场景中的语音中可能存在广告进行检测或者是进行未成年识别时,可以对用户进行相应提示,进行语音数据的采集。用户终端10将采集到的游戏语音发送给游戏服务器20。
作为一个示例,图5中示出了一种在进行用户的游戏语音采集时,在游戏应用客户端的用户界面向用户展示的提示信息,比如,在用户打开游戏应用客户端并登录之后,可以通过游戏应用的用户界面向用户展示该提示信息,提示用户需要进行语音验证,如果用户点击用户界面上的“开始验证”的控件,则表示用户同意进行其语音数据的采集,可以提示用户说话,采集用户的语音数据(即待处理语音数据)。可选的,根据不同的应用需求,该步骤可以执行一次,也可以每隔一定时长执行一次。如果用户点击用户界面上的“暂不验证”的控件,则可以认为验证失败,进行相应的监管,以防止未成年人沉迷游戏。
在实际应用中,在进行未成年人识别时,除了采集用户的语音数据之外,还可以采集用户的至少一帧图像数据,基于语音数据和图像数据进行未成年人的识别,提高识别的准确性。
步骤S33:提取游戏语音的目标音频特征。
游戏服务器20可以通过执行该步骤,得到游戏语音中各语音帧(即语音段)的目标音频特征,也就是本应用场景中的CQT特征。
作为一可选方案,图6中示出了一种提取游戏语音中各语音帧的CQT特征的流程示意图,如图6中所示,提取CQT特征可以包括分帧处理、加窗处理和CQT变换(图6中的恒Q变换)三部分。可选的,可以采用交叠分段的分帧方式,将游戏语音分为若干个语音帧,在完成分帧处理后,可以通过窗函数对各个语音帧进行加窗处理,之后,对加窗处理后的各语音帧进行恒Q变换即CQT变换,得到每个语音帧的CQT特征。
CQT变换与傅里叶变换的不同之处在于,CQT频谱的横轴频率为非线性,且在谱线频率不同时,其滤波窗长度也随之变化,恒Q变换避免了传统时频变换中时频分辨率均匀的缺陷,对于低频信号,时间窗更长,具备更高的频率分辨率,对于高频信号,频域带宽更大,具有更高的时间分辨率,因此,CQT特征能表征更丰富的信息。本申请实施例提供的方案,正是考虑到了应用场景中所存在的非目标语音(也可以理解成为背景噪音)的音频特征分布模式,比如,对于游戏场景,很可能是存在音乐噪音,可以充分利用背景噪音的特性,提取待处理语音数据的CQT特征,以利用CQT的上述特性,来提升语音识别的准确率。
对于每个语音帧,通过CQT变换,可以得到每个语音帧所对应的设定维度的CQT特征。假设一段游戏语音分帧后的语音帧的帧数为F,每个语音帧的CQT特征的特征维度(也就是特征包含的特征值的数量)为D,该游戏语音的CQT特征则可以表示为(F,D),可以理解为一个行数为F,列数为D的特征矩阵,每一行的数据为一个语音帧的CQT特征。对于对游戏语音进行分帧、加窗和CQT变换的具体处理步骤,在此不再展开说明。
步骤S34:游戏语音的识别。
游戏服务器可以采用训练好的神经网络模型,基于游戏语音的各语音帧的CQT特征,得到各语音帧的识别结果,并可以根据各语音帧的识别结果,确定出游戏语音中的有效语音数据,也就是本应用场景中的游戏玩家的语音数据。
在通过步骤S33得到游戏语音的CQT特征之后,则可以将该特征作为训练好的神经网络模型的输入特征输入到神经网络模型中,通过神经模型网络预测得到各语音帧的识别结果,也就是图4中预测值和图7中的帧标签,可选的,一个语音帧的识别结果可以包括该语音帧是目标语音帧的第一概率和该语音帧是非目标语音帧(即背景噪声,是相对于用户的语音而言的)的第二概率。可以根据第一概率和第二概率确定该语音帧是目标语音帧,还是非目标语音帧,比如,第一概率大于设定概率,表明语音帧是目标语音帧。对于待处理的游戏语音而言,其输入特征的维度可以表示为(F,D),神经网络模型的输出的维度可以表示为(F,2),其中,F为帧数,2为每一帧对应的第一概率和第二概率。
作为一个示例,图7示出了采用图4中的神经网络模型得到各语音帧的识别结果的原理示意图,如图7中所示,输入音频为分帧得到的各语音帧,通过CQT特征提取步骤得到各语音帧的CQT特征之后,可以将各语音帧的CQT特征输入到神经网络模型中,经由神经网络模型的各隐藏层的特征提取之后,最后可以通过激活函数(如图7中的Softmax激活函数),得到各语音帧的帧标签,也就是各语音帧对应的第一概率和第二概率。具体的,可以先将各语音帧的CQT特征输入第一层全连接神经网络中,该网络的作用用于特征降维以及提取更高维度的特征表示。
通过第一层全连接神经网络进行特征的提取后,可以将通过该网络提取得到的各语音帧的特征表示输入到双层GRU网络中,该网络的作用是用于为对历史信息与未来信息建模,即利用当前语音帧的记忆历史信息(当前语音帧的前序语音帧中的有用信息)与未来信息(当前语音帧的后序语音帧中的有用信息),同时遗忘无用信息,从而可以使得神经网络模型能非常精准的预测当前语音帧的标签,具体的,双层GRU网络的第一层GRU神经网络可以基于第一层全连接神经网络输出的各语音帧的特征表示,得到各语音帧的第一特征表示,第二层GRU神经网络则可以基于各语音帧的第一特征表示,提取得到各语音帧的第二特征表示。
此外,GRU网络的模型参数量相对于传统循环神经网络更少,具备更快的推理速度。之后,可以将双层GRU网络提取到的各语音帧的特征表示输入到最后的全连接神经网络中,该全连接神经网络的作用是将双层GRU网络的输出特征降维到标签数目(也就是分类网络的类别数量,即2),并通过Softmax激活函数对降维后的特征进行归一化,将输入的帧标签的两个值归一化到[0,1]之间并输出,也就是通过归一化处理得到第一概率和第二概率。
可以理解的是,在神经网络模型的训练阶段,神经网络模型的输入特征的维度可以表示为(B,F,D),其中,B表示Batchsize,也就是训练数据集中进行一次训练输入到网络中的样本语音数据的数量,F表示一个样本语音数据的各语音帧的帧数目,D表示一个语音帧的目标音频特征的特征维度,模型输出的预测值的维度可以表示为(B,F,2),也就是通过神经网络模型可以预测得到输入到网络中的各样本语音数据的各语音帧对应的第一概率和第二概率。
对于游戏语音,在得到各语音帧的识别结果之后,则可以根据各语音帧的识别结果,确定整个游戏语音中的有效语音数据。
步骤S35:基于游戏语音的有效语音数据进行后处理。
对于不同的应用需求,后续处理的方式是不同的。图8示出了未成年人识别的应用需求中的后处理方式的示意图,如图8中所示,在基于各语音帧的CQT特征,通过神经网络模型得到待处理语音数据中各语音帧的识别结果之后(也就是在完成各语音帧的VAD检测之后),可以将待处理语音数据中的有效语音数据(也可以称为纯净的玩家语音,即去除了非目标语音段的游戏语音)输入到未成年人鉴别系统中,未成年人鉴别系统可以通过提取纯净的玩家语音中目标对象的音频特征(即第三音频特征)判别玩家是否为未成年人,如果是未成年人,则前文中的验证失败,需要根据未成年监管策略进行相应处理,如果判别不是未成年人,可以根据成年人的游戏服务策略进行处理。其中,未成年人鉴别系统可以是部署在游戏服务器中,也可以部署在其他服务器中,可选的,未成年人鉴别系统包括训练好的对象识别模型,该对象识别模型可以基于目标对象的音频特征判别目标对象的类型是否是未成年人。
图9示出了对游戏语音中的广告进行识别的应用需求中的后处理方式的示意图,如图9中所示,在基于各语音帧的CQT特征,通过神经网络得到待处理语音数据中各语音帧的识别结果之后(也就是在完成各语音帧的VAD检测之后),可以根据识别结果得到待处理语音数据中的有效语音数据,进一步的,可以计算出待处理语音数据中有效语音数据的占比(图9中所示的语音占比率),该占比可以是识别结果是各语音帧中目标语音帧的数量和所有语音帧的数量的比值,可以将该占比作为判别广告检测系统开关的条件,比如,占比大于设定阈值,可以采集该待处理语音数据之后的该目标对象在设定时长的语音数据作为待检测语音数据,之后可以基于待检测语音数据进行广告检测,即开启广告检测系统。
可选的,待检测语音数据可以包含连续的多段语音数据,广告检测系统可以同样采用本申请实施例提供的语音处理方法,将待检测语音数据中的每段语音数据分别作为新的待处理语音数据,对每段待处理语音数据进行分帧等预处理,并提取各语音帧的CQT特征,通过神经网络模型预测得到每段待处理语音数据的各语音帧的识别结果,基于该识别结果,可以确定出各段语音数据对应的语音分布模式,可以根据各段语音数据对应的语音分布模式,来鉴别待处理语音数据中是否包含广告语音。比如,在各段语音数据中,存在至少两段语音分布模式相同或者相似度大于设定相似度的语音数据,可以判定待检测语音数据中存在广告语音,并且广告语音就是语音分布模式相同或者相似度大于设定相似度的至少两段语音数据。之后,可以对检测出的广告语音进行滤除,或者根据预配置的处理策略进行相应处理,比如,可以进一步识别广告语音的具体内容,根据识别出的内容判定是否可以将该广告语音在虚拟游戏场景中展示。可选的,还可以对目标对象进行警告提示等。
为了验证本申请实施例提供的方法的效果,在游戏场景中,对本申请实施例提供的方法和现有技术进行了比对测试。在测试时,现有技术是基于梅尔频谱特征的语音处理方式,下表中示出了测试结果。
语音准确率 | 噪声准确率 | |
现有技术 | 86% | 73% |
本申请方案 | 93% | 83% |
通过测试结果可以看出,相比于现有技术,本申请实施例提供的方法可以有效提升语音识别准确性,非目标语音的识别准确性也有明显提升,而将本申请实施例提供的方法应用到游戏场景中不合规信息(如广告)的识别时,广告识别准确率可以从90%提升到95%以上,在未成年人识别方面,也取得了很好的识别效果。
基于与本申请实施例提供的方法相同的原理,本申请实施例还提供了一种语音处理装置,如图10中所示,该语音处理装置100可以包括语音数据获取模块110、数据预处理模块120和数据识别模块130。
语音数据获取模块110,用于获取应用场景中目标对象对应的待处理语音数据;
数据预处理模块120,用于将待处理语音数据划分为至少两个语音段;
数据识别模块130,用于基于应用场景对应的非目标语音的第一音频特征分布模式,提取各语音段对应于第一音频特征分布模式的第一音频特征,其中,目标语音是指目标对象的语音;
数据识别模块130,还用于根据各语音段的目标音频特征,确定各语音段的识别结果,基于各语音段的识别结果,确定待处理语音数据中的有效语音数据,其中,目标音频特征包括第一音频特征,一个语音段的识别结果表征了该语音段是否为目标语音
可选的,数据识别模块在提取各语音段对应于第一音频特征分布模式的第一音频特征时,可以用于:
在应用场景为目标场景时,基于应用场景对应的非目标语音的第一音频特征分布模式,提取各语音段对应于第一音频特征分布模式的第一音频特征。
可选的,目标场景包括游戏场景,非目标语音包括音乐或噪声中的至少一项,上述音乐包括目标对象的用户终端在运行目标游戏应用时所播放的音乐或目标游戏应用的虚拟游戏场景中播放的音乐中的至少一项。
可选的,数据识别模块还可以用于:基于目标语音的第二音频特征分布模式,提取各语音段对应于第二音频特征分布模式的第二音频特征;其中,目标音频特征包括第二音频特征。
可选的,数据识别模块在根据各语音段的目标音频特征,确定各语音段的识别结果时,可以用于:
确定应用场景的场景类型,场景类型为目标场景或非目标场景;根据应用场景的场景类型,确定第一音频特征的第一权重和第二音频特征的第二权重;根据第一权重对各语音段的第一音频特征进行加权,根据第二权重对各语音段的第二音频特征进行加权;根据各语音段加权后的第一音频特征和加权后的第二音频特征,确定各语音段的识别结果。
可选的,数据识别模块还可以用于:提取有效语音数据的第三音频特征;根据第三音频特征,确定目标对象的对象类型。
可选的,数据识别模块还可以用于:确定有效语音数据在待处理语音数据中的占比;若占比大于设定阈值,获取目标对象的待检测语音数据,待检测语音数据包括至少两段语音数据,至少两段语音数据包括待处理语音数据或在待处理语音数据的采集时间之后采集的语音数据中的至少一项;对至少两段语音数据中的每段语音数据包含的各语音段进行识别,得到每段语音数据中各语音段的识别结果;对于每段语音数据,基于该段语音数据包含的各语音段的识别结果,确定该段语音数据对应的语音分布模式;根据各段语音数据对应的语音分布模式,确定语音判别结果,该语音判别结果表征了至少两段语音数据中是否存在指定类型的语音数据。
可选的,数据识别模块在根据各语音段的目标音频特征,确定各语音段的识别结果时,可以用于:
对于每个语音段,基于该语音段的目标音频特征、以及该语音段的关联语音段的目标音频特征,确定该语音段的识别结果;其中,一个语音段的关联语音段包括位于该语音段之前的至少一个语音段或位于该语音段之后的至少一语音段中的至少一项。
可选的,数据识别模块在根据各语音段的目标音频特征,确定各语音段的识别结果时,可以用于:
按照各语音段在待处理语音数据中的时序信息,对各语音段依次执行第一操作,得到各语音段的第一特征表示;基于各语音段的第一特征表示,确定各语音段的识别结果;其中,对于每个语音段,上述第一操作包括:
基于该语音段的目标音频特征和该语音段的前一语音段的隐层特征,确定该语音段的前一语音段的隐层特征中与该语音段关联的关联特征、以及该语音段的前序语音段对于该语音段的影响程度;其中,第一个语音段的隐层特征是基于第一个语音段的目标音频特征提取得到的;一个语音段的前序语音段包括位于该语音段之前的各个语音段;
将该语音段的目标音频特征和关联特征融合,得到融合特征;
基于影响程度,将该语音段的前一语音段的隐层特征与上述融合特征进行融合,得到该语音段的隐层特征,并基于该语音段的隐层特征得到该语音段的第一特征表示。
可选的,数据识别模块在基于各语音段的第一特征表示,确定各语音段的识别结果时,可以用于:
将各语音段的第一特征表示作为各语音段的新的目标音频特征,并按照时序信息的倒排顺序,基于各语音段的第一特征表示,对各语音段执行上述第一操作,得到各语音段的第二特征表示;
对于每个语音段,基于该语音段的第二特征表示,得到该语音段的识别结果。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述及有益效果具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
本申请实施例中还提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现本申请任一可选实施例中提供的方法的步骤。
图11示出了本申请实施例所适用的一种电子设备的结构示意图,如图11所示,该电子设备4000包括处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003中存储有执行本申请实施例所提供的方法的计算机程序,并可以由处理器4001来控制执行。处理器4001在执行存储器4003中存储的上述计算机程序时,可以实现本申请前述任一方法实施例所示的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现本申请前述任一方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品中包括计算机程序,计算机程序被处理器执行时可实现本申请前述任一方法实施例的步骤及相应内容。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (11)
1.一种语音处理方法,其特征在于,所述方法包括:
获取应用场景中目标对象对应的待处理语音数据;将所述待处理语音数据划分为至少两个语音段;
基于所述应用场景对应的非目标语音的第一音频特征分布模式,提取各所述语音段对应于所述第一音频特征分布模式的第一音频特征;
基于目标语音的第二音频特征分布模式,提取各所述语音段对应于所述第二音频特征分布模式的第二音频特征;
根据各所述语音段的目标音频特征,确定各所述语音段的识别结果,所述目标音频特征包括所述第一音频特征和所述第二音频特征,一个所述语音段的识别结果表征了该语音段是否为目标语音段;
基于各所述语音段的识别结果,确定所述待处理语音数据中所述目标对象的有效语音数据;
其中,所述根据各所述语音段的目标音频特征,确定各所述语音段的识别结果,包括:
确定所述应用场景的场景类型,所述场景类型为目标场景或非目标场景;
根据所述应用场景的场景类型,确定所述第一音频特征的第一权重和所述第二音频特征的第二权重;
根据所述第一权重对各所述语音段的第一音频特征进行加权,根据所述第二权重对各所述语音段的第二音频特征进行加权;
根据各所述语音段加权后的第一音频特征和加权后的第二音频特征,确定各所述语音段的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述提取各所述语音段对应于所述第一音频特征分布模式的第一音频特征,包括:
在所述应用场景为目标场景时,基于所述应用场景对应的非目标语音的第一音频特征分布模式,提取各所述语音段对应于所述第一音频特征分布模式的第一音频特征。
3.根据权利要求2所述的方法,其特征在于,所述目标场景包括游戏场景,所述非目标语音包括音乐或噪声中的至少一项,所述音乐包括所述目标对象的用户终端在运行目标游戏应用时所播放的音乐或所述目标游戏应用的虚拟游戏场景中播放的音乐中的至少一项。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提取所述有效语音数据的第三音频特征;
根据所述第三音频特征,确定所述目标对象的对象类型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述有效语音数据在所述待处理语音数据中的占比;
若所述占比大于设定阈值,获取所述目标对象的待检测语音数据,所述待检测语音数据包括至少两段语音数据,所述至少两段语音数据包括所述待处理语音数据或在所述待处理语音数据的采集时间之后采集的语音数据中的至少一项;
对所述至少两段语音数据中的每段语音数据包含的各语音段进行识别,得到每段语音数据中各语音段的识别结果;
对于每段语音数据,基于该段语音数据包含的各语音段的识别结果,确定该段语音数据对应的语音分布模式;
根据各段语音数据对应的语音分布模式,确定语音判别结果,所述语音判别结果表征了所述至少两段语音数据中是否存在指定类型的语音数据。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述根据各所述语音段的目标音频特征,确定各所述语音段的识别结果,包括:
对于每个所述语音段,基于该语音段的目标音频特征、以及该语音段的关联语音段的目标音频特征,确定该语音段的识别结果;
其中,一个语音段的关联语音段包括位于该语音段之前的至少一个语音段、或位于该语音段之后的至少一语音段中的至少一项。
7.根据权利要求6所述的方法,其特征在于,所述根据各所述语音段的目标音频特征,确定各所述语音段的识别结果,包括:
按照各所述语音段在所述待处理语音数据中的时序信息,对各所述语音段依次执行第一操作,得到各所述语音段的第一特征表示;
基于各所述语音段的第一特征表示,确定各所述语音段的识别结果;
其中,对于每个所述语音段,所述第一操作包括:
基于该语音段的目标音频特征和该语音段的前一语音段的隐层特征,确定该语音段的前一语音段的隐层特征中与该语音段关联的关联特征、以及该语音段的前序语音段对于该语音段的影响程度;其中,第一个语音段的隐层特征是基于所述第一个语音段的目标音频特征提取得到的;一个语音段的前序语音段包括位于该语音段之前的各个语音段;
将该语音段的目标音频特征和所述关联特征融合,得到融合特征;
基于所述影响程度,将该语音段的前一语音段的隐层特征与所述融合特征进行融合,得到该语音段的隐层特征,并基于该语音段的隐层特征得到该语音段的第一特征表示。
8.根据权利要求7所述的方法,其特征在于,所述基于各所述语音段的第一特征表示,确定各所述语音段的识别结果,包括:
将各所述语音段的第一特征表示作为各所述语音段的新的目标音频特征,并按照所述时序信息的倒排顺序,基于各所述语音段的第一特征表示,对各所述语音段执行所述第一操作,得到各所述语音段的第二特征表示;
对于每个所述语音段,基于该语音段的第二特征表示,得到该语音段的识别结果。
9.一种语音处理装置,其特征在于,所述装置包括:
语音数据获取模块,用于获取应用场景中目标对象对应的待处理语音数据;
数据预处理模块,用于将所述待处理语音数据划分为至少两个语音段;
数据识别模块,用于基于所述应用场景对应的非目标语音的第一音频特征分布模式,提取各所述语音段对应于所述第一音频特征分布模式的第一音频特征,基于目标语音的第二音频特征分布模式,提取各所述语音段对应于所述第二音频特征分布模式的第二音频特征;
所述数据识别模块,还用于根据各所述语音段的目标音频特征,确定各所述语音段的识别结果,基于各所述语音段的识别结果,确定所述待处理语音数据中的有效语音数据,其中,所述目标音频特征包括所述第一音频特征和所述第二音频特征,一个所述语音段的识别结果表征了该语音段是否为目标语音段;
其中,所述数据识别模块在确定各所述语音段的识别结果时用于:
确定所述应用场景的场景类型,所述场景类型为目标场景或非目标场景;
根据所述应用场景的场景类型,确定所述第一音频特征的第一权重和所述第二音频特征的第二权重;
根据所述第一权重对各所述语音段的第一音频特征进行加权,根据所述第二权重对各所述语音段的第二音频特征进行加权;
根据各所述语音段加权后的第一音频特征和加权后的第二音频特征,确定各所述语音段的识别结果。
10.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现权利要求1至8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210002981.8A CN114333802B (zh) | 2022-01-04 | 2022-01-04 | 语音处理方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210002981.8A CN114333802B (zh) | 2022-01-04 | 2022-01-04 | 语音处理方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114333802A CN114333802A (zh) | 2022-04-12 |
CN114333802B true CN114333802B (zh) | 2023-06-23 |
Family
ID=81022239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210002981.8A Active CN114333802B (zh) | 2022-01-04 | 2022-01-04 | 语音处理方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114333802B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877778A (zh) * | 2018-06-13 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
CN110246490A (zh) * | 2019-06-26 | 2019-09-17 | 合肥讯飞数码科技有限公司 | 语音关键词检测方法及相关装置 |
CN112750461A (zh) * | 2020-02-26 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 语音通信优化方法、装置、电子设备及可读存储介质 |
CN113362852A (zh) * | 2020-03-04 | 2021-09-07 | 深圳市腾讯网域计算机网络有限公司 | 一种用户属性识别方法和装置 |
WO2021196475A1 (zh) * | 2020-04-01 | 2021-10-07 | 深圳壹账通智能科技有限公司 | 智能化语言流利度识别方法、装置、计算机设备及存储介质 |
-
2022
- 2022-01-04 CN CN202210002981.8A patent/CN114333802B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877778A (zh) * | 2018-06-13 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
CN110246490A (zh) * | 2019-06-26 | 2019-09-17 | 合肥讯飞数码科技有限公司 | 语音关键词检测方法及相关装置 |
CN112750461A (zh) * | 2020-02-26 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 语音通信优化方法、装置、电子设备及可读存储介质 |
CN113362852A (zh) * | 2020-03-04 | 2021-09-07 | 深圳市腾讯网域计算机网络有限公司 | 一种用户属性识别方法和装置 |
WO2021196475A1 (zh) * | 2020-04-01 | 2021-10-07 | 深圳壹账通智能科技有限公司 | 智能化语言流利度识别方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
多说话人环境下目标说话人语音提取方案;叶于林;莫建华;刘夏;;计算机系统应用(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114333802A (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fu et al. | Metricgan: Generative adversarial networks based black-box metric scores optimization for speech enhancement | |
CN109473123B (zh) | 语音活动检测方法及装置 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN110136749B (zh) | 说话人相关的端到端语音端点检测方法和装置 | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN108922513B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN109767765A (zh) | 话术匹配方法及装置、存储介质、计算机设备 | |
US8301578B2 (en) | System and method for tagging signals of interest in time variant data | |
WO2020253128A1 (zh) | 基于语音识别的通信服务方法、装置、计算机设备及存储介质 | |
CN106504768A (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
CN111862951B (zh) | 语音端点检测方法及装置、存储介质、电子设备 | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN111816215A (zh) | 语音端点检测模型训练和使用方法及装置 | |
CN111179915A (zh) | 基于语音的年龄识别方法及装置 | |
CN115798518B (zh) | 一种模型训练方法、装置、设备及介质 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
CN111147871A (zh) | 直播间歌唱识别方法、装置及服务器、存储介质 | |
Liu et al. | Learning salient features for speech emotion recognition using CNN | |
CN114333802B (zh) | 语音处理方法、装置、电子设备及计算机可读存储介质 | |
Koolagudi et al. | Recognition of emotions from speech using excitation source features | |
CN113327631B (zh) | 一种情感识别模型的训练方法、情感识别方法及装置 | |
CN113593603A (zh) | 音频类别的确定方法、装置、存储介质及电子装置 | |
CN114613387A (zh) | 语音分离方法、装置、电子设备与存储介质 | |
CN114333844A (zh) | 声纹识别方法、装置、介质及设备 | |
Odriozola et al. | An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40072018 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |