CN112735382B - 音频数据处理方法、装置、电子设备及可读存储介质 - Google Patents

音频数据处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112735382B
CN112735382B CN202011542818.8A CN202011542818A CN112735382B CN 112735382 B CN112735382 B CN 112735382B CN 202011542818 A CN202011542818 A CN 202011542818A CN 112735382 B CN112735382 B CN 112735382B
Authority
CN
China
Prior art keywords
audio
audio data
features
sample
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011542818.8A
Other languages
English (en)
Other versions
CN112735382A (zh
Inventor
陈孝良
冯大航
吴俊�
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202011542818.8A priority Critical patent/CN112735382B/zh
Publication of CN112735382A publication Critical patent/CN112735382A/zh
Application granted granted Critical
Publication of CN112735382B publication Critical patent/CN112735382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请提供了一种音频数据处理方法、装置、电子设备及可读存储介质,属于语音处理技术领域。本申请通过对多个音频数据的音频特征进行拼接得到的第一音频特征进行分类处理,以得到分类标签,由于分类标签能够指示第一音频特征中的哪些音频特征是距离声源最近的麦克风组件采集到的音频数据对应的音频特征,进而将分类标签所指示的目标音频特征,从第一音频特征中分离出来,以便基于分离出的目标音频特征来生成目标音频数据,使得目标音频数据是距离声源最近的麦克风组件采集到的音频数据,实现将目标音频数据从采集到的音频数据中分离出来,提高了音频数据分离的准确性。

Description

音频数据处理方法、装置、电子设备及可读存储介质
技术领域
本申请涉及语音处理技术领域,特别涉及一种音频数据处理方法、装置、 电子设备及可读存储介质。
背景技术
在车载系统中,使用语音控制代替传统的触摸式控制,能够有效提升行车 安全性以及便捷性。但在语音控制过程中,当多个人同时说话时,多个说话人 的音频数据之间会互相干扰,进而对控制指令的识别造成影响,因而需要对车 载系统的麦克风阵列采集到的音频数据进行分离,以便从麦克风阵列采集到的 音频数据中,分离出与每个麦克风组件距离最近的人发出的音频数据,进而根 据分离出的音频数据识别出相应的控制指令。
目前在对音频数据进行分离时,主要是采用波束合成的方法,来对音频数 据进行分离,但这种波束合成的方法的准确性较低。
发明内容
本申请实施例提供了一种音频数据处理方法、装置、电子设备及可读存储 介质,能够提高音频数据分离的准确性。本申请的技术方案如下:
一方面,提供了一种音频数据处理方法,该方法包括:
对多个音频数据的音频特征进行拼接,得到第一音频特征,该多个音频数 据由同一设备上的多个麦克风组件采集得到;
对该第一音频特征进行分类处理,得到分类标签,该分类标签用于指示该 第一音频特征中的目标音频特征,该目标音频特征为该多个麦克风组件中距离 声源最近的麦克风组件对应的音频特征;
基于该分类标签,从该第一音频特征中分离出该目标音频特征;
基于该目标音频特征,生成目标音频数据。
在一种可能的实现方式中,该对该第一音频特征进行分类处理,得到分类 标签包括:
将该第一音频特征输入音频分类模型,通过该音频分类模型对该第一音频 特征进行分类处理,得到该分类标签。
在一种可能的实现方式中,该音频分类模型的训练过程包括:
获取多个第一样本音频数据对应的多个第一样本音频特征,以及该多个第 一样本音频特征对应的样本分类标签,该多个第一样本音频数据由同一设备上 的多个麦克风组件采集得到,该样本分类标签用于指示该多个第一样本音频特 征中的目标样本音频特征,该目标样本音频特征为该多个麦克风组件中距离声 源最近的麦克风组件对应的第一样本音频特征;
基于该多个第一样本音频特征和该多个第一样本音频特征对应的样本分类 标签,训练该音频分类模型。
在一种可能的实现方式中,该对多个音频数据的音频特征进行拼接,得到 第一音频特征之前,该方法还包括:
对该多个音频数据进行特征提取,得到该多个音频数据的音频特征。
在一种可能的实现方式中,该对多个音频数据的音频特征进行拼接,得到 第一音频特征包括:
对该多个音频数据的音频特征进行拼接,得到拼接后的音频特征;
对该拼接后的音频特征进行压缩,得到该第一音频特征。
在一种可能的实现方式中,该设备为车辆,该多个麦克风组件包括第一麦 克风组件、第二麦克风组件、第三麦克风组件、第四麦克风组件和第五麦克风 组件,该第一麦克风组件和该第二麦克风组件分别位于该车辆的前风挡玻璃两 侧的立柱与前风挡玻璃上部的横梁的连接处,该第三麦克风组件和该第四麦克 风组件分别位于该车辆的后风挡玻璃两侧的立柱与后风挡玻璃上部的横梁的连 接处,该第五麦克风组件位于该第三麦克风组件和该第四麦克风组件的连线中 点对应的顶盖处。
在一种可能的实现方式中,该基于该目标音频特征,生成目标音频数据包 括:
将该目标音频特征输入语音分离模型,通过该语音分离模型,输出该目标 音频特征的掩模;
基于该目标音频特征的掩模,对该多个音频数据中该目标音频特征对应的 音频数据进行语音分离,得到该目标音频数据。
在一种可能的实现方式中,该语音分离模型的训练过程包括:
获取多个第二样本音频数据对应的多个第二样本音频特征,以及该多个第 二样本音频特征对应的样本掩模;
基于该多个第二样本音频特征和该多个第二样本音频特征对应的样本掩 模,训练该语音分离模型。
一方面,提供了一种音频数据处理装置,其特征在于,该装置包括:
拼接模块,用于对多个音频数据的音频特征进行拼接,得到第一音频特征, 该多个音频数据由同一设备上的多个麦克风组件采集得到;
分类模块,用于对该第一音频特征进行分类处理,得到分类标签,该分类 标签用于指示该第一音频特征中的目标音频特征,该目标音频特征为该多个麦 克风组件中距离声源最近的麦克风组件对应的音频特征;
分离模块,用于基于该分类标签,从该第一音频特征中分离出该目标音频 特征;
生成模块,用于基于该目标音频特征,生成目标音频数据。
在一种可能的实现方式中,该分类模块,用于将该第一音频特征输入音频 分类模型,通过该音频分类模型对该第一音频特征进行分类处理,得到该分类 标签。
在一种可能的实现方式中,该音频分类模型的训练过程包括:
获取多个第一样本音频数据对应的多个第一样本音频特征,以及该多个第 一样本音频特征对应的样本分类标签,该多个第一样本音频数据由同一设备上 的多个麦克风组件采集得到,该样本分类标签用于指示该多个第一样本音频特 征中的目标样本音频特征,该目标样本音频特征为该多个麦克风组件中距离声 源最近的麦克风组件对应的第一样本音频特征;
基于该多个第一样本音频特征和该多个第一样本音频特征对应的样本分类 标签,训练该音频分类模型。
在一种可能的实现方式中,该装置还包括:
特征提取模块,用于对该多个音频数据进行特征提取,得到该多个音频数 据的音频特征。
在一种可能的实现方式中,该拼接模块,用于对该多个音频数据的音频特 征进行拼接,得到拼接后的音频特征;对该拼接后的音频特征进行压缩,得到 该第一音频特征。
在一种可能的实现方式中,该设备为车辆,该多个麦克风组件包括第一麦 克风组件、第二麦克风组件、第三麦克风组件、第四麦克风组件和第五麦克风 组件,该第一麦克风组件和该第二麦克风组件分别位于该车辆的前风挡玻璃两 侧的立柱与前风挡玻璃上部的横梁的连接处,该第三麦克风组件和该第四麦克 风组件分别位于该车辆的后风挡玻璃两侧的立柱与后风挡玻璃上部的横梁的连 接处,该第五麦克风组件位于该第三麦克风组件和该第四麦克风组件的连线中 点对应的顶盖处。
在一种可能的实现方式中,该生成模块,用于将该目标音频特征输入语音 分离模型,通过该语音分离模型,输出该目标音频特征的掩模;基于该目标音 频特征的掩模,对该多个音频数据中该目标音频特征对应的音频数据进行语音 分离,得到该目标音频数据。
在一种可能的实现方式中,该语音分离模型的训练过程包括:
获取多个第二样本音频数据对应的多个第二样本音频特征,以及该多个第 二样本音频特征对应的样本掩模;
基于该多个第二样本音频特征和该多个第二样本音频特征对应的样本掩 模,训练该语音分离模型。
一方面,提供了一种电子设备,该电子设备包括一个或多个处理器和一个 或多个存储器,该一个或多个存储器中存储有至少一条程序代码,该程序代码 由该一个或多个处理器加载并执行以实现该音频数据处理方法所执行的操作。
一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储 有至少一条程序代码,该程序代码由处理器加载并执行以实现该音频数据处理 方法所执行的操作。
一方面,提供了一种计算机程序,该计算机程序由处理器加载并执行以实 现该音频数据处理方法所执行的操作。
本申请提供的方案,通过对多个音频数据的音频特征进行拼接得到的第一 音频特征进行分类处理,以得到分类标签,由于分类标签能够指示第一音频特 征中的哪些音频特征是距离声源最近的麦克风组件采集到的音频数据对应的音 频特征,进而将分类标签所指示的目标音频特征,从第一音频特征中分离出来, 以便基于分离出的目标音频特征来生成目标音频数据,使得目标音频数据是距 离声源最近的麦克风组件采集到的音频数据,实现将目标音频数据从采集到的 音频数据中分离出来,提高了音频数据分离的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种音频数据处理方法的实施环境示意图;
图2是本申请实施例提供的一种音频数据处理方法的流程图;
图3是本申请实施例提供的一种音频数据处理方法的流程图;
图4是本申请实施例提供的一种麦克风组件的分布方式示意图;
图5是本申请实施例提供的一种音频数据处理方法的流程图;
图6是本申请实施例提供的一种音频数据处理装置的结构示意图;
图7是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请 实施方式作进一步地详细描述。
图1是本申请实施例提供的一种音频数据处理方法的实施环境示意图,参 见图1,该实施环境包括:麦克风组件101和电子设备102。
麦克风组件101为多个麦克风组件,可选地,各个麦克风组件为全指向性 麦克风组件、双指向性麦克风组件、单指向性麦克风组件等,本申请实施例对 麦克风组件的具体类型不加以限定。麦克风组件101采集环境中的声音,如人 的说话声,进而基于采集到的声音,生成音频数据,以得到多个音频数据。
电子设备102为车辆、智能手机、游戏主机、台式计算机、平板电脑、电 子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家 压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一 种。电子设备基于麦克风组件101采集到的音频数据,从多个音频数据中,分 离出距离声源最近的麦克风组件采集到的目标音频数据。
可选地,麦克风组件101内置或外接于电子设备102,本申请实施例对此不 加以限定。电子设备101可以泛指多个电子设备中的一个,本实施例仅以电子 设备101来举例说明。本领域技术人员可以知晓,上述电子设备的数量可以更 多或更少。比如上述电子设备可以仅为一个,或者上述电子设备为几十个或几 百个,或者更多数量,本申请实施例对电子设备的数量和设备类型不加以限定。
图2是本申请实施例提供的一种音频数据处理方法的流程图,参见图2,该 方法包括:
201、电子设备对多个音频数据的音频特征进行拼接,得到第一音频特征, 该多个音频数据由同一设备上的多个麦克风组件采集得到。
202、电子设备对该第一音频特征进行分类处理,得到分类标签,该分类标 签用于指示该第一音频特征中的目标音频特征,该目标音频特征为该多个麦克 风组件中距离声源最近的麦克风组件对应的音频特征。
203、电子设备基于该分类标签,从该第一音频特征中分离出该目标音频特 征。
204、电子设备基于该目标音频特征,生成目标音频数据。
本申请实施例提供的方案,通过对多个音频数据的音频特征进行拼接得到 的第一音频特征进行分类处理,以得到分类标签,由于分类标签能够指示第一 音频特征中的哪些音频特征是距离声源最近的麦克风组件采集到的音频数据对 应的音频特征,进而将分类标签所指示的目标音频特征,从第一音频特征中分 离出来,以便基于分离出的目标音频特征来生成目标音频数据,使得目标音频 数据是距离声源最近的麦克风组件采集到的音频数据,实现将目标音频数据从 采集到的音频数据中分离出来,提高了音频数据分离的准确性。
在一种可能的实现方式中,该对该第一音频特征进行分类处理,得到分类 标签包括:
将该第一音频特征输入音频分类模型,通过该音频分类模型对该第一音频 特征进行分类处理,得到该分类标签。
在一种可能的实现方式中,该音频分类模型的训练过程包括:
获取多个第一样本音频数据对应的多个第一样本音频特征,以及该多个第 一样本音频特征对应的样本分类标签,该多个第一样本音频数据由同一设备上 的多个麦克风组件采集得到,该样本分类标签用于指示该多个第一样本音频特 征中的目标样本音频特征,该目标样本音频特征为该多个麦克风组件中距离声 源最近的麦克风组件对应的第一样本音频特征;
基于该多个第一样本音频特征和该多个第一样本音频特征对应的样本分类 标签,训练该音频分类模型。
在一种可能的实现方式中,该对多个音频数据的音频特征进行拼接,得到 第一音频特征之前,该方法还包括:
对该多个音频数据进行特征提取,得到该多个音频数据的音频特征。
在一种可能的实现方式中,该对多个音频数据的音频特征进行拼接,得到 第一音频特征包括:
对该多个音频数据的音频特征进行拼接,得到拼接后的音频特征;
对该拼接后的音频特征进行压缩,得到该第一音频特征。
在一种可能的实现方式中,该设备为车辆,该多个麦克风组件包括第一麦 克风组件、第二麦克风组件、第三麦克风组件、第四麦克风组件和第五麦克风 组件,该第一麦克风组件和该第二麦克风组件分别位于该车辆的前风挡玻璃两 侧的立柱与前风挡玻璃上部的横梁的连接处,该第三麦克风组件和该第四麦克 风组件分别位于该车辆的后风挡玻璃两侧的立柱与后风挡玻璃上部的横梁的连 接处,该第五麦克风组件位于该第三麦克风组件和该第四麦克风组件的连线中 点对应的顶盖处。
在一种可能的实现方式中,该基于该目标音频特征,生成目标音频数据包 括:
将该目标音频特征输入语音分离模型,通过该语音分离模型,输出该目标 音频特征的掩模;
基于该目标音频特征的掩模,对该多个音频数据中该目标音频特征对应的 音频数据进行语音分离,得到该目标音频数据。
在一种可能的实现方式中,该语音分离模型的训练过程包括:
获取多个第二样本音频数据对应的多个第二样本音频特征,以及该多个第 二样本音频特征对应的样本掩模;
基于该多个第二样本音频特征和该多个第二样本音频特征对应的样本掩 模,训练该语音分离模型。
图3是本申请实施例提供的一种音频数据处理方法的流程图,参见图3,该 方法包括:
301、电子设备获取多个音频数据,该多个音频数据由同一设备上的多个麦 克风组件采集得到。
在一种可能的实现方式中,该设备为车辆,同一设备上的多个麦克风组件 为同一车辆中的多个麦克风组件。
其中,麦克风组件的数量为任意取值,本申请实施例对麦克风组件的数量 不加以限定。在一种可能的实现方式中,麦克风组件的数量为5个,分别为第 一麦克风组件、第二麦克风组件、第三麦克风组件、第四麦克风组件和第五麦 克风组件,该第一麦克风组件和该第二麦克风组件分别位于该车辆的前风挡玻 璃两侧的立柱与前风挡玻璃上部的横梁的连接处,该第三麦克风组件和该第四 麦克风组件分别位于该车辆的后风挡玻璃两侧的立柱与后风挡玻璃上部的横梁 的连接处,该第五麦克风组件位于该第三麦克风组件和该第四麦克风组件的连 线中点对应的顶盖处。
上述第一麦克风组件至第五麦克风组件在车辆中的位置参见图4,图4是本 申请实施例提供的一种麦克风组件的分布方式示意图,第一麦克风组件至第五 麦克风组件在如图4所示的分布方式下,形成分布式麦克风阵列,每个麦克风 组件对应于车辆内的一个位置,各个麦克风组件均能对临近位置有较好的收声 效果,从而提高对车辆中声音的采集效果。
需要说明的是,上述仅为一种示例性的麦克风组件分布方式,在更多可能 的实现方式中,采用其他分布方式,来设置各个麦克风组件的位置,本申请实 施例对此不加以限定。
302、电子设备对该多个音频数据进行特征提取,得到该多个音频数据的音 频特征。
需要说明的是,该音频特征为频域特征,或者,该音频特征为能量谱特征、 对数谱特征等基于频域特征衍生出来的特征,可选地,该音频特征为其他类型, 本申请实施例对此不加以限定。
以该音频特征为频域特征为例,在一种可能的实现方式中,对于已获取的 多个音频数据,电子设备对每个音频数据进行傅里叶变换,得到每个音频数据 在频域上的幅值信息,也即是,得到每个音频数据中各个频率对应的振幅,进 而得到每个音频数据对应的频域特征,也即是,得到多个频域特征。
在更多可能的实现方式中,若该音频特征为能量谱特征,则电子设备在确 定出每个音频数据的频域特征后,对频域特征中各个频率对应的振幅取平方, 即可得到每个音频数据中各个频率对应的能量值,也即是,得到每个音频数据 的能量谱特征。若该音频特征为对数谱特征,则电子设备在确定出每个音频数 据的能量谱特征后,对各个音频数据的能量谱特征取对数,得到每个音频数据 的对数谱特征。
需要说明的是,上述仅为几种示例性的确定音频数据的音频特征的方式, 在更多可能的实现方式中,采用其他方式来进行音频特征的确定,本申请实施 例对此不加以限定。
303、电子设备对多个音频数据的音频特征进行拼接,得到第一音频特征。
在一种可能的实现方式中,电子设备获取到各个音频数据的音频特征后, 将各个音频数据的音频特征首尾相接,以实现对各个音频数据的音频特征的拼 接,进而得到该第一音频特征。
仍以麦克风组件的数量为5个,分别为第一麦克风组件、第二麦克风组件、 第三麦克风组件、第四麦克风组件和第五麦克风组件为例,则电子设备获取到5 个音频数据,分别记为第一音频数据、第二音频数据、第三音频数据、第四音 频数据和第五音频数据,电子设备获取到这5个音频数据的音频特征后,将第 一音频数据的音频特征的结束位置,与第二音频数据的音频特征的起始位置相 接,再将第二音频数据的音频特征的结束位置,与第三音频数据的音频特征的 起始位置相接,以此类推,以实现对这5个音频数据的音频特征的拼接,得到 第一音频特征。
可选地,电子设备在对多个音频特征进行拼接时,记录相邻音频特征之间 的拼接位置,例如,记录前一个音频特征的结束位置,或者,记录后一个音频 特征的起始位置,以便后续进行目标音频特征的分离。
在一种可能的实现方式中,电子设备对该多个音频数据的音频特征进行拼 接,得到拼接后的音频特征后,对该拼接后的音频特征进行压缩,得到该第一 音频特征。对拼接后的音频特征进行特征压缩得到的该第一音频特征为滤波器 组(Filterbank,Fbank)特征、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等,可选地,对拼接后的音频特征进行特征压缩得到的该 第一音频特征为其他类型的特征,本申请实施例对此不加以限定。
若该第一音频特征为Fbank特征,则电子设备将各个音频数据的能量谱特 征通过N个梅尔(Mel)滤波器组,一个滤波器组可以包括M个三角形滤波器, 进而基于各个滤波器组的输出结果,确定各个音频数据的Fbank特征,作为第 一音频特征。其中,N和M均为正整数,本申请实施例对N和M的具体取值 不加以限定。若该第一音频特征为MFCC,则电子设备在确定出每个音频数据 的对数谱特征后,电子设备对每个音频数据的各个对数能量进行离散余弦变换, 得到梅尔频率倒谱系数,作为第一音频特征。
需要说明的是,上述仅为几种示例性的对拼接后的音频特征进行压缩的方 式,在更多可能的实现方式中,采用其他方式来进行音频特征的压缩,以得到 第一音频特征,本申请实施例对此不加以限定。
通过对拼接后的音频特征压缩得到第一音频特征,能够减小第一音频特征 的维度,进而减少电子设备的计算量,提高音频数据的处理速度。
304、电子设备对该第一音频特征进行分类处理,得到分类标签,该分类标 签用于指示该第一音频特征中的目标音频特征,该目标音频特征为该多个麦克 风组件中距离声源最近的麦克风组件对应的音频特征。
在一种可能的实现方式中,电子设备将该第一音频特征输入音频分类模型, 通过该音频分类模型对该第一音频特征进行分类处理,得到该分类标签。
其中,该音频分类模型为卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆神经网络 (LongShort-Term Memory,LSTM)、双向长短时记忆神经网络(Bidirectional Long Short-TermMemory,BLSTM)和门循环单元神经网络(Gate Recurrent Unit, GRU)等,可选地,该音频分类模型为其他类型的神经网络,本申请实施例对 此不加以限定。
以该音频分类模型为CNN为例,电子设备将该第一音频特征输入作为音频 分类模型的CNN,通过CNN的卷积层,提取该第一音频特征的卷积特征,通 过CNN的池化层,对提取出的卷积特征进行降维处理,通过CNN的全连接层, 基于降维处理后的卷积特征,确定第一音频特征的分类标签。
通过该音频分类模型,能够从采集到的多个音频数据中区分出待分离的音 频数据,也即是,距离声源最近的麦克风组件采集到的音频数据。可选地,若 第一音频特征为拼接后的音频特征经过压缩得到的音频特征,则第一音频特征 的维度较小,将第一音频特征输入音频分类模型,使得音频分类模型的输入维 度较小,而且仅需输出分类标签这一个维度的输出结果,以保证音频分类模型 较小,便于训练和使用。
需要说明的是,上述仅为一种示例性的用于确定第一音频特征的分类标签 的方式,在更多可能的实现方式中,采用其他方式来进行第一音频特征的分类 标签的确定,本申请实施例对此不加以限定。
其中,该音频分类模型通过预先进行训练得到。该音频分类模型的训练过 程如下:服务器获取多个第一样本音频数据对应的多个第一样本音频特征,以 及该多个第一样本音频特征对应的样本分类标签,该多个第一样本音频数据由 同一设备上的多个麦克风组件采集得到,该样本分类标签用于指示该多个第一 样本音频特征中的目标样本音频特征,该目标样本音频特征为该多个麦克风组 件中距离声源最近的麦克风组件对应的第一样本音频特征,基于该多个第一样 本音频特征和该多个第一样本音频特征对应的样本分类标签,训练该音频分类 模型。
在训练音频分类模型时,服务器将多个第一样本音频数据对应的多个第一 样本音频特征中的第一个第一样本音频特征输入初始音频分类模型,通过初始 音频分类模型确定出第一个第一样本音频特征的分类标签,进而基于确定出的 第一个第一样本音频特征的分类标签,以及第一个第一样本音频特征的样本分 类标签,确定初始音频分类模型的损失函数值,根据损失函数值,利用梯度修 正网络,对初始音频分类模型的参数进行调整,得到经过第一次参数调整的音 频分类模型。再将多个第一样本音频数据对应的多个第一样本音频特征中的第 二个第一样本音频特征输入经过第一次参数调整的音频分类模型,通过经过第 一次参数调整的音频分类模型确定出第二个第一样本音频特征的分类标签,进 而基于确定出的第二个第一样本音频特征的分类标签,以及第二个第一样本音 频特征的样本分类标签,确定经过第一次参数调整的音频分类模型的损失函数 值,根据损失函数值,利用梯度修正网络,对经过第一次参数调整的音频分类 模型的参数继续进行调整。以此类推,最终得到满足第一目标条件的音频分类 模型。该第一目标条件为音频分类模型确定出的分类标签的准确性满足迭代截 止条件,或者,音频分类模型的损失函数值满足迭代截止条件,或者,迭代次 数达到预设次数,本申请实施例对具体采用哪种条件不加以限定。
需要说明的是,上述模型训练过程,是以服务器训练音频分类模型为例来 进行说明的,训练完成后,服务器将训练得到的音频分类模型下发给电子设备, 以便电子设备基于获取到的音频分类模型,进行第一音频特征的分类处理。在 更多可能的实现方式中,电子设备获取多个第一样本音频数据对应的多个第一 样本音频特征,以及该多个第一样本音频特征对应的样本分类标签,基于该多 个第一样本音频特征和该多个第一样本音频特征对应的样本分类标签,训练该 音频分类模型,本申请实施例对此不加以限定。
305、电子设备基于该分类标签,从该第一音频特征中分离出该目标音频特 征。
在一种可能的实现方式中,电子设备将分类标签所指示的目标音频特征的 起始位置,与第一音频特征中与目标音频特征相连的前一个音频特征的结束位 置分离开,将目标音频特征的结束位置,与第一音频特征中与目标音频特征相 连的后一个音频特征的起始位置分离开,从而从该第一音频特征中分离出该目 标音频特征。
仍以电子设备获取到第一音频数据、第二音频数据、第三音频数据、第四 音频数据和第五音频数据5个音频数据为例,则第一音频特征中依次包括第一 音频数据的音频特征、第二音频数据的音频特征、第三音频数据的音频特征、 第四音频数据的音频特征和第五音频数据的音频特征,相邻两个音频特征之间 首尾相接。若该目标音频特征为第三音频数据的音频特征,则电子设备将第三 音频数据的音频特征的起始位置,与第二音频数据的音频特征的结束位置分离 开,将第三音频数据的音频特征的结束位置,与第四音频数据的音频特征的起 始位置分离开,从而从第一音频特征中分离出第三音频数据的音频特征,也即 是,目标音频特征。
可选地,若电子设备在对多个音频特征进行拼接时,记录了相邻音频特征 之间的拼接位置,则在从第一音频特征中分离目标音频特征时,基于已经记录 的相邻音频特征之间的拼接位置,按照目标音频特征是第几个音频特征,确定 该目标音频特征的拼接位置,进而对该目标音频特征进行分离。例如,若电子 设备记录的是相邻两个音频特征中前一个音频特征的结束位置,且目标音频特 征是第3个音频特征,则在进行目标音频特征的分离时,电子设备确定第2个 音频特征的结束位置和第3个音频特征的结束位置,进而从第一音频特征中将 第2个音频特征的结束位置到第3个音频特征的结束位置这部分的音频特征分离出来,这部分音频特征即为第3个音频特征;若电子设备记录的是相邻两个 音频特征中后一个音频特征的起始位置,且目标音频特征是第3个音频特征, 则在进行目标音频特征的分离时,电子设备确定第3个音频特征的起始位置和 第4个音频特征的起始位置,进而从第一音频特征中将第3个音频特征的起始 位置到第4个音频特征的起始位置这部分的音频特征分离出来,这部分音频特 征即为第3个音频特征。
306、电子设备基于该目标音频特征,生成目标音频数据。
在一种可能的实现方式中,电子设备将该目标音频特征输入语音分离模型, 通过该语音分离模型,输出该目标音频特征的掩模,基于该目标音频特征的掩 模,对该多个音频数据中该目标音频特征对应的音频数据进行语音分离,得到 该目标音频数据。
需要说明的是,该语音分离模型为CNN、RNN、LSTM、BLSTM和GRU 等,可选地,该语音分离模型为其他类型的神经网络,本申请实施例对此不加 以限定。
以该语音分离模型为CNN为例,电子设备将该目标音频特征输入作为语音 分离模型的CNN,通过CNN的卷积层,提取该目标音频特征的卷积特征,通 过CNN的池化层,对提取出的卷积特征进行降维处理,通过CNN的全连接层, 基于降维处理后的卷积特征,输出该目标音频特征对应的掩模。在基于该目标 音频特征的掩模,对该多个音频数据中该目标音频特征对应的音频数据进行语 音分离时,电子设备将该目标音频特征对应的掩模与该第三音频数据和第四音 频数据进行融合,得到目标音频数据。
其中,在将该目标音频特征对应的掩模与该第三音频数据和第四音频数据 进行融合时,耳机获取步骤302中所确定出来的该多个音频数据的音频特征, 将该掩模与第三音频数据的音频特征以及第四音频数据的音频特征进行融合, 得到融合后的音频特征,基于该融合后的音频特征,生成该目标音频数据。
需要说明的是,在对掩模和音频特征进行融合时,通过对该掩模和音频特 征中的各个数值进行对应的乘法运算,即可实现对掩模和音频特征的融合。
例如,若该目标音频特征包括第三音频数据的音频特征和第四音频数据的 音频特征连个音频特征,则表明在该设备中同时有两个人在说话,通过将目标 音频特征输入语音分离模型,通过语音分离模型即可确定出目标音频特征对应 的掩模,在该掩模中,对于第三音频数据对应的掩模,仅包括距离第三麦克风 组件最近的声源发出的声音的第三音频数据对应的掩模值为第一数值,仅包括 除距离第三麦克风组件最近的声源发出的声音之外的杂音的第三音频数据对应 的掩模值为第二数值,包括第三麦克风组件以及其他麦克风组件发出的声音的 第三音频数据对应的掩模值为第三数值,对于第四音频数据对应的掩模,仅包 括距离第四麦克风组件最近的声源发出的声音的第四音频数据对应的掩模值为 第一数值,仅包括除距离第四麦克风组件最近的声源发出的声音的杂音的第四 音频数据对应的掩模值为第二数值,包括第四麦克风组件以及其他麦克风组件 发出的声音的第四音频数据对应的掩膜值为第三数值,将该掩模与第三音频数 据的音频特征和第四音频数据的音频特征进行融合,进而基于融合后的特征即 可得到去除杂音后的第三音频数据和第四音频数据,作为目标音频数据,使得 目标音频数据中仅包括两个说话人的声音,实现语音分离。
其中,第一数值为1,第二数值为0,第三数值为距离该麦克风组件较近的 特征数值占输入特征数值的比例,可选地,第一数值、第二数值和第三数值为 其他取值,本申请实施例对此不加以限定。
由于目标音频特征为已经筛选出的距离声源位置最近的麦克风组件采集到 的音频数据的音频特征,因此该语音分离模型的输入大大减小,从而减小语音 分离模型的计算量,有利于提升系统的实时性。例如,若5个麦克风组件采集 到的5个音频数据中,仅有2个音频数据为距离声源位置最近的麦克风组件采 集到的音频数据,则仅需将这2个距离声源位置最近的麦克风组件采集到的音 频数据输入语音分离模型,语音分离模型计算量就缩小了60%,系统的实时性 大大提高。
需要说明的是,上述仅为一种示例性的用于基于目标音频特征生成目标音 频数据的方式,在更多可能的实现方式中,采用其他方式来进行目标音频数据 的生成,本申请实施例对此不加以限定。
其中,该语音分离模型通过预先进行训练得到。该语音分离模型的训练过 程如下:服务器获取多个第二样本音频数据对应的多个第二样本音频特征,以 及该多个第二样本音频特征对应的样本掩模,基于该多个第二样本音频特征和 该多个第二样本音频特征对应的样本掩模,训练该语音分离模型。
在训练语音分离模型时,服务器将多个第二样本音频数据对应的多个第二 样本音频特征中的第一个第二样本音频特征输入初始语音分离模型,通过初始 语音分离模型输出第一个第二样本音频特征对应的掩模,进而基于模型输出的 掩模,以及第一个第二样本音频数据对应的样本掩模,确定初始语音分离模型 的损失函数值,根据损失函数值,利用梯度修正网络,对初始语音分离模型的 参数进行调整,得到经过第一次参数调整的语音分离模型。再将多个第二样本 音频数据对应的多个第二样本音频特征中的第二个第二样本音频特征输入经过 第一次参数调整的语音分离模型,通过经过第一次参数调整的语音分离模型输 出第二个第二样本音频特征对应的掩模,进而基于模型输出的掩模,以及第二个第二样本音频特征对应的样本掩模,确定经过第一次参数调整的语音分离模 型的损失函数值,根据损失函数值,利用梯度修正网络,对经过第一次参数调 整的语音分离模型的参数继续进行调整。以此类推,最终得到满足第二目标条 件的语音分离模型。该第二目标条件为语音分离模型输出的掩模的准确性满足 迭代截止条件,或者,语音分离模型的损失函数值满足迭代截止条件,或者, 迭代次数达到预设次数,本申请实施例对具体采用哪种条件不加以限定。
需要说明的是,上述模型训练过程,是以服务器训练语音分离模型为例来 进行说明的,训练完成后,服务器将训练得到的语音分离模型下发给电子设备, 以便电子设备基于获取到的语音分离模型,进行第一音频特征的分类处理。在 更多可能的实现方式中,电子设备获取多个第二样本音频数据对应的多个第二 样本音频特征,以及该多个第二样本音频特征对应的样本掩模,基于该多个第 二样本音频特征和该多个第二样本音频特征对应的样本掩模,训练该语音分离 模型,本申请实施例对此不加以限定。
上述步骤301至步骤306的过程,参见图5所示的流程图,图5是本申请 实施例提供的一种音频数据处理方法的流程图,以麦克风组件的数量为5个为 例,电子设备通过这5个麦克风组件获取到5个音频数据,也即是,5通道音频 数据,进而对这5通道音频数据进行特征提取及特征拼接,得到拼接后的第一 音频特征,也即是输入特征1,对输入特征1进行特征压缩,得到输入特征2, 将输入特征2输入音频分类模型,以确定出这5个通道中的待分离通道,也即 是,距离声源位置最近的麦克风组件采集的音频数据对应的通道,进而基于确定出的待分离通道,对输入特征1进行特征筛选,以得到目标音频特征,将目 标音频特征输入语音分离模型,输出最后的分离结果,也即是目标音频数据, 实现音频数据的分离。
本申请实施例提供的方案,通过对多个音频数据的音频特征进行拼接得到 的第一音频特征进行分类处理,以得到分类标签,由于分类标签能够指示第一 音频特征中的哪些音频特征是距离声源最近的麦克风组件采集到的音频数据对 应的音频特征,进而将分类标签所指示的目标音频特征,从第一音频特征中分 离出来,以便基于分离出的目标音频特征来生成目标音频数据,使得目标音频 数据是距离声源最近的麦克风组件采集到的音频数据,实现将目标音频数据从 采集到的音频数据中分离出来,提高了音频数据分离的准确性。通过在车辆中 设置5个麦克风组件,并采用分布式的麦克风摆放方式,能够提高车辆内麦克 风组件的收声效果,进而结合音频分类模型和语音分离模型,利用深度学习方 法进行说话人位置的定位与语音分离,能够实现无盲区的语音分离,而且本申 请实施例提供的方案在进行语音分离时,是基于音频数据的细节谱结构信息来 进行分离的,提升语音分离性能,提高语音分离效果。此外,采用音频分类模 型和语音分离模型这两个神经网络配合,分别实现通道选择和通道分离,在保 证分离效果的同时降低了计算量,提高了系统执行的实时性。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在 此不再一一赘述。
图6是本申请实施例提供的一种音频数据处理装置的结构示意图,参见图6, 该装置包括:
拼接模块601,用于对多个音频数据的音频特征进行拼接,得到第一音频特 征,该多个音频数据由同一设备上的多个麦克风组件采集得到;
分类模块602,用于对该第一音频特征进行分类处理,得到分类标签,该分 类标签用于指示该第一音频特征中的目标音频特征,该目标音频特征为该多个 麦克风组件中距离声源最近的麦克风组件对应的音频特征;
分离模块603,用于基于该分类标签,从该第一音频特征中分离出该目标音 频特征;
生成模块604,用于基于该目标音频特征,生成目标音频数据。
本申请实施例提供的装置,通过对多个音频数据的音频特征进行拼接得到 的第一音频特征进行分类处理,以得到分类标签,由于分类标签能够指示第一 音频特征中的哪些音频特征是距离声源最近的麦克风组件采集到的音频数据对 应的音频特征,进而将分类标签所指示的目标音频特征,从第一音频特征中分 离出来,以便基于分离出的目标音频特征来生成目标音频数据,使得目标音频 数据是距离声源最近的麦克风组件采集到的音频数据,实现将目标音频数据从 采集到的音频数据中分离出来,提高了音频数据分离的准确性。
在一种可能的实现方式中,该分类模块602,用于将该第一音频特征输入音 频分类模型,通过该音频分类模型对该第一音频特征进行分类处理,得到该分 类标签。
在一种可能的实现方式中,该音频分类模型的训练过程包括:
获取多个第一样本音频数据对应的多个第一样本音频特征,以及该多个第 一样本音频特征对应的样本分类标签,该多个第一样本音频数据由同一设备上 的多个麦克风组件采集得到,该样本分类标签用于指示该多个第一样本音频特 征中的目标样本音频特征,该目标样本音频特征为该多个麦克风组件中距离声 源最近的麦克风组件对应的第一样本音频特征;
基于该多个第一样本音频特征和该多个第一样本音频特征对应的样本分类 标签,训练该音频分类模型。
在一种可能的实现方式中,该装置还包括:
特征提取模块,用于对该多个音频数据进行特征提取,得到该多个音频数 据的音频特征。
在一种可能的实现方式中,该拼接模块601,用于对该多个音频数据的音频 特征进行拼接,得到拼接后的音频特征;对该拼接后的音频特征进行压缩,得 到该第一音频特征。
在一种可能的实现方式中,该设备为车辆,该多个麦克风组件包括第一麦 克风组件、第二麦克风组件、第三麦克风组件、第四麦克风组件和第五麦克风 组件,该第一麦克风组件和该第二麦克风组件分别位于该车辆的前风挡玻璃两 侧的立柱与前风挡玻璃上部的横梁的连接处,该第三麦克风组件和该第四麦克 风组件分别位于该车辆的后风挡玻璃两侧的立柱与后风挡玻璃上部的横梁的连 接处,该第五麦克风组件位于该第三麦克风组件和该第四麦克风组件的连线中 点对应的顶盖处。
在一种可能的实现方式中,该生成模块604,用于将该目标音频特征输入语 音分离模型,通过该语音分离模型,输出该目标音频特征的掩模;基于该目标 音频特征的掩模,对该多个音频数据中该目标音频特征对应的音频数据进行语 音分离,得到该目标音频数据。
在一种可能的实现方式中,该语音分离模型的训练过程包括:
获取多个第二样本音频数据对应的多个第二样本音频特征,以及该多个第 二样本音频特征对应的样本掩模;
基于该多个第二样本音频特征和该多个第二样本音频特征对应的样本掩 模,训练该语音分离模型。
需要说明的是:上述实施例提供的音频数据处理装置在对音频数据进行分 离时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要 而将上述功能分配由不同的功能模块完成,即将电子设备的内部结构划分成不 同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供 的音频数据处理装置与音频数据处理方法实施例属于同一构思,其具体实现过 程详见方法实施例,这里不再赘述。
图7是本申请实施例提供的一种电子设备的结构示意图。该电子设备700 可以是:车辆、智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV,动态影像专家压缩标准音频层面4)播放器、笔 记本电脑或台式电脑。电子设备700还可能被称为用户设备、便携式车载终端、 膝上型车载终端、台式车载终端等其他名称。
通常,电子设备700包括有:一个或多个处理器701和一个或多个存储器 702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理 器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA (Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可 以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理 的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于 对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701 可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显 示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括 AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器 学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储 介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失 性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中, 存储器702中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该 至少一个程序代码用于被处理器701所执行以实现本申请中方法实施例提供的 音频数据处理方法。
在一些实施例中,电子设备700还可选包括有:外围设备接口703和至少 一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线 或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口 703相连。具体地,外围设备包括:射频电路704、显示屏705、音频电路706、 和电源707中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少 一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、 存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实 施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以 在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电 磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。 射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号 转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多 个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块 卡等等。射频电路704可以通过至少一种无线通信协议来与其它车载终端进行 通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些 实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离 无线通信)有关的电路,本申请对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、 文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示 屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸 信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以 用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中, 显示屏705可以为一个,设置电子设备700的前面板;在另一些实施例中,显 示屏705可以为至少两个,分别设置在电子设备700的不同表面或呈折叠设计; 在再一些实施例中,显示屏705可以是柔性显示屏,设置在电子设备700的弯 曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形, 也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display,液晶显示屏)、 OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
音频电路706可以包括麦克风和扬声器。麦克风用于采集用户及环境的声 波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路 704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别 设置在电子设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦 克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。 扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电 陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号 转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路706 还可以包括耳机插孔。
电源707用于为电子设备700中的各个组件进行供电。电源707可以是交 流电、直流电、一次性电池或可充电电池。当电源707包括可充电电池时,该 可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充 技术。
领域技术人员可以理解,图7中示出的结构并不构成对电子设备700的限 定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的 组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括程序代 码的存储器,上述程序代码可由处理器执行以完成上述实施例中的音频数据处 理方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序,该计算机程序存储在计算 机可读存储介质中,电子设备的处理器从计算机可读存储介质读取该计算机程 序代码,处理器执行该计算机程序代码,使得该电子设备执行上述实施例中提 供的音频数据处理方法的方法步骤。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过 硬件来完成,也可以通过程序来程序代码相关的硬件完成,该程序可以存储于 一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或 光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神 和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护 范围之内。

Claims (8)

1.一种音频数据处理方法,其特征在于,所述方法包括:
对多个音频数据的音频特征进行拼接,得到第一音频特征,所述多个音频数据由同一设备上的多个麦克风组件采集得到;
将所述第一音频特征输入音频分类模型,通过所述音频分类模型对所述第一音频特征进行分类处理,得到分类标签,所述分类标签用于指示所述第一音频特征中的目标音频特征,所述目标音频特征为所述多个麦克风组件中距离声源最近的麦克风组件对应的音频特征;
基于所述分类标签,从所述第一音频特征中分离出所述目标音频特征;
基于所述目标音频特征,生成目标音频数据;
所述音频分类模型的训练过程包括:
获取多个第一样本音频数据对应的多个第一样本音频特征,以及所述多个第一样本音频特征对应的样本分类标签,所述多个第一样本音频数据由同一设备上的多个麦克风组件采集得到,所述样本分类标签用于指示所述多个第一样本音频特征中的目标样本音频特征,所述目标样本音频特征为所述多个麦克风组件中距离声源最近的麦克风组件对应的第一样本音频特征;
基于所述多个第一样本音频特征和所述多个第一样本音频特征对应的样本分类标签,训练所述音频分类模型。
2.根据权利要求1所述的方法,其特征在于,所述对多个音频数据的音频特征进行拼接,得到第一音频特征之前,所述方法还包括:
对所述多个音频数据进行特征提取,得到所述多个音频数据的音频特征。
3.根据权利要求1所述的方法,其特征在于,所述对多个音频数据的音频特征进行拼接,得到第一音频特征包括:
对所述多个音频数据的音频特征进行拼接,得到拼接后的音频特征;
对所述拼接后的音频特征进行压缩,得到所述第一音频特征。
4.根据权利要求1所述的方法,其特征在于,所述设备为车辆,所述多个麦克风组件包括第一麦克风组件、第二麦克风组件、第三麦克风组件、第四麦克风组件和第五麦克风组件,所述第一麦克风组件和所述第二麦克风组件分别位于所述车辆的前风挡玻璃两侧的立柱与前风挡玻璃上部的横梁的连接处,所述第三麦克风组件和所述第四麦克风组件分别位于所述车辆的后风挡玻璃两侧的立柱与后风挡玻璃上部的横梁的连接处,所述第五麦克风组件位于所述第三麦克风组件和所述第四麦克风组件的连线中点对应的顶盖处。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标音频特征,生成目标音频数据包括:
将所述目标音频特征输入语音分离模型,通过所述语音分离模型,输出所述目标音频特征的掩模;
基于所述目标音频特征的掩模,对所述多个音频数据中所述目标音频特征对应的音频数据进行语音分离,得到所述目标音频数据。
6.一种音频数据处理装置,其特征在于,所述装置包括:
拼接模块,用于对多个音频数据的音频特征进行拼接,得到第一音频特征,所述多个音频数据由同一设备上的多个麦克风组件采集得到;
分类模块,用于将所述第一音频特征输入音频分类模型,通过所述音频分类模型对所述第一音频特征进行分类处理,得到分类标签,所述分类标签用于指示所述第一音频特征中的目标音频特征,所述目标音频特征为所述多个麦克风组件中距离声源最近的麦克风组件对应的音频特征;
分离模块,用于基于所述分类标签,从所述第一音频特征中分离出所述目标音频特征;
生成模块,用于基于所述目标音频特征,生成目标音频数据;
所述音频分类模型的训练过程包括:
获取多个第一样本音频数据对应的多个第一样本音频特征,以及所述多个第一样本音频特征对应的样本分类标签,所述多个第一样本音频数据由同一设备上的多个麦克风组件采集得到,所述样本分类标签用于指示所述多个第一样本音频特征中的目标样本音频特征,所述目标样本音频特征为所述多个麦克风组件中距离声源最近的麦克风组件对应的第一样本音频特征;
基于所述多个第一样本音频特征和所述多个第一样本音频特征对应的样本分类标签,训练所述音频分类模型。
7.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频数据处理方法所执行的操作。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频数据处理方法所执行的操作。
CN202011542818.8A 2020-12-22 2020-12-22 音频数据处理方法、装置、电子设备及可读存储介质 Active CN112735382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011542818.8A CN112735382B (zh) 2020-12-22 2020-12-22 音频数据处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011542818.8A CN112735382B (zh) 2020-12-22 2020-12-22 音频数据处理方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112735382A CN112735382A (zh) 2021-04-30
CN112735382B true CN112735382B (zh) 2024-02-02

Family

ID=75604759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011542818.8A Active CN112735382B (zh) 2020-12-22 2020-12-22 音频数据处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112735382B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989107B (zh) * 2021-05-18 2021-07-30 北京世纪好未来教育科技有限公司 音频分类和分离方法、装置、电子设备以及存储介质
CN114512141A (zh) * 2022-02-09 2022-05-17 腾讯科技(深圳)有限公司 音频分离的方法、装置、设备、存储介质和程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205911008U (zh) * 2016-05-13 2017-01-25 南靖万利达科技有限公司 一种智能机器人的多角度定位系统
CN208367199U (zh) * 2018-07-11 2019-01-11 苏州宏云智能科技有限公司 分离式麦克风阵列
CN110085235A (zh) * 2019-05-05 2019-08-02 珠海格力电器股份有限公司 语音控制方法和装置
CN111128222A (zh) * 2018-10-30 2020-05-08 富士通株式会社 语音分离方法、语音分离模型训练方法和计算机可读介质
CN111837185A (zh) * 2018-12-07 2020-10-27 广东省智能制造研究所 基于约束半非负矩阵分解的声音分类方法、装置及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869645B (zh) * 2016-03-25 2019-04-12 腾讯科技(深圳)有限公司 语音数据处理方法和装置
CN109358523A (zh) * 2018-11-23 2019-02-19 深圳市么么科技有限公司 具有语音识别功能的智能家具控制器
US11159597B2 (en) * 2019-02-01 2021-10-26 Vidubly Ltd Systems and methods for artificial dubbing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205911008U (zh) * 2016-05-13 2017-01-25 南靖万利达科技有限公司 一种智能机器人的多角度定位系统
CN208367199U (zh) * 2018-07-11 2019-01-11 苏州宏云智能科技有限公司 分离式麦克风阵列
CN111128222A (zh) * 2018-10-30 2020-05-08 富士通株式会社 语音分离方法、语音分离模型训练方法和计算机可读介质
CN111837185A (zh) * 2018-12-07 2020-10-27 广东省智能制造研究所 基于约束半非负矩阵分解的声音分类方法、装置及介质
CN110085235A (zh) * 2019-05-05 2019-08-02 珠海格力电器股份有限公司 语音控制方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于NIST评测的说话人分类及定位技术研究;杨毅;宋辉;刘加;;电子与信息学报(05);全文 *
基于时频稀疏性的混叠语音分离及失真对策(续完);付中华;赵亚丽;;电声技术(06);全文 *

Also Published As

Publication number Publication date
CN112735382A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN110853618A (zh) 一种语种识别的方法、模型训练的方法、装置及设备
CN110853617B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN110838286A (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN105719659A (zh) 基于声纹识别的录音文件分离方法及装置
CN110600059B (zh) 声学事件检测方法、装置、电子设备及存储介质
CN112735382B (zh) 音频数据处理方法、装置、电子设备及可读存储介质
US20240038238A1 (en) Electronic device, speech recognition method therefor, and medium
CN110992963B (zh) 网络通话方法、装置、计算机设备及存储介质
CN103888604A (zh) 一种终端应用模式的切换方法及终端
CN110931000B (zh) 语音识别的方法和装置
CN111524501A (zh) 语音播放方法、装置、计算机设备及计算机可读存储介质
CN111081275B (zh) 基于声音分析的终端处理方法、装置、存储介质及终端
CN111385688A (zh) 一种基于深度学习的主动降噪方法、装置及系统
CN114333774B (zh) 语音识别方法、装置、计算机设备及存储介质
CN110728993A (zh) 一种变声识别方法及电子设备
CN111341307A (zh) 语音识别方法、装置、电子设备及存储介质
CN113470653A (zh) 声纹识别的方法、电子设备和系统
CN115116458B (zh) 语音数据转换方法、装置、计算机设备及存储介质
CN112750425B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
CN115331689A (zh) 语音降噪模型的训练方法、装置、设备、存储介质及产品
CN108417208B (zh) 一种语音输入方法和装置
CN113823278B (zh) 语音识别方法、装置、电子设备及存储介质
CN111091807A (zh) 语音合成方法、装置、计算机设备及存储介质
CN115129923B (zh) 语音搜索方法、设备及存储介质
CN113450823B (zh) 基于音频的场景识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant