CN108242234B - 语音识别模型生成方法及其设备、存储介质、电子设备 - Google Patents

语音识别模型生成方法及其设备、存储介质、电子设备 Download PDF

Info

Publication number
CN108242234B
CN108242234B CN201810024461.0A CN201810024461A CN108242234B CN 108242234 B CN108242234 B CN 108242234B CN 201810024461 A CN201810024461 A CN 201810024461A CN 108242234 B CN108242234 B CN 108242234B
Authority
CN
China
Prior art keywords
vehicle
data
voice
sample
reverberation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810024461.0A
Other languages
English (en)
Other versions
CN108242234A (zh
Inventor
孙涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810024461.0A priority Critical patent/CN108242234B/zh
Publication of CN108242234A publication Critical patent/CN108242234A/zh
Application granted granted Critical
Publication of CN108242234B publication Critical patent/CN108242234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明实施例公开一种语音识别模型生成方法及其设备、存储介质、电子设备,其中方法包括如下步骤:在样本语音数据集合中获取目标样本语音数据,针对目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据;基于目标样本语音数据、第一目标数量的车载点源噪音数据以及第二目标数量的车载冲激响应数据,并采用混响信号模拟模型生成目标样本语音数据的车载混响语音集合;基于样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。采用本发明,可以准确模拟车载混响语音信号,并可以提高采用语音识别模型识别车载语音信号的准确率。

Description

语音识别模型生成方法及其设备、存储介质、电子设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种语音识别模型生成方法及其设备、存储介质、电子设备。
背景技术
语音是日常生活中携带信息的常用方式,随着语音技术的发展,也出现了越来越多的语音识别系统来进行语音识别,根据语音来源距离的不同,可以有远场语音和近场语音的分别,在进行语音识别时,针对不同的语音,可以采用不同的处理策略来进行语音处理,以便获取到清晰可识别的语音信息。
车载语音识别是发生在车载环境下的一种远场语音信号的识别。与近场语音识别相比,车载语音识别不得不考虑混响、噪音等更多的因素。
现有技术中,对于车载语音信号的识别过程,通常是采用模拟混响的数学模型对所采集的人声信号进行模拟,以生成车载混响语音信号,进而采用语音识别模型去识别该车载混响语音信号。而现有的模拟混响的数学模型虽然考虑了混响、点源噪音和背景噪音等参数,但通常采用定制化的车载空间,也就是说,车载空间尺寸、点源噪音以及背景噪音等参数都是固定值,从而使得所模拟的车载混响语音信号与真实车载环境中的语音信号差别大,进而导致采用现有的语音识别模型识别车载语音信号的准确率低。
发明内容
本发明实施例提供一种语音识别模型生成方法及其设备、存储介质、电子设备,可以准确模拟车载混响语音信号,使得所模拟的车载混响语音信号更接近真实车载环境中的语音信号,并基于模拟的车载混响语音信号生成车载语音识别模型,可以提高采用语音识别模型识别车载语音信号的准确率。
本发明实施例第一方面提供了一种语音识别模型生成方法,可包括:
在样本语音数据集合中获取目标样本语音数据,针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据;
基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据,并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合;
基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。
可选的,所述在样本语音数据集合中获取当前样本语音数据之前,还包括:
采集多种样本语音数据、多种车载点源噪音数据以及多种车载空间中各车载空间对应的车载冲激响应数据,并生成包含多种样本语音数据的样本语音数据集合、包含多种车载点源噪音数据的车载噪音数据集合以及包含各车载空间对应的车载冲激响应数据的车载冲激响应数据集合。
可选的,所述采集多种车载空间中各车载空间对应的车载冲激响应数据,包括:
获取多种车载空间,并获取所述多种车载空间中各车载空间的声源与麦克风之间的各相对位置;
采用源镜像模型分别获取所述各相对位置下随响应时间变化的声压值;
将所述声压值作为所述各相对位置对应的车载冲激响应数据。
可选的,所述基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型,包括:
创建语音识别模型,基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一语音识别参数;
将所述第一语音识别参数代入所述语音识别模型中,以生成车载语音识别模型。
可选的,所述基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一车载识别参数,包括:
基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的多组第二语音识别参数;
将所述多组第二语音识别参数分别代入所述语音识别模型中,以生成测试语音识别模型集合;
分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率;
基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本;
基于所述训练样本获取所述语音识别模型的第一语音识别参数。
可选的,所述分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率,包括:
采集车载语音数据,采用所述测试语音识别模型集合中各测试语音识别模型分别对所述车载语音数据进行识别,以分别获取所述各测试车载语音识别模型对应的识别错误率。
可选的,所述基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本,包括:
获取所述各测试车载语音识别模型对应的识别错误率分别指示的设定数量;
依次在所述各样本语音数据对应的车载混响语音信号集合中选取各设定数量的车载混响语音信号,将所选取的车载混响语音信号作为训练样本。
本发明实施例第二方面提供了一种语音识别模型生成设备,可包括:
数据获取单元,用于在样本语音数据集合中获取目标样本语音数据,针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据;
集合获取单元,用于基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据,并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合;
模型生成单元,用于基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。
可选的,所述设备还包括:
数据采集单元,用于采集多种样本语音数据、多种车载点源噪音数据以及多种车载空间中各车载空间对应的车载冲激响应数据,并生成包含多种样本语音数据的样本语音数据集合、包含多种车载点源噪音数据的车载噪音数据集合以及包含各车载空间对应的车载冲激响应数据的车载冲激响应数据集合。
可选的,所述数据采集单元,包括:
位置获取子单元,用于获取多种车载空间,并获取所述车载空间中各车载空间的声源与麦克风之间的各相对位置;
升压值获取子单元,用于采用源镜像模型分别获取所述各相对位置下随响应时间变化的声压值;
响应获取子单元,用于将所述声压值作为所述各相对位置对应的车载冲激响应数据。
可选的,所述模型生成单元,包括:
第一参数获取子单元,用于创建语音识别模型,基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一语音识别参数;
模型生成子单元,用于将所述第一语音识别参数代入所述语音识别模型中,以生成车载语音识别模型。
可选的,所述第一参数获取子单元,具体用于:
基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的多组第二语音识别参数;
将所述多组第二语音识别参数分别代入所述语音识别模型中,以生成测试语音识别模型集合;
分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率;
基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本;
基于所述训练样本获取所述语音识别模型的第一语音识别参数。
可选的,所述第一参数获取子单元,具体用于:
采集车载语音数据,采用所述测试语音识别模型集合中各测试语音识别模型分别对所述车载语音数据进行识别,以分别获取所述各测试车载语音识别模型对应的识别错误率。
可选的,所述第一参数获取子单元,具体用于:
获取所述各测试车载语音识别模型对应的识别错误率分别指示的设定数量;
依次在所述各样本语音数据对应的车载混响语音信号集合中选取各设定数量的车载混响语音信号,将所选取的车载混响语音信号作为训练样本。
本发明实施例第三方面提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行以下步骤:
在样本语音数据集合中获取目标样本语音数据,针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据;
基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据,并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合;
基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。
本发明实施例第四方面提供了一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:
在样本语音数据集合中获取目标样本语音数据,针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据;
基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据,并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合;
基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。
在本发明实施例中,通过在样本语音数据集合中获取目标样本语音数据,针对目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据,并采用混响信号模拟模型对所获取的数据进行模拟,从而生成目标样本语音数据的车载混响语音集合,采用相同方式获取样本语音数据集合中各样本语音数据对应的车载混响语音集合,并基于该车载混响语音集合生成车载语音识别模型。通过考虑车载空间尺寸以及车载空间中点源噪音数据、冲激响应数据等参数的多样性,覆盖了多种车载环境,使得所模拟的车载混响语音信号更接近真实车载环境中的语音信号,并基于模拟的车载混响语音信号生成车载语音识别模型,可以提高采用语音识别模型识别车载语音信号的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音识别模型生成方法的流程示意图;
图2是本发明实施例提供的一种样本语音数据的坐标示意图;
图3是本发明实施例提供的另一种语音识别模型生成方法的流程示意图;
图4是本发明实施例提供的另一种语音识别模型生成方法的流程示意图;
图5是本发明实施例提供的一种车载空间的立体示意图;
图6是本发明实施例提供的一种车载空间的平面示意图;
图7是本发明实施例提供的一种冲激响应数据的坐标示意图;
图8是本发明实施例提供的另一种语音识别模型生成方法的流程示意图;
图9是本发明实施例提供的另一种语音识别模型生成方法的流程示意图;
图10是本发明实施例提供的另一种语音识别模型生成方法的流程示意图;
图11是本发明实施例提供的一种语音识别模型生成设备的结构示意图;
图12是本发明实施例提供的另一种语音识别模型生成设备的结构示意图;
图13是本发明实施例提供的一种模型生成单元的结构示意图;
图14是本发明实施例提供的一种数据采集单元的结构示意图;
图15是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的语音识别模型生成方法可以应用于车载语音识别的场景,通过在样本语音数据集合中获取目标样本语音数据,针对目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据,并采用混响信号模拟模型对所获取的数据进行模拟,从而生成目标样本语音数据的车载混响语音集合,采用相同方式获取样本语音数据集合中各样本语音数据对应的车载混响语音集合,并基于该车载混响语音集合生成车载语音识别模型。通过考虑车载空间尺寸以及车载空间中点源噪音数据、冲激响应数据等参数的多样性,覆盖了多种车载环境,使得所模拟的车载混响语音信号更接近真实车载环境中的语音信号,并基于模拟的车载混响语音信号生成车载语音识别模型,可以提高采用语音识别模型识别车载语音信号的准确率。
本发明实施例涉及的语音识别模型生成方法的执行依赖于计算机程序,可基于语音识别模型生成设备运行于冯若依曼体系的计算机系统之上。该语音识别模型生成设备可以包括平板电脑、个人计算机(PC)、智能手机、掌上电脑以及移动互联网设备(MID)等终端设备,也可以包括具有计算处理功能的服务器。
下面将结合附图1-附图10,对本发明实施例提供的语音识别模型生成方法进行详细介绍。
请参见图1,为本发明实施例提供了一种语音识别模型生成方法的流程示意图。如图1所示,本发明实施例的所述方法可以包括以下步骤S101-步骤S103。
S101,在样本语音数据集合中获取目标样本语音数据,针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据;
可以理解的是,在样本语音数据集合中包含有多个样本语音数据,所述多个样本语音数据可以为一个人所输入的样本语音数据,也可以为多个人所输入的样本语音数据。每个样本语音数据为在非车载环境下所采集,并通过标识信息对样本语音数据的数据内容进行标注。所述各样本语音数据可以如图2所示的曲线表示,x(t)为一个样本语音数据,即信号强度随时间的变化关系。
噪音数据包括背景噪音数据以及点源噪音数据。背景噪音数据一般指固定存在于电声系统中除有用信号以外的总噪音。而点源噪音数据是指一些特殊场景的噪音,如车载环境的点源噪音(车载点源噪音数据)主要包括引擎声、风声、雨刷声、车内播放的音乐声等。在车载噪音数据集合中包含有多种车载点源噪音数据,每种车载点源噪音数据与每类车载环境一一对应。所述车载环境类型可以为引擎声、风声、雨刷声、车内播放的音乐声等中的一种或几种。
车载冲激响应数据集合中包含属于不同尺寸的各车载空间对应的车载冲激响应数据,而在每个车载空间中又包含多个车载冲激响应数据,在同一车载空间中的多个车载冲激响应数据与该车载空间中声源及接收声音的麦克风之间的相对位置一一对应。也就是说,有R个不同尺寸的车载空间,每个车载空间中包括P个不同的声源及麦克风之间的相对位置,每个相对位置对应一个车载冲激响应数据,那么在车载冲激响应数据集合中包含R*P个车载冲激响应数据。所述冲激响应数据是冲激函数作为输入信号在固定位置经过固定车载空间的传播和反射产生的输出信号。所述冲激函数是指在除零以外的点上信号强度为零,且其在整个定义域上的积分等于1的函数。
具体实现中,语音识别模型生成设备通过遍历样本语音数据集合,并将遍历到的当前样本语音数据确定为目标样本语音数据,然后针对目标样本语音数据在车载噪音数据集合中随机选择多个(如i个)车载点源噪音数据,并在车载冲激响应数据集合中随机选择一个车载空间,并在选定的车载空间中随机选择多个(如i+1个)车载冲激响应数据。
S102,基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据,并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合;
可以理解的是,所述混响信号模拟模型是用于对样本语音数据进行模拟而产生车载混响语音信号的模型,可通过计算公式;
Figure BDA0001544505740000081
其中,xr(t)表示该车载空间输出的车载混响语音信号,x(t)表示输入的目标样本语音数据,ni(t)表示该车载空间包含的第i种点源噪声,hs(t)表示该车载空间中声源与麦克风相对位置下目标样本语音数据的冲激响应,hi(t)表示该车载空间中声源与麦克风相对位置下第i种点源噪音的冲激响应,d(t)表示背景噪音,*表示卷积计算,+表示信号的叠加。
所述混响信号模拟模型将各车载空间作为一个线性非时变系统,而对于一个线性非时变系统而言,系统的输出信号等于系统的输入信号与冲激响应的卷积运算,而系统的输出信号也就是车载空间产生的车载混响语音信号。其中,线性是指系统的输入和输出之间的关系是一个线性映射,非时变性是指如果将系统的输入信号延迟t秒,那么得到的输出除了这t秒延时以外是完全相同的。
具体实现中,将所获取的目标样本语音数据x(t)、所述第一目标数量(i个)的车载点源噪音数据ni(t)以及所述第二目标数量(i+1个)的车载冲激响应数据h(t)(其中一个作为hs(t),剩下的i个作为hi(t))输入至混响信号模拟模型
Figure BDA0001544505740000091
其中背景噪音d(t)为0,从而得到x(t)对应的车载混响语音信号xr(t),基于对同一个x(t)可以匹配到不同的ni(t)、hs(t)以及hi(t),因此可以得到x(t)对应的多个xr(t),从而生成x(t)对应的车载混响语音集合SIMULATE1。
S103,基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。
可以理解的是,所述样本语音数据集合中各样本语音数据对应的车载混响语音集合可采用上述方式一一获取,从而得到SIMULATE2、SIMULATE3…SIMULATEn。
具体实现中,创建语音识别模型,基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合SIMULATE1、SIMULATE2、SIMULATE3…SIMULATEn获取所述语音识别模型的多组第二语音识别参数,将所述多组第二语音识别参数分别代入所述语音识别模型中,生成测试语音识别模型集合MODEL,该集合MODEL中包括多个测试语音识别模型Model1、Model2、…、Modeln。获取各测试语音识别模型Model1、Model2、…、Modeln分别对应的识别错误率,并基于各识别错误率在所述各样本语音数据对应的车载混响语音集合SIMULATE1、SIMULATE2、SIMULATE3…SIMULATEn中选取样本车载混响语音信号作为训练样本,再基于所述训练样本获取所述语音识别模型的第一语音识别参数,然后将所述第一语音识别参数代入所述语音识别模型中,从而生成车载语音识别模型Model_final。
其中,所述语音识别模型是一种神经网络,所谓神经网络就是将许多个单一神经元联结在一起,一个神经元的输出就可以作为另一个神经元的输入。神经元是神经网络的基本运算单元,它通过激活函数将多个输入值转化为一个输出,多个输入值与多个语音识别参数一一对应。常见的语音识别模型有多种,在本发明实施例中,可采用深度神经网络-隐马尔可夫模型(Deep Neural Networks-Hidden Markov Model,DNN-HMM),用于将车载混响语音信号转换为人可识别的单词序列。
DNN又叫多层感知机,其网络结构包括输入层,隐藏层和输出层,第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层,层与层之间是相连接的。虽然DNN网络层数较多,看起来很复杂,但从小的局部模型来说,其实质和感知机一样,即一个线性关系z=∑ωixi+b加上一个激活函数σ(z)。由于DNN层数较多,那么对应的ωi和b的数量也就存在很多了。
HMM是一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。HMM中的状态是HMM的基本组成部分,HMM的转移概率表示HMM的状态之间发生转换的概率,而每一个状态在可能输出的符号上都有一概率分布,这就是HMM的输出概率。马尔可夫过程是一个不具备记忆特质的随机过程,该随机过程在给定当前状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。
在本发明实施例中,通过在样本语音数据集合中获取目标样本语音数据,针对目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据,并采用混响信号模拟模型对所获取的数据进行模拟,从而生成目标样本语音数据的车载混响语音集合,采用相同方式获取样本语音数据集合中各样本语音数据对应的车载混响语音集合,并基于该车载混响语音集合生成车载语音识别模型。通过考虑车载空间尺寸以及车载空间中点源噪音数据、冲激响应数据等参数的多样性,覆盖了多种车载环境,使得所模拟的车载混响语音信号更接近真实车载环境中的语音信号,并基于模拟的车载混响语音信号生成车载语音识别模型,可以提高采用语音识别模型识别车载语音信号的准确率。
请参见图3,为本发明实施例提供了另一种语音识别模型生成方法的流程示意图。如图2所示,本发明实施例的所述方法可以包括以下步骤S201-步骤S204。
S201,采集多种样本语音数据、多种车载点源噪音数据以及多种车载空间中各车载空间对应的车载冲激响应数据,并生成包含多种样本语音数据的样本语音数据集合、包含多种车载点源噪音数据的车载噪音数据集合以及包含各车载空间对应的车载冲激响应数据的车载冲激响应数据集合;
可以理解的是,在样本语音数据集合CLEAN中包含有多种样本语音数据,所述多种样本语音数据可以为一个人所输入的样本语音数据,也可以为多个人所输入的样本语音数据。每个样本语音数据为在非车载环境下所采集,并通过标识信息对样本语音数据的数据内容进行标注,如可以为“采用隐马尔科夫模型识别”的形式。所述各样本语音数据可以采用图2所示的曲线表示,x(t)为一个样本语音数据,即信号强度随时间的变化关系。
噪音数据包括背景噪音数据以及点源噪音数据。背景噪音数据一般指固定存在于电声系统中除有用信号以外的总噪音。而点源噪音数据是指一些特殊场景的噪音,如车载环境的点源噪音(车载点源噪音数据)主要包括引擎声、风声、雨刷声、车内播放的音乐声等。在车载噪音数据集合CAR_NOISE中包含有多种车载点源噪音数据,每种车载点源噪音数据与每类车载环境一一对应。所述车载环境类型可以为引擎声、风声、雨刷声、车内播放的音乐声等其中的一种或几种。
车载冲激响应数据集合RIR中包含属于不同尺寸的各车载空间对应的车载冲激响应数据,而在每个车载空间中又包含多个车载冲激响应数据,在同一车载空间中的多个车载冲激响应数据与该车载空间中声源及接收声音的麦克风之间的相对位置一一对应。
在一种可行的实现方式中,如图4所示,所述采集多种车载空间中各车载空间对应的车载冲激响应数据,可以包括以下步骤:
S301,获取多种车载空间,并获取所述多种车载空间中各车载空间的声源与麦克风之间的各相对位置;
可以理解的是,所述多种车载空间为不同尺寸大小的车载空间,将每个车载空间看做一个立方体,假设常用车辆的长、宽、高的上下界分别为L1~L2、W1~W2以及H1~H2,从上下界的范围内随机选择长、宽以及高的尺寸,从而得到多种车载空间。
所述声源与麦克风之间的相对位置是指在车载空间中发声源与接收声音的麦克风两点之间的相对距离。例如,选择一个长为L,宽为W,高为H的车载空间,以该车载空间中的一个顶点为原点,建立一个空间坐标系,之后在空间坐标系中随机选取两个位置,一个是声源的位置(sx,sy,sz),另一个是麦克风的位置(rx,ry,rz),那么声源与麦克风之间的相对距离
Figure BDA0001544505740000121
需要说明的是,在每个车载空间中通过改变声源以及麦克风的位置,从而可以得到多个相对位置。
S302,采用源镜像模型分别获取所述各相对位置下随响应时间变化的声压值;
可以理解的是,所述源镜像模型是指采用平面镜反射原理来近似表示从声源到麦克风之间传播路径。所有路径上声压值的总和即为该声源到麦克风的声压值,所述声压值随响应时间变化。
例如,以车载空间的其中一个面为例,如图5所示,其中R为麦克风的位置,S0为声源位置,通过平面镜反射原理,可以分别得到S0关于该平面4条边的对称点S1、S2、S3以及S4(S4在图中未示出)。再结合该车载空间的8个顶点,从而得到声源S0在该车载空间中的所有镜像点(如图6中*所示,其中o表示麦克风的位置,*表示声源位置),每个镜像点(如S1)与R的连线即为到达R的路径(S1R),并采用下式计算该声源的所有镜像点到麦克风的路径的声压值总和:
Figure BDA0001544505740000122
其中,ω=2πf,f代表频率,t代表响应时间,R代表X和Y之间的距离,X代表声源的位置,Y代表麦克风的位置,i2=-1,c代表声音的传播速度,Rr=2(aL,bW,cH),a,b,c为负无穷到正无穷之间的整数,Rp=(sx±rx,sy±ry,sz±rz)。
S303,将所述声压值作为所述各相对位置对应的车载冲激响应数据。
可以理解的是,假设有R个车载空间,在每个车载空间中有P个不同相对位置,每个相对位置对应一个冲激响应数据,因此,在冲激响应数据集合RIR中包括R*P个冲激响应数据。而每个冲激响应数据都可以用(L,W,H,sx,sy,sz,rx,ry,rz)这些数据表示。也就是说,通过S302中计算的某个声源到达某一麦克风的所有路径的声压值即为该声源与该麦克风对应位置处的车载冲激响应数据。
例如,如图7所示为一个相对位置下的车载冲激响应数据,横坐标为响应时间,纵坐标为声压值。
S202,在样本语音数据集合中获取目标样本语音数据,针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据;
具体实现中,语音识别模型生成设备通过遍历样本语音数据集合CLEAN,并将遍历到的当前样本语音数据确定为目标样本语音数据,然后针对目标样本语音数据在车载噪音数据集合CAR_NOISE中随机选择多个(如i个)车载点源噪音数据,并在车载冲激响应数据集合RIR中随机选择一个车载空间,并在选定的车载空间中随机选择多个(如i+1个)车载冲激响应数据。
S203,基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据,并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合;
可以理解的是,所述混响信号模拟模型是用于对样本语音数据进行模拟而产生车载混响语音信号的模型,可通过计算公式
Figure BDA0001544505740000131
其中,xr(t)表示该车载空间输出的车载混响语音信号,x(t)表示输入的目标样本语音数据,ni(t)表示该车载空间包含的第i种点源噪声,hs(t)表示该车载空间中声源与麦克风相对位置下目标样本语音数据的冲激响应,hi(t)表示该车载空间中声源与麦克风相对位置下第i种点源噪音的冲激响应,d(t)表示背景噪音,*表示卷积计算,+表示信号的叠加。
所述混响信号模拟模型将各车载空间作为一个线性非时变系统,而对于一个线性非时变系统而言,系统的输出信号等于系统的输入信号与冲激响应的卷积运算,而系统的输出信号也就是房间产生的车载混响语音信号。其中,线性是指系统的输入和输出之间的关系是一个线性映射,非时变性是指如果将系统的输入信号延迟t秒,那么得到的输出除了这t秒延时以外是完全相同的。
具体实现中,将所获取的目标样本语音数据x(t)、所述第一目标数量(i个)的车载点源噪音数据ni(t)以及所述第二目标数量(i+1个)的车载冲激响应数据h(t)(其中一个作为hs(t),剩下的i个作为hi(t))输入至混响信号模拟模型
Figure BDA0001544505740000141
其中背景噪音d(t)为0,从而得到x(t)对应的车载混响语音信号xr(t),基于对同一个x(t)可以匹配到不同的ni(t)、hs(t)以及hi(t),因此可以得到x(t)对应的多个xr(t),从而生成x(t)对应的车载混响语音集合SIMULATE1。
S204,基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。
可以理解的是,所述样本语音数据集合中各样本语音数据对应的车载混响语音集合均采用S203所描述的方式获取,从而得到多个车载混响语音集合SIMULATE2、SIMULATE3…、SIMULATEn。
在一种可行的实现方式中,如图8所示,所述基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型,可以包括以下步骤:
S401,创建语音识别模型,基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一语音识别参数;
可以理解的是,所述语音识别模型是一种神经网络,所谓神经网络就是将许多个单一神经元联结在一起,一个神经元的输出就可以作为一个神经元的输入。神经元是神经网络的基本运算单元,它通过激活函数将多个输入值转化为一个输出,多个输入值与多个语音识别参数一一对应。也就是说,神经网络实际上就是一个输入向量
Figure BDA0001544505740000142
到输出向量
Figure BDA0001544505740000143
的映射过程,即
Figure BDA0001544505740000144
首先将输入向量
Figure BDA0001544505740000145
的每个元素xi的值赋给神经网络输入层的神经元,然后依次向前计算每一层的每个神经元的值,直到输出层的所有神经元的值计算完毕。最后将输出层每个神经元的值yi串在一起就得到了输出向量
Figure BDA0001544505740000146
常见的语音识别模型有多种,在本发明实施例中,可采用DNN-HMM模型识别,用于将车载混响语音信号转换为人可识别的单词序列。
其中,DNN又叫多层感知机,其网络结构包括输入层,隐藏层和输出层,第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层,层与层之间是相连接的。虽然DNN网络层数较多,看起来很复杂,但从小的局部模型来说,其实质和感知机一样,即一个线性关系z=∑ωixi+b加上一个激活函数σ(z)。由于DNN层数较多,那么对应的ωi和b的数量也就存在很多了。
HMM是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。HMM中的状态是HMM的基本组成部分,HMM的转移概率表示HMM的状态之间发生转换的概率,而每一个状态在可能输出的符号上都有一概率分布,即HMM的输出概率。马尔可夫过程是一个不具备记忆特质的随机过程,该随机过程在给定当前状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。
进一步的,如图9所示,所述基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一车载识别参数,可以包括以下步骤:
S501,基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的多组第二语音识别参数;
具体实现中,将所获取的车载混响语音集合中的各个车载混响语音信号代入所创建的语音识别模型中,从而可以得到该模型的多组第二语音识别参数。
例如,假设所创建的语音识别模型为
Figure BDA0001544505740000151
各个车载混响语音信号分别为
Figure BDA0001544505740000152
代入
Figure BDA0001544505740000153
后,可以得到多组权值以及偏移值。
S502,将所述多组第二语音识别参数分别代入所述语音识别模型中,以生成测试语音识别模型集合;
可以理解的是,所述测试语音识别模型集合MODEL中包括多个测试语音识别模型Model1、Model2、…、Modeln,假设采用S501所获取的第二语音识别参数(多组权值以及偏移值)分别为[ω11,b11ω12,b12…ω1n,b1n]、[ω21,b21ω22,b22…ω2n,b2n]、…、[ωn1,bn1ωn2,bn2…ωnn,bnn],将这些参数代入
Figure BDA0001544505740000154
中,可以得到测试语音识别模型集合MODEL:
Figure BDA0001544505740000155
Figure BDA0001544505740000156
S503,分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率;
在一种具体的实现方式中,采集车载语音数据,采用所述测试语音识别模型集合中各测试语音识别模型分别对所述车载语音数据进行识别,以分别获取所述各测试车载语音识别模型对应的识别错误率。
可以理解的是,所述车载语音数据即为在车载环境下所采集的语音数据。
将所采集的车载语音数据分别输入至测试模型
Figure BDA0001544505740000161
Figure BDA0001544505740000162
中,获取输出结果,并比较识别错误的字数和与该输出结果对应的车载语音数据中的总字数之间的比值,从而得到每个测试语音识别模型的识别错误率(Word Error Rate,WER),如分别为WER1、WER2、…WERn。
S504,基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本;
可以理解的是,所述识别错误率与所述测试语音识别模型相对应,而所述测试语音识别模型又与车载混响语音集合相对应,因此,可根据识别错误率在生成测试语音识别模型对应的车载混响语音集合中挑选部分车载混响语音信号作为对
Figure BDA0001544505740000163
的训练样本。
进一步的,如图10所示,所述基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本,包括:
S601,获取所述各测试车载语音识别模型对应的识别错误率分别指示的设定数量;
具体实现中,在识别错误率范围与样本选择比例集合中查找各个识别错误率所属的识别错误率范围,从而获取对应的选择比例,并根据选择比例以及集合中车载混响语音信号的数量计算得到该识别错位率对应的设定数量。
例如,若查找到WER1对应的选择比例为P1%,WER2对应的选择比例为P2%,...,WERn对应的选择比例为Pn%,而WER1对应的测试语音识别模型由SIMULATE1中的车载混响语音信号生成,相应的,WER2对应的测试语音识别模型由SIMULATE2中的车载混响语音信号生成…,则基于所获取的选择比例分别在SIMULATE1、SIMULATE2…中重新选择车载混响语音信号,并组合成新的训练样本SIMULATE_MIX。
S602,依次在所述各样本语音数据对应的车载混响语音信号集合中选取各设定数量的车载混响语音信号,将所选取的车载混响语音信号作为训练样本。
S505,基于所述训练样本获取所述语音识别模型的第一语音识别参数。
可以理解的是,所述获取第一语音识别参数与所述第二语音识别参数计算方式相同,请参见S501所述,此处不再赘述。
S402,将所述第一语音识别参数代入所述语音识别模型中,以生成车载语音识别模型。
可以理解的是,所述生成车载语音识别模型Model_final与生成测试语音识别模型Model1、Model2、…、Modeln过程相同,请参见S502所述,此处不再赘述。
需要说明的是,所述第一语音识别参数可以为一组最优语音识别参数,可以为计算得到的多组语音识别参数的平均值,该最优语音识别参数与车载语音识别模型一一对应。所述第一语音识别参数也可以为多组语音识别参数,而生成的车载语音识别模型为基于第一语音识别参数获取的多个车载语音识别模型中的最优模型。
在本发明实施例中,通过在样本语音数据集合中获取目标样本语音数据,针对目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据,并采用混响信号模拟模型对所获取的数据进行模拟,从而生成目标样本语音数据的车载混响语音集合,采用相同方式获取样本语音数据集合中各样本语音数据对应的车载混响语音集合,并基于该车载混响语音集合生成车载语音识别模型。通过考虑车载空间尺寸以及车载空间中点源噪音数据、冲激响应数据等参数的多样性,覆盖了多种车载环境,使得所模拟的车载混响语音信号更接近真实车载环境中的语音信号,并基于模拟的车载混响语音信号生成车载语音识别模型,可以提高采用语音识别模型识别车载语音信号的准确率。
下面将结合附图11-附图14,对本发明实施例提供的语音识别模型生成设备进行详细介绍。需要说明的是,附图11所示的语音识别模型生成设备,用于执行本发明图1-图10所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明图1-图10所示的实施例。
请参见图11,为本发明实施例提供了一种语音识别模型生成设备的结构示意图。如图11所示,本发明实施例的所述语音识别模型生成设备10可以包括:数据获取单元101、集合获取单元102和模型生成单元103。
数据获取单元101,用于在样本语音数据集合中获取目标样本语音数据,针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据;
可以理解的是,在样本语音数据集合中包含有多个样本语音数据,所述多个样本语音数据可以为一个人所输入的样本语音数据,也可以为多个人所输入的样本语音数据。每个样本语音数据为在非车载环境下所采集,并通过标识信息对样本语音数据的数据内容进行标注。所述各样本语音数据可以如图2所示的曲线表示,x(t)为一个样本语音数据,即信号强度随时间的变化关系。
噪音数据包括背景噪音数据以及点源噪音数据。背景噪音数据一般指固定存在于电声系统中除有用信号以外的总噪音。而点源噪音数据是指一些特殊场景的噪音,如车载环境的点源噪音(车载点源噪音数据)主要包括引擎声、风声、雨刷声、车内播放的音乐声等。在车载噪音数据集合中包含有多种车载点源噪音数据,每种车载点源噪音数据与每类车载环境一一对应。所述车载环境类型可以为引擎声、风声、雨刷声、车内播放的音乐声等中的一种或几种。
车载冲激响应数据集合中包含属于不同尺寸的各车载空间对应的车载冲激响应数据,而在每个车载空间中又包含多个车载冲激响应数据,在同一车载空间中的多个车载冲激响应数据与该车载空间中声源及接收声音的麦克风之间的相对位置一一对应。也就是说,有R个不同尺寸的车载空间,每个车载空间中包括P个不同的声源及麦克风之间的相对位置,每个相对位置对应一个车载冲激响应数据,那么在车载冲激响应数据集合中包含R*P个车载冲激响应数据。所述冲激响应数据是冲激函数作为输入信号在固定位置经过固定车载空间的传播和反射产生的输出信号。所述冲激函数是指在除零以外的点上信号强度为零,且其在整个定义域上的积分等于1的函数。
具体实现中,数据获取单元101通过遍历样本语音数据集合,并将遍历到的当前样本语音数据确定为目标样本语音数据,然后针对目标样本语音数据在车载噪音数据集合中随机选择多个(如i个)车载点源噪音数据,并在车载冲激响应数据集合中随机选择一个车载空间,并在选定的车载空间中随机选择多个(如i+1个)车载冲激响应数据。
集合获取单元102,用于基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据,并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合;
可以理解的是,所述混响信号模拟模型是用于对样本语音数据进行模拟而产生车载混响语音信号的模型,可通过计算公式
Figure BDA0001544505740000191
其中,xr(t)表示该车载空间输出的车载混响语音信号,x(t)表示输入的目标样本语音数据,ni(t)表示该车载空间包含的第i种点源噪声,hs(t)表示该车载空间中声源与麦克风相对位置下目标样本语音数据的冲激响应,hi(t)表示该车载空间中声源与麦克风相对位置下第i种点源噪音的冲激响应,d(t)表示背景噪音,*表示卷积计算,+表示信号的叠加。
所述混响信号模拟模型将各车载空间作为一个线性非时变系统,而对于一个线性非时变系统而言,系统的输出信号等于系统的输入信号与冲激响应的卷积运算,而系统的输出信号也就是车载空间产生的车载混响语音信号。其中,线性是指系统的输入和输出之间的关系是一个线性映射,非时变性是指如果将系统的输入信号延迟t秒,那么得到的输出除了这t秒延时以外是完全相同的。
具体实现中,集合获取单元102将所获取的目标样本语音数据x(t)、所述第一目标数量(i个)的车载点源噪音数据ni(t)以及所述第二目标数量(i+1个)的车载冲激响应数据h(t)(其中一个作为hs(t),剩下的i个作为hi(t))输入至混响信号模拟模型
Figure BDA0001544505740000192
其中背景噪音d(t)为0,从而得到x(t)对应的车载混响语音信号xr(t),基于对同一个x(t)可以匹配到不同的ni(t)、hs(t)以及hi(t),因此可以得到x(t)对应的多个xr(t),从而生成x(t)对应的车载混响语音集合SIMULATE1。
模型生成单元103,用于基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。
可以理解的是,所述样本语音数据集合中各样本语音数据对应的车载混响语音集合可采用上述方式一一获取,从而得到SIMULATE2、SIMULATE3…SIMULATEn。
具体实现中,模型生成单元103创建语音识别模型,基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合SIMULATE1、SIMULATE2、SIMULATE3…SIMULATEn获取所述语音识别模型的多组第二语音识别参数,将所述多组第二语音识别参数分别代入所述语音识别模型中,生成测试语音识别模型集合MODEL,该集合MODEL中包括多个测试语音识别模型Model1、Model2、…、Modeln。获取各测试语音识别模型Model1、Model2、…、Modeln分别对应的识别错误率,并基于各识别错误率在所述各样本语音数据对应的车载混响语音集合SIMULATE1、SIMULATE2、SIMULATE3…SIMULATEn中选取样本车载混响语音信号作为训练样本,再基于所述训练样本获取所述语音识别模型的第一语音识别参数,然后将所述第一语音识别参数代入所述语音识别模型中,从而生成车载语音识别模型Model_final。
其中,所述语音识别模型是一种神经网络,所谓神经网络就是将许多个单一神经元联结在一起,一个神经元的输出就可以作为另一个神经元的输入。神经元是神经网络的基本运算单元,它通过激活函数将多个输入值转化为一个输出,多个输入值与多个语音识别参数一一对应。常见的语音识别模型有多种,在本发明实施例中,可采用深度神经网络-隐马尔可夫模型(Deep Neural Networks-Hidden Markov Model,DNN-HMM),用于将车载混响语音信号转换为人可识别的单词序列。
DNN又叫多层感知机,其网络结构包括输入层,隐藏层和输出层,第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层,层与层之间是相连接的。虽然DNN网络层数较多,看起来很复杂,但从小的局部模型来说,其实质和感知机一样,即一个线性关系z=∑ωixi+b加上一个激活函数σ(z)。由于DNN层数较多,那么对应的ωi和b的数量也就存在很多了。
HMM是一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。HMM中的状态是HMM的基本组成部分,HMM的转移概率表示HMM的状态之间发生转换的概率,而每一个状态在可能输出的符号上都有一概率分布,这就是HMM的输出概率。马尔可夫过程是一个不具备记忆特质的随机过程,该随机过程在给定当前状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。
在本发明实施例中,通过在样本语音数据集合中获取目标样本语音数据,针对目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据,并采用混响信号模拟模型对所获取的数据进行模拟,从而生成目标样本语音数据的车载混响语音集合,采用相同方式获取样本语音数据集合中各样本语音数据对应的车载混响语音集合,并基于该车载混响语音集合生成车载语音识别模型。通过考虑车载空间尺寸以及车载空间中点源噪音数据、冲激响应数据等参数的多样性,覆盖了多种车载环境,使得所模拟的车载混响语音信号更接近真实车载环境中的语音信号,并基于模拟的车载混响语音信号生成车载语音识别模型,可以提高采用语音识别模型识别车载语音信号的准确率。
请参见图12,为本发明实施例提供了另一种语音识别模型生成设备的结构示意图。如图12所示,本发明实施例的所述语音识别模型生成设备10可以包括:数据获取单元101、集合获取单元102、模型生成单元103以及数据采集单元104。
数据获取单元101,用于在样本语音数据集合中获取目标样本语音数据,针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据;
具体实现中,语音识别模型生成设备通过遍历样本语音数据集合CLEAN,并将遍历到的当前样本语音数据确定为目标样本语音数据,然后针对目标样本语音数据在车载噪音数据集合CAR_NOISE中随机选择多个(如i个)车载点源噪音数据,并在车载冲激响应数据集合RIR中随机选择一个车载空间,并在选定的车载空间中随机选择多个(如i+1个)车载冲激响应数据。
集合获取单元102,用于基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据,并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合;
可以理解的是,所述混响信号模拟模型是用于对样本语音数据进行模拟而产生车载混响语音信号的模型,可通过计算公式
Figure BDA0001544505740000211
其中,xr(t)表示该车载空间输出的车载混响语音信号,x(t)表示输入的目标样本语音数据,ni(t)表示该车载空间包含的第i种点源噪声,hs(t)表示该车载空间中声源与麦克风相对位置下目标样本语音数据的冲激响应,hi(t)表示该车载空间中声源与麦克风相对位置下第i种点源噪音的冲激响应,d(t)表示背景噪音,*表示卷积计算,+表示信号的叠加。
所述混响信号模拟模型将各车载空间作为一个线性非时变系统,而对于一个线性非时变系统而言,系统的输出信号等于系统的输入信号与冲激响应的卷积运算,而系统的输出信号也就是房间产生的车载混响语音信号。其中,线性是指系统的输入和输出之间的关系是一个线性映射,非时变性是指如果将系统的输入信号延迟t秒,那么得到的输出除了这t秒延时以外是完全相同的。
具体实现中,集合获取单元102将所获取的目标样本语音数据x(t)、所述第一目标数量(i个)的车载点源噪音数据ni(t)以及所述第二目标数量(i+1个)的车载冲激响应数据h(t)(其中一个作为hs(t),剩下的i个作为hi(t))输入至混响信号模拟模型
Figure BDA0001544505740000221
其中背景噪音d(t)为0,从而得到x(t)对应的车载混响语音信号xr(t),基于对同一个x(t)可以匹配到不同的ni(t)、hs(t)以及hi(t),因此可以得到x(t)对应的多个xr(t),从而生成x(t)对应的车载混响语音集合SIMULATE1。
模型生成单元103,用于基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。
可以理解的是,所述样本语音数据集合中各样本语音数据对应的车载混响语音集合均采用S203所描述的方式获取,从而得到多个车载混响语音集合SIMULATE2、SIMULATE3…、SIMULATEn。
可选的,如图13所示,所述模型生成单元103,包括:
第一参数获取子单元1031,用于创建语音识别模型,基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一语音识别参数;
可以理解的是,所述语音识别模型是一种神经网络,所谓神经网络就是将许多个单一神经元联结在一起,一个神经元的输出就可以作为一个神经元的输入。神经元是神经网络的基本运算单元,它通过激活函数将多个输入值转化为一个输出,多个输入值与多个语音识别参数一一对应。也就是说,神经网络实际上就是一个输入向量
Figure BDA0001544505740000231
到输出向量
Figure BDA0001544505740000232
的映射过程,即
Figure BDA0001544505740000233
首先将输入向量
Figure BDA0001544505740000234
的每个元素xi的值赋给神经网络输入层的神经元,然后依次向前计算每一层的每个神经元的值,直到输出层的所有神经元的值计算完毕。最后将输出层每个神经元的值yi串在一起就得到了输出向量
Figure BDA0001544505740000235
常见的语音识别模型有多种,在本发明实施例中,可采用DNN-HMM模型识别,用于将车载混响语音信号转换为人可识别的单词序列。
其中,DNN又叫多层感知机,其网络结构包括输入层,隐藏层和输出层,第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层,层与层之间是相连接的。虽然DNN网络层数较多,看起来很复杂,但从小的局部模型来说,其实质和感知机一样,即一个线性关系z=∑ωixi+b加上一个激活函数σ(z)。由于DNN层数较多,那么对应的ωi和b的数量也就存在很多了。
HMM是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。HMM中的状态是HMM的基本组成部分,HMM的转移概率表示HMM的状态之间发生转换的概率,而每一个状态在可能输出的符号上都有一概率分布,即HMM的输出概率。马尔可夫过程是一个不具备记忆特质的随机过程,该随机过程在给定当前状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。
模型生成子单元1032,用于将所述第一语音识别参数代入所述语音识别模型中,以生成车载语音识别模型。
可选的,所述第一参数获取子单元1031,具体用于:
基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的多组第二语音识别参数;
具体实现中,所述第一参数获取子单元1031将所获取的车载混响语音集合中的各个车载混响语音信号代入所创建的语音识别模型中,从而可以得到该模型的多组第二语音识别参数。
例如,假设所创建的语音识别模型为
Figure BDA0001544505740000236
各个车载混响语音信号分别为
Figure BDA0001544505740000237
代入
Figure BDA0001544505740000238
后,可以得到多组权值以及偏移值。
将所述多组第二语音识别参数分别代入所述语音识别模型中,以生成测试语音识别模型集合;
可以理解的是,所述测试语音识别模型集合MODEL中包括多个测试语音识别模型Model1、Model2、…、Modeln,假设采用S501所获取的第二语音识别参数(多组权值以及偏移值)分别为[ω11,b11ω12,b12…ω1n,b1n]、[ω21,b21ω22,b22…ω2n,b2n]、…、[ωn1,bn1ωn2,bn2…ωnn,bnn],将这些参数代入
Figure BDA0001544505740000241
中,可以得到测试语音识别模型集合MODEL:
Figure BDA0001544505740000242
Figure BDA0001544505740000243
分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率;
基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本;
可以理解的是,所述识别错误率与所述测试语音识别模型相对应,而所述测试语音识别模型又与车载混响语音集合相对应,因此,可根据识别错误率在生成测试语音识别模型对应的车载混响语音集合中挑选部分车载混响语音信号作为对
Figure BDA0001544505740000244
的训练样本。
基于所述训练样本获取所述语音识别模型的第一语音识别参数。
可选的,所述第一参数获取子单元1031,具体用于:
采集车载语音数据,采用所述测试语音识别模型集合中各测试语音识别模型分别对所述车载语音数据进行识别,以分别获取所述各测试车载语音识别模型对应的识别错误率。
可以理解的是,所述车载语音数据即为在车载环境下所采集的语音数据。
将所采集的车载语音数据分别输入至测试模型
Figure BDA0001544505740000245
Figure BDA0001544505740000246
中,获取输出结果,并比较识别错误的字数和与该输出结果对应的车载语音数据中的总字数之间的比值,从而得到每个测试语音识别模型的识别错误率(Word Error Rate,WER),如分别为WER1、WER2、…WERn。
可选的,所述第一参数获取子单元1031,具体用于:
获取所述各测试车载语音识别模型对应的识别错误率分别指示的设定数量;
具体实现中,在识别错误率范围与样本选择比例集合中查找各个识别错误率所属的识别错误率范围,从而获取对应的选择比例,并根据选择比例以及集合中车载混响语音信号的数量计算得到该识别错位率对应的设定数量。
例如,若查找到WER1对应的选择比例为P1%,WER2对应的选择比例为P2%,...,WERn对应的选择比例为Pn%,而WER1对应的测试语音识别模型由SIMULATE1中的车载混响语音信号生成,相应的,WER2对应的测试语音识别模型由SIMULATE2中的车载混响语音信号生成…,则基于所获取的选择比例分别在SIMULATE1、SIMULATE2…中重新选择车载混响语音信号,并组合成新的训练样本SIMULATE_MIX。
依次在所述各样本语音数据对应的车载混响语音信号集合中选取各设定数量的车载混响语音信号,将所选取的车载混响语音信号作为训练样本。
可选的,如图12所示,所述设备10还包括:
数据采集单元104,用于采集多种样本语音数据、多种车载点源噪音数据以及多种车载空间中各车载空间对应的车载冲激响应数据,并生成包含多种样本语音数据的样本语音数据集合、包含多种车载点源噪音数据的车载噪音数据集合以及包含各车载空间对应的车载冲激响应数据的车载冲激响应数据集合。
可以理解的是,在样本语音数据集合CLEAN中包含有多种样本语音数据,所述多种样本语音数据可以为一个人所输入的样本语音数据,也可以为多个人所输入的样本语音数据。每个样本语音数据为在非车载环境下所采集,并通过标识信息对样本语音数据的数据内容进行标注,如可以为“采用隐马尔科夫模型识别”的形式。所述各样本语音数据可以采用图2所示的曲线表示,x(t)为一个样本语音数据,即信号强度随时间的变化关系。
噪音数据包括背景噪音数据以及点源噪音数据。背景噪音数据一般指固定存在于电声系统中除有用信号以外的总噪音。而点源噪音数据是指一些特殊场景的噪音,如车载环境的点源噪音(车载点源噪音数据)主要包括引擎声、风声、雨刷声、车内播放的音乐声等。在车载噪音数据集合CAR_NOISE中包含有多种车载点源噪音数据,每种车载点源噪音数据与每类车载环境一一对应。所述车载环境类型可以为引擎声、风声、雨刷声、车内播放的音乐声等其中的一种或几种。
车载冲激响应数据集合RIR中包含属于不同尺寸的各车载空间对应的车载冲激响应数据,而在每个车载空间中又包含多个车载冲激响应数据,在同一车载空间中的多个车载冲激响应数据与该车载空间中声源及接收声音的麦克风之间的相对位置一一对应。
可选的,如图14所示,所述数据采集单元104,包括:
位置获取子单元1041,用于获取多种车载空间,并获取所述车载空间中各车载空间的声源与麦克风之间的各相对位置;
可以理解的是,所述多种车载空间为不同尺寸大小的车载空间,将每个车载空间看做一个立方体,假设常用车辆的长、宽、高的上下界分别为L1~L2、W1~W2以及H1~H2,从上下界的范围内随机选择长、宽以及高的尺寸,从而得到多种车载空间。
所述声源与麦克风之间的相对位置是指在车载空间中发声源与接收声音的麦克风两点之间的相对距离。例如,选择一个长为L,宽为W,高为H的车载空间,以该车载空间中的一个顶点为原点,建立一个空间坐标系,之后在空间坐标系中随机选取两个位置,一个是声源的位置(sx,sy,sz),另一个是麦克风的位置(rx,ry,rz),那么声源与麦克风之间的相对距离
Figure BDA0001544505740000261
需要说明的是,在每个车载空间中通过改变声源以及麦克风的位置,从而可以得到多个相对位置。
升压值获取子单元1042,用于采用源镜像模型分别获取所述各相对位置下随响应时间变化的声压值;
可以理解的是,所述源镜像模型是指采用平面镜反射原理来近似表示从声源到麦克风之间传播路径。所有路径上声压值的总和即为该声源到麦克风的声压值,所述声压值随响应时间变化。
例如,以车载空间的其中一个面为例,如图5所示,其中R为麦克风的位置,S0为声源位置,通过平面镜反射原理,可以分别得到S0关于该平面4条边的对称点S1、S2、S3以及S4(S4在图中未示出)。再结合该车载空间的8个顶点,从而得到声源S0在该车载空间中的所有镜像点(如图6中*所示,其中o表示麦克风的位置,*表示声源位置),每个镜像点(如S1)与R的连线即为到达R的路径(S1R),并采用下式计算该声源的所有镜像点到麦克风的路径的声压值总和:
Figure BDA0001544505740000271
其中,ω=2πf,f代表频率,t代表响应时间,R代表X和Y之间的距离,X代表声源的位置,Y代表麦克风的位置,i2=-1,c代表声音的传播速度,Rr=2(aL,bW,cH),a,b,c为负无穷到正无穷之间的整数,Rp=(sx±rx,sy±ry,sz±rz)。
响应获取子单元1043,用于将所述声压值作为所述各相对位置对应的车载冲激响应数据。
可以理解的是,假设有R个车载空间,在每个车载空间中有P个不同相对位置,每个相对位置对应一个冲激响应数据,因此,在冲激响应数据集合RIR中包括R*P个冲激响应数据。而每个冲激响应数据都可以用(L,W,H,sx,sy,sz,rx,ry,rz)这些数据表示。也就是说,通过S302中计算的某个声源到达某一麦克风的所有路径的声压值即为该声源与该麦克风对应位置处的车载冲激响应数据。
例如,如图7所示为一个相对位置下的车载冲激响应数据,横坐标为响应时间,纵坐标为声压值。
在本发明实施例中,通过在样本语音数据集合中获取目标样本语音数据,针对目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据,并采用混响信号模拟模型对所获取的数据进行模拟,从而生成目标样本语音数据的车载混响语音集合,采用相同方式获取样本语音数据集合中各样本语音数据对应的车载混响语音集合,并基于该车载混响语音集合生成车载语音识别模型。通过考虑车载空间尺寸以及车载空间中点源噪音数据、冲激响应数据等参数的多样性,覆盖了多种车载环境,使得所模拟的车载混响语音信号更接近真实车载环境中的语音信号,并基于模拟的车载混响语音信号生成车载语音识别模型,可以提高采用语音识别模型识别车载语音信号的准确率。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图10所示实施例的方法步骤,具体执行过程可以参见图1-图10所示实施例的具体说明,在此不进行赘述。
请参见图15,为本发明实施例提供了一种电子设备的结构示意图。如图15所示,所述电子设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别模型生成程序。
在图15所示的电子设备1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;网络接口1004主要用于与用户终端进行数据通信;而处理器1001可以用于调用存储器1005中存储的语音识别模型生成程序,并具体执行以下操作:
在样本语音数据集合中获取目标样本语音数据,针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据;
基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据,并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合;
基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。
在一个实施例中,所述处理器1001在执行在样本语音数据集合中获取当前样本语音数据之前,还执行以下操作:
采集多种样本语音数据、多种车载点源噪音数据以及多种车载空间中各车载空间对应的车载冲激响应数据,并生成包含多种样本语音数据的样本语音数据集合、包含多种车载点源噪音数据的车载噪音数据集合以及包含各车载空间对应的车载冲激响应数据的车载冲激响应数据集合。
在一个实施例中,所述处理器1001在执行采集多种车载空间中各车载空间对应的车载冲激响应数据时,具体执行以下操作:
获取多种车载空间,并获取所述多种车载空间中各车载空间的声源与麦克风之间的各相对位置;
采用源镜像模型分别获取所述各相对位置下随响应时间变化的声压值;
将所述声压值作为所述各相对位置对应的车载冲激响应数据。
在一个实施例中,所述处理器1001在执行基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型时,具体执行以下操作:
创建语音识别模型,基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一语音识别参数;
将所述第一语音识别参数代入所述语音识别模型中,以生成车载语音识别模型。
在一个实施例中,所述处理器1001在执行基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一车载识别参数时,具体执行以下操作:
基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的多组第二语音识别参数;
将所述多组第二语音识别参数分别代入所述语音识别模型中,以生成测试语音识别模型集合;
分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率;
基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本;
基于所述训练样本获取所述语音识别模型的第一语音识别参数。
在一个实施例中,所述处理器1001在执行分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率时,具体执行以下操作:
采集车载语音数据,采用所述测试语音识别模型集合中各测试语音识别模型分别对所述车载语音数据进行识别,以分别获取所述各测试车载语音识别模型对应的识别错误率。
在一个实施例中,所述处理器1001在执行基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本时,具体执行以下操作:
获取所述各测试车载语音识别模型对应的识别错误率分别指示的设定数量;
依次在所述各样本语音数据对应的车载混响语音信号集合中选取各设定数量的车载混响语音信号,将所选取的车载混响语音信号作为训练样本。
在本发明实施例中,通过在样本语音数据集合中获取目标样本语音数据,针对目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据,并采用混响信号模拟模型对所获取的数据进行模拟,从而生成目标样本语音数据的车载混响语音集合,采用相同方式获取样本语音数据集合中各样本语音数据对应的车载混响语音集合,并基于该车载混响语音集合生成车载语音识别模型。通过考虑车载空间尺寸以及车载空间中点源噪音数据、冲激响应数据等参数的多样性,覆盖了多种车载环境,使得所模拟的车载混响语音信号更接近真实车载环境中的语音信号,并基于模拟的车载混响语音信号生成车载语音识别模型,可以提高采用语音识别模型识别车载语音信号的准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (15)

1.一种语音识别模型生成方法,其特征在于,包括:
在样本语音数据集合中获取目标样本语音数据,针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据;
基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据,并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合;所述车载混响语音集合包括至少一个车载混响语音信号,所述混响信号模拟模型是用于对样本语音数据进行模拟而产生车载混响语音信号的模型,可采用计算公式:xr(t)=x(t)*hs(t)+∑ini(t)*hi(t)+d(t)进行计算,其中,xr(t)表示车载空间输出的车载混响语音信号,x(t)表示输入的目标样本语音数据,ni(t)表示所述车载空间包含的第i种点源噪声,hs(t)表示所述车载空间中声源与麦克风相对位置下目标样本语音数据的冲激响应,hi(t)表示所述车载空间中声源与麦克风相对位置下第i种点源噪音的冲激响应,d(t)表示背景噪音,*表示卷积计算,+表示信号的叠加,其中,所述i小于所述第一目标数量;
基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述在样本语音数据集合中获取目标样本语音数据之前,还包括:
采集多种样本语音数据、多种车载点源噪音数据以及多种车载空间中各车载空间对应的车载冲激响应数据,并生成包含多种样本语音数据的样本语音数据集合、包含多种车载点源噪音数据的车载噪音数据集合以及包含各车载空间对应的车载冲激响应数据的车载冲激响应数据集合。
3.根据权利要求2所述的方法,其特征在于,所述采集多种车载空间中各车载空间对应的车载冲激响应数据,包括:
获取多种车载空间,并获取所述多种车载空间中各车载空间的声源与麦克风之间的各相对位置;
采用源镜像模型分别获取所述各相对位置下随响应时间变化的声压值;
将所述声压值作为所述各相对位置对应的车载冲激响应数据。
4.根据权利要求1所述的方法,其特征在于,所述基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型,包括:
创建语音识别模型,基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一语音识别参数;
将所述第一语音识别参数代入所述语音识别模型中,以生成车载语音识别模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一语音识别参数,包括:
基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的多组第二语音识别参数;
将所述多组第二语音识别参数分别代入所述语音识别模型中,以生成测试语音识别模型集合;
分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率;
基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本;
基于所述训练样本获取所述语音识别模型的第一语音识别参数。
6.根据权利要求5所述的方法,其特征在于,所述分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率,包括:
采集车载语音数据,采用所述测试语音识别模型集合中各测试语音识别模型分别对所述车载语音数据进行识别,以分别获取所述各测试语音识别模型对应的识别错误率。
7.根据权利要求5所述的方法,其特征在于,所述基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本,包括:
获取所述各测试语音识别模型对应的识别错误率分别指示的设定数量;
依次在所述各样本语音数据对应的车载混响语音信号集合中选取各设定数量的车载混响语音信号,将所选取的车载混响语音信号作为训练样本。
8.一种语音识别模型生成设备,其特征在于,包括:
数据获取单元,用于在样本语音数据集合中获取目标样本语音数据,针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据;
集合获取单元,用于基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据,并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合;所述车载混响语音集合包括至少一个车载混响语音信号,所述混响信号模拟模型是用于对样本语音数据进行模拟而产生车载混响语音信号的模型,可采用计算公式:xr(t)=(t)*hs(t)+∑ini(t)*hi(t)+d(t)进行计算,其中,xr(t)表示车载空间输出的车载混响语音信号,x(t)表示输入的目标样本语音数据,ni(t)表示所述车载空间包含的第i种点源噪声,hs(t)表示所述车载空间中声源与麦克风相对位置下目标样本语音数据的冲激响应,hi(t)表示所述车载空间中声源与麦克风相对位置下第i种点源噪音的冲激响应,d(t)表示背景噪音,*表示卷积计算,+表示信号的叠加,其中,所述i小于所述第一目标数量;
模型生成单元,用于基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。
9.根据权利要求8所述的设备,其特征在于,所述设备还包括:
数据采集单元,用于采集多种样本语音数据、多种车载点源噪音数据以及多种车载空间中各车载空间对应的车载冲激响应数据,并生成包含多种样本语音数据的样本语音数据集合、包含多种车载点源噪音数据的车载噪音数据集合以及包含各车载空间对应的车载冲激响应数据的车载冲激响应数据集合。
10.根据权利要求9所述的设备,其特征在于,所述数据采集单元,包括:
位置获取子单元,用于获取多种车载空间,并获取所述车载空间中各车载空间的声源与麦克风之间的各相对位置;
升压值获取子单元,用于采用源镜像模型分别获取所述各相对位置下随响应时间变化的声压值;
响应获取子单元,用于将所述声压值作为所述各相对位置对应的车载冲激响应数据。
11.根据权利要求8所述的设备,其特征在于,所述模型生成单元,包括:
第一参数获取子单元,用于创建语音识别模型,基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的第一语音识别参数;
模型生成子单元,用于将所述第一语音识别参数代入所述语音识别模型中,以生成车载语音识别模型。
12.根据权利要求11所述的设备,其特征在于,所述第一参数获取子单元,具体用于:
基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合获取所述语音识别模型的多组第二语音识别参数;
将所述多组第二语音识别参数分别代入所述语音识别模型中,以生成测试语音识别模型集合;
分别获取所述测试语音识别模型集合中各测试语音识别模型对应的识别错误率;
基于所述识别错误率在所述各样本语音数据对应的车载混响语音集合中选取样本车载混响语音信号作为训练样本;
基于所述训练样本获取所述语音识别模型的第一语音识别参数。
13.根据权利要求12所述的设备,其特征在于,所述第一参数获取子单元,具体用于:
采集车载语音数据,采用所述测试语音识别模型集合中各测试语音识别模型分别对所述车载语音数据进行识别,以分别获取所述各测试语音识别模型对应的识别错误率。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~7任意一项的方法步骤。
15.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:
在样本语音数据集合中获取目标样本语音数据,针对所述目标样本语音数据在车载噪音数据集合中获取第一目标数量的车载点源噪音数据,以及在车载冲激响应数据集合中获取第二目标数量的车载冲激响应数据;
基于所述目标样本语音数据、所述第一目标数量的车载点源噪音数据以及所述第二目标数量的车载冲激响应数据,并采用混响信号模拟模型生成所述目标样本语音数据的车载混响语音集合;所述车载混响语音集合包括至少一个车载混响语音信号,所述混响信号模拟模型是用于对样本语音数据进行模拟而产生车载混响语音信号的模型,可采用计算公式:xr(t)=x(t)*hs(t)+∑ini(t)*hi(t)+d(t)进行计算,其中,xr(t)表示车载空间输出的车载混响语音信号,x(t)表示输入的目标样本语音数据,ni(t)表示所述车载空间包含的第i种点源噪声,hs(t)表示所述车载空间中声源与麦克风相对位置下目标样本语音数据的冲激响应,hi(t)表示所述车载空间中声源与麦克风相对位置下第i种点源噪音的冲激响应,d(t)表示背景噪音,*表示卷积计算,+表示信号的叠加,其中,所述i小于所述第一目标数量;
基于所述样本语音数据集合中各样本语音数据对应的车载混响语音集合生成车载语音识别模型。
CN201810024461.0A 2018-01-10 2018-01-10 语音识别模型生成方法及其设备、存储介质、电子设备 Active CN108242234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810024461.0A CN108242234B (zh) 2018-01-10 2018-01-10 语音识别模型生成方法及其设备、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810024461.0A CN108242234B (zh) 2018-01-10 2018-01-10 语音识别模型生成方法及其设备、存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN108242234A CN108242234A (zh) 2018-07-03
CN108242234B true CN108242234B (zh) 2020-08-25

Family

ID=62699452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810024461.0A Active CN108242234B (zh) 2018-01-10 2018-01-10 语音识别模型生成方法及其设备、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN108242234B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036412A (zh) * 2018-09-17 2018-12-18 苏州奇梦者网络科技有限公司 语音唤醒方法和系统
CN109559738A (zh) * 2018-12-18 2019-04-02 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111414669B (zh) * 2018-12-19 2023-11-14 北京猎户星空科技有限公司 一种音频数据处理的方法及装置
CN109637525B (zh) * 2019-01-25 2020-06-09 百度在线网络技术(北京)有限公司 用于生成车载声学模型的方法和装置
CN110265001B (zh) * 2019-05-06 2023-06-23 平安科技(深圳)有限公司 用于语音识别训练的语料筛选方法、装置及计算机设备
CN110263322B (zh) * 2019-05-06 2023-09-05 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备
CN110767215A (zh) * 2019-08-01 2020-02-07 北京嘀嘀无限科技发展有限公司 一种训练语音识别模型、识别语音的方法及装置
CN112489667A (zh) * 2019-08-22 2021-03-12 北京声智科技有限公司 音频信号的处理方法和装置
CN110807333B (zh) * 2019-10-30 2024-02-06 腾讯科技(深圳)有限公司 一种语义理解模型的语义处理方法、装置及存储介质
CN111081222A (zh) * 2019-12-30 2020-04-28 北京明略软件系统有限公司 语音识别方法、装置、存储介质以及电子装置
CN111292766B (zh) * 2020-02-07 2023-08-08 抖音视界有限公司 用于生成语音样本的方法、装置、电子设备和介质
US11392487B2 (en) * 2020-11-16 2022-07-19 International Business Machines Corporation Synthetic deidentified test data
CN112614484B (zh) * 2020-11-23 2022-05-20 北京百度网讯科技有限公司 特征信息挖掘方法、装置及电子设备
CN113782002B (zh) * 2021-09-01 2023-07-04 深聪半导体(江苏)有限公司 基于混响模拟的语音识别测试方法及系统
CN117558266B (zh) * 2024-01-12 2024-03-22 腾讯科技(深圳)有限公司 模型训练方法、装置、设备及计算机可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281744A (zh) * 2007-04-04 2008-10-08 国际商业机器公司 语音分析方法和装置以及语音合成方法和装置
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN103632666A (zh) * 2013-11-14 2014-03-12 华为技术有限公司 语音识别方法、语音识别设备和电子设备
CN103971680A (zh) * 2013-01-24 2014-08-06 华为终端有限公司 一种语音识别的方法、装置
US9336767B1 (en) * 2014-03-28 2016-05-10 Amazon Technologies, Inc. Detecting device proximities
CN106019230A (zh) * 2016-05-27 2016-10-12 南京邮电大学 一种基于i-vector说话人识别的声源定位方法
CN106023984A (zh) * 2016-04-28 2016-10-12 成都之达科技有限公司 基于车联网的语音识别方法
CN106128451A (zh) * 2016-07-01 2016-11-16 北京地平线机器人技术研发有限公司 用于语音识别的方法及装置
CN107293294A (zh) * 2016-03-31 2017-10-24 腾讯科技(深圳)有限公司 一种语音识别处理方法及装置
CN107316649A (zh) * 2017-05-15 2017-11-03 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676363B2 (en) * 2006-06-29 2010-03-09 General Motors Llc Automated speech recognition using normalized in-vehicle speech

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281744A (zh) * 2007-04-04 2008-10-08 国际商业机器公司 语音分析方法和装置以及语音合成方法和装置
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN103971680A (zh) * 2013-01-24 2014-08-06 华为终端有限公司 一种语音识别的方法、装置
CN103632666A (zh) * 2013-11-14 2014-03-12 华为技术有限公司 语音识别方法、语音识别设备和电子设备
US9336767B1 (en) * 2014-03-28 2016-05-10 Amazon Technologies, Inc. Detecting device proximities
CN107293294A (zh) * 2016-03-31 2017-10-24 腾讯科技(深圳)有限公司 一种语音识别处理方法及装置
CN106023984A (zh) * 2016-04-28 2016-10-12 成都之达科技有限公司 基于车联网的语音识别方法
CN106019230A (zh) * 2016-05-27 2016-10-12 南京邮电大学 一种基于i-vector说话人识别的声源定位方法
CN106128451A (zh) * 2016-07-01 2016-11-16 北京地平线机器人技术研发有限公司 用于语音识别的方法及装置
CN107316649A (zh) * 2017-05-15 2017-11-03 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置

Also Published As

Publication number Publication date
CN108242234A (zh) 2018-07-03

Similar Documents

Publication Publication Date Title
CN108242234B (zh) 语音识别模型生成方法及其设备、存储介质、电子设备
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN111179961B (zh) 音频信号处理方法、装置、电子设备及存储介质
CN108475505B (zh) 使用部分条件从输入序列生成目标序列
US9779730B2 (en) Method and apparatus for speech recognition and generation of speech recognition engine
CN109637525B (zh) 用于生成车载声学模型的方法和装置
JP2021086154A (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN107039050B (zh) 对待测试语音识别系统的自动测试方法和装置
CN107316638A (zh) 一种诗词背诵评测方法及系统、一种终端及存储介质
US20220172737A1 (en) Speech signal processing method and speech separation method
CN110189748B (zh) 模型构建方法和装置
CN111081280B (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN100589180C (zh) 使用切换状态空间模型的多模变分推导的语音识别方法
CN111862942B (zh) 普通话和四川话的混合语音识别模型的训练方法及系统
CN109119067B (zh) 语音合成方法及装置
CN110600002B (zh) 语音合成方法、装置及电子设备
Lee et al. Ensemble of jointly trained deep neural network-based acoustic models for reverberant speech recognition
CN110069997B (zh) 场景分类方法、装置及电子设备
CN112180318B (zh) 声源波达方向估计模型训练和声源波达方向估计方法
CN113763928A (zh) 音频类别预测方法、装置、存储介质及电子设备
CN116825092B (zh) 语音识别方法、语音识别模型的训练方法及装置
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备
CN118034558B (zh) 一种基于多模态交互式高仿真虚拟模型的处理方法
CN116504245B (zh) 一种语音编写规则的方法及系统
CN113077536B (zh) 一种基于bert模型的嘴部动作驱动模型训练方法及组件

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant