CN113409798A - 车内含噪语音数据生成方法、装置以及设备 - Google Patents

车内含噪语音数据生成方法、装置以及设备 Download PDF

Info

Publication number
CN113409798A
CN113409798A CN202110694011.4A CN202110694011A CN113409798A CN 113409798 A CN113409798 A CN 113409798A CN 202110694011 A CN202110694011 A CN 202110694011A CN 113409798 A CN113409798 A CN 113409798A
Authority
CN
China
Prior art keywords
voice
vehicle
pure
noise
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110694011.4A
Other languages
English (en)
Inventor
朱培培
邓引引
于超敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202110694011.4A priority Critical patent/CN113409798A/zh
Publication of CN113409798A publication Critical patent/CN113409798A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

本发明公开了一种车内含噪语音数据生成方法、装置以及设备,本发明的构思在于预先采集纯实景车噪及纯人声声源以构造出车用语音素材库,该车用语音素材库中的音频资源用于与用户所提需求结合,分别得到符合用户期望的车内含噪语音数据的两个独立元素,纯人声声源以及纯实景车噪,然后将匹配出的纯人声声源以及纯实景车噪进行通道融合,生成用户所需的目标车内含噪语音数据。本发明实现了对语音素材的复用,解决了当前实车实景人工录制方式费时、费力、高成本等弊端,并有效提升了车用交互语音数据样本的制作效率。

Description

车内含噪语音数据生成方法、装置以及设备
技术领域
本发明涉及车辆语音交互领域,尤其涉及一种车内含噪语音数据生成方法、装置以及设备。
背景技术
随着人工智能的兴起,车载、教育、医疗都渗透了人工智能技术,智能语音作为人机交互的重要手段,广泛应用于各个领域。其中车载场景不同于家居、医疗、客服等场景,其噪音环境更具有多样性、不稳定性等特点,且车载场景涉及人身安全因素,对语音识别等效果要求较高,因而在优化语音识别等语音处理效果时,需要大量含噪声及不含噪声的测试语音音频数据作为支撑。
其中,车内含噪语音数据集的构造往往需要实车在不同场地、环境条件下进行反复、多次实地采录,其制作要求相对较高,导致整体成本也较高;此外,目前现有的车内含噪语音数据的制作方式通常只适用于单次目标效果的评估,也即是说经过反复多次在某一个场景中采集车内含噪语音数据完毕后,该数据集很难进行多场景复用,如果期望采录的车内含噪语音数据能够覆盖全场景,则必然要耗费大量的时间和人力从海量车内含噪语音数据中,进行甄别、挑选、归类等繁琐工作;再有,目前经实车实地采录的车内含噪语音数据在进行效果评估时难以做到单一、稳定因素比对,无法满足实际测试对于准确性的需求。
据此,为了实现低成本优化车内语音交互识别等语音处理效果,针对不同的噪声场景能够快捷、低成本地制作车内含噪语音数据用于交互测试、模型训练等,则是当下车载人工智能领域最为迫切需要的。
发明内容
鉴于上述,本发明旨在提供一种车内含噪语音数据生成方法、装置以及设备,以及相应地提供了一种计算机数据存储介质和计算机程序产品,以能够方便、简洁、低成本且高效率地制作车内含噪语音数据。
本发明采用的技术方案如下:
第一方面,本发明提供了一种车内含噪语音数据生成方法,其中包括:
预先创建语音素材库,所述语音素材库包含纯人声音频数据以及实车纯噪音音频数据;
接收并解析用户输入的数据需求;
根据解析后的数据需求,从所述语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据;
将匹配到的纯人声音频数据以及实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。
在其中至少一种可能的实现方式中,所述预先创建语音素材库包括:
预先录制不同的纯人声声源素材,并对各纯人声声源素材标注出人声声源信息,得到纯人声音频数据;
预先录制在不同场景下的实车纯噪音素材,并对各实车纯噪音素材标注出场景噪声信息,得到实车纯噪音音频数据。
在其中至少一种可能的实现方式中,所述解析用户输入的数据需求包括:
根据用户输入的数据需求、标注人声声源信息的纯人声音频数据、标注场景噪声信息的实车纯噪音音频数据以及预先训练的基于语义分析的预测模型,得到解析后的数据需求。
在其中至少一种可能的实现方式中,所述解析后的数据需求包括如下需求信息:
主要说话人的人声特征与实车噪音场景信息,和/或人声声源能量与实车噪音能量的比例关系。
在其中至少一种可能的实现方式中,所述根据解析后的数据需求,从所述语音素材库中分别匹配出对应的纯人声音频数据以及实车纯噪音音频数据包括:
基于所述需求信息以及标注出的所述人声声源信息,从所述语音素材库中匹配出最优的纯人声音频数据;
基于所述需求信息以及标注出的所述场景噪声信息,从所述语音素材库中匹配出最优的实车纯噪音音频数据。
在其中至少一种可能的实现方式中,所述方法还包括:
从匹配出的纯人声音频数据中提取当前人声的语音基元;
利用所述语音基元以及预设的若干个车用交互文本,合成出批量的纯人声音频数据;
将合成的纯人声音频数据逐一与匹配出的实车纯噪音音频数据进行混音处理,得到批量的车内含噪语音数据。
第二方面,本发明提供了一种车内含噪语音数据生成装置,其中包括:
语音素材库创建模块,用于预先创建语音素材库,所述语音素材库包含纯人声音频数据以及实车纯噪音音频数据;
数据需求获取模块,用于接收并解析用户输入的数据需求;
需求匹配模块,用于根据解析后的数据需求,从所述语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据;
目标数据生成模块,用于将匹配到的纯人声音频数据以及实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。
在其中至少一种可能的实现方式中,所述语音素材库创建模块包括:
纯人声音频数据制备单元,用于预先录制不同的纯人声声源素材,并对各纯人声声源素材标注出人声声源信息,得到纯人声音频数据;
实车纯噪音音频数据制备单元,用于预先录制在不同场景下的实车纯噪音素材,并对各实车纯噪音素材标注出场景噪声信息,得到实车纯噪音音频数据。
在其中至少一种可能的实现方式中,所述数据需求获取模块具体用于:
根据用户输入的数据需求、标注人声声源信息的纯人声音频数据、标注场景噪声信息的实车纯噪音音频数据以及预先训练的基于语义分析的预测模型,得到解析后的数据需求。
在其中至少一种可能的实现方式中,所述解析后的数据需求包括如下需求信息:
主要说话人的人声特征与实车噪音场景信息,和/或人声声源能量与实车噪音能量的比例关系。
在其中至少一种可能的实现方式中,所述需求匹配模块包括:
纯人声音频匹配单元,用于基于所述需求信息以及标注出的所述人声声源信息,从所述语音素材库中匹配出最优的纯人声音频数据;
实车纯噪音音频匹配单元,用于基于所述需求信息以及标注出的所述场景噪声信息,从所述语音素材库中匹配出最优的实车纯噪音音频数据。
在其中至少一种可能的实现方式中,所述装置还包括:
语音基元提取模块,用于从匹配出的纯人声音频数据中提取当前人声的语音基元;
语音合成模块,用于利用所述语音基元以及预设的若干个车用交互文本,合成出批量的纯人声音频数据;
目标数据扩增模块,用于将合成的纯人声音频数据逐一与匹配出的实车纯噪音音频数据进行混音处理,得到批量的车内含噪语音数据。
第三方面,本发明提供了一种电子设备,其中包括:
一个或多个处理器、存储器以及一个或多个计算机程序,所述存储器可以采用非易失性存储介质,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。
第四方面,本发明提供了一种计算机数据存储介质,该计算机数据存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机至少执行如第一方面或者第一方面的任一可能实现方式中的所述方法。
第五方面,本发明还提供了一种计算机程序产品,当所述计算机程序产品被计算机执行时,用于至少执行第一方面或者第一方面的任一可能实现方式中的所述方法。
在第五方面的至少一种可能的实现方式中,该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上,也可以部分或者全部存储在不与处理器封装在一起的存储介质上。
本发明的构思在于预先采集纯实景车噪及纯人声声源以构造出车用语音素材库,该车用语音素材库中的音频资源用于与用户所提需求结合,分别得到符合用户期望的车内含噪语音数据的两个独立元素,纯人声声源以及纯实景车噪,然后将匹配出的纯人声声源以及纯实景车噪进行通道融合,生成用户所需的目标车内含噪语音数据。本发明一方面无需重复进行严苛的实车含噪语音采集操作,且录制的语音素材资源的规模也可显著小于现有的实车含噪语音采集规模;另一方面本发明将构成数据样本的两个元素独立制备且进行独立匹配,从而使得若需要相同或相似噪声场景下的批量车内含噪语音数据时,只需结合成熟的语音合成技术拓展人声素材资源即可,而无需如现有技术重新反复进行实地录制数据,实现了对预先创建的语音素材资源的复用,解决了当前实车实景人工录制方式费时、费力、高成本等弊端,并有效提升了车用交互语音数据样本的制作效率。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明提供的车内含噪语音数据生成方法的实施例的流程图;
图2为本发明提供的语音数据扩方法的实施例的流程图;
图3为本发明提供的车内含噪语音数据生成装置的实施例的示意图;
图4为本发明提供的电子设备的实施例的示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
在对本发明具体方案展开前,再对现有的车内含噪语音数据的制备过程进行介绍。在实际操作中,考虑到车用环境场景的复杂性,现有的语音数据制作方法多是需要人工实车实景直接采录,投入成本很大、费时费力,并且操作中难以做到严谨,导致不同场景之间语音识别效果对比会存在较大误差,例如在同一车速条件下对比不同空调档位对语音识别效果的影响,那么假设在同一段路第一次录制车内含噪语音数据时有大客车路过产生噪音,而第二次录制没有大客车经过,那么这两个场景下的环境变量就存在偏差,导致无法做到单一、稳定因素准确对比;另外,由于现有方法是直接采录含噪语音数据,不能够将车内的人声语音和车载噪声可靠分离出来,也就是说,如果环境场景信息或人声声源信息有任何变化时,均需要重新采集信息,而不能实现已经采录的语音数据的重复利用,额外增加成本。
为了解决目前人工实车实景采录含噪语音数据的弊端,本发明提出了如下至少一种车内含噪语音数据生成方法的实施例,如图1所示的,具体可以包括:
步骤S1、预先创建语音素材库。
这里所述语音素材库可以存储有至少两类音频数据,纯人声音频数据和实车纯噪音音频数据,或者可以理解为所述语音素材库包括至少两个子库,分别存储有纯人声音频数据和实车纯噪音音频数据。
具体来说,用于车内交互的含噪语音数据主要是由主说话人声源、环境噪声、干扰源构成。其中,主说话人声源就是指语音处理的对象,主要用于识别、唤醒、意图分析、指令操控等操作环节;而环境噪声主要是指行驶时的风噪及胎噪、车外噪音、空调噪、车载播放器输出声音、其他杂音等,并且,其中一部分环境噪声与实车所在地理位置有关,比如车库、闹市区、高速、乡间小路等会有相应的变化;前述干扰源主要是指车内其他说话人声源,如主说话人声源为主驾声源,则干扰源可以是指副驾、主驾后位、副驾后位等人声声源;如主说话人声源为副驾声源,则干扰源可以是指主驾、主驾后位、副驾后位等人声声源。并且,前述主说话人声源可以称为“纯人声”,前述环境噪声和干扰源则可统称为“实车纯噪音”。
为了实现本发明提出的车内含噪语音数据的制作,需要预先准备纯人声音频数据以及实车纯噪音音频数据,具体实施时,可以通过预先录制的方式予以实现,这里给出如下实施示例供参考:
(1)预先录制不同的纯人声声源素材,并对各纯人声声源素材标注出人声声源信息,得到纯人声音频数据。
关于前文提及的主说话人的声源素材资源的录制,可以根据实际需求定制纯人声的语音模板,具体地,可以在特定的静音室由真人录制,也可以通过语音合成技术模拟出真人发声,这里给出如下录制方式举例(实际操作可不限于此):
Figure BDA0003127674870000071
优选地,在采录了对应于主要说话人的纯人声声源数据后,可以依据人声特征对此素材进行标注,例如可以标注出每一条纯人声音频的说话人角色、性别、语种(中文/外语/方言)、音量大小、音色(甜美/温柔/刚毅/低沉等),例如,某一条主说话人声源数据可标记为:主驾—男—50db。
(2)预先录制在不同场景下的实车纯噪音素材,并对各实车纯噪音素材标注出场景噪声信息,得到实车纯噪音音频数据。
关于实车纯噪音素材资源的录制,需要考虑用户实际使用车辆情况及场景,分类采集到多种车辆使用信息。具体地,可以采用实车模拟进行采录收集,例如在主驾驶位绑定录音设备,在主/副驾驶绑定模拟真人发声设备(此模拟真人发声设备采录的是前文提及的干扰源),然后可以采用控制变量法分别记录不同场景下车噪,例如,记录不同车速下车噪:在同一场所保证车内无其它人为外放声源,开启不同车速记录下对应的噪音值;记录主/副驾人声交谈音量:在同一场所同一车速保证车内无其它人为外放声源时,利用主/副驾驶模拟真人发声设备模拟交谈并记录下主/副驾人声交谈音量,等等。采用类似方法可以录制诸如不同实车场景、不同空调档位、不同车内播放器音量下的实车纯噪音。实车纯噪音采录对象可参考如下,但不限于此:
Figure BDA0003127674870000081
优选地,在采录了实车纯噪音之后,也可以依据上述噪音场景信息对此素材进行标注,例如可以针对收集到场景信息进行按类别标记:由于不同车速带来的车噪(主要指风噪、轮胎、发动机噪音及相关部件振动等)不一样,统计出用户常用的车速为0km/h、20km/h、40km/h、60km/h、80km/h、100km/h、120km/h,则结合不同车速进行统一分类标记,如:车速40km/h—5db等;统计出用户常用的空调档位有0档、低档、中档、高档,同理地,结合不同空调档位下进行统一分类标记,如:空调中档—3db等;统计出常见用户实车驾驶地理位置有车库、小区附近、闹市区、高速,类似上述分类标记方法可以标记如:车库—3db等;同理地,车内播放器音量可标记如:车载音乐—30db等;干扰源可标记如:副驾—30db。这里给出一种综合多个因素的某场景下实车纯噪音标记示例:闹市区:10db+空调中档:3db+干扰源:20db。
可以指出的是,通过前文提及的预先标注该优选实施方式,可以有效提升语音素材库的复用率。
步骤S2、接收并解析用户输入的数据需求。
该用户举例但不限于是车内交互语音测试人员,为了更准确地测试不同场景下车内语音识别效果,测试人员往往需要定制一批不同车噪下的车内含噪语音数据作为测试集,因而常见的数据需求信息可以是:主要说话人的人声特征与实车噪音场景信息,和/或人声声源能量与实车噪音能量的比例关系。
并且,通常用户输入的需求形式可以是相对较为明确的,比如主说话人声源为男—中文普通话—50db,主说话人声源能量与车噪能量比例5:3,基于此类具体且明确的数据需求,可以直接执行后续步骤S3;用户输入的需求形式也可以是相对模糊的,比如男性音量中等且车辆在高速路形式中,或者又如低音女士,且车噪略高于主要人声等等,针对此类较为模糊的数据需求指令,则所述解析方式可以优选考虑根据用户输入的数据需求、标注人声声源信息的纯人声音频数据、标注场景噪声信息的实车纯噪音音频数据以及预先训练的基于语义分析的预测模型,得到解析后的数据需求。
在实际操作中,针对此类情形,可以预先由语音素材库中的数据集训练预先利用诸如神经网络架构构建的场景信息预测模型,具体地,例如但不限于将主说话人声源标记文本M、主说话人声源能量与车噪权重比值Y,以及大量用户所提模糊需求的文本(当然也可以是语音)作为输入,而模型经语义分析后输出即为具体的主说话人声源信息M和最优的纯车噪场景信息S。这样,当在实际运行阶段可以由用户当前输入的相对模糊的数据需求作为模型输入,经过前述场景信息预测模型计算后输出主说话人声源信息M(如:男—中文普通话—50db)以及最优纯车噪场景信息S(如:闹市区s1—空调高档s2—干扰源s3,其中s1=10db、s2=5db、s3=15db)。具体关于上述模型的选型、训练等,可以参考现有的成熟技术,本发明对此不作赘述和限定。
步骤S3、根据解析后的数据需求,从所述语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据。
无论直接解析出用户的数据需求信息,还是通过模型预测出用户的数据需求信息,均可以基于该解析出的需求信息到前述语音素材库中进行纯人声及实车纯噪音的匹配及提取。较佳地,可以是基于所述需求信息以及前述语音素材库中标注出的所述人声声源信息,从所述语音素材库中匹配出最优的纯人声音频数据;以及基于所述需求信息以及前述语音素材库中标注出的所述场景噪声信息,从所述语音素材库中匹配得到最优的实车纯噪音音频数据。
匹配过程可以借鉴成熟的数据匹配手段,本发明对此不作赘述和限定,而需要进一步指出的是,这里提及的“最优的”,是考虑到解析出的需求信息可能无法100%地在库内匹配到对应项,因而可以给定一个匹配偏差范围,在进行匹配时得到符合需求信息的若干个结果,然后从中再遴选出最优的纯人声音频数据以及实车纯噪音音频数据。
步骤S4、将匹配到的纯人声音频数据以及实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。
最后,可以将匹配到的最优主说话人声源和最优纯车噪声源进行声学融合,制作出符合用户需求的目标车内含噪语音数据。这里所述的声学融合同样可以参考已知的现有方式,例如将两个单通道的主说话人声源及纯车噪声源进行叠加形成一个单通道的混音数据,该混音数据即是包含噪声的语音数据。
在上述各个实施例及其优选方案基础上,还可以进一步考虑的是,为了扩增所需车内含噪语音数据量,还可以利用匹配出的符合用户当前所需的纯人声素材进行拓展,具体可以参考图2所示的语音数据扩充方案示例:
步骤S10、从匹配出的纯人声音频数据中提取当前人声的语音基元;
步骤S20、利用所述语音基元以及预设的若干个车用交互文本,合成出批量的纯人声音频数据;
步骤S30、将合成的纯人声音频数据逐一与匹配出的实车纯噪音音频数据进行混音处理,得到批量的车内含噪语音数据。
具体来说,该语音数据制作拓展方式的构思在于利用主说话人声源素材进行语音合成,具体过程例如但不限于是:给定预先设置的若干条待合成文本如车用交互文本,比如“沿途有几个卫生间”、“接听电话”、“当前车速是多少”、“打开车窗”、“导航到公司”等等,并在前文匹配到所需主说话人纯人声数据后,从中提取出该人声的语音基元(通常为但不限于可以将最小的音素样本,如声母和韵母等作为提取的语音基元),并可以结合成熟的语音合成技术对该人声的语音基元进行韵律特性的调整和修改,用于与前述待合成文本结合得到符合用户需求的语音数据,这样,当用户需要输出大批量车内含噪语音数据时,可以方便、快捷地进行批量语音合成,然后再统一叠加匹配当前需求的纯车噪音频资源,便能够制作出一定规模的符合用户需求的车内含噪语音数据。
综上所述,本发明的构思在于预先采集纯实景车噪及纯人声声源以构造出车用语音素材库,该车用语音素材库中的音频资源用于与用户所提需求结合,分别得到符合用户期望的车内含噪语音数据的两个独立元素,纯人声声源以及纯实景车噪,然后将匹配出的纯人声声源以及纯实景车噪进行通道融合,生成用户所需的目标车内含噪语音数据。本发明一方面无需重复进行严苛的实车含噪语音采集操作,且录制的语音素材资源的规模也可显著小于现有的实车含噪语音采集规模;另一方面本发明将构成数据样本的两个元素独立制备且进行独立匹配,从而使得若需要相同或相似噪声场景下的批量车内含噪语音数据时,只需结合成熟的语音合成技术拓展人声素材资源即可,而无需如现有技术重新反复进行实地录制数据,实现了对预先创建的语音素材资源的复用,解决了当前实车实景人工录制方式费时、费力、高成本等弊端,并有效提升了车用交互语音数据样本的制作效率。
相应于上述各实施例及优选方案,本发明还提供了一种车内含噪语音数据生成装置的实施例,如图3所示,具体可以包括如下部件:
语音素材库创建模块1,用于预先创建语音素材库,所述语音素材库包含纯人声音频数据以及实车纯噪音音频数据;
数据需求获取模块2,用于接收并解析用户输入的数据需求;
需求匹配模块3,用于根据解析后的数据需求,从所述语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据;
目标数据生成模块4,用于将匹配到的纯人声音频数据以及实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。
在其中至少一种可能的实现方式中,所述语音素材库创建模块包括:
纯人声音频数据制备单元,用于预先录制不同的纯人声声源素材,并对各纯人声声源素材标注出人声声源信息,得到纯人声音频数据;
实车纯噪音音频数据制备单元,用于预先录制在不同场景下的实车纯噪音素材,并对各实车纯噪音素材标注出场景噪声信息,得到实车纯噪音音频数据。
在其中至少一种可能的实现方式中,所述数据需求获取模块具体用于:
根据用户输入的数据需求、标注人声声源信息的纯人声音频数据、标注场景噪声信息的实车纯噪音音频数据以及预先训练的基于语义分析的预测模型,得到解析后的数据需求。
在其中至少一种可能的实现方式中,所述解析后的数据需求包括如下需求信息:
主要说话人的人声特征与实车噪音场景信息,和/或人声声源能量与实车噪音能量的比例关系。
在其中至少一种可能的实现方式中,所述需求匹配模块包括:
纯人声音频匹配单元,用于基于所述需求信息以及标注出的所述人声声源信息,从所述语音素材库中匹配出最优的纯人声音频数据;
实车纯噪音音频匹配单元,用于基于所述需求信息以及标注出的所述场景噪声信息,从所述语音素材库中匹配出最优的实车纯噪音音频数据。
在其中至少一种可能的实现方式中,所述装置还包括:
语音基元提取模块,用于从匹配出的纯人声音频数据中提取当前人声的语音基元;
语音合成模块,用于利用所述语音基元以及预设的若干个车用交互文本,合成出批量的纯人声音频数据;
目标数据扩增模块,用于将合成的纯人声音频数据逐一与匹配出的实车纯噪音音频数据进行混音处理,得到批量的车内含噪语音数据。
应理解以上图3所示的车内含噪语音数据生成装置可中各个部件的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分部件以软件通过处理元件调用的形式实现,部分部件通过硬件的形式实现。例如,某个上述模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些部件可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些部件可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
综合上述各实施例及其优选方案,本领域技术人员可以理解的是,在实际操作中,本发明所涉及的技术构思可适用于多种实施方式,本发明以下述载体作为示意性说明:
(1)一种电子设备。该设备具体可以包括:一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行前述实施例或者等效实施方式的步骤/功能。
该电子设备具体可以为与计算机相关的电子设备,例如但不限于各类交互终端及电子产品等,例如具体的车载智能终端,或者车载交互测试平台的计算机等。
图4为本发明提供的电子设备的实施例的结构示意图,具体地,电子设备900包括处理器910和存储器930。其中,处理器910和存储器930之间可以通过内部连接通路互相通信,传递控制和/或数据信号,该存储器930用于存储计算机程序,该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置,更常见的是彼此独立的部件,处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时,该存储器930也可以集成在处理器910中,或者,独立于处理器910。
除此之外,为了使得电子设备900的功能更加完善,该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个,所述音频电路还可以包括扬声器982、麦克风984等。其中,显示单元970可以包括显示屏。
进一步地,上述设备900还可以包括电源950,用于给该设备900中的各种器件或电路提供电能。
应理解,该设备900中的各个部件的操作和/或功能,具体可参见前文中关于方法、系统等实施例的描述,为避免重复,此处适当省略详细描述。
应理解,图4所示的电子设备900中的处理器910可以是片上系统SOC,该处理器910中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics Processing Unit;以下简称:GPU)等,具体在下文中再作介绍。
总之,处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器930中。
(2)一种计算机数据存储介质,在该存储介质上存储有计算机程序或上述装置,当计算机程序或上述装置被执行时,使得计算机执行前述实施例或等效实施方式的步骤/功能。
在本发明所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机数据取存储介质中。基于这样的理解,本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。
尤其需指出的是,该存储介质可以是指服务器或相类似的计算机设备,具体地,也即是服务器或类似的计算机设备中的存储器件中存储有前述计算机程序或上述装置。
(3)一种计算机程序产品(该产品可以包括上述装置),该计算机程序产品在终端设备上运行时,使终端设备执行前述实施例或等效实施方式的车内含噪语音数据生成方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述计算机程序产品可以包括但不限于是指APP。
接续前文,上述设备/终端可以是一台计算机设备,并且,该计算机设备的硬件结构还可以具体包括:至少一个处理器,至少一个通信接口,至少一个存储器和至少一个通信总线;处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中,处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image SignalProcessing;以下简称:ISP),该处理器还可包括特定集成电路ASIC,或者是被配置成实施本发明实施例的一个或多个集成电路等,此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储器等存储介质中;而前述的存储器/存储介质可以包括:非易失性存储器(non-volatile memory),例如非可移动磁盘、U盘、移动硬盘、光盘等,以及只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random AccessMemory;以下简称:RAM)等。
本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域技术人员可以意识到,本说明书中公开的实施例中描述的各模块、单元及方法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以及,其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个地方,例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。

Claims (10)

1.一种车内含噪语音数据生成方法,其特征在于,包括:
预先创建语音素材库,所述语音素材库包含纯人声音频数据以及实车纯噪音音频数据;
接收并解析用户输入的数据需求;
根据解析后的数据需求,从所述语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据;
将匹配到的纯人声音频数据以及实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。
2.根据权利要求1所述的车内含噪语音数据生成方法,其特征在于,所述预先创建语音素材库包括:
预先录制不同的纯人声声源素材,并对各纯人声声源素材标注出人声声源信息,得到纯人声音频数据;
预先录制在不同场景下的实车纯噪音素材,并对各实车纯噪音素材标注出场景噪声信息,得到实车纯噪音音频数据。
3.根据权利要求2所述的车内含噪语音数据生成方法,其特征在于,所述解析用户输入的数据需求包括:
根据用户输入的数据需求、标注人声声源信息的纯人声音频数据、标注场景噪声信息的实车纯噪音音频数据以及预先训练的基于语义分析的预测模型,得到解析后的数据需求。
4.根据权利要求2所述的车内含噪语音数据生成方法,其特征在于,所述解析后的数据需求包括如下需求信息:
主要说话人的人声特征与实车噪音场景信息,和/或人声声源能量与实车噪音能量的比例关系。
5.根据权利要求4所述的车内含噪语音数据生成方法,其特征在于,所述根据解析后的数据需求,从所述语音素材库中分别匹配出对应的纯人声音频数据以及实车纯噪音音频数据包括:
基于所述需求信息以及标注出的所述人声声源信息,从所述语音素材库中匹配出最优的纯人声音频数据;
基于所述需求信息以及标注出的所述场景噪声信息,从所述语音素材库中匹配出最优的实车纯噪音音频数据。
6.根据权利要求1~5任一项所述的车内含噪语音数据生成方法,其特征在于,所述方法还包括:
从匹配出的纯人声音频数据中提取当前人声的语音基元;
利用所述语音基元以及预设的若干个车用交互文本,合成出批量的纯人声音频数据;
将合成的纯人声音频数据逐一与匹配出的实车纯噪音音频数据进行混音处理,得到批量的车内含噪语音数据。
7.一种车内含噪语音数据生成装置,其特征在于,包括:
语音素材库创建模块,用于预先创建语音素材库,所述语音素材库包含纯人声音频数据以及实车纯噪音音频数据;
数据需求获取模块,用于接收并解析用户输入的数据需求;
需求匹配模块,用于根据解析后的数据需求,从所述语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据;
目标数据生成模块,用于将匹配到的纯人声音频数据以及实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。
8.根据权利要求7所述的车内含噪语音数据生成装置,其特征在于,所述装置还包括:
语音基元提取模块,用于从匹配出的纯人声音频数据中提取当前人声的语音基元;
语音合成模块,用于利用所述语音基元以及预设的若干个车用交互文本,合成出批量的纯人声音频数据;
目标数据扩增模块,用于将合成的纯人声音频数据逐一与匹配出的实车纯噪音音频数据进行混音处理,得到批量的车内含噪语音数据。
9.一种电子设备,其特征在于,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行权利要求1~6任一项所述的车内含噪语音数据生成方法。
10.一种计算机数据存储介质,其特征在于,所述计算机数据存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得计算机执行权利要求1~6任一项所述的车内含噪语音数据生成方法。
CN202110694011.4A 2021-06-22 2021-06-22 车内含噪语音数据生成方法、装置以及设备 Pending CN113409798A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110694011.4A CN113409798A (zh) 2021-06-22 2021-06-22 车内含噪语音数据生成方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110694011.4A CN113409798A (zh) 2021-06-22 2021-06-22 车内含噪语音数据生成方法、装置以及设备

Publications (1)

Publication Number Publication Date
CN113409798A true CN113409798A (zh) 2021-09-17

Family

ID=77682453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110694011.4A Pending CN113409798A (zh) 2021-06-22 2021-06-22 车内含噪语音数据生成方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN113409798A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823334A (zh) * 2021-11-22 2021-12-21 腾讯科技(深圳)有限公司 一种应用于车载设备的环境模拟方法、相关装置及设备
CN115035911A (zh) * 2022-05-31 2022-09-09 中国第一汽车股份有限公司 噪声生成模型训练方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205593A (zh) * 2016-06-28 2016-12-07 广东欧珀移动通信有限公司 一种车内声音调整方法及相关设备
CN108022591A (zh) * 2017-12-30 2018-05-11 北京百度网讯科技有限公司 车内环境中语音识别的处理方法、装置和电子设备
US20200075044A1 (en) * 2018-08-31 2020-03-05 CloudMinds Technology, Inc. System and method for performing multi-model automatic speech recognition in challenging acoustic environments
CN111028833A (zh) * 2019-12-16 2020-04-17 广州小鹏汽车科技有限公司 一种交互、车辆的交互方法、装置
CN111402875A (zh) * 2020-03-06 2020-07-10 斑马网络技术有限公司 用于车机的语音测试用音频的合成方法、装置及电子设备
CN111916060A (zh) * 2020-08-12 2020-11-10 四川长虹电器股份有限公司 一种基于谱减的深度学习语音端点检测方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205593A (zh) * 2016-06-28 2016-12-07 广东欧珀移动通信有限公司 一种车内声音调整方法及相关设备
CN108022591A (zh) * 2017-12-30 2018-05-11 北京百度网讯科技有限公司 车内环境中语音识别的处理方法、装置和电子设备
US20200075044A1 (en) * 2018-08-31 2020-03-05 CloudMinds Technology, Inc. System and method for performing multi-model automatic speech recognition in challenging acoustic environments
CN111028833A (zh) * 2019-12-16 2020-04-17 广州小鹏汽车科技有限公司 一种交互、车辆的交互方法、装置
CN111402875A (zh) * 2020-03-06 2020-07-10 斑马网络技术有限公司 用于车机的语音测试用音频的合成方法、装置及电子设备
CN111916060A (zh) * 2020-08-12 2020-11-10 四川长虹电器股份有限公司 一种基于谱减的深度学习语音端点检测方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823334A (zh) * 2021-11-22 2021-12-21 腾讯科技(深圳)有限公司 一种应用于车载设备的环境模拟方法、相关装置及设备
CN115035911A (zh) * 2022-05-31 2022-09-09 中国第一汽车股份有限公司 噪声生成模型训练方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN106933146B (zh) 电动轿车行人警示音控制方法
CN107039050B (zh) 对待测试语音识别系统的自动测试方法和装置
CN1941079B (zh) 语音识别方法和系统
DE102012217160B4 (de) Verfahren zum Korrigieren unverständlicher synthetischer Sprache
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN113409798A (zh) 车内含噪语音数据生成方法、装置以及设备
CN110600059B (zh) 声学事件检测方法、装置、电子设备及存储介质
CN103377651B (zh) 语音自动合成装置及方法
CN109256118B (zh) 基于生成式听觉模型的端到端汉语方言识别系统和方法
CN102870156A (zh) 音频通信设备、输出音频信号的方法和通信系统
CN101672690A (zh) 基于听觉模型的车内噪声烦躁度客观量化评价方法
CN110348002A (zh) 实现语音请求的系统和方法
CN109637525B (zh) 用于生成车载声学模型的方法和装置
Genuit et al. Sound design of electric vehicles-Challenges and risks
Valero et al. Hierarchical classification of environmental noise sources considering the acoustic signature of vehicle pass-bys
Liu et al. Strategy and implementing techniques for the sound quality target of car interior noise during acceleration
CN110155075A (zh) 氛围设备控制方法及相关装置
Hansen et al. " CU-move": analysis & corpus development for interactive in-vehicle speech systems.
Defréville et al. Automatic recognition of urban sound sources
Ambrosini et al. Deep neural networks for road surface roughness classification from acoustic signals
CN110362789B (zh) 一种基于gpr模型的自适应声掩蔽系统及方法
CN108735192A (zh) 一种结合曲风的钢琴演奏音质评价系统及方法
CN114863905A (zh) 语音类别获取方法、装置、电子设备和存储介质
CN108986811B (zh) 一种语音识别的检测方法、装置和设备
CN116580709A (zh) 神经网络模型的训练方法及电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination