CN111326174A - 一种远场语音干扰场景测试语料自动化合成的方法 - Google Patents
一种远场语音干扰场景测试语料自动化合成的方法 Download PDFInfo
- Publication number
- CN111326174A CN111326174A CN201911416964.3A CN201911416964A CN111326174A CN 111326174 A CN111326174 A CN 111326174A CN 201911416964 A CN201911416964 A CN 201911416964A CN 111326174 A CN111326174 A CN 111326174A
- Authority
- CN
- China
- Prior art keywords
- corpus
- interference
- list
- test
- far
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims 4
- 238000003786 synthesis reaction Methods 0.000 claims 4
- 230000006870 function Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 241001248531 Euchloe <genus> Species 0.000 description 2
- 238000011981 development test Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明涉及远场语音测试技术,其公开了一种远场语音干扰场景测试语料自动化合成的方法,针对不同干扰测试场景快速合成对应场景的测试语料,有利于提高测试效率和精确性。该方法包括以下步骤:a.获取原始语料文件和干扰噪声文件;b.统计各原始语料长度;c.将各原始语料的编号和长度数据保存至第一列表中;d.根据第一列表,将干扰噪声文件截取为与原始语料相同长度的干扰语料,并生成第二列表;e.根据第一列表和第二列表批量生成单通道语料;f.约定每个干扰场景使用的语音通道;g.根据干扰测试场景,自动合成多通道的测试语料。本发明适用于的具备远场语音功能的产品进行语音功能测试。
Description
技术领域
本发明涉及远场语音测试技术,具体涉及一种远场语音干扰场景测试语料自动化合成的方法。
背景技术
远场语音是一种人与机器间的交互方式,相对于近场语音来说,区别是它的作用距离更长,通常会在1米到10米之间。远场语音是一种融合了AI语音搜索、被广泛应用于智能电视、智能音箱中的AI语音交互技术。用户可以脱离遥控器,在较远距离通过唤醒词直接说出指令进行智能电视及智能音箱的操控。
远场语音的激活和识别直接影响用户的使用体验,所以激活算法和识别率算法的测试十分重要。在测试过程中,不仅要测试安静场景、还要覆盖多种干扰测试场景,而如何针对不同干扰测试场景快速合成对应场景的测试语料是当前远场语音测试亟待解决的问题。
发明内容
本发明所要解决的技术问题是:提出一种远场语音干扰场景测试语料自动化合成的方法,针对不同干扰测试场景快速合成对应场景的测试语料,有利于提高测试效率和精确性。
本发明解决上述技术问题采用的技术方案是:
一种远场语音干扰场景测试语料自动化合成的方法,包括以下步骤:
a.获取原始语料文件和干扰噪声文件;
b.统计各原始语料长度;
c.将各原始语料的编号和长度数据保存至第一列表中;
d.根据第一列表,将干扰噪声文件截取为与原始语料相同长度的干扰语料,并生成第二列表;
e.根据第一列表和第二列表批量生成单通道语料;
f.约定每个干扰场景使用的语音通道;
g.根据干扰测试场景,自动合成多通道的测试语料。
作为进一步优化,步骤a中,所述干扰噪声文件包括多种类型的干扰语料。
作为进一步优化,步骤b中,通过调用开源软件ffmpeg来统计原始语料文件名称和长度。
作为进一步优化,步骤c和步骤d中,所述第一列表和第二列表中每一个文件对应一个编号和自身音频长度。
作为进一步优化,步骤e中,所述批量生成的单通道语料包括单通道的测试语料和每一种类型的干扰语料集合。
本发明的有益效果是:
由于语料合成了不同测试场景的测试语料,所以播放不同的测试语料集合,就实现了不同干扰场景的测试需求;通过控制播放不同的测试语料集合,实现了语音激活和识别功能的高效测试。
附图说明
图1为本发明实施例中的测试语料自动化合成方法流程图。
具体实施方式
对于远场语音识别率和唤醒率算法测试,需要多种场景测试语料如:安静、单点噪声、多点噪声、散射噪声等;要对不同版本算法的效果进行对比,就要求使用相同的测试语料进行测试才能保证一致性,而每种类型的干扰场景对应的干扰语料也需要多种才能保证测试的全面性,因此,本发明通过自动化合成原始输入语料和N种干扰测试语料,生成不同干扰场景的测试语料数据,即针对每个测试场景生成固定的测试语料,提高测试效率和测试精准度。
在具体实现上,本发明中远场语音干扰场景测试语料自动化合成的方法,包括:
步骤一、获取原始语料文件(如唤醒词条文件)、干扰噪声文件;
步骤二、统计测试语料的长度,可以通过开发测试工具1调用开源软件ffmpeg来实现此功能,具体开发过程对于本领域技术人员而言使用linux操作系统下的shell脚本语言实现,这里不再赘述。
步骤三:使用步骤三的测试工具1,统计批量原始测试语料文件的编号、长度到列表1;
步骤四:根据干扰场景选择干扰语料,根据步骤三得到的列表1,使用开源软件sox的方法,截取相同长度的干扰语料并生列表2;
步骤五:处理原始语料和干扰语料,判断如果是多通道音频文件,根据列表1和列表2,批量生成单通道语料;可以通过开发测试工具2调用开源软件sox来实现此功能,具体开发过程对于本领域技术人员而言使用linux操作系统下的shell脚本语言实现,这里不再赘述。
步骤六:约定每个干扰场景使用的语音通道,如原始语料使用通道1、单点干扰语料使用通道2、多点干扰语料使用通道3/4/5/6等;
步骤七:根据干扰测试场景,合成多通道的测试语料,可以通过开发测试工具3来调用开源软件sox的方法来实现此功能,具体开发过程对于本领域技术人员而言可以使用linux操作系统下的shell脚本语言实现,这里不再赘述。
步骤八:根据场景,自动化生成多种场景的测试语料;可以通过合并测试工具1、测试工具2和测试工具3,实现选择原始语料和干扰语料后,根据场景,自动化生成多种场景的测试语料。
由于语料合成了不同测试场景的测试语料,所以播放不同的测试语料集合,就实现了不同干扰场景的测试需求;通过控制播放不同的测试语料集合,实现了语音激活和识别功能的自动化测试。
实施例:
如图1所示,本实施例中的远场语音干扰场景测试语料自动化合成的方法包括以下步骤:
步骤一、获取原始语料文件为100个“长虹小白”的激活音频文件,获取电视剧节目的录音文件1,获取访谈节目的录音文件2;
步骤二、调用开源软件ffmpeg和sox提供的方法,统计原始语料文件“长虹小白”的名称和长度;
步骤三、统计100个“长虹小白”原始测试语料文件的编号、长度数据到列表1;
步骤四、根据列表1,使用开源软件sox的方法,把录音文件1和录音文件2分别截成100个文件,长度和列表1种对应;
步骤五、判断100个“长虹小白”原始测试语料文件、录音文件1生成的100个文件、录音文件2生成的100个文件为多通道音频文件,根据列表1和列表2,使用开源的sox软件批量生成单通道语料;
步骤六、约定每个干扰场景使用的语音通道,如原始语料使用通道1、电视剧节目类型干扰语料使用通道2、访谈节目类型干扰语料使用通道3等;
步骤七、根据干扰测试场景,合成多通道的测试语料,如电视剧节目类型的干扰测试场景,选择100个原始测试语料+100个电视剧节目类型的录音文件,生成100个电视剧节目类型的干扰测试的语料;
按照实际情况,可以约定生成结果为多个通道的音频文件,不使用的通道使用空白噪声填充,通过上述方法,可以自动化生成不同测试场景的测试语料。
Claims (5)
1.一种远场语音干扰场景测试语料自动化合成的方法,其特征在于,包括以下步骤:
a.获取原始语料文件和干扰噪声文件;
b.统计各原始语料长度;
c.将各原始语料的编号和长度数据保存至第一列表中;
d.根据第一列表,将干扰噪声文件截取为与原始语料相同长度的干扰语料,并生成第二列表;
e.根据第一列表和第二列表批量生成单通道语料;
f.约定每个干扰场景使用的语音通道;
g.根据干扰测试场景,自动合成多通道的测试语料。
2.如权利要求1所述的一种远场语音干扰场景测试语料自动化合成的方法,其特征在于,
步骤a中,所述干扰噪声文件包括多种类型的干扰语料。
3.如权利要求1所述的一种远场语音干扰场景测试语料自动化合成的方法,其特征在于,
步骤b中,通过调用开源软件ffmpeg来统计原始语料文件名称和长度。
4.如权利要求1所述的一种远场语音干扰场景测试语料自动化合成的方法,其特征在于,
所述第一列表和第二列表中每一个文件对应一个编号和自身音频长度。
5.如权利要求1所述的一种远场语音干扰场景测试语料自动化合成的方法,其特征在于,
步骤e中,所述批量生成的单通道语料包括单通道的测试语料和每一种类型的干扰语料集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911416964.3A CN111326174A (zh) | 2019-12-31 | 2019-12-31 | 一种远场语音干扰场景测试语料自动化合成的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911416964.3A CN111326174A (zh) | 2019-12-31 | 2019-12-31 | 一种远场语音干扰场景测试语料自动化合成的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111326174A true CN111326174A (zh) | 2020-06-23 |
Family
ID=71171388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911416964.3A Pending CN111326174A (zh) | 2019-12-31 | 2019-12-31 | 一种远场语音干扰场景测试语料自动化合成的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111326174A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530399A (zh) * | 2020-11-30 | 2021-03-19 | 上海明略人工智能(集团)有限公司 | 一种语音数据的扩充方法、系统、电子设备及存储介质 |
CN112614484A (zh) * | 2020-11-23 | 2021-04-06 | 北京百度网讯科技有限公司 | 特征信息挖掘方法、装置及电子设备 |
CN113436611A (zh) * | 2021-06-11 | 2021-09-24 | 阿波罗智联(北京)科技有限公司 | 车载语音设备的测试方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1577577A (zh) * | 2003-07-12 | 2005-02-09 | 三星电子株式会社 | 构造用于混合的音频流的方法和装置以及信息存储介质 |
US9584896B1 (en) * | 2016-02-09 | 2017-02-28 | Lethinal Kennedy | Ambient noise headphones |
CN106548772A (zh) * | 2017-01-16 | 2017-03-29 | 上海智臻智能网络科技股份有限公司 | 语音识别测试系统及方法 |
CN107204191A (zh) * | 2017-05-17 | 2017-09-26 | 维沃移动通信有限公司 | 一种混音方法、装置及移动终端 |
CN109473094A (zh) * | 2018-11-12 | 2019-03-15 | 东风汽车有限公司 | 车载控制屏语音识别率测试方法、电子设备、系统 |
CN109658935A (zh) * | 2018-12-29 | 2019-04-19 | 苏州思必驰信息科技有限公司 | 多通道带噪语音的生成方法及系统 |
CN111402875A (zh) * | 2020-03-06 | 2020-07-10 | 斑马网络技术有限公司 | 用于车机的语音测试用音频的合成方法、装置及电子设备 |
-
2019
- 2019-12-31 CN CN201911416964.3A patent/CN111326174A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1577577A (zh) * | 2003-07-12 | 2005-02-09 | 三星电子株式会社 | 构造用于混合的音频流的方法和装置以及信息存储介质 |
US9584896B1 (en) * | 2016-02-09 | 2017-02-28 | Lethinal Kennedy | Ambient noise headphones |
CN106548772A (zh) * | 2017-01-16 | 2017-03-29 | 上海智臻智能网络科技股份有限公司 | 语音识别测试系统及方法 |
CN107204191A (zh) * | 2017-05-17 | 2017-09-26 | 维沃移动通信有限公司 | 一种混音方法、装置及移动终端 |
CN109473094A (zh) * | 2018-11-12 | 2019-03-15 | 东风汽车有限公司 | 车载控制屏语音识别率测试方法、电子设备、系统 |
CN109658935A (zh) * | 2018-12-29 | 2019-04-19 | 苏州思必驰信息科技有限公司 | 多通道带噪语音的生成方法及系统 |
CN111402875A (zh) * | 2020-03-06 | 2020-07-10 | 斑马网络技术有限公司 | 用于车机的语音测试用音频的合成方法、装置及电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614484A (zh) * | 2020-11-23 | 2021-04-06 | 北京百度网讯科技有限公司 | 特征信息挖掘方法、装置及电子设备 |
CN112614484B (zh) * | 2020-11-23 | 2022-05-20 | 北京百度网讯科技有限公司 | 特征信息挖掘方法、装置及电子设备 |
CN112530399A (zh) * | 2020-11-30 | 2021-03-19 | 上海明略人工智能(集团)有限公司 | 一种语音数据的扩充方法、系统、电子设备及存储介质 |
CN113436611A (zh) * | 2021-06-11 | 2021-09-24 | 阿波罗智联(北京)科技有限公司 | 车载语音设备的测试方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111326174A (zh) | 一种远场语音干扰场景测试语料自动化合成的方法 | |
US10334384B2 (en) | Scheduling playback of audio in a virtual acoustic space | |
US3828132A (en) | Speech synthesis by concatenation of formant encoded words | |
KR101238731B1 (ko) | 서라운드 경험에 최소한의 영향을 미치는 멀티-채널 오디오에서 음성 가청도를 유지하는 방법과 장치 | |
KR101221917B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
US20160125893A1 (en) | Method for audio source separation and corresponding apparatus | |
US10728688B2 (en) | Adaptive audio construction | |
CN110349582B (zh) | 显示装置与远场语音处理电路 | |
Chatterjee et al. | ClearBuds: wireless binaural earbuds for learning-based speech enhancement | |
CN109376363A (zh) | 一种基于耳机的实时语音翻译方法及装置 | |
US8670575B2 (en) | Method and an apparatus for processing an audio signal | |
CN110808028B (zh) | 嵌入式语音合成方法、装置以及控制器和介质 | |
RU2437247C1 (ru) | Способ и устройство для обработки звукового сигнала | |
Yang et al. | Simulating realistic speech overlaps improves multi-talker ASR | |
US20030014253A1 (en) | Application of speed reading techiques in text-to-speech generation | |
KR20200028852A (ko) | 암묵 신호 분리를 위한 방법, 장치 및 전자 장치 | |
JP3364487B2 (ja) | 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体 | |
CN110620986B (zh) | 音频处理算法的调度方法、装置、音频处理器和存储介质 | |
CN111412587B (zh) | 空调器的语音处理方法、装置、空调器和存储介质 | |
US7146317B2 (en) | Speech recognition device with reference transformation means | |
JP6645779B2 (ja) | 対話装置および対話プログラム | |
CN115223541A (zh) | 文本转语音的处理方法、装置、设备及存储介质 | |
CN105869614B (zh) | 音频文件导出方法和装置 | |
CN111627417A (zh) | 播放语音的方法、装置及电子设备 | |
CN116685032B (zh) | 一种舞台灯的语音控制方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200623 |
|
RJ01 | Rejection of invention patent application after publication |