CN112151080B - 一种录制和处理训练语料的方法 - Google Patents
一种录制和处理训练语料的方法 Download PDFInfo
- Publication number
- CN112151080B CN112151080B CN202011171578.5A CN202011171578A CN112151080B CN 112151080 B CN112151080 B CN 112151080B CN 202011171578 A CN202011171578 A CN 202011171578A CN 112151080 B CN112151080 B CN 112151080B
- Authority
- CN
- China
- Prior art keywords
- recording
- command word
- corpus
- training
- recorder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012545 processing Methods 0.000 title claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims abstract description 24
- 238000003825 pressing Methods 0.000 claims abstract description 9
- 230000001934 delay Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013386 optimize process Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
一种录制和处理训练语料的方法,包括如下步骤:S1在录音位的不同距离布置一组录音设施,同组的所述录音设施位于相对录音位的不同角度方位;S2开始录音,录音者按下前进键,按照命令词列表依序朗读命令词,每读完一个命令词,录音者按一次前进键;S3所有训练语料录音完成后,对得到的录制语料转化为统一格式;S4转化为统一格式后,进行批量切分,将录制语料切分为多个命令词语料;切分的分割点为所述步骤S21中按下前进键的时间点;S5对命令词语料进行校验,剔除不合格的命令词语料。本发明通过对录音工艺流程的优化和改善、缩短了音频处理周期、降低了文本和训练切分的错误率,提高了工作效率。
Description
技术领域
本发明属于人工智能领域中的语音识别技术,涉及大批量语料的数据处理,具体涉及一种录制和处理训练语料的方法。
背景技术
近几年,随着AI语音技术迅猛发展,声音作为语料的来源,在声学模型训练流程中至关重要,但目前,语料的录制和处理还存在很大的缺点,列如:录制训练语料时只能录制同一人次的单一音频,无法收集到同一人次多距离和多角度的音频,因此需要耗费大量的财力来找人录制足够多的训练语料。在录制时经常出现录音者读错命令词、按键过快以及回退等问题,导致生成的时间标签记录出错,从而在后续处理过程中产生许多问题音频,修改起来繁琐且耗时,导致大量的音频无法投入使用。
在训练语料录制完成后,需要大量的人力来对音频进行手动对齐和手动切分的操作,不仅处理周期长、错误率高且效率低下。从训练语料录制到处理的整套流程中,现有方法已经无法满足使用者日益增长的需求。
发明内容
为克服现有技术存在的技术缺陷,本发明公开了一种录制和处理训练语料的方法。
本发明所述录制和处理训练语料的方法,包括如下步骤:
S1在录音位的不同距离布置一组录音设施,同组的所述录音设施位于相对录音位的不同角度方位;每组录音设施包括至少一个高保真录音设备;
S2开始录音,录音者进入录音位,系统调用训练语料并将其中的命令词列表显示在显示设备上,随后播报提示音;
S21提示音播报完后,录音者按下前进键,按照命令词列表依序朗读命令词,每读完一个命令词,录音者按一次前进键;
S22当前训练语料的全部命令词读完后,系统调用新的训练语料,并重新播报提示音,重复步骤S21;
S3所有训练语料录音完成后,对得到的录制语料转化为统一格式;
S4 转化为统一格式后,进行批量切分,将录制语料切分为多个命令词语料;切分的分割点为所述步骤S21中按下前进键的时间点;
S5对命令词语料进行校验,剔除不合格的命令词语料。
优选的,所述步骤S4的批量切分具体为:
选取近距离的高保真录音设备录制的录制语料,根据该设备在音频录制时按下前进键时的时间做为分割点,将录制语料分割为多个训练切分标签,每一训练切分标签包括仅一个命令词的音频;所述近距离为距离录音位不超过1米;
获取到训练切分标签后,用训练切分标签的前后时间点切分其他录制语料。
优选的,所述高保真录音设备位于录音者的发音方向上。
优选的,所述步骤S21中,录音者如果读错命令词,系统识别后,录音设备的显示器上该命令词会显示异色字体提示,
录音者发现读错后,按下回退键,回退到上一命令词,系统提示录音者重新念该命令词,录音者重读命令词,系统记录该正确命令词前后两次按键时间作为所述步骤S4 中的分割点。
优选的,所述步骤S21中,若在录音者还没读完就按下前进键时,系统发现前进键按下时仍然有语音播报,则系统自动将本次前进键按下时间延时并作为所述步骤S4 中的分割点,所述延时为0.5-5秒。
本发明通过对录音工艺流程的优化和改善、对音频处理进行自动化、流程化,优化后的工艺流程在整套录制和处理训练语料时,极大地缩短了音频处理周期、降低了文本和训练切分的错误率,提高了工作效率,节省了大量的财力和人力。
附图说明
图1为本发明所述录音采集时录音设施布置的一种具体实施方式示意图;图1中箭头表示录音者发声方向,图1中附图标记为:1-录音位,2-高保真录音设备,3-非高保真录音设备;
图2为本发明所述录制和处理训练语料的方法的一种具体实施方式示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步的详细说明。
本发明所述录制和处理训练语料的方法,包括如下步骤:
S1在录音位的不同距离布置一组录音设施,同组的所述录音设施位于相对录音位的不同角度方位;每组录音设施包括至少一个高保真录音设备;
S2开始录音,录音者进入录音位,系统调用训练语料并将其中的命令词列表显示在显示设备上,随后播报提示音;
S21提示音播报完后,录音者按下前进键,按照命令词列表依序朗读命令词,每读完一个命令词,录音者按一次前进键;
S22当前训练语料的全部命令词读完后,系统调用新的训练语料,并重新播报提示音,重复步骤S21;
S3所有训练语料录音完成后,对得到的录制语料转化为统一格式;
S4 转化为统一格式后,进行批量切分,将录制语料切分为多个命令词语料;切分的分割点为所述步骤S21中按下前进键的时间点;
S5对命令词语料进行校验,剔除不合格的命令词语料
根据录音需求,在距离声源的不同距离、及同一距离上相对声源的不同角度摆放采音板,实现同一人次同时录制多个距离和角度的语料。
如图1所示,在距离声源的不同距离处放置录音设施,在发声方向上可以放置高保真录音设施,在偏离发声方向的其它方向可以放置非高保真录音设施,其中高保真录音设施用于后续提取训练切分标签,而非高保真录音设施采集的录制语料作为采集的样本数据,非高保真录音设施更能模拟真实环境下语音识别设备读取到的音频信息。
各个录音设施可以通过红外控制,使用遥控器实现同时开和同时关,操作简单方便,避免每次去手动断电和通电,导致录音设施损坏,延长使用周期。
录音中需要进行批量自动对齐:即每条训练语料在录制正式开始时,系统播报开始测试的提示音,录制完成后,根据提示音所处时间点删除提示音之前的部分音频,使所有的音频文件对应统一规整的时间起始点。
显示设备中通常以EXCEL表格形式显示出每条训练语料的所有命令词,录音设备在录音过程中,监控录音过程并可以进行如下操作:
命令词读错回退:在读错命令词时,录音设备的显示器上该句会显示红色字体提示,录音者在录制时可以按下回退键,回退到上一句命令词,提示录音者重新念该命令词,并记录该正确命令词的时间。
为避免录音者在未读完当前命令词就按下前进键,在所述步骤S21中,若在录音者还没读完就按下前进键时,系统发现前进键按下时仍然有语音播报,则系统可以自动将本次前进键按下时间延时并作为所述步骤S4 中的分割点,所述延时为0.5-5秒。
例如系统通过麦克风检测到某次前进键按下时,录音者仍然在持续发音,则认为此时命令词未读完,系统自动将当前命令词的结束时间增加一段时间例如2s,以防止当前命令词对应的记录时间不足,导致后续切分错误,将延时后的时间点作为步骤S4中的分割点。
录音完成后,对录音得到的录制语料需要进行处理。
录制语料由于录音设备不同,例如有高保真设备,也有非高保真的普通采音板,不同设备存储的录制语料通常具有不同的格式,比如:96khz 16bit、48khz 16bit、44.1khz16bit、32khz 16bit、16khz 16bit等,需要将不同格式的音频规整为所需的目标音频格式,比如可以将高音频格式转为低音频格式:例如将96khz 16bit格式的语料转换为48khz16bit、44.1khz 16bit、32khz 16bit、16khz 16bit等格式,32khz 16bit格式的语料转换为16khz 16bit格式的语料等。
所述步骤S4中的批量切分可以具体为:
选取近距离的高保真录音设备录制的录制语料,根据该设备在音频录制时按下前进键时的时间作为分割点,将录制语料分割为多个训练切分标签,每一训练切分标签包括仅一个命令词的音频;所述近距离为距离录音位不超过1米;
获取到训练切分标签后,用训练切分标签的前后时间点切分其他录制语料。即以训练切分标签的前后时间点作为切分点,对其他录音设施录制的相同录制语料进行分割,得到命令词语料,其中每个命令词语料仅包含一个命令词的音频。
批量切分:在提示音对齐后,选取高保真录制的一条近距离的音频,例如0.5m的音频,根据音频录制时生成的时间标签去获取训练切分的标签,将0.5m的整段音频切分为单个命令词的小段音频作为训练切分标签。
获取到训练切分标签后,用训练切分标签去切分该标签对应的所有音频,例如高保真录音设施录制的距离分别为1m、3m、5m以及非高保真录音设施录制的其他角度的所有音频。
音频与文本内容校验:使用校验工具,将所有切分后的命令词语料与对应的音频文本内容一一校验,确保切分正确,并可以剔除校验不合格的命令词的语料。
本发明所涉及的计算机程序指令可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明通过对录音工艺流程的优化和改善、对音频处理进行自动化、流程化,优化后的工艺流程在整套录制和处理训练语料时,极大地缩短了音频处理周期、降低了文本和训练切分的错误率,提高了工作效率,节省了大量的财力和人力。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (4)
1.一种录制和处理训练语料的方法,其特征在于,包括如下步骤:
S1在录音位的不同距离布置一组录音设施,同组的所述录音设施位于相对录音位的不同角度方位;每组录音设施包括至少一个高保真录音设备;
S2开始录音,录音者进入录音位,系统调用训练语料并将其中的命令词列表显示在显示设备上,随后播报提示音;
S21提示音播报完后,录音者按下前进键,按照命令词列表依序朗读命令词,每读完一个命令词,录音者按一次前进键;
S22当前训练语料的全部命令词读完后,系统调用新的训练语料,并重新播报提示音,重复步骤S21;
S3所有训练语料录音完成后,对得到的录制语料转化为统一格式;
S4 转化为统一格式后,进行批量切分,将录制语料切分为多个命令词语料;切分的分割点为所述步骤S21中按下前进键的时间点;
S5对命令词语料进行校验,剔除不合格的命令词语料;
所述步骤S4的批量切分具体为:
选取近距离的高保真录音设备录制的录制语料,根据该设备在音频录制时按下前进键时的时间作为分割点,将录制语料分割为多个训练切分标签,每一训练切分标签包括仅一个命令词的音频;所述近距离为距离录音位不超过1米;
获取到训练切分标签后,用训练切分标签的前后时间点切分其他录制语料。
2.如权利要求1所述的录制和处理训练语料的方法,其特征在于,所述高保真录音设备位于录音者的发音方向上。
3.如权利要求1所述的录制和处理训练语料的方法,其特征在于,所述步骤S21中,录音者如果读错命令词,系统识别后,录音设备的显示器上该命令词会显示异色字体提示,
录音者发现读错后,按下回退键,回退到上一命令词,系统提示录音者重新念该命令词,录音者重读命令词,系统记录正确命令词前后两次按键时间作为所述步骤S4 中的分割点。
4.如权利要求1所述的录制和处理训练语料的方法,其特征在于,所述步骤S21中,若在录音者还没读完就按下前进键时,系统发现前进键按下时仍然有语音播报,则系统自动将本次前进键按下时间延时并作为所述步骤S4 中的分割点,所述延时为0.5-5秒。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011171578.5A CN112151080B (zh) | 2020-10-28 | 2020-10-28 | 一种录制和处理训练语料的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011171578.5A CN112151080B (zh) | 2020-10-28 | 2020-10-28 | 一种录制和处理训练语料的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112151080A CN112151080A (zh) | 2020-12-29 |
CN112151080B true CN112151080B (zh) | 2021-08-03 |
Family
ID=73953493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011171578.5A Active CN112151080B (zh) | 2020-10-28 | 2020-10-28 | 一种录制和处理训练语料的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151080B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116386613B (zh) * | 2023-06-05 | 2023-07-25 | 成都启英泰伦科技有限公司 | 一种用于命令词语音增强的模型训练方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003036617A1 (fr) * | 2001-10-22 | 2003-05-01 | Sony Corporation | Appareil de reconnaissance vocale et procede de reconnaissance de la parole |
CN101297587A (zh) * | 2006-04-21 | 2008-10-29 | 雅马哈株式会社 | 拾音装置和语音会议设备 |
CN102930866A (zh) * | 2012-11-05 | 2013-02-13 | 广州市神骥营销策划有限公司 | 一种用于口语练习的学生朗读作业的评判方法 |
CN203193773U (zh) * | 2013-04-16 | 2013-09-11 | 宁波高新区阶梯科技有限公司 | 一种多媒体全景录制系统 |
CN104246877A (zh) * | 2012-04-23 | 2014-12-24 | 高通股份有限公司 | 用于音频信号处理的系统和方法 |
CN109376264A (zh) * | 2018-11-09 | 2019-02-22 | 广州势必可赢网络科技有限公司 | 一种音频检测方法、装置、设备及计算机可读存储介质 |
CN109545242A (zh) * | 2018-12-07 | 2019-03-29 | 广州势必可赢网络科技有限公司 | 一种音频数据处理方法、系统、装置及可读存储介质 |
CN109982137A (zh) * | 2019-02-22 | 2019-07-05 | 北京奇艺世纪科技有限公司 | 模型生成方法、视频标记方法、装置、终端及存储介质 |
CN110717017A (zh) * | 2019-10-17 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 一种处理语料的方法 |
CN110866107A (zh) * | 2019-10-12 | 2020-03-06 | 浙江大搜车软件技术有限公司 | 素材语料的生成方法、装置、计算机设备和存储介质 |
CN111061598A (zh) * | 2019-12-06 | 2020-04-24 | 安徽芯智科技有限公司 | 一种自动化语音引擎效果测试系统及其方法 |
CN111312295A (zh) * | 2018-12-12 | 2020-06-19 | 深圳市冠旭电子股份有限公司 | 一种全息声音的记录方法、装置及录音设备 |
CN111353038A (zh) * | 2020-05-25 | 2020-06-30 | 深圳市友杰智新科技有限公司 | 数据展示方法、装置、计算机设备和存储介质 |
CN211699711U (zh) * | 2020-01-06 | 2020-10-16 | 苏州市蓝皓计算机科技有限公司 | 一种ai智能机器人自然语言处理系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
TWI442384B (zh) * | 2011-07-26 | 2014-06-21 | Ind Tech Res Inst | 以麥克風陣列為基礎之語音辨識系統與方法 |
US10839309B2 (en) * | 2015-06-04 | 2020-11-17 | Accusonus, Inc. | Data training in multi-sensor setups |
CN107680586B (zh) * | 2017-08-01 | 2020-09-29 | 百度在线网络技术(北京)有限公司 | 远场语音声学模型训练方法及系统 |
CN109935226A (zh) * | 2017-12-15 | 2019-06-25 | 上海擎语信息科技有限公司 | 一种基于深度神经网络的远场语音识别增强系统及方法 |
CN110675862A (zh) * | 2019-09-25 | 2020-01-10 | 招商局金融科技有限公司 | 语料获取方法、电子装置及存储介质 |
-
2020
- 2020-10-28 CN CN202011171578.5A patent/CN112151080B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003036617A1 (fr) * | 2001-10-22 | 2003-05-01 | Sony Corporation | Appareil de reconnaissance vocale et procede de reconnaissance de la parole |
CN101297587A (zh) * | 2006-04-21 | 2008-10-29 | 雅马哈株式会社 | 拾音装置和语音会议设备 |
CN104246877A (zh) * | 2012-04-23 | 2014-12-24 | 高通股份有限公司 | 用于音频信号处理的系统和方法 |
CN102930866A (zh) * | 2012-11-05 | 2013-02-13 | 广州市神骥营销策划有限公司 | 一种用于口语练习的学生朗读作业的评判方法 |
CN203193773U (zh) * | 2013-04-16 | 2013-09-11 | 宁波高新区阶梯科技有限公司 | 一种多媒体全景录制系统 |
CN109376264A (zh) * | 2018-11-09 | 2019-02-22 | 广州势必可赢网络科技有限公司 | 一种音频检测方法、装置、设备及计算机可读存储介质 |
CN109545242A (zh) * | 2018-12-07 | 2019-03-29 | 广州势必可赢网络科技有限公司 | 一种音频数据处理方法、系统、装置及可读存储介质 |
CN111312295A (zh) * | 2018-12-12 | 2020-06-19 | 深圳市冠旭电子股份有限公司 | 一种全息声音的记录方法、装置及录音设备 |
CN109982137A (zh) * | 2019-02-22 | 2019-07-05 | 北京奇艺世纪科技有限公司 | 模型生成方法、视频标记方法、装置、终端及存储介质 |
CN110866107A (zh) * | 2019-10-12 | 2020-03-06 | 浙江大搜车软件技术有限公司 | 素材语料的生成方法、装置、计算机设备和存储介质 |
CN110717017A (zh) * | 2019-10-17 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 一种处理语料的方法 |
CN111061598A (zh) * | 2019-12-06 | 2020-04-24 | 安徽芯智科技有限公司 | 一种自动化语音引擎效果测试系统及其方法 |
CN211699711U (zh) * | 2020-01-06 | 2020-10-16 | 苏州市蓝皓计算机科技有限公司 | 一种ai智能机器人自然语言处理系统 |
CN111353038A (zh) * | 2020-05-25 | 2020-06-30 | 深圳市友杰智新科技有限公司 | 数据展示方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112151080A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110166816B (zh) | 用于人工智能教育的基于语音识别的视频编辑方法和系统 | |
CN105244026B (zh) | 一种语音处理方法及装置 | |
US6622121B1 (en) | Testing speech recognition systems using test data generated by text-to-speech conversion | |
US8150687B2 (en) | Recognizing speech, and processing data | |
US9666208B1 (en) | Hybrid audio representations for editing audio content | |
US11295069B2 (en) | Speech to text enhanced media editing | |
CN110740275B (zh) | 一种非线性编辑系统 | |
CN109326305B (zh) | 一种批量测试语音识别和文本合成的方法和测试系统 | |
US8620670B2 (en) | Automatic realtime speech impairment correction | |
WO2016197708A1 (zh) | 一种录音方法及终端 | |
CN112995754A (zh) | 字幕质量检测方法、装置、计算机设备和存储介质 | |
CN112151080B (zh) | 一种录制和处理训练语料的方法 | |
CN112836481A (zh) | 基于语音转文字的表单标准化输出方法 | |
CN106528715B (zh) | 一种音频内容校核方法及装置 | |
CN113782026A (zh) | 一种信息处理方法、装置、介质和设备 | |
CN114333828A (zh) | 用于数码产品的快速语音识别系统 | |
KR102036721B1 (ko) | 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법 | |
CN113591491B (zh) | 语音翻译文本校正系统、方法、装置及设备 | |
JP2000206987A (ja) | 音声認識装置 | |
CN114999464A (zh) | 语音数据处理方法及装置 | |
CN114373478A (zh) | 歌曲音频标注与对齐模型训练方法、设备及存储介质 | |
CN111986706A (zh) | 一种基于音频分析的语音响应时间测试方法 | |
CN116013365B (zh) | 一种语音全自动化测试的方法 | |
CN213694055U (zh) | 一种语音采集设备 | |
US20050125236A1 (en) | Automatic capture of intonation cues in audio segments for speech applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |