CN112863531A - 通过计算机识别后重新生成进行语音音频增强的方法 - Google Patents
通过计算机识别后重新生成进行语音音频增强的方法 Download PDFInfo
- Publication number
- CN112863531A CN112863531A CN202110035305.6A CN202110035305A CN112863531A CN 112863531 A CN112863531 A CN 112863531A CN 202110035305 A CN202110035305 A CN 202110035305A CN 112863531 A CN112863531 A CN 112863531A
- Authority
- CN
- China
- Prior art keywords
- voice
- audio
- computer
- recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000008929 regeneration Effects 0.000 title claims description 5
- 238000011069 regeneration method Methods 0.000 title claims description 5
- 230000001172 regenerating effect Effects 0.000 claims abstract description 15
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 14
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims abstract description 6
- 230000008451 emotion Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract description 14
- 230000008439 repair process Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了通过计算机识别后重新生成进行语音音频增强的方法,涉及计算机音频增强处理系统技术领域,具体为通过计算机识别后重新生成进行语音音频增强的方法,包括以下步骤:S1、输入语音音频数据;S2、将语音音频进行分割处理;S3、将分割音频进行计算机识别处理;S4、对计算机识别结果做修正处理;S5、结合识别结果和其他标记数据进行计算机语音合成生成增强后语音音频。该通过计算机识别后重新生成进行语音音频增强的方法,通过计算机识别语音内容成分,并使用获取到的内容成分进行计算机生成语音,从而达到对音频中语音内容的直接增强;通过计算机生成语音,可以对语音增强结果进行高度的自定义化效果,而并不用依赖于音频素材本身。
Description
技术领域
本发明涉及计算机音频增强处理系统技术领域,具体为通过计算机识别后重新生成进行语音音频增强的方法。
背景技术
目前,语音增强大多是采用算法进行环境降噪、滤波、分频、压限等方式,或通过使用硬件混合处理的方法降噪并增强说话人语音。
传统语音增强方法更多是通过对音频信号本身进行处理而进行的,通过间接的方式增强说话人的语音内容,而不能直接的提取出音频信号中的语音内容进行增强,这会使得语音增强过程中得到一些并不想要的声音结果,且增强效果不稳定,无法保证在不同环境中获得稳定的语音增强效果,增强后的语音对于人类的听觉识别的优化较为有限,无法很好的起到增强人类语音理解力的作用。
发明内容
针对现有技术的不足,本发明提供了通过计算机识别后重新生成进行语音音频增强的方法,解决了上述背景技术中提出现有传统语音增强方法更多是通过对音频信号本身进行处理而进行的,通过间接的方式增强说话人的语音内容,而不能直接的提取出音频信号中的语音内容进行增强,这会使得语音增强过程中得到一些并不想要的声音结果,且增强效果不稳定,无法保证在不同环境中获得稳定的语音增强效果,增强后的语音对于人类的听觉识别的优化较为有限,无法很好的起到增强人类语音理解力的作用的问题。
为实现以上目的,本发明通过以下技术方案予以实现:通过计算机识别后重新生成进行语音音频增强的方法,包括以下步骤:
S1、输入语音音频数据;
S2、将语音音频进行分割处理;
S3、将分割音频进行计算机识别处理;
S4、对计算机识别结果做修正处理;
S5、结合识别结果和其他标记数据进行计算机语音合成生成增强后语音音频。
可选的,所述通过计算机识别后重新生成进行语音音频增强的方法,具体包括一下步骤:
S1、输入语音音频数据:输入一段完整的语音音频;
S2、将语音音频进行分割处理:将步骤S1、输入语音音频数据中的完整音频,根据说话的断句判断其分割点,记录下相应的时间戳、时长、相对位置等标记数据,并对音频本身进行切分;
S3、将分割音频进行计算机识别处理:将分割后的音频,通过计算机语音转换技术,将音频内容转换成文字或等价的语音标记元素如字符、拼音、音标、罗马音、发音标记等;
S4、对计算机识别结果做修正处理:根据上下文分析和发音规律分析等将可能产生误识别的语音标记元素修正为更有可能是正确的语音标记元素;
S5、结合识别结果和其他标记数据进行计算机语音合成生成增强后语音音频:根据步骤S4、对计算机识别结果做修正处理中产生的语音生成标记,使用计算机进行语音合成,生成语音音频结果。
可选的,所述步骤S3、将分割音频进行计算机识别处理的进一步包括:将分割音频进行语音情绪、语调、性别等语音特征进行识别。
可选的,所述将分割音频进行语音情绪、语调、性别等语音特征进行识别具体包括以下步骤:为了能获得更好的语音生成效果,减少生成语音与原说话人之间的声音差异,以及避免情绪等信息的传达缺失,以及将原音频中说话人在该段音频中的语音特征提取出来,以便按照相似的特征进行语音生成。
本发明提供了通过计算机识别后重新生成进行语音音频增强的方法,具备以下有益效果:
1、该通过计算机识别后重新生成进行语音音频增强的方法,解决当前语音增强只能进行音频处理间接增强,而无法对语音内容本身进行直接增强的问题,通过神经网络对语音进行识别再生成的处理,得到清晰的语音音频,将输入语音进行识别内容、情绪、发音规则,而后根据识别的信息进行语音合成,实现了不清晰语音到清晰语音的转换,且在转换时保持了输出与输入在内容上的高度一致。
2、该通过计算机识别后重新生成进行语音音频增强的方法,通过计算机识别语音内容成分,并使用获取到的内容成分进行计算机生成语音,从而达到对音频中语音内容的直接增强。
3、该通过计算机识别后重新生成进行语音音频增强的方法,通过计算机生成语音,可以对语音增强结果进行高度的自定义化效果,而并不用依赖于音频素材本身。
附图说明
图1为本发明的步骤流程示意图;
图2为本发明的具体步骤流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1-图2,本发明提供一种技术方案:通过计算机识别后重新生成进行语音音频增强的方法,包括以下步骤:
S1、输入语音音频数据;
S2、将语音音频进行分割处理;
S3、将分割音频进行计算机识别处理;
S4、对计算机识别结果做修正处理;
S5、结合识别结果和其他标记数据进行计算机语音合成生成增强后语音音频。
通过计算机识别后重新生成进行语音音频增强的方法,具体包括一下步骤:
S1、输入语音音频数据:输入一段完整的语音音频;
S2、将语音音频进行分割处理:将步骤S1、输入语音音频数据中的完整音频,根据说话的断句判断其分割点,记录下相应的时间戳、时长、相对位置等标记数据,并对音频本身进行切分;
例如将音频内容为“你好,这是一个例子”,拆分为音频内容为“你好”和“这是一个例子”的两段音频;主要的分割方法主要依托于音频的窗口平均阈值作为切分依据;当一段时间内的音频信号小于设定的阈值,则视为截断点;分割方式并不作为本专利的核心部分,仅为对输入数据进行的一种预处理;本方案支持将通过其他方式进行数据预处理的数据;
S3、将分割音频进行计算机识别处理:将分割后的音频,通过计算机语音转换技术,将音频内容转换成文字或等价的语音标记元素如字符、拼音、音标、罗马音、发音标记等;
具体实现方法主要通过神经网络对语音内容进行分析及识别,获取相应发音所对应的语音元素成分标记;
这种语音元素标记不同于现有语音识别,后者识别的是语音中的文字内容,前者的主要特征可以是任何形式的具有发音代表性的标识数据。这种特征甚至不一定是人类可读的,可以只是计算机自行理解的发音规律。通过神经网络获得的近似标识和这些标识的置信参数可以根据说话人自身的发音习惯做针对性的匹配,通过提取说话人常用特定字词发音,作为权重补偿对神经网络输出时的多个可能正确的结果进行置信程度的调整,以获得更具有针对性和更加准确的识别结果;
S4、对计算机识别结果做修正处理:此步骤是为了解决单纯计算机识别可能产生的误识别问题,根据上下文分析和发音规律分析等将可能产生误识别的语音标记元素修正为更有可能是正确的语音标记元素;
为方便理解,以拼音作为中间语音标记元素为例,识别到“zhe4si4yi1duan4dui4hua1”,可以修复为“zhe4shi4yi2duan4dui4hua4”;
这主要依赖于修复库中的修复素材以及相应的文本权重比对进行,如一段文本的识别置信程度较低,但根据上下文所得到的修复库中对应置信程度较高,则对识别结果进行替换;每一种用于标记的语音元素均需要有其相对应的修复库或修复规则;根据不同的应用场景,可以更换更适合特定应用场景的修复库;例如在描述专业内容的输入中,就可以使用包含更多专有名词的修复库,专业性用词也可以相应提升其权重以便修复结果更加精确。前序步骤中所有的输出结果在此进行合并,作为含有时间、语音标记数据、情绪发音标记数据的语音生成标记;
S5、结合识别结果和其他标记数据进行计算机语音合成生成增强后语音音频:根据上一步骤产生的语音生成标记,使用计算机进行语音合成,生成语音音频结果;
生成方式主要采用神经网络生成,可以获得更加平滑自然的生成结果。除识别结果标记数据为不可或缺的主要参数之外,其他输入数据均为可选的为了更进一步增强语音生成效果而加入的可选参数;将语音标记元素输入后,计算机按照相应规则生成与其匹配的音频;上述辅助参数将对生成音频的生成细节进行调整;生成网络允许训练特异性的某种发音习惯,如方言、口音等。输出音频的语音内容应与输入语音的内容保持基本一致,以最终实现音频内容增强,而去除了多方面干扰的效果。
步骤S3、将分割音频进行计算机识别处理的进一步包括:将分割音频进行语音情绪、语调、性别等语音特征进行识别。
将分割音频进行语音情绪、语调、性别等语音特征进行识别具体包括以下步骤:为了能获得更好的语音生成效果,减少生成语音与原说话人之间的声音差异,以及避免情绪等信息的传达缺失。可以将原音频中说话人在该段音频中的语音特征提取出来,以便按照相似的特征进行语音生成。
其不需要是人类可以理解的情绪特征,仅仅是某种发音方法的标识。为了方便理解,以人类可理解的方式举例,比如提取出(情绪开心+语调高起伏+语速130字每分钟+男声+醇厚低音+嗓音沙哑)等特征。
在此方案中通常采用神经网络以及频谱分析等的复合方式进行分析提取。以神经网络输出的结果为主,频谱分析作为辅助判断依据进行结果修正。一段语音可以同时拥有多种特征,这些特征对应的是语音合成部分的输入参数,以此来得到接近原语音的声音。此部分也可以替换为固定的生成数据或缺省,以默认或其他参数进行后续的语音音频合成。此方案中输出获得的情绪数据为用于语音合成的标记数据,转换生成为类似于SSML的语音生成标记语言用于后续生成。
以上,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.通过计算机识别后重新生成进行语音音频增强的方法,包括以下步骤:
S1、输入语音音频数据;
S2、将语音音频进行分割处理;
S3、将分割音频进行计算机识别处理;
S4、对计算机识别结果做修正处理;
S5、结合识别结果和其他标记数据进行计算机语音合成生成增强后语音音频。
2.根据权利要求1所述的通过计算机识别后重新生成进行语音音频增强的方法,其特征在于,所述具体包括一下步骤:
S1、输入语音音频数据:输入一段完整的语音音频;
S2、将语音音频进行分割处理:将步骤S1、输入语音音频数据中的完整音频,根据说话的断句判断其分割点,记录下相应的时间戳、时长、相对位置等标记数据,并对音频本身进行切分;
S3、将分割音频进行计算机识别处理:将分割后的音频,通过计算机语音转换技术,将音频内容转换成文字或等价的语音标记元素如字符、拼音、音标、罗马音、发音标记等;
S4、对计算机识别结果做修正处理:根据上下文分析和发音规律分析等将可能产生误识别的语音标记元素修正为更有可能是正确的语音标记元素;
S5、结合识别结果和其他标记数据进行计算机语音合成生成增强后语音音频:根据步骤S4、对计算机识别结果做修正处理中产生的语音生成标记,使用计算机进行语音合成,生成语音音频结果。
3.根据权利要求1所述的通过计算机识别后重新生成进行语音音频增强的方法,其特征在于,所述步骤S3、将分割音频进行计算机识别处理的进一步包括:将分割音频进行语音情绪、语调、性别等语音特征进行识别。
4.根据权利要求3所述的通过计算机识别后重新生成进行语音音频增强的方法,其特征在于:所述将分割音频进行语音情绪、语调、性别等语音特征进行识别具体包括以下步骤:为了能获得更好的语音生成效果,减少生成语音与原说话人之间的声音差异,以及避免情绪等信息的传达缺失,可以将原音频中说话人在该段音频中的语音特征提取出来,以便按照相似的特征进行语音生成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110035305.6A CN112863531A (zh) | 2021-01-12 | 2021-01-12 | 通过计算机识别后重新生成进行语音音频增强的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110035305.6A CN112863531A (zh) | 2021-01-12 | 2021-01-12 | 通过计算机识别后重新生成进行语音音频增强的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112863531A true CN112863531A (zh) | 2021-05-28 |
Family
ID=76002777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110035305.6A Pending CN112863531A (zh) | 2021-01-12 | 2021-01-12 | 通过计算机识别后重新生成进行语音音频增强的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112863531A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080065381A1 (en) * | 2006-09-13 | 2008-03-13 | Fujitsu Limited | Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method |
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
US20110307241A1 (en) * | 2008-04-15 | 2011-12-15 | Mobile Technologies, Llc | Enhanced speech-to-speech translation system and methods |
CN108702580A (zh) * | 2016-02-19 | 2018-10-23 | 微软技术许可有限责任公司 | 具有自动语音转录的听力辅助 |
CN109145276A (zh) * | 2018-08-14 | 2019-01-04 | 杭州智语网络科技有限公司 | 一种基于拼音的语音转文字后的文本校正方法 |
CN110827074A (zh) * | 2019-10-31 | 2020-02-21 | 夏振宇 | 采用视频语音分析进行广告投放评估的方法 |
-
2021
- 2021-01-12 CN CN202110035305.6A patent/CN112863531A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080065381A1 (en) * | 2006-09-13 | 2008-03-13 | Fujitsu Limited | Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method |
CN101145346A (zh) * | 2006-09-13 | 2008-03-19 | 富士通株式会社 | 语音增强设备和语音记录设备及方法、计算机可读记录介质 |
US20110307241A1 (en) * | 2008-04-15 | 2011-12-15 | Mobile Technologies, Llc | Enhanced speech-to-speech translation system and methods |
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
CN108702580A (zh) * | 2016-02-19 | 2018-10-23 | 微软技术许可有限责任公司 | 具有自动语音转录的听力辅助 |
CN109145276A (zh) * | 2018-08-14 | 2019-01-04 | 杭州智语网络科技有限公司 | 一种基于拼音的语音转文字后的文本校正方法 |
CN110827074A (zh) * | 2019-10-31 | 2020-02-21 | 夏振宇 | 采用视频语音分析进行广告投放评估的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111508498A (zh) | 对话式语音识别方法、系统、电子设备和存储介质 | |
Aryal et al. | Foreign accent conversion through voice morphing. | |
CN118043884A (zh) | 音频和视频转换器 | |
EP1280137B1 (en) | Method for speaker identification | |
CN109616131B (zh) | 一种数字实时语音变音方法 | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
CN112185341A (zh) | 基于语音合成的配音方法、装置、设备和存储介质 | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
CN113744722A (zh) | 一种用于有限句库的离线语音识别匹配装置与方法 | |
CN113628609A (zh) | 自动音频内容生成 | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
Sinha et al. | Empirical analysis of linguistic and paralinguistic information for automatic dialect classification | |
Mishra et al. | An Overview of Hindi Speech Recognition | |
Toledano et al. | Initialization, training, and context-dependency in HMM-based formant tracking | |
GB2548356A (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
CN112992118B (zh) | 一种少语料的语音模型训练及合成方法 | |
Furui | Robust methods in automatic speech recognition and understanding. | |
CN112863531A (zh) | 通过计算机识别后重新生成进行语音音频增强的方法 | |
Aso et al. | Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre | |
Castelli | Generation of F0 contours for Vietnamese speech synthesis | |
CN115359775A (zh) | 一种端到端的音色及情感迁移的中文语音克隆方法 | |
Dalva | Automatic speech recognition system for Turkish spoken language | |
JP2006030609A (ja) | 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム | |
CN114267326A (zh) | 语音合成系统的训练方法、装置及语音合成方法、装置 | |
JP2006189544A (ja) | 通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210528 |
|
WD01 | Invention patent application deemed withdrawn after publication |