CN108010512B - 一种音效的获取方法及录音终端 - Google Patents

一种音效的获取方法及录音终端 Download PDF

Info

Publication number
CN108010512B
CN108010512B CN201711266387.5A CN201711266387A CN108010512B CN 108010512 B CN108010512 B CN 108010512B CN 201711266387 A CN201711266387 A CN 201711266387A CN 108010512 B CN108010512 B CN 108010512B
Authority
CN
China
Prior art keywords
target
sound effect
voice signal
emotional
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711266387.5A
Other languages
English (en)
Other versions
CN108010512A (zh
Inventor
唐涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201711266387.5A priority Critical patent/CN108010512B/zh
Publication of CN108010512A publication Critical patent/CN108010512A/zh
Application granted granted Critical
Publication of CN108010512B publication Critical patent/CN108010512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/16Storage of analogue signals in digital stores using an arrangement comprising analogue/digital [A/D] converters, digital memories and digital/analogue [D/A] converters 
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种音效的获取方法及录音终端,包括:通过录音终端采集配音员的声音并将采集到的声音进行降噪处理之后,得到清晰的配音员的声音;录音终端再将配音员的声音的语调、语速以及关键词等声学特征提取出来,根据该声学特征匹配出与之对应的情感信息;该录音终端还能够通过从情感信息中提取出该情感信息对应的情感特点,并根据情感特点从音效库中查找与之对应的音效,以供配音员选择最合适的音效,使得合成出来的影音文件观赏性更强。实施本发明实施例,录音终端能够通过配音员的声音自动获取音效,提高影音文件的制作效率。

Description

一种音效的获取方法及录音终端
技术领域
本发明涉及录音终端技术领域,具体涉及一种音效的获取方法及录音终端。
背景技术
在影视资源、视频教学以及动画等影音文件中,人们所追求的不仅有视觉效果还有听觉效果。影音文件通常都是需要有后期配音的,后期配音除了需要配音员的配合还需要搭配合适的音效才能营造出最佳观赏效果。通常,技术人员将与影音文件匹配的音效和影音文件结合起来,以使影视资源、视频教学以及动画等影音文件更为生动,但是,这种人工选择音效的方式会降低影音文件的制作效率。
发明内容
本发明实施例公开了一种音效的获取方法及录音终端,能够提高影音文件的制作效率。
本发明实施例第一方面公开了一种音效的获取方法,所述方法包括:
采集配音员录音时发出的目标语音信号;
对所述目标语音信号进行分析,获取所述目标语音信号的声学特征;
从预设情感数据库中获取与所述目标语音信号的声学特征匹配的用于表示人类情感的情感信息;
从预设音效库中获取与所述情感信息对应的目标情感特点匹配的目标音效。
作为一种可选的实施方式,在本发明实施例第一方面中,所述采集配音员录音时发出的目标语音信号,包括:
接收录音启动指令;
响应所述录音启动指令,采集配音员录音时发出的初始语音信号;
对所述初始语音信号进行降噪处理,得到降噪处理后的目标语音信号。
作为一种可选的实施方式,在本发明实施例第一方面中,对所述初始语音信号进行降噪处理,得到降噪处理后的目标语音信号,包括:
过滤所述初始语音信号中低于噪声门的噪音信号,得到目标语音信号,所述目标语音信号高于所述噪声门,所述噪声门为预设的电平门限值。
作为一种可选的实施方式,在本发明实施例第一方面中,所述从预设音效库中获取与所述情感信息对应的目标情感特点匹配的目标音效,包括:
输出所述情感信息对应的至少一个情感特点;
检测配音员从所述至少一个情感特点中选择的目标情感特点;
从预设音效库中获取与所述目标情感特点匹配的至少一个音效;
检测配音员在所述至少一个音效中选择的目标音效。
作为一种可选的实施方式,在本发明实施例第一方面中,在从预设音效库中获取与所述情感信息对应的目标情感特点匹配的目标音效之后,还包括:
将所述目标语音信号和所述目标音效合成,得到目标影音文件;
播放所述目标影音文件,并输出用于询问配音员是否保存所述目标影音文件的询问信息;
接收用于表示保存所述目标影音文件的保存指令,并执行所述保存指令。
本发明实施例第二方面公开了一种录音终端,所述录音终端包括:
采集单元,用于采集配音员录音时发出的目标语音信号;
分析单元,用于对所述目标语音信号进行分析,获取所述目标语音信号的声学特征;
第一获取单元,用于从预设情感数据库中获取与所述目标语音信号的声学特征匹配的用于表示人类情感的情感信息;
第二获取单元,用于从预设音效库中获取与所述情感信息对应的目标情感特点匹配的目标音效。
作为一种可选的实施方式,在本发明实施例第二方面中,所述采集单元,包括:
接收子单元,用于接收录音启动指令;
响应子单元,用于响应所述录音启动指令,采集配音员录音时发出的初始语音信号;
降噪子单元,用于对所述初始语音信号进行降噪处理,得到降噪处理后的目标语音信号。
作为一种可选的实施方式,在本发明实施例第二方面中,所述降噪子单元,具体用于过滤所述初始语音信号中低于噪声门的噪音信号,得到目标语音信号,所述目标语音信号高于所述噪声门,所述噪声门为预设的电平门限值。
作为一种可选的实施方式,在本发明实施例第二方面中,所述第二获取单元,包括:
输出子单元,用于输出所述情感信息对应的至少一个情感特点;
第一检测子单元,用于检测配音员从所述至少一个情感特点中选择的目标情感特点;
获取子单元,用于从预设音效库中获取与所述目标情感特点匹配的至少一个音效;
第二检测子单元,用于检测配音员在所述至少一个音效中选择的目标音效。
作为一种可选的实施方式,在本发明实施例第二方面中,还包括:
合成单元,用于在所述第二获取单元从预设音效库中获取到与所述情感信息对应的目标情感特点匹配的目标音效之后,将所述目标语音信号和所述目标音效合成,得到目标影音文件;
播放单元,用于播放所述目标影音文件;
输出单元,用于输出用于询问配音员是否保存所述目标影音文件的询问信息;
接收单元,用于接收用于表示保存所述目标影音文件的保存指令,并执行所述保存指令。
本发明实施例第三方面公开了一种录音终端,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的音效的获取方法。
本发明实施例第四方面公开了一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的音效的获取方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,通过录音终端采集配音员的声音并将采集到的声音进行降噪处理之后,得到清晰的配音员的声音;录音终端再将配音员的声音的语调、语速以及关键词等声学特征提取出来,根据该声学特征匹配出与之对应的情感信息;该录音终端还能够通过从情感信息中提取出该情感信息对应的情感特点,并根据情感特点从音效库中查找与之对应的音效,以供配音员选择最合适的音效,使得合成出来的影音文件观赏性更强。可见,实施本发明实施例,能够通过录音终端根据配音员的声音自动获取音效,提高影音文件的制作效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种音效的获取方法的流程示意图;
图2是本发明实施例公开的另一种音效的获取方法的流程示意图;
图3是本发明实施例公开的又一种音效的获取方法的流程示意图;
图4是本发明实施例公开的一种录音终端的结构示意图;
图5是本发明实施例公开的另一种录音终端的结构示意图;
图6是本发明实施例公开的又一种录音终端的结构示意图;
图7是本发明实施例公开的又一种录音终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种音效的获取方法及录音终端,能够通过录音终端根据配音员的声音自动获取音效,提高影音文件的制作效率。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种音效的获取方法的流程示意图。如图1所示,该音效的获取方法可以包括以下步骤:
101、录音终端采集配音员录音时发出的目标语音信号。
本发明实施例中,录音终端可以通过语音采集与分析的可视化模块,使用录音终端中的MATLAB数据采集工具箱通过声卡对模拟语音信号(即目标语音信号)进行采集。同时也通过录音模块采集目标语音信号,以某一种数据格式(例如WAV、MP3、AIFF、MIDI或者WMA等数据格式)保存该目标语音信号至录音终端中,并触发步骤102对目标语音信号进行分析。
本发明实施例中,上述录音模块包括图示均衡器、参量均衡器以及房间均衡器。图示均衡器可以通过控制面板上的不同频段推拉键,调试出最适宜的均衡补偿曲线,该均衡补偿曲线可由录音终端直观的输出,并且,还可以通过在频带内设置至少一个频点,使得每个频点可以单独调整目标语音信号的提升和衰减;参量均衡器可以单独调节滤波器参数,滤波器参数包括中心频率、滤波器带宽、增益以及品质因数,通过对滤波器参数的调节可以对采集到的目标语音信号进行美化和修饰,且因为参量均衡器在不同频率上均可以实现对目标语音信号的微调,所以使得采集到的目标语音信号更具特色,风格种类也更多;房间均衡器可以在配音员配音时对录音棚中的频响特性进行调节,可以改善声染色带来的失真,还可以防止反馈啸叫。
综上所述,本发明实施例中,录音终端通过控制录音模块来采集目标语音信号的过程中,录音模块中的均衡器起到了举足轻重的作用,因为录音模块中的均衡器不仅对目标语音的音色和声场有调整和润色还抑制了反馈啸叫,所以,使得配音员录入的声音即录音终端采集到的目标语音信号质量更加。
102、录音终端对目标语音信号进行分析,获取目标语音信号的声学特征。
本发明实施例中,在步骤101采集到配音员录音时发出的目标语音信号之后,录音终端可以量化由MATLAB数据采集工具箱通过声卡采集到的模拟语音信号,以获得数字语音信号,再利用MATLAB中的核心算法即离散傅里叶变换(discrete Fourier transform)对数字语音信号进行处理和分析,最终,经由数模转换器转换为可播放的模拟语音信号(即目标语音信号)。录音终端为了获取目标语音信号的声学特征,录音终端还可以获取线性预测系数LPC、倒谱系数CEP、Mel倒谱系数MFCC以及感知线性预测PLP。其中,线性预测系数LPC利用对声道的短管级联模型,以及系统的传递函数符合全集点数字滤波器的形式,根据任一时刻前的若干信号的线性组合来估计任一时刻的信号,通过使得实际语音的采样值和线性预测采样值之间达到均方差最小,以得到线性预测系数LPC;倒谱系数CEP可以由同态处理法得出,以提高特征参数的稳定性;Mel倒谱系数MFCC以及感知线性预测PLP是经由人类的听觉系统研究成果推导出的声学特征,即两个频率相近的音调同时发出时,人只能听到一个音调,而临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率之差小于临界带宽时,人就会把两个音调听成一个音调,也就是屏蔽效应,所以Mel刻度是对这一临界带宽的度量方法之一。该实施例中获取目标语音信号的声学特征是基于LPC的倒谱参数表示法,将提取出的特征值存入参考模式库,以匹配待目标语音信号的特征值。
本发明实施例中,录音终端中可以包含语音内容识别系统,该语音内容识别系统还可以包含预处理部分、特征参数提取部分以及识别判决部分,各部分分别对应了上述实施方式中的实施步骤,其中,预处理部分对模拟语音信号进行采样即离散化,根据香农定理确定以模拟语音信号带宽选取的采样周期,以免信号的频域混叠失真;特征参数提取部分采用线性预测系数LPC或倒谱系数CEP或Mel倒谱系数MFCC以及感知线性预测PLP与目标语音信号进行比较即语音识别;最终通过识别判决部分根据预设的规则进行识别判决并输出识别结果。
本发明实施例中,离散傅里叶变换(discrete Fourier transform)这种傅里叶分析方法是信号分析的最基本方法,傅里叶变换是傅里叶分析的核心,通过它把信号从时间域变换到频率域,进而研究信号的频谱结构和变化规律。
本发明实施例中,数模转换器又称D/A转换器,简称DAC,数模转换器是把数字量转变成模拟的器件。D/A转换器基本上由4个部分组成,即权电阻网络、运算放大器、基准电源和模拟开关。最常见的数模转换器是将并行二进制的数字量转换为直流电压或直流电流,它常用作控制计算机系统的输出通道,并与执行器相连,实现对生产过程的自动控制。
综上所述,该实施例能够通过算法模拟仿真,对配音员的声音进行高保真采集,相比复杂的程序调试,使用MATLAB能够高精度的完成语音信号的分析工作,改善对目标语音信号的分析质量;还能够通过对声学特征中的特征参数的计算,以便后期根据具有良好独立性的特征参数准确的匹配出对应音效。
103、录音终端从预设情感数据库中获取与目标语音信号的声学特征匹配的用于表示人类情感的情感信息。
本发明实施例中,在步骤102对目标语音信号进行分析,获取到目标语音信号的声学特征之后,录音终端可以从预设的情感数据库中匹配出于目标语音信号的声学特征(线性预测系数LPC或倒谱系数CEP或Mel倒谱系数MFCC以及感知线性预测PLP)对应的情感信息,也可以通过匹配与基因频率、振幅能量以及共振峰对应的情感信息来触发执行步骤103。
104、录音终端从预设音效库中获取与情感信息对应的目标情感特点匹配的目标音效。
本发明实施例中,在步骤102从预设情感数据库中获取到与目标语音信号的声学特征匹配的用于表示人类情感的情感信息之后,录音终端可以确定出与该情感信息对应的情感特点(例如愤怒、高兴、悲伤以及惊奇等情感特点),根据该情感信息对应的情感特点获取到匹配的目标音效。所以,执行步骤104能够通过有针对性的获取目标音效,以达到准确及时的确定出与目标语音信息匹配的目标音效的效果。
可见,实施图1所描述的方法,录音终端能够通过控制录音模块来采集目标语音信号的过程中,录音模块中的均衡器起到了举足轻重的作用,因为录音模块中的均衡器不仅对目标语音的音色和声场有调整和润色还抑制了反馈啸叫,所以,使得配音员录入的声音即录音终端采集到的目标语音信号质量更加;录音终端还能够通过算法模拟仿真,对配音员的声音进行高保真采集,相比复杂的程序调试,使用MATLAB能够高精度的完成语音信号的分析工作,改善对目标语音信号的分析质量;录音终端还能够通过对声学特征中的特征参数的计算,以便后期根据具有良好独立性的特征参数准确的匹配出对应音效;录音终端还能够通过有针对性的获取目标音效,以达到准确及时的确定出与目标语音信息匹配的目标音效的效果。所以,综上所述可得出如下结论,实施图1所描述的音效的获取方法,能够通过录音终端根据配音员的声音自动获取音效,提高影音文件的制作效率。
实施例二
请参阅图2,图2是本发明实施例公开的另一种音效的获取方法的流程示意图。如图2所示,该音效的获取方法可以包括以下步骤:
201、录音终端接收录音启动指令。
本发明实施例中,录音终端可以接收用于触发语音采集与分析的可视化模块和录音模块采集目标语音信号的录音启动指令,该录音启动指令可以为录音终端接收到的配音员说出的预设录音开启口令,也可以为录音终端接收到的配音员对录音终端的屏幕上的虚拟按键的点击。所以,执行步骤201通过在获得了启动指令之后才启动录音,提高了录音终端的利用率,进而降低了录音终端的功耗。
202、录音终端响应录音启动指令,采集配音员录音时发出的初始语音信号。
本发明实施例中,在步骤201接收到录音启动指令之后,录音终端可以响应录音启动指令,即立即控制用于触发语音采集与分析的可视化模块和录音模块采集配音员的初始语音信号,初始语音信号中包含较多噪声,不利于录音终端获取用于表示人类情感的情感信息,因此,步骤202采集到配音员录音时发出的初始语音信号,还需要触发步骤203过滤初始语音信号中低于噪声门的噪音信号,得到目标语音信号。
203、录音终端过滤初始语音信号中低于噪声门的噪音信号,得到目标语音信号,目标语音信号高于噪声门,噪声门为预设的电平门限值。
本发明实施例中,在步骤202采集到配音员录音时发出的初始语音信号之后,录音终端可以过滤初始语音信号中低于噪声门的噪音信号,得到目标语音信号。其中,录音终端通过噪声门可以去除目标语音信号中的噪声,噪声门设定的阈值比噪声的电平高,噪声的电平几乎都低于噪声门设定的阈值,以此阻挡噪声的输出,保证了目标语音信号的输出质量。为了通过噪声门能够顺利输出目标语音信号,可以设置灵敏度参数(用于决定噪声门打开的预设电平值)、削弱参数(用于在使用较少的削弱时即噪声门不完全关闭,允许一些低于噪声门设定的阈值的信号通过)、衰减时间参数(用于在语音信号低于噪声门设定的阈值时,声音淡出的时间)、音头时间参数(用于在语音信号超过噪声门设定的阈值时,噪声门打开一段预设的时间,使语音信号淡出)以及开关输入参数(用于允许使用单独且未经处理的语音信号打开或关闭噪声门)。所以,执行步骤203能够通过噪声门即电平门限值对初始语音信号的过滤,获取高保真目标语音信号,提高了获取到的目标语音信号质量。
本发明实施例中,噪声门是低电平扩展器的一种特殊形式,扩展器是一种声音信号动态处理设备,它可以扩展声音信号的动态范围,其功能与信号压缩器相反。当输入扩展器(高电平扩展器)的声音限号小于指定值(预设阈值)时,其增益较小,输入信号大于阈值时增益较大,则使得高于预设阈值的信号增加增益,低于预设阈值的信号减少增益,即响度更大的信号则更强,响度小的信号则弱,增加了信号的动态范围。
204、录音终端对目标语音信号进行分析,获取目标语音信号的声学特征。
205、录音终端从预设情感数据库中获取与目标语音信号的声学特征匹配的用于表示人类情感的情感信息。
206、录音终端输出情感信息对应的至少一个情感特点。
本发明实施例中,在步骤205从预设情感数据库中获取到与目标语音信号的声学特征匹配的用于表示人类情感的情感信息之后,录音终端可以输出情感信息中包含的至少一个情感特点,即一条情感信息中可能包含多种情感特点,也可能是录音终端分析出的情感特点中包含了所有可能存在的情感特点,本发明实施例不作限定。所以,执行步骤206能够通过输出情感信息对应的至少一个情感特点,保证目标语音信号对应的情感特点的完整性。
207、录音终端检测配音员从至少一个情感特点中选择的目标情感特点。
本发明实施例中,在步骤206输出情感信息对应的至少一个情感特点之后,录音终端可以检测配音员针对录音时录入的初始语音信号选择的目标情感特点。所以,执行步骤207能够通过检测配音员从至少一个情感特点中选择的目标情感特点,保证在后期对目标情感特点匹配音效的准确性。
208、录音终端从预设音效库中获取与目标情感特点匹配的至少一个音效。
本发明实施例中,在步骤207检测到配音员从至少一个情感特点中选择的目标情感特点之后,录音终端可以从预设音效库中获取与目标情感特点匹配的至少一个音效。所以,执行步骤208能够通过人机交互的方式改善用户体验。
209、录音终端检测配音员在至少一个音效中选择的目标音效。
本发明实施例中,在步骤208从预设音效库中获取到与目标情感特点匹配的至少一个音效之后,录音终端可以检测配音员选择的目标音效通过人机交互的方式,避免了录音终端选出不适宜的目标音效的可能性。
可见,实施图2所描述的方法,录音终端能够通过在获得了启动指令之后才启动录音,提高了录音终端的利用率,进而降低了录音终端的功耗;录音终端还能够通过噪声门即电平门限值对初始语音信号的过滤,获取高保真目标语音信号,提高了获取到的目标语音信号质量;录音终端还能够通过控制录音模块来采集目标语音信号的过程中,录音模块中的均衡器起到了举足轻重的作用,因为录音模块中的均衡器不仅对目标语音的音色和声场有调整和润色还抑制了反馈啸叫,所以,使得配音员录入的声音即录音终端采集到的目标语音信号质量更加;录音终端还能够通过算法模拟仿真,对配音员的声音进行高保真采集,相比复杂的程序调试,使用MATLAB能够高精度的完成语音信号的分析工作,改善对目标语音信号的分析质量;录音终端还能够通过对声学特征中的特征参数的计算,以便后期根据具有良好独立性的特征参数准确的匹配出对应音效;录音终端还能够通过有针对性的获取目标音效,以达到准确及时的确定出与目标语音信息匹配的目标音效的效果;录音终端还能够通过输出情感信息对应的至少一个情感特点,保证目标语音信号对应的情感特点的完整性;录音终端还能够通过人机交互的方式改善用户体验。所以,综上所述可得出如下结论,实施图2所描述的音效的获取方法,能够通过录音终端根据配音员的声音自动获取音效,进一步提高影音文件的制作效率。
实施例三
请参阅图3,图3是本发明实施例公开的又一种音效的获取方法的流程示意图。如图3所示,该音效的获取方法可以包括以下步骤:
301、录音终端接收录音启动指令。
302、录音终端响应录音启动指令,采集配音员录音时发出的初始语音信号。
303、录音终端过滤初始语音信号中低于噪声门的噪音信号,得到目标语音信号,目标语音信号高于噪声门,噪声门为预设的电平门限值。
304、录音终端对目标语音信号进行分析,获取目标语音信号的声学特征。
305、录音终端从预设情感数据库中获取与目标语音信号的声学特征匹配的用于表示人类情感的情感信息。
306、录音终端输出情感信息对应的至少一个情感特点。
307、录音终端检测配音员从至少一个情感特点中选择的目标情感特点。
308、录音终端从预设音效库中获取与目标情感特点匹配的至少一个音效。
309、录音终端检测配音员在至少一个音效中选择的目标音效。
310、录音终端将目标语音信号和目标音效合成,得到目标影音文件。
本发明实施例中,在步骤309检测到配音员在至少一个音效中选择的目标音效之后,录音终端可以将处理过得到的目标语音信号和配音员选出的目标音效通过录音终端中的音效合成模块合成,得到可播放的目标影音文件。所以,执行步骤310能够通过合成目标语音信号和目标音效,自动制作出完整的目标影音文件,提高了影音文件的制作效率。
311、录音终端播放目标影音文件,并输出用于询问配音员是否保存目标影音文件的询问信息。
本发明实施例中,在步骤310得到目标影音文件之后,录音终端可以播放目标影音文件给配音员看,并输出用于询问配音员是否保存目标影音文件的询问信息,如果配音员认为目标影音文件和目标音效的结合很适宜且目标影音文件的观赏效果佳,则会选择保存目标影音文件。所以,执行步骤311能够通过进一步的人机交互,以使最终保存的目标影音文件的观赏效果最佳。
312、录音终端接收用于表示保存目标影音文件的保存指令,并执行保存指令。
本发明实施例中,如果录音终端接收到用于表示保存目标影音文件的保存指令,则保存目标影音文件;如果录音终端接收到用于表示不保存目标影音文件的不保存指令,则删除目标影音文件。
可见,该可选的实施例,录音终端能够通过在获得了启动指令之后才启动录音,提高了录音终端的利用率,进而降低了录音终端的功耗;录音终端还能够通过噪声门即电平门限值对初始语音信号的过滤,获取高保真目标语音信号,提高了获取到的目标语音信号质量;录音终端还能够通过控制录音模块来采集目标语音信号的过程中,录音模块中的均衡器起到了举足轻重的作用,因为录音模块中的均衡器不仅对目标语音的音色和声场有调整和润色还抑制了反馈啸叫,所以,使得配音员录入的声音即录音终端采集到的目标语音信号质量更加;录音终端还能够通过算法模拟仿真,对配音员的声音进行高保真采集,相比复杂的程序调试,使用MATLAB能够高精度的完成语音信号的分析工作,改善对目标语音信号的分析质量;录音终端还能够通过对声学特征中的特征参数的计算,以便后期根据具有良好独立性的特征参数准确的匹配出对应音效;录音终端还能够通过有针对性的获取目标音效,以达到准确及时的确定出与目标语音信息匹配的目标音效的效果;录音终端还能够通过输出情感信息对应的至少一个情感特点,保证目标语音信号对应的情感特点的完整性;录音终端还能够通过人机交互的方式改善用户体验;录音终端还能够通过合成目标语音信号和目标音效,自动制作出完整的目标影音文件,提高了影音文件的制作效率;录音终端还能够通过进一步的人机交互,以使最终保存的目标影音文件的观赏效果最佳。所以,综上所述可得出如下结论,实施图3所描述的音效的获取方法,能够通过录音终端根据配音员的声音自动获取音效,更进一步提高影音文件的制作效率。
实施例四
请参阅图4,图4是本发明实施例公开的一种录音终端的结构示意图。如图4所示,该录音终端可以包括:
采集单元401,用于采集配音员录音时发出的目标语音信号。
分析单元402,用于对目标语音信号进行分析,获取目标语音信号的声学特征。
第一获取单元403,用于从预设情感数据库中获取与目标语音信号的声学特征匹配的用于表示人类情感的情感信息。
第二获取单元404,用于从预设音效库中获取与情感信息对应的目标情感特点匹配的目标音效。
可见,实施图4所描述的录音终端,采集单元401通过控制录音模块来采集目标语音信号的过程中,录音模块中的均衡器起到了举足轻重的作用,因为录音模块中的均衡器不仅对目标语音的音色和声场有调整和润色还抑制了反馈啸叫,所以,使得配音员录入的声音即录音终端采集到的目标语音信号质量更加;采集单元401能够通过算法模拟仿真,对配音员的声音进行高保真采集,相比复杂的程序调试,使用MATLAB能够高精度的完成语音信号的分析工作,改善对目标语音信号的分析质量;分析单元402能够通过对声学特征中的特征参数的计算,以便后期根据具有良好独立性的特征参数准确的匹配出对应音效;第一获取单元403以及第二获取单元404能够通过有针对性的获取目标音效,以达到准确及时的确定出与目标语音信息匹配的目标音效的效果。所以,综上所述可得出如下结论,实施图4所描述的音效的获取方法,能够通过录音终端根据配音员的声音自动获取音效,提高影音文件的制作效率。
实施例五
请参阅图5,图5是本发明实施例公开的另一种录音终端的结构示意图。其中,图5所示的录音终端是由图4所示的录音终端进行优化得到的。与图4所示的录音终端相比较,图5所示的录音终端中,采集单元401可以包括:
接收子单元4011,用于接收录音启动指令。
响应子单元4012,用于响应录音启动指令,采集配音员录音时发出的初始语音信号。
降噪子单元4013,用于对初始语音信号进行降噪处理,得到降噪处理后的目标语音信号。
第二获取单元404可以包括:
输出子单元4041,用于输出情感信息对应的至少一个情感特点。
第一检测子单元4042,用于检测配音员从至少一个情感特点中选择的目标情感特点。
获取子单元4043,用于从预设音效库中获取与目标情感特点匹配的至少一个音效。
第二检测子单元4044,用于检测配音员在至少一个音效中选择的目标音效。
作为一种可选的实施方式,该录音终端中,降噪子单元4013具体用于过滤初始语音信号中低于噪声门的噪音信号,得到目标语音信号,目标语音信号高于噪声门,噪声门为预设的电平门限值。
可见,实施图5所描述的录音终端,接收子单元4011能够通过在获得了启动指令之后才启动录音,提高了录音终端的利用率,进而降低了录音终端的功耗;降噪子单元4013能够通过噪声门即电平门限值对初始语音信号的过滤,获取高保真目标语音信号,提高了获取到的目标语音信号质量;采集单元401能够通过控制录音模块来采集目标语音信号的过程中,录音模块中的均衡器起到了举足轻重的作用,因为录音模块中的均衡器不仅对目标语音的音色和声场有调整和润色还抑制了反馈啸叫,所以,使得配音员录入的声音即录音终端采集到的目标语音信号质量更加;采集单元401能够通过算法模拟仿真,对配音员的声音进行高保真采集,相比复杂的程序调试,使用MATLAB能够高精度的完成语音信号的分析工作,改善对目标语音信号的分析质量;分析单元402能够通过对声学特征中的特征参数的计算,以便后期根据具有良好独立性的特征参数准确的匹配出对应音效;第一获取单元403以及第二获取单元404能够通过有针对性的获取目标音效,以达到准确及时的确定出与目标语音信息匹配的目标音效的效果;输出子单元4041能够通过输出情感信息对应的至少一个情感特点,保证目标语音信号对应的情感特点的完整性;第一检测子单元4042和第二检测子单元4044能够通过人机交互的方式改善用户体验。所以,综上所述可得出如下结论,实施图5所描述的音效的获取方法,能够通过录音终端根据配音员的声音自动获取音效,进一步提高影音文件的制作效率。
实施例六
请参阅图6,图6是本发明实施例公开的又一种录音终端的结构示意图。其中,图6所示的录音终端是由图5所示的录音终端进行优化得到的。与图5所示的录音终端相比较,图6所示的录音终端还可以包括:
合成单元405,用于在第二获取单元404从预设音效库中获取到与情感信息对应的目标情感特点匹配的目标音效之后,将目标语音信号和目标音效合成,得到目标影音文件。
播放单元406,用于播放目标影音文件。
输出单元407,用于输出用于询问配音员是否保存目标影音文件的询问信息。
接收单元408,用于接收用于表示保存目标影音文件的保存指令,并执行保存指令。
可见,实施图6所描述的录音终端,接收子单元4011能够通过在获得了启动指令之后才启动录音,提高了录音终端的利用率,进而降低了录音终端的功耗;降噪子单元4013能够通过噪声门即电平门限值对初始语音信号的过滤,获取高保真目标语音信号,提高了获取到的目标语音信号质量;采集单元401能够通过控制录音模块来采集目标语音信号的过程中,录音模块中的均衡器起到了举足轻重的作用,因为录音模块中的均衡器不仅对目标语音的音色和声场有调整和润色还抑制了反馈啸叫,所以,使得配音员录入的声音即录音终端采集到的目标语音信号质量更加;采集单元401能够通过算法模拟仿真,对配音员的声音进行高保真采集,相比复杂的程序调试,使用MATLAB能够高精度的完成语音信号的分析工作,改善对目标语音信号的分析质量;分析单元402能够通过对声学特征中的特征参数的计算,以便后期根据具有良好独立性的特征参数准确的匹配出对应音效;第一获取单元403以及第二获取单元404能够通过有针对性的获取目标音效,以达到准确及时的确定出与目标语音信息匹配的目标音效的效果;输出子单元4041能够通过输出情感信息对应的至少一个情感特点,保证目标语音信号对应的情感特点的完整性;第一检测子单元4042和第二检测子单元4044能够通过人机交互的方式改善用户体验;合成单元405能够通过合成目标语音信号和目标音效,自动制作出完整的目标影音文件,提高了影音文件的制作效率;输出单元407能够通过进一步的人机交互,以使最终保存的目标影音文件的观赏效果最佳。所以,综上所述可得出如下结论,实施图6所描述的音效的获取方法,能够通过录音终端根据配音员的声音自动获取音效,更进一步提高影音文件的制作效率。
实施例七
请参阅图7,图7是本发明实施例公开的另一种录音终端的结构示意图。如图7所示,该录音终端可以包括:
存储有可执行程序代码的存储器701;
与存储器701耦合的处理器702;
其中,处理器702调用存储器701中存储的可执行程序代码,执行图1~图3任意一种音效的获取方法。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行图1~图3任意一种音效的获取方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种音效的获取方法及录音终端进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种音效的获取方法,其特征在于,所述方法包括:
采集配音员录音时发出的目标语音信号;
对所述目标语音信号进行分析,获取所述目标语音信号的声学特征;
从预设情感数据库中获取与所述目标语音信号的声学特征匹配的用于表示人类情感的情感信息;
从预设音效库中获取与所述情感信息对应的目标情感特点匹配的目标音效;
所述从预设音效库中获取与所述情感信息对应的目标情感特点匹配的目标音效,包括:
输出所述情感信息对应的至少一个情感特点;
检测配音员从所述至少一个情感特点中选择的目标情感特点;
从预设音效库中获取与所述目标情感特点匹配的至少一个音效;
检测配音员在所述至少一个音效中选择的目标音效。
2.根据权利要求1所述的方法,其特征在于,所述采集配音员录音时发出的目标语音信号,包括:
接收录音启动指令;
响应所述录音启动指令,采集配音员录音时发出的初始语音信号;
对所述初始语音信号进行降噪处理,得到降噪处理后的目标语音信号。
3.根据权利要求2所述的方法,其特征在于,对所述初始语音信号进行降噪处理,得到降噪处理后的目标语音信号,包括:
过滤所述初始语音信号中低于噪声门的噪音信号,得到目标语音信号,所述目标语音信号高于所述噪声门,所述噪声门为预设的电平门限值。
4.根据权利要求1所述的方法,其特征在于,在从预设音效库中获取与所述情感信息对应的目标情感特点匹配的目标音效之后,还包括:
将所述目标语音信号和所述目标音效合成,得到目标影音文件;
播放所述目标影音文件,并输出用于询问配音员是否保存所述目标影音文件的询问信息;
接收用于表示保存所述目标影音文件的保存指令,并执行所述保存指令。
5.一种录音终端,其特征在于,所述录音终端包括:
采集单元,用于采集配音员录音时发出的目标语音信号;
分析单元,用于对所述目标语音信号进行分析,获取所述目标语音信号的声学特征;
第一获取单元,用于从预设情感数据库中获取与所述目标语音信号的声学特征匹配的用于表示人类情感的情感信息;
第二获取单元,用于从预设音效库中获取与所述情感信息对应的目标情感特点匹配的目标音效;
所述第二获取单元,包括:
输出子单元,用于输出所述情感信息对应的至少一个情感特点;
第一检测子单元,用于检测配音员从所述至少一个情感特点中选择的目标情感特点;
获取子单元,用于从预设音效库中获取与所述目标情感特点匹配的至少一个音效;
第二检测子单元,用于检测配音员在所述至少一个音效中选择的目标音效。
6.根据权利要求5所述的录音终端,其特征在于,所述采集单元,包括:
接收子单元,用于接收录音启动指令;
响应子单元,用于响应所述录音启动指令,采集配音员录音时发出的初始语音信号;
降噪子单元,用于对所述初始语音信号进行降噪处理,得到降噪处理后的目标语音信号。
7.根据权利要求6所述的录音终端,其特征在于,所述降噪子单元,具体用于过滤所述初始语音信号中低于噪声门的噪音信号,得到目标语音信号,所述目标语音信号高于所述噪声门,所述噪声门为预设的电平门限值。
8.根据权利要求5所述录音终端,其特征在于,还包括:
合成单元,用于在所述第二获取单元从预设音效库中获取到与所述情感信息对应的目标情感特点匹配的目标音效之后,将所述目标语音信号和所述目标音效合成,得到目标影音文件;
播放单元,用于播放所述目标影音文件;
输出单元,用于输出用于询问配音员是否保存所述目标影音文件的询问信息;
接收单元,用于接收用于表示保存所述目标影音文件的保存指令,并执行所述保存指令。
CN201711266387.5A 2017-12-05 2017-12-05 一种音效的获取方法及录音终端 Active CN108010512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711266387.5A CN108010512B (zh) 2017-12-05 2017-12-05 一种音效的获取方法及录音终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711266387.5A CN108010512B (zh) 2017-12-05 2017-12-05 一种音效的获取方法及录音终端

Publications (2)

Publication Number Publication Date
CN108010512A CN108010512A (zh) 2018-05-08
CN108010512B true CN108010512B (zh) 2021-04-30

Family

ID=62056393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711266387.5A Active CN108010512B (zh) 2017-12-05 2017-12-05 一种音效的获取方法及录音终端

Country Status (1)

Country Link
CN (1) CN108010512B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036373A (zh) * 2018-07-31 2018-12-18 北京微播视界科技有限公司 一种语音处理方法及电子设备
CN109087670B (zh) * 2018-08-30 2021-04-20 西安闻泰电子科技有限公司 情绪分析方法、系统、服务器及存储介质
CN109660911A (zh) 2018-11-27 2019-04-19 Oppo广东移动通信有限公司 录音音效处理方法、装置、移动终端及存储介质
CN111079423A (zh) * 2019-08-02 2020-04-28 广东小天才科技有限公司 一种听写报读音频的生成方法、电子设备及存储介质
CN110853606A (zh) * 2019-11-26 2020-02-28 Oppo广东移动通信有限公司 一种音效配置方法、装置及计算机可读存储介质
CN113703711A (zh) * 2020-05-20 2021-11-26 阿里巴巴集团控股有限公司 播放音效控制方法、装置、电子设备和计算机存储介质
CN111696564B (zh) * 2020-06-05 2023-08-18 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN112863530B (zh) * 2021-01-07 2024-08-27 广州欢城文化传媒有限公司 一种声音作品的生成方法和装置
CN116312431B (zh) * 2023-03-22 2023-11-24 广州资云科技有限公司 电音基调控制方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637433A (zh) * 2011-02-09 2012-08-15 富士通株式会社 识别语音信号中所承载的情感状态的方法和系统
CN105335455A (zh) * 2015-08-28 2016-02-17 广东小天才科技有限公司 一种阅读文字的方法及装置
CN106803423A (zh) * 2016-12-27 2017-06-06 智车优行科技(北京)有限公司 基于用户情绪状态的人机交互语音控制方法、装置及车辆
CN107039033A (zh) * 2017-04-17 2017-08-11 海南职业技术学院 一种语音合成装置
CN107154257A (zh) * 2017-04-18 2017-09-12 苏州工业职业技术学院 基于客户语音情感的客服服务质量评价方法及系统
CN107169430A (zh) * 2017-05-02 2017-09-15 哈尔滨工业大学深圳研究生院 基于图像处理语义分析的阅读环境音效增强系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0113570D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Audio-form presentation of text messages
US8036899B2 (en) * 2006-10-20 2011-10-11 Tal Sobol-Shikler Speech affect editing systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637433A (zh) * 2011-02-09 2012-08-15 富士通株式会社 识别语音信号中所承载的情感状态的方法和系统
CN105335455A (zh) * 2015-08-28 2016-02-17 广东小天才科技有限公司 一种阅读文字的方法及装置
CN106803423A (zh) * 2016-12-27 2017-06-06 智车优行科技(北京)有限公司 基于用户情绪状态的人机交互语音控制方法、装置及车辆
CN107039033A (zh) * 2017-04-17 2017-08-11 海南职业技术学院 一种语音合成装置
CN107154257A (zh) * 2017-04-18 2017-09-12 苏州工业职业技术学院 基于客户语音情感的客服服务质量评价方法及系统
CN107169430A (zh) * 2017-05-02 2017-09-15 哈尔滨工业大学深圳研究生院 基于图像处理语义分析的阅读环境音效增强系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Effect of visual representation in recognizing emotion expressed in a musical performance;Rumi Hiraga;《2008 IEEE International Conference on Systems, Man and Cybernetics》;20090407;131-136 *
Smart vioce系统的设计与实现;徐俊芳;《郑州轻工业学院学报(自然科学版)》;20120331;34-37 *

Also Published As

Publication number Publication date
CN108010512A (zh) 2018-05-08

Similar Documents

Publication Publication Date Title
CN108010512B (zh) 一种音效的获取方法及录音终端
CN107154257B (zh) 基于客户语音情感的客服服务质量评价方法及系统
US5828994A (en) Non-uniform time scale modification of recorded audio
CN108847215B (zh) 基于用户音色进行语音合成的方法及装置
US20080215322A1 (en) Method and System for Generating Training Data for an Automatic Speech Recogniser
JP2002014689A (ja) デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
JP6305955B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
Xiang et al. Evaluation of sound classification algorithms for hearing aid applications
Deepak et al. Foreground speech segmentation and enhancement using glottal closure instants and mel cepstral coefficients
Deb et al. A novel breathiness feature for analysis and classification of speech under stress
Tavi et al. Recognition of Creaky Voice from Emergency Calls.
CN112151066A (zh) 基于声音特征识别的语言冲突监测方法、介质及设备
JP2006349723A (ja) 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体
CN112885318A (zh) 多媒体数据生成方法、装置、电子设备及计算机存储介质
CN109741761B (zh) 声音处理方法和装置
Bořil et al. Design and collection of Czech Lombard speech database
CN115565507A (zh) 一种基于ai技术的乐器识别以及自动记谱系统
JP2003271190A (ja) 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置
Islam Modified mel-frequency cepstral coefficients (MMFCC) in robust text-dependent speaker identification
KR100855592B1 (ko) 발성자 거리 특성에 강인한 음성인식 장치 및 그 방법
KR20080065775A (ko) 구화 교육용 발성 시각화 시스템
Patlar et al. Triphone based continuous speech recognition system for turkish language using hidden markov model
Sedigh Application of polyscale methods for speaker verification
Dutta et al. A comparison of three spectral features for phone recognition in sub-optimal environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant