CN111627422B - 语音加速检测方法、装置、设备及可读存储介质 - Google Patents
语音加速检测方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111627422B CN111627422B CN202010405266.XA CN202010405266A CN111627422B CN 111627422 B CN111627422 B CN 111627422B CN 202010405266 A CN202010405266 A CN 202010405266A CN 111627422 B CN111627422 B CN 111627422B
- Authority
- CN
- China
- Prior art keywords
- audio
- detected
- preset
- phoneme
- accelerated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001133 acceleration Effects 0.000 title claims abstract description 90
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 230000009467 reduction Effects 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims description 32
- 238000005516 engineering process Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种语音加速检测方法、装置、设备及可读存储介质,所述语音加速检测方法通过对待检测音频中的音素进行识别,并得到每一音素的持续时长,为后续的判断提供了可量化的实际依据;通过总体判断待检测音频中所有音素的持续时长是否满足预设条件,能够准确地对待检测音频的音素出现速度进行界定;通过最终将满足预设条件的待检测音频判定为加速音频,并对其进行降速处理后再识别,提高了加速语音的内容识别的效率与准确性。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音加速检测方法、装置、设备及可读存储介质。
背景技术
随着科学技术的发展,语音识别在各领域应用越来越广泛。但现阶段基于各类机器学习算法的语音识别技术仅能在对正常语速的音频识别过程中取得较好的效果,而对加速音频的语音内容难以进行有效的识别。在一般的音频识别步骤中,通常直接将待检测的音频进行识别,从而导致了加速语音的识别效率低下的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种语音加速检测方法,旨在解决加速语音的识别效率低下的技术问题。
为实现上述目的,本发明提供一种语音加速检测方法,所述语音加速检测方法应用于语音加速检测设备,所述语音加速检测方法包括以下步骤:
获取待检测音频,使用预设音素识别算法对所述待检测音频进行识别,并确定所述待检测音频中每一音素的持续时长;
基于所述持续时长,判断所述待检测音频中音素的出现速度是否满足预设条件;
若满足,则标记所述待检测音频为加速音频,并对所述加速音频进行降速识别操作。
可选地,所述基于所述持续时长,判断所述待检测音频中音素的出现速度是否满足预设条件的步骤包括:
将所述待检测音频按照预设时间间隔分为若干音频片段,并根据所述持续时长,确定各音频片段中的音素数目;
按照时序逐一判断各音频片段中的音素数目是否超出预设第一阈值,并将音素数目超出预设第一阈值的音频片段标记为第一加速音频片段;
判断所述第一加速音频片段中是否存在数目超出预设第二阈值且连续的第二加速音频片段;
若存在,则判定所述待检测音频中音素的出现速度满足预设条件;
若不存在,则判定所述待检测音频中音素的出现速度不满足预设条件。
可选地,所述按照时序逐一判断各音频片段中的音素数目是否超出预设第一阈值,并将音素数目超出预设第一阈值的音频片段标记为第一加速音频片段的步骤包括:
按照各音频片段的时间先后顺序,依次判断每一音频片段中的音素数目是否超出预设第一阈值;
若超出预设第一阈值,则标记为第一加速音频片段;
若未超出预设第一阈值,则清除数目未超过所述预设第二阈值且连续的第一加速音频片段的标记;
直至遍历所述待检测音频中的所有音频片段。
可选地,所述获取待检测音频,使用预设音素识别算法对所述待检测音频进行识别,并确定所述待检测音频中每一音素的持续时长的步骤包括:
获取待检测音频,获取基于预设神经网络模型及隐马尔可夫模型构建的所述预设音素识别模型,并使用所述预设音素识别模型识别所述待检测音频中的音素;
对所述待检测音频中的音素进行时间对齐,获取每一音素的持续时长。
可选地,所述对所述加速音频进行降速识别操作的步骤包括:
对所述加速音频进行降速处理,生成降速音频;
使用自动语音识别技术识别所述降速音频的内容。
可选地,所述判断所述待检测音频中音素的出现速度是否满足预设条件的步骤之后,还包括:
若不满足,则使用自动语音识别技术识别所述待检测音频的音频内容。
可选地,所述获取待检测音频的步骤之前,还包括:
获取初始音频,使用预设卷积神经网络模型对所述初始音频进行降噪处理,生成所述待检测音频。
此外,为实现上述目的,本发明还提供一种语音加速检测装置,所述语音加速检测装置包括:
音素时长确定模块,用于获取待检测音频,使用预设音素识别算法对所述待检测音频进行识别,并确定所述待检测音频中每一音素的持续时长;
音素速度判断模块,用于基于所述持续时长,判断所述待检测音频中音素的出现速度是否满足预设条件;
音频降速识别模块,用于若满足,则标记所述待检测音频为加速音频,并对所述加速音频进行降速识别操作。
进一步地,所述音素速度判断模块的步骤包括:
音素数目确定单元,用于将所述待检测音频按照预设时间间隔分为若干音频片段,并根据所述持续时长,确定各音频片段中的音素数目;
第一音频判断单元,用于按照时序逐一判断各音频片段中的音素数目是否超出预设第一阈值,并将音素数目超出预设第一阈值的音频片段标记为第一加速音频片段;
第二音频判断单元,用于判断所述第一加速音频片段中是否存在数目超出预设第二阈值且连续的第二加速音频片段;
第一速度判定单元,用于若存在,则判定所述待检测音频中音素的出现速度满足预设条件;
第二速度判定单元,用于若不存在,则判定所述待检测音频中音素的出现速度不满足预设条件。
进一步地,所述音素速度判断模块的步骤包括:
第一阈值判断单元,用于按照各音频片段的时间先后顺序,依次判断每一音频片段中的音素数目是否超出预设第一阈值;
第一音频标记单元,用于若超出预设第一阈值,则标记为第一加速音频片段;
第一标记清除单元,用于若未超出预设第一阈值,则清除数目未超过所述预设第二阈值且连续的第一加速音频片段的标记;
音频片段遍历单元,用于直至遍历所述待检测音频中的所有音频片段。
进一步地,所述音素时长确定模块包括:
音素模型识别单元,用于获取待检测音频,获取基于预设神经网络模型及隐马尔可夫模型构建的所述预设音素识别模型,并使用所述预设音素识别模型识别所述待检测音频中的音素;
持续时长获取单元,用于对所述待检测音频中的音素进行时间对齐,获取每一音素的持续时长。
进一步地,所述音频降速识别模块包括:
音频降速处理单元,用于对所述加速音频进行降速处理,生成降速音频;
降速音频识别单元使用自动语音识别技术识别所述降速音频的内容。
进一步地,所述语音加速检测方法还包括:
音频内容识别模块,用于若不满足,则使用自动语音识别技术识别所述待检测音频的音频内容。
进一步地,所述语音加速检测方法还包括:
音频降噪处理模块,用于获取初始音频,使用预设卷积神经网络模型对所述初始音频进行降噪处理,生成所述待检测音频。
此外,为实现上述目的,本发明还提供一种语音加速检测设备,所述语音加速检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音加速检测程序,所述语音加速检测程序被所述处理器执行时实现如上述的语音加速检测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音加速检测程序,所述语音加速检测程序被处理器执行时实现如上述的语音加速检测方法的步骤。
本发明提供一种语音加速检测方法、装置、设备及计算机可读存储介质。所述语音加速检测方法通过获取待检测音频,使用预设音素识别算法对所述待检测音频进行识别,并确定所述待检测音频中每一音素的持续时长;基于所述持续时长,判断所述待检测音频中音素的出现速度是否满足预设条件;若满足,则标记所述待检测音频为加速音频,并对所述加速音频进行降速识别操作。通过上述方式,本发明通过对待检测音频中的音素进行识别,并得到每一音素的持续时长,为后续的判断提供了可量化的实际依据;通过总体判断待检测音频中所有音素的持续时长是否满足预设条件,能够准确地对待检测音频的音素出现速度进行界定;通过最终将满足预设条件的待检测音频判定为加速音频,并对其进行降速处理后再识别,提高了加速语音的内容识别的效率与准确性,从而解决了加速语音的识别效率低下的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明语音加速检测方法第一实施例的流程示意图;
图3为本发明一具体实施例的流程示意图;
图4为本发明装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、MP3(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音加速检测程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的语音加速检测程序,并执行以下操作:
获取待检测音频,使用预设音素识别算法对所述待检测音频进行识别,并确定所述待检测音频中每一音素的持续时长;
基于所述持续时长,判断所述待检测音频中音素的出现速度是否满足预设条件;
若满足,则标记所述待检测音频为加速音频,并对所述加速音频进行降速识别操作。
进一步地,处理器1001可以调用存储器1005中存储的语音加速检测程序,还执行以下操作:
将所述待检测音频按照预设时间间隔分为若干音频片段,并根据所述持续时长,确定各音频片段中的音素数目;
按照时序逐一判断各音频片段中的音素数目是否超出预设第一阈值,并将音素数目超出预设第一阈值的音频片段标记为第一加速音频片段;
判断所述第一加速音频片段中是否存在数目超出预设第二阈值且连续的第二加速音频片段;
若存在,则判定所述待检测音频中音素的出现速度满足预设条件;
若不存在,则判定所述待检测音频中音素的出现速度不满足预设条件。
进一步地,处理器1001可以调用存储器1005中存储的语音加速检测程序,还执行以下操作:
按照各音频片段的时间先后顺序,依次判断每一音频片段中的音素数目是否超出预设第一阈值;
若超出预设第一阈值,则标记为第一加速音频片段;
若未超出预设第一阈值,则清除数目未超过所述预设第二阈值且连续的第一加速音频片段的标记;
直至遍历所述待检测音频中的所有音频片段。
进一步地,处理器1001可以调用存储器1005中存储的语音加速检测程序,还执行以下操作:
获取待检测音频,获取基于预设神经网络模型及隐马尔可夫模型构建的所述预设音素识别模型,并使用所述预设音素识别模型识别所述待检测音频中的音素;
对所述待检测音频中的音素进行时间对齐,获取每一音素的持续时长。
进一步地,处理器1001可以调用存储器1005中存储的语音加速检测程序,还执行以下操作:
对所述加速音频进行降速处理,生成降速音频;
使用自动语音识别技术识别所述降速音频的内容。
进一步地,处理器1001可以调用存储器1005中存储的语音加速检测程序,还执行以下操作:
若不满足,则使用自动语音识别技术识别所述待检测音频的音频内容。
进一步地,处理器1001可以调用存储器1005中存储的语音加速检测程序,还执行以下操作:
所述获取待检测音频的步骤之前,还包括:
获取初始音频,使用预设卷积神经网络模型对所述初始音频进行降噪处理,生成所述待检测音频。
基于上述硬件结构,提出本发明语音加速检测方法的各个实施例。
随着科学技术的发展,语音识别在各领域应用越来越广泛。但现阶段基于各类模型、算法的语音识别技术仅能在对正常语速的音频识别过程中取得较好的效果,而对加速音频的语音内容难以进行有效的识别。在一般的音频识别步骤中,通常直接将待检测的音频进行识别,从而导致了加速语音的识别效率低下的技术问题。
为解决上述问题,本发明提供一种语音加速检测方法,即通过对待检测音频中的音素进行识别,并得到每一音素的持续时长,为后续的判断提供了可量化的实际依据;通过总体判断待检测音频中所有音素的持续时长是否满足预设条件,能够准确地对待检测音频的音素出现速度进行界定;通过最终将满足预设条件的待检测音频判定为加速音频,实现了加速语音的高效准确识别,从而解决了加速语音的识别效率低下的技术问题。所述语音加速检测方法应用于终端。
参照图2,图2为语音加速检测方法第一实施例的流程示意图。
本发明第一实施例提供一种语音加速检测方法,所述语音加速检测方法包括以下步骤:
步骤S10,获取待检测音频,使用预设音素识别算法对所述待检测音频进行识别,并确定所述待检测音频中每一音素的持续时长;
在本实施例中,终端在接收到用户当前所确定的待检测音频,或是根据预设程序自动获取到待检测音频时使用预设的音素识别算法识别待检测音频中的每一音素,确定出每一音素的持续时长。其中,待检测音频可为一段音频或多段音频,本实施例对其数量不做限定。待检测音频中的语音所属语种可为汉语、英语等,本实施例对此同样不做限定。音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位。例如汉语中的“普通话”一词,由三个音节组成,可以分析成"p,u,t,o,ng,h,u,a"八个音素。预设音素识别算法可为多种神经网络模型及隐马尔可夫模型,也可为自动语音识别技术(ASR,Automatic Speech Recognition)等。具体地,用户向计算机导入一时长为1分钟的待检测汉语语音音频,计算机检测到这一待检测音频,可先对该音频中的空白片段进行过滤。过滤后,计算机对该音频进行了ASR识别。识别到音频中的语音内容后,计算机对汉语的音素进行时间对齐,获得每音素的持续时长。
步骤S20,基于所述持续时长,判断所述待检测音频中音素的出现速度是否满足预设条件;
在本实施例中,终端获取到待检测音频中每一音素的持续时间,进而根据每一音素的持续时长确定待检测音频中音素的出现速度,并判断音素的出现速度是否满足预设条件。具体地,沿用步骤S10中具体实施例中的设定。如图3所示,计算机筛除待检测音频中的10秒空白语音后,将剩余的50秒音频以5秒为最小单位,划分为10个音频片段。计算机检测每一音频片段中的音素出现速度。若音素出现速度大于12个/秒,则计数加一;若音频出现速度小于或等于12个/秒,则将先前小于或等于5的计数清零。在10个音频片段全部检测完毕时,判断最终计数是否大于5。若大于5,则计算机判定该音频为加速音频;若小于等于5,则计算机判定该音频并非加速音频。另外,还可设置多层次的阈值,对加速音频的加速倍数进一步进行判定。
步骤S30,若满足,则标记所述待检测音频为加速音频,并对所述加速音频进行降速识别操作。
在本实施例中,终端若判定待检测音频中的音素出现速度满足预设条件,则判定待检测音频为加速音频,并将待检测音频添加加速音频标记,并对加速音频进行相应的降速处理,使其恢复到正常语速,再进行语音识别;终端若判定待检测音频中的音素出现速度不满足预设条件,则判定待检测音频不是加速音频,不对待检测音频条件添加加速音频标记。具体地,沿用步骤S10与步骤S20中具体实施例的设定。若计算机按照时间顺序依次检测10个音频片段时,检测到第一个至第三个音频片段的音素出现速度分别为10个/秒、9个/秒和12个/秒,第四个至第九个音频片段的音素出现速度为13个/秒、15个/秒、14个/秒、16个/秒、14个/秒、13个/秒,第10个音频片段的音素出现速度为10个/秒,则计算机可判定该音频为加速音频。
在本实施例中,通过获取待检测音频,使用预设音素识别算法对所述待检测音频进行识别,并确定所述待检测音频中每一音素的持续时长;基于所述持续时长,判断所述待检测音频中音素的出现速度是否满足预设条件;若满足,则标记所述待检测音频为加速音频,并对所述加速音频进行降速识别操作。通过上述方式,本发明通过对待检测音频中的音素进行识别,并得到每一音素的持续时长,为后续的判断提供了可量化的实际依据;通过总体判断待检测音频中所有音素的持续时长是否满足预设条件,能够准确地对待检测音频的音素出现速度进行界定;通过最终将满足预设条件的待检测音频判定为加速音频,并对其进行降速处理后再识别,提高了加速语音的内容识别的效率与准确性,从而解决了加速语音的识别效率低下的技术问题。
进一步地,图中未示的,基于上述图2所示的第一实施例,提出本发明语音加速检测方法的第二实施例。在本实施例中,步骤S20包括:
步骤a,将所述待检测音频按照预设时间间隔分为若干音频片段,并根据所述持续时长,确定各音频片段中的音素数目;
在本实施例中,预设时间间隔可根据实际情况灵活设置,本实施例对此不做具体限定。终端将待检测音频以预设时间间隔为最小单位,划分为若干音频片段。终端再根据每一音素的持续时长,确定每一音频片段的音素数目。具体地,设定时间间隔为5秒,计算机则可将时长为50秒的待检测音频划分为10个音频片段,并根据每一音素的持续时长,确定出10个音频片段分别的音素数目。
步骤b,按照时序逐一判断各音频片段中的音素数目是否超出预设第一阈值,并将音素数目超出预设第一阈值的音频片段标记为第一加速音频片段;
在本实施例中,预设第一阈值可根据实际情况灵活设置,本实施例对此不做具体限定。终端按照若干音频片段的时间顺序,从前至后逐一判断各个音频片段中的音素数目是否超出预设第一阈值。若当前所判断的音频片段中所包含的音素数目超出预设第一阈值,则终端判定该音频片段为第一加速音频片段,并将此音频片段添加第一加速音频片段标记。具体地,若步骤a中设定预设时间间隔为5秒,则预设第一阈值可对应设置为60个。
步骤c,判断所述第一加速音频片段中是否存在数目超出预设第二阈值且连续的第二加速音频片段;
在本实施例中,预设第二阈值可根据实际情况灵活设置,且与上述第一预设阈值无绝对的大小关系,本实施例对此不做具体限定。终端判断待检测音频的所有音频片段中是否存在数目超出预设第二阈值,且时间顺序上是连续的第二加速音频片段。具体地,若步骤a中的预设时间间隔为5秒,则预设第二阈值可对于设置为5个。
步骤d,若存在,则判定所述待检测音频中音素的出现速度满足预设条件;
在本实施例中,若终端检测到待检测音频中存在数目超出预设第二阈值,且时间顺序上是连续的第二加速音频片段,则可判定待检测音频中的音素出现速度满足预设条件。具体地,若10个音频片段中第一个至第三个音频片段均为标记为加速音频片段,第四个至第九个音频片段均标记为加速音频片段,第十个未被标记为加速音频片段,则计算机可判定待检测音频的音频出现速度满足预设条件。
步骤e,若不存在,则判定所述待检测音频中音素的出现速度不满足预设条件。
在本实施例中,若终端检测到待检测音频中不存在数目超出预设第二阈值,且时间顺序上是连续的第二加速音频片段,则可判定待检测音频中的音素出现速度不满足预设条件。具体地,若10个音频片段中第一个至第三个音频片段均为标记为加速音频片段,第四个至第七个音频片段均标记为加速音频片段,第八至第十个音频片段未被标记为加速音频片段,则计算机可判定待检测音频的音频出现速度不满足预设条件。
进一步地,在本实施例中,步骤a包括:
步骤f,按照各音频片段的时间先后顺序,依次判断每一音频片段中的音素数目是否超出预设第一阈值;
在本实施例中,计算机按照各音频片段对应在待检测音频的时间顺序,依次判断每一音频片段中所包含的音素数目是否超出预设第一阈值。具体地,若待检测音频被划分为10个音频片段,预设第一阈值为60个,计算机依次分别判断这10个音频片段的音素数目是否大于60个。
步骤i,若超出预设第一阈值,则标记为第一加速音频片段;
在本实施例中,若计算机判定当前的音频片段所包含的音素数目超出预设第一阈值,则将当前的这一音频片段添加第一加速标识,作为第一加速音频片段。具体地,若计算机检测到当前的音频片段所包含的音素数目超出60个,则可将该音频片段为第一加速音频片段。
步骤j,若未超出预设第一阈值,则清除数目未超过所述预设第二阈值且连续的第一加速音频片段的标记;
在本实施例中,若计算机判定当前的音频片段所包含的音素数目未超出预设第一阈值,则清除已检测的数目未超过所述预设第二阈值且连续的加速音频片段的标记。具体地,若计算机检测到第三个音频片段所包含的音素数目未超出60个,而前两个音频片段所包含的音素数目均超出60个,则将前两个音频片段的第一加速标记清除。
步骤k,直至遍历所述待检测音频中的所有音频片段。
在本实施例中,计算机逐一检测待检测音频中的所有音频片段,直至遍历所有的音频片段。
在本实施例中,进一步通过将待检测音频进行分段,并根据预设第一阈值以及预设第二阈值判断待检测音频中音素的出现速度是否满足预设条件,使得能够高效准确地对音素的出现速度进行判定,提高了对加速音频的判别效率;通过依次对待检测音频所划分的音频片段中的音素数目进行判定,并适时清空连续数目未达到第二阈值的第一加速音频片段的标记,便于最终对加速音频片段的统计,进一步提高了对加速音频的判别效率。
进一步地,图中未示的,基于上述图2所示的第一实施例,提出本发明语音加速检测方法的第三实施例。在本实施例中,步骤S10包括:
步骤l,获取待检测音频,获取基于预设神经网络模型及隐马尔可夫模型构建的所述预设音素识别模型,并使用所述预设音素识别模型识别所述待检测音频中的音素;
在本实施例中,可以理解的是,在步骤l之前,终端需构建卷积神经网络(CNN,Convolutional Neural Network)以及一定数量层数的长短期记忆网络、(LSTM,LongShort-Term Memory)。终端利用CNN、LSTM、深度神经网络(DNN,Deep Neural Network)以及隐马尔可夫模型(HMM,Hidden Markov Model)构建音素识别模型,并为该音素识别模型赋初始化值。并且CNN作为音素识别模型的输入端,DNN作为输出端。
步骤m,对所述待检测音频中的音素进行时间对齐,获取每一音素的持续时长。
在本实施例中,终端获取音素识别结果,对待检测音频中的所有音素进行时间对齐,得到每一音素的持续时长,以确定待检测音频的音素数目。
进一步地,在本实施例中,步骤S30包括:
步骤o,对所述加速音频进行降速处理,生成降速音频;
在本实施例中,将判定为加速音频进行降速处理,恢复到标准速度,将标准速度的该音频作为降速音频。具体地,可使用重采样算法对加速音频进行降速,通过在同样的采样率环境下,对采样数据进行拉伸,也即是采用插值的方式,实现降速的目的。这一技术属于现有技术,在此不作赘述。另外,还可在步骤o之前确定出加速音频的具体加速倍率,再对其进行降速处理。
步骤p,使用自动语音识别技术识别所述降速音频的内容。
在本实施例中,终端基于模式匹配的动态时间规整法(DTW,Dynamic TimeWarping)和基于统计模型的HMM,预先分析出语音特征参数,制作语音模板,并存放在语音参数库中。终端将降速音频经过与训练时相同的分析,得到语音参数,并将它与库中的参考模板一一比较,采用判决的方法找出最接近语音特征的模板,得出识别结果。
进一步地,在本实施例中,步骤S20之后,还包括:
步骤q,若不满足,则使用自动语音识别技术识别所述待检测音频的音频内容。
在本实施例中,终端若判定待检测音频中的音素出现速度不满足预设条件,则判定待检测音频不是加速音频,则可基于上述的自动语音识别技术ASR识别出所述待检测音频的音频内容。
进一步地,在本实施例中,步骤S10之前,还包括:
步骤r,获取初始音频,使用预设卷积神经网络模型对所述初始音频进行降噪处理,生成所述待检测音频。
在本实施例中,在接收到用户发送的音频检测指令时,终端获取该音频检测指令中的初始音频,并使用卷积神经网络模型CNN对该初始音频进行降噪处理,生成待检测音频,以减小误差。
在本实施例中,进一步通过神经网络模型与隐马尔可夫模型构建音素识别模型,来对待检测音频中的音素进行检测,保证了音素检测的准确性;通过对加速音频进行反向降速以及内容识别,提高了对加速音频中内容识别的准确度;通过在判定待检测音频不为加速音频时直接对其进行音频内容检测,提升了音频内容识别的效率;通过预先对初始音频进行降噪处理,排除了噪声干扰,提高了检测结果的准确性。
本发明还提供一种语音加速检测装置,所述语音加速检测装置包括:
音素时长确定模块,用于获取待检测音频,使用预设音素识别算法对所述待检测音频进行识别,并确定所述待检测音频中每一音素的持续时长;
音素速度判断模块,用于基于所述持续时长,判断所述待检测音频中音素的出现速度是否满足预设条件;
音频降速识别模块,用于若满足,则标记所述待检测音频为加速音频,并对所述加速音频进行降速识别操作。
本发明还提供一种语音加速检测设备。
所述语音加速检测设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的语音加速检测程序,其中所述语音加速检测程序被所述处理器执行时,实现如上所述的语音加速检测方法的步骤。
其中,所述语音加速检测程序被执行时所实现的方法可参照本发明语音加速检测方法的各个实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有语音加速检测程序,所述语音加速检测程序被处理器执行时实现如上所述的语音加速检测方法的步骤。
其中,所述语音加速检测程序被执行时所实现的方法可参照本发明语音加速检测方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种语音加速检测方法,其特征在于,所述语音加速检测方法包括:
获取待检测音频,使用预设音素识别算法对所述待检测音频进行识别,并确定所述待检测音频中每一音素的持续时长;
基于所述持续时长,判断所述待检测音频中音素的出现速度是否满足预设条件;
若满足,则标记所述待检测音频为加速音频,并对所述加速音频进行降速识别操作;
所述基于所述持续时长,判断所述待检测音频中音素的出现速度是否满足预设条件的步骤包括:
将所述待检测音频按照预设时间间隔分为若干音频片段,并根据所述持续时长,确定各音频片段中的音素数目;
按照时序逐一判断各音频片段中的音素数目是否超出预设第一阈值,并将音素数目超出预设第一阈值的音频片段标记为第一加速音频片段;
判断所述第一加速音频片段中是否存在数目超出预设第二阈值且连续的第二加速音频片段;
若存在,则判定所述待检测音频中音素的出现速度满足预设条件;
若不存在,则判定所述待检测音频中音素的出现速度不满足预设条件。
2.如权利要求1所述的语音加速检测方法,其特征在于,所述按照时序逐一判断各音频片段中的音素数目是否超出预设第一阈值,并将音素数目超出预设第一阈值的音频片段标记为第一加速音频片段的步骤包括:
按照各音频片段的时间先后顺序,依次判断每一音频片段中的音素数目是否超出预设第一阈值;
若超出预设第一阈值,则标记为第一加速音频片段;
若未超出预设第一阈值,则清除数目未超过所述预设第二阈值且连续的第一加速音频片段的标记;
直至遍历所述待检测音频中的所有音频片段。
3.如权利要求1所述的语音加速检测方法,其特征在于,所述获取待检测音频,使用预设音素识别算法对所述待检测音频进行识别,并确定所述待检测音频中每一音素的持续时长的步骤包括:
获取待检测音频,获取基于预设神经网络模型及隐马尔可夫模型构建的所述预设音素识别模型,并使用所述预设音素识别模型识别所述待检测音频中的音素;
对所述待检测音频中的音素进行时间对齐,获取每一音素的持续时长。
4.如权利要求1所述的语音加速检测方法,其特征在于,所述对所述加速音频进行降速识别操作的步骤包括:
对所述加速音频进行降速处理,生成降速音频;
使用自动语音识别技术识别所述降速音频的内容。
5.如权利要求1所述的语音加速检测方法,其特征在于,所述判断所述待检测音频中音素的出现速度是否满足预设条件的步骤之后,还包括:
若不满足,则使用自动语音识别技术识别所述待检测音频的音频内容。
6.如权利要求1-5任一项所述的语音加速检测方法,其特征在于,所述获取待检测音频的步骤之前,还包括:
获取初始音频,使用预设卷积神经网络模型对所述初始音频进行降噪处理,生成所述待检测音频。
7.一种语音加速检测装置,其特征在于,所述语音加速检测装置包括:
音素时长确定模块,用于获取待检测音频,使用预设音素识别算法对所述待检测音频进行识别,并确定所述待检测音频中每一音素的持续时长;
音素速度判断模块,用于基于所述持续时长,判断所述待检测音频中音素的出现速度是否满足预设条件;
音频降速识别模块,用于若满足,则标记所述待检测音频为加速音频,并对所述加速音频进行降速识别操作;
所述音素速度判断模块还用于将所述待检测音频按照预设时间间隔分为若干音频片段,并根据所述持续时长,确定各音频片段中的音素数目;按照时序逐一判断各音频片段中的音素数目是否超出预设第一阈值,并将音素数目超出预设第一阈值的音频片段标记为第一加速音频片段;判断所述第一加速音频片段中是否存在数目超出预设第二阈值且连续的第二加速音频片段;若存在,则判定所述待检测音频中音素的出现速度满足预设条件;若不存在,则判定所述待检测音频中音素的出现速度不满足预设条件。
8.一种语音加速检测设备,其特征在于,所述语音加速检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音加速检测程序,所述语音加速检测程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音加速检测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音加速检测程序,所述语音加速检测程序被处理器执行时实现如权利要求1至6中任一项所述的语音加速检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405266.XA CN111627422B (zh) | 2020-05-13 | 2020-05-13 | 语音加速检测方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405266.XA CN111627422B (zh) | 2020-05-13 | 2020-05-13 | 语音加速检测方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627422A CN111627422A (zh) | 2020-09-04 |
CN111627422B true CN111627422B (zh) | 2022-07-12 |
Family
ID=72271891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010405266.XA Active CN111627422B (zh) | 2020-05-13 | 2020-05-13 | 语音加速检测方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627422B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114679512A (zh) * | 2022-03-25 | 2022-06-28 | 深圳禾苗通信科技有限公司 | 老人智能手机通话实时降速方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5029168B2 (ja) * | 2007-06-25 | 2012-09-19 | 富士通株式会社 | 音声読み上げのための装置、プログラム及び方法 |
JP4973337B2 (ja) * | 2007-06-28 | 2012-07-11 | 富士通株式会社 | 音声読み上げのための装置、プログラム及び方法 |
WO2009008055A1 (ja) * | 2007-07-09 | 2009-01-15 | Fujitsu Limited | 音声認識装置、音声認識方法、および、音声認識プログラム |
JP6003971B2 (ja) * | 2014-12-22 | 2016-10-05 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
KR102017244B1 (ko) * | 2017-02-27 | 2019-10-21 | 한국전자통신연구원 | 자연어 인식 성능 개선 방법 및 장치 |
CN109801618B (zh) * | 2017-11-16 | 2022-09-13 | 深圳市腾讯计算机系统有限公司 | 一种音频信息的生成方法和装置 |
CN107945788B (zh) * | 2017-11-27 | 2021-11-02 | 桂林电子科技大学 | 一种文本相关的英语口语发音错误检测与质量评分方法 |
CN110060665A (zh) * | 2019-03-15 | 2019-07-26 | 上海拍拍贷金融信息服务有限公司 | 语速检测方法及装置、可读存储介质 |
-
2020
- 2020-05-13 CN CN202010405266.XA patent/CN111627422B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111627422A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179975B (zh) | 用于情绪识别的语音端点检测方法、电子设备及存储介质 | |
US10353476B2 (en) | Efficient gesture processing | |
CN109558512B (zh) | 一种基于音频的个性化推荐方法、装置和移动终端 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
US9063704B2 (en) | Identifying gestures using multiple sensors | |
CN109766759A (zh) | 情绪识别方法及相关产品 | |
WO2021115268A1 (zh) | 地铁运行方向的确定方法、装置、终端及存储介质 | |
WO2014190732A1 (en) | Method and apparatus for building a language model | |
CN110097870A (zh) | 语音处理方法、装置、设备和存储介质 | |
CN113450771B (zh) | 唤醒方法、模型训练方法和装置 | |
CN113129867B (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN110826637A (zh) | 情绪识别方法、系统及计算机可读存储介质 | |
CN113223560A (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN110827825A (zh) | 语音识别文本的标点预测方法、系统、终端及存储介质 | |
CN108318042A (zh) | 导航模式切换方法、装置、终端及存储介质 | |
CN109688271A (zh) | 联系人信息输入的方法、装置及终端设备 | |
CN111554270B (zh) | 训练样本筛选方法及电子设备 | |
CN111627422B (zh) | 语音加速检测方法、装置、设备及可读存储介质 | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
CN110992930A (zh) | 声纹特征提取方法、装置、终端及可读存储介质 | |
CN111062200A (zh) | 一种话术泛化方法、话术识别方法、装置及电子设备 | |
CN113241060B (zh) | 一种安保预警方法及系统 | |
CN111048068A (zh) | 语音唤醒方法、装置、系统及电子设备 | |
CN114783423A (zh) | 基于语速调整的语音切分方法、装置、计算机设备及介质 | |
CN110931047A (zh) | 语音数据采集方法、装置、采集终端及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |