CN108461090B - 语音信号处理装置及语音信号处理方法 - Google Patents

语音信号处理装置及语音信号处理方法 Download PDF

Info

Publication number
CN108461090B
CN108461090B CN201710092232.8A CN201710092232A CN108461090B CN 108461090 B CN108461090 B CN 108461090B CN 201710092232 A CN201710092232 A CN 201710092232A CN 108461090 B CN108461090 B CN 108461090B
Authority
CN
China
Prior art keywords
signal
target frame
sub
frequency band
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710092232.8A
Other languages
English (en)
Other versions
CN108461090A (zh
Inventor
杜博仁
张嘉仁
曾凯盟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Acer Inc
Original Assignee
Acer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Acer Inc filed Critical Acer Inc
Priority to CN201710092232.8A priority Critical patent/CN108461090B/zh
Publication of CN108461090A publication Critical patent/CN108461090A/zh
Application granted granted Critical
Publication of CN108461090B publication Critical patent/CN108461090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)

Abstract

本发明提供一种语音信号处理装置及语音信号处理方法。依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,以提高聆听声音的舒适度以及语音信号的可辨识度。

Description

语音信号处理装置及语音信号处理方法
技术领域
本发明涉及一种信号处理装置,尤其涉及一种语音信号处理装置及语音信号处理方法。
背景技术
一般对于听障人士来说,其往往无法清楚地接收较高频的语音信号,例如子音信号,但对于低频的语音信号却可以清楚地听到。为使听障人士可清楚地听到语音信号,当判断出语音信号为子音信号时,语音信号将被进行降频处理,反之,若语音信号非子音信号,则不进行降频处理。如此虽可帮助听障人士更清楚地听到语音信号,然当环境中的其它噪声信号造成子音信号的判断错误时,将使得原本应进行降频处理的子音信号未被进行降频处理。而当未被进行降频处理的子音信号出现在前后的皆为进行降频处理的子音信号时,声音将出现断断续续的情形,而造成听者的不适,严重时还可能影响到语音信号的可辨识度。
发明内容
本发明提供一种语音信号处理装置及语音信号处理方法,可有效改善因子音信号误判而造成声音断断续续的情形,而提高听者聆听声音的舒适度以及语音信号的可辨识度。
本发明的语音信号处理装置包括带通滤波单元以及处理单元。带通滤波单元对语音信号进行第一频段以及第二频段的带通滤波,以分别产生第一带通滤波信号以及第二带通滤波信号,其中第一频段以及第二频段至少其中之一为子音频段。处理单元耦接滤波单元,将语音信号、第一带通滤波信号以及第二带通滤波信号分割为多个音框,并计算此些音框中取样信号的能量,以获得对应此些音框的原始语音取样信号能量、第一频段信号能量以及第二频段信号能量,依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松,其中当目标音框的前一音框所对应的原始语音取样信号为子音信号时,依据目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值,以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值判断目标音框所对应的原始语音取样信号是否为子音信号。
在本发明的一实施例中,上述的处理单元还计算目标音框的过零率,当目标音框的前一音框所对应的原始语音取样信号为子音信号时,处理单元还依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号,其中当目标音框的过零率大于预设过零率、第一比值大于第一预设值且第二比值大于第二预设值时,目标音框所对应的原始语音取样信号为子音信号。
在本发明的一实施例中,其中当目标音框的过零率大于预设过零率且第一比值大于第三预设值时,目标音框所对应的原始语音取样信号为子音信号,其中第三预设值大于第一预设值。
在本发明的一实施例中,其中当目标音框的前两个音框所对应的原始语音取样信号皆为子音信号时,处理单元还依据目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第三比值判断目标音框所对应的原始语音取样信号是否为子音信号。
在本发明的一实施例中,上述的处理单元还计算目标音框的过零率,当目标音框的前两个音框所对应的原始语音取样信号皆为子音信号时,处理单元还依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号,当目标音框的过零率大于预设过零率、第一比值大于第一预设值、第二比值小于第二预设值且第三比值小于第三预设值时,目标音框所对应的原始语音取样信号为子音信号,其中第二预设值与第三预设值小于等于1。
在本发明的一实施例中,上述的处理单元还计算目标音框的过零率,当目标音框的前一音框所对应的原始语音取样信号不为子音信号时,处理单元依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的第三比值判断目标音框所对应的原始语音取样信号是否为子音信号,其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于第一预设能量且第三比值大于第一预设值,目标音框所对应的原始语音取样信号为子音信号。
在本发明的一实施例中,其中当目标音框的前一音框所对应的原始语音取样信号不为子音信号时,处理单元还依据第一比值判断目标音框所对应的原始语音取样信号是否为子音信号,其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量、第三比值大于第二预设值且第一比值大于第三预设值,目标音框所对应的原始语音取样信号为子音信号,其中第一预设值大于第二预设值。
在本发明的一实施例中,上述第二频段高于第一频段。
本发明的语音信号处理方法包括下列步骤。对语音信号进行第一频段以及第二频段的带通滤波,以分别产生第一带通滤波信号以及第二带通滤波信号,其中第一频段以及第二频段至少其中之一为子音频段。将语音信号、第一带通滤波信号以及第二带通滤波信号分割为多个音框。计算此些音框中取样信号的能量,以获得对应此些音框的原始语音取样信号能量、第一频段信号能量以及第二频段信号能量。依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松,其中当目标音框的前一音框所对应的原始语音取样信号为子音信号时,依据目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值,以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值判断目标音框所对应的原始语音取样信号是否为子音信号。
在本发明的一实施例中,上述的语音信号处理方法还包括下列步骤。计算目标音框的过零率。判断目标音框的前一音框所对应的原始语音取样信号是否为子音信号。若目标音框的前一音框所对应的原始语音取样信号为子音信号,还依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号,其中当目标音框的过零率大于预设过零率、第一比值大于第一预设值且第二比值大于第二预设值时,目标音框所对应的原始语音取样信号为子音信号。
在本发明的一实施例中,当目标音框的过零率大于预设过零率且第一比值大于第三预设值时,目标音框所对应的原始语音取样信号为子音信号,其中第三预设值大于第一预设值。
在本发明的一实施例中,上述的语音信号处理方法还包括,判断目标音框的前两个音框所对应的原始语音取样信号是否皆为子音信号。若目标音框的前两个音框所对应的原始语音取样信号皆为子音信号,还依据目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第三比值判断目标音框所对应的原始语音取样信号是否为子音信号。
在本发明的一实施例中,上述的语音信号处理方法,还包括下列步骤。计算目标音框的过零率。判断目标音框的前两个音框所对应的原始语音取样信号是否皆为子音信号。若目标音框的前两个音框所对应的原始语音取样信号皆为子音信号,还依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号,其中当目标音框的过零率大于预设过零率、第一比值大于第一预设值、第二比值小于第二预设值且第三比值小于第三预设值时,目标音框所对应的原始语音取样信号为子音信号,其中第二预设值与第三预设值小于等于1。
在本发明的一实施例中,上述的语音信号处理方法还包括下列步骤。计算目标音框的过零率。判断目标音框的前一音框所对应的原始语音取样信号是否为子音信号。若目标音框的前一音框所对应的原始语音取样信号不为子音信号,依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的第三比值判断目标音框所对应的原始语音取样信号是否为子音信号,其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量且第三比值大于第一预设值,目标音框所对应的原始语音取样信号为子音信号。
在本发明的一实施例中,其中若目标音框的前一音框所对应的原始语音取样信号不为子音信号,语音信号处理方法还包括,依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及第一比值判断目标音框所对应的原始语音取样信号是否为子音信号,其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量、第三比值大于第二预设值且第一比值大于第三预设值,目标音框所对应的原始语音取样信号为子音信号,其中第一预设值大于第二预设值。
在本发明的一实施例中,上述第二频段高于第一频段。
基于上述,本发明的实施例依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松。如此依据目标音框之前的音框来调整子音信号判断条件,可有效改善因子音信号误判而造成声音断断续续的情形,而提高听者聆听声音的舒适度以及语音信号的可辨识度。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。
附图说明
图1是依照本发明一实施例的语音信号处理装置的示意图。
图2是依照发明一实施例的语音信号处理方法的流程示意图。
图3是依照发明另一实施例的语音信号处理方法的流程示意图。
符号说明
102:滤波单元
104:处理单元
SF1~SFN:滤波信号
S1:语音信号
S2:第一带通滤波信号
S3:第二带通滤波信号
S4:低通滤波信号
S202~S218、S302~S304:语音辨识方法的步骤
具体实施方式
图1是依照本发明一实施例的语音信号处理装置的示意图,请参照图1。语音信号处理装置包括滤波单元102以及处理单元104,滤波单元102耦接处理单元104。滤波单元102可对语音信号S1进行低通滤波以及第一频段、第二频段的带通滤波,以分别产生低通滤波信号S4、第一带通滤波信号S2以及第二带通滤波信号S3。其中带通滤波单元102可例如包括低通滤波器与带通滤波器,而处理单元104可例如以中央处理单元来实施,然不以此为限,另外第一频段以及第二频段至少其中之一为子音频段。举例来说,在本实施例中,低通滤波的切断频率为0~2kHz,而第一频段以及第二频段分别为2kHz~4kHz以及4kHz~12kHz,然不以此为限。
处理单元104可对语音信号S1、第一带通滤波信号S2以及第二带通滤波信号S3进行取样,并将语音信号S1、第一带通滤波信号S2以及第二带通滤波信号S3分割为多个音框,其中各个音框可包括N个语音信号S1的取样信号、N个第一带通滤波信号S2的取样信号以及N个第二带通滤波信号S3的取样信号,其中N为正整数。处理单元104还可计算各个音框中取样信号的能量,以获得原始语音取样信号能量、第一频段信号能量以及第二频段信号能量,其中原始语音取样信号能量、第一频段信号能量以及第二频段信号能量分别对应音框中语音信号S1的取样信号、第一带通滤波信号S2的取样信号以及第二带通滤波信号S3的取样信号的能量。
在获得原始语音取样信号能量、第一频段信号能量以及第二频段信号能量后,处理单元104便可依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松。进一步来说,当目标音框的前一音框所对应的原始语音取样信号为子音信号时,处理单元104可依据目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值,以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值,来判断目标音框所对应的原始语音取样信号是否为子音信号。在部分实施例中,处理单元104还可计算目标音框的过零率,并进一步依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号。
而当目标音框的前一音框所对应的原始语音取样信号不为子音信号时,处理单元则可依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和、目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的比值以及上述的第一比值,来判断目标音框所对应的原始语音取样信号是否为子音信号。其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于第三预设值且第一比值大于第四预设值,目标音框所对应的原始语音取样信号为子音信号,其中第二预设值大于第三预设值。
如依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,使目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松,便可有效改善因子音信号误判而造成声音断断续续的情形,而提高听者聆听声音的舒适度以及语音信号的可辨识度。
举例来说,当目标音框的前一音框所对应的原始语音取样信号为子音信号时,处理单元104判断对应一目标音框(例如第m个音框,m为正整数)的原始语音取样信号是否为子音信号的方式,可以下列式子来判断:
Figure BDA0001229239510000071
其中,当
Figure BDA0001229239510000072
代表对应第m个音框的原始语音取样信号为子音信号,而当
Figure BDA0001229239510000081
代表对应第m个音框的原始语音取样信号不为子音信号。也就是说,只要
Figure BDA0001229239510000082
为1,且
Figure BDA0001229239510000083
Figure BDA0001229239510000084
其中一个为1,即判断对应第m个音框的原始语音取样信号为子音信号。另外
Figure BDA0001229239510000085
则可分别以下列式子表示:
Figure BDA0001229239510000086
Figure BDA0001229239510000087
Figure BDA0001229239510000088
其中
Figure BDA0001229239510000089
为第m个音框的过零率,ZTH1为预设过零率,其可例如设定为20,然不以此为限。另外,EB1m为第m个音框的第一频段信号能量、EB2m为第m个音框的第二频段信号能量,EB1m-1为第m-1个音框的第一频段信号能量、EB2m-1为第m-1个音框的第二频段信号能量,而Em为第m个音框的原始语音取样信号能量,γ1为第一预设值,γ2为第二预设值,γ3为第三预设值,其中γ3大于γ1,例如在本实施例中,γ3可为0.75,γ1可为0.6,然不以此为限。此外,γ2值可依设计者的需求设定,例如在本实施例中,例如在本实施例中,γ2值可为0.8,然不以此为限,例如在其他实施例中,γ2值也可为1.1、1、0.9或0.7。
此外,当目标音框的前一音框所对应的原始语音取样信号不为子音信号时,处理单元104判断对应第m个音框的原始语音取样信号是否为子音信号的方式,可以下列式子来判断:
Figure BDA00012292395100000810
类似地,当
Figure BDA00012292395100000811
代表对应第m个音框的原始语音取样信号为子音信号,而当
Figure BDA00012292395100000812
代表对应第m个音框的原始语音取样信号不为子音信号。也就是说,只要
Figure BDA00012292395100000813
为1,且
Figure BDA00012292395100000814
Figure BDA00012292395100000815
其中一个为1,即判断对应第m个音框的原始语音取样信号为子音信号。另外
Figure BDA00012292395100000816
则可分别以下列式子表示:
Figure BDA00012292395100000817
Figure BDA00012292395100000818
Figure BDA0001229239510000091
其中ETH为预设能量,其可例如设定为24,然不以此为限。
Figure BDA0001229239510000092
为第m个音框的过零率,ZTH为预设过零率,其可例如设定为22,然不以此为限。另外,α1为第四预设值,α2为第五预设值,α3为第六预设值,其中α1大于α2,例如在本实施例中,α1可为0.8,α2可为0.35,然不以此为限。此外,α3值可依设计者的需求设定,例如在本实施例中,例如在本实施例中,α3值可为1,然不以此为限。
值得注意的是,上述预设能量与预设值的设定值仅为示范性的实施例,本发明并不以上述所举数值为限,只要是预设能量与预设值的设定可使第m-1个音框所对应的原始语音取样信号为子音信号时所对应的子音信号判断条件较第m-1个音框所对应的原始语音取样信号不为子音信号时所对应的子音信号判断条件宽松,皆可做为本发明的预设能量与预设值。
此外,在部分实施例中,处理单元104也可依据目标音框之前的多个音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,以进一步避免子音信号的误判。举例来说,当目标音框(第m个音框)的前两个音框(第m-1个音框以及第m-2个音框)所对应的原始语音取样信号皆为子音信号时,处理单元可依据第m-1个音框所对应的第一频段信号能量以及第二频段信号能量的和与第m-2个音框所对应的第一频段信号能量以及第二频段信号能量的和之间的比值来判断第m个音框所对应的原始语音取样信号是否为子音信号,也就是说,上述
Figure BDA0001229239510000093
可改以下列式子表示:
Figure BDA0001229239510000094
其中k1为第七预设值,k2为第八预设值,k3为第九预设值,其中k1小于上述式(4)的γ1,k1可例如为0.5,然不以此为限,其可依设计者的需求设定。k2与k3则可例如设定为小于等于1的值,然也不以此为限。以此类推,也可依据目标音框之前的更多个音框所对应的原始语音取样信号来判断目标音框是否为子音信号。其判断方式类似于依据目标音框之前的2个音框所对应的原始语音取样信号进行子音信号判断的方式,因此在此不再赘述。
图2是依照本发明一实施例的语音信号处理方法的流程示意图,请参照图2。由上述实施例可知,语音辨识装置的语音辨识方法可包括下列步骤。首先,对语音信号进行第一频段以及第二频段的带通滤波,以分别产生第一带通滤波信号以及第二带通滤波信号,其中第一频段以及第二频段至少其中之一为子音频段(步骤S202)。接着,将语音信号、第一带通滤波信号以及第二带通滤波信号分割为多个音框(步骤S204)。然后,计算此些音框中取样信号的能量,以获得对应此些音框的原始语音取样信号能量、第一频段信号能量以及第二频段信号能量(步骤S206)。之后,判断目标音框的前一音框所对应的原始语音取样信号是否为子音信号(步骤S208)。若目标音框的前一音框所对应的原始语音取样信号为子音信号,依据目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值,以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值,来判断目标音框所对应的原始语音取样信号是否为子音信号(步骤S210)。
在部分实施例中,步骤S210可如图2所示包括,可先计算目标音框的过零率(步骤S212),然后再依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值,以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值,来判断目标音框所对应的原始语音取样信号是否为子音信号(步骤S214)。其中当目标音框的过零率大于预设过零率、第一比值大于第一预设值且第二比值大于第二预设值时,目标音框所对应的原始语音取样信号为子音信号,另外,若目标音框的过零率大于预设过零率且第一比值大于第三预设值,也判断目标音框所对应的原始语音取样信号为子音信号,其中第三预设值大于第一预设值。
另外,若在步骤S208判断出目标音框的前一音框所对应的原始语音取样信号不为子音信号,则可接着计算目标音框的过零率(步骤S216),然后再依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的第三比值、目标音框所对应的第一频段信号能量与第二频段信号能量的和以及上述的第一比值,来判断目标音框所对应的原始语音取样信号是否为子音信号(步骤S218)。其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量且上述的第三比值大于第四预设值,可将目标音框所对应的原始语音取样信号判断为子音信号。另外,若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量、第三比值大于第五预设值且第一比值大于第六预设值,也可将目标音框所对应的原始语音取样信号判断为子音信号,其中第四预设值大于第五预设值。
图3是依照本发明另一实施例的语音信号处理方法的流程示意图,请参照图3。本实施例与图2实施例的不同之处在于,在步骤S210可包括依据目标音框的前两个音框所对应的原始语音取样信号来调整子音信号判断条件的步骤。如图3所示,在步骤S212后,还判断目标音框的前两个音框所对应的原始语音取样信号是否皆为子音信号(步骤S302),若目标音框的前两个音框所对应的原始语音取样信号非皆为子音信号,可以图2实施例的步骤S214进行子音信号的判断。而若目标音框的前两个音框所对应的原始语音取样信号皆为子音信号,则可依据目标音框的过零率、目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第四比值判断目标音框所对应的原始语音取样信号是否为子音信号(步骤S304)。其中若目标音框的过零率大于预设过零率、上述的第一比值大于一第七预设值、上述的第二比值小于第八预设值且第四比值小于第九预设值时,可将目标音框所对应的原始语音取样信号判断为子音信号,其中第八预设值与第九预设值小于等于1。
综上所述,本发明的实施例依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松。如此依据目标音框之前的音框来调整子音信号判断条件,可有效改善因子音信号误判而造成声音断断续续的情形,而提高听者聆听声音的舒适度以及语音信号的可辨识度。
虽然本发明已以实施例揭示如上,然其并非用以限定本发明,任何所属技术领域中技术人员,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视权利要求所界定者为准。

Claims (16)

1.一种语音信号处理装置,包括:
带通滤波单元,对语音信号进行第一频段以及第二频段的带通滤波,以分别产生第一带通滤波信号以及第二带通滤波信号,其中所述第一频段以及所述第二频段至少其中之一为子音频段;以及
处理单元,耦接所述滤波单元,将所述语音信号、所述第一带通滤波信号以及所述第二带通滤波信号分割为多个音框,并计算所述多个音框中取样信号的能量,以获得对应所述多个音框的原始语音取样信号能量、第一频段信号能量以及第二频段信号能量,依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整所述目标音框的子音信号判断条件,其中所述目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的所述目标音框的子音信号判断条件较所述目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的所述目标音框的子音信号判断条件宽松,其中当所述目标音框的前一音框所对应的原始语音取样信号为子音信号时,依据所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和与所述目标音框所对应的原始语音取样信号能量之间的第一比值,以及所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和与所述目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值判断所述目标音框所对应的原始语音取样信号是否为子音信号。
2.根据权利要求1所述的语音信号处理装置,其中所述处理单元还计算所述目标音框的过零率,当所述目标音框的前一音框所对应的原始语音取样信号为子音信号时,处理单元还依据所述目标音框的过零率判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中当所述目标音框的过零率大于预设过零率、所述第一比值大于第一预设值且所述第二比值大于第二预设值时,所述目标音框所对应的原始语音取样信号为子音信号。
3.根据权利要求2所述的语音信号处理装置,其中当所述目标音框的过零率大于所述预设过零率且所述第一比值大于第三预设值时,所述目标音框所对应的原始语音取样信号为子音信号,其中所述第三预设值大于所述第一预设值。
4.根据权利要求1所述的语音信号处理装置,其中当所述目标音框的前两个音框所对应的原始语音取样信号皆为子音信号时,所述处理单元还依据所述目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和与所述目标音框的前一音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第三比值判断所述目标音框所对应的原始语音取样信号是否为子音信号。
5.根据权利要求4所述的语音信号处理装置,其中所述处理单元还计算所述目标音框的过零率,当所述目标音框的前两个音框所对应的原始语音取样信号皆为子音信号时,所述处理单元还依据所述目标音框的过零率判断所述目标音框所对应的原始语音取样信号是否为子音信号,当所述目标音框的过零率大于预设过零率、所述第一比值大于第一预设值、所述第二比值小于第二预设值且所述第三比值小于第三预设值时,所述目标音框所对应的原始语音取样信号为子音信号,其中所述第二预设值与所述第三预设值小于等于1。
6.根据权利要求1所述的语音信号处理装置,其中所述处理单元还计算所述目标音框的过零率,当所述目标音框的前一音框所对应的原始语音取样信号不为子音信号时,所述处理单元依据所述目标音框的过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及所述目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的第三比值判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中若所述目标音框的过零率大于预设过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于第一预设能量且所述第三比值大于第一预设值,所述目标音框所对应的原始语音取样信号为子音信号。
7.根据权利要求6所述的语音信号处理装置,其中当所述目标音框的前一音框所对应的原始语音取样信号不为子音信号时,所述处理单元还依据所述第一比值判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中若所述目标音框的过零率大于所述预设过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于所述预设能量、所述第三比值大于第二预设值且所述第一比值大于第三预设值,所述目标音框所对应的原始语音取样信号为子音信号,其中所述第一预设值大于所述第二预设值。
8.根据权利要求1所述的语音信号处理装置,其中所述第二频段高于所述第一频段。
9.一种语音信号处理方法,包括:
对语音信号进行第一频段以及第二频段的带通滤波,以分别产生第一带通滤波信号以及第二带通滤波信号,其中所述第一频段以及所述第二频段至少其中之一为子音频段;
将所述语音信号、所述第一带通滤波信号以及所述第二带通滤波信号分割为多个音框;
计算所述多个音框中取样信号的能量,以获得对应所述多个音框的原始语音取样信号能量、第一频段信号能量以及第二频段信号能量;以及
依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整所述目标音框的子音信号判断条件,其中所述目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的所述目标音框的子音信号判断条件较所述目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的所述目标音框的子音信号判断条件宽松,其中当所述目标音框的前一音框所对应的原始语音取样信号为子音信号时,依据所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和与所述目标音框所对应的原始语音取样信号能量之间的第一比值,以及所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和与所述目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值判断所述目标音框所对应的原始语音取样信号是否为子音信号。
10.根据权利要求9所述的语音信号处理方法,还包括:
计算所述目标音框的过零率;
判断所述目标音框的前一音框所对应的原始语音取样信号是否为子音信号;以及
若所述目标音框的前一音框所对应的原始语音取样信号为子音信号,还依据所述目标音框的过零率判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中当所述目标音框的过零率大于预设过零率、所述第一比值大于第一预设值且所述第二比值大于第二预设值时,所述目标音框所对应的原始语音取样信号为子音信号。
11.根据权利要求10所述的语音信号处理方法,其中当所述目标音框的过零率大于所述预设过零率且所述第一比值大于第三预设值时,所述目标音框所对应的原始语音取样信号为子音信号,其中所述第三预设值大于所述第一预设值。
12.根据权利要求9所述的语音信号处理方法,还包括:
判断所述目标音框的前两个音框所对应的原始语音取样信号是否皆为子音信号;以及
若所述目标音框的前两个音框所对应的原始语音取样信号皆为子音信号,还依据所述目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和与所述目标音框的前一音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第三比值判断所述目标音框所对应的原始语音取样信号是否为子音信号。
13.根据权利要求12所述的语音信号处理方法,还包括:
计算所述目标音框的过零率;
判断所述目标音框的前两个音框所对应的原始语音取样信号是否皆为子音信号;以及
若所述目标音框的前两个音框所对应的原始语音取样信号皆为子音信号,还依据所述目标音框的过零率判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中当所述目标音框的过零率大于预设过零率、所述第一比值大于第一预设值、所述第二比值小于第二预设值且所述第三比值小于第三预设值时,所述目标音框所对应的原始语音取样信号为子音信号,其中所述第二预设值与所述第三预设值小于等于1。
14.根据权利要求9所述的语音信号处理方法,还包括:
计算所述目标音框的过零率;
判断所述目标音框的前一音框所对应的原始语音取样信号是否为子音信号;以及
若所述目标音框的前一音框所对应的原始语音取样信号不为子音信号,依据所述目标音框的过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及所述目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的第三比值判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中若所述目标音框的过零率大于预设过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量且所述第三比值大于第一预设值,所述目标音框所对应的原始语音取样信号为子音信号。
15.根据权利要求14所述的语音信号处理方法,其中若所述目标音框的前一音框所对应的原始语音取样信号不为子音信号,所述语音信号处理方法还包括:
依据所述目标音框的过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及所述第一比值判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中若所述目标音框的过零率大于所述预设过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于所述预设能量、所述第三比值大于第二预设值且所述第一比值大于第三预设值,所述目标音框所对应的原始语音取样信号为子音信号,其中所述第一预设值大于所述第二预设值。
16.根据权利要求9所述的语音信号处理方法,其中所述第二频段高于所述第一频段。
CN201710092232.8A 2017-02-21 2017-02-21 语音信号处理装置及语音信号处理方法 Active CN108461090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710092232.8A CN108461090B (zh) 2017-02-21 2017-02-21 语音信号处理装置及语音信号处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710092232.8A CN108461090B (zh) 2017-02-21 2017-02-21 语音信号处理装置及语音信号处理方法

Publications (2)

Publication Number Publication Date
CN108461090A CN108461090A (zh) 2018-08-28
CN108461090B true CN108461090B (zh) 2021-07-06

Family

ID=63222068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710092232.8A Active CN108461090B (zh) 2017-02-21 2017-02-21 语音信号处理装置及语音信号处理方法

Country Status (1)

Country Link
CN (1) CN108461090B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1189664A (zh) * 1997-01-29 1998-08-05 合泰半导体股份有限公司 语音编码的子音识别方法
JP2007256303A (ja) * 2006-03-20 2007-10-04 Renesas Technology Corp 音声圧縮方式
CN101256776A (zh) * 2007-02-26 2008-09-03 财团法人工业技术研究院 语音信号处理方法
CN104244155A (zh) * 2013-06-07 2014-12-24 杨国屏 处理声音段的方法及助听器
TW201627985A (zh) * 2015-01-26 2016-08-01 宏碁股份有限公司 語音辨識裝置及語音辨識方法
CN105989834A (zh) * 2015-02-05 2016-10-05 宏碁股份有限公司 语音辨识装置及语音辨识方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6795807B1 (en) * 1999-08-17 2004-09-21 David R. Baraff Method and means for creating prosody in speech regeneration for laryngectomees
JP2014122939A (ja) * 2012-12-20 2014-07-03 Sony Corp 音声処理装置および方法、並びにプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1189664A (zh) * 1997-01-29 1998-08-05 合泰半导体股份有限公司 语音编码的子音识别方法
JP2007256303A (ja) * 2006-03-20 2007-10-04 Renesas Technology Corp 音声圧縮方式
CN101256776A (zh) * 2007-02-26 2008-09-03 财团法人工业技术研究院 语音信号处理方法
CN104244155A (zh) * 2013-06-07 2014-12-24 杨国屏 处理声音段的方法及助听器
TW201627985A (zh) * 2015-01-26 2016-08-01 宏碁股份有限公司 語音辨識裝置及語音辨識方法
CN105989834A (zh) * 2015-02-05 2016-10-05 宏碁股份有限公司 语音辨识装置及语音辨识方法

Also Published As

Publication number Publication date
CN108461090A (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
US8891778B2 (en) Speech enhancement
CN100369111C (zh) 话音增强装置
JP5453740B2 (ja) 音声強調装置
EP2579252B1 (en) Stability and speech audibility improvements in hearing devices
EP2808868B1 (en) Method of processing a voice segment and hearing aid
EP2099235A2 (en) Frequency translation by high-frequency spectral envelope warping in hearing assistance devices
EP2249587B1 (en) Frequency translation by high-frequency spectral envelope warping in hearing assistance devices
US20120140964A1 (en) Method and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener
US9119007B2 (en) Method of and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener
EP3166107B1 (en) Audio signal processing device and method
JP2010112996A (ja) 音声処理装置、音声処理方法およびプログラム
TWI557728B (zh) 語音辨識裝置及語音辨識方法
TWI566242B (zh) 語音辨識裝置及語音辨識方法
US9185497B2 (en) Method and computer program product of processing sound segment and hearing aid
CN105989834B (zh) 语音辨识装置及语音辨识方法
EP2828853B1 (en) Method and system for bias corrected speech level determination
CN108461090B (zh) 语音信号处理装置及语音信号处理方法
TWI622978B (zh) 語音信號處理裝置及語音信號處理方法
CN108389590B (zh) 一种时频联合的语音削顶检测方法
US10524052B2 (en) Dominant sub-band determination
CN105989835B (zh) 语音辨识装置及语音辨识方法
CN109429167B (zh) 音频强化装置及方法
JPH0834652B2 (ja) 補聴器システム
CN106328159B (zh) 一种音频流的处理方法及装置
US20160217805A1 (en) Voice signal processing apparatus and voice signal processing method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant