CN108461090A - 语音信号处理装置及语音信号处理方法 - Google Patents

语音信号处理装置及语音信号处理方法 Download PDF

Info

Publication number
CN108461090A
CN108461090A CN201710092232.8A CN201710092232A CN108461090A CN 108461090 A CN108461090 A CN 108461090A CN 201710092232 A CN201710092232 A CN 201710092232A CN 108461090 A CN108461090 A CN 108461090A
Authority
CN
China
Prior art keywords
sound frame
signal
target sound
consonant
raw tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710092232.8A
Other languages
English (en)
Other versions
CN108461090B (zh
Inventor
杜博仁
张嘉仁
曾凯盟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Acer Inc
Original Assignee
Acer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Acer Inc filed Critical Acer Inc
Priority to CN201710092232.8A priority Critical patent/CN108461090B/zh
Publication of CN108461090A publication Critical patent/CN108461090A/zh
Application granted granted Critical
Publication of CN108461090B publication Critical patent/CN108461090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)

Abstract

本发明提供一种语音信号处理装置及语音信号处理方法。依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,以提高聆听声音的舒适度以及语音信号的可辨识度。

Description

语音信号处理装置及语音信号处理方法
技术领域
本发明涉及一种信号处理装置,尤其涉及一种语音信号处理装置及语音信号处理方法。
背景技术
一般对于听障人士来说,其往往无法清楚地接收较高频的语音信号,例如子音信号,但对于低频的语音信号却可以清楚地听到。为使听障人士可清楚地听到语音信号,当判断出语音信号为子音信号时,语音信号将被进行降频处理,反之,若语音信号非子音信号,则不进行降频处理。如此虽可帮助听障人士更清楚地听到语音信号,然当环境中的其它噪声信号造成子音信号的判断错误时,将使得原本应进行降频处理的子音信号未被进行降频处理。而当未被进行降频处理的子音信号出现在前后的皆为进行降频处理的子音信号时,声音将出现断断续续的情形,而造成听者的不适,严重时还可能影响到语音信号的可辨识度。
发明内容
本发明提供一种语音信号处理装置及语音信号处理方法,可有效改善因子音信号误判而造成声音断断续续的情形,而提高听者聆听声音的舒适度以及语音信号的可辨识度。
本发明的语音信号处理装置包括带通滤波单元以及处理单元。带通滤波单元对语音信号进行第一频段以及第二频段的带通滤波,以分别产生第一带通滤波信号以及第二带通滤波信号,其中第一频段以及第二频段至少其中之一为子音频段。处理单元耦接滤波单元,将语音信号、第一带通滤波信号以及第二带通滤波信号分割为多个音框,并计算此些音框中取样信号的能量,以获得对应此些音框的原始语音取样信号能量、第一频段信号能量以及第二频段信号能量,依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松,其中当目标音框的前一音框所对应的原始语音取样信号为子音信号时,依据目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值,以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值判断目标音框所对应的原始语音取样信号是否为子音信号。
在本发明的一实施例中,上述的处理单元还计算目标音框的过零率,当目标音框的前一音框所对应的原始语音取样信号为子音信号时,处理单元还依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号,其中当目标音框的过零率大于预设过零率、第一比值大于第一预设值且第二比值大于第二预设值时,目标音框所对应的原始语音取样信号为子音信号。
在本发明的一实施例中,其中当目标音框的过零率大于预设过零率且第一比值大于第三预设值时,目标音框所对应的原始语音取样信号为子音信号,其中第三预设值大于第一预设值。
在本发明的一实施例中,其中当目标音框的前两个音框所对应的原始语音取样信号皆为子音信号时,处理单元还依据目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第三比值判断目标音框所对应的原始语音取样信号是否为子音信号。
在本发明的一实施例中,上述的处理单元还计算目标音框的过零率,当目标音框的前两个音框所对应的原始语音取样信号皆为子音信号时,处理单元还依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号,当目标音框的过零率大于预设过零率、第一比值大于第一预设值、第二比值小于第二预设值且第三比值小于第三预设值时,目标音框所对应的原始语音取样信号为子音信号,其中第二预设值与第三预设值小于等于1。
在本发明的一实施例中,上述的处理单元还计算目标音框的过零率,当目标音框的前一音框所对应的原始语音取样信号不为子音信号时,处理单元依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的第三比值判断目标音框所对应的原始语音取样信号是否为子音信号,其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于第一预设能量且第三比值大于第一预设值,目标音框所对应的原始语音取样信号为子音信号。
在本发明的一实施例中,其中当目标音框的前一音框所对应的原始语音取样信号不为子音信号时,处理单元还依据第一比值判断目标音框所对应的原始语音取样信号是否为子音信号,其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量、第三比值大于第二预设值且第一比值大于第三预设值,目标音框所对应的原始语音取样信号为子音信号,其中第一预设值大于第二预设值。
在本发明的一实施例中,上述第二频段高于第一频段。
本发明的语音信号处理方法包括下列步骤。对语音信号进行第一频段以及第二频段的带通滤波,以分别产生第一带通滤波信号以及第二带通滤波信号,其中第一频段以及第二频段至少其中之一为子音频段。将语音信号、第一带通滤波信号以及第二带通滤波信号分割为多个音框。计算此些音框中取样信号的能量,以获得对应此些音框的原始语音取样信号能量、第一频段信号能量以及第二频段信号能量。依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松,其中当目标音框的前一音框所对应的原始语音取样信号为子音信号时,依据目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值,以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值判断目标音框所对应的原始语音取样信号是否为子音信号。
在本发明的一实施例中,上述的语音信号处理方法还包括下列步骤。计算目标音框的过零率。判断目标音框的前一音框所对应的原始语音取样信号是否为子音信号。若目标音框的前一音框所对应的原始语音取样信号为子音信号,还依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号,其中当目标音框的过零率大于预设过零率、第一比值大于第一预设值且第二比值大于第二预设值时,目标音框所对应的原始语音取样信号为子音信号。
在本发明的一实施例中,当目标音框的过零率大于预设过零率且第一比值大于第三预设值时,目标音框所对应的原始语音取样信号为子音信号,其中第三预设值大于第一预设值。
在本发明的一实施例中,上述的语音信号处理方法还包括,判断目标音框的前两个音框所对应的原始语音取样信号是否皆为子音信号。若目标音框的前两个音框所对应的原始语音取样信号皆为子音信号,还依据目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第三比值判断目标音框所对应的原始语音取样信号是否为子音信号。
在本发明的一实施例中,上述的语音信号处理方法,还包括下列步骤。计算目标音框的过零率。判断目标音框的前两个音框所对应的原始语音取样信号是否皆为子音信号。若目标音框的前两个音框所对应的原始语音取样信号皆为子音信号,还依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号,其中当目标音框的过零率大于预设过零率、第一比值大于第一预设值、第二比值小于第二预设值且第三比值小于第三预设值时,目标音框所对应的原始语音取样信号为子音信号,其中第二预设值与第三预设值小于等于1。
在本发明的一实施例中,上述的语音信号处理方法还包括下列步骤。计算目标音框的过零率。判断目标音框的前一音框所对应的原始语音取样信号是否为子音信号。若目标音框的前一音框所对应的原始语音取样信号不为子音信号,依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的第三比值判断目标音框所对应的原始语音取样信号是否为子音信号,其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量且第三比值大于第一预设值,目标音框所对应的原始语音取样信号为子音信号。
在本发明的一实施例中,其中若目标音框的前一音框所对应的原始语音取样信号不为子音信号,语音信号处理方法还包括,依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及第一比值判断目标音框所对应的原始语音取样信号是否为子音信号,其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量、第三比值大于第二预设值且第一比值大于第三预设值,目标音框所对应的原始语音取样信号为子音信号,其中第一预设值大于第二预设值。
在本发明的一实施例中,上述第二频段高于第一频段。
基于上述,本发明的实施例依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松。如此依据目标音框之前的音框来调整子音信号判断条件,可有效改善因子音信号误判而造成声音断断续续的情形,而提高听者聆听声音的舒适度以及语音信号的可辨识度。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。
附图说明
图1是依照本发明一实施例的语音信号处理装置的示意图。
图2是依照发明一实施例的语音信号处理方法的流程示意图。
图3是依照发明另一实施例的语音信号处理方法的流程示意图。
符号说明
102:滤波单元
104:处理单元
SF1~SFN:滤波信号
S1:语音信号
S2:第一带通滤波信号
S3:第二带通滤波信号
S4:低通滤波信号
S202~S218、S302~S304:语音辨识方法的步骤
具体实施方式
图1是依照本发明一实施例的语音信号处理装置的示意图,请参照图1。语音信号处理装置包括滤波单元102以及处理单元104,滤波单元102耦接处理单元104。滤波单元102可对语音信号S1进行低通滤波以及第一频段、第二频段的带通滤波,以分别产生低通滤波信号S4、第一带通滤波信号S2以及第二带通滤波信号S3。其中带通滤波单元102可例如包括低通滤波器与带通滤波器,而处理单元104可例如以中央处理单元来实施,然不以此为限,另外第一频段以及第二频段至少其中之一为子音频段。举例来说,在本实施例中,低通滤波的切断频率为0~2kHz,而第一频段以及第二频段分别为2kHz~4kHz以及4kHz~12kHz,然不以此为限。
处理单元104可对语音信号S1、第一带通滤波信号S2以及第二带通滤波信号S3进行取样,并将语音信号S1、第一带通滤波信号S2以及第二带通滤波信号S3分割为多个音框,其中各个音框可包括N个语音信号S1的取样信号、N个第一带通滤波信号S2的取样信号以及N个第二带通滤波信号S3的取样信号,其中N为正整数。处理单元104还可计算各个音框中取样信号的能量,以获得原始语音取样信号能量、第一频段信号能量以及第二频段信号能量,其中原始语音取样信号能量、第一频段信号能量以及第二频段信号能量分别对应音框中语音信号S1的取样信号、第一带通滤波信号S2的取样信号以及第二带通滤波信号S3的取样信号的能量。
在获得原始语音取样信号能量、第一频段信号能量以及第二频段信号能量后,处理单元104便可依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松。进一步来说,当目标音框的前一音框所对应的原始语音取样信号为子音信号时,处理单元104可依据目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值,以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值,来判断目标音框所对应的原始语音取样信号是否为子音信号。在部分实施例中,处理单元104还可计算目标音框的过零率,并进一步依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号。
而当目标音框的前一音框所对应的原始语音取样信号不为子音信号时,处理单元则可依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和、目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的比值以及上述的第一比值,来判断目标音框所对应的原始语音取样信号是否为子音信号。其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于第三预设值且第一比值大于第四预设值,目标音框所对应的原始语音取样信号为子音信号,其中第二预设值大于第三预设值。
如依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,使目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松,便可有效改善因子音信号误判而造成声音断断续续的情形,而提高听者聆听声音的舒适度以及语音信号的可辨识度。
举例来说,当目标音框的前一音框所对应的原始语音取样信号为子音信号时,处理单元104判断对应一目标音框(例如第m个音框,m为正整数)的原始语音取样信号是否为子音信号的方式,可以下列式子来判断:
其中,当代表对应第m个音框的原始语音取样信号为子音信号,而当代表对应第m个音框的原始语音取样信号不为子音信号。也就是说,只要为1,且其中一个为1,即判断对应第m个音框的原始语音取样信号为子音信号。另外则可分别以下列式子表示:
其中为第m个音框的过零率,ZTH1为预设过零率,其可例如设定为20,然不以此为限。另外,EB1m为第m个音框的第一频段信号能量、EB2m为第m个音框的第二频段信号能量,EB1m-1为第m-1个音框的第一频段信号能量、EB2m-1为第m-1个音框的第二频段信号能量,而Em为第m个音框的原始语音取样信号能量,γ1为第一预设值,γ2为第二预设值,γ3为第三预设值,其中γ3大于γ1,例如在本实施例中,γ3可为0.75,γ1可为0.6,然不以此为限。此外,γ2值可依设计者的需求设定,例如在本实施例中,例如在本实施例中,γ2值可为0.8,然不以此为限,例如在其他实施例中,γ2值也可为1.1、1、0.9或0.7。
此外,当目标音框的前一音框所对应的原始语音取样信号不为子音信号时,处理单元104判断对应第m个音框的原始语音取样信号是否为子音信号的方式,可以下列式子来判断:
类似地,当代表对应第m个音框的原始语音取样信号为子音信号,而当代表对应第m个音框的原始语音取样信号不为子音信号。也就是说,只要为1,且其中一个为1,即判断对应第m个音框的原始语音取样信号为子音信号。另外则可分别以下列式子表示:
其中ETH为预设能量,其可例如设定为24,然不以此为限。为第m个音框的过零率,ZTH为预设过零率,其可例如设定为22,然不以此为限。另外,α1为第四预设值,α2为第五预设值,α3为第六预设值,其中α1大于α2,例如在本实施例中,α1可为0.8,α2可为0.35,然不以此为限。此外,α3值可依设计者的需求设定,例如在本实施例中,例如在本实施例中,α3值可为1,然不以此为限。
值得注意的是,上述预设能量与预设值的设定值仅为示范性的实施例,本发明并不以上述所举数值为限,只要是预设能量与预设值的设定可使第m-1个音框所对应的原始语音取样信号为子音信号时所对应的子音信号判断条件较第m-1个音框所对应的原始语音取样信号不为子音信号时所对应的子音信号判断条件宽松,皆可做为本发明的预设能量与预设值。
此外,在部分实施例中,处理单元104也可依据目标音框之前的多个音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,以进一步避免子音信号的误判。举例来说,当目标音框(第m个音框)的前两个音框(第m-1个音框以及第m-2个音框)所对应的原始语音取样信号皆为子音信号时,处理单元可依据第m-1个音框所对应的第一频段信号能量以及第二频段信号能量的和与第m-2个音框所对应的第一频段信号能量以及第二频段信号能量的和之间的比值来判断第m个音框所对应的原始语音取样信号是否为子音信号,也就是说,上述可改以下列式子表示:
其中k1为第七预设值,k2为第八预设值,k3为第九预设值,其中k1小于上述式(4)的γ1,k1可例如为0.5,然不以此为限,其可依设计者的需求设定。k2与k3则可例如设定为小于等于1的值,然也不以此为限。以此类推,也可依据目标音框之前的更多个音框所对应的原始语音取样信号来判断目标音框是否为子音信号。其判断方式类似于依据目标音框之前的2个音框所对应的原始语音取样信号进行子音信号判断的方式,因此在此不再赘述。
图2是依照本发明一实施例的语音信号处理方法的流程示意图,请参照图2。由上述实施例可知,语音辨识装置的语音辨识方法可包括下列步骤。首先,对语音信号进行第一频段以及第二频段的带通滤波,以分别产生第一带通滤波信号以及第二带通滤波信号,其中第一频段以及第二频段至少其中之一为子音频段(步骤S202)。接着,将语音信号、第一带通滤波信号以及第二带通滤波信号分割为多个音框(步骤S204)。然后,计算此些音框中取样信号的能量,以获得对应此些音框的原始语音取样信号能量、第一频段信号能量以及第二频段信号能量(步骤S206)。之后,判断目标音框的前一音框所对应的原始语音取样信号是否为子音信号(步骤S208)。若目标音框的前一音框所对应的原始语音取样信号为子音信号,依据目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值,以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值,来判断目标音框所对应的原始语音取样信号是否为子音信号(步骤S210)。
在部分实施例中,步骤S210可如图2所示包括,可先计算目标音框的过零率(步骤S212),然后再依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值,以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值,来判断目标音框所对应的原始语音取样信号是否为子音信号(步骤S214)。其中当目标音框的过零率大于预设过零率、第一比值大于第一预设值且第二比值大于第二预设值时,目标音框所对应的原始语音取样信号为子音信号,另外,若目标音框的过零率大于预设过零率且第一比值大于第三预设值,也判断目标音框所对应的原始语音取样信号为子音信号,其中第三预设值大于第一预设值。
另外,若在步骤S208判断出目标音框的前一音框所对应的原始语音取样信号不为子音信号,则可接着计算目标音框的过零率(步骤S216),然后再依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的第三比值、目标音框所对应的第一频段信号能量与第二频段信号能量的和以及上述的第一比值,来判断目标音框所对应的原始语音取样信号是否为子音信号(步骤S218)。其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量且上述的第三比值大于第四预设值,可将目标音框所对应的原始语音取样信号判断为子音信号。另外,若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量、第三比值大于第五预设值且第一比值大于第六预设值,也可将目标音框所对应的原始语音取样信号判断为子音信号,其中第四预设值大于第五预设值。
图3是依照本发明另一实施例的语音信号处理方法的流程示意图,请参照图3。本实施例与图2实施例的不同之处在于,在步骤S210可包括依据目标音框的前两个音框所对应的原始语音取样信号来调整子音信号判断条件的步骤。如图3所示,在步骤S212后,还判断目标音框的前两个音框所对应的原始语音取样信号是否皆为子音信号(步骤S302),若目标音框的前两个音框所对应的原始语音取样信号非皆为子音信号,可以图2实施例的步骤S214进行子音信号的判断。而若目标音框的前两个音框所对应的原始语音取样信号皆为子音信号,则可依据目标音框的过零率、目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第四比值判断目标音框所对应的原始语音取样信号是否为子音信号(步骤S304)。其中若目标音框的过零率大于预设过零率、上述的第一比值大于一第七预设值、上述的第二比值小于第八预设值且第四比值小于第九预设值时,可将目标音框所对应的原始语音取样信号判断为子音信号,其中第八预设值与第九预设值小于等于1。
综上所述,本发明的实施例依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件,其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松。如此依据目标音框之前的音框来调整子音信号判断条件,可有效改善因子音信号误判而造成声音断断续续的情形,而提高听者聆听声音的舒适度以及语音信号的可辨识度。
虽然本发明已以实施例揭示如上,然其并非用以限定本发明,任何所属技术领域中技术人员,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视权利要求所界定者为准。

Claims (16)

1.一种语音信号处理装置,包括:
带通滤波单元,对语音信号进行第一频段以及第二频段的带通滤波,以分别产生第一带通滤波信号以及第二带通滤波信号,其中所述第一频段以及所述第二频段至少其中之一为子音频段;以及
处理单元,耦接所述滤波单元,将所述语音信号、所述第一带通滤波信号以及所述第二带通滤波信号分割为多个音框,并计算所述多个音框中取样信号的能量,以获得对应所述多个音框的原始语音取样信号能量、第一频段信号能量以及第二频段信号能量,依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整所述目标音框的子音信号判断条件,其中所述目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的所述目标音框的子音信号判断条件较所述目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的所述目标音框的子音信号判断条件宽松,其中当所述目标音框的前一音框所对应的原始语音取样信号为子音信号时,依据所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和与所述目标音框所对应的原始语音取样信号能量之间的第一比值,以及所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和与所述目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值判断所述目标音框所对应的原始语音取样信号是否为子音信号。
2.根据权利要求1所述的语音信号处理装置,其中所述处理单元还计算所述目标音框的过零率,当所述目标音框的前一音框所对应的原始语音取样信号为子音信号时,处理单元还依据所述目标音框的过零率判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中当所述目标音框的过零率大于预设过零率、所述第一比值大于第一预设值且所述第二比值大于第二预设值时,所述目标音框所对应的原始语音取样信号为子音信号。
3.根据权利要求2所述的语音信号处理装置,其中当所述目标音框的过零率大于所述预设过零率且所述第一比值大于第三预设值时,所述目标音框所对应的原始语音取样信号为子音信号,其中所述第三预设值大于所述第一预设值。
4.根据权利要求1所述的语音信号处理装置,其中当所述目标音框的前两个音框所对应的原始语音取样信号皆为子音信号时,所述处理单元还依据所述目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和与所述目标音框的前一音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第三比值判断所述目标音框所对应的原始语音取样信号是否为子音信号。
5.根据权利要求4所述的语音信号处理装置,其中所述处理单元还计算所述目标音框的过零率,当所述目标音框的前两个音框所对应的原始语音取样信号皆为子音信号时,所述处理单元还依据所述目标音框的过零率判断所述目标音框所对应的原始语音取样信号是否为子音信号,当所述目标音框的过零率大于预设过零率、所述第一比值大于第一预设值、所述第二比值小于第二预设值且所述第三比值小于第三预设值时,所述目标音框所对应的原始语音取样信号为子音信号,其中所述第二预设值与所述第三预设值小于等于1。
6.根据权利要求1所述的语音信号处理装置,其中所述处理单元还计算所述目标音框的过零率,当所述目标音框的前一音框所对应的原始语音取样信号不为子音信号时,所述处理单元依据所述目标音框的过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及所述目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的第三比值判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中若所述目标音框的过零率大于预设过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于第一预设能量且所述第三比值大于第一预设值,所述目标音框所对应的原始语音取样信号为子音信号。
7.根据权利要求6所述的语音信号处理装置,其中当所述目标音框的前一音框所对应的原始语音取样信号不为子音信号时,所述处理单元还依据所述第一比值判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中若所述目标音框的过零率大于所述预设过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于所述预设能量、所述第三比值大于第二预设值且所述第一比值大于第三预设值,所述目标音框所对应的原始语音取样信号为子音信号,其中所述第一预设值大于所述第二预设值。
8.根据权利要求1所述的语音信号处理装置,其中所述第二频段高于所述第一频段。
9.一种语音信号处理方法,包括:
对语音信号进行第一频段以及第二频段的带通滤波,以分别产生第一带通滤波信号以及第二带通滤波信号,其中所述第一频段以及所述第二频段至少其中之一为子音频段;
将所述语音信号、所述第一带通滤波信号以及所述第二带通滤波信号分割为多个音框;
计算所述多个音框中取样信号的能量,以获得对应所述多个音框的原始语音取样信号能量、第一频段信号能量以及第二频段信号能量;以及
依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整所述目标音框的子音信号判断条件,其中所述目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的所述目标音框的子音信号判断条件较所述目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的所述目标音框的子音信号判断条件宽松,其中当所述目标音框的前一音框所对应的原始语音取样信号为子音信号时,依据所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和与所述目标音框所对应的原始语音取样信号能量之间的第一比值,以及所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和与所述目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值判断所述目标音框所对应的原始语音取样信号是否为子音信号。
10.根据权利要求9所述的语音信号处理方法,还包括:
计算所述目标音框的过零率;
判断所述目标音框的前一音框所对应的原始语音取样信号是否为子音信号;以及
若所述目标音框的前一音框所对应的原始语音取样信号为子音信号,还依据所述目标音框的过零率判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中当所述目标音框的过零率大于预设过零率、所述第一比值大于第一预设值且所述第二比值大于第二预设值时,所述目标音框所对应的原始语音取样信号为子音信号。
11.根据权利要求10所述的语音信号处理方法,其中当所述目标音框的过零率大于所述预设过零率且所述第一比值大于第三预设值时,所述目标音框所对应的原始语音取样信号为子音信号,其中所述第三预设值大于所述第一预设值。
12.根据权利要求9所述的语音信号处理方法,还包括:
判断所述目标音框的前两个音框所对应的原始语音取样信号是否皆为子音信号;以及
若所述目标音框的前两个音框所对应的原始语音取样信号皆为子音信号,还依据所述目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和与所述目标音框的前一音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第三比值判断所述目标音框所对应的原始语音取样信号是否为子音信号。
13.根据权利要求12所述的语音信号处理方法,还包括:
计算所述目标音框的过零率;
判断所述目标音框的前两个音框所对应的原始语音取样信号是否皆为子音信号;以及
若所述目标音框的前两个音框所对应的原始语音取样信号皆为子音信号,还依据所述目标音框的过零率判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中当所述目标音框的过零率大于预设过零率、所述第一比值大于第一预设值、所述第二比值小于第二预设值且所述第三比值小于第三预设值时,所述目标音框所对应的原始语音取样信号为子音信号,其中所述第二预设值与所述第三预设值小于等于1。
14.根据权利要求9所述的语音信号处理方法,还包括:
计算所述目标音框的过零率;
判断所述目标音框的前一音框所对应的原始语音取样信号是否为子音信号;以及
若所述目标音框的前一音框所对应的原始语音取样信号不为子音信号,依据所述目标音框的过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及所述目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的第三比值判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中若所述目标音框的过零率大于预设过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量且所述第三比值大于第一预设值,所述目标音框所对应的原始语音取样信号为子音信号。
15.根据权利要求14所述的语音信号处理方法,其中若所述目标音框的前一音框所对应的原始语音取样信号不为子音信号,所述语音信号处理方法还包括:
依据所述目标音框的过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及所述第一比值判断所述目标音框所对应的原始语音取样信号是否为子音信号,其中若所述目标音框的过零率大于所述预设过零率、所述目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于所述预设能量、所述第三比值大于第二预设值且所述第一比值大于第三预设值,所述目标音框所对应的原始语音取样信号为子音信号,其中所述第一预设值大于所述第二预设值。
16.根据权利要求9所述的语音信号处理方法,其中所述第二频段高于所述第一频段。
CN201710092232.8A 2017-02-21 2017-02-21 语音信号处理装置及语音信号处理方法 Active CN108461090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710092232.8A CN108461090B (zh) 2017-02-21 2017-02-21 语音信号处理装置及语音信号处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710092232.8A CN108461090B (zh) 2017-02-21 2017-02-21 语音信号处理装置及语音信号处理方法

Publications (2)

Publication Number Publication Date
CN108461090A true CN108461090A (zh) 2018-08-28
CN108461090B CN108461090B (zh) 2021-07-06

Family

ID=63222068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710092232.8A Active CN108461090B (zh) 2017-02-21 2017-02-21 语音信号处理装置及语音信号处理方法

Country Status (1)

Country Link
CN (1) CN108461090B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1189664A (zh) * 1997-01-29 1998-08-05 合泰半导体股份有限公司 语音编码的子音识别方法
US20050049856A1 (en) * 1999-08-17 2005-03-03 Baraff David R. Method and means for creating prosody in speech regeneration for laryngectomees
JP2007256303A (ja) * 2006-03-20 2007-10-04 Renesas Technology Corp 音声圧縮方式
CN101256776A (zh) * 2007-02-26 2008-09-03 财团法人工业技术研究院 语音信号处理方法
CN103886865A (zh) * 2012-12-20 2014-06-25 索尼公司 声音处理装置、声音处理方法和程序
CN104244155A (zh) * 2013-06-07 2014-12-24 杨国屏 处理声音段的方法及助听器
TW201627985A (zh) * 2015-01-26 2016-08-01 宏碁股份有限公司 語音辨識裝置及語音辨識方法
CN105989834A (zh) * 2015-02-05 2016-10-05 宏碁股份有限公司 语音辨识装置及语音辨识方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1189664A (zh) * 1997-01-29 1998-08-05 合泰半导体股份有限公司 语音编码的子音识别方法
US20050049856A1 (en) * 1999-08-17 2005-03-03 Baraff David R. Method and means for creating prosody in speech regeneration for laryngectomees
JP2007256303A (ja) * 2006-03-20 2007-10-04 Renesas Technology Corp 音声圧縮方式
CN101256776A (zh) * 2007-02-26 2008-09-03 财团法人工业技术研究院 语音信号处理方法
CN103886865A (zh) * 2012-12-20 2014-06-25 索尼公司 声音处理装置、声音处理方法和程序
CN104244155A (zh) * 2013-06-07 2014-12-24 杨国屏 处理声音段的方法及助听器
TW201627985A (zh) * 2015-01-26 2016-08-01 宏碁股份有限公司 語音辨識裝置及語音辨識方法
CN105989834A (zh) * 2015-02-05 2016-10-05 宏碁股份有限公司 语音辨识装置及语音辨识方法

Also Published As

Publication number Publication date
CN108461090B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN103578468B (zh) 一种语音识别中置信度阈值的调整方法及电子设备
EP3444819B1 (en) Voice signal cascade processing method and terminal, and computer readable storage medium
EP2649812B1 (en) Hearing aid and a method of enhancing speech reproduction
CN104780259B (zh) 通话语音质量自动调节系统与方法
EP3048779B1 (en) Sound volume adjusting method and device
KR101068227B1 (ko) 명료도 향상장치와 이를 이용한 음성출력장치
US20080228473A1 (en) Method and apparatus for adjusting hearing intelligibility in mobile phones
US9119007B2 (en) Method of and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener
CN103813251B (zh) 一种可调节去噪程度的助听器去噪装置和方法
KR20080080893A (ko) 음성신호의 대역폭 확장 제어 방법 및 장치
US9589577B2 (en) Speech recognition apparatus and speech recognition method
CN106409309A (zh) 一种音质增强的方法和麦克风
CN111883135A (zh) 语音转写方法、装置和电子设备
CN111429930B (zh) 一种基于自适应采样率的降噪模型处理方法及系统
CN105989834B (zh) 语音辨识装置及语音辨识方法
CN103035252B (zh) 中文语音信号处理方法、装置及助听设备
EP2690891A1 (en) Visual speech mapping
US9185497B2 (en) Method and computer program product of processing sound segment and hearing aid
TW201627989A (zh) 語音辨識裝置及語音辨識方法
CN108461090A (zh) 语音信号处理装置及语音信号处理方法
JPH0968997A (ja) 音声処理方法及び装置
CN105989835B (zh) 语音辨识装置及语音辨识方法
CN106887226A (zh) 一种基于人工智能识别的语音识别算法
US11490198B1 (en) Single-microphone wind detection for audio device
JPH08179792A (ja) 音声処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant