CN105931651B - 助听设备中的语音信号处理方法、装置及助听设备 - Google Patents

助听设备中的语音信号处理方法、装置及助听设备 Download PDF

Info

Publication number
CN105931651B
CN105931651B CN201610226897.9A CN201610226897A CN105931651B CN 105931651 B CN105931651 B CN 105931651B CN 201610226897 A CN201610226897 A CN 201610226897A CN 105931651 B CN105931651 B CN 105931651B
Authority
CN
China
Prior art keywords
frequency
voice signal
fundamental frequency
hearing
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610226897.9A
Other languages
English (en)
Other versions
CN105931651A (zh
Inventor
陈霏
朱淑丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern University of Science and Technology
Original Assignee
Southern University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern University of Science and Technology filed Critical Southern University of Science and Technology
Priority to CN201610226897.9A priority Critical patent/CN105931651B/zh
Publication of CN105931651A publication Critical patent/CN105931651A/zh
Application granted granted Critical
Publication of CN105931651B publication Critical patent/CN105931651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种助听设备中的语音信号处理方法、装置及助听设备。该方法包括:接收语音信号;根据所述语音信号,提取所述语音信号的说话者的基频;根据所述基频,设置非线性压缩的拐点频率;根据所述拐点频率,对所述语音信号进行非线性压缩处理。本发明通过根据接收到的语音信号的说话者的基频来设置非线性压缩的拐点频率,可以最大限度传递未失真的基频轨迹信息,提高了语音信号中高频语音信息非线性压缩的准确度,有助于提升听障病人的言语识别能力。

Description

助听设备中的语音信号处理方法、装置及助听设备
技术领域
本发明实施例涉及助听设备技术,尤其涉及一种助听设备中的语音信号处理方法、装置及助听设备。
背景技术
目前全国有2000多万听障人群,佩戴助听设备能帮助他们提升言语可懂度。助听设备中包括语音信号处理器,语音信号处理器的工作原理是接收语音信号、通过芯片放大语音信号然后再输出放大后的语音信号。
但是,针对重度听力损失,尤其是高频存在耳蜗死区的听障患者,传统的助听设备并不能满足他们的需求。因此,频率压缩式助听装置应运而生。频率压缩式助听装置是一种新型的充分运用听障病人残余听力的助听设备,其将高频语音信息压缩到听障病人的低频残余听力区间来实现言语识别。现有的频率压缩式助听技术是确定固定的拐点频率(cut-off frequency),然后将高于拐点频率的信号通过压缩转移到拐点频率与带宽限制之间,即压缩转移到可听范围。
上述固定的拐点频率如果过低,就会严重影响汉语声调识别,但是拐点频率过高会导致该项频率压缩助听技术对听障人群没有多大帮助,因此,固定的拐点频率设置使得不能将高频语音信息准确的压缩到听障病人的残余听力区间,有碍于提升听障病人的言语识别能力。
发明内容
有鉴于此,本发明实施例提供一种助听设备中的语音信号处理方法、装置及助听设备,以提高高频语音信息非线性压缩的准确度,提升听障病人的言语识别能力。
第一方面,本发明实施例提供了一种助听设备中的语音信号处理方法,所述方法包括:
接收语音信号;
根据所述语音信号,提取所述语音信号的说话者的基频;
根据所述基频,设置非线性压缩的拐点频率;
根据所述拐点频率,对所述语音信号进行非线性压缩处理。
第二方面,本发明实施例还提供了一种助听设备中的语音信号处理装置,所述装置包括:
语音接收模块,用于接收语音信号;
基频提取模块,用于根据所述语音信号,提取所述语音信号的说话者的基频;
拐点频率设置模块,用于根据所述基频,设置非线性压缩的拐点频率;
压缩处理模块,用于根据所述拐点频率,对所述语音信号进行非线性压缩处理。
第三方面,本发明实施例还提供了一种助听设备,包括语音信号处理器,所述语音信号处理器包括本发明任一实施例所述的助听设备中的语音信号处理装置。
本实施例的技术方案,通过根据接收到的语音信号的说话者的基频来设置非线性压缩的拐点频率,可以最大限度传递未失真的基频轨迹信息,提高了语音信号中高频语音信息非线性压缩的准确度,有助于提升听障病人的言语识别能力。
附图说明
图1是本发明实施例一提供的一种助听设备中的语音信号处理方法的流程图;
图2是本发明实施例二提供的一种助听设备中的语音信号处理方法的流程图;
图3是本发明实施例三提供的一种助听设备中的语音信号处理方法的流程图;
图4是本发明实施例四提供的一种助听设备中的语音信号处理装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
图1是本发明实施例一提供的一种助听设备中的语音信号处理方法的流程图,本实施例可适用于对助听设备接收到的语音信号进行处理的情况,该方法可以由助听设备中的语音信号处理装置来执行,该装置可以由软件和/硬件来实现,该装置配置在助听设备中,该方法具体包括如下步骤:
步骤110,接收语音信号。
通过助听设备的语音接收装置(如麦克风)接收语音信号。
步骤120,根据所述语音信号,提取所述语音信号的说话者的基频。
人在发音时,根据声带是否震动可以将语音信号分为清音和浊音两种。浊音又称有声语言,携带着语言中大部分的能量,浊音在时域上呈现出明显的周期性;而清音类似于白噪声,没有明显的周期性。发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串。这种声带振动的频率称为基音频率,简称基频,相应的周期就称为基音周期,基音周期性的变化称为声调。
通常,基频与个人声带的长短、薄厚、韧性、劲度和发音习惯等有关系,在很大程度上反应了个人的特征。此外,基频还跟随着人的性别、年龄不同而有所不同。一般来说,男性说话者的基频较低,而女性说话者和小孩的基频相对较高。
提取所述语音信号的说话者的基频可以先估计说话者的基音周期,根据基音周期得到基频,基音检测的方法大致上可以分为三类:
时域估计法,直接由语音波形来估计基音周期,常见的有:自相关法、并行处理法、平均幅度差法、数据减少法等;
变换法,是一种将语音信号变换到频域或者时域来估计基音周期的方法,首先利用同态分析方法将声道的影响消除,得到属于激励部分的信息,然后求取基音周期;
混合法,先提取信号声道模型参数,然后利用它对语音信号进行滤波,得到音源序列,最后再利用自相关法或者平均幅度差法求得基音周期。
步骤130,根据所述基频,设置非线性压缩的拐点频率。
非线性压缩算法中的拐点频率设置会影响语音识别,将影响与汉语言语识别相关的基频轨迹信息。基频作用于汉语言语的声调识别,如果拐点频率低于基频,则会影响汉语声调识别,如果拐点频率高于基频,则经过频率压缩对听障病人也没有帮助。因此,根据基频设置非线性压缩的拐点频率,将有助于提升听障病人的言语识别能力。
可以将基频的设定范围内的一个频率设置为非线性压缩的拐点频率,其中,所述设定范围较小,所述设定范围的两个端值与基频的差值小于设定值。
其中,根据所述基频,设置非线性压缩的拐点频率优选包括:
将所述基频设置为非线性压缩的拐点频率。
通过将所述基频设置为非线性压缩的拐点频率,可以进一步提高非线性压缩的准确度。
步骤140,根据所述拐点频率,对所述语音信号进行非线性压缩处理。
设置了拐点频率后,将所述拐点频率作为非线性压缩的起点,对所述语音信号中高于所述拐点频率的高频语音信息进行非线性压缩处理,将所述语音信号中高于所述拐点频率的高频语音信息压缩转移到听障病人的残余听力区间内。
其中,进行非线性压缩处理时采用非线性压缩算法。
本实施例的技术方案,通过接收到语音信号后,提取所述语音信号的说话者的基频,根据所述基频设置非线性压缩的拐点频率,对所述语音信号进行非线性压缩处理。由于通过根据接收到的语音信号的说话者的基频来设置非线性压缩的拐点频率,可以提高汉语声调识别率,最大限度传递未失真的基频轨迹信息,提高了语音信号中高频语音信息非线性压缩的准确度,即可以将高频语音信息准确的压缩到听障病人的残余听力区间内,有助于提升听障病人的言语识别能力。
在上述技术方案的基础上,根据所述语音信号,提取所述语音信号的说话者的基频优选包括:
利用自相关法或者倒谱法对所述语音信号进行分析,提取所述语音信号的说话者的基频。
利用自相关法提取说话者的基频时,利用所述语音信号的语音波形的自相关函数来提取基频,采用中心削波平坦处理自相关函数的频谱,并采用峰值削波来简化运算。倒谱法是求取所述语音信号的对数功率谱,对所述对数功率谱作傅里叶反变换,然后分离频谱包络和微细结构,提取到说话者的基频。通过自相关法或者倒谱法提取的基频比较准确,可以进一步提高非线性压缩的准确度。
实施例二
图2是本发明实施例二提供的一种助听设备中的语音信号处理方法的流程图,本实施例在实施例一的基础上进行了优化,该方法具体包括如下步骤:
步骤210,接收语音信号。
步骤220,根据所述语音信号,提取所述语音信号的说话者的基频。
步骤230,根据所述基频,设置非线性压缩的拐点频率。
步骤240,根据所述拐点频率,对所述语音信号进行非线性压缩处理。
步骤250,输出处理后的语音信号。
通过输出处理后的语音信号,使得听障病人能够听到所述语音信号中的言语信息。
本实施例的技术方案,通过接收到语音信号后,提取所述语音信号的说话者的基频,根据所述基频设置非线性压缩的拐点频率,对所述语音信号进行非线性压缩处理,输出处理后的语音信号。由于通过根据接收到的语音信号的说话者的基频来设置非线性压缩的拐点频率,提高了高频语音信息非线性压缩的准确度,有助于提升听障病人的言语识别能力,从而更好地提升听障病人的汉语言语可懂度。
实施例三
图3是本发明实施例三提供的一种助听设备中的语音信号处理方法的流程图,本实施例是在上述实施例的基础上的一个优选实例,该方法具体包括如下步骤:
步骤310,通过助听设备的麦克风接收语音信号。
步骤320,根据所述语音信号,通过所述助听设备的语音信号处理器提取所述语音信号的说话者的基频。
步骤330,将所述基频设置为非线性压缩的拐点频率。
步骤340,根据所述拐点频率,通过所述助听设备的语音信号处理器对所述语音信号进行非线性压缩处理。
步骤350,输出处理后的语音信号。
步骤360,通过所述助听设备的语音信号处理器探测到基频发生变动;
接收新的语音信号,提取新的语音信号的说话者的基频,当新的语音信号的说话者的基频和之前的语音信号的说话者的基频不同时,所述助听设备的语音信号处理器可以探测到基频发生了变动。
步骤370,将变动后的基频设置为非线性压缩的拐点频率,之后顺序执行步骤340-步骤370。
本实施例的技术方案,通过对接收到的语音信号提取说话者的基频,将所述基频设置为非线性压缩的拐点频率,对所述语音信号进行非线性压缩处理,当提取到的基频发生变动时,将变动后的基频设置为非线性压缩的拐点频率,即根据实时提取的基频变动非线性压缩的拐点频率,可以提高非线性压缩的准确度,有助于提升听障病人的言语识别率。
实施例四
图4是本发明实施例四提供的一种助听设备中的语音信号处理装置的结构示意图,如图4所示,本实施例所述的助听设备中的语音信号处理装置包括:语音接收模块410、基频提取模块420、拐点频率设置模块430和压缩处理模块440。
其中,语音接收模块410用于接收语音信号;
基频提取模块420用于根据所述语音信号,提取所述语音信号的说话者的基频;
拐点频率设置模块430用于根据所述基频,设置非线性压缩的拐点频率;
压缩处理模块440用于根据所述拐点频率,对所述语音信号进行非线性压缩处理。
优选的,所述拐点频率设置模块具体用于:
将所述基频设置为非线性压缩的拐点频率。
优选的,还包括:
语音输出模块,用于在对所述语音信号进行非线性压缩之后,输出处理后的语音信号。
优选的,所述基频提取模块具体用于:
利用自相关法或者倒谱法对所述语音信号进行分析,提取所述语音信号的说话者的基频。
本发明实施例还提供了一种助听设备,包括语音信号处理器,所述语音信号处理器包括本发明任一实施例所述的助听设备中的语音信号处理装置。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (7)

1.一种助听设备中的语音信号处理方法,其特征在于,所述方法包括:
接收语音信号;
根据所述语音信号,提取所述语音信号的说话者的基频;
根据所述基频,设置非线性压缩的拐点频率;
根据所述拐点频率,对所述语音信号进行非线性压缩处理;
其中,根据所述基频,设置非线性压缩的拐点频率,包括:
将基频的设定范围内的一个频率设置为非线性压缩的拐点频率,其中,所述设定范围的两个端值与基频的差值小于设定值;或者,
将所述基频设置为非线性压缩的拐点频率。
2.根据权利要求1所述的方法,其特征在于,在对所述语音信号进行非线性压缩之后,还包括:
输出处理后的语音信号。
3.根据权利要求1-2任一所述的方法,其特征在于,根据所述语音信号,提取所述语音信号的说话者的基频包括:
利用自相关法或者倒谱法对所述语音信号进行分析,提取所述语音信号的说话者的基频。
4.一种助听设备中的语音信号处理装置,其特征在于,所述装置包括:
语音接收模块,用于接收语音信号;
基频提取模块,用于根据所述语音信号,提取所述语音信号的说话者的基频;
拐点频率设置模块,用于根据所述基频,设置非线性压缩的拐点频率;
压缩处理模块,用于根据所述拐点频率,对所述语音信号进行非线性压缩处理;
其中,拐点频率设置模块具体用于:
将基频的设定范围内的一个频率设置为非线性压缩的拐点频率,其中,所述设定范围的两个端值与基频的差值小于设定值;或者,
将所述基频设置为非线性压缩的拐点频率。
5.根据权利要求4所述的装置,其特征在于,还包括:
语音输出模块,用于在对所述语音信号进行非线性压缩之后,输出处理后的语音信号。
6.根据权利要求4-5任一所述的装置,其特征在于,所述基频提取模块具体用于:
利用自相关法或者倒谱法对所述语音信号进行分析,提取所述语音信号的说话者的基频。
7.一种助听设备,包括语音信号处理器,其特征在于,所述语音信号处理器包括权利要求4-6任一所述的助听设备中的语音信号处理装置。
CN201610226897.9A 2016-04-13 2016-04-13 助听设备中的语音信号处理方法、装置及助听设备 Active CN105931651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610226897.9A CN105931651B (zh) 2016-04-13 2016-04-13 助听设备中的语音信号处理方法、装置及助听设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610226897.9A CN105931651B (zh) 2016-04-13 2016-04-13 助听设备中的语音信号处理方法、装置及助听设备

Publications (2)

Publication Number Publication Date
CN105931651A CN105931651A (zh) 2016-09-07
CN105931651B true CN105931651B (zh) 2019-09-24

Family

ID=56838758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610226897.9A Active CN105931651B (zh) 2016-04-13 2016-04-13 助听设备中的语音信号处理方法、装置及助听设备

Country Status (1)

Country Link
CN (1) CN105931651B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108156307B (zh) * 2016-12-02 2020-09-08 塞舌尔商元鼎音讯股份有限公司 语音处理的方法以及语音通讯装置
CN111741408A (zh) * 2020-06-12 2020-10-02 瑞声科技(新加坡)有限公司 一种扬声器的非线性补偿方法、系统、设备和存储介质
CN111741409A (zh) * 2020-06-12 2020-10-02 瑞声科技(新加坡)有限公司 扬声器的非线性补偿方法、扬声器设备、装置和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1702736A (zh) * 2001-08-31 2005-11-30 株式会社建伍 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
CN1870134A (zh) * 2005-05-24 2006-11-29 北京大学科技开发部 针对老年性聋的数字助听器语音时长拉伸方法
CN1868427A (zh) * 2005-05-24 2006-11-29 北京大学科技开发部 适合汉语语音编码策略的人工耳蜗方法
CN101164104A (zh) * 2005-04-20 2008-04-16 Qnx软件操作系统(威美科)有限公司 用于改善语音质量和可懂度的系统
JP5224586B2 (ja) * 2008-06-06 2013-07-03 株式会社ディーアンドエムホールディングス オーディオ信号補間装置
CN104780091A (zh) * 2014-01-13 2015-07-15 北京发现角科技有限公司 一种具有语音音频处理功能的即时通信方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9173041B2 (en) * 2012-05-31 2015-10-27 Purdue Research Foundation Enhancing perception of frequency-lowered speech

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1702736A (zh) * 2001-08-31 2005-11-30 株式会社建伍 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
CN101164104A (zh) * 2005-04-20 2008-04-16 Qnx软件操作系统(威美科)有限公司 用于改善语音质量和可懂度的系统
CN1870134A (zh) * 2005-05-24 2006-11-29 北京大学科技开发部 针对老年性聋的数字助听器语音时长拉伸方法
CN1868427A (zh) * 2005-05-24 2006-11-29 北京大学科技开发部 适合汉语语音编码策略的人工耳蜗方法
JP5224586B2 (ja) * 2008-06-06 2013-07-03 株式会社ディーアンドエムホールディングス オーディオ信号補間装置
CN104780091A (zh) * 2014-01-13 2015-07-15 北京发现角科技有限公司 一种具有语音音频处理功能的即时通信方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数字助听器若干关键算法研究现状综述;赵力 等;《数据采集与处理》;20151231;第30卷(第2期);第252-265页 *

Also Published As

Publication number Publication date
CN105931651A (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN110610719B (zh) 声音处理设备
US8504360B2 (en) Automatic sound recognition based on binary time frequency units
CN102054480B (zh) 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
US20170154640A1 (en) Method and electronic device for voice recognition based on dynamic voice model selection
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
KR101414233B1 (ko) 음성 신호의 명료도를 향상시키는 장치 및 방법
Adiga et al. Gammatone wavelet cepstral coefficients for robust speech recognition
Mittal et al. Study of characteristics of aperiodicity in Noh voices
CN105931651B (zh) 助听设备中的语音信号处理方法、装置及助听设备
Mongia et al. Estimation and statistical analysis of human voice parameters to investigate the influence of psychological stress and to determine the vocal tract transfer function of an individual
McLoughlin et al. Reconstruction of continuous voiced speech from whispers.
Jhawar et al. Speech disorder recognition using MFCC
Deb et al. A novel breathiness feature for analysis and classification of speech under stress
Shah et al. Novel MMSE DiscoGAN for cross-domain whisper-to-speech conversion
WO2016078439A1 (zh) 一种语音处理的方法及装置
Usman On the performance degradation of speaker recognition system due to variation in speech characteristics caused by physiological changes
CN103035252A (zh) 中文语音信号处理方法、装置及助听设备
CN101281747A (zh) 基于声道参数的汉语耳语音声调识别方法
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
CN103035237B (zh) 一种中文语音信号处理方法、装置和助听设备
JP2002507776A (ja) 音声信号の過渡現象を解析するための信号処理方法
CN108172234A (zh) 一种基于svm的音频噪声检测方法
VH et al. A study on speech recognition technology
CN102222507B (zh) 一种适用于汉语语言的听力损失补偿方法及设备
van Hengel et al. A comparison of spectro-temporal representations of audio signals

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant