CN110383798B - 声学信号处理装置、声学信号处理方法和免提通话装置 - Google Patents

声学信号处理装置、声学信号处理方法和免提通话装置 Download PDF

Info

Publication number
CN110383798B
CN110383798B CN201780087899.7A CN201780087899A CN110383798B CN 110383798 B CN110383798 B CN 110383798B CN 201780087899 A CN201780087899 A CN 201780087899A CN 110383798 B CN110383798 B CN 110383798B
Authority
CN
China
Prior art keywords
acoustic signal
acoustic
speech
signal
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780087899.7A
Other languages
English (en)
Other versions
CN110383798A (zh
Inventor
古田训
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN110383798A publication Critical patent/CN110383798A/zh
Application granted granted Critical
Publication of CN110383798B publication Critical patent/CN110383798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M19/00Current supply arrangements for telephone systems
    • H04M19/02Current supply arrangements for telephone systems providing ringing current or supervisory tones, e.g. dialling tone or busy tone
    • H04M19/04Current supply arrangements for telephone systems providing ringing current or supervisory tones, e.g. dialling tone or busy tone the ringing-current being generated at the substations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/002Applications of echo suppressors or cancellers in telephonic connections
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • H04M1/6075Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

具有:声学信号分析部(30),其根据远端侧的受话信号对该受话信号的声学特征进行分析,生成适当的控制信号;回声消除器(40a),其消除混入输入声学信号的声学回声;噪声消除器(40b),其消除混入输入声学信号的噪音;以及语音强调部(40c),其对输入声学信号中包含的语音特征进行强调,因此,与移动电话或通信网的类别无关,能够维持通话品质,能够进行高品质的免提语音通话和高精度的语音识别。

Description

声学信号处理装置、声学信号处理方法和免提通话装置
技术领域
本发明涉及在经由通信网进行相互语音通话的语音通信系统中实现舒适的相互语音通话和高精度的语音识别的声学信号处理装置、声学信号处理方法和免提通话装置。
背景技术
伴随着近年来的数字信号处理技术的发展,汽车内的免提语音通话和基于语音识别的免提操作广泛普及。关于这种汽车内的免提功能,通过麦克风拾取汽车内的人讲话的语音(送话语音),在语音通话的情况下,经由移动电话或通信网发送到通话对方,在语音识别的情况下,将所拾取的语音发送到语音识别用的计算机。此外,同样将通话对方讲出的语音或计算机输出的语音(将它们称为受话语音)经由移动电话或通信网从扬声器输出到车室内。
多数情况下,在车辆的行驶噪音或由扬声器等产生的声学信号(声学回声)较多地绕入麦克风中这样的高水平的声学回声环境且高噪音环境中进行这些通话和操作,因此,与讲话者发出的语音信号一起,背景噪音、声学回声等不需要的信号也输入到麦克风,导致通话语音的劣化和语音识别率的降低等。因此,以往,在这种免提通话装置中,具有消除声学回声的回声消除器、以及抑制车辆的行驶噪音等噪声的噪声消除器。
但是,在上述现有的免提通话装置中,对回声消除器和噪声消除器进行控制的参数的值被设定为在该装置的设计时进行调整以成为适当动作的规定的值,因此,根据与免提通话装置连接的移动电话的种类或要利用的通信网的种类的不同,存在移动电话机内部的语音数据的压缩中使用的语音编码方式的差异或通信网的传输信号电平的差异,因此有时无法充分发挥回声消除器和噪声消除器的性能,在送话语音中残留有声学回声或噪声,或者由于过度抑制送话语音而在通话语音中产生隐藏感,有时无法维持设计时等假设的规定的通话音质。
因此,为了实现舒适的语音通话和高精度的语音识别,需要如下的声学信号处理装置:能够吸收由于与免提通话装置连接的移动电话的种类或要利用的通信网的种类的不同而带来的语音编码方式和通信网等的差异,对送话语音进行校正。
以往,作为上述对送话语音进行校正的方法,例如,存在使用所连接的移动电话的类别或电话号码等的方法(例如参照专利文献1和专利文献2)。在这些现有方法中,根据规定的电话号码的信息和所连接的移动电话的信息对送话信号的声学处理的内容进行变更,由此维持送话语音的品质。
现有技术文献
专利文献
专利文献1:日本特开2000-165488号公报(例如段落0063~0067)
专利文献2:日本特开2001-268212号公报(例如段落0021~0046)
发明内容
发明要解决的课题
但是,在无法取得对方电话号码的非通知通话的情况下、或将来出现采用新的语音编码方式的移动电话的情况下等,未提供电话号码等识别ID,因此,在上述专利文献1和专利文献2所记载的这种现有方法中,无法顺利地进行判别,无法正确地进行声学信号处理,其结果,存在送话音质劣化、语音识别精度降低的课题。
本发明是为了解决上述课题而完成的,其目的在于,提供在未提供电话号码等识别ID的状况下也能够维持通话语音的品质的声学信号处理装置、声学信号处理方法和免提通话装置。
用于解决课题的手段
本发明的一个方式的声学信号处理装置的特征在于,所述声学信号处理装置具有:声学信号分析部,其对从远端侧输入的受话语音的第1声学信号的声学特征进行分析,根据所述分析的结果生成用于对从近端侧输入的送话语音的第2声学信号进行校正的控制信号;以及声学信号校正部,其根据所述控制信号进行所述第2声学信号的校正。
本发明的另一个方式的声学信号处理方法的特征在于,所述声学信号处理方法具有以下步骤:声学信号分析步骤,对从远端侧输入的受话语音的第1声学信号的声学特征进行分析,根据所述分析的结果生成用于对从近端侧输入的送话语音的第2声学信号进行校正的控制信号;以及声学信号校正步骤,根据所述控制信号进行所述第2声学信号的校正。
本发明的另一个方式的免提通话装置的特征在于,所述免提通话装置具有:上述声学信号处理装置;模拟数字转换部,其对所述第2声学信号进行模拟数字转换,生成数字信号;以及数字模拟转换部,其对所述第1声学信号进行数字模拟转换,生成模拟信号。
发明效果
根据本发明,在未提供电话号码等识别ID的状况下,也能够维持通话品质,能够进行高品质的免提语音通话和高精度的语音识别。
附图说明
图1是示出本发明的实施方式1的免提通话装置的概略结构的图。
图2是示出实施方式1中的声学信号分析部的概略结构的图。
图3是示出实施方式1的免提通话装置的硬件结构的一例的框图。
图4是示出实施方式1的免提通话装置的硬件结构的另一例的框图。
图5是示出实施方式1的免提通话装置的动作的一部分的流程图。
图6是示出本发明的实施方式2的声学信号处理装置的概略结构的图。
具体实施方式
下面,为了更加详细地说明本发明,按照附图对用于实施本发明的方式进行说明。在以下的说明中,将直接对实施方式的免提通话装置进行语音送话的人称为近端侧讲话者,将近端侧讲话者的通话对方即经由通信网对实施方式的免提通话装置进行语音送话的人称为远端侧讲话者。此外,以下说明的声学信号处理装置是能够实现免提通话装置的功能中的声学信号处理的装置。声学信号处理装置是能够实现声学信号处理方法的装置。
《1》实施方式1
《1-1》结构
图1是示出本发明的实施方式1的免提通话装置100的概略结构的图。免提通话装置100是在近端侧讲话者500与远端侧讲话者501之间进行语音通话的装置。如图1所示,免提通话装置100具有声学信号处理装置101、麦克风10、扬声器12、模拟数字转换部20、数字模拟转换部21。声学信号处理装置101具有声学信号分析部30、声学信号校正部40。声学信号校正部40具有回声消除器40a、噪声消除器40b、语音强调部40c。
如图1所示,免提通话装置100与移动电话机70连接。移动电话机70是近端侧讲话者500持有的移动电话机。如图1所示,移动电话机70经由通信网80而与移动电话机90连接。移动电话机90是远端侧讲话者501持有的移动电话机。
图1中的免提通话装置100示出免提通话装置100被嵌入汽车的汽车导航中的一例。另外,免提通话装置100不限于搭载于汽车的汽车导航中的例子,例如,也可以搭载于火车、飞机等其他交通工具。
图1中示出行驶中的汽车内的用户(近端侧讲话者500)与通话对方(远端侧讲话者501)进行相互语音通话的情况。在图1中,近端侧讲话者500在汽车内进行免提通话,远端侧讲话者501手持移动电话机进行通话。
另外,为了简化说明,在本说明书中限定为免提通话功能进行图示,省略汽车的汽车导航所具有的其他功能。这里,将近端侧讲话者500讲话的语音定义为送话语音,将远端侧讲话者501讲话的语音定义为受话语音。
关于该免提通话装置100的输入,除了通过麦克风10取入的近端侧讲话者500的送话语音以外,还有汽车行驶噪音等噪音、从扬声器12送出的远端侧讲话者501的受话语音、汽车导航送出的引导语音或汽车音响的音乐等绕入的声学回声等,将这些统称为输入声学信号。
此外,该免提通话装置100的另一个输入是从移动电话机70输出的远端侧讲话者501的受话语音。移动电话机70通过有线或无线LAN(Local Area Network)或Bluetooth(注册商标)等近距离无线方式与汽车导航连接,进行语音通信。
在图1的例子中,移动电话机70与免提通话装置100之间的语音通信通过数字信号进行处理,省略模拟数字转换。受话语音从远端侧讲话者501所具有的移动电话机90的麦克风11输入,通过通信网80发送到与免提通话装置100连接的移动电话机70。
下面,根据图1对实施方式1的免提通话装置100的结构及其动作原理进行说明。模拟数字转换部20对上述输入声学信号进行模拟数字转换,以规定的采样频率(例如8kHz)进行采样、并且将其转换为被分割成帧单位(例如20ms)的数字信号。转换为数字信号后的输入声学信号被输入到回声消除器40a。
声学信号分析部30对从远端侧讲话者501发出的作为受话语音的第1声学信号的受话信号的声学特征进行分析,根据该分析结果输出用于对作为送话语音的第2声学信号的输入声学信号进行校正的控制信号D3(图1中未示出,如图2所示)。控制信号D3(图1中未示出,如图2所示)是进行声学信号校正部40(回声消除器40a、噪声消除器40b和语音强调部40c)的控制的信号。声学信号分析部30的详细动作在后面叙述。
回声消除器(EC:Echo Canceller)40a接收被输入到免提通话装置100的受话信号和输入声学信号,进行混入输入声学信号中的声学回声的消除。能够使用归一化LMS(Normalized Least Mean Square)法等基于自适应滤波器的公知方法进行基于回声消除器40a的声学回声的消除。另外,受话信号用作自适应滤波器的滤波系数的学习用途。消除了声学回声后的输入声学信号被输入到噪声消除器40b。
噪声消除器(NC:Noise Canceller)40b进行混入输入声学信号中的噪音的消除。在基于噪声消除器40b的噪音的消除中,在使用FFT(高速傅里叶变换)等将输入声学信号转换为频域的谱后,除了谱减法以外,还能够应用最小均方误差(MMSE:Minimum Mean SquareError)估计法、最大后验概率(MAP:Maximum a Posteriori)估计法这种公知的基于功率谱控制的方法。此外,除了频域的方法以外,还能够使用威纳滤波器(Wiener Filter)法这种时域的方法。
语音强调部(SE:Speech Enhancement)40c是如下的处理部:针对输入声学信号中包含的语音,对希望强调特征来表现的部分进行强调处理。在本实施方式中的语音强调处理中,例如能够应用用于对语音谱的重要的峰值成分(谱振幅较大的成分)即所谓的共振峰进行强调的共振峰强调。
作为共振峰强调的方法,例如,根据汉宁窗口化的语音信号求出自相关系数,实施频带扩展处理后,通过莱文逊-德宾(Levinson-Durbin)法求出12次的线性预测系数,根据该线性预测系数求出共振峰强调系数。
然后,应用使用所得到的共振峰强调系数的ARMA(Auto Regressive MovingAverage:自回归移动平均)型合成滤波器,由此能够进行共振峰强调。作为共振峰强调的方法,不限于上述方法,能够使用其他公知的方法。
此外,在语音强调部40c中,除了上述的语音强调处理以外,例如还能够应用音调(pitch)强调等对语音的谐波构造进行强调的处理、对送话信号的频率特性进行变更的均衡处理等各种公知的语音强调处理,而且,还能够应用自适应地调整语音信号电平的AGC(Automatic Gain Control)。
将如上所述进行了语音强调处理后的送话语音输出到移动电话机70,移动电话机70将送话语音经由通信网80发送到通话对方即远端侧的移动电话机90,移动电话机90通过接收机13向远端侧讲话者501送出送话语音。
接着,参照图2对上述声学信号分析部30的动作例进行说明。如图2所示,声学信号分析部30由声学参数计算部31、声学参数分析部32、控制信号生成部33、模式辞典34、控制映射图35构成。如图2所示,对声学参数计算部31输入基于受话语音的受话信号。
声学参数计算部31对所输入的当前帧的受话信号进行窗口化处理后,例如计算通过倒谱(Cepstrum)分析而得到的N次的梅尔频率倒谱系数(MFCC:Mel Frequency CepstrumCoefficient),作为分析用声学参数D1输出到声学参数分析部32。这里,N为正整数。
另外,倒谱分析是公知方法,省略说明。作为MFCC的次数的优选一例,N=16,但是,能够根据受话信号的频率特性等适当变更。
声学参数分析部32参照作为第1存储部的模式辞典34,进行模式辞典34中的MFCC数据(第1参照数据)与所输入的分析用声学参数D1的核对,例如,将欧氏距离最近的结果作为与所得到的MFCC数据对应的参数分析结果D2输出到控制信号生成部33。
模式辞典34是将事前使用多样且大量的声学信号数据进行学习/聚类而得到的多个MFCC数据和学习时条件的识别编号对应起来的数据库。
控制信号生成部33参照作为第2存储部的控制映射图35的参照数据(第2参照数据),生成对回声消除器40a、噪声消除器40b和语音强调部40c分别进行控制的控制信号D3。控制信号生成部33例如在对受话语音进行分析的结果是估计为远端侧使用的移动电话机90是CDMA(Code Division Multiple Access)方式的情况下,从存在于控制映射图35中的多个控制模式中选择并输出CDMA方式的回声消除、噪声消除和语音强调的控制信号D3。
控制信号生成部33例如生成加强回声消除处理的回声抑制量和语音强调处理、另一方面减弱噪声消除处理的噪音抑制量的控制信号D3。具体而言,控制信号生成部33生成使回声消除器40a的残留回声抑制量的最大值从20dB加强为40dB、使作为语音强调处理之一的共振峰强调系数从0.2加强为0.4、另一方面使噪声消除器40b的噪音抑制量的最大值从12dB缓和为3dB的控制信号D3。
通过进行上述这种控制,抑制由于送话信号中包含的残留回声成分而使CDMA方式的语音编码不稳定,并且,较强地强调送话语音中的语音特征,由此,语音编码效率提高,能够进行高音质的通话。
作为上述以外的进一步的效果,在CDMA方式的语音编码算法中导入与免提通话装置100不同的噪声消除处理,但是,在现有方法中,免提通话装置100内的噪声消除处理和CDMA方式中的噪声消除处理进行双重处理,由此,引起过度的噪声消除,语音的隐藏感增加。与此相对,通过进行本实施方式的控制,控制成适当的噪声消除量,因此,语音的隐藏感消除,能够维持通话品质,能够进行高品质的语音通话。
进而,除了上述控制以外,例如,在推测为近端侧和远端侧的移动电话机70、90均是CDMA方式的情况下、或通信方式不明但是推测为在通信网内进行了噪声消除处理的情况下等,能够进行停止本免提通话装置100内的噪声消除处理的控制。
此外,在对受话语音进行分析的结果推测为语音的不连续感较多、即通信网中的传输错误较多的情况下,能够进行加强语音强调的控制。如这些处理那样,还能够根据受话信号对各种条件进行分类,对噪声消除处理和语音强调处理进行控制。
作为基于上述回声消除器40a、噪声消除器40b和语音强调部40c的处理的控制的一例,将回声消除器40a的残留回声抑制量的最大值从20dB加强为40dB,将作为语音强调处理之一的共振峰强调系数从0.2加强为0.4,另一方面,将噪声消除器40b的噪音抑制量的最大值从12dB缓和为3dB,但是不限于此,例如,也可以根据用于拾取输入声学信号的麦克风的频率特性或输入电平等适当变更。
另外,在上述实施方式的声学参数计算部31中,使用MFCC作为分析用声学参数,但是不限于此,例如,也可以一并使用通过FFT得到的功率谱或自相关系数等良好表现语音特征的参数。
另外,在上述实施方式的声学信号分析部30中的声学参数分析部32中,使用基于模式匹配的方法,但是不限于此,还能够代替声学参数分析部32和模式辞典34而使用基于机器学习的方法。
作为基于机器学习的方法,例如能够使用支持向量机(SVM:Support VectorMachine)、基于自适应增强(Ada boost)等的识别方法或神经网络。
作为基于神经网络的方法,例如可以使用使输出信号的一部分返回到输入的RNN(Recurrent Neural Network;递归神经网络)、对RNN的耦合元件的构造施加改良的LSTM(Long Short-Term Memory)-RNN等公知的神经网络的衍生改良型。
图3是示出实施方式1的免提通话装置100的硬件结构的一例的框图。实施方式1中的免提通话装置100的硬件结构能够通过DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)或FPGA(Field-Programmable GateArray)等LSI(Large Scale Integrated circuit)实现。
如图3所示,实施方式1的免提通话装置100的硬件例如由信号输入输出部202、信号处理电路203、记录介质204和总线等信号路径205构成。此外,如图3所示,免提通话装置100与声学换能器201和外部装置206连接。
信号输入输出部202是实现与声学换能器201和外部装置206连接的连接功能的接口电路。作为声学换能器201,例如能够使用捕捉麦克风等的声学振动并将其转换为电信号的装置、以及将扬声器等的电信号转换为声学振动的装置等。
图1所示的声学信号分析部30、回声消除器40a、噪声消除器40b、语音强调部40c的各功能能够通过信号处理电路203和记录介质204实现。此外,图1的模拟数字转换部20和数字模拟转换部21对应于信号输入输出部202。
记录介质204用于蓄积信号处理电路203的各种设定数据或信号数据等各种数据。作为记录介质204,例如能够使用SDRAM(Synchronous DRAM)等易失性存储器、HDD(硬盘驱动器)或SSD(固态驱动器)等非易失性存储器。
在记录介质204中能够预先存储回声消除器40a、噪声消除器40b和语音强调部40c的初始状态、以及各种设定数据、控制映射图数据、模式辞典数据等。
由信号处理电路203进行声学信号处理后的送话信号经由信号输入输出部202送出到外部装置206,但是,作为该外部装置206,与图1所示的免提通话装置100连接的移动电话机70相当于该外部装置206。此外,移动电话机70输出的受话信号经由信号输入输出部202输入到信号处理电路203。
图4是示出实施方式1的免提通话装置100的硬件结构的另一例的框图。如图4所示,实施方式1的免提通话装置100的硬件结构能够通过平板型的移动型计算机、汽车导航系统等设备嵌入用途的微计算机等CPU(Central Processing Unit)内置的计算机实现。
如图4所示,实施方式1的免提通话装置100的硬件例如由信号输入输出部301、内置CPU302的处理器300、存储器303、记录介质304和总线等信号路径305构成。
信号输入输出部301是实现与声学换能器201和外部装置206连接的连接功能的接口电路。存储器303是存储用于实现本实施方式的免提通话处理的各种程序的程序存储器,是处理器进行数据处理时使用的工作存储器,并且是作为展开信号数据的存储器等使用的ROM和RAM等存储单元。
图1所示的声学信号分析部30、回声消除器40a、噪声消除器40b、语音强调部40c的各功能能够通过处理器300、存储器303和记录介质304实现。此外,图1的模拟数字转换部20和数字模拟转换部21对应于信号输入输出部301。
记录介质304用于蓄积处理器300的各种设定数据或信号数据等各种数据。作为记录介质304,例如能够使用SDRAM等易失性存储器、HDD或SSD等非易失性存储器。
在记录介质304中能够蓄积包含OS(操作系统)的程序、各种设定数据、声学信号数据等各种数据。另外,在该记录介质304中还能够预先蓄积存储器303内的数据。
处理器300使用存储器303中的RAM作为作业用存储器,通过按照从存储器303中的ROM读出的计算机程序进行动作,能够执行与声学信号分析部30、回声消除器40a、噪声消除器40b、语音强调部40c相同的信号处理。
由处理器300进行声学信号处理后的送话信号经由信号输入输出部301送出到外部装置206,但是,作为该外部装置206,与图1所示的免提通话装置100连接的移动电话机70相当于该外部装置206。此外,移动电话机70输出的受话信号经由信号输入输出部301输入到处理器300。
本实施方式的免提通话装置100执行的程序可以存储在执行软件程序的计算机内部的存储装置中,也可以是通过CD-ROM等存储介质进行发布的形式。
此外,还能够通过LAN等无线和有线网络从其他计算机取得程序。进而,与本实施方式的免提通话装置100连接的声学换能器201或外部装置206也可以通过无线和有线网络发送接收各种数据。
《1-2》动作
接着,使用图5的流程图对免提通话装置100中的各部的动作进行说明。图5是示出实施方式的免提通话装置100的动作的一部分的流程图。如图5所示,模拟数字转换部20以规定的帧间隔取入输入声学信号(步骤ST1A),将其输出到回声消除器40a。
接着,在步骤ST1B中,通过回声消除器40a进行样本编号t与规定的值T的比较,在样本编号t小于规定的值T的情况下(步骤ST1B:是),返回步骤ST1A的处理,反复进行步骤ST1A的处理直到成为样本编号t=160为止。
在样本编号t为规定的值T以上的情况下(步骤ST1B:否),处理进入步骤ST2,声学信号分析部30取入从远端侧讲话者501发出的受话语音的受话信号(步骤ST2)。
接着,处理进入步骤ST3,声学信号分析部30对从远端侧讲话者501发出的受话语音的声学特征进行分析,根据该分析结果输出进行后述回声消除器40a、噪声消除器40b、和语音强调部40c各自的控制的控制信号(步骤ST3)。
接着,处理进入步骤ST4,回声消除器40a接收被输入到免提通话装置100的受话信号和输入声学信号,进行混入输入声学信号中的声学回声的消除处理(ST4)。
然后,处理进入步骤ST5,噪声消除器40b进行混入输入声学信号中的噪音的消除处理(步骤ST5)。
然后,处理进入步骤ST6,语音强调部40c针对输入声学信号中包含的语音,对良好表现其特征的部分进行强调处理(步骤ST6)。
接着,处理进入步骤ST7A,数字模拟转换部21进行将受话信号输出到免提通话装置外的处理(步骤ST7A),还一并输出送话信号。
接着,处理进入步骤ST7B,进行样本编号t与规定的值T之间的比较,在样本编号t小于规定的值T的情况下(步骤ST7B:是),处理返回步骤ST7A,反复进行步骤ST7A的处理直到成为样本编号t=160为止。
然后,处理进入步骤ST8,在继续进行免提通话处理的情况下(步骤ST8:是),处理返回步骤ST1A。另一方面,在不继续进行免提通话处理的情况下(步骤ST8:否),免提通话处理结束。
《1-3》效果
如以上说明的那样,根据实施方式1的免提通话装置100,具有:声学信号分析部30,其根据远端侧的受话信号对该受话信号的声学特征进行分析,生成适当的控制信号;回声消除器40a,其消除混入输入声学信号的声学回声;噪声消除器40b,其消除混入输入声学信号的噪音;以及语音强调部40c,其对输入声学信号中包含的语音特征进行强调。由此,在未提供电话号码等识别ID的状况下,也能够维持通话品质,能够进行高品质的语音通话。
具体而言,抑制由于送话信号中包含的残留回声成分而使CDMA方式的语音编码不稳定,并且,较强地强调送话语音中的语音特征,由此,语音编码效率提高,能够进行高音质的通话。
此外,在现有技术中的CDMA方式的语音编码算法中导入与免提通话装置不同的噪声消除处理,因此,免提通话装置内的噪声消除处理和CDMA方式中的噪声消除处理进行双重处理,由此,引起过度的噪声消除,语音的隐藏感增加。
与此相对,根据实施方式1的免提通话装置100,噪声消除处理不会成为双重处理,因此,控制成适当的噪声消除量,由此,语音的隐藏感消除,能够维持通话品质,能够进行高品质的语音通话。
《2》实施方式2
在实施方式1中,作为远端侧讲话者501,例示了远端侧是人的语音通话的情况,但是,在将远端侧置换为语音识别装置的情况下也能够应用本发明的结构,将其作为实施方式2进行说明。
图6示出本发明的实施方式2的声学信号处理装置101的概略结构。在图6中,与图1所示的实施方式1的装置不同之处在于,声学信号处理装置101经由通信网80而与固定电话机91和语音识别装置92连接。其他结构与实施方式1相同,因此,对对应的部分标注相同标号并省略其说明。
声学信号分析部30、回声消除器40a、噪声消除器40b和语音强调部40c分别进行与实施方式1中详细叙述的处理相同的处理,将送话语音通过移动电话机70和通信网80发送到固定电话机91。固定电话机91接收到的送话语音被发送到语音识别装置92。
语音识别装置92进行由固定电话机91接收到的送话语音的送话信号中包含的语音的识别,使用公知的文本语音转换(TTS:Text To Speech)处理将语音识别结果转换为合成音,将其作为受话语音,通过固定电话机91和通信网80发送到移动电话机70。另外,基于所得到的语音识别结果的处理是与本发明不同的结构,因此省略说明。此外,固定电话机91不需要是固定的,也可以是移动电话机。
在实施方式2的声学信号处理装置101中,如上所述构成,因此,与移动电话或通信网的类别无关,能够维持送话语音的品质,因此能够进行高精度的语音识别。
如以上说明的那样,根据实施方式2的声学信号处理装置101,具有:声学信号分析部30,其根据远端侧的受话信号对该受话信号的声学特征进行分析,生成适当的控制信号;回声消除器40a,其消除混入输入声学信号的声学回声;噪声消除器40b,其消除混入输入声学信号的噪音;以及语音强调部40c,其对输入声学信号中包含的语音特征进行强调,因此,在未提供电话号码等识别ID的状况下,也能够维持送话品质。因此,能够发送语音识别装置92侧容易识别的语音,能够进行高精度的语音识别。
《3》变形例
在上述实施方式中,作为免提通话装置100或声学信号处理装置101的一例,说明了嵌入汽车导航中的情况,但是不限于此,例如,还能够应用于电梯等升降机用紧急通话对讲机、一般家庭内或办公室中的对讲机、TV会议系统的扩音通话或机器人的语音识别对话系统等,这些声学环境中产生的噪音或声学回声同样发挥各实施方式所述的效果。
在上述实施方式中,对送话语音的送话信号进行基于回声消除器40a的回声消除处理、基于噪声消除器40b的噪声消除处理和基于语音强调部40c的语音强调处理等语音信号处理,但是,还能够对受话语音的受话信号实施上述语音信号处理。
在上述实施方式中,设输入信号的频率带宽为8kHz,但是不限于此,例如还能够应用于宽带的语音信号。
除了上述以外,本申请发明能够在其发明范围内进行实施方式的任意结构要素的变形或实施方式的任意结构要素的省略。
产业上的可利用性
如上所述,本发明的免提通话装置100和声学信号处理装置101能够进行高品质的语音通话(或高精度的语音识别),因此,适合用于导入了语音通信和语音识别系统中的任意一方的汽车导航、移动电话、对讲机等语音通信系统、免提通话系统、TV会议系统等的音质改善、语音识别系统的识别率提高。
标号说明
10、11:麦克风;12:扬声器;13:接收机;20:模拟数字转换部;21:数字模拟转换部;30:声学信号分析部;31:声学参数计算部;32:声学参数分析部;33:控制信号生成部;34:模式辞典;35:控制映射图;40:声学信号校正部;40a:回声消除器;40b:噪声消除器;40c:语音强调部;70:移动电话机;80:通信网;90:移动电话机;91:固定电话机;92:语音识别装置;100:免提通话装置;101:声学信号处理装置;500:近端侧讲话者;501:远端侧讲话者。

Claims (10)

1.一种声学信号处理装置,其特征在于,所述声学信号处理装置具有:
第1存储部,其具有第1参照数据;
第2存储部,其具有第2参照数据;
声学参数计算部,其对从远端侧输入的受话语音的第1声学信号进行分析,计算通过倒谱分析而得到的N次的梅尔频率倒谱系数,作为分析用声学参数,所述远端侧是指经由通信网对所述声学信号处理装置进行语音送话的一侧,N为正整数;
声学参数分析部,其使用所述第1参照数据对所述分析用声学参数进行分析,由此生成与所述梅尔频率倒谱系数对应的参数分析结果;
控制信号生成部,其使用所述第2参照数据,根据所述参数分析结果生成用于对从近端侧输入的送话语音的第2声学信号进行校正的控制信号,所述近端侧是指直接对所述声学信号处理装置进行语音送话的一侧;以及
声学信号校正部,其根据所述控制信号进行所述第2声学信号的校正。
2.根据权利要求1所述的声学信号处理装置,其特征在于,
所述声学信号校正部具有回声消除器,该回声消除器根据所述控制信号进行去除所述第2声学信号中包含的声学回声的所述校正即回声消除处理。
3.根据权利要求1所述的声学信号处理装置,其特征在于,
所述声学信号校正部具有噪声消除器,该噪声消除器根据所述控制信号进行去除所述第2声学信号中包含的噪音的所述校正即噪声消除处理。
4.根据权利要求2所述的声学信号处理装置,其特征在于,
所述声学信号校正部具有噪声消除器,该噪声消除器根据所述控制信号进行去除所述第2声学信号中包含的噪音的所述校正即噪声消除处理。
5.根据权利要求1~4中的任意一项所述的声学信号处理装置,其特征在于,
所述声学信号校正部具有语音强调部,该语音强调部根据所述控制信号进行强调所述第2声学信号中包含的语音特征的所述校正即语音强调处理。
6.根据权利要求1所述的声学信号处理装置,其特征在于,
所述声学信号校正部具有:
回声消除器,其根据所述控制信号进行去除所述第2声学信号中包含的声学回声的回声消除处理;
噪声消除器,其根据所述控制信号进行去除所述第2声学信号中包含的噪音的噪声消除处理;以及
语音强调部,其根据所述控制信号进行强调所述第2声学信号中包含的语音特征的语音强调处理,
所述声学信号校正部根据所述控制信号进行提高所述回声消除处理的回声抑制量、加强所述语音强调处理、降低所述噪声消除处理的噪音抑制量的控制。
7.根据权利要求5所述的声学信号处理装置,其特征在于,
所述语音强调处理是对语音谱的谱振幅大的成分进行强调的共振峰强调处理、对语音的谐波构造进行强调的音调强调处理或对所述第2声学信号的频率特性进行变更的均衡处理中的任意处理。
8.根据权利要求6所述的声学信号处理装置,其特征在于,
所述语音强调处理是对语音谱的谱振幅大的成分进行强调的共振峰强调处理、对语音的谐波构造进行强调的音调强调处理或对所述第2声学信号的频率特性进行变更的均衡处理中的任意处理。
9.一种免提通话装置,其特征在于,所述免提通话装置具有:
权利要求1~8中的任意一项所述的声学信号处理装置;
模拟数字转换部,其对所述第2声学信号进行模拟数字转换,由此生成数字信号;以及
数字模拟转换部,其对所述第1声学信号进行数字模拟转换,由此生成模拟信号。
10.一种声学信号处理方法,其中,
对从远端侧输入的受话语音的第1声学信号进行分析,计算通过倒谱分析而得到的N次的梅尔频率倒谱系数,作为分析用声学参数,所述远端侧是指经由通信网对实现所述声学信号处理方法的声学信号处理装置进行语音送话的一侧,N为正整数,
使用第1参照数据对所述分析用声学参数进行分析,由此生成与所述梅尔频率倒谱系数对应的参数分析结果,
使用第2参照数据,根据所述参数分析结果生成用于对从近端侧输入的送话语音的第2声学信号进行校正的控制信号,所述近端侧是指直接对实现所述声学信号处理方法的声学信号处理装置进行语音送话的一侧,
根据所述控制信号进行所述第2声学信号的校正。
CN201780087899.7A 2017-03-08 2017-03-08 声学信号处理装置、声学信号处理方法和免提通话装置 Active CN110383798B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/009275 WO2018163328A1 (ja) 2017-03-08 2017-03-08 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置

Publications (2)

Publication Number Publication Date
CN110383798A CN110383798A (zh) 2019-10-25
CN110383798B true CN110383798B (zh) 2021-05-11

Family

ID=63449002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780087899.7A Active CN110383798B (zh) 2017-03-08 2017-03-08 声学信号处理装置、声学信号处理方法和免提通话装置

Country Status (5)

Country Link
US (1) US20200045166A1 (zh)
JP (1) JP6545419B2 (zh)
CN (1) CN110383798B (zh)
DE (1) DE112017007005B4 (zh)
WO (1) WO2018163328A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11394425B2 (en) * 2018-04-19 2022-07-19 Cisco Technology, Inc. Amplifier supporting full duplex (FDX) operations
CN112437957B (zh) * 2018-07-27 2024-09-27 杜比实验室特许公司 用于全面收听的强加间隙插入
CN109087660A (zh) * 2018-09-29 2018-12-25 百度在线网络技术(北京)有限公司 用于回声消除的方法、装置、设备以及计算机可读存储介质
CN109599098A (zh) * 2018-11-01 2019-04-09 百度在线网络技术(北京)有限公司 音频处理方法和装置
US20200184991A1 (en) * 2018-12-05 2020-06-11 Pascal Cleve Sound class identification using a neural network
US11887588B2 (en) * 2019-06-20 2024-01-30 Lg Electronics Inc. Display device
CN111933164B (zh) * 2020-06-29 2022-10-25 北京百度网讯科技有限公司 语音处理模型的训练方法、装置、电子设备和存储介质
CN113241089B (zh) * 2021-04-16 2024-02-23 维沃移动通信有限公司 语音信号增强方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
CN105027541A (zh) * 2013-03-06 2015-11-04 高通股份有限公司 基于内容的噪声抑制
CN105374364A (zh) * 2014-08-25 2016-03-02 联想(北京)有限公司 信号处理方法及电子设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3282596B2 (ja) 1998-11-25 2002-05-13 株式会社デンソー 無線通信装置
JP2002043985A (ja) * 2000-07-25 2002-02-08 Matsushita Electric Ind Co Ltd 音響エコーキャンセラー装置
US7177416B1 (en) * 2002-04-27 2007-02-13 Fortemedia, Inc. Channel control and post filter for acoustic echo cancellation
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP5346350B2 (ja) * 2011-04-04 2013-11-20 日本電信電話株式会社 反響消去装置とその方法とプログラム
JP5923994B2 (ja) * 2012-01-23 2016-05-25 富士通株式会社 音声処理装置及び音声処理方法
JP2014045342A (ja) * 2012-08-27 2014-03-13 Sharp Corp エコー抑制装置、通信装置、エコー抑制方法及びエコー抑制プログラム
WO2014066367A1 (en) * 2012-10-23 2014-05-01 Interactive Intelligence, Inc. System and method for acoustic echo cancellation
US8861713B2 (en) * 2013-03-17 2014-10-14 Texas Instruments Incorporated Clipping based on cepstral distance for acoustic echo canceller
JP6136995B2 (ja) * 2014-03-07 2017-05-31 株式会社Jvcケンウッド 雑音低減装置
CN203941693U (zh) * 2014-06-09 2014-11-12 高秀敏 一种远程声音信号处理分析装置
US9520139B2 (en) * 2014-06-19 2016-12-13 Yang Gao Post tone suppression for speech enhancement
CN105374359B (zh) * 2014-08-29 2019-05-17 中国电信股份有限公司 语音数据的编码方法和系统
GB2525051B (en) * 2014-09-30 2016-04-13 Imagination Tech Ltd Detection of acoustic echo cancellation
JP6396829B2 (ja) * 2015-03-16 2018-09-26 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、判定方法及びコンピュータプログラム
CN104936101B (zh) * 2015-04-29 2018-01-30 成都陌云科技有限公司 一种主动式降噪装置
CN106024004B (zh) * 2016-05-11 2019-03-26 Tcl移动通信科技(宁波)有限公司 一种移动终端双麦降噪处理方法、系统及移动终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105027541A (zh) * 2013-03-06 2015-11-04 高通股份有限公司 基于内容的噪声抑制
CN105374364A (zh) * 2014-08-25 2016-03-02 联想(北京)有限公司 信号处理方法及电子设备
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法

Also Published As

Publication number Publication date
US20200045166A1 (en) 2020-02-06
DE112017007005B4 (de) 2023-03-30
WO2018163328A1 (ja) 2018-09-13
JPWO2018163328A1 (ja) 2019-11-07
DE112017007005T5 (de) 2019-10-31
CN110383798A (zh) 2019-10-25
JP6545419B2 (ja) 2019-07-17

Similar Documents

Publication Publication Date Title
CN110383798B (zh) 声学信号处理装置、声学信号处理方法和免提通话装置
JP4283212B2 (ja) 雑音除去装置、雑音除去プログラム、及び雑音除去方法
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
KR101228398B1 (ko) 향상된 명료도를 위한 시스템, 방법, 장치 및 컴퓨터 프로그램 제품
US8666736B2 (en) Noise-reduction processing of speech signals
US8831936B2 (en) Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8521530B1 (en) System and method for enhancing a monaural audio signal
US6937980B2 (en) Speech recognition using microphone antenna array
CN106663445B (zh) 声音处理装置、声音处理方法及程序
US8392184B2 (en) Filtering of beamformed speech signals
EP2244254B1 (en) Ambient noise compensation system robust to high excitation noise
US20080292108A1 (en) Dereverberation system for use in a signal processing apparatus
US5864804A (en) Voice recognition system
US20140365212A1 (en) Receiver Intelligibility Enhancement System
JP2003500936A (ja) エコー抑止システムにおけるニアエンド音声信号の改善
CN103718241A (zh) 噪音抑制装置
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
US8868417B2 (en) Handset intelligibility enhancement system using adaptive filters and signal buffers
US8868418B2 (en) Receiver intelligibility enhancement system
JP2018155996A (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP2005514668A (ja) スペクトル出力比依存のプロセッサを有する音声向上システム
US9343079B2 (en) Receiver intelligibility enhancement system
JP6854967B1 (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
JP2007194833A (ja) ハンズフリー機能を備えた携帯電話

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant