JP2018063400A - 音声処理装置及び音声処理プログラム - Google Patents

音声処理装置及び音声処理プログラム Download PDF

Info

Publication number
JP2018063400A
JP2018063400A JP2016202779A JP2016202779A JP2018063400A JP 2018063400 A JP2018063400 A JP 2018063400A JP 2016202779 A JP2016202779 A JP 2016202779A JP 2016202779 A JP2016202779 A JP 2016202779A JP 2018063400 A JP2018063400 A JP 2018063400A
Authority
JP
Japan
Prior art keywords
signal
distortion
conduction sound
sound signal
air conduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016202779A
Other languages
English (en)
Inventor
土永 義照
Yoshiteru Tsuchinaga
義照 土永
一木 篤史
Atsushi Ichiki
篤史 一木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016202779A priority Critical patent/JP2018063400A/ja
Publication of JP2018063400A publication Critical patent/JP2018063400A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】気導音の音声信号と骨導音の音声信号とを合成した音声信号の音質を向上させる。
【解決手段】音声処理装置は、歪み度推定部と、合成信号生成部とを備える。歪み度推定部は、気導音信号における雑音成分とは異なる所定の音声成分を含む音声区間の信号対雑音比を取得し、信号対雑音比と、音声信号の歪み度との関係を規定した歪み度推定関数に基づいて、気導音信号における音声区間の歪み度を推定する。合成信号生成部は、気導音信号の音声区間と、骨導音信号における気導音信号の音声区間と対応する音声区間とを、歪み度推定部で推定した歪み度に基づく混合比で合成した合成音声信号を生成する。該音声処理装置の歪み度推定部は、信号対雑音比が大きくなるにつれて歪み度の値が単調に変化する歪み度変化区間を含み、かつ歪み度変化区間内に信号対雑音比に対する歪み度の平均変化率が異なる複数の区間を含む歪み度推定関数に基づいて、歪み度を推定する。
【選択図】図1

Description

本発明は、音声処理装置及び音声処理プログラムに関する。
携帯電話端末等の通話可能な通信装置や、音声入力が可能な電子機器には、マイクで収音した気導音の音声信号に含まれる雑音成分を抑圧する機能を備えたものがある。通話可能な通信装置においては、音声信号に含まれる雑音成分を抑圧することにより、通話品質を向上させている。また、音声入力が可能な電子機器においては、音声信号に含まれる雑音成分を抑圧することにより、入力された音声の誤認識を低減させている。
音声信号に含まれる雑音成分を抑圧する技術の1つとして、気導音を収音した音声信号と、骨導音を収音した音声信号とを合成する技術が知られている(例えば、特許文献1を参照)。この種の技術では、気導音の音声信号及び骨導音の音声信号における低域周波数成分における信号対雑音比に基づいて、気導音の音声信号と骨導音の音声信号との混合比を決定している。骨導音の音声信号は、気導音の音声信号と比べて雑音レベルが小さい。このため、音声信号から推定される雑音レベルが高い場合には骨導音の音声信号の混合比率を高くすることで、音声信号に含まれる雑音成分が音質に与える影響を小さくすることが可能となる。
特開平10−023122号公報
上記の雑音抑圧技術においては、音質が音声信号の信号対雑音比に比例することを前提としており、気導音の音声信号と骨導音の音声信号とを合成する際の混合比を信号対雑音比に比例させている。
しかしながら、人の耳は音声歪みの知覚感度が一定ではないため、音質が音声信号の信号対雑音比に比例するとは限らない。したがって、気導音の音声信号と骨導音の音声信号との混合比が信号対雑音比に比例する関数に基づいて決定した混合比は、合成した音声信号が最適な音質となる適切な混合比にならないことがある。
1つの側面において、本発明は、気導音の音声信号と骨導音の音声信号とを合成した音声信号の音質を向上させることを目的とする。
1つの態様では、音声処理装置は、音声信号取得部と、歪み度推定部と、合成信号生成部とを備える。音声信号取得部は、骨導音マイクで収音した骨導音信号と、気導音マイクで収音した気導音信号とを取得する。歪み度推定部は、気導音信号における雑音成分とは異なる所定の音声成分を含む音声区間の信号対雑音比を取得し、信号対雑音比と、音声信号の歪み度との関係を規定した歪み度推定関数に基づいて、気導音信号における音声区間の歪み度を推定する。合成信号生成部は、気導音信号の音声区間と、骨導音信号における気導音信号の音声区間と対応する音声区間とを、歪み度推定部で推定した歪み度に基づく混合比で合成した合成音声信号を生成する。該音声処理装置の歪み度推定部は、以下の条件を満たす歪み度推定関数に基づいて、歪み度を推定する。第1の条件は、信号対雑音比が大きくなるにつれて歪み度の値が単調に変化する歪み度変化区間を含むことである。第2の条件は、歪み度変化区間内の信号対雑音比の最小値及び最大値を含まない区間における信号対雑音比に対する前記歪み度の平均変化率の絶対値が、信号対雑音比の最小値又は最大値を含む区間における前記平均変化率の絶対値よりも大きいことである。
上述の態様によれば、気導音の音声信号と骨導音の音声信号とを合成した音声信号の音質が向上する。
第1の実施形態に係る音声処理装置の機能的構成を示す図である。 歪み度推定関数の一例を示すグラフ図である。 第1の実施形態に係る音声信号の合成処理を説明するフローチャートである。 骨導音信号の時間波形の例を示す図である。 雑音レベルの推定結果の例を示すグラフ図である。 SN比と主観的な音質と歪み度推定関数との関係を説明するグラフ図である。 歪み度推定関数の別の例を示すグラフ図である。 雑音の非定常性を考慮した歪み度推定関数の例を説明する図である。 音声処理装置の適用例を示す図である。 第2の実施形態に係る音声処理装置の機能的構成を示す図である。 第2の実施形態に係る音声処理装置における包絡特性補正部の機能的構成を示す図である。 周波数スペクトルの包絡特性を説明するグラフ図である。 包絡信頼度推定関数の一例を示すグラフ図である。 第2の実施形態に係る音声信号の合成処理を説明するフローチャート(その1)である。 第2の実施形態に係る音声信号の合成処理を説明するフローチャート(その2)である。 骨導音信号の周波数スペクトルの補正方法を説明するグラフ図(その1)である。 骨導音信号の周波数スペクトルの補正方法を説明するグラフ図(その2)である。 コンピュータのハードウェア構成を示す図である。
[第1の実施形態]
図1は、第1の実施形態に係る音声処理装置の機能的構成を示す図である。
図1に示すように、本実施形態に係る音声処理装置1は、音声信号取得部110と、音声信号合成部120と、音声信号出力部130と、記憶部190と、を備える。
音声信号取得部110は、骨導音を収音する第1のマイク2で収音した骨導音の音声信号と、気導音を収音する第2のマイク3で収音した気導音の音声信号とを取得する。以下の説明では、骨導音の音声信号を骨導音信号といい、気導音の音声信号を気導音信号という。
音声信号合成部120は、骨導音信号と気導音信号とを所定の混合比で合成した音声信号(合成音声信号)を生成する。
音声信号出力部130は、音声信号合成部120で生成した合成音声信号を情報処理装置4等に出力する。情報処理装置4は、例えば、通話機能或いは音声入力機能を備えた電子機器である。
記憶部190は、音声信号合成部120が参照する各種関数等を記憶する。
上記のように、本実施形態に係る音声処理装置1における音声信号合成部120は、骨導音信号と気導音信号とを所定の混合比で合成した(混合した)合成音声信号を生成する。音声信号合成部120は、分割部121と、音声区間判定部122と、変換部123と、雑音レベル推定部124と、雑音抑圧部125と、歪み度推定部126と、合成信号生成部127と、を含む。
分割部121は、骨導音信号及び気導音信号を、それぞれ、所定の時間長で複数のフレーム(処理単位)に分割する。
音声区間判定部121は、合成する骨導音信号のフレームと気導音信号のフレームとの組毎に、音声区間であるか否かを判定する。ここで、音声区間は、音声信号のうちの、通話や音声入力における有意な音声を含む区間、言い換えると雑音成分とは異なる所定の音声成分を含む区間である。音声区間判定部121は、例えば、骨導音信号のフレームの時間波形に基づいて、判定対象であるフレームの組が音声区間のフレームの組であるか否かを判定する。
変換部123は、フレーム毎に、骨導音信号及び気導音信号の時間波形を周波数スペクトルに変換する。変換部123は、高速フーリエ変換(Fast Fourier Transform: FFT)等の既知の変換方法に従い、骨導音信号のフレームと気導音信号のフレームとを周波数スペクトルに変換する。以下の説明では、骨導音信号の周波数スペクトルを骨導音スペクトルともいい、気導音信号の周波数スペクトルを気導音スペクトルともいう。
雑音レベル推定部124は、気導音信号に含まれる雑音成分のレベル(雑音レベル)を推定する。雑音レベル推定部124は、合成処理の対象であるフレームの組が非音声区間のフレームの組である場合(すなわち音声区間のフレームの組でなない場合)に、当該フレームの組における気導音スペクトルの各帯域の雑音レベルを推定する。雑音レベル推定部124は、雑音レベルの推定結果を記憶部190に記憶させる。既に記憶部190に雑音レベルの推定結果を記憶させている場合、雑音レベル推定部124は、記憶させている雑音レベルの推定結果を、現在合成処理の対象であるフレームの組から推定した推定結果に更新する。
雑音抑圧部125は、記憶部190に記憶させた雑音レベルに基づいて、現在合成処理の対象である気導音スペクトルの各帯域に含まれる雑音成分を抑圧する。現在合成処理の対象であるフレームが非音声区間である場合、雑音抑圧部125は、当該フレームの気導音スペクトルに基づいて推定した雑音レベルに基づいて、雑音成分を抑圧する。一方、現在合成処理の対象であるフレームが音声区間である場合、雑音抑圧部125は、現在合成処理の対象であるフレームよりも前の直近のフレームにおける雑音レベルの推定結果に基づいて、雑音成分を抑圧する。
歪み度推定部126は、記憶部190に記憶させた歪み度推定関数に基づいて、気導音信号における現在合成処理の対象であるフレームに対する歪み度を推定する。ここで、歪み度は、骨導音信号と気導音信号とを合成する際の気導音信号の合成比率(混合比率)を示す値とする。歪み度推定関数は、雑音成分とは異なる所定の音声成分を含む音声信号における信号対雑音比(Signal to Noise Ratio。以下「SN比」という)と、歪み度との関係を規定した関数である。歪み度推定部126は、現在合成処理の対象であるフレームの組が音声区間である場合に、記憶部190に記憶させた直近の雑音レベルの推定結果に基づいて、気導音スペクトルの各帯域のSN比を算出し、更にそれらの平均値を算出する。その後、歪み度推定部126は、歪み度推定関数と、算出したSN比の平均値とに基づいて、現在合成処理の対象であるフレームの組における気導音スペクトルについての歪み度を推定する。本実施形態に係る音声処理装置1で参照する歪み度推定関数は、SN比の平均値が大きくなるにつれて歪み度が単調減少する歪み度変化区間を含み、かつ歪み度変化区間が平均変化率の異なる複数の区間を含む関数とする。
合成信号生成部127は、骨導音スペクトルと気導音スペクトルとを、歪み度推定部126で推定した歪み度に基づく混合比で合成した合成音声信号を生成する。合成信号生成部127は、周波数スペクトルの帯域毎に、骨導音スペクトルにおけるレベルと、気導音スペクトルにおけるレベルとを、推定した歪み度に基づく混合比で加算した合成レベルを算出する。更に、本実施形態に係る音声処理装置1の合成信号生成部127は、算出した合成レベルによって与えられる周波数スペクトルを時間波形に逆変換した合成信号を生成する。なお、合成信号生成部127が生成する合成音声信号は、時間波形に逆変換する前の周波数スペクトルであってもよい。
本実施形態に係る音声処理装置1において歪み度推定部126が参照する歪み度推定関数は、上記のように、SN比の平均値が大きくなるにつれて歪み度が単調減少する歪み度変化区間を含み、かつ歪み度変化区間が平均変化率の異なる複数の区間を含む関数とする。
図2は、歪み度推定関数の一例を示すグラフ図である。
図2に示したグラフ図において、横軸はSN比の平均値SNR_aveであり、縦軸は周波数スペクトル(気導音信号)の歪み度E_errorである。歪み度E_errorは、骨導音スペクトルと気導音スペクトルとを合成する際の骨導音スペクトルの混合比率を示す値である。
図2に示した歪み度推定関数F1は、SN比の平均値SNR_aveが第1の値SA1から第4の値SA4(>SA1)までの区間において、歪み度E_errorが最大値1.0から最小値0.0に単調減少する関数である。また、歪み度推定関数F1は、SN比の平均値SNR_aveが第4の値SA4よりも大きい値である場合には、SN比の平均値SNR_aveによらず常に歪み度E_error=0.0とする関数である。更に、図2には示していないが、歪み度推定関数F1は、SN比の平均値SNR_aveが第1の値SA1よりも小さい値である場合には、SN比の平均値SNR_aveによらず常に歪み度E_error=1.0とする関数である。すなわち、歪み度推定関数F1は、SN比の平均値SNR_aveが第1の値SA1から第4の値SA4(>SA1)までの区間が歪み度変化区間である。
更に、歪み度推定関数F1における歪み度変化区間は、当該歪み度変化区間を3個の区間B1,B2,B3に分割した際に、中央の区間B2の平均変化率が他の区間B1,B3の平均変化率よりも大きい三次関数とする。ここで、歪み度変化区間は、歪み度推定関数F1における変曲点が、3個の区間B1,B2,B3のうちの中央の区間B2に含まれるよう分割している。また、平均変化率は、各区間B1,B2,B3における、歪み度E_errorの変化量をSN比の平均値の変化量で除した値とする。
このような歪み度推定関数F1は、例えば、人の主観音質の知覚感度に基づいて設定する。例えば、SA1<SA2<SA3<SA4となる第2の値SA2及び第3の値SA3を、それぞれ2.5dB及び7.5dBとし、中央の区間B2の平均変化率が他の区間B1,B3の平均変化率よりも大きくなるよう、区間境界での歪み度の値E1,E2を決定する。そして、歪み度変化区間において点(SA1,1)、点(SA2,E2)、点(SA3,E1)、及び点(SA4,0)の4点を通り、かつ歪み度E_errorが単調減少する三次関数を求める。
なお、歪み度推定関数F1は、関数(数式)として記憶部190に記憶させてもよいし、SN比の平均値SNR_aveと歪み度E_errorとを対応付けたテーブル等のデータとして記憶部190に記憶させてもよい。
本実施形態に係る音声処理装置1は、動作を開始させると、第1のマイク2で収音した骨導音信号と、第2のマイク3で収音した気導音信号とを取得し、取得した骨導音信号及び気導音信号を所定の時間長のフレームに分割していく処理を開始する。骨導音信号及び気導音信号の取得は、音声信号取得部110が行う。骨導音信号及び気導音信号をフレームに分割する処理は、音声合成部120の分割部121が行う。骨導音信号及び気導音信号を取得してフレームに分割する処理を開始した後、音声処理装置1は、分割したフレーム毎に、例えば、図3に示した処理を行う。
図3は、第1の実施形態に係る音声信号の合成処理を説明するフローチャートである。
骨導音信号及び気導音信号を取得してフレームに分割する処理を開始した後、音声処理装置1は、まず、処理対象とする骨導音信号のフレームと気導音信号のフレームとの組を選択する(ステップS1)。ステップS1の処理は、例えば、音声区間判定部122が行う。音声区間判定部122は、所定の選択規則に従って合成処理の対象とするフレームの組を選択する。選択規則は、例えば、ステップS1で選択していないフレームの組のうちの収音時刻が最も早いフレームを選択する、という規則とする。
処理対象とするフレームの組を選択した後、音声区間判定部122は、続けて、選択したフレームが音声区間のフレームであるか否かを判定する(ステップS2)。音声区間判定部122は、既知の判定方法に従って、選択したフレームが通話や音声入力等における有意な音声成分を含むフレームであるか否かを判定する。例えば、骨導音信号のフレームにおける時間波形の振幅レベルの変動幅が所定の閾値よりも大きく、かつ時間波形が周期性を持つ場合に、音声区間判定部122は、選択したフレームが音声区間のフレームであると判定する。
選択したフレームが音声区間のフレームではない場合(ステップS2;NO)、音声処理装置1は、次に、選択したフレームにおける雑音レベルを推定し、該推定結果に基づいて気導音スペクトルの雑音成分を抑圧する(ステップS3)。ステップS3の処理は、変換部123と、雑音レベル推定部124と、雑音抑圧部125とが行う。ステップS3の処理では、まず、変換部123が骨導音信号のフレーム及び気導音信号のフレームを時間波形から周波数スペクトルに変換する。変換部123は、既知の高速フーリエ変換等により各フレームの時間波形を周波数スペクトルに変換する。次に、雑音レベル推定部124が、気導音スペクトルに基づいて、帯域毎の雑音レベルの推定値を算出する。雑音レベル推定部124は、例えば、現在処理対象であるフレームを含む雑音区間における平均スペクトル分布を算出し、当該平均スペクトル分布を雑音レベルの推定値とする。雑音レベル推定部124は、雑音レベルの推定結果を記憶部190に記憶させる。雑音レベルを推定すると、次に、雑音抑圧部125が、雑音レベルの推定結果に基づいて、現在処理対象である気導音スペクトルの雑音成分を抑圧する。雑音抑圧部125は、記憶部190、或いは雑音レベル推定部124から雑音レベルの推定結果を取得し、処理対象の気導音スペクトルにおける各帯域の雑音成分を抑圧する。
ステップS3の処理を終えると、音声処理装置1は、次に、周波数スペクトルの歪み度を1に設定する(ステップS4)。ステップS4の処理は、歪み度推定部126が行う。すなわち、処理対象のフレームが非音声区間である場合、周波数スペクトルのSN比の平均値によらず、、骨導音スペクトルの混合比率が1となる。
一方、選択したフレームが音声区間のフレームである場合(ステップS2;YES)、音声処理装置1は、次に、周波数スペクトルの歪み度を推定する(ステップS5)。ステップS5の処理は、変換部123と、歪み度推定部126が行う。ステップS5の処理では、まず、変換部123が骨導音信号のフレーム及び気導音信号のフレームを時間波形から周波数スペクトルに変換する。変換部123は、既知の高速フーリエ変換等により各フレームの時間波形を周波数スペクトルに変換する。次に、歪み度推定部126が、処理対象である気導音信号のフレームの周波数パワースペクトルと、処理済みのフレームにおける雑音レベルの推定結果とに基づいて、各帯域のSN比を算出する。例えば、歪み度推定部126は、周波数スペクトルにおけるM個の帯域(周波数ビン)を変数m(m=0,1,・・・,M−1)で識別し、各帯域のSN比SNR(m)を下記式(1)により算出する。
SNR(m)=S(m)−N(m) ・・・(1)
式(1)において、S(m)は処理対象の気導音信号についての周波数パワースペクトルにおける帯域mのレベルであり、N(m)は雑音レベルの推定結果における帯域mのレベルである。
式(1)により各帯域mのSN比SNR(m)を算出した後、歪み度推定部126は、処理対象の周波数パワースペクトルについてのSN比の平均値SNR_aveを、下記式(2)により算出する。
その後、歪み度推定部126は、算出したSN比の平均値SNR_aveと、記憶部190に記憶させた歪み度推定関数F1(図2を参照)とに基づいて、処理対象のフレームの気導音スペクトルについての歪み度E_errorを算出する。
ステップS5の処理を終えると、音声処理装置1は、処理済みのフレームにおける雑音レベルの推定結果に基づいて、気導音スペクトルの雑音成分を抑圧する(ステップS6)。ステップS6の処理は、雑音抑圧部125が行う。ステップS6の処理を行う場合、雑音抑圧部125は、記憶部190を参照して処理済みのフレームにおける雑音レベルの推定結果を取得し、当該雑音レベルの推定結果に基づいて、現在処理対象である気導音スペクトルの雑音成分を抑圧する。ここで、処理済みのフレームにおける雑音レベルの推定結果は、現在処理対象であるフレームよりも時間的に前であり、かつ直近の雑音区間に含まれるフレームについての雑音レベルの推定結果とする。
ステップS3,S4の処理、及びステップS5,S6の処理のいずれかを終えると、音声処理装置1は、次に、歪み度に基づく混合比で骨導音スペクトルと気導音スペクトルとを混合し、得られた周波数スペクトルを時間波形に変換する(ステップS7)。ステップS7の処理は、合成信号生成部127が行う。合成信号生成部127は、まず、周波数スペクトルにおける帯域毎の合成レベルFS_out(m)を下記式(3)により算出する。
FS_out(m)=E_error・FS_mod(m)+(1−E_error)・FS_normal(m)
・・・(3)
式(3)において、FS_mod(m)は骨導音スペクトルにおける帯域mのレベルであり、FS_normal(m)は気導音スペクトルにおける帯域mのレベルである。
処理対象のフレームが音声区間のフレームである場合、合成信号生成部127は、SN比の平均値SNR_aveと、歪み度推定関数F1(図2を参照)とに基づいて算出した歪み度E_errorを用いて、各帯域の合成レベルFS_out(m)を算出する。一方、処理対象のフレームが音声区間のフレームではない場合、合成信号生成部127は、歪み度E_errorを「1」として、各帯域の合成レベルFS_out(m)を算出する。
式(3)により各帯域m(m=0,1,・・・,M−1)の合成レベルFS_out(m)を算出した後、合成信号生成部127は、合成レベルFS_out(m)により表される周波数スペクトルを時間波形に変換する。合成信号生成部127は、変換部123で時間波形を周波数スペクトルに変換する際の変換方法(変換式)に対する逆変換により、合成した周波数スペクトルを時間波形に変換する。合成信号生成部127が生成した時間波形(合成音声信号)を音声信号出力部130に渡すと、音声処理装置1(音声信号合成部120)は、選択したフレームに対する音声信号の合成処理(ステップS1〜S7)を終了する。
なお、音声処理装置1は、ステップS1〜S7の処理を一連の処理として逐次実行方式で実行してもよいし、パイプライン化して実行してもよい。
図4は、骨導音信号の時間波形の例を示す図である。
図4に示した骨導音信号の時間波形における時刻t0からt1までの区間、及び時刻t4からt5までの区間は、それぞれ、有意な音声を含まない非音声区間(雑音区間)である。これに対し、骨導音信号の時間波形における時刻t1からt4までの区間は、有意な音声を含む音声区間である。
骨導音信号は、発話者が発話したときに頭蓋骨や皮膚組織等を伝播する音の波(振動)を収音した音声信号であるため、空気中を伝播する音を収音した気導音信号に比べて、音声信号に含まれる雑音成分が少ない。このため、骨導音信号は、気導音信号に比べて、非音声区間の時間波形と、音声区間の時間波形との差異が明確である。
更に、骨導音信号の音声区間における時刻t2からt3までの区間の時間波形をみると、例えば、図4に示したように、時間波形には周期性がみられる。
よって、本実施形態に係る音声処理装置1における音声区間判定部120は、例えば、骨導音信号における下記の2つの条件を満たす区間を音声区間として検出し、処理対象のフレームが音声区間であるか否かを判定する。
(条件1)振幅レベルの変動幅が閾値よりも大きい。
(条件2)時間波形が周期性を持つ。
本実施形態に係る音声信号の合成処理では、上記のように、処理対象のフレームが非音声区間のフレームである場合に雑音レベルを推定し、該雑音レベルの推定結果に基づいて気導音信号に含まれる雑音成分を抑圧する。この際、音声処理装置1では、気導音信号における非音声区間のフレームを周波数スペクトルに変換して平均スペクトル分布を算出し、該平均スペクトル分布を雑音レベルの推定結果とする。
図5は、雑音レベルの推定結果の例を示すグラフ図である。
図5には、気導音信号における非音声区間における平均スペクトル分布の一例を太い実線の曲線で示している。本実施形態に係る音声信号の合成処理では、このような平均スペクトル分布で与えられる雑音レベルNLに基づいて、図5に点線で示したような気導音スペクトルSP1における各帯域のパワー値に含まれる雑音成分を抑圧する。
図6は、SN比と主観的な音質と歪み度推定関数との関係を説明するグラフ図である。
図6の(a)のグラフ図は、SN比と主観的な音質との関係の一例を示すグラフ図である。図6の(a)のグラフ図において、横軸は気導音信号におけるSN比であり、縦軸は気導音信号を聞いたたときの主観音質スコアである。主観音質スコアは、気導音信号を聞いたときの主観的な音質の評価値であり、図6の(a)のグラフ図では音質を5段階で評価している。なお、図6の(a)のグラフ図における主観音質スコアは、1が最も評価が低く、5が最も評価が高い。
人の耳は音声歪に対する知覚感度が一定ではないため、気導音信号のSN比と主観音質スコアとの間には曲線F0で表されるような関係が生じる。すなわち、SN比が高くなるにつれて主観音質スコアが高くなり、かつSN比が値Q1の付近における平均変化率(微分係数)がSN比の低い区間及び高い区間における平均変化率よりも大きくなっている。このため、SN比と主観音質スコアとの関係が図6の(a)のグラフ図に点線で示した直線Frのような比例関係であると仮定した場合、気導音信号におけるSN比に対する主観的な音質に差異が生じる。
例えば、気導音信号のSN比が、曲線F0と直線Frとが交差するSN比の値Q1よりも低い場合、直線Frに基づく主観音質スコアは、曲線F0に基づく主観音質スコアよりも高くなる。このため、気導音信号のSN比が、曲線F0と直線Frとが交差するSN比の値Q1よりも低い場合、直線Frに基づく気導音信号の音質の評価は、曲線F0に基づく評価と比べ過大評価となる。このように気導音信号の音質を過大評価した場合、気導音信号の混合比率が、曲線F0に基づいて推定される適切な混合比率よりも大きくなってしまう。したがって、SN比の低い気導音信号の音質を過大評価した場合、気導音信号に含まれる雑音成分が合成音声信号の音質に与える影響の度合いが高くなり、音質が劣化する。
逆に、気導音信号のSN比が、曲線F0と直線Frとが交差するSN比の値Q1よりも高い場合、直線Frに基づく気導音信号の音質の評価は、曲線F0に基づく評価と比べ過小評価となる。したがって、SN比の高い気導音信号の音質を過小評価した場合、合成信号における骨導音信号の比率が高くなり、例えば、合成音声信号の再生音を聞いた人に対し、中音域から高音域の音量不足等による違和感を与える可能性がある。
このような気導音信号の音質の過大評価による音質劣化や過小評価による違和感を抑制するため、本実施形態に係る音声信号の合成処理では、上記の歪み度推定関数F1に基づいて、気導音信号のSN比に応じた骨導音信号と気導音信号との適切な混合比を推定する。
図6の(b)のグラフ図は、本実施形態で用いる歪み度推定関数F1と、直線Frに基づいて設定した推定関数FRとの関係を示したグラフ図である。直線Frに基づいて設定した推定関数FRにおける歪み度変化区間は、SN比の平均値SNR_aveに比例して歪み度E_errorが減少する関数となる。
これに対し、本実施形態で用いる歪み度推定関数F1は、図6の(a)のグラフ図における曲線F0で示される、音声の歪に対する人の知覚感度を考慮した歪み度推定関数である。このため、歪み度推定関数F1の歪み度変化区間のうちのSNR_ave≦SAQである区間は、推定関数FRと比べて、同一の平均値SNR_aveにおける歪み度E_errorを大きくしている。ここで、SN比の平均値SNR_ave=SAQは、歪み度推定関数F1の歪み度変化区間の変曲点における平均値であり、図6の(a)に示した曲線F0の変曲点におけるSN比の値Q1に相当する。すなわち、SN比の平均値SNR_aveが値SAQ以下である場合、歪み度推定関数F1に基づいて推定した骨導音信号の混合比率は、推定関数FRに基づいて推定した混合比率よりも高くなる。よって、歪み度推定関数F1を用いて骨導音信号と気導音信号との混合比率を推定することにより、推定関数FRに基づいて推定した混合比率と比べて、気導音信号のSN比が低い場合の気導音信号の混合比率を低く抑えることが可能となる。
一方、歪み度推定関数F1の歪み度変化区間のうちのSAQ<SNR_aveである区間は、推定関数FRと比べて、同一の平均値SNR_aveにおける歪み度E_errorを小さくしている。すなわち、SN比の平均値SNR_aveが値SAQよりも大きい場合、歪み度推定関数F1に基づいて推定した骨導音信号の混合比率は、推定関数FRに基づいて推定した混合比率よりも低くなる。よって、歪み度推定関数F1を用いて骨導音信号と気導音信号との混合比率を推定することにより、推定関数FRに基づいて推定した混合比率と比べて、気導音信号のSN比が高い場合の気導音信号の混合比率を高くすることが可能となる。
このように、本実施形態に係る音声信号の合成処理では、SN比と、主観的な音質の評価との関係を示す曲線F0に基づいて設定した歪み度推定関数F1を用いて、骨導音信号と気導音信号との混合比率を示す歪み度E_errorを算出する。曲線F0は、上記のように、音声の歪に対する人の知覚特性を考慮した関数を表す曲線である。したがって、本実施形態に係る音声信号の合成処理では、SN比に応じた適切な混合比率で骨導音信号と気導音信号とを混合することが可能となる。すなわち、本実施形態によれば、骨導音信号と気導音信号とを混合した合成音声における、気導音信号の音質の過大評価による音質劣化や、気導音信号の音質の過小評価による違和感を抑制することが可能となる。よって、本実施形態によれば、気導音信号と骨導音信号とを合成した音声信号の音質を向上させることが可能となる。
なお、図2及び図6の(b)に示した歪み度推定関数F1は、本実施形態に係る音声信号の合成処理で用いる歪み度推定関数の一例に過ぎない。本実施形態に係る音声信号の合成処理で用いる歪み度推定関数は、歪み度推定関数F1に限らず、上記のSN比と主観的な音質の評価との関係に基づいて適宜変更可能である。例えば、本実施形態に係る音声信号の合成処理で用いる歪み度推定関数は、図7に示す、複数の直線を組み合わせた歪み度推定関数F2であってもよい。
図7は、歪み度推定関数の別の例を示すグラフ図である。
図7に示したグラフ図において、横軸はSN比の平均値SNR_aveであり、縦軸は骨導音スペクトルと気導音スペクトルとを合成する際の骨導音スペクトルの混合比率を示す歪み度E_errorである。
図7に示した歪み度推定関数F1及び推定関数FRは、それぞれ、図6の(b)に示した歪み度推定関数F1及び推定関数FRである。歪み度推定関数F1は、図6の(a)に示したSN比と主観音質スコアとの関係を示す曲線F0に基づいて設定した三次関数である。また、歪み度推定関数F1おけるSN比の平均値SNR_aveが第1の値SA1から第4の値SA4までの区間は、歪み度変化区間である。歪み度推定関数F1の歪み度変化区間は、3個の区間B1,B2,B3に分割した際に、中央の区間B2の平均変化率が他の区間B1,B3の平均変化率よりも大きい。ここで、歪み度変化区間は、SNR_ave=SAQが3個の区間B1,B2,B3のうちの中央の区間B2に含まれるよう分割している。
図7に示した歪み度推定関数F2は、歪み度変化区間に含まれる3個の区間B1,B2,B3のそれぞれにおける関数を、歪み度推定関数F1の各区間における両端の値を結ぶ線分で示される一次関数としている。すなわち、図7に示した歪み度推定関数F2は、歪み度推定関数F1を簡略化した関数である。
図7に示したグラフ図では、SN比の平均値SNR_aveの大小関係がSA1<SA2<SAQ<SA3<SA4となる第2の値SA2と、第3の値SA3とで第1の値SA1から第4の値SA4までの区間を3個の区間B1,B2,B3に分割している。第1の区間B1はSN比の平均値SNR_aveがSA1≦SNR_ave<SA2の区間であり、第2の区間B2はSN比の平均値SNR_aveがSA2≦SNR_ave<SA3の区間である。また、第3の区間は、SN比の平均値SNR_aveがSA3≦SNR_ave≦SA4の区間である。
SN比の平均値SNR_aveが第1の区間B1と第2の区間B2との境界となる値SA2である場合、歪み度推定関数F1により算出される歪み度E_errorは、値E2である。また、SN比の平均値SNR_aveが第2の区間B2と第3の区間B3との境界となる値SA3である場合、歪み度推定関数F1により算出される歪み度E_errorは、値E1(<E2)である。よって、歪み度推定関数F2は、下記式(4)で示される関数とする。
図7に示したように、歪み度変化区間のうちのSNR_ave≦SAQの区間では、歪み度推定関数F2により算出される歪み度E_errorは、推定関数FRにより算出される歪み度よりも大きな値となる。また、歪み度変化区間のうちのSAQ<SNR_aveの区間では、歪み度推定関数F2により算出される歪み度E_errorは、推定関数FRにより算出される歪み度よりも小さい値となる。このため、歪み度推定関数F2により推定した歪み度E_errorに基づく骨導音信号と気導音信号との混合比率は、推定関数FRに基づく混合比率と比べて、人の主観音質の知覚感度に近い適切な混合比率になるといえる。
このように、歪み度推定関数を、変化量(傾き)が異なる複数の一次関数を組み合わせた関数とすることで、SN比の平均値SNR_aveから歪み度E_errorを算出する処理が簡素化される。よって、音声信号の合成処理の処理負荷を軽減することが可能となる。
更に、本実施形態に係る音声信号の合成処理で用いる歪み度推定関数は、雑音の非定常性を考慮した関数であってもよい。
図8は、雑音の非定常性を考慮した歪み度推定関数の例を説明する図である。
図8の(a)には、定常的な雑音のみが発生している環境下で収音した気導音信号における雑音区間(非音声区間)の時間波形と、推定雑音レベルNLとを示している。一方、図8の(b)には、非定常的な雑音を含む気導音信号における雑音区間の時間波形と、推定雑音レベルNLとを示している。
定常的な雑音のみが発生している環境下で収音した気導音信号では、図8の(a)に示したように、時間波形の振幅レベルの時間変動が小さい。このため、定常的な雑音のみが発生している環境下で収音した気導音信号から推定される雑音レベルNLは、図8の(a)に太線で示したようになる。すなわち、定常的な雑音のみが発生している環境下で気導音信号を収音した場合、各時刻における気導音信号の振幅レベルと、推定した雑音レベルNLとの差に生じるばらつきが小さい。
一方、非定常的な雑音を含む気導音信号では、図8の(b)に示したように、時間波形の振幅レベルの時間変動が大きい。このような非定常的な雑音を含む気導音信号から推定される雑音レベルNLは、図8の(b)に太線で示したようになる。すなわち、非定常的な雑音が発生した場合、各時刻における気導音信号の振幅レベルと、推定した雑音レベルNLとの差に生じるばらつきが大きくなる。このため、非定常的な雑音を含む気導音信号は、非定常的な雑音を含まない気導音信号と比べてSN比の信頼度が低下する。よって、気導音信号の周波数スペクトルにおけるSN比の平均値SNR_aveを、図6の(a)に示したSN比と主観音質スコアとの関係に当てはめた場合、合成音声の音質が非定常的な雑音により劣化する可能性がある。
このようなSN比の信頼度の低下による合成音声の音質の劣化を防ぐには、例えば、図8の(c)に示した歪み度推定関数F3のように、歪み度推定関数F1よりも歪み度E_errorの低下の度合いを小さくする。非定常雑音が発生する環境下では、SN比の信頼度が低下して気導音信号に音声歪みが発生する確率が高い。歪み度推定関数F3は、同一の平均値SNR_aveにおける歪み度E_errorを、SN比と主観音声スコアとの関係(曲線F0)に基づいて設定される歪み度推定関数F1の値よりも大きくしている。すなわち、歪み度推定関数F3を用いて歪み度を推定した場合、同一の平均値SNR_aveにおける骨導音信号の混合比率が、歪み度推定関数F1に基づく混合比率よりも高くなる。よって、歪み度推定関数F3を用いて歪み度を推定した場合、気導音信号に含まれる非定常的な雑音が合成音声の音質に与える影響を抑制することが可能となる。
なお、上記の歪み度推定関数F2及びF3も、本実施形態に係る音声信号の合成処理で用いる歪み度推定関数の例に過ぎないことはもちろんである。本実施形態に係る音声信号の合成処理で用いる歪み度推定関数は、SN比等の客観的な音質の評価と、主観音声スコア等の主観的な音質の評価との関係を考慮した(反映した)関数であればよい。したがって、歪み度推定関数は、上記の歪み度推定関数F1〜F3とは逆に、歪み度変化区間においてSN比が大きくなるにつれて歪み度E_errorが単調増加する関数であってもよい。SN比が大きくなるにつれて歪み度E_errorが単調増加する歪み度推定関数により歪み度を推定する場合、合成信号生成部127は、正規化した歪み度の値を気導音スペクトルの混合比率として骨導音スペクトルと気導音スペクトルとを合成する。
また、図3のフローチャートは、本実施形態に係る音声信号の合成処理の一例に過ぎない。本実施形態に係る音声信号の合成処理は、本実施形態の要旨を逸脱しない範囲において、適宜変更可能である。例えば、ステップS2において処理対象のフレームが音声区間であるか否かを判定する際には、上記の方法とは異なる方法で骨導音信号における音声区間を検出し、処理対象のフレームが音声区間であるか否かを判定してもよい。また、処理対象のフレームが非音声区間である場合に行う、雑音レベルを推定して雑音成分を抑圧する処理(ステップS3)と、歪み度(の推定値)を1に設定する処理(ステップS4)とは、順序が逆であってもよいし、並列に行ってもよい。同様に、処理対象のフレームが音声区間である場合に行う、歪み度(の推定値)を算出する処理(ステップS5)と、雑音成分を抑圧する処理(ステップS6)とは、順序が逆であってもよいし、並列に行ってもよい。更に、本実施形態に係る音声信号の合成処理は、骨導音スペクトルと気導音スペクトルとを合成した後、合成した周波数スペクトルを合成音声信号として情報処理装置4等に出力する装置であってもよい。
図9は、音声処理装置の適用例を示す図である。
図9の(a)には、本実施形態に係る音声処理装置1の適用例として、音声入力が可能なヘッドマウントディスプレイ5を示している。ヘッドマウントディスプレイ5は、利用者6の頭部に装着して用いる表示装置であり、利用者6の視線方向に表示部510が配設される。表示部510は、ヘッドマウントディスプレイ5を利用者6の頭部に固定するための固定部520に接続している。表示部510と固定部520との接続部分は、利用者6の眼球から表示部510までの距離や、固定部520に対する表示部510の角度等を調整可能な構成となっている。
また、ヘッドマウントディスプレイ5には、例えば、利用者6が発話したときの骨導音を収音する第1のマイク2と、気導音を収音する第2のマイク3とが設けられている。第1のマイク2は、例えば、固定部520における利用者6の頭部と接する箇所に内蔵されている。第2のマイク3は、固定部520から利用者6の口元に向けて伸びるアーム530の先端に設けられている。
更に、ヘッドマウントディスプレイ5には、利用者6が自身の耳に装着して使用するイヤフォン等の音声出力部540が設けられている。
ヘッドマウントディスプレイ5は、例えば、パーソナルコンピュータやスマートフォン等の情報処理装置4に接続して使用する。情報処理装置4に接続されたヘッドマウントディスプレイ5は、情報処理装置4が出力した映像信号に基づいて表示部510に映像を表示するとともに、情報処理装置4が出力した音声信号を音声出力部540で音声(気導音)に変換して出力する。
また、ヘッドマウントディスプレイ5は、例えば、第1のマイク2から取得した骨導音信号と第2のマイク3から取得した気導音信号とを合成し、情報処理装置4に出力する。すなわち、ヘッドマウントディスプレイ5は、図9の(b)に示すように、本実施形態に係る音声処理装置1を内蔵している。
図9の(b)には、ヘッドマウントディスプレイ5の機能的構成を示している。機能的構成の観点では、ヘッドマウントディスプレイ5は、表示部510と、音声出力部540と、入出力部550と、表示制御部560と、音声処理装置1と、第1のマイク2と、第2のマイク3と、を備える。
音声処理装置1は、上記のように第1のマイク2から取得した骨導音信号と第2のマイク3から取得した気導音信号とを合成した合成音声信号を生成する。
入出力部550は、音声処理装置1で生成した合成音声信号を情報処理装置4に出力する。また、入出力部550は、情報処理装置4から入力された映像信号を表示制御部560に入力し、情報処理装置4から入力された音声信号を音声出力部540に入力する。表示制御部560は、入力された映像信号を再生して表示部510に表示させる。音声出力部540は、入力された音声信号を音波として空気中に放射する。なお、音声出力部540は、利用者6の頭蓋骨等を利用して音波を伝播させる骨伝導型のものであってもよい。
本実施形態に係る音声処理装置1を適用したヘッドマウントディスプレイ5は、上記の歪み度推定関数F1に基づいて、骨導音信号と気導音信号とを適切な混合比率で混合した合成音声信号を生成し、情報処理装置4に出力する(送信する)。このため、ヘッドマウントディスプレイ5から情報処理装置4に、気導音信号に含まれる雑音成分による音質の劣化等が少ない音声信号出力することが可能となる。したがって、情報処理装置4において音声入力による処理が可能である場合には、雑音等で音質が劣化することによる入力音声の誤認識を低減させることが可能となる。また、情報処理装置4が携帯電話端末やスマートフォン等の通話可能な装置である場合には、利用者6の通話相手が使用している端末に対して、雑音成分による音質の劣化等が少ない音声信号を送信することが可能となる。よって、本実施形態に係る音声処理装置1をヘッドマウントディスプレイ5に適用することで、ヘッドマウントディスプレイ5を利用した情報処理装置4の操作性を向上させることが可能となる。
なお、本実施形態に係る音声処理装置1は、ヘッドマウントディスプレイ5に限らず、情報処理装置4に設けてもよいことはもちろんである。また、音声処理装置1は、ヘッドマウントディスプレイ5及び情報処理装置4とは別に設けた1個の装置であってもよい。
更に、本実施形態に係る音声処理装置1は、図9に示したヘッドマウントディスプレイ5に限らず、表示部510を含まないハンズフリーヘッドセット等にも適用可能である。
[第2の実施形態]
図10は、第2の実施形態に係る音声処理装置の機能的構成を示す図である。図11は、第2の実施形態に係る音声処理装置における包絡特性補正部の機能的構成を示す図である。
図10に示すように、本実施形態に係る音声処理装置1は、音声信号取得部110と、音声信号合成部120と、音声信号出力部130と、記憶部190と、を備える。
音声信号取得部110は、第1のマイク2で収音した骨導音の音声信号(骨導音信号)と、第2のマイク3で収音した気導音の音声信号(気導音信号)とを取得する。音声信号合成部120は、骨導音信号と気導音信号とを所定の混合比で合成した合成音声信号を生成する。音声信号出力部130は、音声信号合成部120で生成した合成音声信号を情報処理装置4等に出力する。情報処理装置4は、例えば、通話機能或いは音声入力機能を備えた電子機器である。記憶部190は、音声信号合成部120が参照する各種関数等を記憶する。
音声信号合成部120は、分割部121と、音声区間判定部122と、変換部123と、雑音レベル推定部124と、雑音抑圧部125と、歪み度推定部126と、合成信号生成部127と、を含む。また、本実施形態に係る音声処理装置1における音声信号合成部120は、包絡特性補正部128を更に含む。
本実施形態に係る音声信号合成部120における分割部121、音声区間判定部122、変換部123、雑音レベル推定部124、雑音抑圧部125、歪み度推定部126、及び合成信号生成部127は、それぞれ、第1の実施形態で説明した機能を有する。また、本実施形態に係る音声処理装置1において歪み度推定部126が参照する歪み度推定関数は、第1の実施形態で説明したように、SN比の平均値が大きくなるにつれて歪み度が単調減少し、かつ平均変化率が異なる複数の区間を含む関数とする。なお、本実施形態に係る音声信号合成部120における合成信号生成部127は、気導音スペクトルと、包絡特性補正部128で補正された骨導音スペクトルとを合成する。
包絡特性補正部128は、骨導音信号の周波数スペクトルの包絡特性と、気導音信号の周波数スペクトルの包絡特性とに基づいて、骨導音信号の周波数スペクトルを補正する。ここで、包絡特性は、人の声道の特性を反映した、周波数スペクトルのなだらかな変動の特性である。包絡特性補正部128は、図11に示すように、包絡信頼度推定部128Aと、包絡特性抽出部128Bと、補正係数算出部128Cと、骨導音スペクトル補正部128Dと、を含む。
包絡信頼度推定部128Aは、気導音信号における音声区間の周波数スペクトルのSN比と、記憶部190に記憶させた包絡信頼度推定関数とに基づいて、処理対象のフレームの周波数スペクトルにおける各帯域の包絡特性の信頼度を推定する。
包絡特性抽出部128Bは、推定した包絡特性の信頼度に基づいて、骨導音スペクトルの包絡特性と、気導音スペクトルの包絡特性とを抽出する。包絡特性抽出部128Bは、骨導音スペクトルの全帯域のうちの包絡特性の信頼度が閾値以上である帯域のレベルに基づいて、骨導音スペクトルの包絡特性を抽出する。同様に、包絡特性抽出部128Bは、気導音スペクトルの全帯域のうちの包絡特性の信頼度が閾値以上である帯域のレベルに基づいて、気導音スペクトルの包絡特性を抽出する。
補正係数算出部128Cは、骨導音スペクトルの包絡特性と、気導音スペクトルの包絡特性とに基づいて、骨導音スペクトルの各帯域に適用する補正係数を算出する。
骨導音スペクトル補正部128Dは、補正係数算出部128Cで算出した補正係数に基づいて、骨導音スペクトルの各帯域のレベルを補正する。
図12は、周波数スペクトルの包絡特性を説明するグラフ図である。
図12には、雑音レベルが低い環境下で一人の発話者が発話したときの、気導音信号の周波数パワースペクトルSP1と、骨導音信号の周波数パワースペクトルSP2とを模式的に示している。図12に示したように、周波数が低い帯域では、気導音スペクトルSP1のパワー値と、骨導音スペクトルSP2のパワー値との差が小さい。しかしながら、骨導音信号は、気導音信号に比べて中音域から高音域の成分が減衰する傾向がある。このため、周波数が高い帯域では、気導音スペクトルSP1のパワー値と、骨導音スペクトルSP2のパワー値との差が大きくなる。したがって、骨導音信号と気導音信号を合成する際に骨導音信号の混合比率が高くなると、生成した合成信号は、中音域から高音域の成分が減衰した音声信号となる。よって、通話時等においては、再生した合成音声を聞く人に対し、中音域から高音域の成分の減衰による違和感を与える可能性がある。これに対し、本実施形態に係る音声処理装置1では、包絡特性補正部128により骨導音スペクトルにおける中音域から高音域のレベルを補正し、再生した合成音声を聞く人に違和感を与える可能性を第1の実施形態と比べて更に低減する。包絡特性補正部128は、まず、記憶部190に記憶させた包絡信頼度推定関数を参照し、処理対象のフレームの周波数スペクトルにおける各帯域の包絡特性の信頼度を推定する。
図13は、包絡信頼度推定関数の一例を示すグラフ図である。
図13に示したグラフ図において、横軸は周波数スペクトルにおけるSN比であり、縦軸は包絡信頼度E_refである。
図13に示すように、包絡信頼度推定関数F5は、SN比が第5の値SA5から第6の値SA6(>SA5)までの区間において、SN比に比例して包絡信頼度E_refが最小値0.0から最大値1.0に増加する関数である。また、包絡信頼度推定関数F5は、SN比が第6の値SA6よりも大きい値である場合には、SN比の値によらず常に包絡信頼度E_ref=1.0とする関数である。更に、包絡信頼度推定関数F5は、SN比が第5の値SA5よりも小さい値である場合には、SN比の値によらず常に包絡信頼度E_ref=0.0とする関数である。
なお、包絡信頼度推定関数F5は、関数(数式)として記憶部190に記憶させてもよいし、SN比の値と包絡信頼度E_refの値とを対応付けたテーブル等のデータとして記憶部190に記憶させてもよい。
本実施形態に係る音声処理装置1は、動作を開始させると、第1のマイク2で収音した骨導音信号と、第2のマイク3で収音した気導音信号とを取得し、取得した骨導音信号及び気導音信号を所定の時間長のフレームに分割していく処理を開始する。骨導音信号及び気導音信号の取得は、音声信号取得部110が行う。骨導音信号及び気導音信号をフレームに分割する処理は、音声合成部120の分割部121が行う。骨導音信号及び気導音信号を取得してフレームに分割する処理を開始した後、音声処理装置1は、分割したフレーム毎に、例えば、図14A及び図14Bに示した処理を行う。
図14Aは、第2の実施形態に係る音声信号の合成処理を説明するフローチャート(その1)である。図14Bは、第2の実施形態に係る音声信号の合成処理を説明するフローチャート(その2)である。
骨導音信号及び気導音信号を取得してフレームに分割する処理を開始した後、音声処理装置1は、まず、処理対象とする骨導音信号のフレームと気導音信号のフレームとの組を選択する(ステップS1)。ステップS1の処理は、例えば、音声区間判定部122が行う。音声区間判定部122は、所定の選択規則に従って合成処理の対象とするフレームの組を選択する。
処理対象とするフレームの組を選択した後、音声区間判定部122は、続けて、選択したフレームの組が音声区間のフレームであるか否かを判定する(ステップS2)。音声区間判定部122は、既知の判定方法に従って、選択したフレームが通話や音声入力等における有意な音声成分を含むフレームであるか否かを判定する。
選択したフレームが音声区間のフレームではない場合(ステップS2;NO)、音声処理装置1は、次に、選択したフレームにおける雑音レベルを推定し、該推定結果に基づいて気導音スペクトルの雑音成分を抑圧する(ステップS3)。ステップS3の処理は、変換部123と、雑音レベル推定部124と、雑音抑圧部125とが行う。ステップS3の処理では、まず、変換部123が骨導音信号のフレーム及び気導音信号のフレームを時間波形から周波数スペクトルに変換する。次に、雑音レベル推定部124が、雑音区間(非音声区間)における気導音信号の周波数スペクトルに基づいて、帯域毎の雑音レベルの推定値を算出する。雑音レベルを推定すると、次に、雑音抑圧部125が、雑音レベルの推定結果に基づいて、現在処理対象である気導音スペクトルの雑音成分を抑圧する。
ステップS3の処理を終えると、音声処理装置1は、次に、周波数スペクトルの歪み度を1に設定する(ステップS4)。ステップS4の処理は、歪み度推定部126が行う。
一方、選択したフレームが音声区間のフレームである場合(ステップS2;YES)、音声処理装置1は、次に、周波数スペクトルの歪み度を推定する(ステップS5)。ステップS5の処理は、変換部123と、歪み度推定部126が行う。変換部123は、骨導音信号のフレーム及び気導音信号のフレームを時間波形から周波数スペクトルに変換する。次に、歪み度推定部126が、処理対象のフレームにおける気導音信号についての周波数パワースペクトルと、処理済みのフレームにおける雑音レベルの推定結果とに基づいて、各帯域のSN比を算出する。例えば、歪み度推定部126は、周波数スペクトルにおけるM個の帯域(周波数ビン)を変数m(m=0,1,・・・,M−1)で識別し、各帯域のSN比SNR(m)を上記の式(1)により算出する。
式(1)により各帯域mのSN比SNR(m)を算出した後、歪み度推定部126は、処理対象の周波数パワースペクトルについてのSN比の平均値SNR_aveを、上記の式(2)により算出する。
その後、歪み度推定部126は、算出したSN比の平均値SNR_aveと、記憶部190に記憶させた歪み度推定関数(例えば、図2の歪み度推定関数F1)とに基づいて、処理対象のフレームにおける気導音スペクトルの歪み度E_errorを算出する。なお、歪み度推定関数は、図7に示した複数の一次関数を含む歪み度推定関数F2や、図8の(c)に示した雑音の非定常性を考慮した歪み度推定関数F3であってもよい。
ステップS5の処理を終えると、音声処理装置1は、次に、周波数スペクトルの各帯域の包絡信頼度を算出する(ステップS10)。ステップS10の処理は、包絡特性補正部128の包絡信頼度推定部128Aが行う。包絡信頼度推定部128Aは、気導音信号における処理対象のフレームの周波数パワースペクトル(気導音パワースペクトル)と、処理済みのフレームにおける雑音レベルの推定結果とに基づいて、各帯域のSN比を算出する。例えば、包絡信頼度推定部128Aは、気導音パワースペクトルにおける各帯域mのSN比SNR(m)を式(1)により算出する。なお、包絡信頼度推定部128Aは、式(1)によりSN比SNR(m)を算出する代わりに、ステップS5の処理において算出したSN比SNR(m)を歪み度推定部126から取得してもよい。
各帯域mのSN比SNR(m)を算出した後、包絡信頼度推定部128Aは、帯域m毎に、SN比SNR(m)と、包絡信頼度推定関数F5とに基づいて、包絡信頼度E_ref(m)を算出する(推定する)。
ステップS10の処理を終えると、音声処理装置1は、次に、処理済みのフレームにおける雑音レベルの推定結果に基づいて、気導音スペクトルの雑音成分を抑圧する(ステップS6)。ステップS6の処理は、雑音抑圧部125が行う。ステップS6の処理を行う場合、雑音抑圧部125は、記憶部190を参照して処理済みのフレームにおける雑音レベルの推定結果を取得し、当該雑音レベルの推定結果に基づいて、現在処理対象である気導音スペクトルの雑音成分を抑圧する。
ステップS3,S4の処理、及びステップS5,S10,S6の処理のいずれかを終えると、音声処理装置1は、次に、図14Bに示すように、包絡信頼度に基づいて気導音スペクトル及び骨導音スペクトルの包絡特性を抽出する(ステップS11)。ステップS11の処理は、包絡特性補正部128の包絡特性抽出部128Bが行う。包絡特性抽出部128Bは、まず、気導音信号についての周波数パワースペクトル(気導音パワースペクトル)から各帯域mの包絡特性SS1(m)を抽出する。この際、包絡特性抽出部128Bは、気導音パワースペクトルの全帯域のうちの包絡信頼度の推定値E_ref(m)が閾値よりも大きい帯域のパワー値のみを用いて、包絡特性SS1(m)を抽出する。包絡特性抽出部128Bは、既知の抽出方法に従って、包絡特性SS1(m)を抽出する。例えば、包絡特性抽出部128Bは、周波数方向にローパスフィルタをかけて周波数パワースペクトルの微細構造を除去するローパスフィルタ処理により、包絡特性SS1(m)を抽出する。また、包絡特性抽出部128Bは、例えば、周波数方向のサブバンド毎の平均パワーで周波数パワースペクトルを平準化して包絡特性SS1(m)を抽出してもよい。
同様に、包絡特性抽出部128Bは、骨導音信号についての周波数パワースペクトル(骨導音パワースペクトル)から各帯域mの包絡特性SS2(m)を抽出する。包絡特性抽出部128Bは、骨導音パワースペクトルの全帯域のうちの包絡信頼度の推定値E_ref(m)が閾値よりも大きい帯域のパワー値のみを用い、包絡特性SS1(m)と同じ抽出方法により、包絡特性SS2(m)を抽出する。
ステップS11の処理を終えると、音声処理装置1は、次に、抽出した包絡特性に基づいて補正係数を算出する(ステップS12)。ステップS12の処理は、包絡特性補正部128の補正係数算出部128Cが行う。補正係数算出部128Cは、下記式(5)により、各帯域mの補正係数adj(m)を算出する。
adj(m)=SS1(m)/SS2(m) ・・・(5)
次に、音声処理装置1は、算出した補正係数を適用して骨導音スペクトルを補正する(ステップS13)。ステップS13の処理は、包絡特性補正部128の骨導音スペクトル補正部128Dが行う。骨導音スペクトル補正部128Dは、下記式(6)により、骨導音パワースペクトルにおける各帯域mのパワー値FSPEC(m)を、補正パワー値FSPEC_mod(m)に補正する。
FSpec_mod(m)=adj(m)×FSPEC(m) ・・・(6)
次に、音声処理装置1は、推定した歪み度に基づく混合比で骨導音スペクトルと気導音スペクトルとを混合し、得られた周波数スペクトルを時間波形に変換する(ステップS7)。ステップS7の処理は、合成信号生成部127が行う。合成信号生成部127は、まず、周波数スペクトルにおける帯域毎の合成レベルFS_out(m)を上記の式(3)により算出する。なお、処理対象のフレームが音声区間のフレームである場合、合成信号生成部127は、SN比の平均値SNR_aveと、歪み度推定関数F1(図2を参照)とに基づいて算出した歪み度E_errorを用いて、各帯域の合成レベルFS_out(m)を算出する。一方、処理対象のフレームが音声区間のフレームではない場合、合成信号生成部127は、歪み度E_errorを「1」として、各帯域の合成レベルFS_out(m)を算出する。
式(3)により各帯域m(m=0,1,・・・M−1)の合成レベルFS_out(m)を算出した後、合成信号生成部127は、合成レベルFS_out(m)により表される周波数スペクトルを時間波形に変換する。合成信号生成部127が生成した時間波形(合成音声信号)を音声信号出力部130に渡すと、音声処理装置1(音声信号合成部120)は、選択したフレームに対する音声信号の合成処理を終了する。
なお、音声処理装置1は、図14A及び図14Bに示した処理を一連の処理として逐次実行方式で実行してもよいし、パイプライン化して実行してもよい。
ここで、図15A及び図15Bを参照し、本実施形態に係る音声信号の合成処理における骨導音信号の周波数スペクトルの補正方法を具体的に説明する。
図15Aは、骨導音信号の周波数スペクトルの補正方法を説明するグラフ図(その1)である。図15Bは、骨導音信号の周波数スペクトルの補正方法を説明するグラフ図(その2)である。
図15Aの(a)のグラフ図には、気導音信号の周波数パワースペクトルSP1と、該周波数パワースペクトルの包絡特性SS1との例を示している。包絡特性SS1は、上記のように、周波数パワースペクトルSP1における全帯域のうちの、包絡信頼度の推定値E_ref(m)が閾値よりも大きい帯域mのパワー値のみを用いて抽出している。
一方、図15Aの(b)のグラフ図には、気導音信号と同時に収音した骨導音信号の周波数パワースペクトルSP2と、該周波数パワースペクトルの包絡特性SS2との例を示している。包絡特性SS2は、上記のように、周波数パワースペクトルSP2における全帯域のうちの、包絡信頼度の推定値E_ref(m)が閾値よりも大きい帯域のパワー値のみを用いて抽出している。また、図15Aの(b)のグラフ図には、気導音信号の周波数パワースペクトルSP1から抽出した包絡特性SS1を太い点線で示している。気導音スペクトルSP1の包絡特性SS1と、骨導音スペクトルSP2の包絡特性SS2とを比較すると、中音域から高音域において、骨導音スペクトルSP2の包絡特性SS2が気導音スペクトルSP1の包絡特性SS1よりも小さくなっている。このため、音声区間の骨導音信号と気導音信号を合成する際に骨導音信号の合成比率が高くなると、合成音声信号は、高音域のレベルが低い音声信号となり、気導音を聞きなれている人(骨導音を聞きなれていない人)に違和感を与える可能性がある。よって、本実施形態では、骨導音スペクトルSP2の包絡特性SS2を気導音スペクトルSP1の包絡特性SP1に近づける補正を行う。
図15Bの(c)のグラフ図には、補正係数adj(m)の算出方法を模式的に示している。補正係数adj(m)は、上記の式(6)により算出する。このため、周波数が第1の周波数F1以下である帯域のように、気導音スペクトルSP1の包絡特性SS1と、骨導音スペクトルSP2の包絡特性SS2との差が非常に小さい場合、補正係数adj(m)はほぼ1となる。
また、気導音スペクトルSP1の包絡特性SS1と、骨導音スペクトルSP2の包絡特性SS2との差が大きいほど、式(6)により算出される補正係数adj(m)は大きくなる。このため、図15Bの(c)のグラフ図における第3の周波数F3を含む帯域m3に対する補正係数adj(m3)は、第2の周波数F2を含む帯域m2に対する補正係数adj(m2)よりも大きな値となる。同様に、第4の周波数F4を含む帯域m4に対する補正係数adj(m4)は、第3の周波数F3を含む帯域m3に対する補正係数adj(m3)よりも大きな値となる。
式(6)により算出した各帯域mに対する補正係数adj(m)を用いて骨導音スペクトルSP2の各帯域のパワー値を補正すると、骨導音スペクトルSP2は、図15Bの(d)に示したグラフ図のように補正される。図15Bの(d)のグラフ図では、点線で示したスペクトル波形が補正前の骨導音スペクトルSP2であり、実線で示したスペクトル波形が補正後の骨導音スペクトルである。補正後の骨導音スペクトルは、周波数が第2の周波数F2よりも大きい区間におけるパワー値が顕著に増加しており、包絡特性が図15Bの(c)に示した気導音スペクトルSP1の包絡特性SS1に近づいている。よって、骨導音信号と気導音信号とを合成する際に骨導音信号の合成比率が多い場合でも、中音域から高音域の成分の減衰等による違和感を抑制することが可能となる。また、骨導音信号は気導音信号と比べて雑音レベルが低いので、骨導音信号における中音域から高音域の成分を増幅させても、合成音声信号の雑音レベルが顕著に増大することはない。更に、本実施形態では、処理対象のフレームにおける包絡信頼度が高い帯域のSN比のみに基づいて包絡特性を抽出している。このため、本実施形態に係る骨導音スペクトルの補正処理では、処理対象のフレームにおける雑音レベルに応じて骨導音スペクトルの包絡特性を適切に補正することが可能となる。したがって、本実施形態によれば、骨導音信号の混合比率が高い場合に中音域から高音域の成分が減衰し、合成音声信号を聞いた人に篭り等の違和感を与える可能性を低減することが可能となる。よって、本実施形態によれば、気導音信号と骨導音信号とを合成した音声信号の音質を向上させることが可能となる。
なお、本実施形態に係る音声合成処理に用いる歪み度推定関数は、図2に示した歪み度推定関数F1に限らず、図7に示した歪み度推定関数F2や、図8の(c)に示した歪み度推定関数F3等であってもよい。更に、歪み度推定関数は、上記の歪み度推定関数F1,F2,F3に限らず、SN比等の客観的な音質の評価と、主観音声スコア等の主観的な音質の評価との関係を考慮した(反映した)関数であればよい。
また、図14A及び図14Bのフローチャートは、本実施形態に係る音声信号の合成処理の一例に過ぎない。本実施形態に係る音声信号の合成処理は、本実施形態の要旨を逸脱しない範囲において、適宜変更可能である。ステップS2において処理対象のフレームが音声区間であるか否かを判定する際には、上記の方法とは異なる方法で骨導音信号における音声区間を検出し、処理対象のフレームが音声区間であるか否かを判定してもよい。また、処理対象のフレームが非音声区間である場合に行う、雑音レベルを推定して雑音成分を抑圧する処理(ステップS3)と、歪み度(の推定値)を1に設定する処理(ステップS4)とは、順序が逆であってもよいし、並列に行ってもよい。同様に、処理対象のフレームが音声区間である場合に行う、歪み度(の推定値)を算出する処理(ステップS5)と、包絡信頼度の推定値を算出する処理(ステップS10)と、雑音成分を抑圧する処理(ステップS6)とは、順序を変えてもよいし、並列に行ってもよい。更に、本実施形態に係る音声信号の合成処理は、骨導音スペクトルと気導音スペクトルとを合成した後、合成した周波数スペクトルを合成音声信号として情報処理装置4等に出力する装置であってもよい。
また、本実施形態に係る音声処理装置1は、例えば、図9に示した音声入力が可能なヘッドマウントディスプレイ5や、表示部510を含まないハンズフリーヘッドセット等に適用可能である。
加えて、上記の各実施形態に係る音声処理装置1は、それ自体を、コンピュータと、当該コンピュータに実行させるプログラムとにより実現可能である。以下、図16を参照して、コンピュータとプログラムとにより実現される音声処理装置1について説明する。
図16は、コンピュータのハードウェア構成を示す図である。
図16に示すように、コンピュータ9は、プロセッサ901と、主記憶装置902と、補助記憶装置903と、入力装置904と、出力装置905と、入出力インタフェース906と、通信制御装置907と、媒体駆動装置908と、を備える。コンピュータ9におけるこれらの要素901〜908は、バス910により相互に接続されており、要素間でのデータの受け渡しが可能になっている。
プロセッサ901は、Central Processing Unit(CPU)やMicro Processing Unit(MPU)等である。プロセッサ901は、オペレーティングシステムを含む各種のプログラムを実行することにより、コンピュータ9の全体の動作を制御する。また、プロセッサ901は、例えば、図3に示した音声信号の合成処理、或いは図14A及び図14Bに示した音声信号の合成処理を含む音声処理プログラムを実行する。
主記憶装置902は、図示しないRead Only Memory(ROM)及びRandom Access Memory(RAM)を含む。主記憶装置902のROMには、例えば、コンピュータ9の起動時にプロセッサ901が読み出す所定の基本制御プログラム等が予め記録されている。一方、主記憶装置902のRAMは、プロセッサ901が、各種のプログラムを実行する際に必要に応じて作業用記憶領域として使用する。主記憶装置902のRAMは、例えば、図1或いは図10に示した音声処理装置1における記憶部190として利用可能である。すなわち、主記憶装置902のRAMは、雑音の抑圧に用いる抑圧係数、歪み度推定関数、包絡信頼度推定関数等の記憶や、骨導音信号、骨導音スペクトル、気導音信号、及び気導音スペクトルの記憶に利用可能である。
補助記憶装置903は、主記憶装置902のRAMと比べて容量の大きい記憶装置であり、例えば、Hard Disk Drive(HDD)や、フラッシュメモリのような不揮発性メモリ(Solid State Drive(SSD)を含む)等である。補助記憶装置903は、プロセッサ901によって実行される各種のプログラムや各種のデータ等の記憶に利用可能である。補助記憶装置903は、例えば、図3に示した音声信号の合成処理、或いは図14A及び図14Bに示した音声信号の合成処理を含む音声処理プログラム等の記憶に利用可能である。また、補助記憶装置903は、例えば、図1或いは図10に示した音声処理装置1における記憶部190として利用可能である。すなわち、補助記憶装置903は、雑音の抑圧に用いる抑圧係数、歪み度推定関数、包絡信頼度推定関数等の記憶や、骨導音信号、骨導音スペクトル、気導音信号、及び気導音スペクトルの記憶に利用可能である。
入力装置904は、例えば、キーボード装置やタッチパネル装置等である。コンピュータ9のオペレータ(利用者)が入力装置904に対して所定の操作を行うと、入力装置904は、その操作内容に対応付けられている入力情報をプロセッサ901に送信する。入力装置904は、例えば、音声信号の合成処理を開始させる命令、コンピュータ9が実行可能な他の処理に関する命令等の入力や、各種設定値の入力等に利用可能である。
出力装置905は、例えば、液晶表示装置等の表示装置やレシーバ等の音声出力装置である。
入出力インタフェース906は、コンピュータ9と、他の電子機器とを接続する。入出力インタフェース906は、例えば、Universal Serial Bus(USB)規格のコネクタ等を備える。入出力インタフェース906は、例えば、コンピュータ9と第1のマイク2との接続、並びにコンピュータ9と第2のマイク3との接続等に利用可能である。また、入出力インタフェース906は、例えば、コンピュータ9と、図1等に示した情報処理装置4との接続にも利用可能である。
通信制御装置907は、コンピュータ9をインターネット等のネットワークに接続し、ネットワークを介したコンピュータ9と他の通信機器との各種通信を制御する装置である。通信制御装置907は、例えば、コンピュータ9と、携帯電話端末等の通話可能な電子機器との音声通信等に利用可能である。
媒体駆動装置908は、可搬型記憶媒体10に記録されているプログラムやデータの読み出し、補助記憶装置903に記憶されたデータ等の可搬型記憶媒体10への書き込みを行う。媒体駆動装置908には、例えば、1種類又は複数種類の規格に対応したメモリカード用リーダ/ライタが利用可能である。媒体駆動装置908としてメモリカード用リーダ/ライタを用いる場合、可搬型記憶媒体10としては、メモリカード用リーダ/ライタが対応している規格、例えば、Secure Digital(SD)規格のメモリカード(フラッシュメモリ)等を利用可能である。また、可搬型記録媒体10としては、例えば、USB規格のコネクタを備えたフラッシュメモリが利用可能である。更に、コンピュータ9が媒体駆動装置908として利用可能な光ディスクドライブを搭載している場合、当該光ディスクドライブで認識可能な各種の光ディスクを可搬型記録媒体10として利用可能である。可搬型記録媒体10として利用可能な光ディスクには、例えば、Compact Disc(CD)、Digital Versatile Disc(DVD)、Blu-ray Disc(Blu-rayは登録商標)等がある。可搬型記録媒体10は、図3に示した音声信号の合成処理、或いは図14A及び図14Bに示した音声信号の合成処理を含む音声処理プログラム等の記憶に利用可能である。また、可搬型記録媒体10は、例えば、図1或いは図10に示した音声処理装置1における記憶部190として利用可能である。すなわち、可搬型記録媒体10は、雑音の抑圧に用いる抑圧係数、歪み度推定関数、包絡信頼度推定関数等の記憶や、骨導音信号、骨導音スペクトル、気導音信号、及び気導音スペクトルの記憶に利用可能である。
オペレータが入力装置904等を利用して音声信号の合成処理を開始する命令をコンピュータ9に入力すると、プロセッサ901が、補助記憶装置903等の非一時的な記録媒体に記憶させた音声処理プログラムを読み出して実行する。この処理において、プロセッサ901は、図1又は図10の音声処理装置1における音声信号合成部120として機能する(動作する)。また、プロセッサ901は、入出力インタフェース906を介して第1のマイク2から骨導音信号を取得するとともに、第2のマイク3から気導音信号を取得する。また、プロセッサ901は、例えば、合成した音声信号に基づく音声認識処理を行ってもよいし、合成した音声信号を入出力インタフェース906、或いは通信制御装置907を介して情報処理装置4等の外部装置に出力してもよい。プロセッサ901がこれらの処理を行っている間、主記憶装置902のRAMや補助記憶装置903等は、図1又は図10の音声処理装置1における記憶部190として機能する。
なお、音声処理装置1として動作させるコンピュータ9は、図16に示した全ての要素901〜908を含む必要はなく、用途や条件に応じて一部の要素を省略することも可能である。例えば、コンピュータ9は、通信制御装置907や媒体駆動装置908が省略されたものであってもよい。
以上記載した各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
骨導音マイクで収音した骨導音信号と、気導音マイクで収音した気導音信号とを取得する音声信号取得部と、
前記気導音信号における雑音成分とは異なる所定の音声成分を含む音声区間の信号対雑音比を取得し、前記信号対雑音比と、前記音声信号の歪み度との関係を規定した歪み度推定関数に基づいて、前記気導音信号における前記音声区間の歪み度を推定する歪み度推定部と、
前記気導音信号の前記音声区間と、前記骨導音信号における前記気導音信号の前記音声区間と対応する音声区間とを、前記歪み度推定部で推定した前記歪み度に基づく混合比で合成した合成音声信号を生成する合成信号生成部と、
を備え、
前記歪み度推定部は、前記信号対雑音比が大きくなるにつれて前記歪み度の値が単調に変化する歪み度変化区間を含み、かつ前記歪み度変化区間内の前記信号対雑音比の最小値及び最大値を含まない区間における前記信号対雑音比に対する前記歪み度の平均変化率の絶対値が、前記信号対雑音比の最小値又は最大値を含む区間における前記平均変化率の絶対値よりも大きい前記歪み度推定関数に基づいて、前記歪み度を推定する、
ことを特徴とする音声処理装置。
(付記2)
前記歪み度推定部は、前記気導音信号についての周波数スペクトルにおける全帯域の信号対雑音比から信号対雑音比の平均値を算出し、当該信号対雑音比の平均値を前記歪み度推定関数に基づいて前記歪み度を推定する際の前記信号対雑音比とする、
ことを特徴とする付記1に記載の音声処理装置。
(付記3)
前記歪み度推定関数の前記歪み度変化区間は、前記信号対雑音比が大きくなるにつれて前記歪み度の値が単調減少する区間であり、
前記合成信号生成部は、前記歪み度の最大値を1とし、前記歪み度の最小値を0としたときの推定した前記歪み度の値を前記骨導音信号の混合比率として前記合成音声信号を生成する、
ことを特徴とする付記1に記載の音声処理装置。
(付記4)
前記歪み度推定関数は、前記歪み度減少区間内に変曲点が存在し、かつ前記歪み度減少区間のうちの前記信号対雑音比が前記変曲点における信号対雑音比よりも小さい区間では、前記信号対雑音比が大きくなるにつれて微分係数の絶対値が大きくなり、前記歪み度減少区間のうちの前記信号対雑音比が前記変曲点における信号対雑音比よりも大きい区間では、前記信号対雑音比が大きくなるにつれて微分係数の絶対値が小さくなる三次関数である、
ことを特徴とする付記3に記載の音声処理装置。
(付記5)
前記歪み度推定関数は、前記歪み度減少区間内に一次関数で規定される複数の区間を含み、前記歪み度減少区間における信号対雑音比の最小値を含む第1の区間と、前記歪み度減少区間における信号対雑音比の最大値を含む第3の区間との間となる第2の区間における前記一次関数の微分係数が、前記第1の区間における前記一次関数の微分係数及び前記第3の区間における前記一次関数の微分係数よりも小さい関数である、
ことを特徴とする付記3に記載の音声処理装置。
(付記6)
前記音声処理装置は、
前記気導音信号の周波数スペクトルにおける包絡特性と、前記骨導音信号の周波数スペクトルにおける包絡特性とに基づいて、前記骨導音信号の周波数スペクトルを補正する包絡特性補正部、を更に備え、
前記合成信号生成部は、前記気導音信号の周波数スペクトルと、補正した前記骨導音信号の周波数スペクトルとを前記歪み度に基づく混合比で合成した合成音声信号を生成する、
ことを特徴とする付記1に記載の音声処理装置。
(付記7)
前記包絡特性補正部は、
前記気導音信号の周波数スペクトルの全帯域のうちの、信号対雑音比と、包絡信頼度との関係を規定した包絡信頼度推定関数に基づいて推定した包絡信頼度が所定の閾値以上である帯域のレベルに基づいて、前記気導音信号の周波数スペクトルにおける包絡特性を抽出するとともに、前記骨導音信号の周波数スペクトルの全帯域のうちの、前記包絡信頼度推定関数に基づいて推定した包絡信頼度が所定の閾値以上である帯域のレベルに基づいて、前記骨導音信号の周波数スペクトルにおける包絡特性を抽出する包絡特性抽出部を含む、
ことを特徴とする付記6に記載の音声処理装置。
(付記8)
前記包絡特性補正部は、
前記骨導音信号の周波数スペクトルの帯域毎に、前記気導音信号の周波数スペクトルにおける包絡特性のレベルを前記骨導音信号の周波数スペクトルにおける包絡特性のレベルで除した補正係数を算出する補正係数算出部と、
算出した前記補正係数に基づいて、前記骨導音信号の周波数スペクトルの各帯域のレベルを補正する骨導音スペクトル補正部と、を含む、
ことを特徴とする付記6に記載の音声処理装置。
(付記9)
前記音声処理装置は、
前記気導音信号における前記音声成分を含まない非音声区間における雑音レベルを推定する雑音レベル推定部と、
推定した前記雑音レベルに基づいて前記気導音信号に含まれる雑音成分を抑圧する雑音抑圧部と、を更に備え、
前記合成信号生成部は、前記雑音成分を抑圧した前記気導音信号と、前記骨導音信号とを合成した合成音声信号を生成する、
ことを特徴とする付記1に記載の音声処理装置。
(付記10)
骨導音マイクで収音した骨導音信号と、気導音マイクで収音した気導音信号とを取得し、
前記気導音信号における雑音成分とは異なる所定の音声成分を含む音声区間の信号対雑音比を算出し、
前記気導音マイクで収音した音声信号における前記信号対雑音比と、前記音声信号の歪み度との関係を規定する関数であって、前記信号対雑音比が大きくなるにつれて前記歪み度の値が単調に変化する歪み度変化区間を含み、かつ前記歪み度変化区間内の前記信号対雑音比の最小値及び最大値を含まない区間における前記信号対雑音比に対する前記歪み度の平均変化率の絶対値が、前記信号対雑音比の最小値又は最大値を含む区間における前記平均変化率の絶対値よりも大きい歪み度推定関数に基づいて、取得した前記気導音信号における前記音声区間の歪み度を推定し、
前記気導音信号の前記音声区間と、前記骨導音信号における前記気導音信号の前記音声区間と対応する音声区間とを、推定した前記歪み度に基づく混合比で合成した合成音声信号を生成する、
処理をコンピュータに実行させる音声処理プログラム。
(付記11)
前記合成音声信号を生成する前に、前記コンピュータが、前記気導音信号の周波数スペクトルにおける包絡特性と、前記骨導音信号の周波数スペクトルにおける包絡特性とに基づいて、前記骨導音信号の周波数スペクトルを補正する処理を、更に含み、
前記合成音声信号を生成する処理は、前記気導音信号の周波数スペクトルと、補正した前記骨導音信号の周波数スペクトルとを前記歪み度に基づく混合比で合成した合成音声信号を生成する処理である、
ことを特徴とする付記10に記載の音声処理プログラム。
(付記12)
前記合成音声信号を生成する前に、前記コンピュータが、前記気導音信号に含まれる雑音成分を抑圧する処理、を更に含み、
前記合成音声信号を生成する処理は、前記雑音成分を抑圧した前記気導音信号の周波数スペクトルと、前記骨導音信号の周波数スペクトルとを合成する、
ことを特徴とする付記10に記載の音声処理プログラム。
1 音声処理装置
110 音声信号取得部
120 音声信号合成部
121 分割部
122 音声区間判定部
123 変換部
124 雑音レベル推定部
125 雑音抑圧部
126 歪み度推定部
127 合成信号生成部
128 包絡特性補正部
128A 包絡信頼度推定部
128B 包絡特性抽出部
128C 補正係数算出部
128D 骨導音スペクトル補正部
130 音声信号出力部
190 記憶部
2 第1のマイク
3 第2のマイク
4 情報処理装置
5 ヘッドマウントディスプレイ
510 表示部
520 固定部
530 アーム
540 音声出力部
550 入出力部
560 表示制御部
9 コンピュータ
901 プロセッサ
902 主記憶装置
903 補助記憶装置
904 入力装置
905 出力装置
906 入出力インタフェース
907 通信制御装置
908 媒体駆動装置
10 可搬型記録媒体

Claims (9)

  1. 骨導音マイクで収音した骨導音信号と、気導音マイクで収音した気導音信号とを取得する音声信号取得部と、
    前記気導音信号における雑音成分とは異なる所定の音声成分を含む音声区間の信号対雑音比を取得し、前記信号対雑音比と、前記音声信号の歪み度との関係を規定した歪み度推定関数に基づいて、前記気導音信号における前記音声区間の歪み度を推定する歪み度推定部と、
    前記気導音信号の前記音声区間と、前記骨導音信号における前記気導音信号の前記音声区間と対応する音声区間とを、前記歪み度推定部で推定した前記歪み度に基づく混合比で合成した合成音声信号を生成する合成信号生成部と、
    を備え、
    前記歪み度推定部は、前記信号対雑音比が大きくなるにつれて前記歪み度の値が単調に変化する歪み度変化区間を含み、かつ前記歪み度変化区間内の前記信号対雑音比の最小値及び最大値を含まない区間における前記信号対雑音比に対する前記歪み度の平均変化率の絶対値が、前記信号対雑音比の最小値を含む区間における前記平均変化率の絶対値、及び前記信号対雑音比の最大値を含む区間における前記平均変化率の絶対値よりも大きい前記歪み度推定関数に基づいて、前記歪み度を推定する、
    ことを特徴とする音声処理装置。
  2. 前記歪み度推定部は、前記気導音信号についての周波数スペクトルにおける全帯域の信号対雑音比から信号対雑音比の平均値を算出し、当該信号対雑音比の平均値を前記歪み度推定関数に基づいて前記歪み度を推定する際の前記信号対雑音比とする、
    ことを特徴とする請求項1に記載の音声処理装置。
  3. 前記歪み度推定関数の前記歪み度変化区間は、前記信号対雑音比が大きくなるにつれて前記歪み度の値が単調減少する区間であり、
    前記合成信号生成部は、前記歪み度の最大値を1とし、前記歪み度の最小値を0としたときの推定した前記歪み度の値を前記骨導音信号の混合比率として前記合成音声信号を生成する、
    ことを特徴とする請求項1に記載の音声処理装置。
  4. 前記歪み度推定関数は、前記歪み度変化区間内に変曲点が存在し、かつ前記歪み度変化区間のうちの前記信号対雑音比が前記変曲点における信号対雑音比よりも小さい区間では、前記信号対雑音比が大きくなるにつれて微分係数の絶対値が大きくなり、前記歪み度変化区間のうちの前記信号対雑音比が前記変曲点における信号対雑音比よりも大きい区間では、前記信号対雑音比が大きくなるにつれて微分係数の絶対値が小さくなる三次関数である、
    ことを特徴とする請求項3に記載の音声処理装置。
  5. 前記歪み度推定関数は、前記歪み度変化区間内に一次関数で規定される複数の区間を含み、前記歪み度変化区間における信号対雑音比の最小値を含む第1の区間と、前記歪み度変化区間における信号対雑音比の最大値を含む第3の区間との間となる第2の区間における前記一次関数の微分係数が、前記第1の区間における前記一次関数の微分係数及び前記第3の区間における前記一次関数の微分係数よりも小さい関数である、
    ことを特徴とする請求項3に記載の音声処理装置。
  6. 前記音声処理装置は、
    前記気導音信号の周波数スペクトルにおける包絡特性と、前記骨導音信号の周波数スペクトルにおける包絡特性とに基づいて、前記骨導音信号の周波数スペクトルを補正する包絡特性補正部、を更に備え、
    前記合成信号生成部は、前記気導音信号の周波数スペクトルと、補正した前記骨導音信号の周波数スペクトルとを前記歪み度に基づく混合比で合成した合成音声信号を生成する、
    ことを特徴とする請求項1に記載の音声処理装置。
  7. 前記音声処理装置は、
    前記気導音信号における前記音声成分を含まない非音声区間における雑音レベルを推定する雑音レベル推定部と、
    推定した前記雑音レベルに基づいて前記気導音信号に含まれる雑音成分を抑圧する雑音抑圧部と、を更に備え、
    前記合成信号生成部は、前記雑音成分を抑圧した前記気導音信号と、前記骨導音信号とを合成した合成音声信号を生成する、
    ことを特徴とする請求項1に記載の音声処理装置。
  8. 骨導音マイクで収音した骨導音信号と、気導音マイクで収音した気導音信号とを取得し、
    前記気導音信号における雑音成分とは異なる所定の音声成分を含む音声区間の信号対雑音比を算出し、
    前記気導音マイクで収音した音声信号における前記信号対雑音比と、前記音声信号の歪み度との関係を規定する関数であって、前記信号対雑音比が大きくなるにつれて前記歪み度の値が単調に変化する歪み度変化区間を含み、かつ前記歪み度変化区間内の前記信号対雑音比の最小値及び最大値を含まない区間における前記信号対雑音比に対する前記歪み度の平均変化率の絶対値が、前記信号対雑音比の最小値又は最大値を含む区間における前記平均変化率の絶対値よりも大きい歪み度推定関数に基づいて、取得した前記気導音信号における前記音声区間の歪み度を推定し、
    前記気導音信号の前記音声区間と、前記骨導音信号における前記気導音信号の前記音声区間と対応する音声区間とを、推定した前記歪み度に基づく混合比で合成した合成音声信号を生成する、
    処理をコンピュータに実行させる音声処理プログラム。
  9. 前記合成音声信号を生成する前に、前記コンピュータが、前記気導音信号の周波数スペクトルにおける包絡特性と、前記骨導音信号の周波数スペクトルにおける包絡特性とに基づいて、前記骨導音信号の周波数スペクトルを補正する処理を、更に含み、
    前記合成音声信号を生成する処理は、前記気導音信号の周波数スペクトルと、補正した前記骨導音信号の周波数スペクトルとを前記歪み度に基づく混合比で合成した合成音声信号を生成する処理である、
    ことを特徴とする請求項8に記載の音声処理プログラム。
JP2016202779A 2016-10-14 2016-10-14 音声処理装置及び音声処理プログラム Pending JP2018063400A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016202779A JP2018063400A (ja) 2016-10-14 2016-10-14 音声処理装置及び音声処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016202779A JP2018063400A (ja) 2016-10-14 2016-10-14 音声処理装置及び音声処理プログラム

Publications (1)

Publication Number Publication Date
JP2018063400A true JP2018063400A (ja) 2018-04-19

Family

ID=61966685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016202779A Pending JP2018063400A (ja) 2016-10-14 2016-10-14 音声処理装置及び音声処理プログラム

Country Status (1)

Country Link
JP (1) JP2018063400A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021012403A1 (zh) * 2019-07-25 2021-01-28 华南理工大学 一种双传感器语音增强方法及实现装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021012403A1 (zh) * 2019-07-25 2021-01-28 华南理工大学 一种双传感器语音增强方法及实现装置

Similar Documents

Publication Publication Date Title
US10433075B2 (en) Low latency audio enhancement
JP5493611B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP4219898B2 (ja) 音声強調装置
JP5528538B2 (ja) 雑音抑圧装置
EP2265039B1 (en) Hearing aid
JP5387459B2 (ja) 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
KR101837331B1 (ko) 보청기 시스템을 동작시키는 방법 및 보청기 시스템
JP6668995B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
JP6073456B2 (ja) 音声強調装置
JP4914319B2 (ja) コミュニケーション音声処理方法とその装置、及びそのプログラム
EP2689419B1 (en) Method and arrangement for damping dominant frequencies in an audio signal
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP2008309955A (ja) ノイズサプレス装置
JPWO2018167960A1 (ja) 会話装置、音声処理システム、音声処理方法、および音声処理プログラム
WO2012098856A1 (ja) 補聴器、及び、補聴器の制御方法
JP2018063400A (ja) 音声処理装置及び音声処理プログラム
JPH11265199A (ja) 送話器
JP5840087B2 (ja) 音声信号復元装置および音声信号復元方法
JP6794887B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
WO2022193327A1 (zh) 信号处理系统、方法、装置及存储介质
EP4354898A1 (en) Ear-mounted device and reproduction method
JP5149872B2 (ja) 音響信号送信装置、音響信号受信装置、音響信号送信方法、音響信号受信方法及びそのプログラム
JP7013789B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
WO2022141364A1 (zh) 生成音频的方法和系统