JP6677110B2 - 音声信号処理装置及び音声信号処理プログラム - Google Patents

音声信号処理装置及び音声信号処理プログラム Download PDF

Info

Publication number
JP6677110B2
JP6677110B2 JP2016139753A JP2016139753A JP6677110B2 JP 6677110 B2 JP6677110 B2 JP 6677110B2 JP 2016139753 A JP2016139753 A JP 2016139753A JP 2016139753 A JP2016139753 A JP 2016139753A JP 6677110 B2 JP6677110 B2 JP 6677110B2
Authority
JP
Japan
Prior art keywords
audio signal
frequency region
bands
high frequency
bandwidth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016139753A
Other languages
English (en)
Other versions
JP2018010207A (ja
Inventor
遠藤 香緒里
香緒里 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Connected Technologies Ltd
Original Assignee
Fujitsu Connected Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Connected Technologies Ltd filed Critical Fujitsu Connected Technologies Ltd
Priority to JP2016139753A priority Critical patent/JP6677110B2/ja
Publication of JP2018010207A publication Critical patent/JP2018010207A/ja
Application granted granted Critical
Publication of JP6677110B2 publication Critical patent/JP6677110B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声信号処理装置及び音声信号処理プログラムに関する。
高音質化を実現するためには広帯域の音声信号処理に対応する必要があるが、広帯域の音声信号処理では情報量が増大するため、音声信号処理の負担が増大する。例えば、入力音声信号を低域周波数雑音成分が含まれる低域音声信号と高域周波数雑音成分が含まれる高域音声信号とに分割し、入力音声信号のパワーが大きい低域音声信号をダウンサンプリングして入力音声信号から間引く技術が存在する。これにより、低域音声信号に対して、少ない演算量でより高度な雑音抑圧処理を行うことができる。また、入力音声信号のパワーが小さい高域音声信号に対しては、低域音声信号への雑音抑制処理よりも簡単な雑音抑制処理を行うことで、より少ない演算量で音声歪みを低減し、かつ、雑音を除去することで音質を劣化させない。したがって、音声信号処理の負担を低減することができる。
しかしながら、騒音を含む音声の音声信号は、状況によりその周波数特性が変化する。例えば、子音区域など、高域音声信号に音声特徴の情報が多く含まれる場合、または、騒音の高域周波数成分の定常性が低い場合などに、高域音声信号に簡単な雑音抑制処理を実行すると、音声歪みが多くなり、雑音を十分に除去できない場合がある。
また、音声信号処理の負担を低減するために、入力音声信号を所定の周波数帯域に分割された帯域分割信号に変換し、周波数帯域毎の特徴量に応じて雑音、環境音、及び楽音等の音響信号をフィルタリングする技術が存在する。フィルタリングされた帯域分割信号の明瞭度に応じて、フィルタリングされた帯域分割信号と入力音声信号との配分を調整して、出力信号を合成することで、ユーザが不快にならない程度に音質が劣化せず、かつ、第三者には聞き難い音声を生成する。
特開2006−201622号公報 特開2009−75160号公報 特許第3309895号公報 特許第4533427号公報 特許第5453740号公報
しかしながら、音声及び周囲騒音の周波数特性などは経時的に変化する。所定の周波数帯域に分割している関連技術では、経時的な変化に応じた適切な帯域幅で音声信号処理を行うことが困難である。
本発明は、1つの側面として、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを目的とする。
1つの実施形態では、第1帯域分割部は、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する。帯域幅決定部は、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。第2帯域分割部は、帯域幅決定部で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部は、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。
本発明は、1つの側面として、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。
第1〜第5実施形態に係る音声信号処理装置の要部機能の一例を示すブロック図である。 第1〜第5実施形態に係る音声信号処理装置のハードウェアの構成の一例を示すブロック図である。 第1〜第5実施形態に係る音声信号処理の概要を説明するための概念図である。 第1〜第5実施形態に係る音声信号処理の概要を説明するための概念図である。 第1〜第4実施形態に係る音声信号処理の流れの一例を示すフローチャートである。 第1実施形態に係る音声信号分析処理の流れの一例を示すフローチャートである。 第1実施形態に係る高周波数領域の帯域数算出を説明するための線図である。 第1〜第5実施形態に係る高周波数領域の帯域数を説明するための概念図である。 第1〜第5実施形態に係る高周波数領域の帯域併合を説明するための概念図である。 第1〜第5実施形態に係る高周波数領域の帯域併合を説明するための概念図である。 第1〜第5実施形態に係る帯域併合処理の一例を示すフローチャートである。 第1〜第5実施形態に係る音声信号調整処理の一例を示すフローチャートである。 第1〜第5実施形態に係るゲイン分配の一例を示すフローチャートである。 第1〜第5実施形態に係るゲイン分配の一例を示すフローチャートである。 第1〜第5実施形態の原理を説明するための概念図である。 第1〜第5実施形態の原理を説明するための概念図である。 第1〜第5実施形態の原理を説明するための概念図である。 第2実施形態に係る音声信号分析処理の流れの一例を示すフローチャートである。 第2実施形態に係る高周波数領域の帯域数算出を説明するための線図である。 第3実施形態に係る音声信号分析処理の流れの一例を示すフローチャートである。 第3および第4実施形態に係る音声有無判定処理の流れの一例を示すフローチャートである。 第3および第4実施形態に係る基本周波数算出処理の流れの一例を示すフローチャートである。 第3実施形態に係る高周波数領域の帯域数算出を説明するための線図である。 第4実施形態に係る音声信号分析処理の流れの一例を示すフローチャートである。 第5実施形態に係る音声信号処理の流れの一例を示すフローチャートである。 第5実施形態に係る音声信号処理の概要を説明するための概念図である。 第5実施形態に係る音声信号処理の概要を説明するための概念図である。 第5実施形態に係る音声信号処理の概要を説明するための概念図である。 第5実施形態に係る音声信号処理の概要を説明するための概念図である。 第5実施形態に係る高周波数領域下減変更処理の流れの一例を示すフローチャートである。
[第1実施形態]
以下、図面を参照して第1実施形態の一例を詳細に説明する。
図1に示す音声信号処理装置10は、音声入力部21、周波数領域変換部22、第1帯域分割部23、帯域幅決定部24、第2帯域幅分割部25、音声信号調整部26、時間領域変換部27及び音声出力部28を含む。音声入力部21は音声を検出し、検出した音声を音声信号に変換する。
周波数領域変換部22は、音声信号を時間領域表現から周波数領域表現に変換する。例えば、フーリエ変換を使用して、時間に応じてレベルが変化する音声信号を周波数に応じてレベルが変化する音声信号に変換する。第1帯域分割部23は、周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域幅に分割する。帯域幅決定部24は、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。
低周波数領域は、一般に重要度が高い領域である。一方、高周波数領域は、一般に低周波数領域と比較して重要度が低い領域であるが、高周波数領域に含まれる音声信号の特徴によっては重要度が高い場合もある。高周波数領域の重要度が高い場合には、音質を劣化させないようにするため、重要度が高くなるにしたがって、高周波数領域を分割する際の帯域幅を狭くし、帯域数を多くして、高周波数領域の音声信号処理の精度を高くすることで、音質を劣化させない。
帯域幅決定部24は係数決定部29を含むことができ、係数決定部29は、高周波数領域の重要度の高さに基づいて係数を決定する。この場合、帯域幅決定部24は、決定された係数を第1帯域幅に乗じることで第2帯域幅を決定する。帯域幅決定部24は、決定された係数に対応する個数の第1帯域幅を加算することで第2帯域幅を決定してもよい。
第2帯域分割部25は、帯域幅決定部24で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部26は、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。時間領域変換部27は、音声信号を周波数領域表現から時間領域表現に変換する。音声出力部28は、音声信号を音声に変換して出力する。
音声信号処理装置10は、一例として、図2に示すように、プロセッサの一例であるCPU(Central Processing Unit)31、一次記憶部32、二次記憶部33、外部インターフェイス34、マイク35、スピーカ36及び通信部37を含む。CPU31、一次記憶部32、二次記憶部33、外部インターフェイス34、マイク35、スピーカ36、及び通信部37は、バス39を介して相互に接続されている。
一次記憶部32は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部33は、例えば、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)などの不揮発性のメモリである。
二次記憶部33は、プログラム格納領域33A及びデータ格納領域33Bを含む。プログラム格納領域33Aは、一例として、音声信号処理プログラムなどのプログラムを記憶している。データ格納領域33Bは、一例として、音声信号および音声信号処理プログラムを実行している間に生成される中間データなどを記憶する。
CPU31は、プログラム格納領域33Aから音声信号処理プログラムを読み出して一次記憶部32に展開する。CPU31は、音声信号処理プログラムを実行することで、図1の周波数領域変換部22、第1帯域分割部23、帯域幅決定部24、第2帯域分割部25、音声信号調整部26、時間領域変換部27、及び係数決定部29として動作する。
なお、音声信号処理プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶部32に展開されてもよい。また、音声信号処理プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部32に展開されてもよい。
マイク35は、音声入力部21の一例であり、ユーザが発話した音声及び背景雑音などを検出し、音声信号に変換する。スピーカ36は、音声出力部28の一例であり、音声信号を音声に変換して出力する。通信部37は、音声入力部21及び音声出力部28の一例であり、有線または無線の通信回線を介して音声信号を送受信する。
外部インターフェイス34には外部装置が接続され、外部インターフェイス34は、外部装置とCPU31との間の各種情報の送受信を司る。マイク35、スピーカ36及び通信部37が音声信号処理装置10に含まれている例について説明した。しかしながら、マイク35、スピーカ36及び通信部37の全部または一部は、外部インターフェイス34を介して接続される外部装置であってもよい。
なお、音声信号処理装置10は、例えば、スマートフォンであってよいが、本実施形態は、これに限定されない。例えば、音声信号処理装置10は、携帯電話、タブレット、パーソナルコンピュータなどの音声通信に利用可能な装置であってよい。また、音声信号処理装置10の一部または全部は、マイク35、スピーカ36及び通信部37などと物理的に離隔して、例えば、ネットワークを介して配置されたコンピュータであってよい。
ネットワークを介して配置されたコンピュータを音声信号処理装置10とする場合、ネットワークを介して配置されたコンピュータとしてのサーバに音声信号処理プログラムを格納する。マイク35、スピーカ36及び通信部37などを備えたユーザの情報端末で音声信号を取得する。
情報端末から送信された音声信号を用いてサーバで音声信号処理を行い、音声信号処理の結果などをサーバから通話相手の情報端末に送信する。または、マイク35、スピーカ36及び通信部37などを備えた通話相手の情報端末で音声信号を取得する。情報端末から送信された音声信号を用いてサーバで音声信号処理を行い、音声信号処理の結果などをサーバからユーザの情報端末に送信する。
次に、音声信号処理の原理について説明する。図3Aに例示するように、帯域幅WBA2の広帯域音声信号を、所定の第1帯域幅WB1で分割すると、帯域数が多くなり、音声信号処理による負担が増加する。第1帯域幅WB1は、例えば、音声信号を時間領域表現から周波数領域表現に変換する際の周波数分解能であってよい。本実施形態では、図3Bに例示するように、音声信号の低周波数領域を分割する第1帯域幅WB1は変更せず、音声信号の高周波数領域を分割する第2帯域幅WB2を第1帯域幅WB1より広く決定する。これにより、全体として帯域数を低減することで、音声信号処理による負担を低減する。
音声信号の高周波数領域の重要度は、音声信号の低周波数領域の重要度よりも低い。一般的に、音声の基本周波数などの特徴は、音声信号の低周波数領域に含まれることが多いためである。しかしながら、高周波数領域の重要度によっては、高周波数領域を分割する第2帯域幅WB2を広くして帯域数を低減することで、音声信号処理後の音質が劣化する虞もある。この問題に対処するため、音声信号の高周波数領域の重要度の高さに基づいて、高周波数領域を分割する第2帯域幅WB2を決定する。これにより、音声信号処理後の音質が劣化しないようにすることができる。
音声信号の高周波数領域の重要度の高さは、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率、高周波数領域のパワーの非定常性、及び、音声信号の基本周波数に基づいて決定される。また、音声信号の高周波数領域の重要度の高さは、音声信号が子音に対応するか否か、に基づいて決定される。音声信号の高周波数領域の重要度の高さは、これらの少なくとも2つの組み合わせに基づいて決定されてもよい。
音声信号の高周波数領域の重要度の高さは、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が大きくなるにしたがって、高くされ、高周波数領域のパワーの非定常性が高くなるにしたがって、高くされる。または、音声信号の高周波数領域の重要度の高さは、音声信号の基本周波数が高くなるにしたがって、高くされ、音声信号が子音に対応する場合に子音に対応しない場合より、高くされる。
本実施形態では、高周波数領域の重要度の高さが、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が大きくなるにしたがって、高くされる例について説明する。
次に、音声信号処理装置10の作用について説明する。図4に音声信号処理の一例を示す。例えば、ユーザが音声信号処理装置10の電源をオンすると、CPU31は、ステップ101で、音声信号を1フレーム分読み込む。1フレームは、例えば、20m秒分の音声信号であってよい。音声信号は、マイク35で検出された音声に基づいて変換された音声信号であってもよいし、通信部37で通話相手の情報端末から有線または無線の通信回線を介して受信した音声信号であってもよい。
CPU31は、ステップ102で、音声信号を時間領域表現から周波数領域表現に変換する。例えば、フーリエ変換を使用して、時間に応じてレベルが変化する音声信号を周波数に応じてレベルが変化する音声信号に変換する。以下、ステップ107で、音声信号を周波数領域表現から時間領域表現に変換するまで、周波数領域表現に変換された音声信号を、音声信号と呼ぶ。
CPU31は、ステップ103で、後述する音声信号分析処理を行う。音声信号分析処理で、高周波数領域の重要度の高さが算出される。CPU31は、ステップ104で、後述するように、高周波数領域の重要度の高さが低くなるにしたがって、高周波数領域の帯域数が少なくなり、高周波数領域の重要度の高さが高くなるにしたがって、高周波数領域の帯域数が多くなるように、帯域数を算出する。
CPU31は、ステップ105で、後述するように、ステップ104で算出された高周波数領域の帯域数で、高周波数領域全体の帯域幅を除算することで、第2帯域幅WB2を算出する。また、CPU31は、後述するように、高周波数領域の第1帯域幅WB1の帯域を併合して第2帯域幅WB2の帯域を生成する。即ち、第2帯域幅WB2の帯域の各々に対応する第1帯域幅の複数の帯域の音声信号の平均値を、当該第2帯域幅WB2の帯域の各々の音声信号とすることで、高周波数領域は、第2帯域幅WB2の帯域に分割される。
CPU31は、ステップ106で、後述するように、低周波数領域の第1帯域幅WB1で分割された帯域及び高周波数領域の第2帯域幅WB2で分割された帯域の各々に音声信号調整処理を実行する。CPU31は、ステップ107で、例えば、逆フーリエ変換を使用して、音声信号を周波数領域表現から時間領域表現に変換する。CPU31は、ステップ108で、音声信号を出力する。音声信号は、音声に変換されてスピーカ36から出力されてもよいし、通信部37に出力され、有線または無線の通信回線を介して通話相手の情報端末に送信されてもよい。
CPU31は、ステップ109で、未処理の音声信号が存在するか否か判定する。例えば、ユーザが音声信号処理装置10の電源をオフし、未処理の音声信号が存在しないと判定した場合、CPU31は、音声信号処理を終了する。一方、ステップ109で、未処理の音声信号が存在すると判定した場合、CPU31は、ステップ101に戻る。
ステップ103の音声信号分析処理の詳細を図5に例示する。本実施形態では、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が大きくなるにしたがって、音声信号の高周波数領域の重要度が高くされる例について説明する。
CPU31は、ステップ121で、低周波数領域の音声信号のパワーを算出する。まず、図4のステップ102で、音声信号を時間領域表現から周波数領域表現に変換した際の周波数の分解能に対応する第1帯域幅WB1で音声信号全体が帯域に分割されているものとし、帯域の各々にインデックスiを付ける。例えば、音声信号の最大周波数が32000Hzであり、第1帯域幅WB1が31.25Hzである場合、インデックスは、0〜1023(=1024=32000Hz/31.25Hz)である。
次に、高周波数領域の下限周波数である境界周波数に対応する帯域のインデックスである高周波数領域の下限インデックスHSを定める。例えば、境界周波数を8031.25Hzに設定する場合、高周波数領域の下限インデックスHSは、257(=8031.25Hz/31.25Hz)である。
CPU31は、式(1)に例示するように、低周波数領域の下限インデックスLSから上限インデックスLE(=HS−1)までの帯域の各々の音声信号のパワーP[i]を加算することで、低周波数領域の音声信号のパワーLPを算出する。
インデックスiに対応する帯域の音声信号のパワーP[i]は、式(2)に例示するように、インデックスiに対応する帯域の音声信号の実部R[i]の二乗と虚部I[i]の二乗を加算することで算出される。
P[i]=R[i]+I[i] …(2)
例えば、低周波数領域の下限インデックスLSは3(93.75Hz=31.25Hz×3)、上限インデックスLEは256(8000Hz=31.25Hz×256)であってよい。
CPU31は、ステップ122で、高周波数領域の音声信号のパワーHPを算出する。高周波数領域の音声信号のパワーHPは、式(3)に例示するように、高周波数領域の下限インデックスHSから高周波数領域の上限インデックスHEまでの帯域の各々の高周波数領域の音声信号のパワーP[i]を加算することで算出される。

例えば、高周波数領域の下限インデックスHSは257(8031.25Hz=31.25Hz×257)、高周波数領域の上限インデックスHEは1023(31968.75Hz=31.25Hz×1023)であってよい。
CPU31は、ステップ123で、低周波数領域の音声信号のパワーLPに対する高周波数領域の音声信号のパワーHPの比率Hrtを算出する。比率Hrtは、式(4)に例示するように、高周波数領域の音声信号のパワーHPの対数から低周波数領域の音声信号のパワーLPの対数を減算することで算出することができる。
Hrt=10log10HP−10log10LP …(4)
次に、図4のステップ104の詳細について説明する。ステップ104では、ステップ103で算出した低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率Hrtに基づいて、図7に例示する高周波数領域の帯域数Hnmを算出する。比率Hrtが大きくなるにしたがって、高周波数領域の重要度は高くなる。したがって、比率Hrtが大きくなるにしたがって、帯域数Hnmが大きくなるように設定する。即ち、比率Hrtが大きくなるにしたがって、高周波数領域の帯域の各々の帯域幅である第2帯域幅WB2は狭くなり、第1帯域幅WB1に近付く。第2帯域幅WB2については後述する。
詳細には、例えば、式(5)〜式(7)を使用して、比率Hrtに基づいて、高周波数領域の帯域数Hnmを取得する。式(5)〜式(7)の比率Hrtと高周波数領域の帯域数Hnmとの関係を図6に例示する。図6では、横軸に比率Hrt、縦軸に高周波数領域の帯域数Hnmが示されている。
Hnm=Hnmn Hrt<HrtLの場合 …(5)
Hnm=Hnmn+
((Hnmx−Hnmn)/(HrtH−HrtL))×(Hrt−HrtL)
HrtL≦Hrt<HrtHの場合 …(6)
Hnm=Hnmx Hrt≧HrtHの場合 …(7)
例えば、併合前の高周波数領域の帯域数が256(=HE−HS+1)である場合、Hnmx=256、Hnmn=1、HrtH=−10[dB]、HrtL=−50[dB]であってよい。
次に、図4のステップ105の帯域併合処理の詳細について説明する。ステップ105の帯域併合処理では、図8A及び図8Bに例示するように、高周波数領域の音声信号を、ステップ104で算出した高周波数領域の帯域数Hnmの帯域に分割するため、第1帯域幅WB1で分割された帯域を併合帯域数N毎に併合する。併合帯域数Nは、高周波数領域の重要度の高さに基づいて決定される係数の一例である。
詳細には、CPU31は、図9のステップ131で、併合帯域数Nを算出する。併合帯域数Nは、高周波数領域の重要度の高さが高くなるに従って小さくなり、最も小さい場合1となるように決定される。詳細には、式(8)に例示するように、高周波数領域の上限インデックスから下限インデックスを減算し1加算した値、即ち、高周波数領域のインデックス数を、帯域数Hnmで除算することで、併合帯域数Nを算出する。
N=(HE−HS+1)/Hnm …(8)
Nは、四捨五入、切り上げ、または、切り下げで、整数の値とする。
即ち、高周波数領域は、第2帯域幅WB2(=第1帯域幅WB1×併合帯域数N)で、帯域数Hnmの帯域に分割される。次に、併合前のN個の帯域の音声信号の平均値を対応する併合後の帯域の音声信号として設定する。
CPU31は、ステップ132で、併合後の帯域数をカウントする変数jに0を設定する。CPU31は、ステップ133で、変数jに1を加算する。CPU31は、ステップ134で、併合される帯域数をカウントする変数kに0を設定する。CPU31は、ステップ135で、併合される帯域の先頭帯域のインデックスmを算出する。インデックスmは、式(9)に例示するように、高周波数領域の下限インデックスと、変数jから1を減算した値に、併合帯域数Nを乗算した値と、を加算することで、算出される。
m=HS+(j−1)×N …(9)
CPU31は、ステップ136で、N個分の併合前の帯域の音声信号の実部の累積を記憶する変数tR及びN個分の併合前の帯域の音声信号の虚部の累積を記憶する変数tIに0を設定する。CPU31は、ステップ137で、変数kに1を加算する。CPU31は、ステップ138で、インデックスm+k−1に対応する帯域の音声信号の実部R[m+k−1]を変数tRに加算し、インデックスm+k−1に対応する帯域の音声信号の虚部I[m+k−1]を変数tIに加算する。
CPU31は、ステップ139で、変数kが併合帯域数Nより小さく、かつ、インデックスmに変数kを加算した値が高周波数領域の上限インデックスより小さいか否か判定する。判定が肯定された場合、即ち、併合帯域数分の帯域がまだ併合されておらず、かつ、未処理のインデックスに対応する帯域がまだ存在する場合、CPU31は、ステップ137に戻る。一方、ステップ139の判定が否定された場合、即ち、併合帯域数分の帯域が併合されたか、または、未処理のインデックスに対応する帯域が存在しなくなった場合、CPU31はステップ140に進む。
CPU31は、ステップ140で、式(10}に例示するように、変数tRに累積された音声信号の実部の値を併合帯域数Nで除算して、累積された音声信号の実部の値の平均値を算出し、算出した平均値をmR[LE+j]に記憶する。
mR[LE+j]=tR/N …(10)
また、CPU31は、式(11)に例示するように、変数tIに累積された音声信号の虚部の値を併合帯域数Nで除算して、累積された音声信号の虚部の値の平均値を算出し、算出した平均値をmI[LE+j]に記憶する。
mI[LE+j]=tI/N …(11)
CPU31は、ステップ141で、変数jが高周波数領域の帯域数Hnmを越えたか否か判定し、判定が否定された場合、即ち、まだ併合されていない帯域が高周波数領域に存在する場合、CPU31は、ステップ133に戻る。一方、判定が肯定された場合、即ち、併合されていない帯域が高周波数領域に存在しない場合、CPU31は、帯域併合処理を終了する。
なお、高周波数領域の併合帯域数Nが1である場合については、図9のステップ132〜ステップ141の処理を行う代わりに、式(12)及び式(13)に例示するように、mR[p]に音声信号の実部R[p]を記憶し、mI[p]に虚部I[p]を記憶すればよい。pは併合後の帯域のインデックスに相当するが、併合帯域数Nが1である場合、pは高周波数領域の下限インデックスHS〜上限インデックスHEまで1ずつ増加する。
mR[p]=R[p] …(12)
mI[p]=I[p] …(13)
帯域併合を行わない低周波数領域でも、上記と同様に、mR[p]に音声信号の実部R[p]を記憶し、mI[p]に虚部I[p]を記憶する。低周波数領域では、pは低周波数領域の下限インデックスLS〜上限インデックスLEまで1ずつ増加する。
次に、図4のステップ106の音声信号調整処理について説明する。図10にステップ106の音声信号調整処理の詳細を例示する。音声信号調整処理では、高周波数領域の帯域を併合した後の帯域毎にゲインを算出し、併合前の帯域にゲインを配分し、併合前の帯域毎にゲインを適用することで、調整された音声信号を取得する。CPU31は、ステップ151で、変数pに0を設定する。
CPU31は、ステップ152で、変数pに1を加算し、ステップ153で、併合後の帯域の音声信号mR[p]及びmI[p]に、既知の手法を適用して、併合後の帯域毎の騒音抑圧ゲインGを算出する。CPU31は、ステップ154で、併合後の帯域毎の騒音抑圧ゲインGを対応する併合前のN個の帯域の各々に分配する。
図11Aに例示するように、併合後の帯域の騒音抑圧ゲインGがgである場合、図11Bに例示するように、対応する併合前のN個の帯域の騒音抑圧ゲインGはgに設定される。CPU31は、ステップ155で、併合前の帯域毎の音声信号に騒音抑圧ゲインGを適用することで、騒音を抑圧した音声信号を算出する。CPU31は、ステップ156で、pが低域周波数領域の帯域数Lnm(=LE−LS+1)と高域周波数領域の併合後の帯域数Hnmとの和、即ち、併合後の全帯域数より小さいか否か判定する。ステップ156の判定が肯定された場合、即ち、併合後の帯域の全てについて処理が終了していない場合、CPU31は、ステップ152に戻る。一方、ステップ156の判定が否定された場合、即ち、併合後の帯域の全てについて処理が終了した場合、CPU31は、音声信号調整処理を終了する。
なお、音声信号調整処理の一例として、騒音抑圧処理を行う例を使用したが、本実施形態はこれに限定されない。例えば、エコー抑圧処理、または音声強調処理などが行われてもよい。
図12Aに例示する帯域幅WBA1の音声信号を第1帯域幅WB1で分割すると帯域数はWBA1/WB1となる。一方、図12Bに例示する帯域幅WBA2の音声信号を第1帯域幅WB1で分割すると帯域数はWBA2/WB1となる。即ち、帯域幅WBA2の音声信号の帯域数はWBA2/WBA1となり、音声信号の帯域幅が広くなるにしたがって、帯域数も増大する。
音声信号の帯域幅、即ち、サンプリング周波数を増大することで、高音質化を実現することができる。しかしながら、上記したように、帯域数も増大し、騒音抑圧処理などの音声信号調整処理の負担が増大する。音声信号調整処理による負担を低減するためには、音声信号を分割する帯域幅を広くして、帯域数を低減すればよい。
しかしながら、一般的に、音声信号の低周波数領域は、音声の基本周波数などの特徴を含むため、分割する帯域幅を広くして帯域数を低減することは、音声信号処理後の音質を劣化させる原因となり得る。したがって、本実施形態では、図12Cに例示するように、音声信号の高周波数領域を分割する第2帯域幅WB2を、低周波数領域を分割する第1帯域幅WB1より広くして、高周波数領域の帯域数を低減することで、音声信号全体として帯域数を低減する。
しかしながら、高周波数領域の重要度によっては、高周波数領域を分割する第2帯域幅WB2を広くして帯域数を低減することで、音声信号処理後の音質が劣化する虞もある。この問題に対処するため、音声信号の高周波数領域の重要度の高さに基づいて、高周波数領域を分割する第2帯域幅WB2を決定する。即ち、高周波数領域の重要度の高さが高くなるにしたがって狭くなるように、第1帯域幅WB1以上の帯域幅である第2帯域幅WB2を決定する。これにより、音声信号処理後の音質が劣化しないようにすることができる。
本実施形態では、第1帯域分割部が、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する。帯域幅決定部が、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。第2帯域分割部が、帯域幅決定部で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部が、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。
本実施形態では、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。
[第2実施形態]
次に、第2実施形態の一例を説明する。第1実施形態と同様の構成及び作用については、説明を省略する。第2実施形態は、図4のステップ103の音声信号分析処理で、音声信号の高周波数領域の重要度の高さが、高周波数領域の音声信号のパワーの非定常性が高くなるにしたがって高くされる点で第1実施形態と異なる。また、第2実施形態は、ステップ104で高周波数領域の帯域数を算出する際に、音声信号のパワーの非定常性に基づいて高周波数領域の帯域数を算出する点で、第1実施形態と異なる。
図4のステップ103の第2実施形態における詳細を図13に例示する。CPU31は、ステップ161で、第1帯域幅WB1で分割された帯域毎の高周波数領域のパワーP[hi](hi=HS,…,HE)を算出する。パワーP[hi]の算出については、上述したパワーP[i]の算出と同様であるため、説明を省略する。CPU31は、ステップ162で、帯域毎の高周波数領域の平均パワーPav[hi]を更新する。
平均パワーPav[hi]は、式(14)に例示するように、インデックスhiに対応する帯域の音声信号の1つ前のフレームまでの平均パワーPavB[hi]に1から現フレームの寄与係数c1を減算した値を乗算した値と、インデックスhiに対応する帯域の音声信号のパワーP[hi]に現フレームの寄与係数c1を乗算した値と、を加算することで取得することができる。
Pav[hi]=(1−c1)*PavB[hi]+c1×P[hi] …(14)
寄与係数c1は、0〜1の値であり、例えば、0.01であってよい。また、最初のフレームについて平均パワーPav[hi]を計算する場合の、1つ前のフレームの平均パワーPavB[hi]は0[dB]としてもよい。
CPU31は、ステップ163で、高周波数領域のパワーの非定常性Hstを算出する。高周波数領域のパワーの非定常性Hstは、式(15)に例示するように算出することができる。式(15)では、まず、パワーP[hi]から平均パワーPav[hi]を減算した値の絶対値を、高周波数領域の下限インデックスHSから上限インデックスHEまで加算する。加算した値を、上限インデックスHEから下限インデックスHSを減算し1を加算した値、即ち、高周波数領域のインデックス数で除算した値の対数が非定常性Hstである。
次に、図4のステップ104の詳細について説明する。本実施形態のステップ104では、ステップ103で算出した高周波数領域のパワーの非定常性Hstに基づいて、図14に例示する高周波数領域の帯域数Hnmを算出する。非定常性Hstが高くなるにしたがって、高周波数領域の重要度は高くなる。したがって、非定常性Hstが高くなるにしたがって、帯域数Hnmが大きくなるように設定する。即ち、非定常性Hstが高くなるにしたがって、高周波数領域の帯域の各々の帯域幅である第2帯域幅WB2は狭くなる。
ステップ104では、ステップ103で算出した高周波数領域のパワーの非定常性Hstに基づいて、高周波数領域の帯域数Hnmを算出する。詳細には、例えば、式(16)〜式(18)を使用して、高周波数領域の帯域数Hnmを取得する。式(16)〜式(18)の高周波数領域の音声信号のパワーの非定常性Hstと高周波数領域の帯域数Hnmの関係を図14に例示する。
図14では、横軸に高周波数領域の音声信号のパワーの非定常性Hst、縦軸に高周波数領域の帯域数Hnmが示されている。
Hnm=Hnmn Hst<HstLの場合 …(16)
Hnm=Hnmn+
((Hnmx−Hnmn)/(HstH−HstL))×(Hst−HstL)
HstL≦Hst<HstHの場合 …(17)
Hnm=Hnmx Hst≧HstHの場合 …(18)
例えば、併合前の高周波数領域の帯域数が256(=HE−HS+1)である場合、Hnmx=256、Hnmn=1、HstH=6[dB]、HstL=1[dB]であってよい。
本実施形態では、第1帯域分割部が、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する。帯域幅決定部が、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。第2帯域分割部が、帯域幅決定部で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部が、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。
本実施形態では、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。
[第3実施形態]
次に、第3実施形態の一例を説明する。第1実施形態または第2実施形態と同様の構成及び作用については、説明を省略する。第3実施形態は、図4のステップ103の音声信号分析処理で、音声信号の高周波数領域の重要度の高さが、音声信号の基本周波数が高くなるにしたがって高くされる点で、第1実施形態または第2実施形態と異なる。また、第3実施形態は、ステップ104で高周波数領域の帯域数を算出する際に、音声信号の基本周波数の高さに基づいて高周波数領域の帯域数を算出する点で、第1実施形態または第2実施形態と異なる。
図4のステップ103の本実施形態における詳細を図15に例示する。CPU31は、ステップ171で後述する音声有無判定処理を実行する。ステップ172で、ステップ171の音声有無判定処理の結果に基づいて、音声の有無を判定する。ステップ172の判定が否定された場合、即ち、音声信号がユーザの発話による音声を含まないと判定された場合、音声信号分析処理を終了する。音声信号がユーザの発話による音声を含まない、即ち、雑音であれば、基本周波数を算出する必要はないためである。
一方、ステップ172の判定が肯定された場合、即ち、音声信号がユーザの発話による音声を含むと判定された場合、CPU31は、ステップ173で、後述する基本周波数算出処理を実行することで、基本周波数Bを算出する。CPU31は、ステップ174で、基本周波数の平均Bavを更新する。基本周波数の平均Bavは、式(19)に例示するように、1から寄与係数c2を減算した値に1つ前のフレームまでの基本周波数の平均Bavを乗算した値と、寄与係数c2に現フレームの基本周波数Bを乗算した値と、を加算した値で、更新することができる。
Bav=(1−c2)*BavB+c2*B …(19)
基本周波数の平均Bavを最初に更新する際の1つ前のフレームまでの基本周波数の平均BavBは、300[Hz]であってよい。寄与係数c2は、現フレームの基本周波数の基本周波数の平均Bavへの寄与係数であり、寄与係数c2は、0〜1であってよく、例えば、0.01であってよい。
図16に、図15のステップ171の音声有無判定処理の詳細を例示する。CPU31は、ステップ181で、音声信号のパワーPAを算出する。音声信号のパワーPAは、式(20)に例示するように、インデックスiに対応する帯域の音声信号のパワーP[i]をインデックス0からインデックスHE、即ち、高周波数領域の上限インデックスまで加算した値である。
CPU31は、ステップ182で、ノイズのパワー仮平均tNavを算出する。ノイズのパワー仮平均tNavは、式(21)に例示するように、1から寄与係数c3を減算した値に1つ前のフレームまでのノイズの平均NavBを乗算した値と、寄与係数c3に音声信号のパワーPAを乗算した値と、を加算して算出することができる。
tNav=(1−c3)×NavB+c3×PA …(21)
寄与係数c3は、現在のフレームの音声信号のノイズのパワー仮平均tNavへの寄与を表す寄与係数であり、寄与係数c3は、0〜1であってよく、例えば、0.01であってよい。音声信号がユーザの発話による音声を含まないと判定されるフレームが出現するまで、tNavを算出する場合、NavBは40[dB]であってよい。
CPU31は、ステップ183で、音声信号のパワーPAとノイズのパワー仮平均tNavとの差が閾値Th1を越えるか否か判定する。Th1は、例えば、6[dB]であってよい。ステップ183の判定が肯定された場合、CPU31は、ステップ184で、フラグVFに音声信号が発話による音声を含むことを表す値1を設定し、音声有無判定処理を終了する。ステップ183の判定は、音声信号のパワーPAとノイズのパワー仮平均tNavとの差が閾値Th1を越えて、音声信号がユーザの発話による音声を含むと判定された場合、肯定される。
ステップ183の判定が否定された場合、CPU31は、ステップ185でフラグVFに音声信号がユーザの発話による音声を含まないことを表す値0を設定する。ステップ183の判定は、音声信号のパワーPAとノイズのパワー仮平均tNavとの差が閾値Th1以下である場合、音声信号はユーザの発話による音声を含まないと判定し、否定される。CPU31は、ステップ186で、ノイズのパワー平均Navにステップ182で算出したノイズのパワー仮平均tNavを設定し、音声有無判定処理を終了する。現フレームはユーザの発話による音声を含まないノイズを表す音声信号のフレームであるためである。
なお、図15のステップ172では、フラグVFに値1が設定されている場合に、音声信号がユーザの発話による音声を含むと判定し、フラグVFに値0が設定されている場合に、音声信号がユーザの発話による音声を含まないと判定する。
図17に、図15のステップ173の基本周波数算出処理の詳細を例示する。CPU31は、ステップ191で、音声信号のパワーP[i]を算出する。音声信号のパワーP[i]の算出については、上述したため、説明を省略する。CPU31は、ステップ192で、自己相関SRを算出する。自己相関SRは、パワーP[i]のスペクトルに逆フーリエ変換を実行することで、算出することができる。
CPU31は、ステップ193で基本周波数Bを算出する。詳細には、音声信号の自己相関SRにおいて、シフト時間が正であり、かつ、最小の位置で自己相関値が極大となる時間を基本周期τとする。サンプリング周波数Fsを基本周期τで除算することで、基本周波数Bを算出することができる。
B=Fs/τ …(22)
次に、図4のステップ104の詳細について説明する。本実施形態のステップ104では、ステップ103で算出した平均基本周波数Bavに基づいて、図18に例示する高周波数領域の帯域数Hnmを算出する。平均基本周波数Bavが高くなるにしたがって、高周波数領域の重要度は高くなる。したがって、平均基本周波数Bavが高くなるにしたがって、帯域数Hnmが大きくなるように設定する。即ち、平均基本周波数Bavが高くなるにしたがって、高周波数領域の帯域の各々の帯域幅である第2帯域幅WB2は狭くなる。
ステップ104では、ステップ103で算出した平均基本周波数Bavに基づいて、高周波数領域の帯域数Hnmを算出する。詳細には、例えば、式(23)〜式(25)を使用して、高周波数領域の帯域数Hnmを取得する。式(23)〜式(25)の平均基本周波数Bavと高周波数領域の帯域数Hnmの関係を図18に例示する。
図18では、横軸に平均基本周波数Bav、縦軸に高周波数領域の帯域数Hnmが示されている。
Hnm=Hnmn Bav<BavLの場合 …(23)
Hnm=Hnmn+
((Hnmx−Hnmn)/(BavH−BavL))×(Bav−BavL)
BavL≦Bav<BavHの場合 …(24)
Hnm=Hnmx Bav≧BavHの場合 …(25)
例えば、併合前の高周波数領域の帯域数が256(=HE−HS+1)である場合、Hnmx=256、Hnmn=1、BavH=400[Hz]、BavL=70[Hz]であってよい。なお、図15のステップ172で、音声信号がユーザの発話による音声を含まないと判定された場合、即ち、音声信号がノイズを含むと判定された場合、Hnmは1に設定されてもよいし、1つ前のフレームの帯域数Hnmと同じ帯域数に設定されてもよい。本実施形態において、ユーザの発話による音声を含まない音声信号の高周波数領域の重要度の高さは、低いためである。
本実施形態では、第1帯域分割部が、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する。帯域幅決定部が、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。第2帯域分割部が、帯域幅決定部で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部が、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。
本実施形態では、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。
[第4実施形態]
次に、第4実施形態の一例を説明する。第1〜第3実施形態と同様の構成及び作用については、説明を省略する。第4実施形態は、図4のステップ103の音声信号分析処理で、音声信号の高周波数領域の重要度の高さが、音声信号が子音に対応する場合に子音に対応しない場合より高くされる点で、第1〜第3実施形態と異なる。また、第4実施形態は、ステップ104で高周波数領域の帯域数を算出する際に、音声信号が子音に対応するか否かに基づいて高周波数領域の帯域数を算出する点で、第1〜第3実施形態と異なる。
本実施形態における図4のステップ103の詳細を図19に例示する。CPU31は、ステップ201で、音声有無判定処理を実行し、ステップ202で、音声の有無を判定する。ステップ201及びステップ202は、図15のステップ171及びステップ172と同様であるため、説明を省略する。ステップ202の判定が否定された場合、即ち、音声信号がユーザの発話による音声を含まないと判定された場合には、CPU31は、フラグCFに子音ではないことを示す値0を設定して、音声信号分析処理を終了する。
ステップ202の判定が肯定された場合、即ち、音声信号がユーザの発話による音声を含むと判定された場合、CPU31は、ステップ203で基本周波数算出処理を実行する。ステップ203は、図15のステップ173と同様であるため、説明を省略する。CPU31は、ステップ204で、基本周波数が所定の閾値Th2を越えるか否か判定する。ステップ204の判定が否定された場合、即ち、基本周波数が閾値Th2を越えない場合、CPU31は、ステップ210で、フラグCFに子音ではないことを示す値0を設定して、音声信号分析処理を終了する。閾値Th2は、例えば、1000[Hz]であってよい。
ステップ204の判定が肯定された場合、即ち、基本周波数が閾値Th2を越えた場合、CPU31は、ステップ205〜ステップ207で、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率を算出する。ステップ205〜ステップ207は、図5のステップ121〜ステップ123と同様であるため、説明を省略する。CPU31は、ステップ208で、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が所定の閾値Th3を越えるか否か判定する。ステップ208の判定が否定された場合、即ち、低周波数領域のパワーに対する高周波数領域のパワーの比率が所定の閾値Th3を越えない場合、CPU31は、ステップ210でフラグCFに子音でないことを示す値0を設定して、音声信号分析処理を終了する。
ステップ208の判定が肯定された場合、CPU31は、ステップ209でフラグCFに子音であることを示す値1を設定して、音声信号分析処理を終了する。ステップ209の判定は、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が所定の値Th3を越えた場合に肯定される。
次に、図4のステップ104の詳細について説明する。ステップ104では、併合後の高周波数領域の帯域数Hnmを算出する。CPU31は、ステップ103(詳細には、図9のステップ209及びステップ210)で設定したフラグCFの値に基づいて、高周波数領域の帯域数Hnmを算出する。
例えば、フラグCFに値0が設定されている場合、即ち、音声信号が子音に対応しない場合、帯域数Hnmに1に近い小さい値を設定する。また、フラグCFに値1が設定されている場合、即ち、音声信号が子音に対応する場合、帯域数Hnmに併合前の高周波数領域の帯域数HE−HS+1に近い値を設定する。
詳細には、フラグCFに値0が設定されている場合、即ち、音声信号が子音に対応しない場合、例えば、帯域数Hnmに8を設定し、フラグCFに値1が設定されている場合、即ち、音声信号が子音に対応する場合、例えば、帯域数Hnmに256を設定する。併合前の高周波数領域の帯域数は256(=HE−HS+1)であるとする。
本実施形態では、第1帯域分割部が、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する。帯域幅決定部が、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。第2帯域分割部が、帯域幅決定部で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部が、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。
本実施形態では、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。
なお、第1〜第4実施形態の何れか2つ以上を組み合わせて、高周波数領域の帯域数Hnmを算出するようにしてもよい。第1及び第2実施形態、第1及び第3実施形態、第1及び第4実施形態、第2及び第3実施形態、第2及び第4実施形態、第3及び第4実施形態、第1、第2、及び第3実施形態、及び、第1、第2及び第4実施形態、の組み合わせが可能である。また、第2、第3及び第4実施形態、及び第1〜第4実施形態の組み合わせも可能である。
例えば、第1〜第4の実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する。第1実施形態で低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率に基づいて算出した帯域数をHnm1とし、第2実施形態で高周波数領域の非定常性に基づいて算出した帯域数をHnm2とする。第3実施形態で平均基本周波数に基づいて算出した帯域数をHnm3とし、第4実施形態で音声信号が子音に対応するか否かに基づいて算出した帯域数をHnm4とする。
この場合、帯域数Hnmは、式(26)で例示するように算出することができる。
Hnm=d1×Hnm1+d2×Hnm2+
d3×Hnm3+d4×Hnm4 …(26)
d1〜d4は、0〜1の値を有する寄与係数であり、d1+d2+d3+d4=1である。例えば、d1=0.25、d2=0.2、d3=0.25、d4=0.3であってよい。
第1及び第2実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d3=d4=0とする。第1及び第3実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d2=d4=0とする。第1及び第4実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d2=d3=0とする。
第2及び第3実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d1=d4=0とする。第2及び第4実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d1=d3=0とする。第3及び第4実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d1=d2=0とする。
第1、第2及び第3実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d4=0とする。第1、第2及び第4実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d3=0とする。第2、第3及び第4実施形態を組み合わせて、高周波数領域の帯域数Hnmを算出する場合には、d1=0とする。
[第5実施形態]
次に、第5実施形態の一例を説明する。第5実施形態の一例を図20に示す。第5実施形態は、ステップ225で、高周波数領域の下限インデックス、即ち、高周波数領域の下限周波数である境界周波数を変更する点で、第1実施形態〜第4実施形態と異なる。
高周波数領域の下限インデックスHS1が図21Aに示す帯域に対応している場合、帯域併合は、図21A及び図21Bに示される高周波数領域Harea1に対して行われる。高周波数領域Harea1は、下限インデックスHS1〜上限インデックスHEの帯域を含む。
本実施形態では、図21Bに例示される併合後の全帯域数が所定の最大帯域数を越える場合、高周波数領域の下限インデックスをHS2に変更する。即ち、高周波数領域の下限周波数である境界周波数を低減する。これにより、帯域併合は図21Cに示される、高周波数領域Harea1よりも広い高周波数領域Harea2に対して行われ、併合後の全帯域数が低減される。即ち、併合後の高周波数領域の第2帯域幅WB2を広くすることで、高周波数領域の帯域数Hnmは変わらず、低周波数領域でHS1−HS2個の帯域数が低減する。
図20のステップ221〜224は、図4のステップ101〜ステップ104と同様であり、図20のステップ226〜ステップ230は、図4のステップ105〜ステップ109と同様であるため、説明を省略する。
図22に、図20のステップ225の詳細を例示する。CPU31は、ステップ231で、高周波数領域の下限インデックスHSとステップ224で算出した高周波数領域の帯域数Hnmとを加算した値が、所定の最大帯域数Amxを越えるか否か判定する。ステップ231の判定が否定された場合、即ち、併合後の全帯域数が所定の最大帯域数Amxを越えない場合、CPU31は、高周波数領域下限変更処理を終了する。
ステップ231の判定が肯定された場合、即ち、併合後の全帯域数が所定の最大帯域数Amxを越えた場合、CPU31は、ステップ232で、下限インデックスHSを低減する。詳細には、式(27)に例示するように、高周波数領域の下限インデックスHSに最大帯域数Amxから高周波数領域の帯域数Hnmを減算した値を設定する。
HS=Amx−Hnm …(27)
即ち、低周波数領域の帯域数HS(=LE+1)をHS1からAmx−Hnm(=HS2)に低減することで、図21Cに例示するように、低周波数領域でHS1−HS2個の帯域数が低減し、高周波数領域の帯域数はHnmのままであるため、全体として帯域数をHS1−HS2個分低減することができる。
なお、上記では、図4のステップ104で算出した高周波数領域の帯域数Hnmの値を変更しない例、即ち、図21Cに例示されるように、併合後の第2帯域幅WB2を広くする、即ち、併合帯域数Nを増大する例について説明した。しかしながら、本実施形態は、これに限定されない。例えば、ステップ104で算出した高周波数領域の帯域数Hnmから算出される併合帯域数Nを変更しないように、帯域数Hnmの値をステップ104で算出した帯域数Hnmよりも増大するようにしてもよい。
詳細には、式(28)に例示するように、低周波数領域の帯域数HS(=LE+1)と高周波数領域の帯域数Hnmとを加算した値が所定の最大帯域数Amx以下の値となるように、高周波数領域の下限インデックスHSを調整する。
HS+Hnm≦Amx …(28)
即ち、式(29)に例示するように、最大帯域数Amxに併合帯域数Nを乗算した値から、高周波数領域の上限インデックスに1を加算した値を減算した値を、併合帯域数Nから1を減算した値で除算した値以下となるように、下限インデックスHSを設定する。
HS≦(Amx×N−(HE+1))/(N−1) …(29)
下限インデックスHSは、切り下げで、整数の値とする。
式(29)は、以下のように導かれる。式(28)において、高周波数領域の帯域数Hnmを、式(30)に例示するように置き替えると、式(31)となる。式(30)は、高周波数領域の上限インデックスHEから低減後の下限インデックスHSを減算し、1を加算した値を、併合帯域数Nで除算した値が、下限インデックスHSを低減した後の高周波数領域の帯域数Hnmであることを表している。高周波数領域の上限インデックスHEから低減後の下限インデックスHSを減算し、1を加算した値は、下限インデックスHSを低減した後であって、併合前の高周波数領域の帯域数である。
Hnm=(HE−HS+1)/N …(30)
なお、高周波数領域の併合帯域数Nを算出する方法については、図9のステップ131と同様であるため、説明を省略する。
HS+(HE−HS+1)/N≦Amx …(31)
式(31)の左辺にHSが現れるように変形すると、式(29)となる。
この場合、調整前は低周波数領域であった調整後の高周波数領域の下限インデックスHS(HS2)〜調整前の下限インデックスHS−1(HS1−1)に対応する帯域が、調整後には高周波数領域となり、図21Dに例示されるように、併合帯域数Nで併合される。即ち、HS2〜HS1−1に対応する帯域の併合後の帯域数は、下限インデックスHSを調整する前の1/Nとなるため、下限インデックスHS調整後の帯域数は全体として低減される。
本実施形態では、第1帯域分割部が、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する。帯域幅決定部が、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第1帯域幅以上の第2帯域幅を決定する。第2帯域分割部が、帯域幅決定部で決定された第2帯域幅で、音声信号の高周波数領域を複数の第2帯域に分割する。音声信号調整部が、複数の第1帯域の各々及び複数の第2帯域の各々に対して音声信号調整処理を実行する。
本実施形態では、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。
また、本実施形態では、低周波数領域の帯域数と高周波数領域の帯域数との和が最大帯域数を越えないように、境界周波数を低減する。
本実施形態では、音声信号処理による負担を所定量以下に低減することを可能とする。
なお、本実施形態は、第1〜第4の実施形態の何れか、または、第1〜第4実施形態の何れか少なくとも2つの組み合わせに適用されてもよい。
なお、第1〜第5実施形態では、低周波数領域が音声信号を周波数領域表現に変換する際の周波数分解能で分割されているものとして説明したが、第1〜第5実施形態はこれに限定されない。例えば、音声信号処理による負担をさらに低減することが期待される場合、低周波数領域は、周波数分解能のM倍(Mは2以上の自然数)の第1帯域幅に分割されてもよい。
なお、第1〜第5実施形態では、フレーム毎に、高周波数領域の併合後の帯域数Hnmを算出する例について説明したが、第1〜第5実施形態はこれに限定されない。Lフレーム毎に帯域数Hnmを算出し、その後のL−1フレームについては、同じ帯域数Hnmで、高周波数領域を分割するようにしてもよい。Lは、例えば、50〜100であってよい。音声信号は、ある程度継続的に類似した特徴を示す傾向があるためである。
なお、図6、14、18及び式(1)〜(31)は一例であり、第1〜第5の実施形態はこれらに限定されない。また、図4、5、9、10、13、15、16、17、19、20、22のフローチャートのステップの順序は一例であり、第1〜第5実施形態は当該順序に限定されない。また、第1〜第5実施形態は、音声通話などの音声データのリアルタイム処理に適用されてもよいし、予め記憶装置に記憶されている音声データに適用されてもよい。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する第1帯域分割部と、
前記音声信号の前記低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、前記高周波数領域を分割するための前記第1帯域幅以上の第2帯域幅を決定する帯域幅決定部と、
前記帯域幅決定部で決定された前記第2帯域幅で、前記音声信号の前記高周波数領域を複数の第2帯域に分割する第2帯域分割部と、
前記複数の第1帯域の各々及び前記複数の第2帯域の各々に対して音声信号調整処理を実行する音声信号調整部と、
を含む、音声信号処理装置。
(付記2)
前記帯域幅決定部は、
前記高周波数領域の重要度の高さが高くなるにしたがって狭くなるように前記帯域幅を決定する、
付記1の音声信号処理装置。
(付記3)
前記音声信号の高周波数領域の重要度の高さは、
低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率、前記高周波数領域の音声信号のパワーの非定常性、前記音声信号の基本周波数、及び前記音声信号が子音に対応するか否か、の少なくとも1つに基づいて決定され、
前記低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率が大きくなるにしたがって高くなり、
前記高周波数領域の音声信号のパワーの非定常性が高くなるにしたがって高くなり、
前記音声信号の基本周波数が高くなるにしたがって高くなり、
前記音声信号が子音に対応する場合は子音に対応しない場合より高くなるように、
決定される、
付記1または付記2に記載の音声信号処理装置。
(付記4)
前記帯域幅決定部は、
前記高周波数領域の重要度の高さに基づいて係数を決定する係数決定部、
を含み、
前記第1帯域幅に前記係数決定部で決定された前記係数を乗じることで、前記第2帯域幅を決定する、
付記1〜付記3の何れかの音声信号処理装置。
(付記5)
前記係数は、前記高周波数領域の重要度の高さが高くなるにしたがって小さくなり、最も小さい場合、前記係数は1となるように決定される、
付記4の音声信号処理装置。
(付記6)
前記係数は自然数である、
付記4または付記5の音声信号処理装置。
(付記7)
前記高周波数領域は、周波数が所定の境界周波数以上の周波数領域であり、
前記低周波数領域は、周波数が前記境界周波数より低い周波数領域であり、
前記第1帯域分割部で分割される前記第1帯域の数と前記第2帯域分割部で分割される前記第2帯域の数との和が最大帯域数を越えないように前記境界周波数を低減する、
付記1〜付記6の何れかの音声信号処理装置。
(付記8)
時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割し、
前記音声信号の前記低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、前記高周波数領域を分割するための前記第1帯域幅以上の第2帯域幅を決定し、
決定された前記第2帯域幅で、前記音声信号の前記高周波数領域を複数の第2帯域に分割し、
前記複数の第1帯域の各々及び前記複数の第2帯域の各々に対して音声信号調整処理を実行する、
音声信号処理をコンピュータに実行させるためのプログラム。
(付記9)
前記高周波数領域の重要度の高さが高くなるにしたがって狭くなるように前記帯域幅を決定する、
付記8のプログラム。
(付記10)
前記音声信号の高周波数領域の重要度の高さは、
低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率、前記高周波数領域の音声信号のパワーの非定常性、前記音声信号の基本周波数、及び前記音声信号が子音に対応するか否か、の少なくとも1つに基づいて決定され、
前記低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率が大きくなるにしたがって高くなり、
前記高周波数領域の音声信号のパワーの非定常性が高くなるにしたがって高くなり、
前記音声信号の基本周波数が高くなるにしたがって高くなり、
前記音声信号が子音に対応する場合は子音に対応しない場合より高くなるように、
決定される、
付記8または付記9のプログラム。
(付記11)
前記音声信号処理は、
前記高周波数領域の重要度の高さに基づいて係数を決定する、
ことをさらに含み、
前記第1帯域幅に、決定された前記係数を乗じることで、前記第2帯域幅を決定する、
付記8〜付記10の何れかのプログラム。
(付記12)
前記係数は、前記高周波数領域の重要度の高さが高くなるにしたがって小さくなり、最も小さい場合、前記係数は1となるように決定される、
付記11のプログラム。
(付記13)
前記係数は自然数である、
付記11または付記12のプログラム。
(付記14)
前記高周波数領域は、周波数が所定の境界周波数以上の周波数領域であり、
前記低周波数領域は、周波数が前記境界周波数より低い周波数領域であり、
分割される前記第1帯域の数と、分割される前記第2帯域の数と、の和が最大帯域数を越えないように前記境界周波数を低減する、
付記8〜付記13の何れかのプログラム。
10 音声信号処理装置
23 第1帯域分割部
24 帯域幅決定部
25 第2帯域分割部
31 CPU
32 一次記憶部
33 二次記憶部

Claims (8)

  1. 時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割する第1帯域分割部と、
    前記音声信号の前記低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、前記高周波数領域を分割するための前記第1帯域幅以上の第2帯域幅を決定する帯域幅決定部と、
    前記帯域幅決定部で決定された前記第2帯域幅で、前記音声信号の前記高周波数領域を複数の第2帯域に分割する第2帯域分割部と、
    前記複数の第1帯域の各々及び前記複数の第2帯域の各々に対して音声信号調整処理を実行する音声信号調整部と、
    を含む、音声信号処理装置。
  2. 前記帯域幅決定部は、
    前記高周波数領域の重要度の高さが高くなるにしたがって狭くなるように前記第2帯域幅を決定する、
    請求項1に記載の音声信号処理装置。
  3. 前記音声信号の高周波数領域の重要度の高さは、
    低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率、前記高周波数領域の音声信号のパワーの非定常性、前記音声信号の基本周波数、及び前記音声信号が子音に対応するか否か、の少なくとも1つに基づいて決定され、
    前記低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率が大きくなるにしたがって高くなり、
    前記高周波数領域のパワーの非定常性が高くなるにしたがって高くなり、
    前記音声信号の基本周波数が高くなるにしたがって高くなり、
    前記音声信号が子音に対応する場合は子音に対応しない場合より高くなるように、
    決定される、
    請求項1または請求項2に記載の音声信号処理装置。
  4. 前記帯域幅決定部は、
    前記高周波数領域の重要度の高さに基づいて係数を決定する係数決定部、
    を含み、
    前記第1帯域幅に前記係数決定部で決定された前記係数を乗じることで、前記第2帯域幅を決定する、
    請求項1〜請求項3の何れか1項に記載の音声信号処理装置。
  5. 前記係数は、前記高周波数領域の重要度の高さが高くなるにしたがって小さくなり、最も小さい場合、前記係数は1となるように決定される、
    請求項4に記載の音声信号処理装置。
  6. 前記係数は自然数である、
    請求項4または請求項5に記載の音声信号処理装置。
  7. 前記高周波数領域は、周波数が所定の境界周波数以上の周波数領域であり、
    前記低周波数領域は、周波数が前記境界周波数より低い周波数領域であり、
    前記第1帯域分割部で分割される前記第1帯域の数と前記第2帯域分割部で分割される前記第2帯域の数との和が最大帯域数を越えないように前記境界周波数を低減する、
    請求項1〜請求項6の何れか1項に記載の音声信号処理装置。
  8. 時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第1帯域幅で複数の第1帯域に分割し、
    前記音声信号の前記低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、前記高周波数領域を分割するための前記第1帯域幅以上の第2帯域幅を決定し、
    決定された前記第2帯域幅で、前記音声信号の前記高周波数領域を複数の第2帯域に分割し、
    前記複数の第1帯域の各々及び前記複数の第2帯域の各々に対して音声信号調整処理を実行する、
    音声信号処理をコンピュータに実行させるためのプログラム。
JP2016139753A 2016-07-14 2016-07-14 音声信号処理装置及び音声信号処理プログラム Active JP6677110B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016139753A JP6677110B2 (ja) 2016-07-14 2016-07-14 音声信号処理装置及び音声信号処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016139753A JP6677110B2 (ja) 2016-07-14 2016-07-14 音声信号処理装置及び音声信号処理プログラム

Publications (2)

Publication Number Publication Date
JP2018010207A JP2018010207A (ja) 2018-01-18
JP6677110B2 true JP6677110B2 (ja) 2020-04-08

Family

ID=60994342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016139753A Active JP6677110B2 (ja) 2016-07-14 2016-07-14 音声信号処理装置及び音声信号処理プログラム

Country Status (1)

Country Link
JP (1) JP6677110B2 (ja)

Also Published As

Publication number Publication date
JP2018010207A (ja) 2018-01-18

Similar Documents

Publication Publication Date Title
TW594676B (en) Noise reduction device
JP5127754B2 (ja) 信号処理装置
JP4423300B2 (ja) 雑音抑圧装置
JP5875609B2 (ja) 雑音抑圧装置
JP4836720B2 (ja) ノイズサプレス装置
US9854368B2 (en) Method of operating a hearing aid system and a hearing aid system
JP5483000B2 (ja) 雑音抑圧装置、その方法及びプログラム
KR20130141478A (ko) 부호화 장치 및 방법, 복호 장치 및 방법, 및 프로그램
US8694311B2 (en) Method for processing noisy speech signal, apparatus for same and computer-readable recording medium
JP2001134287A (ja) 雑音抑圧装置
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
JP2015050685A (ja) オーディオ信号処理装置および方法、並びにプログラム
JP6339896B2 (ja) 雑音抑圧装置および雑音抑圧方法
JP6073456B2 (ja) 音声強調装置
US9418677B2 (en) Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program
JP2004341339A (ja) 雑音抑圧装置
CN106941006B (zh) 用于音频信号的分离和低音增强的方法、装置和系统
JP6162254B2 (ja) 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法
JP5443547B2 (ja) 信号処理装置
CN108831493B (zh) 一种音频处理方法和装置
JP6677110B2 (ja) 音声信号処理装置及び音声信号処理プログラム
JP6547451B2 (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
EP1278185A2 (en) Method for improving noise reduction in speech transmission
JP6707914B2 (ja) ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラム
JP6282925B2 (ja) 音声強調装置、音声強調方法及びプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180405

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20180411

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20180725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181019

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200225

R150 Certificate of patent or registration of utility model

Ref document number: 6677110

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533