JP6559427B2 - 音声処理装置、音声処理方法およびプログラム - Google Patents

音声処理装置、音声処理方法およびプログラム Download PDF

Info

Publication number
JP6559427B2
JP6559427B2 JP2015010666A JP2015010666A JP6559427B2 JP 6559427 B2 JP6559427 B2 JP 6559427B2 JP 2015010666 A JP2015010666 A JP 2015010666A JP 2015010666 A JP2015010666 A JP 2015010666A JP 6559427 B2 JP6559427 B2 JP 6559427B2
Authority
JP
Japan
Prior art keywords
frequency
signal
frequency domain
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015010666A
Other languages
English (en)
Other versions
JP2016133794A (ja
Inventor
祐介 木田
祐介 木田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015010666A priority Critical patent/JP6559427B2/ja
Priority to CN201510690027.2A priority patent/CN105825863A/zh
Priority to US14/925,243 priority patent/US20160217809A1/en
Publication of JP2016133794A publication Critical patent/JP2016133794A/ja
Application granted granted Critical
Publication of JP6559427B2 publication Critical patent/JP6559427B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明の実施形態は、音声処理装置、音声処理方法およびプログラムに関する。
母音部の音声信号を周波数変換した際に観測される調波構造は、発話区間の検出や基本周波数の推定などを行うための重要な情報となる。そのため、調波構造を形成する周波数成分である調波成分を音声信号から抽出するための様々な方法が提案されている。
これまで提案されている調波成分の抽出方法はいずれも、近傍の周波数帯域に比べてパワーの強い周波数成分を調波成分とみなして抽出する。そのため、電話のトーン音やチャイムの音のように近傍の周波数帯域に比べてパワーの強い周波数成分を持つ雑音が発話に混入した場合には、それらの雑音が調波成分として抽出されることになる。その結果、発話区間の検出や基本周波数の推定などに悪影響を与える懸念がある。このため、雑音に対して頑強に発話の調波成分を抽出できる仕組みの構築が求められる。
特開2003−173195号公報 特表2008−537185号公報
野口 賢一、他4名、"通信会議における1チャネル突発性雑音抑圧"、電子情報通信学会技術研究報告.EA、応用音響 105(403)、pp.31−36(2005)
本発明が解決しようとする課題は、雑音に対して頑強に発話の調波成分を抽出できる音声処理装置、音声処理方法およびプログラムを提供することである。
実施形態の音声処理装置は、強調部と、変換部と、フィルタ部と、逆変換部と、を備える。強調部は、入力音声に含まれる調波成分を強調した占有度スペクトルを生成する。変換部は、前記占有度スペクトルを変調周波数領域の信号に変換する。フィルタ部は、人の発話を通過させるよう設計されたフィルタにより前記変調周波数領域の信号に対するフィルタリングを行う。逆変換部は、前記フィルタリングが行われた前記変調周波数領域の信号を周波数領域の信号に逆変換する。
実施形態の音声処理装置の機能的な構成例を示すブロック図。 実施形態の音声処理装置による処理手順の一例を示すフローチャート。 周波数スペクトログラムの一例を示す図。 占有度スペクトルを連結して得た周波数スペクトログラムの一例を示す図。 図4の周波数スペクトログラムの100フレームから200フレームまでを抽出して示す図。 図5の周波数スペクトログラムから(A)の周波数の成分を時刻ごとに抽出して得た一次元の時間信号を示す図。 図5の周波数スペクトログラムから(B)の周波数の成分を時刻ごとに抽出して得た一次元の時間信号を示す図。 図6の時間信号を離散フーリエ変換して得た変調周波数スペクトルを示す図。 図7の時間信号を離散フーリエ変換して得た変調周波数スペクトルを示す図。 変調周波数スペクトログラムの一例を示す図。 図10の変調周波数スペクトログラムに対してフィルタリングを行った後、周波数逆変換して得た周波数スペクトルグラムを示す図。 音声処理装置のハードウェア構成例を示すブロック図。
以下、添付図面を参照しながら、実施形態の音声処理装置、音声処理方法およびプログラムについて詳細に説明する。本実施形態の音声処理装置は、入力音声に含まれる人の発話の調波成分を抽出し、発話区間の検出や基本周波数の推定を行う。入力音声は、本実施形態の音声処理装置に入力される音声を含む信号である。本実施形態では、人の発話の区間である発話区間と非発話区間とを含む信号が入力音声として音声処理装置に入力されるものとする。
まず、本実施形態の音声処理装置の構成について、図1を参照して説明する。図1は、本実施形態の音声処理装置1の機能的な構成例を示すブロック図である。図1に示すように、音声処理装置1は、強調部11と、変換部12と、フィルタ部13と、逆変換部14と、検出部15と、推定部16と、を備える。
強調部11は、入力音声に含まれる調波成分を強調した周波数スペクトルを時刻ごとに生成し、時刻ごとに生成した周波数スペクトルを連結することにより、時間と周波数を各々軸とする周波数スペクトログラムを生成する。なお、強調部11は、入力音声から時刻ごとに周波数スペクトルを生成して変換部12に渡し、変換部12において、強調部11が生成した時刻ごとの周波数スペクトルを連結して周波数スペクトログラムを生成する構成であってもよい。
強調部11は、調波成分を強調した周波数スペクトルとして、例えば特許文献1に記載の占有度スペクトルを生成する構成とすることができる。特許文献1に記載の占有度スペクトルは、周波数帯域ごとに各時刻の入力信号の瞬時周波数を抽出する瞬時周波数抽出過程と、各周波数帯域の中心周波数における入力信号のパワーをそれぞれ抽出する信号パワー抽出過程と、各中心周波数を中心として前後の帯域の各瞬時周波数とその中心周波数の差を抽出する周波数差抽出過程と、中心周波数ごとに上記周波数差の和を計算して占有度をそれぞれ求める占有度演算過程と、を経て生成される。ただし、周波数差抽出過程では、各中心周波数を中心として前後の帯域の各瞬時周波数とその中心周波数の差を抽出する代わりに、各中心周波数を中心として前後の帯域の各瞬時周波数とその中心周波数に対応する瞬時周波数の差を抽出してもよい。
なお、強調部11は、調波成分を強調した周波数スペクトルとして、特許文献1に記載の占有度スペクトル以外の他の周波数スペクトルを生成する構成であってもよい。例えば強調部11は、例えば非特許文献1に記載のLPC残差スペクトルを、調波成分を強調した周波数スペクトルとして生成してもよい。また、強調部11は、例えば、入力音声に対してケプストラム分析を行って低次成分を抑圧(リフタリング)した後、離散逆コサイン変換を行うことにより求めた周波数スペクトルを、調波成分を強調した周波数スペクトルとして生成してもよい。また、強調部11は、例えば、下記の参考文献1に記載の瞬時周波数スペクトルを、調波成分を強調した周波数スペクトルとして生成してもよい。
参考文献1:阿部 敏彦、他2名、“瞬時周波数に基づく雑音環境下でのピッチ推定”、電子情報通信学会論文誌. D−II、情報・システム、II−情報処理 J79−D−2(11)、pp.1771−1781(1996)
変換部12は、強調部11により生成された周波数スペクトログラムを変調周波数領域の信号に変換する。強調部11により生成された周波数スペクトログラムから、時刻ごとに特定の周波数ビンの成分を抽出すると、一次元の時間信号が得られる。この時間信号を周波数変換すると、変調周波数領域における周波数スペクトルが得られる。ここで得られる周波数スペクトルを変調周波数スペクトルと呼ぶ。この変調周波数スペクトルの周波数方向の軸が変調周波数である。変換部12は、以上の処理を、周波数スペクトログラムの各周波数ビンに対して行うことにより、強調部11により生成された周波数スペクトログラムを、変調周波数と周波数を各々軸とする変調周波数スペクトログラムに変換することができる。
フィルタ部13は、人の発話を通過させるよう設計されたフィルタにより変調周波数スペクトログラムに対するフィルタリングを行う。人の発話のうち、知覚に重要な情報のほとんどが変調周波数軸上で1〜16Hz程度に分布していることが分かっている(例えば、下記の参考文献2を参照)。この性質を利用して、例えば、変調周波数軸上で1〜16Hz付近の成分を通過させ、それ以外の成分をカットするフィルタを変調周波数スペクトログラムに適用すればよい。
参考文献2:金寺 登、他2名、“音声中の言語情報を担う変調スペクトル特性の検討”、日本音響学会研究発表会講演論文集1999(1)、3−4(1999)
逆変換部14は、フィルタ部13によるフィルタリングが行われた変調周波数スペクトログラムを元の周波数領域(変換部12による変換前の周波数スペクトログラムと同じ周波数領域)の周波数スペクトログラムに逆変換する。フィルタ部13によるフィルタリングが行われた変調周波数スペクトログラムから、特定の周波数ビンの成分を抽出すると、一次元の変調周波数領域の信号が得られる。この信号を周波数逆変換すると、特定の周波数ビンに対応する時間信号が得られる。逆変換部14は、以上の処理を、変調周波数スペクトログラムの各周波数ビンに対して行うことにより、フィルタ部13によるフィルタリングが行われた変調周波数スペクトログラムを、元の周波数領域の周波数スペクトログラムに逆変換することができる。
逆変換部14での処理により得られる周波数スペクトログラムは、入力音声における人の発話の調波成分が強調された信号となる。つまり、本実施形態の音声処理装置1は、入力音声に対して強調部11から逆変換部14までの処理を行うことにより、入力音声に含まれる人の発話の調波成分を適切に抽出することができる。
検出部16は、逆変換部14により生成された周波数スペクトログラムに基づいて、入力音声から発話区間を検出する。発話区間の検出方法については特に限定しないが、例えば、周波数スペクトログラムを周波数スペクトルに分解した上で、時刻ごとの周波数スペクトルに対して各周波数ビンの平均パワーを求める方法を用いることができる。この場合、例えば、入力音声の中で平均パワーが閾値を超える区間が発話区間として検出される。また、くしの間隔の異なる様々なコムフィルタに周波数スペクトルを各々通過させて得られた最大の応答を用いて、発話区間を検出する方法を用いてもよい。この場合、例えば、入力信号の中で最大の応答が得られる区間が発話区間として検出される。また、この場合、最大の応答を出力するコムフィルタのくしの間隔から基本周波数を推定することもできる。
推定部17は、逆変換部14により生成された周波数スペクトログラムに基づいて、入力音声に含まれる人の発話の基本周波数を推定する。推定部17による基本周波数の推定は、検出部16により検出された発話区間を対象に行ってもよいし、検出部16による発話区間の検出と並行して行ってもよい。基本周波数の推定方法については特に限定しないが、例えば、特許文献1に記載されている調波構造占有度に基づいて基本周波数を推定する方法を用いることができる。
次に、本実施形態の音声処理装置1の動作について、図2を参照して説明する。図2は、音声処理装置1による処理手順の一例を示すフローチャートである。この図2のフローチャートで示す一連の処理は、音声処理装置1に対して入力音声が入力されるたびに繰り返し実行される。
図2のフローチャートで示す処理が開始されると、まず、強調部11が、入力音声に含まれる調波成分を強調した周波数スペクトルを時刻ごとに生成する(ステップS101)。そして、強調部11は、時刻ごとに生成した周波数スペクトルを連結することで、時間と周波数を各々軸とする周波数スペクトログラムを生成する(ステップS102)。強調部11によって生成された周波数スペクトログラムは、変換部12に供給される。
次に、変換部12が、強調部11から供給された周波数スペクトログラムを、変調周波数と周波数を各々軸とする変調周波数スペクトログラムに変換する(ステップS103)。変換部12によって周波数スペクトログラムから変換された変調周波数スペクトログラムは、フィルタ部13に供給される。
次に、フィルタ部13が、人間の発話を通過させるよう設計されたフィルタにより、変換部12から供給された変調周波数スペクトログラムに対してフィルタリングを行う(ステップS104)。フィルタ部13によるフィルタリングが行われた(フィルタを通過した)変調周波数スペクトログラムは、逆変換部14に供給される。
次に、逆変換部14が、フィルタ部13から供給された変調周波数スペクトログラム(フィルタリングが行われた変調周波数スペクトログラム)を、時間と周波数を各々軸とする周波数スペクトログラムに逆変換する(ステップS105)。逆変換部14によって変調周波数スペクトログラムから逆変換された周波数スペクトログラムは、検出部15に供給される。
次に、検出部15が、逆変換部14から供給された周波数スペクトログラムに基づき、入力音声における発話区間を検出する(ステップS106)。検出部15によって検出された発話区間の情報は、推定部16に供給されるとともに、例えば、ディスプレイやスピーカなどの出力装置、HDDなどのファイル記憶装置、ネットワークに接続された通信I/Fなどに出力される。
次に、推定部16が、逆変換部14から供給された周波数スペクトログラムに基づき、検出部15により検出された入力音声の発話区間を対象として、基本周波数の推定を行う(ステップS107)。推定部17によって推定された基本周波数の情報は、例えば、ディスプレイやスピーカなどの出力装置、HDDなどのファイル記憶装置、ネットワークに接続された通信I/Fなどに出力される。
次に、具体的な事例を挙げながら、本実施形態の音声処理装置1による処理の一例をさらに詳しく説明する。本例では、強調部11が生成する周波数スペクトル(入力音声に含まれる調波成分を強調した周波数スペクトル)として、特許文献1に記載の占有度スペクトルを用いるものとする。
図3は、入力音声をフレームに分割し、各フレームの信号を周波数変換して得た周波数スペクトログラムの一例を示す図である。図の横軸がフレームの番号、縦軸が周波数のビン番号を表している。この図3に示す周波数スペクトログラムから、入力音声の概ね100フレームから200フレームのあたりに発話が存在している様子が分かる。この区間が発話区間であり、この発話区間において、周波数軸上でパワーの強い成分が等間隔に並んでいる構造が、母音部で観測される調波構造である。このほか、図3に示す周波数スペクトログラムの例では、概ね30番目の周波数ビンにおいて、強いパワーのトーン音が定常的に存在している様子が分かる。
図4は、図3と同様の入力音声に対し、特許文献1に記載の方法で占有度スペクトルをフレーム単位で抽出し、それらを連結して得た周波数スペクトログラムの一例を示す図である。図4の周波数スペクトログラムを図3の周波数スペクトログラムと比較すると、占有度スペクトルを抽出したことで、周囲の背景雑音が抑圧され、入力音声の調波成分が強調された様子が見て取れる。しかし、一方で、トーン音は抑圧されず、音声の調波成分と同様に強調されたことが分かる。これは、占有度スペクトルを抽出する方法では、近傍の周波数帯域に比べてパワーの強い信号成分を調波成分とみなして強調するためである。そのため、そのような雑音が発話に混入した場合に、占有度スペクトルをそのまま用いて発話区間の検出や基本周波数の推定を行うと、正確な検出や推定が行えない虞がある。
図5は、図4の周波数スペクトログラムの100フレームから200フレームまでを抽出して示す図である。本例では以後、この区間を分析区間として、図2のフローチャートに示すステップS103からステップS105までの各ステップの具体的な動作を説明する。
ステップS103では、変換部12が、周波数スペクトログラムを変調周波数スペクトログラムに変換する。ここでは、図5に示す2つの周波数(A)と(B)を例に取って説明する。(A)は80番目の周波数ビンであり、(B)は30番目の周波数ビンである。
図6は、図5の周波数スペクトログラムから(A)の周波数の成分を時刻ごとに抽出して得た一次元の時間信号を示す図である。図6に示す時間信号から、(A)の周波数の信号は振幅(占有度)の変動が大きいことが分かる。これは、発話の音高に応じて調波構造の周波数軸上における位置が変動した結果、(A)の周波数に調波成分が重なった時刻と重ならなかった時刻において振幅の差が生じたためである。
図7は、図5の周波数スペクトログラムから(B)の周波数の成分を時刻ごとに抽出して得た一次元の時間信号を示す図である。図7の時間信号を図6の時間信号と比較すると、図7の振幅の方が図6の振幅よりも大きく、かつ、変動が小さいことが分かる。これは、(B)の周波数においては、トーン音の振幅が大きく支配的であり、かつ、トーン音の振幅の変動が小さかったためである。
図8は、図6の時間信号を離散フーリエ変換して得た変調周波数スペクトルを示す図であり、図9は、図7の時間信号を離散フーリエ変換して得た変調周波数スペクトルを示す図である。図8では、オフセット成分(変調周波数が0Hzの成分)の値が概ね15程度であり、その他の変調周波数では高々5程度の値が観測される。一方、図9では、オフセット成分の値が概ね300程度となっており、他の変調周波数の値をはるかに上回る値が観測される。これは、振幅が大きく、かつ、振幅の変動が小さかったトーン音の成分が、周波数領域でのオフセット成分に変換されたためである。
図10は、以上の処理を全ての周波数ビンに対して行うことで得られる変調周波数スペクトログラムの一例を示す図である。図10に示す変調周波数スペクトログラムでは、トーン音の存在する30番目あたりの周波数ビンではオフセット以外の成分が少ないが、発話の存在する他の周波数ビンではオフセット以外の成分も多く含まれることが分かる。
次に、ステップS104では、フィルタ部13が、人間の発話を通過させるよう設計されたフィルタにより、変調周波数スペクトログラムに対するフィルタリングを行う。本例では、図10に示す変調周波数スペクトログラムにおいて、変調周波数のビン番号が2〜16の成分(図中の破線で囲まれた領域)を通過させ、それ以外の成分を全て0にカットするフィルタを用いる。この処理により、変調周波数領域のオフセット成分であるトーン音が除去されることになる。
次に、ステップS105では、逆変換部14が、フィルタリングが行われた変調周波数スペクトログラムを周波数スペクトログラムに逆変換する。図11は、図10の変調周波数スペクトログラムに対してフィルタリングを行った後、周波数逆変換して得た周波数スペクトルグラムを示す図である。図11の周波数スペクトログラムを図5の周波数スペクトログラムと比較すると、図11の周波数スペクトログラムでは、図5の周波数スペクトログラムで観測されたトーン音がほとんど観測されないことが分かる。
以上のことから、人間の発話を通過させるよう設計されたフィルタにより変調周波数スペクトログラムに対するフィルタリングを行い、フィルタリングが行われた変調周波数スペクトログラムを逆変換して得られる周波数スペクトログラムを用いることで、トーン音などの雑音の影響を抑圧し、雑音に対して頑強に発話の調波成分を抽出できることが分かる。したがって、このような周波数スペクトログラムを用いて発話区間の検出や基本周波数の推定を行うことで、これらの処理を高精度に行うことができる。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態の音声処理装置1は、入力音声に含まれる調波成分を強調した周波数スペクトル(周波数スペクトログラム)を生成し、この周波数スペクトルを変調周波数領域の信号(変調周波数スペクトログラム)に変換する。そして、人の発話を通過させるよう設計されたフィルタにより変調周波数領域の信号に対するフィルタリングを行い、フィルタリングが行われた変調周波数領域の信号を周波数領域の信号(周波数スペクトログラム)に逆変換することにより、入力音声に含まれる人の発話の調波成分が強調された信号を生成する。したがって、本実施形態の音声認識装置1によれば、例えば電話のトーン音やチャイムの音のように近傍の周波数帯域に比べてパワーの強い周波数成分を持つ雑音が発話に混入した場合であっても、これらの雑音に対して頑強に発話の調波成分を抽出することができる。
また、本実施形態の音声処理装置1は、上述の逆変換した信号に基づいて発話区間の検出を行うことで、入力音声から精度よく発話区間を検出することができる。また、本実施形態の音声処理装置1は、上述の逆変換した信号に基づいて基本周波数の推定を行うことで、入力音声に含まれる発話の基本周波数を精度よく推定することができる。
また、本実施形態の音声処理装置1は、入力音声を単に周波数変換した周波数スペクトルではなく、例えば占有度スペクトルなどのように入力音声に含まれる調波成分を強調した周波数スペクトルを用いて処理を行うため、例えば音声の周波数スペクトルに含まれる包絡成分を予め除去することができ、調波成分の抽出を効率よく行うことができる。
本実施形態の音声処理装置1は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用い、このコンピュータシステム上で所定のプログラム(ソフトウェア)を実行することによって、上述した各部(強調部11、変換部12、フィルタ部13、逆変換部14、検出部15および推定部16)を実現することができる。
図12は、本実施形態の音声処理装置1のハードウェア構成例を示すブロック図である。音声処理装置1は、例えば図12に示すように、CPU101などのプロセッサと、RAM102やROM103などの記憶装置と、周辺機器を接続するための機器I/F104と、HDD105などのファイル記憶装置と、ネットワークを介して外部と通信を行う通信I/F106と、を備えた通常のコンピュータのハードウェア構成を有する。
このとき、上記のプログラムは、例えば、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、またはこれに類する記録媒体に記録されて提供される。なお、プログラムを記録する記録媒体は、コンピュータシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。また、上記プログラムを、コンピュータシステムに予めインストールするように構成してもよいし、ネットワークを介して配布される上記のプログラムをコンピュータシステムに適宜インストールするように構成してもよい。
上記のコンピュータシステムで実行されるプログラムは、本実施形態の音声処理装置1における機能的な構成要素である上述した各部(強調部11、変換部12、フィルタ部13、逆変換部14、検出部15および推定部16)を含むモジュール構成となっており、プロセッサがこのプログラムを適宜読み出して実行することにより、上述した各部がRAM102などの主記憶上に生成されるようになっている。
なお、本実施形態の音声処理装置1の上述した各部(強調部11、変換部12、フィルタ部13、逆変換部14、検出部15および推定部16)は、プログラム(ソフトウェア)により実現するだけでなく、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field−Programmable Gate Array)などの専用のハードウェアにより実現することもできる。
また、本実施形態の音声処理装置1は、複数台のコンピュータを通信可能に接続したネットワークシステムとして構成し、上述した各部を複数台のコンピュータに分散して実現する構成であってもよい。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 音声処理装置
11 強調部
12 変換部
13 フィルタ部
14 逆変換部
15 検出部
16 推定部

Claims (5)

  1. 入力音声に含まれる調波成分を強調した占有度スペクトルを生成する強調部と、
    前記占有度スペクトルを変調周波数領域の信号に変換する変換部と、
    人の発話を通過させるよう設計されたフィルタにより前記変調周波数領域の信号に対するフィルタリングを行うフィルタ部と、
    前記フィルタリングが行われた前記変調周波数領域の信号を周波数領域の信号に逆変換する逆変換部と、を備える音声処理装置。
  2. 逆変換した前記周波数領域の信号に基づいて、前記入力音声に含まれる人の発話の区間である発話区間を検出する検出部をさらに備える、請求項1に記載の音声処理装置。
  3. 逆変換した前記周波数領域の信号に基づいて、前記入力音声に含まれる人の発話の基本周波数を推定する推定部をさらに備える、請求項1または2に記載の音声処理装置。
  4. 音声処理装置により実行される音声処理方法であって、
    入力音声に含まれる調波成分を強調した占有度スペクトルを生成するステップと、
    前記占有度スペクトルを変調周波数領域の信号に変換するステップと、
    人の発話を通過させるよう設計されたフィルタにより前記変調周波数領域の信号に対するフィルタリングを行うステップと、
    前記フィルタリングが行われた前記変調周波数領域の信号を周波数領域の信号に逆変換するステップと、を含む音声処理方法。
  5. コンピュータに、
    入力音声に含まれる調波成分を強調した占有度スペクトルを生成する機能と、
    前記占有度スペクトルを変調周波数領域の信号に変換する機能と、
    人の発話を通過させるよう設計されたフィルタにより前記変調周波数領域の信号に対するフィルタリングを行う機能と、
    前記フィルタリングが行われた前記変調周波数の信号を周波数領域の信号に逆変換する機能と、を実現させるためのプログラム。
JP2015010666A 2015-01-22 2015-01-22 音声処理装置、音声処理方法およびプログラム Active JP6559427B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015010666A JP6559427B2 (ja) 2015-01-22 2015-01-22 音声処理装置、音声処理方法およびプログラム
CN201510690027.2A CN105825863A (zh) 2015-01-22 2015-10-22 语音处理装置和语音处理方法
US14/925,243 US20160217809A1 (en) 2015-01-22 2015-10-28 Speech processing apparatus, speech processing method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015010666A JP6559427B2 (ja) 2015-01-22 2015-01-22 音声処理装置、音声処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016133794A JP2016133794A (ja) 2016-07-25
JP6559427B2 true JP6559427B2 (ja) 2019-08-14

Family

ID=56433770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015010666A Active JP6559427B2 (ja) 2015-01-22 2015-01-22 音声処理装置、音声処理方法およびプログラム

Country Status (3)

Country Link
US (1) US20160217809A1 (ja)
JP (1) JP6559427B2 (ja)
CN (1) CN105825863A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108461081B (zh) * 2018-03-21 2020-07-31 北京金山安全软件有限公司 语音控制的方法、装置、设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4403436B2 (ja) * 2007-02-21 2010-01-27 ソニー株式会社 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
CN103718241B (zh) * 2011-11-02 2016-05-04 三菱电机株式会社 噪音抑制装置
JP2014134688A (ja) * 2013-01-10 2014-07-24 Yamaha Corp 音響解析装置
CN105122359B (zh) * 2013-04-10 2019-04-23 杜比实验室特许公司 语音去混响的方法、设备和系统

Also Published As

Publication number Publication date
CN105825863A (zh) 2016-08-03
JP2016133794A (ja) 2016-07-25
US20160217809A1 (en) 2016-07-28

Similar Documents

Publication Publication Date Title
US10210883B2 (en) Signal processing apparatus for enhancing a voice component within a multi-channel audio signal
US20160012828A1 (en) Wind noise reduction for audio reception
US11756564B2 (en) Deep neural network based speech enhancement
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
US9767829B2 (en) Speech signal processing apparatus and method for enhancing speech intelligibility
US9076446B2 (en) Method and apparatus for robust speaker and speech recognition
JP6533959B2 (ja) 音声信号処理装置および音声信号処理方法
US7917359B2 (en) Noise suppressor for removing irregular noise
JPWO2014168021A1 (ja) 信号処理装置、信号処理方法および信号処理プログラム
TWI767696B (zh) 自我語音抑制裝置及方法
JP5782402B2 (ja) 音声品質客観評価装置及び方法
JP6559427B2 (ja) 音声処理装置、音声処理方法およびプログラム
EP3696815B1 (en) Nonlinear noise reduction system
JP2011053557A (ja) 悲鳴検出装置および悲鳴検出方法
JP2017015774A (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
JP2020134887A (ja) 音信号処理プログラム、音信号処理方法及び音信号処理装置
JP6849978B2 (ja) 音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラム
VH et al. A study on speech recognition technology
Indumathi et al. An efficient speaker recognition system by employing BWT and ELM
Zhang et al. Fundamental frequency estimation combining air-conducted speech with bone-conducted speech in noisy environment
JP7159767B2 (ja) 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
US20220383875A1 (en) Monitoring method and system based on magnetic field of loudspeaker
Jain et al. Feature extraction techniques based on human auditory system
KR101626280B1 (ko) 합성음의 고조파 성분 제거 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190717

R151 Written notification of patent or utility model registration

Ref document number: 6559427

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151