JP2016042132A - 音声処理装置、音声処理方法、並びにプログラム - Google Patents

音声処理装置、音声処理方法、並びにプログラム Download PDF

Info

Publication number
JP2016042132A
JP2016042132A JP2014165681A JP2014165681A JP2016042132A JP 2016042132 A JP2016042132 A JP 2016042132A JP 2014165681 A JP2014165681 A JP 2014165681A JP 2014165681 A JP2014165681 A JP 2014165681A JP 2016042132 A JP2016042132 A JP 2016042132A
Authority
JP
Japan
Prior art keywords
speech
unit
signal
voice
noise environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014165681A
Other languages
English (en)
Inventor
慶一 大迫
keiichi Osako
慶一 大迫
澁谷 崇
Takashi Shibuya
崇 澁谷
俊之 関矢
Toshiyuki Sekiya
俊之 関矢
安部 素嗣
Mototsugu Abe
素嗣 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2014165681A priority Critical patent/JP2016042132A/ja
Priority to EP15833495.3A priority patent/EP3185243B1/en
Priority to US15/501,124 priority patent/US10580428B2/en
Priority to PCT/JP2015/072319 priority patent/WO2016027680A1/ja
Priority to CN201580042807.4A priority patent/CN106663445B/zh
Publication of JP2016042132A publication Critical patent/JP2016042132A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

【課題】雑音を適切に除去する。
【解決手段】音声を集音する集音部と、集音部により集音された音声信号を用いて、抽出対象となる音声を強調する音声強調部と、集音部により集音された音声信号を用いて、抽出対象となる音声を減衰する音声減衰部と、周囲の雑音環境を推定する雑音環境推定部と、音声強調部からの音声強調信号と音声減衰部からの音声減衰信号を用いたポストフィルタ処理を行うポストフィルタ部とを備え、ポストフィルタ部は、雑音環境推定部による雑音環境に応じて、雑音除去のための処理の強弱を設定する。本技術は、音声認識処理を行う装置、例えば、携帯電話機に適用できる。
【選択図】図3

Description

本技術は、音声処理装置、音声処理方法、並びにプログラムに関する。詳しくは、抽出したい音声を、適切に雑音を除去して抽出することができる音声処理装置、音声処理方法、並びにプログラムに関する。
近年、音声を使ったユーザインターフェースが普及しつつある。音声を使ったユーザインターフェースは、例えば、携帯電話機(スマートホンなどと称される機器)において、電話をかけるときや情報検索のときなどに用いられている。
しかしながら、雑音が多い環境下で用いられると、雑音の影響で、ユーザが発した音声が正確に解析できず、誤った処理が実行されてしまう可能性があった。そこで、特許文献1においては、雑音の影響を低減させ、所望の音声を抽出することが提案されている。
特開2009−49998号公報
特許文献1においては、ポストフィルタ手段が備えられ、このポストフィルタ手段は、MAP(最大事後確率)最適化を行い、このフィードバックループは、雑音がゼロになるように動作する構成とされている。このような構成の場合、例えば、複数点音源雑音(非点音源雑音)、拡散性雑音があると、出力信号にミュージカルノイズが発生する可能性が高い。
ミュージカルノイズが発生すると、聴感上の違和感が発生するだけでなく音声認識性能が劣化してしまう。点音源雑音、複数点音源雑音、拡散性雑音などの雑音の種類によらず、ミュージカルノイズなどが発生しないように、適切に雑音を除去できるようにすることが望まれている。
本技術は、このような状況に鑑みてなされたものであり、適切に雑音を除去し、所望とされる音声を抽出することができるようにするものである。
本技術の一側面の音声処理装置は、音声を集音する集音部と、前記集音部により集音された音声信号を用いて、抽出対象となる音声を強調する音声強調部と、前記集音部により集音された音声信号を用いて、前記抽出対象となる音声を減衰する音声減衰部と、周囲の雑音環境を推定する雑音環境推定部と、前記音声強調部からの音声強調信号と前記音声減衰部からの音声減衰信号を用いたポストフィルタ処理を行うポストフィルタ部とを備え、前記ポストフィルタ部は、前記雑音環境推定部による前記雑音環境に応じて、雑音除去のための処理の強弱を設定する。
前記雑音環境推定部は、前記集音部により集音された前記音声を用いて、前記雑音環境を推定するようにすることができる。
前記集音部は、複数のマイクロホンを備え、前記雑音環境推定部は、前記複数のマイクロホンのぞれぞれで集音された信号同士の相関を求め、前記相関の値を前記雑音環境の推定結果とするようにすることができる。
前記雑音環境推定部は、前記音声強調信号と前記音声減衰信号を用いて、前記雑音環境を推定するようにすることができる。
前記音声強調信号の振幅スペクトルと前記音声減衰信号の振幅スペクトルの相関を算出し、前記相関の値を前記雑音環境の推定結果とするようにすることができる。
前記雑音環境推定部は、外部から入力される情報に基づき、前記雑音環境を推定するようにすることができる。
前記外部から入力される情報は、ユーザにより供給された周囲の雑音環境に関する情報、位置情報、時間情報の少なくとも1つの情報であるようにすることができる。
前記音声強調信号と前記音声減衰信号を用いて、発話区間を推定する発話区間推定部をさらに備え、前記発話区間推定部により、発話区間ではないと推定された区間において、前記雑音環境推定部は、前記雑音環境の推定を行うようにすることができる。
前記音声強調部は、加算型ビームフォーミング、Delay and Sumビームフォーミング、または適応型ビームフォーミングを用いて、前記音声強調信号を生成するようにすることができる。
前記音声減衰部は、減算型ビームフォーミング、Nullビームフォーミング、または適応型Nullビームフォーミングを用いて、前記音声減衰信号を生成するようにすることができる。
前記雑音環境推定部による推定結果に基づいて、前記集音部を構成するマイクロホンの本数、および前記音声強調部と前記音声減衰部に入力される本数を変更するようにすることができる。
前記変更は、起動時、または動作中に行われるようにすることができる。
本技術の一側面の音声処理方法は、集音部により音声を集音し、前記集音部により集音された音声信号を用いて、抽出対象となる音声が強調された音声強調信号を生成し、前記集音部により集音された音声信号を用いて、前記抽出対象となる音声が減衰された音声減衰信号を生成し、周囲の雑音環境を推定し、前記音声強調信号と前記音声減衰信号を用いたポストフィルタ処理を行うステップを含み、前記ポストフィルタ処理は、推定された前記雑音環境に応じて、雑音除去のための処理の強弱を設定するステップを含む。
本技術の一側面のプログラムは、集音部により音声を集音し、前記集音部により集音された音声信号を用いて、抽出対象となる音声が強調された音声強調信号を生成し、前記集音部により集音された音声信号を用いて、前記抽出対象となる音声が減衰された音声減衰信号を生成し、周囲の雑音環境を推定し、前記音声強調信号と前記音声減衰信号を用いたポストフィルタ処理を行うステップを含み、前記ポストフィルタ処理は、推定された前記雑音環境に応じて、雑音除去のための処理の強弱を設定するステップを含む処理をコンピュータに実行させる。
本技術の一側面の音声処理装置、音声処理方法、並びにプログラムにおいては、音声が集音され、集音された音声信号が用いられて、抽出対象となる音声が強調された音声強調信号が生成され、抽出対象となる音声が減衰された音声減衰信号が生成され、周囲の雑音環境が推定され、音声強調信号と音声減衰信号を用いたポストフィルタ処理が行われる。ポストフィルタ処理は、推定された雑音環境に応じて、雑音除去のための処理の強弱が設定される。
本技術の一側面によれば、適切に雑音を除去し、所望とされる音声を抽出することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術が適用される音声処理装置の一実施の形態の構成を示す図である。 音源について説明するための図である。 第1-1の音声処理装置の内部構成を示す図である。 第1-1の音声処理装置の動作について説明するためのフローチャートである。 第1-1の音声処理装置の動作について説明するためのフローチャートである。 時間周波数変換部の処理について説明するための図である。 音声強調部の処理について説明するための図である。 音声減衰部の処理について説明するための図である。 発話区間検出部の処理について説明するための図である。 雑音環境推定部の処理について説明するための図である。 ポストフィルタ部での補正について説明するための図である。 ポストフィルタ部での補正について説明するための図である。 ポストフィルタ部での補正について説明するための図である。 音声認識率が向上することについて説明するための図である。 第1-2の音声処理装置の内部構成を示す図である。 雑音環境推定部の構成について説明するための図である。 第1-2の音声処理装置の動作について説明するためのフローチャートである。 第1-2の音声処理装置の動作について説明するためのフローチャートである。 第1-3の音声処理装置の内部構成を示す図である。 第1-3の音声処理装置の動作について説明するためのフローチャートである。 第1-3の音声処理装置の動作について説明するためのフローチャートである。 第2-1の音声処理装置の内部構成を示す図である。 ポストフィルタ部の構成について説明するための図である。 第2-1の音声処理装置の動作について説明するためのフローチャートである。 第2-1の音声処理装置の動作について説明するためのフローチャートである。 第2-1の音声処理装置の他の動作について説明するためのフローチャートである。 第2-1の音声処理装置の他の動作について説明するためのフローチャートである。 第2-2の音声処理装置の内部構成を示す図である。 第2-2の音声処理装置の動作について説明するためのフローチャートである。 第2-2の音声処理装置の動作について説明するためのフローチャートである。 第2-2の音声処理装置の他の動作について説明するためのフローチャートである。 第2-2の音声処理装置の他の動作について説明するためのフローチャートである。 第2-3の音声処理装置の内部構成を示す図である。 第2-3の音声処理装置の動作について説明するためのフローチャートである。 第2-3の音声処理装置の動作について説明するためのフローチャートである。 第2-3の音声処理装置の他の動作について説明するためのフローチャートである。 第2-3の音声処理装置の他の動作について説明するためのフローチャートである。 第3-1の音声処理装置の内部構成を示す図である。 第3-1の音声処理装置の動作について説明するためのフローチャートである。 第3-1の音声処理装置の動作について説明するためのフローチャートである。 第3-1の音声処理装置の他の動作について説明するためのフローチャートである。 第3-1の音声処理装置の他の動作について説明するためのフローチャートである。 第3-2の音声処理装置の内部構成を示す図である。 第3-2の音声処理装置の動作について説明するためのフローチャートである。 第3-2の音声処理装置の動作について説明するためのフローチャートである。 第3-2の音声処理装置の他の動作について説明するためのフローチャートである。 第3-2の音声処理装置の他の動作について説明するためのフローチャートである。 第3-3の音声処理装置の内部構成を示す図である。 第3-3の音声処理装置の動作について説明するためのフローチャートである。 第3-3の音声処理装置の動作について説明するためのフローチャートである。 第3-3の音声処理装置の他の動作について説明するためのフローチャートである。 第3-3の音声処理装置の他の動作について説明するためのフローチャートである。 記録媒体について説明するための図である。
以下に、本技術を実施するための形態(以下、実施の形態という)について説明する。なお、説明は、以下の順序で行う。
1.音声処理装置の外観の構成
2.音源について
3.第1の音声処理装置の内部構成と動作(第1−1乃至第1−3の音声処理装置)
4.第2の音声処理装置の内部構成と動作(第2−1乃至第2−3の音声処理装置)
5.第3の音声処理装置の内部構成と動作(第3−1乃至第3−3の音声処理装置)
6.記録媒体について
<音声処理装置の外観の構成>
図1は、本技術が適用される音声処理装置の外観の構成を示す図である。本技術は、音声信号を処理する装置に適用できる。例えば、携帯電話機(スマートホンなどと称される機器も含む)、ゲーム機のマイクロホンからの信号を処理する部分、ノイズキャンセリングヘッドホンやイヤホンなどに適用できる。また、ハンズフリー通話、音声対話システム、音声コマンド入力、ボイスチャットなどを実現するアプリケーションを搭載した装置にも適用できる。
また本技術が適用される音声処理装置は、携帯端末であっても良いし、所定の位置に設置されて用いられる装置であっても良い。また、メガネ型の端末や、腕などに装着する端末であり、ウェアラブル機器などと称される機器にも適用できる。
ここでは、携帯電話機(スマートホン)を例に挙げて説明を続ける。図1は、携帯電話機10の外観の構成を示す図である。携帯電話機10の一面には、スピーカ21、ディスプレイ22、およびマイクロホン23が備えられている。
スピーカ21とマイクロホン23は、音声通話を行うときに用いられる。ディスプレイ22は、さまざまな情報を表示する。ディスプレイ22は、タッチパネルであっても良い。
マイクロホン23は、ユーザの発話した音声を集音する機能を有し、後述する処理の対象となる音声が入力される部分である。マイクロホン23は、エレクトレットコンデンサマイクロホン、MEMSマイクロホンなどである。またマイクロホン23のサンプリングは、例えば 16000Hz である。
また、図1では、マイクロホン23は、1本だけ図示してあるが、後述するように、2本以上備えられる。図3以降では、複数のマイクロホン23を集音部として記載する。集音部には、2本以上のマイクロホン23が含まれる。
マイクロホン23の携帯電話機10上での設置位置は、一例であり、図1に示したような下部の中央部分に設置位置が限定されることを示すわけではない。例えば、図示はしないが、携帯電話機10の下部の左右に、それぞれ1本ずつマイクロホン23が設けられていたり、携帯電話機10の側面など、ディスプレイ22とは異なる面に設けられていたりしても良い。
マイクロホン23の設置位置や、本数は、マイクロホン23が設けられている機器により異なり、機器毎に適切な設置位置に設置されていれば良い。
<音源について>
図2を参照し、以下の説明で用いる“音源”という用語について説明を加える。図2Aは、点音源を説明するための図である。中央部分にマイクロホン51が位置する。このマイクロホン51に集音される音を発生するのが、音源61であるとする。
点音源とは、空間中にある音源であり、点として近似できる音源である。例えば、1人のユーザが話している音声、テレビジョン受像機やオーディオなどのスピーカから発せられる音などは、点音源からの音となる。
図2Bは、非点音源(複数点音源)を説明するための図である。図2Aと同じく、中央部分にマイクロホン51が位置し、音源62から音が発せられている状態であるが、音源62は点として近似できない音源である。非点音源は、例えば、車の走行音であり、車の走行音は、車の4本のタイヤからそれぞれ音が発せられる。このような音源は、点に近似できず、ある大きさを有する領域から音が発せられる音源である。
非点音源とは、空間中にある音源で、点として近似できない音源である。例えば、上記した車の走行音などの他に、空調、ファンノイズなどがある。
図2Cは、拡散性音源を説明するための図である。図2Aと同じく、中央部分にマイクロホン51が位置しているが、その周りに複数の音源63がある。拡散性音源とは、音源が無数に存在している状況や、反射や残響により音源が無数に存在している状況と同じ状況になっているときであり、音の波面があらゆる方向に拡散している状態のときの音源である。
点音源から発せられる音が雑音である場合、点音源からの雑音を取り除き、所望とする音声を抽出するのは比較的容易であると考えられる。しかしながら、非点音源や拡散性音源から発せられる音が雑音である場合、それらの音源から全ての雑音を取り除き、所望とする音声を抽出するのは、点音源からの雑音を取り除く場合と比較して困難であると考えられる。
しかしながら、例えば、音声によるユーザインターフェースの場合、抽出したい音声に、点音源の雑音が混ざるとき、非点音源からの雑音が混ざるとき、拡散性音源の雑音が混ざるときなど、さまざまな状況が考えられ、それらさまざまな状況に対応できる必要がある。
換言すれば、点音源、非点音源、拡散性音源のいずれかの音源に特化した雑音の除去処理であると、特化していない音源に対する雑音除去の性能が劣化してしまうため、さまざまな雑音に対して適切に対応できる必要がある。そこで、以下に、さまざまな雑音に対して適切に対応できる音声処理装置について説明を加える。
<第1の音声処理装置の内部構成と動作>
<第1−1の音声処理装置の内部構成と動作>
図3は、第1−1の音声処理装置100の構成を示す図である。音声処理装置100は、携帯電話機10の内部に備えられ、携帯電話機10の一部を構成する。図3に示した音声処理装置100は、集音部101、雑音環境推定部102、時間周波数変換部103、音声方位推定部104、音声強調部105、音声減衰部106、発話区間検出部107、ポストフィルタ部108、および時間周波数逆変換部109から構成されている。
なお、携帯電話機10には、電話機として機能するための通信部や、ネットワークに接続する機能なども有しているが、ここでは、音声処理に係わる音声処理装置100の構成を図示し、他の機能については、図示および説明を省略する。
集音部101は、複数のマイクロホン23を備え、図3に示した例では、マイクロホン23−1とマイクロホン23−2を備えている。なおここでは、集音部101は、2本のマイクロホン23を備えているとして説明を続けるが、集音部101には、2本以上のマイクロホン23が備えられていても良い。
後述する第2、第3の音声処理装置は、2本以上のマイクロホン23が備えられている例を挙げて説明を行う。また、2本以上のマイクロホン23が備えられていると、後述するビームフォーミングなどの処理により得られる結果の精度を向上させることが可能である。
集音部101により集音された音声信号は、時間周波数変換部103と雑音環境推定部102に供給される。雑音環境推定部102には、発話区間検出部107からの情報も供給される。時間周波数変換部103は、供給された時間領域の信号を周波数領域の信号に変換し、音声方位推定部104、音声強調部105、および音声減衰部106にそれぞれ供給する。
音声方位推定部104は、音源の方向を推定する。音声方位推定部104は、ユーザが発話した音声が、集音部101に対してどの方向から来たのかを推定する。音声方位推定部104により推定された方位に関する情報は、音声強調部105と音声減衰部105に供給される。
音声強調部105は、時間周波数変換部103から供給されたマイクロホン23−1の音声信号と、マイクロホン23−2の音声信号、および音声方位推定部104により推定された方位の情報を用いて、ユーザが発話したと推定される音声が強調される処理を行う。
音声減衰部106は、時間周波数変換部103から供給されたマイクロホン23−1の音声信号と、マイクロホン23−2の音声信号、および音声方位推定部104により推定された方位の情報を用いて、ユーザが発話したと推定される音声が減衰される処理を行う。
音声強調部105と音声減衰部106からそれぞれ出力された音声データは、発話区間検出部107とポストフィルタ部108に供給される。発話区間検出部107は、供給された音声データから、ユーザが発話したと推定される区間を検出する。
ユーザが発話したとされる区間を発話区間とし、それ以外の区間を非発話区間とする。発話区間は、音声信号と雑音信号がある区間であり、非発話区間は、雑音信号がある区間となる。
発話区間検出部107からの情報は、ポストフィルタ部108と雑音環境推定部102に供給される。雑音環境推定部102は、非発話区間における集音部101からの音声信号を用いて、雑音の環境を推定する。雑音の環境とは、雑音の多い環境下であるのか否か、除去しやすい雑音のみの環境下であるか否かなどであり、例えば、図2を参照して説明した音源に関する情報とすることができる。
具体的には、雑音の環境とは、雑音を発しているのが点音源である環境、点音源ではない(非点音源または拡散性音源である)環境などである。後述するように、雑音環境推定部102は、音源数を具体的に推定するのではなく、どの程度雑音がある環境であるかの度合いを表す値を算出し、ポストフィルタ部108に供給する。
ポストフィルタ部108は、音声強調部105からの音声強調信号、音声減衰部106からの音声減衰信号、発話区間検出部107からの発話区間に関する情報、および雑音環境推定部102からの雑音環境に関する情報の供給を受け、これらの信号や情報を用いたポストフィルタ処理を行う。
後述するように、ポストフィルタ部108は、これらの信号や情報を用いて、雑音の環境に応じた適切なポストフィルタの処理を行うことができる。ポストフィルタ部108で処理された信号は、時間周波数逆変換部109に供給される。時間周波数逆変換部109では、供給された周波数帯域の信号を、時間領域の信号に変換し、図示していない後段の処理部に出力する。
図4,図5のフローチャートを参照し、図3に示した第1−1の音声処理装置100の動作について説明する。
ステップS101において、集音部101のマイクロホン23−1とマイクロホン23−2のそれぞれにより、音声信号が集音される。なおここで集音される音声は、ユーザが発した音声、雑音、それらが混ざった音などである。
ステップS102において、入力された信号がフレーム毎に切り出される。切り出し時のサンプリングは、例えば、16000Hzで行われる。ここでは、マイクロホン23−1から切り出されたフレームの信号を信号x1(n)とし、マイクロホン23−2から切り出されたフレームの信号を信号x2(n)とする。
切り出された信号x1(n)と信号x2(n)は、それぞれ雑音環境推定部102と時間周波数変換部103にそれぞれ供給される。
ステップS103において、雑音環境推定部102は、供給された信号x1(n)と信号x2(n)を、バッファに保存する。雑音環境推定部102は、発話区間検出部107で、非発話区間と検出された区間において雑音環境を推定するため、発話区間検出部107による検出結果の供給を受け、その検出結果が、非発話区間であるとの判断がされるまで、供給された信号に対する処理を開始することができない。そのために、雑音環境推定部102に供給された信号x1(n)と信号x2(n)は、バッファに一旦保存される。
バッファは、図2には図示していが、雑音環境推定部102に含まれる構成とされていても良いし、雑音環境推定部102とは別に設けられ、他の部分と共用されるような構成としても良い。また、バッファに保存された信号x1(n)と信号x2(n)は、発話区間検出部107での検出結果が、発話区間である場合には、破棄されるようにすることで、バッファサイズを小さくすることができる。
ステップS104において、時間周波数変換部103は、供給された信号x1(n)と信号x2(n)を、それぞれ時間周波数信号に変換する。図6Aを参照するに、時間周波数変換部103には、時間領域の信号x1(n)と信号x2(n)が入力される。信号x1(n)と信号x2(n)は、それぞれ別々に周波数領域の信号に変換される。
ここでは、時間領域の信号x1(n)は、周波数領域の信号x1(f,t)に変換され、時間領域の信号x2(n)は、周波数領域の信号x2(f,t)に変換されるとして説明を続ける。(f,t)のfは、周波数帯域を示すインデックスであり、(f,t)のtは、フレームインデックスである。
図6Bに示すように、時間周波数変換部103は、入力された時間領域の信号x1(n)または信号x2(n)(以下、信号x1(n)を例に挙げて説明する)をフレームサイズNサンプル毎にフレーム分割し、窓関数をかけ、FFT(Fast Fourier Transform)によって周波数領域の信号に変換する。フレーム分割では、N/2サンプルずつ取り出す区間がシフトされる。
図6Bでは、フレームサイズNを512とし、シフトサイズを256に設定したときを例に図示してある。すなわちこの場合、入力された信号x1(n)は、512のフレームサイズNでフレーム分割され、窓関数がかけられ、FFT演算が実行されることで、周波数領域の信号に変換される。
図4のフローチャートの説明に戻り、ステップS104において、時間周波数変換部103により周波数領域の信号に変換された信号x1(f,t)と信号x2(f,t)は、音声方位推定部104、音声強調部105、音声減衰部106にそれぞれ供給される。
ステップS105において、音声方位推定部104は、時間周波数信号を用いて、音源方位推定を行う。音源方位の推定は、例えば、MUSIC(Multiple signal classification)法に基づいて行うことが可能である。MUSIC法に関しては、下記文献に記載がある方法を適用することができる。
R.O.Schmidt, “Multiple emitter location and signal parameter estimation,” IEEE Trans. Antennas Propagation,vol.AP-34,no.3,pp.276〜280,Mqrch 1986.
音声方位推定部104の推定結果を、M(f,t)とする。推定結果M(f,t)は、音声強調部105と音声減衰部106にそれぞれ供給される。
ステップS106において、音声強調部105は、音声強調処理を行う。またステップS107において、音声減衰部106は、音声減衰処理を行う。ここで、図7、図8を参照して、音声強調部105で行われる音声強調処理と、音声減衰部106で行われる音声減衰処理について説明する。音声強調処理と音声減衰処理は、それぞれ、ビームフォーミングを用いた処理により行うことができる。
ビームフォーミングとは、複数のマイクロホン(マイクアレー)を用いて集音し、各マイクロホンに入力された位相を調整して加算や減算を行う処理である。このビームフォーミングによれば、特定の方向の音を強調したり、減衰したりすることができる。
音声強調処理は、加算型ビームフォーミングで行うことができる。Delay and Sum(以下、DSと記述する)は、加算型ビームフォーミングであり、目的とする音方位の利得を強調するビームフォーミングである。
音声減衰処理は、減衰型ビームフォーミングで行うことができる。Null Beam Forming(以下、NBFと記述する)は、減衰型ビームフォーミングであり、目的とする音方位の利得を減衰するビームフォーミングである。
まず、図7を参照し、音声強調部105で行われる音声強調処理について説明する。ここでは、加算型のビームフォーミングであるDSビームフォーミングを用いた場合を例に挙げて説明を続ける。図7Aに示すように、音声強調部105は、時間周波数変換部103からの信号x1(f,t)と信号x2(f,t)を入力し、音声方位推定部104からの推定結果M(f,t)を入力する。そして、処理結果として、信号D(f,t)を発話区間検出部107とポストフィルタ部108に出力する。
音声強調部105が、DSビームフォーミングに基づき音声強調処理を行う場合、図7Bに示すような構成を有する。音声強調部105は、遅延器131と加算器132を含む構成とされる。図7Bには、時間周波数変換部103の図示は省略してある。
マイクロホン23−1からの音声信号は、加算器132に供給され、マイクロホン23−2からの音声信号は、遅延器131により所定の時間だけ遅延された後、加算器132に供給される。マイクロホン23−1とマイクロホン23−2は、所定の距離だけ離されて設置されているため、経路差の分だけ、伝搬遅延時間が異なる信号として受信される。
ビームフォーミングでは、所定の方向から到来する信号に関する伝搬遅延を補償するように、一方のマイクロホン23からの信号を遅延させる。その遅延を行うが、遅延器131である。図7Bに示したDSビームフォーミングにおいては、マイクロホン23−2側に遅延器131が備えられている。
図7Bにおいて、マイクロホン23−1側を−90°、マイクロホン23−2側を90°、マイクロホン23−1とマイクロホン23−2を通る軸に対して垂直方向であり、マイクロホン23の正面側を0°とする。また図7B中、マイクロホン23に向かう矢印は、所定の音源から発せられた音の音波を表す。
図7Bに示したような方向から、音波が来た場合、マイクロホン23に対して、0°から90°の間に位置する音源から音波が来たことになる。このようなDSビームフォーミングによると、図7Cに示したような指向特性が得られる。指向特性とは、ビームフォーミングの出力利得を方位毎にプロットしたものである。
図7Bに示したDSビームフォーミングを行う音声強調部105において加算器132の入力では、所定の方向、この場合、0°から90°の間にある方向から到来する信号の位相が一致し、その方向から到来した信号は強調される。一方、所定の方向以外の方向から到来した信号は、互いに位相が一致しないため、所定の方向から到来した信号ほど強調されることはない。
このようなことから、図7Cに示したように、音源が存在する方位のところで、利得が高くなる。音声強調部105から出力される信号D(f,t)は、図7Cに示したような指向特性となる。また、音声強調部105から出力される信号D(f,t)は、ユーザが発した音声であり、抽出したい音声(以下、適宜、目的音声と記述する)と、抑制したい雑音とが混じった信号である。
音声強調部105に入力される信号x1(f,t)と信号x2(f,t)に含まれる目的音声よりも、音声強調部105から出力される信号D(f,t)の目的音声は強調されたものとなる。また、音声強調部105に入力される信号x1(f,t)と信号x2(f,t)に含まれる雑音よりも、音声強調部105から出力される信号D(f,t)の雑音は低減されたものとなる。
さらに、音声強調処理について説明を加える。音声強調部105は、上記したように信号x1(f,t)と信号x2(f,t)を入力し、目的音声が強調された信号D(f,t)を出力する。DSビームフォーミングにより音声強調処理が行われる場合、入力された信号と出力される信号との関係は、次式(1)で表すことができる。
Figure 2016042132
式(1)において、X(f)は、マイクロホン23の数Lの入力信号ベクトルを表し、W(f)は、DSビームフォーミングのフィルタ係数ベクトルであり、上付の“.T”は、転置を表す。また式(1)におけるX(f,t)と、W(f,t)は、それぞれ次式(2)として表される。またDSビームフォーミングのフィルタ係数は、次式(3)により得ることができる
Figure 2016042132
Figure 2016042132
式(3)において、Lは、マイクロホンの本数、fSは、サンプリング周波数、Nは、DFT点数、dは、マイクロホンの間隔、cは、音速、をそれぞれ表す定数である。
音声強調部105は、式(1)乃至(3)に値を代入することで、音声強調処理を実行する。なお、ここでは、DSビームフォーミングを例に挙げて説明したが、適応ビームフォーミング等、他のビームフォーミングや、ビームフォーミング以外の手法による音声強調処理でも、本技術に適用することはできる。
次に、図8を参照し、音声減衰部106で行われる音声減衰処理について説明する。ここでは、減算型のビームフォーミングであるNBF(Nullビームフォーミング)を用いた場合を例に挙げて説明を続ける。
図8Aに示すように、音声減衰部106は、時間周波数変換部103からの信号x1(f,t)と信号x2(f,t)を入力し、音声方位推定部104からの推定結果M(f,t)を入力する。そして、処理結果として、信号D(f,t)を発話区間検出部107とポストフィルタ部108に出力する。
音声減衰部106が、NULLビームフォーミングに基づき音声減衰処理を行う場合、図8Bに示すような構成を有する。音声減衰部106は、遅延器141と減算器142を含む構成とされる。図8Bには、時間周波数変換部103の図示は省略してある。
マイクロホン23−1からの音声信号は、減算器142に供給され、マイクロホン23−2からの音声信号は、遅延器141により所定の時間だけ遅延された後、減算器142に供給される。Nullビームフォーミングを行う構成と、図7を参照して説明したDSビームフォーミングを行う構成は、基本的に同じであり、加算器132にて加算するか、減算器142にて減算するかの違いがあるだけである。よって、ここでは、構成に関する詳細な説明は省略する。また、図7と同一の部分に関する説明は適宜省略する。
図8Bに矢印で示したような方向から、音波が来た場合、マイクロホン23に対して、0°から90°の間に位置する音源から音波が来たことになる。このようなNULLビームフォーミングによると、図8Cに示したような指向特性が得られる。
図8Bに示したNULLビームフォーミングを行う音声減衰部106において減算器142の入力では、所定の方向、この場合、0°から90°の間にある方向から到来する信号の位相が一致し、その方向から到来した信号は減衰される。理論的には、減衰された結果、0となる。一方、所定の方向以外の方向から到来した信号は、互いに位相が一致しないため、所定の方向から到来した信号ほど減衰されることはない。
このようなことから、図8Cに示したように、音源が存在する方位のところで、利得が低くなる。音声減衰部106から出力される信号N(f,t)は、図8Cに示したような指向特性となる。また、音声減衰部106から出力される信号N(f,t)は、目的音声がキャンセルされ、雑音が残った信号である。
音声減衰部106に入力される信号x1(f,t)と信号x2(f,t)に含まれる目的音声よりも、音声減衰部106から出力される信号N(f,t)の目的音声は減衰されたものとなる。また、音声減衰部106に入力される信号x1(f,t)と信号x2(f,t)に含まれる雑音は、音声減衰部106から出力される信号N(f,t)の雑音と同程度のレベルのものとなる。
さらに、音声減衰処理について説明を加える。音声減衰部106は、上記したように信号x1(f,t)と信号x2(f,t)を入力し、目的音声が減衰された信号N(f,t)を出力する。NULLビームフォーミングにより音声減衰処理が行われる場合、入力された信号と出力される信号との関係は、次式(4)で表すことができる。
Figure 2016042132
式(4)において、X(f)は、マイクロホン23の数Lの入力信号ベクトルを表し、F(f)は、NULLビームフォーミングのフィルタ係数ベクトルであり、上付の“.T”は、転置を表す。また式(1)におけるX(f,t)と、F(f,t)は、それぞれ次式(5)として表される。またNULLビームフォーミングのフィルタ係数は、次式(6)により得ることができる
Figure 2016042132
Figure 2016042132
式(6)において、Lは、マイクロホンの本数、fSは、サンプリング周波数、Nは、DFT点数、dは、マイクロホンの間隔、cは、音速、をそれぞれ表す定数である。
音声減衰部106は、式(4)乃至(6)に値を代入することで、音声減衰処理を実行する。なお、ここでは、NULLビームフォーミングを例に挙げて説明したが、適応Nullビームフォーミング等、他のビームフォーミングや、ビームフォーミング以外の手法による音声減衰処理でも、本技術に適用することはできる。
図4のフローチャートに説明を戻す。ステップS106において、音声強調部105において、音声強調処理が行われ、ステップS107において、音声減衰部106において、音声減衰処理が行われると、それらの結果は、発話区間検出部107とポストフィルタ部108に供給される。
ステップS108において、発話区間検出部107は、発話区間の検出(Voice Activity Detection : VAD)を行う。この検出について、図9を参照して説明する。図9Aに示したように、発話区間検出部107には、音声強調部105からの音声強調信号D(f,t)と、音声減衰部106からの音声減衰信号N(f,t)が入力される。発話区間検出部107からは、検出結果V(t)が出力される。
図9Bの上段は、入力信号の波形の一例を表し、中段は、音声強調信号D(f,t)の波形の一例を示し、下段は、音声減衰信号N(f,t)の波形の一例を示す。なお、図9Bに示した波形は、時間領域の波形を表しているが、上記したように、音声処理装置100では、周波数領域の信号に変換してから処理しているため、実際の処理は、周波数領域で行われる。ここでは、説明のため、時間領域の波形を示し説明を続ける。
図9Bの上段に示した入力信号の波形は、例えば、マイクロホン23−1により集音された音声の波形であるとする。中央部分において、波形が大きくなっている部分が、発話区間であり、その前後が非発話区間である。発話区間は、ユーザが発話している区間であり、非発話区間は、ユーザが発話していない区間である。
図9Bの中段に示した音声強調信号は、入力信号と比べて、発話区間では信号が大きくなり、非発話区間では信号が小さくなる。図9Bの下段に示した音声減衰信号は、入力信号と比べて、発話区間では、信号は小さくなり、非発話区間では信号は略同じとなる。
図9Bの中段に示した音声強調信号と下段に示した音声減衰信号とを、図中四角で囲った区間171と区間172において比較する。区間171は、非発話区間内の区間であるが、非発話区間で、音声強調信号と音声減衰信号を比較、例えば、差分を取ると、その差分は小さい。これに対して、区間172は、発話区間内の区間であるが、発話区間で、音声強調信号と音声減衰信号を比較、例えば、差分を取ると、その差分は大きい。
このことから、音声強調信号と音声減衰信号の差分から、発話区間であるか、非発話区間であるかを識別することができる。具体的には、以下の式(7)に基づく演算に基づき算出される値を、次式(8)に基づく判定で発話区間と非発話区間との検出結果を生成し、出力する。
Figure 2016042132
Figure 2016042132
式(7)において、faとfbは、それぞれ発話区間検出の計算に用いられる周波数帯域の下限と上限である。この周波数帯域として、音声成分が多く含まれる帯域を設定することで、良い性能が得られる。例えば、下限として、200Hz、上限として、2000Hzが設定される。
式(8)において、Thrは、閾値を表し、例えば、10db程度に設定される。式(8)に示したように、式(7)で算出された値vadの値が、閾値Thrより小さい場合、検出結果V(t)として0が出力され、値vadの値が、閾値Thrより大きい場合、検出結果V(t)として1が出力される。
検出結果V(t)が0の場合、非発話区間(雑音信号のみ存在)であると判定されたことを示し、検出結果V(t)が1の場合、発話区間(音声信号と雑音信号が存在)であると判定されたことを示すとする。
なお、ここでは、このように設定されているとして説明を続けるが、検出結果V(t)として0または1が出力される場合に、本技術の適用範囲が限定されることを示す記載ではない。
図4のフローチャートの説明に戻り、ステップS108において、発話区間検出部107において、発話区間の検出が行われると、ステップS109(図5)に処理が進められる。ステップS109において、雑音環境推定部102は、現フレームは発話区間であるか否かを判定する。
この判定は、発話区間検出部107から供給される検出結果V(t)を参照することで行われる。具体的には、検出結果V(t)が“0”であれば、ステップS109において、発話区間ではないと判定され、“1”であれば、ステップS109において、発話区間であると判定される。
ステップS109において、現フレームは発話区間ではないと判定された場合、換言すれば、非発話区間であると判定された場合、ステップS110に処理が進められる。ステップS110において、雑音環境推定部102により、フレームで切り出された入力信号が用いられて、雑音環境が推定される。
図10を参照し、雑音環境推定部102における雑音環境の推定について説明する。図10Aに示したように、雑音環境推定部102には、集音部101のマイクロホン23−1で集音された音の信号x1(n)と、マイクロホン23−2で集音された音の信号x2(n)が入力される。また、雑音環境推定部102には、発話区間検出部107から検出結果V(t)が入力される。
雑音環境推定部102は、供給された検出結果V(t)を参照して、非発話区間であると判定したとき、信号x1(n)と信号x2(n)を用いて、雑音環境を推定する。その推定結果は、相関係数C(t)として、ポストフィルタ部108に供給される。相関係数C(t)は、次式(9)で算出される。
Figure 2016042132
式(9)において、Nはフレームサイズを表す。式(9)に基づく演算により、集音された信号の相関が算出される。式(9)により算出される相関係数C(t)は、−1.0乃至1.0の値とされる。
相関係数C(t)は、マイクロホン23(集音部101)の周囲にある音源の数と関連がある。このことについて、図10Bを参照して説明する。図10Bに示したグラフは、横軸が音源数を表し、縦軸が相関係数を表す。
音源数が1の場合、相関係数は、1に近い値となる。音源数が5の場合、相関係数は、0.8に近い値となる。音源数が20の場合、相関係数は、0.6に近い値となる。そして、音源数が無限、換言すれば、音源数が無数の雑音または拡散性雑音の場合、相関係数は、0に近い値となる。
このように、マイクロホンの周囲にある音源の数と、複数のマイクロホンから得られる信号同士の相関値には、関連がある。具体的には、図10Bに示したように、音源数が増えると、相関係数が小さくなるという関連性がある。そのような関連性が用いられて、雑音環境が推定される。
ここでは、非発話区間において、このような相関係数が算出されるため、算出される相関係数は、雑音を出している音源数に関連している。よって、相関係数から、雑音を出している音源が多い環境であるか、少ない環境であるかを推定することができる。
そして、雑音を出している音源が多い環境の場合、そのような雑音を抑制するための処理を強くかけると、ミュージカルノイズなとど称されるノイズが発生する可能性が高くなる。よって、雑音を出している音源が多い環境であると判断される場合には、雑音を抑制するための処理を軽めにかけ、ミュージカルノイズなどが発生しないように制御される。
一方で、雑音を出している音源が少ない環境の場合、そのような雑音を抑制するための処理を強くかけても、ミュージカルノイズなとど称されるノイズが発生する可能性は低い。よって、雑音を出している音源が少ない環境であると判断される場合には、雑音を抑制するための処理を強めにかけ、雑音が抑制され、所望とする音声が抽出されるように制御される。
このような雑音環境に応じて雑音を抑制するための処理の強度を制御するために、ステップS111において、ポストフィルタで用いられる雑音補正係数が算出される。ここで、雑音補正係数について説明を加える。
図11Aは、非音声区間(雑音のみ存在する区間)の音声減衰信号のスペクトルと、音声強調信号のスペクトルを示したグラフである。図11Bは、音声区間(音声と雑音が存在する区間)の音声減衰信号のスペクトルと、音声強調信号のスペクトルを示したグラフである。図11A、図11Bに示したグラフは、横軸が周波数を表し、縦軸が利得を表す。
図11Bにおいて、点線の楕円で囲んだ部分(周波数帯域)に、取得したい音声成分が存在している。図11Aに示した非音声区間のグラフから、周波数により、音声減衰信号と音声強調信号とには差があることがわかる。図11Bを参照するに、取得したい音声成分がある部分では、音声強調信号の利得が高くなっていることがわかる。
このようなことから、音声強調信号から音声減衰信号を引き去ることで、取得したい音声成分を残すことができる。また単に音声強調信号から音声減衰信号を引き去るだけだと、図11Aに示したように、雑音のみが存在する区間であっても、音声強調信号と音声減衰信号には差があるため、その差分を考慮する必要がある。
また図12を参照して説明するように、雑音の音源数、換言すれば、雑音環境も考慮する必要がある。図12Aは、雑音が点音源1個の場合の音声減衰信号と音声強調信号との指向特性を重ねて図示したグラフである。図12Bは、雑音が拡散性音源(拡散性雑音環境下)の場合の音声減衰信号と音声強調信号との指向特性を重ねて図示したグラフである。
図12A、図12Bともに、マイクロホン23に対して真正面(0°)に抽出したい音源がある場合を示している。また図12A、図12Bには、ノイズ(雑音)を出している音源の位置も示した。
図12Aを参照するに、音声減衰信号と音声強調信号とに含まれるノイズには、利得に差分aが生じる。この差分aを、後述する雑音補正係数により補正する。図12Aに示したように、雑音が点音源1個の場合、補正すべきポイントは、雑音がある部分となり、雑音補正係数も一意に設定することが可能であると考えられる。
図12Bを参照するに、拡散性雑音環境下、または非点音源雑音環境下では、補正すべきポイントが多数存在し、さらにそれらが時々刻々と変化する可能性がある。図12Bに示した例では、ノイズの音源が4箇所有り、それぞれの箇所での差分b、差分c、差分d、差分eをそれぞれ補正する補正係数が必要となり、一意に決定することは困難である。また、これらの差分b乃至eは、時々刻々に変化する可能性があるため、さらに、一意に決定することは困難である。
本技術においては、雑音環境を推定し、雑音環境に応じて雑音補正係数自体を補正するため、雑音環境に適した補正を行うことが可能となる。すなわちポストフィルタ部108では、以下に説明するように補正(雑音の抑制)を行う。
図13Aを参照するに、ポストフィルタ部108には、音声強調部105から音声強調信号D(f,t)と。音声減衰部106から音声減衰信号N(f,t)が供給される。また、ポストフィルタ部108には、発話区間検出部107から、発話区間検出結果V(t)と、雑音環境推定部102から雑音環境の推定結果C(t)(相関係数C(t))が供給される。
ポストフィルタ部108は、これら供給された信号や情報を用いて、ポストフィルタ処理を実行し、その結果として、推定音声スペクトルY(f,t)を出力する。この推定音声スペクトルY(f,t)は、雑音が除去された音声となっている。
ポストフィルタ部108が行うポストフィルタ処理は、例えば、スペクトルサブトラクション法やMMSE-STSA法などを適用することができる。スペクトルサブトラクション法については、以下の文献に記載があり、本技術に適用することができる。
S.F.Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Trans.Acoustics,Speech, and Signal Processing,vol.27.no,2,pp.113〜120,1979.
また、MMSE-STSA法については、以下の文献に記載があり、本技術に適用することができる。
Y.Ephraim and D.Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator.”IEEE Trans.Acoustics,Speech.,end Signal Processing, vol.32,no.6,pp.1109〜1121,1984.
ここでは、スペクトルサブトラクション法をベースとしたポストフィルタ処理を適用した場合を例に挙げて説明する。単純なスペクトルサブトランクション法では、音声強調信号D(f,t)の振幅スペクトルから、音声減衰信号N(f,t)の振幅スペクトルを減算する。しかしながら、図11、図12を参照して説明したように、音声強調信号D(f,t)の振幅スペクトルと音声減衰信号N(f,t)の振幅スペクトルには、誤差があるため、雑音スペクトルの補正を行う必要がある。
雑音スペクトルの補正は、発話区間検出部107において非発話区間(v(t)=0)と判定された区間において、次式(10)、次式(11)に基づいて行われる。
Figure 2016042132
Figure 2016042132
式(10)、式(11)において、G(f,t)は、補正スペクトルを得るための補正係数であり、過去kフレームのデータを平滑化することで算出される値である。H(f,t)は、補正係数G(f,t)と音声減衰信号N(f,t)を乗算することで得られる雑音補正係数である。
続いて、音声強調信号D(f,t)と、推定された雑音補正係数H(f,t)から、次式(12)に基づき、推定音声スペクトルY(f,t)が得られる。
Figure 2016042132
数(12)において、aは、サブストラクション係数であり、1.0〜2.0程度に設定される値である。cは、フロアリング係数で、0.01〜0.5程度に設定される値である。bは、雑音環境推定結果に応じて変化する値であり。以下のような動きをする。
C(t)の絶対値が大きい場合:雑音は少ない数の点音源である可能性が高いため、強く雑音除去をかける
C(t)の絶対値が小さい場合:非点音源、または拡散性音源の雑音である可能性が高いため、弱く雑音除去をかける
このように、雑音環境に応じて、雑音除去の強弱を設定し、雑音除去に係わる処理を実行するため、雑音の変化に対しても、高精度な雑音除去を実現することが可能となる。
式(12)において、係数bの値は、例えば、次式(13)のように求めるようにすることができる。
Figure 2016042132
式(13)によると、係数bの値は、相関係数C(t)の絶対値となる。このように、相関係数C(t)を、そのまま用いても良い。または、図13Bに示したようなグラフ、またはグラフに基づくテーブルを用いて係数bの値が求められるようにしても良い。さらに、係数bは、外部から読み込まれる(記録媒体から読み込まれる)ようにしても良いし、必要なときに算出されるようにしても良い。
図13Bに示したグラフは、横軸が相関係数C(t)であり、縦軸が係数bである。係数bは、相関係数C(t)を用いて求められる所定の関数として設定されるようにしても良い。
また係数bの値は、1.0以下の範囲に収める必要はなく、本技術を適用した音声処理装置の使用用途、例えば、ハンズフリー通話、音声認識などの使用用途により、適切な値に設定することができる値である。
このように、本技術によれば、雑音環境に応じて、雑音除去の強弱を設定し、雑音除去に係わる処理を実行するため、さまざまな雑音環境に対しても、高精度な雑音除去を実現することが可能となる。
図5のフローチャートの説明に戻り、ステップS111において、ポストフィルタ部108で行われるポストフィルタ処理で用いられる雑音補正係数が算出されると、ステップS112に処理が進められる。ステップS112の処理には、ステップS109において、現フレームは発話区間であると判断されたときにもくる。
ステップS112において、ポストフィルタ部108により、雑音環境に応じたポストフィルタ処理が実行される。
なお、非発話区間がなく、雑音補正係数が算出されなかった場合、ステップS112においては、初期値として設定されている雑音補正係数が用いられてポストフィルタ処理が実行される。
ポストフィルタ部108により算出された推定音声スペクトルY(f,t)は、時間周波数逆変換部109に供給される。時間周波数逆変換部109は、ステップS113において、時間周波数信号を時間信号に変換する。この時間領域の信号に変換される推定音声スペクトルY(f,t)は、上記したように、雑音環境に応じた雑音除去された周波数帯域の信号である。
ステップS114において、時間周波数逆変換部109は、フレームをシフトしながら足し合わせ、出力信号y(n)を生成する。図6を参照して説明したように、時間周波数変換部103で処理が行われる場合、時間周波数逆変換部109では、フレーム毎に逆FFTが行われ、その結果、出力された512サンプルを、256サンプルずつシフトしながら重ね合わせることで、出力信号y(n)が生成される。
生成された出力信号y(n)は、ステップS115において、時間周波数逆変換部109から、図示していない後段の処理部に出力される。
このようにして、本技術が適用された音声処理装置100においては、雑音の環境を推定し、その推定された雑音環境に基づいて、雑音除去の強度を設定するため、雑音環境に応じた適切な雑音除去処理を実行することが可能となる。よって、ミュージカルノイズなどが発生するようなことを防ぐことが可能となる。
図14を参照し、本技術を適用した音声処理装置と、本技術を適用しない音声処理装置とで音声認識率がどのように変化するかを実験した結果を、図14に示す。図14Aは、雑音が点音源である場合を想定し、マイクアレーに対して正面に、抽出したい音声を発する音源を設置し、左斜め前方に雑音を発生する1つの音源を設置した状況を示している。
図14Bは、拡散性雑音である場合を想定し、マイクアレーに対して正面に、抽出したい音声を発する音源を設置し、マイクアレーを囲むように、雑音を発生する複数の音源を設置した状況を示している。
図14Cと図14Dは、図14Aに示した状況下と図14Bに示した状況下で、それぞれ音声認識率を測定したときの測定結果を示す図である。音声認識率は、所定のフレーズを発話し、正確に認識された確率である。
図14C、図14Dにおいて、1micは、1本のマイクで測定したときの結果を表し、DSは、Delay and Sumビームフォーミングのみで測定したときの結果を表し、Conventionalは、雑音環境を考慮せず、ポストフィルタ処理を実行したときの測定結果を表し、Proposedは、図3に示した音声処理装置100の構成で、雑音環境を考慮してポストフィルタ処理を実行したときの測定結果を表す。
図14C,図14Dを参照すると、点音源雑音、拡散性雑音の両方で、本技術を適用した音声処理装置100の音声認識率が一番高いことがわかる。このことから、上記したように、雑音環境を推定し、推定された雑音環境に応じた雑音除去処理を行うことで、音声認識率が高まることが実証されていることがわかる。
<第1−2の音声処理装置の内部構成と動作>
次に、第1−2の音声処理装置の構成と動作について説明する。上記した第1−1の音声処理装置100(図3)は、集音部101から得られた音声信号を用いて、雑音環境を推定したが、第1−2の音声処理装置200(図15)は、音声強調部105から得られる音声強調信号と音声減衰部106から得られる音声減衰信号を用いて雑音環境を推定する点が異なる。
図15は、第1−2の音声処理装置200の構成を示す図である。図15に示した音声処理装置200において、図3に示した第1−1の音声処理装置100と同一の機能を有する部分には、同一の符号を付し、その説明は省略する。
図15に示した音声処理装置200は、音声強調部105からの音声強調信号D(f,t)と音声減衰部206からの音声減衰信号N(f,t)が、雑音環境推定部201にも供給される構成とされ、集音部101からの信号は、雑音環境推定部201には供給されない構成とされている点が、図3に示した音声処理装置100とは異なる構成である。
図16に示すように、雑音音声推定部201は、音声強調部105からの音声強調信号D(f,t)と音声減衰部206からの音声減衰信号N(f,t)が供給され、さらに、発話区間検出部107から発話区間の検出結果V(t)が供給されるように構成されている。
雑音環境推定部201は、上記した雑音環境推定部102(図3)と同じく、供給される信号と情報を用いて、−1.0〜1.0の値C(t)をポストフィルタ部208に供給する。また、雑音環境推定部201は、発話区間検出部107により検出された非発話区間において、−1.0〜1.0の値C(t)を算出し、ポストフィルタ部108に供給する。
音声強調部105から出力される音声強調信号D(f,t)の振幅スペクトルと音声減衰部106から出力される音声減衰信号N(f,t)の振幅スペクトルは、雑音が点音源であると、その形状が略一致するという傾向がある。また雑音が拡散性である場合には、音声強調信号D(f,t)の振幅スペクトルと音声減衰信号N(f,t)の振幅スペクトルは、その形状が一致しないという傾向がある。
そのような傾向を利用し、音声強調信号D(f,t)の振幅スペクトルと音声減衰信号N(f,t)の振幅スペクトルの一致度(類似度)により周辺の雑音環境を推定することができる。例えば、フレーム毎の各々の振幅スペクトル間の相関を計算し、その相関値を雑音環境推定部201の推定結果C(t)として出力する構成とすることができる。
このように雑音環境を推定するように構成した場合、メモリなどを省略することが可能となる。図3に示した音声処理装置100(図3)においては、雑音環境推定のために、フレームで切り出した時間領域の信号を一旦保持するためのバッファ領域(メモリ)が必要であった。しかしながら音声処理装置200(図15)においては、雑音環境推定のために、フレームで切り出した時間領域の信号を一旦保持する必要がないために、バッファ領域(メモリ)を削除する構成とすることができる。
このような構成を有する音声処理装置200の動作について、図17、図18のフローチャートを参照して説明する。基本的な動作は、図3に示した音声処理装置100と同様であるため、同様の動作については、その説明を省略する。
ステップS201乃至S207(図17)に示した各処理は、図4に示したステップS101,S102,S104乃至S108の各処理と同様に行われる。すなわち、第1−1の音声処理装置100では、ステップS103において、切り出された信号が、雑音環境推定部102中のバッファに保存されるという処理が実行されたが、第1−2の音声処理装置200では、そのような処理は必要がないため、省略された処理の流れとされている。
ステップS208乃至S214(図18)に示した各処理は、図5に示したステップS109乃至S115の各処理と基本的に同様に行われるが、ステップS209(ステップS110に対応する処理)が異なる。
ステップS208において、現フレームは発話区間ではないと判断された場合、ステップS209において、雑音環境推定部201により、音声強調信号と音声減衰信号が用いられて、雑音環境が推定される。この推定は、上記したように、音声強調信号と音声減衰信号が用いられて行われる。
推定結果は、第1−1の音声処理装置100の雑音環境推定部102と同じく、−1.0〜1.0の値C(t)がポストフィルタ部108に供給されるため、ポストフィルタ部108などにおける処理は、第1−1の音声処理装置100と同様に行うことができる。
このように、第1−2の音声処理装置200においては、雑音環境を、音声強調部105から得られる信号と音声減衰部106から得られる信号により推定することができる。第1−2の音声処理装置200においても、第1−1の音声処理装置100と同じく、雑音環境を推定し、推定された雑音環境に応じた雑音除去処理を行うことができ、音声認識率など、音声処理の精度を高めることが可能となる。
<第1−3の音声処理装置の内部構成と動作>
次に、第1−3の音声処理装置の構成と動作について説明する。上記した第1−1の音声処理装置100(図3)は、集音部101から得られた音声信号を用いて、雑音環境を推定したが、第1−3の音声処理装置300(図19)は、外部から入力される情報を用いて雑音環境を推定する点が異なる。
図19は、第1−3の音声処理装置300の構成を示す図である。図19に示した音声処理装置300において、図3に示した第1−1の音声処理装置100と同一の機能を有する部分には、同一の符号を付し、その説明は省略する。
図19に示した音声処理装置300は、外部から雑音環境を推定するために必要な情報が、雑音環境推定部301に供給される構成とされ、集音部101からの信号は、雑音環境推定部301には供給されない構成とされている点が、図3に示した音声処理装置100とは異なる構成である。
雑音環境推定部301に供給される雑音環境を推定するために必要な情報は、例えば、ユーザにより入力される情報が用いられる。例えば、ユーザに発話を開始する前に、雑音が多い環境であるか否かを選択させ、その選択された情報が入力されるように構成しても良い。
また、GPS(Global Positioning System)などの外部センサの情報から、ユーザがいる位置を判断し、その位置が、騒音が多い環境であるか否かが判断されるようにしても良い。例えば、GPS情報から、室内であると判断される場合には、雑音が少ない環境であると判断し、室外であると判断される場合には、雑音が多い環境であると判断される構成とし、そのような判断に基づく情報が、入力される構成とすることもできる。
また、GPS情報といった位置情報だけでなく、時間情報も、または時間情報が用いられるようにしても良い。例えば、夜などは昼に比べて雑音が少ない可能性が高いため、時間情報から、夜であると判断されるときには、雑音が少ない環境であると判断され、昼であると判断されるときには、雑音が多い環境であると判断されるようにしても良い。
また、これらの情報を組み合わせて雑音環境が推定されるように構成してもよい。また、推定した結果と、ユーザからのフィードバックで、学習が行われるようにし、学習の結果、得られる情報、例えば、静かな環境にいる時間帯などの情報が取得されるようにし、その学習結果が、雑音環境の推定に用いられるようにしても良い。
このような構成を有する音声処理装置300の動作について、図20、図21のフローチャートを参照して説明する。基本的な動作は、図3に示した音声処理装置100と同様であるため、同様の動作については、その説明を省略する。
ステップS301乃至S307(図20)に示した各処理は、図4に示したステップS101,S102,S104乃至S108の各処理と同様に行われる。
すなわち、第1−1の音声処理装置100では、ステップS103において、切り出された信号が、雑音環境推定部102中のバッファに保存されるという処理が実行されたが、第1−3の音声処理装置300では、そのような処理は必要がないため、省略された処理の流れとされている。この処理の流れは、第1−2の音声処理装置200(図15)の動作である図17に示したフローチャートと同一の流れである。
ステップS308乃至S314(図21)に示した各処理は、図5に示したステップS109乃至S115の各処理と基本的に同様に行われるが、ステップS309(ステップS110に対応する処理)が異なる。
ステップS308において、現フレームは発話区間ではないと判断された場合、ステップS309において、雑音環境推定部201により、外部から入力された情報が用いられて、雑音環境が推定される。
推定結果は、第1−1の音声処理装置100の雑音環境推定部102と同じく、−1.0〜1.0の値C(t)がポストフィルタ部108に供給される。ポストフィルタ部108などにおける処理は、第1−1の音声処理装置100と同様に行うことができる。
このように、第1−3の音声処理装置300においては、雑音環境を、外部から入力される信号により推定することができる。第1−3の音声処理装置300においても、第1−1の音声処理装置100と同じく、雑音環境を推定し、推定された雑音環境に応じた雑音除去処理を行うことができ、音声認識率など、音声処理の精度を高めることが可能となる。
また、図3に示した音声処理装置100(図3)においては、雑音環境推定のために、フレームで切り出した時間領域の信号を一旦保持するためのバッファ領域(メモリ)が必要であった。しかしながら音声処理装置300(図19)においては、雑音環境推定のために、フレームで切り出した時間領域の信号を一旦保持する必要がないために、バッファ領域(メモリ)を削除する構成とすることができる。
さらに、第1−3の音声処理装置300は、第1−1の音声処理装置100や第1−2の音声処理装置200で必要とされていた相関計算を行わない構成のため、演算コストを削減することが可能となる。
<第2の音声処理装置の内部構成と動作>
<第2−1の音声処理装置の内部構成>
図22は、第2−1の音声処理装置400の構成を示す図である。音声処理装置400は、携帯電話機10の内部に備えられ、携帯電話機10の一部を構成する。図22に示した音声処理装置400は、集音部401、雑音環境推定部402、時間周波数変換部403、音声方位推定部404、音声強調部405、音声減衰部406、発話区間検出部407、ポストフィルタ部408、および時間周波数逆変換部409から構成されている。
このような構成は、第1の音声処理装置と同様であるが、第2の音声処理装置においては、集音部401、雑音環境推定部402、時間周波数変換部403、音声方位推定部404、音声強調部405、音声減衰部406が、処理構成変更指示部410に含まれる構成とされている点が第1の音声処理装置と異なる。
上記した第1の音声処理装置は、雑音環境を推定し、推定された雑音環境に応じて、ポストフィルタ部108における雑音除去の強弱を制御する構成、動作であった。第2の音声処理装置は、雑音環境を推定し、推定された雑音環境に応じて、処理構成変更指示部410内の構成を変更することで、雑音除去の性能を維持したまま消費電力などを低減させる構成、動作である。
集音部401は、複数のマイクロホン23−1乃至23−Nを備える。第2の音声処理装置においては、後述するように、雑音環境に応じて、使用するマイクロホン23の数を変更するため、2本以上のマイクロホン23が集音部401に含まれている。
図示はしていないが、複数のマイクロホン23を備える構成とした場合、後段の時間周波数変換部403などには、複数のマイクロホン23のそれぞれからの信号や処理された信号を入力するための線が接続されている。また、時間周波数変換部403などには、複数のマイクロホン23のそれぞれからの信号や処理された信号を、それぞれ処理できる構成とされている。
集音部401は、複数のマイクロホン23が含まれるが、例えば、拡散性雑音があると推定されたときには、複数のマイクロホン23(2本以上のマイクロホン23)が用いられて処理が行われ、点音源の雑音が1つあると推定されたときには、2本のマイクロホン23が用いられて処理が行われる。
集音部401には、マイクロホン23が含まれるが、マイクロホン23以外にも、ADコンバータ、サンプリングレートコンバータなど(いずれも不図示)が含まれる。雑音環境に応じて、マイクロホン23の数を減らすことができる構成とすることで、ADコンバータやサンプリングレートコンバータなどへの電力供給をカットすることができ、消費電力を抑えることが可能となる。
また、時間周波数変換部403、音声方位推定部404、音声強調部405、および音声減衰部406の各部も、複数のマイクロホン23で取得される音声を処理できる構成とされているため、マイクロホン23の本数が、2本になることで、入力数が2まで減ることになる。音声の方位を推定するための処理や、ビームフォーミングでは、多くの積和演算が発生するため入力数が減ることで、演算量を削減することが可能となる。この点からも、消費電力を低減させることが可能となる。
音声処理装置400の集音部401、雑音環境推定部402、時間周波数変換部403、音声方位推定部404、音声強調部405、音声減衰部406、発話区間検出部407、および時間周波数逆変換部409は、複数の音声を処理する点は異なるが、基本的に、音声処理装置100(図3)の集音部101、雑音環境推定部102、時間周波数変換部103、音声方位推定部104、音声強調部105、音声減衰部106、発話区間検出部107、ポストフィルタ部108、および時間周波数逆変換部109と同様の処理を行うため、その詳細な説明は省略する。
ポストフィルタ部408は、第1の音声処理装置のポストフィルタ部108と異なり、雑音環境推定部402からの推定結果C(t)が入力されないため、図23に示すような構成となっている。
ポストフィルタ部108は、音声強調部405から音声強調信号D(f,t)と音声減衰部406から音声減衰信号N(f,t)を入力する。また、ポストフィルタ部108は、発話区間検出部407から、発話区間検出結果V(t)を入力する。
ポストフィルタ部108は、入力された信号と情報を用いて、次式(14)に基づき、推定音声スペクトルY(f,t)を出力する。この推定音声スペクトルY(f,t)は、雑音が除去された音声となっている。
Figure 2016042132
式(14)において、aは、サブトラクション係数であり、1.0〜2.0程度の値が設定される。またcは、フロアリング係数であり、0.01〜0.5程度の値が設定される。
<第2−1の音声処理装置の第1の動作>
このような構成を有する音声処理装置400の動作について、図24、図25のフローチャートを参照して説明する。基本的な動作は、図4に示した第1−1の音声処理装置100と同様であるため、同様の動作については、その説明を省略する。
ステップS401乃至S408(図24)に示した各処理は、図4に示したステップS101乃至S108の各処理と同様に行われる。
すなわち、第1−1の音声処理装置100の集音部101、雑音環境推定部102、時間周波数変換部103、音声方位推定部104、音声強調部105、音声減衰部106、発話区間検出部107の各部で行われる処理と同様に、第2−1の音声処理装置400の集音部401、雑音環境推定部402、時間周波数変換部403、音声方位推定部404、音声強調部405、音声減衰部406、発話区間検出部407は、処理を行う。
ただし、音声処理装置400においては、処理時が実行される時点で使用するとして設定されている本数のマイクロホン23からそれぞれ取得された信号が処理されるため、2以上の音声信号が処理されることもある。
ステップS409(図25)において、現フレームは発話区間ではないと判断された場合、ステップS410において、雑音環境推定部102により、フレームで切り出された入力信号が用いられて、雑音環境が推定される。
図10を参照して説明したように、雑音環境推定部402において、マイクロホン23から取得された音声信号が用いられ、雑音環境の推定が行われる。この推定は、図3に示した音声処理装置100がステップS110(図5)において実行する推定と同様に行われるため、その説明は省略する。
ステップS410において、雑音環境が推定されると、ステップS411において、雑音数が少ない環境であるか否かが判断される。例えば、雑音環境の推定結果は、上記した式(9)に基づく演算により、集音された信号の相関が算出されるが、その算出される相関係数C(t)は、−1.0乃至1.0の値とされる。
例えば、閾値を設定しておき、相関係数C(t)が所定の閾値以上である場合と以下である場合とで、雑音数が多い環境であるか否かが判断されるようにしても良い。閾値としては、例えば、0.8が設定され、相関係数C(t)の絶対値が、0.8以上である場合、マイクロホン23の周囲の雑音数が少なく、点音源雑音であると推定されるようにすることができる。
ステップS411において、雑音数が少ない環境であると判断された場合、ステップS412に処理が進められる。ステップS412において、処理構成変更指示部410内の集音部401、雑音環境推定部402、時間周波数変換部403、音声方位推定部404、音声強調部405、音声減衰部406の入力本数を削減する設定に、変更される。
すなわち、雑音数が少ない環境であるため、使用するマイクロホン23の本数を少なくしても、雑音を除去するための処理の精度が落ちることなく、処理できると判断された場合であるため、処理構成変更指示部410内に指示が出され、処理する信号を削減する設定にされる。
このような処理が実行されることで、雑音数が少ない環境下では、雑音を除去するための精度を落とすことなく、消費電力を低減させることが可能となる。
なおここでは、処理構成変更指示部410内の各部が、消費電力を低減させる設定にされる場合を例にあげて説明を行うが、その逆の設定であっても良い。すなわち、消費電力を低減させる設定が通常の設定であり、雑音数が多い環境下であると判断されたときには、精度を向上させるための設定に切り換えられるようにしても良い。
例えば、ステップS510において、雑音数が多い環境であるか否かが判断されるようにし、雑音数が多い環境であると判断されたときには、処理構成変更指示部410内の各部が、消費電力の低減よりも、精度を向上させるための設定、すなわち、2以上のマイクロホン23を用いて処理する入力本数を増やす設定に変更されるようにしても良い。
または、推定された雑音環境に応じて、使用されるマイクロホン23の本数が設定されるようにしても良い。例えば、4本のマイクロホン23が集音部401に備えられている音声処理装置400において、雑音数が多い、中程度、少ないの3つの環境にわけ、雑音数が多いと判断される時には、4本のマイクロホン23が使用される設定にし、雑音数が中程度と判断される時には、3本のマイクロホン23が使用される設定にし、雑音数が少ないと判断される時には、2本のマイクロホン23が使用される設定にする。
また、雑音数が多い、中程度、少ないの判断は、複数の閾値を設け、雑音環境推定部402での推定結果と、複数の閾値を比較し、その比較結果により分類するようにすることができる。このように、雑音数に応じて使用されるマイクロホン23の本数が設定されるようにしても良い。
ステップS412において、処理構成変更指示部410内の設定が変更されると、ステップS413に処理が進められ、ポストフィルタ部408で用いられる雑音補正係数が算出される。ステップS413の処理は、ステップS112(図5)と同様に行われるため、その説明は省略するが、ステップS413においては、雑音補正係数が算出される時点で使用されているマイクロホン23の本数に応じた算出が行われる。
一方で、ステップS411において、雑音数が少ない環境ではないと判断された場合も、ステップS413に処理が進められる。この場合、使用されているマイクロホン23の本数に変更などはなく、その時点で設定されている設定で、ポストフィルタ部408で用いられる雑音補正係数が算出される。
ステップS413において、雑音補正係数が算出された場合、または、ステップS409において、現フレームは、発話区間であると判断された場合、ステップS414に処理が進められる。
ステップS414において、ポストフィルタ部108によりポストフィルタ処理が実行される。この場合、図23を参照して説明したように、音声強調部405からの音声強調信号D(f,t)と音声減衰部406から音声減衰信号N(f,t)を用いて、発話区間検出部407からの発話区間検出結果V(t)が発話区間であるとの検出結果を示しているとき、式(14)に基づき、推定音声スペクトルY(f,t)を算出し、後段の時間周波数逆変換部409に出力する。この推定音声スペクトルY(f,t)は、雑音が除去された音声となっている。
ステップS415乃至S417において、時間周波数逆変換部409で実行される処理は、図5のステップS113乃至S115において、時間周波数逆変換部109(図3)で実行される処理と同様に行われるため、その説明は省略する。
このように、第2−1の音声処理装置400においては、雑音環境に応じて音声処理装置400内の構成を変更することができ、雑音環境に適した雑音除去処理を行える構成に変更することができる。よって、雑音が少ない環境などにおいては、消費電力を低減させることが可能となる。
図24、図25に示したフローチャートに基づき処理が行われる場合、ステップS410乃至S413の処理が、音声処理装置400が動作中に繰り返し行われることになる。よって、雑音環境が変化したときに対応することができる。例えば、音声処理装置400が動作中、例えば、通話中に、うるさい環境から静かな環境に移動したといったような雑音環境が変化した場合にも、適切な設定に変更し、消費電力を低減させることなどが可能となる。
<第2−1の音声処理装置の第2の動作>
図22に示した音声処理装置400の他の動作について、図26、図27に示したフローチャートを参照して説明する。図26、図27に示したフローチャートに基づく動作においては、処理構成変更指示部410内の構成を、雑音環境に応じて変更する処理は、システムの起動時に行われる。
システムの起動時とは、例えば、ユーザにより、音声処理装置400で行う処理の開始が指示されたときなどである。音声処理装置400で行う処理は、例えば、音声認識用の所定のアプリケーションが起動されたときや、電話がかけられたときなどに開始される。
ステップS451において、システムが起動され、初期化を実行する必要があるか否かが判断される。ステップS451において、システムが起動され、初期化を実行する必要があると判断された場合、ステップS452に処理が進められる。
ステップS452において、集音部401により音声信号が、各マイクロホン23により取得される。ステップS453において、入力信号が、フレーム毎に切り出される。このステップS452の処理とステップS453の処理は、例えば、図24のステップS401、ステップS402と同様に行うことができる。
ステップS454において、雑音環境推定部402は、フレーム出切り出された入力信号を用いて、雑音環境を推定し、その推定結果が用いられ、ステップS455において、雑音数が少ない環境であるか否かが判断される。ステップS455において、雑音数が少ないと判断された場合、ステップS456に処理が進められる。ステップS456において、処理構成変更指示部410内の各部の設定が変更される。
ステップS454乃至S456の処理は、ステップS410乃至S412(図25)の処理と同様に行われる。すなわち、上記したように、システムの起動時に雑音環境が推定され、静かな環境である場合、処理構成変更指示部410内の集音部401、雑音環境推定部402、時間周波数変換部403、音声方位推定部404、音声強調部405、音声減衰部406の入力本数を削減する設定に変更される。
ステップS456において、処理構成変更指示部410における変更、設定が行われると、ステップS457に処理が進められる。この場合、雑音環境に適した設定にされている。
一方で、ステップS455において、雑音数が少ない環境ではないと判断された場合、ステップS457に処理が進められる。この場合、初期値として設定されている設定が、処理構成変更指示部410内の各部に適用され、処理が開始される。
また、ステップS451において、システム起動時ではないと判断された場合も、ステップS457に処理が進められる。音声処理装置400が動作中である場合、システム起動時ではないと判断され、ステップS457に処理が進められる。
ステップS457乃至S464(図27)の処理は、図24のステップS401乃至S408の処理と同様に行われる。すなわち、システム起動時に、初期化の処理が実行され、その後は、初期化により設定された設定で、音声処理が行われる。
ステップS465(図27)において、現フレームは、発話区間であるか否かが判断され、発話区間ではないと判断された場合、ステップS466に処理が進められる。ステップS466において、ポストフィルタ部408のポストフィルタ処理で用いられる雑音補正係数が算出される。
ステップS466において、雑音補正係数が算出された場合、またはステップS465において、現フレームは、発話区間であると判断された場合、ステップS467に処理が進められポストフィルタ部108によりポストフィルタ処理が行われる。
ステップS465乃至S467の処理は、図25に示したフローチャートのステップS409乃至S414の処理から、ステップS410乃至S412の処理を省略した処理となっている。ステップS410乃至S412の処理は初期化の処理として、ステップS452乃至S456で実行されているため省略される。
雑音環境推定部402における雑音環境の推定は、システム起動時に行われ、システムが起動された後の動作中には行われない。よって、システム起動時に、雑音環境の推定が行われた後、雑音環境推定部402における雑音環境の推定処理は停止され、雑音環境推定部402への電力の供給なども停止されるようにしても良い。このようにすることで、消費電力を低減させることが可能となる。
ステップS468乃至S470の各処理は、ステップS415乃至S417(図25)と同様に行われる。
このように、第2−1の音声処理装置400においては、雑音環境に応じて音声処理装置400内の構成を変更することができ、雑音環境に適した雑音除去処理を行える構成に変更することができる。よって、雑音が少ない環境などにおいては、消費電力を低減させることが可能となる。
<第2−2の音声処理装置の内部構成>
次に、第2−2の音声処理装置の構成と動作について説明する。上記した第2−1の音声処理装置400(図22)は、集音部401から得られた音声信号を用いて、雑音環境を推定したが、第2−2の音声処理装置500(図28)は、音声強調部405から得られる音声強調信号と音声減衰部406から得られる音声減衰信号を用いて雑音環境を推定する点が異なる。このような構成は、図15に示した音声処理装置200と同様の構成である。
図28は、第2−2の音声処理装置500の構成を示す図である。図28に示した音声処理装置500において、図22に示した第2−1の音声処理装置400と同一の機能を有する部分には、同一の符号を付し、その説明は省略する。
図28に示した音声処理装置500は、音声強調部405からの音声強調信号D(f,t)と音声減衰部406からの音声減衰信号N(f,t)が、雑音環境推定部402にも供給される構成とされ、集音部401からの信号は、雑音環境推定部402には供給されない構成とされている点が、図22に示した音声処理装置400とは異なる構成である。
雑音音声推定部501には、音声強調部405からの音声強調信号D(f,t)と音声減衰部406からの音声減衰信号N(f,t)が供給され、さらに、発話区間検出部407から発話区間の検出結果V(t)が供給されるように構成されている。
雑音環境推定部501は、上記した雑音環境推定部402(図22)と同じく、供給される信号と情報を用いて、−1.0〜1.0の値C(t)をポストフィルタ部408に供給する。雑音環境推定部501が行う雑音環境の推定は、図15に示した第1−2の音声処理装置200の雑音環境推定部201が行う雑音環境の推定と同様に行われる。
このように雑音環境を推定するように構成した場合、メモリなどを省略することが可能となる。図22に示した音声処理装置400においては、雑音環境推定のために、フレームで切り出した時間領域の信号を一旦保持するためのバッファ領域(メモリ)が必要であった。しかしながら音声処理装置500(図28)においては、雑音環境推定のために、フレームで切り出した時間領域の信号を一旦保持する必要がないために、バッファ領域(メモリ)を削除する構成とすることができる。
<第2−2の音声処理装置の第1の動作>
このような構成を有する音声処理装置500の動作について、図29、図30のフローチャートを参照して説明する。基本的な動作は、図15に示した音声処理装置200または図22に示した音声処理装置400と同様であるため、同様の動作については、その説明を省略する。
ステップS501乃至S507(図29)に示した各処理は、図17に示したステップS201乃至S207の各処理と同様に行われる。
ステップS508乃至S516(図30)に示した各処理は、図25に示したステップS409乃至S417の各処理と基本的に同様に行われるが、ステップS509(ステップS410に対応する処理)が異なる。
ステップS508において、現フレームは発話区間ではないと判断された場合、ステップS509において、雑音環境推定部501により、音声強調信号と音声減衰信号が用いられて、雑音環境が推定される。推定結果は、第2−1の音声処理装置400の雑音環境推定部402と同じく、−1.0〜1.0の値C(t)として算出され、この値C(t)と所定の閾値とが比較されることで、雑音数が少ない環境であるか否かが判断される(ステップS510)。
このような処理が雑音環境推定部501により行われるため、ステップS510以降の処理は、ステップS412(図25)以降の処理と同様に行うことができ、処理構成変更指示部410などにおける処理は、第2−1の音声処理装置400と同様に行うことができる。
このように、第2−2の音声処理装置500においては、雑音環境を、音声強調部405から得られる信号と音声減衰部406から得られる信号により推定することができる。第2−2の音声処理装置500においても、第2−1の音声処理装置400と同じく、雑音環境を推定し、推定された雑音環境に応じた設定で、雑音除去処理を行うことができ、消費電力を低減させることが可能となる。
<第2−2の音声処理装置の第2の動作>
図28に示した音声処理装置500の他の動作について、図31、図32に示したフローチャートを参照して説明する。図31、図32に示したフローチャートに基づく動作においては、処理構成変更指示部410内の構成を、雑音環境に応じて変更する処理は、システムの起動時に行われる。
ステップS551において、システムが起動され、初期化を実行する必要があるか否かが判断される。ステップS551において、システムが起動され、初期化を実行する必要があると判断された場合、ステップS552に処理が進められる。
ステップS552において、集音部401により音声信号が、各マイクロホン23により取得される。ステップS553において、入力信号が、フレーム毎に切り出される。ステップS554において、時間周波数変換部403において、切り出された信号が、時間周波数信号に変換される。
ステップS555において、音声方位推定部404は、時間周波数信号を用いて、音源の方位の推定を行う。ステップS556において、音声強調部505により音声強調処理が行われ、ステップS557において、音声減衰部506により音声減衰処理が行われる。そして、ステップS558において、雑音環境推定部501により、音声強調信号と音声減衰信号が用いられ、雑音環境が推定される。
ステップS558において推定された結果が参照され、ステップS559において、雑音数が少ない環境であるか否かが判断され、雑音数が少ない環境であると判断された場合、ステップS560に処理が進められる。ステップS560において、処理構成変更指示部410内の各部の設定が、消費電力を低減する設定に設定される。
ステップS552乃至S560の処理は、図29のステップS501乃至S506,S509乃至S511(図30)と同様に行うことができる。ステップS551乃至S560において、初期化が行われると、ステップS561に処理が進められる。
このように、システムの起動時に雑音環境が推定され、静かな環境である場合、処理構成変更指示部410内の集音部401、雑音環境推定部402、時間周波数変換部403、音声方位推定部404、音声強調部405、音声減衰部406の入力本数を削減する設定に変更される。
一方で、ステップS559において、雑音数が少ない環境ではないと判断された場合、ステップS561に処理が進められる。この場合、初期値として設定されている設定が、処理構成変更指示部410内の各部に適用され、処理が開始される。
また、ステップS551において、システム起動時ではないと判断された場合も、ステップS561に処理が進められる。ステップS561乃至S567(図32)の処理は、図29のステップS501乃至S507の処理と同様に行われる。すなわち、システム起動時に、初期化の処理が実行され、その後は、初期化により設定された設定で、音声処理が行われる。
ステップS568乃至S573(図32)の各処理は、図27に示した第2−1の音声処理装置400がステップS465乃至S470において行う処理と同様に行われる。
このように、第2−2の音声処理装置500においては、雑音環境を、音声強調部405から得られる信号と音声減衰部406から得られる信号により推定することができる。第2−2の音声処理装置500においても、第2−1の音声処理装置400と同じく、雑音環境を推定し、推定された雑音環境に応じた設定で、雑音除去処理を行うことができ、消費電力を低減させることが可能となる。
<第2−3の音声処理装置の内部構成>
次に、第2−3の音声処理装置の構成と動作について説明する。上記した第2−1の音声処理装置400(図22)は、集音部401から得られた音声信号を用いて、雑音環境を推定したが、第2−3の音声処理装置600(図33)は、外部から入力される情報を用いて雑音環境を推定する点が異なる。このような構成は、図19に示した音声処理装置300と同様の構成である。
図33は、第2−3の音声処理装置600の構成を示す図である。図33に示した音声処理装置600において、図22に示した第2−1の音声処理装置400と同一の機能を有する部分には、同一の符号を付し、その説明は省略する。
図33に示した音声処理装置600は、外部から雑音環境を推定するために必要な情報が、雑音環境推定部601に供給される構成とされ、集音部401からの信号は、雑音環境推定部601には供給されない構成とされている点が、図22に示した音声処理装置400とは異なる構成である。
また雑音環境推定部601に供給される雑音環境を推定するために必要な情報は、第1−3の音声処理装置300の雑音環境推定部301と同じく、例えば、ユーザにより入力される情報、GPSなどの位置情報、時間情報などが用いられる。
<第2−3の音声処理装置の第1の動作>
このような構成を有する音声処理装置600の動作について、図34、図35のフローチャートを参照して説明する。基本的な動作は、図22に示した音声処理装置400、または図228に示した音声処理装置500と同様であるため、同様の動作については、その説明を省略する。
ステップS601乃至S607(図34)に示した各処理は、図29に示したステップS501乃至S507の各処理と同様に行われる。すなわち、処理構成変更指示部410内の各部と発話区間検出部407は、図28に示した音声処理装置500の処理構成変更指示部410内の各部と発話区間検出部407と同様の構成であるため、同様に処理が行われる。
ステップS608乃至S616(図35)に示した各処理は、図30に示したステップS508乃至S516の各処理と基本的に同様に行われるが、ステップS609(ステップS509に対応する処理)が異なる。
ステップS608において、現フレームは発話区間ではないと判断された場合、ステップS609において、雑音環境推定部601により、外部から入力された情報が用いられて、雑音環境が推定される。
推定結果は、第2−1の音声処理装置400の雑音環境推定部402や第2−2の音声処理装置500の雑音環境推定部501と同じく、−1.0〜1.0の値C(t)として算出され、この値C(t)と所定の閾値とが比較されることで、雑音数が少ない環境であるか否かが判断される(ステップS610)。
このような処理が雑音環境推定部601により行われるため、ステップS610以降の処理は、ステップS510(図30)以降の処理と同様に行うことができ、処理構成変更指示部410などにおける処理は、第2−2の音声処理装置500(または第2−1の音声処理装置400)と同様に行うことができる。
このように、第2−3の音声処理装置600においては、雑音環境を、外部から入力される信号により推定することができる。第2−3の音声処理装置600においても、第2−1の音声処理装置400と同じく、雑音環境を推定し、推定された雑音環境に応じた設定で、雑音除去処理を行うことができ、消費電力を低減させることが可能となる。
<第2−3の音声処理装置の第2の動作>
図33に示した音声処理装置600の他の動作について、図36、図378に示したフローチャートを参照して説明する。図36、図37に示したフローチャートに基づく動作においては、処理構成変更指示部410内の構成を、雑音環境に応じて変更する処理は、システムの起動時に行われる。
ステップS651において、システムが起動され、初期化を実行する必要があるか否かが判断される。ステップS651において、システムが起動され、初期化を実行する必要があると判断された場合、ステップS652に処理が進められる。
ステップS652において、雑音環境推定部501により、外部から入力された情報が用いられ、雑音環境が推定される。
ステップS652において推定された結果が参照され、ステップS653において、雑音数が少ない環境であるか否かが判断され、雑音数が少ない環境であると判断された場合、ステップS654に処理が進められる。ステップS654において、処理構成変更指示部410内の各部の設定が、消費電力を低減する設定に設定される。
ステップS652乃至S654の処理は、図35のステップS609乃至S611と同様に行うことができる。ステップS652乃至S654において、初期化が行われると、ステップS655に処理が進められる。
このように、システムの起動時に雑音環境が推定され、静かな環境である場合、処理構成変更指示部410内の集音部401、雑音環境推定部402、時間周波数変換部403、音声方位推定部404、音声強調部405、音声減衰部406の入力本数を削減する設定に変更される。
一方で、ステップS653において、雑音数が少ない環境ではないと判断された場合、ステップS655に処理が進められる。この場合、初期値として設定されている設定が、処理構成変更指示部410内の各部に適用され、処理が開始される。
また、ステップS651において、システム起動時ではないと判断された場合も、ステップS655に処理が進められる。ステップS655(図36)乃至S667(図37)の処理は、図31のステップS561(図31)乃至S573(図32)の処理(第2-2の音声処理装置500が行う処理)と同様に行われる。すなわち、システム起動時に、初期化の処理が実行され、その後は、初期化により設定された設定で、音声処理が行われる。
このように、第2−3の音声処理装置600においては、雑音環境を、外部から入力される情報により推定することができる。第2−3の音声処理装置600においても、第2−1の音声処理装置400と同じく、雑音環境を推定し、推定された雑音環境に応じた設定で、雑音除去処理を行うことができ、消費電力を低減させることが可能となる。
また、図22に示した音声処理装置400においては、雑音環境推定のために、フレームで切り出した時間領域の信号を一旦保持するためのバッファ領域(メモリ)が必要であった。しかしながら音声処理装置600(図33)においては、雑音環境推定のために、フレームで切り出した時間領域の信号を一旦保持する必要がないために、バッファ領域(メモリ)を削除する構成とすることができる。
さらに、第2−3の音声処理装置600は、第2−1の音声処理装置400や第2−2の音声処理装置500で必要とされていた相関計算を行わない構成のため、演算コストを削減することが可能となる。
<第3の音声処理装置の内部構成と動作>
<第3−1の音声処理装置の内部構成>
音声処理装置の他の構成について説明する。第3の音声処理装置は、上記した第1の音声処理装置と第2の音声処理装置を組み合わせた構成とされている。
図38は、第3−1の音声処理装置700の構成を示す図である。第3−1の音声処理装置700は、上記した第1−1の音声処理装置100(図3)と第2−1の音声処理装置400(図22)を組み合わせた構成とされている。
音声処理装置700は、携帯電話機10の内部に備えられ、携帯電話機10の一部を構成する。図38に示した音声処理装置700は、集音部701、雑音環境推定部702、時間周波数変換部703、音声方位推定部704、音声強調部705、音声減衰部706、発話区間検出部707、ポストフィルタ部708、および時間周波数逆変換部709から構成されている。
このような構成は、第1の音声処理装置や第2の音声処理装置と同様であるが、第3の音声処理装置においては、集音部701、雑音環境推定部702、時間周波数変換部703、音声方位推定部704、音声強調部705、音声減衰部706が、処理構成変更指示部710に含まれる構成とされている点が第1の音声処理装置と異なり、第2の音声処理装置と同様の部分である。
処理構成変更指示部710は、雑音環境推定部702による雑音環境の推定結果により、内部構成が変更される。この構成は、第2−1の音声処理装置400(図22)と同様である。
雑音環境推定部702による推定結果は、ポストフィルタ部708にも供給され、ポストフィルタ部708は、推定された雑音環境に応じて、雑音除去の強弱を制御する構成とされている。この構成は、第1−1の音声処理装置100(図3)と同様である。
第3−1の音声処理装置700の集音部701、雑音環境推定部702、時間周波数変換部703、音声方位推定部704、音声強調部705、音声減衰部706、発話区間検出部707、および時間周波数逆変換部709は、第2−1の音声処理装置400(図22)の集音部401、雑音環境推定部402、時間周波数変換部403、音声方位推定部404、音声強調部405、音声減衰部406、発話区間検出部407、ポストフィルタ部408、および時間周波数逆変換部409と同様の処理を行うため、その詳細な説明は省略する。
ポストフィルタ部708は、第1の音声処理装置のポストフィルタ部108と同じく、雑音環境推定部702からの推定結果C(t)が入力され、その推定結果C(t)を用いたポストフィルタ処理を実行する。
<第3−1の音声処理装置の第1の動作>
図38に示した音声処理装置700の動作について、図39、図40に示したフローチャートを参照して説明する。上記したように、音声処理装置700は、第1−1の音声処理装置100と第2−1の音声処理装置400を組み合わせた構成とされているため、その動作も、第1−1の音声処理装置100の動作(図4、図5に示したフローチャートに基づく動作)と第2−1の音声処理装置400(図24、図25に示したフローチャートに基づく動作)を組み合わせた動作となっている。
ステップS701乃至S717は、図24,図25に示した第2−1の音声処理装置400が行うステップS401乃至S417と基本的に同様に行われる。
第2−1の音声処理装置400と同じく、第3−1の音声処理装置700においても、雑音環境に応じて、処理構成変更指示部710内の設定が変更される。よって、第2−1の音声処理装置400と同じく、第3−1の音声処理装置700においても、消費電力を低減させることが可能となる。
また第3−1の音声処理装置700においては、ステップS714において、ポストフィルタ部708において、雑音環境に応じたポストフィルタ処理が行われる。この処理は、第1−1の音声処理装置100が、ステップS112(図5)で行う処理と同様に行われる。
第1−1の音声処理装置100と同じく、第3−1の音声処理装置700においても、雑音環境に応じて、ポストフィルタ部708でのポストフィルタ処理が行われる。よって、第1−1の音声処理装置100と同じく、第3−1の音声処理装置700においても、雑音環境に応じた適切な雑音除去処理を実行することが可能となり、ミュージカルノイズなどが発生するようなことを防ぐことが可能となる。
<第3−1の音声処理装置の第2の動作>
図38に示した音声処理装置700の他の動作について、図41、図42に示したフローチャートを参照して説明する。第3−1の音声処理装置700の第2の動作は、第1−1の音声処理装置100の動作(図4、図5に示したフローチャートに基づく動作)と、第2−1の音声処理装置400の第2の動作(図26、図27に示したフローチャートに基づく動作)を組み合わせた動作となっている。
ステップS751乃至S770は、図26、図27に示した第2−1の音声処理装置400が行うステップS451乃至S470と基本的に同様に行われる。
第2−1の音声処理装置400と同じく、第3−1の音声処理装置700においても、システム起動時に、雑音環境に応じて、処理構成変更指示部710内の設定が変更される。よって、第2−1の音声処理装置400と同じく、第3−1の音声処理装置700においても、消費電力を低減させることが可能となる。
また第3−3の音声処理装置700においては、ステップS767において、ポストフィルタ部708において、雑音環境に応じたポストフィルタ処理が行われる。この処理は、第1−1の音声処理装置100が、ステップS112(図5)で行う処理と同様に行われる。
第1−1の音声処理装置100と同じく、第3−1の音声処理装置700においても、雑音環境に応じて、ポストフィルタ部708でのポストフィルタ処理が行われる。よって、第1−1の音声処理装置100と同じく、第3−1の音声処理装置700においても、雑音環境に応じた適切な雑音除去処理を実行することが可能となり、ミュージカルノイズなどが発生するようなことを防ぐことが可能となる。
<第3−2の音声処理装置の内部構成>
図43は、第3−2の音声処理装置800の構成を示す図である。音声処理装置800は、携帯電話機10の内部に備えられ、携帯電話機10の一部を構成する。図43に示した第3−2の音声処理装置800は、上記した第1−2の音声処理装置200(図15)と第2−2の音声処理装置500(図28)を組み合わせた構成とされている。
また、第3−2の音声処理装置800も、上記した第3−1の音声処理装置700と同じく、処理構成変更指示部710は、雑音環境推定部801による雑音環境の推定結果により、内部構成が変更される。
また雑音環境推定部801による推定結果は、ポストフィルタ部708にも供給され、ポストフィルタ部708は、推定された雑音環境に応じて、雑音除去の強弱を制御する構成とされている。
<第3−2の音声処理装置の第1の動作>
図43に示した音声処理装置800の動作について、図44、図45に示したフローチャートを参照して説明する。
上記したように、音声処理装置800は、第1−2の音声処理装置200と第2−2の音声処理装置500を組み合わせた構成とされているため、その動作も、第1−2の音声処理装置200の動作(図17、図18のフローチャートに基づく動作)と第2−2の音声処理装置500の動作(図29、図30のフローチャートに基づく動作)を組み合わせた動作となっている。
ステップS801乃至S816は、図29,図30に示した第2−2の音声処理装置500が行うステップS501乃至S516と基本的に同様に行われる。
第2−2の音声処理装置500と同じく、第3−2の音声処理装置800においても、雑音環境に応じて、処理構成変更指示部710内の設定が変更される。よって、第2−2の音声処理装置500と同じく、第3−2の音声処理装置800においても、消費電力を低減させることが可能となる。
第3−2の音声処理装置800においては、ステップS813において、ポストフィルタ部708において、雑音環境に応じたポストフィルタ処理が行われる。この処理は、第1−2の音声処理装置200が、ステップS211(図18)で行う処理と同様に行われる。
第1−2の音声処理装置200と同じく、第3−2の音声処理装置800においても、雑音環境に応じて、ポストフィルタ部708でのポストフィルタ処理が行われる。よって、第1−2の音声処理装置200と同じく、第3−2の音声処理装置800においても、雑音環境に応じた適切な雑音除去処理を実行することが可能となり、ミュージカルノイズなどが発生するようなことを防ぐことが可能となる。
また音声処理装置800(図43)においては、雑音環境推定のために、フレームで切り出した時間領域の信号を一旦保持する必要がないために、バッファ領域(メモリ)を削除する構成とすることができる。
<第3−2の音声処理装置の第2の動作>
図43に示した音声処理装置800の他の動作について、図46、図47に示したフローチャートを参照して説明する。
第3−2の音声処理装置800の第2の動作は、第1−2の音声処理装置200の動作(図17、18に示したフローチャートに基づく動作)と、第2−2の音声処理装置500の第2の動作(図31、図32に示したフローチャートに基づく動作)を組み合わせた動作となっている。
ステップS851乃至S873は、図31、図32に示した第2−2の音声処理装置500が行うステップS551乃至S573と基本的に同様に行われる。
第2−2の音声処理装置500と同じく、第3−2の音声処理装置800においても、システム起動時に、雑音環境に応じて、処理構成変更指示部710内の設定が変更される。よって、第2−2の音声処理装置500と同じく、第3−2の音声処理装置800においても、消費電力を低減させることが可能となる。
また第3−2の音声処理装置800においては、ステップS870において、ポストフィルタ部708において、雑音環境に応じたポストフィルタ処理が行われる。この処理は、第1−2の音声処理装置200が、ステップS211(図18)で行う処理と同様に行われる。
第1−2の音声処理装置200と同じく、第3−2の音声処理装置800においても、雑音環境に応じて、ポストフィルタ部708でのポストフィルタ処理が行われる。よって、第1−2の音声処理装置200と同じく、第3−2の音声処理装置800においても、雑音環境に応じた適切な雑音除去処理を実行することが可能となり、ミュージカルノイズなどが発生するようなことを防ぐことが可能となる。
また音声処理装置800(図43)においては、雑音環境推定のために、フレームで切り出した時間領域の信号を一旦保持する必要がないために、バッファ領域(メモリ)を削除する構成とすることができる。
<第3−3の音声処理装置の内部構成>
図48は、第3−3の音声処理装置900の構成を示す図である。音声処理装置900は、携帯電話機10の内部に備えられ、携帯電話機10の一部を構成する。図48に示した第3−3の音声処理装置900は、上記した第1−3の音声処理装置300(図19)と第2−3の音声処理装置600(図33)を組み合わせた構成とされている。
また、第3−3の音声処理装置900も、上記した第3−1の音声処理装置700と同じく、処理構成変更指示部710は、雑音環境推定部901による雑音環境の推定結果により、内部構成が変更される。
また雑音環境推定部901による推定結果は、ポストフィルタ部708にも供給され、ポストフィルタ部708は、推定された雑音環境に応じて、雑音除去の強弱を制御する構成とされている。
雑音環境推定部901は、外部から入力される情報に基づいて、雑音環境を推定する。
<第3−3の音声処理装置の第1の動作>
図48に示した音声処理装置900の動作について、図49、図50に示したフローチャートを参照して説明する。
上記したように、音声処理装置900は、第1−3の音声処理装置300と第2−3の音声処理装置600を組み合わせた構成とされているため、その動作も、第1−3の音声処理装置300の動作(図20、図21に示したフローチャートに基づく動作)と第2−3の音声処理装置600の動作(図34、図35に示したフローチャートに基づく動作)を組み合わせた動作となっている。
ステップS901乃至S916は、図34,図35に示した第2−3の音声処理装置600が行うステップS601乃至S616と基本的に同様に行われる。
第2−3の音声処理装置600と同じく、第3−3の音声処理装置900においても、雑音環境に応じて、処理構成変更指示部710内の設定が変更される。よって、第2−3の音声処理装置600と同じく、第3−3の音声処理装置900においても、消費電力を低減させることが可能となる。
第3−3の音声処理装置900においては、ステップS913において、ポストフィルタ部708において、雑音環境に応じたポストフィルタ処理が行われる。この処理は、第1−3の音声処理装置300が、ステップS311(図21)で行う処理と同様に行われる。
第1−3の音声処理装置300と同じく、第3−3の音声処理装置900においても、雑音環境に応じて、ポストフィルタ部708でのポストフィルタ処理が行われる。よって、第1−3の音声処理装置300と同じく、第3−3の音声処理装置900においても、雑音環境に応じた適切な雑音除去処理を実行することが可能となり、ミュージカルノイズなどが発生するようなことを防ぐことが可能となる。
また音声処理装置900(図48)においては、雑音環境推定のために、フレームで切り出した時間領域の信号を一旦保持する必要がないために、バッファ領域(メモリ)を削除する構成とすることができる。
<第3−3の音声処理装置の第2の動作>
図48に示した音声処理装置900の他の動作について、図51、図52に示したフローチャートを参照して説明する。第3−3の音声処理装置900の第2の動作は、第1−3の音声処理装置300の動作(図20、21に示したフローチャートに基づく動作)と、第2−3の音声処理装置600の第2の動作(図36、図37に示したフローチャートに基づく動作)を組み合わせた動作となっている。
ステップS951乃至S967は、図36、図37に示した第2−3の音声処理装置600が行うステップS651乃至S667と基本的に同様に行われる。
第2−3の音声処理装置600と同じく、第3−3の音声処理装置900においても、システム起動時に、雑音環境に応じて、処理構成変更指示部710内の設定が変更される。よって、第2−3の音声処理装置600と同じく、第3−3の音声処理装置900においても、消費電力を低減させることが可能となる。
また第3−3の音声処理装置900においては、ステップS964において、ポストフィルタ部708において、雑音環境に応じたポストフィルタ処理が行われる。この処理は、第1−3の音声処理装置300が、ステップS311(図21)で行う処理と同様に行われる。
第1−3の音声処理装置300と同じく、第3−3の音声処理装置900においても、雑音環境に応じて、ポストフィルタ部708でのポストフィルタ処理が行われる。よって、第1−3の音声処理装置300と同じく、第3−3の音声処理装置900においても、雑音環境に応じた適切な雑音除去処理を実行することが可能となり、ミュージカルノイズなどが発生するようなことを防ぐことが可能となる。
また音声処理装置900(図48)においては、雑音環境推定のために、フレームで切り出した時間領域の信号を一旦保持する必要がないために、バッファ領域(メモリ)を削除する構成とすることができる。
上述した音声処理装置100乃至900において、音声方位推定部104,404,704を省略した構成と、音声の方位を推定する動作を省略することも可能である。例えば、メガネ型の端末に、本技術を適用した音声処理装置が適用される場合について考える。
メガネ型の端末におけるマイクロホンの位置が固定されている場合、そのメガネ型の端末がユーザに装着された状態において、ユーザの口(音源)とマイクロホンとの位置関係は、変化することなく、略一定であると考えられる。このような場合、音声の方位は推定しなくても、略同一の方位であるため、音声方位推定部を削除し、音声の方位を推定しない音声処理装置とすることも可能である。
上述した音声処理装置100乃至900においては、時間周波数変換部103,403,703により、時間周波数信号に変換した後、各部の処理が実行される構成としたが、時間周波数信号に変換せずに、マイクロホン23で集音された音声信号を、そのまま用いて、各部の処理が実行されるようにしても良い。すなわち、時間周波数変換部103,403,703を省略した構成とすることも可能であるし、省略した構成とした場合、時間周波数逆変換部109,409,709も省略した構成とすることができる。
本技術によれば、雑音を推定し、推定結果に基づき、雑音除去のための処理を変更するため、以下のような効果を得られる。
本技術を適用することで、点音源雑音が1つというような状況下において雑音除去を適切に行えるだけでなく、複数音源や拡散性の雑音環境においても、最適な雑音除去に関する処理を実施することができる。
また信号処理特有の歪みを抑えた自然な音声を伝送できるようになり、高品質なハンズフリー通話を実現することも可能となる。
雑音や処理歪みの影響による音声認識システムの性能低下を防ぐことができ、高品質な音声を用いたユーザインターフェースを実現することができる。
また、音声認識の誤認識によるユーザが意図しない事象、例えば、突然電話をかける、メールを送信するなどの発生を防ぐことができる。
筐体が大きい指向性マイクロホン(ガンマイクロホン)を使用せず、小型の無指向性マイクロホンと信号処理のみで、抽出したい音声の取得が可能となり、製品の小型化・軽量化に貢献することができる。
雑音環境に応じて、音抽出に必要のない信号処理モジュールとマイクロホンの電源を停止することが可能となり、低消費電力化に貢献することができる。
<記録媒体について>
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図53は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。コンピュータにおいて、CPU(Central Processing Unit)2001、ROM(Read Only Memory)2002、RAM(Random Access Memory)2003は、バス2004により相互に接続されている。バス2004には、さらに、入出力インタフェース2005が接続されている。入出力インタフェース2005には、入力部2006、出力部2007、記憶部2008、通信部2009、およびドライブ2010が接続されている。
入力部2006は、キーボード、マウス、マイクロホンなどよりなる。出力部2007は、ディスプレイ、スピーカなどよりなる。記憶部2008は、ハードディスクや不揮発性のメモリなどよりなる。通信部2009は、ネットワークインタフェースなどよりなる。ドライブ2010は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア2011を駆動する。
以上のように構成されるコンピュータでは、CPU2001が、例えば、記憶部2008に記憶されているプログラムを、入出力インタフェース2005およびバス2004を介して、RAM2003にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU2001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア2011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア2011をドライブ2010に装着することにより、入出力インタフェース2005を介して、記憶部2008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部2009で受信し、記憶部2008にインストールすることができる。その他、プログラムは、ROM2002や記憶部2008に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また他の効果があってもよい。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
なお、本技術は以下のような構成も取ることができる。
(1)
音声を集音する集音部と、
前記集音部により集音された音声信号を用いて、抽出対象となる音声を強調する音声強調部と、
前記集音部により集音された音声信号を用いて、前記抽出対象となる音声を減衰する音声減衰部と、
周囲の雑音環境を推定する雑音環境推定部と、
前記音声強調部からの音声強調信号と前記音声減衰部からの音声減衰信号を用いたポストフィルタ処理を行うポストフィルタ部と
を備え、
前記ポストフィルタ部は、前記雑音環境推定部による前記雑音環境に応じて、雑音除去のための処理の強弱を設定する
音声処理装置。
(2)
前記雑音環境推定部は、前記集音部により集音された前記音声を用いて、前記雑音環境を推定する
前記(1)に記載の音声処理装置。
(3)
前記集音部は、複数のマイクロホンを備え、
前記雑音環境推定部は、前記複数のマイクロホンのぞれぞれで集音された信号同士の相関を求め、前記相関の値を前記雑音環境の推定結果とする
前記(1)に記載の音声処理装置。
(4)
前記雑音環境推定部は、前記音声強調信号と前記音声減衰信号を用いて、前記雑音環境を推定する
前記(1)に記載の音声処理装置。
(5)
前記音声強調信号の振幅スペクトルと前記音声減衰信号の振幅スペクトルの相関を算出し、前記相関の値を前記雑音環境の推定結果とする
前記(1)に記載の音声処理装置。
(6)
前記雑音環境推定部は、外部から入力される情報に基づき、前記雑音環境を推定する
前記(1)に記載の音声処理装置。
(7)
前記外部から入力される情報は、ユーザにより供給された周囲の雑音環境に関する情報、位置情報、時間情報の少なくとも1つの情報である
前記(6)に記載の音声処理装置。
(8)
前記音声強調信号と前記音声減衰信号を用いて、発話区間を推定する発話区間推定部をさらに備え、
前記発話区間推定部により、発話区間ではないと推定された区間において、前記雑音環境推定部は、前記雑音環境の推定を行う
前記(1)乃至(7)のいずれかに記載の音声処理装置。
(9)
前記音声強調部は、加算型ビームフォーミング、Delay and Sumビームフォーミング、または適応型ビームフォーミングを用いて、前記音声強調信号を生成する
前記(1)乃至(8)のいずれかに記載の音声処理装置。
(10)
前記音声減衰部は、減算型ビームフォーミング、Nullビームフォーミング、または適応型Nullビームフォーミングを用いて、前記音声減衰信号を生成する
前記(1)乃至(9)のいずれかに記載の音声処理装置。
(11)
前記雑音環境推定部による推定結果に基づいて、前記集音部を構成するマイクロホンの本数、および前記音声強調部と前記音声減衰部に入力される本数を変更する
前記(1)乃至(10)のいずれかに記載の音声処理装置。
(12)
前記変更は、起動時、または動作中に行われる
前記(11)に記載の音声処理装置。
(13)
集音部により音声を集音し、
前記集音部により集音された音声信号を用いて、抽出対象となる音声が強調された音声強調信号を生成し、
前記集音部により集音された音声信号を用いて、前記抽出対象となる音声が減衰された音声減衰信号を生成し、
周囲の雑音環境を推定し、
前記音声強調信号と前記音声減衰信号を用いたポストフィルタ処理を行う
ステップを含み、
前記ポストフィルタ処理は、推定された前記雑音環境に応じて、雑音除去のための処理の強弱を設定するステップを含む
音声処理方法。
(14)
集音部により音声を集音し、
前記集音部により集音された音声信号を用いて、抽出対象となる音声が強調された音声強調信号を生成し、
前記集音部により集音された音声信号を用いて、前記抽出対象となる音声が減衰された音声減衰信号を生成し、
周囲の雑音環境を推定し、
前記音声強調信号と前記音声減衰信号を用いたポストフィルタ処理を行う
ステップを含み、
前記ポストフィルタ処理は、推定された前記雑音環境に応じて、雑音除去のための処理の強弱を設定するステップを含む
処理をコンピュータに実行させるためのプログラム。
100 音声処理装置, 101 集音部, 102 雑音環境推定部, 103 時間周波数変換部, 104 音声方位推定部, 105 音声強調部, 106 音声減衰部, 107 発話区間検出部, 108 ポストフィルタ部, 109 時間周波数逆変換部, 200 音声処理装置, 201 雑音環境推定部, 300 音声処理装置, 301 雑音環境推定部, 400 音声処理装置, 402 雑音環境推定部, 410 処理構成変更指示部, 500 音声処理装置, 501 雑音環境推定部, 600 音声処理装置, 601 雑音環境推定部, 700 音声処理装置, 702 雑音環境推定部, 800 音声処理装置, 801 雑音環境推定部, 900 音声処理装置, 901 雑音環境推定部

Claims (14)

  1. 音声を集音する集音部と、
    前記集音部により集音された音声信号を用いて、抽出対象となる音声を強調する音声強調部と、
    前記集音部により集音された音声信号を用いて、前記抽出対象となる音声を減衰する音声減衰部と、
    周囲の雑音環境を推定する雑音環境推定部と、
    前記音声強調部からの音声強調信号と前記音声減衰部からの音声減衰信号を用いたポストフィルタ処理を行うポストフィルタ部と
    を備え、
    前記ポストフィルタ部は、前記雑音環境推定部による前記雑音環境に応じて、雑音除去のための処理の強弱を設定する
    音声処理装置。
  2. 前記雑音環境推定部は、前記集音部により集音された前記音声を用いて、前記雑音環境を推定する
    請求項1に記載の音声処理装置。
  3. 前記集音部は、複数のマイクロホンを備え、
    前記雑音環境推定部は、前記複数のマイクロホンのぞれぞれで集音された信号同士の相関を求め、前記相関の値を前記雑音環境の推定結果とする
    請求項1に記載の音声処理装置。
  4. 前記雑音環境推定部は、前記音声強調信号と前記音声減衰信号を用いて、前記雑音環境を推定する
    請求項1に記載の音声処理装置。
  5. 前記音声強調信号の振幅スペクトルと前記音声減衰信号の振幅スペクトルの相関を算出し、前記相関の値を前記雑音環境の推定結果とする
    請求項1に記載の音声処理装置。
  6. 前記雑音環境推定部は、外部から入力される情報に基づき、前記雑音環境を推定する
    請求項1に記載の音声処理装置。
  7. 前記外部から入力される情報は、ユーザにより供給された周囲の雑音環境に関する情報、位置情報、時間情報の少なくとも1つの情報である
    請求項6に記載の音声処理装置。
  8. 前記音声強調信号と前記音声減衰信号を用いて、発話区間を推定する発話区間推定部をさらに備え、
    前記発話区間推定部により、発話区間ではないと推定された区間において、前記雑音環境推定部は、前記雑音環境の推定を行う
    請求項1に記載の音声処理装置。
  9. 前記音声強調部は、加算型ビームフォーミング、Delay and Sumビームフォーミング、または適応型ビームフォーミングを用いて、前記音声強調信号を生成する
    請求項1に記載の音声処理装置。
  10. 前記音声減衰部は、減算型ビームフォーミング、Nullビームフォーミング、または適応型Nullビームフォーミングを用いて、前記音声減衰信号を生成する
    請求項1に記載の音声処理装置。
  11. 前記雑音環境推定部による推定結果に基づいて、前記集音部を構成するマイクロホンの本数、および前記音声強調部と前記音声減衰部に入力される本数を変更する
    請求項1に記載の音声処理装置。
  12. 前記変更は、起動時、または動作中に行われる
    請求項11に記載の音声処理装置。
  13. 集音部により音声を集音し、
    前記集音部により集音された音声信号を用いて、抽出対象となる音声が強調された音声強調信号を生成し、
    前記集音部により集音された音声信号を用いて、前記抽出対象となる音声が減衰された音声減衰信号を生成し、
    周囲の雑音環境を推定し、
    前記音声強調信号と前記音声減衰信号を用いたポストフィルタ処理を行う
    ステップを含み、
    前記ポストフィルタ処理は、推定された前記雑音環境に応じて、雑音除去のための処理の強弱を設定するステップを含む
    音声処理方法。
  14. 集音部により音声を集音し、
    前記集音部により集音された音声信号を用いて、抽出対象となる音声が強調された音声強調信号を生成し、
    前記集音部により集音された音声信号を用いて、前記抽出対象となる音声が減衰された音声減衰信号を生成し、
    周囲の雑音環境を推定し、
    前記音声強調信号と前記音声減衰信号を用いたポストフィルタ処理を行う
    ステップを含み、
    前記ポストフィルタ処理は、推定された前記雑音環境に応じて、雑音除去のための処理の強弱を設定するステップを含む
    処理をコンピュータに実行させるためのプログラム。
JP2014165681A 2014-08-18 2014-08-18 音声処理装置、音声処理方法、並びにプログラム Pending JP2016042132A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2014165681A JP2016042132A (ja) 2014-08-18 2014-08-18 音声処理装置、音声処理方法、並びにプログラム
EP15833495.3A EP3185243B1 (en) 2014-08-18 2015-08-06 Voice processing device, voice processing method, and program
US15/501,124 US10580428B2 (en) 2014-08-18 2015-08-06 Audio noise estimation and filtering
PCT/JP2015/072319 WO2016027680A1 (ja) 2014-08-18 2015-08-06 音声処理装置、音声処理方法、並びにプログラム
CN201580042807.4A CN106663445B (zh) 2014-08-18 2015-08-06 声音处理装置、声音处理方法及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014165681A JP2016042132A (ja) 2014-08-18 2014-08-18 音声処理装置、音声処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2016042132A true JP2016042132A (ja) 2016-03-31

Family

ID=55350626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014165681A Pending JP2016042132A (ja) 2014-08-18 2014-08-18 音声処理装置、音声処理方法、並びにプログラム

Country Status (5)

Country Link
US (1) US10580428B2 (ja)
EP (1) EP3185243B1 (ja)
JP (1) JP2016042132A (ja)
CN (1) CN106663445B (ja)
WO (1) WO2016027680A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11404054B2 (en) 2018-12-27 2022-08-02 Samsung Electronics Co., Ltd. Home appliance and method for voice recognition thereof
WO2023074654A1 (ja) * 2021-10-27 2023-05-04 パイオニア株式会社 情報処理装置、情報処理方法、プログラムおよび記録媒体
WO2023112668A1 (ja) * 2021-12-16 2023-06-22 日本電気株式会社 音響分析装置、音響分析方法、および記録媒体
WO2024069964A1 (ja) * 2022-09-30 2024-04-04 Tdk株式会社 ノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016042132A (ja) * 2014-08-18 2016-03-31 ソニー株式会社 音声処理装置、音声処理方法、並びにプログラム
JP6187626B1 (ja) * 2016-03-29 2017-08-30 沖電気工業株式会社 収音装置及びプログラム
JP6693340B2 (ja) * 2016-08-30 2020-05-13 富士通株式会社 音声処理プログラム、音声処理装置、及び音声処理方法
US10535364B1 (en) * 2016-09-08 2020-01-14 Amazon Technologies, Inc. Voice activity detection using air conduction and bone conduction microphones
WO2018167921A1 (ja) * 2017-03-16 2018-09-20 三菱電機株式会社 信号処理装置
CN107818793A (zh) * 2017-11-07 2018-03-20 北京云知声信息技术有限公司 一种可减少无用语音识别的语音采集处理方法及装置
CN108198565B (zh) * 2017-12-28 2020-11-17 深圳市东微智能科技股份有限公司 混音处理方法、装置、计算机设备和存储介质
CN108419168A (zh) * 2018-01-19 2018-08-17 广东小天才科技有限公司 拾音设备的指向性拾音方法、装置、拾音设备及存储介质
CN110782911A (zh) * 2018-07-30 2020-02-11 阿里巴巴集团控股有限公司 音频信号处理方法、装置、设备和存储介质
FR3086451B1 (fr) * 2018-09-20 2021-04-30 Sagemcom Broadband Sas Filtrage d'un signal sonore acquis par un systeme de reconnaissance vocale
US11195540B2 (en) * 2019-01-28 2021-12-07 Cirrus Logic, Inc. Methods and apparatus for an adaptive blocking matrix
CN110267160B (zh) * 2019-05-31 2020-09-22 潍坊歌尔电子有限公司 声音信号处理方法、装置及设备
CN111816217B (zh) * 2020-07-02 2024-02-09 南京奥拓电子科技有限公司 一种自适应端点检测的语音识别方法与系统、智能设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173258B1 (en) * 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
JP4096104B2 (ja) * 2005-11-24 2008-06-04 国立大学法人北陸先端科学技術大学院大学 雑音低減システム及び雑音低減方法
JP2007150737A (ja) * 2005-11-28 2007-06-14 Sony Corp 音声信号ノイズ低減装置及び方法
ATE448649T1 (de) 2007-08-13 2009-11-15 Harman Becker Automotive Sys Rauschverringerung mittels kombination aus strahlformung und nachfilterung
EP2081189B1 (en) * 2008-01-17 2010-09-22 Harman Becker Automotive Systems GmbH Post-filter for beamforming means
JP5397131B2 (ja) * 2009-09-29 2014-01-22 沖電気工業株式会社 音源方向推定装置及びプログラム
JP5678445B2 (ja) 2010-03-16 2015-03-04 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US9112989B2 (en) * 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
JP5573517B2 (ja) * 2010-09-07 2014-08-20 ソニー株式会社 雑音除去装置および雑音除去方法
US20130304476A1 (en) * 2012-05-11 2013-11-14 Qualcomm Incorporated Audio User Interaction Recognition and Context Refinement
JP2016042132A (ja) * 2014-08-18 2016-03-31 ソニー株式会社 音声処理装置、音声処理方法、並びにプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11404054B2 (en) 2018-12-27 2022-08-02 Samsung Electronics Co., Ltd. Home appliance and method for voice recognition thereof
WO2023074654A1 (ja) * 2021-10-27 2023-05-04 パイオニア株式会社 情報処理装置、情報処理方法、プログラムおよび記録媒体
WO2023112668A1 (ja) * 2021-12-16 2023-06-22 日本電気株式会社 音響分析装置、音響分析方法、および記録媒体
WO2024069964A1 (ja) * 2022-09-30 2024-04-04 Tdk株式会社 ノイズ処理回路、信号処理装置、ノイズ処理方法、および記録媒体

Also Published As

Publication number Publication date
EP3185243B1 (en) 2020-10-14
US20170229137A1 (en) 2017-08-10
EP3185243A1 (en) 2017-06-28
EP3185243A4 (en) 2018-02-21
US10580428B2 (en) 2020-03-03
WO2016027680A1 (ja) 2016-02-25
CN106663445B (zh) 2021-01-15
CN106663445A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
WO2016027680A1 (ja) 音声処理装置、音声処理方法、並びにプログラム
US9966059B1 (en) Reconfigurale fixed beam former using given microphone array
JP5573517B2 (ja) 雑音除去装置および雑音除去方法
JP6584930B2 (ja) 情報処理装置、情報処理方法およびプログラム
US10535362B2 (en) Speech enhancement for an electronic device
KR101606966B1 (ko) 공간 선택적 오디오 증강을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
US8693704B2 (en) Method and apparatus for canceling noise from mixed sound
US9830924B1 (en) Matching output volume to a command volume
WO2020068294A1 (en) Beamforming using an in-ear audio device
TW201030733A (en) Systems, methods, apparatus, and computer program products for enhanced active noise cancellation
US10937418B1 (en) Echo cancellation by acoustic playback estimation
JP6686895B2 (ja) 音声処理装置、音声処理方法、並びにプログラム
JP4448464B2 (ja) 雑音低減方法、装置、プログラム及び記録媒体
JP6794887B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP2005303574A (ja) 音声認識ヘッドセット
JPWO2020110228A1 (ja) 情報処理装置、プログラム及び情報処理方法
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
WO2021070278A1 (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
JP6361360B2 (ja) 残響判定装置及びプログラム
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
KR102012522B1 (ko) 방향성 음향 신호 처리 장치
JP2017151226A (ja) 信号解析装置、方法、及びプログラム
The et al. A Method for Extracting Target Speaker in Dual–Microphone System
Zhang et al. Speech enhancement using improved adaptive null-forming in frequency domain with postfilter