JP6345327B1

JP6345327B1 - 音声抽出装置、音声抽出方法および音声抽出プログラム

Info

Publication number: JP6345327B1
Application number: JP2017171820A
Authority: JP
Inventors: 基大町
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2017-09-07
Filing date: 2017-09-07
Publication date: 2018-06-20
Anticipated expiration: 2037-09-07
Also published as: US11120819B2; JP2019045818A; US20190074030A1

Abstract

【課題】音声を適切に抽出して音声認識の精度を向上させること。【解決手段】本願に係る音声抽出装置は、形成部と、取得部と、強調部と、生成部と、選択部と、を有する。形成部は、複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイにおいて、各マイクロホンについてビームフォーミング処理により、予め指向性を形成する。取得部は、各チャネルで受音された音声の信号である観測信号を取得する。強調部は、形成部により形成された各マイクロホンについての指向性に従って、各チャネルの観測信号を強調して強調信号を生成する。生成部は、強調部により生成された強調信号の振幅の頻度分布をチャネルごとに生成する。選択部は、生成部により生成された各チャネルに対応する頻度分布に基づいて、各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する。【選択図】図４

Description

本発明は、音声抽出装置、音声抽出方法および音声抽出プログラムに関する。

昨今、音声ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）を搭載したデバイスが世界的に注目を浴びている。このようなデバイスは、話者とデバイスとの距離が離れた環境が想定されており、そのような環境では雑音および残響等の影響が強い場合、音声認識の性能が劣化する。したがって、このような音声ＵＩを搭載したデバイスおよび当該デバイスを含むシステムでは、音声認識の精度が重要であるため、雑音および残響等に対して頑健な構成が求められている。

このような、音声ＵＩを搭載したデバイスとして、例えば、複数のマイクロホンを用いて話者の方向を推定する音源定位を行い、音源定位により推定された話者の方向から来る音声を強調するビームフォーミング処理を行うデバイスが提案されている。

特開２００２−０９１４６９号公報特表２０１４−５１０４８１号公報

しかしながら、上記の従来技術では、音源定位の推定に誤りが生じると、観測した音声が歪んでしまい、音声認識の性能が劣化するという問題がある。

本願は、上記に鑑みてなされたものであって、音声を適切に抽出して音声認識の精度を向上させることができる音声抽出装置、音声抽出方法および音声抽出プログラムを提供することを目的とする。

本願に係る音声抽出装置は、複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイにおいて、前記各マイクロホンについてビームフォーミング処理により、予め指向性を形成する形成部と、前記各チャネルで受音された音声の信号である観測信号を取得する取得部と、前記形成部により形成された前記各マイクロホンについての前記指向性に従って、前記各チャネルの前記観測信号を強調して強調信号を生成する強調部と、前記強調部により生成された前記強調信号の振幅の頻度分布を前記チャネルごとに生成する生成部と、前記生成部により生成された前記各チャネルに対応する前記頻度分布に基づいて、前記各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する選択部と、を備えたことを特徴とする。

実施形態の一態様によれば、音声を適切に抽出して音声認識の精度を向上させることができるという効果を奏する。

図１は、実施形態に係る抽出処理の一例を示す図である。図２は、従来の音声認識システムの一例を示す図である。図３は、実施形態に係る音声認識システムの構成例を示す図である。図４は、実施形態に係る音声抽出装置の構成例を示す図である。図５は、実施形態に係る算出結果記憶部の一例を示す図である。図６は、実施形態に係るマイクロホンアレイ装置の指向性を説明する図である。図７は、実施形態に係る強調信号の振幅の頻度分布の一例を示す図である。図８は、実施形態に係る振幅の頻度分布のカートシスの算出方法の一例を示す図である。図９は、実施形態に係る認識装置の構成例を示す図である。図１０は、実施形態に係る音声認識システムの処理の一例を示すフローチャートである。図１１は、変形例に係る抽出処理の一例を示す図である。図１２は、変形例に係る音声抽出装置の構成例を示す図である。図１３は、音声抽出装置の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１４は、各システムの文字正解精度の検証結果の一例を示す図である。図１５は、各システムの処理時間の抽出処理の処理時間の結果の一例を示す図である。

以下に、本願に係る音声抽出装置、音声抽出方法および音声抽出プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る音声抽出装置、音声抽出方法および音声抽出プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．抽出処理〕
図１は、実施形態に係る抽出処理の一例を示す図である。図１を参照しながら、本実施形態に係る抽出処理の一例について説明する。図１では、本願に係る音声抽出装置２０が、マイクロホンアレイ装置１０により受音された話者の音声に基づく音声信号（以下、「観測信号」と称する場合がある）に対して、マイクロホンアレイ装置１０の各マイクロホンに対応して予め形成した指向性に従って、各チャネルの観測信号を強調し、強調信号の振幅の頻度分布のカートシスに基づいてチャネルを選択し、選択されたチャネルに対応する観測信号を出力する抽出処理を実行する例を示す。ここで、チャネルとは、マイクロホンアレイ装置１０において話者の音声を受音する各受音部を示すものとし、具体的には、上述のように指向性が形成された各マイクロホンに対応するものとする。

図１に示す音声抽出装置２０は、上述のように、マイクロホンアレイ装置１０により受音された音声に基づく観測信号に対して、マイクロホンアレイ装置１０の各マイクロホンに対応して予め形成した指向性に従って、各チャネルの観測信号を強調し、強調信号の振幅の頻度分布のカートシスに基づいてチャネルを選択し、選択されたチャネルに対応する観測信号を抽出して出力する抽出処理を実行する装置である。図１に示すように、音声抽出装置２０は、機能として、指向性形成・強調機能６１と、チャネル選択機能６２と、を有する。

図１に示すマイクロホンアレイ装置１０は、周囲環境の音声を受音する複数のマイクロホンを有し、各マイクロホンで受音した音声を観測信号として、音声抽出装置２０に送信する装置である。マイクロホンアレイ装置１０の各マイクロホンは、例えば、図１に示したように、装置本体の筐体において、円形状、かつ等間隔に配置されている。

なお、マイクロホンアレイ装置１０が備える複数のマイクロホンについて、図１に示す例では、８つのマイクロホンが円形状かつ等間隔に配置された例を示しているが、これに限定されるものではない。すなわち、複数のマイクロホンは、例えば、矩形状等に配置されるものとしてもよく、同一平面上ではなく立体的に配置されるものとしてもよい。

また、マイクロホンアレイ装置１０は、複数のマイクロホンを備えた単体の装置として構成されることに限定されるものではなく、例えば、複数のマイクロホンが１つの装置に集約されるのではなく、独立して配置される構成としてもよい。例えば、話者が存在する部屋の壁際に複数のマイクロホンが個別に配置されるものとしてもよい。ただし、各マイクロホンの相対的な位置関係は、予め定められている必要がある。

以下の例では、マイクロホンアレイ装置１０が、８つのマイクロホンを有するものとして説明する。

図１に示す認識装置３０は、音声抽出装置２０による抽出処理によって出力された観測信号を受信して、当該観測信号に対して音声認識処理を実行し、当該観測信号が表すテキストに変換して出力するサーバ装置である。

図２は、従来の音声認識システムの一例を示す図である。ここで、図２を参照しながら、従来の音声認識システムの処理の概要について説明する。図２に示すように、一例として示す従来の音声認識システムは、例えば、マイクロホンアレイ装置１１０と、音声抽出装置１２０と、認識装置１３０と、を有する。

マイクロホンアレイ装置１１０は、上述の本実施形態に係るマイクロホンアレイ装置１０と同様の機能を有し、周囲環境の音声を受音する複数のマイクロホンを有し、各マイクロホンで受音した音声を観測信号として、音声抽出装置１２０に送信する。

音声抽出装置１２０は、マイクロホンアレイ装置１１０の各マイクロホンにより受音された音声に基づく観測信号から、音源定位により音源の方向を推定し、ビームフォーミング処理によって、推定した方向に対して指向性を形成し、形成した指向性に基づいて、観測信号を強調して強調信号を生成（抽出）する装置である。図２に示すように、音声抽出装置１２０は、機能として、音源定位機能１６１と、指向性形成・強調機能１６２と、を有する。

音源定位機能１６１は、マイクロホンアレイ装置１１０の各マイクロホンにより受音された音声に基づく観測信号から、音源定位により音源の方向を推定する機能である。音源定位の方法としては、例えば、ＭＵＳＩＣ（ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法、およびＧＣＣ−ＰＨＡＴ（ＧｅｎｅｒａｌｉｚｅｄＣｒｏｓｓ−ＣｏｒｒｅｌａｔｉｏｎｍｅｔｈｏｄｓｗｉｔｈＰＨＡｓｅＴｒａｎｓｆｏｒｍ）等が挙げられる。ＭＵＳＩＣ法は、雑音の空間相関行列と事前に収録したアレイマニュフォールドベクトルを用いて、音源方向を推定する方法である。また、ＧＣＣ−ＰＨＡＴは、周波数領域において各マイクロホンにおける観測信号同士の相互相関関数を計算することによって音源方向を推定する方法である。演算の負荷の観点で比較した場合、ＭＵＳＩＣ法は空間相関行列の固有値展開を行う必要があるため、ＧＣＣ−ＰＨＡＴの方が演算の処理負荷を低減することができる。

指向性形成・強調機能１６２は、音源定位機能１６１により推定された音源（話者）に対して、ビームフォーミング処理によって指向性を形成し、形成した指向性に基づいて、観測信号を強調して強調信号を生成する機能である。ビームフォーミング処理としては、例えば、ＤＳ（Ｄｅｌａｙ−ａｎｄ−Ｓｕｍ）法（遅延和法）、およびＭＶＤＲ（ＭｉｎｉｍｕｍＶａｒｉａｎｃｅＤｉｓｔｏｒｔｉｏｎｌｅｓｓＲｅｓｐｏｎｓｅ）等が挙げられる。ＭＶＤＲは、指向性を形成する方向に対する歪みが少ないという制約のもと、周囲環境の雑音を抑圧するものであり、音源方向が正しく推定できれば音声認識に効果的であることが知られているが、雑音の空間相関行列の逆行列を推定する必要があるため演算量は高くなる。一方、ＤＳ法は、空間相関行列を推定する必要がないため演算量の観点ではＭＶＤＲよりも優れているので、演算による処理負荷の低減を目的とするのであれば、ＤＳ法を採用する方が望ましい。

認識装置１３０は、音声抽出装置１２０によって抽出されて出力された強調信号を受信して、当該強調信号に対して音声認識処理を実行し、当該観測信号が表すテキストに変換して出力するサーバ装置である。音声認識処理としては、例えば、ディープニューラルネットワークまたは隠れマルコフモデルを用いた認識アルゴリズムが挙げられる。

以上のような従来の音声認識システムにおいては、マイクロホンアレイ装置１１０から観測信号を受信するたびに、音源定位を行って音源（話者）の方向を推定し、ビームフォーミング処理により当該方向に指向性を形成する必要があり、演算処理の負荷が大きいという問題がある。さらに、音源定位の推定に誤りが生じると、観測信号に基づいて強調した強調信号が歪んでしまい、音声認識の性能が劣化するという問題もある。

そこで、本実施形態に係る音声認識システム１は、以下に説明する処理（特に、音声抽出装置２０による抽出処理）を実行することにより、マイクロホンアレイ装置１０の各マイクロホンに正対する方向から来る音声が強調されるように予め指向性を形成するものとし、当該指向性に従って、各チャネルの観測信号を強調し、強調信号の振幅の頻度分布のカートシスに基づいてチャネルを選択し、選択されたチャネルに対応する観測信号を抽出するものとしている。これによって、観測信号を受信するたびに指向性を形成する必要がなく、上述の従来の音声認識システムの音源定位による音源方向の推定ではなく、形成された指向性に基づいて強調された各チャネルの強調信号によって生成された振幅の頻度分布（具体的には、分布から算出されるカートシス）に基づいてチャネルを選択するものとしている。このチャネルの選択が、従来の音声認識システムの音源定位の機能に相当するが、上述した演算負荷の高い音源定位の処理を実行する必要がない。よって、従来の音声認識システムと比較して、演算処理の負荷を低減することができ、かつ、音声を適切に抽出することで信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。以下、図１に戻って、本実施形態に係る音声認識システム１の処理（特に、音声抽出装置２０の抽出処理）の一例を流れに沿って説明する。

音声抽出装置２０は、マイクロホンアレイ装置１０の各マイクロホンに正対する方向から来る音声が強調されるように予め指向性を形成する（ステップＳ１１）。指向性の形成の具体的な内容については、図４で後述する。

このように、マイクロホンアレイ装置１０の各マイクロホン（各チャネル）に正対する方向に対して予め指向性が形成された状態で、話者Ｕ０１は、マイクロホンアレイ装置１０に向かって発話する（ステップＳ１２）。そして、マイクロホンアレイ装置１０は、各マイクロホンで受音した音声を観測信号として、音声抽出装置２０に送信する（ステップＳ１３）。

音声抽出装置２０は、マイクロホンアレイ装置１０から観測信号を受信すると、指向性形成・強調機能６１として、予め形成した指向性に従って、各チャネルの観測信号を強調して強調信号を生成する（ステップＳ１４）。また、音声抽出装置２０は、チャネル選択機能６２として、各チャネルの強調信号に基づいて、当該強調信号の振幅の頻度分布（例えば、図１に示す頻度分布５１）をチャネルごとに生成する（ステップＳ１５）。また、音声抽出装置２０は、チャネル選択機能６２として、生成した各チャネルの強度信号の振幅の頻度分布についてのカートシス（尖度）を算出する（ステップＳ１６）。このとき、音声抽出装置２０は、図１に示す算出結果情報５２のように、マイクロホンアレイ装置１０の各マイクロホンのマイクロホンＩＤに関連付けて、算出した各チャネルのカートシスを記憶する。

また、音声抽出装置２０は、チャネル選択機能６２として、算出した各チャネルのカートシスに基づいて、認識装置３０に観測信号を出力するチャネルを選択する（ステップＳ１７）。具体的には、音声抽出装置２０は、各チャネルのカートシスのうち、最大のカートシスに対応するチャネルを選択する。このとき、音声抽出装置２０は、図１に示す算出結果情報５２のように、マイクロホンアレイ装置１０のマイクロホンのマイクロホンＩＤに関連付けて、選択フラグを記憶する。音声抽出装置２０は、マイクロホンアレイ装置１０の各マイクロホンで受音された音声の観測信号のうち、ステップＳ１７で選択したチャネルに対応する観測信号を抽出して、認識装置３０へ出力する（ステップＳ１８）。

認識装置３０は、音声抽出装置２０から受信（入力）した観測信号に対して音声認識処理を実行し、テキストに変換する（ステップＳ１９）。そして、認識装置３０は、観測信号から変換（生成）したテキストを、当該テキストを利用する外部装置に出力する（ステップＳ２０）。

以上のような音声認識システム１の処理によって、観測信号を受信するたびに指向性を形成する必要がなく、上述の従来の音声認識システムの音源定位による音源方向の推定ではなく、形成された指向性に基づいて強調された各チャネルの強調信号によって生成された振幅の頻度分布（具体的には、分布から算出されるカートシス）に基づいてチャネルを選択するものとしている。よって、従来の音声認識システムと比較して、演算処理の負荷を低減することができ、かつ、音声を適切に抽出することで信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。

以下、このような処理を行う音声抽出装置２０、および音声抽出装置２０を含む音声認識システム１の構成等について、詳細に説明する。

〔２．音声認識システムの構成〕
図３は、実施形態に係る音声認識システムの構成例を示す図である。図３を参照しながら、本実施形態に係る音声認識システム１の構成について説明する。

図３に示すように、本実施形態に係る音声認識システム１は、マイクロホンアレイ装置１０と、音声抽出装置２０と、認識装置３０と、を含む。マイクロホンアレイ装置１０は、音声抽出装置２０に接続され、受音した音声信号を音声抽出装置２０に送信する。音声抽出装置２０は、ネットワークＮを介して、有線または無線により認識装置３０と通信可能に接続されている。

なお、図３に示す音声認識システム１には、１のマイクロホンアレイ装置１０、および、１の音声抽出装置２０が含まれているが、これに限定されるものではなく、複数のマイクロホンアレイ装置１０、および、複数の音声抽出装置２０が含まれるものとしてもよい。また、音声抽出装置２０には、複数のマイクロホンアレイ装置１０が接続されているものとしてもよい、また、図３では、マイクロホンアレイ装置１０が音声抽出装置２０に直接接続されている例を示しているが、これに限定されるものではなく、無線により通信可能に接続されてもよく、または、有線または無線によるネットワークを介して通信可能に接続されるものとしてもよい。

マイクロホンアレイ装置１０は、周囲環境の音声を受音する複数のマイクロホンを有し、各マイクロホンで受音した音声を観測信号として、音声抽出装置２０に送信する装置である。マイクロホンアレイ装置１０の各マイクロホンは、例えば、図１に示したように、円形状、かつ等間隔に配置されている。

音声抽出装置２０は、マイクロホンアレイ装置１０の各マイクロホンにより受音された音声に基づく観測信号に基づいて上述の抽出処理を実行する装置である。音声抽出装置２０は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ワークステーション、または専用装置等のコンピュータによって実現される。

認識装置３０は、音声抽出装置２０による抽出処理によって出力された観測信号を受信して、当該観測信号に対して音声認識処理を実行し、当該観測信号が表すテキストに変換して出力するサーバ装置である。認識装置３０は、例えば、ＰＣまたはワークステーション等のコンピュータによって実現される。

なお、図３では、マイクロホンアレイ装置１０、音声抽出装置２０および認識装置３０がそれぞれ独立した装置として示されているが、例えば、マイクロホンアレイ装置１０および音声抽出装置２０が統合した１つの装置、音声抽出装置２０および認識装置３０が統合された１つの装置、または、マイクロホンアレイ装置１０、音声抽出装置２０および認識装置３０がすべて統合された１つの装置として構成されてもよい。

〔３．音声抽出装置の構成〕
図４は、実施形態に係る音声抽出装置の構成例を示す図である。図４を参照しながら、本実施形態に係る音声抽出装置２０の構成について説明する。

図４に示すように、本実施形態に係る音声抽出装置２０は、通信部２１０と、記憶部２２０と、制御部２３０と、通信部２４０と、を有する。なお、音声抽出装置２０は、音声抽出装置２０を利用する管理者等から各種操作を受け付ける入力部（例えば、マウスまたはキーボード等）、または各種情報を表示する表示部（例えば、液晶ディスプレイまたは有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等）を有するものとしてもよい。

（通信部２１０について）
通信部２１０は、マイクロホンアレイ装置１０と情報の通信を行う機能部である。具体的には、通信部２１０は、例えば、マイクロホンアレイ装置１０が受音した話者の音声を音声信号（観測信号）として受信する。通信部２１０は、後述する図１３に示す通信Ｉ／Ｆ１６００（例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）インターフェース等）によって実現される。

（記憶部２２０について）
記憶部２２０は、音声抽出装置２０の処理の用に供する様々な情報を記憶する機能部である。記憶部２２０は、例えば、後述する制御部２３０の形成部２３２により形成された指向性を決めるパラメータ、生成部２３４により生成された強調信号の振幅の頻度分布の情報、および、算出部２３５により算出された頻度分布のカートシス（尖度）等を記憶する。図４に示すように、記憶部２２０は、算出結果記憶部２２１を有する。記憶部２２０は、後述する図１３に示すＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１２００、補助記憶装置１４００（ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）またはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等）、または記録媒体１９００（ＤＶＤ−ＲＷ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃＲｅＷｒｉｔａｂｌｅ）等）のうち少なくともいずれかによって実現される。

（算出結果記憶部２２１について）
算出結果記憶部２２１は、後述する算出部２３５により算出された頻度分布のカートシス（尖度）等を記憶する。

図５は、実施形態に係る算出結果記憶部の一例を示す図である。図５を参照しながら、本実施形態に係る算出結果記憶部２２１の一例について説明する。図５に示す算出結果記憶部２２１の例では、算出結果記憶部２２１は、「マイクロホンＩＤ（ＣＨ）」と、「カートシス」と、「選択フラグ」とを関連付けて記憶している。

「マイクロホンＩＤ（ＣＨ）」は、マイクロホンアレイ装置１０の各マイクロホン（すなわち、チャネル）を識別する情報である。上述のように、マイクロホンアレイ装置１０が有するマイクロホンが８つである場合、例えば、図５に示すように、各マイクロホン（各チャネル）に「１」〜「８」の識別情報をそれぞれ割り当てている。

「カートシス」は、対応するチャネルについて形成された指向性に従って強調された強調信号の振幅の頻度分布に対する尖度を示す値である。「カートシス」の算出方法については、図８で後述する。

「選択フラグ」は、後述する制御部２３０の選択部２３６によって、どのチャネルが選択されたかを示すフラグ情報である。図５に示す例では、「１」が、対応するチャネルが選択されたことを示し、「０」が、対応するチャネルが選択されていないことを示す。すなわち、後述するように、選択部２３６は、カートシスが最大であるチャネルを選択するので、図８に示すカートシスが最大の「２．２９」を有するチャネル「５」が選択されていることが示されている。

すなわち、図５に示した算出結果記憶部２２１の一例は、マイクロホンＩＤ（ＣＨ）「５」について、カートシスが「２．２９」であり、選択フラグが「１」であることを示している。

なお、図５に示した算出結果記憶部２２１の構成は一例であり、その他の情報が含まれているものとしてもよい。例えば、算出結果記憶部２２１は、選択部２３６によりチャネルが選択された日時の情報等を、上述の各情報に関連付けて記憶するものとしてもよい。

また、図５に示した算出結果記憶部２２１は、テーブル形式の情報としているが、これに限定されるものではなく、テーブルの各フィールドの値を互いに関連付けて管理することができれば、どのような形式の情報であってもよい。

（制御部２３０について）
制御部２３０は、音声抽出装置２０全体の動作の制御を司る機能部である。図４に示すように、制御部２３０は、取得部２３１と、形成部２３２と、強調部２３３と、生成部２３４と、算出部２３５と、選択部２３６と、出力部２３７と、を有する。制御部２３０は、後述する図１３に示すＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１００が、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１３００および補助記憶装置１４００等に記憶されているプログラムを、ＲＡＭ１２００を作業領域として実行することにより実現される。

なお、制御部２３０の上述の各機能部の一部または全部は、ソフトウェアであるプログラムではなく、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）またはＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェア回路によって実現されてもよい。

また、図４に示す制御部２３０の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図４で独立した制御部２３０の機能部として図示した複数の機能部を、１つの機能部として構成してもよい。一方、図４の制御部２３０が有する１つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。

（取得部２３１について）
取得部２３１は、マイクロホンアレイ装置１０の各マイクロホン（各チャネル）で受音された音声を観測信号として、通信部２１０を介して取得する機能部である。取得部２３１は、取得した各マイクロホンの観測信号を、強調部２３３へ送る。

（形成部２３２について）
形成部２３２は、マイクロホンアレイ装置１０の各マイクロホンに正対する方向から来る音声が強調されるように指向性を形成する機能部である。形成部２３２は、音声抽出装置２０による抽出処理の最初の処理として、予め各マイクロホンに対応する指向性を形成する。形成部２３２の機能は、上述の図１に示した指向性形成・強調機能６１に含まれる。

ここで、指向性の形成とは、各マイクロホンに正対する方向から来る音声が強調されるようなパラメータを決定する処理（ビームフォーミング処理）を示すものとする。具体的には、特定のマイクロホンに正対する方向から来る音声を強調するには、例えば、各マイクロホンにより受音された各音声の観測信号に対して任意の遅延を加えた上で重み付け（例えば、当該特定のマイクロホンにより受音された音声の観測信号の重みを最大にし、当該特定のマイクロホンから最も離れた位置に配置されたマイクロホンにより受音された音声の観測信号の重みを最小にする）を行って加算する処理を行う。このように、特定のマイクロホンに正対する方向から来る音声を強調する処理で使用する各観測信号に対する重みをパラメータとして具体的な値を決定する処理を、指向性の形成というものとする。そして、後述するように、この指向性の形成により決定されたパラメータを用いて、特定のマイクロホンに正対する方向から来る音声を強調する機能部が、強調部２３３である。

この指向性の形成であるビームフォーミング処理は、上述のＤＳ法またはＭＶＤＲ等の公知の方法により実行されるものとすればよい。ただし、演算による処理負荷の低減を目的とするのであれば、ＤＳ法を採用する方が望ましい。

図６は、実施形態に係るマイクロホンアレイ装置の指向性を説明する図である。図６を参照しながら、本実施形態に係る形成部２３２による指向性の形成について説明する。

本実施形態に係るマイクロホンアレイ装置１０は、複数のマイクロホンとして、図６に示すように、マイクロホン１０ａ〜１０ｈを有するものとする。形成部２３２は、例えば、マイクロホンアレイ装置１０のマイクロホン１０ａに正対する方向である指向性形成方向５００ａから来る音声が強調されるようなパラメータを決定する処理を行う。同様に、形成部２３２は、マイクロホン１０ｂ〜１０ｈにそれぞれ正対する方向である指向性形成方向５００ｂ〜５００ｈから来る音声が強調されるようなパラメータを決定する処理を行う。

（強調部２３３について）
強調部２３３は、形成部２３２により形成された指向性に従って、各チャネルの観測信号を強調して強調信号を生成する機能部である。具体的には、強調部２３３は、特定のマイクロホン（チャネル）に正対する音声を強調する場合、形成部２３２により決定されたパラメータを用いて、各チャネルで受音された音声の観測信号に対して重みづけおよび加算を行うことによって、当該特定のマイクロホンに正対する音声を強調する。以下、各チャネルで受音された音声の観測信号、および形成部２３２により決定された特定のチャネルの指向性に対応するパラメータを用いて、当該特定のチャネルのマイクロホンに正対する音声を強調することを、単に、当該特定のチャネルの観測信号を強調するという場合がある。そして、強調部２３３は、生成した各チャネルの強調信号を、生成部２３４へ送る。強調部２３３の機能は、上述の図１に示した指向性形成・強調機能６１に含まれる。

（生成部２３４について）
生成部２３４は、強調部２３３により強調された各チャネルの強調信号に基づいて、当該強調信号の振幅の頻度分布をチャネルごとに生成する機能部である。生成部２３４は、チャネルごとに生成した強調信号の振幅の頻度分布の情報を、記憶部２２０に記憶させる。生成部２３４の機能は、上述の図１に示したチャネル選択機能６２に含まれる。

図７は、実施形態に係る強調信号の振幅の頻度分布の一例を示す図である。図７を参照しながら、生成部２３４が生成する振幅の頻度分布について説明する。

強調部２３３により生成された音声信号である強調信号は、様々な周波数成分の信号が含まれる。この強調信号について、各周波数ビンにおいて、例えば、所定時間内の等間隔の各タイミングにおいて、どのような振幅の信号がどれくらい含まれるのかについての頻度を計上して生成した分布が、図７に示すグラフである。したがって、生成部２３４は、図７に示す強調信号の振幅の頻度分布（ヒストグラム）は、周波数ビンごとに生成する。そして、生成部２３４は、生成した各チャネルの強調信号の振幅の頻度分布の情報を、算出部２３５へ送る。

（算出部２３５について）
算出部２３５は、生成部２３４により生成された各チャネルの強調信号の振幅の頻度分布についてのカートシス（尖度）を算出する機能部である。ここで、カートシス（尖度）とは、振幅の頻度分布（例えば、図７に示す頻度分布）のピーク部分およびその近傍部分の分布形状の鋭さを示す値である。

例えば、図７（ｂ）に示す頻度分布は、ピーク部分およびその近傍部分が鋭く、かつ、ピーク部分が裾の部分よりも高い位置にある分布となっており、図７（ａ）に示す頻度分布は、ピーク部分およびその近傍部分が丸みがかっており、かつ、ピーク部分が裾の部分よりも高くない分布となっている。この場合、図７（ｂ）の頻度分布について算出された尖度は、図７（ａ）の頻度分布について算出された尖度よりも高い値となる。

図８は、実施形態に係る振幅の頻度分布のカートシスの算出方法の一例を示す図である。図８を参照しながら、算出部２３５による振幅の頻度分布のカートシスの算出方法の一例について説明する。

まず、生成部２３４は、強調部２３３により生成された強調信号に対してＳＴＦＴ（Ｓｈｏｒｔ−ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：短時間フーリエ変換）を行う（ステップＳ２１）。これによって、強調信号から周波数成分が抽出される。図８に示す例では、Ｊ個の周波数ビンの成分が抽出されるものとする。そして、生成部２３４は、ＳＴＦＴにより得られた周波数ビンごとの成分について絶対値をとることにより振幅スペクトル｜Ｘ（ｉ，０）｜，｜Ｘ（ｉ，１）｜，・・・，｜Ｘ（ｉ，Ｊ）｜を得る（ステップＳ２２）。生成部２３４は、この周波数ビンごとの振幅スペクトルから、上述の振幅の頻度分布を生成する。

次に、算出部２３５は、振幅スペクトルに基づく振幅の頻度分布から、周波数ビンごとにカートシスを算出する（ステップＳ２３）。算出部２３５は、例えば、下記の式（１）により、周波数ビンごとのカートシスを算出する。

式（１）において、Ｋ_ｊは、ｊ番目の周波数ビンに対応するカートシスであり、｜Ｘ（ｉ，ｊ）｜は、ｉ番目のフレームにおける振幅スペクトルであり、Ｍ［ｘ^ｎ］は、ｎ次のモーメントである。また、モーメントＭ［ｘ^ｎ］は、下記の式（２）により定義される。

式（２）において、ｐ（ｘ）は、変数ｘの分布に従う確率密度関数である。

そして、算出部２３５は、周波数ビンごとに算出した各カートシスの平均値（Ｋ）を、下記の式（３）によって算出し（ステップＳ２４）、当該平均値を、着目しているチャネルに対応する振幅の頻度分布のカートシスとする。

算出部２３５は、上述のステップＳ２１〜Ｓ２４による算出処理を、各チャネルについて実行する。算出部２３５は、算出した各チャネルに対応するカートシスを、算出結果記憶部２２１に記憶させる。具体的には、算出部２３５は、図５に示すように、マイクロホンアレイ装置１０の各マイクロホンのマイクロホンＩＤに関連付けて、算出した各チャネルのカートシスを算出結果記憶部２２１に記憶させる。算出部２３５の機能は、上述の図１に示したチャネル選択機能６２に含まれる。

（選択部２３６について）
選択部２３６は、算出部２３５により算出された各チャネルのカートシスに基づいて、認識装置３０に観測信号を出力するチャネルを選択する機能部である。具体的には、選択部２３６は、各チャネルのカートシスのうち、最大のカートシスに対応するチャネルを選択する。選択部２３６は、図５に示すように、マイクロホンアレイ装置１０のマイクロホンのマイクロホンＩＤに関連付けて、選択フラグを算出結果記憶部２２１に記憶させる。選択部２３６の機能は、上述の図１に示したチャネル選択機能６２に含まれる。

このように、観測信号を出力するチャネルを選択するためにカートシスを利用する理由は、以下の通りである。音声信号の分布はラプラス分布のような分布に従うのに対し、複数の雑音源が混合された音声信号の分布は正規分布に近くなるという性質がある。すなわち、各チャネルに対応する音声が存在する場合における音声信号（ここでは、強調信号）の振幅の頻度分布の尖度、すなわちカートシスは、音声が存在しない場合における頻度分布のカートシスよりも高くなることが予想されるためである。

（出力部２３７について）
出力部２３７は、マイクロホンアレイ装置１０の各マイクロホンで受音された音声の観測信号のうち、選択部２３６により選択されたチャネルに対応する観測信号を抽出して、通信部２４０を介して、認識装置３０へ出力する機能部である。出力部２３７の機能は、上述の図１に示したチャネル選択機能６２に含まれる。

（通信部２４０について）
通信部２４０は、認識装置３０と情報の通信を行う機能部である。具体的には、通信部２４０は、例えば、出力部２３７による機能により、選択部２３６により選択されたチャネルに対応する観測信号を、ネットワークＮを介して、認識装置３０へ送信する。通信部２４０は、後述する図１３に示すネットワークＩ／Ｆ１５００（例えば、ＮＩＣ（ＮｅｔｏｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）等）によって実現される。

〔４．認識装置の構成〕
図９は、実施形態に係る認識装置の構成例を示す図である。図９を参照しながら、本実施形態に係る認識装置３０の構成について説明する。

図９に示すように、本実施形態に係る認識装置３０は、通信部３１０と、記憶部３２０と、制御部３３０と、を有する。なお、認識装置３０は、認識装置３０を利用する管理者等から各種操作を受け付ける入力部（例えば、マウスまたはキーボード等）、または各種情報を表示する表示部（例えば、液晶ディスプレイまたは有機ＥＬディスプレイ等）を有するものとしてもよい。

（通信部３１０について）
通信部３１０は、本実施形態に係る音声抽出装置２０と情報の通信を行う機能部である。具体的には、通信部３１０は、例えば、マイクロホンアレイ装置１０により受音された音声の観測信号に対して、音声抽出装置２０により抽出処理が実行されて出力された観測信号を、ネットワークＮを介して受信する。通信部３１０は、後述する図１３に示すネットワークＩ／Ｆ１５００（例えば、ＮＩＣ（ＮｅｔｏｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）等）によって実現される。

（記憶部３２０について）
記憶部３２０は、認識装置３０の処理の用に供する様々な情報を記憶する機能部である。記憶部３２０は、例えば、後述する制御部３３０の取得部３３１により取得された観測信号のデータ、および、音声認識部３３２による音声認識処理により生成されたテキストのデータ等を記憶する。記憶部３２０は、後述する図１３に示すＲＡＭ１２００、補助記憶装置１４００（ＨＤＤまたはＳＳＤ等）、または記録媒体１９００（ＤＶＤ−ＲＷ等）のうち少なくともいずれかによって実現される。

（制御部３３０について）
制御部３３０は、認識装置３０全体の動作の制御を司る機能部である。図９に示すように、制御部３３０は、取得部３３１と、音声認識部３３２と、出力部３３３と、を有する。制御部３３０は、後述する図１３に示すＣＰＵ１１００が、ＲＯＭ１３００および補助記憶装置１４００等に記憶されているプログラムを、ＲＡＭ１２００を作業領域として実行することにより実現される。

なお、制御部３３０の上述の各機能部の一部または全部は、ソフトウェアであるプログラムではなく、ＦＰＧＡまたはＡＳＩＣ等のハードウェア回路によって実現されてもよい。

また、図９に示す制御部３３０の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図９で独立した制御部３３０の機能部として図示した複数の機能部を、１つの機能部として構成してもよい。一方、図９の制御部３３０が有する１つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。

（取得部３３１について）
取得部３３１は、マイクロホンアレイ装置１０により受音された音声の観測信号に対して、音声抽出装置２０により抽出処理が実行されて出力された観測信号を、通信部３１０を介して取得する機能部である。取得部３３１は、取得した強調信号を、音声認識部３３２へ送る。

（音声認識部３３２について）
音声認識部３３２は、取得部３３１により取得された観測信号に対して音声認識処理を実行し、テキストに変換する機能部である。ここで、音声認識処理としては、ディープニューラルネットワークを用いた認識アルゴリズム等の公知のアルゴリズムにより実行されるものとすればよい。音声認識部３３２は、観測信号から変換したテキストを、出力部３３３へ送る。

（出力部３３３について）
出力部３３３は、音声認識部３３２により観測信号から変換されたテキストを、通信部３１０を介して、当該テキストを利用する外部装置に出力する機能部である。なお、音声認識部３３２により観測信号から変換されたテキストは、必ずしも外部へ出力される必要はなく、認識装置３０内で実行されているアプリケーションに対して出力するものとしてもよい。

〔５．処理の流れ〕
図１０は、実施形態に係る音声認識システムの処理の一例を示すフローチャートである。図１０を参照しながら、本実施形態に係る音声認識システム１の処理の流れについて説明する。

（ステップＳ１０１）
音声抽出装置２０の形成部２３２は、マイクロホンアレイ装置１０の各マイクロホンに正対する方向から来る音声が強調されるように、予め指向性を形成する。そして、ステップＳ１０２へ移行する。

（ステップＳ１０２）
マイクロホンアレイ装置１０が、各マイクロホンにより話者の音声を受音した場合（ステップＳ１０２：Ｙｅｓ）、ステップＳ１０３へ移行し、音声を受音していない場合（ステップＳ１０２：Ｎｏ）、処理を終了する。

（ステップＳ１０３）
マイクロホンアレイ装置１０は、各マイクロホン（各チャネル）で受音された音声を観測信号として、音声抽出装置２０へ送信する。そして、ステップＳ１０４へ移行する。

（ステップＳ１０４）
音声抽出装置２０の強調部２３３は、形成部２３２により形成された指向性に従って、取得部２３１により取得された各チャネルの観測信号を強調して強調信号を生成する。そして、ステップＳ１０５へ移行する。

（ステップＳ１０５）
音声抽出装置２０の生成部２３４は、強調部２３３により強調された各チャネルの強調信号に基づいて、当該強調信号の振幅の頻度分布をチャネルごとに生成する。そして、ステップＳ１０６へ移行する。

（ステップＳ１０６）
音声抽出装置２０の算出部２３５は、生成部２３４により生成された各チャネルの強調信号の振幅の頻度分布についてのカートシス（尖度）を算出する。このとき、算出部２３５は、算出した各チャネルに対応するカートシスを、算出結果記憶部２２１に記憶させる。そして、ステップＳ１０７へ移行する。

（ステップＳ１０７）
音声抽出装置２０の選択部２３６は、算出部２３５により算出された各チャネルのカートシスに基づいて、認識装置３０に観測信号を出力するチャネルを選択する。具体的には、選択部２３６は、各チャネルのカートシスのうち、最大のカートシスに対応するチャネルを選択する。そして、音声抽出装置２０の出力部２３７は、選択部２３６により選択されたチャネルに対応する観測信号を、通信部２４０を介して、認識装置３０へ出力する。そして、ステップＳ１０８へ移行する。

（ステップＳ１０８）
認識装置３０の取得部３３１は、音声抽出装置２０により抽出処理が実行されて出力された観測信号を、通信部３１０を介して取得する。認識装置３０の音声認識部３３２は、取得部３３１により取得された観測信号に対して音声認識処理を実行し、テキストに変換する。認識装置３０の出力部３３３は、音声認識部３３２により観測信号から変換されたテキストを、通信部３１０を介して、当該テキストを利用する外部装置に出力する。そして、処理を終了する。

以上のような、ステップＳ１０１〜Ｓ１０８によって、本実施形態に係る音声認識システム１の処理が実行される。具体的には、ステップＳ１０１において形成部２３２により指向性が形成された後、ステップＳ１０２〜Ｓ１０８が繰り返し実行される。

〔６．変形例〕
上述した音声抽出装置２０は、上述の実施形態以外にも種々の異なる形態にて実施されてよい。以下では、音声抽出装置の他の実施形態について説明する。

〔６−１．強調信号の出力〕
図１１は、変形例に係る抽出処理の一例を示す図である。上述の実施形態では、選択されたチャネルに対応する観測信号を認識装置３０に対して出力する例を示した。これに対して、図１１を参照しながら、選択されたチャネルに対応する強調信号を認識装置３０に対して出力する処理について説明する。

図１１に示す音声抽出装置２０ａは、マイクロホンアレイ装置１０により受音された音声に基づく観測信号に対して、マイクロホンアレイ装置１０の各マイクロホンに対応して予め形成した指向性に従って、各チャネルの観測信号を強調し、強調信号の振幅の頻度分布のカートシスに基づいてチャネルを選択し、選択されたチャネルに対応する強調信号を抽出して出力する抽出処理を実行する装置である。図１１に示すように、音声抽出装置２０ａは、機能として、指向性形成・強調機能６１と、チャネル選択機能６２ａと、を有する。

指向性形成・強調機能６１は、図１に示した音声抽出装置２０の指向性形成・強調機能６１と同様の機能である。

チャネル選択機能６２ａは、指向性形成・強調機能６１の機能により生成された強調信号の振幅の頻度分布のカートシスに基づいてチャネルを選択し、選択されたチャネルに対応する強調信号を抽出して出力する機能である。

図１２は、変形例に係る音声抽出装置の構成例を示す図である。図１２を参照しながら、本変形例に係る音声抽出装置２０ａの構成について説明する。

図１２に示すように、本変形例に係る音声抽出装置２０ａは、通信部２１０と、記憶部２２０と、制御部２３０ａと、通信部２４０と、を有する。なお、音声抽出装置２０ａは、音声抽出装置２０ａを利用する管理者等から各種操作を受け付ける入力部（例えば、マウスまたはキーボード等）、または各種情報を表示する表示部（例えば、液晶ディスプレイまたは有機ＥＬディスプレイ等）を有するものとしてもよい。また、通信部２１０、記憶部２２０および通信部２４０の機能は、図４で上述した機能と同様である。

制御部２３０ａは、音声抽出装置２０ａ全体の動作を司る機能部である。図１２に示すように、制御部２３０ａは、取得部２３１と、形成部２３２と、強調部２３３と、生成部２３４と、算出部２３５と、選択部２３６と、出力部２３７ａと、を有する。制御部２３０ａは、後述する図１３に示すＣＰＵ１１００が、ＲＯＭ１３００および補助記憶装置１４００等に記憶されているプログラムを、ＲＡＭ１２００を作業領域として実行することにより実現される。なお、取得部２３１、形成部２３２、強調部２３３、生成部２３４、算出部２３５および選択部２３６の機能は、上述の図４で説明した機能と同様である。形成部２３２および強調部２３３の機能は、上述の図１１に示した指向性形成・強調機能６１に含まれる。生成部２３４、算出部２３５、選択部２３６および出力部２３７ａの機能は、上述の図１１に示したチャネル選択機能６２ａに含まれる。

なお、制御部２３０ａの上述の各機能部の一部または全部は、ソフトウェアであるプログラムではなく、ＦＰＧＡまたはＡＳＩＣ等のハードウェア回路によって実現されてもよい。

また、図１２に示す制御部２３０ａの各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図１２で独立した制御部２３０ａの機能部として図示した複数の機能部を、１つの機能部として構成してもよい。一方、図１２の制御部２３０ａが有する１つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。

出力部２３７ａは、マイクロホンアレイ装置１０の各マイクロホンで受音された音声の観測信号のうち、選択部２３６により選択されたチャネルに対応する強調信号を抽出して、通信部２４０を介して、認識装置３０へ出力する機能部である。出力部２３７ａの機能は、上述の図１１に示したチャネル選択機能６２ａに含まれる。

以上のように、図４では選択されたチャネルに対応する観測信号を、認識装置３０に対して出力していたが、本変形例の図１２に示すように、選択されたチャネルに対する強調信号を出力するようにしてもよい。これによって、上述の実施形態に係る音声抽出装置２０と同様に、音声を適切に抽出することで信号の歪みの発生を抑制して音声認識の精度を向上させることができる。

〔６−２．頻度分布に基づくその他の指標値による選択〕
上述の実施形態では、算出部２３５は、生成部２３４により生成された各チャネルの強調信号の振幅の頻度分布についてのカートシス（尖度）を算出し、選択部２３６は、算出部２３５により算出された各チャネルのカートシスのうち、最大のカートシスに対応するチャネルを選択するものとした。しかし、これに限定されるものではなく、例えば、以下のような方法によって、認識装置３０に観測信号（または強調信号）を出力するチャネルを選択するものとしてもよい。

例えば、選択部２３６は、算出された各チャネルのカートシスのうち、所定の閾値以上のカートシスにそれぞれ対応する１以上のチャネルを選択するものとし、出力部２３７（２３７ａ）は、選択された１以上のチャネルにそれぞれ対応する観測信号（または強調信号）を平均化または合成等を行って、認識装置３０に出力するものとしてもよい。この場合、選択部２３６により選択されるチャネル数に上限を設けてもよい。

また、例えば、算出部２３５は、生成された各チャネルの強調信号の振幅の頻度分布から指標値としてカートシスではなく、異なる指標値を算出するものとしてもよい。例えば、算出部２３５は、頻度分布の頻値、分散、平均値、頻度分布のピーク部分と裾の部分との高さ、頻度分布のピーク部分からの所定位置におけるグラフの幅、または、頻度分布の最頻値等の指標値を算出するものとしてもよい。この場合、選択部２３６は、算出された指標値に基づいて、観測信号（または強調信号）を出力するチャネルを選択するものとすればよい。

また、例えば、予め、人間（話者）の音声信号の振幅の頻度分布のモデル（パターン）を用意しておき、算出部２３５は、生成された各チャネルの強調信号の振幅の頻度分布と、当該モデルとを比較して、その類似度を指標値として算出するものとしてもよい。この場合、選択部２３６は、例えば、頻度分布のモデルとの類似度が最も高い強調信号に対応するチャネルを選択するものとすればよい。

このように、強調信号の振幅の頻度分布に基づいて、上述のような各方法等によっても、上述の実施形態に係る音声抽出装置２０と同様に、音声を適切に抽出することで信号の歪みの発生を抑制して音声認識の精度を向上させることができる。

〔７．ハードウェア構成〕
図１３は、音声抽出装置の機能を実現するコンピュータのハードウェア構成の一例を示す図である。上述してきた実施形態に係る音声抽出装置２０および認識装置３０は、例えば、図１３に示すような構成のコンピュータ１０００によって実現される。以下、音声抽出装置２０を例に挙げて説明する。

コンピュータ１０００は、ＣＰＵ１１００と、ＲＡＭ１２００と、ＲＯＭ１３００と、補助記憶装置１４００と、ネットワークＩ／Ｆ（インターフェース）１５００と、通信Ｉ／Ｆ（インターフェース）１６００と、入出力Ｉ／Ｆ（インターフェース）１７００と、メディアＩ／Ｆ（インターフェース）１８００と、を有する。ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、補助記憶装置１４００、ネットワークＩ／Ｆ１５００、通信Ｉ／Ｆ１６００、入出力Ｉ／Ｆ１７００およびメディアＩ／Ｆ１８００は、バス１９５０によって互いにデータ通信が可能となるように接続されている。

ＣＰＵ１１００は、ＲＯＭ１３００または補助記憶装置１４００に記憶されたプログラムに基づいて動作し、各部の制御を行う演算装置である。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムおよびＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）、および、コンピュータ１０００のハードウェアに依存するプログラム等を記憶する不揮発性の記憶装置である。

補助記憶装置１４００は、ＣＰＵ１１００によって実行されるプログラム、および、当該プログラムによって使用されるデータ等を記憶する不揮発性の記憶装置である。補助記憶装置１４００は、例えば、ＨＤＤまたはＳＳＤ等である。

ネットワークＩ／Ｆ１５００は、通信網６００（図３に示したネットワークＮに対応）を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを、通信網６００を介して他の機器へ送信する通信インターフェースである。ネットワークＩ／Ｆ１５００は、例えば、ＮＩＣ等である。

通信Ｉ／Ｆ１６００は、周辺機器との間でデータを通信するための通信インターフェースである。通信Ｉ／Ｆ１６００は、例えば、ＵＳＢインターフェース、または、シリアルポート等である。

ＣＰＵ１１００は、入出力Ｉ／Ｆ１７００を介して、ディスプレイまたはプリンタ等の出力装置、および、キーボードまたはマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力Ｉ／Ｆ１７００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、入出力Ｉ／Ｆ１７００を介して、生成したデータを出力装置へ出力する。

メディアＩ／Ｆ１８００は、記録媒体１９００に記憶されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供するインターフェースである。ＣＰＵ１１００は、提供されたプログラムを、メディアＩ／Ｆ１８００を介して記録媒体１９００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１９００は、例えば、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＰＤ（ＰｈａｓｅｃｈａｎｇｅｒｅｗｒｉｔａｂｌｅＤｉｓｋ）等の光学記録媒体、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｋ）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る音声抽出装置２０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部２３０の機能を実現する。また、補助記憶装置１４００には、記憶部２２０内のデータが記憶される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１９００から読み取って実行するが、他の例として、他の装置から通信網６００を介してこれらのプログラムを取得してもよい。

なお、図１３に示したコンピュータ１０００のハードウェア構成は一例を示すものであり、図１３に示した構成要素を全て含む必要はなく、または、その他の構成要素を含むものとしてもよい。

〔８．その他〕
また、上述の実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述の文書中および図面中で示した処理手順、具体的名称、各種のデータ、ならびにパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷および使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図４に示した生成部２３４と、算出部２３５とは統合されてもよい。また、例えば、記憶部２２０に記憶される情報は、ネットワークＮを介して、外部に備えられた所定の記憶装置に記憶されてもよい。

また、上述の実施形態では、音声抽出装置２０が、例えば、指向性に従って各チャネルの観測信号を強調して強調信号を生成する強調処理と、強調された各チャネルの強調信号に基づいて、当該強調信号の振幅の頻度分布をチャネルごとに生成する生成処理と、を行う例を示した。しかし、上述の音声抽出装置２０は、強調処理を行う強調装置と、生成処理を行う生成装置とに分離されてもよい。この場合、強調装置は、少なくとも強調部２３３を有する。生成装置は、少なくとも生成部２３４を有する。そして、上述の音声抽出装置２０による処理は、強調装置と、生成装置との各装置を有する音声認識システム１によって実現される。

また、上述してきた実施形態およびその変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔９．効果〕
上述してきたように、実施形態に係る音声抽出装置２０（２０ａ）は、形成部２３２と、取得部２３１と、強調部２３３と、生成部２３４と、選択部２３６と、を有する。形成部２３２は、複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイ装置１０において、各マイクロホンについてビームフォーミング処理により、予め指向性を形成する。取得部２３１は、各チャネルで受音された音声の信号である観測信号を取得する。強調部２３３は、形成部２３２により形成された各マイクロホンについての指向性に従って、各チャネルの観測信号を強調して強調信号を生成する。生成部２３４は、強調部２３３により生成された強調信号の振幅の頻度分布をチャネルごとに生成する。選択部２３６は、生成部２３４により生成された前記各チャネルに対応する頻度分布に基づいて、各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する。

このように、観測信号を受信するたびに指向性を形成する必要がなく、従来の音声認識システムの音源定位を行うことなく、形成された指向性に基づいて強調された各チャネルの強調信号によって生成された振幅の頻度分布に基づいてチャネルを選択するものとしている。このチャネルの選択が、従来の音声認識システムの音源定位の機能に相当するが、演算負荷の高い音源定位の処理を実行する必要がない。よって、演算処理の負荷を低減することができ、かつ、音声を適切に抽出することで信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。

また、実施形態に係る音声抽出装置２０（２０ａ）は、出力部２３７（２３７ａ）を、さらに有する。出力部２３７（２３７ａ）は、マイクロホンアレイ装置１０の各チャネルのうち、選択部２３６により選択されたチャネルに対応する音声信号を、音声認識を行う認識装置３０に出力する。

このように、実施形態に係る音声抽出装置２０（２０ａ）は、信号の歪みの発生を抑制した音声を適切に抽出して当該音声に対応する音声信号を出力するので、認識装置３０における音声認識の精度を向上させることができる。

また、選択部２３６は、生成部２３４により生成された各チャネルに対応する頻度分布に基づいて、各チャネルのうち、音声認識に用いる音声信号としての観測信号に対応するチャネルを選択する。出力部２３７は、選択部２３６により選択されたチャネルに対応する観測信号を、認識装置３０に出力する。

このように、実施形態に係る音声抽出装置２０は、認識装置３０での音声認識に用いる音声信号として観測信号を出力するものとしてもよい。これによって、形成部２３２によるビームフォーミング処理、および強調部２３３による観測信号の強調処理に不具合が発生して、強調信号に歪みが生じたとしても、歪みのない観測信号をそのまま出力することによって、音声認識の精度を向上させることができる。

また、選択部２３６は、生成部２３４により生成された各チャネルに対応する頻度分布に基づいて、各チャネルのうち、音声認識に用いる音声信号としての強調信号に対応するチャネルを選択する。出力部２３７ａは、選択部２３６により選択されたチャネルに対応する強調信号を、認識装置３０に出力する。

このように、実施形態の変形例に係る音声抽出装置２０ａは、認識装置３０での音声認識に用いる音声信号として強調信号を出力するものとしてもよい。これによって、適切に選択されたチャネルに対応する強調された音声信号である強調信号を出力することによって、音声認識の精度を向上させることができる。

また、実施形態に係る音声抽出装置２０（２０ａ）は、算出部２３５を、さらに有する。算出部２３５は、生成部２３４により生成された各チャネルに対応する頻度分布に対する指標値を算出する。選択部２３６は、算出部２３５により算出された指標値に基づいて、各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する。

このように、実施形態に係る音声抽出装置２０（２０ａ）は、音声認識に用いる音声信号に対応するチャネルを選択するために、算出部２３５により算出された頻度分布に対する指標値を用いるものとしてもよい。これによって、頻度分布の特性を適切に示す指標値に基づいて、チャネルを選択することができるので、音声を適切に抽出することができ、信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。

また、算出部２３５は、各チャネルに対応する頻度分布のカートシスを指標値として算出する。選択部２３６は、算出部２３５により算出されたカートシスに基づいて、各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する。

このように、実施形態に係る音声抽出装置２０（２０ａ）は、音声認識に用いる音声信号に対応するチャネルを選択するために、算出部２３５により算出された頻度分布のカートシスを用いるものとしてもよい。これによって、頻度分布の特性を適切に示すカートシスに基づいて、チャネルを選択することができるので、音声を適切に抽出することができ、信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。

また、選択部２３６は、算出部２３５により算出された各チャネルに対応するカートシスのうち、最大のカートシスに対応するチャネルを選択する。

これによって、観測信号から明瞭に強調された強調信号に対応するチャネルを選択することができるので、音声を適切に抽出することができ、信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。

算出部２３５は、各チャネルに対応する頻度分布と、予め定められた音声信号の振幅の頻度分布のモデルとの類似度を各チャネルについて算出する。選択部２３６は、算出部２３５により算出された各チャネルに対応する類似度のうち、最大の類似度に対応するチャネルを選択する。

このように、実施形態に係る音声抽出装置２０（２０ａ）は、音声認識に用いる音声信号に対応するチャネルを選択するために、算出部２３５により算出された、各チャネルに対応する頻度分布と、予め定められた音声信号の振幅の頻度分布のモデルとの類似度を用いるものとしてもよい。これによって、よりモデルの音声信号に近いものと判断された強調信号に対応するチャネルを選択することができるので、音声を適切に抽出することができ、信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。

図１４は、各システムの文字正解精度の検証結果の一例を示す図である。図１４を参照しながら、図１および図４に示す上述の実施形態に係る音声抽出装置２０を用いた場合、および、図１１および図１２に示す上述の変形例に係る音声抽出装置２０ａを用いた場合の認識装置３０における文字正解精度の検証結果の一例を説明する。本実施例において、以下の検証条件により検証を行った。

・マイクロホンアレイ装置の素子（マイクロホン）数：８個
・マイクロホンアレイ形状：円状、半径３．７ｃｍ
・音声認識モデルの学習に使用した音声：雑音や残響を付加した音声
・評価データ：実環境で収録したコマンド発話９９００発話
・４部屋、マイクロホンおよび話者の位置の組み合わせ６組

また、具体的には以下の＜１＞〜＜５＞のシステムによって文字正解精度の比較を行った。

＜１＞ｃｈａｎｎｅｌ＿ｓｅｌｅｃｔ（ｅｎｈ）
上述の変形例に係る音声抽出装置２０ａを用いた音声認識システムであり、ビームフォーミング処理としてＤＳ法を用いた。
＜２＞ｃｈａｎｎｅｌ＿ｓｅｌｅｃｔ（ｏｂｓ）
上述の実施形態に係る音声抽出装置２０を用いた音声認識システムであり、ビームフォーミング処理としてＤＳ法を用いた。
＜３＞Ｓｔａｔｉｃ
マイクロホンアレイ装置におけるマイクロホンのうち話者の正面に位置する１のマイクロホンのみを用いて受音するものとしたシステムである。
＜４＞ＢｅａｍｆｏｒｍＩｔ
図２に示す従来の音声認識システムであり、音源定位にＧＣＣ−ＰＨＡＴを用い、ビームフォーミング処理にＤＳ法を用いた。また、音源定位を行う際には、ＧＣＣ−ＰＨＡＴの結果に対してさらにＶｉｔｅｒｂｉアルゴリズムを適用している。
＜５＞ＢｅａｍｆｏｒｍＩｔ（ｃｈａｎｎｅｌ＿ｓｅｌｅｃｔ）
ＢｅａｍｆｏｒｍＩｔにおいて信号として、選択されたチャネルにおける観測信号を用いた音声認識システムである。

図１４に示す文字正解精度の結果のように、従来の音声認識システムであるＢｅａｍｆｏｒｍＩｔおよびＢｅａｍｆｏｒｍＩｔ（ｃｈａｎｎｅｌ＿ｓｅｌｅｃｔ）は、Ｓｔａｔｉｃよりも性能が劣化していることが確認された。これは、雑音および残響環境下では、音源定位が困難であり、ビームフォーミング処理に失敗してしまっていることが原因であると思われる。

一方、上述の実施形態に係る音声認識システムであるｃｈａｎｎｅｌ＿ｓｅｌｅｃｔ（ｏｂｓ）は、Ｓｔａｔｉｃと比較して認識性能が改善していることが確認された。このことより、ｃｈａｎｎｅｌ＿ｓｅｌｅｃｔ（ｏｂｓ）では、音声認識に効果的なチャネルを選択できるものと考えられる。また、上述の変形例に係る音声認識システムであるｃｈａｎｎｅｌ＿ｓｅｌｅｃｔ（ｅｎｈ）は、今回の検証で最も高い性能を示すことが確認された。これは、カートシスによるチャネルの選択により、その選択の性能が従来の音声認識システムよりも改善され、予めビームフォーミング処理により指向性を形成しておくことの効果が示されたものと考えられる。

図１５は、各システムの処理時間の抽出処理の処理時間の結果の一例を示す図である。図１５を参照しながら、図１および図４に示す上述の実施形態に係る音声抽出装置２０を用いた場合のシステム（上述のｃｈａｎｎｅｌ＿ｓｅｌｅｃｔ（ｏｂｓ））での処理と、従来の音声認識システム（上述のＢｅａｍｆｏｒｍＩｔ）での処理との、計算時間の比較結果を説明する。本実施例において、以下の条件により計算時間の比較を行った。

・マシンスペック：Intel(R) Xeon(R) CPU E5-2630L 0 @ 2.00GHz
・計測方法：Linux（登録商標）のtimeコマンド、user時間で計測
・４９８０発話を処理したときの平均および標準偏差を計算

図１５に示す計算時間の比較結果のように、本実施形態に係る音声認識システムの方が、従来の音声認識システムよりも大幅に計算時間を削減することができていることが確認された。

１音声認識システム
１０マイクロホンアレイ装置
２０音声抽出装置
３０認識装置
２１０通信部
２２０記憶部
２２１算出結果記憶部
２３０制御部
２３１取得部
２３２形成部
２３３強調部
２３４生成部
２３５算出部
２３６選択部
２３７出力部
２４０通信部

Claims

複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイにおいて、前記各マイクロホンについてビームフォーミング処理により、予め指向性を形成する形成部と、
前記各チャネルで受音された音声の信号である観測信号を取得する取得部と、
前記形成部により形成された前記各マイクロホンについての前記指向性に従って、前記各チャネルの前記観測信号を強調して強調信号を生成する強調部と、
前記強調部により生成された前記強調信号の振幅の頻度分布を前記チャネルごとに生成する生成部と、
前記生成部により生成された前記各チャネルに対応する前記頻度分布のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅に基づいて、前記各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する選択部と、
を備えたことを特徴とする音声抽出装置。
前記マイクロホンアレイの前記各チャネルのうち、前記選択部により選択されたチャネルに対応する音声信号を、音声認識を行う認識装置に出力する出力部を、さらに備えたことを特徴とする請求項１に記載の音声抽出装置。
前記選択部は、前記生成部により生成された前記各チャネルに対応する前記頻度分布に基づいて、前記各チャネルのうち、前記音声認識に用いる音声信号としての前記観測信号に対応するチャネルを選択し、
前記出力部は、前記選択部により選択されたチャネルに対応する前記観測信号を、前記認識装置に出力することを特徴とする請求項２に記載の音声抽出装置。
前記選択部は、前記生成部により生成された前記各チャネルに対応する前記頻度分布に基づいて、前記各チャネルのうち、前記音声認識に用いる音声信号としての前記強調信号に対応するチャネルを選択し、
前記出力部は、前記選択部により選択されたチャネルに対応する前記強調信号を、前記認識装置に出力することを特徴とする請求項２に記載の音声抽出装置。
前記生成部により生成された前記各チャネルに対応する前記頻度分布のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅に対する指標値を算出する算出部を、さらに備え、
前記選択部は、前記算出部により算出された前記指標値に基づいて、前記各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択することを特徴とする請求項１〜４のいずれか一項に記載の音声抽出装置。
前記選択部は、前記算出部により算出された前記各チャネルに対応する前記カートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅のうち、最大のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅に対応するチャネルを選択することを特徴とする請求項５に記載の音声抽出装置。
前記算出部は、前記各チャネルに対応する前記頻度分布のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅と、予め定められた音声信号の振幅の頻度分布のモデルのカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅との類似度を前記各チャネルについて算出し、
前記選択部は、前記算出部により算出された前記各チャネルに対応する前記類似度のうち、最大の類似度に対応するチャネルを選択することを特徴とする請求項５に記載の音声抽出装置。
コンピュータが実行する算出方法であって、
複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイにおいて、前記各マイクロホンについてビームフォーミング処理により、予め指向性を形成する形成工程と、
前記各チャネルで受音された音声の信号である観測信号を取得する取得工程と、
形成した前記各マイクロホンについての前記指向性に従って、前記各チャネルの前記観測信号を強調して強調信号を生成する強調工程と、
生成した前記強調信号の振幅の頻度分布を前記チャネルごとに生成する生成工程と、
生成した前記各チャネルに対応する前記頻度分布のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅に基づいて、前記各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する選択工程と、
を含んだことを特徴とする音声抽出方法。
複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイにおいて、前記各マイクロホンについてビームフォーミング処理により、予め指向性を形成する形成手順と、
前記各チャネルで受音された音声の信号である観測信号を取得する取得手順と、
形成した前記各マイクロホンについての前記指向性に従って、前記各チャネルの前記観測信号を強調して強調信号を生成する強調手順と、
生成した前記強調信号の振幅の頻度分布を前記チャネルごとに生成する生成手順と、
生成した前記各チャネルに対応する前記頻度分布のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅に基づいて、前記各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する選択手順と、
をコンピュータに実行させることを特徴とする音声抽出プログラム。