JP5339501B2

JP5339501B2 - 音声収集方法、システム及びプログラム

Info

Publication number: JP5339501B2
Application number: JP2008189504A
Authority: JP
Inventors: 隆福田; 治市川; 雅史西村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2008-07-23
Filing date: 2008-07-23
Publication date: 2013-11-13
Anticipated expiration: 2028-07-23
Also published as: JP2010026361A

Description

本発明は、特定の音声を収集するための音声収集方法、システム及びプログラムに関する。特に、対面販売において、販売員の音声のみを収集するための音声収集方法、システム及びプログラムに関する。

近年、企業等において、違法な行為又は反社会的な行為等によって、消費者又は取引先の信頼（信用）を失ってしまうことがあり、一旦失った信用を回復するためには多大な企業努力を要するばかりでなく、事業存続に大きな影響を与えてしまうこともある。このため、企業においては所謂コンプライアンス体制の確立が緊急課題となっている。例えば、金融サービス業界においては、コンプライアンス強化の取り組みの一環として、販売員の営業活動をモニタリングすることが行われており、一例として、電話による販売活動においては、販売員の電話対応（通話内容）をサーバ等に蓄積して、無作為にチェックする仕組みを取り入れている。また，音声認識技術と自然言語処理技術の併用によって、販売員の不適切な対応を自動で検出しようという試みもある。

一方，窓口で商品販売を行う所謂対面販売においては、電話における販売のように、販売員の顧客対応記録を収集する仕組みが存在しないため、電話における販売に比べてモニタリング体制の整備が遅れている。現状では、販売員が行った営業活動を書面（レポート）等で報告するという手法が採られているものの、レポートの作成に時間が掛かるばかりでなく、適切な報告が行われないこともある。

従来技術では、対面販売における対策として、接話マイクを装着した販売員が顧客との会話を録音する手法が検討されているが、販売員の声のみの録音を目的としているものの実用上は顧客の音声も録音されるため、会話の録音に抵抗感を示す顧客が多く、必ずしも適切な手法とはいえない。このため、顧客から見えない場所に、（単一）指向性マイクを設置して、販売員の音声を収集することも考えられるが、標準的なマイクでは指向性が低く、顧客の声も録音してしまうことになる。指向性を向上させるため、超指向性を有するガンマイク等を用いた場合には、当該ガンマイクが一般に高価であり、そのサイズも大きいことを考慮すると、対面販売にはガンマイクを用いることは適していない。

そこで、従来技術では、音声信号処理技術を併用する試みとしては、送話者方向に向けて一直線上に２つの無指向性マイクロホンを配置し、一方のマイクロホンへの音圧レベルに依存して出力信号を切り替える手段を有し、これにより強い指向性を発揮するマイクロホン装置が知られている（特許文献１参照）。また、従来技術では、複数個のマイクロホン素子を有するマイクロホンアレイを用い、発話区間を検出して発話信号を取り出す技術が知られている（特許文献２参照）。
特開平９−１４９４９０号公報特開２００７−８６５５４号公報

しかし、特許文献１に記載の音圧レベルの判定結果に応じて出力を切り替える手法や、特許文献２に記載の音声と雑音の成分がそれぞれ相違することを利用する技法を含む、マイクロホンアレイ等を用いてソフトウェア的に指向性を形成する従来技法は、マイクの配置において収録時には顧客の音声も収集し、対面販売において顧客の音声を除いて販売員の音声のみを収集することは困難であった。

本発明は、対面販売において販売員と顧客の音声を分離するマイクロホンアレイの設置方法、及び分離音声に対する音声認識性能向上のための音声強調方法、及びこれを用いる対話音声の話者方向インデキシングにより、対面販売において販売員のみの音声を的確に収集する音声収集方法、システム及びプログラムを提供する。さらに、本発明は、了解を得ていない顧客の発話記録を残さず、記録が必要な販売員の声だけを確実に残す方法、システム及びプログラムを提供する。

本発明は、上記課題に鑑み、以下のような解決手段を含む。

（音声の到達時間差の利用）
本発明は、所定の距離を隔てて配置された２つのマイクロホン素子を有するマイクロホンアレイを用い、特定の音源からこれらのマイクロホン素子に音声が到達する時間の差、すなわち時間遅れを利用する。さらに、本発明においては、マイクロホンアレイが含む２つのマイクロホン素子を結ぶ線分が、顧客と販売員を結ぶ線分と略平行となるように配置する。例えば、上方から見て、本発明により、マイクロホンアレイは顧客と販売員とを結ぶ直線上に配置される。このような配置により、顧客又は販売員が発する音声の、２つのマイクロホン素子のそれぞれへの到達時間の差は最大に近づき得る。従って、本発明においては、複数の対面販売ブースが並ぶ状況等において、マイクロホン素子への到達時間差が必ずしも最大ではない隣接ブースからの音声等を効果的にカットし、並びに到達時間差を利用し得る配置の範囲内において販売員や顧客の姿勢や位置の変化を許容し得る。さらに、一般に、マイクロホンアレイにおいては、同位相（同じ時間遅れ）で到達する方向からの音声を区別できないという問題（鏡像位置の問題）があるが、本発明においてはマイクロホン素子の配置によりこの問題を避けることが可能である。

（ＣＳＰ係数の利用）
また、本発明は、ＣＳＰ(Ｃross power-Ｓpectrum Ｐhase、白色化相互相関)係数に基づく目的話者発話区間検出により、顧客と販売員の発話を区別し、個別に音声認識を行い得る。同時に、ＣＳＰ法による話者方向インデックスと音声認識結果のタイムスタンプを併用することにより、目的話者音声の録音を簡便化し、録音箇所を選択的に指定し得る。換言すれば、本発明は、方向インデックスと音声認識結果から、録音話者及び録音箇所を指定するインタフェースを有することを特徴としている。

（音声強調処理）
さらに、本発明は前記ＣＳＰ係数に基づいて利得調整、すなわち音声強調を行うことによって高い音声認識性能を実現する。本発明では、ＣＳＰ係数に基づく利得調整処理を、代表的な雑音除去手法であるスペクトル減算（ＳｐｅｃｔｒｕｍＳｕｂｔｒａｃｔｉｏｎ、ＳＳと略称）処理及びフロアリング（Ｆｌｏｏｒｉｎｇ）処理とを組み合わせた処理手順に結び付けている。具体的には、ＳＳ処理とＦｌｏｏｒｉｎｇ処理との間で利得調整を行う。この一連の処理によって、音声分離と同時に音声強調を行い、ソフトウェア処理として実用的な音声認識性能を低コストに実現する。

本発明に係る、音声収集方法の実施手段には、音声信号処理の機能を有するコンピュータ装置、デジタル信号処理装置、デジタル録音装置等を用い得る。当該コンピュータ装置等は、販売員及び顧客の声に基づく音声信号の収録、収録された音声信号に対するＣＳＰ係数の算出等、本発明に係る音声収集方法のための諸段階を実施可能なものを任意に用い得る。

本発明は、有音声区間のみを収集する音声収集技術、音声の明瞭度や聞きやすさを向上するために信号処理の周波数特性又は利得を調節する音声信号処理技術等の、既存の技術と組み合わせることができ、そのように組み合わせた技術もまた、本発明の技術範囲に含まれる。同様に、本発明の技法を含む音声収集機器、本発明の技法を含み可搬型コンピュータ装置等に組み込まれる音声収集機能、本発明の技法を含む複数の機器を協動させる音声収集システム等も、本発明の技術範囲に含まれる。さらに、本発明の技法は、音声収集のための諸段階を、ＦＰＧＡ（現場でプログラム可能なゲートアレイ）、ＡＳＩＣ（特定用途向け集積回路）、これらと同等のハードウェアロジック素子、プログラム可能な集積回路、又はこれらの組み合わせが記憶し得るプログラムの形態、すなわちプログラム製品として提供し得る。具体的には、データ入出力、データバス、メモリバス、システムバス等を備えるカスタムＬＳＩ（大規模集積回路）の形態として、本発明に係る販売員音声収集装置等を提供でき、そのように集積回路に記憶されたプログラム製品の形態も、本発明の技術範囲に含まれる。

本発明によれば、少なくとも第１及び第２のマイクロホンを備え第１及び第２のマイクロホンを所定の距離離して配置したマイクロホンアレイを用いて、第１及び第２のマイクロホンで受けた音声の信号をそれぞれ離散フーリエ変換して、音声の到来方向に関連する複数のＣＳＰ係数を求め、この複数のＣＳＰ係数より複数の音声の信号を検出した後、求めた複数の音声の信号から第１及び第２のマイクロホンを結ぶ線分と到来方向のなす角度に応じて規定された音声方向インデックスを検出して、検出した音声方向インデックスにより、検出した複数の音声の信号から目的音声の信号を抽出するようにしたので、目的音声のみを確実に抽出して収集することができるという効果がある。さらに、本発明は、了解を得ていない顧客の発話記録を残さず、記録が必要な販売員の音声だけを確実に残すことができるという効果がある。また音声分離と同時に、ＳＳ処理、ＣＳＰ係数による利得調整処理、Ｆｌｏｏｒｉｎｇ処理という一連のステップからなる音声強調処理を行うことによって、後続の音声認識性能を高めている。

以下、本発明の実施形態について図を参照しながら説明する。

［音声収集システム］
図１は、本発明の一実施形態に係る音声収集システムの一例を概略的に示す図である。図１において、音声収集システム１０は、マイクロホンアレイ１１、目的音声抽出装置１２、及び顧客対話記録サーバ１３を有しており、マイクロホンアレイ１１は２つのマイクロホン１１ａ及び１１ｂを備え、これらは例えば市販入手可能な一体型又は一組のステレオマイク等でもよい。目的音声抽出装置１２の詳細は、図７を用いて後述する。

図１の例では、顧客２１、販売員２２及びテーブル１４等を上方から眺めて示す。マイクロホンアレイ１１は、上方から見て顧客２１と販売員２２とを結ぶ直線上にほぼ位置するように配置される。すなわち、マイクロホン１１ａ及び１１ｂを結ぶ線分と、顧客２１と販売員２２とを結ぶ線分とがほぼ並行となるように、マイクロホンアレイ１１を配置する。これにより、顧客又は販売員が発する音声の、２つのマイクロホン素子のそれぞれへの到達時間の差は最大になり得る。このように配置することにより、本発明においては、複数の対面販売ブースが横並びする状況等において、マイクロホン素子への到達時間差が必ずしも最大ではない隣接ブースからの音声等を効果的にカットし得る。

また、図示の例では、ＣＳＰ係数に基づいて目的話者発話区間検出を行って顧客と販売員の発話を区別する。具体的には、２つのマイクロホンで受けた音声信号についてＣＳＰ係数を計算し、ＣＳＰ係数が大きくなる区間を目的話者の発話区間と見なして目的音声の信号を抽出する。

さらに、抽出された音声信号は、ＳＳ処理とＦｌｏｏｒｉｎｇ処理の間で、ＣＳＰ係数による利得調整を行うことによって音声強調処理を実施する。この音声強調処理は音声認識性能を高めるための処理であり、ＣＳＰ係数による目的話者音声抽出と、音声強調処理を合わせてＡＦＥ（ＡＳＲＦｒｏｎｔ−ｅｎｄｆｏｒｓｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔ、ＡＳＲは自動音声認識を意味するＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎの略称）と称する。本実施の形態では、ＡＦＥを用いて分離・強調した後の音声信号について個別に音声認識を行い、後述するように、ＣＳＰ手法による話者方向インデックスと音声認識結果のタイムスタンプを用いて、目的話者の音声信号の録音を簡便化して、録音箇所を選択的に指定する。

図１に示すように、マイクロホンアレイ１１は、上方から見てマイクロホン１１ａ及び１１ｂが顧客２１と販売員２２とを結ぶ直線上にほぼ位置するように配置されればよい。マイクロホンアレイ１１は、テーブル１４の略中央に置かれてもよく、テーブル１４の略中央に埋め込まれてもよい。

図２は、マイクロホンに対する音声到来方向を示す図である。図２において、マイクロホン１１ａ及び１１ｂは距離ｄだけ離れて配置されているものとすると、マイクロホン１１ａ及び１１ｂを結ぶ直線と音声到来方向とのなす角度θは、数１で示される。

ここで、ｃは音速であり、τはマイクロホン１１ａ及び１１ｂに音声が到来する時間差（到来時間差）を表す。好適には、マイクロホン１１ａ及び１１ｂを結ぶ直線は、マイクロホン１１ａから１１ｂへの方向ベクトルであり、上式においてθ＝０°及びθ＝１８０°は、音声の到達方向と当該方向ベクトルとがそれぞれ平行及び逆平行の状態にあるものとして区別され得る。

［音声強調処理（ＡＦＥ）］
次いで、本発明に係る音声収集システム等においては、ＣＳＰ係数を算出し、これを用いて音声強調処理を実施し得る。具体的には、音声強調処理は、ＳＳ処理とＦｌｏｏｒｉｎｇ処理においてＣＳＰ係数を用いて利得調整を実施し、これらにより販売員の音声を特定する性能や、音声認識の性能を向上し得る。以下、具体的な音声処理手段の構成要素及びその関係について例示する。

図３は、本発明の一実施形態に係る、目的音声抽出装置１２の構成を示す図である。目的音声抽出装置１２は、マイクロホンアレイ１１に含まれるマイクロホン１１ａ及び１１ｂで受けた音声信号を入力とし、離散フーリエ変換処理部１０５及び１０６、ＣＳＰ係数算出部１１０、群遅延アレイ処理部１２０、雑音推定部１３０、ＳＳ処理部１４０、利得調整処理部１５０、フロアリング処理部１６０等を適宜含む。離散フーリエ変換処理部１０５及び１０６の処理は、２つのマイクロホン１１ａ及び１１ｂからの信号を適宜増幅し、所定の時間幅を有するフレームに分割し、適宜周波数帯域を制限する等、デジタル音声信号処理における公知の技法を含み、入力された信号から複素離散スペクトルを出力し得る。

図３に示すＣＳＰ係数算出部１１０においては、前記複素離散スペクトルからＣＳＰ係数を算出する。ここで、ＣＳＰ係数とは、周波数領域で計算される２チャネル信号間の相互相関係数であって、次の数２により算出される。

式中、φ（ｉ，Ｔ）は、１番目と２番目のマイクロホン１１ａ及び１１ｂで受けた音声信号から求まるＣＳＰ係数、ｉは音声到来方向（話者方向インデックス）、Ｔはフレーム番号、ｓ_１（ｔ）とｓ_２（ｔ）はそれぞれ時刻ｔに受音した１番目と２番目のマイクロホン１１ａ及び１１ｂの信号である。また，ＤＦＴは離散フーリエ変換を表し、ＩＤＦＴは逆離散フーリエ変換を表している。また、＊は共役複素数を表す。

次いで、群遅延アレイ処理部１２０において、θ方向から到来する信号を少なくとも２つのマイクロホンで受音し、それぞれを同相化して加算することにより、θ方向から到来する信号を強調するものである。よって、θ方向以外から到来する信号は、同相化されないために強調されない。よって、θ方向に感度が高く、それ以外の方向に感度が低いという指向性を形成することができる。

群遅延アレイ処理部１２０の代わりにも、適応型アレイ処理で雑音や残響の方向に対して死角を形成することもできる。さらには、その他のアレイ処理によって代替してもかまわない。また、これらのアレイ処理を省略して、すなわち素通りさせて、２つのマイクロホンで受けた音声信号のうち、どちらか片方の信号そのままを利用することもできる。

次いで、上述のように算出されたＣＳＰ係数を用い、音声強調処理が実施される。具体的には、音声強調処理は、ＳＳ処理とＦｌｏｏｒｉｎｇ処理においてＣＳＰ係数を用いて利得調整を実施する。典型的には、ＳＳ処理は次式で表される減算処理である。

ここで、Ｘω（Ｔ）はＳＳ処理前のパワースペクトル，Ｙω（Ｔ）はＳＳ処理後のパワースペクトルすなわち減算後パワースペクトル，Ｕωは雑音のパワースペクトルである。このＵωについては、雑音区間すなわち目的話者の非発話区間で推定されるものであって、事前に推定して固定的に使ってもよく、又は入力された音声信号と同時に逐次推定（更新）してもよく、あるいは一定時間間隔で推定（更新）してもよい。

すなわち、例えばマイクロホン１１ａ及び１１ｂで受けた２つの入力信号の両方についてアレイ処理で統合された信号、又は当該２つの入力信号のいずれか一方であるＸω（Ｔ）は、雑音推定部１３０に入力され、雑音のパワースペクトルＵωが適宜推定される。αは減算定数であり、例えば１に近い値（例えば、０．９０）等の任意の値をとることができる。

次いで、次式のように適宜利得調整を実施し得る。すなわち、利得調整は、上述のＳＳ処理後の減算スペクトルＹω（Ｔ）にＣＳＰ係数を掛けることで行う。

式中、Ｄω（Ｔ）は利得調整後のパワースペクトルである。目的話者が発話していないときはＣＳＰ係数が小さくなるので、到来方向以外からの音声信号のパワースペクトルはこの処理により抑圧されることになる。この式が示すように「利得調整」を行うことができれば、本発明の技術的思想は、何もＣＳＰ係数を利用したものだけに限定されるものではないことが理解できる。

さらに、次式のようにフロアリング（Ｆｌｏｏｒｉｎｇ）処理を実施する。すなわち、フロアリング処理とは実データに含まれる小さな値をそのまま用いずに適当な数値に置き換えることを指す。

式中、Ｚω（Ｔ）はＦｌｏｏｒｉｎｇ処理後のパワースペクトル、Ｕωは雑音のパワースペクトルであって、Ｕωとしては、数式３で用いるものと同様のもの、又は雑音推定部１３０の出力等を適宜利用できるが、他の方法で推定した異なったものを利用してもよい。数式５が示すように、Ｕωは条件判断のためだけに用いられることもある。フロアリング係数（Ｆｌｏｏｒｉｎｇ係数）βは定数であり、例えば０（ゼロ）に近い値（例えば、０．１０）等の、当技術分野において好都合な任意の値をとることができる。

通常、ＳＳ処理とフロアリング処理はこの手順を守って用いられるが、両処理の間にＣＳＰ係数による利得調整を導入したことが本発明の１つのポイントである。以上のようにして得られる出力Ｚω（Ｔ）は、サーバ装置等に記憶するための販売員の音声信号、又は音声認識手段への入力等に用い得る。図３においては、２つのマイクロホン１１ａ及び１１ｂを用いて観測し得る音声信号の一方を出力に用いる例を示したが、これに限らず、本発明に係る音声収集方法は、図８を用いて後述するように、マイクロホンアレイ１１に到達する方向の異なる２つの音声に対して、それぞれ受けた音声信号ごとに、記録又は音声認識等のための出力を得ることが可能である。記録又は音声認識等のための出力は、図７を用いて後述するように、音声認識等に用いることが可能である。

［話者方向インデックス］
図４はマイクロホンの位置に対する話者方向インデックスの一例を示す図である。マイクロホンアレイ１１に含まれるマイクロホン１１ａ及び１１ｂを結ぶ方向ベクトルを仮定すると、話者からの音声が到達する方向は、マイクロホンアレイ１１を中心とする当該方向ベクトルに対する方位角の範囲として区別し得る。例えば、マイクロホン１１ａからマイクロホン１１ｂの方向に沿って到達する音声は、当該方向ベクトルと略平行であり、方位角の余弦の値は＋１に近い（図４に示す話者方向インデックスが＋７の領域）。また例えば、マイクロホン１１ｂからマイクロホン１１ａの方向に沿って到達する音声は、当該方向ベクトルと逆平行に近く、方位角の余弦の値は−１に近い（図４に示す話者方向インデックスが−７の領域）。数１に示したように、マイクロホン間隔ｄ及び音速ｃが与えられると、到達時間差τは角度θに依存するので、図４に示す話者方向インデックスは、到達時間差τの情報を含む。

マイクロホンアレイ１１に対して直角の方向からマイクロホン１１ａ及び１１ｂに到来する音声には到来時間差はなく、ここでは、この方向の話者方向インデックスは０と表される。つまり、前述のように、角度θは数１で表され、到来サンプル数をｘ、サンプリング周波数をｆとすると、τ＝ｘ／ｆで表されるから、いまサンプリング周波数を２２０５０Ｈｚ、マイクロホン間の距離ｄ＝１２．５ｃｍとすると、ｘ＝０、つまり、話者方向インデックス＝０であると、音速を３４０ｍ／ｓとすれば、角度θ＝９０°となる。

また、図４において，話者方向インデックス＋１（又は−１）は、マイクロホン１１ａ及び１１ｂに到達する音声が１サンプルだけずれている範囲を表しており（つまり、Ｘ＝１であり）、この場合には、角度θ＝８２．９°となる。

同様にして、話者方向インデックス＋２〜＋７（又は−２〜−７）は、それぞれマイクロホン１１ａ及び１１ｂに到達する音声が１〜７サンプルだけずれている範囲を表している。そして、ＡＦＥにおいては、マイクロホン１１ａ及び１１ｂに入力される音声の到来時間差を考慮したＣＳＰ係数を用いて目的音を抽出する。ここで、ｘ＝＋７においては角度θ＝３０．３°となり、ｘ＝−７においては角度θ＝１４９．７°となる。従って、マイクロホン１１ａ及び１１ｂを結ぶ直線方向には約３０°の範囲を同一の音声到達方向として許容し得る。このように、本発明においては、到達時間差を利用し得る配置の範囲内において販売員や顧客の姿勢や位置の変化を許容し得るという特徴がある。

いま、話者方向インデックス＝０（例えば、右側）の方向に目的話者がいるとすると、話者方向インデックス＝０にいる目的話者が発話した場合に、前述のように、マイクロホン１１ａ及び１１ｂで受けた音声信号には時間遅れがなく、両音声信号の相関が高くなる。このため、ＣＳＰ係数φ（０，Ｔ）は大きくなる。

一方、例えば、話者方向インデックス＝＋４（例えば、図中右側）の方向から音声が到来する場合、マイクロホン１１ａから４サンプル分遅れてマイクロホン１１ｂに音声が到達することになる。このため、φ（０，Ｔ）は小さくなる（この際、φ（４，Ｔ）が大きくなる）。

従って、話者方向インデックス＝０の方向から到来する音声のみを抽出したい場合には、φ（０，Ｔ）の値をトラッキングして、φ（０，Ｔ）が大きくなる区間を抽出すればよいことになる。但し、ＡＦＥでは、マイクロホン１１ａ及び１１ｂに同一の時間差で到来する方向、つまり、マイクロホン１１ａ及び１１ｂを結ぶ軸に対して対象の方向から到来する音声も受信することになる。

例えば、話者方向インデックス＝＋４に着目すると、図中右側の話者方向インデックス＝＋４から到来する音声と図中左側の話者方向インデックス＝＋４から到来する音声を区別することができないことになる。よって、鏡像位置の問題を受けないようにマイクロホン１１ａ及び１１ｂを配置することが必要となる。

ところで、話者（つまり、ここでは顧客２１と販売員２２）は、テーブル１４を挟んで向かい合って着座した際、横方向にずれて（つまり、横方向において広い範囲に）座る可能性があり、さらに対話中においても着座位置や姿勢が変化することが多い。このため、目的話者方向に対してある程度の範囲の音声を収音できる必要がある。

超指向性マイクロホンは、目的話者の音声信号のみを録音するという観点からは高い効果が得られるが、一般に高価格であり、さらに、話者位置の変動に対処することが難しく、着座位置によって収音性能が極端に変化してしまう。加えて、超指向性マイクロホンはそのサイズが大きく、目標方向とは逆方向にも鋭い指向性を有する。このため、ブースのレイアウトとマイクロホンとの配置関係が極めて難しくなってしまう。

一方、単一指向性マイクロホンを用いた場合には、指向性の精度がそれほど高くないため、周囲の環境音や隣のブースの会話をも録音してしまうことになる。なお、単一指向性マイクロホンも比較的高価格である。

図５はマイクロホンの指向性による分類を示す図であり、図５（ａ）に示す無指向性マイクロホンは３６０度全ての方向に対して同感度を有し、図５（ｂ）に示す双指向性マイクロホンは正面とその反対側に対して感度がよい。また、図５（ｃ）に示す単一指向性マイクロホンは正面方向のみの音声に対して感度がよい。図５（ｄ）に示す鋭指向性マイクロホン及び図５（ｅ）に示す超指向性マイクロホンはそれぞれ単一指向性よりも指向特性を鋭くしたものである。

ＡＦＥを用いた場合には、図４に示すように、マイクロホンアレイ１１の軸方向（＋７，−７）に関して比較的広いローブが形成され、例えば、話者方向インデックス＝＋７に販売員２２、話者方向インデックス＝−７に顧客２１が位置すると、軸方向（＋７，−７）においてはそのローブが広いから、顧客２１及び販売員２２の姿勢や位置が多少ずれてもよく、そして、当該ローブの範囲以外から到達する音声を効果的にカットすることができる。

そして、ＡＦＥを用いれば、マイクロホンの指向性／無指向性が関係なくなり、どのような指向性のマイクフォンも用いることができる結果、マイクロホンに要するコストも低く抑えることができる。

［マイクロホンアレイの配置］
図６に、本発明の一実施形態に係る、マイクロホンアレイの配置の例を示す。前述のように、ＡＦＥを用いた際には鏡像位置の問題があるので、マイクロホンの位置に配慮する必要があり、例えば、図６に符号Ａで示す位置（隣のブース１６との敷居１７等）にマイクロホンアレイ１１を配置した場合には、隣のブース１６の音声まで同じように抽出してしまうことがある。

このため、本実施の形態では、図６において符号Ｂで示す位置（例えば、テーブル１５上）にマイクロホンアレイ１１を設置して、上述の問題を回避する。本実施の形態におけるマイクロホンアレイ１１の設置については、発声者の方向を細かい単位で正確に検出しづらくなるけれども、販売員２２の音声のみを収集するという点からは、何ら問題はない。もちろん、隣接ブースからの到来音声がない環境においては、例えば、図６に符号Ａで示す位置にマイクを配置し、本発明のＡＦＥによる音声強調に関わる部分のみを適用する実施形態も想定し得る。

［目的音声抽出装置］
図７は、図１に示す目的音声抽出装置１２を詳細に示すブロック図である。図７において、いま販売員２２と顧客２１が１対１で対話しているものとする。目的音声抽出装置１２は、発話区間インデックス検出処理部３１、第１の音声認識部３２、第２の音声認識部３３、統合選択部３４、及び録音範囲抽出部３５を有しており、発話区間インデックス検出処理部３１にはマイクロホン１１ａ及び１１ｂから受けたそれぞれの音声信号が入力される。

図７においては、マイクロホン１１ａは販売員２２側に位置し、マイクロホン１１ｂは顧客２１側に位置しているものとし、マイクロホン１１ａ（Ｌ−ｃｈ）で受けた音声信号Ｓ_１（ｔ）、及びマイクロホン１１ｂ（Ｒ−ｃｈ）で受けた音声信号Ｓ_２（ｔ）が入力されるものとする。なお、ここでは、いずれのマイクロホンからの入力も、図示しないＡ／Ｄ変換部によって所定のサンプリング周波数でサンプリングされて、デジタル信号として発話区間インデックス検出処理部３１に与えられる。発話区間インデックス検出処理部３１の動作の詳細は、図８を用いて後述する。

次いで、本発明に係る目的音声抽出装置１２は、音声認識部３２、３３を用い、発話区間インデックス検出処理部３１から出力される、分離された音声信号である販売員の音声信号及び顧客の音声信号のそれぞれに対して、適宜音声認識の動作を実施し、認識結果及びタイムスタンプを得る。ここで、タイムスタンプとは音声認識部３２、３３が出力する時間情報等である。タイムスタンプは後続の段階において認識結果を統合する際の時系列情報となり得る。

次いで、本発明に係る目的音声抽出装置１２は、統合選択部３４を用い、音声認識の結果を統合し得る。具体的には、話者の区別、音声認識の結果、タイムスタンプ等が相互に関連付けられたデータが生成され得る。

次いで、本発明に係る目的音声抽出装置１２は、録音範囲抽出部３５により、話者方向インデックス、音声認識結果、タイムスタンプ等の情報を元に、所定の又は指定の時間領域に含まれる音声信号を切り出して適宜サーバ装置等に保存し得る。本発明においては、販売員又は顧客のそれぞれについて個別に音声認識を実施することにより、録音部分を指定する際には、両者の対話内容を確認し得る。また、不必要な部分の録音を避けることも可能であり、サーバ装置等の資源を効率的に利用し得る。

［発話区間インデックス検出処理部３１の処理］
図８は発話区間インデックス検出処理部３１における処理を説明するためのフロー図である。発話区間インデックス検出処理部３１では、音声信号を取得して（ステップＳ１）、当該音声信号がマイクロホン１１ａからの入力であるか否かを判定する（ステップＳ２）。マイクロホン１１ａ（第１のマイクロホン）からの入力であれば、販売員デジタル音声入力信号ついて、例えば、ハニング窓又はハミング窓による窓掛け処理が行われ、販売員窓掛け処理済信号とされる（ステップＳ３）。続いて、販売員窓掛け処理済信号は、離散フーリエ変換処理によって周波数領域に変換されて販売員周波数領域信号とされ（ステップＳ４）、図中破線の囲みで示す処理に移行する。同様に、ステップＳ２において、マイクロホン１１ｂ（第２のマイクロホン）からの入力であると判定されと、顧客デジタル音声入力信号について、同様にして、窓掛け処理（ステップＳ５）、離散フーリエ変換処理（ステップＳ６）が行われて、顧客周波数領域信号とされる。

発話区間インデックス検出処理部３１では、前述したように、話者方向インデックスを検出し、販売員周波数領域信号、顧客周波数領域信号、及び話者方向インデックスに基づいて、つまり、数２に基づいてＣＳＰ係数を算出する（ステップＳ７）。

続いて、販売員周波数領域信号と顧客周波数領域信号について、販売員側遅延和アレイ処理を行って（ステップＳ８）、販売員の音声信号を強調して、販売員強調信号とする。同様にして、販売員周波数領域信号と顧客周波数領域信号について、顧客側遅延和アレイ処理を行って（ステップＳ９）、顧客の音声信号を強調して、顧客強調信号とする。

次に、販売員強調信号は、スペクトルサブトラクション処理（ステップＳ１０）において雑音が取り除かれて、さらに、ＣＳＰ係数を用いて利得調整処理（ステップＳ１１）を行った後、適宜フロアリング処理（ステップＳ１２）を実施し、販売員側の音声信号を得る。

同様にして、顧客強調信号は、スペクトルサブトラクション処理（ステップＳ１３）において雑音が取り除かれて、さらに、ＣＳＰ係数を用いて利得調整処理（ステップＳ１４）を行った後、適宜フロアリング処理（ステップＳ１５）を実施し、顧客側の音声信号を得る。

さらに、発話区間インデックス検出処理部３１では、前述の数２に示すＣＳＰ係数に基づいた発話区間検出処理を行って、前述のようにして得られた販売員側の音声信号と顧客側の音声信号をそれぞれ独立のチャネルとして一時保存する（発話区間検出処理に当たっては、前述の目的音抽出手法によるアルゴリズムが用いられることになる）。ここでは、前述したように、目的音の分離とともに話者方向インデックスも検出し、分離した音声信号と話者方向インデックスとを関連付けておく。

発話区間インデックス検出処理部３１は、販売員側の音声信号及び当該音声信号の話者方向インデックスを第１の音声認識部３２に与えるとともに、録音範囲抽出部３５に与える。また、発話区間インデックス検出処理部３１は、顧客側の音声信号及び当該音声信号の話者方向インデックスを第２の音声認識部３３に与えるとともに、録音範囲抽出部３５に与える。

第１の音声認識部３２では、販売員側の音声信号について音声認識を行って、認識結果とタイムスタンプを得る（販売員音声認識結果及び販売員タイムスタンプを得る）。また、第２の音声認識部３３では、顧客側の音声信号について音声認識を行って、認識結果とタイムスタンプを得る（顧客音声認識結果及び顧客タイムスタンプを得る）。ここで、タイムスタンプとは、第１の音声認識部３２及び第２の音声認識部３３において出力される時間情報であり、認識結果を統合する際の時系列情報として用いられる。

前述の販売員音声認識結果及び販売員タイムスタンプと顧客音声認識結果及び顧客タイムスタンプとは、統合選択部３４に与えられ、ここで、これら音声認識結果を統合して、表１に示す対話表を得る（なお、この対話表は、例えば、ＨＴＭＬ形式でユーザに提示するようにしてもよい）。

この対話表から所望の音声信号の部分を録音部として選択すると、統合選択部３４は目的話者録音範囲（つまり、タイムスタンプで区切られた範囲）を生成し、録音範囲抽出部３５に送る。録音範囲抽出部３５では、話者方向インデックスと目的話者録音範囲に基づいて該当する区間（範囲）の音声信号を抽出し、顧客対話記録サーバ１３に販売員音声として保存する。

本実施の形態では、上述のようにして、話者方向インデックス、音声認識結果、及びタイムスタンプを用いて、録音区間を決定するようにしており、各話者について個別に音声認識を行うことによって録音部分を指定する際には、両者の対話内容を確認しながら録音部分の指定を行うことができる。

また、本実施の形態においては、不必要な部分の録音を避けることができる結果、顧客対話記録サーバ１３におけるディスク容量を低減することができ、効率的である。

ここで、マイクロホンの種類とＡＦＥについて、顧客の音声信号の削減という観点から比較を行った（評価試験を行った）。評価実験には、模擬対面販売形式で収集した音声信号を用いた。評価試験では、縦（販売員と顧客間の方向）１００ｃｍのテーブルの両側に、販売員役と顧客役の話者がそれぞれ１名ずつ着席して、投資信託に関する内容を話しているものとする。

対話は、販売員、顧客、そして、販売員の順番で発話した内容を１セットとし、予め定めた標準位置、標準位置から左右に少しずれた位置、テーブルに極端に接近した位置の３ケースで各３セットずつ音声を収録した。マイクロホンはＳｏｎｙ（登録商標）の無指向性マイクロホン（ＳｏｎｙＥＣＭ−５５Ｂ）を２つ用いてマイクロホンアレイを構成し、販売員役と顧客役の中央に配置した。

比較のため，単一指向性マイク（ＡＫＧ４００）をそれぞれの話者の方向に向けて設置して、両話者の音声を収集した。マイクロホン間の距離は、指向性及び無指向性ともに共に１２．５ｃｍとした。この評価試験では、無指向性マイクロホンで受けた音声信号でＡＦＥを行った。

ここでは、販売員の音声信号のみを抽出して、顧客の音声信号を記録として残さないようにするため、顧客の音声信号を雑音とみなして、雑音削減率（ＮＲＲ：ＮｏｉｓｅＲｅｄｕｃｔｉｏｎＲａｔｅ）によって評価を行った。この際、販売員側に近い無指向性マイクフォンで収音された顧客の発声音圧レベルを基準として、当該基準からの顧客の音声信号の削減度合いにより効果を比較した。

ただし、収録デバイスの相違に起因する録音レベルの差を吸収するため、販売員の音声信号のパワーが各ケースで同程度になるようにコンピュータ上で正規化を行った。本評価実験で用いるＮＲＲの定義は以下の通りである。

ＮｏｉｓｅＲｅｄｕｃｔｉｏｎＲａｔｅ（ＮＲＲ：％）＝無指向性マイクロホン（基準マイクロホン）による顧客発声音圧レベル［ｄＢ］−指向性マイクロホン（又はＡＦＥ後）の顧客発声音圧レベル［ｄＢ］

通常、ＮＲＲは入出力のＳＮＲに基づいて算出されるが、本評価実験においては音声信号のパワーは正規化しているので、上記の定義のように雑音のみの差として定式化している。表２に実験結果を示す。

実験結果において、無指向性マイクロホンでは、音声到来方向に関係なく全ての音声を収音するため、顧客の音声についても高い音圧レベルを示すことが分かる。また、単一指向性マイクロホンでは、正面方向に対して指向性を有しているけれども、指向特性が鈍いので、顧客の音声をあまり遮断できていないことが分かる。これは、販売員の音声のみをサーバに録音するという目的においては、まったく役に立たないことを意味する。

一方、本実施の形態による音声収集システム（無指向性マイクロホンの使用）では、顧客の音声が顕著に削減されており、顧客音声が効果的に抑圧されていることが分かる。なお、本実施の形態による音声収集システムでは１９．６ｄＢの音圧レベルを示しているが、これはＡＦＥが音声認識のために数５に示すフロアリング処理を行うことによって微量なノイズを加えているためであって、この音声が音韻（何をしゃべっているか）を識別できる情報を持っていないことに注意されたい。なお、本実施の形態による音声収集システムでは販売員の音声がもれなく検出されている。

上述の実施の形態では、マイクロホンから音声を収集して、マイクロホンアレイ目的音声抽出装置によって販売員の音声のみを顧客対話記録サーバに保存しているが、必要に応じて顧客の音声をサーバに保存することも可能である。また、必要に応じて、図４に示す話者方向インデックスに応じて３つ以上のマイクロホンを配置して、所望の話者のみの音声を抽出するようにしてもよい。

また、上述の実施の形態では、相互相関係数を用いたが、相関係数を求める他の方法を用いるようにしてもよい。そして、上述の音声収集システムの動作を実現するプログラムをコンピュータ上で動作させても同様に所望の話者のみの音声を抽出することができる。

［音声処理の諸段階の順序による音声強調の性能の例］
本発明に係る音声収集においては、前述の図８を用いて音声処理の諸段階及びそれらの順序を示したように、ＳＳ処理→ＣＳＰによる利得調整→Ｆｌｏｏｒｉｎｇ処理の順で、目的音声を収集するための音声強調処理を行う。この順序は、本発明に係る音声収集方法のための音声強調において重要なポイントであり、以下に処理順番の違いによる音声強調の性能の差を例示する。

音声強調の性能の差を試験するための音声は、マイクロホンアレイ１１を介して収集し、サンプリング周波数２２ｋＨｚ、フレームサイズ２３ｍｓ、フレームシフト１５ｍｓ、ＦＦＴサイズ５１２点の条件で処理した後、音声強調に用い、目的音声強調信号とした。得られた目的音声強調信号に対して、さらに適宜音声認識処理を実施した。

まず、本発明に係る音声強調を用いることにより、音声認識率が向上する例を示す。表３に、４名の話者による５０種類の音声コマンドの発話収録における、音声強調を従来技術に係るＳＳ処理のみとして音声認識処理を実施した場合のコマンド認識率と、本発明に係る所定の順序に基づく音声強調、すなわち、ＳＳ処理→ＣＳＰによる利得調整→Ｆｌｏｏｒｉｎｇ処理を実施した場合のコマンド認識率の比較を示す。コマンド認識率は音声認識率として扱い得る。従って、表３に示すように、本発明に係る音声強調により、音声認識率を高めることが可能である。

次いで、本発明に係る音声強調の諸段階の順序が、音声認識率の結果に影響する例を示す。表４に、音声強調の処理手順を入れ替えた場合のコマンド認識率を比較した結果を、表３に追記した表として示す。話者及び音声収集条件等は、前述の表３に示した例と同様であり、「処理手順入れ替え１」としてＳＳ処理→Ｆｌｏｏｒｉｎｇ処理→ＣＳＰによる利得調整の手順で音声強調を実施し、及び「処理手順入れ替え２」としてＣＳＰによる利得調整→ＳＳ処理→Ｆｌｏｏｒｉｎｇ処理とした音声強調を実施した。表４にコマンド認識率として示す音声認識率を比較すると、本発明に係る音声強調の手順として、ＳＳ処理→ＣＳＰによる利得調整→Ｆｌｏｏｒｉｎｇ処理の順で処理したときに顕著に高い性能が得られた。従って、この順番に処理するという手順が重要であることがわかる。

図９に、本発明に係る音声強調処置の諸段階における雑音区間の音声信号の例を示す。本発明に係る音声強調の処理手順が飛びぬけて高い性能を示す理由として、図９の（ａ）（ｂ）（ｃ）（ｄ）で示すような模式図による説明が考えられる。雑音区間（目的話者の非発話区間）の例（２００）は、いずれも振幅の周波数特性として表す。図９（ａ）は、スペクトルサブトラクション（ＳＳ）処理を行う前のパワースペクトルＸω（Ｔ）を示す模式図である。図９（ｂ）はＳＳ処理を実施した減算後パワースペクトルＹω（Ｔ）を示す模式図であり、ＳＳ処理によって雑音が減少している。図９（ｃ）はＣＳＰ係数による利得調整後のパワースペクトルＤω（Ｔ）を示す模式図であり、ＣＳＰ係数による利得調整によって、さらに雑音が減少している。図９（ｄ）は、Ｆｌｏｏｒｉｎｇ処理を行った後の認識用パワースペクトルＺω（Ｔ）を示す模式図であり、でこぼこしていた雑音のスペクトルが、なだらかなものになる。

ＣＳＰとＦｌｏｏｒｉｎｇの効果は、雑音区間（目的話者の非発話区間）に現れる。雑音区間のスペクトルが、ＳＳ処理により平らになり、ところどころ飛び出ている山が、ＣＳＰ係数をかけることによってさらにつぶされ、さらに、Ｆｌｏｏｒｉｎｇをかけることによって谷が埋められ、平滑化された（比喩としては、雪をかぶったような）なだらかなスペクトル包絡になる。結果として、雑音を目的話者の音声として間違うことがなくなる。従来技術に係る音声認識の方式では、目的話者が発話していないのに、周囲の雑音を目的話者の音声と間違えて誤った認識を起こしてしまうことが問題となっているが、ＳＳ処理→（ＣＳＰ係数による）利得調整→Ｆｌｏｏｒｉｎｇ処理という処理手順で処理すると、その誤りが軽減されると考えられる。

［可搬型販売員音声収集装置の動作状況の例］
図１０に、本発明の一実施形態に係る、可搬型販売員音声収集装置６０の動作状況を例示する。可搬型販売員音声収集装置６０は、マイクロホン６０ａ及び６０ｂを備え、これらは図１〜３及び図６を用いて前述の、本発明に係る音声収集方法の実施装置におけるマイクロホンアレイを構成する。さらに、可搬型販売員音声収集装置６０は、本発明に係る音声収集方法の諸段階を実施可能なデジタル信号処理手段を備え、記憶手段、音声再生手段等を適宜含む。

典型的には、可搬型販売員音声収集装置６０は販売員２２の胸元等に固定され、販売員２２が顧客２１と対面するときに、販売員２２の口元から可搬型販売員音声収集装置６０に向かう音声到来方向１（７０）及び顧客２１の口元から可搬型販売員音声収集装置６０にむかう音声到来方向２（７２）のそれぞれが、マイクロホン６０ａ及びマイクロホン６０ｂを結ぶ方向ベクトルに対して異なる角度を有するように配置される。例えば、当該方向ベクトルは、販売員２２の頭頂から足元に向かい、体軸と略平行な向きを向いており（顧客２１から見て２つのマイクロホン６０ａ及び６０ｂは上下に配置しているように見える）、音声到来方向１（７０）は当該方向ベクトルと略平行な方向であり、音声到来方向２（７１）は当該方向ベクトルに対して略垂直な方向であり得る。これに限らず、可搬型販売員音声収集装置６０は、マイクロホン６０ａ及びマイクロホン６０ｂを結ぶ方向ベクトルが音声到来方向１（７０）及び音声到来方向２（７１）のそれぞれに対して異なる角度をなすように配置されればよく、可搬型販売員音声収集装置６０の大きさ、形状等は適宜設計し得る。

このように可搬型販売員音声収集装置６０を配置し、マイクロホン６０ａ及びマイクロホン６０ｂを本発明に係る音声収集方法におけるマイクロホンアレイとして用い、前述の目的音声抽出のための方法を実施して、特定の時間差を有して当該マイクロホンアレイに到達する音声を抽出することにより、販売員２２の声を選択的に収集することが可能になる。本発明においては、市販入手可能なボイスレコーダ等と類似した形態を有する可搬型販売員音声収集装置６０を用いて、販売員の声を選択的に収集する実施手段を実現し得る。

［販売員音声収集装置のハードウェア構成］
図１１は、本発明の一実施形態に係る、販売員音声収集装置のハードウェア構成を示す図である。図１１においては、販売員音声収集装置を情報処理装置１０００とし、そのハードウェア構成を例示する。以下は、コンピュータを典型とする情報処理装置として全般的な構成を説明するが、その環境に応じて必要最小限な構成を選択できることはいうまでもない。

情報処理装置１０００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１０、バスライン１００５、通信Ｉ／Ｆ１０４０、メインメモリ１０５０、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）１０６０、パラレルポート１０８０、ＵＳＢポート１０９０、グラフィック・コントローラ１０２０、ＶＲＡＭ１０２４、音声プロセッサ１０３０、Ｉ／Ｏコントローラ１０７０、並びにキーボード及びマウス・アダプタ１１００等の入力手段を備える。Ｉ／Ｏコントローラ１０７０には、フレキシブル・ディスク（ＦＤ）ドライブ１０７２、ハードディスク１０７４、光ディスク・ドライブ１０７６、半導体メモリ１０７８等の記憶手段を接続することができる。

音声プロセッサ１０３０には、マイクロホン１０３６及び１０３７、増幅回路１０３２、及びスピーカ１０３４が接続される。また、グラフィック・コントローラ１０２０には、表示装置１０２２が接続されている。

ＢＩＯＳ１０６０は、情報処理装置１０００の起動時にＣＰＵ１０１０が実行するブートプログラムや、情報処理装置１０００のハードウェアに依存するプログラム等を格納する。ＦＤ（フレキシブル・ディスク）ドライブ１０７２は、フレキシブル・ディスク１０７１からプログラム又はデータを読み取り、Ｉ／Ｏコントローラ１０７０を介してメインメモリ１０５０又はハードディスク１０７４に提供する。
図５には、情報処理装置１０００の内部にハードディスク１０７４が含まれる例を示したが、バスライン１００５又はＩ／Ｏコントローラ１０７０に外部機器接続用インタフェース（図示せず）を接続し、情報処理装置１０００の外部にハードディスクを接続又は増設してもよい。

光ディスク・ドライブ１０７６としては、例えば、ＤＶＤ−ＲＯＭドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＡＭドライブ、ＣＤ−ＲＡＭドライブを使用することができる。この際は各ドライブに対応した光ディスク１０７７を使用する必要がある。光ディスク・ドライブ１０７６は光ディスク１０７７からプログラム又はデータを読み取り、Ｉ／Ｏコントローラ１０７０を介してメインメモリ１０５０又はハードディスク１０７４に提供することもできる。

情報処理装置１０００に提供されるコンピュータプログラムは、フレキシブル・ディスク１０７１、光ディスク１０７７、又はメモリーカード等の記録媒体に格納されて利用者によって提供される。このコンピュータプログラムは、Ｉ／Ｏコントローラ１０７０を介して、記録媒体から読み出され、又は通信Ｉ／Ｆ１０４０を介してダウンロードされることによって、情報処理装置１０００にインストールされ実行される。コンピュータプログラムが情報処理装置に働きかけて行わせる動作は、既に説明した装置における動作と同一であるので省略する。

前述のコンピュータプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としてはフレキシブル・ディスク１０７１、光ディスク１０７７、又はメモリーカードの他に、ＭＤ等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク又は光ディスク・ライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してコンピュータプログラムを情報処理装置１０００に提供してもよい。

以上の例は、情報処理装置１０００について主に説明したが、コンピュータに、情報処理装置で説明した機能を有するプログラムをインストールして、そのコンピュータを情報処理装置として動作させることにより上記で説明した情報処理装置と同様な機能を実現することができる。

本装置は、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアの組み合わせによる実施では、所定のプログラムを有するコンピュータシステムでの実施が典型的な例として挙げられる。かかる場合、該所定のプログラムが該コンピュータシステムにロードされ実行されることにより、該プログラムは、コンピュータシステムに本発明にかかる処理を実行させる。このプログラムは、任意の言語、コード、又は表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接実行すること、又は（１）他の言語、コード、もしくは表記への変換、（２）他の媒体への複製、のいずれか一方もしくは双方が行われた後に、実行することを可能にするものである。もちろん、本発明は、そのようなプログラム自体のみならず、プログラムを記録した媒体を含むプログラム製品もその範囲に含むものである。本発明の機能を実行するためのプログラムは、フレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ、ハードディスク装置、ＲＯＭ、ＭＲＡＭ、ＲＡＭ等の任意のコンピュータ可読媒体に格納することができる。かかるプログラムは、コンピュータ可読媒体への格納のために、通信回線で接続する他のコンピュータシステムからダウンロードしたり、他の媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。

本発明の一実施形態にかかる音声収集システムの一例を概略的に示すブロック図である。マイクロホンに対する音声到来方向を示す図である。本発明の一実施形態に係る、目的音声抽出装置１２の構成を示す図である。マイクロホンの位置に対する話者方向インデックスの一例を示す図である。マイクロホンの指向性による分類を示す図である。本発明の実施の形態によるマイクロホンアレイを配置する場所の一例を示す図である。図１に示す目的音声抽出装置１２を詳細に示すブロック図である。図７に示す発話区間インデックス検出処理部３１における処理を説明するためのフロー図である。本発明に係る音声強調処置の諸段階における雑音区間の音声信号の例を示す図である。本発明の一実施形態に係る、可搬型販売員音声収集装置６０の動作状況を例示する図である。本発明の一実施形態に係る、販売員音声収集装置のハードウェア構成を示す図である。

符号の説明

１０音声収集システム
１１マイクロホンアレイ
１２目的音声抽出装置
１３顧客対話記録サーバ
３１発話区間インデックス検出処理部
３２、３３音声認識部
３４統合選択部
３５録音範囲抽出部
６０可搬型販売員音声収集装置
１０５、１０６離散フーリエ変換処理部
１１０ＣＳＰ係数算出部
１２０群遅延アレイ処理部、
１３０雑音推定部
１４０ＳＳ処理部
１５０利得調整処理部
１６０フロアリング処理部

Claims

互いに到来方向が異なる複数の音声のうち目的とする目的音声を抽出して収集するために、少なくとも第１のマイクロホン及び第２のマイクロホンを所定の距離離して配置するマイクロホンアレイを用いる音声収集方法であって、
前記複数の音声は第１の音声及び第２の音声であり、前記第１の音声の発生源及び前記第２の音声の発生源を結ぶ線分と、前記マイクロホンアレイに含まれる前記第１のマイクロホン及び前記第２のマイクロホンを結ぶ線分とが略平行に配置された前記第１のマイクロホン及び前記第２のマイクロホンで受けた音声の信号をそれぞれ離散フーリエ変換して、音声の到来方向に関連する複数のＣＳＰ係数を求め、前記複数のＣＳＰ係数より前記複数の音声の信号を検出するステップと、
前記求めた前記複数のＣＳＰ係数から、前記第１のマイクロホン及び前記第２のマイクロホンを結ぶ線分と前記到来方向のなす角度の範囲を区別するための音声方向インデックスを検出するステップと、
前記検出した前記音声方向インデックスにより、前記検出した前記複数の音声の信号から前記目的音声の信号を抽出するステップと、
前記それぞれ離散フーリエ変換した結果に基づいて、推定される雑音のパワースペクトル（Ｕω）と減算定数（α）とを用いるＳＳ（スペクトルサブトラクション）処理をするステップと、
前記ＳＳ処理をするステップの出力及び前記ＣＳＰ係数より利得調整を実施するステップと、
前記利得調整を実施するステップの出力についてフロアリング係数（β）を用いてフロアリング処理を実施するステップと、
を含む前記音声収集方法。
前記複数の音声は第１の音声及び第２の音声であり、前記第１の音声の発生源と前記第２の音声の発生源のそれぞれは、前記第１のマイクロホン及び前記第２のマイクロホンを結ぶ線分を中心軸として予め定められた角度の範囲内に位置する、請求項１に記載の音声収集方法。
前記音声方向インデックスを検出するステップは、前記複数のＣＳＰ係数の大小関係を比較して、１つの音声が前記第１のマイクロホン及び第２のマイクロホンに到達する時間の差が依存する、到来方向の角度の範囲を区別するための前記音声方向インデックスを決定する、請求項１に記載の音声収集方法。
さらに、前記それぞれ離散フーリエ変換した結果に基づいて、前記目的音声を強調するためにアレイ処理をするステップを含む、請求項１に記載の音声収集方法。
前記複数の音声は第１の音声及び第２の音声であり、前記複数の音声の信号を検出するステップは、さらに前記ＣＳＰ係数より前記第１の音声の信号及び第２の音声の信号の少なくとも一方について発話区間を検出する、請求項１に記載の音声収集方法。
前記複数の音声の信号を検出するステップは、さらに前記検出した発話区間より前記第１の音声の信号及び前記第２の音声の信号の少なくとも一方を分離する、請求項５に記載の音声収集方法。
前記複数の音声の信号を検出するステップは、さらに前記第１の音声の信号及び前記第２の音声の信号にそれぞれ対応する音声方向インデックスを第１の音声方向インデックス及び第２の音声方向インデックスとして対応付ける、請求項５に記載の音声収集方法。
前記目的音声の信号を抽出するステップは、さらに
前記第１の音声の信号及び前記第２の音声の信号と前記第１の音声方向インデックス及び前記第２の音声方向インデックスより、前記第１の音声の信号及び前記第２の音声の信号についてそれぞれ音声認識処理を行って第１の音声認識結果及び第２の音声認識結果を得るとともに、当該第１の音声及び第２の音声が発話された時間を示す第１の時間情報及び第２の時間情報を得る音声認識ステップと、
前記第１の音声認識結果及び前記第２の音声認識結果を前記第１の時間情報及び前記第２の時間情報とともに統合する統合ステップと、
前記統合の結果により抽出すべき箇所が選択されると当該箇所に応じた発話区間の音声の信号を切り出す切り出しステップと、
を含む請求項７に記載の音声収集方法。
前記統合ステップは、さらに前記第１の音声認識結果及び前記第２の音声認識結果、前記第１の時間情報及び前記第２の時間情報、及び前記第１の音声方向インデックス及び前記第２の音声方向インデックスとを関連付けるステップを含む、請求項８に記載の音声収集方法。
前記切り出しステップは、前記統合された情報からの前記選択された箇所に応じた音声方向インデックス及び時間情報に従って発話区間の音声の信号を切り出すステップを含む、請求項８に記載の音声収集方法。
前記切り出した音声の信号を録音対象音声として録音するステップを含む、請求項８に記載の音声収集方法。
請求項１から１１のいずれか１項に記載の方法の各ステップを、コンピュータを用いて実行するためのコンピュータプログラム。
互いに到来方向が異なる複数の音声のうち目的とする目的音声を抽出して収集するために、少なくとも第１のマイクロホン及び第２のマイクロホンを所定の距離離して配置するマイクロホンアレイを用いる音声収集システムであって、
前記複数の音声は第１の音声及び第２の音声であり、前記第１の音声の発生源及び前記第２の音声の発生源を結ぶ線分と、前記マイクロホンアレイに含まれる前記第１のマイクロホン及び前記第２のマイクロホンを結ぶ線分とが略平行に配置された前記第１のマイクロホン及び前記第２のマイクロホンで受けた音声の信号をそれぞれ離散フーリエ変換して、音声の到来方向に関連する複数のＣＳＰ係数を求め、前記複数のＣＳＰ係数より前記複数の音声の信号を検出する音声検出手段と、
前記求めた前記複数のＣＳＰ係数から、前記第１のマイクロホン及び前記第２のマイクロホンを結ぶ線分と前記到来方向のなす角度の範囲を区別するための音声方向インデックスを検出する音声方向インデックス検出手段と、
前記検出した前記音声方向インデックスにより前記検出した前記複数の音声の信号から前記目的音声の信号を抽出する目的音声抽出手段と、
前記それぞれ離散フーリエ変換した結果に基づいて、推定される雑音のパワースペクトル（Ｕω）と減算定数（α）とを用いるＳＳ（スペクトルサブトラクション）処理をする手段と、
前記ＳＳ処理をする手段の出力及び前記ＣＳＰ係数より利得調整を実施する手段と、
前記利得調整を実施する手段の出力についてフロアリング係数（β）を用いてフロアリング処理を実施する手段と、
を含む音声収集システム。
互いに到来方向が異なる第１の音声及び第２の音声のうち前記第１の音声を抽出して収集するために、少なくとも第１のマイクロホン及び第２のマイクロホンを所定の距離離して配置するマイクロホンアレイを用いる音声収集システムであって、
前記第１の音声の発生源と前記第２の音声の発生源のそれぞれは、前記第１のマイクロホン及び前記第２のマイクロホンを結ぶ線分を中心軸として予め定められた角度の範囲内に位置し、
前記第１のマイクロホン及び前記第２のマイクロホンで受けた音声の信号をそれぞれ離散フーリエ変換した結果に基づいて目的の音声を強調するためにアレイ処理をする手段と、
前記それぞれ離散フーリエ変換した結果に基づいて、推定される雑音のパワースペクトル（Ｕω）と減算定数（α）とを用いるＳＳ（スペクトルサブトラクション）処理をする手段と、
前記それぞれ離散フーリエ変換した結果よりＣＳＰ係数を求め、前記ＳＳ処理をする手段の出力及び前記ＣＳＰ係数より利得調整を実施する手段と、
前記利得調整を実施する手段の出力についてフロアリング係数（β）を用いてフロアリング処理を実施する手段と、
前記フロアリング処理を実施した音声信号より前記第１の音声の信号及び第２の音声の信号を検出する音声検出手段と、
前記第１の音声及び前記第２の音声のそれぞれについて独立に、前記求めた前記ＣＳＰ係数の大小関係を比較して、１つの音声が前記第１のマイクロホン及び前記第２のマイクロホンに到達する時間の差が依存する、到来方向の角度の範囲を区別するための音声方向インデックスを決定する音声方向インデックス検出手段と、
前記音声方向インデックスにより前記第１の音声の信号を抽出する目的音声抽出手段と、
前記ＣＳＰ係数より前記第１の音声の信号の発話区間を検出する発話区間検出手段と、
前記検出した発話区間より前記第１の音声の信号を分離する目的音声分離手段と、
を含む音声収集システム。