JP5339501B2 - 音声収集方法、システム及びプログラム - Google Patents

音声収集方法、システム及びプログラム Download PDF

Info

Publication number
JP5339501B2
JP5339501B2 JP2008189504A JP2008189504A JP5339501B2 JP 5339501 B2 JP5339501 B2 JP 5339501B2 JP 2008189504 A JP2008189504 A JP 2008189504A JP 2008189504 A JP2008189504 A JP 2008189504A JP 5339501 B2 JP5339501 B2 JP 5339501B2
Authority
JP
Japan
Prior art keywords
voice
speech
microphone
sound
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008189504A
Other languages
English (en)
Other versions
JP2010026361A (ja
Inventor
隆 福田
治 市川
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2008189504A priority Critical patent/JP5339501B2/ja
Publication of JP2010026361A publication Critical patent/JP2010026361A/ja
Application granted granted Critical
Publication of JP5339501B2 publication Critical patent/JP5339501B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、特定の音声を収集するための音声収集方法、システム及びプログラムに関する。特に、対面販売において、販売員の音声のみを収集するための音声収集方法、システム及びプログラムに関する。
近年、企業等において、違法な行為又は反社会的な行為等によって、消費者又は取引先の信頼(信用)を失ってしまうことがあり、一旦失った信用を回復するためには多大な企業努力を要するばかりでなく、事業存続に大きな影響を与えてしまうこともある。このため、企業においては所謂コンプライアンス体制の確立が緊急課題となっている。例えば、金融サービス業界においては、コンプライアンス強化の取り組みの一環として、販売員の営業活動をモニタリングすることが行われており、一例として、電話による販売活動においては、販売員の電話対応(通話内容)をサーバ等に蓄積して、無作為にチェックする仕組みを取り入れている。また,音声認識技術と自然言語処理技術の併用によって、販売員の不適切な対応を自動で検出しようという試みもある。
一方,窓口で商品販売を行う所謂対面販売においては、電話における販売のように、販売員の顧客対応記録を収集する仕組みが存在しないため、電話における販売に比べてモニタリング体制の整備が遅れている。現状では、販売員が行った営業活動を書面(レポート)等で報告するという手法が採られているものの、レポートの作成に時間が掛かるばかりでなく、適切な報告が行われないこともある。
従来技術では、対面販売における対策として、接話マイクを装着した販売員が顧客との会話を録音する手法が検討されているが、販売員の声のみの録音を目的としているものの実用上は顧客の音声も録音されるため、会話の録音に抵抗感を示す顧客が多く、必ずしも適切な手法とはいえない。このため、顧客から見えない場所に、(単一)指向性マイクを設置して、販売員の音声を収集することも考えられるが、標準的なマイクでは指向性が低く、顧客の声も録音してしまうことになる。指向性を向上させるため、超指向性を有するガンマイク等を用いた場合には、当該ガンマイクが一般に高価であり、そのサイズも大きいことを考慮すると、対面販売にはガンマイクを用いることは適していない。
そこで、従来技術では、音声信号処理技術を併用する試みとしては、送話者方向に向けて一直線上に2つの無指向性マイクロホンを配置し、一方のマイクロホンへの音圧レベルに依存して出力信号を切り替える手段を有し、これにより強い指向性を発揮するマイクロホン装置が知られている(特許文献1参照)。また、従来技術では、複数個のマイクロホン素子を有するマイクロホンアレイを用い、発話区間を検出して発話信号を取り出す技術が知られている(特許文献2参照)。
特開平9−149490号公報 特開2007−86554号公報
しかし、特許文献1に記載の音圧レベルの判定結果に応じて出力を切り替える手法や、特許文献2に記載の音声と雑音の成分がそれぞれ相違することを利用する技法を含む、マイクロホンアレイ等を用いてソフトウェア的に指向性を形成する従来技法は、マイクの配置において収録時には顧客の音声も収集し、対面販売において顧客の音声を除いて販売員の音声のみを収集することは困難であった。
本発明は、対面販売において販売員と顧客の音声を分離するマイクロホンアレイの設置方法、及び分離音声に対する音声認識性能向上のための音声強調方法、及びこれを用いる対話音声の話者方向インデキシングにより、対面販売において販売員のみの音声を的確に収集する音声収集方法、システム及びプログラムを提供する。さらに、本発明は、了解を得ていない顧客の発話記録を残さず、記録が必要な販売員の声だけを確実に残す方法、システム及びプログラムを提供する。
本発明は、上記課題に鑑み、以下のような解決手段を含む。
(音声の到達時間差の利用)
本発明は、所定の距離を隔てて配置された2つのマイクロホン素子を有するマイクロホンアレイを用い、特定の音源からこれらのマイクロホン素子に音声が到達する時間の差、すなわち時間遅れを利用する。さらに、本発明においては、マイクロホンアレイが含む2つのマイクロホン素子を結ぶ線分が、顧客と販売員を結ぶ線分と略平行となるように配置する。例えば、上方から見て、本発明により、マイクロホンアレイは顧客と販売員とを結ぶ直線上に配置される。このような配置により、顧客又は販売員が発する音声の、2つのマイクロホン素子のそれぞれへの到達時間の差は最大に近づき得る。従って、本発明においては、複数の対面販売ブースが並ぶ状況等において、マイクロホン素子への到達時間差が必ずしも最大ではない隣接ブースからの音声等を効果的にカットし、並びに到達時間差を利用し得る配置の範囲内において販売員や顧客の姿勢や位置の変化を許容し得る。さらに、一般に、マイクロホンアレイにおいては、同位相(同じ時間遅れ)で到達する方向からの音声を区別できないという問題(鏡像位置の問題)があるが、本発明においてはマイクロホン素子の配置によりこの問題を避けることが可能である。
(CSP係数の利用)
また、本発明は、CSP(Cross power-Spectrum Phase、白色化相互相関)係数に基づく目的話者発話区間検出により、顧客と販売員の発話を区別し、個別に音声認識を行い得る。同時に、CSP法による話者方向インデックスと音声認識結果のタイムスタンプを併用することにより、目的話者音声の録音を簡便化し、録音箇所を選択的に指定し得る。換言すれば、本発明は、方向インデックスと音声認識結果から、録音話者及び録音箇所を指定するインタフェースを有することを特徴としている。
(音声強調処理)
さらに、本発明は前記CSP係数に基づいて利得調整、すなわち音声強調を行うことによって高い音声認識性能を実現する。本発明では、CSP係数に基づく利得調整処理を、代表的な雑音除去手法であるスペクトル減算(Spectrum Subtraction、SSと略称)処理及びフロアリング(Flooring)処理とを組み合わせた処理手順に結び付けている。具体的には、SS処理とFlooring処理との間で利得調整を行う。この一連の処理によって、音声分離と同時に音声強調を行い、ソフトウェア処理として実用的な音声認識性能を低コストに実現する。
本発明に係る、音声収集方法の実施手段には、音声信号処理の機能を有するコンピュータ装置、デジタル信号処理装置、デジタル録音装置等を用い得る。当該コンピュータ装置等は、販売員及び顧客の声に基づく音声信号の収録、収録された音声信号に対するCSP係数の算出等、本発明に係る音声収集方法のための諸段階を実施可能なものを任意に用い得る。
本発明は、有音声区間のみを収集する音声収集技術、音声の明瞭度や聞きやすさを向上するために信号処理の周波数特性又は利得を調節する音声信号処理技術等の、既存の技術と組み合わせることができ、そのように組み合わせた技術もまた、本発明の技術範囲に含まれる。同様に、本発明の技法を含む音声収集機器、本発明の技法を含み可搬型コンピュータ装置等に組み込まれる音声収集機能、本発明の技法を含む複数の機器を協動させる音声収集システム等も、本発明の技術範囲に含まれる。さらに、本発明の技法は、音声収集のための諸段階を、FPGA(現場でプログラム可能なゲートアレイ)、ASIC(特定用途向け集積回路)、これらと同等のハードウェアロジック素子、プログラム可能な集積回路、又はこれらの組み合わせが記憶し得るプログラムの形態、すなわちプログラム製品として提供し得る。具体的には、データ入出力、データバス、メモリバス、システムバス等を備えるカスタムLSI(大規模集積回路)の形態として、本発明に係る販売員音声収集装置等を提供でき、そのように集積回路に記憶されたプログラム製品の形態も、本発明の技術範囲に含まれる。
本発明によれば、少なくとも第1及び第2のマイクロホンを備え第1及び第2のマイクロホンを所定の距離離して配置したマイクロホンアレイを用いて、第1及び第2のマイクロホンで受けた音声の信号をそれぞれ離散フーリエ変換して、音声の到来方向に関連する複数のCSP係数を求め、この複数のCSP係数より複数の音声の信号を検出した後、求めた複数の音声の信号から第1及び第2のマイクロホンを結ぶ線分と到来方向のなす角度に応じて規定された音声方向インデックスを検出して、検出した音声方向インデックスにより、検出した複数の音声の信号から目的音声の信号を抽出するようにしたので、目的音声のみを確実に抽出して収集することができるという効果がある。さらに、本発明は、了解を得ていない顧客の発話記録を残さず、記録が必要な販売員の音声だけを確実に残すことができるという効果がある。また音声分離と同時に、SS処理、CSP係数による利得調整処理、Flooring処理という一連のステップからなる音声強調処理を行うことによって、後続の音声認識性能を高めている。
以下、本発明の実施形態について図を参照しながら説明する。
[音声収集システム]
図1は、本発明の一実施形態に係る音声収集システムの一例を概略的に示す図である。図1において、音声収集システム10は、マイクロホンアレイ11、目的音声抽出装置12、及び顧客対話記録サーバ13を有しており、マイクロホンアレイ11は2つのマイクロホン11a及び11bを備え、これらは例えば市販入手可能な一体型又は一組のステレオマイク等でもよい。目的音声抽出装置12の詳細は、図7を用いて後述する。
図1の例では、顧客21、販売員22及びテーブル14等を上方から眺めて示す。マイクロホンアレイ11は、上方から見て顧客21と販売員22とを結ぶ直線上にほぼ位置するように配置される。すなわち、マイクロホン11a及び11bを結ぶ線分と、顧客21と販売員22とを結ぶ線分とがほぼ並行となるように、マイクロホンアレイ11を配置する。これにより、顧客又は販売員が発する音声の、2つのマイクロホン素子のそれぞれへの到達時間の差は最大になり得る。このように配置することにより、本発明においては、複数の対面販売ブースが横並びする状況等において、マイクロホン素子への到達時間差が必ずしも最大ではない隣接ブースからの音声等を効果的にカットし得る。
また、図示の例では、CSP係数に基づいて目的話者発話区間検出を行って顧客と販売員の発話を区別する。具体的には、2つのマイクロホンで受けた音声信号についてCSP係数を計算し、CSP係数が大きくなる区間を目的話者の発話区間と見なして目的音声の信号を抽出する。
さらに、抽出された音声信号は、SS処理とFlooring処理の間で、CSP係数による利得調整を行うことによって音声強調処理を実施する。この音声強調処理は音声認識性能を高めるための処理であり、CSP係数による目的話者音声抽出と、音声強調処理を合わせてAFE(ASR Front−end for speech Enhancement、ASRは自動音声認識を意味するAutomatic Speech Recognitionの略称)と称する。本実施の形態では、AFEを用いて分離・強調した後の音声信号について個別に音声認識を行い、後述するように、CSP手法による話者方向インデックスと音声認識結果のタイムスタンプを用いて、目的話者の音声信号の録音を簡便化して、録音箇所を選択的に指定する。
図1に示すように、マイクロホンアレイ11は、上方から見てマイクロホン11a及び11bが顧客21と販売員22とを結ぶ直線上にほぼ位置するように配置されればよい。マイクロホンアレイ11は、テーブル14の略中央に置かれてもよく、テーブル14の略中央に埋め込まれてもよい。
図2は、マイクロホンに対する音声到来方向を示す図である。図2において、マイクロホン11a及び11bは距離dだけ離れて配置されているものとすると、マイクロホン11a及び11bを結ぶ直線と音声到来方向とのなす角度θは、数1で示される。
Figure 0005339501
ここで、cは音速であり、τはマイクロホン11a及び11bに音声が到来する時間差(到来時間差)を表す。好適には、マイクロホン11a及び11bを結ぶ直線は、マイクロホン11aから11bへの方向ベクトルであり、上式においてθ=0°及びθ=180°は、音声の到達方向と当該方向ベクトルとがそれぞれ平行及び逆平行の状態にあるものとして区別され得る。
[音声強調処理(AFE)]
次いで、本発明に係る音声収集システム等においては、CSP係数を算出し、これを用いて音声強調処理を実施し得る。具体的には、音声強調処理は、SS処理とFlooring処理においてCSP係数を用いて利得調整を実施し、これらにより販売員の音声を特定する性能や、音声認識の性能を向上し得る。以下、具体的な音声処理手段の構成要素及びその関係について例示する。
図3は、本発明の一実施形態に係る、目的音声抽出装置12の構成を示す図である。目的音声抽出装置12は、マイクロホンアレイ11に含まれるマイクロホン11a及び11bで受けた音声信号を入力とし、離散フーリエ変換処理部105及び106、CSP係数算出部110、群遅延アレイ処理部120、雑音推定部130、SS処理部140、利得調整処理部150、フロアリング処理部160等を適宜含む。離散フーリエ変換処理部105及び106の処理は、2つのマイクロホン11a及び11bからの信号を適宜増幅し、所定の時間幅を有するフレームに分割し、適宜周波数帯域を制限する等、デジタル音声信号処理における公知の技法を含み、入力された信号から複素離散スペクトルを出力し得る。
図3に示すCSP係数算出部110においては、前記複素離散スペクトルからCSP係数を算出する。ここで、CSP係数とは、周波数領域で計算される2チャネル信号間の相互相関係数であって、次の数2により算出される。
Figure 0005339501
式中、φ(i,T)は、1番目と2番目のマイクロホン11a及び11bで受けた音声信号から求まるCSP係数、iは音声到来方向(話者方向インデックス)、Tはフレーム番号、s(t)とs(t)はそれぞれ時刻tに受音した1番目と2番目のマイクロホン11a及び11bの信号である。また,DFTは離散フーリエ変換を表し、IDFTは逆離散フーリエ変換を表している。また、*は共役複素数を表す。
次いで、群遅延アレイ処理部120において、θ方向から到来する信号を少なくとも2つのマイクロホンで受音し、それぞれを同相化して加算することにより、θ方向から到来する信号を強調するものである。よって、θ方向以外から到来する信号は、同相化されないために強調されない。よって、θ方向に感度が高く、それ以外の方向に感度が低いという指向性を形成することができる。
群遅延アレイ処理部120の代わりにも、適応型アレイ処理で雑音や残響の方向に対して死角を形成することもできる。さらには、その他のアレイ処理によって代替してもかまわない。また、これらのアレイ処理を省略して、すなわち素通りさせて、2つのマイクロホンで受けた音声信号のうち、どちらか片方の信号そのままを利用することもできる。
次いで、上述のように算出されたCSP係数を用い、音声強調処理が実施される。具体的には、音声強調処理は、SS処理とFlooring処理においてCSP係数を用いて利得調整を実施する。典型的には、SS処理は次式で表される減算処理である。
Figure 0005339501
ここで、Xω(T)はSS処理前のパワースペクトル,Yω(T)はSS処理後のパワースペクトルすなわち減算後パワースペクトル,Uωは雑音のパワースペクトルである。このUωについては、雑音区間すなわち目的話者の非発話区間で推定されるものであって、事前に推定して固定的に使ってもよく、又は入力された音声信号と同時に逐次推定(更新)してもよく、あるいは一定時間間隔で推定(更新)してもよい。
すなわち、例えばマイクロホン11a及び11bで受けた2つの入力信号の両方についてアレイ処理で統合された信号、又は当該2つの入力信号のいずれか一方であるXω(T)は、雑音推定部130に入力され、雑音のパワースペクトルUωが適宜推定される。αは減算定数であり、例えば1に近い値(例えば、0.90)等の任意の値をとることができる。
次いで、次式のように適宜利得調整を実施し得る。すなわち、利得調整は、上述のSS処理後の減算スペクトルYω(T)にCSP係数を掛けることで行う。
Figure 0005339501
式中、Dω(T)は利得調整後のパワースペクトルである。目的話者が発話していないときはCSP係数が小さくなるので、到来方向以外からの音声信号のパワースペクトルはこの処理により抑圧されることになる。この式が示すように「利得調整」を行うことができれば、本発明の技術的思想は、何もCSP係数を利用したものだけに限定されるものではないことが理解できる。
さらに、次式のようにフロアリング(Flooring)処理を実施する。すなわち、フロアリング処理とは実データに含まれる小さな値をそのまま用いずに適当な数値に置き換えることを指す。
Figure 0005339501
式中、Zω(T)はFlooring処理後のパワースペクトル、Uωは雑音のパワースペクトルであって、Uωとしては、数式3で用いるものと同様のもの、又は雑音推定部130の出力等を適宜利用できるが、他の方法で推定した異なったものを利用してもよい。数式5が示すように、Uωは条件判断のためだけに用いられることもある。フロアリング係数(Flooring係数)βは定数であり、例えば0(ゼロ)に近い値(例えば、0.10)等の、当技術分野において好都合な任意の値をとることができる。
通常、SS処理とフロアリング処理はこの手順を守って用いられるが、両処理の間にCSP係数による利得調整を導入したことが本発明の1つのポイントである。以上のようにして得られる出力Zω(T)は、サーバ装置等に記憶するための販売員の音声信号、又は音声認識手段への入力等に用い得る。図3においては、2つのマイクロホン11a及び11bを用いて観測し得る音声信号の一方を出力に用いる例を示したが、これに限らず、本発明に係る音声収集方法は、図8を用いて後述するように、マイクロホンアレイ11に到達する方向の異なる2つの音声に対して、それぞれ受けた音声信号ごとに、記録又は音声認識等のための出力を得ることが可能である。記録又は音声認識等のための出力は、図7を用いて後述するように、音声認識等に用いることが可能である。
[話者方向インデックス]
図4はマイクロホンの位置に対する話者方向インデックスの一例を示す図である。マイクロホンアレイ11に含まれるマイクロホン11a及び11bを結ぶ方向ベクトルを仮定すると、話者からの音声が到達する方向は、マイクロホンアレイ11を中心とする当該方向ベクトルに対する方位角の範囲として区別し得る。例えば、マイクロホン11aからマイクロホン11bの方向に沿って到達する音声は、当該方向ベクトルと略平行であり、方位角の余弦の値は+1に近い(図4に示す話者方向インデックスが+7の領域)。また例えば、マイクロホン11bからマイクロホン11aの方向に沿って到達する音声は、当該方向ベクトルと逆平行に近く、方位角の余弦の値は−1に近い(図4に示す話者方向インデックスが−7の領域)。数1に示したように、マイクロホン間隔d及び音速cが与えられると、到達時間差τは角度θに依存するので、図4に示す話者方向インデックスは、到達時間差τの情報を含む。
マイクロホンアレイ11に対して直角の方向からマイクロホン11a及び11bに到来する音声には到来時間差はなく、ここでは、この方向の話者方向インデックスは0と表される。つまり、前述のように、角度θは数1で表され、到来サンプル数をx、サンプリング周波数をfとすると、τ=x/fで表されるから、いまサンプリング周波数を22050Hz、マイクロホン間の距離d=12.5cmとすると、x=0、つまり、話者方向インデックス=0であると、音速を340m/sとすれば、角度θ=90°となる。
また、図4において,話者方向インデックス+1(又は−1)は、マイクロホン11a及び11bに到達する音声が1サンプルだけずれている範囲を表しており(つまり、X=1であり)、この場合には、角度θ=82.9°となる。
同様にして、話者方向インデックス+2〜+7(又は−2〜−7)は、それぞれマイクロホン11a及び11bに到達する音声が1〜7サンプルだけずれている範囲を表している。そして、AFEにおいては、マイクロホン11a及び11bに入力される音声の到来時間差を考慮したCSP係数を用いて目的音を抽出する。ここで、x=+7においては角度θ=30.3°となり、x=−7においては角度θ=149.7°となる。従って、マイクロホン11a及び11bを結ぶ直線方向には約30°の範囲を同一の音声到達方向として許容し得る。このように、本発明においては、到達時間差を利用し得る配置の範囲内において販売員や顧客の姿勢や位置の変化を許容し得るという特徴がある。
いま、話者方向インデックス=0(例えば、右側)の方向に目的話者がいるとすると、話者方向インデックス=0にいる目的話者が発話した場合に、前述のように、マイクロホン11a及び11bで受けた音声信号には時間遅れがなく、両音声信号の相関が高くなる。このため、CSP係数φ(0,T)は大きくなる。
一方、例えば、話者方向インデックス=+4(例えば、図中右側)の方向から音声が到来する場合、マイクロホン11aから4サンプル分遅れてマイクロホン11bに音声が到達することになる。このため、φ(0,T)は小さくなる(この際、φ(4,T)が大きくなる)。
従って、話者方向インデックス=0の方向から到来する音声のみを抽出したい場合には、φ(0,T)の値をトラッキングして、φ(0,T)が大きくなる区間を抽出すればよいことになる。但し、AFEでは、マイクロホン11a及び11bに同一の時間差で到来する方向、つまり、マイクロホン11a及び11bを結ぶ軸に対して対象の方向から到来する音声も受信することになる。
例えば、話者方向インデックス=+4に着目すると、図中右側の話者方向インデックス=+4から到来する音声と図中左側の話者方向インデックス=+4から到来する音声を区別することができないことになる。よって、鏡像位置の問題を受けないようにマイクロホン11a及び11bを配置することが必要となる。
ところで、話者(つまり、ここでは顧客21と販売員22)は、テーブル14を挟んで向かい合って着座した際、横方向にずれて(つまり、横方向において広い範囲に)座る可能性があり、さらに対話中においても着座位置や姿勢が変化することが多い。このため、目的話者方向に対してある程度の範囲の音声を収音できる必要がある。
超指向性マイクロホンは、目的話者の音声信号のみを録音するという観点からは高い効果が得られるが、一般に高価格であり、さらに、話者位置の変動に対処することが難しく、着座位置によって収音性能が極端に変化してしまう。加えて、超指向性マイクロホンはそのサイズが大きく、目標方向とは逆方向にも鋭い指向性を有する。このため、ブースのレイアウトとマイクロホンとの配置関係が極めて難しくなってしまう。
一方、単一指向性マイクロホンを用いた場合には、指向性の精度がそれほど高くないため、周囲の環境音や隣のブースの会話をも録音してしまうことになる。なお、単一指向性マイクロホンも比較的高価格である。
図5はマイクロホンの指向性による分類を示す図であり、図5(a)に示す無指向性マイクロホンは360度全ての方向に対して同感度を有し、図5(b)に示す双指向性マイクロホンは正面とその反対側に対して感度がよい。また、図5(c)に示す単一指向性マイクロホンは正面方向のみの音声に対して感度がよい。図5(d)に示す鋭指向性マイクロホン及び図5(e)に示す超指向性マイクロホンはそれぞれ単一指向性よりも指向特性を鋭くしたものである。
AFEを用いた場合には、図4に示すように、マイクロホンアレイ11の軸方向(+7,−7)に関して比較的広いローブが形成され、例えば、話者方向インデックス=+7に販売員22、話者方向インデックス=−7に顧客21が位置すると、軸方向(+7,−7)においてはそのローブが広いから、顧客21及び販売員22の姿勢や位置が多少ずれてもよく、そして、当該ローブの範囲以外から到達する音声を効果的にカットすることができる。
そして、AFEを用いれば、マイクロホンの指向性/無指向性が関係なくなり、どのような指向性のマイクフォンも用いることができる結果、マイクロホンに要するコストも低く抑えることができる。
[マイクロホンアレイの配置]
図6に、本発明の一実施形態に係る、マイクロホンアレイの配置の例を示す。前述のように、AFEを用いた際には鏡像位置の問題があるので、マイクロホンの位置に配慮する必要があり、例えば、図6に符号Aで示す位置(隣のブース16との敷居17等)にマイクロホンアレイ11を配置した場合には、隣のブース16の音声まで同じように抽出してしまうことがある。
このため、本実施の形態では、図6において符号Bで示す位置(例えば、テーブル15上)にマイクロホンアレイ11を設置して、上述の問題を回避する。本実施の形態におけるマイクロホンアレイ11の設置については、発声者の方向を細かい単位で正確に検出しづらくなるけれども、販売員22の音声のみを収集するという点からは、何ら問題はない。もちろん、隣接ブースからの到来音声がない環境においては、例えば、図6に符号Aで示す位置にマイクを配置し、本発明のAFEによる音声強調に関わる部分のみを適用する実施形態も想定し得る。
[目的音声抽出装置]
図7は、図1に示す目的音声抽出装置12を詳細に示すブロック図である。図7において、いま販売員22と顧客21が1対1で対話しているものとする。目的音声抽出装置12は、発話区間インデックス検出処理部31、第1の音声認識部32、第2の音声認識部33、統合選択部34、及び録音範囲抽出部35を有しており、発話区間インデックス検出処理部31にはマイクロホン11a及び11bから受けたそれぞれの音声信号が入力される。
図7においては、マイクロホン11aは販売員22側に位置し、マイクロホン11bは顧客21側に位置しているものとし、マイクロホン11a(L−ch)で受けた音声信号S(t)、及びマイクロホン11b(R−ch)で受けた音声信号S(t)が入力されるものとする。なお、ここでは、いずれのマイクロホンからの入力も、図示しないA/D変換部によって所定のサンプリング周波数でサンプリングされて、デジタル信号として発話区間インデックス検出処理部31に与えられる。発話区間インデックス検出処理部31の動作の詳細は、図8を用いて後述する。
次いで、本発明に係る目的音声抽出装置12は、音声認識部32、33を用い、発話区間インデックス検出処理部31から出力される、分離された音声信号である販売員の音声信号及び顧客の音声信号のそれぞれに対して、適宜音声認識の動作を実施し、認識結果及びタイムスタンプを得る。ここで、タイムスタンプとは音声認識部32、33が出力する時間情報等である。タイムスタンプは後続の段階において認識結果を統合する際の時系列情報となり得る。
次いで、本発明に係る目的音声抽出装置12は、統合選択部34を用い、音声認識の結果を統合し得る。具体的には、話者の区別、音声認識の結果、タイムスタンプ等が相互に関連付けられたデータが生成され得る。
次いで、本発明に係る目的音声抽出装置12は、録音範囲抽出部35により、話者方向インデックス、音声認識結果、タイムスタンプ等の情報を元に、所定の又は指定の時間領域に含まれる音声信号を切り出して適宜サーバ装置等に保存し得る。本発明においては、販売員又は顧客のそれぞれについて個別に音声認識を実施することにより、録音部分を指定する際には、両者の対話内容を確認し得る。また、不必要な部分の録音を避けることも可能であり、サーバ装置等の資源を効率的に利用し得る。
[発話区間インデックス検出処理部31の処理]
図8は発話区間インデックス検出処理部31における処理を説明するためのフロー図である。発話区間インデックス検出処理部31では、音声信号を取得して(ステップS1)、当該音声信号がマイクロホン11aからの入力であるか否かを判定する(ステップS2)。マイクロホン11a(第1のマイクロホン)からの入力であれば、販売員デジタル音声入力信号ついて、例えば、ハニング窓又はハミング窓による窓掛け処理が行われ、販売員窓掛け処理済信号とされる(ステップS3)。続いて、販売員窓掛け処理済信号は、離散フーリエ変換処理によって周波数領域に変換されて販売員周波数領域信号とされ(ステップS4)、図中破線の囲みで示す処理に移行する。同様に、ステップS2において、マイクロホン11b(第2のマイクロホン)からの入力であると判定されと、顧客デジタル音声入力信号について、同様にして、窓掛け処理(ステップS5)、離散フーリエ変換処理(ステップS6)が行われて、顧客周波数領域信号とされる。
発話区間インデックス検出処理部31では、前述したように、話者方向インデックスを検出し、販売員周波数領域信号、顧客周波数領域信号、及び話者方向インデックスに基づいて、つまり、数に基づいてCSP係数を算出する(ステップS7)。
続いて、販売員周波数領域信号と顧客周波数領域信号について、販売員側遅延和アレイ処理を行って(ステップS8)、販売員の音声信号を強調して、販売員強調信号とする。同様にして、販売員周波数領域信号と顧客周波数領域信号について、顧客側遅延和アレイ処理を行って(ステップS9)、顧客の音声信号を強調して、顧客強調信号とする。
次に、販売員強調信号は、スペクトルサブトラクション処理(ステップS10)において雑音が取り除かれて、さらに、CSP係数を用いて利得調整処理(ステップS11)を行った後、適宜フロアリング処理(ステップS12)を実施し、販売員側の音声信号を得る。
同様にして、顧客強調信号は、スペクトルサブトラクション処理(ステップS13)において雑音が取り除かれて、さらに、CSP係数を用いて利得調整処理(ステップS14)を行った後、適宜フロアリング処理(ステップS15)を実施し、顧客側の音声信号を得る。
さらに、発話区間インデックス検出処理部31では、前述の数に示すCSP係数に基づいた発話区間検出処理を行って、前述のようにして得られた販売員側の音声信号と顧客側の音声信号をそれぞれ独立のチャネルとして一時保存する(発話区間検出処理に当たっては、前述の目的音抽出手法によるアルゴリズムが用いられることになる)。ここでは、前述したように、目的音の分離とともに話者方向インデックスも検出し、分離した音声信号と話者方向インデックスとを関連付けておく。
発話区間インデックス検出処理部31は、販売員側の音声信号及び当該音声信号の話者方向インデックスを第1の音声認識部32に与えるとともに、録音範囲抽出部35に与える。また、発話区間インデックス検出処理部31は、顧客側の音声信号及び当該音声信号の話者方向インデックスを第2の音声認識部33に与えるとともに、録音範囲抽出部35に与える。
第1の音声認識部32では、販売員側の音声信号について音声認識を行って、認識結果とタイムスタンプを得る(販売員音声認識結果及び販売員タイムスタンプを得る)。また、第2の音声認識部33では、顧客側の音声信号について音声認識を行って、認識結果とタイムスタンプを得る(顧客音声認識結果及び顧客タイムスタンプを得る)。ここで、タイムスタンプとは、第1の音声認識部32及び第2の音声認識部33において出力される時間情報であり、認識結果を統合する際の時系列情報として用いられる。
前述の販売員音声認識結果及び販売員タイムスタンプと顧客音声認識結果及び顧客タイムスタンプとは、統合選択部34に与えられ、ここで、これら音声認識結果を統合して、表1に示す対話表を得る(なお、この対話表は、例えば、HTML形式でユーザに提示するようにしてもよい)。
Figure 0005339501
この対話表から所望の音声信号の部分を録音部として選択すると、統合選択部34は目的話者録音範囲(つまり、タイムスタンプで区切られた範囲)を生成し、録音範囲抽出部35に送る。録音範囲抽出部35では、話者方向インデックスと目的話者録音範囲に基づいて該当する区間(範囲)の音声信号を抽出し、顧客対話記録サーバ13に販売員音声として保存する。
本実施の形態では、上述のようにして、話者方向インデックス、音声認識結果、及びタイムスタンプを用いて、録音区間を決定するようにしており、各話者について個別に音声認識を行うことによって録音部分を指定する際には、両者の対話内容を確認しながら録音部分の指定を行うことができる。
また、本実施の形態においては、不必要な部分の録音を避けることができる結果、顧客対話記録サーバ13におけるディスク容量を低減することができ、効率的である。
ここで、マイクロホンの種類とAFEについて、顧客の音声信号の削減という観点から比較を行った(評価試験を行った)。評価実験には、模擬対面販売形式で収集した音声信号を用いた。評価試験では、縦(販売員と顧客間の方向)100cmのテーブルの両側に、販売員役と顧客役の話者がそれぞれ1名ずつ着席して、投資信託に関する内容を話しているものとする。
対話は、販売員、顧客、そして、販売員の順番で発話した内容を1セットとし、予め定めた標準位置、標準位置から左右に少しずれた位置、テーブルに極端に接近した位置の3ケースで各3セットずつ音声を収録した。マイクロホンはSony(登録商標)の無指向性マイクロホン(Sony ECM−55B)を2つ用いてマイクロホンアレイを構成し、販売員役と顧客役の中央に配置した。
比較のため,単一指向性マイク(AKG400)をそれぞれの話者の方向に向けて設置して、両話者の音声を収集した。マイクロホン間の距離は、指向性及び無指向性ともに共に12.5cmとした。この評価試験では、無指向性マイクロホンで受けた音声信号でAFEを行った。
ここでは、販売員の音声信号のみを抽出して、顧客の音声信号を記録として残さないようにするため、顧客の音声信号を雑音とみなして、雑音削減率(NRR:Noise Reduction Rate)によって評価を行った。この際、販売員側に近い無指向性マイクフォンで収音された顧客の発声音圧レベルを基準として、当該基準からの顧客の音声信号の削減度合いにより効果を比較した。
ただし、収録デバイスの相違に起因する録音レベルの差を吸収するため、販売員の音声信号のパワーが各ケースで同程度になるようにコンピュータ上で正規化を行った。本評価実験で用いるNRRの定義は以下の通りである。
Noise Reduction Rate(NRR:%)=無指向性マイクロホン(基準マイクロホン)による顧客発声音圧レベル[dB]−指向性マイクロホン(又はAFE後)の顧客発声音圧レベル[dB]
通常、NRRは入出力のSNRに基づいて算出されるが、本評価実験においては音声信号のパワーは正規化しているので、上記の定義のように雑音のみの差として定式化している。表2に実験結果を示す。
Figure 0005339501
実験結果において、無指向性マイクロホンでは、音声到来方向に関係なく全ての音声を収音するため、顧客の音声についても高い音圧レベルを示すことが分かる。また、単一指向性マイクロホンでは、正面方向に対して指向性を有しているけれども、指向特性が鈍いので、顧客の音声をあまり遮断できていないことが分かる。これは、販売員の音声のみをサーバに録音するという目的においては、まったく役に立たないことを意味する。
一方、本実施の形態による音声収集システム(無指向性マイクロホンの使用)では、顧客の音声が顕著に削減されており、顧客音声が効果的に抑圧されていることが分かる。なお、本実施の形態による音声収集システムでは19.6dBの音圧レベルを示しているが、これはAFEが音声認識のために数5に示すフロアリング処理を行うことによって微量なノイズを加えているためであって、この音声が音韻(何をしゃべっているか)を識別できる情報を持っていないことに注意されたい。なお、本実施の形態による音声収集システムでは販売員の音声がもれなく検出されている。
上述の実施の形態では、マイクロホンから音声を収集して、マイクロホンアレイ目的音声抽出装置によって販売員の音声のみを顧客対話記録サーバに保存しているが、必要に応じて顧客の音声をサーバに保存することも可能である。また、必要に応じて、図4に示す話者方向インデックスに応じて3つ以上のマイクロホンを配置して、所望の話者のみの音声を抽出するようにしてもよい。
また、上述の実施の形態では、相互相関係数を用いたが、相関係数を求める他の方法を用いるようにしてもよい。そして、上述の音声収集システムの動作を実現するプログラムをコンピュータ上で動作させても同様に所望の話者のみの音声を抽出することができる。
[音声処理の諸段階の順序による音声強調の性能の例]
本発明に係る音声収集においては、前述の図8を用いて音声処理の諸段階及びそれらの順序を示したように、SS処理→CSPによる利得調整→Flooring処理の順で、目的音声を収集するための音声強調処理を行う。この順序は、本発明に係る音声収集方法のための音声強調において重要なポイントであり、以下に処理順番の違いによる音声強調の性能の差を例示する。
音声強調の性能の差を試験するための音声は、マイクロホンアレイ11を介して収集し、サンプリング周波数22kHz、フレームサイズ23ms、フレームシフト15ms、FFTサイズ512点の条件で処理した後、音声強調に用い、目的音声強調信号とした。得られた目的音声強調信号に対して、さらに適宜音声認識処理を実施した。
まず、本発明に係る音声強調を用いることにより、音声認識率が向上する例を示す。表3に、4名の話者による50種類の音声コマンドの発話収録における、音声強調を従来技術に係るSS処理のみとして音声認識処理を実施した場合のコマンド認識率と、本発明に係る所定の順序に基づく音声強調、すなわち、SS処理→CSPによる利得調整→Flooring処理を実施した場合のコマンド認識率の比較を示す。コマンド認識率は音声認識率として扱い得る。従って、表3に示すように、本発明に係る音声強調により、音声認識率を高めることが可能である。
Figure 0005339501
次いで、本発明に係る音声強調の諸段階の順序が、音声認識率の結果に影響する例を示す。表4に、音声強調の処理手順を入れ替えた場合のコマンド認識率を比較した結果を、表3に追記した表として示す。話者及び音声収集条件等は、前述の表3に示した例と同様であり、「処理手順入れ替え1」としてSS処理→Flooring処理→CSPによる利得調整の手順で音声強調を実施し、及び「処理手順入れ替え2」としてCSPによる利得調整→SS処理→Flooring処理とした音声強調を実施した。表4にコマンド認識率として示す音声認識率を比較すると、本発明に係る音声強調の手順として、SS処理→CSPによる利得調整→Flooring処理の順で処理したときに顕著に高い性能が得られた。従って、この順番に処理するという手順が重要であることがわかる。
Figure 0005339501
図9に、本発明に係る音声強調処置の諸段階における雑音区間の音声信号の例を示す。本発明に係る音声強調の処理手順が飛びぬけて高い性能を示す理由として、図9の(a)(b)(c)(d)で示すような模式図による説明が考えられる。雑音区間(目的話者の非発話区間)の例(200)は、いずれも振幅の周波数特性として表す。図9(a)は、スペクトルサブトラクション(SS)処理を行う前のパワースペクトルXω(T)を示す模式図である。図9(b)はSS処理を実施した減算後パワースペクトルYω(T)を示す模式図であり、SS処理によって雑音が減少している。図9(c)はCSP係数による利得調整後のパワースペクトルDω(T)を示す模式図であり、CSP係数による利得調整によって、さらに雑音が減少している。図9(d)は、Flooring処理を行った後の認識用パワースペクトルZω(T)を示す模式図であり、でこぼこしていた雑音のスペクトルが、なだらかなものになる。
CSPとFlooringの効果は、雑音区間(目的話者の非発話区間)に現れる。雑音区間のスペクトルが、SS処理により平らになり、ところどころ飛び出ている山が、CSP係数をかけることによってさらにつぶされ、さらに、Flooringをかけることによって谷が埋められ、平滑化された(比喩としては、雪をかぶったような)なだらかなスペクトル包絡になる。結果として、雑音を目的話者の音声として間違うことがなくなる。従来技術に係る音声認識の方式では、目的話者が発話していないのに、周囲の雑音を目的話者の音声と間違えて誤った認識を起こしてしまうことが問題となっているが、SS処理→(CSP係数による)利得調整→Flooring処理という処理手順で処理すると、その誤りが軽減されると考えられる。
[可搬型販売員音声収集装置の動作状況の例]
図10に、本発明の一実施形態に係る、可搬型販売員音声収集装置60の動作状況を例示する。可搬型販売員音声収集装置60は、マイクロホン60a及び60bを備え、これらは図1〜3及び図6を用いて前述の、本発明に係る音声収集方法の実施装置におけるマイクロホンアレイを構成する。さらに、可搬型販売員音声収集装置60は、本発明に係る音声収集方法の諸段階を実施可能なデジタル信号処理手段を備え、記憶手段、音声再生手段等を適宜含む。
典型的には、可搬型販売員音声収集装置60は販売員22の胸元等に固定され、販売員22が顧客21と対面するときに、販売員22の口元から可搬型販売員音声収集装置60に向かう音声到来方向1(70)及び顧客21の口元から可搬型販売員音声収集装置60にむかう音声到来方向2(72)のそれぞれが、マイクロホン60a及びマイクロホン60bを結ぶ方向ベクトルに対して異なる角度を有するように配置される。例えば、当該方向ベクトルは、販売員22の頭頂から足元に向かい、体軸と略平行な向きを向いており(顧客21から見て2つのマイクロホン60a及び60bは上下に配置しているように見える)、音声到来方向1(70)は当該方向ベクトルと略平行な方向であり、音声到来方向2(71)は当該方向ベクトルに対して略垂直な方向であり得る。これに限らず、可搬型販売員音声収集装置60は、マイクロホン60a及びマイクロホン60bを結ぶ方向ベクトルが音声到来方向1(70)及び音声到来方向2(71)のそれぞれに対して異なる角度をなすように配置されればよく、可搬型販売員音声収集装置60の大きさ、形状等は適宜設計し得る。
このように可搬型販売員音声収集装置60を配置し、マイクロホン60a及びマイクロホン60bを本発明に係る音声収集方法におけるマイクロホンアレイとして用い、前述の目的音声抽出のための方法を実施して、特定の時間差を有して当該マイクロホンアレイに到達する音声を抽出することにより、販売員22の声を選択的に収集することが可能になる。本発明においては、市販入手可能なボイスレコーダ等と類似した形態を有する可搬型販売員音声収集装置60を用いて、販売員の声を選択的に収集する実施手段を実現し得る。
[販売員音声収集装置のハードウェア構成]
図11は、本発明の一実施形態に係る、販売員音声収集装置のハードウェア構成を示す図である。図11においては、販売員音声収集装置を情報処理装置1000とし、そのハードウェア構成を例示する。以下は、コンピュータを典型とする情報処理装置として全般的な構成を説明するが、その環境に応じて必要最小限な構成を選択できることはいうまでもない。
情報処理装置1000は、CPU(Central Processing Unit)1010、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、パラレルポート1080、USBポート1090、グラフィック・コントローラ1020、VRAM1024、音声プロセッサ1030、I/Oコントローラ1070、並びにキーボード及びマウス・アダプタ1100等の入力手段を備える。I/Oコントローラ1070には、フレキシブル・ディスク(FD)ドライブ1072、ハードディスク1074、光ディスク・ドライブ1076、半導体メモリ1078等の記憶手段を接続することができる。
音声プロセッサ1030には、マイクロホン1036及び1037、増幅回路1032、及びスピーカ1034が接続される。また、グラフィック・コントローラ1020には、表示装置1022が接続されている。
BIOS1060は、情報処理装置1000の起動時にCPU1010が実行するブートプログラムや、情報処理装置1000のハードウェアに依存するプログラム等を格納する。FD(フレキシブル・ディスク)ドライブ1072は、フレキシブル・ディスク1071からプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供する。
図5には、情報処理装置1000の内部にハードディスク1074が含まれる例を示したが、バスライン1005又はI/Oコントローラ1070に外部機器接続用インタフェース(図示せず)を接続し、情報処理装置1000の外部にハードディスクを接続又は増設してもよい。
光ディスク・ドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この際は各ドライブに対応した光ディスク1077を使用する必要がある。光ディスク・ドライブ1076は光ディスク1077からプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
情報処理装置1000に提供されるコンピュータプログラムは、フレキシブル・ディスク1071、光ディスク1077、又はメモリーカード等の記録媒体に格納されて利用者によって提供される。このコンピュータプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、又は通信I/F1040を介してダウンロードされることによって、情報処理装置1000にインストールされ実行される。コンピュータプログラムが情報処理装置に働きかけて行わせる動作は、既に説明した装置における動作と同一であるので省略する。
前述のコンピュータプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としてはフレキシブル・ディスク1071、光ディスク1077、又はメモリーカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク又は光ディスク・ライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してコンピュータプログラムを情報処理装置1000に提供してもよい。
以上の例は、情報処理装置1000について主に説明したが、コンピュータに、情報処理装置で説明した機能を有するプログラムをインストールして、そのコンピュータを情報処理装置として動作させることにより上記で説明した情報処理装置と同様な機能を実現することができる。
本装置は、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアの組み合わせによる実施では、所定のプログラムを有するコンピュータシステムでの実施が典型的な例として挙げられる。かかる場合、該所定のプログラムが該コンピュータシステムにロードされ実行されることにより、該プログラムは、コンピュータシステムに本発明にかかる処理を実行させる。このプログラムは、任意の言語、コード、又は表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接実行すること、又は(1)他の言語、コード、もしくは表記への変換、(2)他の媒体への複製、のいずれか一方もしくは双方が行われた後に、実行することを可能にするものである。もちろん、本発明は、そのようなプログラム自体のみならず、プログラムを記録した媒体を含むプログラム製品もその範囲に含むものである。本発明の機能を実行するためのプログラムは、フレキシブル・ディスク、MO、CD−ROM、DVD、ハードディスク装置、ROM、MRAM、RAM等の任意のコンピュータ可読媒体に格納することができる。かかるプログラムは、コンピュータ可読媒体への格納のために、通信回線で接続する他のコンピュータシステムからダウンロードしたり、他の媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。
本発明の一実施形態にかかる音声収集システムの一例を概略的に示すブロック図である。 マイクロホンに対する音声到来方向を示す図である。 本発明の一実施形態に係る、目的音声抽出装置12の構成を示す図である。 マイクロホンの位置に対する話者方向インデックスの一例を示す図である。 マイクロホンの指向性による分類を示す図である。 本発明の実施の形態によるマイクロホンアレイを配置する場所の一例を示す図である。 図1に示す目的音声抽出装置12を詳細に示すブロック図である。 図7に示す発話区間インデックス検出処理部31における処理を説明するためのフロー図である。 本発明に係る音声強調処置の諸段階における雑音区間の音声信号の例を示す図である。 本発明の一実施形態に係る、可搬型販売員音声収集装置60の動作状況を例示する図である。 本発明の一実施形態に係る、販売員音声収集装置のハードウェア構成を示す図である。
符号の説明
10 音声収集システム
11 マイクロホンアレイ
12 目的音声抽出装置
13 顧客対話記録サーバ
31 発話区間インデックス検出処理部
32、33 音声認識部
34 統合選択部
35 録音範囲抽出部
60 可搬型販売員音声収集装置
105、106 離散フーリエ変換処理部
110 CSP係数算出部
120 群遅延アレイ処理部、
130 雑音推定部
140 SS処理部
150 利得調整処理部
160 フロアリング処理部

Claims (14)

  1. 互いに到来方向が異なる複数の音声のうち目的とする目的音声を抽出して収集するために、少なくとも第1のマイクロホン及び第2のマイクロホンを所定の距離離して配置するマイクロホンアレイを用いる音声収集方法であって、
    前記複数の音声は第1の音声及び第2の音声であり、前記第1の音声の発生源及び前記第2の音声の発生源を結ぶ線分と、前記マイクロホンアレイに含まれる前記第1のマイクロホン及び前記第2のマイクロホンを結ぶ線分とが略平行に配置された前記第1のマイクロホン及び前記第2のマイクロホンで受けた音声の信号をそれぞれ離散フーリエ変換して、音声の到来方向に関連する複数のCSP係数を求め、前記複数のCSP係数より前記複数の音声の信号を検出するステップと、
    前記求めた前記複数のCSP係数から、前記第1のマイクロホン及び前記第2のマイクロホンを結ぶ線分と前記到来方向のなす角度の範囲を区別するための音声方向インデックスを検出するステップと、
    前記検出した前記音声方向インデックスにより、前記検出した前記複数の音声の信号から前記目的音声の信号を抽出するステップと、
    前記それぞれ離散フーリエ変換した結果に基づいて、推定される雑音のパワースペクトル(Uω)と減算定数(α)とを用いるSS(スペクトルサブトラクション)処理をするステップと、
    前記SS処理をするステップの出力及び前記CSP係数より利得調整を実施するステップと、
    前記利得調整を実施するステップの出力についてフロアリング係数(β)を用いてフロアリング処理を実施するステップと、
    を含む前記音声収集方法。
  2. 前記複数の音声は第1の音声及び第2の音声であり、前記第1の音声の発生源と前記第2の音声の発生源のそれぞれは、前記第1のマイクロホン及び前記第2のマイクロホンを結ぶ線分を中心軸として予め定められた角度の範囲内に位置する、請求項1に記載の音声収集方法。
  3. 前記音声方向インデックスを検出するステップは、前記複数のCSP係数の大小関係を比較して、1つの音声が前記第1のマイクロホン及び第2のマイクロホンに到達する時間の差が依存する、到来方向の角度の範囲を区別するための前記音声方向インデックスを決定する、請求項1に記載の音声収集方法。
  4. さらに、前記それぞれ離散フーリエ変換した結果に基づいて、前記目的音声を強調するためにアレイ処理をするステップを含む、請求項1に記載の音声収集方法。
  5. 前記複数の音声は第1の音声及び第2の音声であり、前記複数の音声の信号を検出するステップは、さらに前記CSP係数より前記第1の音声の信号及び第2の音声の信号の少なくとも一方について発話区間を検出する、請求項1に記載の音声収集方法。
  6. 前記複数の音声の信号を検出するステップは、さらに前記検出した発話区間より前記第1の音声の信号及び前記第2の音声の信号の少なくとも一方を分離する、請求項に記載の音声収集方法。
  7. 前記複数の音声の信号を検出するステップは、さらに前記第1の音声の信号及び前記第2の音声の信号にそれぞれ対応する音声方向インデックスを第1の音声方向インデックス及び第2の音声方向インデックスとして対応付ける、請求項に記載の音声収集方法。
  8. 前記目的音声の信号を抽出するステップは、さらに
    前記第1の音声の信号及び前記第2の音声の信号と前記第1の音声方向インデックス及び前記第2の音声方向インデックスより、前記第1の音声の信号及び前記第2の音声の信号についてそれぞれ音声認識処理を行って第1の音声認識結果及び第2の音声認識結果を得るとともに、当該第1の音声及び第2の音声が発話された時間を示す第1の時間情報及び第2の時間情報を得る音声認識ステップと、
    前記第1の音声認識結果及び前記第2の音声認識結果を前記第1の時間情報及び前記第2の時間情報とともに統合する統合ステップと、
    前記統合の結果により抽出すべき箇所が選択されると当該箇所に応じた発話区間の音声の信号を切り出す切り出しステップと、
    を含む請求項に記載の音声収集方法。
  9. 前記統合ステップは、さらに前記第1の音声認識結果及び前記第2の音声認識結果、前記第1の時間情報及び前記第2の時間情報、及び前記第1の音声方向インデックス及び前記第2の音声方向インデックスとを関連付けるステップを含む、請求項に記載の音声収集方法。
  10. 前記切り出しステップは、前記統合された情報からの前記選択された箇所に応じた音声方向インデックス及び時間情報に従って発話区間の音声の信号を切り出すステップを含む、請求項に記載の音声収集方法。
  11. 前記切り出した音声の信号を録音対象音声として録音するステップを含む、請求項に記載の音声収集方法。
  12. 請求項1から11のいずれか1項に記載の方法の各ステップを、コンピュータを用いて実行するためのコンピュータプログラム。
  13. 互いに到来方向が異なる複数の音声のうち目的とする目的音声を抽出して収集するために、少なくとも第1のマイクロホン及び第2のマイクロホンを所定の距離離して配置するマイクロホンアレイを用いる音声収集システムであって、
    前記複数の音声は第1の音声及び第2の音声であり、前記第1の音声の発生源及び前記第2の音声の発生源を結ぶ線分と、前記マイクロホンアレイに含まれる前記第1のマイクロホン及び前記第2のマイクロホンを結ぶ線分とが略平行に配置された前記第1のマイクロホン及び前記第2のマイクロホンで受けた音声の信号をそれぞれ離散フーリエ変換して、音声の到来方向に関連する複数のCSP係数を求め、前記複数のCSP係数より前記複数の音声の信号を検出する音声検出手段と、
    前記求めた前記複数のCSP係数から、前記第1のマイクロホン及び前記第2のマイクロホンを結ぶ線分と前記到来方向のなす角度の範囲を区別するための音声方向インデックスを検出する音声方向インデックス検出手段と、
    前記検出した前記音声方向インデックスにより前記検出した前記複数の音声の信号から前記目的音声の信号を抽出する目的音声抽出手段と、
    前記それぞれ離散フーリエ変換した結果に基づいて、推定される雑音のパワースペクトル(Uω)と減算定数(α)とを用いるSS(スペクトルサブトラクション)処理をする手段と、
    前記SS処理をする手段の出力及び前記CSP係数より利得調整を実施する手段と、
    前記利得調整を実施する手段の出力についてフロアリング係数(β)を用いてフロアリング処理を実施する手段と、
    を含む音声収集システム。
  14. 互いに到来方向が異なる第1の音声及び第2の音声のうち前記第1の音声を抽出して収集するために、少なくとも第1のマイクロホン及び第2のマイクロホンを所定の距離離して配置するマイクロホンアレイを用いる音声収集システムであって、
    前記第1の音声の発生源と前記第2の音声の発生源のそれぞれは、前記第1のマイクロホン及び前記第2のマイクロホンを結ぶ線分を中心軸として予め定められた角度の範囲内に位置し、
    前記第1のマイクロホン及び前記第2のマイクロホンで受けた音声の信号をそれぞれ離散フーリエ変換した結果に基づいて目的の音声を強調するためにアレイ処理をする手段と、
    前記それぞれ離散フーリエ変換した結果に基づいて、推定される雑音のパワースペクトル(Uω)と減算定数(α)とを用いるSS(スペクトルサブトラクション)処理をする手段と、
    前記それぞれ離散フーリエ変換した結果よりCSP係数を求め、前記SS処理をする手段の出力及び前記CSP係数より利得調整を実施する手段と、
    前記利得調整を実施する手段の出力についてフロアリング係数(β)を用いてフロアリング処理を実施する手段と、
    前記フロアリング処理を実施した音声信号より前記第1の音声の信号及び第2の音声の信号を検出する音声検出手段と、
    前記第1の音声及び前記第2の音声のそれぞれについて独立に、前記求めた前記CSP係数の大小関係を比較して、1つの音声が前記第1のマイクロホン及び前記第2のマイクロホンに到達する時間の差が依存する、到来方向の角度の範囲を区別するための音声方向インデックスを決定する音声方向インデックス検出手段と、
    前記音声方向インデックスより前記第1の音声の信号を抽出する目的音声抽出手段と、
    前記CSP係数より前記第1の音声の信号の発話区間を検出する発話区間検出手段と、
    前記検出した発話区間より前記第1の音声の信号を分離する目的音声分離手段と、
    を含む音声収集システム。
JP2008189504A 2008-07-23 2008-07-23 音声収集方法、システム及びプログラム Expired - Fee Related JP5339501B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008189504A JP5339501B2 (ja) 2008-07-23 2008-07-23 音声収集方法、システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008189504A JP5339501B2 (ja) 2008-07-23 2008-07-23 音声収集方法、システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2010026361A JP2010026361A (ja) 2010-02-04
JP5339501B2 true JP5339501B2 (ja) 2013-11-13

Family

ID=41732236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008189504A Expired - Fee Related JP5339501B2 (ja) 2008-07-23 2008-07-23 音声収集方法、システム及びプログラム

Country Status (1)

Country Link
JP (1) JP5339501B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10950227B2 (en) 2017-09-14 2021-03-16 Kabushiki Kaisha Toshiba Sound processing apparatus, speech recognition apparatus, sound processing method, speech recognition method, storage medium
WO2022010320A1 (ko) * 2020-07-10 2022-01-13 주식회사 아모센스 음성을 처리하기 위한 장치 및 이의 작동 방법

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2493327B (en) * 2011-07-05 2018-06-06 Skype Processing audio signals
JP2013072978A (ja) * 2011-09-27 2013-04-22 Fuji Xerox Co Ltd 音声解析装置および音声解析システム
JP6007487B2 (ja) * 2011-12-07 2016-10-12 富士ゼロックス株式会社 情報処理装置、情報処理システムおよびプログラム
JP6056544B2 (ja) * 2013-02-26 2017-01-11 富士ゼロックス株式会社 音声解析装置、信号解析装置、音声解析システムおよびプログラム
JP6051996B2 (ja) * 2013-03-26 2016-12-27 富士ゼロックス株式会社 音声解析装置、音声解析システムおよびプログラム
JP5929810B2 (ja) * 2013-03-27 2016-06-08 富士ゼロックス株式会社 音声解析システム、音声端末装置およびプログラム
JP6369022B2 (ja) * 2013-12-27 2018-08-08 富士ゼロックス株式会社 信号解析装置、信号解析システムおよびプログラム
KR101616112B1 (ko) * 2014-07-28 2016-04-27 (주)복스유니버스 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
CN105848062B (zh) * 2015-01-12 2018-01-05 芋头科技(杭州)有限公司 多声道的数字麦克风
KR101547261B1 (ko) * 2015-03-05 2015-08-27 (주)지앤넷 화자 식별 방법
WO2017046888A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 集音装置、集音方法およびプログラム
US10580411B2 (en) 2017-09-25 2020-03-03 Cirrus Logic, Inc. Talker change detection
CN110310642B (zh) * 2018-03-20 2023-12-26 阿里巴巴集团控股有限公司 语音处理方法、系统、客户端、设备和存储介质
CN108735226B (zh) * 2018-07-09 2024-04-02 科沃斯商用机器人有限公司 语音采集方法、装置及设备
KR101970346B1 (ko) * 2019-02-19 2019-04-17 주식회사 소리자바 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치
KR101970347B1 (ko) * 2019-02-19 2019-04-17 주식회사 소리자바 화자 음성의 노이즈를 제거하는 음성인식장치
KR101970753B1 (ko) * 2019-02-19 2019-04-22 주식회사 소리자바 음성인식을 이용한 회의록 작성 시스템
CN113658579B (zh) * 2021-09-18 2024-01-30 重庆紫光华山智安科技有限公司 音频信号处理方法、装置、电子设备及可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4815661B2 (ja) * 2000-08-24 2011-11-16 ソニー株式会社 信号処理装置及び信号処理方法
JP2002135642A (ja) * 2000-10-24 2002-05-10 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声翻訳システム
JP4247037B2 (ja) * 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム
EP1923866B1 (en) * 2005-08-11 2014-01-01 Asahi Kasei Kabushiki Kaisha Sound source separating device, speech recognizing device, portable telephone, sound source separating method, and program
JP4422662B2 (ja) * 2005-09-09 2010-02-24 日本電信電話株式会社 音源位置・受音位置推定方法、その装置、そのプログラム、およびその記録媒体
JP4565162B2 (ja) * 2006-03-03 2010-10-20 独立行政法人産業技術総合研究所 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム
JP2007257088A (ja) * 2006-03-20 2007-10-04 Univ Of Electro-Communications ロボット装置及びそのコミュニケーション方法
JP5156260B2 (ja) * 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10950227B2 (en) 2017-09-14 2021-03-16 Kabushiki Kaisha Toshiba Sound processing apparatus, speech recognition apparatus, sound processing method, speech recognition method, storage medium
WO2022010320A1 (ko) * 2020-07-10 2022-01-13 주식회사 아모센스 음성을 처리하기 위한 장치 및 이의 작동 방법

Also Published As

Publication number Publication date
JP2010026361A (ja) 2010-02-04

Similar Documents

Publication Publication Date Title
JP5339501B2 (ja) 音声収集方法、システム及びプログラム
US8762137B2 (en) Target voice extraction method, apparatus and program product
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
EP3289586B1 (en) Impulsive noise suppression
US9959886B2 (en) Spectral comb voice activity detection
US20170061978A1 (en) Real-time method for implementing deep neural network based speech separation
US20120185246A1 (en) Noise suppression using multiple sensors of a communication device
EP3757993A1 (en) Pre-processing for automatic speech recognition
Roman et al. Pitch-based monaural segregation of reverberant speech
Shokouhi et al. Robust overlapped speech detection and its application in word-count estimation for prof-life-log data
JP2007288242A (ja) オペレータ評価方法、装置、オペレータ評価プログラム、記録媒体
Singh et al. Linear Prediction Residual based Short-term Cepstral Features for Replay Attacks Detection.
Grondin et al. WISS, a speaker identification system for mobile robots
CN108389590B (zh) 一种时频联合的语音削顶检测方法
JP2017097160A (ja) 音声処理装置、音声処理方法、およびプログラム
JP3649032B2 (ja) 音声認識方法
JP5271734B2 (ja) 話者方向推定装置
JP4612468B2 (ja) 信号抽出装置
KR102628500B1 (ko) 대면녹취단말장치 및 이를 이용한 대면녹취방법
Zwyssig et al. On the effect of SNR and superdirective beamforming in speaker diarisation in meetings
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
Maraboina et al. Multi-speaker voice activity detection using ICA and beampattern analysis
JP5672155B2 (ja) 話者判別装置、話者判別プログラム及び話者判別方法
Venkatesan et al. Analysis of monaural and binaural statistical properties for the estimation of distance of a target speaker
Ichikawa et al. Effective speech suppression using a two-channel microphone array for privacy protection in face-to-face sales monitoring

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130709

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20130710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130802

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees