JP4827721B2

JP4827721B2 - 発話分割方法、装置およびプログラム

Info

Publication number: JP4827721B2
Application number: JP2006350508A
Authority: JP
Inventors: 伸泰伊東; 岳人倉田
Original assignee: ニュアンスコミュニケーションズ，インコーポレイテッド
Priority date: 2006-12-26
Filing date: 2006-12-26
Publication date: 2011-11-30
Anticipated expiration: 2026-12-26
Also published as: US8793132B2; US20080154594A1; CN101211559B; JP2008164647A; CN101211559A

Description

本発明は、発話を分割する方法に関し、特に確認応答を用いて発話を分割する方法に関する。

オペレータ業務支援システムなどにおける通話内容の書き起こし作業では、オペレータの音声と顧客の音声とに分離して記録し、テキストデータに変換する作業を行う。従来は録音した音声の検索を効率的に行うために、商品名など予め指定されたキーワードが話された位置を記録し、そのタイムスタンプを索引として利用する。キーワードの位置は音声認識等を用いて特定し、対応する音声部分を再生して書き起こし作業を行っていた。しかしながらこのような方法では、顧客の音声、特に確認応答の情報をうまく利用していないために発話内容について精度よく情報抽出が行えなかった。すなわち従来の方法では、発話単位が適切な単位に分割されないために、音声ストリームから精度よく発話を認識および解析することが難しかった。

特開２００６−２７６７５４

本発明は、以上のような技術的課題を解決するためになされたものであって、その目的は、確認応答を用いて対話音声を発話単位に分割することである。また他の目的は、音声ストリームから精度よく発話を認識することである。

かかる目的のもと、本発明は、対話音声を発話単位に分割する装置であって、単語の表記および発音を記憶した単語データベースと、単語間の接続情報を含む文法を記憶した文法データベースと、少なくとも２チャネルで入力された対話音声について、主発話を行っているチャネルのポーズの位置を検出するポーズ検出部と、主発話を行っていないチャネルの確認応答の位置を検出する確認応答検出部と、前記確認応答の位置を基点として前後一定区間に存在する前記ポーズを抽出することにより、前記主発話の境界候補を抽出する境界候補抽出部と、抽出された前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する認識部を有するように構成する。
また前記文法データベースが、定型句文法、確認応答文法、認識文法を含むようにしてもよい。さらに、前記定型句文法が、確認開始および終了定型句を含み、前記単語データベースが、前記確認開始および終了定型句の表記および発音を含み、前記定型句文法を参照して、発話単位に分割するための認識対象区間を予め決定する認識対象区間決定部を有するようにしてもよい。

別の態様として、複数チャネルの対話音声を入力として、記憶装置に記憶された、単語の表記および発音を記述した単語データベースと、単語間の接続情報を含む文法を記述した文法データベースを用いて前記対話音声を発話単位に分割する方法であって、主発話を行っているチャネルのポーズの位置を検出する段階と、主発話を行っていないチャネルの確認応答の位置を検出する段階と、前記確認応答の位置を基点として前後一定区間に存在する前記ポーズを抽出することにより、前記主発話の境界候補を抽出する段階と、抽出された前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する段階を有するようにする。

本発明によれば、音声ストリームが確認応答とポーズ位置を組み合わせた情報を元に適切な発話単位に分割され、発話の認識、解析の精度が向上する

図１は本発明の発話音声を発話単位に分割する装置である。装置は大きく境界抽出部１２０と認識部１３０に分かれる。境界抽出部はさらにポーズ検出部１２２、確認応答検出部１２４、境界候補抽出部１２６に分かれる。境界抽出部１２０、認識部１３０ともに本発明の処理に際し、単語の表記およびそれに対応する発音が記述された単語データベース１４０、および単語間の接続情報を記述した文法データベース１５０を参照する。単語データベース１４０の発音は音素単位で記述される。各音素は望ましくはどのような統計的性質をもった信号であるかを音響モデルで記述されており、これにより対話音声がどの単語であるかを判断することができる。文法データベース１５０には定型句文法、確認応答文法、認識文法を含む。文法とは定型のパターンに合致するかどうかを判定するためのルールである。これらの文法例をＢＮＦに準じた記法で以下に示す。

定型句文法：＜確認開始、終了定型句＞
＝それ？では（確認｜復唱）させていただきます。
｜ありがとうございました
確認応答文法：＜確認応答＞
＝はい｜ええ｜そうです
認識文法：＜確認内容＞
＝商品番号が？＜NUMBER＞の＜PRODUCT_NAME＞
｜為替ヘッジは？ (あり｜なし)
｜口数は＜NUMBER＞口
＜NUMBER＞＝（０｜１｜２｜３｜４｜５｜６｜７｜８｜９）＋
＜PRODUCT_NAME＞＝ＩＢＭグローバルファンド｜ＩＴドリームファンド｜ドル国際｜・・・

なお確認応答とは、話者の内容に呼応して確認を行う応答である。典型的には話者交代を行わずに相手に対して短い応答を返す相槌がそれに該当する。従来技術ではこのような確認応答は発話の分割および認識に際して積極的に用いられずむしろ捨てる対象となっていた。上記確認応答文法には例示として３つの確認応答が登録されている。他の確認応答も適宜追加可能である。

境界抽出部１２０には連続した対話音声１１０、すなわち音声ストリームが各話者に対応した複数チャネルに分かれて入力される。境界抽出部１２０では以下に説明する本発明の方法により、主たる発話を行っているチャネルの音声データと主発話を発話単位に分割するための境界候補が認識部に渡される。境界候補の渡し方は音声ストリームの始点を基点とした場合の時刻とする。認識部では渡された音声データおよび上記境界候補を元に認識文法と辞書を参照しながら認識を実施し、最適と考えられる分割点（列）と分割された各単位に対応する認識結果である所の単語列１６０を出力する。単語列は例えば、区間１はＸＸＸＸ、区間２はＹＹＹＹなどのように区間と認識内容の構成を取る。単語列１６０は好ましくは使用目的にしたがってさらに文理解部等に渡される。文理解部については本発明とは独立した処理であるため説明は省略する。

図２および図３を用いて、本発明の処理の詳細を説明する。ある商品取引における２チャネルの対話音声が音声ストリームとして入力された場合について説明する。図２には本発明の処理のフローチャートを図示し、図３には図２の各ステップに対応したより具体的な処理を音声波形のデータを用いて図示している。音声波形は分かり易さのために波形の頂点を結んだ台形で描いている。図３は主発話が「では復唱させていただきます。商品番号２７５のＩＢＭファンド２０口、為替ヘッジなし。ありがとうございました。」の場合について説明している。図３のＣ１、Ｃ２はチャネルを表し、Ｃ２が話者の音声波形であり、Ｃ１が発話を聞いて確認応答を返す聞き手の音声波形である。ここでの目的は主発話（話者の発話）についてそれとは異なるチャネルの確認応答を用いて適切に認識、理解することであり、以下のステップに従って処理が実行される。

ステップ２１０で定型句文法と主発話に対応するチャネルの音声を突き合わせることにより、認識対象とすべき発話区間の時刻 (t_s, t_e) が記録される。この処理は図３の３１０に相当する。定型句文法ではひとかたまりの発話群の始端および終端に現れるさまざまな定型句を登録しておく。商品取引の確認の定型句では、開始として「では復唱させていただきます」や終了として「ありがとうございました」がその典型例である。この確認開始、終了についての定型句については適用分野に依存して決まるものであり、上記に限らない。またこのような定型句の発話場所同定（スポッティングとも呼ばれる）においては対象となる定型句以外にマッチするガベージ文法（モデル）を併用することが多く行われるが、当分野ではよく知られているためここでは説明を省略する。また全発話が認識対象である場合にはこのステップは行われず、(t_s, t_e) = (0,コール終了時) となる。

ステップ２２０〜２５０は発話の境界（分割位置）を抽出する境界抽出部１２０における処理である。境界抽出部１２０では入力された対話音声について、主発話を行っているチャネルのポーズの位置と、主発話を行っていないチャネルの確認応答の位置を検出し、確認応答の位置を基点として前後一定区間に存在する前記ポーズを抽出することにより、発話の境界（分割位置）の候補を抽出する。

より詳細には、ステップ２２０でポーズ検出部がＣ２の認識対象区間についてポーズの位置を検出する。この処理は図３の３２０に相当する。この検出は通常音声のパワーや、あらかじめ学習した無音の音素モデルと突き合わせることによって行わる。ここで抽出するポーズは境界候補であり、最終的な境界の決定は確認応答の位置および文法とつき合わせたときの尤度と組み合わせることにより行われるので、抽出した位置の内何個が本当に文やフレーズ境界に該当するポーズであったかという精度、つまり一致率（precision）よりも検出すべきポーズの内、何個を正しく検出できたかという再現率（recall）を重視することが望ましい。ここでは合計５個のポーズ候補（p1,…,p5）が検出されている。

ステップ２３０で確認応答検出部が応答側（聞き手）であるチャネルＣ１の認識対象区間について、確認応答文法と突き合わせることにより、確認応答の位置を検出する。確認応答文法には確認のため発する表現、例えば「はい」「ええ」といった単語またはフレーズを登録する。この処理は図３の３３０に相当する。ここでは３個の確認応答（r1,…,r3）が抽出されている。

ステップ２４０以下の処理でポーズの位置と確認応答の位置を元に認識対象区間を分割しつつ、認識を行う。この処理は図３の３４０に相当する。最初の分割位置始端を t_s とする。そしてこの始端から音声を走査したとき一番最初に検出された確認応答の位置 (r1) を基点として一定区間（r1-ΔTa, r1+ΔTb) 内に存在するポーズを抽出する。これが分割位置終端となる境界候補である。ここでは p1, p2, p3 が抽出される。Ta、Tbは対象とする分割終端と確認応答のずれの許容度によって決められるもので、通常500msecから1,000mcに設定する。

ステップ２５０で認識部１３０が分割位置始端とステップ２４０で抽出された境界候補に挟まれた区間について認識を行い、最も高い尤度を持つ区間を発話単位として認識し、単語列を出力する。この処理は図３の３５０に相当する。抽出された境界候補を分割位置終端として、挟まれた区間、つまり区間Ａ、区間Ｂ、区間Ｃについて認識文法と突き合わせることにより認識を実施し、認識結果と同時にその尤度が計算される。尤度は音声区間の長さに応じて適時正規化、比較され、もっとも高い尤度をもつ区間が分割位置終端として決定し、認識結果（単語列）とともに、部分区間の結果として認識部から出力される。この場合、尤度が７．８と最も高い区間Ｂが決定される。認識文法は分割した発話単位で出現するフレーズを記述したもので、例えば以下の定型のパターンが来た場合に認識が成功する。
商品番号が？＜NUMBER＞の＜PRODUCT_NAME＞
為替ヘッジは？ (あり｜なし)
口数は＜NUMBER＞口
認識結果の尤度にはさまざまなものが考えられるが、一つには出力単語列を条件としたとき、当該区間（ここでは（t_s, p2））から、音響上の特徴量Ｘが出力される確率Ｐ（Ｘ｜Ｗ）に基づき算出する。ここでＷは単語列である。この値は認識部が音響特徴量の列と音響モデルを突き合わせる際、付随的に得ることができる。上記尤度や確信度については音声認識の分野では数多くの研究があり、確率値の算出方法には種々のバリエーションが考えられる。ステップ２５０の認識と尤度による分割区間判定は認識文法ではなく統計的言語モデルにより実施することも考えられる。その場合は書き起こした学習テキストから言語モデルを作成する際に、確認応答に対応した位置に文始端、終端記号を挟んで学習し、認識に使用する。この統計言語モデルを用いた場合の尤度の計算には音響上の特徴量Ｘが出力される確率Ｐ（Ｘ｜Ｗ）に言語モデルの出力確率Ｐ（Ｗ）を掛けた、Ｐ（Ｗ）・Ｐ（Ｘ｜Ｗ）を用いるようにしてもよい。

ステップ２５５で認識対象区間が終了したか判断し、終了の場合には処理は終了する。そうでない場合には処理はステップ２６０に進む。

ステップ２６０では分割位置始端をステップ２５０で決定した分割位置終端、すなわち区間Ｂの右端である p2 に変更し、ステップ２４０〜ステップ２６０を認識対象区間が終了するまで繰り返す。この処理は図３の３６０に相当する。

図４に、従来技術と本発明の分割および認識結果の相違を示す。従来技術として全認識対象区間を１つの連続した発話として認識し認識文法のみで自動分割を行う方法を取り上げる。４１０が従来技術の分割および認識結果である。音声ストリームである、「では注文復唱させていただきます、間違いがないかご一緒に確認をお願いいたします。」から「はい、では入力いたしました。」に至る音声ストリームの多くについて分割および認識が失敗している。一方、本発明による分割および認識結果である４２０においては主発話の発話区間が正しく分割および認識されている。なお上記入力の読点、句点は字面としての見易さのために挿入しているものである。

次に本発明のハードウェア構成例を説明する。もちろん図１における各ブロックを専用のハードウェアで構成してもよいが、一般的な情報処理装置でも同様に実施可能である。図５に本発明の装置としても用いることできる情報処理装置のハードウェア構成例を示す。コンピュータ５０１は、ホストコントローラ５１０により相互に接続されるＣＰＵ５００、ＲＡＭ５４０、ＲＯＭ５３０及びＩ／Ｏコントローラ５２０を有するＣＰＵ周辺部と、Ｉ／Ｏコントローラ５２０により接続される通信インターフェイス５５０、ハードディスクドライブ５８０、及びＣＤ／ＤＶＤ等の円盤型メディア５９５を読み書きできるマルチコンボドライブ５９０、フレキシブルディスク５８５を読み書きできるＦＤドライブ５４５、サウンド入出力装置５６５を駆動するサウンドコントローラ５６０、表示装置５７５を駆動するグラフィックコントローラ５７０を備える。

ＣＰＵ５００は、ＲＯＭ５３０、ＢＩＯＳ及びＲＡＭ５４０に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ５７０は、ＣＰＵ５００等がＲＡＭ５４０内に設けたバッファ上に生成する画像データを取得し、表示装置５７５上に表示させる。もしくはグラフィックコントローラ５７０はＣＰＵ５００等が生成する画像データを格納するバッファをその内部に含んでもよい。より具体的にはサウンド入出力５６５から複数チャネルで音声ストリームが入力され、Ｉ／Ｏコントローラ５２０を経て記憶装置５８０に記憶される。記憶装置５８０には単語データベース１４０、文法データベース１５０が記憶されており、入力され記憶された複数チャネルの対話音声とこれら辞書を用いて主発話がＣＰＵ５００の演算処理により適切に分割および認識される。この演算処理は記憶装置５８０から本発明の分割、認識を行うためのプログラムをメモリ５４０にロードし、これを実行して行われる。発話の分割および単語列の出力結果は表示装置５７５に表示される。

通信インターフェイス５５０は、ネットワークを介して外部の通信機器と通信する。情報処理装置５０１が通信インターフェイス５５０を通して外部の対話音声を受け取り情報処理装置５０１において分割および認識を行い、その結果を通信インターフェイス５５０を通して外部の情報処理装置に送信することも可能である。なおネットワークは有線、無線、赤外線、ＢＬＵＥＴＯＯＴＨ等の近距離無線で接続しても本願の構成を何ら変更することなく利用可能である。記憶装置５８０は、コンピュータ５０１が使用する本発明のプログラム、アプリケーション、ＯＳ等のコード及びデータを格納する。マルチコンボドライブ５９０は、ＣＤ／ＤＶＤ等のメディア５９５からプログラム又はデータを読み取り、これら記憶装置５８０から読み取られたプログラム、データはＲＡＭ５４０にロードされＣＰＵ５００により利用される。本発明のプログラムおよび辞書は外部記憶メディアから供給されてもよい。

外部記憶メディアとしては、フレキシブルディスク５８５、ＣＤ−ＲＯＭの他に、ＤＶＤやＰＤ等の光学記録媒体、ＭＤ等の光磁気記録媒体、テープ媒体、ＩＣカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はＲＡＭ等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを取り込んでもよい。上記の構成の一例から理解されるように、本発明に必要なハードウェアは通常のコンピュータ機能を有するものは如何なるものでも利用可能である。例えばモバイル端末、携帯端末、家電機器でも何らの支障なく利用可能である。なお図５は本実施の形態を実現するコンピュータのハードウェア構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々の構成を取ることができる。上記の構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。

本発明に好適な情報処理装置５０１は、マイクロソフト・コーポレーションが提供するＷｉｎｄｏｗｓ（Ｒ）オペレーティング・システム、アップル・コンピュータ・インコーポレイテッドが提供するＭａｃＯＳ（Ｒ）、ＸＷｉｎｄｏｗＳｙｓｔｅｍを備えるＵＮＩＸ（Ｒ）系システム（たとえば、インターナショナル・ビジネス・マシーンズ・コーポレーションが提供するＡＩＸ（Ｒ））のような、ＧＵＩ（グラフィカル・ユーザー・インターフェース）マルチウインドウ環境をサポートするオペレーティング・システムが動作する。また、本発明は、ハードウェア、ソフトウェア、またはハードウェア及びソフトウェアの組み合わせとして実現可能である。

発話音声を発話単位に分割する装置である。本発明の処理のフローチャートである。各処理の具体的を示した図である。従来技術と本発明の分割および認識結果の相違を示す図である。本発明を実施可能なハードウェア構成例である。

符号の説明

１２０境界抽出部
１２２ポーズ検出部
１２４確認応答検出部
１２６境界候補抽出部
１３０認識部
１４０単語データベース
１５０文法データベース
１１０対話音声
１６０単語列
５００ＣＰＵ
５０１情報処理装置
５１０ホストコントローラ
５２０コントローラ
５３０ＲＯＭ
５４０ＲＡＭ
５４５ドライブ
５５０通信インターフェイス
５６０サウンドコントローラ
５６５サウンド入出力装置
５７０グラフィックコントローラ
５７５表示装置
５８０記憶装置
５８５フレキシブルディスク
５９０マルチコンボドライブ
５９５メディア

Claims

対話音声を発話単位に分割する装置であって、
単語の表記および発音を記憶した単語データベースと、
単語間の接続情報を含む文法を記憶した文法データベースと、
少なくとも２チャネルで入力された対話音声について、主発話を行っているチャネルのポーズの位置を検出するポーズ検出部と、
主発話を行っていないチャネルの確認応答の位置を検出する確認応答検出部と、
前記主発話を行っていないチャネルの確認応答の位置を基点として前後一定区間に存在する前記主発話を行っているチャネルのポーズを抽出することにより、前記主発話の境界候補を抽出する境界候補抽出部と、
抽出された前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する認識部
を有する、装置。
前記文法データベースが、定型句文法、確認応答文法、認識文法を含む、請求項１記載の装置。
前記定型句文法が、確認開始および終了定型句を含み、
前記単語データベースが、前記確認開始および終了定型句の表記および発音を含み、
前記定型句文法を参照して、発話単位に分割するための認識対象区間を予め決定する認識対象区間決定部を
さらに有する、請求項２記載の装置。
前記認識部が、
前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して尤度を計算し該尤度の最も高い区間を発話単位として分割し単語列を出力する、
請求項１記載の装置。
複数チャネルの対話音声を入力として、記憶装置に記憶された、単語の表記および発音を記述した単語データベースと、単語間の接続情報を含む文法を記述した文法データベースを用いて前記対話音声を発話単位に分割する方法であって、
主発話を行っているチャネルのポーズの位置を検出する段階と、
主発話を行っていないチャネルの確認応答の位置を検出する段階と、
前記主発話を行っていないチャネルの確認応答の位置を基点として前後一定区間に存在する前記主発話を行っているチャネルのポーズを抽出することにより、前記主発話の境界候補を抽出する段階と、
抽出された前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する段階
を有する、方法。
前記単語列を出力する段階が、
前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して尤度を計算し該尤度の最も高い区間を発話単位として分割し単語列を出力する段階である、
請求項５記載の方法。
複数チャネルの対話音声を入力として、記憶装置に記憶された、単語の表記および発音を記述した単語データベースと、単語間の接続情報を含む文法を記述した文法データベースを用いて前記対話音声を発話単位に分割するためのプログラムであって、該プログラムがコンピュータに、
主発話を行っているチャネルのポーズの位置を検出する機能と、
主発話を行っていないチャネルの確認応答の位置を検出する機能と、
前記主発話を行っていないチャネルの確認応答の位置を基点として前後一定区間に存在する前記主発話を行っているチャネルのポーズを抽出することにより、前記主発話の境界候補を抽出する機能と、
抽出された前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する機能
を実現させる、プログラム。
前記単語列を出力する機能が、
前記境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して尤度を計算し該尤度の最も高い区間を発話単位として分割し単語列を出力する機能である、
請求項７記載のプログラム。