JP2013182150A

JP2013182150A - 発話区間検出装置及び発話区間検出のためのコンピュータプログラム

Info

Publication number: JP2013182150A
Application number: JP2012046358A
Authority: JP
Inventors: Shigeki Matsuda; 繁樹松田; Hidenori Kashioka; 秀紀柏岡; Naoya Ito; 直哉伊東
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2012-03-02
Filing date: 2012-03-02
Publication date: 2013-09-12
Anticipated expiration: 2032-03-02
Also published as: JP5988077B2

Abstract

【課題】背景に人の声が入る環境下でも頑健に特定話者の発話区間を検出できる発話区間検出装置を提供する。
【解決手段】発話区間検出装置は、特定話者の音響モデル１０８、不特定話者の音響モデル１０６、及び、無音状態の音響モデル１１０を記憶する音響モデル記憶装置と、音声信号のフレームごとに音響特徴量を算出して出力する特徴抽出部１０２と、一連の音響特徴量からなるフレームの各々が、特定話者、不特定話者、及び無音状態からの音声である尤度を音響モデル１０８，１０６及び１１０を用いて算出する尤度算出部１２４、１２６、及び１２８と、算出された尤度に基づいて特定話者の音声信号から得られた区間を推定するモデル適用部１２２とを含む。
【選択図】図３

Description

この発明は、音声認識等における特定話者の発話区間検出装置及びコンピュータプログラムに関し、特に、携帯電話のように他人の発話が存在していることが多い環境下で、特定話者の発話区間を精度高く検出するための装置及びプログラムに関する。

コンピュータ及び通信技術が発達し、人々の生活のあらゆる場面で利用される状況が出現しつつある。特に、携帯可能なコンピュータともいうべきいわゆるスマートフォンの普及により、あらゆる場所で多くの人が他の端末と通信する機会を持つようになった。

こうした状況で問題になるのは、いわゆるユーザインターフェイスである。特に大量のテキストを入力したり、スマートフォンに特定の動作をするために特定の文字列を入力したりする必要があるときには、いかにしてそれらを効率良く入力するかが問題となる。スマートフォンでは、タッチパネルにいわゆるソフトキーボードを表示し、それを使用して文字列の入力を行なうことが一般的である。しかし、スマートフォンが携帯可能でなければならないという制約から、このキーボードは小さく、使いにくく、またタッチパネルによるため、誤って少しだけタッチパネルの表面に触れただけで意図と異なる入力がされたりすることもある。したがって、スマートフォンでの文字列の入力には、冷静さと、忍耐とが必要である。

こうした問題を解決するための１つの手段は、大多数の人が日常使用している「声」による入力である。声を使って正しい入力をスマートフォンに与えることができれば、小さなキーボードに頭を悩ます必要もないし、入力の効率の悪さに腹をたてる必要もない。スマートフォンの弱点である使い勝手が向上し、さらに生活の広い範囲でスマートフォンを使う機会が増えるであろう。現実に、音声による問いかけに対して、その音声を認識し、その内容を理解し、適切な応答をする技術が、スマートフォンのユーザインターフェイスに採用されている例が出現している。

スマートフォンにおいて特に問題となるのは、その使用される環境が様々であり、周囲の雑音（環境音）が一定しないという事実である。オフィスであれば、環境音はほとんどない。したがって、オフィスのコンピュータを用いて収録した音声に対し音声認識を行なうと、かなり高い精度が得られる。しかし、携帯電話は屋外で使用されることが多く、そのような良好な環境は期待できない。特に問題となるのが、環境音の中での発話区間の検出である。発話がないにもかかわらず、環境音を音声としてその内容を認識しようとすれば意味のない出力しか得られない。逆に、発話があるにもかかわらず、その認識をしないようであれば、重要な情報が認識結果から欠落する可能性がある。そこで、音声認識においては、発話区間の検出を高い精度で行なうことが重要になる。

発話区間の検出を阻害する環境音には、色々な種類があり、その種類に応じて対処の方法が異なる。例えば、エアコン、自動車のエンジン音等は定常的な雑音である。こうした雑音には、スペクトラム減算法、ウイーナーフィルタ等による雑音抑圧が有効である。電車が駅に進入する際の音、又は工事現場の音のように、非定常な雑音の場合には、パーティクルフィルタによる雑音トラッキングが有効である。それに対して、話者以外の人の声、例えば隣又は後ろの席にいる人の声等の場合には、人の声を強調するような雑音抑圧手法では対処が困難である。１つの方法としてはマイクロフォンアレイが考えられる。しかし、複数のマイクロフォンが必要となるため、日常的な使用目的には適していない。そこで、マイクロフォンが１つでも、有効に人の声からなる背景雑音を排除し、目的とする話者の発話区間のみを精度よく検出することが望まれる。

発話区間の検出手法の１つとして、後掲の非特許文献１に開示された、確率モデルを使用するものがある。図１を参照して、従来の発話区間検出の１手法は、隠れマルコフモデル（ＨＭＭ）３０を用いるものである。このＨＭＭ３０は、始点４０と終点４２との間に、４つの状態４４、４６、４８及び５０を配置したものである。状態４４、４８及び５０は、発話のない状態（以下「ＳＩＬ」と書く）に対応する。状態４６は、発話がある状態（以下「ＳＰ」と書く）に対応する。状態４４、４８及び５０からの音響パラメータの出力確率は、発話のないときの音響モデルである雑音ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）により表される。状態４６からの音響パラメータの出力確率は、発話に基づいて予め準備された音響モデルである音声モデルＳＰにより表される。この例では、状態と状態との間に図示したような遷移リンクがある状態から次の状態への遷移リンクには同じ確率が割当てられている。例えば、状態４６から出ていくリンクは自己へのリンクも含めて３つあるが、これらには全て１／３という遷移確率が割当てられている。

なお、通常、音声認識による入力をする際には、ユーザは、何らかの形で音声認識の開始を音声認識装置に対して指示し（例えば発話開始のボタンを押す）、発話を開始する。ユーザは、発話が終わると、音声認識の終了を音声認識装置に対して指示する（例えば発話終了を示すボタンを押す）。したがって、発話区間検出の最初と最後には無音状態があることが想定され、それらの無音状態に挟まれた時間帯が発話区間となる。さらに、発話区間中にも無音の時間帯がところどころに存在すると考えられる。そうした遷移をモデル化したものが図１に示すものである。

従来は、このＨＭＭ３０を用い、入力される音声データの特徴量に基づき、発話中である確率を音声モデルにより算出する。同様に、発話がない状態である確率を雑音モデルにより算出する。両者を比較し、雑音モデルから得られた確率よりも音声モデルから得られた確率の方が高い場合に発話中であると判定する。

リー・アキノブ、ＴｈｅＪｕｌｉｕｓＢｏｏｋ第５章音声区間検出・入力棄却、［ｏｎｌｉｎｅ］、［平成２３年２月２５日検索］、インターネット＜ＵＲＬ：http://julius.sourceforge.jp/juliusbook/ja/desc_vad.html＞

ＨＭＭを用いることにより、様々な環境下で、様々な話者に関する発話状態の検出を一定の枠組みで取扱える。しかし、ＨＭＭを用いた場合にも、依然として、背景に発話者以外の人の声を含む雑音が含まれている場合には、発話区間の検出精度が低くなるという問題がある。これは、背景に存在する、発話者以外の音声を発話者の音声として誤って検出してしまうことに起因する。音声認識システムへの入力となる音声中に、対象となる音声と異なる音声区間が含まれていると、発話者以外の音声を原因とする単語挿入誤りが発生してしまい、音声認識性能が劣化するという問題がある。

したがって、本発明の目的は、背景に人の声が入る環境下でも頑健に特定話者の発話区間を検出できる発話区間検出装置を提供することである。

本発明の第１の局面に係る発話区間検出装置は、特定話者の音声信号の発話区間を検出するための発話区間検出装置である。この装置は、特定話者の音声信号を音源として得た音響特徴量を用いて学習済の第１の統計的音響モデル、不特定話者の学習用音声信号を音源として得た音響特徴量を用いて学習済の第２の統計的音響モデル、及び、発話のない状態の学習用音声信号を音源として得た音響特徴量を用いて学習済の第３の統計的音響モデルを記憶するための音響モデル記憶手段と、音声信号をフレーム化し、フレームごとに音響特徴量を算出して出力するための音響特徴量算出手段と、音響特徴量算出手段により出力される、一連の音響特徴量からなるフレームの各々が、第１、第２及び第３の統計的音響モデルの元となる音声信号から得られた尤度を第１、第２及び第３の統計的音響モデルを用いて算出するための尤度算出手段と、尤度算出手段により算出された尤度に基づいて各フレームの音響特徴量が特定話者の音声信号から得られた区間を推定するための発話区間推定手段とを含む。

好ましくは、発話区間推定手段は、尤度算出手段により算出された尤度を用いるＨＭＭを用いた状態遷移により、各フレームの音響特徴量が特定話者の音声信号から得られた区間を推定するＨＭＭによる状態推定手段を含む。ＨＭＭは、始点と終点との間に配置された第１〜第６の状態を含む。第１、第４及び第６の状態の音響特徴量の出力確率は、第３の統計的音響モデルを用いて尤度算出手段により算出される。第２及び第５の状態の音響特徴量の出力確率は、第２の統計的音響モデルを用いて尤度算出手段により算出される。第３の状態の音響特徴量の出力確率は、第１の統計的音響モデルを用いて尤度算出手段により算出される。ＨＭＭはさらに、第１〜第６の状態の各々について定義された、自己に遷移するリンクと、始点から第１の状態及び第２の状態にそれぞれ遷移するリンクと、第１の状態と第２の状態との間で相互に遷移するリンクと、第１の状態と第２の状態とからそれぞれ第３の状態に遷移するリンクと、第３の状態と第４の状態との間で相互に遷移するリンクと、第３の状態から第５及び第６の状態にそれぞれ遷移するリンクと、第５の状態と第６の状態との間で相互に遷移するリンクと、第５の状態及び第６の状態から終点にそれぞれ遷移するリンクとを含む。

より好ましくは、ＨＭＭはさらに、第７の状態を含む。当該第７の状態の音響特徴量の出力確率は、第２の統計的音響モデルを用いて尤度算出手段により算出されるものである。ＨＭＭはさらに、第７の状態から当該第７の状態に遷移するリンクと、第３の状態と第７の状態との間で相互に遷移するリンクとを含む。

さらに好ましくは、ＨＭＭの各リンクに割当てられた遷移確率は、状態ごとに、当該状態を起点とするリンクの全てにおいて等しくなるように定められる。

発話区間推定手段は、尤度算出手段によりフレームごとに、第１、第２及び第３の統計的音響モデルの算出する尤度を比較し、最大の尤度を与える統計的音響モデルに対応する音源を、当該フレームの音源候補として推定する音源候補推定手段と、音源候補推定手段によりフレームごとに推定された音源候補の時系列を平滑化するための平滑化手段と、平滑化手段により平滑化された音源候補の時系列の内、第１の統計的音響モデルに対応する音源からの得られたものであると推定されたフレーム列を特定話者の発話区間として特定するための手段とを含んでもよい。

好ましくは、平滑化手段は、音源候補推定手段によりフレームごとに推定された音源候補の時系列を、ハングオーバ方式により平滑化するための手段を含む。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの発話区間検出装置の各手段として機能させる。

以上のように本発明によれば、特定話者の音声信号を音源として得た音響特徴量を用いて学習済の第１の統計的音響モデル、不特定話者の学習用音声信号を音源として得た音響特徴量を用いて学習済の第２の統計的音響モデル、及び、発話のない状態の学習用音声信号を音源として得た音響特徴量を用いて学習済の第３の統計的音響モデルを用いて、音声の音源が特定話者か、不特定話者か、無音状態かを推定する。無音状態でなくとも、特定話者ではなく不特定話者の音声である確率が高い区間については、特定話者の発話区間から排除できる。その結果、背景に人の声が入る環境下でも頑健に特定話者の発話区間を検出できる発話区間検出装置を提供できる。

従来の発話区間検出のためのＨＭＭ３０のトポロジーを示す図である。本発明の第１の実施の形態に係る発話区間検出装置を利用する音声認識システムの構成を示すブロック図である。本発明の第１の実施の形態で発話区間検出を実行するスマートフォンの内、発話区間検出に関係する部分の機能的ブロック図である。本発明の第１の実施の携帯に係る発話区間検出装置で採用した発話区間検出のためのＨＭＭのトポロジーを示す図である。本発明の第１の実施の形態に係る発話区間検出装置による発話区間検出の精度を、従来の装置による精度と比較して示すグラフである。本発明の第１の実施の形態に係る発話区間検出装置による発話区間検出結果（Ｂ）を、従来の発話区間検出装置による結果（Ａ）と比較して示す図である。本発明の第２の実施の形態に係る発話区間検出装置を用いた携帯電話の内、発話区間検出に関連する部分を示す機能的ブロック図である。本発明の第２の実施の形態の動作を説明するための、話者検出プロセスを示す模式図である。本発明の第２の実施の形態の動作を説明するための、話者検出の平滑化の結果を示す模式図である。本発明の第２の実施の形態において、話者検出の結果を平滑化する処理を実現するためのプログラムの制御構造を示すフローチャートである。本発明の第１の実施の形態の変形例で使用されるマルコフモデルのトポロジーを示す図である。本発明の第１及び第２の実施の形態に係る発話区間検出装置を実現する携帯電話のハードウェアブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

［第１の実施の形態］
《構成》
図２に、本発明の第１の実施の形態に係る音声認識システム６０の構成を模式的に示す。図２を参照して、この音声認識システム６０は、インターネット６２に接続され、各種端末に対して音声認識サービスを提供する音声認識サーバ６４と、インターネット６２を介して音声認識サーバ６４と通信可能で、音声認識サーバ６４による音声認識サービスを受けるための機能を備えた、この発明の第１の実施の形態に係る発話区間検出装置を採用した携帯電話６６とを含む。

携帯電話６６は、本実施の形態ではいわゆるスマートフォンであって、タッチ操作が可能なタッチ・パネル・ディスプレイ７２と、マイクロフォン７０と、電話による通話を再生するスピーカ（図示せず）とを含む。

携帯電話６６から音声認識サーバ６４には、発話の結果得られた音声特徴量のフレーム系列が送信される。フレームは、音声信号を所定の時間長でかつ所定のシフト長でデジタルデータ化したものである。本実施の形態の場合、携帯電話６６から音声認識サーバ６４に送信されるのは、各フレームの音声から得た所定の音響特徴量の系列である。各フレームには、そのフレームが発話区間であるか否かのフラグが付されている。音声認識サーバ６４は、そのフラグに基づき、送信されてきた音声の内、発話区間に対しての音声認識を行ない、その結果のテキストデータを携帯電話６６に対して送信するサービスを提供する。

図３を参照して、携帯電話６６の内、発話区間検出に関係する部分は、マイクロフォン７０の出力する電気信号（以下「音声信号」と呼ぶ）に対し、音声認識サーバ６４を用いた音声認識処理の内、携帯電話６６側での処理を行なうフロントエンド処理部７６とを含む。フロントエンド処理部７６は、音声信号を所定シフト長で所定長のフレームに分け、各フレームについて所定の音響特徴量を算出し、音響特徴量からなるフレーム列に変換して出力する。このとき、フロントエンド処理部７６は、各フレームにそのフレームが発話区間か否かを示すフラグを付す。

携帯電話６６はさらに、フロントエンド処理部７６が出力するフラグ付きの音響特徴量の各フレームを一時記憶するための送信バッファ７８と、送信バッファ７８に記憶された音響特徴量のフレーム列をインターネット６２（又は図示しない無線電話回線網）を介して音声認識サーバ６４に送信し、その音声認識結果を音声認識サーバ６４から受信してフロントエンド処理部７６に渡して処理させる送受信部８０と、フロントエンド処理部７６により処理されたテキストデータを受けるアプリケーション７４とを含む。なお、フロントエンド処理部７６は、音声認識サーバ６４から受信したテキストデータをタッチ・パネル・ディスプレイ７２に一時表示し、必要な編集をした上でアプリケーション７４に渡す機能を持つ。アプリケーション７４は、ユーザから入力されるデータに基づいて動作するものであればどのようなものでもよい。

フロントエンド処理部７６は、マイクロフォン７０からの音声信号をデジタル化し、所定シフト長で所定長のフレームに変換して出力するフレーム化処理部１００と、フレーム化処理部１００の出力するフレームの各々について、所定の音響特徴量を抽出して各フレームに付して出力する特徴抽出部１０２とを含む。本実施の形態では、特徴量として１２次元のＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）と、ＭＦＣＣの時間微分である１２次元ΔＭＦＣＣと、Δパワーとの２５次元の特徴量を用いる。

フロントエンド処理部７６はさらに、特徴抽出部１０２の出力する、特徴量が付与されたフレームを一時的に蓄積するための、リングバッファからなるフレームバッファ１０４と、フレームバッファ１０４に格納されたフレーム列に基づいて、各フレームが発話区間に属するか否かを判定し、発話区間と判定されたフレームにフラグを立てながら所定時間毎に各フレームを順番に出力する発話区間検出部１１２と、発話区間検出部１１２が発話区間の検出の際の尤度計算に使用する３つの音響モデル、すなわち不特定話者モデル１０６、特定話者モデル１０８、及び無音モデル１１０と、送受信部８０が音声認識サーバ６４から受信した音声認識結果（テキストデータ）を受け、タッチ・パネル・ディスプレイ７２に表示するテキスト処理部１１４と、タッチ・パネル・ディスプレイ７２に対するユーザの入力を受け、タッチ・パネル・ディスプレイ７２に表示されたテキストデータに対する編集処理を行なったり、編集が終了したテキストデータをアプリケーション７４に引き渡したりするための制御部１１６とを含む。本実施の形態で使用する音響モデルはいずれもＧＭＭである。

なお、本実施の形態では、ユーザが音声認識処理を実行する際には、音声認識のためのフロントエンド処理のためのプログラムを立ち上げ、その画面に表示される発話開始ボタンを押して発話し、発話が終了したら発話終了ボタンを押すものとする。発話開始ボタンと発話終了ボタンとは、いずれもタッチ・パネル・ディスプレイ７２に表示されるボタンである。発話中でないときには発話開始ボタンが表示され、発話中には発話終了ボタンが表示される。発話中でないときにはフロントエンド処理部７６が発話区間の検出をする必要はないため、制御部１１６はフロントエンド処理部７６の各構成要素の動作を停止させる。発話開始ボタンが押されると、制御部１１６はフロントエンド処理部７６の各部の動作を開始させる。

発話区間検出部１１２は、実質的には、ＨＭＭが与えられると、そのＨＭＭのトポロジーにしたがった状態遷移を実現するためのコンピュータプログラムである。本実施の形態では、このＨＭＭとして図４に示すようなトポロジーを持つＨＭＭ１３０を用いる。後述するように、携帯電話６６はプロセッサを持っており、そのプロセッサがこのプログラムを実行することにより、図４に示すようなＨＭＭ１３０を用いた発話区間検出を実現できる。

図４を参照して、このＨＭＭ１３０は、図１に示すものと同様、始点４０と終点４２との間にいくつかのノードを配置し、ノードの間を遷移リンクでつないだものである。

ＨＭＭ１３０は、それぞれ発話区間でない状態（無音区間）に対応する３個のＳＩＬ状態１４０、１４６及び１４８と、不特定話者による発話中の状態に対応する２個のＳＰ状態１４２及び１５０と、特定話者（携帯電話６６のユーザ）による発話区間（以下「ＳＰＤｘ」と書く）に対応するＳＰＤｘ状態１４４と、これらを結ぶ、状態間のリンクとを含む。図４に示すＨＭＭ１３０では、始点４０はＳＩＬ状態１４０とＳＰ状態１４２とにリンクしている。ＳＩＬ状態１４０は、ＳＰ状態１４２、ＳＰＤｘ状態１４４、及び自分自身にリンクしている。ＳＰ状態１４２は、ＳＰＤｘ状態１４４、ＳＩＬ状態１４０、及び自分自身にリンクしている。ＳＰＤｘ状態１４４は、ＳＰ状態１５０、ＳＩＬ状態１４８、ＳＩＬ状態１４６、及び自分自身にリンクしている。ＳＩＬ状態１４６は、ＳＰＤｘ状態１４４及び自分自身にリンクしている。ＳＩＬ状態１４８は、ＳＰ状態１５０、終点４２、及び自分自身にリンクしている。ＳＰ状態１５０は、ＳＩＬ状態１４８、終点４２、及び自分自身にリンクしている。

本実施の形態では、ある状態から出ているリンクには、互いに等しい確率が割当てられている。すなわち、ある状態から出ているリンクの数が３つなら１／３が、４つなら１／４が、そのリンクに沿った遷移確率として各リンクに割当てられている。

図３に示す発話区間検出部１１２は、上記したＨＭＭ１３０に基づく発話区間検出を実現するためのプログラムの構成を模式的に示したものである。発話区間検出部１１２は、ＨＭＭ１３０のトポロジーを記述した制約条件を記憶する制約条件記憶部１２０と、各フレームの音響特徴量に対してそれぞれ不特定話者モデル１０６、特定話者モデル１０８、及び無音モデル１１０を適用することにより、そのフレームの音声が不特定話者を音源とするものである尤度、特定話者を音源とする尤度、及び無音である（環境音のみである）状態を音源とする尤度をそれぞれ算出するための第１〜第３の尤度計算部１２４、１２６、及び１２８と、制約条件記憶部１２０に記憶された制約条件と、尤度計算部１２４、１２４、及び１２６により算出された尤度とに基づいて、ＨＭＭ１３０の状態遷移を計算し、処理対象のフレームの音声が特定話者により発話されたものか否かを判定し、当該フレームの発話区間フラグの値を判定結果にしたがって設定し出力するモデル適用部１２２とを含む。

《動作》
音声認識システム６０は以下のように動作する。図２を参照して、携帯電話６６のユーザは、最初に音声認識システム６０の音声認識サービスを利用するためのアプリケーションを携帯電話６６において起動する。タッチ・パネル・ディスプレイ７２には、発話開始を指示するためのボタンが表示される。ユーザがこの発話開始ボタンを押すと、図３に示す制御部１１６がその入力を検知し、フロントエンド処理部７６の各部の動作を開始させる。

マイクロフォン７０は、音声を音声信号に変換し、フレーム化処理部１００に与える。この音声信号は、ユーザの発話と、周囲の人の声と、発話のない状態とが混じり合ったものとなる。フレーム化処理部１００は、この音声信号をデジタル化し、所定のシフト時間で所定長のフレームにフレーム化して特徴抽出部１０２に与える。特徴抽出部１０２は、各フレームのデジタル化された音声信号に対し、前述の特徴量の算出を行ない、特徴量からなるフレーム列を出力する。フレームバッファ１０４はＦＩＦＯ方式でこのフレーム列を順次記憶し、出力する。

発話区間検出部１１２は、フレームバッファ１０４に順次格納されるフレームについて、尤度計算部１２４、１２６及び１２８により、そのフレームの音響特徴量が、不特定話者による音声から得られた尤度と、音声認識の対象となる特定話者の音声から得られた尤度と、発話がない状態から得られた尤度とを計算する。モデル適用部１２２は、制約条件記憶部１２０に格納された制約条件と、これら尤度とにより、ＨＭＭ１３０にしたがった状態遷移を計算する。計算の結果、現在の状態がＳＰＤｘ状態１４４であると判定されれば、処理対象のフレームのフラグをセットしてそのフレームをフレームバッファ１０４から送信バッファ７８に出力する。さもなければモデル適用部１２２は、処理対象のフレームのフラグをリセットしてそのフレームをフレームバッファ１０４から送信バッファ７８に出力する。

送信バッファ７８は、フレームバッファ１０４から出力された各フレームを一旦蓄積する。送受信部８０は、送信バッファ７８に蓄積されたフレームから所定長のパケットを組立て、音声認識サーバ６４に対して送信する。

図２を参照して、音声認識サーバ６４はこのパケットを受信すると、パケットからフレーム列を取出し、発話区間であるか否かのフラグを参照しながら音声認識を行なう。この音声認識の手法は、携帯電話６６が抽出する音響特徴量と同じ音響特徴量を使用するものであればどのようなものでもよい。音声認識サーバ６４は、音声認識の結果（認識結果のテキストデータ、及び、単語ごとの認識結果候補等からなる付随データ）を携帯電話６６に送信する。

図３を参照して、送受信部８０は、この音声認識の結果を受信すると、そのデータをテキスト処理部１１４に与える。テキスト処理部１１４はタッチ・パネル・ディスプレイ７２の音声認識結果の編集領域にこのテキストデータを表示し、ユーザに編集させる。この編集は音声認識結果の編集であって、例えば音声認識結果の一部の単語を別の候補で置換したりする処理のことをいう。編集が終了すると、制御部１１６は、編集結果として得られたテキストデータをアプリケーション７４に与える。アプリケーション７４はそのテキストデータを、例えばキーボードから入力されたものと同様、文書への入力として取扱ったり、コマンドとして解釈して指定された処理を実行したりする。

《実験結果》
上記実施の形態に開示した手法による発話区間検出の有効性を確認するため、発話区間検出実験を行なった。実験対象となる音声データベースとしては、各ＧＭＭの学習用に音素バランス文データベース（ＴＲＡ−ＢＬＡ）と旅行会話文データベース（ＴＲＡ）を、評価用に旅行会話基本表現集（ＢＴＥＣ）を、それぞれ用いた。これらはいずれも株式会社国際電気通信基礎技術研究所から入手可能である。

評価用データセットは、背景雑音なしのもの（ｗ／ｏＢＳＮ、ただし音声雑音でない雑音を含む）とありのもの（ｗ／ＢＳＮ）を用意した。用意したデータセットの概略をテーブル１に示す。

雑音は、車及び電車等、２０種類の環境雑音の中から１５種類を選んで学習用及び適応用データベースに重畳した。残りの５種類は評価用データセット（ｗ／ｏＢＳＮ、ｗ／ＢＳＮ）に重畳した。ＳＮＲは１５ｄＢ、２０ｄＢ、２５ｄＢ、及び３５ｄＢの４種類とした。ＢＳＮは発話区間の切出し対象発話とのＳＮＲが１２ｄＢになるように重畳した。

音響特徴量は、１２次元のＭＦＣＣ及びΔＭＦＣＣ、並びにΔパワーの、合計２５次元であった。サンプリング周波数は１６ｋＨｚ、フレーム長２０ミリ秒、分析周期１０ミリ秒で分析した。

発話区間検出の評価には、下式に示すＦａｌｓｅＲｅｊｅｃｔｉｏｎＲａｔｅ（ＦＲＲ）及びＦａｌｓｅＡｃｃｅｐｔａｎｃｅＲａｔｅ（ＦＡＲ）を用いた。

ただしＮ_ｓは音声フレーム数、Ｎ_ＦＲは音声を非音声として検出したフレーム数、Ｎ_ｎｓは非音声フレーム数、Ｎ_ＦＡは非音声を音声として検出したフレーム数である。

上記実験の内、背景雑音を重畳した場合の音声に対して従来技術を用いた結果のＦＲＲ及びＦＡＲと、上記実施の形態を用い結果のＦＲＲ及びＦＡＲとを図５に対比して示す。なお、図５は、マルチクラスＭＬＬＲ（最尤線形回帰）を用いた話者適応において、行列変換のクラス数Ｃを３２として行なった実験の結果を示す。図５を参照して、ＢＳＮを含むテストセットに対しては、上記実施の形態によりＦＡＲ及びＦＲＲの双方とも従来と比較してかなり低下した。従来の技術では、ＢＳＮの区間が発話区間として判定されていたのに対し、上記実施の形態では、そうした領域が不特定話者ＧＭＭ（ＳＰ）にアラインされることで非発話区間として判定されたためである。

例を挙げる。図６（Ａ）を参照して、スペクトログラム１８０により表される音声信号に対して従来技術を用いて発話区間検出を行なったところ、区間１９２，１９６，２００及び２０４が検出された。音声信号の最初と最後にはそれぞれ、無音区間１９０及び２０６が検出され、発話区間の途中に短い無音区間１９４、１９８、及び２０２が検出された。

一方、全く同じ音声信号に対して上記実施の形態の技術を用いて発話区間検出を行なったところ、図６（Ｂ）に示すように、特定話者の発話区間としては、図６（Ａ）で検出された発話区間よりはるかに短い区間２４２，２４８及び２５６が検出された。図６（Ａ）の場合と同様に、音声信号の最初と最後にはそれぞれ無音区間２４０及び２５８が検出されたが、図６（Ａ）で発話区間として検出されたかなりの部分（区間２４６、２５０及び２５４）が他の話者による発話区間として検出された。無音区間２４４及び２５２も検出されたが、これらも図６（Ａ）の場合と多少異なっている。

図６（Ａ）及び図６（Ｂ）を比較して明らかなように、従来技術では、主たる話者の発話区間以外を誤って発話区間として検出していることが分かる。こうした誤検出により、後段の音声認識処理では発話者以外の音声を原因とする単語挿入誤りが発生してしまう。それに対し、上記実施の形態によれば、他人の発話を発話区間として検出してしまうことが少なくなり、単語挿入誤りを少なくできる。

なお、クラス数＝１，８の場合についても同様の実験を行なったが、クラス数Ｃの値を大きくするほどＦＡＲ及びＦＲＲの値が下がる（精度があがる）傾向が見られた。したがって、適応の際のクラス数としてはある程度大きいものが必要である。

なお、ＢＳＮなしのデータセットに対する評価結果はここには示していないが、上記実施の形態によるＦＲＲの値は従来技術より低下するが、ＦＡＲについては若干上昇した。

以上のとおり、この第１の実施の形態によれば、背景の人の声が存在する環境下でも、発話者の発話区間を従来よりも高い精度で検出できる。この結果を用いることにより、後段の音声認識の精度を高めることができる。複数のマイクロフォンを使用したりする必要もなく、例えば携帯電話等に適宜組込むことが容易に行なえる。

［第２の実施の形態］
《構成》
上記第１の実施の形態では、発話区間検出にＨＭＭを用いていた。このＨＭＭは、フレームごとに各モデルの出力する尤度にだけ依存して発話区間を検出する場合の検出結果を平滑化する機能を持つ。同様の平滑化は、ＨＭＭ以外を用いて実現することもできる。例えばハングオーバによる手法がある。この第２の実施の形態は、ＨＭＭではなくハングオーバ方式により発話区間の検出結果を平滑化するものである。

図７を参照して、この第２の実施の形態に係る携帯電話２８０が第１の実施の形態の携帯電話６６と異なるのは、携帯電話６６のフロントエンド処理部７６の代わりに、上記したハングオーバ方式により発話区間検出の結果を平滑化する処理を行なうフロントエンド処理部２９０を含むことである。

フロントエンド処理部２９０は、フレームバッファ１０４の出力を受けるように接続され、リングバッファを用いて平滑化処理を行なう平滑化処理部３０２を新たに含む点と、尤度計算部１２４、１２６及び１２８の出力を比較してどの尤度が最も高いかを定め、その結果を平滑化処理部３０２に与える尤度比較部３００を、制約条件記憶部１２０及びモデル適用部１２２に代えて含む点とである。

平滑化処理部３０２の機能について、図８及び図９を参照して簡単に説明する。図８を参照して、尤度計算部１２４、１２６及び１２８の出力は、発話区間の音源候補と考えることができる。これらを単純に比較し、その結果を発話区間検出に用いると、例えばフレーム３２０、３２２、３２４、３２６、３２８、及び３３０のように、同一のモデルに対応する音源が音源候補であると判定される一連の連続したフレームの中に、ごく短時間（例えば１フレーム）だけ、他のモデルに対応する音源からの音声と判定されるものが存在する場合がある。通常は、発話はある程度の時間連続して行なわれるので、このように断続的に音源の判定が変化するのは好ましくない。そこで、図８に示す例えばフレーム３２０のように、一連の同一音源からと判定されたフレームについては、ごく短時間だけ他の音源からの音声と判定されたフレームが間に存在していても、連続したものとみなす処理をする。そうした処理により、例えば図９に示すように、ある音源からの音声が安定してある時間続くような発話区間検出の結果を得ることができる。

図７に示す平滑化処理部３０２は、ソフトウェアで実現できる。例えば音声認識に関する規格ETSI ES 202 212 v1.1.2の９０頁〜９１頁に記載された方式を採用しても良い。図１０に、この規格を実現するコンピュータプログラムの制御構造をフローチャート形式で示す。この処理は、所定個数（Ｎ個とする）の記憶ロケーションを持つリングバッファを用いて平滑化を行なう。以下の処理で使用する記号とその意味を以下の表に示す。

なお、図１０に示す処理は、平滑化のためのバッファの全体にフレームのデータが格納された後に行なわれる処理である。この処理では、バッファ内にフレームのデータが格納され、ＦＩＦＯ方式で出力されていく。

図１０を参照して、このプログラムは、次のフレームの音響特徴量を読むステップ３５０と、特定話者、不特定話者、及び無音の音響モデルを用いて、入力されたフレームの音声が特定話者、不特定話者、及び無音状態からのものである尤度Ｐ_ＳＰＤｘ、Ｐ_ＳＰ、及びＰ_ＳＩＬを算出するステップ３５２と、尤度Ｐ_ＳＰＤｘが尤度Ｐ_ＳＰ及びＰ_ＳＩＬのいずれよりも大きいか否かを判定するステップ３５４及び３５６と、ステップ３５４及び３５６の判定がいずれも肯定的である場合に、このフレームの音声が特定話者のものであることを示すフラグをＴＲＵＥにセットするステップ３５８と、それ以外の場合にＦＡＬＳＥに設定するステップ３６０とを含む。

さらにこのプログラムは、バッファ内で「ＴＲＵＥ」フレームが連続する最長の長さＭを求め、変数Ｍに代入するステップ３６２と、変数Ｍの値が、しきい値ＴＨ_Ｐ以上でかつタイマー時間Ｌ_Ｓより小さいか否かを判定するステップ３６４と、ステップ３６４の判定が肯定的であるときに、ハングオーバの残り時間を示す変数Ｔにしきい値Ｌ_Ｓを代入するステップ３６６とを含む。

このプログラムはさらに、ステップ３６４の判定が否定のとき、及びステップ３６４の判定が肯定的でかつステップ３６６の処理が終了したときに実行され、変数Ｍの値がしきい値ＴＨ_Ｌ以上でかつ現在のフレーム番号が、初期の過度時間Ｆ_Ｓより大きいか（すなわち初期の過渡時間の経過後か）否かを判定するステップ３６８と、ステップ３６８の判定が肯定的であるときに、ハングオーバの残り時間の変数Ｔに中程度のタイマー時間Ｌ_Ｍを代入するステップ３７０と、ステップ３６８の判定が否定的であるときに、変数Ｔに短いタイマー時間Ｌ_Ｌを代入するステップ３７２とを含む。

このプログラムはさらに、ステップ３７０及び３７２の後、変数Ｍの値がしきい値ＴＨＰより小さくかつハングオーバ時間を示す変数Ｔの値が正か否かを判定するステップ３７４と、ステップ３７４の判定が肯定的であるときに、変数Ｔの値を１減算するステップ３７６と、ステップ３７４及び３７６の処理終了後、変数Ｔの値が正か否かを判定するステップ３７８と、ステップ３７８の判定が肯定的であるときに、バッファの先頭に存在するフレームの音声が特定話者によるものであるか否かを示すフラグとしてＴＲＵＥを出力するステップ３８０と、ステップ３７８の判定が否定的であるときに、ＦＡＬＳＥを出力するステップ３８２と、ステップ３８０及び３８２の後に、処理対象を次のフレームに進めるステップ３８４と、バッファを左に１シフトし、制御をステップ３５０に戻すステップ３８６とを含む。

《動作》
この実施の形態に係る携帯電話２８０は、第１の実施の形態に係る携帯電話６６と同様に動作する。異なるのは、第１の実施の形態に係る、ＨＭＭを用いた処理に代えて、図１０に示すハングオーバ方式の処理により、３つの音響モデルから得られた結果を平滑化する点だけである。

《変形例》
上記第１の実施の形態では、図４にトポロジーを示すＨＭＭ１３０を用いた。しかし本発明をＨＭＭで実施する際には、ＨＭＭのトポロジーは図４に示すようなものには限定されない。例えば、図１１に示すようなＨＭＭを使用することもできる。

図１１に示すＨＭＭ４００が図４に示すＨＭＭ１３０と異なるのは、新たにＳＰ状態４１０を持ち、このＳＰ状態４１０とＳＰＤｘ状態１４４との間で相互に遷移するリンクと、ＳＰ状態４１０から出てＳＰ状態４１０に遷移するリンクとを持つ点である。その他の点ではＨＭＭ４００はＨＭＭ１３０と同じトポロジーを持つ。

ＨＭＭ４００を用いると、特定話者の発話中に無音区間がある場合だけでなく、背景に発話による雑音がある場合に、それらを発話区間から排除できるという効果がある。また、この場合、モデルのトポロジーが第１の実施の形態に係るモデルのものと異なるだけであって、ＨＭＭ４００を採用した発話区間検出装置を実現するためのソフトウェア構成は、第１の実施の形態に係るもののソフトウェア構成と同じでよい。

上記実施の形態では、２５次元の特徴量を用いた。しかし、特徴量がこのようなものに限定されるわけではない。また、上記実施の形態では、ＨＭＭの各状態から出るリンクには、いずれも同じ確率が割当てられている。しかし本発明はそのような実施の形態に限定されるわけではない。すなわち、これらの遷移確率を互いに等しくする必要はない。例えば、これらの遷移確率を実際の環境から学習してもよい。そのようなことができれば、発話区間の検出精度を高くできる可能性がある。

上記実施の形態では、携帯電話６６及び携帯電話２８０からは全てのフレームが音声認識サーバ６４に送信されている。しかし本発明はそのような実施の形態には限定されない。発話区間のフレームのみを音声認識サーバ６４に送信してもよい。さらに、上記実施の形態では、音響特徴量と発話区間を示すフラグのみを音声認識サーバ６４に送信しているが、これに加えて音声データそのものを音声認識サーバ６４に送信するようにしてもよい。そのようにする場合には、音声認識サーバ６４で再度音響特徴量を算出できるため、携帯電話６６又は携帯電話２８０の発話区間検出のための音響特徴量と、音声認識サーバ６４での音声認識のための特徴量とが同じである必要はなくなる。もっとも、通信トラフィックを減少させ、処理時間を早めるという意味では、上記した実施の形態のように特徴量と発話区間のフラグのみを送るようにすることが望ましい。

上記実施の形態では、発話区間検出は携帯電話６６又は携帯電話２８０で行ない、音声認識は音声認識サーバ６４で行なっている。しかし本発明はそのような実施の形態には限定されない。例えば、これらを全て単独の装置（例えば携帯電話、又はコンピュータ）で実現してもよい。その場合には、上記実施の形態で必要とされた通信のための処理が省略できることは明らかである。

《ハードウェア》
上記した第１及び第２の実施の形態に係る携帯電話６６及び携帯電話２８０を実現するための典型的なハードウェア構成について図１２に示す。以下、これらを代表して携帯電話６６に関するハードウェア構成を説明する。

図１２を参照して、携帯電話６６は、タッチ・パネル・ディスプレイ７２及びマイクロフォン７０に加え、ＣＰＵ４７０、ＲＯＭ４７２、図示しないキャッシュメモリ、及び周辺機器とのインターフェイスを持つプロセッサ４２０と、プロセッサ４２０の制御にしたがってタッチ・パネル・ディスプレイ７２の表示を制御する表示制御部４４０と、タッチ・パネル・ディスプレイ７２に対するユーザのタッチ入力を検知し、検知結果をプロセッサ４２０に与えるタッチセンサ制御部４３６とを含む。

携帯電話６６はさらに、マイクロフォン７０及びスピーカ４３４と、マイクロフォン７０及びスピーカ４３４とプロセッサ４２０とに接続され、音声の符号化及び復号化を行なう音声コーデック４３０と、携帯電話６６の各部への電源供給と、図示しないバッテリの充電状態の監視とを行なうための電源管理部４２８と、加速度センサ及びスイッチ等を含む、プロセッサ４２０に接続される各種センサ４２６と、プロセッサ４２０が記憶領域として使用するとともに、上記した処理を実行するためのプログラム等を記憶したメモリ４２４と、クロック４２２とを含む。

携帯電話６６はさらに、いずれもプロセッサ４２０に接続された、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）４４６と、無線による近距離通信を行なう近距離通信部４４８と、Ｗｉ−Ｆｉ通信を行なうＷｉ−Ｆｉ通信部４５０と、無線による電話通信を行なうモデム４５２と、カメラインターフェイス４４４とを含む。カメラインターフェイス４４４にはカメラ４４２が接続されている。

第１の実施の形態に係る携帯電話６６のフロントエンド処理部７６、及び第２の実施の形態に係る携帯電話２８０のフロントエンド処理部２９０は、いずれも図１２に示すハードウェアが所定のプログラムを実行することにより、プログラムの制御の下で携帯電話６６及び２８０のハードウェアを動作させることで実現される。上記したメモリ４２４は、例えば複数個のメモリチップを含み、少なくともその一部はフラッシュメモリのように不揮発性であることが望ましい。上記した処理を実現するプログラムは、この不揮発性メモリに書きこまれており、実行時に読出され、随時読出及び書込み可能なメモリに展開され、図示しないプログラムカウンタにより指定されたアドレスから順次読出され、ＣＰＵ４７０により実行される。さらに、不特定話者モデル１０６、特定話者モデル１０８、及び無音モデル１１０も、上記実施の形態ではそうした不揮発性のメモリに予め書き込まれる。

なお、上記実施の形態の説明では記載していないが、携帯電話６６及び２８０で特定話者の音声を収集することが望ましい。そうした音声は、特定話者モデル１０８の音響モデルの学習を行なう際に用いることができるし、背景雑音も区別できれば、不特定話者モデル１０６、無音モデル１１０の学習に用いることもできる。この場合、ユーザが音声認識の対象としては意識していない発話（通常の通話等）についての音声を収集することもでき、この点は音声認識サーバ６４の側で話者ごとに音声データを収集する場合と比較して明らかに有利である。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

３０、１３０、４００隠れマルコフモデル（ＨＭＭ）
７６、２９０フロントエンド処理部
１０６不特定話者モデル
１０８特定話者モデル
１１０無音モデル
１１２発話区間検出部
１２０制約条件記憶部
１２２モデル適用部
１２４、１２６、１２８尤度計算部
３００尤度比較部

Claims

特定話者の音声信号の発話区間を検出するための発話区間検出装置であって、
前記特定話者の音声信号を音源として得た音響特徴量を用いて学習済の第１の統計的音響モデル、不特定話者の学習用音声信号を音源として得た前記音響特徴量を用いて学習済の第２の統計的音響モデル、及び、発話のない状態の学習用音声信号を音源として得た前記音響特徴量を用いて学習済の第３の統計的音響モデルを記憶するための音響モデル記憶手段と、
音声信号をフレーム化し、フレームごとに前記音響特徴量を算出して出力するための音響特徴量算出手段と、
前記音響特徴量算出手段により出力される、一連の音響特徴量からなるフレームの各々が、前記第１、第２及び第３の統計的音響モデルの元となる音声信号から得られた尤度を前記第１、第２及び第３の統計的音響モデルを用いて算出するための尤度算出手段と、
前記尤度算出手段により算出された尤度に基づいて各フレームの音響特徴量が前記特定話者の音声信号から得られた区間を推定するための発話区間推定手段とを含む、発話区間検出装置。
前記発話区間推定手段は、前記尤度算出手段により算出された尤度を用いる隠れマルコフモデルを用いた状態遷移により、各フレームの音響特徴量が前記特定話者の音声信号から得られた区間を推定する隠れマルコフモデルによる状態推定手段を含み、
前記隠れマルコフモデルは、始点と終点との間に配置された第１〜第６の状態を含み、
前記第１、第４及び第６の状態の音響特徴量の出力確率は、前記第３の統計的音響モデルを用いて前記尤度算出手段により算出されるものであり、
前記第２及び第５の状態の音響特徴量の出力確率は、前記第２の統計的音響モデルを用いて前記尤度算出手段により算出されるものであり、
前記第３の状態の音響特徴量の出力確率は、前記第１の統計的音響モデルを用いて前記尤度算出手段により算出されるものであり、
前記隠れマルコフモデルはさらに、
前記第１〜第６の状態の各々について定義された、自己に遷移するリンクと、
前記始点から前記第１の状態及び前記第２の状態にそれぞれ遷移するリンクと、
前記第１の状態と前記第２の状態との間で相互に遷移するリンクと、
前記第１の状態と前記第２の状態とからそれぞれ前記第３の状態に遷移するリンクと、
前記第３の状態と前記第４の状態との間で相互に遷移するリンクと、
前記第３の状態から前記第５及び前記第６の状態にそれぞれ遷移するリンクと、
前記第５の状態と前記第６の状態との間で相互に遷移するリンクと、
前記第５の状態及び前記第６の状態から前記終点にそれぞれ遷移するリンクとを含む、請求項１に記載の発話区間検出装置。
前記隠れマルコフモデルはさらに、第７の状態を含み、当該第７の状態にの音響特徴量の出力確率は、前記第２の統計的音響モデルを用いて前記尤度算出手段により算出されるものであり、
前記隠れマルコフモデルはさらに、
前記第７の状態から当該第７の状態に遷移するリンクと、
前記第３の状態と前記第７の状態との間で相互に遷移するリンクとを含む、請求項２に記載の発話区間検出装置。
前記隠れマルコフモデルの各リンクに割当てられた遷移確率は、状態ごとに、当該状態を起点とするリンクの全てにおいて等しくなるように定められる、請求項２又は請求項３に記載の発話区間検出装置。
前記発話区間推定手段は、
前記尤度算出手段によりフレームごとに、前記第１、第２及び第３の統計的音響モデルの算出する尤度を比較し、最大の尤度を与える統計的音響モデルに対応する音源を、当該フレームの音源候補として推定する音源候補推定手段と、
前記音源候補推定手段によりフレームごとに推定された音源候補の時系列を平滑化するための平滑化手段と、
前記平滑化手段により平滑化された音源候補の時系列のうち、前記第１の統計的音響モデルに対応する音源からの得られたものであると推定されたフレーム列を前記特定話者の発話区間として特定するための手段とを含む、請求項１に記載の発話区間検出装置。
前記平滑化手段は、前記音源候補推定手段によりフレームごとに推定された音源候補の時系列を、ハングオーバ方式により平滑化するための手段を含む、請求項５に記載の発話区間検出装置。
コンピュータを、請求項１〜請求項６のいずれかに記載の各手段として機能させる、発話区間検出のためのコンピュータプログラム。