JP2005062398A

JP2005062398A - 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム

Info

Publication number: JP2005062398A
Application number: JP2003291441A
Authority: JP
Inventors: Nobuyuki Washio; 信之鷲尾; Takuo Ikeda; 拓郎池田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-08-11
Filing date: 2003-08-11
Publication date: 2005-03-10
Anticipated expiration: 2023-08-11
Also published as: JP4408665B2

Abstract

【課題】
音声認識の精度を高く維持しつつ、効率的に発話データを収集することができる音声認識用発話データ収集装置、音声認識用発話データ収集方法及びコンピュータプログラムを提供する。
【解決手段】
対話の進行手順を記述した対話シナリオ情報を記憶する手段、入力された発話を受け付ける手段、入力された発話を音声認識する手段、音声認識結果及び対話シナリオ情報に基づいて対話を進行させる手段、及び発話に対する応答を出力する手段を含む音声対話装置と、対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、音声認識結果及び状態遷移履歴に基づいて、入力された発話が正しく認識されたか否かを判断する手段と、該手段が、正しく認識されたと判断した場合、音声認識結果及び入力された発話を対応付けて記憶する手段とを備える。
【選択図】図１

Description

本発明は、音声認識に用いる発話データを収集して記憶する音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラムに関する。

近年、音声認識システム（ＡＳＲ：Auto Speech Recognition）を用いたボイスポータル等の音声対話システム（ＩＶＲ：Interactive Voice Response）が普及し始めている。該音声対話システムの使い易さを大きく左右するのは、発話を認識する音声認識システムの認識性能である。音声認識システムの性能には、ＨＭＭ（Hidden Markov model）等でモデル化される音響モデルの精度が大きく影響する。

一般に、精度のよい音響モデルを開発するためには、該音響モデルの学習時に、発話内容が明確である発話データが大量に必要となる。ＨＭＭ等の統計モデルを使用した場合、特に発話データの量が音響モデルの性能と直結する。そのため、発声内容を示すデータを付与した発話を大量かつ容易に収集することは、音声認識システムの開発において重要な課題の一つである。なお、「発話データ」とは、発話者による発話及び対応付けられた発話内容に関する情報を含む音声認識に用いられるデータ全体を意味している。

また、音響モデルの学習時に用いる発話を入力する環境は、発話者が音声認識システムを使用する環境と同一条件であることが望ましい。例えば、音響モデルの学習時に用いる発話データを、読み上げ用原稿を用意し、該原稿を発話者が読み上げた発話を録音することで取得する場合、該発話データは読み上げ口調となる。それに対して、実際に音声認識システムを使用する環境では自由発話に近い口語口調の発話が原稿読み上げ時より多くなる。したがって、音響モデルの学習時に用いる発話データと実際の発話との間で音声特徴量等の乖離が大きくなり、認識精度は悪化する。

また、上記方法で発話データを収集する場合、原稿を読み上げる発話を録音する機器の操作等のための専従者が必要であり、発話データ収集コストまたは収集能率の観点から、大量に発話データを収集することは困難であった。さらに、原稿を発話者が読み上げた発話データには読み誤ったデータも含まれており、このような音響モデルの学習時に用いる発話データとして不適切なデータを除外する必要もあった。

斯かる問題を解消するために、音声認識システムの認識結果を発話に対応付けて発話データを生成する方法が用いられている。例えば音声認識システムの認識結果を発話の識別情報として対応付けることで、発話の内容が明確になる。しかし、読み誤ったデータを除外する必要が生じるという問題は解消しない。

そこで、特許文献１に開示されているように、音声認識システムの認識結果を発話に対応付けて発話データを生成して記憶し、特許文献２に開示されているように、発話者自身が気付いた読み誤ったデータは除外する手段を設ける。図１０に、音声認識装置の認識結果を発話に対応付けて発話データを生成して記憶する音声認識用発話データ収集装置の機能ブロック構成図を示す。

図１０に示すように、発話入力部１から発話者の音声が入力され、音声認識部２に送られる。音声認識部２は、発話者が発話する毎に、入力された音声に対応する音声認識結果を出力し、それぞれ認識結果記憶部３、発話記憶部４に記憶する。

発話者が音声認識結果が正しくないと判断し、発話取消入力部７から認識結果取消要求信号が入力される場合、発話データ生成部５は、記憶されている対応する入力された発話及び音声認識結果を、それぞれ認識結果記憶部３及び発話記憶部４から削除する。発話取消入力部７から認識結果取消要求信号が入力されない場合、発話データ生成部５は、認識結果記憶部３及び発話記憶部４に記憶されている発話と音声認識結果を一対のデータとして対応付け、発話データ記憶部６に記憶する。このようにすることで、発話データ記憶部６に記憶されている発話データには、音声認識部２で誤認識されたものは含まれない。したがって、認識性能の高い音響モデルを構築することが可能となる。
特開２００３−１５０１８５号公報特開２００２−１８９４９６号公報

しかし、図１０に示す音声認識用発話データ収集装置では、入力される発話は、結局原稿を読み上げた発話であり、音響モデルの学習時に用いる発話を入力する環境と、該発話データを用いて学習した音響モデルを用いる音声認識装置をユーザが使用する環境とを一致させることは現実的に困難である。

また、音響モデルの学習時に用いる発話を収集するために多くの発話者を集める必要がある。発話収集に協力してもらった発話者に対価を支払う等の方法を用いる場合、比較的容易に発話者を集めることは可能であるが、音響モデルの学習にかかる金銭的負担が重くなる。

さらに、音響モデル構築のために集める発話者の男女比、年齢分布等の相違によっても音響モデルの認識性能が左右される。集める発話者の男女比、年齢分布等は、実際に音声認識システムを使用する発話者の男女比、年齢分布等に近いことが望ましいことは言うまでもない。

本発明は斯かる事情に鑑みてなされたものであり、音声認識の精度を高く維持しつつ、効率的に発話データを収集することができる音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラムを提供することを目的とする。

上記目的を達成するために第１発明に係る音声認識用発話データ収集装置は、対話の進行手順を記述した対話シナリオ情報を記憶する手段、入力された発話を受け付ける手段、
前記入力された発話を音声認識する手段、音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させる手段、及び前記入力された発話に対する応答を出力する手段を含む音声対話装置と、前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断する手段と、該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前期入力された発話を対応付けて記憶する手段とを備えることを特徴とする。

第１発明に係る音声認識用発話データ収集装置では、音声対話装置で進行する対話で、発話が正しく認識されたか否かを評価し、発話が正しく認識されている場合には音声認識結果と発話を対応付けて、発話データとして記憶する。

また、第２発明に係る音声認識用発話データ収集装置は、第１発明において、音声認識結果と対応付けて記憶される発話は、音声の波形データまたは該発話を音響分析した結果である発話特徴量であることを特徴とする。

第２発明に係る音声認識用発話データ収集装置では、音声の波形データまたは該発話を音響分析した結果である発話特徴量を音声認識結果と対応付けて、発話データとして蓄積する。

また、第３発明に係る音声認識用発話データ収集装置は、第１発明または第２発明において、電話回線での発信番号を受信して記憶する手段と、前記発信番号を、前記音声認識結果及び前記入力された発話と対応付けて記憶する手段とを備えることを特徴とする。

第３発明に係る音声認識用発話データ収集装置では、電話回線ごとに固有の発信番号と発話データとを対応付けて記憶することができ、電話回線ごとに固有のノイズ、フィルタリング、変調等に応じた音響モデルを生成する。

また、第４発明に係る音声認識用発話データ収集方法は、対話の進行手順を記述した対話シナリオ情報を記憶し、入力された発話を受け付け、前記入力された発話を音声認識し、前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させ、前記入力された発話に対する応答を出力する音声対話方法を用い、前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶し、前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断し、該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶することを特徴とする。

第４発明に係る音声認識用発話データ収集方法では、音声対話装置で進行する対話で、発話が正しく認識されたか否かを評価し、発話が正しく認識されている場合には音声認識結果と発話を対応付けて、発話データとして記憶する。

また、第５発明に係るコンピュータプログラムは、コンピュータを、対話の進行手順を記述した対話シナリオ情報を記憶する手段、入力された発話を受け付ける手段、前記入力された発話を音声認識する手段、前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させる手段、及び前記入力された発話に対する応答を出力する手段を含む音声対話装置と、前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断する手段と、該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶する手段として機能させることを特徴とする。

第５発明に係るコンピュータプログラムをコンピュータに導入することで、音声対話装置で進行する対話で、発話が正しく認識されたか否かを評価し、発話が正しく認識されている場合には音声認識結果と発話を対応付けて、発話データとして記憶する。

第１発明に係る音声認識用発話データ収集装置によれば、音声対話の成立の可否に基づいて正しい音声認識結果と対応付けた発話を収集することができ、音声認識精度が高い音響モデルを生成するための発話データを効率よく収集することが可能となる。

また、第２発明に係る音声認識用発話データ収集装置によれば、音声対話の成立の可否に基づいて正しい音声認識結果と対応付けた発話を収集することができ、音声認識精度が高い音響モデルを生成するための発話データを効率よく収集することが可能となる。

また、第３発明に係る音声認識用発話データ収集装置によれば、電話回線を介したユーザ発話について、音響モデルの学習時に用いる発話を入力する環境と、該発話データを用いて学習した音響モデルを用いる音声認識装置を発話者が使用する環境とを一致させることが容易となり、音声認識精度が高い音響モデルを生成するための発話データを効率よく収集することが可能となる。

また、第４発明に係る音声認識用発話データ収集方法によれば、音声対話の成立の可否に基づいて正しい音声認識結果と対応付けた発話を収集することができ、音声認識精度が高い音響モデルを生成するための発話データを効率よく収集することが可能となる。

また、第５発明に係るコンピュータプログラムによれば、音声対話の成立の可否に基づいて正しい音声認識結果と対応付けた発話を収集することができ、音声認識精度が高い音響モデルを生成するための発話データを効率よく収集することが可能となる。

以下、本発明をその実施の形態を示す図面に基づいて具体的に説明する。

（実施の形態１）
以下、本発明の実施の形態１に係る音声認識用発話データ収集装置について図面に基づいて具体的に説明する。本実施の形態１では、音声認識用発話データ収集装置を一つのコンピュータを用いて具現化する場合について説明する。もちろん、音声認識に用いる発話データ等は、通信手段を介して接続された他のコンピュータの記憶装置、ＤＶＤ等の可搬型記録媒体に記憶されていてもよく、通信手段についても特に限定されるものではない。

図１は、本発明の実施の形態１に係る音声認識用発話データ収集装置を具現化するコンピュータの概略構成図である。図１に示すように、音声認識用発話データ収集装置を具現化するコンピュータは、少なくとも、ＣＰＵ（中央演算装置）１１、記憶手段１２、ＲＡＭ（メモリ）１３、外部の通信手段と接続する通信手段１４、マウス及びキーボード等の入力手段１５、モニタ等の出力手段１６及び補助記憶手段１７で構成される。

補助記憶手段１７は、音声認識用発話データ収集装置を具現化するコンピュータで使用するプログラムを記録した可搬型記録媒体１８であり、ＤＶＤ、ＣＤ−ＲＯＭ等が該当する。また、音声認識に用いる発話データ等の音声認識用発話データ収集装置で使用するデータを記録する可搬型記録媒体１８等も含む。

本発明の実施の形態１に係る音声認識用発話データ収集装置を具現化するコンピュータは、音声対話装置２０を内蔵する。音声対話装置２０も、該コンピュータが有するＣＰＵ（中央演算装置）１１、記憶手段１２、ＲＡＭ（メモリ）１３、外部の通信手段と接続する通信手段１４、マウス及びキーボード等の入力手段１５、モニタ等の出力手段１６及び補助記憶手段１７を用いて機能する。

まずコンピュータは、発話者による発話を促すために、記憶手段１２に記憶されている対話シナリオ情報に沿って、ＣＰＵ１１の指令により出力手段１６から音声出力を行う。例えば、「ご用件は、○○、××、・・・のうちどれですか」等、次に発話者により入力される発話を限定することができる質問を音声出力する。出力手段１６からの出力は音声出力に限定されるものではなく、画面への表示出力であってもよい。

なお、対話シナリオ情報は、例えばVoiceXMLのようなシナリオ記述言語により、対話における発話を受け付けることができるよう記述される。すなわち、対話シナリオ情報には、コンピュータ側からの出力の内容、発話に応じた対話の遷移、発話の内容に応じて次に行うべき処理等が記述される。

出力された音声に対して、入力手段１５から発話が入力されると、入力された発話は音声の波形データ、または入力された発話を音響分析した結果である発話特徴量を示すデータとして記憶手段１２及びＲＡＭ１３に記憶され、ＣＰＵ１１の指令により、ＲＡＭ１３に記憶された発話について音声認識を行う。音声認識処理に用いる音声認識エンジンは特に限定されるものではなく、一般に用いられる音声認識エンジンであれば何でもよい。音声認識結果は、記憶手段１２及びＲＡＭ１３に記憶される。

なお、記憶手段１２としては、内蔵されているハードディスクに限定されるものではなく、通信手段１４を介して接続されている他のコンピュータに内蔵されているハードディスク等、大容量のデータを記憶することができる記録媒体であれば何でもよい。

ＣＰＵ１１は、ＲＡＭ１３に記憶された音声認識結果に基づいて、発話が正しく認識されているか否かを判断する。発話が正しく認識されているか否かを判断する方法は、様々な方法を用いることができる。以下、具体例を挙げながら説明する。

一つには、対話シナリオ情報に基づいた対話の状態遷移履歴を記憶手段１２またはＲＡＭ１３に記憶し、記憶されている音声認識結果及び状態遷移履歴に基づいて、入力された発話が正しく認識されたか否かを判断する方法が挙げられる。図２に、名前を確認する対話シナリオでの状態遷移図を示す。図２に示すように、状態１で該対話シナリオが開始し、「お名前をどうぞ」というシステム発話が出力され、状態２へ遷移する。

状態２では、入力された発話を音声認識し、音声認識結果をＲＡＭ１３に記憶する。記憶された音声認識結果が「○○」である場合、該対話シナリオでは「○○さんですね」とのシステム発話が出力され、状態３へ遷移する。

状態３では、入力された発話を音声認識し、音声認識結果をＲＡＭ１３に記憶する。状態３では音声認識結果が「はい」または「いいえ」の二者択一であると判断できることから、状態３での音声認識結果の信頼度は高い。記憶された音声認識結果が「はい」である場合、状態４へ遷移して対話シナリオを終了するとともに、状態２での音声認識結果が正しいと判断できる。

上述した判断方法として、状態遷移にフィードバックが有るか否かを判断する方法を用いることもできる。図３に、切符を購入する対話シナリオでの状態遷移図を示す。図３に示すように、状態１で該対話シナリオが開始し、「目的駅名をどうぞ」というシステム発話が出力され、状態２へ遷移する。

状態２では、入力された発話を音声認識し、音声認識結果をＲＡＭ１３に記憶するとともに状態１ａへ遷移する。記憶された音声認識結果が「ＸＸ駅」である場合、該対話シナリオでは「ＸＸ駅ですね」とのシステム発話、及び「大人ですか、子供ですか」とのシステム発話が出力され、状態２ａへ遷移する。

状態２ａでは、入力された発話を音声認識し、音声認識結果をＲＡＭ１３に記憶する。音声認識結果が「大人」、「子供」のいずれでもない「△△」である場合、状態１へと遷移（フィードバック）する。このように状態遷移に、対話シナリオ情報に逆行する状態遷移が有る場合には、状態２または状態２ａでの音声認識結果が正しくないと判断できる。また、対話シナリオ情報に逆行する状態遷移が同一箇所で連続して存在する場合にのみ音声認識結果が正しくないと判断する等、判断基準を変更することも可能である。

また、状態遷移履歴に基づいて、音声認識結果を修正した回数を累積し、累積数の大小に応じて音声認識結果が正しいか否か判断する方法を用いることもできる。図３で、状態２ａでの音声認識結果が「大人」または「子供」である場合、状態１ｂへ遷移し、「大人ですね」または「子供ですね」とのシステム発話が出力され、「切符枚数をどうぞ」とのシステム発話が出力された後、状態２ｂへ遷移する。

状態２ｂでは、入力された発話を音声認識し、音声認識結果をＲＡＭ１３に記憶する。音声認識結果が「◎枚」である場合、「◎枚ですね」とのシステム発話を出力して状態３へ遷移する。

状態３では、入力された発話を音声認識し、音声認識結果をＲＡＭ１３に記憶する。状態３では音声認識結果が「はい」または「いいえ」の二者択一であると判断できることから、状態３での音声認識結果の信頼度は高い。記憶された音声認識結果が「いいえ」である場合、状態１ｂへ遷移して、再度切符枚数を入力する発話を行うことで、音声認識結果を修正する。

このように音声認識結果を修正した回数を累積し、累積数が所定の回数以下である場合に、音声認識結果が正しいものと判断する。つまり、発話者が音声認識結果の誤りを修正した回数が少なければ、該音声認識エンジンが正しい認識結果を出力していると判断できる。

また、図４は、切符を購入する対話シナリオでの他の状態遷移図である。図４に示すように、最後に１回だけ音声認識結果が正しいか否かを判断し、音声認識結果が正しいと判断された場合、それまでに通過した各状態での音声認識結果をすべて正しいと判断することもできる。図４では、状態１で該対話シナリオが開始し、「目的駅名をどうぞ」というシステム発話が出力され、状態２へ遷移する。

状態２ａでは、入力された発話を音声認識し、音声認識結果をＲＡＭ１３に記憶する。音声認識結果が「大人」「子供」のいずれかであるか否かにかかわらず、任意の音声認識結果「△△」である場合、状態１ｂへと遷移する。状態１ｂでは、「切符枚数をどうぞ」とのシステム発話が出力された後、状態２ｂへ遷移する。

状態２ｂでは、入力された発話を音声認識し、音声認識結果をＲＡＭ１３に記憶する。音声認識結果が「◎枚」である場合、それまでの状態での音声認識結果をまとめたシステム発話が出力される。例えば、「ＸＸ駅まで、△△の切符◎枚ですね。誤りがある場合、駅名、種別、枚数と、何を修正するか指定してください。」とのシステム発話を出力して状態５へ遷移する。

状態５では、入力された発話を音声認識し、音声認識結果をＲＡＭ１３に記憶する。状態５では音声認識結果が「駅名」である場合は状態１へ、「種別」である場合は状態１ａへ、「枚数」である場合は状態１ｂへ、それぞれ状態遷移する。音声認識結果が「はい」である場合、状態６へ遷移して処理を終了する。すなわち、状態５での音声認識結果の信頼度を高いと判断し、音声認識結果が「はい」である場合、それまでに遷移してきた状態１、状態１ａ、状態１ｂ、状態５のすべての音声認識結果が正しいものと判断する。

さらに、音声認識エンジンから出力される認識評価値を併用することもできる。この場合、文単位または単語単位での音声認識結果の評価値が所定のしきい値よりも高い場合に、音声認識結果として正しいと判断する。つまり、対話の内容ではなく、音声認識の評価値のみで判断する。したがって、上述した方法と併用することで、音声認識結果が正しいか否かを判断する精度がより向上することは言うまでもない。

音声認識結果が正しいと判断された場合、該音声認識結果は、記憶されている発話と対応付けた発話データとして記憶手段１２の発話データ蓄積部１２１に記憶される。音声認識結果が正しくないと判断された場合、該音声認識結果と発話は記憶手段１２から削除される。なお、「発話データ」とは、発話及び対応付けられた発話内容に関する情報を含む音声認識に用いられるデータ全体を意味する。

このように音声対話装置を用い、発話者とコンピュータとの間の対話に基づいて音声認識結果画正しいか否かを判断することで、発話データとして発話データ蓄積部１２１に音声認識結果が正しい発話のみを選択して発話データとして収集することができる。

また、音声対話装置では、発話者は自然な対話を行うので、原稿を読み上げる場合のような不自然さを排除することができ、無意識に自然会話に近い音声認識用の発話データを収集することができる。したがって、通常の対話環境に合致した音声認識率の高い音響モデルを容易に構築することが可能となる。また、発話形態、入力系の特性、利用する発話者の年齢層の分布等、いずれの観点においても収集された発話データと音声認識装置の使用環境との違いが生じるのを回避することが可能となる。

なお、対話の状態遷移履歴は記憶手段１２またはＲＡＭ１３に記憶されていることから、上述した処理による発話データの収集は、必ずしもリアルタイムである必要はなく、対話シナリオに沿った音声対話の終了後に、発話データの収集を行うものであってもよい。

図５は、発話データ蓄積部１２１に記憶されるデータ構成の例示図である。図５では、「コンピュータを」と発話された場合について説明する。以下、図７まで該発話を例に挙げて説明する。図５の例では、発話は時系列データとして記憶され、認識結果としての音素記号が開始ポイント、終了ポイントとともに付与されている。なお、開始ポイント及び終了ポイントは、サンプリング周波数に依存するサンプル数を累積した値で示す。

図６は、発話データとして記憶されるデータ構成のうち、音素と時間ポイントとの関係を示す例示図である。図６に示すように、音素ごとに開始ポイントと終了ポイントが記憶されており、図５に示す発話のどの部分が各音素に対応しているかを示している。

また、図７（ａ）に示すように、音素ではなく、音節ごとに開始ポイントと終了ポイントを記憶してもよいし、図７（ｂ）に示すように、文節ごとに開始ポイントと終了ポイントを記憶してもよい。また、ユーザ発話が１発声単位である場合には、音声認識装置が切り出した発声前後の無音区間を含むユーザ発話に対して、開始ポイント及び終了ポイントの指定もなく、認識結果としての音素、音節等のみを対応付けてもよい。

なお、本実施の形態１では、開始ポイント及び終了ポイントをサンプリング周波数に依存するサンプル数に基づいて示しているが、特にこれに限定されるものではなく、時間単位である秒、ミリ秒等を用いてもよい。

また、発話データを構成する発話として波形データを用いているが、特にこれに限定されるものではなく、例えば音声スペクトラム、ＭＦＣＣ（Mel-Frequency Cepstral Co-efficients）等の音声認識に用いる音声特徴量を用いることも可能である。

さらに、音声認識用として生成され記憶される発話データは、発話単位である必要はなく、ワードスポッティング処理のように、発話の一部分だけを音声認識した結果を、対応する区間の音声データと対応付けて記憶してもよい。

次に、本発明の実施の形態１に係る音声認識用発話データ収集装置を具現化するコンピュータプログラムの処理について説明する。図８は、本発明の実施の形態１に係る音声認識用発話データ収集装置を具現化するコンピュータプログラムのフローチャートである。

図８で、まず対話シナリオ情報に沿って、発話者による発話を促すメッセージを出力する（ステップＳ８０１）。そして、該メッセージ対する発話入力を受け付ける（ステップＳ８０２）。

次に、入力された発話について、音声認識処理を行い（ステップＳ８０３）、音声認識結果及び対話シナリオ情報に基づいた対話の状態遷移履歴に基づいて、入力された発話が正しく認識されたか否かを判断する（ステップＳ８０４）。

音声認識結果が正しく認識されたと判断した場合には（ステップＳ８０４：ＹＥＳ）、入力された発話と音声認識結果とを対応付けて、１つの発話データとして記憶する（ステップＳ８０５）。

上述した処理を、対話シナリオ情報が終了するまで続行し（ステップＳ８０６）、対話シナリオ情報が終了した時点で（ステップＳ８０６：ＹＥＳ）、発話データの収集を終了する。

なお、本実施の形態１では、一つの音声対話装置から発話データを収集しているが、音声対話装置は一つに限定されるものではなく、複数の音声対話装置で蓄積した発話データを集約することも可能である。複数の音声対話装置で発話データを収集することで、より大量の発話データを収集することができ、音声認識精度の高い音響モデルを構築することが可能となる。

また、本実施の形態１では、状態遷移に着目して音声認識結果が正しいか否かを判断しているが、状態遷移に着目する方法に限定されるものではなく、音声認識結果の正当性が担保される方法であれば何でもよい。例えば、対話シナリオで用いられる発話による入力項目ごとに記憶スロットを記憶手段１２に設けておき、スロットの値と該スロットの値と音声認識された発話を識別する情報と対応付けて記憶する方法も可能である。

図９に、記憶手段１２でのスロット管理の説明図を示す。図９では、切符を購入する対話シナリオでの「駅名」、「種別」、「枚数」等の各入力項目に対してスロットが割り当てられ、発話を音声認識した結果がスロット値として、音声認識された発話を識別する情報として発話ＩＤが記憶される。このようにすることで、例えば駅名の音声認識が正しくないと判断され、再度音声認識された場合、スロット値が正しい認識結果である「高知」へ修正され、対応する発話ＩＤも修正される。したがって、最終的に正しく認識された結果のみが記憶手段１２に記憶されることになる。

（実施の形態２）
本発明の実施の形態２に係る音声認識用発話データ収集装置を具現化するコンピュータの概略構成図は実施の形態１と同様である。本実施の形態２では、音声を用いた話者認識手段を備え、発話に基づいて発話者の確認を行うことができる点が相違する。

発話者に関する情報は、記憶手段１２の発話者情報記憶部１２２に事前に記憶しておく。記憶される発話者に関する情報は、少なくとも発話者を識別する情報を含み、その他性別、年齢、居住地域、国籍等を含む個人情報である。発話者に関する情報は、発話者情報記憶部１２２に事前に記憶しておくことに限定されるものではなく、音声対話装置の対話シナリオ情報中で判明した情報を随時追加するものであってもよい。また、発話者情報記憶部１２２は記憶手段１２だけではなく、通信手段１４を介して接続されている他のコンピュータに内蔵されているハードディスク等、大容量のデータを記憶することができる記録媒体であれば、何に設けてもよい。

発話者による発話が入力されると、発話を音声認識するとともに、発話者が登録されている話者のうちの誰であるかを確認するため、対応する発話者を識別する情報、例えばユーザＩＤを取得する。そして、記憶手段１２の発話者情報記憶部１２２から、ユーザＩＤに対応付けられた発話者に関する情報を抽出し、発話データを生成する際に、発話と音声認識結果、及び抽出された発話者に関する情報を一対の発話データとして発話データ蓄積部１２１に記憶する。

このようにすることで、音声認識用に記憶される話者データを、性別、年齢別、居住地域別等の条件別に収集することができ、発話者の条件に対応した音響モデルを作成することができる。したがって、特定条件での音声認識精度の向上が期待できる発話データを効率的に収集することが可能となる。

（実施の形態３）
本発明の実施の形態３に係る音声認識用発話データ収集装置を具現化するコンピュータの概略構成図は実施の形態１と同様である。本実施の形態３では、各種の電話回線を用いてユーザ発話を入力する点が相違する。

すなわち、入力手段１５は固定電話、携帯電話、ＰＨＳ、ＩＰ電話等の電話回線と接続されており、入力される発話は、各回線に固有の音声加工が施された状態で入力される。したがって、発話データの収集時に、どの電話回線を用いた発話データであるのか識別する情報を付加することで、音声認識精度の向上を図ることができる。

発話者は、音声対話装置に接続するべく、自宅の固定電話、所有する携帯電話等の電話機から、音声対話装置に繋がる既定の電話番号を発呼する。コンピュータは、発呼を受けると回線接続し、同時に該発呼の発信番号情報(発信番号を通知しているか否か、及び通知している場合には通知した発信番号)を記憶装置１２またはメモリ１３に記憶する。対話シナリオ情報に沿って、音声メッセージを出力し、以下実施の形態１と同様に発話者の発話データを蓄積する。

発話者による発呼時に発信番号が通知されている場合は、該発信番号に基づいて回線のＣＯＤＥＣ種別またはキャリア（電話事業者）の種類を推定することができる。例えば、発信番号の最初の３桁が「０９０」である場合には携帯電話であると推定できる。したがって、発話データは、発話及び音声認識結果に、発信番号情報を対応付けて生成する。

このようにすることで、発信番号に基づいて回線のＣＯＤＥＣ種別またはキャリアの種類を識別できることから、回線のＣＯＤＥＣ種別またはキャリアの種類ごとに発話データを分類することができる。したがって、各回線ごとに生じるＣＯＤＥＣの歪みを考慮した音響モデルを生成することができ、電話回線使用時の音声認識精度の向上が期待できる。

一方、発話者による発呼時に発信番号が通知されていない場合は、音響モデルとして回線判定用の音響モデルを記憶手段１２に記憶しておき、入力された発話がどの音響モデルと合致しているかを判定することで、使用された回線が固定電話、携帯電話（ＰＤＣ、Ｗ−ＣＤＭＡ等）、ＰＨＳ、ＩＰ電話等のいずれかであるのかを判定することができる。

このようにすることで、回線のＣＯＤＥＣ種別またはキャリアの種類ごとに対応する音響モデルを特定することができ、各回線ごとに生じるＣＯＤＥＣ歪みを考慮した音響モデルを用いることで、電話回線使用時の音声認識精度の向上が期待できる。

以上のように本実施の形態３によれば、１対話ごとに取得することができる回線情報別に分類された発話データを収集することができ、使用する回線に応じた音響モデルを用いることで、より音声認識の精度を向上することが可能となる。

また、発話データは、発話及び音声認識結果に、発信番号情報を対応付けて生成するのに加えて、発話が収録された時刻も対応付けて生成することが望ましい。例えば携帯電話のように時代とともにＣＯＤＥＣ種別が変遷するものでは、古い発話を音響モデルの学習、改良等に用いることは避けるべきであり、音響モデルの学習用データから排除するべき発話を選別するための情報として、発話が収録された時刻に関するデータは有効である。

なお、音響モデルの学習を少ない発話データに基づいて行うと、不特定話者に対して有効な音響モデルを生成することが困難になる。そこで、発話データが発話データ蓄積部１２１に蓄積されるデータ量を検出する手段を設け、蓄積される発話データ量が所定のしきい値を超えた場合に音響モデルの学習を開始する。

蓄積される発話データ量を検出する手段としては、記憶されたデータの総量を検出するものに限定されるものではなく、例えば一定時間間隔で音響モデルを再生成するものであってもよい。

このようにすることで、定量的または定期的に音響モデルを更新することができ、最新の発話データに基づいた音響モデルを生成することができることから、発話者の体調や経年変化に伴う音声の変動等を考慮した音響モデルを生成することができる。したがって、より音声認識の精度向上に貢献する発話データを収集することが可能となる。

（付記１）
対話の進行手順を記述した対話シナリオ情報を記憶する手段、
入力された発話を受け付ける手段、
前記入力された発話を音声認識する手段、
前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させる手段、
及び前記入力された発話に対する応答を出力する手段を含む音声対話装置と、
前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、
前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断する手段と、
該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶する手段と
を備えることを特徴とする音声認識用発話データ収集装置。

（付記２）
音声認識結果と対応付けて記憶される発話は、音声の波形データまたは該発話を音響分析した結果である発話特徴量であることを特徴とする付記１記載の音声認識用発話データ収集装置。

（付記３）
音声認識結果を修正する手段と、
前記音声認識結果を修正した回数を累積する手段と、
修正した回数の累積数が所定の回数以下である場合、入力された発話が前記対話シナリオ情報に記述された対話の進行手順に対応する発話であると判断する手段と
を備えることを特徴とする付記１または２記載の音声認識用発話データ収集装置。

（付記４）
前記対話シナリオ情報は、記述された対話の進行手順に沿った発話が入力された場合に所定のタスクを実行する記述を含み、
前記タスクの実行を検知する手段を備え、
前記入力された発話が正しく認識されたか否かを判断する手段は、前記タスクの実行を検知する手段が前記タスクの実行を検知した場合、入力された発話が前記対話シナリオ情報に記述された対話の進行手順に対応する発話であると判断することを特徴とする付記１または２記載の音声認識用発話データ収集装置。

（付記５）
発話者を特定するための情報を含む発話者に関する情報を記憶する手段と、
前記入力された発話と前記発話者に関する情報に基づいて発話者を特定する手段と、
特定された発話者に付随する情報を、前記音声認識結果及び前記入力された発話と対応付けて記憶する手段と
を備えることを特徴とする付記１から４のいずれか一項に記載の音声認識用発話データ収集装置。

（付記６）
電話回線での発信番号を受信する手段と、
前記発信番号を、前記音声認識結果及び前記入力された発話と対応付けて記憶する手段と
を備えることを特徴とする付記１から５のいずれか一項に記載の音声認識用発話データ収集装置。

（付記７）
前記発信番号に基づいて、回線種別またはキャリアを判定する手段と、
回線種別またはキャリアの判定結果を、前記音声認識結果及び前記入力された発話と対応付けて記憶する手段と
を備えることを特徴とする付記６記載の音声認識用発話データ収集装置。

（付記８）
発話が入力された時刻に関する情報を、前記音声認識結果及び前記入力された発話と対応付けて記憶する手段を備えることを特徴とする付記１から７のいずれか一項に記載の音声認識用発話データ収集装置。

（付記９）
対話の進行手順を記述した対話シナリオ情報を記憶し、
入力された発話を受け付け、
前記入力された発話を音声認識し、
前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させ、
前記入力された発話に対する応答を出力する音声対話方法を用い、
前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶し、
前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断し、
該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶することを特徴とする音声認識用発話データ収集方法。

（付記１０）
コンピュータを、
対話の進行手順を記述した対話シナリオ情報を記憶する手段、
入力された発話を受け付ける手段と、
前記入力された発話を音声認識する手段、
前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させる手段、
及び前記発話に対する応答を出力する手段を含む音声対話装置と、
前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、
前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断する手段と、
該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶する手段として機能させることを特徴とするコンピュータプログラム。

本発明の実施の形態１に係る音声認識用発話データ収集装置を具現化するコンピュータの概略構成図である。名前を確認する対話シナリオでの状態遷移図である。切符を購入する対話シナリオでの状態遷移図である。切符を購入する対話シナリオでの他の状態遷移図である発話データ蓄積部に記憶されるデータ構成の例示図である。音素と時間ポイントとの関係を示す例示図である。音節または単語と時間ポイントとの関係を示す例示図である。本発明の実施の形態１に係る音声認識用発話データ収集装置で用いるプログラムのフローチャートである。記憶手段でのスロット管理の説明図を示す従来の音声認識用発話データ収集装置の概略構成を示す機能ブロック図である。

符号の説明

１１ＣＰＵ
１２記憶手段
１３ＲＡＭ
１４通信手段
１５入力手段
１６出力手段
１７補助記憶手段
１８可搬型記録媒体
１２１発話データ蓄積部
１２２発話者情報記憶部

Claims

対話の進行手順を記述した対話シナリオ情報を記憶する手段、
入力された発話を受け付ける手段、
前記入力された発話を音声認識する手段、
音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させる手段、
及び前記入力された発話に対する応答を出力する手段を含む音声対話装置と、
前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、
前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断する手段と、
該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前期入力された発話を対応付けて記憶する手段と
を備えることを特徴とする音声認識用発話データ収集装置。
音声認識結果と対応付けて記憶される発話は、音声の波形データまたは該発話を音響分析した結果である発話特徴量であることを特徴とする請求項１記載の音声認識用発話データ収集装置。
電話回線での発信番号を受信して記憶する手段と、
前記発信番号を、前記音声認識結果及び前記入力された発話と対応付けて記憶する手段と
を備えることを特徴とする請求項１または２記載の音声認識用発話データ収集装置。
対話の進行手順を記述した対話シナリオ情報を記憶し、
入力された発話を受け付け、
前記入力された発話を音声認識し、
前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させ、
前記入力された発話に対する応答を出力する音声対話方法を用い、
前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶し、
前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断し、
該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶することを特徴とする音声認識用発話データ収集方法。
コンピュータを、
対話の進行手順を記述した対話シナリオ情報を記憶する手段、
入力された発話を受け付ける手段、
前記入力された発話を音声認識する手段、
前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させる手段、
及び前記入力された発話に対する応答を出力する手段を含む音声対話装置と、
前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、
前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断する手段と、
該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶する手段として機能させることを特徴とするコンピュータプログラム。