JP2005062398A - 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム - Google Patents

音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP2005062398A
JP2005062398A JP2003291441A JP2003291441A JP2005062398A JP 2005062398 A JP2005062398 A JP 2005062398A JP 2003291441 A JP2003291441 A JP 2003291441A JP 2003291441 A JP2003291441 A JP 2003291441A JP 2005062398 A JP2005062398 A JP 2005062398A
Authority
JP
Japan
Prior art keywords
utterance
speech recognition
recognition result
dialogue
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003291441A
Other languages
English (en)
Other versions
JP4408665B2 (ja
Inventor
Nobuyuki Washio
信之 鷲尾
Takuo Ikeda
拓郎 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003291441A priority Critical patent/JP4408665B2/ja
Publication of JP2005062398A publication Critical patent/JP2005062398A/ja
Application granted granted Critical
Publication of JP4408665B2 publication Critical patent/JP4408665B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】
音声認識の精度を高く維持しつつ、効率的に発話データを収集することができる音声認識用発話データ収集装置、音声認識用発話データ収集方法及びコンピュータプログラムを提供する。
【解決手段】
対話の進行手順を記述した対話シナリオ情報を記憶する手段、入力された発話を受け付ける手段、入力された発話を音声認識する手段、音声認識結果及び対話シナリオ情報に基づいて対話を進行させる手段、及び発話に対する応答を出力する手段を含む音声対話装置と、対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、音声認識結果及び状態遷移履歴に基づいて、入力された発話が正しく認識されたか否かを判断する手段と、該手段が、正しく認識されたと判断した場合、音声認識結果及び入力された発話を対応付けて記憶する手段とを備える。
【選択図】 図1

Description

本発明は、音声認識に用いる発話データを収集して記憶する音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラムに関する。
近年、音声認識システム(ASR:Auto Speech Recognition)を用いたボイスポータル等の音声対話システム(IVR:Interactive Voice Response)が普及し始めている。該音声対話システムの使い易さを大きく左右するのは、発話を認識する音声認識システムの認識性能である。音声認識システムの性能には、HMM(Hidden Markov model)等でモデル化される音響モデルの精度が大きく影響する。
一般に、精度のよい音響モデルを開発するためには、該音響モデルの学習時に、発話内容が明確である発話データが大量に必要となる。HMM等の統計モデルを使用した場合、特に発話データの量が音響モデルの性能と直結する。そのため、発声内容を示すデータを付与した発話を大量かつ容易に収集することは、音声認識システムの開発において重要な課題の一つである。なお、「発話データ」とは、発話者による発話及び対応付けられた発話内容に関する情報を含む音声認識に用いられるデータ全体を意味している。
また、音響モデルの学習時に用いる発話を入力する環境は、発話者が音声認識システムを使用する環境と同一条件であることが望ましい。例えば、音響モデルの学習時に用いる発話データを、読み上げ用原稿を用意し、該原稿を発話者が読み上げた発話を録音することで取得する場合、該発話データは読み上げ口調となる。それに対して、実際に音声認識システムを使用する環境では自由発話に近い口語口調の発話が原稿読み上げ時より多くなる。したがって、音響モデルの学習時に用いる発話データと実際の発話との間で音声特徴量等の乖離が大きくなり、認識精度は悪化する。
また、上記方法で発話データを収集する場合、原稿を読み上げる発話を録音する機器の操作等のための専従者が必要であり、発話データ収集コストまたは収集能率の観点から、大量に発話データを収集することは困難であった。さらに、原稿を発話者が読み上げた発話データには読み誤ったデータも含まれており、このような音響モデルの学習時に用いる発話データとして不適切なデータを除外する必要もあった。
斯かる問題を解消するために、音声認識システムの認識結果を発話に対応付けて発話データを生成する方法が用いられている。例えば音声認識システムの認識結果を発話の識別情報として対応付けることで、発話の内容が明確になる。しかし、読み誤ったデータを除外する必要が生じるという問題は解消しない。
そこで、特許文献1に開示されているように、音声認識システムの認識結果を発話に対応付けて発話データを生成して記憶し、特許文献2に開示されているように、発話者自身が気付いた読み誤ったデータは除外する手段を設ける。図10に、音声認識装置の認識結果を発話に対応付けて発話データを生成して記憶する音声認識用発話データ収集装置の機能ブロック構成図を示す。
図10に示すように、発話入力部1から発話者の音声が入力され、音声認識部2に送られる。音声認識部2は、発話者が発話する毎に、入力された音声に対応する音声認識結果を出力し、それぞれ認識結果記憶部3、発話記憶部4に記憶する。
発話者が音声認識結果が正しくないと判断し、発話取消入力部7から認識結果取消要求信号が入力される場合、発話データ生成部5は、記憶されている対応する入力された発話及び音声認識結果を、それぞれ認識結果記憶部3及び発話記憶部4から削除する。発話取消入力部7から認識結果取消要求信号が入力されない場合、発話データ生成部5は、認識結果記憶部3及び発話記憶部4に記憶されている発話と音声認識結果を一対のデータとして対応付け、発話データ記憶部6に記憶する。このようにすることで、発話データ記憶部6に記憶されている発話データには、音声認識部2で誤認識されたものは含まれない。したがって、認識性能の高い音響モデルを構築することが可能となる。
特開2003−150185号公報 特開2002−189496号公報
しかし、図10に示す音声認識用発話データ収集装置では、入力される発話は、結局原稿を読み上げた発話であり、音響モデルの学習時に用いる発話を入力する環境と、該発話データを用いて学習した音響モデルを用いる音声認識装置をユーザが使用する環境とを一致させることは現実的に困難である。
また、音響モデルの学習時に用いる発話を収集するために多くの発話者を集める必要がある。発話収集に協力してもらった発話者に対価を支払う等の方法を用いる場合、比較的容易に発話者を集めることは可能であるが、音響モデルの学習にかかる金銭的負担が重くなる。
さらに、音響モデル構築のために集める発話者の男女比、年齢分布等の相違によっても音響モデルの認識性能が左右される。集める発話者の男女比、年齢分布等は、実際に音声認識システムを使用する発話者の男女比、年齢分布等に近いことが望ましいことは言うまでもない。
本発明は斯かる事情に鑑みてなされたものであり、音声認識の精度を高く維持しつつ、効率的に発話データを収集することができる音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラムを提供することを目的とする。
上記目的を達成するために第1発明に係る音声認識用発話データ収集装置は、対話の進行手順を記述した対話シナリオ情報を記憶する手段、入力された発話を受け付ける手段、
前記入力された発話を音声認識する手段、音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させる手段、及び前記入力された発話に対する応答を出力する手段を含む音声対話装置と、前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断する手段と、該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前期入力された発話を対応付けて記憶する手段とを備えることを特徴とする。
第1発明に係る音声認識用発話データ収集装置では、音声対話装置で進行する対話で、発話が正しく認識されたか否かを評価し、発話が正しく認識されている場合には音声認識結果と発話を対応付けて、発話データとして記憶する。
また、第2発明に係る音声認識用発話データ収集装置は、第1発明において、音声認識結果と対応付けて記憶される発話は、音声の波形データまたは該発話を音響分析した結果である発話特徴量であることを特徴とする。
第2発明に係る音声認識用発話データ収集装置では、音声の波形データまたは該発話を音響分析した結果である発話特徴量を音声認識結果と対応付けて、発話データとして蓄積する。
また、第3発明に係る音声認識用発話データ収集装置は、第1発明または第2発明において、電話回線での発信番号を受信して記憶する手段と、前記発信番号を、前記音声認識結果及び前記入力された発話と対応付けて記憶する手段とを備えることを特徴とする。
第3発明に係る音声認識用発話データ収集装置では、電話回線ごとに固有の発信番号と発話データとを対応付けて記憶することができ、電話回線ごとに固有のノイズ、フィルタリング、変調等に応じた音響モデルを生成する。
また、第4発明に係る音声認識用発話データ収集方法は、対話の進行手順を記述した対話シナリオ情報を記憶し、入力された発話を受け付け、前記入力された発話を音声認識し、前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させ、前記入力された発話に対する応答を出力する音声対話方法を用い、前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶し、前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断し、該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶することを特徴とする。
第4発明に係る音声認識用発話データ収集方法では、音声対話装置で進行する対話で、発話が正しく認識されたか否かを評価し、発話が正しく認識されている場合には音声認識結果と発話を対応付けて、発話データとして記憶する。
また、第5発明に係るコンピュータプログラムは、コンピュータを、対話の進行手順を記述した対話シナリオ情報を記憶する手段、入力された発話を受け付ける手段、前記入力された発話を音声認識する手段、前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させる手段、及び前記入力された発話に対する応答を出力する手段を含む音声対話装置と、前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断する手段と、該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶する手段として機能させることを特徴とする。
第5発明に係るコンピュータプログラムをコンピュータに導入することで、音声対話装置で進行する対話で、発話が正しく認識されたか否かを評価し、発話が正しく認識されている場合には音声認識結果と発話を対応付けて、発話データとして記憶する。
第1発明に係る音声認識用発話データ収集装置によれば、音声対話の成立の可否に基づいて正しい音声認識結果と対応付けた発話を収集することができ、音声認識精度が高い音響モデルを生成するための発話データを効率よく収集することが可能となる。
また、第2発明に係る音声認識用発話データ収集装置によれば、音声対話の成立の可否に基づいて正しい音声認識結果と対応付けた発話を収集することができ、音声認識精度が高い音響モデルを生成するための発話データを効率よく収集することが可能となる。
また、第3発明に係る音声認識用発話データ収集装置によれば、電話回線を介したユーザ発話について、音響モデルの学習時に用いる発話を入力する環境と、該発話データを用いて学習した音響モデルを用いる音声認識装置を発話者が使用する環境とを一致させることが容易となり、音声認識精度が高い音響モデルを生成するための発話データを効率よく収集することが可能となる。
また、第4発明に係る音声認識用発話データ収集方法によれば、音声対話の成立の可否に基づいて正しい音声認識結果と対応付けた発話を収集することができ、音声認識精度が高い音響モデルを生成するための発話データを効率よく収集することが可能となる。
また、第5発明に係るコンピュータプログラムによれば、音声対話の成立の可否に基づいて正しい音声認識結果と対応付けた発話を収集することができ、音声認識精度が高い音響モデルを生成するための発話データを効率よく収集することが可能となる。
以下、本発明をその実施の形態を示す図面に基づいて具体的に説明する。
(実施の形態1)
以下、本発明の実施の形態1に係る音声認識用発話データ収集装置について図面に基づいて具体的に説明する。本実施の形態1では、音声認識用発話データ収集装置を一つのコンピュータを用いて具現化する場合について説明する。もちろん、音声認識に用いる発話データ等は、通信手段を介して接続された他のコンピュータの記憶装置、DVD等の可搬型記録媒体に記憶されていてもよく、通信手段についても特に限定されるものではない。
図1は、本発明の実施の形態1に係る音声認識用発話データ収集装置を具現化するコンピュータの概略構成図である。図1に示すように、音声認識用発話データ収集装置を具現化するコンピュータは、少なくとも、CPU(中央演算装置)11、記憶手段12、RAM(メモリ)13、外部の通信手段と接続する通信手段14、マウス及びキーボード等の入力手段15、モニタ等の出力手段16及び補助記憶手段17で構成される。
補助記憶手段17は、音声認識用発話データ収集装置を具現化するコンピュータで使用するプログラムを記録した可搬型記録媒体18であり、DVD、CD−ROM等が該当する。また、音声認識に用いる発話データ等の音声認識用発話データ収集装置で使用するデータを記録する可搬型記録媒体18等も含む。
本発明の実施の形態1に係る音声認識用発話データ収集装置を具現化するコンピュータは、音声対話装置20を内蔵する。音声対話装置20も、該コンピュータが有するCPU(中央演算装置)11、記憶手段12、RAM(メモリ)13、外部の通信手段と接続する通信手段14、マウス及びキーボード等の入力手段15、モニタ等の出力手段16及び補助記憶手段17を用いて機能する。
まずコンピュータは、発話者による発話を促すために、記憶手段12に記憶されている対話シナリオ情報に沿って、CPU11の指令により出力手段16から音声出力を行う。例えば、「ご用件は、○○、××、・・・のうちどれですか」等、次に発話者により入力される発話を限定することができる質問を音声出力する。出力手段16からの出力は音声出力に限定されるものではなく、画面への表示出力であってもよい。
なお、対話シナリオ情報は、例えばVoiceXMLのようなシナリオ記述言語により、対話における発話を受け付けることができるよう記述される。すなわち、対話シナリオ情報には、コンピュータ側からの出力の内容、発話に応じた対話の遷移、発話の内容に応じて次に行うべき処理等が記述される。
出力された音声に対して、入力手段15から発話が入力されると、入力された発話は音声の波形データ、または入力された発話を音響分析した結果である発話特徴量を示すデータとして記憶手段12及びRAM13に記憶され、CPU11の指令により、RAM13に記憶された発話について音声認識を行う。音声認識処理に用いる音声認識エンジンは特に限定されるものではなく、一般に用いられる音声認識エンジンであれば何でもよい。音声認識結果は、記憶手段12及びRAM13に記憶される。
なお、記憶手段12としては、内蔵されているハードディスクに限定されるものではなく、通信手段14を介して接続されている他のコンピュータに内蔵されているハードディスク等、大容量のデータを記憶することができる記録媒体であれば何でもよい。
CPU11は、RAM13に記憶された音声認識結果に基づいて、発話が正しく認識されているか否かを判断する。発話が正しく認識されているか否かを判断する方法は、様々な方法を用いることができる。以下、具体例を挙げながら説明する。
一つには、対話シナリオ情報に基づいた対話の状態遷移履歴を記憶手段12またはRAM13に記憶し、記憶されている音声認識結果及び状態遷移履歴に基づいて、入力された発話が正しく認識されたか否かを判断する方法が挙げられる。図2に、名前を確認する対話シナリオでの状態遷移図を示す。図2に示すように、状態1で該対話シナリオが開始し、「お名前をどうぞ」というシステム発話が出力され、状態2へ遷移する。
状態2では、入力された発話を音声認識し、音声認識結果をRAM13に記憶する。記憶された音声認識結果が「○○」である場合、該対話シナリオでは「○○さんですね」とのシステム発話が出力され、状態3へ遷移する。
状態3では、入力された発話を音声認識し、音声認識結果をRAM13に記憶する。状態3では音声認識結果が「はい」または「いいえ」の二者択一であると判断できることから、状態3での音声認識結果の信頼度は高い。記憶された音声認識結果が「はい」である場合、状態4へ遷移して対話シナリオを終了するとともに、状態2での音声認識結果が正しいと判断できる。
上述した判断方法として、状態遷移にフィードバックが有るか否かを判断する方法を用いることもできる。図3に、切符を購入する対話シナリオでの状態遷移図を示す。図3に示すように、状態1で該対話シナリオが開始し、「目的駅名をどうぞ」というシステム発話が出力され、状態2へ遷移する。
状態2では、入力された発話を音声認識し、音声認識結果をRAM13に記憶するとともに状態1aへ遷移する。記憶された音声認識結果が「XX駅」である場合、該対話シナリオでは「XX駅ですね」とのシステム発話、及び「大人ですか、子供ですか」とのシステム発話が出力され、状態2aへ遷移する。
状態2aでは、入力された発話を音声認識し、音声認識結果をRAM13に記憶する。音声認識結果が「大人」、「子供」のいずれでもない「△△」である場合、状態1へと遷移(フィードバック)する。このように状態遷移に、対話シナリオ情報に逆行する状態遷移が有る場合には、状態2または状態2aでの音声認識結果が正しくないと判断できる。また、対話シナリオ情報に逆行する状態遷移が同一箇所で連続して存在する場合にのみ音声認識結果が正しくないと判断する等、判断基準を変更することも可能である。
また、状態遷移履歴に基づいて、音声認識結果を修正した回数を累積し、累積数の大小に応じて音声認識結果が正しいか否か判断する方法を用いることもできる。図3で、状態2aでの音声認識結果が「大人」または「子供」である場合、状態1bへ遷移し、「大人ですね」または「子供ですね」とのシステム発話が出力され、「切符枚数をどうぞ」とのシステム発話が出力された後、状態2bへ遷移する。
状態2bでは、入力された発話を音声認識し、音声認識結果をRAM13に記憶する。音声認識結果が「◎枚」である場合、「◎枚ですね」とのシステム発話を出力して状態3へ遷移する。
状態3では、入力された発話を音声認識し、音声認識結果をRAM13に記憶する。状態3では音声認識結果が「はい」または「いいえ」の二者択一であると判断できることから、状態3での音声認識結果の信頼度は高い。記憶された音声認識結果が「いいえ」である場合、状態1bへ遷移して、再度切符枚数を入力する発話を行うことで、音声認識結果を修正する。
このように音声認識結果を修正した回数を累積し、累積数が所定の回数以下である場合に、音声認識結果が正しいものと判断する。つまり、発話者が音声認識結果の誤りを修正した回数が少なければ、該音声認識エンジンが正しい認識結果を出力していると判断できる。
また、図4は、切符を購入する対話シナリオでの他の状態遷移図である。図4に示すように、最後に1回だけ音声認識結果が正しいか否かを判断し、音声認識結果が正しいと判断された場合、それまでに通過した各状態での音声認識結果をすべて正しいと判断することもできる。図4では、状態1で該対話シナリオが開始し、「目的駅名をどうぞ」というシステム発話が出力され、状態2へ遷移する。
状態2では、入力された発話を音声認識し、音声認識結果をRAM13に記憶するとともに状態1aへ遷移する。記憶された音声認識結果が「XX駅」である場合、該対話シナリオでは「XX駅ですね」とのシステム発話、及び「大人ですか、子供ですか」とのシステム発話が出力され、状態2aへ遷移する。
状態2aでは、入力された発話を音声認識し、音声認識結果をRAM13に記憶する。音声認識結果が「大人」「子供」のいずれかであるか否かにかかわらず、任意の音声認識結果「△△」である場合、状態1bへと遷移する。状態1bでは、「切符枚数をどうぞ」とのシステム発話が出力された後、状態2bへ遷移する。
状態2bでは、入力された発話を音声認識し、音声認識結果をRAM13に記憶する。音声認識結果が「◎枚」である場合、それまでの状態での音声認識結果をまとめたシステム発話が出力される。例えば、「XX駅まで、△△の切符◎枚ですね。誤りがある場合、駅名、種別、枚数と、何を修正するか指定してください。」とのシステム発話を出力して状態5へ遷移する。
状態5では、入力された発話を音声認識し、音声認識結果をRAM13に記憶する。状態5では音声認識結果が「駅名」である場合は状態1へ、「種別」である場合は状態1aへ、「枚数」である場合は状態1bへ、それぞれ状態遷移する。音声認識結果が「はい」である場合、状態6へ遷移して処理を終了する。すなわち、状態5での音声認識結果の信頼度を高いと判断し、音声認識結果が「はい」である場合、それまでに遷移してきた状態1、状態1a、状態1b、状態5のすべての音声認識結果が正しいものと判断する。
さらに、音声認識エンジンから出力される認識評価値を併用することもできる。この場合、文単位または単語単位での音声認識結果の評価値が所定のしきい値よりも高い場合に、音声認識結果として正しいと判断する。つまり、対話の内容ではなく、音声認識の評価値のみで判断する。したがって、上述した方法と併用することで、音声認識結果が正しいか否かを判断する精度がより向上することは言うまでもない。
音声認識結果が正しいと判断された場合、該音声認識結果は、記憶されている発話と対応付けた発話データとして記憶手段12の発話データ蓄積部121に記憶される。音声認識結果が正しくないと判断された場合、該音声認識結果と発話は記憶手段12から削除される。なお、「発話データ」とは、発話及び対応付けられた発話内容に関する情報を含む音声認識に用いられるデータ全体を意味する。
このように音声対話装置を用い、発話者とコンピュータとの間の対話に基づいて音声認識結果画正しいか否かを判断することで、発話データとして発話データ蓄積部121に音声認識結果が正しい発話のみを選択して発話データとして収集することができる。
また、音声対話装置では、発話者は自然な対話を行うので、原稿を読み上げる場合のような不自然さを排除することができ、無意識に自然会話に近い音声認識用の発話データを収集することができる。したがって、通常の対話環境に合致した音声認識率の高い音響モデルを容易に構築することが可能となる。また、発話形態、入力系の特性、利用する発話者の年齢層の分布等、いずれの観点においても収集された発話データと音声認識装置の使用環境との違いが生じるのを回避することが可能となる。
なお、対話の状態遷移履歴は記憶手段12またはRAM13に記憶されていることから、上述した処理による発話データの収集は、必ずしもリアルタイムである必要はなく、対話シナリオに沿った音声対話の終了後に、発話データの収集を行うものであってもよい。
図5は、発話データ蓄積部121に記憶されるデータ構成の例示図である。図5では、「コンピュータを」と発話された場合について説明する。以下、図7まで該発話を例に挙げて説明する。図5の例では、発話は時系列データとして記憶され、認識結果としての音素記号が開始ポイント、終了ポイントとともに付与されている。なお、開始ポイント及び終了ポイントは、サンプリング周波数に依存するサンプル数を累積した値で示す。
図6は、発話データとして記憶されるデータ構成のうち、音素と時間ポイントとの関係を示す例示図である。図6に示すように、音素ごとに開始ポイントと終了ポイントが記憶されており、図5に示す発話のどの部分が各音素に対応しているかを示している。
また、図7(a)に示すように、音素ではなく、音節ごとに開始ポイントと終了ポイントを記憶してもよいし、図7(b)に示すように、文節ごとに開始ポイントと終了ポイントを記憶してもよい。また、ユーザ発話が1発声単位である場合には、音声認識装置が切り出した発声前後の無音区間を含むユーザ発話に対して、開始ポイント及び終了ポイントの指定もなく、認識結果としての音素、音節等のみを対応付けてもよい。
なお、本実施の形態1では、開始ポイント及び終了ポイントをサンプリング周波数に依存するサンプル数に基づいて示しているが、特にこれに限定されるものではなく、時間単位である秒、ミリ秒等を用いてもよい。
また、発話データを構成する発話として波形データを用いているが、特にこれに限定されるものではなく、例えば音声スペクトラム、MFCC(Mel-Frequency Cepstral Co-efficients)等の音声認識に用いる音声特徴量を用いることも可能である。
さらに、音声認識用として生成され記憶される発話データは、発話単位である必要はなく、ワードスポッティング処理のように、発話の一部分だけを音声認識した結果を、対応する区間の音声データと対応付けて記憶してもよい。
次に、本発明の実施の形態1に係る音声認識用発話データ収集装置を具現化するコンピュータプログラムの処理について説明する。図8は、本発明の実施の形態1に係る音声認識用発話データ収集装置を具現化するコンピュータプログラムのフローチャートである。
図8で、まず対話シナリオ情報に沿って、発話者による発話を促すメッセージを出力する(ステップS801)。そして、該メッセージ対する発話入力を受け付ける(ステップS802)。
次に、入力された発話について、音声認識処理を行い(ステップS803)、音声認識結果及び対話シナリオ情報に基づいた対話の状態遷移履歴に基づいて、入力された発話が正しく認識されたか否かを判断する(ステップS804)。
音声認識結果が正しく認識されたと判断した場合には(ステップS804:YES)、入力された発話と音声認識結果とを対応付けて、1つの発話データとして記憶する(ステップS805)。
上述した処理を、対話シナリオ情報が終了するまで続行し(ステップS806)、対話シナリオ情報が終了した時点で(ステップS806:YES)、発話データの収集を終了する。
なお、本実施の形態1では、一つの音声対話装置から発話データを収集しているが、音声対話装置は一つに限定されるものではなく、複数の音声対話装置で蓄積した発話データを集約することも可能である。複数の音声対話装置で発話データを収集することで、より大量の発話データを収集することができ、音声認識精度の高い音響モデルを構築することが可能となる。
また、本実施の形態1では、状態遷移に着目して音声認識結果が正しいか否かを判断しているが、状態遷移に着目する方法に限定されるものではなく、音声認識結果の正当性が担保される方法であれば何でもよい。例えば、対話シナリオで用いられる発話による入力項目ごとに記憶スロットを記憶手段12に設けておき、スロットの値と該スロットの値と音声認識された発話を識別する情報と対応付けて記憶する方法も可能である。
図9に、記憶手段12でのスロット管理の説明図を示す。図9では、切符を購入する対話シナリオでの「駅名」、「種別」、「枚数」等の各入力項目に対してスロットが割り当てられ、発話を音声認識した結果がスロット値として、音声認識された発話を識別する情報として発話IDが記憶される。このようにすることで、例えば駅名の音声認識が正しくないと判断され、再度音声認識された場合、スロット値が正しい認識結果である「高知」へ修正され、対応する発話IDも修正される。したがって、最終的に正しく認識された結果のみが記憶手段12に記憶されることになる。
(実施の形態2)
本発明の実施の形態2に係る音声認識用発話データ収集装置を具現化するコンピュータの概略構成図は実施の形態1と同様である。本実施の形態2では、音声を用いた話者認識手段を備え、発話に基づいて発話者の確認を行うことができる点が相違する。
発話者に関する情報は、記憶手段12の発話者情報記憶部122に事前に記憶しておく。記憶される発話者に関する情報は、少なくとも発話者を識別する情報を含み、その他性別、年齢、居住地域、国籍等を含む個人情報である。発話者に関する情報は、発話者情報記憶部122に事前に記憶しておくことに限定されるものではなく、音声対話装置の対話シナリオ情報中で判明した情報を随時追加するものであってもよい。また、発話者情報記憶部122は記憶手段12だけではなく、通信手段14を介して接続されている他のコンピュータに内蔵されているハードディスク等、大容量のデータを記憶することができる記録媒体であれば、何に設けてもよい。
発話者による発話が入力されると、発話を音声認識するとともに、発話者が登録されている話者のうちの誰であるかを確認するため、対応する発話者を識別する情報、例えばユーザIDを取得する。そして、記憶手段12の発話者情報記憶部122から、ユーザIDに対応付けられた発話者に関する情報を抽出し、発話データを生成する際に、発話と音声認識結果、及び抽出された発話者に関する情報を一対の発話データとして発話データ蓄積部121に記憶する。
このようにすることで、音声認識用に記憶される話者データを、性別、年齢別、居住地域別等の条件別に収集することができ、発話者の条件に対応した音響モデルを作成することができる。したがって、特定条件での音声認識精度の向上が期待できる発話データを効率的に収集することが可能となる。
(実施の形態3)
本発明の実施の形態3に係る音声認識用発話データ収集装置を具現化するコンピュータの概略構成図は実施の形態1と同様である。本実施の形態3では、各種の電話回線を用いてユーザ発話を入力する点が相違する。
すなわち、入力手段15は固定電話、携帯電話、PHS、IP電話等の電話回線と接続されており、入力される発話は、各回線に固有の音声加工が施された状態で入力される。したがって、発話データの収集時に、どの電話回線を用いた発話データであるのか識別する情報を付加することで、音声認識精度の向上を図ることができる。
発話者は、音声対話装置に接続するべく、自宅の固定電話、所有する携帯電話等の電話機から、音声対話装置に繋がる既定の電話番号を発呼する。コンピュータは、発呼を受けると回線接続し、同時に該発呼の発信番号情報(発信番号を通知しているか否か、及び通知している場合には通知した発信番号)を記憶装置12またはメモリ13に記憶する。対話シナリオ情報に沿って、音声メッセージを出力し、以下実施の形態1と同様に発話者の発話データを蓄積する。
発話者による発呼時に発信番号が通知されている場合は、該発信番号に基づいて回線のCODEC種別またはキャリア(電話事業者)の種類を推定することができる。例えば、発信番号の最初の3桁が「090」である場合には携帯電話であると推定できる。したがって、発話データは、発話及び音声認識結果に、発信番号情報を対応付けて生成する。
このようにすることで、発信番号に基づいて回線のCODEC種別またはキャリアの種類を識別できることから、回線のCODEC種別またはキャリアの種類ごとに発話データを分類することができる。したがって、各回線ごとに生じるCODECの歪みを考慮した音響モデルを生成することができ、電話回線使用時の音声認識精度の向上が期待できる。
一方、発話者による発呼時に発信番号が通知されていない場合は、音響モデルとして回線判定用の音響モデルを記憶手段12に記憶しておき、入力された発話がどの音響モデルと合致しているかを判定することで、使用された回線が固定電話、携帯電話(PDC、W−CDMA等)、PHS、IP電話等のいずれかであるのかを判定することができる。
このようにすることで、回線のCODEC種別またはキャリアの種類ごとに対応する音響モデルを特定することができ、各回線ごとに生じるCODEC歪みを考慮した音響モデルを用いることで、電話回線使用時の音声認識精度の向上が期待できる。
以上のように本実施の形態3によれば、1対話ごとに取得することができる回線情報別に分類された発話データを収集することができ、使用する回線に応じた音響モデルを用いることで、より音声認識の精度を向上することが可能となる。
また、発話データは、発話及び音声認識結果に、発信番号情報を対応付けて生成するのに加えて、発話が収録された時刻も対応付けて生成することが望ましい。例えば携帯電話のように時代とともにCODEC種別が変遷するものでは、古い発話を音響モデルの学習、改良等に用いることは避けるべきであり、音響モデルの学習用データから排除するべき発話を選別するための情報として、発話が収録された時刻に関するデータは有効である。
なお、音響モデルの学習を少ない発話データに基づいて行うと、不特定話者に対して有効な音響モデルを生成することが困難になる。そこで、発話データが発話データ蓄積部121に蓄積されるデータ量を検出する手段を設け、蓄積される発話データ量が所定のしきい値を超えた場合に音響モデルの学習を開始する。
蓄積される発話データ量を検出する手段としては、記憶されたデータの総量を検出するものに限定されるものではなく、例えば一定時間間隔で音響モデルを再生成するものであってもよい。
このようにすることで、定量的または定期的に音響モデルを更新することができ、最新の発話データに基づいた音響モデルを生成することができることから、発話者の体調や経年変化に伴う音声の変動等を考慮した音響モデルを生成することができる。したがって、より音声認識の精度向上に貢献する発話データを収集することが可能となる。
(付記1)
対話の進行手順を記述した対話シナリオ情報を記憶する手段、
入力された発話を受け付ける手段、
前記入力された発話を音声認識する手段、
前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させる手段、
及び前記入力された発話に対する応答を出力する手段を含む音声対話装置と、
前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、
前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断する手段と、
該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶する手段と
を備えることを特徴とする音声認識用発話データ収集装置。
(付記2)
音声認識結果と対応付けて記憶される発話は、音声の波形データまたは該発話を音響分析した結果である発話特徴量であることを特徴とする付記1記載の音声認識用発話データ収集装置。
(付記3)
音声認識結果を修正する手段と、
前記音声認識結果を修正した回数を累積する手段と、
修正した回数の累積数が所定の回数以下である場合、入力された発話が前記対話シナリオ情報に記述された対話の進行手順に対応する発話であると判断する手段と
を備えることを特徴とする付記1または2記載の音声認識用発話データ収集装置。
(付記4)
前記対話シナリオ情報は、記述された対話の進行手順に沿った発話が入力された場合に所定のタスクを実行する記述を含み、
前記タスクの実行を検知する手段を備え、
前記入力された発話が正しく認識されたか否かを判断する手段は、前記タスクの実行を検知する手段が前記タスクの実行を検知した場合、入力された発話が前記対話シナリオ情報に記述された対話の進行手順に対応する発話であると判断することを特徴とする付記1または2記載の音声認識用発話データ収集装置。
(付記5)
発話者を特定するための情報を含む発話者に関する情報を記憶する手段と、
前記入力された発話と前記発話者に関する情報に基づいて発話者を特定する手段と、
特定された発話者に付随する情報を、前記音声認識結果及び前記入力された発話と対応付けて記憶する手段と
を備えることを特徴とする付記1から4のいずれか一項に記載の音声認識用発話データ収集装置。
(付記6)
電話回線での発信番号を受信する手段と、
前記発信番号を、前記音声認識結果及び前記入力された発話と対応付けて記憶する手段と
を備えることを特徴とする付記1から5のいずれか一項に記載の音声認識用発話データ収集装置。
(付記7)
前記発信番号に基づいて、回線種別またはキャリアを判定する手段と、
回線種別またはキャリアの判定結果を、前記音声認識結果及び前記入力された発話と対応付けて記憶する手段と
を備えることを特徴とする付記6記載の音声認識用発話データ収集装置。
(付記8)
発話が入力された時刻に関する情報を、前記音声認識結果及び前記入力された発話と対応付けて記憶する手段を備えることを特徴とする付記1から7のいずれか一項に記載の音声認識用発話データ収集装置。
(付記9)
対話の進行手順を記述した対話シナリオ情報を記憶し、
入力された発話を受け付け、
前記入力された発話を音声認識し、
前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させ、
前記入力された発話に対する応答を出力する音声対話方法を用い、
前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶し、
前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断し、
該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶することを特徴とする音声認識用発話データ収集方法。
(付記10)
コンピュータを、
対話の進行手順を記述した対話シナリオ情報を記憶する手段、
入力された発話を受け付ける手段と、
前記入力された発話を音声認識する手段、
前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させる手段、
及び前記発話に対する応答を出力する手段を含む音声対話装置と、
前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、
前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断する手段と、
該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶する手段として機能させることを特徴とするコンピュータプログラム。
本発明の実施の形態1に係る音声認識用発話データ収集装置を具現化するコンピュータの概略構成図である。 名前を確認する対話シナリオでの状態遷移図である。 切符を購入する対話シナリオでの状態遷移図である。 切符を購入する対話シナリオでの他の状態遷移図である 発話データ蓄積部に記憶されるデータ構成の例示図である。 音素と時間ポイントとの関係を示す例示図である。 音節または単語と時間ポイントとの関係を示す例示図である。 本発明の実施の形態1に係る音声認識用発話データ収集装置で用いるプログラムのフローチャートである。 記憶手段でのスロット管理の説明図を示す 従来の音声認識用発話データ収集装置の概略構成を示す機能ブロック図である。
符号の説明
11 CPU
12 記憶手段
13 RAM
14 通信手段
15 入力手段
16 出力手段
17 補助記憶手段
18 可搬型記録媒体
121 発話データ蓄積部
122 発話者情報記憶部

Claims (5)

  1. 対話の進行手順を記述した対話シナリオ情報を記憶する手段、
    入力された発話を受け付ける手段、
    前記入力された発話を音声認識する手段、
    音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させる手段、
    及び前記入力された発話に対する応答を出力する手段を含む音声対話装置と、
    前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、
    前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断する手段と、
    該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前期入力された発話を対応付けて記憶する手段と
    を備えることを特徴とする音声認識用発話データ収集装置。
  2. 音声認識結果と対応付けて記憶される発話は、音声の波形データまたは該発話を音響分析した結果である発話特徴量であることを特徴とする請求項1記載の音声認識用発話データ収集装置。
  3. 電話回線での発信番号を受信して記憶する手段と、
    前記発信番号を、前記音声認識結果及び前記入力された発話と対応付けて記憶する手段と
    を備えることを特徴とする請求項1または2記載の音声認識用発話データ収集装置。
  4. 対話の進行手順を記述した対話シナリオ情報を記憶し、
    入力された発話を受け付け、
    前記入力された発話を音声認識し、
    前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させ、
    前記入力された発話に対する応答を出力する音声対話方法を用い、
    前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶し、
    前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断し、
    該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶することを特徴とする音声認識用発話データ収集方法。
  5. コンピュータを、
    対話の進行手順を記述した対話シナリオ情報を記憶する手段、
    入力された発話を受け付ける手段、
    前記入力された発話を音声認識する手段、
    前記音声認識結果及び前記対話シナリオ情報に基づいて対話を進行させる手段、
    及び前記入力された発話に対する応答を出力する手段を含む音声対話装置と、
    前記対話シナリオ情報に基づいた対話の状態遷移履歴を記憶する手段と、
    前記音声認識結果及び前記状態遷移履歴に基づいて、前記入力された発話が正しく認識されたか否かを判断する手段と、
    該手段が、正しく認識されたと判断した場合、前記音声認識結果及び前記入力された発話を対応付けて記憶する手段として機能させることを特徴とするコンピュータプログラム。
JP2003291441A 2003-08-11 2003-08-11 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム Expired - Fee Related JP4408665B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003291441A JP4408665B2 (ja) 2003-08-11 2003-08-11 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003291441A JP4408665B2 (ja) 2003-08-11 2003-08-11 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2005062398A true JP2005062398A (ja) 2005-03-10
JP4408665B2 JP4408665B2 (ja) 2010-02-03

Family

ID=34369121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003291441A Expired - Fee Related JP4408665B2 (ja) 2003-08-11 2003-08-11 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4408665B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010073192A (ja) * 2008-08-20 2010-04-02 Universal Entertainment Corp 会話シナリオ編集装置、ユーザ端末装置、並びに電話取り次ぎシステム
KR101021218B1 (ko) * 2010-06-25 2011-03-11 주식회사 예스피치 데이터 수집 스케줄링에 따른 발화 음성 수집 시스템 및 방법
JPWO2011093340A1 (ja) * 2010-01-27 2013-06-06 日本電産サンキョー株式会社 カードリーダ

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475616B (zh) * 2020-03-13 2023-08-22 平安科技(深圳)有限公司 基于对话状态预测的多轮对话方法、装置和计算机设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010073192A (ja) * 2008-08-20 2010-04-02 Universal Entertainment Corp 会話シナリオ編集装置、ユーザ端末装置、並びに電話取り次ぎシステム
JPWO2011093340A1 (ja) * 2010-01-27 2013-06-06 日本電産サンキョー株式会社 カードリーダ
JP5703235B2 (ja) * 2010-01-27 2015-04-15 日本電産サンキョー株式会社 カードリーダ
KR101021218B1 (ko) * 2010-06-25 2011-03-11 주식회사 예스피치 데이터 수집 스케줄링에 따른 발화 음성 수집 시스템 및 방법

Also Published As

Publication number Publication date
JP4408665B2 (ja) 2010-02-03

Similar Documents

Publication Publication Date Title
US9640175B2 (en) Pronunciation learning from user correction
US8914294B2 (en) System and method of providing an automated data-collection in spoken dialog systems
US6711543B2 (en) Language independent and voice operated information management system
JP5381988B2 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
US8244522B2 (en) Language understanding device
US10592611B2 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
CN101547261B (zh) 关联赋予装置、关联赋予方法
US20130166279A1 (en) System and method for recognizing a user voice command in noisy environment
KR102097710B1 (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
US20060009965A1 (en) Method and apparatus for distribution-based language model adaptation
JP6121842B2 (ja) 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
JP2006154724A (ja) 対話システム、対話方法、及びコンピュータプログラム
JP5731998B2 (ja) 対話支援装置、対話支援方法および対話支援プログラム
JP2008233229A (ja) 音声認識システム、および、音声認識プログラム
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
US8285542B2 (en) Adapting a language model to accommodate inputs not found in a directory assistance listing
JP2005534983A (ja) 自動音声認識の方法
US20040006469A1 (en) Apparatus and method for updating lexicon
Mirishkar et al. CSTD-Telugu corpus: Crowd-sourced approach for large-scale speech data collection
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
KR101598950B1 (ko) 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
JP2004251998A (ja) 対話理解装置
JP3285704B2 (ja) 音声対話のための音声認識方法及び装置
JP2009075249A (ja) 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
JP2005283646A (ja) 音声認識率推定装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091110

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121120

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121120

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131120

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees