JP6920730B2

JP6920730B2 - 対話装置および対話プログラム

Info

Publication number: JP6920730B2
Application number: JP2017192384A
Authority: JP
Inventors: 満次吉田; 和也角野
Original assignee: RayTron Inc
Current assignee: RayTron Inc
Priority date: 2017-10-02
Filing date: 2017-10-02
Publication date: 2021-08-18
Anticipated expiration: 2037-10-02
Also published as: JP2019066677A

Description

本発明は、音声認識機能を有する対話装置、および、対話装置によって実行される対話プログラムに関し、特に、ユーザが発話したフレーズに応じた返答を行う対話装置および対話プログラムに関する。

音声認識機能を利用し、ユーザとの対話によって認知症のレベルを判定したり、何らかの条件（たとえば自動車の運転資格など）を満たしているか否かを判定したりするための研究が、従来から行われている。しかし、このような判定を行うためには、ユーザが発話したフレーズを正しく認識しなければならず、実用化に至っていないケースが大半である。高齢者向けの会話型ロボットも市販されているが、雑音の多い実際の生活環境においては、音声の認識率が低下するという問題がある。

一方で、特開２０１０−２６６４８８号公報（特許文献１）に開示された音声認識方法によれば、雑音環境においても精度良く音声（フレーズ）を認識することが可能である。特許文献１では、音声認識モデルパラメータ作成装置が、フレーズごとに、複数の雑音が重畳された音声データの特徴量を正規化し、正規化された特徴量を用いて、複数の雑音下における音声認識モデルパラメータを作成する。音声認識装置は、音声データの特徴量を算出した後、算出した特徴量を正規化し、その正規化特徴量と、音声認識モデルパラメータで作成された（記憶部に記憶された）モデルパラメータとを用いて、ユーザが発話したフレーズを認識する。

モデルパラメータを用いた一般的な音声認識では、認識したフレーズ（フレーズ候補）の棄却判定が行われる。つまり、フレーズ候補の尤度や他候補との尤度差に基づいて、フレーズ候補を受理するか、棄却するかが判定される。

特開２００８−２３３３０５号公報（特許文献２）に示される音声対話装置では、受理／棄却だけでなく、確認の判定も行うことにより、ユーザとの対話を円滑化する技術が提案されている。具体的には、フレーズ候補の信頼度が、第１のしきい値より大きい場合に「受理」と判定し、第２のしきい値以下の場合に「棄却」と判定し、第１のしきい値以下かつ第２のしきい値より大きい場合に「確認」と判定する。確認と判定されると、音声認識結果（フレーズ候補）が正しいかどうかをユーザに確認する応答が行われる。

特開２０１０−２６６４８８号公報特開２００８−２３３３０５号公報

上述のように、特許文献１に開示されたフレーズ認識方法（フレーズ単位での音声認識方法）は、雑音に強く、実環境でも高い認識性能が得られるため、このようなフレーズ認識方法を対話装置に採用することで、ユーザビリティを向上させることができる。

その一方で、このようなフレーズ認識方法を対話装置に採用した場合、予め登録したフレーズにしか反応できないという課題が生じる。すなわち、発話したフレーズが登録フレーズと少しでも異なっていれば、登録フレーズと同じ意味（つまり、正解）であっても棄却される可能性がある。

特許文献２の音声対話装置では、フレーズ候補の受理／棄却以外に、確認の応答を可能とすることで、音声認識結果が誤りである場合に、誤った認識結果で対話を続けることを回避することができる。しかしながら、確認の応答を追加したとしても、特許文献２の技術では、正解となるフレーズ数は変わらないため、ユーザの満足度を向上させることができない。

本発明は、上記のような課題を解決するためになされたものであって、その目的は、ユーザの満足度を向上させることのできる対話装置および対話プログラムを提供することである。

この発明のある局面に従う対話装置は、ユーザが発話したフレーズに応じた返答を行う対話装置であって、ユーザの音声を入力する音声入力部と、音声入力部から得られる入力音声信号と予め記憶された登録フレーズのモデルパラメータとに基づいて、音声をフレーズ単位で認識するフレーズ認識部と、フレーズ認識部により認識されたフレーズ候補に対し、少なくともその尤度に基づいて、フレーズ候補を受理するか否かを判定する第１の受理判定部とを備える。対話装置はまた、第１の受理判定部による判定結果の信頼度を判定する信頼度判定部と、信頼度判定部により判定された信頼度が所定レベルよりも低い場合に、入力音声信号に基づいて、音声を音素単位で認識する音素認識部と、音素認識部による認識結果に応じた返答フレーズの出力処理を行う返答処理部とを備える。

好ましくは、音素認識部は、認識した音素列に含まれる単語を判別し、対話装置は、音素認識部による単語の判別結果に応じて、受理、棄却、または確認の判定を行う第２の受理判定部をさらに備える。この場合、返答処理部は、第２の受理判定部による判定結果に基づいて、返答フレーズの出力処理を行うことが望ましい。

好ましくは、対話装置は、複数の返答音声データを予め記憶する音声データ記憶部をさらに備え、返答処理部は、第２の受理判定部により確認と判定された場合には、判別された単語とその位置情報とに基づいて、音声データ記憶部から、出力する返答音声データを選択する。

信頼度判定部は、第１の受理判定部により棄却と判定された場合にのみ、判定結果の信頼度を判定してもよい。

好ましくは、返答処理部は、信頼度判定部により判定された信頼度が所定レベル以上の場合には、第１の受理判定部による判定結果に応じた返答フレーズの出力処理を行う。

この発明の他の局面に従う対話プログラムは、ユーザが発話したフレーズに応じた返答を行う対話装置によって実行されるプログラムであって、入力音声信号と予め記憶された登録フレーズのモデルパラメータとに基づいて、音声をフレーズ単位で認識するステップと、認識されたフレーズ候補に対し、少なくともその尤度に基づいて、フレーズ候補を受理するか否かを判定するステップとを備える。また、フレーズ候補を受理するか否かの判定結果の信頼度を判定するステップと、判定された信頼度が所定レベルよりも低い場合に、入力音声信号に基づいて、音声を音素単位で認識するステップと、音素単位での音声認識結果に応じた返答フレーズの出力処理を行うステップとを備える。

本発明によれば、フレーズ単位での音声認識を基本の認識手法としながら、フレーズ候補に対する受理／棄却の判定結果の信頼度が低い場合には、音素単位での音声認識を追加で行うため、登録フレーズ以外のフレーズ（または単語）にも反応することが可能となる。したがって、ユーザの満足度を向上させることができる。

本発明の実施の形態に係る対話装置の機能構成を示す機能ブロック図である。本発明の実施の形態において、登録フレーズと返答音声データとが対応付けられた第１のデータテーブルの構造例を模式的に示す図である。本発明の実施の形態において、登録単語と返答音声データとが対応付けられた第２のデータテーブルの構造例を模式的に示す図である。本発明の実施の形態に係る対話装置の動作を示すフローチャートである。本発明の実施の形態において確認判定を採用することにより、正解フレーズが増えることを概念的に示す図である。

本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。

（概要について）
本実施の形態に係る対話装置は、ユーザが発話したフレーズに応じた返答（応答）を行う装置である。この対話装置は、ユーザとの会話を行うことを主目的としたコミュニケーションロボットの他、認知症などの病状レベルの判定や、自動車の運転資格の有無など、様々な種類の能力の判定を行うことを目的とした能力判定装置に搭載され得る。

本実施の形態に係る対話装置には、予め、認識可能な複数のフレーズが登録されており、対話装置は、これらの登録フレーズのなかから最も尤度が高いフレーズを、発話フレーズの候補として認識する。

公知の装置においては、このフレーズ候補の尤度に基づいて、フレーズ候補を音声認識結果として受理するか、棄却するかを判定する。ここで、図５を参照して、登録フレーズが１００個であると仮定する。この場合、公知の装置において正解となり得る（受理される）フレーズは１００個であるが、実際には、数万以上のことば（フレーズ）のなかで、それよりも多い数の正解フレーズが存在する。たとえば、ことば全体のなかで正解となるべきフレーズが５００個存在すると仮定すると、公知の装置では、未登録の４００フレーズは棄却されることになる。つまり、同じ意味であっても、登録フレーズと全く同じフレーズを発話した場合には受理されるが、登録フレーズと異なるフレーズを発話した場合には棄却されてしまう。

これに対し、本実施の形態では、受理／棄却の判定結果の信頼度が低い場合には、入力音声に対して音素認識を行うことで、登録フレーズに音響的に近い未登録のフレーズなどに対して何らかの応答ができるようにしている。以下に、このような対話装置について、詳細に説明する。

（機能構成について）
図１は、本実施の形態に係る対話装置１の機能構成を示す機能ブロック図である。

図１を参照して、対話装置１は、マイクロフォン２と、フレーズ認識部３と、第１の受理判定部４と、信頼度判定部５と、音素認識部６と、第２の受理判定部７と、返答処理部８と、スピーカ１０と、複数の記憶部９Ａ〜９Ｄとを備えている。マイクロフォン２は、音声を入力する音声入力部として機能し、スピーカ１０は、音声を出力する音声出力部として機能する。

記憶部９Ａには、複数の登録フレーズそれぞれのモデルパラメータが予め記憶されている。モデルパラメータは、典型的にはＨＭＭ（Hidden Markov Model）法に基づく音響モデルのパラメータである。より特定的には、特許文献１に記載の音声認識モデルパラメータ作成装置によって作成されたモデルパラメータである。なお、モデルパラメータは、たとえばＤＴＷ（Dynamic time warping）などＨＭＭ以外の音響モデルのパラメータであってもよい。

複数の登録フレーズは、一つの単語のみを含む登録フレーズと、複数の単語を含む登録フレーズとに分類される。後者の登録フレーズは、複数の単語が連続して一つのまとまった意味を表す「句」に相当する。本実施の形態において、記憶部９Ａに記憶された複数の登録フレーズのうちの少なくとも一部は、「句」としてのフレーズである。たとえば、登録フレーズが「テレビをつけて」であれば、この登録フレーズには、「テレビ」と「つけて」の２つの単語が含まれる。登録フレーズが「テレビを消して」であれば、この登録フレーズには、「テレビ」と「消して」の２つの単語が含まれる。

記憶部９Ｂには、音素モデルパラメータが予め記憶されている。記憶部９Ｃには、複数の単語（たとえば、テレビ、つけて、消して、など）をそれぞれ特定するための複数の単語データを含む、単語情報が予め記憶されている。つまり、記憶部９Ｃには、登録フレーズに含まれている単語が登録されている。記憶部９Ｃは、単語記憶部に相当する。

記憶部９Ｄには、複数の返答音声データが予め記憶されている。返答音声データは、登録フレーズまたは登録単語に対応付けられて記憶されている。記憶部９Ｄには、たとえば、登録フレーズ用のデータテーブルと、登録単語用のデータテーブルとが格納されている。これらのデータテーブルの具体例については後述する。記憶部９Ｄは、音声データ記憶部に相当する。なお、記憶部９Ｄにおいて、返答音声データは、登録フレーズまたは登録単語以外の情報、たとえば時間情報、温度情報、位置情報などに関連付けられていてもよい。この場合、後述の返答処理部８において、フレーズまたは音素認識結果以外の情報も利用して返答内容を決定することができる。

フレーズ認識部３は、マイクロフォン２に入力された音声信号と記憶部９Ａに記憶されたモデルパラメータとに基づいて、音声をフレーズ単位で認識する。具体的には、入力された音声信号を所定の時間長のフレーム単位で切出し、フレーム単位で音声信号を分析することで特徴量を算出する。たとえば、切出された音声信号が、ＭＦＣＣ（Mel-frequency cepstral coefficient）特徴量に変換される。フレーズ認識部３は、特許文献１と同様に、算出した特徴量を正規化し、入力音声の正規化特徴量を算出する。

フレーズ認識部３は、音声区間内における特徴量系列の各音響モデルに対する尤度を算出し、尤度が最も高い音響モデルが示すフレーズを、フレーズ候補（第１候補）として判定する。フレーズ認識部３は、第１候補から第ｎ候補（ｎ：２以上の自然数）の情報と、それらの尤度の情報とを含む認識結果を、第１の受理判定部４および信頼度判定部５に出力する。

第１の受理判定部４は、フレーズ候補の尤度に基づいて、受理または棄却を判定する。具体的には、フレーズ認識部３において認識された第１候補の尤度が所定値以上であるか否か、第１候補と他候補との尤度差が所定値以上であるか否か、などを判断することにより、第１候補を受理するか否かを判定する。

信頼度判定部５は、第１の受理判定部４による判定結果、すなわち一次判定結果（受理／棄却）の信頼度を判定する。具体的には、フレーズ認識部３において認識された第１候補の尤度と所定のしきい値との距離、あるいは、第１候補と他候補との尤度差と所定のしきい値との距離、などを算出し、算出した距離の近さ（小ささ）に応じて、信頼度を判定する。たとえば、算出した距離が所定値よりも大きければ、信頼度が高いと判定する。つまり、一次判定結果は正しいと判定する。一方、算出した距離が所定値よりも小さければ、信頼度は低いと判定する。つまり、一次判定結果は誤っている可能性があると判定する。

信頼度判定部５により信頼度が高い（所定のレベル以上）と判定された場合、その判定結果が返答処理部８に出力される。これに対し、信頼度が低い（所定のレベルより低い）と判定された場合、その判定結果が音素認識部６に出力される。

音素認識部６は、マイクロフォン２に入力された音声信号と、記憶部９Ｂに記憶された音素モデルパラメータとに基づいて、音声を音素単位で認識する。また、音素認識結果に応じて、音素列に含まれる登録単語を判別する。つまり、認識された音素列と、記憶部９Ｃに記憶された単語データとを照合することにより、音素列に含まれる登録単語を判別する。登録単語の判別方法においても、最も尤度の高い登録単語を、単語候補として判別する。音素認識部６は、音声区間内に、２個以上の登録単語を判別可能である。

音素認識部６により判別された登録単語、および、その単語の位置情報（つまり、音声区間におけるその単語の相対位置を示す情報）が、第２の受理判定部７に送られる。相対位置とは、前半、後半、中間などを含む。

第２の受理判定部７は、音素認識部６による登録単語の判別結果に応じて、受理、棄却、または確認の判定を行う。具体的には、音素認識部６によって判別された単語候補の尤度、および、位置情報に基づいて、登録単語の判別結果を受理するか、棄却するか、または、確認するか、を判定する。

最も簡易な判定手法は次の通りである。たとえば、単語候補の尤度が高く、第１レベルの場合には「受理」と判定し、単語候補の尤度が低く、第３レベルの場合には「棄却」と判定し、単語候補の尤度が第１レベルと第３レベルとの間のレベル（第２レベル）である場合には「確認」と判定する。なお、第２の受理判定部７においても、登録単語の第１候補の尤度だけでなく、第１候補と第２候補との尤度差など、他の候補の尤度をさらに用いることが望ましい。また、尤度が第１レベルまたは第２レベルの単語候補の位置が、全体の音声区間のうちの一部分（たとえば２／３以下）である場合には、「確認」と判定してもよい。また、単語候補の尤度が第１レベルまたは第２レベルであったとしても、単語候補の位置が期待値と異なる場合には、「棄却」と判定してもよい。

返答処理部８は、第２の受理判定部７による判定結果、すなわち二次判定結果（受理／確認／棄却）に応じて、返答処理を行う。具体的には、返答処理部８は、二次判定結果が受理または確認の場合には、フレーズ認識部３または音素認識部６による認識結果に応じた返答フレーズの出力処理を行う。返答処理部８は、記憶部９Ｄに記憶された複数の返答音声データのなかから、フレーズまたは単語の認識結果に応じた返答音声データを選択し、選択した返答音声をスピーカ１０から出力させる。二次判定結果が棄却の場合には、環境による誤反応の可能性があるため、返答処理部８は返答処理を行うことなく待機する。

図２は、登録フレーズと返答音声データとが対応付けられた第１のデータテーブルの構造例を模式的に示す図である。図３は、二次判定結果（受理／確認）ごとに、登録単語と返答音声データとが対応付けられた第２のデータテーブルの構造例を模式的に示す図である。

返答処理部８は、第１の受理判定部４によって「受理」と判定され、かつ、信頼度判定部５によって信頼度が高いと判定された場合に、第１のデータテーブルを参照する。第１のデータテーブルには、各登録フレーズに対し、返答音声データが対応付けられて記憶されている。なお、１つの登録フレーズに対し、複数の返答音声データが対応付けられていてもよい。

返答処理部８は、第１の受理判定部４による判定結果に関わらず、第２の受理判定部７によって「受理」または「確認」と判定された場合に、第２のデータテーブルを参照する。第２のデータテーブルには、第２の受理判定部７による判定結果ごとに、音素認識部６において一度に判別され得る１個または複数の登録単語（１つの登録フレーズに含まれる１個または複数の単語）に対し、各単語の位置情報と、返答音声データとが対応付けられて記憶されている。

なお、図１に示した各機能部は、ハードウェア（回路）により実現されてもよいし、コンピュータがソフトウェアを実行することによって実現されてもよい。また、記憶部９Ａ〜９Ｄは、個別の記憶装置として実現されてもよいし、一つの記憶装置に含まれてもよい。

（動作について）
図４は、本実施の形態に係る対話装置１の動作を示すフローチャートである。対話装置１は、自身が備える記憶装置に予め記憶されたプログラムを実行することで、以下に示す対話処理を実現できる。

図４を参照して、マイクロフォン２にユーザの音声が入力されると（ステップＳ１）、フレーズ認識部３は、入力音声信号を分析し、特徴量を算出する（ステップＳ２）。その後、フレーズ認識部３は、算出した特徴量と、記憶部９Ａに記憶されたモデルパラメータとに基づいて、フレーズ認識を行う（ステップＳ３）。つまり、登録フレーズのうち、最も尤度の高いフレーズを、フレーズ候補として判定する。

フレーズ候補が判定されると、第１の受理判定部４は、そのフレーズの尤度に基づいて、受理／棄却を判定する（ステップＳ４）。具体的には、第１の受理判定部４は、フレーズ候補そのものの尤度だけでなく、第２候補との尤度差等、他のフレーズの尤度をさらに用いて、フレーズ候補を受理するか否かを判定する。フレーズ候補の受理／棄却判定は、公知の手法により行われてよい。

ステップＳ４においてフレーズ候補の受理／棄却が判定されると、信頼度判定部５が、一次判定結果の信頼度を判定する（ステップＳ５，Ｓ７）。フレーズ候補の判定結果が「受理」である場合、ステップＳ５において信頼度が判定され、フレーズ候補の判定結果が「棄却」である場合には、ステップＳ７において信頼度が判定されるが、両処理は同じであってもよい。

フレーズ候補の判定結果が「受理」であり、かつ、信頼度が高いと判定されると（ステップＳ６にて「高い」）、返答処理部８は通常応答を行う（ステップＳ１１）。具体的には、「テレビをつけて」という登録フレーズが存在し、ユーザが登録フレーズと同じように「テレビをつけて」と発話したとする。その場合、返答処理部８は、記憶部９Ｄに格納された第１のデータテーブル（図２）を参照し、たとえば「わかりました。何チャンネルにしますか？」という返答音声データを選択する。これにより、スピーカ１０から、選択されたデータに応じた返答音声が出力される。

フレーズ候補の判定結果が「棄却」であり、かつ、信頼度が高いと判定されると（ステップＳ８にて「高い」）、返答処理部８による応答を行うことなく、処理を終了する。

ステップＳ６，Ｓ８において信頼度が低いと判定されると、音素認識部６が、ステップＳ１で入力された音声信号に対して音素認識を行い、音素認識により認識された音素列と、記憶部９Ｃに記憶された単語データとを照合することにより、音素列に含まれる１つまたは複数の登録単語を判別する（ステップＳ９）。

登録単語が判別されると、第２の受理判定部７が、判別された登録単語の受理判定を行う（ステップＳ１０）。判別された登録単語が「受理」と判定された場合（ステップＳ１０にて「受理」）、ステップＳ１１に進み、通常応答を行う。音素認識を経た後の通常応答においては、返答処理部８は、記憶部９Ｄに格納された第２のデータテーブル（図３）を参照する。

具体的には、ユーザが「テレビつけて」という未登録フレーズを発話し、音素認識部６により「テレビ」と「つけて」が判別されたと仮定する。第２の受理判定部により両方の単語が「受理」と判定された場合、返答処理部８は、第２のデータテーブルを参照し、「受理」の返答情報のうち、「テレビ」と「つけて」の組に対応付けられた返答音声データを選択する。

この場合の返答音声データは、「テレビをつけて」という登録フレーズに対応付けられた返答音声データと同じ（たとえば「わかりました。何チャンネルにしますか？」）とすることができる。つまり、「テレビつけて」という一纏まりのフレーズは未登録であったとしても、本実施の形態によれば、このフレーズを正解フレーズとして応答することができる。

ステップＳ９で判別された登録単語が「棄却」と判定された場合（ステップＳ１０にて「棄却」）、返答処理部８による応答を行うことなく、処理を終了する。

これに対し、ステップＳ９で判別された登録単語が「確認」と判定された場合（ステップＳ１０にて「確認」）、返答処理部８は確認応答を行う（ステップＳ１２）。たとえば、上記の例と同様に、ユーザが「テレビつけて」という未登録フレーズを発話し、音素認識部６により「テレビ」と「つけて」が判別されたと仮定する。第２の受理判定部により両方または一方の単語が第２レベルと判定された場合、返答処理部８は、第２のデータテーブルを参照し、「確認」の返答情報のうち、「テレビ」と「つけて」の組に対応付けられた返答音声データを選択する。

この場合の返答音声データは「受理」のときとは異なる。この場合、たとえば「テレビをつけるのですか？」という返答を行うこととしてよい。

あるいは、ユーザが発話したフレーズのうち、前半の「テレビ」という単語だけが第１レベルと判定された場合、「テレビをどうするのですか？」のように、認識できた単語を返答フレーズに含めるようにしてもよい。同様に、ユーザが発話したフレーズのうち、後半の「つけて」という単語だけが第１レベルと判定された場合、「何をつけるのですか？」のように返答することもできる。

なお、返答処理部８は、フレーズまたは単語の認識結果の他、時間情報、温度情報、および位置情報などの付随情報を利用して返答内容を決定することが望ましい。

以上説明したように、本実施の形態によれば、フレーズ単位での音声認識を基本の認識手法としながら、フレーズ候補の受理判定結果の信頼度が低い場合には、音素単位での音声認識を追加で行うため、登録フレーズ以外のフレーズ（または単語）にも反応することが可能となる。つまり、棄却応答を行う頻度を低減することができる。したがって、対話装置１によれば、従来よりも自然な対話を実現できるため、ユーザの満足度を向上させることができる。

また、本実施の形態では、一次判定結果が「受理」の場合においても、信頼度が低い場合には音素認識を実行するため、仮にフレーズ認識部３がフレーズを誤認識したとしても、対話装置１としての誤認識率を低下させることができる。これにより、誤った認識結果に基づく返答を防止できるため、ユーザの満足度をさらに向上させることができる。なお、処理負荷の軽減という観点からすれば、一次判定結果が「棄却」の場合においてのみ、音素認識を実行することとしてもよい。

また、このような対話装置１は、雑音にも強いため、マイクロフォン２のすぐ近くで発話しなくても、適切に音声を認識することができる。これにより、音声認識を有効にするためのボタン操作等を不要とすることができるため、自然に対話を始めることができる。また、このような対話装置１は、通信回線を必要としないため、リアルタイム応答が可能である。また、自動車などの移動体への搭載が容易である。

前述の特徴から、このような対話装置１を各種の能力判定装置に搭載することにより、適切に能力を判定することが可能となる。これにより、能力判定を自動で行うことができるため、能力判定のための人手不足を低減することができる。また、その結果、能力を未確認のまま放置することによる問題の発生を低減することができる。

なお、本実施の形態では、音素認識部６において、音素認識の結果に基づき単語の判別が行われることとしたが、限定的ではない。たとえば、音素認識部６よって認識された音素列が、登録フレーズにどれだけ音響的に近いかを判断し、音響的な近さに応じて反応の仕方を変えてもよい（正解、○○ですか？、もう一度言って下さい、棄却、など）。

対話装置１により実行される対話処理方法を、プログラムとして提供することもできる。このようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-ROM）などの光学媒体や、メモリカードなどのコンピュータ読取り可能な一時的でない（non-transitory）記録媒体にて記録させて提供することができる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。

本発明にかかるプログラムは、コンピュータのオペレーティングシステム（ＯＳ）の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずＯＳと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。

また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１対話装置、２マイクロフォン、３フレーズ認識部、４第１の受理判定部、５信頼度判定部、６音素認識部、７第２の受理判定部、８返答処理部、９Ａ〜９Ｄ記憶部、１０スピーカ。

Claims

ユーザが発話したフレーズに応じた返答を行う対話装置であって、
ユーザの音声を入力する音声入力部と、
前記音声入力部から得られる入力音声信号と予め記憶された登録フレーズのモデルパラメータとに基づいて、音声をフレーズ単位で認識するフレーズ認識部と、
前記フレーズ認識部により認識されたフレーズ候補に対し、少なくともその尤度に基づいて、前記フレーズ候補を受理するか否かを判定する第１の受理判定部と、
前記第１の受理判定部による判定結果の信頼度を判定する信頼度判定部と、
前記信頼度判定部により判定された信頼度が所定レベルよりも低い場合に、前記入力音声信号に基づいて、音声を音素単位で認識する音素認識部と、
前記音素認識部による認識結果に応じた返答フレーズの出力処理を行う返答処理部とを備える、対話装置。
前記音素認識部は、認識した音素列に含まれる単語を判別し、
前記音素認識部による単語の判別結果に応じて、受理、棄却、または確認の判定を行う第２の受理判定部をさらに備え、
前記返答処理部は、前記第２の受理判定部による判定結果に基づいて、返答フレーズの出力処理を行う、請求項１に記載の対話装置。
複数の返答音声データを予め記憶する音声データ記憶部をさらに備え、
前記返答処理部は、前記第２の受理判定部により確認と判定された場合には、判別された単語とその位置情報とに基づいて、前記音声データ記憶部から、出力する返答音声データを選択する、請求項２に記載の対話装置。
前記信頼度判定部は、前記第１の受理判定部により棄却と判定された場合にのみ、判定結果の信頼度を判定する、請求項１〜３のいずれかに記載の対話装置。
前記返答処理部は、前記信頼度判定部により判定された信頼度が所定レベル以上の場合には、前記第１の受理判定部による判定結果に応じた返答フレーズの出力処理を行う、請求項１〜４のいずれかに記載の対話装置。
ユーザが発話したフレーズに応じた返答を行う対話装置によって実行されるプログラムであって、
入力音声信号と予め記憶された登録フレーズのモデルパラメータとに基づいて、音声をフレーズ単位で認識するステップと、
認識されたフレーズ候補に対し、少なくともその尤度に基づいて、前記フレーズ候補を受理するか否かを判定するステップと、
前記フレーズ候補を受理するか否かの判定結果の信頼度を判定するステップと、
判定された信頼度が所定レベルよりも低い場合に、前記入力音声信号に基づいて、音声を音素単位で認識するステップと、
音素単位での音声認識結果に応じた返答フレーズの出力処理を行うステップとを備える、対話プログラム。