JP2008241933A

JP2008241933A - データ処理装置及びデータ処理方法

Info

Publication number: JP2008241933A
Application number: JP2007080099A
Authority: JP
Inventors: Masahiro Ueno; 正裕上野
Original assignee: Kenwood KK
Current assignee: Kenwood KK
Priority date: 2007-03-26
Filing date: 2007-03-26
Publication date: 2008-10-09

Abstract

【課題】音声認識において、確定はできないが確からしい程度の認識である場合に操作性のよいデータ処理装置を提供する。
【解決手段】データ処理装置は、Ｌ１未満であってＬ２以上の認識率となる入力音声データに対し、認識率の高い順から認識の適否を確認する返答の音声を出力する。
【選択図】図５

Description

本発明は、入力音声に対応する処理を行うデータ処理装置及びデータ処理方法に関する。

従来の音声認識に関する技術に、ユーザが発話した内容を認識することができない場合には再度ユーザへ発話を促すものがある。しかし、同一のユーザが同一の発話内容について再度発話すれば、ユーザは同様に発話することとなる。よって、ユーザは再度発話を行ったとしても認識してもらえず、又どのように発話すればよいかもわからないため何度も同じ内容について発話する場合があり、ユーザにとって必ずしも使い勝手が良いとは言えなかった。

上述の問題に鑑み、近年ではユーザが発話した内容の認識度によって、対応する返答の内容を切り替える技術が開示されている（特許文献１参照）。
特許文献１によれば、ユーザの発話内容を認識することができるレベル、できないレベル及びこれらの中間レベルの３つの範囲を設定し、認識度がどの範囲に属するかによって返答の内容を切り替えることとしている。発話内容の認識度が高ければユーザが発話した指示に従い、認識度が低ければ再度の発話を求める返答を行う。また、これらの中間の認識度であればその認識した内容をユーザへ表示する。これにより、発話内容が全く認識できないとする場合を除いては、同一の発話内容をユーザへ何度も要求することはなくなる。

また、その他の音声認識に関する技術として、ユーザが発話した内容について認識できない場合には再度同一の発話を所定回数求め、その後未だ認識できないときは認識できた部分に基づいて発話内容に類似するものを発話内容の候補として複数記憶する。そして、記憶した複数の候補を類似度の高い順からユーザに確認する技術が開示されている（特許文献２参照）。
特許文献２によれば、ユーザの発話内容が認識されない場合であっても再度の発話を促す回数は予め決められているので、何度も同一内容の発話を要求することはない。また、認識できた部分に基づいて発話内容の類似候補を記憶し、これをユーザに確認する態様とすることでユーザの使用感を向上させ、迅速な音声認識を図っている。
特開２００６−２０５４９７号公報特開平１１−２３１８９２号公報

しかし、特許文献１に示す音声認識手段では、中間的に認識した発話内容をユーザに確認した場合であって、確認を受けたユーザがその認識は正しくないと否定的な返答をした場合には、ユーザは再度同一内容の発話をしなくてはならないこととされている。これでは結局のところ、ユーザが同一でかつ同一の発話内容に対しては同様に中間的な認識をすることとなり、その結果ユーザは何度も同一内容の発話をしなければならないことに変わりない。
また、特許文献２に示す音声認識装置では、ユーザの発話内容について特許文献１のような中間的に認識するということはなく、認識できたか否かでその後の処理を行う。よって、発話内容が認識できなかった場合、所定の回数ではあるがユーザは何度も同一内容の発話をしなければならない。また、認識できた部分に基づいて発話内容に類似する候補を類似度の高い順からユーザへ確認するとしているが、認識部分がわずかなために類似度の高い候補が膨大な数になってしまう場合が考えられる。この場合、ユーザは１つ１つ音声認識装置からの確認の問いかけを受けることとなり、再度発話するよりも迂遠な作業を要することとなる。

本発明の課題は、音声認識において入力音声が確定はできないが確からしい程度の認識である場合に操作性のよいデータ処理装置を提供することにある。

請求項１に記載の発明は、
入力された音声に基づき入力音声データを生成する音声入力手段と、
単語単位の音声データと、当該音声データと対応付けられた単語データとを記憶する記憶手段と、
前記入力音声データと前記単語データとのマッチング結果に基づき各音声データについて認識率を算出して前記単語データと対応付け、当該認識率が第１の閾値未満であって第２の閾値以上であるテキストデータを候補データとして抽出する音声認識手段と、
前記抽出された候補データを用いて返答データを生成するエージェント処理手段と、
前記生成された返答データに基づき返答音声データを生成する音声合成手段と、
前記生成された返答音声データに基づき音声を出力する音声出力手段と、
を備えることを特徴としている。

請求項２に記載の発明は、請求項１に記載の発明において、
前記エージェント処理手段は、前記抽出した候補データのうち、認識率が高い候補データから順に用いて前記返答データを生成することを特徴としている。

請求項３に記載の発明は、請求項１又は２に記載の発明において、
前記音声認識手段は、前記返答音声データに基づく音声が出力された後に前記音声入力手段を介して入力音声データが生成されると、当該入力音声データの音声認識処理を実行し、
前記エージェント処理手段は、前記音声認識処理の結果に基づいて前記入力音声データが肯定的返答又は否定的返答のどちらかであるかを判断し、否定的返答であると判断すると、先に生成した返答データにおいて用いた候補データの次に認識率が高い候補データを用いて返答データを生成し、
前記音声合成手段は、前記生成された返答データに基づき返答音声データを生成し、
前記音声出力手段は、前記生成された返答音声データに基づき音声出力を行うことを特徴としている。

請求項４に記載の発明は、請求項１又は２に記載の発明において、
前記音声認識手段は、前記返答音声データに基づく音声が出力された後に前記音声入力手段を介して入力音声データが生成されると、当該入力音声データの音声認識処理を実行し、
前記エージェント処理手段は、前記音声認識処理の結果に基づいて前記入力音声データが肯定的返答又は否定的返答のどちらかであるかを判断し、肯定的返答であると判断すると、前記抽出された候補データと前記入力音声データとを対応付けて前記記憶手段へ記憶させることを特徴としている。

請求項５に記載の発明は、
入力された音声に基づき入力音声データを生成する工程と、
単語単位の音声データと、当該音声データと対応付けられた単語データとを記憶する工程と、
前記入力音声データと前記単語データとのマッチング結果に基づき各音声データについて認識率を算出して前記単語データと対応付け、当該認識率が第１の閾値未満であって第２の閾値以上であるテキストデータを候補データとして抽出する工程と、
前記抽出された候補データを用いて返答データを生成する工程と、
前記生成された返答データに基づき返答音声データを生成する工程と、
前記生成された返答音声データに基づき音声を出力する工程と、
を含むことを特徴としている。

本発明によれば、
ユーザが入力した音声内容について確定できない程度の認識である場合に、同一の音声内容について入力を何度も要求することはなく、ユーザの利便性を向上させることができる。また、生成される返答データは、候補データを用いたものであって、ユーザへ入力音声に係る認識の適否を確認するものである。よって、ユーザの意に反した内容が認識されることを防止することができ、音声認識の確実性を担保することができる。更に、返答データの出力順序を認識率の高い順とし、一定の範囲内にある認識率についてのみ返答データを生成することで音声認識の効率化及び利便性の向上を図ることができる。

以下、本発明に係るデータ処理装置について最適な実施形態の構成及び動作について、図面を用いて詳細に説明する。

図１に、データ処理装置１０の構成を示す機能ブロック図を示す。
データ処理装置１０は、音声入力部１、音声認識部２、エージェント処理部３、音声合成処理部４、音声出力部５、記憶部６を備えて構成されている。また、エージェント処理部３には、相互に制御信号のやりとり可能な入出力対象機器群７が接続されている。

また、音声入力部１、音声認識部２、エージェント処理部３、音声合成処理部４、音声出力部５は、それぞれ図示しない制御部を備える。各制御部は、必要に応じて記憶部６に格納されている所定のプログラム及び各種データベース（ＤＢ）と協働し、各部における処理動作を統括的に制御する。なお、図示しない単一の制御部が記憶部６との協働により音声入力部１、音声認識部２、エージェント処理部３、音声合成処理部４、音声出力部５のそれぞれを統括的に制御する態様としてもよい。

音声入力部１は、マイクロフォン、ＡＦ（Audio Frequency）増幅器、サンプラー及びＡ／Ｄ（Analog to Digital）変換器等により構成されている。
音声入力部１は、マイクロフォンが音声を集音して生成した音声信号（アナログ信号）を増幅し、サンプリングしてＡ／Ｄ変換することにより、入力音声データ（デジタル信号）を生成する。生成された入力音声データは音声認識部２に出力される。

音声認識部２は、音声入力部１から入力された入力音声データに対して、雑音を除去する処理を施した後、以下に説明するような音声認識処理を実行する。

音声認識部２は、入力音声データに含まれている各単語について、その各単語の音声データをキーワードとして抽出する。抽出したキーワードに対して記憶部６の辞書ＤＢに登録されている単語データとのマッチングを行い、入力音声データに音声認識を施す処理を行う。単語データとは、辞書ＤＢに登録されている単語単位の音声データであり、標準パターンとして辞書ＤＢに予め登録されているものである（後述する図２、図３参照）。また、音声認識を施す処理とは、入力音声データとして可能性のあるすべての音声データの候補を辞書ＤＢから抽出して決定する処理である。音声認識部２が候補を辞書ＤＢから抽出するに際しては、マッチング結果により算出される認識率を用い、一又は複数の候補データを決定する。

具体的には、音声認識部２は、入力音声データの波形と辞書ＤＢに登録されているすべての単語データとの波形についてマッチング距離を計算する。

図２及び図３に、ユーザが「おなか」と発話した場合の辞書ＤＢの様子を示す。
図２には、単語単位の音声データである単語データの全てに対し、算出された認識率が対応付けられて辞書ＤＢに登録されていることを示す。また、図３には、算出された認識率が、単語単位のテキストデータである辞書データに対応付けられて辞書ＤＢに登録されていることを示す。
このことから、単語データを用いて算出した認識率は、結果的に辞書データと対応付けられて辞書ＤＢに登録されることとなる。なお、入力音声データと単語データとのマッチング距離が小さいほど入力音声データと単語データとは近似していることを意味し、認識率が高いことを意味する。

音声認識部２は、予め設定する第１の閾値未満の認識率をもつ辞書データを辞書ＤＢから抽出し、これを候補データとして決定する。また、第１の閾値以上の認識率をもつ辞書データがある場合には、算出した認識率のうち最高値をもつ辞書データのみを辞書ＤＢから抽出し、これを候補データとして決定する。第１の閾値以上の認識率があれば、音声認識部２は入力音声を確実に認識できているため複数の候補データを決定する必要はない。なお、第１の閾値の設定は、音声認識部２が備える図示しない操作部によりユーザが任意に設定可能としてもよい。

また、新たに第２の閾値を設けて、第１の閾値未満であって第２の閾値以上の認識率を持つ一又は複数の辞書データを候補データとし、第２の閾値未満の認識率をもつ辞書データはこれ以降の処理において取り扱わないこととしてもよい。第２の閾値未満の認識率をもつ辞書データは、入力音声データとして認識するには不適当でありほとんど認識するに足りていないと想定されるからである。不要なデータを取り扱わないことにより、候補データを一定数に限定して音声認識の効率化を図ることができる。なお、第２の閾値の設定についても、上述したように図示しない操作部からユーザが任意に設定可能としてもよい。また、第１の閾値と第２の閾値との関係は、第１の閾値が上限で第２の閾値が下限となるように設定される。

ここで、上述してきた候補データの決定処理について、次に示す文章を例にして更に具体的に説明する。
音声入力部１から出力された入力音声データが、例えば、「え〜と、・・・が減ったよ」という文章を表しており、「・・・」の部分が「お腹（おなか）」、「お墓（おはか）」、「おかか」の何れでも認識され得るものであったとする。音声認識部２は、単語データとのマッチングを行い、「・・・」の部分について「お腹」の認識率が８０％、「お墓」の認識率が６５％、「おかか」の認識率が３０％というように辞書ＤＢに登録されているすべての単語データについて認識率を算出し、算出した認識率を辞書データへと対応付ける。そして、音声認識部２は、認識率の最高値が第１の閾値未満か否かを判断する。認識率の最高値が第１の閾値未満である場合、一又は複数の辞書データが、候補データとして決定される。

第１の閾値が８５％に設定されている場合、音声認識部２は、「え〜と、オナカ（お腹）が減ったよ」、「え〜と、オハカ（お墓）が減ったよ」及び「え〜と、オカカ（おかか）が減ったよ」という文章の認識結果を示す文章データ（テキストデータ）を生成し、これをエージェント処理部３に出力する。なお、第１の閾値が６０％に設定されている場合であれば、最高値（この例であれば「お墓」の８０％）が第１の閾値以上の認識率をもつ候補データがあることとなる。この場合、音声認識部２は候補データとして最高値の認識率をもつ「お墓」のみを決定し、「お墓」で構成された文章データのみをエージェント処理部３へ出力する。第１の閾値以上の認識率をもつ辞書データがある場合とは、入力された音声が確実に認識できた場合である。よって、音声認識部２は１つの候補データで構成された文章データのみをエージェント処理部３へ出力することとすればよく、これにより、音声認識の効率化を図ることができ、ユーザの利便性を向上させることができる。

また、下限となる第２の閾値が６０％に設定されている場合、音声認識部２は「お腹」及び「お墓」を候補データとして取り扱い、認識率３０％の「おかか」は候補データとして取り扱わないこととしてもよい。これにより、音声認識部２は入力された音声として確定はできないが可能性の高いものだけを候補データとしてエージェント処理部３へ出力することとなり、音声認識の効率化を図ることができる。

エージェント処理部３は、音声認識部２より出力された文章データに基づき、ユーザからの入力音声データに対応する返答データを生成する。
まず、エージェント処理部３は文章データについて形態素解析を施す処理を行う。形態素解析では、この入力音声データが表している単語を名詞、形容詞、動詞、助動詞、助詞、副詞等の品詞ごとに分類し、文章データからキーワードを抽出する。形態素解析を施す処理として、例えば奈良先端科学技術大学で開発された日本語形態素解析の手法である「ＣｈａＳｅｎ」を用いれば所望の処理を行うことができる。なお、形態素解析に関する実行プログラムは記憶部６に記憶されているものとする。

エージェント処理部３は、文章データから抽出したキーワードに基づき、カテゴリー別に当該文章データを分類する。なお、分類に際しては、記憶部６に格納されているカテゴリーＤＢが用いられる。カテゴリーＤＢには単語を示すデータにカテゴリーを示すデータが対応付けられて記憶されている。

図４に、カテゴリーＤＢが登録するデータの例を示す。
図４によれば、「減った」はカテゴリー「食事」に対応付けられ、「お腹」はカテゴリー「食事」及び「病院」に対応付けられて記憶されている。このように、カテゴリーＤＢには、１つの単語に対して一又は複数のカテゴリーが対応付けられて記憶されている。

エージェント処理部３は、文章データから抽出したキーワードが、例えば「減った」及び「お腹」である場合、「減った」及び「お腹」に共通して対応付けられているカテゴリーを抽出する。図４に示すデータ構造の場合、上記２つの単語に共通するカテゴリーは「食事」となる。よって、エージェント処理部３は、当該文章データに係る処理を行う限りでは「減った」及び「お腹」をカテゴリー「食事」に適用させることを決定する。なお、文章データから抽出したキーワードに「減った」という単語が含まれている場合、「減った」に対応付けられているカテゴリーは「食事」のみであるので、他のキーワードに拘らず当該文章データに係る処理をカテゴリー「食事」に適用させることとしてもよい。

エージェント処理部３は、文章データに係るカテゴリーを決定すると、当該文章データ及びカテゴリーに対応する返答データを生成する。例えば、「お腹減った」という文章データに係るカテゴリーは「食事」である。よって、入力音声が確実に認識できた場合には、エージェント処理部３は対応する返答データとして「食事行きますか」や「周辺のレストランを検索します」等を生成することとなる。

また、カテゴリーＤＢは、キーワードに対する「肯定的」のカテゴリーと「否定的」のカテゴリーに分類されている。例えば「はい」、「そうです」、「その通り」キーワードに対してカテゴリーを「肯定的」として対応付けたり、「いいえ」、「ちがいます」、「間違いです」等のキーワードに対してカテゴリーを「否定的」として対応付けたりして記憶する。文章データが「肯定的」又は「否定的」のカテゴリーに分類された場合、エージェント処理部３は「肯定的」又は「否定的」に対応する返答データを生成する。

カテゴリーが「肯定的」又は「否定的」に分類される場合とは、主として、１度返答データを生成して返答の音声をユーザに対して出力した後に、ユーザがその返答に対し再度音声を入力する場合が想定される。つまり、始めにユーザが入力した音声データについて、第１の閾値未満であって、第２の閾値以上の候補データがある場合である。

「肯定的」に対応する返答データには、例えば「了解しました、では食事に行きますか」や「了解しました、では処理を実行します」等の、ユーザの意向に同意する旨の返答データが生成される。なお、ユーザの意向に対し、「了解しました」という直接同意する返答データを含まずに、第１の閾値（Ｌ１）を超えた場合の返答データと同じものを使用しても良い。この場合は、例えば「では、食事に行きますか」という返答データが生成される。
また、「否定的」に対応する返答データには、既述の例を挙げると、始めの返答データ「お腹が減ったのですか」に対してユーザから「いいえ」と否定的な音声入力がされた場合には、「お墓でよろしいですか」等の返答データが生成されることとなる。

エージェント処理部３は、上述してきた処理により返答データを生成し、生成された返答データは音声合成処理部４へと出力される。

音声合成処理部４は、単語の波形を表すデータを記憶する音片合成用ＤＢと、音素の波形を表すデータを登録する音素合成用ＤＢとを備え、これらを用いることで返答データを合成し、音声として出力するための返答音声データを生成する。返答音声データは、単語単位の音声データである返答データを合成してつなぎ合わせ、始めに入力された音声データのように、１つの文章となるような音声データに生成される。

音声合成は、基本的に音片合成用ＤＢにより行われる。音片とは、所定の長さをもち１つ以上の音素からなる音声の集合である。例えば、ユーザが事前に「食事に」及び「行きますか」を録音して音声合成用の単語として音片合成用ＤＢに登録していた場合、音声合成処理部４はこれを繋ぎ合わせることで「食事に行きますか」という極めて自然な発話の音声合成を可能とする。

合成しようとする単語が事前に音片合成用ＤＢに登録されていない場合、音声合成処理部４は音素合成用ＤＢから機械合成により単語を生成する。この場合、音片合成用ＤＢにより合成された音声のようになめらかな発話にはならず、いわゆるロボットボイスと言われる機械的な音声出力となる。このため、通常、音素合成用ＤＢは音片合成を補完する役割として用いられる。

また、音声合成処理部４は、イントネーションや発話スピード等も音片選択の指標に加えることとしてもよい。この場合、音声合成処理部４は返答データをユーザにとってより理解し易い返答音声データに生成することができる。生成された返答音声データは、音声出力部５へと出力される。

音声出力部５は、Ｄ／Ａ変換器、ＡＦ増幅器及びスピーカ等を備えて構成されている。音声出力部５は、音声合成処理部４により出力された返答音声データをＤ／Ａ変換してこれを増幅し、得られたアナログ音声信号を用いてスピーカを駆動する。これにより、返答音声データが音声として出力される。

記憶部６に、所定のプログラム及び各種ＤＢが格納されている。各種ＤＢには、辞書ＤＢ、カテゴリーＤＢ、音片合成用ＤＢ、音素合成用ＤＢ等がある。
所定のプログラムには、形態素解析処理に関する実行プログラム、マッチング処理及び認識率の算出に関する実行プログラム、音声合成処理に関する実行プログラム等がある。

入出力対象機器群７は、例えばカーナビゲーション部７１やクロック７２等を備えて構成されている。
カーナビゲーション部７１は、ＧＰＳ（Global Positioning System）の移動局や液晶ディスプレイ等の表示装置プロセッサを用いた公知のカーナビゲーションシステム等を備えて構成されている。クロック７２は、水晶発振器やカウンタ回路等を備えて構成されている。クロック７２は、現在の時刻を示すデータを連続的に生成し、エージェント処理部３へと出力する。なお、入出力対象機器群７はカーナビゲーションに限るものではなく、モバイル機器やコンピュータ等の種々の電子機器に適用可能である。

次に、図５を参照して、上述してきたデータ処理装置１０における処理動作について説明する。なお、本処理は音声入力部１、音声認識部２、エージェント処理部３、音声合成処理部４、音声出力部５のそれぞれが備える図示しない制御部と記憶部６に記憶された所定のプログラム等との協働により実行される。

また、本実施形態においては、認識率が第１の閾値（Ｌ１）未満であって第２の閾値（Ｌ２）以上の範囲を、確定はできないが確からしい程に認識したとして判断することとしている。しかし、必ずしもこれに限らず、認識率がＬ１未満であるもの全てを確定はできないが確からしいと認識したものとして一又は複数の候補データを決定する態様としてもよい。なお、Ｌ１及びＬ２の値は予め設定されたものを用いることとしてもよいし、ユーザが任意に図示しない操作部により設定可能とすることとしてもよい。

音声入力部１は、音声が入力されると（ステップＳ１）、これをデジタル形式の入力音声データへ変換する（ステップＳ２）。変換された入力音声データは、音声認識部２へと出力される。

音声認識部２は、デジタル形式に変換された入力音声データを単語単位に切り出して、単語単位となった音声データと辞書ＤＢに登録されている単語データとのマッチング処理を行う（ステップＳ３）。

音声認識部２は、このマッチング処理の結果に基づいて認識率を算出し、辞書データと対応付ける（ステップＳ４）。
認識率とは、入力音声データと単語データとが近似する程大きい値となるものであって、辞書データとの一致率をあらわす指標となるものである。音声認識部２は、辞書ＤＢに登録されている全ての辞書データについて認識率を算出して対応づける。

音声認識部２は、辞書ＤＢに登録されている全ての辞書データについて対応づけた認識率のうち、最高値が第１の閾値（Ｌ１）以上であるか否かについて判断する（ステップＳ５）。
認識率の最高値がＬ１以上である場合（ステップＳ５；Ｙｅｓ）、音声認識部２は入力音声データを確実に認識できたものと判断し（ステップＳ６）、最高値の認識率をもつ辞書データのみを辞書ＤＢから抽出し、これを候補データとして決定する。音声認識部２は、決定した候補データを用いて文章データを生成し、これをエージェント処理部３へ出力する。

エージェント処理部３は、生成された文章データに基づき入力音声データに対応する返答データを生成する（ステップＳ７）。
返答データを生成するに際して、エージェント処理部３は文章データの属するカテゴリーを決定する。文章データが属するカテゴリーの決定には、記憶部６のカテゴリーＤＢが用いられる。エージェント処理部３は、文章データを構成する単語（候補データ）に対応付けられたカテゴリーをカテゴリーＤＢから抽出し、文章データの属するカテゴリーを決定する。決定したカテゴリーに応じて、入力音声データに対応する返答データが生成することとなる。

また、この際にエージェント処理部３は、入力音声データの内容に対応した制御信号を入出力対象機器群７へ出力することとしてもよい。例えば、入力音声データの内容が「現在位置はどこですか」というものである場合、入出力対象機器群７はこの音声データの内容に対応する制御信号をエージェント処理部３から受け、図示しない表示部に車両の現在位置と周辺地図を表示する。

音声合成処理部４は、生成された返答データを自然な音声となるように合成して返答音声データを生成する。そして、音声出力部５は、生成された返答音声データをアナログ形式の音声へと変換して出力する（ステップＳ８）。
このとき生成される返答音声データの内容としては、入力された音声の内容を認識した旨をユーザが理解可能となるものであればよく、例えば入力された音声が「お腹が減った」という内容のものであれば、返答としては「食事に行きますか」、「分かりました」等の内容であればよい。このような内容となる返答の音声を出力して、本処理は終了する。

ステップＳ５に戻り、認識率の最高値がＬ１以上ではない場合（ステップＳ５；Ｎｏ）、音声認識部２は最高値が第２の閾値（Ｌ２）以上であるか否かを更に判断する（ステップＳ９）。
認識率の最高値がＬ１未満であってＬ２以上である場合（ステップＳ９；Ｙｅｓ）、音声認識部２は入力音声データを確定できないが確からしい程度に認識したものと判断し（ステップＳ１０）、Ｌ１未満であってＬ２以上の認識率をもつ辞書データを辞書ＤＢから抽出する。

音声認識部２は、抽出した一又は複数の辞書データを候補データとして決定し、この候補データのうち、認識率が最高値の候補データを用いて文章データを生成する。生成された文章データは、エージェント処理部３へと出力される。

エージェント処理部３は、生成された文章データに基づき入力音声データに対応する返答データを生成する（ステップＳ１１）。
このとき生成される返答データは、文章データが属するカテゴリーに基づいて生成され、また、文章データに含まれる候補データを用いて生成される。

音声合成処理部４は、認識率が最高値の候補データに基づいて生成された返答データを合成して返答音声データを生成する。このとき生成される返答音声データの内容は、入力された音声の内容についてユーザに確認することができるものであればよく、例えば入力された音声が「お腹減った」という内容に対して、返答は「お腹が減ったのですか」等の内容であればよい。

音声出力部５は、音声合成処理部４が生成した返答音声データをアナログ形式の音声へと変換して出力する（ステップＳ１２）。なお、ステップＳ１１及びステップＳ１２において、返答の音声は、最高値の認識率をもつ候補データに基づいて生成されたものがまず始めに出力される。次いで、後述するステップＳ１３での処理に応じて、次に認識率の高い候補データに基づいて返答音声データが生成されることとなる。

音声出力部５が出力した返答の音声に対して、ユーザが「はい」等の肯定的な音声を発した場合について説明する。
音声入力部１を介して入力された音声に対し、音声認識部２では音声認識処理を施す。そして、エージェント処理部３では音声認識部２から「はい」の文章データが入力されると、カテゴリーＤＢとのマッチングにより肯定的な音声が入力されたと判断し（ステップＳ１３；Ｙｅｓ）、始めに入力された入力音声データと対応付けられた候補データを記憶部６へ記憶する（ステップＳ１４）。これにより、次回以降に同一の音声入力がなされた場合、エージェント処理部３は、入力音声データを確実に認識したとして、ステップＳ６の処理に移行する。これ以降の処理は、音声認識部２、エージェント処理部３、音声合成処理部４、音声出力部５が上述したステップＳ６〜ステップＳ８の処理を実行することで、本処理は終了する。

一方、音声出力部５が出力した返答の音声に対して、ユーザが「いいえ」等の否定的な音声を発した場合について説明する。
音声入力部１を介して入力された音声に対し、音声認識部２では音声認識処理を施す。そして、エージェント処理部３では音声認識部２から「いいえ」の文章データが入力されると、カテゴリーＤＢとのマッチングにより否定的な音声が入力されたと判断し（ステップＳ１３；Ｎｏ）、エージェント処理部３は、次に出力する返答音声データの有無を判断する（ステップＳ１５）。すなわち、先に出力した返答音声データにおいて用いていた候補データの次に高い認識率をもつ候補データを用いて生成した返答音声データの有無を判断する。
次に認識率の高い候補データを用いた返答音声データが無い場合（ステップＳ１３；Ｎｏ）、音声出力部５は更に次に高い認識率をもつとして生成された返答音声データを、アナログ形式へと変換して音声を出力する。

生成された全ての返答音声データを音声出力してもなお肯定的な音声が入力されない場合（ステップＳ１５；Ｙｅｓ）、エージェント処理部３は始めにユーザから入力された入力音声データを認識できないものとして判断する（ステップＳ１６）。

なお、肯定的な音声が入力されなかった返答音声データについて、エージェント処理部３は当該返答音声データに係る候補データを始めに入力された入力音声データと対応付けて記憶部６へ記憶させておくこととしてもよい。これにより、再度同一の入力音声データが入力された場合、エージェント処理部３は算出された認識率のみならず、記憶部６に記憶されている上述の誤認識したデータとに基づいて返答データを生成する。具体的には、エージェント処理部３は、認識率が高く誤認したデータに該当しない候補データを用いた返答データをまず生成することとする。これにより、過去に誤認識した入力音声が再度入力された場合であっても同一の過程を経ることなく、実情に合わせた認識率に基づき返答音声データが生成されることとなり、ユーザの利便性を向上させることができる。

入力音声データを認識できなかった場合、エージェント処理部３は「もう一度音声入力してください」等の再度音声入力を行うよう要求する返答データを生成する。音声出力部５はその返答データに基づいて音声出力を行い（ステップＳ１７）、本処理を終了する。
なお、再度音声が入力されると上述してきたステップＳ１へと移行し、上述した処理を繰り返し実行する。

以上のように、本実施形態によれば、入力音声データと辞書データとのマッチング結果として、辞書データの各単語につき認識率が算出される。この認識率に基づき、入力音声データについて３つの場合に分けて返答の音声を出力する処理が行われる。３つの場合とは、入力音声データを確実に認識できた場合、確定はできないが確からしい程度に認識できた場合、認識できない場合の３つである。３つの場合分けに際しては、予め設定又は任意に設定可能なＬ１及びＬ２を設け、マッチングにより算出した全ての認識率のうち、最高値の認識率がどの範囲に属するかによって判断される。
算出された認識率の最高値が、特にＬ１未満であってＬ２以上である場合、当該範囲に認識率をもつ一又は複数の辞書データが候補データとされ、この候補データを用いて返答の音声が出力される。返答には、入力音声データとして認識してもよいか否かを確認する内容の音声が生成されて出力される。

以上の処理により、入力音声データが確実に認識できるまで同一内容の音声を入力するようにユーザに対して何度も要求することはなく、音声認識がなかなかされない煩雑さを解消し、利便性を向上させることができる。また、入力音声データが確実に認識できない場合には、認識率の高い順に生成された返答の音声が出力されるため、認識できない場合であっても所望の処理が早期に実行されることに繋がる。更に、確実に認識できないが確からしい程度に認識した入力音声の内容について、その認識の適否をユーザへ確認することで誤動作を防止し、確実性の高いデータ処理装置とすることができる。

データ処理装置の機能ブロック図である。辞書ＤＢのデータ構成図である。辞書ＤＢのデータ構成図である。カテゴリーＤＢのデータ構成図である。データ処理装置の処理を説明するフローチャートである。

符号の説明

１０データ処理装置
１音声入力部
２音声認識部
３エージェント処理部
４音声合成処理部
５音声出力部
６記憶部
７入出力対象機器群

Claims

入力された音声に基づき入力音声データを生成する音声入力手段と、
単語単位の音声データと、当該音声データと対応付けられた単語データとを記憶する記憶手段と、
前記入力音声データと前記単語データとのマッチング結果に基づき各音声データについて認識率を算出して前記単語データと対応付け、当該認識率が第１の閾値未満であって第２の閾値以上であるテキストデータを候補データとして抽出する音声認識手段と、
前記抽出された候補データを用いて返答データを生成するエージェント処理手段と、
前記生成された返答データに基づき返答音声データを生成する音声合成手段と、
前記生成された返答音声データに基づき音声を出力する音声出力手段と、
を備えることを特徴とするデータ処理装置。
前記エージェント処理手段は、前記抽出した候補データのうち、認識率が高い候補データから順に用いて前記返答データを生成することを特徴とする請求項１に記載のデータ処理装置。
前記音声認識手段は、前記返答音声データに基づく音声が出力された後に前記音声入力手段を介して入力音声データが生成されると、当該入力音声データの音声認識処理を実行し、
前記エージェント処理手段は、前記音声認識処理の結果に基づいて前記入力音声データが肯定的返答又は否定的返答のどちらかであるかを判断し、否定的返答であると判断すると、先に生成した返答データにおいて用いた候補データの次に認識率が高い候補データを用いて返答データを生成し、
前記音声合成手段は、前記生成された返答データに基づき返答音声データを生成し、
前記音声出力手段は、前記生成された返答音声データに基づき音声出力を行うことを特徴とする請求項１又は２に記載のデータ処理装置。
前記音声認識手段は、前記返答音声データに基づく音声が出力された後に前記音声入力手段を介して入力音声データが生成されると、当該入力音声データの音声認識処理を実行し、
前記エージェント処理手段は、前記音声認識処理の結果に基づいて前記入力音声データが肯定的返答又は否定的返答のどちらかであるかを判断し、肯定的返答であると判断すると、前記抽出された候補データと前記入力音声データとを対応付けて前記記憶手段へ記憶させることを特徴とする請求項１又は２に記載のデータ処理装置。
入力された音声に基づき入力音声データを生成する工程と、
単語単位の音声データと、当該音声データと対応付けられた単語データとを記憶する工程と、
前記入力音声データと前記単語データとのマッチング結果に基づき各音声データについて認識率を算出して前記単語データと対応付け、当該認識率が第１の閾値未満であって第２の閾値以上であるテキストデータを候補データとして抽出する工程と、
前記抽出された候補データを用いて返答データを生成する工程と、
前記生成された返答データに基づき返答音声データを生成する工程と、
前記生成された返答音声データに基づき音声を出力する工程と、
を含むことを特徴とするデータ処理方法。