JP2008241933A - データ処理装置及びデータ処理方法 - Google Patents

データ処理装置及びデータ処理方法 Download PDF

Info

Publication number
JP2008241933A
JP2008241933A JP2007080099A JP2007080099A JP2008241933A JP 2008241933 A JP2008241933 A JP 2008241933A JP 2007080099 A JP2007080099 A JP 2007080099A JP 2007080099 A JP2007080099 A JP 2007080099A JP 2008241933 A JP2008241933 A JP 2008241933A
Authority
JP
Japan
Prior art keywords
data
voice
input
response
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007080099A
Other languages
English (en)
Inventor
Masahiro Ueno
正裕 上野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to JP2007080099A priority Critical patent/JP2008241933A/ja
Publication of JP2008241933A publication Critical patent/JP2008241933A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識において、確定はできないが確からしい程度の認識である場合に操作性のよいデータ処理装置を提供する。
【解決手段】データ処理装置は、L1未満であってL2以上の認識率となる入力音声データに対し、認識率の高い順から認識の適否を確認する返答の音声を出力する。
【選択図】図5

Description

本発明は、入力音声に対応する処理を行うデータ処理装置及びデータ処理方法に関する。
従来の音声認識に関する技術に、ユーザが発話した内容を認識することができない場合には再度ユーザへ発話を促すものがある。しかし、同一のユーザが同一の発話内容について再度発話すれば、ユーザは同様に発話することとなる。よって、ユーザは再度発話を行ったとしても認識してもらえず、又どのように発話すればよいかもわからないため何度も同じ内容について発話する場合があり、ユーザにとって必ずしも使い勝手が良いとは言えなかった。
上述の問題に鑑み、近年ではユーザが発話した内容の認識度によって、対応する返答の内容を切り替える技術が開示されている(特許文献1参照)。
特許文献1によれば、ユーザの発話内容を認識することができるレベル、できないレベル及びこれらの中間レベルの3つの範囲を設定し、認識度がどの範囲に属するかによって返答の内容を切り替えることとしている。発話内容の認識度が高ければユーザが発話した指示に従い、認識度が低ければ再度の発話を求める返答を行う。また、これらの中間の認識度であればその認識した内容をユーザへ表示する。これにより、発話内容が全く認識できないとする場合を除いては、同一の発話内容をユーザへ何度も要求することはなくなる。
また、その他の音声認識に関する技術として、ユーザが発話した内容について認識できない場合には再度同一の発話を所定回数求め、その後未だ認識できないときは認識できた部分に基づいて発話内容に類似するものを発話内容の候補として複数記憶する。そして、記憶した複数の候補を類似度の高い順からユーザに確認する技術が開示されている(特許文献2参照)。
特許文献2によれば、ユーザの発話内容が認識されない場合であっても再度の発話を促す回数は予め決められているので、何度も同一内容の発話を要求することはない。また、認識できた部分に基づいて発話内容の類似候補を記憶し、これをユーザに確認する態様とすることでユーザの使用感を向上させ、迅速な音声認識を図っている。
特開2006−205497号公報 特開平11−231892号公報
しかし、特許文献1に示す音声認識手段では、中間的に認識した発話内容をユーザに確認した場合であって、確認を受けたユーザがその認識は正しくないと否定的な返答をした場合には、ユーザは再度同一内容の発話をしなくてはならないこととされている。これでは結局のところ、ユーザが同一でかつ同一の発話内容に対しては同様に中間的な認識をすることとなり、その結果ユーザは何度も同一内容の発話をしなければならないことに変わりない。
また、特許文献2に示す音声認識装置では、ユーザの発話内容について特許文献1のような中間的に認識するということはなく、認識できたか否かでその後の処理を行う。よって、発話内容が認識できなかった場合、所定の回数ではあるがユーザは何度も同一内容の発話をしなければならない。また、認識できた部分に基づいて発話内容に類似する候補を類似度の高い順からユーザへ確認するとしているが、認識部分がわずかなために類似度の高い候補が膨大な数になってしまう場合が考えられる。この場合、ユーザは1つ1つ音声認識装置からの確認の問いかけを受けることとなり、再度発話するよりも迂遠な作業を要することとなる。
本発明の課題は、音声認識において入力音声が確定はできないが確からしい程度の認識である場合に操作性のよいデータ処理装置を提供することにある。
請求項1に記載の発明は、
入力された音声に基づき入力音声データを生成する音声入力手段と、
単語単位の音声データと、当該音声データと対応付けられた単語データとを記憶する記憶手段と、
前記入力音声データと前記単語データとのマッチング結果に基づき各音声データについて認識率を算出して前記単語データと対応付け、当該認識率が第1の閾値未満であって第2の閾値以上であるテキストデータを候補データとして抽出する音声認識手段と、
前記抽出された候補データを用いて返答データを生成するエージェント処理手段と、
前記生成された返答データに基づき返答音声データを生成する音声合成手段と、
前記生成された返答音声データに基づき音声を出力する音声出力手段と、
を備えることを特徴としている。
請求項2に記載の発明は、請求項1に記載の発明において、
前記エージェント処理手段は、前記抽出した候補データのうち、認識率が高い候補データから順に用いて前記返答データを生成することを特徴としている。
請求項3に記載の発明は、請求項1又は2に記載の発明において、
前記音声認識手段は、前記返答音声データに基づく音声が出力された後に前記音声入力手段を介して入力音声データが生成されると、当該入力音声データの音声認識処理を実行し、
前記エージェント処理手段は、前記音声認識処理の結果に基づいて前記入力音声データが肯定的返答又は否定的返答のどちらかであるかを判断し、否定的返答であると判断すると、先に生成した返答データにおいて用いた候補データの次に認識率が高い候補データを用いて返答データを生成し、
前記音声合成手段は、前記生成された返答データに基づき返答音声データを生成し、
前記音声出力手段は、前記生成された返答音声データに基づき音声出力を行うことを特徴としている。
請求項4に記載の発明は、請求項1又は2に記載の発明において、
前記音声認識手段は、前記返答音声データに基づく音声が出力された後に前記音声入力手段を介して入力音声データが生成されると、当該入力音声データの音声認識処理を実行し、
前記エージェント処理手段は、前記音声認識処理の結果に基づいて前記入力音声データが肯定的返答又は否定的返答のどちらかであるかを判断し、肯定的返答であると判断すると、前記抽出された候補データと前記入力音声データとを対応付けて前記記憶手段へ記憶させることを特徴としている。
請求項5に記載の発明は、
入力された音声に基づき入力音声データを生成する工程と、
単語単位の音声データと、当該音声データと対応付けられた単語データとを記憶する工程と、
前記入力音声データと前記単語データとのマッチング結果に基づき各音声データについて認識率を算出して前記単語データと対応付け、当該認識率が第1の閾値未満であって第2の閾値以上であるテキストデータを候補データとして抽出する工程と、
前記抽出された候補データを用いて返答データを生成する工程と、
前記生成された返答データに基づき返答音声データを生成する工程と、
前記生成された返答音声データに基づき音声を出力する工程と、
を含むことを特徴としている。
本発明によれば、
ユーザが入力した音声内容について確定できない程度の認識である場合に、同一の音声内容について入力を何度も要求することはなく、ユーザの利便性を向上させることができる。また、生成される返答データは、候補データを用いたものであって、ユーザへ入力音声に係る認識の適否を確認するものである。よって、ユーザの意に反した内容が認識されることを防止することができ、音声認識の確実性を担保することができる。更に、返答データの出力順序を認識率の高い順とし、一定の範囲内にある認識率についてのみ返答データを生成することで音声認識の効率化及び利便性の向上を図ることができる。
以下、本発明に係るデータ処理装置について最適な実施形態の構成及び動作について、図面を用いて詳細に説明する。
図1に、データ処理装置10の構成を示す機能ブロック図を示す。
データ処理装置10は、音声入力部1、音声認識部2、エージェント処理部3、音声合成処理部4、音声出力部5、記憶部6を備えて構成されている。また、エージェント処理部3には、相互に制御信号のやりとり可能な入出力対象機器群7が接続されている。
また、音声入力部1、音声認識部2、エージェント処理部3、音声合成処理部4、音声出力部5は、それぞれ図示しない制御部を備える。各制御部は、必要に応じて記憶部6に格納されている所定のプログラム及び各種データベース(DB)と協働し、各部における処理動作を統括的に制御する。なお、図示しない単一の制御部が記憶部6との協働により音声入力部1、音声認識部2、エージェント処理部3、音声合成処理部4、音声出力部5のそれぞれを統括的に制御する態様としてもよい。
音声入力部1は、マイクロフォン、AF(Audio Frequency)増幅器、サンプラー及びA/D(Analog to Digital)変換器等により構成されている。
音声入力部1は、マイクロフォンが音声を集音して生成した音声信号(アナログ信号)を増幅し、サンプリングしてA/D変換することにより、入力音声データ(デジタル信号)を生成する。生成された入力音声データは音声認識部2に出力される。
音声認識部2は、音声入力部1から入力された入力音声データに対して、雑音を除去する処理を施した後、以下に説明するような音声認識処理を実行する。
音声認識部2は、入力音声データに含まれている各単語について、その各単語の音声データをキーワードとして抽出する。抽出したキーワードに対して記憶部6の辞書DBに登録されている単語データとのマッチングを行い、入力音声データに音声認識を施す処理を行う。単語データとは、辞書DBに登録されている単語単位の音声データであり、標準パターンとして辞書DBに予め登録されているものである(後述する図2、図3参照)。また、音声認識を施す処理とは、入力音声データとして可能性のあるすべての音声データの候補を辞書DBから抽出して決定する処理である。音声認識部2が候補を辞書DBから抽出するに際しては、マッチング結果により算出される認識率を用い、一又は複数の候補データを決定する。
具体的には、音声認識部2は、入力音声データの波形と辞書DBに登録されているすべての単語データとの波形についてマッチング距離を計算する。
図2及び図3に、ユーザが「おなか」と発話した場合の辞書DBの様子を示す。
図2には、単語単位の音声データである単語データの全てに対し、算出された認識率が対応付けられて辞書DBに登録されていることを示す。また、図3には、算出された認識率が、単語単位のテキストデータである辞書データに対応付けられて辞書DBに登録されていることを示す。
このことから、単語データを用いて算出した認識率は、結果的に辞書データと対応付けられて辞書DBに登録されることとなる。なお、入力音声データと単語データとのマッチング距離が小さいほど入力音声データと単語データとは近似していることを意味し、認識率が高いことを意味する。
音声認識部2は、予め設定する第1の閾値未満の認識率をもつ辞書データを辞書DBから抽出し、これを候補データとして決定する。また、第1の閾値以上の認識率をもつ辞書データがある場合には、算出した認識率のうち最高値をもつ辞書データのみを辞書DBから抽出し、これを候補データとして決定する。第1の閾値以上の認識率があれば、音声認識部2は入力音声を確実に認識できているため複数の候補データを決定する必要はない。なお、第1の閾値の設定は、音声認識部2が備える図示しない操作部によりユーザが任意に設定可能としてもよい。
また、新たに第2の閾値を設けて、第1の閾値未満であって第2の閾値以上の認識率を持つ一又は複数の辞書データを候補データとし、第2の閾値未満の認識率をもつ辞書データはこれ以降の処理において取り扱わないこととしてもよい。第2の閾値未満の認識率をもつ辞書データは、入力音声データとして認識するには不適当でありほとんど認識するに足りていないと想定されるからである。不要なデータを取り扱わないことにより、候補データを一定数に限定して音声認識の効率化を図ることができる。なお、第2の閾値の設定についても、上述したように図示しない操作部からユーザが任意に設定可能としてもよい。また、第1の閾値と第2の閾値との関係は、第1の閾値が上限で第2の閾値が下限となるように設定される。
ここで、上述してきた候補データの決定処理について、次に示す文章を例にして更に具体的に説明する。
音声入力部1から出力された入力音声データが、例えば、「え〜と、・・・が減ったよ」という文章を表しており、「・・・」の部分が「お腹(おなか)」、「お墓(おはか)」、「おかか」の何れでも認識され得るものであったとする。音声認識部2は、単語データとのマッチングを行い、「・・・」の部分について「お腹」の認識率が80%、「お墓」の認識率が65%、「おかか」の認識率が30%というように辞書DBに登録されているすべての単語データについて認識率を算出し、算出した認識率を辞書データへと対応付ける。そして、音声認識部2は、認識率の最高値が第1の閾値未満か否かを判断する。認識率の最高値が第1の閾値未満である場合、一又は複数の辞書データが、候補データとして決定される。
第1の閾値が85%に設定されている場合、音声認識部2は、「え〜と、オナカ(お腹)が減ったよ」、「え〜と、オハカ(お墓)が減ったよ」及び「え〜と、オカカ(おかか)が減ったよ」という文章の認識結果を示す文章データ(テキストデータ)を生成し、これをエージェント処理部3に出力する。なお、第1の閾値が60%に設定されている場合であれば、最高値(この例であれば「お墓」の80%)が第1の閾値以上の認識率をもつ候補データがあることとなる。この場合、音声認識部2は候補データとして最高値の認識率をもつ「お墓」のみを決定し、「お墓」で構成された文章データのみをエージェント処理部3へ出力する。第1の閾値以上の認識率をもつ辞書データがある場合とは、入力された音声が確実に認識できた場合である。よって、音声認識部2は1つの候補データで構成された文章データのみをエージェント処理部3へ出力することとすればよく、これにより、音声認識の効率化を図ることができ、ユーザの利便性を向上させることができる。
また、下限となる第2の閾値が60%に設定されている場合、音声認識部2は「お腹」及び「お墓」を候補データとして取り扱い、認識率30%の「おかか」は候補データとして取り扱わないこととしてもよい。これにより、音声認識部2は入力された音声として確定はできないが可能性の高いものだけを候補データとしてエージェント処理部3へ出力することとなり、音声認識の効率化を図ることができる。
エージェント処理部3は、音声認識部2より出力された文章データに基づき、ユーザからの入力音声データに対応する返答データを生成する。
まず、エージェント処理部3は文章データについて形態素解析を施す処理を行う。形態素解析では、この入力音声データが表している単語を名詞、形容詞、動詞、助動詞、助詞、副詞等の品詞ごとに分類し、文章データからキーワードを抽出する。形態素解析を施す処理として、例えば奈良先端科学技術大学で開発された日本語形態素解析の手法である「ChaSen」を用いれば所望の処理を行うことができる。なお、形態素解析に関する実行プログラムは記憶部6に記憶されているものとする。
エージェント処理部3は、文章データから抽出したキーワードに基づき、カテゴリー別に当該文章データを分類する。なお、分類に際しては、記憶部6に格納されているカテゴリーDBが用いられる。カテゴリーDBには単語を示すデータにカテゴリーを示すデータが対応付けられて記憶されている。
図4に、カテゴリーDBが登録するデータの例を示す。
図4によれば、「減った」はカテゴリー「食事」に対応付けられ、「お腹」はカテゴリー「食事」及び「病院」に対応付けられて記憶されている。このように、カテゴリーDBには、1つの単語に対して一又は複数のカテゴリーが対応付けられて記憶されている。
エージェント処理部3は、文章データから抽出したキーワードが、例えば「減った」及び「お腹」である場合、「減った」及び「お腹」に共通して対応付けられているカテゴリーを抽出する。図4に示すデータ構造の場合、上記2つの単語に共通するカテゴリーは「食事」となる。よって、エージェント処理部3は、当該文章データに係る処理を行う限りでは「減った」及び「お腹」をカテゴリー「食事」に適用させることを決定する。なお、文章データから抽出したキーワードに「減った」という単語が含まれている場合、「減った」に対応付けられているカテゴリーは「食事」のみであるので、他のキーワードに拘らず当該文章データに係る処理をカテゴリー「食事」に適用させることとしてもよい。
エージェント処理部3は、文章データに係るカテゴリーを決定すると、当該文章データ及びカテゴリーに対応する返答データを生成する。例えば、「お腹減った」という文章データに係るカテゴリーは「食事」である。よって、入力音声が確実に認識できた場合には、エージェント処理部3は対応する返答データとして「食事行きますか」や「周辺のレストランを検索します」等を生成することとなる。
また、カテゴリーDBは、キーワードに対する「肯定的」のカテゴリーと「否定的」のカテゴリーに分類されている。例えば「はい」、「そうです」、「その通り」キーワードに対してカテゴリーを「肯定的」として対応付けたり、「いいえ」、「ちがいます」、「間違いです」等のキーワードに対してカテゴリーを「否定的」として対応付けたりして記憶する。文章データが「肯定的」又は「否定的」のカテゴリーに分類された場合、エージェント処理部3は「肯定的」又は「否定的」に対応する返答データを生成する。
カテゴリーが「肯定的」又は「否定的」に分類される場合とは、主として、1度返答データを生成して返答の音声をユーザに対して出力した後に、ユーザがその返答に対し再度音声を入力する場合が想定される。つまり、始めにユーザが入力した音声データについて、第1の閾値未満であって、第2の閾値以上の候補データがある場合である。
「肯定的」に対応する返答データには、例えば「了解しました、では食事に行きますか」や「了解しました、では処理を実行します」等の、ユーザの意向に同意する旨の返答データが生成される。なお、ユーザの意向に対し、「了解しました」という直接同意する返答データを含まずに、第1の閾値(L1)を超えた場合の返答データと同じものを使用しても良い。この場合は、例えば「では、食事に行きますか」という返答データが生成される。
また、「否定的」に対応する返答データには、既述の例を挙げると、始めの返答データ「お腹が減ったのですか」に対してユーザから「いいえ」と否定的な音声入力がされた場合には、「お墓でよろしいですか」等の返答データが生成されることとなる。
エージェント処理部3は、上述してきた処理により返答データを生成し、生成された返答データは音声合成処理部4へと出力される。
音声合成処理部4は、単語の波形を表すデータを記憶する音片合成用DBと、音素の波形を表すデータを登録する音素合成用DBとを備え、これらを用いることで返答データを合成し、音声として出力するための返答音声データを生成する。返答音声データは、単語単位の音声データである返答データを合成してつなぎ合わせ、始めに入力された音声データのように、1つの文章となるような音声データに生成される。
音声合成は、基本的に音片合成用DBにより行われる。音片とは、所定の長さをもち1つ以上の音素からなる音声の集合である。例えば、ユーザが事前に「食事に」及び「行きますか」を録音して音声合成用の単語として音片合成用DBに登録していた場合、音声合成処理部4はこれを繋ぎ合わせることで「食事に行きますか」という極めて自然な発話の音声合成を可能とする。
合成しようとする単語が事前に音片合成用DBに登録されていない場合、音声合成処理部4は音素合成用DBから機械合成により単語を生成する。この場合、音片合成用DBにより合成された音声のようになめらかな発話にはならず、いわゆるロボットボイスと言われる機械的な音声出力となる。このため、通常、音素合成用DBは音片合成を補完する役割として用いられる。
また、音声合成処理部4は、イントネーションや発話スピード等も音片選択の指標に加えることとしてもよい。この場合、音声合成処理部4は返答データをユーザにとってより理解し易い返答音声データに生成することができる。生成された返答音声データは、音声出力部5へと出力される。
音声出力部5は、D/A変換器、AF増幅器及びスピーカ等を備えて構成されている。音声出力部5は、音声合成処理部4により出力された返答音声データをD/A変換してこれを増幅し、得られたアナログ音声信号を用いてスピーカを駆動する。これにより、返答音声データが音声として出力される。
記憶部6に、所定のプログラム及び各種DBが格納されている。各種DBには、辞書DB、カテゴリーDB、音片合成用DB、音素合成用DB等がある。
所定のプログラムには、形態素解析処理に関する実行プログラム、マッチング処理及び認識率の算出に関する実行プログラム、音声合成処理に関する実行プログラム等がある。
入出力対象機器群7は、例えばカーナビゲーション部71やクロック72等を備えて構成されている。
カーナビゲーション部71は、GPS(Global Positioning System)の移動局や液晶ディスプレイ等の表示装置プロセッサを用いた公知のカーナビゲーションシステム等を備えて構成されている。クロック72は、水晶発振器やカウンタ回路等を備えて構成されている。クロック72は、現在の時刻を示すデータを連続的に生成し、エージェント処理部3へと出力する。なお、入出力対象機器群7はカーナビゲーションに限るものではなく、モバイル機器やコンピュータ等の種々の電子機器に適用可能である。
次に、図5を参照して、上述してきたデータ処理装置10における処理動作について説明する。なお、本処理は音声入力部1、音声認識部2、エージェント処理部3、音声合成処理部4、音声出力部5のそれぞれが備える図示しない制御部と記憶部6に記憶された所定のプログラム等との協働により実行される。
また、本実施形態においては、認識率が第1の閾値(L1)未満であって第2の閾値(L2)以上の範囲を、確定はできないが確からしい程に認識したとして判断することとしている。しかし、必ずしもこれに限らず、認識率がL1未満であるもの全てを確定はできないが確からしいと認識したものとして一又は複数の候補データを決定する態様としてもよい。なお、L1及びL2の値は予め設定されたものを用いることとしてもよいし、ユーザが任意に図示しない操作部により設定可能とすることとしてもよい。
音声入力部1は、音声が入力されると(ステップS1)、これをデジタル形式の入力音声データへ変換する(ステップS2)。変換された入力音声データは、音声認識部2へと出力される。
音声認識部2は、デジタル形式に変換された入力音声データを単語単位に切り出して、単語単位となった音声データと辞書DBに登録されている単語データとのマッチング処理を行う(ステップS3)。
音声認識部2は、このマッチング処理の結果に基づいて認識率を算出し、辞書データと対応付ける(ステップS4)。
認識率とは、入力音声データと単語データとが近似する程大きい値となるものであって、辞書データとの一致率をあらわす指標となるものである。音声認識部2は、辞書DBに登録されている全ての辞書データについて認識率を算出して対応づける。
音声認識部2は、辞書DBに登録されている全ての辞書データについて対応づけた認識率のうち、最高値が第1の閾値(L1)以上であるか否かについて判断する(ステップS5)。
認識率の最高値がL1以上である場合(ステップS5;Yes)、音声認識部2は入力音声データを確実に認識できたものと判断し(ステップS6)、最高値の認識率をもつ辞書データのみを辞書DBから抽出し、これを候補データとして決定する。音声認識部2は、決定した候補データを用いて文章データを生成し、これをエージェント処理部3へ出力する。
エージェント処理部3は、生成された文章データに基づき入力音声データに対応する返答データを生成する(ステップS7)。
返答データを生成するに際して、エージェント処理部3は文章データの属するカテゴリーを決定する。文章データが属するカテゴリーの決定には、記憶部6のカテゴリーDBが用いられる。エージェント処理部3は、文章データを構成する単語(候補データ)に対応付けられたカテゴリーをカテゴリーDBから抽出し、文章データの属するカテゴリーを決定する。決定したカテゴリーに応じて、入力音声データに対応する返答データが生成することとなる。
また、この際にエージェント処理部3は、入力音声データの内容に対応した制御信号を入出力対象機器群7へ出力することとしてもよい。例えば、入力音声データの内容が「現在位置はどこですか」というものである場合、入出力対象機器群7はこの音声データの内容に対応する制御信号をエージェント処理部3から受け、図示しない表示部に車両の現在位置と周辺地図を表示する。
音声合成処理部4は、生成された返答データを自然な音声となるように合成して返答音声データを生成する。そして、音声出力部5は、生成された返答音声データをアナログ形式の音声へと変換して出力する(ステップS8)。
このとき生成される返答音声データの内容としては、入力された音声の内容を認識した旨をユーザが理解可能となるものであればよく、例えば入力された音声が「お腹が減った」という内容のものであれば、返答としては「食事に行きますか」、「分かりました」等の内容であればよい。このような内容となる返答の音声を出力して、本処理は終了する。
ステップS5に戻り、認識率の最高値がL1以上ではない場合(ステップS5;No)、音声認識部2は最高値が第2の閾値(L2)以上であるか否かを更に判断する(ステップS9)。
認識率の最高値がL1未満であってL2以上である場合(ステップS9;Yes)、音声認識部2は入力音声データを確定できないが確からしい程度に認識したものと判断し(ステップS10)、L1未満であってL2以上の認識率をもつ辞書データを辞書DBから抽出する。
音声認識部2は、抽出した一又は複数の辞書データを候補データとして決定し、この候補データのうち、認識率が最高値の候補データを用いて文章データを生成する。生成された文章データは、エージェント処理部3へと出力される。
エージェント処理部3は、生成された文章データに基づき入力音声データに対応する返答データを生成する(ステップS11)。
このとき生成される返答データは、文章データが属するカテゴリーに基づいて生成され、また、文章データに含まれる候補データを用いて生成される。
音声合成処理部4は、認識率が最高値の候補データに基づいて生成された返答データを合成して返答音声データを生成する。このとき生成される返答音声データの内容は、入力された音声の内容についてユーザに確認することができるものであればよく、例えば入力された音声が「お腹減った」という内容に対して、返答は「お腹が減ったのですか」等の内容であればよい。
音声出力部5は、音声合成処理部4が生成した返答音声データをアナログ形式の音声へと変換して出力する(ステップS12)。なお、ステップS11及びステップS12において、返答の音声は、最高値の認識率をもつ候補データに基づいて生成されたものがまず始めに出力される。次いで、後述するステップS13での処理に応じて、次に認識率の高い候補データに基づいて返答音声データが生成されることとなる。
音声出力部5が出力した返答の音声に対して、ユーザが「はい」等の肯定的な音声を発した場合について説明する。
音声入力部1を介して入力された音声に対し、音声認識部2では音声認識処理を施す。そして、エージェント処理部3では音声認識部2から「はい」の文章データが入力されると、カテゴリーDBとのマッチングにより肯定的な音声が入力されたと判断し(ステップS13;Yes)、始めに入力された入力音声データと対応付けられた候補データを記憶部6へ記憶する(ステップS14)。これにより、次回以降に同一の音声入力がなされた場合、エージェント処理部3は、入力音声データを確実に認識したとして、ステップS6の処理に移行する。これ以降の処理は、音声認識部2、エージェント処理部3、音声合成処理部4、音声出力部5が上述したステップS6〜ステップS8の処理を実行することで、本処理は終了する。
一方、音声出力部5が出力した返答の音声に対して、ユーザが「いいえ」等の否定的な音声を発した場合について説明する。
音声入力部1を介して入力された音声に対し、音声認識部2では音声認識処理を施す。そして、エージェント処理部3では音声認識部2から「いいえ」の文章データが入力されると、カテゴリーDBとのマッチングにより否定的な音声が入力されたと判断し(ステップS13;No)、エージェント処理部3は、次に出力する返答音声データの有無を判断する(ステップS15)。すなわち、先に出力した返答音声データにおいて用いていた候補データの次に高い認識率をもつ候補データを用いて生成した返答音声データの有無を判断する。
次に認識率の高い候補データを用いた返答音声データが無い場合(ステップS13;No)、音声出力部5は更に次に高い認識率をもつとして生成された返答音声データを、アナログ形式へと変換して音声を出力する。
生成された全ての返答音声データを音声出力してもなお肯定的な音声が入力されない場合(ステップS15;Yes)、エージェント処理部3は始めにユーザから入力された入力音声データを認識できないものとして判断する(ステップS16)。
なお、肯定的な音声が入力されなかった返答音声データについて、エージェント処理部3は当該返答音声データに係る候補データを始めに入力された入力音声データと対応付けて記憶部6へ記憶させておくこととしてもよい。これにより、再度同一の入力音声データが入力された場合、エージェント処理部3は算出された認識率のみならず、記憶部6に記憶されている上述の誤認識したデータとに基づいて返答データを生成する。具体的には、エージェント処理部3は、認識率が高く誤認したデータに該当しない候補データを用いた返答データをまず生成することとする。これにより、過去に誤認識した入力音声が再度入力された場合であっても同一の過程を経ることなく、実情に合わせた認識率に基づき返答音声データが生成されることとなり、ユーザの利便性を向上させることができる。
入力音声データを認識できなかった場合、エージェント処理部3は「もう一度音声入力してください」等の再度音声入力を行うよう要求する返答データを生成する。音声出力部5はその返答データに基づいて音声出力を行い(ステップS17)、本処理を終了する。
なお、再度音声が入力されると上述してきたステップS1へと移行し、上述した処理を繰り返し実行する。
以上のように、本実施形態によれば、入力音声データと辞書データとのマッチング結果として、辞書データの各単語につき認識率が算出される。この認識率に基づき、入力音声データについて3つの場合に分けて返答の音声を出力する処理が行われる。3つの場合とは、入力音声データを確実に認識できた場合、確定はできないが確からしい程度に認識できた場合、認識できない場合の3つである。3つの場合分けに際しては、予め設定又は任意に設定可能なL1及びL2を設け、マッチングにより算出した全ての認識率のうち、最高値の認識率がどの範囲に属するかによって判断される。
算出された認識率の最高値が、特にL1未満であってL2以上である場合、当該範囲に認識率をもつ一又は複数の辞書データが候補データとされ、この候補データを用いて返答の音声が出力される。返答には、入力音声データとして認識してもよいか否かを確認する内容の音声が生成されて出力される。
以上の処理により、入力音声データが確実に認識できるまで同一内容の音声を入力するようにユーザに対して何度も要求することはなく、音声認識がなかなかされない煩雑さを解消し、利便性を向上させることができる。また、入力音声データが確実に認識できない場合には、認識率の高い順に生成された返答の音声が出力されるため、認識できない場合であっても所望の処理が早期に実行されることに繋がる。更に、確実に認識できないが確からしい程度に認識した入力音声の内容について、その認識の適否をユーザへ確認することで誤動作を防止し、確実性の高いデータ処理装置とすることができる。
データ処理装置の機能ブロック図である。 辞書DBのデータ構成図である。 辞書DBのデータ構成図である。 カテゴリーDBのデータ構成図である。 データ処理装置の処理を説明するフローチャートである。
符号の説明
10 データ処理装置
1 音声入力部
2 音声認識部
3 エージェント処理部
4 音声合成処理部
5 音声出力部
6 記憶部
7 入出力対象機器群

Claims (5)

  1. 入力された音声に基づき入力音声データを生成する音声入力手段と、
    単語単位の音声データと、当該音声データと対応付けられた単語データとを記憶する記憶手段と、
    前記入力音声データと前記単語データとのマッチング結果に基づき各音声データについて認識率を算出して前記単語データと対応付け、当該認識率が第1の閾値未満であって第2の閾値以上であるテキストデータを候補データとして抽出する音声認識手段と、
    前記抽出された候補データを用いて返答データを生成するエージェント処理手段と、
    前記生成された返答データに基づき返答音声データを生成する音声合成手段と、
    前記生成された返答音声データに基づき音声を出力する音声出力手段と、
    を備えることを特徴とするデータ処理装置。
  2. 前記エージェント処理手段は、前記抽出した候補データのうち、認識率が高い候補データから順に用いて前記返答データを生成することを特徴とする請求項1に記載のデータ処理装置。
  3. 前記音声認識手段は、前記返答音声データに基づく音声が出力された後に前記音声入力手段を介して入力音声データが生成されると、当該入力音声データの音声認識処理を実行し、
    前記エージェント処理手段は、前記音声認識処理の結果に基づいて前記入力音声データが肯定的返答又は否定的返答のどちらかであるかを判断し、否定的返答であると判断すると、先に生成した返答データにおいて用いた候補データの次に認識率が高い候補データを用いて返答データを生成し、
    前記音声合成手段は、前記生成された返答データに基づき返答音声データを生成し、
    前記音声出力手段は、前記生成された返答音声データに基づき音声出力を行うことを特徴とする請求項1又は2に記載のデータ処理装置。
  4. 前記音声認識手段は、前記返答音声データに基づく音声が出力された後に前記音声入力手段を介して入力音声データが生成されると、当該入力音声データの音声認識処理を実行し、
    前記エージェント処理手段は、前記音声認識処理の結果に基づいて前記入力音声データが肯定的返答又は否定的返答のどちらかであるかを判断し、肯定的返答であると判断すると、前記抽出された候補データと前記入力音声データとを対応付けて前記記憶手段へ記憶させることを特徴とする請求項1又は2に記載のデータ処理装置。
  5. 入力された音声に基づき入力音声データを生成する工程と、
    単語単位の音声データと、当該音声データと対応付けられた単語データとを記憶する工程と、
    前記入力音声データと前記単語データとのマッチング結果に基づき各音声データについて認識率を算出して前記単語データと対応付け、当該認識率が第1の閾値未満であって第2の閾値以上であるテキストデータを候補データとして抽出する工程と、
    前記抽出された候補データを用いて返答データを生成する工程と、
    前記生成された返答データに基づき返答音声データを生成する工程と、
    前記生成された返答音声データに基づき音声を出力する工程と、
    を含むことを特徴とするデータ処理方法。
JP2007080099A 2007-03-26 2007-03-26 データ処理装置及びデータ処理方法 Pending JP2008241933A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007080099A JP2008241933A (ja) 2007-03-26 2007-03-26 データ処理装置及びデータ処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007080099A JP2008241933A (ja) 2007-03-26 2007-03-26 データ処理装置及びデータ処理方法

Publications (1)

Publication Number Publication Date
JP2008241933A true JP2008241933A (ja) 2008-10-09

Family

ID=39913399

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007080099A Pending JP2008241933A (ja) 2007-03-26 2007-03-26 データ処理装置及びデータ処理方法

Country Status (1)

Country Link
JP (1) JP2008241933A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013511739A (ja) * 2009-11-20 2013-04-04 インディアン インスティテュート オブ サイエンス 複数パターンの同時復号化のためのマルチパターンビタビアルゴリズムを使用するシステムおよび方法
JP2017041260A (ja) * 2010-07-23 2017-02-23 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6173998A (ja) * 1984-09-19 1986-04-16 シャープ株式会社 音声認識装置
JPH02171876A (ja) * 1988-12-23 1990-07-03 Nippon Telegr & Teleph Corp <Ntt> パターン認識処理方式
JPH02195398A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声処理方法及び装置
JPH03248199A (ja) * 1990-02-26 1991-11-06 Ricoh Co Ltd 音声認識方式
JPH11143488A (ja) * 1997-11-10 1999-05-28 Hitachi Ltd 音声認識装置
JPH11231892A (ja) * 1998-02-18 1999-08-27 Denso Corp 音声認識装置
JP2003029783A (ja) * 2001-07-17 2003-01-31 Oki Electric Ind Co Ltd 音声認識制御方式
JP2004333703A (ja) * 2003-05-02 2004-11-25 Alpine Electronics Inc 音声認識システムおよび音声認識の訂正・学習方法
JP2005331882A (ja) * 2004-05-21 2005-12-02 Pioneer Electronic Corp 音声認識装置、音声認識方法、および音声認識プログラム
JP2006205497A (ja) * 2005-01-27 2006-08-10 Canon Inc 音声認識手段を持つ複合機

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6173998A (ja) * 1984-09-19 1986-04-16 シャープ株式会社 音声認識装置
JPH02171876A (ja) * 1988-12-23 1990-07-03 Nippon Telegr & Teleph Corp <Ntt> パターン認識処理方式
JPH02195398A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声処理方法及び装置
JPH03248199A (ja) * 1990-02-26 1991-11-06 Ricoh Co Ltd 音声認識方式
JPH11143488A (ja) * 1997-11-10 1999-05-28 Hitachi Ltd 音声認識装置
JPH11231892A (ja) * 1998-02-18 1999-08-27 Denso Corp 音声認識装置
JP2003029783A (ja) * 2001-07-17 2003-01-31 Oki Electric Ind Co Ltd 音声認識制御方式
JP2004333703A (ja) * 2003-05-02 2004-11-25 Alpine Electronics Inc 音声認識システムおよび音声認識の訂正・学習方法
JP2005331882A (ja) * 2004-05-21 2005-12-02 Pioneer Electronic Corp 音声認識装置、音声認識方法、および音声認識プログラム
JP2006205497A (ja) * 2005-01-27 2006-08-10 Canon Inc 音声認識手段を持つ複合機

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013511739A (ja) * 2009-11-20 2013-04-04 インディアン インスティテュート オブ サイエンス 複数パターンの同時復号化のためのマルチパターンビタビアルゴリズムを使用するシステムおよび方法
JP2017041260A (ja) * 2010-07-23 2017-02-23 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム

Similar Documents

Publication Publication Date Title
US10365887B1 (en) Generating commands based on location and wakeword
EP1320848B1 (en) Eye gaze for contextual speech recognition
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
EP2560158B1 (en) Operating system and method of operating
US10037758B2 (en) Device and method for understanding user intent
US9177545B2 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
US20030069729A1 (en) Method of assessing degree of acoustic confusability, and system therefor
JP2008058813A (ja) 音声応答システム、音声応答プログラム
US20240144933A1 (en) Voice-controlled communication requests and responses
CN110998719A (zh) 信息处理设备和信息处理方法
JP2005227686A (ja) 音声認識装置、音声認識プログラムおよび記録媒体。
WO2006093092A1 (ja) 会話システムおよび会話ソフトウェア
JP2004045900A (ja) 音声対話装置及びプログラム
JP2008241933A (ja) データ処理装置及びデータ処理方法
Rudzionis et al. Web services based hybrid recognizer of Lithuanian voice commands
JP2007004052A (ja) 音声対話装置及び音声理解結果生成方法
JP2007183516A (ja) 音声対話装置及び音声認識方法
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
JP4930014B2 (ja) 音声認識装置、および音声認識方法
Munteanu et al. Speech-based interaction
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
JP2006184371A (ja) 音声認識装置および音声認識方法
JP2005107384A (ja) 音声認識装置および方法、プログラム並びに記録媒体
JP2005292346A (ja) 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム
EP1422691A1 (en) Method for adapting a speech recognition system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100305

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20111012

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111122