JP2008241933A - データ処理装置及びデータ処理方法 - Google Patents
データ処理装置及びデータ処理方法 Download PDFInfo
- Publication number
- JP2008241933A JP2008241933A JP2007080099A JP2007080099A JP2008241933A JP 2008241933 A JP2008241933 A JP 2008241933A JP 2007080099 A JP2007080099 A JP 2007080099A JP 2007080099 A JP2007080099 A JP 2007080099A JP 2008241933 A JP2008241933 A JP 2008241933A
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- input
- response
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】データ処理装置は、L1未満であってL2以上の認識率となる入力音声データに対し、認識率の高い順から認識の適否を確認する返答の音声を出力する。
【選択図】図5
Description
特許文献1によれば、ユーザの発話内容を認識することができるレベル、できないレベル及びこれらの中間レベルの3つの範囲を設定し、認識度がどの範囲に属するかによって返答の内容を切り替えることとしている。発話内容の認識度が高ければユーザが発話した指示に従い、認識度が低ければ再度の発話を求める返答を行う。また、これらの中間の認識度であればその認識した内容をユーザへ表示する。これにより、発話内容が全く認識できないとする場合を除いては、同一の発話内容をユーザへ何度も要求することはなくなる。
特許文献2によれば、ユーザの発話内容が認識されない場合であっても再度の発話を促す回数は予め決められているので、何度も同一内容の発話を要求することはない。また、認識できた部分に基づいて発話内容の類似候補を記憶し、これをユーザに確認する態様とすることでユーザの使用感を向上させ、迅速な音声認識を図っている。
また、特許文献2に示す音声認識装置では、ユーザの発話内容について特許文献1のような中間的に認識するということはなく、認識できたか否かでその後の処理を行う。よって、発話内容が認識できなかった場合、所定の回数ではあるがユーザは何度も同一内容の発話をしなければならない。また、認識できた部分に基づいて発話内容に類似する候補を類似度の高い順からユーザへ確認するとしているが、認識部分がわずかなために類似度の高い候補が膨大な数になってしまう場合が考えられる。この場合、ユーザは1つ1つ音声認識装置からの確認の問いかけを受けることとなり、再度発話するよりも迂遠な作業を要することとなる。
入力された音声に基づき入力音声データを生成する音声入力手段と、
単語単位の音声データと、当該音声データと対応付けられた単語データとを記憶する記憶手段と、
前記入力音声データと前記単語データとのマッチング結果に基づき各音声データについて認識率を算出して前記単語データと対応付け、当該認識率が第1の閾値未満であって第2の閾値以上であるテキストデータを候補データとして抽出する音声認識手段と、
前記抽出された候補データを用いて返答データを生成するエージェント処理手段と、
前記生成された返答データに基づき返答音声データを生成する音声合成手段と、
前記生成された返答音声データに基づき音声を出力する音声出力手段と、
を備えることを特徴としている。
前記エージェント処理手段は、前記抽出した候補データのうち、認識率が高い候補データから順に用いて前記返答データを生成することを特徴としている。
前記音声認識手段は、前記返答音声データに基づく音声が出力された後に前記音声入力手段を介して入力音声データが生成されると、当該入力音声データの音声認識処理を実行し、
前記エージェント処理手段は、前記音声認識処理の結果に基づいて前記入力音声データが肯定的返答又は否定的返答のどちらかであるかを判断し、否定的返答であると判断すると、先に生成した返答データにおいて用いた候補データの次に認識率が高い候補データを用いて返答データを生成し、
前記音声合成手段は、前記生成された返答データに基づき返答音声データを生成し、
前記音声出力手段は、前記生成された返答音声データに基づき音声出力を行うことを特徴としている。
前記音声認識手段は、前記返答音声データに基づく音声が出力された後に前記音声入力手段を介して入力音声データが生成されると、当該入力音声データの音声認識処理を実行し、
前記エージェント処理手段は、前記音声認識処理の結果に基づいて前記入力音声データが肯定的返答又は否定的返答のどちらかであるかを判断し、肯定的返答であると判断すると、前記抽出された候補データと前記入力音声データとを対応付けて前記記憶手段へ記憶させることを特徴としている。
入力された音声に基づき入力音声データを生成する工程と、
単語単位の音声データと、当該音声データと対応付けられた単語データとを記憶する工程と、
前記入力音声データと前記単語データとのマッチング結果に基づき各音声データについて認識率を算出して前記単語データと対応付け、当該認識率が第1の閾値未満であって第2の閾値以上であるテキストデータを候補データとして抽出する工程と、
前記抽出された候補データを用いて返答データを生成する工程と、
前記生成された返答データに基づき返答音声データを生成する工程と、
前記生成された返答音声データに基づき音声を出力する工程と、
を含むことを特徴としている。
ユーザが入力した音声内容について確定できない程度の認識である場合に、同一の音声内容について入力を何度も要求することはなく、ユーザの利便性を向上させることができる。また、生成される返答データは、候補データを用いたものであって、ユーザへ入力音声に係る認識の適否を確認するものである。よって、ユーザの意に反した内容が認識されることを防止することができ、音声認識の確実性を担保することができる。更に、返答データの出力順序を認識率の高い順とし、一定の範囲内にある認識率についてのみ返答データを生成することで音声認識の効率化及び利便性の向上を図ることができる。
データ処理装置10は、音声入力部1、音声認識部2、エージェント処理部3、音声合成処理部4、音声出力部5、記憶部6を備えて構成されている。また、エージェント処理部3には、相互に制御信号のやりとり可能な入出力対象機器群7が接続されている。
音声入力部1は、マイクロフォンが音声を集音して生成した音声信号(アナログ信号)を増幅し、サンプリングしてA/D変換することにより、入力音声データ(デジタル信号)を生成する。生成された入力音声データは音声認識部2に出力される。
図2には、単語単位の音声データである単語データの全てに対し、算出された認識率が対応付けられて辞書DBに登録されていることを示す。また、図3には、算出された認識率が、単語単位のテキストデータである辞書データに対応付けられて辞書DBに登録されていることを示す。
このことから、単語データを用いて算出した認識率は、結果的に辞書データと対応付けられて辞書DBに登録されることとなる。なお、入力音声データと単語データとのマッチング距離が小さいほど入力音声データと単語データとは近似していることを意味し、認識率が高いことを意味する。
音声入力部1から出力された入力音声データが、例えば、「え〜と、・・・が減ったよ」という文章を表しており、「・・・」の部分が「お腹(おなか)」、「お墓(おはか)」、「おかか」の何れでも認識され得るものであったとする。音声認識部2は、単語データとのマッチングを行い、「・・・」の部分について「お腹」の認識率が80%、「お墓」の認識率が65%、「おかか」の認識率が30%というように辞書DBに登録されているすべての単語データについて認識率を算出し、算出した認識率を辞書データへと対応付ける。そして、音声認識部2は、認識率の最高値が第1の閾値未満か否かを判断する。認識率の最高値が第1の閾値未満である場合、一又は複数の辞書データが、候補データとして決定される。
まず、エージェント処理部3は文章データについて形態素解析を施す処理を行う。形態素解析では、この入力音声データが表している単語を名詞、形容詞、動詞、助動詞、助詞、副詞等の品詞ごとに分類し、文章データからキーワードを抽出する。形態素解析を施す処理として、例えば奈良先端科学技術大学で開発された日本語形態素解析の手法である「ChaSen」を用いれば所望の処理を行うことができる。なお、形態素解析に関する実行プログラムは記憶部6に記憶されているものとする。
図4によれば、「減った」はカテゴリー「食事」に対応付けられ、「お腹」はカテゴリー「食事」及び「病院」に対応付けられて記憶されている。このように、カテゴリーDBには、1つの単語に対して一又は複数のカテゴリーが対応付けられて記憶されている。
また、「否定的」に対応する返答データには、既述の例を挙げると、始めの返答データ「お腹が減ったのですか」に対してユーザから「いいえ」と否定的な音声入力がされた場合には、「お墓でよろしいですか」等の返答データが生成されることとなる。
所定のプログラムには、形態素解析処理に関する実行プログラム、マッチング処理及び認識率の算出に関する実行プログラム、音声合成処理に関する実行プログラム等がある。
カーナビゲーション部71は、GPS(Global Positioning System)の移動局や液晶ディスプレイ等の表示装置プロセッサを用いた公知のカーナビゲーションシステム等を備えて構成されている。クロック72は、水晶発振器やカウンタ回路等を備えて構成されている。クロック72は、現在の時刻を示すデータを連続的に生成し、エージェント処理部3へと出力する。なお、入出力対象機器群7はカーナビゲーションに限るものではなく、モバイル機器やコンピュータ等の種々の電子機器に適用可能である。
認識率とは、入力音声データと単語データとが近似する程大きい値となるものであって、辞書データとの一致率をあらわす指標となるものである。音声認識部2は、辞書DBに登録されている全ての辞書データについて認識率を算出して対応づける。
認識率の最高値がL1以上である場合(ステップS5;Yes)、音声認識部2は入力音声データを確実に認識できたものと判断し(ステップS6)、最高値の認識率をもつ辞書データのみを辞書DBから抽出し、これを候補データとして決定する。音声認識部2は、決定した候補データを用いて文章データを生成し、これをエージェント処理部3へ出力する。
返答データを生成するに際して、エージェント処理部3は文章データの属するカテゴリーを決定する。文章データが属するカテゴリーの決定には、記憶部6のカテゴリーDBが用いられる。エージェント処理部3は、文章データを構成する単語(候補データ)に対応付けられたカテゴリーをカテゴリーDBから抽出し、文章データの属するカテゴリーを決定する。決定したカテゴリーに応じて、入力音声データに対応する返答データが生成することとなる。
このとき生成される返答音声データの内容としては、入力された音声の内容を認識した旨をユーザが理解可能となるものであればよく、例えば入力された音声が「お腹が減った」という内容のものであれば、返答としては「食事に行きますか」、「分かりました」等の内容であればよい。このような内容となる返答の音声を出力して、本処理は終了する。
認識率の最高値がL1未満であってL2以上である場合(ステップS9;Yes)、音声認識部2は入力音声データを確定できないが確からしい程度に認識したものと判断し(ステップS10)、L1未満であってL2以上の認識率をもつ辞書データを辞書DBから抽出する。
このとき生成される返答データは、文章データが属するカテゴリーに基づいて生成され、また、文章データに含まれる候補データを用いて生成される。
音声入力部1を介して入力された音声に対し、音声認識部2では音声認識処理を施す。そして、エージェント処理部3では音声認識部2から「はい」の文章データが入力されると、カテゴリーDBとのマッチングにより肯定的な音声が入力されたと判断し(ステップS13;Yes)、始めに入力された入力音声データと対応付けられた候補データを記憶部6へ記憶する(ステップS14)。これにより、次回以降に同一の音声入力がなされた場合、エージェント処理部3は、入力音声データを確実に認識したとして、ステップS6の処理に移行する。これ以降の処理は、音声認識部2、エージェント処理部3、音声合成処理部4、音声出力部5が上述したステップS6〜ステップS8の処理を実行することで、本処理は終了する。
音声入力部1を介して入力された音声に対し、音声認識部2では音声認識処理を施す。そして、エージェント処理部3では音声認識部2から「いいえ」の文章データが入力されると、カテゴリーDBとのマッチングにより否定的な音声が入力されたと判断し(ステップS13;No)、エージェント処理部3は、次に出力する返答音声データの有無を判断する(ステップS15)。すなわち、先に出力した返答音声データにおいて用いていた候補データの次に高い認識率をもつ候補データを用いて生成した返答音声データの有無を判断する。
次に認識率の高い候補データを用いた返答音声データが無い場合(ステップS13;No)、音声出力部5は更に次に高い認識率をもつとして生成された返答音声データを、アナログ形式へと変換して音声を出力する。
なお、再度音声が入力されると上述してきたステップS1へと移行し、上述した処理を繰り返し実行する。
算出された認識率の最高値が、特にL1未満であってL2以上である場合、当該範囲に認識率をもつ一又は複数の辞書データが候補データとされ、この候補データを用いて返答の音声が出力される。返答には、入力音声データとして認識してもよいか否かを確認する内容の音声が生成されて出力される。
1 音声入力部
2 音声認識部
3 エージェント処理部
4 音声合成処理部
5 音声出力部
6 記憶部
7 入出力対象機器群
Claims (5)
- 入力された音声に基づき入力音声データを生成する音声入力手段と、
単語単位の音声データと、当該音声データと対応付けられた単語データとを記憶する記憶手段と、
前記入力音声データと前記単語データとのマッチング結果に基づき各音声データについて認識率を算出して前記単語データと対応付け、当該認識率が第1の閾値未満であって第2の閾値以上であるテキストデータを候補データとして抽出する音声認識手段と、
前記抽出された候補データを用いて返答データを生成するエージェント処理手段と、
前記生成された返答データに基づき返答音声データを生成する音声合成手段と、
前記生成された返答音声データに基づき音声を出力する音声出力手段と、
を備えることを特徴とするデータ処理装置。 - 前記エージェント処理手段は、前記抽出した候補データのうち、認識率が高い候補データから順に用いて前記返答データを生成することを特徴とする請求項1に記載のデータ処理装置。
- 前記音声認識手段は、前記返答音声データに基づく音声が出力された後に前記音声入力手段を介して入力音声データが生成されると、当該入力音声データの音声認識処理を実行し、
前記エージェント処理手段は、前記音声認識処理の結果に基づいて前記入力音声データが肯定的返答又は否定的返答のどちらかであるかを判断し、否定的返答であると判断すると、先に生成した返答データにおいて用いた候補データの次に認識率が高い候補データを用いて返答データを生成し、
前記音声合成手段は、前記生成された返答データに基づき返答音声データを生成し、
前記音声出力手段は、前記生成された返答音声データに基づき音声出力を行うことを特徴とする請求項1又は2に記載のデータ処理装置。 - 前記音声認識手段は、前記返答音声データに基づく音声が出力された後に前記音声入力手段を介して入力音声データが生成されると、当該入力音声データの音声認識処理を実行し、
前記エージェント処理手段は、前記音声認識処理の結果に基づいて前記入力音声データが肯定的返答又は否定的返答のどちらかであるかを判断し、肯定的返答であると判断すると、前記抽出された候補データと前記入力音声データとを対応付けて前記記憶手段へ記憶させることを特徴とする請求項1又は2に記載のデータ処理装置。 - 入力された音声に基づき入力音声データを生成する工程と、
単語単位の音声データと、当該音声データと対応付けられた単語データとを記憶する工程と、
前記入力音声データと前記単語データとのマッチング結果に基づき各音声データについて認識率を算出して前記単語データと対応付け、当該認識率が第1の閾値未満であって第2の閾値以上であるテキストデータを候補データとして抽出する工程と、
前記抽出された候補データを用いて返答データを生成する工程と、
前記生成された返答データに基づき返答音声データを生成する工程と、
前記生成された返答音声データに基づき音声を出力する工程と、
を含むことを特徴とするデータ処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007080099A JP2008241933A (ja) | 2007-03-26 | 2007-03-26 | データ処理装置及びデータ処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007080099A JP2008241933A (ja) | 2007-03-26 | 2007-03-26 | データ処理装置及びデータ処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008241933A true JP2008241933A (ja) | 2008-10-09 |
Family
ID=39913399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007080099A Pending JP2008241933A (ja) | 2007-03-26 | 2007-03-26 | データ処理装置及びデータ処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008241933A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013511739A (ja) * | 2009-11-20 | 2013-04-04 | インディアン インスティテュート オブ サイエンス | 複数パターンの同時復号化のためのマルチパターンビタビアルゴリズムを使用するシステムおよび方法 |
JP2017041260A (ja) * | 2010-07-23 | 2017-02-23 | ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe | 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6173998A (ja) * | 1984-09-19 | 1986-04-16 | シャープ株式会社 | 音声認識装置 |
JPH02171876A (ja) * | 1988-12-23 | 1990-07-03 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識処理方式 |
JPH02195398A (ja) * | 1989-01-24 | 1990-08-01 | Canon Inc | 音声処理方法及び装置 |
JPH03248199A (ja) * | 1990-02-26 | 1991-11-06 | Ricoh Co Ltd | 音声認識方式 |
JPH11143488A (ja) * | 1997-11-10 | 1999-05-28 | Hitachi Ltd | 音声認識装置 |
JPH11231892A (ja) * | 1998-02-18 | 1999-08-27 | Denso Corp | 音声認識装置 |
JP2003029783A (ja) * | 2001-07-17 | 2003-01-31 | Oki Electric Ind Co Ltd | 音声認識制御方式 |
JP2004333703A (ja) * | 2003-05-02 | 2004-11-25 | Alpine Electronics Inc | 音声認識システムおよび音声認識の訂正・学習方法 |
JP2005331882A (ja) * | 2004-05-21 | 2005-12-02 | Pioneer Electronic Corp | 音声認識装置、音声認識方法、および音声認識プログラム |
JP2006205497A (ja) * | 2005-01-27 | 2006-08-10 | Canon Inc | 音声認識手段を持つ複合機 |
-
2007
- 2007-03-26 JP JP2007080099A patent/JP2008241933A/ja active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6173998A (ja) * | 1984-09-19 | 1986-04-16 | シャープ株式会社 | 音声認識装置 |
JPH02171876A (ja) * | 1988-12-23 | 1990-07-03 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識処理方式 |
JPH02195398A (ja) * | 1989-01-24 | 1990-08-01 | Canon Inc | 音声処理方法及び装置 |
JPH03248199A (ja) * | 1990-02-26 | 1991-11-06 | Ricoh Co Ltd | 音声認識方式 |
JPH11143488A (ja) * | 1997-11-10 | 1999-05-28 | Hitachi Ltd | 音声認識装置 |
JPH11231892A (ja) * | 1998-02-18 | 1999-08-27 | Denso Corp | 音声認識装置 |
JP2003029783A (ja) * | 2001-07-17 | 2003-01-31 | Oki Electric Ind Co Ltd | 音声認識制御方式 |
JP2004333703A (ja) * | 2003-05-02 | 2004-11-25 | Alpine Electronics Inc | 音声認識システムおよび音声認識の訂正・学習方法 |
JP2005331882A (ja) * | 2004-05-21 | 2005-12-02 | Pioneer Electronic Corp | 音声認識装置、音声認識方法、および音声認識プログラム |
JP2006205497A (ja) * | 2005-01-27 | 2006-08-10 | Canon Inc | 音声認識手段を持つ複合機 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013511739A (ja) * | 2009-11-20 | 2013-04-04 | インディアン インスティテュート オブ サイエンス | 複数パターンの同時復号化のためのマルチパターンビタビアルゴリズムを使用するシステムおよび方法 |
JP2017041260A (ja) * | 2010-07-23 | 2017-02-23 | ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe | 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10365887B1 (en) | Generating commands based on location and wakeword | |
EP1320848B1 (en) | Eye gaze for contextual speech recognition | |
JP4481972B2 (ja) | 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム | |
EP2560158B1 (en) | Operating system and method of operating | |
US10037758B2 (en) | Device and method for understanding user intent | |
US9177545B2 (en) | Recognition dictionary creating device, voice recognition device, and voice synthesizer | |
US20030069729A1 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
JP2008058813A (ja) | 音声応答システム、音声応答プログラム | |
US20240144933A1 (en) | Voice-controlled communication requests and responses | |
CN110998719A (zh) | 信息处理设备和信息处理方法 | |
JP2005227686A (ja) | 音声認識装置、音声認識プログラムおよび記録媒体。 | |
WO2006093092A1 (ja) | 会話システムおよび会話ソフトウェア | |
JP2004045900A (ja) | 音声対話装置及びプログラム | |
JP2008241933A (ja) | データ処理装置及びデータ処理方法 | |
Rudzionis et al. | Web services based hybrid recognizer of Lithuanian voice commands | |
JP2007004052A (ja) | 音声対話装置及び音声理解結果生成方法 | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
JP2005157166A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP4930014B2 (ja) | 音声認識装置、および音声認識方法 | |
Munteanu et al. | Speech-based interaction | |
JP2000330588A (ja) | 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体 | |
JP2006184371A (ja) | 音声認識装置および音声認識方法 | |
JP2005107384A (ja) | 音声認識装置および方法、プログラム並びに記録媒体 | |
JP2005292346A (ja) | 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム | |
EP1422691A1 (en) | Method for adapting a speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100305 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110705 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20111012 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111122 |