JP5478903B2 - ロボットおよび音声認識装置ならびにプログラム - Google Patents
ロボットおよび音声認識装置ならびにプログラム Download PDFInfo
- Publication number
- JP5478903B2 JP5478903B2 JP2009011786A JP2009011786A JP5478903B2 JP 5478903 B2 JP5478903 B2 JP 5478903B2 JP 2009011786 A JP2009011786 A JP 2009011786A JP 2009011786 A JP2009011786 A JP 2009011786A JP 5478903 B2 JP5478903 B2 JP 5478903B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- processing unit
- dictionary
- speech
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Toys (AREA)
Description
上述した誤認識の解決策として、例えば、常時適正な音声区間を用いて音声認識を実施することが提案されている。
本発明は、音声をデジタル化して音声データを出力する音声入力部と、前記音声入力部から出力された音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置とを備え、前記音声認識装置は、複数の音声認識処理部を有する第1処理部を備え、かつ、音声認識結果の候補として予想される単語を登録した辞書を前記第1処理部に与える第2処理部を備え、該第2処理部は、内容の全部または一部が相互に異なる辞書を作成し、互いに異なるタイミングで該辞書を前記第1処理部に与える複数の辞書作成部を有し、各辞書作成部は、自身が該第1処理部に与えた辞書に対する音声認識結果が入力されるまで、または、自身が前記第1処理部に対して該辞書を与えてから所定の時間が経過するまで音声認識結果が入力されるのを待つ入力信号待ち状態となり、一の前記音声認識処理部は、他の前記音声認識処理部とは異なるタイミングで、かつ、他の前記音声認識処理部の音声認識期間内に、音声認識を開始し、前記第1処理部の各前記音声認識処理部は、自身が作動を開始する時点で音声認識結果が入力されるのを待つ入力信号待ち状態にある前記辞書作成部から与えられた全ての辞書を用いて音声認識を行い、音声認識が成功した場合に、その結果を前記第2処理部に出力するロボットを提供する。
これにより、音声認識が成功する確率を高めることができ、音声認識の精度を向上させることができる。また、音声認識の精度が向上することにより、ロボットの誤動作確率を低減させることが可能となる。
またこのような構成によれば、異なる目的音が時間差で入力されることが予測される場合には、それぞれのタイミングで入力が予測される音声の候補を登録した辞書が作成され、これらを適切なタイミングで第1処理部に与えることが可能となる。
また、第1処理部において、各音声認識処理部は、入力信号待ち状態である辞書作成部から与えられた全ての辞書を用いて音声認識を行うので、異なる辞書が時間差で発生した場合でも柔軟に対応して音声認識を継続して行うことが可能となる。これにより、目的音が異なるタイミングで連続的に入力されるような場合であっても、それぞれの目的音を的確に捕らえて認識することが可能となる。
〔第1の参考実施形態〕
図1は、本発明の第1の参考実施形態に係るロボットの正面図、図2は、図1に示したロボットの左側面図である。
図1および図2に示すように、ロボット本体1には、頭部2と、この頭部2を下方から支持する胸部3と、この胸部3の右側に設けられた右腕部4a、胸部3の左側に設けられた左腕部4bと、胸部3の下方に接続された腰部5と、この腰部5の下方に接続されたスカート部6と、このスカート部6の下方に接続された脚部7とが設けられている。
頭部2の前面の中央近傍には、図1に示すように、前方を撮像するための前方カメラ13が正面視して右側に一つ、マイクロフォン14が正面視して左側に一つ、それぞれ設けられている。
図2に示すように、脚部7の背面には、充電ステーションにロボット本体1を位置固定するためのフック30が設けられている。脚部7は、走行用車輪31および4つのボールキャスタ32を備えた台車とされている。
そのため、ロボット1は、ユーザとの会話を実現させる会話機能のほか、ユーザの行動を見守ったり、ユーザの行動を補助したり、ユーザと一緒に行動したりする機能を備えている。このような機能は、例えば、後述するロボット本体1の内部に内蔵されたマイクロコンピュータ等からなる制御装置により実現されるものである。制御装置には、図1および図2に示した各種カメラや各種センサ等が接続されており、カメラからの画像情報やセンサからのセンサ検出情報を取得し、これらの情報に基づいて各種プログラムを実行することにより、上述した各種機能を実現させる。なお、ロボット本体1の形状としては、図1および図2に示した形状に限られず、愛玩用に動物を模したものなど、種々のものを採用することが可能である。
図3は、ロボット1が備える各種構成要素のうち、音声認識に関連の深い構成要素を抽出して示したブロック図である。図3に示すように、ロボット1は、マイクロフォン(音声入力部)14、音声認識装置50、および応答動作実行部51を備えている。
音声認識装置50は、図4に示すように、マイクロフォン14から入力された音声データを認識する第1処理部61と、音声認識結果の候補として予想される単語を辞書として第1処理部61に与える第2処理部(例えば、アプリケーションソフトウェアを実行して種々の処理を実現させるアプリケーション部)62とを備えている。
補助記憶装置73は、コンピュータ読み取り可能な記録媒体であり、例えば、上記第1処理部61および第2処理部62の処理を実現させるための各種プログラムが格納されている。そして、CPU71がこの補助記憶装置73に記録されている各種プログラムを読み出して、情報の加工・演算処理を実行することにより、後述する各種処理を実現させる。
ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。
ここで、所定の正解確信度とは、マイクロフォン14からの音声が照合された辞書データと同一であると判断する基準値である。
これにより、複数の音声認識エンジンを異なる開始タイミングで多重に作動させることができ、雑音が混じっていた場合でも目的音のみを確実に捕らえて音声認識する機会を増加させることが可能となる。この結果、音声認識が成功する確率を高めることができ、音声認識精度を高めることができる。
なお、いずれかの音声認識エンジンによって音声認識が成功した場合には、いずれの音声認識エンジンも作動を停止し、第2処理部62から次の辞書が与えられるまで待機状態となる。
本参考実施形態に係るロボット1は、ユーザと対話することやユーザによって何らかの指示がされた場合にその指示に応じた行動をすることを目的としている。従って、例えば、ユーザから入力される音声をその時々の動作状況(例えば、対話の状況等)によって予測することが可能となる。
このように、入力される音声の候補を予め絞り、候補となる単語が登録された辞書を第1処理部61に与えるので、第1処理部61における音声認識の精度を高めることが可能となる。
応答動作実行部51は、図7に示すように、会話シナリオ実行部66および代替動作実行部67を備えている。この応答動作実行部51は、例えば、小型のマイクロコンピュータと、会話動作、代替応答動作等の各種応答動作を実現させるための手順が記載されたアプリケーションプログラムを保有しており、音声認識装置50から受け付けた音声認識結果に応じたアプリケーションプログラムを読み出して実行することにより、後述のような会話シナリオ実行部66や代替動作実行部67による各種機能を実現させる。
代替動作実行部67は、音声認識装置50から音声認識失敗に関する情報を受け付けたときに、周囲の物音を検知した旨を示す代替動作を実現させるものである。
ここでは、図6に示すように、目的音の前に雑音が入っている場合の音声認識について一例を挙げて説明する。
第1処理部61は、第2処理部62から辞書を受け取ると、最初の音声認識エンジンSR1を作動させる(図6の時刻T1)。これにより、最初の音声認識エンジンSR1による音声認識が開始される。ここで、音声認識エンジンSR1の音声認識期間(時刻T1からT6の期間)において、雑音が入力されていることから、この雑音により、認識エンジン1による音声認識は失敗する。音声認識に失敗したことが判明すると、音声認識エンジンSR1は、音声認識に失敗したことを示すガベージを第2処理部62に出力し、その後、認識エンジンSR1は待機状態となる(図6の時刻T2)。
続いて、認識エンジンSR2の作動開始から所定時間が経過することにより、認識エンジンSR3が作動を開始する(図6の時刻T4)。
更に、音声認識の精度が向上することにより、ロボット1の誤動作確率を低減させることが可能となる。
次に、本発明の第1の実施形態に係るロボットおよび音声認識装置ならびにプログラムについて説明する。本実施形態に係るロボットが第1の参考実施形態と異なる点は、図9に示すように、第2処理部61´が複数の辞書作成部SD1、SD2を備える点、第1処理部61´の各音声認識エンジンSR1〜SR3が状況に応じて複数の辞書を用いて音声認識を実施する点である。
具体例としては、ロボット1においては、常に「ワカマル」という呼びかけがあるか否かを判断するとともに、「ニュースを読んで」、「天気を教えて」などのようなロボット1に対する指示に関する音声入力をその都度認識するという要求がある。
このような場合、音声が入力された場合には、「ワカマル」という辞書に基づく音声認識を常に作動させる必要があるとともに、ロボット1のその時々の動作状況に応じた辞書を作成する必要がある。
第1処理部61´は、この辞書Aを受け付けると、音声認識エンジンSR1を作動させ、辞書Aを使用した音声認識を開始させる(図9の時刻T1)。
第1処理部61´では、音声認識エンジンSR1の作動開始から所定時間が経過したことにより、音声認識エンジンSR2が作動を開始する。ここで、音声認識エンジンSR2の作動開始時において、入力信号待ち状態である辞書作成部は、SD1とSD2の2つである。従って、音声認識エンジンSR2は、辞書Aと辞書Bとを使用した音声認識を開始する(図9の時刻T3)。
続いて、辞書Aが第1処理部に与えられてから既定の期間が経過したことにより、辞書Aがタイムアウトとなる。これにより、辞書Aを出力した辞書作成部SD1は入力信号待ち状態から待機状態に遷移する(図9の時刻T5)。
次に、音声認識エンジンSR1の作動開始から所定の音声認識期間が経過することにより、音声認識エンジンSR1は一度作動を停止するが、未だに辞書Bについてはタイムアウトしておらず、かつ、他の音声認識エンジンSR2、SR3によっても音声認識が成功していないことから、音声認識エンジンSR1は再度作動を開始する。このとき、信号入力待ち状態である辞書作成部は、SD2の1つのみであるので、音声認識エンジンSR1は辞書Bを用いた音声認識を開始する(図9の時刻T6)。そして、同様に、辞書Bがタイムアウトになるまで、或いは、いずれかの音声認識エンジンによって音声認識が成功するまで(図9の時刻T8)、各音声認識エンジンSR2、SR3、SR1の作動停止および再開が繰り返し行われる(図9の時刻T7)。
また、第1処理部61´において、各音声認識エンジンSR1〜SR3は、入力信号待ち状態にある辞書作成部SD1、SD2によって作成された辞書を全て用いて音声認識を行うので、異なる辞書が時間差で発生した場合でも柔軟に対応して音声認識を継続して行うことが可能となる。これにより、目的音が異なるタイミングで連続的に入力されるような場合であっても、それぞれの目的音を的確に捕らえて認識することが可能となる。
次に、本発明の第2の参考実施形態に係るロボットおよび音声認識装置ならびにプログラムについて説明する。本参考実施形態に係るロボットが第1の参考実施形態および第1の実施形態と異なる点は、各音声認識エンジンSR1、SR2、SR3とそれぞれ同じタイミングで音声認識を開始する補助音声認識エンジン(図示略)を備えている点である。
ここで、補助音声認識エンジンSR1´は、音声認識エンジンSR1と種別が異なる音声認識エンジンであることが好ましい。例えば、メーカや音声認識の手法が異なる等である。
なお、同じタイミングで作動する音声認識エンジンと補助音声認識エンジンとで音声認識結果が異なっていた場合には、照合確率の高い方を優先させるとよい。
また、1つの音声認識エンジンに対する補助音声認識エンジンは、複数設けられていてもよい。例えば、音声認識エンジンSR1に対して複数の補助音声認識エンジンが設けられていてもよい。また、全ての音声認識エンジンに対して補助音声認識エンジンがそれぞれ設けられている必要はなく、補助音声認識エンジンを設けるか否か、また、いくつ設けるかについては、任意に決定することが可能である。
50 音声認識装置
51 応答動作実行部
61、61´ 第1処理部
62、62´ 第2処理部
66 会話シナリオ実行部
67 代替動作実行部
71 CPU
72 主記憶装置
73 補助記憶装置
Claims (7)
- 音声をデジタル化して音声データを出力する音声入力部と、
前記音声入力部から出力された音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置と
を備え、
前記音声認識装置は、複数の音声認識処理部を有する第1処理部を備え、かつ、音声認識結果の候補として予想される単語を登録した辞書を前記第1処理部に与える第2処理部を備え、
該第2処理部は、内容の全部または一部が相互に異なる辞書を作成し、互いに異なるタイミングで該辞書を前記第1処理部に与える複数の辞書作成部を有し、
各辞書作成部は、自身が該第1処理部に与えた辞書に対する音声認識結果が入力されるまで、または、自身が前記第1処理部に対して該辞書を与えてから所定の時間が経過するまで音声認識結果が入力されるのを待つ入力信号待ち状態となり、
一の前記音声認識処理部は、他の前記音声認識処理部とは異なるタイミングで、かつ、他の前記音声認識処理部の音声認識期間内に、音声認識を開始し、
前記第1処理部の各前記音声認識処理部は、自身が作動を開始する時点で音声認識結果が入力されるのを待つ入力信号待ち状態にある前記辞書作成部から与えられた全ての辞書を用いて音声認識を行い、音声認識が成功した場合に、その結果を前記第2処理部に出力するロボット。 - 各前記音声認識処理部は、一定の時間間隔で順番に作動を開始する請求項1に記載のロボット。
- 各前記音声認識処理部は、いずれかの音声認識処理部によって音声が認識されるまで繰り返し音声認識を実施する請求項1または請求項2に記載のロボット。
- 前記音声認識装置は、少なくとも1つの音声認識処理部と同じタイミングで音声認識を開始する少なくとも1つの補助音声認識処理部を更に備える請求項1から請求項3のいずれかに記載のロボット。
- 前記音声認識装置による音声認識結果に対応する応答動作を実行する応答動作実行部を備える請求項1から請求項4のいずれかに記載のロボット。
- 音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置であって、
複数の音声認識処理部を有する第1処理部を備え、かつ、音声認識結果の候補として予想される単語を登録した辞書を前記第1処理部に与える第2処理部を備え、
該第2処理部は、内容の全部または一部が相互に異なる辞書を作成し、互いに異なるタイミングで該辞書を前記第1処理部に与える複数の辞書作成部を有し、
各辞書作成部は、自身が該第1処理部に与えた辞書に対する音声認識結果が入力されるまで、または、自身が前記第1処理部に対して該辞書を与えてから所定の時間が経過するまで音声認識結果が入力されるのを待つ入力信号待ち状態となり、
一の前記音声認識処理部は、他の前記音声認識処理部とは異なるタイミングで、かつ、他の前記音声認識処理部の所定の音声認識期間内に、音声認識を開始し、
前記第1処理部の各前記音声認識処理部は、自身が作動を開始する時点で音声認識結果が入力されるのを待つ入力信号待ち状態にある前記辞書作成部から与えられた全ての辞書を用いて音声認識を行い、音声認識が成功した場合に、その結果を前記第2処理部に出力する音声認識装置。 - 音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識をコンピュータに実行させるためのプログラムであって、
複数の音声認識プログラムを有する第1処理プログラムを備え、かつ、音声認識結果の候補として予想される単語を登録した辞書を前記第1処理プログラムに与える第2処理プログラムを備え、
該第2処理プログラムは、内容の全部または一部が相互に異なる辞書を作成し、互いに異なるタイミングで該辞書を前記第1処理プログラムに与える複数の辞書作成プログラムを有し、
各辞書作成プログラムは、自身が該第1処理プログラムに与えた辞書に対する音声認識結果が入力されるまで、または、自身が前記第1処理プログラムに対して該辞書を与えてから所定の時間が経過するまで音声認識結果が入力されるのを待つ入力信号待ち状態となり、
一の前記音声認識プログラムは、他の前記音声認識プログラムとは異なるタイミングで、かつ、他の音声認識プログラムが作動している期間内に、音声認識を開始し、
前記第1処理プログラムの各前記音声認識プログラムは、自身が作動を開始する時点で音声認識結果が入力されるのを待つ入力信号待ち状態にある前記辞書作成プログラムから与えられた全ての辞書を用いて音声認識を行い、音声認識が成功した場合に、その結果を前記第2処理プログラムに出力するプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009011786A JP5478903B2 (ja) | 2009-01-22 | 2009-01-22 | ロボットおよび音声認識装置ならびにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009011786A JP5478903B2 (ja) | 2009-01-22 | 2009-01-22 | ロボットおよび音声認識装置ならびにプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013204228A Division JP5709955B2 (ja) | 2013-09-30 | 2013-09-30 | ロボットおよび音声認識装置ならびにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010169861A JP2010169861A (ja) | 2010-08-05 |
JP5478903B2 true JP5478903B2 (ja) | 2014-04-23 |
Family
ID=42702089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009011786A Active JP5478903B2 (ja) | 2009-01-22 | 2009-01-22 | ロボットおよび音声認識装置ならびにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5478903B2 (ja) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58130392A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声認識装置 |
JPH0756597B2 (ja) * | 1986-07-08 | 1995-06-14 | 株式会社東芝 | 音声認識装置 |
ATE254328T1 (de) * | 1998-03-09 | 2003-11-15 | Lernout & Hauspie Speechprod | Vorrichtung und verfahren zum gleichzeitigen multimodalen diktieren |
JP2000076241A (ja) * | 1998-09-03 | 2000-03-14 | Canon Inc | 音声認識装置及び音声入力方法 |
JP2000148185A (ja) * | 1998-11-13 | 2000-05-26 | Matsushita Electric Ind Co Ltd | 認識装置及び認識方法 |
JP2002229592A (ja) * | 2001-01-30 | 2002-08-16 | Nec Corp | 音声認識装置 |
JP2003140691A (ja) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | 音声認識装置 |
JP4239635B2 (ja) * | 2003-03-20 | 2009-03-18 | ソニー株式会社 | ロボット装置、その動作制御方法、及びプログラム |
JP2006208486A (ja) * | 2005-01-25 | 2006-08-10 | Matsushita Electric Ind Co Ltd | 音声入力装置 |
-
2009
- 2009-01-22 JP JP2009011786A patent/JP5478903B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010169861A (ja) | 2010-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6447578B2 (ja) | 音声対話装置および音声対話方法 | |
US10019992B2 (en) | Speech-controlled actions based on keywords and context thereof | |
CN107340865B (zh) | 多模态虚拟机器人交互方法和系统 | |
KR20190022109A (ko) | 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치 | |
JP6551507B2 (ja) | ロボット制御装置、ロボット、ロボット制御方法およびプログラム | |
US11250117B2 (en) | Methods and systems for fingerprint sensor triggered voice interaction in an electronic device | |
CN111421557B (zh) | 电子装置及其控制方法 | |
US20210151052A1 (en) | System for processing user utterance and control method thereof | |
JP2018185362A (ja) | ロボットおよびその制御方法 | |
JP2007152470A (ja) | 自己診断機能付きロボット | |
JP2009131914A (ja) | ロボット制御システム | |
CN115206306A (zh) | 语音交互方法、装置、设备及系统 | |
JP2007152445A (ja) | 自走式ロボット | |
CN112740321A (zh) | 唤醒设备的方法、装置、存储介质及电子设备 | |
JP2007155986A (ja) | 音声認識装置および音声認識装置を備えたロボット | |
JP7215417B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2007156688A (ja) | ユーザ認証装置およびその方法 | |
JP5709955B2 (ja) | ロボットおよび音声認識装置ならびにプログラム | |
JP5478903B2 (ja) | ロボットおよび音声認識装置ならびにプログラム | |
JP2007155985A (ja) | ロボットおよび音声認識装置ならびにその方法 | |
CN110653812B (zh) | 一种机器人的交互方法、机器人及具有存储功能的装置 | |
JP2007152444A (ja) | 自走式ロボットおよび情報管理システム | |
CN109866237A (zh) | 一种用于智能机器人的唤醒功能装置 | |
JP2001188551A (ja) | 情報処理装置および方法、並びに記録媒体 | |
JP2004318026A (ja) | セキュリティペットロボット及びその装置に関する信号処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121217 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130930 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140212 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5478903 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |