JP5709955B2 - ロボットおよび音声認識装置ならびにプログラム - Google Patents

ロボットおよび音声認識装置ならびにプログラム Download PDF

Info

Publication number
JP5709955B2
JP5709955B2 JP2013204228A JP2013204228A JP5709955B2 JP 5709955 B2 JP5709955 B2 JP 5709955B2 JP 2013204228 A JP2013204228 A JP 2013204228A JP 2013204228 A JP2013204228 A JP 2013204228A JP 5709955 B2 JP5709955 B2 JP 5709955B2
Authority
JP
Japan
Prior art keywords
speech recognition
speech
processing unit
voice
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013204228A
Other languages
English (en)
Other versions
JP2013257598A (ja
Inventor
金澤 宏幸
宏幸 金澤
古結 義浩
義浩 古結
浅野 伸
伸 浅野
日浦 亮太
亮太 日浦
宮内 均
均 宮内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Heavy Industries Ltd
Original Assignee
Mitsubishi Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Heavy Industries Ltd filed Critical Mitsubishi Heavy Industries Ltd
Priority to JP2013204228A priority Critical patent/JP5709955B2/ja
Publication of JP2013257598A publication Critical patent/JP2013257598A/ja
Application granted granted Critical
Publication of JP5709955B2 publication Critical patent/JP5709955B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Manipulator (AREA)

Description

本発明は、音声認識機能を有するロボットに係り、特に、音声認識を行う音声認識装置およびそのプログラムに関するものである。
従来、一般的家庭向けの対話型ロボットでは、雑音が存在する環境で常時ユーザの呼びかけに対応することが要求されている。しかしながら、ユーザの指令であるか、テレビ・ラジオなどの生活雑音であるかを判断することは非常に難しく、テレビ・ラジオ等の生活雑音をユーザによる指令であると誤って認識することも少なくない。
上述した誤認識の解決策として、例えば、常時適正な音声区間を用いて音声認識を実施することが提案されている。
特表2002−507010号公報
しかしながら、適切な音声区間によって音声認識を行ったとしても、音声区間において音声認識したい言葉である目的音が発せられる前に雑音が入ってしまった場合には、雑音も目的音の一部として取り扱われてしまい、音声認識ができないということがあった。
本発明は、上記問題を解決するためになされたもので、音声認識の精度を向上させることのできるロボットおよび音声認識装置ならびにプログラムを提供することを目的とする。
上記課題を解決するために、本発明は以下の手段を採用する。
本発明は、音声をデジタル化して音声データを出力する音声入力部と、前記音声入力部から出力された音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置とを備え、前記音声認識装置は、前記音声データと前記辞書に登録された前記単語とを照合し、照合結果を音声認識結果として出力する音声認識処理を行う複数の音声認識処理部を有する第1処理部を備え、各前記音声認識処理部は、既定の順序に従って所定の時間間隔で作動し、かつ、先に音声認識を開始した他の前記音声認識処理部の音声認識期間内に、一の前記音声認識処理部が音声認識を開始し、該他の前記音声認識処理部によって音声認識が失敗した場合に、該一の前記音声認識処理部によって、前記他の前記音声認識処理部で用いた前記辞書に登録された前記単語と前記音声データとを照合し、いずれかの前記音声認識処理部によって音声認識が成功するまで繰り返し音声認識を実施するロボットを提供する。
このような構成によれば、少なくとも2つの音声認識処理部を時間差で並行して作動させることが可能となる。このように、音声認識処理部の音声認識開始時期をずらして作動させるので、一方の音声認識処理部によって認識される音声データに雑音が含まれてしまい、音声認識に失敗した場合でも、他方の音声認識処理部においては雑音の入っていない目的音のみの音声データを認識対象として取り扱わせることが可能となる。
これにより、音声認識が成功する確率を高めることができ、音声認識の精度を向上させることができる。また、音声認識の精度が向上することにより、ロボットの誤動作確率を低減させることが可能となる。
また、例えば、一回の入力で音声認識が出来なかった場合、同じ言葉がユーザによって再度発せられることがある。このような場合に、音声認識に成功するまで、各音声認識処理部が繰り返し音声認識を実施することで、目的音を的確に捕らえる機会を増やすことができ、音声認識の精度を向上させることができる。
上記ロボットにおいて、各前記音声認識処理部は、一定の時間間隔で順番に作動を開始することが好ましい。
このように、全ての音声認識処理部をそれぞれ異なるタイミングで作動させることにより、雑音が入っていたとしても、いずれかの音声認識処理部によって的確に目的音を捕らえて音声認識を行うことが可能となる。この結果、音声認識が成功する確率を更に高めることができる。
上記ロボットにおいて、各前記音声認識処理部は、いずれかの音声認識処理部によって音声認識が成功した場合に、音声認識を停止して待機状態となることとしてもよい。
このように、いずれかの音声認識処理部によって音声認識がされた場合には、全ての音声認識処理部が待機状態となるので、作動を繰り返し続けることによる計算機の能力の無駄な消費を回避することができる。
上記ロボットにおいて、前記音声認識装置は、複数の前記音声認識処理部のうち、少なくとも1つの音声認識処理部と同じタイミングで音声認識を開始する少なくとも1つの補助音声認識処理部を更に備えることとしてもよい。
音声認識処理部と補助音声認識処理部とを同じ期間にわたって並行して走らせるので、音声認識の精度を更に高めることができる。
上記ロボットは、前記音声認識装置による音声認識結果に対応する応答動作を実行する応答動作実行部を備えることとしてもよい。
本発明は、音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置であって、前記音声データと前記辞書に登録された前記単語とを照合し、照合結果を音声認識結果として出力する音声認識処理を行う複数の音声認識処理部を有する第1処理部を備え、各前記音声認識処理部は、既定の順序に従って所定の時間間隔で作動し、かつ、先に音声認識を開始した他の前記音声認識処理部の所定の音声認識期間内に、一の前記音声認識処理部が音声認識を開始し、該他の前記音声認識処理部によって音声認識が失敗した場合に、該一の前記音声認識処理部によって、前記他の前記音声認識処理部で用いた前記辞書に登録された前記単語と前記音声データとを照合し、いずれかの前記音声認識処理部によって音声認識が成功するまで繰り返し音声認識を実施する音声認識装置を提供する。
本発明は、音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識をコンピュータに実行させるためのプログラムであって、前記音声データと前記辞書に登録された前記単語とを照合し、照合結果を音声認識結果として出力する音声認識処理を行う複数の音声認識プログラムを有し、各前記音声認識プログラムは、既定の順序に従って所定の時間間隔で作動し、かつ、先に音声認識を開始した他の前記音声認識プログラムが作動している期間内に、一の前記音声認識プログラムが音声認識を開始し、該他の前記音声認識プログラムによって音声認識が失敗した場合に、該一の前記音声認識プログラムによって、前記他の前記音声認識プログラムで用いた前記辞書に登録された前記単語と前記音声データとを照合し、いずれかの前記音声認識プログラムによって音声認識が成功するまで繰り返し音声認識を実施するプログラムを提供する。
本発明によれば、音声認識の精度を向上させることができるという効果を奏する。
本発明の第1の実施形態に係るロボットの正面図である。 図1に示したロボットの左側面図である。 ロボットが備える各種構成要素のうち、音声認識に関連の深い構成要素を抽出して示したブロック図である。 音声認識装置が備える機能を展開して示した機能ブロック図である。 音声認識装置のハードウェア構成を示した図である。 本発明の第1の実施形態に係る音声認識装置の作動を説明するためのタイミングチャートである。 応答動作実行部が備える機能を展開して示した機能ブロック図である。 本発明の第1の実施形態に対応する従来の音声認識装置の動作例を示したタイミングチャートである。 本発明の第2の実施形態に係る音声認識装置の作動を説明するためのタイミングチャートである。 本発明の第2の実施形態に対応する従来の音声認識装置の動作例を示したタイミングチャートである。
以下に、本発明に係るロボットの一実施形態について、図面を参照して説明する。
〔第1の実施形態〕
図1は、本発明の第1の実施形態に係るロボットの正面図、図2は、図1に示したロボットの左側面図である。
図1および図2に示すように、ロボット本体1には、頭部2と、この頭部2を下方から支持する胸部3と、この胸部3の右側に設けられた右腕部4a、胸部3の左側に設けられた左腕部4bと、胸部3の下方に接続された腰部5と、この腰部5の下方に接続されたスカート部6と、このスカート部6の下方に接続された脚部7とが設けられている。
頭部2には、頭頂部近傍に全方位カメラ11が一つ設けられている。この全方位カメラ11の外周に沿って複数の赤外線LED12が所定の間隔で円環上に配置されている。
頭部2の前面の中央近傍には、図1に示すように、前方を撮像するための前方カメラ13が正面視して右側に一つ、マイクロフォン14が正面視して左側に一つ、それぞれ設けられている。
胸部3の前面の中央近傍には、モニタ15が一つ設けられている。このモニタ15の上方には、人を検知するための超音波距離センサ16が一つ設けられている。モニタ15の下方には、電源スイッチ17が一つ設けられている。超音波距離センサ16の上方には、2つのスピーカ18が左右に一つずつ設けられている。また、図2に示すように、胸部3の背面には、荷物を収納することができるランドセル部33が設けられている。ランドセル部33には、上部に設けたヒンジ周りに回動可能な開閉扉33aが設けられている。図1に示すように、胸部3の左右の肩部には、マンマシンインターフェースとして機能する肩スイッチ19がそれぞれ一つずつ設けられている。肩スイッチ19には、例えば、タッチセンサが採用されている。
右腕部4aおよび左腕部4bには、多関節構造が採用されている。右腕部4a、左腕部4bにおいて、胸部3との接続部近傍には、体や物の挟み込みを検知して腕の動作を止めるための脇スイッチ20がそれぞれ設けられている。図1に示すように、右腕部4aの手のひら部分には、マンマシンインターフェースとして機能する握手スイッチ21が内蔵されている。これら脇スイッチ20や握手スイッチ21には、例えば、押圧センサが採用される。
腰部5の前面の中央近傍には、人を検知するための超音波距離センサ22が左右に一つずつ設けられている。これら超音波距離センサ22の下方には、複数の赤外センサ23が配列されたセンサ領域24が設けられている。これら赤外線センサ23は、ロボット本体1の下方前方にある障害物等を検出するためのものである。図1および図2に示すように、腰部5の下方には、前面および背面において、音源方向を検出するためのマイクロフォン25が左右に一つずつ、計4つ設けられている。図2に示すように、腰部5の側面の左右には、本体を持ち上げるときに使用する取手部26がそれぞれ一つずつ設けられている。取手部26は、凹所とされており、操作者の手が挿入できるようになっている。
スカート部6の前面下方には、段差を検出するための赤外線センサ27が、中央および左右に計3つ設けられている。図2に示すように、スカート部6の背面には、充電コネクタ28が設けられている。
図1に示すように、脚部7の前面には、側方の距離を検出するための赤外線センサ29が左右に一つずつ設けられている。これら赤外線センサ29は、主に段差検出に用いられるものである。
図2に示すように、脚部7の背面には、充電ステーションにロボット本体1を位置固定するためのフック30が設けられている。脚部7は、走行用車輪31および4つのボールキャスタ32を備えた台車とされている。
このようなロボットは、ロボット本体1に内蔵されたバッテリからの電源供給により、作業空間を自律的に移動することが可能な構成を備えており、一般家庭等の屋内を作業空間として人間と共存し、例えば、一般家庭内でロボットの所有者や操作者などのユーザの生活を補助・支援・介護するための各種サービスを提供するために用いられる。
そのため、ロボット1は、ユーザとの会話を実現させる会話機能のほか、ユーザの行動を見守ったり、ユーザの行動を補助したり、ユーザと一緒に行動したりする機能を備えている。このような機能は、例えば、後述するロボット本体1の内部に内蔵されたマイクロコンピュータ等からなる制御装置により実現されるものである。制御装置には、図1および図2に示した各種カメラや各種センサ等が接続されており、カメラからの画像情報やセンサからのセンサ検出情報を取得し、これらの情報に基づいて各種プログラムを実行することにより、上述した各種機能を実現させる。なお、ロボット本体1の形状としては、図1および図2に示した形状に限られず、愛玩用に動物を模したものなど、種々のものを採用することが可能である。
次に、本発明の特徴部分であるロボット1が備える音声認識機能について説明する。音声認識機能は上述した会話機能を実現させるために必要となる機能であり、上述した制御装置内に設けられた音声認識装置等により実現されるものである。
図3は、ロボット1が備える各種構成要素のうち、音声認識に関連の深い構成要素を抽出して示したブロック図である。図3に示すように、ロボット1は、マイクロフォン(音声入力部)14、音声認識装置50、および応答動作実行部51を備えている。
マイクロフォン14は、ユーザの音声や電話のベル、呼び鈴、テレビ・ラジオ等の生活雑音を取り込み、これらの音声を電気信号に変換した音声データを音声認識装置50へ出力する。音声認識装置50は、マイクロフォン14から入力された音声データを認識し、その音声結果を応答動作実行部51へ出力する。応答動作実行部51は、音声認識装置50による判断結果に応じた応答動作を実行する。
以下、図3に示した音声認識装置50について詳しく説明する。
音声認識装置50は、図4に示すように、マイクロフォン14から入力された音声データを認識する第1処理部61と、音声認識結果の候補として予想される単語を辞書として第1処理部61に与える第2処理部(例えば、アプリケーションソフトウェアを実行して種々の処理を実現させるアプリケーション部)62とを備えている。
音声認識装置50は、コンピュータシステム(計算機システム)であり、図5に示すように、CPU(中央演算装置)71、RAM(Random Access Memory)等の主記憶装置72、補助記憶装置73などで構成されている。
補助記憶装置73は、コンピュータ読み取り可能な記録媒体であり、例えば、上記第1処理部61および第2処理部62の処理を実現させるための各種プログラムが格納されている。そして、CPU71がこの補助記憶装置73に記録されている各種プログラムを読み出して、情報の加工・演算処理を実行することにより、後述する各種処理を実現させる。
ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。
第1処理部61は、図6に示すように、3つの音声認識エンジン(音声認識処理部)SR1、SR2、SR3を備えている。なお、本実施形態では、3つの音声認識エンジンを備える場合を例示しているが、音声認識エンジンの数は限定されず、2つ以上設けられていればよい。
各音声認識エンジンSR1〜SR3は、第2処理部62から与えられる辞書に登録されている単語と音声データとを照合し、所定の正解確信度を超える照合結果が得られた場合に、その照合結果を音声認識結果として第2処理部62に出力する。
ここで、所定の正解確信度とは、マイクロフォン14からの音声が照合された辞書データと同一であると判断する基準値である。
各音声認識エンジンSR1〜SR3は、少なくとも1つの音声認識エンジンが他の音声認識エンジンと異なるタイミングで音声認識を開始するようになっている。本実施形態では、各音声認識エンジンSR1〜SR3は、既定の順序に従って、所定の時間間隔で作動する。具体的には、図6に示すように、音声認識エンジンSR1が作動を開始した後、所定の時間経過後に、音声認識エンジンSR2が作動を開始し、更に、その所定時間経過後に音声認識エンジンSR3が作動を開始する。このとき、所定の時間間隔は、各音声認識エンジンが音声認識を行う期間である音声認識期間(図6においては、T1からT6の期間などに相当)よりも短く設定されている。
これにより、複数の音声認識エンジンを異なる開始タイミングで多重に作動させることができ、雑音が混じっていた場合でも目的音のみを確実に捕らえて音声認識する機会を増加させることが可能となる。この結果、音声認識が成功する確率を高めることができ、音声認識精度を高めることができる。
また、各音声認識エンジンSR1〜SR3は、音声認識期間が経過したときに、他の音声認識エンジンによる音声認識が成功していない場合には、音声認識を再開させる。これにより、いずれかの音声認識エンジンによって音声認識が行われるまで、各音声認識エンジンSR1、SR2、SR3が所定の時間間隔で繰り返し音声認識を実施することとなる。
なお、いずれかの音声認識エンジンによって音声認識が成功した場合には、いずれの音声認識エンジンも作動を停止し、第2処理部62から次の辞書が与えられるまで待機状態となる。
第2処理部62は、音声認識結果の候補として予想される単語を辞書として作成し、作成した辞書を第1処理部51に与える辞書作成部SD1を有している。
本実施形態に係るロボット1は、ユーザと対話することやユーザによって何らかの指示がされた場合にその指示に応じた行動をすることを目的としている。従って、例えば、ユーザから入力される音声をその時々の動作状況(例えば、対話の状況等)によって予測することが可能となる。
例えば、ロボット1がユーザに対して「これを移動させますか。」と聞いた場合には、ユーザからの回答の候補として、「はい」「いいえ」などが推測できる。第2処理部62の辞書作成部SD1は、ロボット1の各種対話モードと入力音声の候補が登録されている辞書とを対応付けて保有しており、現在進行している対話モードに応じた辞書を選択して、第1処理部51に与える。
このように、入力される音声の候補を予め絞り、候補となる単語が登録された辞書を第1処理部61に与えるので、第1処理部61における音声認識の精度を高めることが可能となる。
次に、図3に示した応答動作実行部51について詳しく説明する。
応答動作実行部51は、図7に示すように、会話シナリオ実行部66および代替動作実行部67を備えている。この応答動作実行部51は、例えば、小型のマイクロコンピュータと、会話動作、代替応答動作等の各種応答動作を実現させるための手順が記載されたアプリケーションプログラムを保有しており、音声認識装置50から受け付けた音声認識結果に応じたアプリケーションプログラムを読み出して実行することにより、後述のような会話シナリオ実行部66や代替動作実行部67による各種機能を実現させる。
会話シナリオ実行部66は、音声認識装置50から受け付けた音声認識結果に応じた会話シナリオを作成し、この合成音声データに基づく音声信号をロボット本体1が備えるスピーカ18(図1、図2参照)へ出力することにより、合成音声データに応じた発話を行う。
代替動作実行部67は、音声認識装置50から音声認識失敗に関する情報を受け付けたときに、周囲の物音を検知した旨を示す代替動作を実現させるものである。
上記代替動作としては、例えば、短時間(数十ミリ秒乃至数秒)で完結する動作または発話が好ましい。動作であれば、例えば、首をかしげる、首を振る、周囲を見回す、目を開閉させる等の1つの動きで完結するものが一例として挙げられ、発話であれば、「ふぅ」、「クピッ」、「んー」などの数個の文字で構成されるものが一例として挙げられる。
次に、上述した音声認識装置50の一動作例について図6を参照して説明する。
ここでは、図6に示すように、目的音の前に雑音が入っている場合の音声認識について一例を挙げて説明する。
まず、第2処理部62の辞書作成部SD1は、予め登録されている複数の辞書の中から入力が期待される音声の候補が登録された辞書を選択し、この辞書を第1処理部61に出力する(図6の時刻T1)。
第1処理部61は、第2処理部62から辞書を受け取ると、最初の音声認識エンジンSR1を作動させる(図6の時刻T1)。これにより、最初の音声認識エンジンSR1による音声認識が開始される。ここで、音声認識エンジンSR1の音声認識期間(時刻T1からT6の期間)において、雑音が入力されていることから、この雑音により、認識エンジン1による音声認識は失敗する。音声認識に失敗したことが判明すると、音声認識エンジンSR1は、音声認識に失敗したことを示すガベージを第2処理部62に出力し、その後、認識エンジンSR1は待機状態となる(図6の時刻T2)。
次に、認識エンジンSR1の作動開始から所定時間が経過することにより、認識エンジンSR2が作動を開始する(図6の時刻T3)。これにより、認識エンジンSR2による音声認識が開始される。
続いて、認識エンジンSR2の作動開始から所定時間が経過することにより、認識エンジンSR3が作動を開始する(図6の時刻T4)。
次に、認識エンジンSR2が音声認識に成功すると、その音声認識結果が第2処理部62に出力される(図6の時刻T5)。また、これと同時に、音声認識中であった認識エンジンSR2およびSR3は、音声認識を中止し、待機状態となる。
第2処理部62は、第1処理部61から入力された音声認識結果を応答動作実行部51に出力する。応答動作実行部51において、入力された音声認識結果は会話シナリオ実行部66に与えられる。音声認識結果を受け付けた会話シナリオ実行部66では、音声認識結果に対応するシナリオ音声データをスピーカ18へ出力する。これにより、ユーザからの音声入力に対応する適切な発話がなされることとなる。
なお、図6では音声認識に成功した場合を例に挙げているが、音声認識に失敗した場合には、音声認識に失敗した旨の情報が音声認識装置50から応答動作実行部51に出力される。応答動作実行部51において、音声認識に失敗した旨の情報は、代替動作実行部67に与えられる。これにより、代替動作実行部67は、首をかしげる、「んー」等の発声などの代替動作を実行する。
以上、説明してきたように、本実施形態に係るロボット1、音声認識装置50およびプログラムによれば、各音声認識エンジンSR1、SR2、SR3を所定の時間間隔で並列して作動させるので、雑音が混じっていた場合でも、いずれかの音声認識エンジンによって目的音のみを確実に捕らえさせることが可能となる。この結果、音声認識が成功する確率を高めることができ、音声認識の精度を向上させることが可能となる。
更に、音声認識の精度が向上することにより、ロボット1の誤動作確率を低減させることが可能となる。
図8に従来の音声認識装置の動作例を示す。図8に示すように、従来の音声認識装置は、音声認識エンジンを1つしか有していないため、初めの音声認識期間において雑音を捕らえてしまうと音声認識に失敗してしまい、その旨の情報を示すガベージを第2処理部162に出力する(図8の時刻T2)。このガベージの通知を受けると、第2処理部162は先ほどと同じ辞書を音声認識エンジンに再度与える。これにより、音声認識エンジンによる音声認識が再開されるが(図8の時刻T3)、このときには目的音の途中から音声認識が開始されるので、2度目の音声認識においても失敗し、ガベージが出力されることとなる(図8の時刻T4)。このように、従来の音声認識装置では、音声認識に失敗してしまう場合であっても、本実施形態に係る音声認識装置であれば、図6に示すように確実に目的音を捕らえて、音声認識を行うことができる。
なお、本実施形態では、いずれかの音声認識エンジンによって音声認識が成功するまで音声認識を繰り返し行うこととしたが、この例に限られない。例えば、各々の音声認識エンジンSR1〜SR3は、自身の音声認識期間が終了したときに作動を停止することとしてもよい。また、繰り返し作動する回数を予め登録しておき、その回数繰り返し作動したら、作動を停止することとしてもよい。
〔第1の参考実施形態〕
次に、本発明の第1の参考実施形態に係るロボットおよび音声認識装置ならびにプログラムについて説明する。本参考実施形態に係るロボットが第1の実施形態と異なる点は、図9に示すように、第2処理部61´が複数の辞書作成部SD1、SD2を備える点、第1処理部61´の各音声認識エンジンSR1〜SR3が状況に応じて複数の辞書を用いて音声認識を実施する点である。
例えば、異なる目的音が時間差で入力されることが予測される場合には、それぞれのタイミングで入力が予測される音声の候補を登録した辞書を作成し、これらを適切なタイミングで第1処理部61´に与えることが必要となる。
具体例としては、ロボット1においては、常に「ワカマル」という呼びかけがあるか否かを判断するとともに、「ニュースを読んで」、「天気を教えて」などのようなロボット1に対する指示に関する音声入力をその都度認識するという要求がある。
このような場合、音声が入力された場合には、「ワカマル」という辞書に基づく音声認識を常に作動させる必要があるとともに、ロボット1のその時々の動作状況に応じた辞書を作成する必要がある。
本参考実施形態に係る音声認識装置は、このように複数の辞書が必要となる場合でもそれぞれの音声認識を実現させることを目的としている。以下、本参考実施形態の音声認識装置について、第1の実施形態と共通する点については説明を省略し、異なる点について主に説明する。
図9に示すように、第2処理部62´は、2つの辞書作成部SD1、SD2を有している。各辞書作成部SD1、SD2は、全部または一部が相互に異なる辞書を作成し、互いに異なるタイミングで該辞書を第1処理部61´に与える。また、各辞書作成部SD1、SD2は、自身が第1処理部61´に与えた辞書に対する音声認識結果が入力されるまで、または、自身が第1処理部61´に対して該辞書を与えてから所定の時間が経過するまで入力信号待ち状態となる。
第1処理部61´の各音声認識エンジンSR1〜SR3は、自身が作動を開始する時点で入力信号待ち状態にある辞書作成部SD1、SD2から与えられた全ての辞書を用いて音声認識を行い、音声認識が成功した場合に、その結果を第2処理部62´に出力する。
このような構成を備える音声認識装置においては、まず、辞書作成部SD1において入力音声として期待される単語が登録された辞書Aが作成され、第1処理部61´に与えられる。このとき、辞書作成部SD1は入力信号待ち状態となる。
第1処理部61´は、この辞書Aを受け付けると、音声認識エンジンSR1を作動させ、辞書Aを使用した音声認識を開始させる(図9の時刻T1)。
続いて、辞書作成部SD2において入力音声として期待される単語が登録された辞書Bが作成され、第1処理部61´に与えられる(図9の時刻T2)。このとき、辞書作成部SD2は入力信号待ち状態となる。また、辞書Aと辞書Bとの内容は一部または全てが異なっている。
第1処理部61´では、音声認識エンジンSR1の作動開始から所定時間が経過したことにより、音声認識エンジンSR2が作動を開始する。ここで、音声認識エンジンSR2の作動開始時において、入力信号待ち状態である辞書作成部は、SD1とSD2の2つである。従って、音声認識エンジンSR2は、辞書Aと辞書Bとを使用した音声認識を開始する(図9の時刻T3)。
次に、音声認識エンジンSR2の作動開始から所定時間が経過したことにより、音声認識エンジンSR3が作動を開始する。このとき、入力信号待ち状態である辞書作成部は、SD1とSD2の2つであるため、音声認識エンジンSR3は、辞書Aと辞書Bとを使用した音声認識を開始する(図9の時刻T4)。
続いて、辞書Aが第1処理部に与えられてから既定の期間が経過したことにより、辞書Aがタイムアウトとなる。これにより、辞書Aを出力した辞書作成部SD1は入力信号待ち状態から待機状態に遷移する(図9の時刻T5)。
次に、音声認識エンジンSR1の作動開始から所定の音声認識期間が経過することにより、音声認識エンジンSR1は一度作動を停止するが、未だに辞書Bについてはタイムアウトしておらず、かつ、他の音声認識エンジンSR2、SR3によっても音声認識が成功していないことから、音声認識エンジンSR1は再度作動を開始する。このとき、信号入力待ち状態である辞書作成部は、SD2の1つのみであるので、音声認識エンジンSR1は辞書Bを用いた音声認識を開始する(図9の時刻T6)。そして、同様に、辞書Bがタイムアウトになるまで、或いは、いずれかの音声認識エンジンによって音声認識が成功するまで(図9の時刻T8)、各音声認識エンジンSR2、SR3、SR1の作動停止および再開が繰り返し行われる(図9の時刻T7)。
以上説明してきたように、本参考実施形態に係るロボットおよび音声認識装置ならびにプログラムによれば、第2処理部62´が複数の辞書作成部SD1、SD2を備えるので、異なる目的音が時間差で入力されることが予測される場合に、それぞれのタイミングで入力が予測される音声の候補を登録した辞書を作成し、これらを適切なタイミングで第1処理部61´に与えることが可能となる。
また、第1処理部61´において、各音声認識エンジンSR1〜SR3は、入力信号待ち状態にある辞書作成部SD1、SD2によって作成された辞書を全て用いて音声認識を行うので、異なる辞書が時間差で発生した場合でも柔軟に対応して音声認識を継続して行うことが可能となる。これにより、目的音が異なるタイミングで連続的に入力されるような場合であっても、それぞれの目的音を的確に捕らえて認識することが可能となる。
図10に従来の音声認識装置の動作の一例を示す。図10に示すように、従来の音声認識装置では、初めに辞書Aが音声認識エンジンに与えられ、この辞書Aに関する音声認識が行われている途中で他の辞書Bが与えられると、辞書Aに関する今までの音声認識を打ち切り、辞書Aおよび辞書Bを用いた音声認識を再度開始する(図10の時刻T2)。次に、辞書Aがタイムアウトになると、その旨を第2処理部162´に通知し、辞書Aと辞書Bとを使用した音声認識を打ち切り、辞書Bのみを用いた音声認識を再開する(図10の時刻T3)。そして、辞書Bがタイムアウトになると、その旨を第2処理部162´に通知し、辞書Bを使用した音声認識を終了する(図10の時刻T4)。
本参考実施形態に係る音声認識装置では、辞書が追加された場合でも、既に作動を開始している音声認識エンジンについては、そのまま音声認識を継続して行うので、図10に示すように、音声認識の途中で音声認識を打ち切ることがない。従って、各音声について適切な辞書を用いた音声認識を継続して行うことが可能となる。
〔第2の実施形態〕
次に、本発明の第2の実施形態に係るロボットおよび音声認識装置ならびにプログラムについて説明する。本実施形態に係るロボットが第1の実施形態、第1の参考実施形態と異なる点は、各音声認識エンジンSR1、SR2、SR3とそれぞれ同じタイミングで音声認識を開始する補助音声認識エンジン(図示略)を備えている点である。
本実施形態では、音声認識エンジンSR1と全く同じタイミングで作動する補助音声認識エンジンSR1´、音声認識エンジンSR2と全く同じタイミングで作動する補助音声認識エンジンSR2´、音声認識エンジンSR1と全く同じタイミングで作動する補助音声認識エンジンSR3´をそれぞれ備えている。
ここで、補助音声認識エンジンSR1´は、音声認識エンジンSR1と種別が異なる音声認識エンジンであることが好ましい。例えば、メーカや音声認識の手法が異なる等である。
本実施形態に係るロボットおよび音声認識装置ならびにプログラムによれば、複数の音声認識エンジンを同じタイミングで走らせることにより、音声認識が成功する確率を高めることができる。
なお、同じタイミングで作動する音声認識エンジンと補助音声認識エンジンとで音声認識結果が異なっていた場合には、照合確率の高い方を優先させるとよい。
また、1つの音声認識エンジンに対する補助音声認識エンジンは、複数設けられていてもよい。例えば、音声認識エンジンSR1に対して複数の補助音声認識エンジンが設けられていてもよい。また、全ての音声認識エンジンに対して補助音声認識エンジンがそれぞれ設けられている必要はなく、補助音声認識エンジンを設けるか否か、また、いくつ設けるかについては、任意に決定することが可能である。
なお、上述した各実施形態においては、図1、図2に示したようなロボット1に適用された場合を想定して本発明の音声認識装置について説明したが、本発明に係る音声認識装置は、このようなロボット以外の装置、例えば、ユーザとの対話が実現されるような汎用装置に広く適用されるものである。
14 マイクロフォン
50 音声認識装置
51 応答動作実行部
61、61´ 第1処理部
62、62´ 第2処理部
66 会話シナリオ実行部
67 代替動作実行部
71 CPU
72 主記憶装置
73 補助記憶装置

Claims (7)

  1. 音声をデジタル化して音声データを出力する音声入力部と、
    前記音声入力部から出力された音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置と
    を備え、
    前記音声認識装置は、前記音声データと前記辞書に登録された前記単語とを照合し、照合結果を音声認識結果として出力する音声認識処理を行う複数の音声認識処理部を有する第1処理部を備え、
    各前記音声認識処理部は、既定の順序に従って所定の時間間隔で作動し、かつ、先に音声認識を開始した他の前記音声認識処理部の音声認識期間内に、一の前記音声認識処理部が音声認識を開始し、該他の前記音声認識処理部によって音声認識が失敗した場合に、該一の前記音声認識処理部によって、前記他の前記音声認識処理部で用いた前記辞書に登録された前記単語と前記音声データとを照合し、いずれかの前記音声認識処理部によって音声認識が成功するまで繰り返し音声認識を実施するロボット。
  2. 各前記音声認識処理部は、一定の時間間隔で順番に作動を開始する請求項1に記載のロボット。
  3. 各前記音声認識処理部は、いずれかの音声認識処理部によって音声認識が成功した場合に、音声認識を停止して待機状態となる請求項1または請求項2に記載のロボット。
  4. 前記音声認識装置は、少なくとも1つの音声認識処理部と同じタイミングで音声認識を開始する少なくとも1つの補助音声認識処理部を更に備える請求項1から請求項3のいずれかに記載のロボット。
  5. 前記音声認識装置による音声認識結果に対応する応答動作を実行する応答動作実行部を備える請求項1から請求項4のいずれかに記載のロボット。
  6. 音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識装置であって、
    前記音声データと前記辞書に登録された前記単語とを照合し、照合結果を音声認識結果として出力する音声認識処理を行う複数の音声認識処理部を有する第1処理部を備え、
    各前記音声認識処理部は、既定の順序に従って所定の時間間隔で作動し、かつ、先に音声認識を開始した他の前記音声認識処理部の所定の音声認識期間内に、一の前記音声認識処理部が音声認識を開始し、該他の前記音声認識処理部によって音声認識が失敗した場合に、該一の前記音声認識処理部によって、前記他の前記音声認識処理部で用いた前記辞書に登録された前記単語と前記音声データとを照合し、いずれかの前記音声認識処理部によって音声認識が成功するまで繰り返し音声認識を実施する音声認識装置。
  7. 音声をデジタル化した音声データと辞書に登録された単語とを照合することで音声を認識する音声認識をコンピュータに実行させるためのプログラムであって、
    前記音声データと前記辞書に登録された前記単語とを照合し、照合結果を音声認識結果として出力する音声認識処理を行う複数の音声認識プログラムを有し、
    各前記音声認識プログラムは、既定の順序に従って所定の時間間隔で作動し、かつ、先に音声認識を開始した他の前記音声認識プログラムが作動している期間内に、一の前記音声認識プログラムが音声認識を開始し、該他の前記音声認識プログラムによって音声認識が失敗した場合に、該一の前記音声認識プログラムによって、前記他の前記音声認識プログラムで用いた前記辞書に登録された前記単語と前記音声データとを照合し、いずれかの前記音声認識プログラムによって音声認識が成功するまで繰り返し音声認識を実施するプログラム。
JP2013204228A 2013-09-30 2013-09-30 ロボットおよび音声認識装置ならびにプログラム Active JP5709955B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013204228A JP5709955B2 (ja) 2013-09-30 2013-09-30 ロボットおよび音声認識装置ならびにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013204228A JP5709955B2 (ja) 2013-09-30 2013-09-30 ロボットおよび音声認識装置ならびにプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009011786A Division JP5478903B2 (ja) 2009-01-22 2009-01-22 ロボットおよび音声認識装置ならびにプログラム

Publications (2)

Publication Number Publication Date
JP2013257598A JP2013257598A (ja) 2013-12-26
JP5709955B2 true JP5709955B2 (ja) 2015-04-30

Family

ID=49954024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013204228A Active JP5709955B2 (ja) 2013-09-30 2013-09-30 ロボットおよび音声認識装置ならびにプログラム

Country Status (1)

Country Link
JP (1) JP5709955B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210138181A (ko) * 2019-04-11 2021-11-19 엘지전자 주식회사 안내 로봇 및 안내 로봇의 동작 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58130392A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPH0756597B2 (ja) * 1986-07-08 1995-06-14 株式会社東芝 音声認識装置
CA2321299A1 (en) * 1998-03-09 1999-09-16 Lernout & Hauspie Speech Products N.V. Apparatus and method for simultaneous multimode dictation
JP2000076241A (ja) * 1998-09-03 2000-03-14 Canon Inc 音声認識装置及び音声入力方法
JP2000148185A (ja) * 1998-11-13 2000-05-26 Matsushita Electric Ind Co Ltd 認識装置及び認識方法
JP2002229592A (ja) * 2001-01-30 2002-08-16 Nec Corp 音声認識装置
JP2003140691A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd 音声認識装置
JP4239635B2 (ja) * 2003-03-20 2009-03-18 ソニー株式会社 ロボット装置、その動作制御方法、及びプログラム
JP2006208486A (ja) * 2005-01-25 2006-08-10 Matsushita Electric Ind Co Ltd 音声入力装置

Also Published As

Publication number Publication date
JP2013257598A (ja) 2013-12-26

Similar Documents

Publication Publication Date Title
CN107340865B (zh) 多模态虚拟机器人交互方法和系统
US10019992B2 (en) Speech-controlled actions based on keywords and context thereof
JP6230726B2 (ja) 音声認識装置および音声認識方法
KR20190022109A (ko) 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
WO2017215297A1 (zh) 云端互动系统及其多感知型智能机器人和感知互动方法
JP6551507B2 (ja) ロボット制御装置、ロボット、ロボット制御方法およびプログラム
CN111421557B (zh) 电子装置及其控制方法
US10991372B2 (en) Method and apparatus for activating device in response to detecting change in user head feature, and computer readable storage medium
KR20190106921A (ko) 커뮤니케이션 로봇 및 그의 구동 방법
US20210151052A1 (en) System for processing user utterance and control method thereof
JP2018185362A (ja) ロボットおよびその制御方法
JP2007152470A (ja) 自己診断機能付きロボット
CN115206306A (zh) 语音交互方法、装置、设备及系统
JP2007156688A (ja) ユーザ認証装置およびその方法
JP2007155986A (ja) 音声認識装置および音声認識装置を備えたロボット
JP5709955B2 (ja) ロボットおよび音声認識装置ならびにプログラム
US20200090663A1 (en) Information processing apparatus and electronic device
KR102044526B1 (ko) 인공지능에 기반하여 음성 인식을 향상시키는 방법 및 이를 구현하는 장치
JP2006243555A (ja) 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法
KR20200101221A (ko) 사용자 입력 처리 방법 및 이를 지원하는 전자 장치
CN110653812B (zh) 一种机器人的交互方法、机器人及具有存储功能的装置
CN112711331A (zh) 机器人交互方法、装置、存储设备和电子设备
JP5478903B2 (ja) ロボットおよび音声認識装置ならびにプログラム
JP2007155985A (ja) ロボットおよび音声認識装置ならびにその方法
JP2007152444A (ja) 自走式ロボットおよび情報管理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140114

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141007

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150303

R151 Written notification of patent or utility model registration

Ref document number: 5709955

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151