JP2010282199A - 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム - Google Patents
語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム Download PDFInfo
- Publication number
- JP2010282199A JP2010282199A JP2010126324A JP2010126324A JP2010282199A JP 2010282199 A JP2010282199 A JP 2010282199A JP 2010126324 A JP2010126324 A JP 2010126324A JP 2010126324 A JP2010126324 A JP 2010126324A JP 2010282199 A JP2010282199 A JP 2010282199A
- Authority
- JP
- Japan
- Prior art keywords
- word
- unit
- teaching
- speech
- evaluation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 claims abstract description 56
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 42
- 230000006399 behavior Effects 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 9
- 230000003993 interaction Effects 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 11
- 238000013145 classification model Methods 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】入力された音声から音素列候補を作成する音素認識部2と、音素列候補に基づいて複数の単語列を作成する単語マッチング部3と、複数の単語列から認識結果として尤度が高い単語列を選択する判別部4と、判別部4が選択した単語列に基づいて新たな単語を獲得する獲得部5と、名前を教示するときに使用する教示単語のリスト4Aと、教示単語と未知語との確率モデル4Bと、を備え、判別部4は、単語列ごとに、単語列中の単語とリスト4A中の教示単語とのあてはまり程度を表す第1評価値と、当該単語列中の単語同士の連接確率を表す第2評価値と、を算出すると共に、第1評価値と第2評価値との和が最大の単語列を選択し、さらに、獲得部5は、判別部4が選択した単語列で第1評価値の算出に関与しなかった単語を新たな単語として獲得する。
【選択図】図1
Description
今までに物体の名前を覚えるシステムの研究が数多く行われてきたが、そのほとんどは、名前を覚えるというタスクに特化しており、複数の発話のセットから統計的に獲得するものである(特許文献1〜3、非特許文献1,2)
A.概要『語彙獲得装置』について
B.『語彙獲得装置』の構成
B−1.『音素認識部』
B−2.『単語マッチング部』
B−3.『判別部』
B−4.『獲得部』
B−5.『語彙獲得装置のその他の構成』
C.『語彙獲得装置の動作』
D.『語彙獲得装置の効果』
E.『他の実施形態に係るマルチ対話行動システム』
E−1.『音声認識部』
E−2.『ドメイン選択部』
E−3.『ドメイン』
E−4.『確認発話生成部』
E−5.『行動実行部』
E−6.『他の実施形態に係るマルチ対話行動システムの作用』
E−7.『他の実施形態に係るマルチ対話行動システムの効果』
F.『実施例』
F−1.『提案アーキテクチャの課題』
F−2.『語彙獲得対話ロボットアーキテクチャ』
F−2−1.『マルチエキスパートモデルRIME』
F−2−2.『アーキテクチャの概要』
F−2−3.『エキスパート選択』
F−2−4.『語彙獲得対話エキスパート』
F−2−5.『物体探索エキスパート』
F−2−6.『物体の名前を返答するエキスパート』
F−3.『実装』
F−3−1.『ロボット』
F−3−2.『対話行動制御』
F−3−3.『語彙獲得』
F−3−4.『画像学習・認識』
G.その他
本発明の実施形態に係る語彙獲得装置は、ユーザの発話から単語を学習する。特に語彙獲得装置はユーザからの命令に応じてシステムの状態を学習モードへの切換えなどを行わずに、自動で単語、つまり未知語を会話の中で学習する。ここで、単語とは、物や場所や人の名前である。
図1は本実施形態に係る語彙獲得装置1の構成を示すブロック図である。語彙獲得装置1は、音素認識部2と、単語マッチング部3と、判別部4と、獲得部5と、を備えている。
次に、音素認識部2、単語マッチング部3、判別部4、獲得部5の各機能について説明する。
音素認識部2は、入力された音声から音素列候補を作成する。この音素認識部2は、例えば、日本語音素の統計モデルに基づいて音声を音素認識する。音素モデルは、図示省略するが、語彙獲得装置1に予め設けられている。
ユーザが『これがペットボトルだよ』と発話した場合、音素認識部2によって、“korebabedobotorudajyo”といった音素認識候補が作成される。
単語マッチング部3は、音素認識部2で認識され音素認識候補に基づいて単語列を複数、例えばN個作成する。
例えば、前述の音素認識候補“korebabedobotorudajyo”から、下記表1のような単語列を作成する。
[処理A] 単語マッチング部3は、音素認識結果の全ての部分列と、各単語の距離を計算する。具体的には、単語マッチング部3は、予め備えている単語と、音素認識結果として得られた音素列中の各列部分との類似度、つまり距離を計算する。ここで、算出された距離が、閾値よりも長い組み合わせ、つまり列部分は除外する。この距離の計算方法として動的計画法を利用することができる(非特許文献12)。
[処理B] 単語マッチング部3は、音素認識結果である音素列に関し、その音素列の部分であって、日本語の単語候補になりえると考えられるものを全て未知語の候補として記憶する。具体的には、上記処理Aで距離が閾値以下と判断される列部分の全て、つまり処理Aで除外されない列部分を記憶する。
判別部4は、複数の単語列から音声認識結果として最尤の単語列を選択する。判別部4は、名前以外の言葉、例えば『これは、・・・だよ』、『これが、・・・です』、『これが、・・・だよ』といった言い回しのリスト4Aを備えている。これらの言い回しは、ユーザが名前を教示する際に使用する単語であるため、以下、『教示単語』と呼ぶ。
ここで、説明の便宜上、単語マッチング部3で認識された単語列において、教示単語に関連した部分を教示部分と呼び、未知語に関連した部分を未知語部分と呼ぶ。
(評価1)音素認識結果中の教示単語とマッチされた部分と教示単語との類似度〔第1評価値〕。
(評価2)単語列の生起確率〔第2評価値〕。
単語列ごとに、評価1と評価2との総合評価、つまり第1評価値と第2評価値との和を求める。総合評価は下記の式1として表すことができる。
式第1項が評価1であり、第2項が評価2であり、w1とw2とは重み付けである。
ここで、式1中の「言い回しとの類似度」は、下記式2として表せる。
ただし、対応する音素が無い場合は音素間の距離を1とする。
また、式1中の「単語列の生起確率」は、下記式3として表せる。
獲得部5は、判別部4が選択した単語列、つまり第1評価値と第2評価値との和が最大の単語列に基づいて新たな単語を獲得する。具体的には、判別部によって選択された単語列を構成する未知語部分を新たな単語、つまり名前として獲得する。
例えば、表1の3番目の単語列が選択された場合、“ベトボドル”を新たな単語、つまり名前として、図示省略する記憶部に登録する。この“ベトボドル”部分は、第1評価値の計算に関連しない単語である。つまり、獲得部5は、第1評価値の計算に関連しない単語を新たな単語、つまり未知語として獲得する。
例えば、『これが・・・だよ』が『教示単語』であり、『XYZ』が『未知語』である、ユーザの発話『これがXZYだよ』を『教示フレーズ』と呼ぶ。
本実施形態に係る語彙獲得装置1には、ユーザが発話した音声から、教示フレーズに該当する音声が切り出されて、入力されて処理される。
なお、図示省略する教示フレーズ抽出部が教示フレーズをユーザの会話から抽出する。
教示フレーズ抽出部が、ユーザが発話した音声の内、教示フレーズに該当する音声を本実施形態に係る語彙獲得装置1に入力する。この入力を契機に、語彙獲得装置1は処理を開始する。
語彙獲得装置1は、図2に示すように、入力された音声から音素列候補を作成する(ステップS1)。この音素列候補に基づいて、語彙獲得装置1は複数の単語列を作成する(ステップS2)。語彙獲得装置1は単語列ごとに式1を計算する(ステップS3)。ここで、語彙獲得装置1は、式1の値が最大の単語列を選択する(ステップS4)。そして、語彙獲得装置1は、選択した単語列中の未知語部分を新たな単語として抽出する。
このように本発明の実施形態に係る語彙獲得装置1によれば、自然な対話の中から、新しい名前を覚えることができる。
図3は本発明の他の実施形態に係るマルチ対話行動システム10の構成を示すブロック図である。
このマルチ対話行動システム10は、各種の対話行動を行う複数の機能部、つまり複数の機能領域を備えている。この機能領域をドメインと呼ぶ。マルチ対話行動システム10は、これらの複数のドメインを適宜選択して所望の対話行動を行う。
音声認識部20は、入力された音声の認識を行う。具体的には、音声認識部20は、音声認識結果としてBWG(Bag of Words in a Graph)を作成する。このBWGを利用することで、言葉や文法に何らの制限なく話される言語をトピックとして認識できる。なお、音声認識部20は、大語彙音声認識器(Large Vocabulary Automatic Speech Recognizer:LVASR)と言語モデルを備えている。
音声認識部20は、BWGを作成する際、音声認識結果として得たN-BESTを利用する。ここで、ある音声認識結果のN-BESTの第1位から第3位が以下であるとする。
第1位: ここ/が/木/屋敷/だよ
第2位: この/寡黙/屋敷/だよ
第3位: この/顔/倉敷/だよ
このようなN-BESTの第1位から第3位に基づいて、先ず図5(A)に示すように、単純なグラフを作成する。この図5(A)では、始点と終点とを共通化させている。
次に、図5(B)に示すように、共通単語[だよ]を纏めて一つの共通の弧、つまり共通のエッジに置き換える。
このような共通単語を繰り返し纏めて、図5(C)に示す形態、つまり、これ以上共通単語を纏められない形態を作成する。これが、BWGである。
ドメイン選択部30は、音声認識部20での音声認識結果からどのドメインを選択するかを決定する。
ここで、音声認識結果として作成されたBWG(結果BWGと呼ぶ)は各ドメイン41,42,44に渡される。各ドメイン41,42,44では、自身の機能を求める言葉に関連したBWG(以下、関連BWG或いはトピック分類モデルと呼ぶ)を予め備えており、各ドメイン41,42,44は、自身の関連BWGと結果BWGとの類似度を計算する。各ドメイン41,42,44における計算結果がドメイン選択部30に送られて、ドメイン選択部30は、スコアの大きい値を出したドメイン41,42,44を選択する。
各ドメイン41,42,44における処理には、学習フェーズと、実行フェーズとがある。実行フェーズで、関連BWGと結果BWGとの類似度の計算が行われる。このような実行フェーズの前処理として、学習フェーズが存在する。
学習フェーズでは、各ドメイン41,42,44は、前述の関連BWGを学習用の発話(以下、学習発話と呼ぶ)に基づいて作成する。
入力発話uがトピックcを持つ確率p(c|u)を、次式9を用いて、すべてのc∈Cについて求める。
ここで、P(c|ti)は学習フェーズで求めたトピック分類モデル、つまり関連BWGを利用する。P(ti|u)はtj∈W(uj)ならば1/|W(u)|、それ以外の場合は0である。
この確率p(c|u)は、ドメイン41,42,44のそれぞれで算出され、それらの算出結果がドメイン選択部30に送られる。
ドメイン選択部30は、確率p(c|u)が最大になるcをトピックとする。言い換えれば、確率p(c|u)として最大の値を送出したドメインを選択する。
各ドメイン41,42,44は、それぞれ、機能別に分かれたソフトウェアであり、装置の行動計画を生成するものなどである。例えば、ドメインとしては、図3に示すように、『物体探索ドメイン』42がある。この物体探索ドメイン42は、ユーザから指示された物体を探索する機能部である。
このような機能部の一つとして、本実施形態に係るマルチ対話行動システム10は、前述の実施形態の語彙獲得装置1を語彙獲得ドメイン41として備えている。
確認発話生成部50は、語彙獲得ドメインが抽出した未知語、つまり新たな単語の確認をユーザに対して発話して確認する。
行動実行部60は、ドメイン41,42,44からの制御に基づいて処理を行うものである。
例えば、マルチ対話行動システム10が移動するための車輪やその動力源であるモータなどを備えている場合には、行動実行部60はモータに対する制御をドメインによるコントロール下で実行する。
本実施形態に係るマルチ対話行動システム10では、ドメイン選択部30がユーザの発話内容を理解する。ここで、ドメイン選択部30では、ユーザがシステムに対して例えば物の名前や場所の名前を教えようとしていると判断した場合に、語彙獲得ドメイン41をアクティベートする。これにより、語彙獲得ドメイン41には、教示フレーズが入力される。語彙獲得ドメイン41では、図2に示す処理が行われる。
本実施形態に係るマルチ対話行動システム10によれば、ユーザの自然な対話の中から例えば物体の名前などを抽出して覚えることができる。
以下、実施例として対話の中で新しい名前を覚えるロボットのアーキテクチャを提案する。提案するアーキテクチャは、マルチドメイン対話行動モデルRIME (Robot Intelligence with Multiple Experts)(非特許文献3)に基づいている。RIME は特定のドメインのインタラクションを行うエキスパートというモジュールを複数組み合わせることによって複雑なインタラクションを行うことができる。
RIMEのエキスパートの一つとして語彙獲得対話を行うエキスパートを用い、獲得した名前を他のエキスパートでも利用できるようにすることにより、マルチドメイン対話の中で語彙獲得を行うことができるようになる。
提案したアーキテクチャの有効性の実証のために対話ロボットを構築した。このロボットは対話により物体の名前を覚えるとともに、その名前で物体の探索を指示されると、移動して物体を探しに行くことができる。
提案アーキテクチャの課題は、様々なドメインの対話を行うロボットが人間との対話の中で物体の名前を覚えることである。つまり、いわゆるマルチドメイン対話の一つのドメインとして、語彙獲得対話ドメインがあるとする。語彙獲得対話では、人間は物体を見せながら、自然な発話でその名前をロボットに教える。
ここで自然な発話とは、定型的な発話ではなく、「これは・・・だよ」や「・・・を覚えて」など、様々な表現を用いた発話のことである。
語彙獲得対話以外のドメインとして、獲得した語彙を用いた人間の指示発話を理解して実行するドメインと、獲得した語彙を尋ねる発話に答えるドメインを扱う。獲得した語彙を用いた指示とは、例えば、「・・・はどこにある?」などの物体の探索の指示である。獲得した語彙の質問は「これは何ですか?」などである。これらのタスクを遂行するためには、語彙獲得の際に、語彙の音韻列を正しく獲得している必要がある。
さらに、ロボットはマルチドメイン対話機能を持つので、他の全く異なるドメインの対話も行える必要がある。例えば、天気情報に関する質問応答などの一般的に扱われている対話ドメインを扱うことができなければならない。
類似の課題を扱った研究として、Holzapfel らの研究がある(非特許文献4)。ロボットは対話の中で未知語(out-of-vocabulary word) を発見すると語彙を学習する対話を行う。Holzapfel ら研究と本実施例の違いは、Holzapfel らが定型的なパターンの中で未知語が現れる場合のみを扱っているのに対し、我々は自然な発話で物体の名前を教える発話を扱っていることである。さらに、我々は対話ドメインの追加が容易であることを目指しており、マルチドメイン対話アーキテクチャをベースにしている。
F−1節で述べたようなロボットは、発話を検出すると、その発話が どのドメインの発話なのかを判定しなくてはならない。
これは、マルチドメイン対話システムにおけるドメイン選択の問題として捉えることができる。本実施形態では一般的なマルチドメイン対話システムのアーキテクチャをベースにするが、その中でも、RIME(非特許文献3)を用いる。RIMEは、後述するように、その他のマルチドメイン対話システムアーキテクチャに比べて、対話中のドメインの変更が柔軟であること、および、ドメインの追加に関して制限が少ないという利点を持っている。
本節では、まずRIMEの概略を述べてから、提案アーキテクチャを説明する。
RIMEでは、特定の種類のサブタスクに特化した知識と内部状態を持つエキスパートと呼ぶモジュールを用いる。これは、マルチドメイン音声対話システムで用いられているドメインエキスパート(非特許文献5)の概念を拡張したものである(非特許文献3)。たとえば、天気予報に関する質問に答えられるロボットであれば、「天気予報に関する質問を理解する」というサブタスクのためのエキスパートや「天気予報を人に伝える」というサブタスクのためのエキスパートを持つ。また、「特定の場所に移動する」という物理行動を行うサブタスクのためのエキスパートなども用いることができる。これらのエキスパートを順次利用することにより、複雑なタスクを遂行することができる。たとえば、ある物を説明するタスクは、その物のところに人を案内して、言葉で説明するという二つのサブタスクを順次遂行することによって行うことができる。
RIMEでは、このようなエキスパートを利用して全体のシステムを動作させるためのプロセス群(これを調整プロセス群と呼ぶ。)が走っている。RIMEのモジュール構成を図6に示す。調整プロセスは三つあり、並行動作する。理解部が行う理解プロセスは音声認識結果をエキスパートに送信し、最適なエキスパートを選択し、タスク計画部におけるタスク計画プロセスにその情報を送る。行動選択部が行う行動選択プロセスは、選択されたエキスパートに対し、次の動作の決定を要求する。タスク計画プロセスは、タスクを遂行したり、音声認識結果に反応したりするために、どのエキスパートをアクティベートし、どのエキスパートをディアクティベートするかを決定する。これら三つのプロセスは発話割り込みを扱うために並列で動作する。
それぞれのエキスパートは内部状態にアクセスするためのメソッドを持っていなければならない。initializeメソッドはエキスパートが作られたときに用いられ、内部状態を初期化する。understandメソッドは音声認識結果を受け取った際に理解プロセスから呼び出され、音声認識結果に基づいて情報を更新する。select-actionメソッドは、行動選択プロセスから継続的に呼び出され、発話待ちの状態でなければ、内部状態に基づき、行動を一つ出力する。その他に割り込み発話を扱うためのメソッドなどを持っていなくてはならない。
understandメソッドの返り値は、その音声認識結果がどのくらいそのエキスパートで処理されるべきかを表す0以上1以下のスコアである。理解プロセスは、音声認識結果を、現在アクティベートされているエキスパートおよび、新規にアクティベートされる可能性のあるエキスパートに、このunderstandメソッドを用いて送り、最も高いスコアを返したエキスパートを選択して、その情報をタスク計画部に送る。これは、マルチドメイン音声対話システムにおけるドメイン選択の機能にあたる。
これらのインタフェースを実装しさえすれば、内部で知識や状態をどのような形で保持しているか、また、どのようなアルゴリズムで理解や行動選択を行うかに関わらず、どのようなエキスパートでも導入することができる。
各エキスパートは、global contextと呼ばれるデータ格納部を介して、共通に使える情報(例えば、話題になった事物、ユーザの興味、周囲の状況など)を享受できる。
語彙獲得対話ロボットのアーキテクチャを図7に示す。各タスクドメインごとにエキスパートを用意する。語彙獲得エキスパートは、語彙獲得モジュールおよび画像学習・認識モジュールと通信することにより、語彙獲得対話を行う。獲得した語彙の情報はglobal context に蓄えられ、他のエキスパートも用いることができる。語彙獲得対話エキスパートは獲得した語彙の情報をglobal context 経由で他のエキスパートに送る。
物体認識が必要なエキスパート、すなわち、物体探索エキスパートや物体の名前を返答するエキスパートは、必要に応じて画像学習・認識モジュールと通信する。
語彙獲得モジュールが独自に音声認識を行う必要があるため、音声区間検出後の音声を分離してRIMEの音声認識と語彙獲得モジュールの両方に送る。
RIMEではエキスパート選択は、各エキスパートのunderstandメソッドが返すスコアを用いて行われる。本語彙獲得ロボットでは、音声認識は、各エキスパートが持っている文パターンに基づく有限状態文法と、大語彙統計言語モデルの二つを併用する。大語彙統計言語モデルを用いた認識結果は、BWG(Bag-of-Words in Graph) 法(非特許文献6)のような発話分類手法で用いる。この発話分類の結果と、有限状態文法を用いた認識結果が言語理解文法でカバーされているかどうか、有限状態文法を用いた認識結果の信頼度、および文脈などの情報などを利用してスコアを算出する。
物体の名前を教示する発話が入力されて、このエキスパートがアクティベートされると、このエキスパートは画像学習認識モジュールに画像学習を要求する。画像学習認識モジュールは、見えている物体が過去に覚えたものと同じかどうかを判断し、同じならその物体のIDを、そうでなければ、物体の画像の特徴を記憶するとともに物体のIDを送り返す。学習に失敗した場合は、失敗フラグを送る。語彙獲得対話エキスパートは、学習が失敗であれば、その旨を音声でユーザに伝える。また、物体のIDが得られた場合は、語彙獲得モジュールに語彙獲得を要求する。語彙獲得モジュールは、あらかじめ学習してある教示発話の言語モデルを用いて名前を獲得して送り返す。
語彙獲得対話エキスパートは、獲得した語彙と物体ID との関係をglobal context に書き込むとともに、音声認識の有限状態文法に獲得した語彙を追加する。
物体探索エキスパートは、物体探索要求が認識されると、認識結果から物体ID を得て、画像学習・認識モジュールに物体探索要求を送るとともにあらかじめ指定したルートでロボットを移動させる。物体探索は、高速だが精度の低い方法で行う。物体が存在する可能性があれば、ロボットを停止させる。そして画像学習・認識モジュールに物体認識要求を送るとともに、物体の存在する可能性の高い方向にロボットを移動させる。物体が認識されれば、探索は終了する。この探索の過程でロボットは、獲得した物体の名前を用いて「・・・を探しに行きます」「・・・を発見しました」等の発話を行う。
物体の名前を尋ねる発話が認識されると、画像学習・認識モジュールに画像学習要求を送る。返ってきた結果がすでに名前を覚えた物体のIDであれば、その物体の名前を答える。そうでなければ「わかりません」と答える。
上記アーキテクチャを用いて語彙獲得対話ロボットを構築した。語彙獲得、物体探索、名前の回答、その他の対話が行えることを確認している。以下に実装に用いたハードウエアおよびソフトウエアモジュールの詳細を述べる。
ロボットは図8に示すような全方向移動台車ロボットである。ロボットには指向性マイクロホン(三研マイクロホン(株)CS-3e) とステレオカメラ(東京エレクトロンデバイス(株) TDBD-SCAMv2) が取り付けられており、音声対話処理と画像処理はロボットに搭載された2台のPCで行っている。ロボットの移動は別のサーバコンピュータで制御されていて、ロボットおよびロボット上のPCとは無線LANで通信する。モジュール間通信はMMI-IF(非特許文献7)を用いることにより容易に実現している。
対話行動制御はRIMEをベースにしたツールキットRIMETK(非特許文献8)を用いて構築した。音声認識には、複数の言語モデルを用いてデコードできるJulius Ver.4*1(*1 http://julius.sourceforge.jp/)を用いている。また、音響モデルおよび大語彙言語モデルはJulius付属のものを用いている(非特許文献9)。音声合成はNTTアイティ(株)のFineVoiceを用いた。現在は、実装の都合上、語彙獲得対話エキスパートと物体探索エキスパートは一つのエキスパート(語彙獲得対話・物体探索エキスパート)になっている。その他、物体の名前を返答するエキスパート、天気情報の要求を理解するエキスパート、天気情報を提供するエキスパート、内線番号の質問を理解するエキスパート、内線番号を教えるエキスパートなどを用いている。
発話が入力されたときのエキスパートの選択は、大語彙統計言語モデルの認識結果を用いたBWG法(非特許文献6)による発話分類の結果と、有限状態文法を用いた認識結果をFinite-State Transducer(FST)で言語理解した結果を用いて行っている。BWG法による発話分類は、名前の教示か、探索要求か、その他の発話かに分類する。語彙獲得対話・物体探索エキスパートのunderstandメソッドは、発話分類の結果が名前の教示か探索要求の場合に一定のスコアを返す。
物体の名前を返答するエキスパート、天気情報の要求を理解するエキスパート、内線番号の質問を理解するエキスパートは、理解できる発話のパターンをFSTの形で保持しており、それらのFSTと同等の有限状態文法が音声認識用言語モデルとして用いられている。その有限状態文法を用いた音声認識結果が自分のFSTで理解できるかどうか、音声認識結果の信頼度、自分がすでにアクティベートされているかどうか、の三つの情報から、手書きのルールに基づきスコアを計算する。天気情報を提供するエキスパートや内線番号を教えるエキスパートは、要求を理解するエキスパートによってタスクが設定された場合にのみアクティベートされる。
現在のエキスパート選択スコアの計算のための規則は開発者の試行錯誤に基づいたものである。データに基づいたスコアの最適化が今後の課題である。
語彙獲得の方法には様々なものが考えられる。例えば、Holzapfelら(非特許文献4)が行っているように文のパターンをあらかじめ与える方法や、山本ら(非特許文献10)のように、統計的言語モデルの中に音韻n-gramなどで表された未知語の統計モデルを埋め込む方法がある。文のパターンをあらかじめ与えると、それ以外のパターンの文が認識できない。また、本実施形態は、どのような語彙でも獲得できるように、未知語の統計モデルは用いない。
そこで、新規な語彙獲得の方法として以下の方法を用いている。名前を教える発話のパターンが、個人ごとにある程度限られていると仮定し、あらかじめ田口らの方法(非特許文献11)を用いて、語彙を教示する発話の集合から言語知識を学習しておく。ここで、発話のうち物体の名前以外の部分のことを言い回しと呼ぶ。学習した言語知識には、言い回しのリスト、および言い回しと名前のbigramが含まれている。ここで名前の部分はクラス化し、クラスbigramとする。
発話が入力され、語彙獲得が要求されると、まず発話を音素認識(音素タイプライタ)により音素列に変換する。これにはATRで開発された音声認識システムATRASR(非特許文献10)を用いている。次に、二段DPマッチング(非特許文献12)を用いて言い回しを音素列に当てはめる。このとき、bigram確率を用いて、あり得ない単語列の当てはめが起こらないようにする。最後に当てはめた言い回しと当てはめられた部分の音素列との編集距離が閾値以下の場合、そこは言い回しではなく、名前であるとみなす。以上の方法で語彙獲得を行う。
画像学習・認識モジュールはステレオカメラの情報を用いて物体の画像の学習および物体の探索を行う。物体を見せて学習させる際にまず問題となるのは、画像中のどの領域が学習すべき物体かという、物体の切り出しの問題である。この問題は、動きアテンションを用いることで解決する。これは、人が物体を持ちロボットに見せることで教示するため、その際に物体を動かすと仮定し、画像中の動いている塊が物体であるという事前知識を与える。つまり、画像中の動きを検出し、その領域の色や奥行きの情報を基に最終的な物体領域を確率的に推定するもので、ステレオの計算を含めても10fps程度で動作する。
物体探索では、シーン中のどこに認識すべき物体があるかを抽出する。但しこの際は必ずしも人が物体を持っている保証がないため、動きに注意を向けた抽出手法を用いることはできない。そこで、探索時の領域抽出には、色ヒストグラムと奥行き情報を併用した高速なアクティブ探索による領域抽出手法を利用する。
探索に成功した後、ロボットが物体に近づいてから最終的に認識を行う際には、SIFT(Scale Invariant Feature Transform)を用いた局所特徴のマッチングを利用する。この際、色情報を用いて候補を絞った上で、学習時に様々な方向から見て取得した物体のSIFT 情報とのマッチングを行い最終的な認識結果を得る。
以上詳述したが、本発明はその趣旨を逸脱しない範囲において様々な形態で実施をすることができる。
2 音素認識部
3 単語マッチング部
4 判別部
4A リスト
4B 確率モデル
5 獲得部
10 マルチ対話行動システム
20 音声認識部
30 ドメイン選択部
41,42、44 ドメイン
50 確認発話生成部
60 行動実行部
Claims (8)
- 入力された音声から音素列候補を作成する音素認識部と、
音素列候補に基づいて複数の単語列を作成する単語マッチング部と、
複数の単語列から認識結果として尤度が高い単語列を選択する判別部と、
上記判別部が選択した単語列に基づいて新たな単語を獲得する獲得部と、
名前を教示するときに使用する教示単語のリストと、
上記教示単語と未知語との確率モデルと、を備え、
上記判別部は、上記単語列ごとに、単語列中の単語と上記リスト中の教示単語とのあてはまり程度を表す第1評価値と、当該単語列中の単語同士の連接確率を表す第2評価値と、を算出すると共に、上記第1評価値と上記第2評価値との和が最大の単語列を選択し、
さらに、獲得部は、上記判別部が選択した単語列で上記第1評価値の算出に関与しなかった単語を新たな単語として獲得することを特徴とする、語彙獲得装置。 - さらに、入力された音声の認識を行う音声認識部と、
上記音声認識部によって音声認識された発話の内容を理解する音声理解部と、を備え、
上記音声理解部によって発話内容が名前の教示であると認識された場合に語彙の獲得処理を行うことを特徴とする、請求項1に記載の語彙獲得装置。 - ユーザが発話した音声から教示フレーズに該当する音声を切り出す教示フレーズ抽出部をさらに備え、
前記音素認識部が、上記教示フレーズ抽出部からの音声に基づいて前記音素列候補を作成することを特徴とする、請求項1又は2に記載の語彙獲得装置。 - 入力された音声の認識を行う音声認識部と、
上記音声認識部によって音声認識された発話の内容を理解する音声理解部と、
音声理解結果に基づいて各種の対話行動を行う複数の機能部と、を備えたマルチ対話行動システムであって、
上記機能部は、上記音声理解部によって発話内容が名前の教示であると認識された場合に語彙の獲得処理を行う語彙獲得装置を備え、
上記語彙獲得装置は、
入力された音声から音素列候補を作成する音素認識部と、
音素列候補に基づいて複数の単語列を作成する単語マッチング部と、
複数の単語列から認識結果として尤度が高い単語列を選択する判別部と、
上記判別部が選択した単語列に基づいて新たな単語を獲得する獲得部と、
ユーザが名前を教示するときに使用する教示単語のリストと、
上記教示単語と未知語との確率モデルと、を備え、
上記判別部は、上記単語列ごとに、単語列中の単語と上記リスト中の教示単語とのあてはまり程度を表す第1評価値と、当該単語列中の単語同士の連接確率を表す第2評価値と、を算出すると共に、上記第1評価値と上記第2評価値との和が最大の単語列を選択し、
さらに、獲得部は、上記判別部が選択した単語列で上記第1評価値の算出に関与しなかった単語を新たな単語として獲得することを特徴とする、マルチ対話行動システム。 - ユーザが発話した音声から教示フレーズに該当する音声を切り出す教示フレーズ抽出部をさらに備え、
前記音素認識部が、上記教示フレーズ抽出部からの音声に基づいて前記音素列候補を作成することを特徴とする、請求項4に記載のマルチ対話行動システム。 - コンピュータを、
入力された音声から音素列候補を作成する音素認識部、
音素列候補に基づいて複数の単語列を作成する単語マッチング部、
複数の単語列から認識結果として尤度が高い単語列を選択する判別部、
上記判別部が選択した単語列に基づいて新たな単語を獲得する獲得部、
として機能させ、
上記判別部は、上記単語列ごとに、単語列中の単語と、名前を教示するときに使用する教示単語のリスト中の教示単語とのあてはまり程度を表す第1評価値と、当該単語列中の単語同士の連接確率を表す第2評価値と、を算出すると共に、上記第1評価値と上記第2評価値との和が最大の単語列を選択し、
さらに、獲得部は、上記判別部が選択した単語列で上記第1評価値の算出に関与しなかった単語を新たな単語として獲得することを特徴とする、語彙獲得プログラム。 - さらに、コンピュータを、
入力された音声の認識を行う音声認識部、
上記音声認識部によって音声認識された発話の内容を理解する音声理解部、
として機能させ、
上記音声理解部によって発話内容が名前の教示であると認識された場合に語彙の獲得処理を行うことを特徴とする、請求項6に記載の語彙獲得プログラム。 - さらに、コンピュータを、
ユーザが発話した音声から教示フレーズに該当する音声を切り出す教示フレーズ抽出部として機能させ、
前記音素認識部が、上記教示フレーズ抽出部からの音声に基づいて前記音素列候補を作成することを特徴とする、請求項6又は7に記載の語彙獲得プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18355009P | 2009-06-02 | 2009-06-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010282199A true JP2010282199A (ja) | 2010-12-16 |
Family
ID=43381706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010126324A Pending JP2010282199A (ja) | 2009-06-02 | 2010-06-01 | 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8566097B2 (ja) |
JP (1) | JP2010282199A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014002237A (ja) * | 2012-06-18 | 2014-01-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識単語追加装置とその方法とプログラム |
US8873868B2 (en) | 2011-12-22 | 2014-10-28 | Honda Motor Co. Ltd. | Object classification/recognition apparatus and method |
JP2016156993A (ja) * | 2015-02-25 | 2016-09-01 | シャープ株式会社 | 情報処理装置、情報処理装置の制御方法、制御プログラム、記録媒体 |
WO2019146199A1 (ja) * | 2018-01-23 | 2019-08-01 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
JP2019129392A (ja) * | 2018-01-24 | 2019-08-01 | 沖電気工業株式会社 | 家電機器および場所検索システム |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9634855B2 (en) | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
WO2014073206A1 (ja) * | 2012-11-07 | 2014-05-15 | 日本電気株式会社 | 情報処理装置、及び、情報処理方法 |
US9594744B2 (en) * | 2012-11-28 | 2017-03-14 | Google Inc. | Speech transcription including written text |
KR102072826B1 (ko) * | 2013-01-31 | 2020-02-03 | 삼성전자주식회사 | 음성 인식 장치 및 응답 정보 제공 방법 |
US9123345B2 (en) | 2013-03-14 | 2015-09-01 | Honda Motor Co., Ltd. | Voice interface systems and methods |
US10272349B2 (en) * | 2016-09-07 | 2019-04-30 | Isaac Davenport | Dialog simulation |
US10120386B2 (en) * | 2016-11-18 | 2018-11-06 | Robert Bosch Start-Up Platform North America, LLC, Series 1 | Robotic creature and method of operation |
US10353480B2 (en) * | 2017-04-17 | 2019-07-16 | Essential Products, Inc. | Connecting assistant device to devices |
US10355931B2 (en) * | 2017-04-17 | 2019-07-16 | Essential Products, Inc. | Troubleshooting voice-enabled home setup |
US10176807B2 (en) * | 2017-04-17 | 2019-01-08 | Essential Products, Inc. | Voice setup instructions |
KR102595790B1 (ko) * | 2018-01-26 | 2023-10-30 | 삼성전자주식회사 | 전자 장치 및 그의 제어방법 |
US11501765B2 (en) * | 2018-11-05 | 2022-11-15 | Dish Network L.L.C. | Behavior detection |
US11145296B1 (en) * | 2019-03-25 | 2021-10-12 | Amazon Technologies, Inc. | Language and grammar model adaptation |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003044080A (ja) * | 2001-05-02 | 2003-02-14 | Sony Corp | ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体 |
JP2003186494A (ja) * | 2001-12-17 | 2003-07-04 | Sony Corp | 音声認識装置および方法、記録媒体、並びにプログラム |
JP2005157602A (ja) * | 2003-11-25 | 2005-06-16 | Aruze Corp | 会話制御装置、会話制御方法並びにこれらのプログラム |
WO2009028647A1 (ja) * | 2007-08-31 | 2009-03-05 | National Institute Of Information And Communications Technology | 非対話型学習装置及び対話型学習装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
JP2996926B2 (ja) * | 1997-03-11 | 2000-01-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音素シンボルの事後確率演算装置及び音声認識装置 |
JP3529049B2 (ja) | 2002-03-06 | 2004-05-24 | ソニー株式会社 | 学習装置及び学習方法並びにロボット装置 |
JP3951235B2 (ja) | 2003-02-19 | 2007-08-01 | ソニー株式会社 | 学習装置及び学習方法並びにロボット装置 |
US7664642B2 (en) * | 2004-03-17 | 2010-02-16 | University Of Maryland | System and method for automatic speech recognition from phonetic features and acoustic landmarks |
US7907872B2 (en) * | 2005-07-29 | 2011-03-15 | Ricoh Company, Ltd. | Imprinting apparatus and an image formation apparatus |
JP4529091B2 (ja) | 2006-08-01 | 2010-08-25 | ソニー株式会社 | 学習装置及び学習方法並びにロボット装置 |
US8032374B2 (en) * | 2006-12-05 | 2011-10-04 | Electronics And Telecommunications Research Institute | Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition |
TWI319563B (en) * | 2007-05-31 | 2010-01-11 | Cyberon Corp | Method and module for improving personal speech recognition capability |
US7991615B2 (en) * | 2007-12-07 | 2011-08-02 | Microsoft Corporation | Grapheme-to-phoneme conversion using acoustic data |
-
2010
- 2010-06-01 JP JP2010126324A patent/JP2010282199A/ja active Pending
- 2010-06-01 US US12/791,781 patent/US8566097B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003044080A (ja) * | 2001-05-02 | 2003-02-14 | Sony Corp | ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体 |
JP2003186494A (ja) * | 2001-12-17 | 2003-07-04 | Sony Corp | 音声認識装置および方法、記録媒体、並びにプログラム |
JP2005157602A (ja) * | 2003-11-25 | 2005-06-16 | Aruze Corp | 会話制御装置、会話制御方法並びにこれらのプログラム |
WO2009028647A1 (ja) * | 2007-08-31 | 2009-03-05 | National Institute Of Information And Communications Technology | 非対話型学習装置及び対話型学習装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8873868B2 (en) | 2011-12-22 | 2014-10-28 | Honda Motor Co. Ltd. | Object classification/recognition apparatus and method |
JP2014002237A (ja) * | 2012-06-18 | 2014-01-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識単語追加装置とその方法とプログラム |
JP2016156993A (ja) * | 2015-02-25 | 2016-09-01 | シャープ株式会社 | 情報処理装置、情報処理装置の制御方法、制御プログラム、記録媒体 |
WO2019146199A1 (ja) * | 2018-01-23 | 2019-08-01 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
US11430429B2 (en) | 2018-01-23 | 2022-08-30 | Sony Corporation | Information processing apparatus and information processing method |
JP2019129392A (ja) * | 2018-01-24 | 2019-08-01 | 沖電気工業株式会社 | 家電機器および場所検索システム |
Also Published As
Publication number | Publication date |
---|---|
US8566097B2 (en) | 2013-10-22 |
US20100332231A1 (en) | 2010-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010282199A (ja) | 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム | |
JP5386692B2 (ja) | 対話型学習装置 | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
Huang et al. | A historical perspective of speech recognition | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
Glass | Towards unsupervised speech processing | |
Taniguchi et al. | Spatial concept acquisition for a mobile robot that integrates self-localization and unsupervised word discovery from spoken sentences | |
JP5240457B2 (ja) | 拡張認識辞書学習装置と音声認識システム | |
JPWO2015118645A1 (ja) | 音声検索装置および音声検索方法 | |
JPWO2009078256A1 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
Poncela et al. | Command-based voice teleoperation of a mobile robot via a human-robot interface | |
JP2013205842A (ja) | プロミネンスを使用した音声対話システム | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
JP6712754B2 (ja) | 談話機能推定装置及びそのためのコンピュータプログラム | |
JP2012108429A (ja) | 音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム | |
Nakano et al. | A robot that can engage in both task-oriented and non-task-oriented dialogues | |
JP2007078943A (ja) | 音響スコア計算プログラム | |
Iwahashi | Interactive learning of spoken words and their meanings through an audio-visual interface | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
Sarma et al. | Speech recognition in Indian languages—a survey | |
JP2009116075A (ja) | 音声認識装置 | |
Tanaka et al. | Pronunciation adaptive self speaking agent using wavegrad | |
KR20160000218A (ko) | 언어모델 군집화 기반 음성인식 장치 및 방법 | |
JP4987530B2 (ja) | 音声認識辞書作成装置および音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130523 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130523 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140328 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20141029 |