JP6173281B2 - 環境理解装置および環境理解方法 - Google Patents
環境理解装置および環境理解方法 Download PDFInfo
- Publication number
- JP6173281B2 JP6173281B2 JP2014176141A JP2014176141A JP6173281B2 JP 6173281 B2 JP6173281 B2 JP 6173281B2 JP 2014176141 A JP2014176141 A JP 2014176141A JP 2014176141 A JP2014176141 A JP 2014176141A JP 6173281 B2 JP6173281 B2 JP 6173281B2
- Authority
- JP
- Japan
- Prior art keywords
- work
- cooking
- unit
- acoustic
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 447
- 230000007704 transition Effects 0.000 claims description 39
- 238000000605 extraction Methods 0.000 claims description 26
- 238000003384 imaging method Methods 0.000 claims description 25
- 230000005236 sound signal Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims 3
- 238000010411 cooking Methods 0.000 description 413
- 238000010586 diagram Methods 0.000 description 47
- 238000010276 construction Methods 0.000 description 34
- 240000007124 Brassica oleracea Species 0.000 description 32
- 235000003899 Brassica oleracea var acephala Nutrition 0.000 description 32
- 235000011301 Brassica oleracea var capitata Nutrition 0.000 description 32
- 235000001169 Brassica oleracea var oleracea Nutrition 0.000 description 32
- 239000000463 material Substances 0.000 description 30
- 238000001514 detection method Methods 0.000 description 24
- 238000003860 storage Methods 0.000 description 23
- 244000000626 Daucus carota Species 0.000 description 14
- 235000002767 Daucus carota Nutrition 0.000 description 14
- 241000234282 Allium Species 0.000 description 11
- 235000002732 Allium cepa var. cepa Nutrition 0.000 description 11
- 239000000284 extract Substances 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 239000004615 ingredient Substances 0.000 description 9
- 235000015277 pork Nutrition 0.000 description 9
- 235000013311 vegetables Nutrition 0.000 description 9
- 235000002566 Capsicum Nutrition 0.000 description 8
- 239000006002 Pepper Substances 0.000 description 8
- 241000722363 Piper Species 0.000 description 8
- 235000016761 Piper aduncum Nutrition 0.000 description 8
- 235000017804 Piper guineense Nutrition 0.000 description 8
- 235000008184 Piper nigrum Nutrition 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 8
- 235000019198 oils Nutrition 0.000 description 8
- 150000003839 salts Chemical class 0.000 description 8
- 235000002639 sodium chloride Nutrition 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 235000011194 food seasoning agent Nutrition 0.000 description 7
- 239000004278 EU approved seasoning Substances 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 238000005520 cutting process Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 235000013555 soy sauce Nutrition 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 2
- 240000003768 Solanum lycopersicum Species 0.000 description 2
- 238000009835 boiling Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 235000013410 fast food Nutrition 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 235000012149 noodles Nutrition 0.000 description 2
- 238000003756 stirring Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 235000008534 Capsicum annuum var annuum Nutrition 0.000 description 1
- 241000494579 Fritillaria pudica Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000002788 crimping Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000005476 soldering Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の環境理解装置は、まず、複数の作業手順を含む作業において、作業手順毎に発生する音響信号(以下、調理音、作業音ともいう)の収録を予め行う。なお、作業手順が、1つの名詞と1つの動詞による手順である作業イベント(調理イベントともいう)を複数含む場合、環境理解装置は、作業イベント毎に発生する音響信号の収録を予め行う。次に、環境理解装置は、収録した音響信号から音響特徴量を抽出して、作業手順または作業イベント毎の音響モデル(GMM)を作成する。この音響モデルは、それぞれ作業手順または作業イベントに関連付けられている。また、環境理解装置は、予め作業手順に関する文字情報(例えば、調理のレシピ、製造における作業工程表)を取得する。次に、環境理解装置は、取得した文字情報を言語解析して、解析した結果を用いて作業手順の言語解析された部分(例えば、名詞と動詞)の意味内容を表現するフローグラフを生成する。そして、環境理解装置は、生成されたフローグラフを共起確率等の制約下で隠れマルコフモデル(HMM;Hidden Markov Model)に変換する。さらに、環境理解装置は、変換したHMMにおいて階層化可能なノードをさらに階層化することで、作業毎に階層型隠れマルコフモデル(HHMM;Hierarchical HMM)に変換する。
環境理解装置は、利用者によって電源がオン状態にされ作業が開始されると、作業イベント毎の音響信号を取得する。次に、環境理解装置は、取得した音響信号の音響特徴量に対して、音響モデルにおいて最尤推定を行って、最も尤度の高いGMMに対応する作業イベントを推定する。環境理解装置は、音響信号を数工程分取得して、数工程分の作業イベントそれぞれを推定する。次に、環境理解装置は、推定した数工程分の作業イベントを用いて、利用者が何を行っているのか(どのような調理を行っているのか、何を製造しているのか等)を、HHMMを参照して最も尤度の高い作業を推定する。
さらに、環境理解装置は、作業が推定できた後、収録した音響信号に基づいて、利用者の作業間違いを検出し、作業間違いが検出された場合に正しい作業イベントを示す情報を利用者に報知する。
図1は、本実施形態に係る環境理解装置1のブロック図である。なお、本実施形態では、環境理解装置1の一例として、調理ナビゲーション装置について説明する。
図1に示すように、環境理解装置1は、調理音データベース10、音響モデル構築部20、レシピデータベース30、レシピモデル構築部40、収音部50、音響信号取得部60、区間検出部65、特徴量抽出部70、GMM推定部75(推定部)、HHMM推定部80(推定部)、記憶部85、報知処理部90、および出力部95を含んで構成される。
音響モデル構築部20は、調理音データベース10の音響信号から算出された音響特徴量を用いて学習を行って、GMM(混合ガウスモデル)の音響モデルを生成する。
音響モデル構築部20は、区間検出部21、特徴量抽出部22、および学習部23を含んで構成される。
ここで、MFCC特徴量には、上述したように、複数の状態毎のMFCC特徴量が含まれている。学習部23は、例えば、フレーム毎のMFCC特徴量を、このような状態毎に分類し、分類した状態間を連結する。そして、学習部23は、連結された状態が、この調理工程の音響信号のMFCC特徴量であるときに尤度が最大になるように、各状態の出現確率、状態間の遷移確率等のパラメータを推定する。学習部23は、入力された同じ調理工程のMFCC特徴量を複数個用いて、それぞれのパラメータの推定を行って、作業工程毎のGMMを学習する。なお、GMMは、入力の特徴ベクトルの出現確率を混合ガウス分布で表現したものである。このように、学習部23は、調理工程毎にGMMを学習する。なお、作業手順が1つの調理工程から構成される場合、作業手順が調理工程でもある。従って、音響モデル構築部20が調理音データベース10から読み出す音響信号は、調理工程毎または作業手順毎のものである。このため、生成されるGMMは、調理工程または作業手順と関連付けられたものである。学習部23は、生成したGMMをGMM推定部75に出力する。
図3に示すように、レシピデータベース30には、調理名とリストとが関連付けられて格納されている。なお、図3に示す例では、材料に調味料を含む。図3に示す例は、調理名が「野菜炒め」であり、その調理に必要な材料と調味料「豚肉、玉葱、キャベツ、人参、油、醤油、塩こしょう」がリストに格納されている。なお、図3に示した例では、リストに名詞のみが含まれている例を示したが、リストには、動詞が含まれていてもよい。
また、図4に示すように、レシピデータベース30には、作業手順と作業項目とが、調理毎に関連付けられて格納されている。例えば、作業手順1の作業項目は、「玉葱、キャベツ、人参を、それぞれ食べやすい大きさに切っておく。」である。なお、本実施形態では、1つの調理にかかる全ての作業工程を、作業(タスク)と定義する。
レシピデータベース30には、「野菜炒め」のレシピ情報に加え、他の調理(例えば「焼きそば」、「お好み焼き」等)のレシピ情報が格納されている。
レシピモデル構築部40は、レシピデータベース30に格納されている情報を調理毎に読み出し、読み出した調理毎のレシピ情報を調理イベントHHMMに変換する。なお、調理イベントHHMMについては後述する。
レシピモデル構築部40は、言語処理部41、確率モデル化部42(モデル化部)、および階層化部43(モデル化部)を含んで構成される。
確率モデル化部42は、言語処理部41によって生成されたフローグラフをHMM(工程モデル)に変換する。確率モデル化部42は、すべてのノードの組み合わせパターンを生成すれば、HMMに変換することができる。しかしながら、各作業項目において、全てのノードの組み合わせパターンが可能であるとは限られない。例えば、図6において、ノードCとノードBの間にノードAを行うことは、一般的には少ない。このため、本実施形態では、確率モデル化部42が、各ノードから各ノードへの枝である矢印毎に重みを付け、重みが所定の値より大きい箇所に、他のノードを挿入しないこととする。なお、重み付けは、予め作業者が、例えばLDA(潜在的ディリクレ配分法;Latent Dirichlet Allocation)を用いたノード間の遷移による共起確率を利用して行う。
図9は、頻出パターンを他のノードに置き換える一例を説明する図である。
例えば、図9に示した例において、ノードCからノードBへのパターンが、他のレシピにも頻出する場合、符号N1で示す領域が示す図のようにノードCからノードBへの遷移を1つのパターンとする。そして、矢印g1のように、このパターンを新たに1つのノードDと定義する。この処理によって、確率モデル化部42は、ノードCとノードBとの間に他のノードを挿入しないようにしてもよい。
上述したように、本実施形態において、確率モデル化部42は、ノード間の重み付けの制約、および頻出パターンを新たな1つのパターンのとする制約のうち、少なくとも一方を行うことでフローグラフをHMMに変換する。
なお、調理工程HMMの詳細な変換手順については後述する。
階層化部43は、確率モデル化部42によって変換された調理工程HMMの1工程を、さらに名詞(N)と動詞(V)のペアで構成される状態に分割する。本実施形態では、名詞(N)と動詞(V)のペアを調理イベントともいう。このため、図1に示したノード3−1−1〜3−2−3、ノード3−2−1〜3−2−3などの調理工程も調理イベントである。階層化部43は、各調理工程HMMを、調理イベントの階層的な状態遷移に変換する。そして、階層化部43は、この調理イベントについて、確率モデル化部42と同様にHMMに変換する。この分割によって、図11において、符号g14で示した領域の図のように、調理工程HMMの各状態が階層的なHMMを含む形となる。図11において符号g14で示した領域の図のように、ノード1「(N)玉葱、(N)キャベツ、(N)人参、(V)切る」は、名詞と動詞のペアである調理イベント「(N)玉葱、(V)切る」と「(N)人参、(V)切る」と「(N)キャベツ、(V)切る」に分解できる。そして、分解された複数の調理イベントをHMMで表すと、符号g14で示した領域の図のように複数のルートで表すことができる。なお、図11に示す例では、階層化部43が、共起確率に基づいてノード1をHMMに変換した例である。すなわち、ノードの階層化においても、階層化部43は、共立確率による制約、または、他の調理(作業)にも出現する頻度の高いノードからノードへの遷移を1つのノードとみなす制約を用いるようにしてもよい。また、生成されたHHMMには、調理毎の調理イベントHHMMが含まれている。例えば、HHMMには、野菜炒めの調理イベントHHMM、焼きそばの調理イベントHHMM、お好み焼きの調理イベントHHMM等が含まれている。
収音部50は、M(Mは1よりも大きい整数、例えば8)チャネルの音響信号を収録し、収録したMチャネルの音響信号を音響信号取得部60に送信する。収音部50は、例えば周波数帯域(例えば200Hz〜4kHz)の成分を有する音波を受信するM個のマイクロホン51−1〜51−Mを備えている。以下、マイクロホン51−1〜51−Mのそれぞれを特定しない場合は、単にマイクロホン51という。M個のマイクロホン51は、それぞれ異なる位置に配置されている。収音部50は、収録したMチャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。Mが1よりも大きい場合には、送信の際にチャネル間で音響信号が同期していればよい。なお、音源定位の処理を行わない場合、マイクロホン51は、1つでよい。以下の説明では、収音部50がマイクロホン51を1つ備えている場合について説明する。
また、HHMM推定部80は、調理イベントHHMMを推定できた場合、調理イベントHHMMを参照して、次に行われる調理イベントを推定する。そして、HHMM推定部80は、次の調理イベントに対応する調理イベントを示す情報が所定の期間内に入力されたか否かを判別する。HHMM推定部80は、次の調理イベントに対応する調理イベントを示す情報が所定の期間内に入力されない場合、次に行われる調理イベントの候補を示す情報を報知処理部90に出力する。HHMM推定部80は、抽出した調理イベントに対応する調理イベントを示す情報が所定の期間内に入力された場合、次に行われる調理イベントの候補を示す情報を報知処理部90に出力しない。なお、HHMM推定部80が行う処理については、後述する。
図12は、本実施形態に係る環境理解装置1の処理手順のフローチャートである。
(ステップS1)レシピモデル構築部40は、予めレシピのフローグラフ化処理を行う。なお、レシピのフローグラフ化処理については後述する。
(ステップS2)レシピモデル構築部40は、予めフローグラフをHMMMに変換することで、調理イベントHHMMを生成する。レシピモデル構築部40は、複数の調理について、調理毎に調理イベントHHMMを生成する。このように生成された複数の調理イベントHHMMの集合をHHMMという。なお、調理イベントHHMMの生成処理については後述する。
(ステップS4)環境理解装置1は、予め生成されたGMMおよびHHMM、そして収録された音響信号に基づいて、レシピに関して推定する。なお、レシピに関する推定とは、作業や調理イベントの推定である。作業の推定とは、利用者が行っている調理の調理名の推定である。また、作業イベントの推定とは、利用者が行っている調理における調理工程または調理イベントの推定である。レシピに関する推定処理については、後述する。
図13は、本実施形態に係るレシピのフローグラフ化処理手順のフローチャートである。
(ステップS11)言語処理部41は、レシピデータベース30に格納されているレシピ情報を調理毎に取得する。
(ステップS12)言語処理部41は、取得したレシピ情報に対して、調理毎かつ作業手順毎に形態素解析および係り受け解析を周知の手法によって行う。次に、単語1つからなるノード、その係り受け関係が枝(エッジ)となる不図示の初期グラフを作成する。
(ステップS15)言語処理部41は、動詞を持つノードに、その先祖ノードの持つ名詞を全て自分のノードの集合に加える。
図14は、本実施形態に係る調理工程HMMおよび調理イベントHHMMの生成処理手順のフローチャートである。
(ステップS101)確率モデル化部42は、言語処理部によって生成されたフローグラフの各ノードをHMMの各ノードに対応させる。
(ステップS102)確率モデル化部42は、枝をHMMの状態遷移に対応させる。
(ステップS104)確率モデル化部42は、フローグラフの各作業手順に遷移するために、endノードから次の手順の親ノードのないノードへの遷移を追加する。
なお、フローグラフ化処理、調理工程HMMの生成処理、および調理イベントHHMMの生成処理は、レシピモデル構築部40が予め行っておく。そして、レシピモデル構築部40は、複数の調理について、調理毎に、フローグラフ化処理、調理工程HMMの生成処理、および調理イベントHHMMの生成処理を行う。この結果、HHMM推定部80に出力されるHHMMは、複数の調理イベントHHMMを含むモデルである。
図15は、本実施形態に係るGMMの生成処理手順のフローチャートである。
(ステップS201)区間検出部21は、調理音データベース10から音響信号を取得する。
(ステップS202)区間検出部21は、調理音データベース10に格納されている音響信号毎に調理区間を検出する。
(ステップS204)学習部23は、ステップS203で算出されたMFCC特徴量を用いて学習して音響モデルであるGMMを生成する。
以上で、GMMの生成処理を終了する。
図16は、本実施形態に係るレシピに関する推定処理手順のフローチャートである。
(ステップS301)音響信号取得部60は、収音部50によって収録された音響信号を取得する。
(ステップS302)区間検出部65は、ステップS301で取得された音響信号毎に、調理区間と、調理区間の音響信号を検出する。
(ステップS306)HHMM推定部80は、記憶部85に調理イベントを示す情報を所定の個数以上記憶させたか否かを判別する。HHMM推定部80は、調理イベントを示す情報を所定の個数以上記憶させたと判別した場合(ステップS306;YES)、ステップS307に進み、調理イベントを示す情報を所定の個数以上記憶させていないと判別した場合(ステップS306;NO)、ステップS301に戻る。
(ステップS309)HHMM推定部80は、ステップS308で推定された調理イベントHHMMを参照して、現在の調理イベントの次に行われる調理イベントを推定する。
以上で、レシピに関する推定処理を終了する。
以下の例では、最初に利用者がキャベツを切ったとする。
区間検出部65は、音響信号取得部60が取得した音響信号からキャベツが切られている調理区間と、その調理区間の音響信号を検出する。
次に、GMM推定部75は、特徴量抽出部70によって算出されたMFCC特徴量を、上述したような各状態に分離する。そして、GMM推定部75は、分離した各状態の遷移状態が、GMMの中で最も尤度の高いGMMに対応する音響信号に対応する調理イベントが、キャベツが切られているときの音響信号であると推定する。次に、GMM推定部75は、推定した音響信号に対応する「キャベツ:切る」を、算出されたMFCC特徴量に最も近い調理イベントであると推定する。
次に、利用者が玉葱を切ったとする。環境理解装置1は、上述した処理を繰り返し、HHMM推定部80は、GMM推定部75によって推定された調理イベント「玉葱:切る」を「キャベツ:切る」の次に記憶部85に記憶させる。
次に、利用者が人参を切ったとする。環境理解装置1は、上述した処理を繰り返し、HHMM推定部80は、GMM推定部75によって推定された調理イベント「人参:切る」を「玉葱:切る」の次に記憶部85に記憶させる。
次に、HHMM推定部80は、次の調理イベントの候補の音響データが音響信号取得部60によって所定の時間内に取得されたか否かを判別する。
上述した例と同様に、最初に利用者によってキャベツが切られ、次に玉葱が切られ、続けて人参が切られたとする。
このように、調理イベントの「(N)キャベツ、(V)切る」、「(N)玉葱、(V)切る」、および「(N)人参、(V)切る」の連続する3つの調理イベントを含む調理イベントHHMMが、HHMMに例えば10件あったとする。この場合、調理イベントの「(N)人参、(V)切る」に行われる次の調理イベントの候補が、例えば調理イベントHHMM毎に3個ずつあったとすると、次の調理イベントの候補の単純総数は30個にもなる。30個の中には、重複している調理イベントがあったとしても、次の調理イベントの候補の総数は多数である。このような状況において、ステップS312で次の調理イベントの全ての候補を報知すると、かえって利用者を混乱させかねない。
このため、環境理解装置1は、次の調理イベントの候補の総数が所定の数より多い場合、利用者によって作業がさらに進められ、次の調理イベントの候補の総数が所定の数以下になるまで、次の調理イベントの候補の報知を行わないようにしてもよい。
図17において、符号g101が示す領域の図は、手順間違いの検出を説明する図である。符号g101が示す領域の図のように、環境理解装置1は、利用者huが手順を間違えたことを検出し、正しい手順の作業内容g111を利用者huに提示する。これにより、本実施形態によれば、利用者huによる手順間違いを検出して報知することができるので、手順間違いを防ぐことを支援できる。
図18は、本実施形態に係る環境理解装置1のノイズに対する正答率を説明する図である。図18において、横軸はノイズレート、縦軸は認識率である。実験では、レシピモデル構築部40によって生成された調理イベントHHMMの各調理イベントに対して、確率rのノイズレートでランダムにイベントを置換するノイズを加えた。そして、このノイズレートを変化させたときの、調理イベントに対して推定した結果の正答率を実験により求めた。
図18において符号g201が示すノイズレートに対する正答率の図は、本実施形態のレシピモデル構築部40によって生成された調理イベントHHMMを用いた場合の実験結果である。また、符号g202が示すノイズレートに対する正答率の図は、階層化されていないHMMを用いた場合の実験結果である。
この実験で加えたノイズは、調理イベントの誤認識と対応する。このため、ノイズレートが0.3以上の意味合いは、ノイズを加えていない場合に調理イベントを正しく認識する割合が0.7より小さい状況であることを意味している。
なお、正答率は、調理イベントHHMMを生成するために用いるレシピデータの影響を受けることが実験により分かっている。このため、料理に関する情報として、料理解説本などのテキストデータなど、作業手順や作業内容が明確な情報を用いた場合、さらに正答率が高くなることが考えられる。
また、本実施形態によれば、推定した作業と、収録した音響信号とを用いて、次に行われる調理イベントを推定することができる。これにより、本実施形態によれば、利用者が作業手順を間違えたときや、調理イベントを抜かして誤った調理イベントに進んだときなどに、正しい調理イベントを利用者へ報知することができるので、利用者の調理を支援することができる。
また、特徴量抽出部22および特徴量抽出部70は、音響特徴量としてMFCC特徴量を抽出する例を説明したが、抽出する特徴量は他の周知の音響特徴量であってもよい。
第1実施形態では、収音部50によって収録された音響信号を用いて、現在行われている作業である調理名や作業手順を推定する例を説明したが、本実施形態では、撮像された画像も用いる例を説明する。
図19は、本実施形態に係る環境理解装置1Aのブロック図である。なお、本実施形態でも、環境理解装置1Aの一例として、調理ナビゲーション装置について説明する。
図19に示すように、環境理解装置1Aは、調理音データベース10、音響モデル構築部20、レシピデータベース30、レシピモデル構築部40、収音部50、音響信号取得部60、区間検出部65、特徴量抽出部70、GMM推定部75(推定部)、HHMM推定部80A(推定部)、記憶部85、報知処理部90、出力部95、撮像部100、画像取得部110、画像データベース120、および画像処理部130を含んで構成される。なお、第1実施形態で説明した環境理解装置1と同じ機能を有する機能部については、同じ符号を用いて説明を省略する。
図20に示すように、撮像された画像には、調理に用いる材料(含む調味料)および調理器具が撮像されている。材料として、例えば、塩こしょう、キャベツ、トマト、黄色のピーマン、オレンジが画像に写っている。また、調理器具として、片手鍋、ココット、ボール、コンロ等が画像に写っている。
また、図21に示すように、材料や調理器具の位置を示す情報は、材料名または調理器具名と、その対象物の他を基準とした相対的な関係である。
なお、図21に示した例は一例であり、これに限られない。移動しない物体をいくつかランドマークに決めておき、そのランドマークを基準にした位置関係であってもよい。例えば、キャベツとトマトの位置は、「自動皿洗い機の上」等であってもよい。
HHMM推定部80Aは、次に行われる調理イベントに対応する調理イベントを示す情報がGMM推定部75から所定の期間内に入力されない場合、次の調理イベントの候補を示す情報に含まれる材料や調理器具の位置を、画像処理部130から入力された材料または調理器具の位置を示す情報から抽出する。そして、HHMM推定部80Aは、次に行われる調理イベントの候補を示す情報と、その情報に含まれる材料または調理器具の位置を示す情報とを報知処理部90に出力する。
なお、HHMM推定部80Aは、抽出した調理イベントに対応する調理イベントを示す情報がGMM推定部75から所定の期間内に入力された場合、報知処理部90に次に行われる調理イベントの候補を示す情報と、その情報に含まれる材料または調理器具の位置を示す情報とを報知処理部90に出力しない。
図22において、符号g103が示す領域の図は、手順の予測および推薦を説明する図である。HHMM推定部80Aは、収録された音響信号から推定された現在の調理イベントと調理イベントHHMMとに基づいて、次に行われる調理イベントを予測する。そして、HHMM推定部80Aは、予測した調理イベントに含まれる材料や調理器具を抽出する。そして、環境理解装置1Aは、符号g131が示す領域の図のように、予測した次の手順で用いる材料および調理器具の位置を示す情報を、利用者huに提示する。これにより、本実施形態によれば、利用者huに次の手順で用いると予測される材料や調理器具の位置を提示することができるので、利用者huの調理を支援することができる。
図23は、本実施形態に係るレシピに関する推定処理手順のフローチャートである。なお、図16で説明した処理内容と同じ処理については、同じ符号を用いる。
(ステップS402)画像処理部130は、ステップS401で変換された画像情報と、画像データベース120に格納されている画像情報とのパターンマッチング処理を行って、画像情報の中から各食材および各調理器具の位置を推定する。画像処理部130は、推定後、処理をステップS301に進める。
(ステップS310A)HHMM推定部80Aは、次の調理イベントの候補である音響データを取得済みであるか否かを判別する。HHMM推定部80Aは、次の調理イベントの候補である音響データを取得済みであると判別した場合(ステップS310A;YES)、ステップS311Aに進み、次の調理イベントの候補である音響データを取得済みではないと判別した場合(ステップS310A;NO)、ステップS401に戻る。
以上で、レシピに関する推定処理を終了する。
第1実施形態および第2実施形態では、環境理解装置(1または1A)の例として、調理ナビゲーション装置について説明した。本実施形態では、環境理解装置の例として、製品を組み立てる現場における工程ナビゲーション装置について説明する。
図24は、本実施形態に係る環境理解装置1Bのブロック図である。
図24に示すように、環境理解装置1Bは、作業音データベース10B、音響モデル構築部20、工程データベース30B、工程モデル構築部40B、収音部50、音響信号取得部60、区間検出部65、特徴量抽出部70、GMM推定部75、HHMM推定部80、記憶部85、報知処理部90、および出力部95を含んで構成される。なお、第1実施形態で説明した環境理解装置1と同じ機能を有する機能部については、同じ符号を用いて説明を省略する。
工程データベース30Bには、予め製品の組み立てに関する作業情報が製品毎に格納されている。作業情報には、作業名、部品名、作業工具名、作業内容等を示す情報が含まれている。環境理解装置1Bは、例えばネットワークを介して複数の製品や部品やユニットの組み立てに関する作業情報を取得して、取得した作業情報を工程データベース30Bに格納するようにしてもよい。
図26に示すように、作業名とリストとが関連付けられて格納されている。図26に示す例は、作業名が「制御ユニットの取り付け」であり、その作業に必要な部品がリストに格納されている。
また、図27に示すように、作業手順と作業項目とが、製品毎に関連付けられて格納されている。例えば、作業手順1の作業項目は、「制御ユニットを、ダッシュボード裏の所定の位置(図参照)に置く。」である。
工程モデル構築部40Bは、言語処理部41、確率モデル化部42、および階層化部43を含んで構成される。
作業手順1のノード「(N)制御ユニット、(V)置く」は、「制御ユニットを、ダッシュボード裏の所定の位置(図参照)に置く。」という作業項目を表している。なお、各ノードで検出する名詞は、第1実施形態と同様に図26に示したリストに記載されている名詞である。
符号g23で示した領域の図のように、ノード4は、階層化部43によって、さらに作業イベントの階層的なHMMに変換される。すなわち、ノード4は、ノード4−1−1からノード4−1−2に遷移するルートと、ノード4−2−1からノード4−2−2に遷移するルートとが合流するHMMに変換される。
図30は、本実施形態に係る環境理解装置1Bの処理手順のフローチャートである。
(ステップS401)工程モデル構築部40Bは、予め作業工程のフローグラフ化処理を行う。なお、作業工程のフローグラフ化処理は、図13のステップS11においてレシピデータを工程データに置き換え、第1実施形態のステップS11〜S16の処理と同様に行う。
また、本実施形態で説明した環境理解装置(1、1A、または1B)は、人型ロボット、キッチンに設置される家電製品(例えば冷蔵庫)、工場で用いられる組み立てロボット等が備えるようにしてもよい。
Claims (8)
- 作業に関する複数の作業工程を含む情報を解析して前記作業工程に対応するノード間の遷移を表すフローグラフを生成する言語処理部と、
前記フローグラフに含まれる前記複数の作業工程のそれぞれをノードとする遷移確率モデルである工程モデルを、前記作業工程間の結びつきがある連続する前記作業工程に他のノードを挿入しないことで、前記作業工程間の結びつきがある連続する各作業工程の前後関係は維持しつつ、前記複数の作業工程を組み合わせて生成し、かつ当該工程モデルを各一連の作業ごとに生成するモデル化部と、
音響信号を収録する収音部と、
前記作業工程毎に対応する前記音響信号に基づいて作成された音響モデルと、
収録された前記音響信号から音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量と前記音響モデルとに基づいて現在の作業工程である現作業工程を推測し、推測した前記現作業工程と、過去に推定した作業工程と、前記工程モデルとに基づいて、前記作業を推定する推定部と、
を備える環境理解装置。 - 前記モデル化部は、前記フローグラフの前記作業工程における1つの状態から他の状態への遷移の共起確率に基づいて前記工程モデルを生成する請求項1に記載の環境理解装置。
- 前記モデル化部は、前記フローグラフの前記作業工程における1つの状態から他の状態への遷移が、他の作業にも含まれている場合に、前記1つの状態から他の状態への遷移する複数の前記作業工程を1つの作業工程であるとみなして前記工程モデルを生成する請求項1または請求項2に記載の環境理解装置。
- 前記モデル化部は、
前記工程モデルに含まれる前記作業工程毎に、前記作業工程に含まれる1個の名詞と1個の動詞との組み合わせに分割して、分割した組み合わせそれぞれを作業工程と見なして時系列的に並べて前記工程モデルに含まれる前記作業工程を階層化する請求項1から請求項3のいずれか1項に記載の環境理解装置。 - 前記推定部は、
前記音響特徴量を、前記音響モデルと比較して、前記現作業工程を推測した結果、所定の値以上の他の作業が候補になった場合、候補になった前記他の作業の候補を利用者へ報知し、前記報知に対する前記利用者からの応答に応じて、複数の前記作業の候補から推測して前記作業を絞り込む請求項1から請求項4のいずれか1項に記載の環境理解装置。 - 前記推定部は、
推定した前記作業に基づいて、次の作業工程である次作業工程を予測し、予測した前記次作業工程に関する情報を報知する請求項1から請求項5のいずれか1項に記載の環境理解装置。 - 画像を撮像する撮像部と、
前記撮像部によって撮像された画像から、前記作業工程で用いられる対象物の位置を推定する画像処理部と、を備え、
前記推定部は、
前記画像処理部によって推定された前記対象物の位置を示す情報に基づいて、次の作業工程である次作業工程で用いる前記対象物の位置を示す情報を報知する請求項1から請求項6のいずれか1項に記載の環境理解装置。 - 言語処理部が、作業に関する複数の作業工程を含む情報を解析して前記作業工程に対応するノード間の遷移を表すフローグラフを生成する言語処理手順と、
モデル化部が、前記フローグラフに含まれる前記複数の作業工程のそれぞれをノードとする遷移確率モデルである工程モデルを、前記作業工程間の結びつきがある連続する前記作業工程に他のノードを挿入しないことで、前記作業工程間の結びつきがある連続する各作業工程の前後関係は維持しつつ、前記複数の作業工程を組み合わせて生成し、かつ当該工程モデルを各一連の作業ごとに生成するモデル化手順と、
収音部が、音響信号を収録する収音手順と、
音響モデル作成部が、前記作業工程毎に対応する前記音響信号に基づいて音響モデルを作成する音響モデル作成手順と、
特徴量抽出部が、収録された前記音響信号から音響特徴量を抽出する特徴量抽出手順と、
推定部が、前記音響特徴量と前記音響モデルとに基づいて現在の作業工程である現作業工程を推測し、推測した前記現作業工程と、過去に推定した作業工程と、前記工程モデルとに基づいて、前記作業を推定する推定手順と、
を含む環境理解方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014176141A JP6173281B2 (ja) | 2014-08-29 | 2014-08-29 | 環境理解装置および環境理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014176141A JP6173281B2 (ja) | 2014-08-29 | 2014-08-29 | 環境理解装置および環境理解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016051052A JP2016051052A (ja) | 2016-04-11 |
JP6173281B2 true JP6173281B2 (ja) | 2017-08-02 |
Family
ID=55658597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014176141A Expired - Fee Related JP6173281B2 (ja) | 2014-08-29 | 2014-08-29 | 環境理解装置および環境理解方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6173281B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7511128B2 (ja) | 2019-07-24 | 2024-07-05 | パナソニックIpマネジメント株式会社 | 調理習得支援システムおよび調理習得支援方法 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6310165B1 (ja) * | 2016-08-09 | 2018-04-11 | 楽天株式会社 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
JP7038338B2 (ja) * | 2017-07-25 | 2022-03-18 | パナソニックIpマネジメント株式会社 | 情報処理方法および情報処理装置 |
WO2020053934A1 (ja) * | 2018-09-10 | 2020-03-19 | 三菱電機株式会社 | モデルパラメタ推定装置、状態推定システムおよびモデルパラメタ推定方法 |
CN114365161A (zh) * | 2019-09-18 | 2022-04-15 | 三菱电机株式会社 | 作业要素分析装置和作业要素分析方法 |
JP6933345B1 (ja) * | 2020-07-20 | 2021-09-08 | 株式会社 情報システムエンジニアリング | 情報処理装置及び情報処理方法 |
WO2023248676A1 (ja) * | 2022-06-22 | 2023-12-28 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 推定方法及び推定装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3489772B2 (ja) * | 1996-11-07 | 2004-01-26 | 株式会社リコー | 作業支援システム |
JPH11187824A (ja) * | 1997-12-25 | 1999-07-13 | Victor Co Of Japan Ltd | 調理支援システム |
JP2001008641A (ja) * | 1999-06-30 | 2001-01-16 | Matsupu Japan Kk | 料理ガイド装置 |
US7454390B2 (en) * | 2004-03-17 | 2008-11-18 | Panasonic Corporation | Ingredient cooking-operation recognition system and computer-readable recording medium which is recorded with ingredient cooking-operation recognition program |
JP2006072894A (ja) * | 2004-09-06 | 2006-03-16 | Advanced Institute Of Information Technology Inc | 調理支援装置およびプログラム |
-
2014
- 2014-08-29 JP JP2014176141A patent/JP6173281B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7511128B2 (ja) | 2019-07-24 | 2024-07-05 | パナソニックIpマネジメント株式会社 | 調理習得支援システムおよび調理習得支援方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2016051052A (ja) | 2016-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6173281B2 (ja) | 環境理解装置および環境理解方法 | |
Damen et al. | The epic-kitchens dataset: Collection, challenges and baselines | |
WO2005088542A1 (ja) | 食材調理操作認識システム及び食材調理操作認識プログラム | |
KR100577387B1 (ko) | 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치 | |
EP3360138B1 (en) | System and method for audio scene understanding of physical object sound sources | |
US7054817B2 (en) | User interface for speech model generation and testing | |
JP6664072B2 (ja) | 探索支援方法、探索支援装置、及び、プログラム | |
CN103229137A (zh) | 基于上下文的首字母缩略词和缩写词的歧义消除 | |
EP3229234B1 (en) | System and method to distinguish sources in a multiple audio source environment | |
Guo et al. | Localising speech, footsteps and other sounds using resource-constrained devices | |
CN109427334A (zh) | 一种基于人工智能的人机交互方法及系统 | |
EP2682880A1 (en) | Set-expansion device, set-expansion method, program, and non-transitory storage medium | |
CN109683516A (zh) | 辅助烹饪方法、家电设备及计算机存储介质 | |
JP2020191009A (ja) | 知識グラフ補完装置、および知識グラフ補完方法 | |
KR20160056983A (ko) | 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법 | |
KR101874604B1 (ko) | 창작 레시피 생성방법 | |
CN111199724A (zh) | 一种信息处理方法、设备及计算机可读存储介质 | |
JP2018092582A (ja) | 情報処理方法、情報処理装置、及び、プログラム | |
CN110599823A (zh) | 一种基于示教视频和解说语音融合的服务机器人示教方法 | |
Kojima et al. | CogKnife: Food recognition from their cutting sounds | |
Moreaux et al. | Benchmark for kitchen20, a daily life dataset for audio-based human action recognition | |
JP6610416B2 (ja) | 調理レシピ提供システム | |
JP2009223415A (ja) | 情報処理装置及び方法 | |
US11551575B1 (en) | Intelligent cooking process flow | |
JPWO2020116002A1 (ja) | 情報処理装置及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170704 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6173281 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |