JP2019200623A - 対話処理方法、対話処理装置及び対話処理プログラム - Google Patents

対話処理方法、対話処理装置及び対話処理プログラム Download PDF

Info

Publication number
JP2019200623A
JP2019200623A JP2018095114A JP2018095114A JP2019200623A JP 2019200623 A JP2019200623 A JP 2019200623A JP 2018095114 A JP2018095114 A JP 2018095114A JP 2018095114 A JP2018095114 A JP 2018095114A JP 2019200623 A JP2019200623 A JP 2019200623A
Authority
JP
Japan
Prior art keywords
impression
image
user
language
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018095114A
Other languages
English (en)
Inventor
山上 勝義
Katsuyoshi Yamagami
勝義 山上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2018095114A priority Critical patent/JP2019200623A/ja
Publication of JP2019200623A publication Critical patent/JP2019200623A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ユーザがイメージした料理の嗜好を的確に推定することができる対話処理方法、対話処理装置及び対話処理プログラムを提供する。【解決手段】対話処理装置は、ユーザにより提示された料理の画像を取得し、取得した画像から、画像の特徴量に対応付けられる画像に含まれる料理に関する印象を表した1以上の印象言語表現と、1以上の印象言語表現ごとの画像の特徴量との関連性の度合いを示す尤度情報とを生成し、1以上の印象言語表現のそれぞれを含む1以上の質問文を生成し、1以上の質問文のそれぞれに対するユーザの1以上の回答文を取得し、1以上の回答文のそれぞれに含まれる積極性を示す言語表現に基づいて、1以上の回答文のそれぞれに対応する1以上の質問文のそれぞれに含まれる印象言語表現の尤度情報を修正し、修正した尤度情報に基づいて、ユーザの料理の嗜好を推定し、推定した料理の嗜好に応じたコンテンツを出力する。【選択図】図2

Description

本開示は、対話によりユーザの料理の嗜好を推定する対話処理方法、対話処理装置及び対話処理プログラムに関するものである。
ユーザとの対話によりユーザの料理の嗜好を理解し、ユーザの嗜好に合った料理を提示する対話システムにおいて、ユーザが自身の料理の嗜好を言葉で表すのが難しい場合がある。例えば、食べたい料理のイメージは思い浮かぶが、そのイメージを表現する言葉が思いつかない場合である。一方で、対話システムに対して、ユーザが自身の料理の嗜好を表現する言葉を思いついた場合であっても、対話システムがその言葉を理解可能かどうかは分からないため、実際にその言葉を対話システムに入力して初めて、対話システムが理解出来るかどうかが分かるという問題もある。
この問題に対して、自然言語によるユーザの発話に対してではなく、入力された画像に対して応答文を生成する従来技術が存在する(例えば、特許文献1参照)。特許文献1の従来技術によれば、入力された画像を複数の領域に分割し、各領域から色情報を抽出し、抽出した色情報に対応付けられている言語情報をテーブルから取得する情報提示装置が開示されている。
また、入力された画像が所定のクラスに属するか否かを識別する従来技術が存在する(例えば、特許文献2参照)。特許文献2の従来技術によれば、識別対象を評価する評価関数の値と閾値との比較結果に基づいて、あるクラスに識別対象が属するか否かを識別する識別方法が開示されている。
特開2017−91415号公報 特開2009−80557号公報
甫足創、柳井啓司、「候補領域推定による食事画像の複数品目認識」、情報処理学会研究会報告、2011年
しかしながら、上記従来の技術では、ユーザがイメージした料理の嗜好を的確に推定することができず、更なる改善が必要とされていた。
本開示は、上記の問題を解決するためになされたもので、ユーザがイメージした料理の嗜好を的確に推定することができる対話処理方法、対話処理装置及び対話処理プログラムを提供することを目的とするものである。
本開示の一態様に係る対話処理方法は、対話によりユーザの料理の嗜好を推定する対話処理装置における対話処理方法であって、前記ユーザにより提示された料理の画像を取得し、取得した前記画像から、前記画像の特徴量に対応付けられる前記画像に含まれる料理に関する印象を表した言語表現である1以上の印象言語表現と、前記1以上の印象言語表現ごとの前記画像の特徴量との関連性の度合いを示す尤度情報とを生成し、生成した前記1以上の印象言語表現のそれぞれの前記尤度情報に基づいて、前記1以上の印象言語表現のそれぞれを含む1以上の質問文を生成し、生成した前記1以上の質問文を出力し、出力した前記1以上の質問文のそれぞれに対する前記ユーザの1以上の回答文を取得し、取得した前記1以上の回答文のそれぞれに含まれる積極性を示す言語表現に基づいて、前記1以上の回答文のそれぞれに対応する前記1以上の質問文のそれぞれに含まれる前記印象言語表現の前記尤度情報を修正し、修正した前記尤度情報に基づいて、前記ユーザの料理の嗜好を推定し、推定した前記料理の嗜好に応じたコンテンツを出力する。
本開示によれば、ユーザの料理に対する嗜好を表現した画像から、ユーザがイメージした料理の嗜好を的確に推定することができる。
本開示の実施の形態1に係る対話処理システムの全体構成を示すブロック図である。 本開示の実施の形態1における端末装置及びサーバの構成を示す図である。 本実施の形態1における料理画像の一例を示す図である。 本実施の形態1における印象言語表現の一例を示す図である。 本実施の形態1における対話履歴記憶部に記憶される対話履歴の一例を示す図である。 本実施の形態1において、印象言語表現から質問文を生成する際に用いられるルールの一例を示す図である。 本実施の形態1において、回答積極性判定部がユーザ発話文の回答の積極性を判定する際に用いるルールの一例を示す図である。 本実施の形態1における対話履歴記憶部に記憶される対話履歴の第1変形例を示す図である。 本実施の形態1のレシピデータベース記憶部に記憶されているレシピデータの一例を示す図である。 本開示の実施の形態1のサーバの動作を説明するためのフローチャートである。 本実施の形態1において、表示部に表示される初期ユーザインターフェース画面の一例を示す図である。 本実施の形態1において、料理画像が選択された際に表示されるユーザインターフェース画面の一例を示す図である。 図12に示す料理画像に対する質問文が提示される際に表示されるユーザインターフェース画面の一例を示す図である。 図13に示す質問文に対してユーザの回答文が入力された際に表示されるユーザインターフェース画面の一例を示す図である。 図14に示すユーザの回答文に対する質問文が提示される際に表示されるユーザインターフェース画面の一例を示す図である。 図15に示す質問文に対してユーザの回答文が入力された際に表示されるユーザインターフェース画面の一例を示す図である。 図16に示すユーザの回答文に対する質問文が提示される際に表示されるユーザインターフェース画面の一例を示す図である。 図17に示す質問文に対してユーザの回答文が入力された際に表示されるユーザインターフェース画面の一例を示す図である。 レシピリストがユーザに提示される際に表示されるユーザインターフェース画面の一例を示す図である。 本実施の形態1における画像選択画面の一例を示す図である。 本実施の形態1における対話履歴記憶部に記憶される対話履歴の第2変形例を示す図である。 本開示の実施の形態2における対話処理装置の構成を示す図である。 本開示の実施の形態2の対話処理装置の動作を説明するためのフローチャートである。 本開示の実施の形態3における端末装置及びサーバの構成を示す図である。 本開示の実施の形態3において、複数の料理が含まれる料理画像の一例を示す図である。 本実施の形態3において、料理画像領域選択部が料理画像領域を印象言語表現の生成対象とするか否かを決定する際に用いるルールの一例を示す図である。 図25に示す料理画像の中心位置と、特定された各料理画像領域の中心位置とを示す図である。 料理画像及び各料理画像領域の横軸方向の長さ、縦軸方向の長さ、面積、中心座標、料理画像領域選択部によって算出された面積割合、及び料理画像領域選択部によって算出された中心相対距離を示す図である。 図25に示す料理画像が選択された際に、対話履歴記憶部に記憶される対話履歴の一例を示す図である。 本実施の形態3において、表示部に表示される初期ユーザインターフェース画面の一例を示す図である。 本実施の形態3において、料理画像が選択された際に表示されるユーザインターフェース画面の一例を示す図である。 図31に示す料理画像に対する質問文が提示される際に表示されるユーザインターフェース画面の一例を示す図である。 図32に示す質問文に対してユーザの回答文が入力された際に表示されるユーザインターフェース画面の一例を示す図である。 図33に示すユーザの回答文に対する質問文が提示される際に表示されるユーザインターフェース画面の一例を示す図である。 図34に示す質問文に対してユーザの回答文が入力された際に表示されるユーザインターフェース画面の一例を示す図である。
(本開示の基礎となった知見)
上記の従来技術によれば、入力された料理の画像から、料理の嗜好に関わる表現の応答文を生成したり、かつ、画像が所定のクラスに属するか否かの識別結果に基づいて、識別されたクラスに応じた応答文を生成したりすることはできるが、生成された応答文に対するユーザの発話が考慮されない。そのため、生成された応答文が、ユーザがイメージした料理の嗜好に合致しているとは限らず、ユーザがイメージした料理の嗜好を的確に推定することが困難であるという課題を有している。
以上の課題を解決するために、本開示の一態様に係る対話処理方法は、対話によりユーザの料理の嗜好を推定する対話処理装置における対話処理方法であって、前記ユーザにより提示された料理の画像を取得し、取得した前記画像から、前記画像の特徴量に対応付けられる前記画像に含まれる料理に関する印象を表した言語表現である1以上の印象言語表現と、前記1以上の印象言語表現ごとの前記画像の特徴量との関連性の度合いを示す尤度情報とを生成し、生成した前記1以上の印象言語表現のそれぞれの前記尤度情報に基づいて、前記1以上の印象言語表現のそれぞれを含む1以上の質問文を生成し、生成した前記1以上の質問文を出力し、出力した前記1以上の質問文のそれぞれに対する前記ユーザの1以上の回答文を取得し、取得した前記1以上の回答文のそれぞれに含まれる積極性を示す言語表現に基づいて、前記1以上の回答文のそれぞれに対応する前記1以上の質問文のそれぞれに含まれる前記印象言語表現の前記尤度情報を修正し、修正した前記尤度情報に基づいて、前記ユーザの料理の嗜好を推定し、推定した前記料理の嗜好に応じたコンテンツを出力する。
この構成によれば、ユーザにより提示された料理の画像から質問文が生成され、生成された質問文に対するユーザの回答文に含まれる積極性を示す言語表現に基づいて、質問文に含まれる印象言語表現の尤度情報が修正され、修正された尤度情報に基づいて、ユーザの料理の嗜好が推定される。したがって、ユーザの料理に対する嗜好を表現した画像から、ユーザがイメージした料理の嗜好を的確に推定することができる。
また、上記の対話処理方法において、前記1以上の印象言語表現と前記1以上の印象言語表現のそれぞれの前記尤度情報との生成は、前記画像の特徴量と前記1以上の印象言語表現とを対応付けており、かつ、前記画像の特徴量から前記印象言語表現ごとの前記尤度情報を算出するためのモデルに、取得した前記画像を入力することにより、前記1以上の印象言語表現と前記1以上の印象言語表現のそれぞれの前記尤度情報とを生成してもよい。
この構成によれば、画像の特徴量と1以上の印象言語表現とを対応付けており、かつ、画像の特徴量から印象言語表現ごとの尤度情報を算出するためのモデルに、取得された画像が入力されることにより、1以上の印象言語表現と1以上の印象言語表現のそれぞれの尤度情報とが生成されるので、1以上の印象言語表現と1以上の印象言語表現のそれぞれの尤度情報とを容易に生成することができる。
また、上記の対話処理方法において、前記1以上の質問文の生成は、生成した前記1以上の印象言語表現のそれぞれの前記尤度情報に基づいて、前記1以上の印象言語表現の中から前記質問文に含める印象言語表現を選択するとともに、前記1以上の質問文を出力する順序を決定してもよい。
この構成によれば、生成された1以上の印象言語表現のそれぞれの尤度情報に基づいて、1以上の印象言語表現の中から質問文に含める印象言語表現が選択されるとともに、1以上の質問文を出力する順序が決定される。したがって、例えば、尤度情報が閾値より高い印象言語表現を含む質問文を生成することにより、ユーザがイメージしている可能性が高い印象言語表現を選択することができる。また、例えば、尤度情報が高い印象言語表現を含む質問文が順に生成されることにより、ユーザがイメージしている可能性が高い印象言語表現を含む質問文から順にユーザに提示することができる。
また、上記の対話処理方法において、前記尤度情報の修正は、前記積極性を示す言語表現と、当該言語表現の積極性に応じた重み値とを対応付けたテーブルから、取得した前記1以上の回答文のそれぞれに含まれる前記積極性を示す言語表現のそれぞれに対応付けられた前記重み値を抽出し、抽出した前記重み値のそれぞれを前記尤度情報のそれぞれに乗算してもよい。
この構成によれば、取得された1以上の回答文のそれぞれに含まれる積極性を示す言語表現のそれぞれに対応付けられた重み値がテーブルから抽出され、抽出された重み値のそれぞれが尤度情報のそれぞれに乗算されることにより、ユーザの回答文に含まれる言語表現の積極性に応じて尤度情報を容易に修正することができる。
また、上記の対話処理方法において、さらに、前記1以上の質問文のうちの既に出力した質問文と、当該質問文に対する前記ユーザの回答文とを履歴情報として記憶し、前記1以上の質問文の生成は、生成した前記1以上の印象言語表現のうち、既に出力した前記質問文に含まれる前記印象言語表現と同じ印象言語表現を削除してもよい。
この構成によれば、1以上の質問文のうちの既に出力した質問文と、当該質問文に対するユーザの回答文とが履歴情報として記憶されている。そして、生成された1以上の印象言語表現のうち、既に出力した質問文に含まれる印象言語表現と同じ印象言語表現が削除されるので、既に出力した不要な質問文が再度ユーザに提示されることを防止することができ、不要な質問文を生成する処理を削減することができる。
また、上記の対話処理方法において、前記1以上の質問文の出力は、2以上の質問文が生成された場合、前記2以上の質問文のうち、所定の閾値より大きい前記尤度情報に対応する印象言語表現を含む1の質問文を出力し、さらに、出力した前記1の質問文に対して取得した前記ユーザの回答文が、否定的な言語表現を含む場合、前記1の質問文以外の他の質問文を削除してもよい。
この構成によれば、2以上の質問文が生成された場合、2以上の質問文のうち、所定の閾値より大きい尤度情報に対応する印象言語表現を含む1の質問文が出力される。そして、出力された1の質問文に対して取得したユーザの回答文が、否定的な言語表現を含む場合、1の質問文以外の他の質問文が削除されるので、ユーザがイメージしていないと推定される印象言語表現を含む他の質問文がユーザに提示されることを防止することができ、不要な質問文を生成する処理を削減することができる。
また、上記の対話処理方法において、前記1以上の印象言語表現と前記1以上の印象言語表現のそれぞれの前記尤度情報との生成は、取得した前記画像が複数の料理を含む場合、前記画像中の前記複数の料理のそれぞれを示す画像領域を特定し、特定した複数の画像領域のそれぞれに対して前記1以上の印象言語表現の生成対象とするか否かを判断し、前記1以上の印象言語表現の生成対象とすると判断された画像領域から、前記1以上の印象言語表現と、前記1以上の印象言語表現のそれぞれの前記尤度情報とを生成してもよい。
この構成によれば、取得された画像が複数の料理を含む場合、画像中の複数の料理のそれぞれを示す画像領域が特定され、特定された複数の画像領域のそれぞれに対して1以上の印象言語表現の生成対象とするか否かが判断される。そして、1以上の印象言語表現の生成対象とすると判断された画像領域から、1以上の印象言語表現と、1以上の印象言語表現のそれぞれの尤度情報とが生成される。したがって、取得された画像が複数の料理を含む場合であっても、画像中の複数の料理のうちの、1以上の印象言語表現の生成対象とすると判断された料理を示す画像領域から、ユーザがイメージした料理の嗜好を的確に推定することができる。
また、上記の対話処理方法において、前記複数の画像領域のそれぞれの面積、及び前記画像の中心と前記複数の画像領域のそれぞれの中心との距離の少なくとも一方に基づいて、前記複数の画像領域のそれぞれに対して前記1以上の印象言語表現の生成対象とするか否かを判断してもよい。
この構成によれば、複数の画像領域のそれぞれの面積、及び画像の中心と複数の画像領域のそれぞれの中心との距離の少なくとも一方に基づいて、複数の画像領域のそれぞれに対して1以上の印象言語表現の生成対象とするか否かが判断される。したがって、例えば、複数の画像領域のうちの面積が最も大きい画像領域を、1以上の印象言語表現の生成対象とすることができる。また、例えば、複数の画像領域のうちの画像の中心と画像領域の中心との距離が最も短い画像領域を、1以上の印象言語表現の生成対象とすることができる。
また、上記の対話処理方法において、前記コンテンツは、推定した前記料理の嗜好に応じたレシピを含んでもよい。
この構成によれば、ユーザの料理の嗜好に応じたレシピを、当該ユーザに提示することができる。
本開示の他の態様に係る対話処理装置は、対話によりユーザの料理の嗜好を推定する対話処理装置であって、プロセッサと、メモリと、を備え、前記プロセッサは、前記ユーザにより提示された料理の画像を取得し、取得した前記画像から、前記画像の特徴量に対応付けられる前記画像に含まれる料理に関する印象を表した言語表現である1以上の印象言語表現と、前記1以上の印象言語表現ごとの前記画像の特徴量との関連性の度合いを示す尤度情報とを生成し、生成した前記1以上の印象言語表現のそれぞれの前記尤度情報に基づいて、前記1以上の印象言語表現のそれぞれを含む1以上の質問文を生成し、生成した前記1以上の質問文を出力し、出力した前記1以上の質問文のそれぞれに対する前記ユーザの1以上の回答文を取得し、取得した前記1以上の回答文のそれぞれに含まれる積極性を示す言語表現に基づいて、前記1以上の回答文のそれぞれに対応する前記1以上の質問文のそれぞれに含まれる前記印象言語表現の前記尤度情報を修正し、修正した前記尤度情報に基づいて、前記ユーザの料理の嗜好を推定し、推定した前記料理の嗜好に応じたコンテンツを出力する。
この構成によれば、ユーザにより提示された料理の画像から質問文が生成され、生成された質問文に対するユーザの回答文に含まれる積極性を示す言語表現に基づいて、質問文に含まれる印象言語表現の尤度情報が修正され、修正された尤度情報に基づいて、ユーザの料理の嗜好が推定される。したがって、ユーザの料理に対する嗜好を表現した画像から、ユーザがイメージした料理の嗜好を的確に推定することができる。
本開示の他の態様に係る対話処理プログラムは、対話によりユーザの料理の嗜好を推定するための対話処理プログラムであって、コンピュータに、前記ユーザにより提示された料理の画像を取得し、取得した前記画像から、前記画像の特徴量に対応付けられる前記画像に含まれる料理に関する印象を表した言語表現である1以上の印象言語表現と、前記1以上の印象言語表現ごとの前記画像の特徴量との関連性の度合いを示す尤度情報とを生成し、生成した前記1以上の印象言語表現のそれぞれの前記尤度情報に基づいて、前記1以上の印象言語表現のそれぞれを含む1以上の質問文を生成し、生成した前記1以上の質問文を出力し、出力した前記1以上の質問文のそれぞれに対する前記ユーザの1以上の回答文を取得し、取得した前記1以上の回答文のそれぞれに含まれる積極性を示す言語表現に基づいて、前記1以上の回答文のそれぞれに対応する前記1以上の質問文のそれぞれに含まれる前記印象言語表現の前記尤度情報を修正し、修正した前記尤度情報に基づいて、前記ユーザの料理の嗜好を推定し、推定した前記料理の嗜好に応じたコンテンツを出力する。
この構成によれば、ユーザにより提示された料理の画像から質問文が生成され、生成された質問文に対するユーザの回答文に含まれる積極性を示す言語表現に基づいて、質問文に含まれる印象言語表現の尤度情報が修正され、修正された尤度情報に基づいて、ユーザの料理の嗜好が推定される。したがって、ユーザの料理に対する嗜好を表現した画像から、ユーザがイメージした料理の嗜好を的確に推定することができる。
以下本開示の実施の形態について、図面を参照しながら説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。
(実施の形態1)
図1は、本開示の実施の形態1に係る対話処理システムの全体構成を示すブロック図である。図1に示す対話処理システム1は、サーバ2及び端末装置3を備える。
サーバ2は、対話処理装置の一例であり、対話によりユーザの料理の嗜好を推定する。サーバ2は、端末装置3とネットワーク4を介して互いに通信可能に接続されている。ネットワーク4は、例えばインターネットである。
端末装置3は、例えば、携帯電話機、スマートフォン、タブレット型コンピュータ又はパーソナルコンピュータであり、サーバ2から種々の情報を受信するとともに、サーバ2へ種々の情報を送信する。
図2は、本開示の実施の形態1における端末装置及びサーバの構成を示す図である。図2に示す端末装置3は、制御部31、入力部32、メモリ33、表示部34及び通信部35を備える。
制御部31は、例えばプロセッサであり、入力部32、メモリ33、表示部34及び通信部35を制御する。
メモリ33は、例えば半導体メモリであり、料理画像記憶部331を備える。料理画像記憶部331は、ユーザが、思い浮かべたイメージに合致する料理画像を選択するための候補となる料理画像を記憶する。なお、記憶される料理画像は、端末装置3が備えるカメラ(不図示)によって料理を撮影することによって得られる。また、記憶される料理画像は、通信部35によってウェブサイトからダウンロードすることによって得られてもよい。さらに、記憶される料理画像は、あらかじめ端末装置3で用意された料理画像を含んでいてもよい。
表示部34は、例えば液晶表示装置であり、ユーザに提示する種々の情報を表示する。表示部34は、料理画像記憶部331に記憶されている複数の料理画像を表示する。
入力部32は、例えば、タッチパネル、キーボード又はマウスなどであり、ユーザによる情報の入力を受け付ける。入力部32は、画像選択受付部321及び発話文入力受付部322を備える。
画像選択受付部321は、表示部34に表示された複数の料理画像の中から、ユーザが所望する料理画像の選択を受け付ける。例えば、ユーザは、自身の料理の嗜好を言葉で表すのが難しい場合に、自身が思い浮かべたイメージに合致する料理画像を、表示部34に表示された複数の料理画像の中から選択する。表示部34は、画像選択受付部321によって選択された料理画像を表示する。
発話文入力受付部322は、ユーザによる発話文の入力を受け付ける。表示部34は、発話文入力受付部322によって入力されたユーザ発話文を表示する。
通信部35は、サーバ2から種々の情報を受信するとともに、サーバ2へ種々の情報を送信する。通信部35は、画像選択受付部321によって選択された料理画像をサーバ2へ送信する。また、通信部35は、発話文入力受付部322によって入力された発話文をサーバ2へ送信する。また、通信部35は、発話文に対して生成された応答文をサーバ2から受信する。表示部34は、通信部35によって受信された応答文を表示する。
図2に示すサーバ2は、通信部21、プロセッサ22及びメモリ23を備える。
通信部21は、端末装置3から種々の情報を受信するとともに、端末装置3へ種々の情報を送信する。通信部21は、端末装置3によって送信された料理画像を受信する。通信部21は、ユーザにより選択された料理の画像を取得する。また、通信部21は、端末装置3によって送信された発話文を受信する。また、通信部21は、発話文に対して生成した応答文を端末装置3へ送信する。
プロセッサ22は、サーバ2全体を制御する。プロセッサ22は、印象表現生成部221、質問選択部222、対話制御部223、回答積極性判定部224、料理嗜好推定部226、応答文生成部227、レシピ検索部228及びレシピリスト生成部229を備える。
メモリ23は、例えば、半導体メモリであり、画像印象相関モデル記憶部231、対話履歴記憶部232及びレシピデータベース記憶部233を備える。
印象表現生成部221は、通信部21によって取得された料理画像から、料理画像の特徴量に対応付けられる料理画像に含まれる料理に関する印象を表した言語表現である1以上の印象言語表現と、1以上の印象言語表現ごとの料理画像の特徴量との関連性の度合いを示す尤度情報とを生成する。
画像印象相関モデル記憶部231は、料理画像の特徴量と1以上の印象言語表現とを対応付けており、かつ、料理画像の特徴量から印象言語表現ごとの尤度情報を算出するための画像印象相関モデルを予め記憶する。印象表現生成部221は、画像印象相関モデル記憶部231から読み出した画像印象相関モデルに、取得した料理画像を入力することにより、1以上の印象言語表現と1以上の印象言語表現のそれぞれの尤度情報とを生成する。
印象表現生成部221は、通信部21で取得された料理画像に対して、料理画像の特徴量と料理の印象を表す印象言語表現(文字列)との相関を学習した画像印象相関モデルを適用することにより、入力された料理画像に対する1以上の印象言語表現を尤度とともに出力する。
図3は、本実施の形態1における料理画像の一例を示す図であり、図4は、本実施の形態1における印象言語表現の一例を示す図である。図3に示す料理画像401は、鍋料理を表している。印象表現生成部221は、料理画像401から、図4に示す印象言語表現402及び尤度403を生成する。図4に示す例では、料理画像401の識別子として、料理画像IDである「IMG_0001」が割り当てられ、4つの印象言語表現である「野菜たっぷりの」、「日本酒に合う」、「温まる」及び「パーティー向きの」が生成されている。各印象言語表現には、料理画像401の画像特徴量との相関の強さに相当する尤度が割り当てられる。
質問選択部222は、印象表現生成部221によって生成された1以上の印象言語表現のそれぞれの尤度情報に基づいて、1以上の印象言語表現の中から質問文に含める印象言語表現を選択する。
質問選択部222は、印象表現生成部221が生成した印象言語表現のうち、実際にユーザへの質問文の生成に用いる印象言語表現を選択する。1つ目の選択基準は、各印象言語表現の尤度が所定の閾値を上回るか否かである。2つ目の選択基準は、対話履歴記憶部232に記憶されている過去のユーザへの質問文に、同じ印象言語表現が既に使われているか否かである。
本実施の形態1では、尤度の閾値は、例えば0.2である。この閾値が用いられた場合、1つ目の選択基準では、図4に示す印象言語表現402のうち「野菜たっぷりの」、「日本酒に合う」及び「温まる」の3つの印象言語表現が質問文の生成用に選択される。
図5は、本実施の形態1における対話履歴記憶部に記憶される対話履歴の一例を示す図である。
対話履歴記憶部232は、1以上の質問文のうちの既に出力した質問文と、当該質問文に対するユーザの回答文とを履歴情報として記憶する。
履歴情報の各行は、システム応答文と、システム応答文に対応する内部情報と、ユーザ発話文と、ユーザ発話文に対応する内部情報とを表す。1列目の情報は、対話履歴を識別するための識別番号(対話履歴ID)である。システム応答文が生成される毎に、又は、ユーザ発話文が入力される毎に、インクリメントされた番号が付与される。2列目の情報はシステム応答文である。3列目の情報はユーザ発話文である。ユーザが料理画像を入力した場合には、通信部21は、3列目にユーザ発話文ではなく料理画像IDを記憶する。4列目の情報は印象言語表現である。ユーザが料理画像を入力した場合には、印象表現生成部221は、生成した複数の印象言語表現を4列目に記憶する。システム応答文の生成時には、応答文生成部227は、応答文を生成する際に用いた印象言語表現を4列目に記憶する。
5列目の情報は、システムからの質問に対するユーザの回答の積極性を表す数値である。回答積極性判定部224は、ユーザ発話文のユーザの回答表現の積極性を判定した結果を5列目に記憶する。6列目は料理嗜好推定結果である。料理嗜好推定部226は、推定した料理嗜好推定結果を6列目に記憶する。
2つ目の選択基準では、質問選択部222は、対話履歴記憶部232に記憶されている、過去のシステム応答文の生成に用いられた印象言語表現を参照して、現在の料理画像から生成された印象言語表現が既にユーザへの質問に使われていた場合は、当該印象言語表現をユーザへの質問文の生成に用いない。質問選択部222は、印象表現生成部221によって生成された1以上の印象言語表現のうち、既に出力した質問文に含まれる印象言語表現と同じ印象言語表現を削除する。
対話制御部223は、1以上の質問文を出力する順序を決定する。対話制御部223は、質問選択部222によって選択された印象言語表現の尤度の大きさに基づいて、尤度が大きい順に印象言語表現を用いて質問文を生成するように応答文生成部227を制御する。
応答文生成部227は、印象表現生成部221によって生成された1以上の印象言語表現のそれぞれの尤度情報に基づいて、1以上の印象言語表現のそれぞれを含む1以上の質問文を生成する。応答文生成部227は、生成した1以上の質問文を出力する。ここでは、通信部21は、応答文生成部227によって生成された1以上の質問文を端末装置3へ送信する。通信部21は、出力した1以上の質問文のそれぞれに対するユーザの1以上の回答文を取得する。ここでは、通信部21は、送信した1以上の質問文のそれぞれに対するユーザの1以上の回答文を端末装置3から受信する。
応答文生成部227は、対話制御部223が定めた順序に従って、印象言語表現から質問文を生成する。
図6は、本実施の形態1において、印象言語表現から質問文を生成する際に用いられるルールの一例を示す図である。なお、図6に示すルールは、メモリ23に予め記憶されている。図6の表の1列目の情報は、質問文生成の対象とする印象言語表現の尤度の範囲を表す。図6の表の2列目の情報は、印象言語表現から質問文を生成するために用いられる質問文テンプレートである。質問文テンプレート中の<印象言語表現>の部分が、質問文生成対象の印象言語表現に置き換えられて質問文が生成される。例えば、図5の対話履歴記憶部232に記憶される対話履歴において、印象言語表現が「体が温まる」であれば、尤度は0.8であるので、図6の1行目のルールが適用され、「体が温まる」という印象言語表現から「体が温まる料理がいいんですね?」という質問文が生成される。
なお、図6に示すように尤度が高いほど、断定的な文言の質問文が生成される。例えば、尤度が0.7以上1.0以下であれば、「<印象言語表現>料理がいいんですね?」という質問文テンプレートが用いられる。また、例えば、尤度が0.4以上0.7未満であれば、「<印象言語表現>料理がいいですか?」という質問文テンプレートが用いられる。また、例えば、尤度が0.2以上0.4未満であれば、「もしかして<印象言語表現>がいいでしょうか?」という質問文テンプレートが用いられる。
このように、尤度が高い印象言語表現は、ユーザがイメージする料理の嗜好を表している可能性が高いので、尤度が高いほど、断定的な文言の質問文が生成される。
通信部21は、応答文生成部227によって生成されたシステム応答文(質問文)を端末装置3へ送信する。表示部34は、応答文生成部227によって生成されたシステム応答文(質問文)を表示する。発話文入力受付部322は、ユーザがシステム応答文に対して発話する発話文の入力を受け付ける。
回答積極性判定部224は、積極性を示す言語表現と、当該言語表現の積極性に応じた重み値とを対応付けたテーブルから、取得した1以上の回答文のそれぞれに含まれる積極性を示す言語表現のそれぞれに対応付けられた重み値を抽出する。積極性を示す言語表現と、当該言語表現の積極性に応じた重み値とを対応付けたテーブルは、メモリ23に予め記憶されている。
回答積極性判定部224は、発話文入力受付部322で入力されたユーザ発話文がシステム応答文の質問に対して、どれぐらい積極的に同意する回答であるかを判定する。
図7は、本実施の形態1において、回答積極性判定部がユーザ発話文の回答の積極性を判定する際に用いるルールの一例を示す図である。なお、図7に示すルールは、メモリ23に予め記憶されている。
図7の表の各行がそれぞれルールを表している。図7の表の1列目は、ユーザ発話文の回答と文字列照合するための回答表現である。図7の表の2列目は、1列目の回答表現に対応する積極性の判定結果である。図7の表の3列目は、1列目の回答表現及び2列目の積極性の判定結果に対応する重みである。例えば、ユーザ発話文が「まあそうかな」であった場合、回答積極性判定部224は、ユーザ発話文が図7の表の8行目の回答表現と合致するため、積極性の判定結果を「消極的」と判定し、積極性の重みを「0.5」と判定する。
ユーザ発話文がシステム応答文の質問に対して「わからない」又は「どうでもいい」という回答であった場合、あるいは、ユーザ発話文がルール内の回答表現に合致しなかった場合、回答積極性判定部224は、積極性の判定結果を「不明」と判定し、積極性の重みをUK(UNKNOWN)と判定する。
図8は、本実施の形態1における対話履歴記憶部に記憶される対話履歴の第1変形例を示す図である。
図8に示す対話履歴では、対話履歴IDが「0005」及び「0007」であるシステム応答文に対して、ユーザ発話文が「わからない」及び「お腹が空いた」であったため、回答積極性判定部224は積極性の重みをUKと判定している。
対話制御部223は、回答積極性判定部224での積極性判定結果とともにユーザ発話文を受け取り、対話履歴記憶部232にユーザ発話文と積極性判定結果(重み)とを記憶する。
料理嗜好推定部226は、通信部21によって取得された1以上の回答文のそれぞれに含まれる積極性を示す言語表現に基づいて、1以上の回答文のそれぞれに対応する1以上の質問文のそれぞれに含まれる印象言語表現の尤度情報を修正する。料理嗜好推定部226は、修正した尤度情報に基づいて、ユーザの料理の嗜好を推定する。料理嗜好推定部226は、回答積極性判定部224によって抽出された重み値のそれぞれを尤度情報のそれぞれに乗算することにより、印象言語表現の尤度情報を修正する。
料理嗜好推定部226は、対話制御部223が対話履歴記憶部232に記憶したユーザ発話の積極性の重みを用いて、積極性判定の対象となったユーザ発話文の1つ前のシステム応答文の印象言語表現の尤度と積極性の重みとを乗算した値を、印象言語表現と対応させてユーザの料理嗜好推定結果として対話履歴記憶部232に記憶する。例えば、図5において、対話履歴ID「0004」のユーザ発話文「まあそうかな」の積極性の重みは「0.5」であり、1つ前の対話履歴ID「0003」の印象言語表現「体が温まる」の尤度は「0.8」である。この場合、料理嗜好推定部226は、重み0.5を尤度0.8に乗算することにより、尤度を修正する。そして、料理嗜好推定部226は、印象言語表現「体が温まる」と、修正した尤度「0.4」との組み合わせを料理嗜好推定結果として対話履歴記憶部232に記憶する。
積極性の重みが「UK」であった場合は、質問文に対する回答が不明であるため、料理嗜好推定部226は、質問文に対応する印象言語表現から、料理嗜好推定結果を作成しない。図8に示す対話履歴では、対話履歴ID「0006」及び「0008」のユーザ発話文の積極性の重みが「UK」であるため、料理嗜好推定部226は、料理嗜好推定結果を作成していない。
レシピ検索部228は、対話履歴記憶部232に記憶されている対話履歴の料理嗜好推定結果に基づいて、料理嗜好推定結果に合う複数のレシピをレシピデータベース記憶部233から抽出する。
図9は、本実施の形態1のレシピデータベース記憶部に記憶されているレシピデータの一例を示す図である。
レシピデータベース記憶部233は、レシピと、印象言語表現及び尤度とを対応付けたレシピデータを予め記憶する。
図9の2行目以降がレシピデータであり、各行がそれぞれレシピデータを表している。図9の表の1列目の情報は、レシピデータの識別子であるレシピIDである。2列目の情報は、レシピデータのレシピ名である。3列目の情報は、レシピデータに付与された印象言語表現及び尤度の組み合わせである。4列目の情報は、レシピの詳細内容が記載されたWEBコンテンツのURL(Uniform Resource Locator)である。例えば、2行目のレシピID「00001」のレシピデータは、レシピ名が「肉じゃが」であり、印象言語表現及び尤度の組み合わせが「おふくろの味の、0.8」、「家庭的な、0.8」、「煮物の、1.0」、「和風の、1.0」及び「お酒に合う、0.7」であり、詳細URLが「http://xxx/00001.html」である。
レシピ検索部228は、対話履歴記憶部232に記憶されている対話履歴の料理嗜好推定結果の列の全ての印象言語表現及び尤度の組み合わせと、レシピデータベース記憶部233の各レシピデータの印象言語表現及び尤度の組み合わせとのうち、印象言語表現が互いに一致する尤度同士を乗算し、乗算値の和をレシピデータのスコアとして算出する。
例えば、図5に示す対話履歴の「体が温まる、0.4」、「野菜たっぷりの、0.9」及び「日本酒に合う、0.0」という料理嗜好推定結果の列の印象言語表現及び尤度の組み合わせと、図9に示すレシピID「00301」のレシピ名「寄せ鍋」のレシピデータの「盛り上がる、0.5」、「みんなで食べれる、0.8」、「ごちそうの、0.5」、「和風の、1.0」、「鍋物の、1.0」、「パーティー向きの、0.5」、「体が温まる、0.9」、「野菜たっぷりの、0.8」及び「日本酒に合う、0.6」という印象言語表現及び尤度の組み合わせとのうち、互いに一致する印象言語表現は「体が温まる」、「野菜たっぷりの」及び「日本酒に合う」の3つであるので、料理嗜好推定結果の印象言語表現の尤度とレシピデータの印象言語表現の尤度との乗算値の和は、0.4×0.9+0.9×0.8+0.0×0.6=1.08となり、この乗算値の和が、レシピID「00301」のレシピデータのスコアになる。レシピ検索部228は、各レシピデータのスコアを算出した後、スコアが大きい順にレシピデータをソートする。
レシピリスト生成部229は、料理嗜好推定部226によって推定された料理の嗜好に応じたコンテンツを出力する。コンテンツは、例えば、推定された料理の嗜好に応じたレシピである。ここでは、通信部21は、推定された料理の嗜好に応じたコンテンツを端末装置3へ送信する。
レシピリスト生成部229は、レシピ検索部228でソートされたレシピデータのうちの所定の順位までのレシピデータをソートしたレシピリストを作成する。通信部21は、レシピリスト生成部229によって作成されたレシピリストを端末装置3へ送信する。表示部34は、レシピリスト生成部229によって生成されたレシピリストを表示する。
次に、本開示の実施の形態1の対話処理システムの処理の流れについて図10に示すフローチャート沿って説明する。
図10は、本開示の実施の形態1のサーバの動作を説明するためのフローチャートである。
また、図11〜図19は、本開示の実施の形態1の対話処理システムにおけるユーザとシステムとの対話の進行状況を時系列に表した図である。
図11は、本実施の形態1において、表示部に表示される初期ユーザインターフェース画面の一例を示す図である。図12は、本実施の形態1において、料理画像が選択された際に表示されるユーザインターフェース画面の一例を示す図である。図13は、図12に示す料理画像に対する質問文が提示される際に表示されるユーザインターフェース画面の一例を示す図である。図14は、図13に示す質問文に対してユーザの回答文が入力された際に表示されるユーザインターフェース画面の一例を示す図である。図15は、図14に示すユーザの回答文に対する質問文が提示される際に表示されるユーザインターフェース画面の一例を示す図である。図16は、図15に示す質問文に対してユーザの回答文が入力された際に表示されるユーザインターフェース画面の一例を示す図である。図17は、図16に示すユーザの回答文に対する質問文が提示される際に表示されるユーザインターフェース画面の一例を示す図である。図18は、図17に示す質問文に対してユーザの回答文が入力された際に表示されるユーザインターフェース画面の一例を示す図である。図19は、レシピリストがユーザに提示される際に表示されるユーザインターフェース画面の一例を示す図である。
まず、応答文生成部227は、最初の質問文(システム応答文)を生成する(ステップS1)。ここで、応答文生成部227は、例えば、「どんな料理がいいですか?」という最初の質問文を生成する。最初の質問文は、ユーザに対してどのような料理が好みであるかを質問する内容となっている。
次に、通信部21は、応答文生成部227によって生成された最初の質問文を端末装置3へ送信する(ステップS2)。端末装置3の通信部35は、サーバ2によって送信された最初の質問文を受信する。制御部31は、通信部35によって受信された最初の質問文を表示部34に表示させる。表示部34は、システムとユーザとが対話するためのユーザインターフェース画面を表示する。図11に示すように、ユーザインターフェース画面は、料理画像を選択するための画像選択ボタン201と、ユーザが発話文を入力するための発話文入力エリア202と、ユーザによって入力された発話文を送信するための送信ボタン203と、ユーザによって入力された発話文及びシステムによって生成された応答文を表示するための対話表示エリア204とを含む。
最初の質問文が受信された場合、表示部34は、最初の質問文を含む吹き出し画像205を対話表示エリア204内に表示する。図11では、「どんな料理がいいですか?」という最初の質問文を含む吹き出し画像205が表示されている。なお、システム応答文(質問文)及びレシピリストを含む吹き出し画像は、対話表示エリア204の左側に表示される。
図11において、画像選択受付部321は、ユーザが希望する料理をイメージした料理画像のユーザによる選択を受け付ける。図11の画像選択ボタン201が、ユーザによってクリック(タップでも良いが以降クリックと記載する)されることで、表示部34は、画像選択画面を表示する。
図20は、本実施の形態1における画像選択画面の一例を示す図である。ユーザインターフェース画面内の画像選択ボタン201がクリックされると、画像選択画面301が表示される。画像選択受付部321は、図20に示す画像選択画面301でユーザが所望の料理画像の選択を受け付ける。画像選択画面301において、ユーザが所望する料理画像がクリックされると、表示部34は、選択された料理画像の右上にチェックマーク302を表示する。その後、ユーザが送信ボタン303をクリックすると、制御部31は、選択された料理画像を料理画像記憶部331から取得し、図20に示す画像選択画面301を閉じる。その後、図12に示すように、表示部34は、取得した料理画像を含む吹き出し画像206を対話表示エリア204内に表示する。なお、料理画像及びユーザ発話文を含む吹き出し画像は、対話表示エリア204の右側に表示される。
また、通信部35は、画像選択受付部321によって選択された料理画像をサーバ2へ送信する。
図10に戻って、次に、通信部21は、端末装置3から料理画像を受信したか否かを判定する(ステップS3)。料理画像を受信したと判定された場合(ステップS3でYES)、印象表現生成部221は、選択された料理画像から印象言語表現及び尤度を生成する(ステップS4)。例えば、図12の吹き出し画像206に示す料理画像が入力された場合は、図4に示す印象言語表現402及び尤度403が生成される。
次に、質問選択部222は、既に対話履歴記憶部232のシステム応答文に対応する印象言語表現及び尤度の組み合わせを参照し、印象表現生成部221で生成された印象言語表現及び尤度の組み合わせから、既に質問文に使用された印象言語表現及び尤度の組み合わせを削除する(ステップS5)。
次に、質問選択部222は、尤度が所定の閾値(例えば、0.2)より小さい印象言語表現及び尤度の組み合わせを削除する(ステップS6)。図5の対話履歴の対話履歴ID「0002」の時点では、システム応答文に対応する印象言語表現は無いが、「パーティー向きの、0.1」という印象言語表現及び尤度の組み合わせは、尤度が0.2より小さいため、削除される。
次に、対話制御部223は、印象言語表現及び尤度の組み合わせを各印象言語表現の尤度の大きい順にソートし、質問順序を決定する(ステップS7)。図5の例では、印象言語表現及び尤度の組み合わせは、「体が温まる、0.8」、「野菜たっぷりの、0.6」及び「日本酒に合う、0.3」の順にソートされる。そして、対話制御部223は、最初の印象言語表現を取り出し、応答文生成部227に出力する。
次に、応答文生成部227は、図6に示す質問文生成ルールを用いて、印象言語表現及び尤度の組み合わせから質問文を生成する(ステップS8)。例えば、「体が温まる、0.8」という印象言語表現及び尤度の組み合わせからは、「体が温まる料理がいいんですね?」という質問文が生成される。
次に、通信部21は、応答文生成部227によって生成された質問文を端末装置3へ送信する(ステップS9)。端末装置3の通信部35は、サーバ2によって送信された質問文を受信する。制御部31は、通信部35によって受信された質問文を表示部34に表示させる。表示部34は、質問文を表示する。図13に示すように、表示部34は、質問文を含む吹き出し画像207を対話表示エリア204内に表示する。図13では、「体が温まる料理がいいんですね?」という質問文を含む吹き出し画像207が対話表示エリア204内に表示されている。
ステップS9で質問文が端末装置3へ送信された後、ステップS3に処理が戻る。
ここで、発話文入力受付部322は、ユーザによる発話文の入力を受け付ける。ユーザは、インターフェース画面の発話文入力エリア202に、質問文に対する回答を表す発話文を入力し、送信ボタン203をクリックする。入力されたユーザ発話文は対話表示エリア204に表示される。ユーザ発話文が入力された場合、図14に示すように、表示部34は、ユーザ発話文を含む吹き出し画像208を対話表示エリア204内に表示する。図14では、「まあそうかな」というユーザ発話文を含む吹き出し画像208が表示されている。また、ユーザにより送信ボタン203がクリックされると、通信部35は、発話文入力受付部322によって受け付けたユーザ発話文をサーバ2へ送信する。
サーバ2の通信部21は、端末装置3によって送信されたユーザ発話文を受信する。そして、通信部21は、端末装置3から料理画像を受信したか否かを判定する(ステップS3)。ここでは、ユーザ発話文が受信されたので、料理画像を受信していないと判定される。料理画像を受信していないと判定された場合、すなわち、ユーザ発話文を受信したと判定された場合(ステップS3でNO)、回答積極性判定部224は、ユーザ発話文の回答の積極性を図7に示すルールに従って判定する(ステップS10)。例えば、ユーザ発話文が「まあそうかな」である場合は、回答積極性判定部224は、積極性の判定結果を「消極的」と判定し、重みを「0.5」と判定する。
なお、最初の質問文を送信した後、所定時間経過しても、料理画像及びユーザ発話文のいずれも受信されない場合、処理を終了してもよい。
次に、料理嗜好推定部226は、ユーザ発話文の回答に対応する質問文の印象言語表現の尤度に、ユーザ発話文の積極性の重みを乗算し、印象言語表現と、重みを乗算した尤度との組み合わせを、料理嗜好推定結果として算出する(ステップS11)。図14に示す吹き出し画像208の「まあそうかな」というユーザ発話文の積極性の重みが0.5であり、ユーザ発話文に対応する質問文に含まれる印象言語表現「体が温まる」の尤度が0.8であるので、「体が温まる、0.4」という印象言語表現及び尤度の組み合わせが、料理嗜好推定結果として算出される。
次に、回答積極性判定部224は、ユーザ発話文の回答の積極性の重みが閾値より大きいか否かを判定する(ステップS12)。本実施の形態1では、閾値は、例えば0.0とする。ユーザ発話文の回答の積極性の重みが0.0以下である場合は、質問文の生成に用いていない印象言語表現が残っていたとしても、それ以降の質問文は生成しない。これは、ユーザが選択した料理画像から生成された印象言語表現がユーザのイメージに全く合わない場合を考慮したものである。システム応答文の質問に対してユーザが強く否定した場合は、以降の質問に関して尋ねる必要がないと判断する。
図21は、本実施の形態1における対話履歴記憶部に記憶される対話履歴の第2変形例を示す図である。図5に示す対話履歴では、対話履歴ID「0004」及び「0006」のユーザ発話文の積極性の重みは閾値より大きいため、次の質問文が生成されている。一方、図21に示す対話履歴では、対話履歴ID「0006」のユーザ発話文は「違う」であり、積極性の重みは、「0.0」であり、ユーザ発話文の回答の積極性の重みは閾値以下である。そのため、次の印象言語表現及び尤度の組み合わせ「日本酒に合う、0.3」を用いた質問文は生成されない。
応答文生成部227は、2以上の質問文が生成された場合、2以上の質問文のうち、所定の閾値より大きい尤度情報に対応する印象言語表現を含む1の質問文を出力する。そして、対話制御部223は、出力された1の質問文に対して取得したユーザの回答文が、否定的な言語表現を含む場合、1の質問文以外の他の質問文を削除する。
ユーザ発話文の回答の積極性の重みが閾値以下であると判定された場合(ステップS12でNO)、ステップS14に処理が移行する。
一方、ユーザ発話文の回答の積極性の重みが閾値より大きいと判定された場合(ステップS12でYES)、対話制御部223は、質問文の生成に用いていない印象言語表現及び尤度の組み合わせが残っているか否かを判定する(ステップS13)。質問文の生成に用いていない印象言語表現及び尤度の組み合わせが残っていると判定された場合(ステップS13でYES)、ステップS8に処理が戻り、残っている印象言語表現及び尤度の組み合わせに対してステップS8以降の処理が行われる。
例えば、図4に示す例では、印象言語表現「野菜たっぷりの、0.6」及び「日本酒に合う、0.3」という象言語表現及び尤度の組み合わせが残っている。そのため、ステップS8〜ステップS13の処理が行われ、図15〜図18のインターフェース画面が表示される。
「野菜たっぷりの、0.6」という印象言語表現及び尤度の組み合わせからは、「野菜たっぷりの料理がいいですか?」という質問文が生成され、図15に示すように、表示部34は、質問文を含む吹き出し画像209を対話表示エリア204内に表示する。図15では、「野菜たっぷりの料理がいいですか?」という質問文を含む吹き出し画像209が表示されている。発話文入力受付部322は、ユーザによる発話文の入力を受け付ける。「そうなんだよ」というユーザ発話文が入力された場合、図16に示すように、表示部34は、ユーザ発話文を含む吹き出し画像210を対話表示エリア204内に表示する。
また、「日本酒に合う、0.3」という印象言語表現及び尤度の組み合わせからは、「もしかして日本酒に合う料理がいいんでしょうか?」という質問文が生成され、図17に示すように、表示部34は、質問文を含む吹き出し画像211を対話表示エリア204内に表示する。図17では、「もしかして日本酒に合う料理がいいんでしょうか?」という質問文を含む吹き出し画像211が表示されている。発話文入力受付部322は、ユーザによる発話文の入力を受け付ける。「それはいらない」というユーザ発話文が入力された場合、図18に示すように、表示部34は、ユーザ発話文を含む吹き出し画像212を対話表示エリア204内に表示する。
一方、質問文の生成に用いていない印象言語表現及び尤度の組み合わせが残っていないと判定された場合(ステップS13でNO)、ステップS14において、レシピ検索部228は、対話履歴記憶部232に記憶された料理嗜好推定結果の印象言語表現及び尤度の組み合わせに基づいて、レシピデータベース記憶部233の各レシピデータのスコアを算出し、スコアが大きい順にレシピデータを抽出する(ステップS14)。
図5に示す対話履歴において、対話履歴ID「0008」まで対話が進んでいるとすると、「体が温まる、0.4」、「野菜たっぷりの、0.9」及び「日本酒に合う、0.0」の印象言語表現及び尤度の組み合わせが、料理嗜好推定結果として算出される。これらの料理嗜好推定結果に基づいて、図9に示す各レシピデータのスコアが算出され、スコアが大きい順にレシピデータがソートされると、「レシピID=00301、スコア=1.08」、「レシピID=00201、スコア=0.54」、「レシピID=00001、スコア=0.0」及び「レシピID=00101、スコア=0.0」の順にレシピデータが抽出される。
次に、レシピリスト生成部229は、レシピ検索部228によって抽出されたレシピデータのスコアが閾値(例えば、0.1)以上であり、かつ上位から所定の数(例えば、5つ)以内のレシピデータをリスト化したレシピリストを生成する(ステップS15)。
次に、通信部21は、レシピリスト生成部229によって生成されたレシピリストを端末装置3へ送信する(ステップS16)。端末装置3の通信部35は、サーバ2によって送信されたレシピリストを受信する。制御部31は、通信部35によって受信されたレシピリストを表示部34に表示させる。表示部34は、レシピリストを表示する。表示部34は、「次のレシピを提案します。」という定型のシステム応答文と、レシピリストとを表示する。図19に示すように、表示部34は、レシピリストを含む吹き出し画像213を対話表示エリア204内に表示する。図19では、「次のレシピを提案します。」という定型のシステム応答文及びレシピリストを含む吹き出し画像213が表示されている。レシピリストは、レシピ名と、調理方法などのレシピに関する詳細な情報を提示するためのURLとを含む。
なお、本実施の形態1において、応答文生成部227は、印象言語表現に基づいて質問文とともに、質問文に対するユーザの回答例文を生成してもよい。応答文生成部227は、例えば、「体が温まる料理がいいんですね?」という質問文と、「回答例:その通り、はい、まあそうかな、いいえ、わからない」という回答例文とを生成してもよい。表示部34は、「体が温まる料理がいいんですね?」という質問文を表示するとともに、「回答例:その通り、はい、まあそうかな、いいえ、わからない」という回答例文を表示する。ユーザは、これらの回答例文の中から所望の回答文を入力する。そして、端末装置3は、入力された回答文を含むユーザ発話文をサーバ2へ送信する。これにより、ユーザはどのような表現がコンピュータで理解されるかを考えることなく、質問文に対して回答することができる。
また、表示部34は、質問文に対する回答例文をクリック可能なボタンとして表示してもよく、発話文入力受付部322は、クリックされたボタンに対応する回答例文を、テキスト入力されたユーザ発話文として受け付けてもよい。表示部34は、例えば、「その通り」、「はい」、「まあそうかな」、「いいえ」及び「わからない」という複数の回答例文をそれぞれ選択可能なボタンで表示する。ユーザは、複数の回答例文のうち、所望の回答例文に対応するボタンをクリックする。これにより、ユーザはテキスト入力せずにクリックのみで質問文に回答することができる。
また、本実施の形態1では、発話文入力受付部322がユーザによる発話文のテキスト入力を受け付けているが、本開示は特にこれに限定されず、入力部52は音声入力部を備えてもよく、制御部31は音声認識部を備えてもよい。音声入力部は、例えばマイクであり、ユーザによる発話音声データを取得する。音声認識部は、音声入力部によって取得された発話音声データを音声認識し、テキストデータのユーザ発話文に変換する。
また、本実施の形態1において、サーバ2は、レシピ検索部228及びレシピデータベース記憶部233を備えているが、本開示は特にこれに限定されず、サーバ2とは異なる別のサーバが、レシピ検索部228及びレシピデータベース記憶部233を備え、サーバ2は、料理嗜好推定結果を別のサーバへ送信し、別のサーバからレシピデータを受信してもよい。
また、本実施の形態1では、サーバ2はレシピリストを生成しているが、本開示は特にこれに限定されず、サーバ2は、料理嗜好推定結果に基づいて、ユーザの料理の嗜好に応じたレストランをリスト化したレストランリストを生成し、ユーザに提示してもよい。このように、サーバ2は、料理嗜好推定結果に基づいて、ユーザの料理の嗜好に応じた所定のコンテンツを生成し、生成したコンテンツをユーザに提示してもよい。
また、本実施の形態1では、画像選択受付部321は、1つの料理画像の選択を受け付けているが、本開示は特にこれに限定されず、複数の料理画像の選択を受け付けてもよい。この場合、印象表現生成部221は、複数の料理画像のそれぞれから、印象言語表現及び尤度を生成し、各料理画像から得られた印象言語表現のうちの共通する印象言語表現を用いてもよい。
また、本実施の形態1において、通信部21は、印象表現生成部221によって生成された印象言語表現を端末装置3へ送信し、端末装置3は、受信した印象言語表現を表示してもよい。このとき、端末装置3は、表示された印象言語表現が、ユーザの所望する料理の印象を表現しているか否かのユーザによる入力を受け付けてもよい。表示された印象言語表現が、ユーザの所望する料理の印象を表現しているとユーザにより入力された場合、サーバ2は、当該印象言語表現を含む質問文を生成する。一方、表示された印象言語表現が、ユーザの所望する料理の印象を表現していないとユーザにより入力された場合、端末装置3は、別の料理画像の選択をユーザに促す。
(実施の形態2)
上記の実施の形態1では、端末装置3と、端末装置3とネットワークを介して互いに通信可能に接続されたサーバ2とを備える対話処理システム1について説明しているが、実施の形態2では、実施の形態1の端末装置3及びサーバ2の機能を備える対話処理装置について説明する。
図22は、本開示の実施の形態2における対話処理装置の構成を示す図である。対話処理装置5は、例えば、携帯電話機、スマートフォン、タブレット型コンピュータ又はパーソナルコンピュータである。図22に示す対話処理装置5は、プロセッサ51、入力部52、メモリ53及び表示部54を備える。
プロセッサ51は、対話処理装置5全体を制御する。プロセッサ51は、印象表現生成部221、質問選択部222、対話制御部223、回答積極性判定部224、料理嗜好推定部226、応答文生成部227、レシピ検索部228、レシピリスト生成部229及び表示制御部511を備える。
入力部52は、例えば、タッチパネル、キーボード又はマウスなどであり、ユーザによる情報の入力を受け付ける。入力部52は、画像選択受付部321及び発話文入力受付部322を備える。
メモリ53は、例えば半導体メモリであり、料理画像記憶部331、画像印象相関モデル記憶部231、対話履歴記憶部232及びレシピデータベース記憶部233を備える。
表示部54は、例えば液晶表示装置であり、ユーザに提示する種々の情報を表示する。
なお、本実施の形態2と実施の形態1との差異は、通信部を介して情報を送受信するか否かであり、本実施の形態2の基本的な構成は実施の形態1と同じである。以下の説明では、実施の形態1と異なる点について説明する。
表示制御部511は、種々の情報を表示するように表示部54を制御する。表示制御部511は、ユーザが選択可能な複数の料理画像を表示部54に表示する。
画像選択受付部321は、表示部34に表示された複数の料理画像の中から、ユーザが所望する料理画像の選択を受け付ける。画像選択受付部321は、選択された料理画像を印象表現生成部221へ出力する。また、表示制御部511は、画像選択受付部321によって選択された料理画像を表示部54に表示する。
発話文入力受付部322は、ユーザによる発話文の入力を受け付ける。発話文入力受付部322は、入力されたユーザ発話文を回答積極性判定部224へ出力する。また、表示制御部511は、発話文入力受付部322によって入力されたユーザ発話文を表示部54に表示する。
応答文生成部227は、生成したシステム応答文(質問文)を表示制御部511へ出力する。表示制御部511は、応答文生成部227によって生成されたシステム応答文を表示部54に表示する。
レシピリスト生成部229は、生成したレシピリストを表示制御部511へ出力する。表示制御部511は、レシピリスト生成部229によって生成されたレシピリストを表示部54に表示する。
図23は、本開示の実施の形態2の対話処理装置の動作を説明するためのフローチャートである。
ステップS21の処理は、図10に示すステップS1の処理と同じであるので、説明を省略する。
次に、表示制御部511は、応答文生成部227によって生成された最初の質問文を表示部54に表示する(ステップS22)。なお、表示部54は、実施の形態1と同じインターフェース画面を表示する。
次に、表示制御部511は、料理画像が選択されたか否かを判定する(ステップS23)。料理画像が選択されたと判定された場合(ステップS23でYES)、印象表現生成部221は、選択された料理画像から印象言語表現及び尤度を生成する(ステップS24)。
ステップS25〜ステップS28の処理は、図10に示すステップS5〜ステップS8の処理と同じであるので、説明を省略する。
次に、表示制御部511は、応答文生成部227によって生成された質問文を表示部54に表示する(ステップS29)。ステップS29で質問文が表示された後、ステップS23に処理が戻る。
ステップS23で料理画像が選択されていないと判定された場合、すなわち、ユーザ発話文が入力されたと判定された場合(ステップS23でNO)、回答積極性判定部224は、ユーザ発話文の回答の積極性を図7に示すルールに従って判定する(ステップS30)。
ステップS31〜ステップS35の処理は、図10に示すステップS11〜ステップS15の処理と同じであるので、説明を省略する。
次に、表示制御部511は、レシピリスト生成部229によって生成されたレシピリストを表示部54に表示する(ステップS36)。
(実施の形態3)
上記の実施の形態1,2では、料理画像に1つの料理のみが含まれているが、実施の形態3では、料理画像に複数の料理が含まれている例について説明する。
図24は、本開示の実施の形態3における端末装置及びサーバの構成を示す図である。図24に示す対話処理システム1Aは、サーバ2A及び端末装置3を備える。サーバ2Aは、端末装置3とネットワーク4を介して互いに通信可能に接続されている。サーバ2Aは、通信部21、プロセッサ22A及びメモリ23を備える。なお、実施の形態3において、実施の形態1と同じ構成については同じ符号を付し、説明を省略する。
プロセッサ22Aは、サーバ2A全体を制御する。プロセッサ22Aは、印象表現生成部221、質問選択部222、対話制御部223、回答積極性判定部224、料理嗜好推定部226、応答文生成部227、レシピ検索部228、レシピリスト生成部229及び料理画像領域選択部230を備える。
実施の形態3の構成は、料理画像領域選択部230が、実施の形態1の対話処理システム1の通信部21と印象表現生成部221との間に追加された構成となっている。
料理画像領域選択部230は、取得した料理画像が複数の料理を含む場合、料理画像中の複数の料理のそれぞれを示す画像領域を特定し、特定した複数の画像領域のそれぞれに対して1以上の印象言語表現の生成対象とするか否かを判断する。印象表現生成部221は、1以上の印象言語表現の生成対象とすると判断された画像領域から、1以上の印象言語表現と、1以上の印象言語表現のそれぞれの尤度情報とを生成する。料理画像領域選択部230は、複数の画像領域のそれぞれの面積、及び画像の中心と複数の画像領域のそれぞれの中心との距離の少なくとも一方に基づいて、複数の画像領域のそれぞれに対して1以上の印象言語表現の生成対象とするか否かを判断する。
料理画像領域選択部230は、複数の料理が含まれる料理画像の中から、各料理を表す料理画像領域を特定し、特定した複数の料理画像領域の中から、印象表現生成部221において印象言語表現の生成対象となる料理画像領域を選択する。
料理画像領域選択部230は、複数の料理が撮影された料理画像の中から、各料理を囲む矩形状の料理画像領域を特定する。料理画像領域を特定するための方法としては、既存の方法が利用され、例えば、非特許文献1に開示されている方法により実現することができる。
図25は、本開示の実施の形態3において、複数の料理が含まれる料理画像の一例を示す図である。
図25では、料理画像領域選択部230によって、複数の料理が含まれる料理画像1301から、各料理を囲む矩形状の料理画像領域1302,1303,1304が特定される例を示している。
まず、料理画像領域選択部230は、入力された料理画像全体の面積に対する特定された各料理画像領域の面積の割合(面積割合)を算出するとともに、入力された料理画像の中心座標と特定された各料理画像領域の中心座標との相対距離(中心相対距離)dを次の式(1)により算出する。
d=((x/a)+(y/b)1/2・・・・(1)
上記の式(1)において、xは、入力された料理画像の横方向の中心座標と料理画像領域の横方向の中心座標との差分を表し、yは、入力された料理画像の縦方向の中心座標と料理画像領域の縦方向の中心座標との差分を表し、aは、入力された料理画像の横幅の1/2を表し、bは、入力された料理画像の縦幅の1/2を表す。
次に、料理画像領域選択部230は、算出した面積割合及び中心相対距離dに対して、所定のルールを適用して印象言語表現の生成対象とするか否かを決定するとともに、尤度の調整係数を決定する。
図26は、本実施の形態3において、料理画像領域選択部が料理画像領域を印象言語表現の生成対象とするか否かを決定する際に用いるルールの一例を示す図である。なお、図26に示すルールは、メモリ23に予め記憶されている。図26に示すルールは、面積割合及び中心相対距離に対して適用するルールの一例である。
図26の表の各行がそれぞれルールを表している。図26の表の1列目は、ルールを識別するためのルールIDである。図26の表の2列目は、面積割合が満たすべき条件である。図26の表の3列目は、中心相対距離が満たすべき条件である。図26の表の4列目は、料理画像領域を印象言語表現の生成対象とするか否かの判定結果である。図26の表の5列目は、料理画像領域から生成される印象言語表現の尤度を調整するための係数(尤度調整係数)である。
図27は、図25に示す料理画像の中心位置と、特定された各料理画像領域の中心位置とを示す図である。図28は、料理画像及び各料理画像領域の横軸方向の長さ、縦軸方向の長さ、面積、中心座標、料理画像領域選択部によって算出された面積割合、及び料理画像領域選択部によって算出された中心相対距離を示す図である。図27では、入力された料理画像の中心位置を原点とする座標系が示されている。また、料理画像及び料理画像領域の面積は、横軸方向の長さと縦軸方向の長さとを乗算することにより算出される。
図27及び図28の各料理画像領域1302,1303,1304の面積割合及び中心相対距離に対して、図26のルールを適用すると、料理画像領域1302がルールID「0002」のルールを満たすので、料理画像領域1302が印象言語表現の生成対象として選択され、尤度調整係数が0.8に決定される。料理画像領域1303,1304は、ルールID「0001」〜「0003」のルールを満たさないので、ルールID「0004」のルールが適用され、印象言語表現の生成対象として選択されない。
次に、料理画像領域選択部230は、印象言語表現の生成対象として選択された料理画像領域部分を料理画像から切り出して、印象表現生成部221へ出力する。
印象表現生成部221は、実施の形態1で説明した動作により、料理画像領域選択部230からの料理画像領域部分の画像から印象言語表現及び尤度を生成する。また、印象表現生成部221は、生成した印象言語表現の尤度に、料理画像領域選択部230からの尤度調整係数を乗算し、乗算結果を印象言語表現の尤度として出力する。これにより、応答文生成部227が印象言語表現から質問文を生成する際に、入力された料理画像の中で相対的に関心度合いが低い料理画像領域に関して、断定的な表現の質問文にならないようにすることができる。
図29は、図25に示す料理画像が選択された際に、対話履歴記憶部に記憶される対話履歴の一例を示す図である。料理画像領域選択部230は、図25に示す料理画像1301の料理画像領域1302を選択するとともに、尤度調整係数を0.8に決定する。印象表現生成部221は、料理画像領域1302に対して、「がっつりした、0.6」、「スタミナがつく、0.8」及び「パーティー向きの、0.2」という印象言語表現及び尤度の組み合わせを生成する。印象表現生成部221は、生成した尤度に対して、尤度調整係数である0.8を乗算し、乗算結果を対話履歴ID「0002」の尤度として記憶する。
尤度調整係数を乗算する前の印象言語表現及び尤度の組み合わせ(スタミナがつく、0.8)からは、「スタミナがつく料理がいいんですね?」という断定的な表現の質問文が生成される。一方、尤度調整係数を乗算した後の印象言語表現及び尤度の組み合わせ(スタミナがつく、0.64)からは、「スタミナがつく料理がいいですか?」という中立的な表現の質問文が生成される。
図30〜図35は、図25に示す料理画像が選択された際の対話処理システムにおけるユーザとシステムとの対話の進行状況を時系列に表した図である。
図30は、本実施の形態3において、表示部に表示される初期ユーザインターフェース画面の一例を示す図である。まず、サーバ2Aの応答文生成部227は、例えば、「どんな料理がいいですか?」という最初の質問文を生成する。通信部21は、応答文生成部227によって生成された最初の質問文を端末装置3へ送信する。端末装置3の表示部34は、最初の質問文を含む吹き出し画像214を対話表示エリア204内に表示する。
図31は、本実施の形態3において、料理画像が選択された際に表示されるユーザインターフェース画面の一例を示す図である。不図示の画像選択画面において、ユーザが所望する料理画像が選択されると、表示部34は、選択された料理画像を含む吹き出し画像215を対話表示エリア204内に表示する。
図32は、図31に示す料理画像に対する質問文が提示される際に表示されるユーザインターフェース画面の一例を示す図である。サーバ2Aの応答文生成部227は、図6に示す質問文生成ルールを用いて、印象言語表現から質問文を生成する。通信部21は、応答文生成部227によって生成された質問文を端末装置3へ送信する。表示部34は、質問文を含む吹き出し画像216を対話表示エリア204内に表示する。図32では、「スタミナがつく料理がいいですか?」という質問文を含む吹き出し画像216が表示されている。
図33は、図32に示す質問文に対してユーザの回答文が入力された際に表示されるユーザインターフェース画面の一例を示す図である。発話文入力受付部322は、ユーザによる発話文の入力を受け付ける。ユーザは、インターフェース画面の発話文入力エリア202に、質問文に対する回答を表す発話文を入力し、送信ボタン203をクリックする。入力されたユーザ発話文は対話表示エリア204に表示される。ユーザ発話文が入力された場合、表示部34は、ユーザ発話文を含む吹き出し画像217を対話表示エリア204内に表示する。図33では、「その通り」というユーザ発話文を含む吹き出し画像217が表示されている。そして、通信部35は、発話文入力受付部322によって入力されたユーザ発話文(回答文)をサーバ2へ送信する。
図34は、図33に示すユーザの回答文に対する質問文が提示される際に表示されるユーザインターフェース画面の一例を示す図である。「がっつりした、0.48」という印象言語表現及び尤度の組み合わせからは、「がっつりした料理がいいですか?」という質問文が生成される。図34に示すように、表示部34は、「がっつりした料理がいいですか?」という質問文を含む吹き出し画像218を対話表示エリア204内に表示する。
図35は、図34に示す質問文に対してユーザの回答文が入力された際に表示されるユーザインターフェース画面の一例を示す図である。発話文入力受付部322は、ユーザによる発話文の入力を受け付ける。「まあそうかな」というユーザ発話文が入力された場合、図35に示すように、表示部34は、ユーザ発話文を含む吹き出し画像219を対話表示エリア204内に表示する。そして、通信部35は、発話文入力受付部322によって入力されたユーザ発話文(回答文)をサーバ2へ送信する。
この後、レシピ検索部228は、対話履歴記憶部232に記憶された料理嗜好推定結果の印象言語表現及び尤度の組み合わせに基づいて、レシピデータベース記憶部233の各レシピデータのスコアを算出し、スコアが大きい順にレシピデータを抽出する。レシピリスト生成部229は、レシピ検索部228によって抽出されたレシピデータのスコアが閾値(例えば、0.1)以上であり、かつ上位から所定の数(例えば、5つ)以内のレシピデータをリスト化したレシピリストを生成する。通信部21は、レシピリスト生成部229によって生成されたレシピリストを端末装置3へ送信する。端末装置3の表示部34は、受信されたレシピリストを表示する。
以上、本実施の形態3の料理画像領域選択部230の動作により、複数の料理を含む料理画像の中から、主要な料理のみを含む料理画像領域に対して質問文が生成されるとともに、料理画像領域に対するユーザの関心度合いに応じて質問文を適切な表現にすることができる。
なお、実施の形態3においても、実施の形態2と同様の構成にすることが可能である。
以上、本開示の装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つまたは複数の態様の範囲内に含まれてもよい。
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
本開示の実施の形態に係る装置の機能の一部又は全ては典型的には集積回路であるLSI(Large Scale Integration)として実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
また、本開示の実施の形態に係る装置の機能の一部又は全てを、CPU等のプロセッサがプログラムを実行することにより実現してもよい。
また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。
また、上記フローチャートに示す各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、同様の効果が得られる範囲で上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
さらに、本開示の主旨を逸脱しない限り、本開示の各実施の形態に対して当業者が思いつく範囲内の変更を施した各種変形例も本開示に含まれる。
本開示にかかる対話処理方法、対話処理装置及び対話処理プログラムは、ユーザがイメージした料理の嗜好を的確に推定することができ、対話によりユーザの料理の嗜好を推定する対話処理方法、対話処理装置及び対話処理プログラムとして有用である。
1,1A 対話処理システム
2,2A サーバ
3 端末装置
4 ネットワーク
5 対話処理装置
21 通信部
22,22A プロセッサ
23 メモリ
31 制御部
32 入力部
33 メモリ
34 表示部
35 通信部
51 プロセッサ
52 入力部
53 メモリ
54 表示部
221 印象表現生成部
222 質問選択部
223 対話制御部
224 回答積極性判定部
226 料理嗜好推定部
227 応答文生成部
228 レシピ検索部
229 レシピリスト生成部
230 料理画像領域選択部
231 画像印象相関モデル記憶部
232 対話履歴記憶部
233 レシピデータベース記憶部
321 画像選択受付部
322 発話文入力受付部
331 料理画像記憶部
511 表示制御部

Claims (11)

  1. 対話によりユーザの料理の嗜好を推定する対話処理装置における対話処理方法であって、
    前記ユーザにより提示された料理の画像を取得し、
    取得した前記画像から、前記画像の特徴量に対応付けられる前記画像に含まれる料理に関する印象を表した言語表現である1以上の印象言語表現と、前記1以上の印象言語表現ごとの前記画像の特徴量との関連性の度合いを示す尤度情報とを生成し、
    生成した前記1以上の印象言語表現のそれぞれの前記尤度情報に基づいて、前記1以上の印象言語表現のそれぞれを含む1以上の質問文を生成し、
    生成した前記1以上の質問文を出力し、
    出力した前記1以上の質問文のそれぞれに対する前記ユーザの1以上の回答文を取得し、
    取得した前記1以上の回答文のそれぞれに含まれる積極性を示す言語表現に基づいて、前記1以上の回答文のそれぞれに対応する前記1以上の質問文のそれぞれに含まれる前記印象言語表現の前記尤度情報を修正し、
    修正した前記尤度情報に基づいて、前記ユーザの料理の嗜好を推定し、
    推定した前記料理の嗜好に応じたコンテンツを出力する、
    対話処理方法。
  2. 前記1以上の印象言語表現と前記1以上の印象言語表現のそれぞれの前記尤度情報との生成は、前記画像の特徴量と前記1以上の印象言語表現とを対応付けており、かつ、前記画像の特徴量から前記印象言語表現ごとの前記尤度情報を算出するためのモデルに、取得した前記画像を入力することにより、前記1以上の印象言語表現と前記1以上の印象言語表現のそれぞれの前記尤度情報とを生成する、
    請求項1記載の対話処理方法。
  3. 前記1以上の質問文の生成は、生成した前記1以上の印象言語表現のそれぞれの前記尤度情報に基づいて、前記1以上の印象言語表現の中から前記質問文に含める印象言語表現を選択するとともに、前記1以上の質問文を出力する順序を決定する、
    請求項1又は2記載の対話処理方法。
  4. 前記尤度情報の修正は、前記積極性を示す言語表現と、当該言語表現の積極性に応じた重み値とを対応付けたテーブルから、取得した前記1以上の回答文のそれぞれに含まれる前記積極性を示す言語表現のそれぞれに対応付けられた前記重み値を抽出し、抽出した前記重み値のそれぞれを前記尤度情報のそれぞれに乗算する、
    請求項1〜3のいずれか1項に記載の対話処理方法。
  5. さらに、前記1以上の質問文のうちの既に出力した質問文と、当該質問文に対する前記ユーザの回答文とを履歴情報として記憶し、
    前記1以上の質問文の生成は、生成した前記1以上の印象言語表現のうち、既に出力した前記質問文に含まれる前記印象言語表現と同じ印象言語表現を削除する、
    請求項1〜4のいずれか1項に記載の対話処理方法。
  6. 前記1以上の質問文の出力は、2以上の質問文が生成された場合、前記2以上の質問文のうち、所定の閾値より大きい前記尤度情報に対応する印象言語表現を含む1の質問文を出力し、
    さらに、出力した前記1の質問文に対して取得した前記ユーザの回答文が、否定的な言語表現を含む場合、前記1の質問文以外の他の質問文を削除する、
    請求項1〜5のいずれか1項に記載の対話処理方法。
  7. 前記1以上の印象言語表現と前記1以上の印象言語表現のそれぞれの前記尤度情報との生成は、取得した前記画像が複数の料理を含む場合、前記画像中の前記複数の料理のそれぞれを示す画像領域を特定し、特定した複数の画像領域のそれぞれに対して前記1以上の印象言語表現の生成対象とするか否かを判断し、前記1以上の印象言語表現の生成対象とすると判断された画像領域から、前記1以上の印象言語表現と、前記1以上の印象言語表現のそれぞれの前記尤度情報とを生成する、
    請求項1〜6のいずれか1項に記載の対話処理方法。
  8. 前記複数の画像領域のそれぞれの面積、及び前記画像の中心と前記複数の画像領域のそれぞれの中心との距離の少なくとも一方に基づいて、前記複数の画像領域のそれぞれに対して前記1以上の印象言語表現の生成対象とするか否かを判断する、
    請求項7記載の対話処理方法。
  9. 前記コンテンツは、推定した前記料理の嗜好に応じたレシピを含む、
    請求項1〜7のいずれか1項に記載の対話処理方法。
  10. 対話によりユーザの料理の嗜好を推定する対話処理装置であって、
    プロセッサと、
    メモリと、
    を備え、
    前記プロセッサは、
    前記ユーザにより提示された料理の画像を取得し、
    取得した前記画像から、前記画像の特徴量に対応付けられる前記画像に含まれる料理に関する印象を表した言語表現である1以上の印象言語表現と、前記1以上の印象言語表現ごとの前記画像の特徴量との関連性の度合いを示す尤度情報とを生成し、
    生成した前記1以上の印象言語表現のそれぞれの前記尤度情報に基づいて、前記1以上の印象言語表現のそれぞれを含む1以上の質問文を生成し、
    生成した前記1以上の質問文を出力し、
    出力した前記1以上の質問文のそれぞれに対する前記ユーザの1以上の回答文を取得し、
    取得した前記1以上の回答文のそれぞれに含まれる積極性を示す言語表現に基づいて、前記1以上の回答文のそれぞれに対応する前記1以上の質問文のそれぞれに含まれる前記印象言語表現の前記尤度情報を修正し、
    修正した前記尤度情報に基づいて、前記ユーザの料理の嗜好を推定し、
    推定した前記料理の嗜好に応じたコンテンツを出力する、
    対話処理装置。
  11. 対話によりユーザの料理の嗜好を推定するための対話処理プログラムであって、
    コンピュータに、
    前記ユーザにより提示された料理の画像を取得し、
    取得した前記画像から、前記画像の特徴量に対応付けられる前記画像に含まれる料理に関する印象を表した言語表現である1以上の印象言語表現と、前記1以上の印象言語表現ごとの前記画像の特徴量との関連性の度合いを示す尤度情報とを生成し、
    生成した前記1以上の印象言語表現のそれぞれの前記尤度情報に基づいて、前記1以上の印象言語表現のそれぞれを含む1以上の質問文を生成し、
    生成した前記1以上の質問文を出力し、
    出力した前記1以上の質問文のそれぞれに対する前記ユーザの1以上の回答文を取得し、
    取得した前記1以上の回答文のそれぞれに含まれる積極性を示す言語表現に基づいて、前記1以上の回答文のそれぞれに対応する前記1以上の質問文のそれぞれに含まれる前記印象言語表現の前記尤度情報を修正し、
    修正した前記尤度情報に基づいて、前記ユーザの料理の嗜好を推定し、
    推定した前記料理の嗜好に応じたコンテンツを出力する、
    処理を実行させる対話処理プログラム。
JP2018095114A 2018-05-17 2018-05-17 対話処理方法、対話処理装置及び対話処理プログラム Pending JP2019200623A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018095114A JP2019200623A (ja) 2018-05-17 2018-05-17 対話処理方法、対話処理装置及び対話処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018095114A JP2019200623A (ja) 2018-05-17 2018-05-17 対話処理方法、対話処理装置及び対話処理プログラム

Publications (1)

Publication Number Publication Date
JP2019200623A true JP2019200623A (ja) 2019-11-21

Family

ID=68613141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018095114A Pending JP2019200623A (ja) 2018-05-17 2018-05-17 対話処理方法、対話処理装置及び対話処理プログラム

Country Status (1)

Country Link
JP (1) JP2019200623A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020129353A (ja) * 2019-02-12 2020-08-27 味の素株式会社 メニュー検索装置、メニュー検索方法およびメニュー検索プログラム
WO2021201020A1 (ja) 2020-03-31 2021-10-07 株式会社 貝印刃物開発センター 管理サーバ
WO2022065259A1 (ja) * 2020-09-23 2022-03-31 日本たばこ産業株式会社 情報処理装置、情報処理方法、及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020129353A (ja) * 2019-02-12 2020-08-27 味の素株式会社 メニュー検索装置、メニュー検索方法およびメニュー検索プログラム
JP7183847B2 (ja) 2019-02-12 2022-12-06 味の素株式会社 メニュー検索装置、メニュー検索方法およびメニュー検索プログラム
WO2021201020A1 (ja) 2020-03-31 2021-10-07 株式会社 貝印刃物開発センター 管理サーバ
WO2022065259A1 (ja) * 2020-09-23 2022-03-31 日本たばこ産業株式会社 情報処理装置、情報処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
Akeroyd et al. International Collegium of Rehabilitative Audiology (ICRA) recommendations for the construction of multilingual speech tests: ICRA Working Group on Multilingual Speech Tests
CN107797984B (zh) 智能交互方法、设备及存储介质
US20190311070A1 (en) Method and apparatus for generating visual search queries augmented by speech intent
EP3333722A1 (en) Natural language dialog for narrowing down information search results
JP2019200623A (ja) 対話処理方法、対話処理装置及び対話処理プログラム
CN111414462B (zh) 一种对话语句确定方法、装置、计算机设备和介质
US20150228280A1 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
JP2016197227A (ja) 対話方法、対話プログラム及び対話システム
WO2015028607A1 (en) Agent system, agent control method, agent control program, and recording medium, with ability of natural conversation with users
US11531816B2 (en) Search apparatus based on synonym of words and search method thereof
JP5146629B2 (ja) 情報提供装置、情報提供方法、および、記憶媒体
US11869675B2 (en) Provider determination system, methods for determining providers within a provider network, and methods for providing information related to providers to a user
JP2018054850A (ja) 情報処理システム、情報処理装置、情報処理方法、及びプログラム
JP7096172B2 (ja) キャラクタ性に応じた形容発話を含む対話シナリオを生成する装置、プログラム及び方法
JP2018092582A (ja) 情報処理方法、情報処理装置、及び、プログラム
WO2020053172A1 (en) Invoking chatbot in online communication session
TW201734934A (zh) 菜單資訊提供系統、菜單資訊提供方法及非暫時性電腦可讀取記錄媒體菜單資訊提供程式
JP6270085B1 (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
JP2018147525A (ja) 情報処理システム、情報処理装置、情報処理方法、及びプログラム
JP7014646B2 (ja) 応答装置、応答方法、応答プログラム及び応答システム
JP6327682B1 (ja) 情報処理システム、情報処理装置、情報処理方法、及びプログラム
JP2011165046A (ja) 返信メール作成装置および返信メール作成方法
JP6386703B2 (ja) 思い出し支援用プログラム、思い出し支援方法、及び思い出し支援装置。
JP2019128914A (ja) 情報処理装置、応答シナリオ生成方法、及び制御プログラム
JP7081671B2 (ja) 評価プログラム、評価方法および情報処理装置