JP2020013594A - 情報処理方法、プログラム、及び情報処理装置 - Google Patents
情報処理方法、プログラム、及び情報処理装置 Download PDFInfo
- Publication number
- JP2020013594A JP2020013594A JP2019160506A JP2019160506A JP2020013594A JP 2020013594 A JP2020013594 A JP 2020013594A JP 2019160506 A JP2019160506 A JP 2019160506A JP 2019160506 A JP2019160506 A JP 2019160506A JP 2020013594 A JP2020013594 A JP 2020013594A
- Authority
- JP
- Japan
- Prior art keywords
- data
- image
- information processing
- search
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 46
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000003058 natural language processing Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims description 73
- 238000000034 method Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 21
- 238000001514 detection method Methods 0.000 description 44
- 238000004891 communication Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 15
- 230000004048 modification Effects 0.000 description 15
- 238000012986 modification Methods 0.000 description 15
- 238000003384 imaging method Methods 0.000 description 9
- 239000000463 material Substances 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004984 smart glass Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
実施形態では、物体を撮像した画像データから、ユーザ所望の物体を特定し、この特定された物体を用いて画像検索する装置又はシステムについて説明する。実施形態では、ユーザは検索対象の物体に関する情報を発話し、この音声について音声認識及び自然言語の処理が実行される。また、構文解析された単語データが用いられ、画像内の物体が特定される。さらに、構文解析された単語データは、特定された物体とともに、画像検索に用いられてもよい。これにより、画像からユーザ所望の物体を特定しつつ、その物体画像を用いて画像検索を行うことができる。なお、取得される単語データは、ユーザにより入力されたテキストデータから自然言語処理が行われて取得されてもよい。
図1は、実施形態における情報処理システム1の各構成例を示す図である。図1に示す例では、各ユーザが利用する各情報処理装置10A、10B・・・と、音声認識処理を実行するサーバ20Aと、自然言語解析(又は構文解析)を実行するサーバ20Bと、画像から物体を検出するサーバ20Cと、電子商取引プラットフォームを管理するサーバ20Dとが、ネットワークNを介して接続される。なお、各サーバ20A〜Dの少なくとも2つは、一つのサーバに統合されてもよい。
図2は、実施形態に係るユーザ端末10の一例を示すブロック図である。ユーザ端末10は典型的には、1つ又は複数の処理装置(CPU)110、1つ又は複数のネットワーク又は他の通信インタフェース120、メモリ130、ユーザインタフェース150、撮像装置160、及びこれらの構成要素を相互接続するための1つ又は複数の通信バス170を含む。
図4は、実施形態に係る画像関連データ133の一例を示す図である。図4に示す例では、画像関連データ133は、画像IDに関連付けて、画像データ、ブランド、カテゴリ、位置、色、・・・などを含む。画像関連データ133の一例として、画像ID「T−000100」には、画像データ「D1」、ブランド「AAA」、カテゴリ「シャツ」、位置「(x1、y1)」、色「白」などのデータが関連付けられる。なお、他にも、素材などのデータが画像関連データに関連付けられてもよい。
次に、実施形態に係る情報処理システム1の動作について説明する。図7は、実施形態に係る情報処理システム1の処理の一例を示すシーケンス図である。図7に示す例では、サーバ20Aが音声認識モジュール234、サーバ20Bが自然言語処理モジュール235、サーバ20Cが物体検出モジュール236、サーバ20Dが検索処理モジュール237、電子商取引モジュール238を有するとする。
ユーザは、ユーザ端末10に向かって、「Hey ○○、検索アプリであの赤いメ社の靴はいくら?」と発話する。
ユーザ端末10は、マイクから、「Hey ○○、検索アプリであの赤いメ社の靴はいくら?」を音声データで取得する。
ユーザ端末10のネットワーク通信モジュール(送信部)132は、マイクから取得された音声データをサーバ20Aに送信する。
サーバ20Aのネットワーク通信モジュール(受信部)232は、音声データを受信し、音声認識モジュール234は、音声データの「Hey ○○、検索アプリであの赤いメ社の靴はいくら?」をテキストデータに変換する。
サーバ20Aのネットワーク通信モジュール(送信部)232は、「Hey ○○、検索アプリであの赤いメ社の靴はいくら?」のテキストデータをユーザ端末10に送信する。
ユーザ端末10のネットワーク通信モジュール(受信部)132は、テキストデータを受信し、ユーザ端末10は、テキストデータの一部「Hey ○○」をウェイクワードとして、取得したテキストデータを表示する。
ユーザは、ユーザ端末10の画面に表示されたテキストデータを確認し、例えば、OKボタンなどの確認結果を入力する。
ユーザ端末10のネットワーク通信モジュール(送信部)132は、テキストデータをサーバ20Bに送信する。
サーバ20Bのネットワーク通信モジュール(受信部)232は、テキストデータを受信し、自然言語処理モジュール235は、テキストデータを構文解析する。ここで、起動するアプリ「検索」、色「赤い」、キーワード「メ社」、カテゴリ「靴」、使用するUI「いくら?」が単語データとして取得される。
サーバ20Bのネットワーク通信モジュール(送信部)232は、解析済みのテキストデータである単語データを、ユーザ端末10に送信する。
ユーザ端末10のネットワーク通信モジュール132(受信部)は、解析済みのテキストデータを受信し、ユーザ端末10の検索制御モジュール135は、検索アプリが「検索」であるため、検索アプリケーションを起動する。
ユーザ端末10の検索制御モジュール135は、解析済みのテキストデータを、起動中の検索アプリケーションに渡す。
ユーザ端末10は、解析済みのテキストデータを表示する。
ユーザは、ユーザ端末10の画面に表示された解析済みのテキストデータを確認し、例えば、OKボタンなどの確認結果を入力する。なお、ステップS126及びステップS128はオプションの処理である。
ユーザ端末10は、カメラ(撮像装置160)やWebページ、端末内のメディアから画像データを取得する。なお、物体を撮影中にステップS102の音声が入力されてもよい。また、取得された画像データは、画面に表示されてもよい。
ユーザ端末10のネットワーク通信モジュール(送信部)132は、解析済みテキストデータ、画像データをサーバ20Cに送信する。
サーバ20Cのネットワーク通信モジュール(受信部)232は、解析済みテキストデータと画像データとを受信し、物体検出モジュール236は、画像データにより示される画像内の1又は複数の物体を検出する。
サーバ20Cの物体検出モジュール236は、検出した複数の物体に対し、カテゴリ「靴」に基づいてカテゴリ検索を行って検索対象を絞る。
サーバ20Cの物体検出モジュール236は、色「赤い」をもとに色推定を行い、赤い靴のみの矩形領域を取得する。
サーバ20Cの物体検出モジュール236は、画像データに対し、取得された矩形領域を切り取る。この矩形領域が物体画像になり得る。
サーバ20Cの物体検出モジュール236は、矩形領域(物体画像)と、解析済みテキストデータの一部である色「赤い」、キーワード「メ社」、カテゴリ「靴」をもとに、データベース内から類似商品を検索させ、商品情報を取得するようサーバ20Dに要求する。なお、ステップS134〜142の処理は、ユーザ端末10が実行してもよい。
サーバ20Dのネットワーク通信モジュール(受信部)232は、矩形領域と解析済みテキストデータとを受信し、検索処理モジュール237は、取得された矩形領域と解析済みテキストデータとを用いて、類似商品を検索する。
サーバ20Dの検索処理モジュール237は、検索された類似商品の商品情報(価格、色、素材、サイズなど)を、サーバ20Cに送信するよう制御する。
サーバ20Cのネットワーク通信モジュール(送信部)232は、取得された商品情報をユーザ端末10に送信する。
ユーザ端末10の表示制御モジュール136は、使用するUIについて、「いくら」に基づいて価格表示に最適化されたUIを取得する。
ユーザ端末10の表示制御モジュール136は、取得したUIを用いて商品情報を表示するよう制御する。例えば、表示制御モジュール136は、類似商品の平均価格を表示し、残りのデータ項目はオプションとして表示するよう制御してもよい。
ユーザは、ユーザ端末10の画面を見ることで、赤い靴の価格(平均価格等)を把握することができる。
次に、ユーザ端末10の画面に表示される例について説明する。図8は、実施形態に係るユーザ端末10における画面遷移の一例を示す図である。図8に示す左上の画面例では、画面内の靴G2が撮像されている。なお、図8に示す画面は表示制御モジュール136により表示制御される。
また、上述した各実施形態における変形例を以下に示す。
変形例1では、ユーザのジェスチャや物体を指定する操作(例えばタップ操作)を認識し、これらにより画像内の物体を特定する処理を、上述した実施形態に組み合わせる。これにより、より高度な類似物体の検索を行うことを可能にする。ジェスチャ認識については、所定のジェスチャに対し、ユーザ端末10で実行されるコマンドや、サーバ20で実行されるコマンドを割り当てておけばよい。例えば、親指を立てるジェスチャを、検索処理を実行するコマンドに割り当てるなどである。
変形例2では、電子商取引プラットフォームと連携する場合、類似商品の検索だけではなく、電子商取引に関する処理にも応用してもよい。例えば、ユーザは、「この赤いスニーカーはいくらで売れる?」と発話すれば、検索処理モジュール237は、類似商品の販売実績に基づいて売却価格帯を分析し、ユーザ端末10に分析結果を表示させたりすることが可能である。
変形例3では、自然言語処理モジュール235においてユーザの感情を推定し、ユーザの感情データを、単語データに付与することも可能である。この場合、検索処理モジュール237は、ユーザの感情データを用いて検索処理を実行してもよい。例えば、ユーザが食べ物の画像から加盟店を探したい場合、感情が「元気」な場合は、検索処理モジュール237は、賑やかな場所(レストラン)を検索し、感情が「元気がない」場合は、落ち着いた雰囲気の飲食店を検索するようにする。
変形例4では、ユーザ端末10は、撮影中に撮像された画像データだけではなく、過去に撮像され保存されている画像データ(静止画像や動画像)、又は他のアプリケーションが保有している画像データを用いて、それらの画像データにより示される画像内にある所定物体を特定してもよい。また、検索元の物体がデジタルコンテンツに含まれる場合でも、ユーザ端末10がスクリーンショットで静止画像を取得し、画像検索を行うことも可能である。ただし、デジタルコンテンツが物体に関する情報を充分に持っていた場合は、テキストデータを入力させたり、音声を入力させたりしなくてもよい。
変形例5では、音声データを自動翻訳し、外国でも使用可能にする。例えば、ユーザ端末10は、GPS機能等により取得した現在の位置情報やユーザにより入力された国情報等を音声データとともに音声認識モジュール234を含むサーバ20に送信する。音声認識モジュール234は、取得した位置情報や国情報に応じた言語で音声データを自動翻訳し、翻訳後のテキストデータを用いて後段の処理を実行させることが可能である。また、位置情報が取得可能な場合、検索処理モジュール237は、位置情報から特定の加盟店などを絞り込んでもよい。例えば、画像内に複数の店舗が含まれている場合に、所定の加盟店のみを絞り込むことが可能になる。
変形例6では、物体検出モジュール236は、画像内の特徴点群から物体を推定するだけではなく、3次元空間内の特徴点群から物体を推定する方法でもよい。すなわち、物体検出の方法は、二次元画像でも三次元画像でもよい。
変形例7では、サーバ20の各機能モジュールの少なくとも1つをユーザ端末10に有するように実装してもよい。例えば、ユーザ端末10が、音声認識モジュール234を有するようにしたり、物体検出モジュール236を有するようにしたり、検索処理モジュール237を有するようにしたりすることも可能である。
10、10A、10B 情報処理装置(ユーザ端末)
20、20A、20B、20C、20D 情報処理装置(サーバ)
110、210 処理装置(CPU)
120、220 ネットワーク通信インタフェース
130、230 メモリ
131、231 オペレーティングシステム
132、232 ネットワーク通信モジュール
133 画像関連データ
134 テキスト関連データ
135 検索制御制御モジュール
136 表示制御モジュール
137 取引制御モジュール
150 ユーザインタフェース
160 撮像装置
170、270 通信バス
233 物体データ
234 音声認識モジュール
235 自然言語処理モジュール
236 物体検出モジュール
237 検索処理モジュール
238 電子商取引モジュール
Claims (10)
- 情報処理装置に含まれる1又は複数のプロセッサが、
テキストデータを自然言語処理して解析された1又は複数の単語を含む単語データを取得することと、
前記単語データに基づいて特定された物体画像であって、画像内の所定物体を含む物体画像を取得することと、
前記物体画像に類似する類似画像を検索すること、を実行する情報処理方法。 - 前記1又は複数のプロセッサが、
入力された音声を音声認識処理して前記テキストデータを取得すること、をさらに実行する請求項1に記載の情報処理方法。 - 前記類似画像を検索することは、
前記単語データにさらに基づいて、前記類似画像を検索することを含む、請求項1又は2に記載の情報処理方法。 - 前記1又は複数のプロセッサが、
前記画像内で検出された前記所定物体に関する物体関連データを取得すること、をさらに実行し、
前記類似画像を検索することは、
前記単語データ及び前記物体関連データの少なくとも1つに基づいて、前記類似画像を検索することを含む、請求項1又は2に記載の情報処理方法。 - 前記類似画像を検索することは、
所定項目において、前記単語データに含まれるデータと、前記物体関連データに含まれるデータとが異なる場合、両データとも検索に使用しない、又はいずれかのデータを検索に使用することを含む、請求項4に記載の情報処理方法。 - 前記類似画像は、電子商取引プラットフォームにおける商品データベースに登録された商品を示す画像を含む、請求項1乃至5いずれか一項に記載の情報処理方法。
- 前記1又は複数のプロセッサが、
前記単語データに基づいて、前記電子商取引プラットフォームにおける処理を実行すること、をさらに実行する、請求項6に記載の情報処理方法。 - 前記単語データを取得することは、
前記テキストデータを与えるユーザが所有する物体を含むリストがメモリに格納されている場合、前記リスト内の物体に関するデータに基づいて、前記単語データに含まれる単語を修正することを含む、請求項1乃至7いずれか一項に記載の情報処理方法。 - 情報処理装置に含まれる1又は複数のプロセッサに、
テキストデータを自然言語処理して解析された1又は複数の単語を含む単語データを取得することと、
前記単語データに基づいて特定された物体画像であって、画像内の所定物体を含む物体画像を取得することと、
前記物体画像に類似する類似画像を検索すること、を実行させるプログラム。 - 1又は複数のプロセッサを含む情報処理装置であって、
前記1又は複数のプロセッサが、
テキストデータを自然言語処理して解析された1又は複数の単語を含む単語データを取得することと、
前記単語データに基づいて特定された物体画像であって、画像内の所定物体を含む物体画像を取得することと、
前記物体画像に類似する類似画像を検索すること、を実行する情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019160506A JP2020013594A (ja) | 2019-09-03 | 2019-09-03 | 情報処理方法、プログラム、及び情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019160506A JP2020013594A (ja) | 2019-09-03 | 2019-09-03 | 情報処理方法、プログラム、及び情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020013594A true JP2020013594A (ja) | 2020-01-23 |
Family
ID=69170657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019160506A Pending JP2020013594A (ja) | 2019-09-03 | 2019-09-03 | 情報処理方法、プログラム、及び情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020013594A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312927A (zh) * | 2020-02-10 | 2021-08-27 | 丰田自动车株式会社 | 信息处理装置、信息处理方法以及记录介质 |
US20230350940A1 (en) * | 2021-09-28 | 2023-11-02 | Beijing Baidu Netcom Science Technology Co., Ltd. | Object recommendation |
-
2019
- 2019-09-03 JP JP2019160506A patent/JP2020013594A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312927A (zh) * | 2020-02-10 | 2021-08-27 | 丰田自动车株式会社 | 信息处理装置、信息处理方法以及记录介质 |
JP2021124709A (ja) * | 2020-02-10 | 2021-08-30 | トヨタ自動車株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
US11626100B2 (en) | 2020-02-10 | 2023-04-11 | Toyota Jidosha Kabushiki Kaisha | Information processing apparatus, information processing method, and recording medium |
JP7434978B2 (ja) | 2020-02-10 | 2024-02-21 | トヨタ自動車株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
CN113312927B (zh) * | 2020-02-10 | 2024-04-16 | 丰田自动车株式会社 | 信息处理装置、信息处理方法以及记录介质 |
US20230350940A1 (en) * | 2021-09-28 | 2023-11-02 | Beijing Baidu Netcom Science Technology Co., Ltd. | Object recommendation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11636524B2 (en) | Computer vision, user segment, and missing item determination | |
US11694427B2 (en) | Identification of items depicted in images | |
US10891671B2 (en) | Image recognition result culling | |
US9332189B2 (en) | User-guided object identification | |
US10846327B2 (en) | Visual attribute determination for content selection | |
US20190258683A1 (en) | Image Directed Search | |
US11604820B2 (en) | Method for providing information related to goods on basis of priority and electronic device therefor | |
US20190295151A1 (en) | Recommendations based on object detected in an image | |
US9881084B1 (en) | Image match based video search | |
JP5395920B2 (ja) | 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 | |
US9639532B2 (en) | Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts | |
US20240095490A1 (en) | Aspect Pre-selection using Machine Learning | |
JP6185216B1 (ja) | 情報提供システム、情報提供装置、情報提供方法、及びプログラム | |
US20190325497A1 (en) | Server apparatus, terminal apparatus, and information processing method | |
KR20220164625A (ko) | 사진 또는 비디오에서 잠재적 목록에 대한 관심 수집 | |
US9600720B1 (en) | Using available data to assist in object recognition | |
JP2020013594A (ja) | 情報処理方法、プログラム、及び情報処理装置 | |
CN113596496A (zh) | 虚拟直播间的交互控制方法、装置、介质及电子设备 | |
JP5946315B2 (ja) | 画像検索システム | |
US11403697B1 (en) | Three-dimensional object identification using two-dimensional image data | |
WO2015100070A1 (en) | Presenting information based on a video | |
JP7382847B2 (ja) | 情報処理方法、プログラム、及び情報処理装置 | |
KR102334626B1 (ko) | 비대면으로 결혼 정보 상담 서비스를 제공하는 화상 시스템 | |
US20240073518A1 (en) | Systems and methods to supplement digital assistant queries and filter results | |
KR20220135227A (ko) | 사용자 보유 의류 및 미보유 의류를 포함하여 의류 추천 정보를 제공하는 방법, 이를 이용하는 서버 및 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220831 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230728 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230925 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231211 |