JP7345012B2

JP7345012B2 - 情報処理システム、情報処理方法およびプログラム

Info

Publication number: JP7345012B2
Application number: JP2022081114A
Authority: JP
Inventors: 満中澤; 高志友岡
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2020-11-27
Filing date: 2022-05-17
Publication date: 2023-09-14
Anticipated expiration: 2040-11-27
Also published as: TW202221614A; US20220171966A1; JP7076521B1; JP2022109313A; JP2022085253A

Description

本発明は情報処理システム、情報処理方法およびプログラムに関する。

電子商取引において中古品などの商品を販売するサービスがある。そのようなサービスでは、販売者が商品についての画像と説明文とを入力し、購入者がその商品のページにアクセスすると、画像と説明文とが表示され、購入者はその画像と説明文とから、その商品を購入するか検討する。

特許文献１には、出品者から受信した商品画像に基づいて、出品者によって過去に購入された商品の画像の中から類似する類似画像を検索し、検索された類似画像に対応する商品情報を含む出品ページを生成するシステムが開示されている。

特開２０１４－１１５９１２号公報

説明文の内容と画像とがわかりやすく対応せず、商品の説明がわかりにくくなるケースがある。例えばユーザのミスにより説明文において言及された箇所の画像が存在しないケースや、説明文がどの画像の説明をしているか把握しづらいケースでは、商品の説明がわかりにくくなることが懸念される。このような場合には説明文と画像から買い手側のユーザが商品を把握する負担が重くなる。

本発明は上記課題を鑑みてなされたものであって、その目的は、説明文と画像とから商品をより容易に把握することを可能にするための技術を提供することにある。

上記課題を解決するために、本発明にかかる情報処理システムは、電子商取引プラットフォームを提供する情報処理システムであって、商品に関する説明文と１または複数の画像とを取得する取得部と、前記説明文から物体を特定する特定部と、前記１または複数の画像のそれぞれから物体を検出する検出部と、前記説明文から特定された物体と、前記画像から検出された物体との対応に基づいて対応情報を生成する対応部と、を含む。

また、本発明にかかる情報処理方法は、電子商取引プラットフォームを提供するための情報処理方法であって、商品に関する説明文と１または複数の画像とを取得するステップと、前記説明文から物体を特定するステップと、前記１または複数の画像のそれぞれから物体を検出するステップと、前記説明文から特定された物体と、前記画像から前記検出された物体との対応に基づいて対応情報を生成するステップと、を含む。

また、本発明にかかるプログラムは、電子商取引プラットフォームにより取り扱われる商品に関する説明文と１または複数の商品画像とを取得する取得部、前記説明文から１または複数の説明対象を抽出する抽出部、前記説明文から物体を特定する特定部、前記１または複数の画像のそれぞれから物体を検出する検出部、および、前記説明文から特定された物体と、前記画像から前記検出された物体との対応に基づいて対応情報を生成する対応部、としてコンピュータを機能させる。

本発明の一形態では、前記特定部は前記説明文から物体の一部に関する言及部を特定し、前記検出部は、前記１または複数の画像のそれぞれから物体および当該物体の被撮影部を検出し、前記対応部は、前記特定部が特定した物体の言及部と、前記検出部が検出した物体の被撮影部との対応に基づいて対応情報を生成してよい。

本発明の一形態では、前記対応部は、前記説明文から特定された物体のうち、前記画像から検出されたいずれの物体とも対応しない物体を示す情報を含む対応情報を生成してよい。

本発明の一形態では、前記対応部は、前記説明文から特定された物体の言及部のうち、前記画像から検出されたいずれの物体の被撮影部とも対応しない言及部を示す情報を含む対応情報を生成してよい。

本発明の一形態では、情報処理システムは、前記対応情報に基づいて画像の追加を促す通知が表示されるよう制御する表示制御部をさらに含んでよい。

本発明の一形態では、前記対応部は、前記画像から検出された物体と、前記説明文に含まれる文章であって、当該検出された物体に対応し前記説明文から特定された物体を含む文章との対応を示す対応情報を生成し、譲歩処理システムは、前記対応情報に基づいて、ユーザが指し示す画像に含まれる物体に対応する前記文章が表示されるよう制御する表示制御部をさらに含んでよい。

本発明の一形態では、前記表示制御部は、前記画像においてユーザが指し示す物体に対応する前記文章が表示されるよう制御してよい。

本発明により、ユーザは、説明文と画像とから商品をより容易に把握することができる。

本発明の実施形態にかかる情報処理システムの一例を示す図である。情報処理システムが実現する機能を示すブロック図である。情報処理システムの処理を概略的に示すフロー図である。入力される画像の一例を示す図である。説明文解析部の処理の一例を示すフロー図である。説明文に含まれる文章と、その文章から特定される物体語および部分語の一例を示す図である。画像から検出される物体および被撮影部を示す図である。対応生成部の処理の一例を示すフロー図である。物体対応テーブルに格納される情報を説明する図である。セット対応テーブルに格納される情報を説明する図である。対応生成部の処理の一例を示すフロー図である。生成されるメッセージの一例を示す図である。対応生成部の処理の他の一例を示す図である。表示制御部の処理の他の一例を示す図である。画像上にポインタがある場合に出力される文章の一例を示す図である。

以下では、本発明の実施形態を図面に基づいて説明する。同じ符号を付された構成に対しては、重複する説明を省略する。本実施形態では、商品を販売するユーザ（販売者）から商品についての画像と説明文とを取得し、その入力された画像および説明文をチェックし、その画像と説明文とを用いた商品説明ページを、購入側のユーザ（購入候補者）に提示する情報処理システムについて説明する。情報処理システムは、例えば中古商品を販売する中古商品の販売システムである。

図１は、本発明の実施形態にかかる情報処理システムの一例を示す図である。情報処理システムは、情報処理サーバ１と１または複数の顧客端末２とを含む。顧客端末２は、例えばスマートフォンやパーソナルコンピュータなどであり、情報処理システムにより提供されるサービスのユーザ（販売者または購入候補者）により操作される。

情報処理サーバ１は、１または複数の顧客端末２と通信し、販売者であるユーザが操作する顧客端末２から商品の説明情報と商品に関する１または複数の画像とを受信し、説明情報および画像をサービス内に登録する。また購入候補者となるユーザに対して説明情報および画像を提示する。説明情報は、販売者が売る商品を説明するための情報であり、例えば、その商品の説明文、価格に関する情報、商品の種類を示す情報、購入時期といった情報を含む。商品の種類は、例えばメーカーや製品名である。

情報処理サーバ１はプロセッサ１１、記憶部１２、通信部１３、入出力部１４を含む。なお、情報処理サーバ１は、サーバコンピュータである。情報処理サーバ１の処理は、複数のサーバコンピュータにより実現されてもよい。

プロセッサ１１は、記憶部１２に格納されているプログラムに従って動作する。またプロセッサ１１は通信部１３、入出力部１４を制御する。なお、上記プログラムは、インターネット等を介して提供されるものであってもよいし、フラッシュメモリやＤＶＤ－ＲＯＭ等のコンピュータで読み取り可能な記憶媒体に格納されて提供されるものであってもよい。

記憶部１２は、ＲＡＭおよびフラッシュメモリ等のメモリ素子とハードディスクドライブのような外部記憶装置とによって構成されている。記憶部１２は、上記プログラムを格納する。また、記憶部１２は、プロセッサ１１、通信部１３、入出力部１４から入力される情報や演算結果を格納する。記憶部１２は、受信された説明情報と複数の画像とを格納してよい。また、受信された説明情報と複数の画像とを格納するために、情報処理サーバ１と異なるストレージが設けられてもよい。

通信部１３は、他の装置と通信する機能を実現するものであり、例えば無線ＬＡＮ、有線ＬＡＮを実現する集積回路などにより構成されている。通信部１３は、プロセッサ１１の制御に基づいて、他の装置から受信した情報をプロセッサ１１や記憶部１２に入力し、他の装置に情報を送信する。

入出力部１４は、表示出力デバイスをコントロールするビデオコントローラや、入力デバイスからのデータを取得するコントローラなどにより構成される。入力デバイスとしては、キーボード、マウス、タッチパネルなどがある。入出力部１４は、プロセッサ１１の制御に基づいて、表示出力デバイスに表示データを出力し、入力デバイスをユーザが操作することにより入力されるデータを取得する。表示出力デバイスは例えば外部に接続されるディスプレイ装置である。

次に、情報処理システムが提供する機能について説明する。図２は、情報処理システムが実現する機能を示すブロック図である。情報処理システムは、情報取得部５１、説明文解析部５２、画像解析部５３、対応生成部５４、表示制御部５５を含む。これらの機能は、情報処理サーバ１に含まれるプロセッサ１１によって記憶部１２に格納されるプログラムが実行され、通信部１３などを制御することにより実現される。なお、表示制御部５５は、顧客端末２に含まれる図示されないプロセッサ１１、記憶部１２、通信部１３、入出力部１４によって実現されてもよい。この場合、顧客端末２に含まれるプロセッサ１１によって記憶部１２に格納されるプログラムが実行され、入出力部１４などを制御することにより表示制御部５５が実現される。

情報取得部５１は、商品に関する説明文を含む説明情報と、１または複数の画像とを販売者であるユーザが操作する顧客端末２から取得する。１または複数の画像は、販売者が販売する商品に関するものであり、その商品に含まれる１または複数の物体が撮影されたものであってよい。

説明文解析部５２は、説明情報に含まれる説明文を解析することにより、その説明文から物体語を特定する。説明文解析部５２は、さらに説明文からその物体の一部に関する部分語を特定してよい。物体語は物体を示す言葉であり、部分語はその物体の部分を示す言葉である。

画像解析部５３は、１または複数の画像のそれぞれから物体を検出する。画像解析部５３は、さらに、その物体のうち撮影されている部分である被撮影部を検出してよい。

対応生成部５４は、説明文から特定された物体語と、前記画像から検出された物体との対応に基づいて対応情報を生成する。対応生成部５４は、説明文から特定された物体の部分語と、画像から検出された物体の被撮影部との対応に基づいて対応情報を生成してもよい。

対応情報は、説明文から特定された物体語と、画像から検出された物体との対応関係を示す情報であってもよいし、画像から検出されたいずれの物体とも対応しない物体語（部分語であってもよい）を示す情報であってもよい。また、対応情報は、画像から検出された物体と、説明文に含まれる文章であって、その検出された物体に対応しかつ説明文から特定された物体を含む文章との対応を示す情報であってもよい。ここで「文章」は、本明細書においては、１以上の単語で構成され句点で終わる文字列である１つの文であってもよいし、複数の文により構成されてもよい。

表示制御部５５は、対応情報に基づいて顧客端末２に情報を表示させるよう制御することにより、その情報をユーザに提示する。提示される情報は、画像から検出されたいずれの物体とも対応しない物体語または部分語に相当する画像の入力を販売者へ促す情報であってもよいし、購入候補者に対して表示される、画像および説明文を含む商品ページであってもよい。提示される情報が商品ページである場合には、表示制御部５５は、購入候補者であるユーザが指し示す画像に含まれる物体に対応する文章が表示されるよう制御してよい。

図３は、情報処理システムの処理を概略的に示すフロー図である。図３に示される処理は、主に、販売者が商品を登録する際に行われる処理である。はじめに、図示はしていないが、顧客端末２は販売対象となる商品を登録する画面を出力し、ユーザがその画面において入力した説明情報、および複数の画像を、情報処理サーバ１に向けて送信する。

情報取得部５１は、顧客端末２より、説明文を含む説明情報と１または複数の画像とを受信する（ステップＳ１０１）。

図４は、入力される画像の一例を示す図である。図４の例では、商品に関する画像として、ユーザにより撮影されたスマートフォン８０の画像が示されている。より具体的には、この画像は、スマートフォン８０の表側の面（正面）の画像を含む。

次に、説明文解析部５２は、受信された説明文から、物体を示す言葉である物体語と、その物体の一部を言及する言葉である部分語とを特定する（ステップＳ１０２）。なお、物体の種類や説明文の記載によっては、説明文解析部５２は、少なくとも一部の物体について物体語のみ特定してもよい。

図５は、説明文解析部５２の処理の一例を示すフロー図である。はじめに、説明文解析部５２は、形態素解析および構文解析により、説明文から複数の単語およびそれらの単語間の関係を抽出する（ステップＳ２０１）。形態素解析および構文解析については公知の技術であるので詳細の説明を省略する。

説明文解析部５２は、単語の係り受けに基づいて、説明文に含まれる文章のうち、物体の存在を示す文章を抽出する（ステップＳ２０２）。例えば、説明文解析部５２は、物があることを示す単語または単語群（例えば「あります」）が存在する文章を抽出し、物が無いことを示す単語または単語群（例えば「ありません」）が存在する文章を抽出しなくてもよい。以下の処理は抽出された文章に含まれる単語について行われる。

次に説明文解析部５２は、抽出された文章に含まれる単語から、物体を示す単語である物体語を特定し（ステップＳ２０３）、物体の部分を示す単語である部分語を特定する（ステップＳ２０４）。説明文解析部５２は、抽出された単語が予め準備された物体辞書に格納された単語のいずれかである場合にその単語を物体語として特定してよいし、抽出された単語が予め準備された部分辞書に格納された単語のいずれかである場合にその単語を部分語として特定してよい。

物体辞書および部分辞書は、手作業で作成されてもよいし、自動的に作成されてもよい。例えば、販売サービスの商品ページで出現する頻度が高い名詞やTF-IDFの値が高い名詞を物体語または部分語として採用してもよい。また、物体語のゆらぎ表現や同義語を物体辞書や部分辞書に追加してもよい。なお、販売サービスにおいて、販売に寄与する単語か否かを考慮して物体語を選択してもよい。例えば、過去に実際に売れた商品の商品説明文に出現した物体語についてPositiveデータをカウントし、売れなかった商品の商品説明文に出現した物体語についてNegativeデータをカウントし、そのカウント結果を用いて物体語を厳選してもよい。

そして、係り受けの関係にある部分語が存在する物体語がある場合には、その物体語および部分語のセットを特定テーブルに登録する（ステップＳ２０５）。特定テーブルには１または複数のセットが登録される。特定テーブルに登録されるセットのそれぞれは、説明文解析部５２により説明文から特定される物体語および部分語を含む。例えば物体語のみが特定された場合にはセットには部分語は含まれなくてよい。特定テーブルは記憶部１２に格納されている。特定テーブルの代わりに配列のようなリスト状のデータとして記憶部１２に格納されてもよい。

一方、係り受けの関係にある部分語が存在しない物体語がある場合には、その物体語をセットとして特定テーブルに登録する（ステップＳ２０６）。また、係り受けの関係にある物体語が存在しない部分語がある場合には、商品情報に含まれる商品名に基づいて物体語を補完し、その補完された物体語と部分語とのセットを特定テーブルに格納する（ステップＳ２０７）。

図６は、説明文に含まれる文章と、その文章から特定される物体語および部分語の一例を示す図である。図６の物体語の欄および部分語の欄は特定テーブルに格納されたセットの一例を示している。

図６をみると、「保証書」、「イヤホン」、「スマートフォン」といった物体語が特定されている。１番目の文からは物体語「保証書」は特定されたが部分語は特定されず、3番目の文では部分語として「裏側」が特定され、言葉のゆらぎを解消するため「裏側」は「裏面」に変換され、特定テーブルに格納される。４番目の文は否定形であり物体の存在を示す文ではないため、「充電アダプタ」が物体辞書に定義されていても、物体語、部分語は特定テーブルに格納されない。

部分語は、説明文に含まれる言葉であって、物体語により示される物体のうち一部について言及される言葉（言及部）である。

説明文解析部５２によるステップＳ２０２以降の処理は、機械学習モデルを用いて実現されてもよい。ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）と呼ばれる自然言語処理モデルを用い、形態素解析を経由せずに、説明文の文章を自然言語処理モデルに入力して物体語と部分語のセットを直接的に出力として取得してもよい。

説明文解析部５２の処理の一方で、画像解析部５３は、受信された１または複数の画像のそれぞれから、物体およびその物体の被撮影部を検出する（ステップＳ１０３）。実際に検出されるのは厳密には物体の種類であり、物体の種類によっては被撮影部が検出されなくてもよい。

より具体的には、機械学習に基づく画像認識モデルを用いたRegion Proposalという手法を用いてよい。画像解析部５３は、その画像認識モデルに画像を入力し、画像認識モデルから出力される物体とその物体が存在するエリアとを検出結果として出力する。画像認識モデルは、Faster R-CNN、SSD、YOLOを用いてよい。画像解析部５３は、出力される物体を検出された物体としてよい。この場合、画像と検出されるべき物体とを含む教師データにより画像認識モデルが学習される。教師データとして、例えばImageNetと呼ばれる一般的な画像認識データセットを用いてもよい。

画像解析部５３は、方向認識モデルにより推定される方向を取得し、その方向を物体の検出された被撮影部として出力してよい。物体の方向推定には，事前に用意した学習データ（例：保証書の表面・裏面の画像群）を用いて物体ごとに方向認識モデルを構築してもよい。方向認識モデルは、例えばMartin Sundermeyer, Zoltan-Csaba Marton, Maximilian Durner, Manuel Brucker, Rudolph Triebelによる論文「Implicit 3D Orientation Learning for 6D Object Detection from RGB Images」に示されるものを使用してよい。画像解析部５３は物体の３Ｄモデルを入手し、その３Ｄモデルから生成される画像と、入力される画像との類似度から物体の回転パラメータｒを推定してよい。回転パラメータｒは、回転ベクトル・回転行列・クォータニオン・オイラー角のいずれでもよい。ここで、画像解析部５３はマッピング関数ｆを用いて、回転パラメータｒを被撮影部について予め定められた選択肢（例えば表面、裏面、側面）のいずれかに変換してよい。検出された物体について方向の推定が困難である場合（例：ケーブル）は，方向推定の処理はスキップされてもよい。

これまでの処理により検出された物体および被撮影部のセットは、それらが検出された画像と関連付けられて記憶部１２の検出結果テーブルに格納される。ここで、画像認識モデルから、物体および非撮影部の両方が検出結果として出力されてもよい。また検出結果テーブルの代わりに配列などのリスト状のデータとして記憶部１２に格納されてもよい。この場合は、画像認識モデルは、画像と検出されるべき物体および被撮影部とを含む教師データにより学習される。

図７は、画像から検出される物体および被撮影部を示す図であり、検出結果のリストに登録される物体および被撮影部を示す図である。画像１からは物体としてスマートフォンが検出され、被撮影部として正面が検出される。画像２からは充電アダプタと箱との２つの物体が検出される。充電アダプタについては方向や部分による差が小さいため、被撮影部は検出されない。画像３は実際には保証書の画像であるが、画像解析部５３により物体として書類が、被撮影部として正面が検出されている。

説明文解析部５２により物体語等が特定され、画像解析部５３により物体等が検出されると、対応生成部５４は対応情報を生成する（ステップＳ１０４）。対応情報が生成されると、表示制御部５５は表示された対応情報に基づいて顧客端末２の表示を制御する（ステップＳ１０５）。

以下ではステップＳ１０４の処理について説明する。図８は、対応生成部５４の処理の一例を示すフロー図であり、ステップＳ１０４の処理のうち一部を示す。図８に示される処理は、説明文から特定される物体語を含むセット（説明文から特定されるセット）と、画像から検出される物体を含むセット（画像から検出されるセット）、との対応を決定する処理である。

はじめに、対応生成部５４は、説明文に基づいて説明文解析部５２により作成された特定テーブルから、未選択の１つのセットを選択する（ステップＳ４０１）。対応生成部５４は、画像から検出された物体（被撮影部とセットで格納されている物体）から、選択されたセットに含まれる物体語に対応する物体を探す（ステップＳ４０２）。物体語に対応する物体を探す処理においては、より具体的には、対応生成部５４は予め準備された対応表に基づいて選択されたセットに含まれる物体語を画像から検出される物体の種類を識別する識別情報に変換し、画像から検出された物体から、その識別情報が示す物体の種類を有するものを探す。

選択されたセットに含まれる物体語に対応し画像から検出された物体が存在しない場合には（ステップＳ４０２のＮ）、このセットについての処理を終了し、ステップＳ４０８へ遷移する。一方、選択されたセットに含まれる物体語に対応し画像から検出された物体が存在する場合には（ステップＳ４０２のＹ）、対応生成部５４はその物体語と画像から検出された物体とを関連付けて記憶部１２内の物体対応テーブルに格納する（ステップＳ４０３）。

図９は、物体対応テーブルに格納される情報を説明する図である。図９の例では、説明文における「保証書」と画像から検出された「書類」とが関連付けられて物体対応テーブルに格納され、説明文から特定された「スマートフォン」と画像から検出された「スマートフォン」およびその物体が検出された画像とが関連付けられて物体対応テーブルに格納される。

そして、選択されたセットに部分語が含まれない場合には（ステップＳ４０３のＮ）、対応生成部５４はセット中の物体語と、対応する物体およびそれが検出された画像とを関連付けて記憶部１２内のセット対応テーブルに格納する（ステップＳ４０５）。

選択されたセットに部分語が含まれる場合には（ステップＳ４０３のＹ）、対応生成部５４は、対応するとされた物体とともに検出された被撮影部から、部分語に対応するものを検索する（ステップＳ４０６）。部分語に対応する被撮影部が存在する場合には（ステップＳ４０６のＹ）、セット中の物体語および部分語と、画像から検出された物体および被撮影部とを対応づけてセット対応テーブルに格納する（ステップＳ４０７）。部分語に対応する被撮影部が存在しない場合には（ステップＳ４０６のＮ）、ステップＳ４０７をスキップする。

ステップＳ４０８においては、対応生成部５４は、特定テーブルに未選択のセットが存在するか判定する。そして未選択のセットが存在する場合には（ステップＳ４０８のＹ）、ステップＳ４０１からの処理を繰り返す。一方、未選択のセットが存在しない場合には
（ステップＳ４０８のＮ）、図８の処理を終了する。

図１０は、セット対応テーブルに格納される情報を説明する図である。図１０の例では、説明文から抽出された物体である「保証書」については、セットとして部分語が特定されていない。そのため、「保証書」を含むセットは、被撮影部に関わらず、画像から検出された「書類」と「正面」のセットに対して対応関係ありとされ、互いに関連付けてセット対応テーブルに格納される。説明文から特定された「スマートフォン」と「裏面」とのセットについては、画像から検出された「スマートフォン」と「正面」とのセットに対して、部分語と被撮影部との対応がないためセットとして対応しないと判断され、これらのセットはセット対応テーブルに格納されない。

ここで、説明文から特定されたセットと画像から検出されたセットとの対応付けは、他の方法により行われてもよい。例えば説明文から特定される物体語の候補と画像から特定される物体の種類の候補との対応の有無が事前に決定されていなくてもよい。画像解析部５３は、画像から特定される物体の種類を物体の名称として取得し、対応生成部５４は意味空間における、物体語と物体の名称との２点間距離を算出し、物体語と物体の名称との対応関係を、貪欲法や動的計画法に基づいて決定してもよい。なお、意味空間における物体語および物体の名称の座標は、例えばWeb上の膨大なページのような公知の文書に基づいて決定されてよい。

説明文から特定されるセットと、画像から検出されるセットとの対応が決定されると、対応生成部５４は、対応情報として、説明文で言及されているが対応する画像が存在しない物体語または部分語を示す情報を生成する。図１１は、対応生成部５４の処理の一例を示すフロー図である。

対応生成部５４は、説明文に基づいて説明文解析部５２により作成された特定テーブルから、未選択の１つのセットを選択する（ステップＳ４２１）。対応生成部５４は、セット対応テーブルから、選択されたセットと関連付けられる情報が格納されているか検索することにより、選択されたセットと対応付けられ、画像から検出されたセットが存在するか判定する（ステップＳ４２２）。

選択されたセットに対応付けられ、画像から検出されたセットが存在する場合には（ステップＳ４２２のＹ）、この選択されたセットに関する処理は終了し、ステップＳ４２６へ遷移する。

選択されたセットに対応付けられ、画像から検出されたセットが存在しない場合には（ステップＳ４２２のＮ）、物体対応テーブルから、選択されたセットに含まれる物体語と関連付けられる情報が格納されているか検索することにより、選択されたセットに含まれる物体語に対応付けられる、画像から検出された物体が存在するか判定する（ステップＳ４２３）。対応する物体が存在する場合には（ステップＳ４２３のＹ）、対応生成部５４は、対応情報として、説明文の物体語に対応する物体は撮影されているが、説明文で言及されている部分（部分語に対応する部分）が撮影されていない旨のメッセージを生成する
（ステップＳ４２４）。

一方、対応する物体が存在しない場合には（ステップＳ４２３のＮ）、対応生成部５４は、対応情報として、説明文で言及される物体（物体語に対応する物体）が撮影されていない旨のメッセージを生成する（ステップＳ４２５）。

そして、ステップＳ４２６において、対応生成部５４は、特定テーブルに未選択のセットが存在するか判定する。そして未選択のセットが存在する場合には（ステップＳ４２６のＹ）、ステップＳ４２１からの処理を繰り返す。一方、未選択のセットが存在しない場合には（ステップＳ４２６のＮ）、図１１の処理を終了する。

図１２は、生成されるメッセージの一例を示す図である。図１２は、図９，１０に記載のデータに基づいて生成されるメッセージの一例を示している。メッセージは画像の追加を促す通知の一種として生成される。説明文から特定された物体語であるイヤホンについては、画像から検出されイヤホンに対応付けられた物体が存在しないため、物体が検出されず、イヤホンの撮影を促すメッセージが生成されている。一方、説明文から特定されたスマートフォンについては、画像から検出され対応する物体は存在するものの、部分語と被撮影部とが対応していないため、その部分語が示す部分の撮影を促すメッセージが生成される。

図１１に示される処理が実行されると、表示制御部５５は、ステップＳ１０５において、メッセージが生成されている場合には、生成されたメッセージを顧客端末２が表示するように制御する。具体的には、表示制御部５５はメッセージを含む表示データを顧客端末２へ送信することにより表示を制御する。また、表示制御部５５は単に不足する物体または部分を示す対応情報を顧客端末２へ送信し、顧客端末が対応情報からメッセージを生成して出力してもよい。また顧客端末２の側で表示制御部５５としてメッセージの生成が行われてもよい。顧客端末２を操作する販売者は、追加の画像を顧客端末２から送信し、情報取得部５１はその画像を取得する。その後、情報処理システムは図３のステップＳ１０２以降の処理を実行してもよい。

このように、説明文で言及されているが対応する画像が存在しない物体語または部分語を示すメッセージを生成して表示することで、販売者は、説明文の記載と画像とが整合しないことが容易にわかり、その不整合を容易に改善できる。これにより、説明文と画像との整合性が確保され、ユーザは、説明文と画像とから商品をより容易に把握することができる。

ここで、対応情報として、セット対応テーブルや物体対応テーブルのような情報が生成されてもよいし、画像と説明文に含まれる文章との関連を示す情報が生成されてもよい。

図１３は、対応生成部５４の処理の他の一例を示す図であり、図８に示される処理の後に、図１１に示される処理の代わり、または並行して実行される処理を示す図である。

図１３に示される処理では、対応生成部５４は、セット対応テーブルから、画像から検出された物体および被撮影部のセットを選択する（ステップＳ５０１）。対応生成部５４は、選択されたセット対応付けられ説明文から特定されたセットを取得し、そのセットに含まれる物体語および部分語を含む文章を取得する（ステップＳ５０２）。この文章は説明文に含まれる文章であり、対応生成部５４は説明文から物体語および部分語を含む文章を探して抽出することによりその文章を取得してもよいし、説明文解析部５２が物体語および部分語のセットと、そのセットが特定された文章とを関連付けて記憶部１２に格納しておき、対応生成部５４が物体語および部分語のセットに関連付けて格納される文章を取得してもよい。もちろん、説明文から特定されたセットに物体語しか格納されていない場合にも、対応生成部５４はその物体語が特定された文章を取得してよい。

文章が取得されると、対応生成部５４は、選択されたセットが検出された画像と、取得された文章とを関連付ける情報を対応情報として生成する（ステップＳ５０３）。そして、セット対応テーブルに未選択の画像から検出されたセットが存在する場合には（ステップＳ５０４のＹ）、対応生成部５４はステップＳ５０１からの処理を繰り返す。一方、セット対応テーブルに未選択の画像から検出されたセットが存在しない場合には（ステップＳ５０４のＮ）、図１３の処理を終了する。

図１３に示される処理により、物体または被撮影部が検出される画像と、その物体または被撮影部に対応する物体語または部分語が特定された文章とが対応付けられる。

以下では、この対応情報を用いた表示制御について説明する。図１４は、表示制御部５５の処理の他の一例を示す図である。図１４に示される処理は、購入候補者であるユーザの操作により、顧客端末２に画像を含む商品説明ページが表示されている際に行われる処理であり、商品説明ページとともに対応情報を受信した顧客端末２により実行されている。

はじめに、表示制御部５５はユーザが操作するポインタが、いずれかの画像の上に位置するか判定する（ステップＳ５２１）。ポインタはユーザインタフェースにおいてユーザが指し示す位置を表示するものである。表示制御部５５はポインタが画像の上にある場合には（ステップＳ５２１のＹ）、対応情報に基づいて、関連付けられた文章が存在するか判定する（ステップＳ５２２）。関連付けられた文章が存在する場合には（ステップＳ５２２のＹ）、表示制御部５５は関連付けられた文章をその画像の上または周囲に表示させる（ステップＳ５２３）。

図１５は、画像上にポインタがある場合に出力される文章の一例を示す図である。図１５に示されるポインタはいわゆるマウスポインタであり、顧客端末２がパーソナルコンピュータである場合の例である。このように、ポインタの存在する画像に対応する説明文が表示されることにより、画像に対応する文章を容易に確認することができ、商品の理解が容易になる。

ここで、対応生成部５４は、対応情報として、画像そのものの代わりに、画像のうち物体が特定された領域と、説明文とを関連付ける情報を生成してもよい。この場合には、表示制御部５５は、ポインタが、画像のうち対応情報に含まれる領域に位置する場合に限って関連付けられた文章を画像の上または周囲に表示させてよい。

１情報処理サーバ、２顧客端末、１１プロセッサ、１２記憶部、１３通信部、１４入出力部、５１情報取得部、５２説明文解析部、５３画像解析部、５４対応生成部、５５表示制御部、８０スマートフォン。

Claims

電子商取引プラットフォームを提供する情報処理システムであって、
商品に関する説明文と１または複数の画像とを取得する取得部と、
前記説明文から物体を特定し、当該説明文から前記物体の一部に関する言及部を特定する特定部と、
前記１または複数の画像のそれぞれから物体の被撮影部を検出する検出部と、
前記特定部が特定した前記物体の言及部と、前記検出部が検出した前記物体の被撮影部との対応に基づいて対応情報を生成する対応部と、
を含む情報処理システム。
請求項１に記載の情報処理システムにおいて、
前記検出部は、前記物体の方向を、物体ごとに構築される方向認識モデルであって、物体の画像を含む学習データにより学習された方向認識モデルにより推定し、前記推定された方向を前記被撮影部として検出する、
情報処理システム。
請求項１または２に記載の情報処理システムにおいて、
前記対応部は、前記説明文から特定された物体の言及部のうち、前記画像から検出されたいずれの物体の被撮影部とも対応しない言及部を示す情報を含む対応情報を生成する
情報処理システム。
請求項３に記載の情報処理システムにおいて、
前記対応情報に基づいて画像の追加を促す通知が表示されるよう制御する表示制御部をさらに含む、
情報処理システム。
電子商取引プラットフォームを提供するための情報処理方法であって、
取得部が、商品に関する説明文と１または複数の画像とを取得するステップと、
特定部が、前記説明文から物体を特定し、当該説明文から前記物体の一部に関する言及部を特定するステップと、
検出部が、前記１または複数の画像のそれぞれから物体の被撮影部を検出するステップと、
対応部が、前記説明文から特定された言及部と、前記画像から前記検出された被撮影部との対応に基づいて対応情報を生成するステップと、
を含む情報処理方法。
電子商取引プラットフォームにより取り扱われる商品に関する説明文と１または複数の商品画像とを取得する取得部、
前記説明文から物体を特定し、当該説明文から前記物体の一部に関する言及部を特定する特定部、
前記１または複数の画像のそれぞれから物体の被撮影部を検出する検出部、および、
前記特定部が特定した前記物体の言及部と、前記検出部が検出した前記物体の被撮影部との対応に基づいて対応情報を生成する対応部、
としてコンピュータを機能させるためのプログラム。