JP6844143B2

JP6844143B2 - 情報処理装置

Info

Publication number: JP6844143B2
Application number: JP2016152282A
Authority: JP
Inventors: 友紀谷口; 茂之榊; 大熊　智子; 智子大熊; 康秀三浦; 元樹谷口
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2016-08-02
Filing date: 2016-08-02
Publication date: 2021-03-17
Anticipated expiration: 2036-08-02
Also published as: JP2018022290A

Description

本発明は、情報処理装置及びプログラムに関する。

例えば、特許文献１には、表示装置を備える、消費者の消費者コンピュータに電子的に
配信される構造化文書をカスタマイズする方法であって、消費者コンピュータにおいて構造化文書を受信し、構造化文書を、それぞれ複数の選択可能なコンテンツ代替を有する複数の可変コンテンツセクションにセグメント化し、各可変コンテンツセクション毎に、コンテンツ代替を消費者の消費者プロファイルに対して評価することで、セクションを増補するコンテンツ代替の１つを選択し、セクションを選択されたコンテンツ代替で増補し、増補した構造化文書を消費者に対して表示装置上に提示する技術が開示されている。

特表２００２−５２０６８９号公報

従来、ある程度の数のデータを入力して解析を行い、そのデータから有用な規則や判断基準などを導出する機械学習の技術が知られている。このような機械学習では、各種の様々なデータが入力されて訓練や識別の処理が行われる。例えば複数形式の情報を入力のデータとして用いる場合には、入力する情報に欠落のないことが望ましい。
本発明は、複数形式の情報を用いて機械学習を行う場合に、欠けている情報を補間しない構成と比較して、訓練及び識別の少なくとも何れか一方の精度を向上させることを目的とする。

請求項１に記載の発明は、複数形式の情報のうち一部の形式の情報が欠けている場合に、当該複数形式の情報に関連し欠けている情報の形式を有する関連情報により、欠けている形式の情報を補間する補間手段と、前記欠けている形式の情報が補間された前記複数形式の情報を用いて、訓練及び識別の少なくとも何れか一方の処理を実行する処理実行手段とを備え、前記補間手段は、前記関連情報として、前記複数形式の情報のうち欠けていない情報が投稿された時刻から予め定められた時間内に投稿された情報を取得することを特徴とする情報処理装置である。
請求項２に記載の発明は、複数形式の情報のうち一部の形式の情報が欠けている場合に、当該複数形式の情報に関連し欠けている情報の形式を有する関連情報により、欠けている形式の情報を補間する補間手段と、前記欠けている形式の情報が補間された前記複数形式の情報を用いて、訓練及び識別の少なくとも何れか一方の処理を実行する処理実行手段とを備え、前記補間手段は、前記関連情報として、前記複数形式の情報のうち欠けていない情報が投稿された位置から予め定められた範囲内の位置にて投稿された情報を取得することを特徴とする情報処理装置である。
請求項３に記載の発明は、前記補間手段は、前記複数形式の情報のうち第１形式の情報が欠けており、第２形式の情報が欠けていない場合に、当該欠けていない第２形式の情報との類似度が予め定められた条件を満たす第２形式の他の情報と共に投稿された第１形式の情報を、前記関連情報として取得することを特徴とする請求項１又は２に記載の情報処理装置である。
請求項４に記載の発明は、前記補間手段は、前記欠けていない第２形式の情報がテキスト形式の情報である場合に、テキスト形式の情報から算出される文書ベクトルの類似度により、当該欠けていない第２形式の情報との類似度が予め定められた条件を満たすテキスト形式の他の情報と共に投稿された第１形式の情報を、前記関連情報として取得することを特徴とする請求項３に記載の情報処理装置である。

請求項１記載の発明によれば、複数形式の情報を用いて機械学習を行う場合に、欠けている情報を補間しない構成と比較して、訓練及び識別の少なくとも何れか一方の精度を向上させることができる。
請求項２記載の発明によれば、複数形式の情報を用いて機械学習を行う場合に、欠けている情報を補間しない構成と比較して、訓練及び識別の少なくとも何れか一方の精度を向上させることができる。
請求項３記載の発明によれば、複数形式の情報のうち一部が欠けている場合に、欠けていない情報との類似度を基にして補間することができるようになる。
請求項４記載の発明によれば、複数形式の情報の多くにテキスト形式の情報が含まれる場合に、多くの複数形式の情報について補間することができるようになる。

機械学習の一例を説明するための図である。本実施の形態が適用されるコンピュータシステムの全体構成例を示した図である。本実施の形態に係るマルチモダル識別装置のハードウェア構成例を示す図である。実施の形態１に係るマルチモダル識別装置の機能構成例を示したブロック図である。（ａ）、（ｂ）は、実施の形態１に係る関連情報の選択処理の一例を説明するための図である。（ａ）は、実施の形態１に係るマルチモダル識別装置による訓練時の処理の手順を示したフローチャートである。（ｂ）は、実施の形態１に係るマルチモダル識別装置による識別時の処理の手順を示したフローチャートである。実施の形態１の変形例におけるマルチモダル識別装置の機能構成例を示したブロック図である。（ａ）、（ｂ）は、テキスト情報の類似度の一例を示した図である。実施の形態２に係るマルチモダル識別装置の機能構成例を示したブロック図である。（ａ）、（ｂ）は、実施の形態２に係る関連情報の選択処理の一例を説明するための図である。（ａ）は、実施の形態２に係るマルチモダル識別装置による訓練時の処理の手順を示したフローチャートである。（ｂ）は、実施の形態２に係るマルチモダル識別装置による識別時の処理の手順を示したフローチャートである。

以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
＜背景＞
まず、本実施の形態の背景について説明する。
図１は、機械学習の一例を説明するための図である。図１に示す例は、ニューラルネットワークのモデルを用いた機械学習を示している。具体的には、入力されるデータ（入力データ）は入力層を通り、中間層、出力層を通過して処理され、出力結果（出力データ）が生成される。訓練の処理では、複数のデータを入力し、入力層、中間層、出力層を繋ぐ重み付けの調整が行われる。このような訓練を行って重み付けを調整することにより、何らかのデータを入力して識別する場合に希望する出力結果が得られるようになる。

なお、一般に、機械学習では、事前に人間により判断基準が示されたデータ、いわゆる教師データを基に訓練を行い、入力データに対して適正な出力を行う規則を導出する教師付き学習が知られている。また、入力されるデータのみが与えられ、そのデータを基に訓練を行い、コンピュータ自身が一定の基準に基づき自動でそれを適正化するような出力の割り当てを求める教師なし学習も知られている。

そして、本実施の形態は、マルチモダルな情報（以下、マルチモダル情報と称する）、言い換えると、複数のコミュニケーション様式からなる情報を利用して、機械学習を行うものである。即ち、本実施の形態では、マルチモダル情報を用いて訓練を行い、重み付けを調整する。そして、重み付けの調整を行ったモデルに対してデータを入力し、入力したデータの識別を行う。

ここで、マルチモダル情報には、例えば、テキスト、画像、動画、音声などの形式（コミュニケーション様式）の情報が含まれており、これらの複数の形式、言い換えると、少なくとも２つ以上の形式の情報が含まれている。なお、テキストとは、文字コードで構成された文字列や文書のデータを示す。
このようなマルチモダル情報としては、例えば、Ｔｗｉｔｔｅｒ（登録商標）,Ｉｎｓｔａｇｒａｍ（登録商標）などのソーシャル・ネットワーキング・サービス（ＳＮＳ）にてユーザに投稿され、公開されている情報を例示することができる。

例えば、投稿内容として、「かわいい」というテキストと、「犬」の画像とが一緒に投稿されている場合を考える。このような場合には、テキスト及び画像というマルチモダル情報を扱っているからこそ、「犬」を「かわいい」と表現した投稿であり、例えば、投稿者が愛犬家であると予測することができる。一方、例えば「かわいい」というテキストのみであれば、その「かわいい」とされる対象は不明であるし、例えば「犬」の画像のみであれば、犬に対して好きか嫌いかの判断をすることができない。このように、マルチモダル情報を用いることで、１つの形式の情報のみを用いる場合と比較して、ユーザの嗜好や行動などを予測し易くなる。予測されたユーザの嗜好や行動などの情報は、例えば広告配信などのマーケティングの情報として活用することができる。

ところで、例えば、Ｔｗｉｔｔｅｒ、ＩｎｓｔａｇｒａｍなどのＳＮＳで投稿される情報は、２つ以上の形式の情報が含まれておらず、マルチモダル情報ではない場合も多い。例えば、Ｔｗｉｔｔｅｒはテキストの投稿がメインのＳＮＳであり、テキスト情報はある一方で画像情報は欠落していることが多い。また、例えば、Ｉｎｓｔａｇｒａｍは画像投稿がメインのＳＮＳであり、画像情報はある一方でテキスト情報は欠落していることが多い。そのため以下にて、マルチモダル情報を用いた機械学習を行うために、複数形式の情報のうち欠落している一部の情報を補間する手順について、説明する。

＜システムの全体構成＞
本実施の形態が適用されるコンピュータシステムについて説明する。図２は、本実施の形態が適用されるコンピュータシステムの全体構成例を示した図である。図示するように、このコンピュータシステムでは、クライアント端末１００（図示の例では、クライアント端末１００ａ〜１００ｃ）、情報記憶装置２００、マルチモダル識別装置３００がネットワーク４００に接続されている。

クライアント端末１００は、ユーザが使用する端末装置であり、例えば、携帯情報端末（いわゆる、スマートフォンやタブレット端末等）やＰＣ（Personal Computer）などを例示することができる。ユーザは、このクライアント端末１００を使用して、例えば、ＴｗｉｔｔｅｒやＩｎｓｔａｇｒａｍ等のサービスにおいて、テキストや画像を投稿する。言い換えると、クライアント端末１００は、ユーザの操作入力に基づいて、テキストや画像等のユーザが投稿する情報（以下、投稿情報と称する）を情報記憶装置２００へ送信する。なお、図２では、３台のクライアント端末１００しか示していないが、３台に限定されるものではなく、実際には、例えば、ＴｗｉｔｔｅｒやＩｎｓｔａｇｒａｍ等の各種サービスを利用している複数のクライアント端末が対象となる。

情報記憶装置２００は、クライアント端末１００から取得した投稿情報を記憶するコンピュータ装置であり、サーバ等を例示することができる。より具体的には、情報記憶装置２００は、例えば、ＴｗｉｔｔｅｒやＩｎｓｔａｇｒａｍ等の各種サービスを提供するために設けられたサーバである。なお、図２では、１台の情報記憶装置２００しか示していないが、１台に限定されるものではなく、実際には、各種サービス毎に設けられたり、１つのサービスでも複数の情報記憶装置２００が設けられたりするものとする。

マルチモダル識別装置３００は、マルチモダル情報を利用して機械学習を行うコンピュータ装置である。マルチモダル識別装置３００としては、例えば、ＰＣ、ワークステーション等が例示される。
より具体的には、マルチモダル識別装置３００は、情報記憶装置２００に記憶された投稿情報を取得し、取得した投稿情報を基に訓練を行う。詳しくは後述するが、この訓練において、マルチモダル識別装置３００は、取得した投稿情報がマルチモダル情報ではなく、欠落している情報がある場合、欠落している情報を補間してから訓練を行う。
また、マルチモダル識別装置３００は、訓練により訓練モデルを生成した後、生成した訓練モデルを用いて、情報記憶装置２００から取得した投稿情報の識別を行う。詳しくは後述するが、この識別において、マルチモダル識別装置３００は、取得した投稿情報がマルチモダル情報ではなく、欠落している情報がある場合、欠落している情報を補間してから識別を行う。

ネットワーク４００は、クライアント端末１００、情報記憶装置２００、マルチモダル識別装置３００の間の情報通信に用いられる通信手段であり、例えば、インターネットである。

なお、図２に示す例では、マルチモダル識別装置３００は、情報記憶装置２００から、直接、投稿情報を取得することとしたが、このような構成に限られるものではない。例えば、情報記憶装置２００の投稿情報を記憶しておく別の記憶装置を設けて、マルチモダル識別装置３００が、その別の記憶装置から投稿情報を取得するような構成にしても良い。

＜マルチモダル識別装置３００のハードウェア構成＞
次に、本実施の形態に係るマルチモダル識別装置３００のハードウェア構成について説明する。図３は、本実施の形態に係るマルチモダル識別装置３００のハードウェア構成例を示す図である。図示するように、マルチモダル識別装置３００は、演算手段であるＣＰＵ（Central Processing Unit）３０１と、記憶手段であるメインメモリ３０２及び磁気ディスク装置３０３とを備える。

ここで、ＣＰＵ３０１は、ＯＳ（Operating System）やアプリケーション等の各種プログラムを実行し、マルチモダル識別装置３００の各種機能を実現する。また、メインメモリ３０２は、各種プログラムやその実行に用いるデータ等を記憶する記憶領域である。また、磁気ディスク装置３０３は、各種プログラムに対する入力データや各種プログラムからの出力データ等を記憶する記憶領域である。
さらに、マルチモダル識別装置３００は、外部との通信を行うための通信インタフェース（通信Ｉ／Ｆ）３０４と、ビデオメモリやディスプレイ等からなる表示機構３０５と、キーボードやマウス等の入力デバイス３０６とを備える。

［実施の形態１］
＜マルチモダル識別装置の機能構成＞
実施の形態１について説明を行う。
図４は、実施の形態１に係るマルチモダル識別装置３００の機能構成例を示したブロック図である。マルチモダル識別装置３００は、投稿情報における情報の欠落を検出する情報欠落検出部３１１と、欠落している情報を補間するための情報である関連情報を選択する関連情報選択部３１２と、欠落した情報を関連情報により補間する情報補間部３１３と、投稿情報を基に訓練及び識別を行うマルチモダル識別部３１４と、訓練により生成される訓練モデルを格納する訓練モデル格納部３１５とを備える。

情報欠落検出部３１１は、情報記憶装置２００から訓練又は識別に用いる投稿情報を取得する。そして、情報欠落検出部３１１は、取得した投稿情報において情報の欠落があるか否かを判定する。より具体的には、情報欠落検出部３１１は、取得した投稿情報が予め定められた欠落の条件（以下、欠落検出条件と称する）を満たしているか否かを判定する。ここで、情報欠落検出部３１１は、欠落検出条件を満たしている場合には情報が欠落していないと判定し、欠落検出条件を満たしていない場合には情報が欠落していると判定する。この欠落検出条件は、マルチモダル情報を構成する情報の形式を規定したものである。

例えば、欠落検出条件として、マルチモダル情報がテキスト情報及び画像情報を含むことが規定されている場合について説明する。この場合、情報欠落検出部３１１は、情報記憶装置２００から取得した投稿情報に対して、テキスト情報及び画像情報が含まれるか否かを判定する。取得した投稿情報にテキスト情報及び画像情報の両方が含まれる場合、欠落検出条件を満たしており、情報欠落検出部３１１は、情報は欠落していないと判定する。一方、取得した投稿情報にテキスト情報及び画像情報の少なくとも何れか一方が含まれない場合、欠落検出条件を満たしておらず、情報欠落検出部３１１は、情報が欠落していると判定する。

なお、情報欠落検出部３１１は、情報記憶装置２００から取得した投稿情報について、情報が欠落していると判定した場合には、その投稿情報を関連情報選択部３１２及び情報補間部３１３に出力する。一方、情報欠落検出部３１１は、情報記憶装置２００から取得した投稿情報について、情報が欠落していないと判定した場合には、その投稿情報はマルチモダル情報であるため、そのままマルチモダル識別部３１４に出力する。

関連情報選択部３１２は、投稿情報について情報が欠落していると判定された場合に、欠落している情報を補間するための情報である関連情報の選択を行う。付言すると、この関連情報は、情報の欠落が検出された投稿情報に関連する情報として捉えることができる。
本実施の形態において、関連情報選択部３１２は、候補情報抽出部３１２ａと候補情報選択部３１２ｂとを有する。

候補情報抽出部３１２ａは、投稿情報の抽出範囲を過去の投稿にまで拡大して、関連情報の候補となる情報群を抽出する。より具体的には、候補情報抽出部３１２ａは、情報が欠落していると判定された投稿情報を投稿したユーザの過去の投稿情報を、情報記憶装置２００から取得する。ここで取得される情報群（即ち、過去の投稿情報）は、関連情報の候補として扱われる。

候補情報選択部３１２ｂは、候補情報抽出部３１２ａが抽出した情報群の中から関連情報を選択する。言い換えると、候補情報選択部３１２ｂは、情報が欠落していると判定された投稿情報より過去に投稿された投稿情報の中から、関連情報を選択する。この関連情報を選択する手順の詳細については、後述する。

情報補間部３１３は、情報欠落検出部３１１に情報が欠落していると判定された場合に、関連情報選択部３１２により選択された関連情報にて、欠落している情報を補間する。より具体的には、情報補間部３１３は、情報欠落検出部３１１により情報が欠落していると判定された投稿情報に対して、関連情報選択部３１２により選択された関連情報を関連付ける。投稿情報に関連情報を関連付けることにより、欠落した情報が補間されることとなり、投稿情報をマルチモダル情報として扱うことができるようになる。

マルチモダル識別部３１４は、情報欠落検出部３１１から、情報が欠落していないマルチモダル情報である投稿情報を取得する。また、マルチモダル識別部３１４は、情報補間部３１３にて欠落している情報が補間されてマルチモダル情報とされた投稿情報を取得する。そして、マルチモダル識別部３１４は、取得した投稿情報を基に訓練を行う。

この訓練において、マルチモダル識別部３１４は、マルチモダル情報である投稿情報を訓練の集合として、訓練モデルの更新・生成を行う。例えば、教師付き学習の場合には、補間後のマルチモダル情報に対して正解のラベル（即ち、希望する出力結果）をユーザが付与して訓練が行われる。一方、教師なし学習の場合には、補間後のマルチモダル情報に対して、マルチモダル識別装置３００が自動で正解のラベルを付与して訓練が行われる。このようにして訓練が実行され、重み付けの調整が行われた後、識別の処理が開始される。即ち、マルチモダル識別部３１４は、情報欠落検出部３１１及び情報補間部３１３から取得した投稿情報を基に識別を行う。

訓練モデル格納部３１５は、マルチモダル識別部３１４による訓練で更新・生成される訓練モデルを格納する。

なお、図４に示すマルチモダル識別装置３００を構成する各機能部は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、マルチモダル識別装置３００を図３に示したハードウェア構成にて実現した場合、磁気ディスク装置３０３に格納されているＯＳのプログラムやアプリケーション・プログラムが、メインメモリ３０２に読み込まれてＣＰＵ３０１に実行されることにより、情報欠落検出部３１１、関連情報選択部３１２、情報補間部３１３、マルチモダル識別部３１４の各機能が実現される。また、訓練モデル格納部３１５は、メインメモリ３０２や磁気ディスク装置３０３等の記憶手段により実現される。
また、本実施の形態では、補間手段の一例として、関連情報選択部３１２、情報補間部３１３が用いられる。処理実行手段の一例として、マルチモダル識別部３１４が用いられる。

＜関連情報の選択処理＞
次に、欠落している情報を補間するための情報である関連情報を選択する処理について、詳細に説明する。図５（ａ）、（ｂ）は、実施の形態１に係る関連情報の選択処理の一例を説明するための図である。図５（ａ）、（ｂ）に示す例では、あるユーザ（図示の例において、ユーザＡとする）が投稿した投稿情報を示している。そして、それぞれの投稿情報について、テキスト情報、画像情報の有無を示している。

例えば、「ｔ＝０」は現在の時刻を示す。また、「ｔ＝−１」は「ｔ＝０」の投稿情報の１つ前の投稿情報が投稿された時刻を示す。同様に、「ｔ＝−２」は「ｔ＝−１」の投稿情報の１つ前の投稿情報が投稿された時刻を示す。「ｔ＝−３」は「ｔ＝−２」の投稿情報の１つ前の投稿情報が投稿された時刻を示す。

そして、図５（ａ）に示す例では、「ｔ＝０」の時刻に投稿された投稿情報について、テキスト情報は含まれるが、画像情報は含まれないことを示している。ここで、情報欠落検出部３１１が「ｔ＝０」の投稿情報について画像情報の欠落を検出すると、関連情報選択部３１２の候補情報抽出部３１２ａは、「ｔ＝０」の時刻より前の予め定められた時間内に投稿された投稿情報を、情報記憶装置２００から取得する。そして、候補情報選択部３１２ｂは、取得された過去の投稿情報の中から関連情報を選択する。

図５（ａ）に示す例では、候補情報抽出部３１２ａは、「ｔ＝０」の時刻より前の予め定められた時間内の投稿情報として、「ｔ＝−１」、「ｔ＝−２」、「ｔ＝−３」の投稿情報を取得する。そして、候補情報選択部３１２ｂは、取得された過去の投稿情報の中から、「ｔ＝０」で欠落している形式の情報、即ち、画像情報を探し出す。ここで、「ｔ＝−１」の時刻に投稿された投稿情報には、画像情報が含まれる。そのため、候補情報選択部３１２ｂは、この「ｔ＝−１」に投稿された画像情報を、関連情報として選択する。
このようにして、「ｔ＝０」の投稿情報に対して、「ｔ＝−１」の画像情報が補間される。結果として、「ｔ＝０」のテキスト情報及び「ｔ＝−１」の画像情報がマルチモダル情報として、マルチモダル識別部３１４における訓練や識別に用いられる。

さらに説明すると、「ｔ＝−３」の時刻に投稿された投稿情報にも画像情報が含まれているが、「ｔ＝−３」の時刻よりも「ｔ＝−１」の時刻の方が「ｔ＝０」の時刻に近い。一般に、投稿内容は、投稿された時刻が近いほど類似し、投稿された時刻が離れるほど類似しない傾向にある。そのため、候補情報選択部３１２ｂは、「ｔ＝０」から過去の最も近い時刻に投稿された画像情報として、「ｔ＝−１」に投稿された画像情報を選択する。なお、候補情報抽出部３１２ａの取得した過去の投稿情報に画像情報が含まれていない場合、補間は行われず、欠落しているままで、投稿情報がマルチモダル識別部３１４へ出力される。

また、図５（ｂ）に示す例では、「ｔ＝０」の時刻に投稿された投稿情報について、画像情報は含まれるが、テキスト情報は含まれないことを示している。ここで、情報欠落検出部３１１が「ｔ＝０」の投稿情報についてテキスト情報の欠落を検出すると、図５（ａ）に示す例と同様に、候補情報抽出部３１２ａは、「ｔ＝０」の時刻より前の予め定められた時間内に投稿された投稿情報を、情報記憶装置２００から取得する。そして、候補情報選択部３１２ｂは、取得された過去の投稿情報の中から関連情報を選択する。

図５（ｂ）に示す例では、候補情報抽出部３１２ａは、「ｔ＝０」の時刻より前の予め定められた時間内の投稿情報として、「ｔ＝−１」、「ｔ＝−２」、「ｔ＝−３」の投稿情報を取得する。そして、候補情報選択部３１２ｂは、取得された過去の投稿情報の中から、「ｔ＝０」で欠落している形式の情報、即ち、テキスト情報を探し出す。ここで、「ｔ＝−１」の投稿情報にはテキスト情報が含まれていない。一方、「ｔ＝−２」の投稿情報にはテキスト情報が含まれる。そのため、候補情報選択部３１２ｂは、この「ｔ＝−２」に投稿されたテキスト情報を、関連情報として選択する。
このようにして、「ｔ＝０」の投稿情報に対して、「ｔ＝−２」のテキスト情報が補間される。結果として、「ｔ＝０」の画像情報及び「ｔ＝−２」のテキスト情報がマルチモダル情報として、マルチモダル識別部３１４における訓練や識別に用いられる。

さらに説明すると、「ｔ＝−３」の時刻に投稿された投稿情報にもテキスト情報が含まれているが、「ｔ＝−３」の時刻よりも「ｔ＝−２」の時刻の方が「ｔ＝０」の時刻に近い。そのため、候補情報選択部３１２ｂは、「ｔ＝０」から過去の最も近い時刻に投稿されたテキスト情報として、「ｔ＝−２」に投稿されたテキスト情報を選択する。なお、候補情報抽出部３１２ａの取得した過去の投稿情報にテキスト情報が含まれていない場合、補間は行われず、欠落しているままで、投稿情報がマルチモダル識別部３１４へ出力される。

このように、本実施の形態において、関連情報選択部３１２は、投稿情報において情報の欠落が検出されると、その投稿情報より過去の予め定められた時間内に投稿された投稿情報の中から関連情報を選択する。この選択において、候補情報選択部３１２ｂは、欠落している情報と同じ形式の情報であって、情報が欠落していると判定された投稿情報から過去の最も近い時刻に投稿された情報を選択する。このようにして欠落した情報を補間することにより、投稿情報と同一（又は類似）の内容・話題による補間が行われる可能性が高くなる。

＜マルチモダル識別装置による処理の手順＞
次に、本実施の形態に係るマルチモダル識別装置３００による処理の手順について説明する。マルチモダル識別装置３００による訓練時の処理と識別時の処理とに分けて説明する。図６（ａ）は、実施の形態１に係るマルチモダル識別装置３００による訓練時の処理の手順を示したフローチャートである。図６（ｂ）は、実施の形態１に係るマルチモダル識別装置３００による識別時の処理の手順を示したフローチャートである。

まず、図６（ａ）を参照しながら、マルチモダル識別装置３００による訓練時の処理について説明する。
情報欠落検出部３１１は、情報記憶装置２００から訓練に用いる投稿情報を取得する（ステップ１０１）。ここで、投稿情報の取得条件を定めて、取得条件を満たす投稿情報を取得することとしても良い。取得条件としては、例えば、投稿情報が投稿された期間を指定したり、投稿情報が投稿された地域や投稿情報を投稿したユーザを指定したりすることが考えられる。

次に、情報欠落検出部３１１は、取得した投稿情報に欠落している情報があるか否かを判定する（ステップ１０２）。ここでは、取得した投稿情報が欠落検出条件を満たしているか否かの判定が行われる。取得した投稿情報が欠落検出条件を満たしている場合、欠落している情報はないと判定される。一方、取得した投稿情報が欠落検出条件を満たしていない場合、欠落している情報があると判定される。

ステップ１０２において、投稿情報に欠落している情報がないと判定された場合（ステップ１０２でＮｏ）、投稿情報はマルチモダル識別部３１４に出力される。そして、ステップ１０６へ移行する。
一方、ステップ１０２において、投稿情報に欠落している情報があると判定された場合（ステップ１０２でＹｅｓ）、投稿情報は関連情報選択部３１２に出力される。次に、関連情報選択部３１２の候補情報抽出部３１２ａは、投稿情報の抽出範囲を過去の投稿にまで拡大して、関連情報の候補となる過去の投稿情報を取得する（ステップ１０３）。次に、候補情報選択部３１２ｂは、候補情報抽出部３１２ａが取得した過去の投稿情報の中から、関連情報を選択する（ステップ１０４）。

次に、情報補間部３１３は、情報が欠落していると判定された投稿情報に対して、関連情報選択部３１２により選択された関連情報を関連付けて、欠落した情報を補間する（ステップ１０５）。欠落した情報が補間された投稿情報は、マルチモダル識別部３１４に出力される。そして、ステップ１０６へ移行する。

ステップ１０２で否定の判断（Ｎｏ）がされた後、又はステップ１０５の後、マルチモダル識別部３１４は、情報欠落検出部３１１又は情報補間部３１３から取得した投稿情報を基に訓練を行う（ステップ１０６）。次に、情報欠落検出部３１１は、ステップ１０１においてマルチモダル識別装置３００から取得した投稿情報を全て処理したか否かを判定する（ステップ１０７）。投稿情報でまだ処理していないものがある場合（ステップ１０７でＮｏ）、ステップ１０２へ移行する。一方、投稿情報の全てを処理した場合（ステップ１０７でＹｅｓ）、本処理フローは終了する。なお、本処理フローを１回又は複数回繰り返すことにより、訓練が終了し、識別の処理が開始されることになる。

次に、図６（ｂ）を参照しながら、マルチモダル識別装置３００による識別時の処理について説明する。
情報欠落検出部３１１は、情報記憶装置２００から識別の対象とする投稿情報を取得する（ステップ２０１）。ここで、図６（ａ）のステップ１０１と同様に、投稿情報の取得条件を定めても良い。次のステップ２０２〜ステップ２０５の処理は、図６（ａ）のステップ１０２〜ステップ１０５の処理と同様であるため、ここでは説明を省略する。

ステップ２０２で否定の判断（Ｎｏ）がされた後、又はステップ２０５の後、マルチモダル識別部３１４は、情報欠落検出部３１１又は情報補間部３１３から取得した投稿情報を基に識別を行う（ステップ２０６）。次に、情報欠落検出部３１１は、ステップ２０１においてマルチモダル識別装置３００から取得した投稿情報を全て処理したか否かを判定する（ステップ２０７）。投稿情報でまだ処理していないものがある場合（ステップ２０７でＮｏ）、ステップ２０２へ移行する。一方、投稿情報の全てを処理した場合（ステップ２０７でＹｅｓ）、本処理フローは終了する。識別の結果得られた情報は、上述したように、例えば広告配信などのマーケティングの情報として用いられる。

また、本実施の形態では、情報の補間において、情報が欠落していると判定された投稿情報から過去の最も近い時刻に投稿された情報で補間することとしたが、後述する変形例において計算する類似度を基に、補間を行うこととしても良い。
例えば、図５（ａ）に示す例では、「ｔ＝０」の投稿情報に対して、「ｔ＝−１」の画像情報が補間された。ここで、関連情報選択部３１２が、「ｔ＝０」のテキスト情報と「ｔ＝−１」のテキスト情報との類似度、「ｔ＝０」のテキスト情報と「ｔ＝−３」のテキスト情報との類似度の計算を行ったとする。その結果、「ｔ＝−１」のテキスト情報よりも「ｔ＝−３」のテキスト情報の方が、「ｔ＝０」のテキスト情報に類似していると判断された場合、「ｔ＝−１」の画像情報ではなく、「ｔ＝−３」の画像情報を選択して補間することとしても良い。

＜実施の形態１の変形例＞
次に、実施の形態１の変形例について説明する。図７は、実施の形態１の変形例におけるマルチモダル識別装置３００の機能構成例を示したブロック図である。この変形例では、図４に示す実施の形態１の構成と比較して、関連情報選択部３１２がさらに候補範囲指定部３１２ｃを有している。情報欠落検出部３１１、情報補間部３１３、マルチモダル識別部３１４、訓練モデル格納部３１５の機能は、図４の場合と同様である。よって以下、図４に示す実施の形態１の構成と異なる点として、関連情報選択部３１２について説明を行う。

本変形例で新たに設けられる候補範囲指定部３１２ｃは、候補情報抽出部３１２ａが抽出する情報群の範囲を指定する。より具体的には、候補範囲指定部３１２ｃは、情報が欠落していると判定された投稿情報の投稿を行ったユーザの過去の投稿情報を、情報記憶装置２００から取得する。そして、候補範囲指定部３１２ｃは、情報が欠落していると判定された投稿情報と過去の投稿情報との類似度を計算し、計算した類似度を基に、関連情報の候補とする範囲の指定を行う。

例えば、「ｔ＝０」の時刻に投稿された投稿情報について、テキスト情報は含まれるが、画像情報は含まれておらず、情報欠落検出部３１１が画像情報の欠落を検出したものとする。この場合、候補範囲指定部３１２ｃは、同じユーザが「ｔ＝０」の時刻より前に投稿した過去の投稿情報を情報記憶装置２００から取得する。例えば、これらの投稿情報は、それぞれ「ｔ＝−１」、「ｔ＝−２」、「ｔ＝−３」、「ｔ＝−４」の時刻に投稿されたものとする。

ここで、候補範囲指定部３１２ｃは、「ｔ＝０」のテキスト情報と、「ｔ＝−１」、「ｔ＝−２」、「ｔ＝−３」、「ｔ＝−４」のそれぞれのテキスト情報との類似度を計算する。この類似度の計算は従来の手順を用いれば良く、例えば、ベクトル空間法による計算が行われる。ベクトル空間法とは、文書を多次元空間上のベクトルとして表現することにより、そのベクトル同士を比較して類似度を計算する手法である。さらに説明すると、ベクトル空間法により計算する場合、「ｔ＝０」、「ｔ＝−１」、「ｔ＝−２」、「ｔ＝−３」、「ｔ＝−４」のテキスト情報のそれぞれが文書ベクトルに変換される。これらの文書ベクトルから、例えばベクトル同士の成す角度の近さを表現するためのコサイン類似度を求めることにより、各文書ベクトルの類似度（即ち、テキスト情報の類似度）が計算される。なお、本実施の形態では、第１形式の情報、第２形式の情報の一例として、画像情報、テキスト情報が用いられる。なお、文書ベクトルは、文書を表しているベクトル全般を表す。そのため、例えば、文書を代表する単語をベクトル化したものも文書ベクトルに含まれる。

図８（ａ）、（ｂ）は、テキスト情報の類似度の一例を示した図である。
図８（ａ）に示すグラフでは、「ｔ＝−１」、「ｔ＝−２」、「ｔ＝−３」、「ｔ＝−４」のそれぞれのテキスト情報に関して、「ｔ＝０」のテキスト情報との類似度の値を示している。ここでは、類似度の値が小さいほど「ｔ＝０」のテキスト情報と類似していることを表している。上述したように、通常、投稿内容は、投稿された時刻が近いほど類似し（即ち、類似度の値が小さくなり）、投稿された時刻が離れるほど類似しない（即ち、類似度の値が大きくなる）傾向にある。そこで、候補範囲指定部３１２ｃは、類似度の値が予め定められた条件を満たす範囲、ここでは、類似度の値が予め定められた閾値ＴＨを下回る範囲を、関連情報の候補とする範囲として指定する。

図８（ａ）に示す場合には、「ｔ＝−１」、「ｔ＝−２」、「ｔ＝−３」の類似度の値が閾値ＴＨより小さい。そこで、候補情報抽出部３１２ａは、「ｔ＝−１」、「ｔ＝−２」、「ｔ＝−３」の時刻に投稿された投稿情報を、関連情報の候補として抽出する。そして、候補情報選択部３１２ｂは、候補情報抽出部３１２ａが抽出した投稿情報の中から、関連情報を選択する。

また、図８（ｂ）に示す例では、「ｔ＝−１」、「ｔ＝−２」、「ｔ＝−３」、「ｔ＝−４」のそれぞれのテキスト情報に関して、直前に投稿されたテキスト情報との類似度（例えば、コサイン類似度）の差分（絶対値）を示している。例えば、「ｔ＝−２」のテキスト情報の場合、直前に投稿された「ｔ＝−１」のテキスト情報と比較する。即ち、「ｔ＝−１」のテキスト情報と「ｔ＝０」のテキスト情報との類似度と、「ｔ＝−２」のテキスト情報と「ｔ＝０」のテキスト情報との類似度との差分が計算される。通常、投稿の話題が変わる場合には、類似度が急峻に変化していることが考えられる。そこで、候補範囲指定部３１２ｃは、類似度の値が予め定められた条件を満たす範囲、ここでは、類似度の差分が予め定められた閾値ＴＨ２を下回る範囲を、関連情報の候補とする範囲として指定する。

図８（ｂ）に示す場合には、「ｔ＝−１」、「ｔ＝−２」の類似度の差分が閾値ＴＨ２より小さい。そこで、候補情報抽出部３１２ａは、「ｔ＝−１」、「ｔ＝−２」の時刻に投稿された投稿情報を、関連情報の候補として抽出する。そして、候補情報選択部３１２ｂは、候補情報抽出部３１２ａが抽出した投稿情報の中から、関連情報を選択する。

このように、本変形例において、関連情報選択部３１２は、情報が欠落していると判定された投稿情報との類似度を計算して、関連情報の候補として抽出する範囲を指定する。そのため、例えば、類似度に基づいて抽出範囲を指定しない場合と比較して、投稿情報とは関係のない情報によって補間が行われることが抑制される。

なお、この変形例では、テキスト情報の類似度を計算することとしたが、テキスト情報とは別の形式の情報、例えば、画像情報の類似度を計算しても良い。画像情報の類似度の計算は、例えば、画像情報が有する画素の色値を比較することにより行われる。

［実施の形態２］
＜マルチモダル識別装置の機能構成＞
次に、実施の形態２について説明を行う。
実施の形態１では、情報が欠落していると判定された投稿情報を投稿したユーザの過去の投稿を基に、欠落している情報を補間する。これに対して、本実施の形態では、情報が欠落していると判定された投稿情報を投稿したユーザの位置と地理的に近接する場所からの投稿を基に、欠落している情報を補間する。
付言すると、例えば、遊園地やイベント会場などの共通の場所から投稿された情報には、同一（又は類似）の内容が記述されている可能性が高いと考えられる。そこで、本実施の形態では、地理的に近接する場所から投稿された投稿情報を基に、欠落している情報を補間する。

図９は、実施の形態２に係るマルチモダル識別装置３００の機能構成例を示したブロック図である。本実施の形態では、図４に示す実施の形態１の構成と比較して、関連情報選択部３１２の構成が異なる。情報欠落検出部３１１、情報補間部３１３、マルチモダル識別部３１４、訓練モデル格納部３１５の機能は、図４の場合と同様である。よって以下、図４に示す実施の形態１の構成と異なる点として、関連情報選択部３１２について説明を行う。

本実施の形態において、関連情報選択部３１２は、候補位置情報抽出部３１２ｄと候補情報選択部３１２ｂとを有する。
候補位置情報抽出部３１２ｄは、投稿情報の抽出範囲を地理的に近接するところまで拡大して、関連情報の候補となる情報群を抽出する。より具体的には、候補位置情報抽出部３１２ｄは、情報が欠落していると判定された投稿情報を投稿したユーザ（以下、対象ユーザと称する）の位置情報を取得する。そして、対象ユーザの位置に近接する場所、言い換えると、対象ユーザの位置から予め定められた範囲内から投稿された他のユーザ（以下、近接ユーザと称する）の投稿情報を、情報記憶装置２００から取得する。ここで取得される情報群（即ち、近接ユーザの投稿情報）は、関連情報の候補として扱われる。

なお、ユーザの位置情報は、例えば、ユーザの投稿時に付与されるジオタグの情報を例示することができる。ジオタグとは、地図上の位置（緯度及び経度）を示す数字データである。本実施の形態に係る候補位置情報抽出部３１２ｄは、投稿情報に含まれるジオタグの情報を基に、対象ユーザの位置を特定したり、対象ユーザの位置に近接する場所から投稿された投稿情報を特定したりすることができる。

候補情報選択部３１２ｂは、候補情報抽出部３１２ａが抽出した情報群の中から関連情報を選択する。より具体的には、候補情報選択部３１２ｂは、情報が欠落していると判定された投稿情報が投稿された位置に近接する場所から投稿された投稿情報の中から、関連情報を選択する。

＜関連情報の選択処理＞
次に、関連情報を選択する処理について、詳細に説明する。図１０（ａ）、（ｂ）は、実施の形態２に係る関連情報の選択処理の一例を説明するための図である。

図１０（ａ）に示す例では、対象ユーザが投稿した投稿情報に欠落があると判定されたものとする。この場合、候補位置情報抽出部３１２ｄは、対象ユーザの位置から予め定められた範囲内に存在しているユーザを、近接ユーザとして特定する。予め定められた範囲としては、例えば、対象ユーザを中心として半径Ｌｍ以内などの範囲を例示することができる。その結果、他ユーザＡ及び他ユーザＢが近接ユーザとして特定される。一方、他ユーザＣはテキスト情報や画像情報を投稿しているが、予め定められた範囲外に存在しているため、近接ユーザからは除外される。

また、図１０（ｂ）に示す例は、対象ユーザ及び他ユーザＡ〜Ｃの投稿情報の一例を示している。対象ユーザの投稿情報について、テキスト情報は含まれるが、画像情報は含まれていないことを示している。ここで、情報欠落検出部３１１が対象ユーザの投稿情報について画像情報の欠落を検出すると、候補位置情報抽出部３１２ｄは、対象ユーザの位置から予め定められた範囲内に存在する近接ユーザ（ここでは、他ユーザＡ及び他ユーザＢ）の投稿情報を、情報記憶装置２００から取得する。そして、候補情報選択部３１２ｂは、取得された近接ユーザの投稿情報の中から関連情報を選択する。

ここで、他ユーザＡの投稿情報には、画像情報が含まれていない。一方、他ユーザＢの投稿情報には、画像情報が含まれている。そのため、候補情報選択部３１２ｂは、他ユーザＢの画像情報を関連情報として選択する。このようにして、対象ユーザの投稿情報に対して他ユーザＢの画像情報が補間される。結果として、対象ユーザのテキスト情報及び他ユーザＢの画像情報がマルチモダル情報として、マルチモダル識別部３１４における訓練や識別に用いられる。

また、図１０（ａ）、（ｂ）に示す例では、画像情報を投稿した近隣ユーザが他ユーザＢしかいないが、複数の近隣ユーザが画像情報を投稿している場合も考えられる。このような場合には、予め定められた条件に従って、複数の近隣ユーザの画像情報の中から関連情報が選択される。

例えば、画像情報を投稿した複数の近隣ユーザの中で、対象ユーザから最も近い位置にいる近隣ユーザの画像情報が選択される。
また、例えば、実施の形態１の変形例において計算する類似度を基に、どの近隣ユーザの画像情報を選択するか決めても良い。この場合、候補位置情報抽出部３１２ｄは、例えば、対象ユーザのテキスト情報と各近隣ユーザのテキスト情報との類似度を計算する。そして、計算した類似度を基に、投稿内容が対象ユーザと最も類似している近隣ユーザの画像情報を選択する。
さらに、例えば、画像情報を投稿した複数の近隣ユーザの中で、対象ユーザの投稿時刻に最も近い時刻に投稿された画像情報を選択することとしても良い。

付言すると、本実施の形態では、対象ユーザと近隣ユーザとの距離、対象ユーザの投稿内容と近隣ユーザの投稿内容との類似度、対象ユーザの投稿時刻と近隣ユーザの投稿時刻との時間差などの条件を基にして、複数の近隣ユーザのうちのどの近隣ユーザの投稿情報を用いて補間するかを決定すれば良い。

このように、本実施の形態において、関連情報選択部３１２は、投稿情報において情報の欠落が検出されると、その投稿情報が投稿された位置から予め定められた範囲内の場所から投稿された投稿情報の中から、関連情報を選択する。このようにして欠落した情報を補間することにより、投稿情報と同一（又は類似）の内容・話題による補間が行われる可能性が高くなる。

また、本実施の形態では、対象ユーザから予め定められた範囲内に存在している近接ユーザを特定して、特定した近接ユーザの投稿情報を取得したが、例えば、対象ユーザから近いユーザの投稿情報から順番に取得することとしても良い。この場合、例えば、対象ユーザの投稿情報に画像情報が含まれていなければ、対象ユーザから近いユーザの投稿情報から順番に画像情報の有無がチェックされて、画像情報の補間が行われる。

＜マルチモダル識別装置による処理の手順＞
次に、本実施の形態に係るマルチモダル識別装置３００による処理の手順について説明する。マルチモダル識別装置３００による訓練時の処理と識別時の処理とに分けて説明する。図１１（ａ）は、実施の形態２に係るマルチモダル識別装置３００による訓練時の処理の手順を示したフローチャートである。図１１（ｂ）は、実施の形態２に係るマルチモダル識別装置３００による識別時の処理の手順を示したフローチャートである。

まず、図１１（ａ）を参照しながら、マルチモダル識別装置３００による訓練時の処理について説明する。
情報欠落検出部３１１は、情報記憶装置２００から訓練に用いる投稿情報を取得する（ステップ３０１）。ここで、図６のステップ１０１と同様に、投稿情報の取得条件を定めても良い。次に、情報欠落検出部３１１は、取得した投稿情報に欠落している情報があるか否かを判定する（ステップ３０２）。ここでは、図６のステップ１０２と同様に、取得した投稿情報が欠落検出条件を満たしているか否かの判定が行われる。

ステップ３０２において、投稿情報に欠落している情報がないと判定された場合（ステップ３０２でＮｏ）、投稿情報はマルチモダル識別部３１４に出力される。そして、ステップ３０６へ移行する。
一方、ステップ３０２において、投稿情報に欠落している情報があると判定された場合（ステップ３０２でＹｅｓ）、投稿情報は関連情報選択部３１２に出力される。次に、関連情報選択部３１２の候補位置情報抽出部３１２ｄは、投稿情報の抽出範囲を地理的に近接するところまで拡大して、関連情報の候補となる他ユーザの投稿情報を取得する（ステップ３０３）。次に、候補情報選択部３１２ｂは、候補位置情報抽出部３１２ｄが取得した他ユーザの投稿情報の中から、関連情報を選択する（ステップ３０４）。

次に、情報補間部３１３は、情報が欠落していると判定された投稿情報に対して、関連情報選択部３１２により選択された関連情報を関連付けて、欠落した情報を補間する（ステップ３０５）。欠落した情報が補間された投稿情報は、マルチモダル識別部３１４に出力される。そして、ステップ３０６へ移行する。

ステップ３０２で否定の判断（Ｎｏ）がされた後、又はステップ３０５の後、マルチモダル識別部３１４は、情報欠落検出部３１１又は情報補間部３１３から取得した投稿情報を基に訓練を行う（ステップ３０６）。次に、情報欠落検出部３１１は、ステップ３０１においてマルチモダル識別装置３００から取得した投稿情報を全て処理したか否かを判定する（ステップ３０７）。投稿情報でまだ処理していないものがある場合（ステップ３０７でＮｏ）、ステップ３０２へ移行する。一方、投稿情報の全てを処理した場合（ステップ３０７でＹｅｓ）、本処理フローは終了する。なお、本処理フローを１回又は複数回繰り返すことにより、訓練が終了し、識別の処理が開始されることになる。

次に、図１１（ｂ）を参照しながら、マルチモダル識別装置３００による識別時の処理について説明する。
情報欠落検出部３１１は、情報記憶装置２００から識別の対象とする投稿情報を取得する（ステップ４０１）。ここで、図１１（ａ）のステップ３０１と同様に、投稿情報の取得条件を定めても良い。次のステップ４０２〜ステップ４０５の処理は、図１１（ａ）のステップ３０２〜ステップ３０５の処理と同様であるため、ここでは説明を省略する。

ステップ４０２で否定の判断（Ｎｏ）がされた後、又はステップ４０５の後、マルチモダル識別部３１４は、情報欠落検出部３１１又は情報補間部３１３から取得した投稿情報を基に識別を行う（ステップ４０６）。次に、情報欠落検出部３１１は、ステップ４０１においてマルチモダル識別装置３００から取得した投稿情報を全て処理したか否かを判定する（ステップ４０７）。投稿情報でまだ処理していないものがある場合（ステップ４０７でＮｏ）、ステップ４０２へ移行する。一方、投稿情報の全てを処理した場合（ステップ４０７でＹｅｓ）、本処理フローは終了する。識別の結果得られた情報は、上述したように、例えば広告配信などのマーケティングの情報として用いられる。

なお、実施の形態１及び実施の形態２では、マルチモダル識別部３１４にて訓練を行った後に識別を行うこととしたが、マルチモダル識別部３１４は、訓練と識別とを並行して実行しても良い。この場合、例えば、情報欠落検出部３１１は、訓練用の投稿情報と識別用の投稿情報とを分けて取得し、それぞれについて情報の欠落を検出する。そして、マルチモダル識別部３１４は、訓練用の投稿情報を用いて訓練モデルを更新し、それと並行して、訓練モデルを用いて、識別用の投稿情報に対する識別を行う。

また、実施の形態１及び実施の形態２では、主に２つの形式の情報が含まれるマルチモダル情報に欠落が生じている場合について説明したが、３つ以上の形式の情報が含まれるマルチモダル情報に欠落が生じている場合についても同様の処理が行われる。例えば、３つ以上の形式の情報が含まれるマルチモダル情報について、そのうちの少なくとも１つの形式の情報が欠落している場合、欠落している情報の補間が行われる。

さらに、実施の形態１及び実施の形態２では、１台のマルチモダル識別装置３００が、情報欠落検出部３１１、関連情報選択部３１２、情報補間部３１３、マルチモダル識別部３１４、訓練モデル格納部３１５の機能を有することとしたが、これらの機能を１台の装置ではなく複数台の装置で実現することとしても良い。

なお、本発明の実施の形態を実現するプログラムは、通信手段により提供することはもちろん、ＣＤ−ＲＯＭ等の記録媒体に格納して提供することも可能である。

以上、本発明の実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更又は改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。

３００…マルチモダル識別装置、３１１…情報欠落検出部、３１２…関連情報選択部、３１２ａ…候補情報抽出部、３１２ｂ…候補情報選択部、３１２ｃ…候補範囲指定部、３１２ｄ…候補位置情報抽出部、３１３…情報補間部、３１４…マルチモダル識別部、３１５…訓練モデル格納部

Claims

複数形式の情報のうち一部の形式の情報が欠けている場合に、当該複数形式の情報に関連し欠けている情報の形式を有する関連情報により、欠けている形式の情報を補間する補間手段と、
前記欠けている形式の情報が補間された前記複数形式の情報を用いて、訓練及び識別の少なくとも何れか一方の処理を実行する処理実行手段と
を備え、
前記補間手段は、前記関連情報として、前記複数形式の情報のうち欠けていない情報が投稿された時刻から予め定められた時間内に投稿された情報を取得すること
を特徴とする情報処理装置。
複数形式の情報のうち一部の形式の情報が欠けている場合に、当該複数形式の情報に関連し欠けている情報の形式を有する関連情報により、欠けている形式の情報を補間する補間手段と、
前記欠けている形式の情報が補間された前記複数形式の情報を用いて、訓練及び識別の少なくとも何れか一方の処理を実行する処理実行手段と
を備え、
前記補間手段は、前記関連情報として、前記複数形式の情報のうち欠けていない情報が投稿された位置から予め定められた範囲内の位置にて投稿された情報を取得すること
を特徴とする情報処理装置。
前記補間手段は、前記複数形式の情報のうち第１形式の情報が欠けており、第２形式の情報が欠けていない場合に、当該欠けていない第２形式の情報との類似度が予め定められた条件を満たす第２形式の他の情報と共に投稿された第１形式の情報を、前記関連情報として取得すること
を特徴とする請求項１又は２に記載の情報処理装置。
前記補間手段は、前記欠けていない第２形式の情報がテキスト形式の情報である場合に、テキスト形式の情報から算出される文書ベクトルの類似度により、当該欠けていない第２形式の情報との類似度が予め定められた条件を満たすテキスト形式の他の情報と共に投稿された第１形式の情報を、前記関連情報として取得すること
を特徴とする請求項３に記載の情報処理装置。