JP2020042545A

JP2020042545A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2020042545A
Application number: JP2018169495A
Authority: JP
Inventors: 俊平大倉; Shumpei Okura
Original assignee: Z Holdings Corp
Current assignee: LY Corp
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2020-03-19
Anticipated expiration: 2038-09-11
Also published as: JP7042720B2

Abstract

【課題】対象のコンテンツと時系列に関連するコンテンツをユーザに提供することである。【解決手段】情報処理装置は、複数のコンテンツのうち、ある着目コンテンツとの類似度が大きい上位所定数のコンテンツからキーワードを抽出する抽出部と、前記抽出部により抽出された前記キーワードに基づいて、前記複数のコンテンツの中から、前記着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する選択部と、を備える。【選択図】図４

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

インターネットなどを介してニュース記事のようなコンテンツがユーザに提供される場合、そのコンテンツに関連したコンテンツも併せて提供される場合がある。これに関連し、コンテンツの重要度を推定し、推定した重要度が高いコンテンツを優先的に表示する技術が知られている（例えば、特許文献１参照）。

特開２０１７−５９０５７号公報

しかしながら、従来の技術では、ユーザが閲覧した、あるいはこれから閲覧する可能性がある対象のコンテンツに対して、時系列に関連する他のコンテンツを、対象コンテンツとともにユーザに提供することができない場合があった。

本発明は、上記の課題に鑑みてなされたものであり、対象のコンテンツと時系列に関連するコンテンツをユーザに提供することができる情報処理装置、情報処理方法、およびプログラムを提供することを目的としている。

本発明の一態様は、複数のコンテンツのうち、ある着目コンテンツとの類似度が大きい上位所定数のコンテンツからキーワードを抽出する抽出部と、前記抽出部により抽出された前記キーワードに基づいて、前記複数のコンテンツの中から、前記着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する選択部と、を備える情報処理装である。

本発明の一態様によれば、対象のコンテンツと時系列に関連するコンテンツをユーザに提供することができる。

実施形態の情報処理装置１００を含む情報処理システム１の一例を示す図である。第１端末装置１０の画面に表示されたコンテンツの一例を示す図である。第１端末装置１０の画面に表示されたコンテンツの一例を示す図である。実施形態における情報処理装置１００の構成の一例を示す図である。コンテンツデータ１３２の一例を示す図である。ユーザログデータ１３４の一例を示す図である。実施形態における制御部１１０の一連の処理の流れを示すフローチャートである。関連コンテンツの選択処理を説明するための図である。関連コンテンツのグループ化の方法を説明するための図である。関連コンテンツのグループ化の方法を説明するための図である。関連コンテンツのグループ化の方法を説明するための図である。関連コンテンツのグループ化の方法を説明するための図である。関連コンテンツのグループ化の方法を説明するための図である。関連コンテンツのグループ化の方法を説明するための図である。関連コンテンツのグループ化の方法を説明するための図である。代表関連コンテンツの選択方法を説明するための図である。実施形態の情報処理装置１００のハードウェア構成の一例を示す図である。

以下、本発明を適用した情報処理装置、情報処理方法、およびプログラムを、図面を参照して説明する。

［概要］
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、複数のコンテンツのうち、着目するある一つのコンテンツ（以下、着目コンテンツと称する）との類似度が大きい上位所定数のコンテンツからキーワードを抽出し、抽出したキーワードに基づいて、複数のコンテンツの中から、着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する。これによって、対象のコンテンツと時系列に関連するコンテンツをユーザに提供することができる。

本実施形態におけるコンテンツは、例えば、ブログやウェブサイトなどに掲載される記事であり、テキストを含むコンテンツである。この記事は、例えば、ニュースや政治、経済、スポーツといった時々刻々と変化する社会的な出来事（時事）をテーマとして扱う記事であってよい。このような記事は、ある出来事に関して第一報となる記事が存在し、その後、時間の経過に応じて出来事が変化した場合、その変化を伝える記事が続報として提供され得る。以下の説明では、一例として、コンテンツがニュース記事のような文書であるものとして説明する。

［全体構成］
図１は、実施形態の情報処理装置１００を含む情報処理システム１の一例を示す図である。実施形態における情報処理システム１は、例えば、一つ以上の第１端末装置１０と、一つ以上の第２端末装置２０と、情報処理装置１００とを備える。これらの装置は、例えば、ネットワークＮＷを介して互いに接続される。

図１に示す各装置は、ネットワークＮＷを介して種々の情報を送受信する。ネットワークＮＷは、例えば、インターネット、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、プロバイダ端末、無線通信網、無線基地局、専用回線などを含む。なお、図１に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークＮＷは、一部にローカルなネットワークを含んでもよい。

第１端末装置１０は、例えば、スマートフォンなどの携帯電話、タブレット端末、各種パーソナルコンピュータなどの、入力装置、表示装置、通信装置、記憶装置、および演算装置を備える端末装置である。通信装置は、ＮＩＣ（Network Interface Card）などのネットワークカード、無線通信モジュールなどを含む。第１端末装置１０では、ウェブブラウザやアプリケーションプログラムなどのＵＡ（User Agent）が起動し、ユーザの入力内容に応じたリクエストを情報処理装置１００に送信する。また、ＵＡが起動された第１端末装置１０は、情報処理装置１００から取得した情報に基づいて、表示装置に各種画像を表示させる。

第２端末装置２０は、例えば、スマートフォンなどの携帯電話、タブレット端末、各種パーソナルコンピュータなどの、入力装置、表示装置、通信装置、記憶装置、および演算装置を備える端末装置である。通信装置は、ＮＩＣなどのネットワークカード、無線通信モジュールなどを含む。例えば、マスメディアなどの企業や事業者の従業員、あるいはジャーナリストやブロガーなどの個人が第２端末装置２０を操作することで、情報処理装置１００に、ニュース記事などのコンテンツをアップロードする。

情報処理装置１００は、例えば、ウェブブラウザからのリクエスト（例えばＨＴＴＰ（Hypertext Transfer Protocol）リクエスト）に応じてウェブページを第１端末装置１０に提供するウェブサーバであってよい。ウェブページには、例えば、ニュース記事などのコンテンツが含まれる。また、情報処理装置１００は、アプリケーションプログラムからのリクエストに応じてコンテンツを第１端末装置１０に提供するアプリケーションサーバであってもよい。

図２および図３は、第１端末装置１０の画面に表示されたコンテンツの一例を示す図である。図２の例では、コンテンツが一覧形式で掲載されたウェブページを表している。このようなウェブページには、各コンテンツに含まれる代表的な画像や、各コンテンツのスニペット（要約）、各コンテンツの詳細な情報が掲載された他のウェブページへのハイパーリンクＬＫなどが表示される。例えば、図２に例示するウェブページにおいて、最上段のコンテンツＣＴ_１のハイパーリンクＬＫ_１が選択された場合、図３に例示するウェブページへと画面が遷移する。このウェブページには、例えば、ユーザが選択したコンテンツＣＴ_１とともに、そのコンテンツＣＴ_１と時系列に関連した他のコンテンツの画像やスニペット、ハイパーリンクＬＫなどが表示される。これによって、例えば、ユーザが、あるコンテンツＣＴ_１を閲覧した場合、そのコンテンツＣＴ_１が扱う話題を、閲覧時点よりも前の過去の時点または閲覧時点よりも後の将来の時点で扱った他のコンテンツＣＴ_Ｘ、ＣＴ_Ｙ、ＣＴ_Ｚを、そのユーザに提供することができる。このようなコンテンツの提供方法の詳細については以下に説明する。

［情報処理装置の構成］
図４は、実施形態における情報処理装置１００の構成の一例を示す図である。図示のように、情報処理装置１００は、例えば、通信部１０２と、制御部１１０と、記憶部１３０とを備える。

通信部１０２は、例えば、ＮＩＣ等の通信インターフェースを含む。通信部１０２は、ネットワークＮＷを介して、第１端末装置１０や第２端末装置２０などと通信する。例えば、通信部１０２は、第１端末装置１０と通信し、ＨＴＴＰリクエストなどを受信してよい。また、例えば、通信部１０２は、第２端末装置２０と通信し、第２端末装置２０からコンテンツを受信してもよい。通信部１０２は、コンテンツを受信すると、受信したコンテンツを後述するコンテンツデータ１３２として記憶部１３０に記憶させる。

制御部１１０は、例えば、前処理部１１２と、抽出部１１４と、選択部１１６と、分類部１１８と、提供部１２０とを備える。これらの構成要素は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサ（あるいはプロセッサ回路）が、記憶部１３０に記憶されたプログラム（ソフトウェア）を実行することにより実現される。また、制御部１１０の構成要素のうち一部または全部は、例えば、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）等のハードウェア（回路部：circuitry）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。また、プロセッサにより参照されるプログラムは、予め記憶部１３０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体に格納されており、記憶媒体が情報処理装置１００のドライブ装置に装着されることで記憶媒体から記憶部１３０にインストールされてもよい。

記憶部１３０は、例えば、ＨＤＤ（Hard Disc Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などの記憶装置により実現される。記憶部１３０には、ファームウェアやアプリケーションプログラムなどの各種プログラムのほかに、コンテンツデータ１３２やユーザログデータ１３４、キーワード辞書１３６などが格納される。

コンテンツデータ１３２は、例えば、複数の記事（例えば数万件から数十万件の記事）がコンテンツとして含まれるデータである。図５は、コンテンツデータ１３２の一例を示す図である。コンテンツがニュース記事のような文書である場合、図示の例のように、コンテンツデータ１３２は、各記事を識別する記事ＩＤに対して、その記事の入稿時刻や、その記事がベクトル化された記事ベクトル（コンテンツベクトル）などが対応付けられたデータであってよい。

入稿時刻とは、例えば、第２端末装置２０から情報処理装置１００へと記事が送信された時刻であってよいし、情報処理装置１００によって記事が受信された時刻であってもよい。

記事ベクトルは、コンテンツが記事である場合のコンテンツベクトルの一つであり、例えば、ｗｏｒｄ２ｖｅｃやＧｌｏＶｅのような分散表現と呼ばれる手法を用いることで、記事から生成されるベクトルである。分散表現は、単語または語句と、その単語または語句の前後で出現する単語または語句との共起性に基づいて、単語や語句をベクトル化する手法であり、例えば、予め用意された複数の単語や語句を含むコーパスに基づいて、ある文脈において着目する一つの単語の前後に出現する単語の出現確率を求め、その出現確率を要素値とする多次元のベクトルを生成する手法である。具体的には、記事ベクトルをＶとした場合、Ｖ＝［ｅ１，ｅ２，ｅ３，…］といったように表現することができる。記事から記事ベクトルを生成する処理は、前処理部１１２によって行われてもよいし、情報処理装置１００以外に他の装置によって行われてもよい。

ユーザログデータ１３４は、複数のユーザの行動履歴を含むデータである。図６は、ユーザログデータ１３４の一例を示す図である。図示の例のように、ユーザログデータ１３４は、各ユーザを識別するユーザＩＤに対して、そのユーザが閲覧した記事を掲載するウェブページのＵＲＬ（Uniform Resource Locator）や、その記事のタイトルなどが行動履歴として対応付けられたデータである。

キーワード辞書１３６は、形態素解析やチャンキング（Chunking）処理などを用いて、コンテンツから特徴語を抽出する処理（以下、特徴語抽出処理と称する）が行われる際に利用される辞書である。形態素解析は、文書を形態素に分割して解析する手法である。チャンキング処理は、言語処理においては形態素解析などで分割された語を必要に応じて意味的なまとまりに繋ぎ直す処理であり、具体的には、単語単位のものをまとめて文節単位にしたり、複数単語で固有のフレーズとなるものを繋いだりする処理である。キーワード辞書１３６には、特徴語を表す文字列が登録されており、その文字列は、例えば、組織名、人名、地名、固有物名といった名詞であってよい。特徴語（名詞）は、一つの単語であってもよいし、複数の単語からなるフレーズであってもよい。

［処理フロー］
以下、実施形態における制御部１１０の一連の処理の流れをフローチャートに即して説明する。図７は、実施形態における制御部１１０の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてもよい。

まず、前処理部１１２は、コンテンツデータ１３２に含まれる複数のコンテンツの中から、着目コンテンツを決定する（Ｓ１００）。例えば、前処理部１１２は、コンテンツデータ１３２に含まれる複数の記事の中で、最も入稿時刻が遅い記事（直近に入稿された新着記事）を、着目コンテンツに決定してよい。また、前処理部１１２は、通信部１０２によって第１端末装置１０からＨＴＴＰリクエストなどが受信された場合、ユーザログデータ１３４を参照して、コンテンツデータ１３２に含まれる複数のコンテンツの中から、リクエストの送信元である第１端末装置１０を利用するユーザが過去に閲覧したコンテンツ（例えばユーザが最後に閲覧したコンテンツ）を特定し、その特定したコンテンツを着目コンテンツに決定してもよい。

次に、前処理部１１２は、決定した着目コンテンツと、コンテンツデータ１３２に含まれる複数のコンテンツの其々との類似度を導出する（Ｓ１０２）。例えば、前処理部１１２は、着目コンテンツに対応したコンテンツベクトルと、複数のコンテンツの其々に対応した各コンテンツベクトルとのコサイン類似度を、コンテンツ同士の類似度として導出する。

次に、抽出部１１４は、前処理部１１２によって着目コンテンツとの類似度が導出された複数のコンテンツの中から、着目コンテンツとの類似度が大きい上位所定数Ｎのコンテンツを選択し、選択したＮ個のコンテンツの集合からキーワードを抽出する（Ｓ１０４）。例えば、抽出部１１４は、着目コンテンツと、Ｎ個のコンテンツのそれぞれとに対して、特徴語抽出処理を行い、キーワード辞書１３６に登録された文字列（名詞）を第１キーワードとして抽出する。さらに、抽出部１１４は、着目コンテンツと、Ｎ個のコンテンツのそれぞれとに対して固有表現抽出処理を行い、組織名、人名、地名、日付表現、時間表現、金額表現、割合表現、固有物名といった予め決められた固有表現のクラスに分類される文字列を第２キーワードとして抽出する。

次に、選択部１１６は、抽出部１１４によって抽出されたキーワード（第１キーワードおよび第２キーワード）を条件にして、コンテンツデータ１３２に含まれる複数のコンテンツの中から、着目コンテンツと時系列に関連するコンテンツ（以下、関連コンテンツと称する）を選択する（Ｓ１０６）。関連コンテンツとは、例えば、着目コンテンツが扱う出来事と同じ出来事を扱ったコンテンツであり、着目コンテンツが、ある第１時刻における出来事を扱っていれば、第１時刻よりも前、あるいは後の第２時刻における出来事を扱うコンテンツである。具体的には、着目コンテンツが、２０２０年８月１日に発生した「台風３号」に関するニュース記事である場合、２０２０年８月２日以降の時点における「台風３号」に関するニュース記事が、関連コンテンツとして選択される。

例えば、選択部１１６は、抽出部１１４が特徴語抽出処理を行うことで着目コンテンツとＮ個のコンテンツとの双方から抽出した複数の第１キーワードのうち、確度が閾値以上の一以上の第１キーワードを所定割合以上含むコンテンツを、複数のコンテンツの中から暫定的な関連コンテンツとして選択する。確度とは、第１キーワードが着目コンテンツの出来事を端的に表すキーワードであるということの確からしさの程度を表す指標値であり、例えば、着目コンテンツとＮ個のコンテンツとの中で出現するキーワードの頻度（出現回数）によって表されてよい。この場合、確度は、第１キーワードが着目コンテンツとＮ個のコンテンツとの中でより多く出現するほど大きくなる。

選択部１１６は、複数のコンテンツの中から、確度が閾値以上の第１キーワードを含むコンテンツを一以上の暫定的な関連コンテンツとして選択すると、一以上の暫定的な関連コンテンツの中から、抽出部１１４が固有表現抽出処理を行うことで着目コンテンツから抽出した第２キーワードを含むコンテンツを関連コンテンツとして選択する。

図８は、関連コンテンツの選択処理を説明するための図である。図中ＣＴ_１は、着目コンテンツを表しており、ＣＴ_２からＣＴ_４のそれぞれは、関連コンテンツの選択対象とするコンテンツ（コンテンツデータ１３２に含まれる複数のコンテンツ）を表している。例えば、着目コンテンツＣＴ_１からは、確度が閾値以上の第１キーワードとして、「東京」、「花火」、「港区」、「祭り」、「○○公園」という文字列が抽出され、第２キーワードとして、「地名」というクラスに分類される「東京都」という文字列と、「固有物名」というクラスに分類される「花火大会」という文字列が抽出されている。コンテンツＣＴ_２からは、第１キーワードとして、「東京」、「花火」、「港区」、「祭り」、「○○公園」という文字列が抽出され、第２キーワードとして、「地名」というクラスに分類される「東京都」という文字列と、「固有物名」というクラスに分類される「花火大会」という文字列が抽出されている。コンテンツＣＴ_３からは、第１キーワードとして、「東京」、「花火」、「新宿区」、「○○球場」、「野球観戦」という文字列が抽出され、第２キーワードとして、「地名」というクラスに分類される「東京都」という文字列と、「固有物名」というクラスに分類される「花火大会」という文字列が抽出されている。コンテンツＣＴ_４からは、第１キーワードとして、「神奈川」、「花火」、「横浜市」、「祭り」、「△△公園」という文字列が抽出され、第２キーワードとして、「地名」というクラスに分類される「神奈川県」という文字列と、「固有物名」というクラスに分類される「花火大会」という文字列が抽出されている。

例えば、所定割合が８０［％］である場合、コンテンツＣＴ_２は、確度が閾値以上の第１キーワードを１００［％］の割合で含み、且つ第２キーワードを全て含んでいるため、選択部１１６は、コンテンツＣＴ_２を着目コンテンツＣＴ_１の関連コンテンツとして選択する。一方、コンテンツＣＴ_３は、第２キーワードを全て含んでいるものの、確度が閾値以上の第１キーワードを４０［％］の割合で含んでおり、所定割合未満であるため、選択部１１６は、コンテンツＣＴ_３を着目コンテンツＣＴ_１の関連コンテンツとして選択しない。また。コンテンツＣＴ_４は、第２キーワードの一部を含んでおらず、確度が閾値以上の第１キーワードを４０［％］の割合で含んでおり、所定割合未満であるため、選択部１１６は、コンテンツＣＴ_４を着目コンテンツＣＴ_１の関連コンテンツとして選択しない。

なお、選択部１１６は、コンテンツデータ１３２に含まれる複数のコンテンツの中から、関連コンテンツを選択する際に、着目コンテンツとの類似度（例えばコサイン類似度）が閾値未満のコンテンツを、関連コンテンツの選択対象から除外してもよい。

図７の説明に戻り、次に、分類部１１８は、選択部１１６により選択された関連コンテンツの数が所定数を超えるか否かを判定する（Ｓ１０８）。所定数とは、例えば、ウェブページに着目コンテンツを表示させる際に、そのウェブページの残りの領域に表示可能な関連コンテンツの数である。所定数は、ウェブページの設計者などが任意に決定可能なハイパーパラメータとして扱われてよい。

提供部１２０は、分類部１１８によって関連コンテンツの数が所定数以下であると判定された場合、通信部１０２を制御して、関連コンテンツを第１端末装置１０に提供（送信）する（Ｓ１１０）。例えば、提供部１２０は、図３に例示するようなウェブページに関連コンテンツを掲載することで、関連コンテンツを第１端末装置１０に提供してよい。

一方、分類部１１８は、関連コンテンツの数が所定数を超えると判定した場合、着目コンテンツと時系列に関連している複数の関連コンテンツの互いの相対的な内容の変化に基づいて、複数の関連コンテンツのそれぞれを複数のグループ（クラスタ）のいずれかに分類する（Ｓ１１２）。

図９から図１５は、関連コンテンツのグループ化の方法を説明するための図である。図中Ｖ１からＶ９は、関連コンテンツのコンテンツベクトルを表しており、縦軸は、関連コンテンツの内容を表し、横軸は、コンテンツがアップロードされた時刻（例えば入稿時刻）を表している。コンテンツの内容とは、例えば、コンテンツベクトルに含まれる複数の要素のことである。図示の例では、説明を簡略化するために、コンテンツの内容を一次元で表しているが、多次元であってよい。

まず、分類部１１８は、多次元空間において広がりをもって分布しているコンテンツベクトルＶ１からＶ９の重心Ｇ_Ｒを導出する。図９の例では、コンテンツベクトルＶ１からＶ３と、Ｖ４からＶ６と、Ｖ７からＶ９とがそれぞれ同じ軸上に分布しており、コンテンツベクトルＶ４からＶ６から見て、Ｖ１からＶ３と、Ｖ７からＶ９とが互いに等距離に分布している。そのため、図１０に例示するように、重心Ｇ_Ｒは、Ｖ４からＶ６を通る軸上に現れる。

分類部１１８は、重心Ｇ_Ｒを導出すると、時間軸方向に離散的に分布するコンテンツベクトルＶ１からＶ９のどこでグループを分離させるのかを決めるために、グループの境界となる境界線をコンテンツベクトルの間に設定する。図１１に示すように、例えば、グループの境界となる境界線は、時刻ｔ_１−２、ｔ_２−３、ｔ_３−４、ｔ_４−５、ｔ_５−６、ｔ_６−７、ｔ_７−８、ｔ_８−９のいずれか一か所または複数か所に設けられる。時刻ｔ_１−２は、コンテンツベクトルＶ１に対応したアップロード時刻ｔ_１とコンテンツベクトルＶ２に対応したアップロード時刻ｔ_２との間の時刻であり、時刻ｔ_２−３は、コンテンツベクトルＶ２に対応したアップロード時刻ｔ_２とコンテンツベクトルＶ３に対応したアップロード時刻ｔ_３との間の時刻である。他の時刻ｔ_３−４、ｔ_４−５、ｔ_５−６、ｔ_６−７、ｔ_７−８、ｔ_８−９についても同様である。なお、縦軸を便宜上一次元としているため、グループの境界を一次元の境界線として説明しているが、上述したように、縦軸が多次元である場合、グループの境界も多次元空間（例えば平面など）であってよい。

例えば、分類部１１８は、境界線の候補となる複数の時刻ｔ_１−２、ｔ_２−３、ｔ_３−４、ｔ_４−５、ｔ_５−６、ｔ_６−７、ｔ_７−８、ｔ_８−９の中から、グループ内のコンテンツベクトルを重心で近似するときの誤差が最も小さくなる時刻に境界線を設定することで、コンテンツベクトルＶ１からＶ９が分布する多次元空間を複数のグループに分離する。

図１２の例では、時刻ｔ_１−２を境界線としており、コンテンツベクトルＶ１からＶ９が分布する多次元空間は、時刻ｔ_１−２以前にアップロードされたコンテンツが含まれる第１グループと、時刻ｔ_１−２以降にアップロードされたコンテンツが含まれる第２グループとに分離される。この場合、コンテンツベクトルＶ１は、第１グループに分類され、コンテンツベクトルＶ２からＶ９は、第２グループに分類される。

分類部１１８は、コンテンツベクトルＶ１からＶ９を第１グループまたは第２グループのいずれかに分類すると、グループごとに、コンテンツベクトルの重心を導出し、グループごとに、重心に対するコンテンツベクトルの誤差（例えば最小二乗誤差）を導出する。

図１２の例では、第１グループの重心Ｇ１は、コンテンツベクトルＶ１と同じ位置であることから、重心Ｇ１に対するコンテンツベクトルＶ１の誤差はゼロとなる。一方、第２グループの重心Ｇ２は、コンテンツベクトルＶ２からＶ９の重心であるため、各コンテンツベクトルに重心Ｇ２との誤差が生じる。

次に、分類部１１８は、図１３から図１５の例のように、時刻ｔ_１−２と異なる時刻に境界線を設定して、多次元空間を複数のグループに分離し、グループごとに重心に対するコンテンツベクトルの誤差を導出することを繰り返す。図１４に例示するように、時刻ｔ_３−４を境界線としたときが、第１グループと第２グループの誤差が最も小さくなるため、分類部１１８は、時刻ｔ_３−４を境界線に設定し、時刻ｔ_３−４以降について境界線を探索する。このように、分類部１１８は、コンテンツベクトルを重心で近似するときの誤差が最も小さくなる境界線を探索していき、コンテンツベクトルＶ１からＶ９が分布する多次元空間を複数のグループに分離する。

図７の説明に戻り、提供部１２０は、分類部１１８によって複数の関連コンテンツが複数のグループに分類された場合、各グループから代表となる一つの関連コンテンツ（以下、代表関連コンテンツと称する）を選択する（Ｓ１１４）。

図１６は、代表関連コンテンツの選択方法を説明するための図である。例えば、分類部１１８が、時刻ｔ_３−４と時刻ｔ_６−７とのそれぞれに境界線を設定して、コンテンツベクトルＶ１からＶ９が分布する多次元空間を３つのグループに分離した場合、提供部１２０は、各グループに分類されたコンテンツベクトルから一つのコンテンツベクトルを選択することで、代表関連コンテンツを選択する。図示の例では、第２グループに分類されたコンテンツベクトルＶ５が着目コンテンツのコンテンツベクトルとしている。例えば、提供部１２０は、着目コンテンツとの話しの繋がりを重視する場合、図示の例のように、各グループにおいて、着目コンテンツを含む第２グループに時間的に最も近い関連コンテンツを、代表関連コンテンツとして選択してよい。この場合、図示の例のように、第１グループからは、コンテンツベクトルＶ３に対応する関連コンテンツが代表関連コンテンツとして選択され、第３グループからは、コンテンツベクトルＶ７に対応する関連コンテンツが代表関連コンテンツとして選択される。

また、提供部１２０は、ニュース記事などで第一報を重視する場合、各グループにおいて最も時刻が早い関連コンテンツ（図１６の例では、コンテンツベクトルＶ１に対応する関連コンテンツやコンテンツベクトルＶ７に対応する関連コンテンツ）を代表関連コンテンツとして選択してもよい。

なお、図示の例では、境界線を２か所に設定しているがこれに限られない。例えば、着目コンテンツとともに表示させる関連コンテンツの数を２つとした場合、グループ数を２つとするために、ある一つの時刻に境界線を設定してよい。また、着目コンテンツとともに表示させる関連コンテンツの数を４つ以上とした場合、グループ数を４つ以上とするために、３つ以上の時刻に境界線を設定してよい。

次に、提供部１２０は、Ｓ１１０の処理として、各グループから選択した代表関連コンテンツを第１端末装置１０に提供する。これによって、本フローチャートの処理が終了する。

以上説明した実施形態によれば、複数のコンテンツのうち、ある着目コンテンツとの類似度が大きい上位所定数Ｎのコンテンツからキーワードを抽出する抽出部１１４と、抽出部１１４により抽出されたキーワードを条件にして、複数のコンテンツの中から、着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する選択部１１６とを備えるため、着目コンテンツと時系列に関連する関連コンテンツをユーザに提供することができる。

例えば、コンテンツがニュース記事である場合、一つの関連した出来事の中で、その出来事に変化が生じるたびに、出来事に関する新たな記事が入稿され得る。このように次々と入稿される新しい記事がコンテンツとしてユーザに提供される場合、ユーザは、興味のある記事に対してジャンル（話題）が関連する記事よりも、その興味のある記事の続報として入稿された記事や、興味のある記事が続報記事であるときの第一報に相当する記事の方がより興味関心が高い場合がある。

例えば、興味のある記事に対してジャンルが関連する記事をコンテンツとしてユーザに提供する場合、ＴＦ−ＩＤＦなどで記事同士の類似度を求め、その類似度に応じて記事をユーザに提供するのか否かを決定することが考えられ得る。この場合、記事のジャンルとしては近いものの、記事同士に時間的な関連性がない場合がある。例えば、「豪雨」を報道する二つの記事が存在する場合、一方の記事が「東京」で発生した「豪雨」を報道する記事であり、他方の記事が「九州」で発生した「豪雨」を報道する記事であった場合、記事のジャンルは互いに「豪雨」という自然災害で共通するものの、発生場所が互い異なるため、一方の記事を他方の記事の続報記事として関連付けることは適切でない。

これに対して、本実施形態では、記事同士の互いの話題の近さというよりも、主要な固有名詞をキーワードとし、そのキーワードの共通性に応じて、着目コンテンツに対して他のコンテンツが関連するのか否かを決定するため、着目コンテンツと時系列に関連するコンテンツを適切に選択することができる。

また、上述した実施形態によれば、選択部１１６により選択された複数の関連コンテンツの相対的な内容の変化に基づいて、複数の関連コンテンツのそれぞれを複数のグループのいずれかに分類する分類部１１８を更に備えることで、時間軸方向に離散的に分布する複数の関連コンテンツのうち、時間が移り変わっても内容の変化が小さい関連コンテンツを一つのグループに纏めることができる。この結果、各グループから代表的な関連コンテンツを残し、その他の関連コンテンツを間引くことができる。

一般的に、データの階層クラスタリングは、全てのデータに順序がなく、任意のデータからクラスタリングが行われる。これに対して、本実施形態では、時間方向に離散的に分布する複数の関連コンテンツを、その時間方向に関してクラスタリングするため、内容の変化を残しつつ関連コンテンツを間引くことができる。この結果、内容が重複したコンテンツがユーザに提供されてしまうのを抑制することができる。

＜実施形態の変形例＞
以下、上述した実施形態の変形例について説明する。上述した実施形態では、分類部１１８が、着目コンテンツと時系列に関連している複数の関連コンテンツの互いの相対的な内容の変化に基づいて、複数の関連コンテンツのそれぞれを複数のグループのいずれかに分類するものとして説明したがこれに限られない。

例えば、分類部１１８は、時間的に等間隔となるように、複数の関連コンテンツをグループに分類してもよいし、各グループに含まれる関連コンテンツの数が均等となるように、複数の関連コンテンツをグループに分類してもよい。

また、上述した実施形態では、前処理部１１２が、複数のコンテンツのそれぞれと、着目コンテンツとの類似度を導出し、抽出部１１４が、前処理部１１２によって着目コンテンツとの類似度が導出された複数のコンテンツの中から、着目コンテンツとの類似度が大きい上位所定数Ｎのコンテンツを選択し、選択したＮ個のコンテンツの集合からキーワードを抽出し、選択部１１６が、抽出部１１４によって抽出されたキーワードを条件にして、コンテンツデータ１３２に含まれる複数のコンテンツの中から、着目コンテンツと時系列に関連する関連コンテンツを選択した上で、分類部１１８が、複数の関連コンテンツをグループに分類するものとして説明したがこれに限られない。

例えば、分類部１１８は、前処理部１１２によって着目コンテンツとの類似度が導出された複数のコンテンツの中から、着目コンテンツとの類似度が大きい上位所定数Ｘのコンテンツを関連コンテンツとして扱い、その関連コンテンツをグループに分類してもよい。所定数Ｘは、上述した所定数Ｎと同じであってもよいし、異なっていてもよい。

また、分類部１１８は、ユーザに提供する対象のコンテンツのジャンルが事前に決まっている場合、そのジャンルに該当するコンテンツのみをグループに分類してもよい。

＜ハードウェア構成＞
上述した実施形態の情報処理装置１００は、例えば、図１７に示すようなハードウェア構成により実現される。図１７は、実施形態の情報処理装置１００のハードウェア構成の一例を示す図である。

情報処理装置１００は、ＮＩＣ１００−１、ＣＰＵ１００−２、ＲＡＭ１００−３、ＲＯＭ１００−４、フラッシュメモリやＨＤＤなどの二次記憶装置１００−５、およびドライブ装置１００−６が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置１００−６には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置１００−５、またはドライブ装置１００−６に装着された可搬型記憶媒体に格納されたプログラムがＤＭＡコントローラ（不図示）などによってＲＡＭ１００−３に展開され、ＣＰＵ１００−２によって実行されることで、制御部１１０が実現される。制御部１１０が参照するプログラムは、ネットワークＮＷを介して他の装置からダウンロードされてもよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…情報処理システム、１０…第１端末装置、２０…第２端末装置、１００…情報処理装置、１０２…通信部、１１０…制御部、１１２…前処理部、１１４…抽出部、１１６…選択部、１１８…分類部、１２０…提供部、１３０…記憶部

Claims

複数のコンテンツのうち、ある着目コンテンツとの類似度が大きい上位所定数のコンテンツからキーワードを抽出する抽出部と、
前記抽出部により抽出された前記キーワードに基づいて、前記複数のコンテンツの中から、前記着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する選択部と、
を備える情報処理装置。
前記抽出部は、
固有表現抽出処理を行って、前記上位所定数のコンテンツから予め決められた固有表現を前記キーワードとして抽出し、
特徴語抽出処理を行って、前記上位所定数のコンテンツの中で共通する複数の特徴語を前記キーワードとして抽出する、
請求項１に記載の情報処理装置。
前記選択部は、前記複数のコンテンツの中から、前記固有表現を含み、且つ前記複数の特徴語を所定割合以上含むコンテンツを、前記関連コンテンツとして選択する、
請求項２に記載の情報処理装置。
前記キーワードの抽出対象となる前記複数のコンテンツの中から、前記着目コンテンツとの類似度が閾値未満のコンテンツを除外する前処理を更に備える、
請求項１から３のうちいずれか一項に記載の情報処理装置。
前記選択部により複数の関連コンテンツが選択された場合、前記複数の関連コンテンツの相対的な内容の変化に基づいて、前記複数の関連コンテンツを複数のグループに分類する分類部を更に備える、
請求項１から４のうちいずれか一項に記載の情報処理装置。
ユーザが利用可能な端末装置と通信する通信部と、
前記複数のグループのそれぞれから少なくとも一つの前記関連コンテンツを選択し、前記通信部を制御して、前記グループのそれぞれから選択した前記関連コンテンツを、前記端末装置に提供する提供部と、を更に備える、
請求項５に記載の情報処理装置。
複数のコンテンツの中から、ある着目コンテンツと時系列に関連する複数の関連コンテンツを選択する選択部と、
前記選択部により選択された前記複数の関連コンテンツの相対的な内容の変化に基づいて、前記複数の関連コンテンツを複数のグループに分類する分類部と、
を備える情報処理装置。
コンピュータが、
複数のコンテンツのうち、ある着目コンテンツとの類似度が大きい上位所定数のコンテンツからキーワードを抽出し、
前記抽出した前記キーワードに基づいて、前記複数のコンテンツの中から、前記着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する、
情報処理方法。
コンピュータに、
複数のコンテンツのうち、ある着目コンテンツとの類似度が大きい上位所定数のコンテンツからキーワードを抽出する処理と、
前記抽出した前記キーワードに基づいて、前記複数のコンテンツの中から、前記着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する処理と、
を実行させるためのプログラム。