JP2020042545A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2020042545A
JP2020042545A JP2018169495A JP2018169495A JP2020042545A JP 2020042545 A JP2020042545 A JP 2020042545A JP 2018169495 A JP2018169495 A JP 2018169495A JP 2018169495 A JP2018169495 A JP 2018169495A JP 2020042545 A JP2020042545 A JP 2020042545A
Authority
JP
Japan
Prior art keywords
content
contents
information processing
unit
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018169495A
Other languages
English (en)
Other versions
JP7042720B2 (ja
Inventor
俊平 大倉
Shumpei Okura
俊平 大倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LY Corp
Original Assignee
Z Holdings Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Z Holdings Corp filed Critical Z Holdings Corp
Priority to JP2018169495A priority Critical patent/JP7042720B2/ja
Publication of JP2020042545A publication Critical patent/JP2020042545A/ja
Application granted granted Critical
Publication of JP7042720B2 publication Critical patent/JP7042720B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】対象のコンテンツと時系列に関連するコンテンツをユーザに提供することである。【解決手段】情報処理装置は、複数のコンテンツのうち、ある着目コンテンツとの類似度が大きい上位所定数のコンテンツからキーワードを抽出する抽出部と、前記抽出部により抽出された前記キーワードに基づいて、前記複数のコンテンツの中から、前記着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する選択部と、を備える。【選択図】図4

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
インターネットなどを介してニュース記事のようなコンテンツがユーザに提供される場合、そのコンテンツに関連したコンテンツも併せて提供される場合がある。これに関連し、コンテンツの重要度を推定し、推定した重要度が高いコンテンツを優先的に表示する技術が知られている(例えば、特許文献1参照)。
特開2017−59057号公報
しかしながら、従来の技術では、ユーザが閲覧した、あるいはこれから閲覧する可能性がある対象のコンテンツに対して、時系列に関連する他のコンテンツを、対象コンテンツとともにユーザに提供することができない場合があった。
本発明は、上記の課題に鑑みてなされたものであり、対象のコンテンツと時系列に関連するコンテンツをユーザに提供することができる情報処理装置、情報処理方法、およびプログラムを提供することを目的としている。
本発明の一態様は、複数のコンテンツのうち、ある着目コンテンツとの類似度が大きい上位所定数のコンテンツからキーワードを抽出する抽出部と、前記抽出部により抽出された前記キーワードに基づいて、前記複数のコンテンツの中から、前記着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する選択部と、を備える情報処理装である。
本発明の一態様によれば、対象のコンテンツと時系列に関連するコンテンツをユーザに提供することができる。
実施形態の情報処理装置100を含む情報処理システム1の一例を示す図である。 第1端末装置10の画面に表示されたコンテンツの一例を示す図である。 第1端末装置10の画面に表示されたコンテンツの一例を示す図である。 実施形態における情報処理装置100の構成の一例を示す図である。 コンテンツデータ132の一例を示す図である。 ユーザログデータ134の一例を示す図である。 実施形態における制御部110の一連の処理の流れを示すフローチャートである。 関連コンテンツの選択処理を説明するための図である。 関連コンテンツのグループ化の方法を説明するための図である。 関連コンテンツのグループ化の方法を説明するための図である。 関連コンテンツのグループ化の方法を説明するための図である。 関連コンテンツのグループ化の方法を説明するための図である。 関連コンテンツのグループ化の方法を説明するための図である。 関連コンテンツのグループ化の方法を説明するための図である。 関連コンテンツのグループ化の方法を説明するための図である。 代表関連コンテンツの選択方法を説明するための図である。 実施形態の情報処理装置100のハードウェア構成の一例を示す図である。
以下、本発明を適用した情報処理装置、情報処理方法、およびプログラムを、図面を参照して説明する。
[概要]
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、複数のコンテンツのうち、着目するある一つのコンテンツ(以下、着目コンテンツと称する)との類似度が大きい上位所定数のコンテンツからキーワードを抽出し、抽出したキーワードに基づいて、複数のコンテンツの中から、着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する。これによって、対象のコンテンツと時系列に関連するコンテンツをユーザに提供することができる。
本実施形態におけるコンテンツは、例えば、ブログやウェブサイトなどに掲載される記事であり、テキストを含むコンテンツである。この記事は、例えば、ニュースや政治、経済、スポーツといった時々刻々と変化する社会的な出来事(時事)をテーマとして扱う記事であってよい。このような記事は、ある出来事に関して第一報となる記事が存在し、その後、時間の経過に応じて出来事が変化した場合、その変化を伝える記事が続報として提供され得る。以下の説明では、一例として、コンテンツがニュース記事のような文書であるものとして説明する。
[全体構成]
図1は、実施形態の情報処理装置100を含む情報処理システム1の一例を示す図である。実施形態における情報処理システム1は、例えば、一つ以上の第1端末装置10と、一つ以上の第2端末装置20と、情報処理装置100とを備える。これらの装置は、例えば、ネットワークNWを介して互いに接続される。
図1に示す各装置は、ネットワークNWを介して種々の情報を送受信する。ネットワークNWは、例えば、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)、プロバイダ端末、無線通信網、無線基地局、専用回線などを含む。なお、図1に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークNWは、一部にローカルなネットワークを含んでもよい。
第1端末装置10は、例えば、スマートフォンなどの携帯電話、タブレット端末、各種パーソナルコンピュータなどの、入力装置、表示装置、通信装置、記憶装置、および演算装置を備える端末装置である。通信装置は、NIC(Network Interface Card)などのネットワークカード、無線通信モジュールなどを含む。第1端末装置10では、ウェブブラウザやアプリケーションプログラムなどのUA(User Agent)が起動し、ユーザの入力内容に応じたリクエストを情報処理装置100に送信する。また、UAが起動された第1端末装置10は、情報処理装置100から取得した情報に基づいて、表示装置に各種画像を表示させる。
第2端末装置20は、例えば、スマートフォンなどの携帯電話、タブレット端末、各種パーソナルコンピュータなどの、入力装置、表示装置、通信装置、記憶装置、および演算装置を備える端末装置である。通信装置は、NICなどのネットワークカード、無線通信モジュールなどを含む。例えば、マスメディアなどの企業や事業者の従業員、あるいはジャーナリストやブロガーなどの個人が第2端末装置20を操作することで、情報処理装置100に、ニュース記事などのコンテンツをアップロードする。
情報処理装置100は、例えば、ウェブブラウザからのリクエスト(例えばHTTP(Hypertext Transfer Protocol)リクエスト)に応じてウェブページを第1端末装置10に提供するウェブサーバであってよい。ウェブページには、例えば、ニュース記事などのコンテンツが含まれる。また、情報処理装置100は、アプリケーションプログラムからのリクエストに応じてコンテンツを第1端末装置10に提供するアプリケーションサーバであってもよい。
図2および図3は、第1端末装置10の画面に表示されたコンテンツの一例を示す図である。図2の例では、コンテンツが一覧形式で掲載されたウェブページを表している。このようなウェブページには、各コンテンツに含まれる代表的な画像や、各コンテンツのスニペット(要約)、各コンテンツの詳細な情報が掲載された他のウェブページへのハイパーリンクLKなどが表示される。例えば、図2に例示するウェブページにおいて、最上段のコンテンツCTのハイパーリンクLKが選択された場合、図3に例示するウェブページへと画面が遷移する。このウェブページには、例えば、ユーザが選択したコンテンツCTとともに、そのコンテンツCTと時系列に関連した他のコンテンツの画像やスニペット、ハイパーリンクLKなどが表示される。これによって、例えば、ユーザが、あるコンテンツCTを閲覧した場合、そのコンテンツCTが扱う話題を、閲覧時点よりも前の過去の時点または閲覧時点よりも後の将来の時点で扱った他のコンテンツCT、CT、CTを、そのユーザに提供することができる。このようなコンテンツの提供方法の詳細については以下に説明する。
[情報処理装置の構成]
図4は、実施形態における情報処理装置100の構成の一例を示す図である。図示のように、情報処理装置100は、例えば、通信部102と、制御部110と、記憶部130とを備える。
通信部102は、例えば、NIC等の通信インターフェースを含む。通信部102は、ネットワークNWを介して、第1端末装置10や第2端末装置20などと通信する。例えば、通信部102は、第1端末装置10と通信し、HTTPリクエストなどを受信してよい。また、例えば、通信部102は、第2端末装置20と通信し、第2端末装置20からコンテンツを受信してもよい。通信部102は、コンテンツを受信すると、受信したコンテンツを後述するコンテンツデータ132として記憶部130に記憶させる。
制御部110は、例えば、前処理部112と、抽出部114と、選択部116と、分類部118と、提供部120とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサ(あるいはプロセッサ回路)が、記憶部130に記憶されたプログラム(ソフトウェア)を実行することにより実現される。また、制御部110の構成要素のうち一部または全部は、例えば、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等のハードウェア(回路部:circuitry)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。また、プロセッサにより参照されるプログラムは、予め記憶部130に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体が情報処理装置100のドライブ装置に装着されることで記憶媒体から記憶部130にインストールされてもよい。
記憶部130は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、RAM(Random Access Memory)などの記憶装置により実現される。記憶部130には、ファームウェアやアプリケーションプログラムなどの各種プログラムのほかに、コンテンツデータ132やユーザログデータ134、キーワード辞書136などが格納される。
コンテンツデータ132は、例えば、複数の記事(例えば数万件から数十万件の記事)がコンテンツとして含まれるデータである。図5は、コンテンツデータ132の一例を示す図である。コンテンツがニュース記事のような文書である場合、図示の例のように、コンテンツデータ132は、各記事を識別する記事IDに対して、その記事の入稿時刻や、その記事がベクトル化された記事ベクトル(コンテンツベクトル)などが対応付けられたデータであってよい。
入稿時刻とは、例えば、第2端末装置20から情報処理装置100へと記事が送信された時刻であってよいし、情報処理装置100によって記事が受信された時刻であってもよい。
記事ベクトルは、コンテンツが記事である場合のコンテンツベクトルの一つであり、例えば、word2vecやGloVeのような分散表現と呼ばれる手法を用いることで、記事から生成されるベクトルである。分散表現は、単語または語句と、その単語または語句の前後で出現する単語または語句との共起性に基づいて、単語や語句をベクトル化する手法であり、例えば、予め用意された複数の単語や語句を含むコーパスに基づいて、ある文脈において着目する一つの単語の前後に出現する単語の出現確率を求め、その出現確率を要素値とする多次元のベクトルを生成する手法である。具体的には、記事ベクトルをVとした場合、V=[e1,e2,e3,…]といったように表現することができる。記事から記事ベクトルを生成する処理は、前処理部112によって行われてもよいし、情報処理装置100以外に他の装置によって行われてもよい。
ユーザログデータ134は、複数のユーザの行動履歴を含むデータである。図6は、ユーザログデータ134の一例を示す図である。図示の例のように、ユーザログデータ134は、各ユーザを識別するユーザIDに対して、そのユーザが閲覧した記事を掲載するウェブページのURL(Uniform Resource Locator)や、その記事のタイトルなどが行動履歴として対応付けられたデータである。
キーワード辞書136は、形態素解析やチャンキング(Chunking)処理などを用いて、コンテンツから特徴語を抽出する処理(以下、特徴語抽出処理と称する)が行われる際に利用される辞書である。形態素解析は、文書を形態素に分割して解析する手法である。チャンキング処理は、言語処理においては形態素解析などで分割された語を必要に応じて意味的なまとまりに繋ぎ直す処理であり、具体的には、単語単位のものをまとめて文節単位にしたり、複数単語で固有のフレーズとなるものを繋いだりする処理である。キーワード辞書136には、特徴語を表す文字列が登録されており、その文字列は、例えば、組織名、人名、地名、固有物名といった名詞であってよい。特徴語(名詞)は、一つの単語であってもよいし、複数の単語からなるフレーズであってもよい。
[処理フロー]
以下、実施形態における制御部110の一連の処理の流れをフローチャートに即して説明する。図7は、実施形態における制御部110の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてもよい。
まず、前処理部112は、コンテンツデータ132に含まれる複数のコンテンツの中から、着目コンテンツを決定する(S100)。例えば、前処理部112は、コンテンツデータ132に含まれる複数の記事の中で、最も入稿時刻が遅い記事(直近に入稿された新着記事)を、着目コンテンツに決定してよい。また、前処理部112は、通信部102によって第1端末装置10からHTTPリクエストなどが受信された場合、ユーザログデータ134を参照して、コンテンツデータ132に含まれる複数のコンテンツの中から、リクエストの送信元である第1端末装置10を利用するユーザが過去に閲覧したコンテンツ(例えばユーザが最後に閲覧したコンテンツ)を特定し、その特定したコンテンツを着目コンテンツに決定してもよい。
次に、前処理部112は、決定した着目コンテンツと、コンテンツデータ132に含まれる複数のコンテンツの其々との類似度を導出する(S102)。例えば、前処理部112は、着目コンテンツに対応したコンテンツベクトルと、複数のコンテンツの其々に対応した各コンテンツベクトルとのコサイン類似度を、コンテンツ同士の類似度として導出する。
次に、抽出部114は、前処理部112によって着目コンテンツとの類似度が導出された複数のコンテンツの中から、着目コンテンツとの類似度が大きい上位所定数Nのコンテンツを選択し、選択したN個のコンテンツの集合からキーワードを抽出する(S104)。例えば、抽出部114は、着目コンテンツと、N個のコンテンツのそれぞれとに対して、特徴語抽出処理を行い、キーワード辞書136に登録された文字列(名詞)を第1キーワードとして抽出する。さらに、抽出部114は、着目コンテンツと、N個のコンテンツのそれぞれとに対して固有表現抽出処理を行い、組織名、人名、地名、日付表現、時間表現、金額表現、割合表現、固有物名といった予め決められた固有表現のクラスに分類される文字列を第2キーワードとして抽出する。
次に、選択部116は、抽出部114によって抽出されたキーワード(第1キーワードおよび第2キーワード)を条件にして、コンテンツデータ132に含まれる複数のコンテンツの中から、着目コンテンツと時系列に関連するコンテンツ(以下、関連コンテンツと称する)を選択する(S106)。関連コンテンツとは、例えば、着目コンテンツが扱う出来事と同じ出来事を扱ったコンテンツであり、着目コンテンツが、ある第1時刻における出来事を扱っていれば、第1時刻よりも前、あるいは後の第2時刻における出来事を扱うコンテンツである。具体的には、着目コンテンツが、2020年8月1日に発生した「台風3号」に関するニュース記事である場合、2020年8月2日以降の時点における「台風3号」に関するニュース記事が、関連コンテンツとして選択される。
例えば、選択部116は、抽出部114が特徴語抽出処理を行うことで着目コンテンツとN個のコンテンツとの双方から抽出した複数の第1キーワードのうち、確度が閾値以上の一以上の第1キーワードを所定割合以上含むコンテンツを、複数のコンテンツの中から暫定的な関連コンテンツとして選択する。確度とは、第1キーワードが着目コンテンツの出来事を端的に表すキーワードであるということの確からしさの程度を表す指標値であり、例えば、着目コンテンツとN個のコンテンツとの中で出現するキーワードの頻度(出現回数)によって表されてよい。この場合、確度は、第1キーワードが着目コンテンツとN個のコンテンツとの中でより多く出現するほど大きくなる。
選択部116は、複数のコンテンツの中から、確度が閾値以上の第1キーワードを含むコンテンツを一以上の暫定的な関連コンテンツとして選択すると、一以上の暫定的な関連コンテンツの中から、抽出部114が固有表現抽出処理を行うことで着目コンテンツから抽出した第2キーワードを含むコンテンツを関連コンテンツとして選択する。
図8は、関連コンテンツの選択処理を説明するための図である。図中CTは、着目コンテンツを表しており、CTからCTのそれぞれは、関連コンテンツの選択対象とするコンテンツ(コンテンツデータ132に含まれる複数のコンテンツ)を表している。例えば、着目コンテンツCTからは、確度が閾値以上の第1キーワードとして、「東京」、「花火」、「港区」、「祭り」、「○○公園」という文字列が抽出され、第2キーワードとして、「地名」というクラスに分類される「東京都」という文字列と、「固有物名」というクラスに分類される「花火大会」という文字列が抽出されている。コンテンツCTからは、第1キーワードとして、「東京」、「花火」、「港区」、「祭り」、「○○公園」という文字列が抽出され、第2キーワードとして、「地名」というクラスに分類される「東京都」という文字列と、「固有物名」というクラスに分類される「花火大会」という文字列が抽出されている。コンテンツCTからは、第1キーワードとして、「東京」、「花火」、「新宿区」、「○○球場」、「野球観戦」という文字列が抽出され、第2キーワードとして、「地名」というクラスに分類される「東京都」という文字列と、「固有物名」というクラスに分類される「花火大会」という文字列が抽出されている。コンテンツCTからは、第1キーワードとして、「神奈川」、「花火」、「横浜市」、「祭り」、「△△公園」という文字列が抽出され、第2キーワードとして、「地名」というクラスに分類される「神奈川県」という文字列と、「固有物名」というクラスに分類される「花火大会」という文字列が抽出されている。
例えば、所定割合が80[%]である場合、コンテンツCTは、確度が閾値以上の第1キーワードを100[%]の割合で含み、且つ第2キーワードを全て含んでいるため、選択部116は、コンテンツCTを着目コンテンツCTの関連コンテンツとして選択する。一方、コンテンツCTは、第2キーワードを全て含んでいるものの、確度が閾値以上の第1キーワードを40[%]の割合で含んでおり、所定割合未満であるため、選択部116は、コンテンツCTを着目コンテンツCTの関連コンテンツとして選択しない。また。コンテンツCTは、第2キーワードの一部を含んでおらず、確度が閾値以上の第1キーワードを40[%]の割合で含んでおり、所定割合未満であるため、選択部116は、コンテンツCTを着目コンテンツCTの関連コンテンツとして選択しない。
なお、選択部116は、コンテンツデータ132に含まれる複数のコンテンツの中から、関連コンテンツを選択する際に、着目コンテンツとの類似度(例えばコサイン類似度)が閾値未満のコンテンツを、関連コンテンツの選択対象から除外してもよい。
図7の説明に戻り、次に、分類部118は、選択部116により選択された関連コンテンツの数が所定数を超えるか否かを判定する(S108)。所定数とは、例えば、ウェブページに着目コンテンツを表示させる際に、そのウェブページの残りの領域に表示可能な関連コンテンツの数である。所定数は、ウェブページの設計者などが任意に決定可能なハイパーパラメータとして扱われてよい。
提供部120は、分類部118によって関連コンテンツの数が所定数以下であると判定された場合、通信部102を制御して、関連コンテンツを第1端末装置10に提供(送信)する(S110)。例えば、提供部120は、図3に例示するようなウェブページに関連コンテンツを掲載することで、関連コンテンツを第1端末装置10に提供してよい。
一方、分類部118は、関連コンテンツの数が所定数を超えると判定した場合、着目コンテンツと時系列に関連している複数の関連コンテンツの互いの相対的な内容の変化に基づいて、複数の関連コンテンツのそれぞれを複数のグループ(クラスタ)のいずれかに分類する(S112)。
図9から図15は、関連コンテンツのグループ化の方法を説明するための図である。図中V1からV9は、関連コンテンツのコンテンツベクトルを表しており、縦軸は、関連コンテンツの内容を表し、横軸は、コンテンツがアップロードされた時刻(例えば入稿時刻)を表している。コンテンツの内容とは、例えば、コンテンツベクトルに含まれる複数の要素のことである。図示の例では、説明を簡略化するために、コンテンツの内容を一次元で表しているが、多次元であってよい。
まず、分類部118は、多次元空間において広がりをもって分布しているコンテンツベクトルV1からV9の重心Gを導出する。図9の例では、コンテンツベクトルV1からV3と、V4からV6と、V7からV9とがそれぞれ同じ軸上に分布しており、コンテンツベクトルV4からV6から見て、V1からV3と、V7からV9とが互いに等距離に分布している。そのため、図10に例示するように、重心Gは、V4からV6を通る軸上に現れる。
分類部118は、重心Gを導出すると、時間軸方向に離散的に分布するコンテンツベクトルV1からV9のどこでグループを分離させるのかを決めるために、グループの境界となる境界線をコンテンツベクトルの間に設定する。図11に示すように、例えば、グループの境界となる境界線は、時刻t1−2、t2−3、t3−4、t4−5、t5−6、t6−7、t7−8、t8−9のいずれか一か所または複数か所に設けられる。時刻t1−2は、コンテンツベクトルV1に対応したアップロード時刻tとコンテンツベクトルV2に対応したアップロード時刻tとの間の時刻であり、時刻t2−3は、コンテンツベクトルV2に対応したアップロード時刻tとコンテンツベクトルV3に対応したアップロード時刻tとの間の時刻である。他の時刻t3−4、t4−5、t5−6、t6−7、t7−8、t8−9についても同様である。なお、縦軸を便宜上一次元としているため、グループの境界を一次元の境界線として説明しているが、上述したように、縦軸が多次元である場合、グループの境界も多次元空間(例えば平面など)であってよい。
例えば、分類部118は、境界線の候補となる複数の時刻t1−2、t2−3、t3−4、t4−5、t5−6、t6−7、t7−8、t8−9の中から、グループ内のコンテンツベクトルを重心で近似するときの誤差が最も小さくなる時刻に境界線を設定することで、コンテンツベクトルV1からV9が分布する多次元空間を複数のグループに分離する。
図12の例では、時刻t1−2を境界線としており、コンテンツベクトルV1からV9が分布する多次元空間は、時刻t1−2以前にアップロードされたコンテンツが含まれる第1グループと、時刻t1−2以降にアップロードされたコンテンツが含まれる第2グループとに分離される。この場合、コンテンツベクトルV1は、第1グループに分類され、コンテンツベクトルV2からV9は、第2グループに分類される。
分類部118は、コンテンツベクトルV1からV9を第1グループまたは第2グループのいずれかに分類すると、グループごとに、コンテンツベクトルの重心を導出し、グループごとに、重心に対するコンテンツベクトルの誤差(例えば最小二乗誤差)を導出する。
図12の例では、第1グループの重心G1は、コンテンツベクトルV1と同じ位置であることから、重心G1に対するコンテンツベクトルV1の誤差はゼロとなる。一方、第2グループの重心G2は、コンテンツベクトルV2からV9の重心であるため、各コンテンツベクトルに重心G2との誤差が生じる。
次に、分類部118は、図13から図15の例のように、時刻t1−2と異なる時刻に境界線を設定して、多次元空間を複数のグループに分離し、グループごとに重心に対するコンテンツベクトルの誤差を導出することを繰り返す。図14に例示するように、時刻t3−4を境界線としたときが、第1グループと第2グループの誤差が最も小さくなるため、分類部118は、時刻t3−4を境界線に設定し、時刻t3−4以降について境界線を探索する。このように、分類部118は、コンテンツベクトルを重心で近似するときの誤差が最も小さくなる境界線を探索していき、コンテンツベクトルV1からV9が分布する多次元空間を複数のグループに分離する。
図7の説明に戻り、提供部120は、分類部118によって複数の関連コンテンツが複数のグループに分類された場合、各グループから代表となる一つの関連コンテンツ(以下、代表関連コンテンツと称する)を選択する(S114)。
図16は、代表関連コンテンツの選択方法を説明するための図である。例えば、分類部118が、時刻t3−4と時刻t6−7とのそれぞれに境界線を設定して、コンテンツベクトルV1からV9が分布する多次元空間を3つのグループに分離した場合、提供部120は、各グループに分類されたコンテンツベクトルから一つのコンテンツベクトルを選択することで、代表関連コンテンツを選択する。図示の例では、第2グループに分類されたコンテンツベクトルV5が着目コンテンツのコンテンツベクトルとしている。例えば、提供部120は、着目コンテンツとの話しの繋がりを重視する場合、図示の例のように、各グループにおいて、着目コンテンツを含む第2グループに時間的に最も近い関連コンテンツを、代表関連コンテンツとして選択してよい。この場合、図示の例のように、第1グループからは、コンテンツベクトルV3に対応する関連コンテンツが代表関連コンテンツとして選択され、第3グループからは、コンテンツベクトルV7に対応する関連コンテンツが代表関連コンテンツとして選択される。
また、提供部120は、ニュース記事などで第一報を重視する場合、各グループにおいて最も時刻が早い関連コンテンツ(図16の例では、コンテンツベクトルV1に対応する関連コンテンツやコンテンツベクトルV7に対応する関連コンテンツ)を代表関連コンテンツとして選択してもよい。
なお、図示の例では、境界線を2か所に設定しているがこれに限られない。例えば、着目コンテンツとともに表示させる関連コンテンツの数を2つとした場合、グループ数を2つとするために、ある一つの時刻に境界線を設定してよい。また、着目コンテンツとともに表示させる関連コンテンツの数を4つ以上とした場合、グループ数を4つ以上とするために、3つ以上の時刻に境界線を設定してよい。
次に、提供部120は、S110の処理として、各グループから選択した代表関連コンテンツを第1端末装置10に提供する。これによって、本フローチャートの処理が終了する。
以上説明した実施形態によれば、複数のコンテンツのうち、ある着目コンテンツとの類似度が大きい上位所定数Nのコンテンツからキーワードを抽出する抽出部114と、抽出部114により抽出されたキーワードを条件にして、複数のコンテンツの中から、着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する選択部116とを備えるため、着目コンテンツと時系列に関連する関連コンテンツをユーザに提供することができる。
例えば、コンテンツがニュース記事である場合、一つの関連した出来事の中で、その出来事に変化が生じるたびに、出来事に関する新たな記事が入稿され得る。このように次々と入稿される新しい記事がコンテンツとしてユーザに提供される場合、ユーザは、興味のある記事に対してジャンル(話題)が関連する記事よりも、その興味のある記事の続報として入稿された記事や、興味のある記事が続報記事であるときの第一報に相当する記事の方がより興味関心が高い場合がある。
例えば、興味のある記事に対してジャンルが関連する記事をコンテンツとしてユーザに提供する場合、TF−IDFなどで記事同士の類似度を求め、その類似度に応じて記事をユーザに提供するのか否かを決定することが考えられ得る。この場合、記事のジャンルとしては近いものの、記事同士に時間的な関連性がない場合がある。例えば、「豪雨」を報道する二つの記事が存在する場合、一方の記事が「東京」で発生した「豪雨」を報道する記事であり、他方の記事が「九州」で発生した「豪雨」を報道する記事であった場合、記事のジャンルは互いに「豪雨」という自然災害で共通するものの、発生場所が互い異なるため、一方の記事を他方の記事の続報記事として関連付けることは適切でない。
これに対して、本実施形態では、記事同士の互いの話題の近さというよりも、主要な固有名詞をキーワードとし、そのキーワードの共通性に応じて、着目コンテンツに対して他のコンテンツが関連するのか否かを決定するため、着目コンテンツと時系列に関連するコンテンツを適切に選択することができる。
また、上述した実施形態によれば、選択部116により選択された複数の関連コンテンツの相対的な内容の変化に基づいて、複数の関連コンテンツのそれぞれを複数のグループのいずれかに分類する分類部118を更に備えることで、時間軸方向に離散的に分布する複数の関連コンテンツのうち、時間が移り変わっても内容の変化が小さい関連コンテンツを一つのグループに纏めることができる。この結果、各グループから代表的な関連コンテンツを残し、その他の関連コンテンツを間引くことができる。
一般的に、データの階層クラスタリングは、全てのデータに順序がなく、任意のデータからクラスタリングが行われる。これに対して、本実施形態では、時間方向に離散的に分布する複数の関連コンテンツを、その時間方向に関してクラスタリングするため、内容の変化を残しつつ関連コンテンツを間引くことができる。この結果、内容が重複したコンテンツがユーザに提供されてしまうのを抑制することができる。
<実施形態の変形例>
以下、上述した実施形態の変形例について説明する。上述した実施形態では、分類部118が、着目コンテンツと時系列に関連している複数の関連コンテンツの互いの相対的な内容の変化に基づいて、複数の関連コンテンツのそれぞれを複数のグループのいずれかに分類するものとして説明したがこれに限られない。
例えば、分類部118は、時間的に等間隔となるように、複数の関連コンテンツをグループに分類してもよいし、各グループに含まれる関連コンテンツの数が均等となるように、複数の関連コンテンツをグループに分類してもよい。
また、上述した実施形態では、前処理部112が、複数のコンテンツのそれぞれと、着目コンテンツとの類似度を導出し、抽出部114が、前処理部112によって着目コンテンツとの類似度が導出された複数のコンテンツの中から、着目コンテンツとの類似度が大きい上位所定数Nのコンテンツを選択し、選択したN個のコンテンツの集合からキーワードを抽出し、選択部116が、抽出部114によって抽出されたキーワードを条件にして、コンテンツデータ132に含まれる複数のコンテンツの中から、着目コンテンツと時系列に関連する関連コンテンツを選択した上で、分類部118が、複数の関連コンテンツをグループに分類するものとして説明したがこれに限られない。
例えば、分類部118は、前処理部112によって着目コンテンツとの類似度が導出された複数のコンテンツの中から、着目コンテンツとの類似度が大きい上位所定数Xのコンテンツを関連コンテンツとして扱い、その関連コンテンツをグループに分類してもよい。所定数Xは、上述した所定数Nと同じであってもよいし、異なっていてもよい。
また、分類部118は、ユーザに提供する対象のコンテンツのジャンルが事前に決まっている場合、そのジャンルに該当するコンテンツのみをグループに分類してもよい。
<ハードウェア構成>
上述した実施形態の情報処理装置100は、例えば、図17に示すようなハードウェア構成により実現される。図17は、実施形態の情報処理装置100のハードウェア構成の一例を示す図である。
情報処理装置100は、NIC100−1、CPU100−2、RAM100−3、ROM100−4、フラッシュメモリやHDDなどの二次記憶装置100−5、およびドライブ装置100−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置100−6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置100−5、またはドライブ装置100−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM100−3に展開され、CPU100−2によって実行されることで、制御部110が実現される。制御部110が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1…情報処理システム、10…第1端末装置、20…第2端末装置、100…情報処理装置、102…通信部、110…制御部、112…前処理部、114…抽出部、116…選択部、118…分類部、120…提供部、130…記憶部

Claims (9)

  1. 複数のコンテンツのうち、ある着目コンテンツとの類似度が大きい上位所定数のコンテンツからキーワードを抽出する抽出部と、
    前記抽出部により抽出された前記キーワードに基づいて、前記複数のコンテンツの中から、前記着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する選択部と、
    を備える情報処理装置。
  2. 前記抽出部は、
    固有表現抽出処理を行って、前記上位所定数のコンテンツから予め決められた固有表現を前記キーワードとして抽出し、
    特徴語抽出処理を行って、前記上位所定数のコンテンツの中で共通する複数の特徴語を前記キーワードとして抽出する、
    請求項1に記載の情報処理装置。
  3. 前記選択部は、前記複数のコンテンツの中から、前記固有表現を含み、且つ前記複数の特徴語を所定割合以上含むコンテンツを、前記関連コンテンツとして選択する、
    請求項2に記載の情報処理装置。
  4. 前記キーワードの抽出対象となる前記複数のコンテンツの中から、前記着目コンテンツとの類似度が閾値未満のコンテンツを除外する前処理を更に備える、
    請求項1から3のうちいずれか一項に記載の情報処理装置。
  5. 前記選択部により複数の関連コンテンツが選択された場合、前記複数の関連コンテンツの相対的な内容の変化に基づいて、前記複数の関連コンテンツを複数のグループに分類する分類部を更に備える、
    請求項1から4のうちいずれか一項に記載の情報処理装置。
  6. ユーザが利用可能な端末装置と通信する通信部と、
    前記複数のグループのそれぞれから少なくとも一つの前記関連コンテンツを選択し、前記通信部を制御して、前記グループのそれぞれから選択した前記関連コンテンツを、前記端末装置に提供する提供部と、を更に備える、
    請求項5に記載の情報処理装置。
  7. 複数のコンテンツの中から、ある着目コンテンツと時系列に関連する複数の関連コンテンツを選択する選択部と、
    前記選択部により選択された前記複数の関連コンテンツの相対的な内容の変化に基づいて、前記複数の関連コンテンツを複数のグループに分類する分類部と、
    を備える情報処理装置。
  8. コンピュータが、
    複数のコンテンツのうち、ある着目コンテンツとの類似度が大きい上位所定数のコンテンツからキーワードを抽出し、
    前記抽出した前記キーワードに基づいて、前記複数のコンテンツの中から、前記着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する、
    情報処理方法。
  9. コンピュータに、
    複数のコンテンツのうち、ある着目コンテンツとの類似度が大きい上位所定数のコンテンツからキーワードを抽出する処理と、
    前記抽出した前記キーワードに基づいて、前記複数のコンテンツの中から、前記着目コンテンツと時系列に関連する一以上の関連コンテンツを選択する処理と、
    を実行させるためのプログラム。
JP2018169495A 2018-09-11 2018-09-11 情報処理装置、情報処理方法、およびプログラム Active JP7042720B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018169495A JP7042720B2 (ja) 2018-09-11 2018-09-11 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018169495A JP7042720B2 (ja) 2018-09-11 2018-09-11 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020042545A true JP2020042545A (ja) 2020-03-19
JP7042720B2 JP7042720B2 (ja) 2022-03-28

Family

ID=69799385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018169495A Active JP7042720B2 (ja) 2018-09-11 2018-09-11 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7042720B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270774A (zh) * 2022-09-27 2022-11-01 吉奥时空信息技术股份有限公司 一种半监督学习的大数据关键词词典构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127325A (ja) * 2004-10-29 2006-05-18 Ntt Docomo Inc コンテンツ発見装置、及び、コンテンツ発見方法
JP2013029973A (ja) * 2011-07-28 2013-02-07 Nippon Hoso Kyokai <Nhk> 推薦番組提示装置およびそのプログラム
JP2017142573A (ja) * 2016-02-08 2017-08-17 日本放送協会 コンテンツ提示装置、方法及びプログラム
JP2018005633A (ja) * 2016-07-04 2018-01-11 日本放送協会 関連コンテンツ抽出装置、関連コンテンツ抽出方法及び関連コンテンツ抽出プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127325A (ja) * 2004-10-29 2006-05-18 Ntt Docomo Inc コンテンツ発見装置、及び、コンテンツ発見方法
JP2013029973A (ja) * 2011-07-28 2013-02-07 Nippon Hoso Kyokai <Nhk> 推薦番組提示装置およびそのプログラム
JP2017142573A (ja) * 2016-02-08 2017-08-17 日本放送協会 コンテンツ提示装置、方法及びプログラム
JP2018005633A (ja) * 2016-07-04 2018-01-11 日本放送協会 関連コンテンツ抽出装置、関連コンテンツ抽出方法及び関連コンテンツ抽出プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270774A (zh) * 2022-09-27 2022-11-01 吉奥时空信息技术股份有限公司 一种半监督学习的大数据关键词词典构建方法

Also Published As

Publication number Publication date
JP7042720B2 (ja) 2022-03-28

Similar Documents

Publication Publication Date Title
CN104899322B (zh) 搜索引擎及其实现方法
JP5727512B2 (ja) 検索提案のクラスタ化及び提示
US8856129B2 (en) Flexible and scalable structured web data extraction
US10430806B2 (en) Input/output interface for contextual analysis engine
JP5679993B2 (ja) クエリを実行する方法およびクエリシステム
CN107862022B (zh) 文化资源推荐系统
US9436768B2 (en) System and method for pushing and distributing promotion content
US20150106078A1 (en) Contextual analysis engine
US10503803B2 (en) Animated snippets for search results
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
CN107291755B (zh) 一种终端推送方法及装置
US7962523B2 (en) System and method for detecting templates of a website using hyperlink analysis
US20150287047A1 (en) Extracting Information from Chain-Store Websites
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
US11609943B2 (en) Contextual content distribution
JP7166116B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN111444304A (zh) 搜索排序的方法和装置
US20160299951A1 (en) Processing a search query and retrieving targeted records from a networked database system
CN108280081B (zh) 生成网页的方法和装置
JP6434954B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20120239657A1 (en) Category classification processing device and method
JP2020521246A (ja) ネットワークアクセス可能なコンテンツの自動化された分類
JP7042720B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US20140297613A1 (en) Method for customizing search queries to optimized search results

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220315

R150 Certificate of patent or registration of utility model

Ref document number: 7042720

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350