JP5841108B2 - 情報処理装置、記事情報生成方法およびプログラム - Google Patents

情報処理装置、記事情報生成方法およびプログラム Download PDF

Info

Publication number
JP5841108B2
JP5841108B2 JP2013196843A JP2013196843A JP5841108B2 JP 5841108 B2 JP5841108 B2 JP 5841108B2 JP 2013196843 A JP2013196843 A JP 2013196843A JP 2013196843 A JP2013196843 A JP 2013196843A JP 5841108 B2 JP5841108 B2 JP 5841108B2
Authority
JP
Japan
Prior art keywords
information
article
transition
specific
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013196843A
Other languages
English (en)
Other versions
JP2015064650A (ja
Inventor
憲和 松村
憲和 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biglobe Inc
Original Assignee
Biglobe Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biglobe Inc filed Critical Biglobe Inc
Priority to JP2013196843A priority Critical patent/JP5841108B2/ja
Publication of JP2015064650A publication Critical patent/JP2015064650A/ja
Application granted granted Critical
Publication of JP5841108B2 publication Critical patent/JP5841108B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、記事情報生成方法およびプログラムに関し、特には、記事情報を生成する情報処理装置、記事情報生成方法およびプログラムに関する。
特許文献1には、インターネット上の電子情報を利用するニュース配信システムが記載されている。
特許文献1に記載のニュース配信システムは、インターネット上の電子情報の中から、予め設定されたキーワードを含む情報を抽出し、その抽出結果から配信用の情報を生成する。特許文献1に記載のニュース配信システムは、配信用の情報を電子メールで配信する。
特開2006−139599号公報
特許文献1に記載のニュース配信システムは、キーワードを含む情報を単に抽出し、その抽出結果から配信用の情報を生成する。このため、その配信用の情報が、多くの人にとって関心の高い情報(以下「高関心情報」と称する)であるか否かは不明である。
高関心情報は、多くの人にとって有益な情報となる可能性が高い。このため、高関心情報に対する需要は大きいと予想される。
このため、特許文献1に記載のニュース配信システムは、需要が大きいと予想される高関心情報を高い確率で生成できないという課題を有していた。
本発明の目的は、上記課題を解決可能な情報処理装置、記事情報生成方法およびプログラムを提供することである。
本発明の情報処理装置は、
ネットワーク上の電子情報の中から特定情報を有する該当電子情報を特定する特定処理を繰り返し実行する特定手段と、
前記該当電子情報の数の推移に基づいて、前記特定情報を記事対象情報と判定するかを決定する決定手段と、
前記記事対象情報と判定された特定情報を用いて、記事情報を生成する生成手段と、を含み、前記決定手段は、前記該当電子情報の数の推移を表すための複数種類の推移モデルの中から、前記該当電子情報の数の推移に最も近い該当推移モデルを特定し、前記該当推移モデルを用いて、今後の所定タイミングにおける前記該当電子情報の数の予測値を求め、前記予測値に基づいて、前記特定情報を前記記事対象情報と判定するかを決定する
本発明の記事情報生成方法は、特定部と決定部と生成部とを具備する情報処理装置による記事情報生成方法であって、
前記特定部が、ネットワーク上の電子情報の中から特定情報を有する該当電子情報を特定する特定処理を繰り返し実行する特定ステップと、
前記決定部が、前記該当電子情報の数の推移に基づいて、前記特定情報を記事対象情報と判定するかを決定する決定ステップと、
前記生成部が、前記記事対象情報と判定された特定情報を用いて、記事情報を生成する生成ステップと、を含み、
前記決定ステップにて、前記決定部は、前記該当電子情報の数の推移を表すための複数種類の推移モデルの中から、前記該当電子情報の数の推移に最も近い該当推移モデルを特定し、前記該当推移モデルを用いて、今後の所定タイミングにおける前記該当電子情報の数の予測値を求め、前記予測値に基づいて、前記特定情報を前記記事対象情報と判定するかを決定する。
本発明のプログラムは、
特定部と決定部と生成部とを具備するコンピュータに実行させるためのプログラムであって
前記特定部が、ネットワーク上の電子情報の中から特定情報を有する該当電子情報を特定する特定処理を繰り返し実行する特定手順と、
前記決定部が、前記該当電子情報の数の推移に基づいて、前記特定情報を記事対象情報と判定するかを決定する決定手順と、
前記生成部が、前記記事対象情報と判定された特定情報を用いて、記事情報を生成する生成手順と、を実行し、
前記決定手順にて、前記決定部は、前記該当電子情報の数の推移を表すための複数種類の推移モデルの中から、前記該当電子情報の数の推移に最も近い該当推移モデルを特定し、前記該当推移モデルを用いて、今後の所定タイミングにおける前記該当電子情報の数の予測値を求め、前記予測値に基づいて、前記特定情報を前記記事対象情報と判定するかを決定する。
本発明によれば、多くの人にとって関心の高い情報を高い確率で生成することが可能になる。
本発明の第1実施形態の情報処理装置100を示したブロック図である。 情報処理装置100の動作全体を説明するための図である。 記事対象情報を特定する動作を説明するためのフローチャートである。 集計テーブル3aの一例を示した図である。 該当推移モデルの例を示した図である。 記事情報のフォーマット決定動作を説明するためのフローチャートである。 第1記事情報フォーマットの一例を示した図である。 第2記事情報フォーマットの一例を示した図である。 第3記事情報フォーマットの一例を示した図である。 第1記事情報フォーマットの記事情報を生成する動作を説明するためのフローチャートである。 第2記事情報フォーマットの記事情報を生成する動作を説明するためのフローチャートである。 第3記事情報フォーマットの記事情報を生成する動作を説明するためのフローチャートである。 特定部2と決定部3と生成部4とからなる情報処理装置を示した図である。 本発明の第2実施形態の情報処理装置100Aを示したブロック図である。 生成部4Aが行うフォーマット決定動作を説明するためのフローチャートである。
以下、本発明の実施形態について図面を参照して説明する。
(第1実施形態)
図1は、本発明の第1実施形態の情報処理装置100を示したブロック図である。
図1において、情報処理装置100は、収集部1と、特定部2と、決定部3と、生成部4と、送信部5と、を含む。
収集部1は、インターネット等のネットワーク200を介して、取得対象ウェブサイトサーバ300と通信する。
取得対象ウェブサイトサーバ300は、各端末(不図示)からコメントが投稿される投稿サイトを、ネットワーク200上に公開する。
本実施形態では、投稿サイトとして、「Twitter」(登録商標)が用いられる。以下では、投稿されたコメントを「ツイート」とも称する。ツイートは、ネットワーク200上の電子情報の一例である。
ツイートに示される情報は、多種多様である。例えば、ある有名人に関する情報、ある出来事に関する情報、または、あるウェブサイトで公開された電子情報(例えば、特定のツイート、ニュースまたは画像)に関する情報が、ツイートに示される可能性がある。
なお、あるウェブサイトで公開された電子情報(以下「特定電子情報」と称する)に関する情報がツイートに示される場合、そのツイートに、特定電子情報を識別するための情報として、特定電子情報のURL(Uniform Resource Locator)が示されることが多い。
投稿サイトは、「Twitter」に限らず適宜変更可能である。
収集部1は、所定時間(例えば5分)ごとに、その所定時間内に投稿された全ツイートの一部(例えば、全ツイートの10%)またはすべてのツイートを、取得対象ウェブサイトサーバ300から収集する。以下、収集部1が収集したツイートを「収集ツイート」と称する。
なお、所定時間は5分に限らない。所定時間は、5分よりも長くてもよいし5分よりも短くてよい。また、全ツイートの一部は、全ツイートの10%に限らない。全ツイートの一部は、全ツイートの10%よりも多く100%未満であってもよいし、全ツイートの0%よりも多く10%未満でもよい。また、全ツイートの一部または全てに含まれるツイートの数に上限値が設けられてもよい。
収集部1は、所定時間ごとに、その所定時間に収集された収集ツイートを特定部2に出力する。
特定部2は、特定手段の一例である。
特定部2は、所定時間間隔で収集ツイートを受け付けるごとに、収集ツイートの中から、特定情報を有する収集ツイート(以下「該当ツイート」と称する)を特定する。なお、該当ツイートは、該当電子情報の一例である。
本実施形態では、特定部2は、予め定められた分類ごとに、その分類に属する特定情報を有する該当ツイートを、収集ツイートの中から特定する。
分類としては、「画像/動画」と「ワード」と「ツイート」と「まとめ」と「ニュース」と「有名人」が、予め設定されている。なお、分類は、「画像/動画」、「ワード」、「ツイート」、「まとめ」、「ニュース」および「有名人」に限らず適宜変更可能である。
特定部2は、分類ごとに分類用情報を有する。また、特定部2は、分類用の辞書を有する。各辞書には、分類用情報が示されている。
「画像/動画」用の辞書には、分類用情報として、各ユーザの端末に対して、画像データを共有するウェブサイトである画像サイトを特定するためのURL情報(以下「画像用URL情報」と称する)が示されている。画像用URL情報としては、画像サイトが有する各画像に付与されたURLのうち、各URLに共通する部分が用いられる。画像用URL情報の数は1以上である。
「ワード」についての分類用情報は、言語解析エンジンを用いてワードを抽出したり、「#」が先頭に付与されているハッシュタグ(例えば#○○○、#□□□□)を抽出したりして作成される。以下、「ワード」についての分類用情報を、特定ワードと称する。特定ワードの数は1以上である。
「ツイート」用の辞書には、分類用情報として、リツイートされたツイートそのものを指定するためのツイート指定情報(例えば、「RT」という文字、リツイートアイコンなど)が示されている。
「まとめ」用の辞書には、分類用情報として、複数のウェブサイト上の情報などをまとめて記載しているまとめページを有するウェブサイトであるまとめサイトを特定するためのURL情報(以下「まとめ用URL情報」と称する)が示されている。まとめページは、自動ではなく手動で作成される。まとめ用URL情報としては、まとめサイトが有する各まとめページに付与されたURLのうち、各URLに共通する部分が用いられる。まとめ用URL情報の数は1以上である。
「ニュース」用の辞書には、分類用情報として、ニュースサイトを特定するためのURL情報(以下「ニュース用URL情報」と称する)が示されている。ニュース用URL情報としては、ニュースサイトが有する各ニュースに付与されたURLのうち、各URLに共通する部分が用いられる。ニュース用URL情報の数は1以上である。
「有名人」用の辞書には、分類用情報として、有名人の氏名(以下「特定人名」と称する)が示されている。特定人名の数は1以上である。
特定部2は、収集ツイートに、分類用情報、または、分類用情報にて指定される情報(リツイートされたツイート)が含まれる場合、その収集ツイートを、その分類用情報の分類に属する該当ツイートとして特定する。
このため、「画像/動画」の分類に属する該当ツイートには、「画像を特定するURL」(以下「画像URL」と称する)が含まれる。「ワード」の分類に属する該当ツイートには、「特定ワード」が含まれる。「ツイート」の分類に属する該当ツイートには、「リツイートされたツイート」が含まれる。「まとめ」の分類に属する該当ツイートには、「まとめページを特定するURL」(以下「まとめURL」と称する)が含まれる。「ニュース」の分類に属する該当ツイートには、「ニュースを特定するURL」(以下「ニュースURL」と称する)が含まれる。「有名人」の分類に属する該当ツイートには、「特定人名」が含まれる。
なお、該当ツイートに含まれる、「画像URL」「特定ワード」「リツイートされたツイート」「まとめURL」「ニュースURL」および「特定人名」は、それぞれ、特定情報の一例である。
また、「画像URL」「まとめURL」および「ニュースURL」は、所定URLの一例である。「特定ワード」および「特定人名」は、所定語句の一例である。「リツイートされたツイート」は所定文書の一例である。
本実施形態では、1つの収集ツイートに、異なる分類に属する特定情報が含まれる場合、その1つの収集ツイートは、異なる分類の各々に属することになる。
決定部3は、決定手段の一例である。
決定部3は、各々の分類単位で、その分類に属する特定情報ごとに、その特定情報を有する該当ツイートの数の推移に基づいて、その特定情報を記事対象情報と判定するかを決定する。
決定部3は、該当ツイートの数の推移を表すための複数種類の推移モデルを記憶している。本実施形態では、決定部3は、複数種類の推移モデルとして、線形近似モデルと、指数近似モデルと、対数近似モデルと、累乗近似モデルと、を記憶している。
線形近似モデルは、該当ツイートの数が時間の経過に応じて直線的に増加するモデルである。指数近似モデルは、該当ツイートの数が時間の経過に応じて指数関数的に増加するモデルである。対数近似モデルは、該当ツイートの数が時間の経過に応じて対数関数的に増加するモデルである。累乗近似モデルは、該当ツイートの数が時間の経過に応じて累乗関数的に増加するモデルである。
なお、複数種類の推移モデルは、線形近似モデルと指数近似モデルと対数近似モデルと累乗近似モデルに限らず適宜変更可能である。例えば、複数種類の推移モデルとして、線形近似モデルと指数近似モデルと対数近似モデルと累乗近似モデルのうちの少なくとも2つが用いられてもよい。
決定部3は、複数種類の推移モデルの中から、特定情報ごとに、特定情報を有する該当ツイートの数の推移に最も近い該当推移モデルを特定する。決定部3は、特定情報ごとに、該当推移モデルを用いて、今後の所定タイミング(例えば15分後)における該当ツイートの数の予測値を求める。決定部3は、特定情報の予測値に基づいて、その特定情報を記事対象情報と判定するかを決定する。なお、今後の所定タイミングは、15分後に限らず適宜変更可能である。
本実施形態では、決定部3は、予測値が所定閾値を超える特定情報を、記事対象情報と判定する。
生成部4は、生成手段の一例である。
生成部4は、決定部3が判定した記事対象情報を用いて、記事情報を生成する。
例えば、生成部4は、記事対象情報に関する関連情報を収集し、その関連情報を用いて、記事情報を生成する。
記事対象情報が特定ワードまたは特定人名である場合、生成部4は、投稿サイトやソーシャルネットワークサービス提供サイトやブログを検索対象として、特定ワードまたは特定人名を用いて検索を行う。生成部4は、その検索結果を関連情報として用いる。なお、その検索結果に画像/動画サイトのURLが含まれていれば、生成部4は、そのURLにて特定される画像や動画も関連情報として収集する。また、その検索結果にニュースサイトのURLが含まれていれば、生成部4は、そのURLにて特定されるニュース記事内の見出しや写真も関連情報として収集する。
記事対象情報がツイートである場合、生成部4は、そのツイートを管理する投稿サイトを検索対象として、そのツイートやそのツイートに返信している返信ツイートを関連情報として収集する。なお、記事対象情報であるツイートや返信ツイートに画像/動画サイトのURLが含まれていれば、生成部4は、そのURLにて特定される画像や動画も関連情報として収集する。また、記事対象情報であるツイートや返信ツイートにニュースサイトのURLが含まれていれば、生成部4は、そのURLにて特定されるニュース記事内の見出しや写真も関連情報として収集する。
記事対象情報がまとめURLやニュースURLである場合、生成部4は、投稿サイトやソーシャルネットワークサービス提供サイトやブログを検索対象として、そのURLを用いて検索を行う。生成部4は、その検索結果を関連情報として用いる。なお、その検索結果に画像/動画サイトのURLが含まれていれば、生成部4は、そのURLにて特定される画像や動画も関連情報として収集する。また、その検索結果にニュースサイトのURLが含まれていれば、生成部4は、そのURLにて特定されるニュース記事内の見出しや写真も関連情報として収集する。また、記事対象情報がまとめURLやニュースURLである場合、生成部4は、そのURLにて特定されるまとめページやニュースも関連情報として収集する。
なお、記事対象情報がURLまたはリツイートされたツイートである場合、関連情報には、第1電子情報(記事対象情報であるURLにて特定される電子情報や、記事対象情報であるリツイートされたツイート)と、第2電子情報(記事対象情報を含むと共に第1電子情報とは異なるツイート)とが含まれる。
第1電子情報は、例えば、ニュースURLにて特定されるニュースや、まとめURLにて特定されるまとめページや、画像URLにて特定される画像/動画や、記事対象情報であるリツイートされたツイートである。
第2電子情報は、例えば、投稿サイトを検索対象として特定ワードまたは特定人名を用いて検索された検索結果である。
一方、記事対象情報が特定ワードまたは特定人名である場合、関連情報には、第2電子情報が含まれる。
なお、第2電子情報のうちリツイートされたツイートは、引用関連情報の一例である。
生成部4は、関連情報のうち、第1電子情報、または、引用関連情報を、優先的に用いて記事情報を生成する。
本実施形態では、生成部4は、引用関連情報のうち、リツイート回数が相対的に多い引用関連情報を優先的に用いて、記事情報を生成する。
また、生成部4は、関連情報に含まれる文言に対して、リツイート回数が多いツイートに記載されている文言ほど高くなる優先度を付与する。生成部4は、優先度が高い文言を優先的に用いて記事の要約を生成する。生成部4は、記事の要約を含む記事情報を生成する。
本実施形態では、生成部4は、文言に付与する優先度を、その文言が関連情報に出現する回数が多いほど高く、その文言が記事対象情報を含むほど高く、その文言を構成する文字の数が多いほど高くする。
送信部5は、送信手段の一例である。
送信部5は、生成部4が生成した記事情報を、送信先(例えば、端末、記事情報を表示するウェブサイトである所定のサイトなど)に送信する。
次に、動作を説明する。
図2は、情報処理装置100の動作を説明するための図である。
以下、図2を参照して、情報処理装置100の動作を説明する。
収集部1は、取得対象ウェブサイトサーバ300から、5分間隔で収集ツイートを収集する(ステップS201)。
続いて、収集部1は、収集ツイートを特定部2に出力する。
特定部2は、収集ツイートを受け付けると、収集ツイートについて言語解析を行う。続いて、特定部2は、言語解析結果に基づいて、各分類に属する該当ツイートを特定する(ステップS202)。
続いて、特定部2は、分類ごとに該当ツイートを決定部3に出力する。
決定部3は、該当ツイートを受け付けると、分類ごとに、各該当ツイートから特定情報を抽出する。続いて、決定部3は、特定情報ごとに、特定情報を有する該当ツイートの数の推移に基づいて、その特定情報を記事対象情報と判定するかを決定する(ステップS203)。なお、図2では、記事対象情報と判定された特定情報が、イベントと称されている。
続いて、決定部3は、記事対象情報を生成部4に出力する。
生成部4は、記事対象情報を受け付けると、記事対象情報に関する関連情報を収集する(ステップS204)。
続いて、生成部4は、関連情報を用いて記事情報を生成する(ステップS205)。
次に、情報処理装置100の動作を詳細に説明する。
まず、記事対象情報を特定する動作について説明する。図3は、情報処理装置100が記事対象情報を特定する動作を説明するためのフローチャートである。なお、本実施形態では、情報処理装置100は、図3に示した動作を5分ごとに実行する。
収集部1は、取得対象ウェブサイトサーバ300から、5分間に投稿された全ツイートの10%のツイートを、収集ツイートとして収集する(ステップS301)。
ステップS301では、収集部1は、例えば以下のように実行する。
収集部1は、5分間に投稿された全ツイートを投稿時刻順にソートする。続いて、収集部1は、ソート結果を10件ごとに分けながら、その10件のツイート中から1件のツイートを収集ツイートとしてランダムに取得する。なお、収集部1は、時間帯ごとの収集ツイートの数と時間帯ごとの投稿ツイートの数との比率が所定範囲内に収まるように、収集ツイートを収集することが望ましい。
続いて、収集部1は、収集ツイートを特定部2に出力する。
特定部2は、収集ツイートを受け付けると、「画像/動画」と「ワード」と「ツイート」と「まとめ」と「ニュース」と「有名人」の分類ごとに、各分類に属する該当ツイートを特定する(ステップS302)。
続いて、特定部2は、分類ごとに該当ツイートを決定部3に出力する。
決定部3は、分類ごとに該当ツイートを受け付けると、特定部2内の分類用情報を用いて、分類ごとに各該当ツイートから特定情報を抽出する(ステップS303)。
ステップS303では、決定部3は以下のように動作する。
決定部3は、「画像/動画」の分類の該当ツイートに、画像用URL情報を含むURL(画像URL)が含まれていれば、その該当ツイートから、その画像URLを特定情報として抽出する。
また、決定部3は、「ワード」の分類の該当ツイートに、特定ワードが含まれていれば、その該当ツイートから、その特定ワードを特定情報として抽出する。
また、決定部3は、「ツイート」の分類の該当ツイートに、リツイートされたツイートそのものが含まれていれば、その該当ツイートから、そのリツイートされたツイートを特定情報として抽出する。
また、決定部3は、「まとめ」の分類の該当ツイートに、まとめ用URL情報を含むURL(まとめURL)が含まれていれば、その該当ツイートから、そのまとめURLを特定情報として抽出する。
また、決定部3は、「ニュース」の分類の該当ツイートに、ニュース用URL情報を含むURL(ニュースURL)が含まれていれば、その該当ツイートから、そのニュースURLを特定情報として抽出する。
また、決定部3は、「有名人」の分類の該当ツイートに、特定人名が含まれていれば、その該当ツイートから、その特定人名を特定情報として抽出する。
続いて、決定部3は、該当ツイートの各々に、抽出タイミングを表すタイミング情報を付与する(ステップS304)。決定部3は、図3に示した動作を実行するごとに、タイミング情報を更新する。本実施形態では、タイミング情報として、通し番号が用いられる。本実施形態では、図3に示した動作が5分ごとに実行されるので、決定部3は、通し番号は5分ごとに「1」増やす。
続いて、決定部3は、ステップS304で通し番号が付与された該当ツイートを対象にして、分類単位で、特定情報ごとに、特定情報を含む該当ツイートの数を算出する(ステップS305)。
続いて、決定部3は、特定情報ごとに、特定情報を含む該当ツイートの数を、通し番号と関連づけて、決定部3内の集計テーブル3aに格納する(ステップS306)。
図4は、集計テーブル3aの一例を示した図である。
続いて、決定部3は、各推移モデルを特定する。
ここで、各推移モデルについて説明する。以下では、Xを時刻とする。Yを、特定情報を有する該当ツイートの数とする。
決定部3は、線形近似モデルとしてY=a1X+b1を用いる。
ただし、線形近似モデルでのa1は、
SHAPE \* MERGEFORMAT
である。
なお、AVEは平均を表す。iは通し番号を表す変数である。Xiは、通し番号iに対応する時刻である。なお、本実施形態では、Xiとして通し番号iが用いられる。Yiは、通し番号iに対応する、特定情報を有する該当ツイートの数である。Σの計算を行う際に用いられるiとしては、i〜i+2という3つの連続するiが用いられる。
線形近似モデルでのb1は、
SHAPE \* MERGEFORMAT
である。
線形近似モデルでの寄与度R1 2は、
SHAPE \* MERGEFORMAT
である。なお、SQRTはルート(√)を意味する。
決定部生3は、指数近似モデルとしてY=b2e(a2X)を用いる。
ただし、指数近似モデルでのa2は、
SHAPE \* MERGEFORMAT
である。
指数近似モデルでのb2は、
SHAPE \* MERGEFORMAT
である。
指数近似モデルでの寄与度R2 2は、
SHAPE \* MERGEFORMAT
である。
決定部3は、対数近似モデルとしてY=a3logeX+b3を用いる。
ただし、対数近似モデルでのa3は、
SHAPE \* MERGEFORMAT
である。
対数近似モデルでのb3は、
SHAPE \* MERGEFORMAT
である。
対数近似モデルでの寄与度R3 2は、
SHAPE \* MERGEFORMAT
である。
決定部3は、累乗近似モデルとしてY=Xb4Xa4を用いる。
ただし、累乗近似モデルでのa4は、
SHAPE \* MERGEFORMAT
である。
累乗近似モデルでのb4は、
SHAPE \* MERGEFORMAT
である。
累乗近似モデルでの寄与度R4 2は、
SHAPE \* MERGEFORMAT
である。
なお、線形近似モデル、指数近似モデル、対数近似モデルおよび累乗近似モデルと、数1〜数12に示した式は、例えば、集計テーブル3aに記憶されている。
まず、決定部3は、集計テーブル3aに格納された情報と、数1、数2、数4、数5、数7、数8、数10、数11に示した式と、を用いて、各推移モデルの係数aおよびbを算出して、各推移モデルの係数aおよびbを確定する(ステップS307)。
続いて、決定部3は、集計テーブル3aの格納された情報と、数3、数6、数9、数12に示した式と、を用いて、特定情報ごとに、係数aおよびbが確定した線形近似モデル、指数近似モデル、対数近似モデルおよび累乗近似モデルの各々と、特定情報を有する該当ツイートの数の推移と、について、寄与度R2を算出する(ステップS308)。
ステップS308では、決定部3は、数3、数6、数9、数12に示した式を用いて、特定情報ごとに、寄与度R1 2、R2 2、R3 2、R4 2を算出する。
続いて、決定部3は、特定情報ごとに、線形近似モデル、指数近似モデル、対数近似モデルおよび累乗近似モデルの中から、寄与度が特定閾値(例えば0.7)以上であるモデルを、候補モデルとして選択する。続いて、決定部3は、特定情報ごとに、候補モデルの中で寄与度が最大の候補モデルを、該当推移モデルとして特定する(ステップS309)。
なお、ステップS309は以下のように変形してもよい。
決定部3は、特定情報ごとに、線形近似モデル、指数近似モデル、対数近似モデルおよび累乗近似モデルの中から、寄与度が最大のモデルを、候補モデルとして選択する。続いて、決定部3は、特定情報ごとに、候補モデルの寄与度が特定閾値以上であるかを判定する。決定部3は、候補モデルの寄与度が特定閾値以上であった特定情報について、その候補モデルを、該当推移モデルとして特定する。
また、決定部3は、線形近似モデル、指数近似モデル、対数近似モデルおよび累乗近似モデルの中から、寄与度が最大のモデルを、該当推移モデルとして特定してもよい。
図5は、該当推移モデルの例を示した図である。なお、図5では、説明の簡略化を図るため、複数の推移モデルとして、線形近似モデル、指数近似モデル、対数近似モデルが用いられている。
図5(a)に示した例では、決定部3は、該当数位モデルとして、線形近似モデルを特定する。図5(b)に示した例では、決定部3は、該当数位モデルとして、指数近似モデルを特定する。図5(c)に示した例では、決定部3は、該当数位モデルとして、対数近似モデルを特定する。
なお、変形例として、決定部3は、候補モデルの寄与度の大きさに関わらず、候補モデルを該当推移モデルとして特定してもよい。
続いて、決定部3は、該当推移モデルごとに、該当推移モデルが有する変数Xに、現在の通し番号に規定値(例えば3)を加算した加算結果を代入して、該当推移モデルが有する変数Yを算出する(ステップS310)。
なお、変数Yは、該当推移モデルに対応する特定情報を有する該当ツイートの数の予測値を表す。また、規定値は、今後の所定タイミングを規定する値である。本実施形態では5分ごとに通し暗号が「1」増える。このため、規定値が「3」である場合には、15分後の変数Yが算出されることになる。
続いて、決定部3は、予測値ごとに、予測値が所定閾値を超えているかを判定する。
続いて、決定部3は、所定閾値を超えている予測値に対応する特定情報を、記事対象情報として特定する(ステップS311)。続いて、決定部3は、記事対象情報を、生成部4に出力する。
次に、記事情報のフォーマットを決定する動作について説明する。
図6は、記事情報のフォーマットを決定する動作を説明するためのフローチャートである。なお、情報処理装置100は、図6に示した動作を、図3に示したステップ311の終了後に実行する。また、情報処理装置100は、図6に示した動作を、記事対象情報ごとに実行する。
生成部4は、今回対象になっている記事対象情報が、URLまたはツイートそのものであるかを判定する(ステップS601)。
ステップS601で記事対象情報がURLである場合、生成部4は、そのURLにて特定される電子情報(例えばニュース情報)を取得する。続いて、生成部4は、その電子情報に含まれる文書から代表語を抽出する(ステップS602)。
例えば、記事対象情報であるURLにて特定される電子情報が「A社、B事業を○月△日で終了」という文書を含む場合、生成部4は、「A」と「B」と「終了」という各代表語を抽出する。なお、文書から代表語を抽出する技術は公知であるので、その詳細な説明は割愛する。
一方、ステップS601で記事対象情報がツイートそのものである場合、生成部4は、そのツイートに含まれる文書から代表語を抽出する(ステップS602)。
なお、ステップS601で記事対象情報がURLまたはツイートそのものでもない場合、記事対象情報は、特定ワードまたは特定人名となる。この場合、生成部4は、記事対象情報である特定ワードおよび特定人名を、代表語として扱う。
ステップS602終了後、または、記事対象情報がURLまたはツイートそのものでもない場合、生成部4は、代表語を用いたツイートを投稿サイトから検索し、直近の既定数(例:100件)の代表語を用いたツイートを抽出する(ステップS603)。なお、ステップS603において、生成部4は、該当推移モデルを特定するために使用したツイートを検索対象として、代表語を用いたツイートを検索してもよい。
続いて、生成部4は、ステップS603での検索結果を生成部4内に記憶する(ステップS604)。
続いて、生成部4は、ステップS603での検索結果と、過去に他の代表語を用いて実行された検索結果(以下「過去検索結果」と称する)と、の間で重複しているツイートが、第1判定値(例えば20%)以上であるかを判断する(ステップS605)。なお、過去検索結果は、生成部4内に記憶されている。また、第1判定値は20%に限らず適宜変更可能である。
ステップS605で重複割合が第1判定値以上である場合、生成部4は、今回対象になっている記事対象情報に関する記事が既に存在すると判断し、記事情報の生成動作を終了する(ステップS606)。
一方、ステップS605で重複割合が第1判定値未満である場合、生成部4は、代表語を用いたツイートの検索結果のうち、同じURL、または同じリツイートを含むツイートの割合が第2判定値(例えば70%)以上であるかを判断する(ステップS607)。ここで、検索結果のうち、第2判定値(例えば70%)以上のツイートに記載された同じURLを「特定のURL」、また、同じリツイートを「特定のリツイート」と呼ぶ。なお、第2判定値は70%に限らず適宜変更可能である。
ステップS607で特定のURL、または特定のリツイートを含むツイートの割合が第2判定値以上である場合、生成部4は、その特定のURL、または特定のリツイートを新たな記事対象情報(以下「新記事対象情報」と称する)として判定する。続いて、生成部4は、新記事対象情報にて特定される1つの電子情報(例えばニュースまたはツイート)に関連した内容を有するツイートが多いと判断する。そして、生成部4は、その新記事対象情報にて特定される1つの電子情報と、新記事対象情報を示しているツイートと、を含む第1記事情報フォーマットを選択する(ステップS608)。
図7は、第1記事情報フォーマットの一例を示した図である。
図7に示したように、第1記事情報フォーマットは、第1欄71と、第2欄72と、第3欄73を含む。第1欄71には、新記事対象情報にて特定される1つの電子情報が載せられる。第2欄72には、新記事対象情報を示しているツイートが載せられる。第3欄73には、新記事対象情報にて特定される記事に含まれる画像(例えば、写真)や紹介文が載せられる。
ステップS607で特定のURL、または特定のリツイートを含むツイートの割合が第2判定値未満である場合、生成部4は、処理をステップS609に進める。
ステップS609では、生成部4は、代表語を用いたツイートの検索結果のうち、画像または動画を示すURLを含むツイートの割合が第3判定値(例えば20%)以上であるかを判断する。以下、検索結果のいずれかに含まれる画像または動画を示すURLを「記事対象画像URL」と称する。なお、第3判定値は20%に限らず適宜変更可能である。
ステップS609で記事対象画像URLを含むツイートの割合が第3判定値以上である場合、生成部4は、記事対象画像URLを有する電子情報に関連した内容を有するツイートが多いと判断する。そして、生成部4は、記事対象画像URLにて特定される画像と、記事対象画像URLを含むツイートと、記事対象画像URLを含むツイートの要約と、を含む第2記事情報フォーマットを選択する(ステップS610)。
図8は、第2記事情報フォーマットの一例を示した図である。
図8に示したように、第2記事情報フォーマットは、第1欄81と、第2欄82と、第3欄83を含む。第1欄81には、記事対象画像URLを含むツイートの要約が載せられる。第2欄82には、記事対象画像URLにて特定される画像が載せられる。第3欄83には、記事対象画像URLを含むツイートが載せられる。
一方、ステップS609で画像または動画を示すURLを含むツイートの割合が第3判定値未満である場合、生成部4は、話題の中心になっている電子情報を特定するための内容を示していないが記事対象情報を含むツイートが多いと判断する。そして、生成部4は、検索結果に含まれるツイートと、検索結果に含まれるツイートの要約と、を含む第3記事情報フォーマットを選択する(ステップS611)。
図9は、第3記事情報フォーマットの一例を示した図である。
図9に示したように、第3記事情報フォーマットは、第1欄91と第2欄92を含む。第1欄91には、検索結果に含まれるツイートの要約が載せられる。第2欄92には、検索結果に含まれるツイートが載せられる。
次に、要約を生成する動作について説明する。
なお、情報処理装置100は、記事情報のフォーマットとして、第2記事情報フォーマットまたは第3記事情報フォーマットを選択した場合、要約を生成する動作を実行する。
まず、生成部4は、検索結果に含まれるツイート(以下「対象ツイート」と称する)について言語解析を行う。
続いて、生成部4は、言語解析結果を参照して、各対象ツイートを体言ごとに区分して要約構成部を生成する。なお、要約構成部は、文言の一例である。
続いて、生成部4は、各要約構成部に優先度を付与する。
生成部4は、要約構成部の優先度を、その要約構成部の元になった対象ツイートのリツイート回数が多いほど高くする。また、生成部4は、要約構成部の優先度を、その要約構成部が対象ツイートに出現する回数が多いほど高くする。また、生成部4は、要約構成部の優先度を、その要約構成部が記事対象情報を含むほど高くする。また、生成部4は、要約構成部の優先度を、その要約構成部を構成する文字の数が多いほど高くする。
続いて、生成部4は、要約構成部を優先度が高い順に並べて記事の要約を生成する。
本実施形態では、要約構成部の優先度を、以下のように決定する。
要約構成部の優先度=Σリツイート数×(位置ポイント−α×(1/文字の数))
位置ポイントは、要約構成部が記事対象情報を含む場合「2」とし、要約構成部が記事対象情報を含まない場合「0.5」とする。なお、位置ポイントは、「2」または「0.5」に限らず適宜変更可能である。
Σは、要約構成部が出現している収集ツイートの数、優先度を加算することを意味する。
αは、重みを表す。本実施形態では、αとして「6」が用いられる。なお、αは「6」に限らず適宜変更可能である。
ここで、要約構成部の優先度の一例を説明する。
例えば、記事対象情報が「○○○」であり、収集ツイートとして、
「新発売の○○○の□□□□を買った。」(リツイート数:30)、
「秋葉原の北口周辺にて、○○○のキャンペーン実施中。」(リツイート数:8)、および
「秋葉原の駅構内に、○○○の広告が。」(リツイート数:9)が、それぞれ存在するとする。
そして、要約構成部として、例えば「新発売の○○○の□□□□」、「秋葉原」、「○○○のキャンペーン実施中」および「○○○の広告」が生成されたとする。
この場合、各要約構成部の優先度は以下のようになる。
「新発売の○○○の□□□□」の優先度:30×(2−6×(1/12))=45
「○○○の広告」の優先度:9×(0.5−6×(1/3))+8×(0.5−6×(1/3))=−25.5
「○○○のキャンペーン実施中」の優先度:8×(2−6×(1/13))=12.3
「○○○の広告」の優先度:9×(2−6×(1/6))=9
この場合、生成部4は、「新発売の○○○の□□□□」「○○○のキャンペーン実施中」「○○○の広告」「○○○の広告」という順で要約構成部が並ぶ要約を生成する。
次に、第1記事情報フォーマットの記事情報を生成する動作を説明する。
図10は、第1記事情報フォーマットの記事情報を生成する動作を説明するためのフローチャートである。
生成部4は、新記事対象情報にて特定される記事を、第1記事情報フォーマットの第1欄71に載せる(ステップS1001)。
なお、新記事対象情報がURLである場合、生成部4は、そのURLにて特定される電子情報を、新記事対象情報にて特定される記事として用いる。また、新記事対象情報がツイートそのものである場合、生成部4は、そのツイートを、新記事対象情報にて特定される記事として用いる。
続いて、生成部4は、図6に示したステップS603での代表語での検索結果を、第1記事情報フォーマットの第2欄72に載せる(ステップS1002)。
なお、ステップS1002において、生成部4は、代表語での検索結果に含まれる各ツイートについて、単位時間当たりの平均リツイート数を算出し、その算出値が大きいツイートを優先的に第2欄72に載せる。
また、ステップS1002において、生成部4は、代表語での検索結果に含まれるツイートのうち重複しているツイートについては、1つのツイート(例えば、最も古いツイート)を残し、他のツイートを削除する。
なお、ステップS1002において、第2欄72に載せることになった情報が、第1欄71に載せることになっている情報と同一である場合、生成部4は、その情報を第2欄72に載せないようにしてもよい。
また、新記事対象情報にて特定される記事に画像(例えば、写真)や紹介文が含まれている場合、生成部4は、その画像や紹介文を、第1記事情報フォーマットの第3欄73に載せる。
生成部4は、図10に示した動作を実行することで、第1記事情報フォーマットの記事情報を生成する。
次に、第2記事情報フォーマットの記事情報を生成する動作を説明する。
図11は、第2記事情報フォーマットの記事情報を生成する動作を説明するためのフローチャートである。
生成部4は、図6に示したステップS610が終了し、その後、要約の作成を終了すると、図11に示した動作を実行する。
生成部4は、作成された要約を、第2記事情報フォーマットの第1欄81に載せる(ステップS1101)。
続いて、生成部4は、代表語を用いたツイートの検索結果に含まれる画像または動画を示すURLを検出する(ステップS1102)。
続いて、生成部4は、ステップS1102で検出されたURLにて特定される画像または動画を取得する(ステップS1103)。
続いて、生成部4は、ステップS1103で取得された画像または動画を、第2記事情報フォーマットの第2欄82に載せる(ステップS1104)。
続いて、生成部4は、図6に示したステップS603での代表語での検索結果を、第2記事情報フォーマットの第3欄83に載せる(ステップS1105)。
なお、ステップS1105では、上述したステップS1002と同様に、生成部4は、代表語での検索結果に含まれる各ツイートについて、単位時間当たりの平均リツイート数を算出し、その算出値が大きいツイートを優先的に第3欄83に載せる。
また、ステップS1105では、上述したステップS1002と同様に、生成部4は、代表語での検索結果に含まれるツイートのうち重複しているツイートについては、1つのツイート(例えば、最も古いツイート)を残し、他のツイートを削除する。
生成部4は、図11に示した動作を実行することで、第2記事情報フォーマットの記事情報を生成する。
次に、第3記事情報フォーマットの記事情報を生成する動作を説明する。
図12は、第3記事情報フォーマットの記事情報を生成する動作を説明するためのフローチャートである。
生成部4は、図6に示したステップS611が終了し、その後、要約の作成を終了すると、図12に示した動作を実行する。
生成部4は、作成された要約を、第3記事情報フォーマットの第1欄91に載せる(ステップS1201)。
続いて、生成部4は、図6に示したステップS603での代表語での検索結果を、第3記事情報フォーマットの第2欄92に載せる(ステップS1202)。
なお、ステップS1202では、上述したステップS1002と同様に、生成部4は、代表語での検索結果に含まれる各ツイートについて、単位時間当たりの平均リツイート数を算出し、その算出値が大きいツイートを優先的に第2欄92に載せる。
また、ステップS1202では、上述したステップS1002と同様に、生成部4は、代表語での検索結果に含まれるツイートのうち重複しているツイートについては、1つのツイート(例えば、最も古いツイート)を残し、他のツイートを削除する。
生成部4は、図12に示した動作を実行することで、第3記事情報フォーマットの記事情報を生成する。
生成部4は、第1、第2または第3記事情報フォーマットの記事情報を生成すると、その記事情報を、送信部5に出力する。
送信部5は、記事情報を受け付けると、その記事情報を送信先に送信する。
例えば、送信部5は、記事情報を、Twitterアカウントで取得対象ウェブサイトサーバ(Twitterウェブサイト)300に発信する。なお、送信部5は、記事情報を、RSS(RDF Site Summary)情報として発信してもよい。また、送信部5は、記事情報を所定のサイトに速報記事として掲載してもよい。また、送信部5は、例えば記事情報を受信するためのアプリケーションがインストールされたスマートフォンに、記事情報を送信してもよい。
次に、本実施形態の効果について説明する。
本実施形態では、特定部2は、ネットワーク200上の電子情報の中から特定情報を有する該当電子情報を特定する特定処理を、繰り返し実行する。決定部3は、該当電子情報の数の推移に基づいて、特定情報を記事対象情報と判定するかを決定する。生成部4は、記事対象情報と判定された特定情報を用いて、記事情報を生成する。
該当電子情報の数の推移は、今後の該当電子情報の数の増減に関連する可能性が高い。今後、数が増える可能性が高い該当電子情報に含まれる特定情報は、多くの人にとって関心の高い情報である可能性が高い。このため、該当電子情報の数の推移を用いることで、該当電子情報に含まれる特定情報が、多くの人にとって関心の高い情報となるか否かを推定可能となる。したがって、記事対象情報と判定された特定情報を用いて記事情報を生成することで、多くの人にとって関心の高い情報を高い確率で生成することが可能になる。
また、ネットワーク200上の電子情報の中から特定された該当電子情報を用いて記事対象情報を判定するので、該当電子情報と異なる電子情報(例えば、スパムや挨拶やアフェリエイトの電子情報)を用いることなく、記事対象情報を判定することが可能にある。
上記効果は、特定部2と決定部3と生成部4とからなる情報処理装置でも奏する。
図13は、特定部2と決定部3と生成部4とからなる情報処理装置を示した図である。
本実施形態では、特定情報は、所定URL、所定語句または所定文書が用いられる。
このため、所定URL、所定語句または所定文書を用いて、多くの人にとって関心の高い情報を生成することが可能になる。
本実施形態では、決定部3は、複数種類の推移モデルの中から、該当電子情報の数の推移に最も近い該当推移モデルを特定する。決定部3は、特定該当推移モデルを用いて、今後の所定タイミングにおける該当電子情報の数の予測値を求める。決定部3は、予測値に基づいて、特定情報を記事対象情報と判定するかを決定する。
このため、推移モデルを用いて、今後の所定タイミングにおける該当電子情報の数の予測値を求めることが可能になる。よって、例えば、1つの推移モデルを用いて予測値を求める場合に比べて、予測値を高い精度で求めることが可能になる。
本実施形態では、決定部3は、予測値が所定閾値を超える場合、特定情報を記事対象情報と判定する。
このため、予測値と所定閾値とを比較することで、特定情報を記事対象情報と判定することが可能になる。
なお、決定部3は、分類ごとに所定閾値を記憶してもよい。分類ごとに所定閾値が設定されている場合、決定部3は、予測値が、特定情報が属する分類に対して設定された所定閾値を超える場合、特定情報を記事対象情報と判定する。
この場合、例えば、多くの人にとって関心の高い情報になる確率が高い分類(例えば、有名人の分類)の所定閾値を、他の分類の所定閾値よりも低い値に設定することができ、多くの人にとって関心の高い情報を精度よく検出することが可能になる。
また、決定部3は、時刻ごとに所定閾値を記憶してもよい。時刻ごとに所定閾値が設定されている場合、決定部3は、予測値が所定タイミングの時刻に対して設定された所定閾値を超える場合、特定情報を記事対象情報と判定する。
一般に、ツイート等の投稿情報では、時間帯に応じて総投稿数が異なる。このため、投稿数が相対的に少ない時刻の所定閾値を、投稿数が相対的に多い時刻の所定閾値よりも少ない値に設定すれば、総投稿数に対する予測値の割合が所定の範囲内にある場合に、特定情報を記事対象情報と判定することが可能になる。よって、特定情報を記事対象情報と判定する精度を高くすることが可能になる。
本実施形態では、決定部3は、複数種類の推移モデルのうちの該当電子情報の数の推移との一致度合いが特定閾値以上である推移モデルの中から、該当電子情報の数の推移に最も近い推移モデルを、該当推移モデルとして特定する。このため、該当電子情報の数の推移との相関関係が高い該当推移モデルを特定でき、よって、予測値を高い精度で求めることが可能になる。
なお、本実施形態では、複数種類の推移モデルとして、線形近似モデルと指数近似モデルと対数近似モデルと累乗関数近似モデルの4つが用いられている。
しかしながら、変形例としては、複数種類の推移モデルとして、線形近似モデルと指数近似モデルと対数近似モデルと累乗関数近似モデルのうちの少なくとも2つが用いられてもよい。
本実施形態では、生成部4は、記事対象情報に関する関連情報を収集し、関連情報を用いて記事情報を生成する。このため、記事情報を充実したものにすることが可能になる。
また、生成部4は、関連情報のうち、記事対象情報にて特定される電子情報、または、リツイートされている引用関連情報を、優先的に用いて記事情報を生成する。リツイートされる情報は、一般的に、他の人に知ってもらいたい関心の高い情報(例えば、重要な情報やコメント付きツイート)である。このため、多くの人にとってより関心の高い情報を用いて記事情報を生成することが可能になる。
また、生成部4は、引用関連情報の中で、リツイート回数が相対的に多い引用関連情報を優先的に用いて、記事情報を生成する。このため、多くの人にとってとても関心の高い情報を用いて記事情報を生成することが可能になる。
また、生成部4は、関連情報に含まれる文言に、文言を含む関連情報のリツイート回数が多いほど高くなる優先度を付与する。生成部4は、優先度が高い文言を優先的に用いて記事の要約を生成する。生成部4は、記事の要約を含む記事情報を生成する。
このため、多くの人にとって関心の高い文言を用いて、記事の要約をすることが可能になる。また、記事情報は記事の要約を含むので、例えば、ワード(例えば、特定情報)のみを示した記事に比べて、記事の可読性が高くなる。よって、利用者が記事の内容を容易に理解することを可能にする。
また、生成部4は、文言に付与する優先度を、文言が関連情報に出現する回数が多いほど高く、文言が記事対象情報を含むほど高く、文言を構成する文字の数が多いほど高くする。
このため、多くの人にとってより関心の高い文言を用いて、記事の要約をすることが可能になる。
また、生成部4は、関連情報に記載されたコメントの内容に応じて、記事情報のフォーマットを決定する。生成部4は、そのフォーマットの記事情報を生成する。
このため、記事情報のフォーマットを、関連情報に記載されたコメントの内容に応じたフォーマットにすることが可能になる。
また、送信部5は、記事情報を送信先に送信する。このため、多くの人にとって関心の高い記事情報を送信先に提供することが可能になる。
(第2実施形態)
次に、本発明の第2実施形態について説明する。
図14は、第2実施形態の情報処理装置100Aを示したブロック図である。なお、図14において、図1に示したものと同一構成のものには同一符号を付してある。
第2実施形態の情報処理装置100Aと第1実施形態の情報処理装置100との主な相違点は、情報処理装置100Aが、生成部4の代わりに生成部4Aを含む点である。以下、情報処理装置100Aについて、情報処理装置100と異なる点を中心に説明する。
生成部4Aは、生成手段の一例である。
生成部4Aは、図6に示した動作を実行する代わりに図15に示した動作を実行する。
図15は、生成部4Aが行うフォーマット決定動作を説明するためのフローチャートである。図15において、図6に示した処理と同様の処理には同一符号を付してある。
以下、図15に示したフォーマット決定動作について、図6に示した処理と異なる点について説明する。
生成部4Aは、ステップS601で記事対象情報がURLまたはツイートそのものであった場合、処理をステップS608に進める。
生成部4Aは、処理をステップS601からステップS608に直接進めた場合、ステップS608では新記事対象情報の代わりに、今回対象となっている記事対象情報を用いる。
また、生成部4Aは、ステップS608で新記事対象情報の代わりに今回対象となっている記事対象情報を用いた場合、図10に示したステップS1001でも、新記事対象情報の代わりに今回対象となっている記事対象情報を用いる。
また、生成部4Aは、図10に示したステップS1002では、今回対象となっている記事対象情報を用いたツイートを検索し、その検索結果を、図6に示したステップS603での代表語での検索結果の代わりに用いる。
本実施形態では、図6に示したステップS602が省略されるので、第1実施形態と比べて処理の簡素化を図ることが可能になる。
なお、上記各実施形態において、生成部4または4Aは、生成された記事情報を、時系列で保存したり、日単位で保存したりしてもよい。この場合、保存された記事情報を参照可能にすれば、記事情報を、過去に起こった出来事を確認するために用いることも可能になる。
また、情報処理装置100または100Aは、パーソナルコンピュータやサーバコンピュータなどのコンピュータにて実現されてもよい。この場合、コンピュータは、コンピュータにて読み取り可能なCD−ROM(Compact Disk Read Only Memory)のような記録媒体に記録されたプログラムを読込み実行して、情報処理装置100または100Aが有する各機能を実行する。記録媒体は、CD−ROMに限らず適宜変更可能である。
また、情報処理装置100または100Aは、1台の情報処理装置にて構成されてもよいし、複数台の処理装置にて構成されてもよい。
以上説明した各実施形態において、図示した構成は単なる一例であって、本発明はその構成に限定されるものではない。
100、100A 情報処理装置
1 収集部
2 特定部
3 決定部
3a 集計テーブル
4、4A 生成部
5 送信部

Claims (15)

  1. ネットワーク上の電子情報の中から特定情報を有する該当電子情報を特定する特定処理を繰り返し実行する特定手段と、
    前記該当電子情報の数の推移に基づいて、前記特定情報を記事対象情報と判定するかを決定する決定手段と、
    前記記事対象情報と判定された特定情報を用いて、記事情報を生成する生成手段と、を含み、
    前記決定手段は、前記該当電子情報の数の推移を表すための複数種類の推移モデルの中から、前記該当電子情報の数の推移に最も近い該当推移モデルを特定し、前記該当推移モデルを用いて、今後の所定タイミングにおける前記該当電子情報の数の予測値を求め、前記予測値に基づいて、前記特定情報を前記記事対象情報と判定するかを決定する、
    情報処理装置。
  2. 請求項1に記載の情報処理装置において、
    前記特定情報は、所定URL、所定語句または所定文書である、情報処理装置。
  3. 請求項1又は2に記載の情報処理装置において、
    前記決定手段は、前記予測値が所定閾値を超える場合、前記特定情報を前記記事対象情報と判定する、情報処理装置。
  4. 請求項に記載の情報処置装置において、
    前記特定情報は、複数の分類のいずれかに属すものであり、
    前記所定閾値は、前記分類ごとに設定されており、
    前記決定手段は、前記予測値が、前記特定情報が属する分類に対して設定された所定閾値を超える場合、前記特定情報を前記記事対象情報と判定する、情報処理装置。
  5. 請求項またはに記載の情報処理装置において、
    前記所定閾値は、時刻ごとに設定されており、
    前記決定手段は、前記予測値が、前記所定タイミングの時刻に対して設定された所定閾値を超える場合、前記特定情報を前記記事対象情報と判定する、情報処理装置。
  6. 請求項からのいずれか1項に記載の情報処理装置において、
    前記決定手段は、前記複数種類の推移モデルのうちの前記該当電子情報の数の推移との一致度合いが特定閾値以上である推移モデルの中から、前記該当電子情報の数の推移に最も近い推移モデルを、前記該当推移モデルとして特定する、情報処理装置。
  7. 請求項からのいずれか1項に記載の情報処理装置において、
    前記複数種類の推移モデルは、前記数が時間の経過に応じて直線的に増加する線形近似モデルと、前記数が時間の経過に応じて指数関数的に増加する指数近似モデルと、前記数が時間の経過に応じて対数関数的に増加する対数近似モデルと、前記数が時間の経過に応じて累乗関数的に増加する累乗関数近似モデルと、のうちの少なくとも2つを含む、情報処理装置。
  8. 請求項1からのいずれか1項に記載の情報処理装置において、
    前記生成手段は、前記記事対象情報に関する関連情報を収集し、前記関連情報のうち、前記記事対象情報にて特定される電子情報、または、他の電子情報に引用されている引用関連情報の中で、他の電子情報に引用されている回数が相対的に多い引用関連情報を優先的に用いて、前記記事情報を生成する、情報処理装置。
  9. 請求項からのいずれか1項に記載の情報処理装置において、
    前記生成手段は、前記記事対象情報に関する関連情報を収集し、前記関連情報に含まれる文言に、該文言を含む関連情報が他の電子情報に引用されている回数が多いほど高くなる優先度を付与し、前記優先度が高い文言を優先的に用いて記事の要約を生成し、前記記事の要約を含む記事情報を生成し、
    前記生成手段は、前記文言に付与する優先度を、当該文言が前記関連情報に出現する回数が多いほど高く、当該文言が前記記事対象情報を含むほど高く、当該文言を構成する文字の数が多いほど高くする、情報処理装置。
  10. ネットワーク上の電子情報の中から特定情報を有する該当電子情報を特定する特定処理を繰り返し実行する特定手段と、
    前記該当電子情報の数の推移に基づいて、前記特定情報を記事対象情報と判定するかを決定する決定手段と、
    前記記事対象情報と判定された特定情報を用いて、記事情報を生成する生成手段と、を含み、
    前記生成手段は、前記記事対象情報に関する関連情報を収集し、前記関連情報に記載されたコメントの内容に応じて、前記記事情報のフォーマットを決定し、当該フォーマットの記事情報を生成する、情報処理装置。
  11. 請求項1から1のいずれか1項に記載の情報処理装置において、
    前記記事情報を送信先に送信する送信手段を、さらに含む情報処理装置。
  12. 特定部と決定部と生成部とを具備する情報処理装置による記事情報生成方法であって、
    前記特定部が、ネットワーク上の電子情報の中から特定情報を有する該当電子情報を特定する特定処理を、繰り返し実行する特定ステップと、
    前記決定部が、前記該当電子情報の数の推移に基づいて、前記特定情報を記事対象情報と判定するかを決定する決定ステップと、
    前記生成部が、前記記事対象情報と判定された特定情報を用いて、記事情報を生成する生成ステップと、を含み、
    前記決定ステップにて、前記決定部は、前記該当電子情報の数の推移を表すための複数種類の推移モデルの中から、前記該当電子情報の数の推移に最も近い該当推移モデルを特定し、前記該当推移モデルを用いて、今後の所定タイミングにおける前記該当電子情報の数の予測値を求め、前記予測値に基づいて、前記特定情報を前記記事対象情報と判定するかを決定する、記事情報生成方法。
  13. 特定部と決定部と生成部とを具備する情報処理装置による記事情報生成方法であって、
    前記特定部が、ネットワーク上の電子情報の中から特定情報を有する該当電子情報を特定する特定処理を繰り返し実行する特定ステップと、
    前記決定部が、前記該当電子情報の数の推移に基づいて、前記特定情報を記事対象情報と判定するかを決定する決定ステップと、
    前記生成部が、前記記事対象情報と判定された特定情報を用いて、記事情報を生成する生成ステップと、を含み、
    前記生成ステップにて、前記生成部は、前記記事対象情報に関する関連情報を収集し、前記関連情報に記載されたコメントの内容に応じて、前記記事情報のフォーマットを決定し、当該フォーマットの記事情報を生成する、記事情報生成方法。
  14. 特定部と決定部と生成部とを具備するコンピュータに実行させるためのプログラムであって
    前記特定部が、ネットワーク上の電子情報の中から特定情報を有する該当電子情報を特定する特定処理を、繰り返し実行する特定手順と、
    前記決定部が、前記該当電子情報の数の推移に基づいて、前記特定情報を記事対象情報と判定するかを決定する決定手順と、
    前記生成部が、前記記事対象情報と判定された特定情報を用いて、記事情報を生成する生成手順と、を実行し、
    前記決定手順にて、前記決定部は、前記該当電子情報の数の推移を表すための複数種類の推移モデルの中から、前記該当電子情報の数の推移に最も近い該当推移モデルを特定し、前記該当推移モデルを用いて、今後の所定タイミングにおける前記該当電子情報の数の予測値を求め、前記予測値に基づいて、前記特定情報を前記記事対象情報と判定するかを決定する、プログラム。
  15. 特定部と決定部と生成部とを具備するコンピュータに実行させるためのプログラムであって、
    前記特定部が、ネットワーク上の電子情報の中から特定情報を有する該当電子情報を特定する特定処理を繰り返し実行する特定手順と、
    前記決定部が、前記該当電子情報の数の推移に基づいて、前記特定情報を記事対象情報と判定するかを決定する決定手順と、
    前記生成部が、前記記事対象情報と判定された特定情報を用いて、記事情報を生成する生成手順と、を含み、
    前記生成手順にて、前記生成部は、前記記事対象情報に関する関連情報を収集し、前記関連情報に記載されたコメントの内容に応じて、前記記事情報のフォーマットを決定し、当該フォーマットの記事情報を生成する、プログラム。
JP2013196843A 2013-09-24 2013-09-24 情報処理装置、記事情報生成方法およびプログラム Active JP5841108B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013196843A JP5841108B2 (ja) 2013-09-24 2013-09-24 情報処理装置、記事情報生成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013196843A JP5841108B2 (ja) 2013-09-24 2013-09-24 情報処理装置、記事情報生成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015064650A JP2015064650A (ja) 2015-04-09
JP5841108B2 true JP5841108B2 (ja) 2016-01-13

Family

ID=52832498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013196843A Active JP5841108B2 (ja) 2013-09-24 2013-09-24 情報処理装置、記事情報生成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5841108B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133222B (zh) * 2016-12-01 2021-11-02 富士通株式会社 为数据库确定卷积神经网络cnn模型的装置和方法
JP6879953B2 (ja) * 2018-01-11 2021-06-02 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2729356B2 (ja) * 1994-09-01 1998-03-18 日本アイ・ビー・エム株式会社 情報検索システム及び方法
JP2000148789A (ja) * 1998-11-05 2000-05-30 Inpatekku Kk 特許情報等の引用文献分析方法及び引用文献分析装置
JP4154976B2 (ja) * 2002-09-24 2008-09-24 セイコーエプソン株式会社 レイアウトシステム、プログラム
JP4087769B2 (ja) * 2003-09-17 2008-05-21 富士通株式会社 サーバ、及び関連語提案方法
JP2007188225A (ja) * 2006-01-12 2007-07-26 Yafoo Japan Corp 要約文抽出システム
JP4807881B2 (ja) * 2006-12-19 2011-11-02 日本電信電話株式会社 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体
JP2011070291A (ja) * 2009-09-24 2011-04-07 Nec Biglobe Ltd トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム
JP5077711B2 (ja) * 2009-10-05 2012-11-21 Necビッグローブ株式会社 時系列分析装置、時系列分析方法、及びプログラム
JP4637969B1 (ja) * 2009-12-31 2011-02-23 株式会社Taggy ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
US20130311471A1 (en) * 2011-02-15 2013-11-21 Nec Corporation Time-series document summarization device, time-series document summarization method and computer-readable recording medium
JP5523405B2 (ja) * 2011-07-12 2014-06-18 ヤフー株式会社 要約作成装置及び方法

Also Published As

Publication number Publication date
JP2015064650A (ja) 2015-04-09

Similar Documents

Publication Publication Date Title
Calvin et al. # bully: Uses of hashtags in posts about bullying on Twitter
US9208441B2 (en) Information processing apparatus, information processing method, and program
US10776885B2 (en) Mutually reinforcing ranking of social media accounts and contents
US10489447B2 (en) Method and apparatus for using business-aware latent topics for image captioning in social media
US20170235726A1 (en) Information identification and extraction
JP2016045504A (ja) 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム
JP5895052B2 (ja) 情報分析システム及び情報分析方法
Jeon et al. Hashtag recommendation based on user tweet and hashtag classification on twitter
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其系统
CN107392392A (zh) 基于深度学习的微博转发预测方法
Sams et al. The presence of hyperlinks on social network sites: A case study of Cyworld in Korea
JP2009187077A (ja) 推薦情報提供装置、推薦情報提供方法、推薦情報提供システムおよび推薦情報提供プログラム
US20170235835A1 (en) Information identification and extraction
Cui et al. Personalized microblog recommendation using sentimental features
JP5841108B2 (ja) 情報処理装置、記事情報生成方法およびプログラム
JP6036331B2 (ja) 管理方法、管理装置および管理プログラム
JP5734118B2 (ja) ソーシャルネットワークから小集団を抽出し、名前付け、並びに可視化する方法およびプログラム
JP6457986B2 (ja) メッセージ分類システム、メッセージ分類方法及びプログラム
JP2020129239A (ja) 投稿分析システム、投稿分析装置および投稿分析方法
JP6975118B2 (ja) 抽出装置及びプログラム
Lu et al. Trending words based event detection in Sina Weibo
JP5775508B2 (ja) スパムアカウント抽出装置及びスパムアカウント抽出方法
JP7061328B1 (ja) 情報処理装置、情報処理システムおよびプログラム
CN113076428B (zh) 一种书单生成方法和装置
JP5824415B2 (ja) 住所特徴語抽出装置及び方法及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151112

R150 Certificate of patent or registration of utility model

Ref document number: 5841108

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250