JP2018195108A - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2018195108A JP2018195108A JP2017098888A JP2017098888A JP2018195108A JP 2018195108 A JP2018195108 A JP 2018195108A JP 2017098888 A JP2017098888 A JP 2017098888A JP 2017098888 A JP2017098888 A JP 2017098888A JP 2018195108 A JP2018195108 A JP 2018195108A
- Authority
- JP
- Japan
- Prior art keywords
- index value
- word
- server
- feature word
- trend
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ユーザにとって重要な単語を提示することができる情報処理装置等を提供する。【解決手段】情報処理装置1は、出所が共通する特定の公開文書群と、該公開文書夫々の閲覧状況とを取得する取得部と、前記公開文書群に出現する各単語の特徴を表す指標値を算出する算出部と、算出した前記指標値に基づき、前記公開文書を特徴づける特徴語を抽出する抽出部と、該特徴語の抽出元である前記公開文書の閲覧状況に応じて、前記特徴語に係る前記指標値を補正する補正部と、補正した前記指標値に応じて、前記特徴語を出力する出力部とを備える。【選択図】図1
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
SNS(Social Networking Service)に投稿されたコメント等から、話題となっている単語を抽出する技術がある。例えば特許文献1では、SNS上に投稿されたコメントから抽出された話題語について、各コメントを投稿した投稿者の分布情報に基づき、ジャンルの偏りを是正した話題語のランキングを作成する話題語ランキング装置等が開示されている。
しかしながら、特許文献1に係る発明では、あらゆるジャンルの話題語が提示されるため、ユーザは自らに関連ある話題語を見つけるのに時間が掛かる。
一つの側面では、ユーザにとって重要な単語を提示することができる情報処理装置等を提供することにある。
一つの案では、情報処理装置は、出所が共通する特定の公開文書群と、該公開文書夫々の閲覧状況とを取得する取得部と、前記公開文書群に出現する各単語の特徴を表す指標値を算出する算出部と、算出した前記指標値に基づき、前記公開文書を特徴づける特徴語を抽出する抽出部と、該特徴語の抽出元である前記公開文書の閲覧状況に応じて、前記特徴語に係る前記指標値を補正する補正部と、補正した前記指標値に応じて、前記特徴語を出力する出力部とを備えることを特徴とする。
一つの案では、情報処理装置は、流行語を取得する第2取得部を備え、前記出力部は、前記抽出部が抽出した前記特徴語のうち、前記流行語と共通する前記特徴語を出力することを特徴とする。
一つの案では、情報処理装置は、前記第2取得部は、ネットワーク上に投稿された投稿情報を収集する収集部と、収集した前記投稿情報から前記流行語を抽出する第2抽出部とを備えることを特徴とする。
一つの案では、情報処理装置は、前記第2取得部は、前記流行語の使用頻度を示す情報を取得し、前記補正部は、前記使用頻度を示す情報に基づき、前記特徴語に係る前記指標値を補正することを特徴とする。
一つの案では、情報処理装置は、前記出力部はさらに、前記特徴語の抽出元の抜粋テキスト又はURLを示す抽出元情報を出力することを特徴とする。
一つの案では、情報処理方法は、出所が共通する特定の公開文書群と、該公開文書夫々の閲覧状況とを取得し、前記公開文書群に出現する各単語の特徴を表す指標値を算出し、算出した前記指標値に基づき、前記公開文書を特徴づける特徴語を抽出し、該特徴語の抽出元である前記公開文書の閲覧状況に応じて、前記特徴語に係る前記指標値を補正し、補正した前記指標値に応じて、前記特徴語を出力する処理をコンピュータに実行させることを特徴とする。
一つの案では、プログラムは、出所が共通する特定の公開文書群と、該公開文書夫々の閲覧状況とを取得し、前記公開文書群に出現する各単語の特徴を表す指標値を算出し、算出した前記指標値に基づき、前記公開文書を特徴づける特徴語を抽出し、該特徴語の抽出元である前記公開文書の閲覧状況に応じて、前記特徴語に係る前記指標値を補正し、補正した前記指標値に応じて、前記特徴語を出力する処理をコンピュータに実行させることを特徴とする。
一つの側面では、ユーザにとって重要な単語を提示することができる。
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
(実施の形態1)
図1は、情報処理システムの構成例を示す模式図である。本実施の形態では、Web記事を掲載するWebメディアを支援するべく、読者の間でトレンドとなっているトレンドワードを、Web記事の執筆者であるユーザに提示する情報処理システムを一例として説明を行う。情報処理システムは、情報処理装置1、情報処理端末2、2、2…を有する。各装置は、インターネット等のネットワークNを介して通信接続されている。
(実施の形態1)
図1は、情報処理システムの構成例を示す模式図である。本実施の形態では、Web記事を掲載するWebメディアを支援するべく、読者の間でトレンドとなっているトレンドワードを、Web記事の執筆者であるユーザに提示する情報処理システムを一例として説明を行う。情報処理システムは、情報処理装置1、情報処理端末2、2、2…を有する。各装置は、インターネット等のネットワークNを介して通信接続されている。
情報処理装置1は、種々の情報処理、情報の送受信を行う情報処理装置であり、例えばサーバ装置、パーソナルコンピュータ等である。本実施の形態において情報処理装置1はサーバ装置であるものとし、以下では簡便のためサーバ1と読み替える。サーバ1は、tf−idf法等により、インターネット上に公開されている公開文書群から、各文書を特徴づける特徴的な単語(特徴語)を抽出し、ユーザに提示する処理を行う。
公開文書は、例えばWeb記事である。サーバ1は、公開済みのWeb記事から特徴語を抽出し、ユーザに提示する。一般的に、記事を執筆する執筆者(ユーザ)は、良質な記事をコンスタントに執筆すべく、読者が関心を持つ事柄、すなわち世間のトレンドを知る必要がある。しかしながら、トレンドを知るためには、例えば新聞を読む、テレビを視聴するなど、時間的、費用的コストが掛かる。そこでサーバ1は、後述するように、人気記事から特徴語を抽出してユーザに提示する。これによりユーザは、トレンドとなっている単語、すなわちトレンドワードを知るためのコストを低減させることができる。
ここでサーバ1は、インターネット上に公開されているWeb記事のうち、出所が共通する特定のWeb記事からトレンドワードを抽出する。Web記事の出所は、例えば記事の執筆者(ユーザ)、編集者、記事が掲載されたWebメディア等である。例えばサーバ1は、ユーザ自身が過去に執筆し、公開済みの記事からトレンドワードを抽出する。不特定多数の文書から単純にトレンドワードを抽出した場合、あらゆるジャンルのトレンドワードが抽出されることになる。しかしながら、強みとする記事のジャンルは執筆者やWebメディアによって異なる。従って、不特定多数の文書から抽出されたトレンドワードは、ノイズが多くなりやすい。そこでサーバ1は、ユーザが過去に執筆した記事からトレンドワードを抽出する。これによりユーザは、自らが執筆する記事に関係がある有益なトレンド情報を得ることができる。
情報処理端末2は、各ユーザが所有する端末装置であり、例えばパーソナルコンピュータ、スマートフォン、タブレット端末等である。以下では簡潔のため、情報処理端末2を端末2と読み替える。端末2はサーバ1と通信を行い、トレンドワードを取得してユーザに提示する。具体的に端末2は、後述するダッシュボード画面を表示してトレンドワードをユーザに提示する(図7参照)。
図2は、サーバ1の構成例を示すブロック図である。サーバ1は、制御部11、記憶部12、通信部13、大容量記憶装置14を含む。
制御部11はCPU(Central Processing Unit)、MPU(Micro-Processing Unit)等の演算処理装置を含み、記憶部12に記憶されたプログラムPを読み出して実行することにより、サーバ1に係る種々の情報処理、制御処理等を行う。なお、図2では制御部11を単一のプロセッサとして図示してあるが、制御部11はマルチプロセッサであってもよい。記憶部12はRAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ素子を含み、制御部11が処理を実行するために必要なプログラムP又はデータ等を記憶している。また、記憶部12は、制御部11が演算処理を実行するために必要なデータ等を一時的に記憶する。通信部13は通信に関する処理を行うための処理回路等を含み、ネットワークNを介してユーザ端末2等と情報の送受信を行う。
制御部11はCPU(Central Processing Unit)、MPU(Micro-Processing Unit)等の演算処理装置を含み、記憶部12に記憶されたプログラムPを読み出して実行することにより、サーバ1に係る種々の情報処理、制御処理等を行う。なお、図2では制御部11を単一のプロセッサとして図示してあるが、制御部11はマルチプロセッサであってもよい。記憶部12はRAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ素子を含み、制御部11が処理を実行するために必要なプログラムP又はデータ等を記憶している。また、記憶部12は、制御部11が演算処理を実行するために必要なデータ等を一時的に記憶する。通信部13は通信に関する処理を行うための処理回路等を含み、ネットワークNを介してユーザ端末2等と情報の送受信を行う。
大容量記憶装置14は、例えばハードディスク等を含む大容量の記憶装置である。大容量記憶装置14は、ユーザDB141、記事DB142、トレンドDB143を記憶している。ユーザDB141は、各ユーザに関する情報を記憶している。記事DB142は、ユーザが執筆したWeb記事に関する情報を記憶している。トレンドDB143は、トレンドワードに関する情報を記憶している。
なお、本実施の形態において記憶部12及び大容量記憶装置14は一体の記憶装置として構成されていてもよい。また、大容量記憶装置14は複数の記憶装置により構成されていてもよい。また、大容量記憶装置14はサーバ1に接続された外部記憶装置であってもよい。
また、本実施の形態においてサーバ1は上記の構成に限られず、例えば操作入力を受け付ける入力部、サーバ1に係る情報を表示する表示部等を含んでもよい。
また、本実施の形態においてサーバ1は上記の構成に限られず、例えば操作入力を受け付ける入力部、サーバ1に係る情報を表示する表示部等を含んでもよい。
図3は、ユーザDB141のレコードレイアウトの一例を示す説明図である。ユーザDB141は、ユーザID列、ユーザ名列、アカウント情報列を含む。ユーザIDは、各ユーザを識別するためのユーザIDを記憶している。ユーザ名列は、ユーザIDと対応付けて、ユーザの氏名を記憶している。アカウント情報列は、ユーザIDと対応付けて、各ユーザのアカウント情報(例えばログインの履歴等)を記憶している。
図4は、記事DB142のレコードレイアウトの一例を示す説明図である。記事DB142は、記事ID列、ユーザID列、カテゴリ列、URL列、タイトル列、本文列、画像列、公開日時列、PV(Page View)列を含む。記事ID列は、ユーザが執筆した各記事を識別するための記事IDを記憶している。ユーザID列は、記事IDと対応付けて、各記事を執筆したユーザのユーザIDを記憶している。カテゴリ列、URL列、タイトル列、本文列、画像列、公開日時列、PV列はそれぞれ、記事IDと対応付けて、各記事のカテゴリ、URL、記事のタイトル、記事本文、記事画像、公開日時、PV数を記憶している。
図5は、トレンドDB143のレコードレイアウトの一例を示す説明図である。トレンドDB143は、リストID列、ユーザID列、トレンドワードリスト列、集計日列を含む。リストID列は、後述するトレンドワードリストを識別するためのリストIDを記憶している。ユーザID列は、リストIDと対応付けて、トレンドワードの抽出元である記事を執筆したユーザのユーザIDを記憶している。トレンドワードリスト列は、リストIDと対応付けて、トレンドワードリストのデータを記憶している。集計日列は、リストIDと対応付けて、トレンドワードリストを集計した日付を記憶している。
図6は、トレンドワード抽出処理の説明図である。以下ではサーバ1が実行する処理の概要について説明する。
サーバ1は、ユーザが執筆し、公開した複数のWeb記事(公開文書群)から、各Web記事を特徴づける特徴語を抽出する処理を行う。具体的にサーバ1は、Web記事のタイトル及び本文から、tf−idf法により特徴語を抽出する。例えば図6左に示すように、サーバ1は、過去1ヶ月分のWeb記事を対象として特徴語を抽出する。サーバ1は、各記事の文書に対して形態素解析を行い、文書群に出現する単語を認識する。そしてサーバ1は、認識した各単語について、tf−idfに係る分析処理を行う。すなわちサーバ1は、ある単語がある記事に出現する出現頻度(TF;Term Frequency)と、当該単語が文書群全体で出現する逆文書頻度(IDF;Inverse Document Frequency)とを計算する。サーバ1は、出現頻度及び逆文書頻度を乗算し、当該単語の特徴(重み)を表す指標値tf−idf値を算出する。例えばサーバ1は、tf−idf値が所定の閾値以上である単語を特徴語として抽出する。これによりサーバ1は、図6左に示すように、記事内の特徴的な単語を抽出する。
サーバ1は、ユーザが執筆し、公開した複数のWeb記事(公開文書群)から、各Web記事を特徴づける特徴語を抽出する処理を行う。具体的にサーバ1は、Web記事のタイトル及び本文から、tf−idf法により特徴語を抽出する。例えば図6左に示すように、サーバ1は、過去1ヶ月分のWeb記事を対象として特徴語を抽出する。サーバ1は、各記事の文書に対して形態素解析を行い、文書群に出現する単語を認識する。そしてサーバ1は、認識した各単語について、tf−idfに係る分析処理を行う。すなわちサーバ1は、ある単語がある記事に出現する出現頻度(TF;Term Frequency)と、当該単語が文書群全体で出現する逆文書頻度(IDF;Inverse Document Frequency)とを計算する。サーバ1は、出現頻度及び逆文書頻度を乗算し、当該単語の特徴(重み)を表す指標値tf−idf値を算出する。例えばサーバ1は、tf−idf値が所定の閾値以上である単語を特徴語として抽出する。これによりサーバ1は、図6左に示すように、記事内の特徴的な単語を抽出する。
サーバ1は、Web記事に出現する全ての単語について上記の処理を繰り返し、特徴語を抽出していく(図6中央参照)。そしてサーバ1は、抽出した複数の特徴語夫々の指標値を、各特徴語の抽出元であるWeb記事の閲覧状況に応じて補正する。Web記事の閲覧状況は、例えば記事のPV数、滞在時間、離脱率等のように、記事の人気を図る尺度となり得るパラメータである。本実施の形態においてサーバ1は、PV数を基準にWeb記事の人気を測り、各特徴語に係る指標値の重み付けを行う。例えばサーバ1は、各記事のPV数を全記事のPV数の総数で除算することで、重み付けのための係数を計算する。サーバ1は、計算した重み付け係数をtf−idf値に乗算することで、記事の人気に応じたtf−idf値の補正を行う。
サーバ1は、補正後の指標値(tf−idf値)に応じてトレンドワードを決定する。例えば図6右に示すように、サーバ1は、補正後の指標値の大小に応じて特徴語をソートし、指標値が上位である5つの特徴語をトレンドワードリストとして決定する。サーバ1は、リスト化したトレンドワードをトレンドDB143に記憶しておく。
図7は、ダッシュボード画面の一例を示す説明図である。サーバ1は、端末2からの出力要求に応じて、図7に示すダッシュボード画面を端末2に出力する。ダッシュボード画面は、ユーザが執筆したWeb記事の記事成績と、当該Web記事から抽出されたトレンドワードとを示す画面である。
サーバ1は記事DB142を参照し、図7上側に示すように、PV数に応じた記事成績(閲覧状況)をダッシュボード画面に出力する。さらにサーバ1はトレンドDB143を参照し、図7下側に示すように、1ヶ月単位のトレンドワードリストをダッシュボード画面に出力する。具体的には、サーバ1は、今月(図7では「3月」)のトレンドワードリストと、先月(図7では「2月」)のトレンドワードリストとを出力する。なお、例えばサーバ1は先々月以前のトレンドワードリストを出力してもよく、月単位ではなく年単位のトレンドワードリストを出力してもよい。図7に示すように、サーバ1は、各月のトレンドワードをランキング形式で出力する。これによりユーザは、記事の執筆に役立つトレンドワードを知ることができる。
図8は、サーバ1が実行する処理手順の一例を示すフローチャートである。図8に基づき、サーバ1が実行する処理内容について説明する。
サーバ1の制御部11は、出所が共通する特定の公開文書群と、各公開文書の閲覧状況とを記事DB142から取得する(ステップS11)。公開文書は、例えばWeb記事である。制御部11は、記事DB142に記憶されている、出所が共通するWeb記事のデータを取得する。Web記事の出所は、例えば記事を執筆した執筆者(ユーザ)、記事の編集者、記事が掲載されたWebメディア等である。例えば制御部11は、執筆者が共通する複数のWeb記事を記事DB142から取得する。さらに制御部11は、Web記事夫々の閲覧状況に係るデータを記事DB142から取得する。閲覧状況に係るデータは、例えば記事のPV数、滞在時間、離脱率等である。例えば制御部11は、各記事のPV数を記事DB142から取得する。
サーバ1の制御部11は、出所が共通する特定の公開文書群と、各公開文書の閲覧状況とを記事DB142から取得する(ステップS11)。公開文書は、例えばWeb記事である。制御部11は、記事DB142に記憶されている、出所が共通するWeb記事のデータを取得する。Web記事の出所は、例えば記事を執筆した執筆者(ユーザ)、記事の編集者、記事が掲載されたWebメディア等である。例えば制御部11は、執筆者が共通する複数のWeb記事を記事DB142から取得する。さらに制御部11は、Web記事夫々の閲覧状況に係るデータを記事DB142から取得する。閲覧状況に係るデータは、例えば記事のPV数、滞在時間、離脱率等である。例えば制御部11は、各記事のPV数を記事DB142から取得する。
制御部11は、取得した公開文書群に出現する各単語の特徴を表す指標値を算出する(ステップS12)。具体的には、制御部11は各記事に対して形態素解析を行い、各記事に出現する単語を認識する。制御部11は、tf−idf法等を用いて各単語に係る指標値を算出する。制御部11は、算出した指標値に基づき、公開文書を特徴づける特徴語を抽出する(ステップS13)。例えば制御部11は、算出した指標値を所定の閾値と比較し、閾値以上の指標値を有する単語を特徴語として抽出する。
制御部11は、抽出した特徴語の指標値を、特徴語の抽出元である公開文書の閲覧状況に応じて補正する(ステップS14)。例えば制御部11は、各記事のPV数の大小に応じた重み付け係数を指標値に乗算し、PV数が多い人気記事に出現する特徴語ほど指標値が大きくなるように補正する。制御部11は、補正した指標値に応じて特徴語を端末2に出力する(ステップS15)。例えば制御部11は、補正した指標値に応じて特徴語をソートし、リスト化したデータをトレンドDB143に記憶しておく。制御部11は、公開済みのWeb記事の閲覧状況等と共に、当該Web記事から抽出したトレンドワードリストを端末2に出力する。制御部11は、一連の処理を終了する。
なお、上記でサーバ1はtf−idf法を用いて特徴語を抽出したが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、相互情報量(PMI;Pointwise Mutual Information)、カイ二乗値などを指標値として採用し、特徴語を抽出してもよい。すなわちサーバ1は、公開文書群から特徴語を抽出することができればよく、特徴語を抽出するアルゴリズムは特に限定されない。
また、上記でサーバ1は、Web記事を執筆する執筆者毎にアカウントを用意し、ダッシュボード画面を出力したが、例えば全執筆者を取りまとめる編集部のアカウントを用意し、全執筆者の状況が分かるダッシュボードを出力することにしてもよい。これにより、Webメディアを運営する編集部は、トレンドワードを記事の作成方針に利用する、個々の執筆者への指導に役立てる等することができる。
また、サーバ1は、Web記事に出現する単語全てについてtf−idf値を計算するのではなく、例えば名詞のみに限定するなど、処理の対象とする単語を絞ってもよい。また、例えばサーバ1は、tf−idf値が上位の単語のみを特徴語としてもよい。これらの処理により、サーバ1は処理負荷を低減することができる。
また、上記ではWeb記事を執筆する場合を一例として挙げ、トレンドワードを抽出してユーザに提示する形態について説明したが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、学術論文から特徴語を抽出し、重要なキーワードとしてユーザに提示してもよい。例えばサーバ1は、ユーザが執筆者である論文集から特徴語を抽出し、論文の引用回数等に応じて指標値を補正する。これによりユーザは、読者の関心が高い論文のキーワードを知ることができる。このように、分析対象となる公開文書群はWeb記事に限定されるものではなく、最終的に提示する特徴語はトレンドワードに限定されるものではない。
以上より、本実施の形態1によれば、単語の特徴を表す指標値を公開文書の閲覧状況に応じて重み付けすることで、トレンドワードを抽出する。また、出所が共通する特定の公開文書群を対象として特徴語を抽出することで、ユーザに関連あるトレンドワードの探索を行う。これにより、ユーザに関係し、かつ、読者の関心もある、ユーザにとって重要な単語を提示することができる。
(実施の形態2)
本実施の形態では、ユーザが執筆した記事から抽出したトレンドワードだけでなく、世間一般に流行しているトレンドワードを考慮した形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
図9は、実施の形態2に係るトレンドワード抽出処理の説明図である。本実施の形態に係るサーバ1は、ユーザが執筆したWeb記事からトレンドワードを抽出するだけでなく、ネットワークN上に投稿された投稿情報からもトレンドワードを取得する。投稿情報は、例えばSNSに投稿されたコメントである。サーバ1は、一連の処理を実行するに際し、まずSNSに投稿されたコメントを収集する。なお、サーバ1は事前にSNSコメントの収集を行い、データベースに蓄積しておいてもよい。サーバ1は、収集したコメントのタイトル及び本文から、世間一般で流行しているトレンドワード(流行語)を抽出する。具体的にサーバ1は、実施の形態1と同様に、tf−idf法等を用いてトレンドワードを抽出する。
本実施の形態では、ユーザが執筆した記事から抽出したトレンドワードだけでなく、世間一般に流行しているトレンドワードを考慮した形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
図9は、実施の形態2に係るトレンドワード抽出処理の説明図である。本実施の形態に係るサーバ1は、ユーザが執筆したWeb記事からトレンドワードを抽出するだけでなく、ネットワークN上に投稿された投稿情報からもトレンドワードを取得する。投稿情報は、例えばSNSに投稿されたコメントである。サーバ1は、一連の処理を実行するに際し、まずSNSに投稿されたコメントを収集する。なお、サーバ1は事前にSNSコメントの収集を行い、データベースに蓄積しておいてもよい。サーバ1は、収集したコメントのタイトル及び本文から、世間一般で流行しているトレンドワード(流行語)を抽出する。具体的にサーバ1は、実施の形態1と同様に、tf−idf法等を用いてトレンドワードを抽出する。
サーバ1は、Web記事から抽出したトレンドワードのうち、投稿情報から抽出した世間一般のトレンドワードと共通する単語を、最終的に出力するトレンドワードの候補として特定する。すなわちサーバ1は、Web記事から抽出した特徴語を、世間一般の流行語に絞り込む。
サーバ1は、絞り込んだトレンドワードの指標値を、SNSでのトレンドワードの使用頻度を示す情報に応じて補正する。使用頻度を示す情報は、例えばSNSのコメントからトレンドワードを抽出する際に算出したtf−idf値、SNSでのトレンドワードの出現回数などである。サーバ1は、これらの情報に応じて、Web記事から抽出したトレンドワードの指標値の重み付けを行う。具体的には、サーバ1は、使用頻度が高いほど指標値が高くなるように重み付けを行う。サーバ1は、使用頻度に応じて重み付けした指標値に基づきトレンドワードをソートし、トレンドワードリストを作成する。サーバ1は、作成したトレンドワードリストをダッシュボード画面に出力する。
図10は、実施の形態2に係るサーバ1が実行する処理手順の一例を示すフローチャートである。公開文書の閲覧状況に応じて特徴語の指標値を補正する処理を実行した後(ステップS14)、サーバ1の制御部11は、以下の処理を実行する。
制御部11は、ネットワークN上に投稿された投稿情報を収集する(ステップS201)。投稿情報は、例えばSNSに投稿されたコメントである。制御部11は、収集した投稿情報から流行語を抽出する処理を実行する(ステップS202)。具体的には、Web記事から特徴語を抽出した際と同様に、制御部11は、SNSのコメントのタイトル及び本文に対してtf−idfに係る処理を実行し、特徴語を抽出していく。これにより制御部11は、世間一般に流行しているトレンドワードを抽出する。
制御部11は、ネットワークN上に投稿された投稿情報を収集する(ステップS201)。投稿情報は、例えばSNSに投稿されたコメントである。制御部11は、収集した投稿情報から流行語を抽出する処理を実行する(ステップS202)。具体的には、Web記事から特徴語を抽出した際と同様に、制御部11は、SNSのコメントのタイトル及び本文に対してtf−idfに係る処理を実行し、特徴語を抽出していく。これにより制御部11は、世間一般に流行しているトレンドワードを抽出する。
制御部11は、ステップS13で公開文書群から抽出した特徴語のうち、ステップS202で抽出した流行語と共通する特徴語を特定する(ステップS203)。すなわち制御部11は、ユーザが執筆した記事から抽出したトレンドワードを、世間一般で流行しているトレンドワードに絞り込む。制御部11は、特定した特徴語に係る指標値を、投稿情報における流行語の使用頻度を示す情報に応じて補正する(ステップS204)。使用頻度を示す情報は、例えば流行語のtf−idf値、SNSでの流行語の出現回数等である。制御部11は、これらの情報に基づいて特徴語の指標値(tf−idf値)を補正する。すなわち制御部11は、SNSでの使用頻度が高いほど、指標値が高くなるように重み付けを行う。
制御部11は、ステップS204で補正した指標値に応じて、公開文書群から抽出された特徴語を端末2に出力する(ステップS205)。具体的には上述の如く、制御部11は、補正後の指標値の大小に応じて特徴語をソートし、最終的なトレンドワードのリストを作成して端末2に出力する。制御部11は、一連の処理を終了する。
以上より、本実施の形態2によれば、世間一般の流行語を考慮して特徴語を絞り込むことで、より正確なトレンドワードをユーザに提示することができる。
また、本実施の形態2によれば、SNSの投稿情報から流行語を抽出することで、Web記事の読者となり得る一般ユーザの関心が高い単語に絞り込んでトレンドワードを提示することができる。
また、本実施の形態2によれば、投稿情報から抽出した流行語のtf−idf値、SNSでの流行語の出現回数等のように、流行語の使用頻度を示す情報に応じてWeb記事の特徴語の指標値を補正することで、より正確なトレンドワードを提示することができる。
(変形例1)
上記ではSNSのコメントを収集して世間一般のトレンドワードを抽出することにしたが、実施の形態2に係る処理は上記に限定されるものではない。図11は、変形例1に係るトレンドワード抽出処理の説明図である。図11右上に示すように、変形例1においてサーバ1は、API(Application Programming Interface)サーバ3からトレンドワードを取得する。APIサーバ3は、インターネット上で話題となっているトレンドワードを提示するWebサービスを提供するサーバ装置である。例えばAPIサーバ3は、検索エンジンにおける検索数、SNSでのコメント数、インターネットニュースのPV数等に応じてトレンドワードを検知し、サービス利用者に提示する。変形例1では、サーバ1をAPIサーバ3と連携させ、APIサーバ3からトレンドワードを取得させる。
上記ではSNSのコメントを収集して世間一般のトレンドワードを抽出することにしたが、実施の形態2に係る処理は上記に限定されるものではない。図11は、変形例1に係るトレンドワード抽出処理の説明図である。図11右上に示すように、変形例1においてサーバ1は、API(Application Programming Interface)サーバ3からトレンドワードを取得する。APIサーバ3は、インターネット上で話題となっているトレンドワードを提示するWebサービスを提供するサーバ装置である。例えばAPIサーバ3は、検索エンジンにおける検索数、SNSでのコメント数、インターネットニュースのPV数等に応じてトレンドワードを検知し、サービス利用者に提示する。変形例1では、サーバ1をAPIサーバ3と連携させ、APIサーバ3からトレンドワードを取得させる。
サーバ1は、Web記事から抽出したトレンドワードのうち、APIサーバ3から取得した世間一般のトレンドワードと共通する単語を、最終的なトレンドワードの候補として特定する。そしてサーバ1は、実施の形態2と同様に、トレンドワードの使用頻度に応じて指標値を補正する。例えばサーバ1は、APIサーバ3が提示するトレンドワードのランキング、スコア(例えば検索数)、トレンドワードが過去に上位に挙がった回数などに応じて指標値を補正する。すなわちサーバ1は、インターネット上でトレンドワードが、検索キー、SNSコメント、インターネットニュース等に使用された頻度に応じて重み付けを行う。サーバ1は、重み付けした指標値に応じてトレンドワードをソートし、トレンドワードリストを作成してダッシュボード画面に出力する。
以上より、変形例1によれば、サーバ1はSNS上の投稿情報からだけでなく、API等からも流行語を取得することができる。特に変形例1によれば、サーバ1はtf−idf等の計算処理を行うことなく、世間一般の流行語を取得することができる。このように、サーバ1は流行語を取得可能であればよく、流行語は投稿情報から取得したものに限定されない。
なお、図11ではAPIサーバ3が単一であるものとして図示してあるが、サーバ1がアクセスするAPIサーバ3は複数であってもよい。すなわちサーバ1は、複数のトレンドワード提示サービスと同期する形であってもよい。
(実施の形態3)
本実施の形態では、トレンドワードを提示するだけでなく、トレンドワードがどのように使われているかをユーザに提示する形態について述べる。なお、本実施の形態に係るサーバ1は、変形例1と同じく、APIサーバ3から流行語を取得して特徴語の絞り込みを行うものとして説明を行う。
図12は、実施の形態3に係るダッシュボード画面の一例を示す説明図である。本実施の形態でサーバ1は、トレンドワードを提示するだけでなく、トレンドワードがどのように使われているか、トレンドワードの抽出元に関する抽出元情報をユーザに提示する。
本実施の形態では、トレンドワードを提示するだけでなく、トレンドワードがどのように使われているかをユーザに提示する形態について述べる。なお、本実施の形態に係るサーバ1は、変形例1と同じく、APIサーバ3から流行語を取得して特徴語の絞り込みを行うものとして説明を行う。
図12は、実施の形態3に係るダッシュボード画面の一例を示す説明図である。本実施の形態でサーバ1は、トレンドワードを提示するだけでなく、トレンドワードがどのように使われているか、トレンドワードの抽出元に関する抽出元情報をユーザに提示する。
抽出元情報は、トレンドワードの抽出元を抜粋したテキスト、及びトレンドワードを抽出したWebページのURLなどの情報である。例えばサーバ1は、記事DB142を参照して、Web記事においてトレンドワードが使われている該当箇所を抜粋したテキストと、Web記事が掲載されているページのURLとを特定する。サーバ1は、特定した抜粋テキスト及びURLを、トレンドワードと対応付けてダッシュボード画面に出力する。例えば図12に示すように、サーバ1は、「元記事」で示す欄に抜粋テキスト及びURLを出力する。なお、サーバ1は抜粋テキスト及びURLだけでなく、例えばPV数などを併せて出力してもよい。
また、サーバ1は、Web記事の抽出元情報だけでなく、トレンドワードを検知したAPIの情報を、抽出元情報として併せて出力する。例えばサーバ1は、トレンドワードを検知したAPIサーバ3のサービス名、APIでのトレンドワードの抜粋テキスト、URLなどを「API」の欄に出力する。
上記のように、サーバ1は、トレンドワードがどの記事で使われていたか、どのトレンドワード提示サービスで取り上げられているか等の情報をユーザに提示する。これによりユーザは、トレンドワードの具体的な利用例を知ることができ、記事の執筆に役立てることができる。
図13は、実施の形態3に係るサーバ1が実行する処理手順の一例を示すフローチャートである。公開文書の閲覧状況に応じて特徴語の指標値を補正する処理を実行した後(ステップS14)、サーバ1の制御部11は、以下の処理を実行する。
制御部11は、APIサーバ3から流行語を取得する(ステップS301)。制御部11は、ステップS13で抽出した特徴語のうち、ステップS301で取得した流行語と共通する特徴語を特定する(ステップS302)。制御部11は、特定した特徴語の指標値を、流行語の使用頻度を示す情報に基づき補正する(ステップS303)。使用頻度を示す情報は、例えばAPIサーバ3が提示するトレンドワードの順位、スコア(例えば検索数)、トレンドワードが過去にランキングした回数などである。制御部11は、トレンドワードの使用頻度に応じて指標値の重み付けを行う。
制御部11は、APIサーバ3から流行語を取得する(ステップS301)。制御部11は、ステップS13で抽出した特徴語のうち、ステップS301で取得した流行語と共通する特徴語を特定する(ステップS302)。制御部11は、特定した特徴語の指標値を、流行語の使用頻度を示す情報に基づき補正する(ステップS303)。使用頻度を示す情報は、例えばAPIサーバ3が提示するトレンドワードの順位、スコア(例えば検索数)、トレンドワードが過去にランキングした回数などである。制御部11は、トレンドワードの使用頻度に応じて指標値の重み付けを行う。
制御部11は、指標値が上位の特徴語と、各特徴語の抽出元に関する抽出元情報とを端末2に出力する(ステップS304)。抽出元情報は、例えばトレンドワードの抽出元の抜粋テキスト、抽出元のURLなどである。例えば制御部11は、トレンドワードの抽出元であるWeb記事の抜粋テキスト、及びWeb記事のURLを出力する。さらに制御部11は、当該特徴語をトレンドワードとして検知したAPIの抜粋テキスト、URLなどを出力する。制御部11は、一連の処理を終了する。
以上より、本実施の形態3によれば、トレンドワードの利用例を併せてユーザに提示することで、利便性を高めることができる。
(実施の形態4)
図14は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。取得部1401は、出所が共通する特定の公開文書群と、該公開文書夫々の閲覧状況とを取得する。算出部1402は、前記公開文書群に出現する各単語の特徴を表す指標値を算出する。抽出部1403は、算出した前記指標値に基づき、前記公開文書を特徴づける特徴語を抽出する。補正部1404は、該特徴語の抽出元である前記公開文書の閲覧状況に応じて、前記特徴語に係る前記指標値を補正する。出力部1405は、補正した前記指標値に応じて、前記特徴語を出力する。
図14は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。取得部1401は、出所が共通する特定の公開文書群と、該公開文書夫々の閲覧状況とを取得する。算出部1402は、前記公開文書群に出現する各単語の特徴を表す指標値を算出する。抽出部1403は、算出した前記指標値に基づき、前記公開文書を特徴づける特徴語を抽出する。補正部1404は、該特徴語の抽出元である前記公開文書の閲覧状況に応じて、前記特徴語に係る前記指標値を補正する。出力部1405は、補正した前記指標値に応じて、前記特徴語を出力する。
本実施の形態4は以上の如きであり、その他は実施の形態1から3と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1 サーバ(情報処理装置)
11 制御部
12 記憶部
P プログラム
13 通信部
14 大容量記憶装置
141 ユーザDB
142 記事DB
143 トレンドDB
2 端末(情報処理端末)
3 APIサーバ
11 制御部
12 記憶部
P プログラム
13 通信部
14 大容量記憶装置
141 ユーザDB
142 記事DB
143 トレンドDB
2 端末(情報処理端末)
3 APIサーバ
Claims (7)
- 出所が共通する特定の公開文書群と、該公開文書夫々の閲覧状況とを取得する取得部と、
前記公開文書群に出現する各単語の特徴を表す指標値を算出する算出部と、
算出した前記指標値に基づき、前記公開文書を特徴づける特徴語を抽出する抽出部と、
該特徴語の抽出元である前記公開文書の閲覧状況に応じて、前記特徴語に係る前記指標値を補正する補正部と、
補正した前記指標値に応じて、前記特徴語を出力する出力部と
を備えることを特徴とする情報処理装置。 - 流行語を取得する第2取得部を備え、
前記出力部は、前記抽出部が抽出した前記特徴語のうち、前記流行語と共通する前記特徴語を出力する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記第2取得部は、
ネットワーク上に投稿された投稿情報を収集する収集部と、
収集した前記投稿情報から前記流行語を抽出する第2抽出部と
を備えることを特徴とする請求項2に記載の情報処理装置。 - 前記第2取得部は、前記流行語の使用頻度を示す情報を取得し、
前記補正部は、前記使用頻度を示す情報に基づき、前記特徴語に係る前記指標値を補正する
ことを特徴とする請求項2又は3に記載の情報処理装置。 - 前記出力部はさらに、前記特徴語の抽出元の抜粋テキスト又はURLを示す抽出元情報を出力する
ことを特徴とする請求項1〜4のいずれか1項に記載の情報処理装置。 - 出所が共通する特定の公開文書群と、該公開文書夫々の閲覧状況とを取得し、
前記公開文書群に出現する各単語の特徴を表す指標値を算出し、
算出した前記指標値に基づき、前記公開文書を特徴づける特徴語を抽出し、
該特徴語の抽出元である前記公開文書の閲覧状況に応じて、前記特徴語に係る前記指標値を補正し、
補正した前記指標値に応じて、前記特徴語を出力する
処理をコンピュータに実行させることを特徴とする情報処理方法。 - 出所が共通する特定の公開文書群と、該公開文書夫々の閲覧状況とを取得し、
前記公開文書群に出現する各単語の特徴を表す指標値を算出し、
算出した前記指標値に基づき、前記公開文書を特徴づける特徴語を抽出し、
該特徴語の抽出元である前記公開文書の閲覧状況に応じて、前記特徴語に係る前記指標値を補正し、
補正した前記指標値に応じて、前記特徴語を出力する
処理をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017098888A JP2018195108A (ja) | 2017-05-18 | 2017-05-18 | 情報処理装置、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017098888A JP2018195108A (ja) | 2017-05-18 | 2017-05-18 | 情報処理装置、情報処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018195108A true JP2018195108A (ja) | 2018-12-06 |
Family
ID=64571595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017098888A Pending JP2018195108A (ja) | 2017-05-18 | 2017-05-18 | 情報処理装置、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018195108A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022026922A (ja) * | 2020-07-31 | 2022-02-10 | 株式会社ドワンゴ | コンテンツ配信サーバー、コンテンツ検索方法、コンテンツ検索プログラム、コンピュータ読み取り可能な記憶媒体、および、コンテンツ配信システム |
-
2017
- 2017-05-18 JP JP2017098888A patent/JP2018195108A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022026922A (ja) * | 2020-07-31 | 2022-02-10 | 株式会社ドワンゴ | コンテンツ配信サーバー、コンテンツ検索方法、コンテンツ検索プログラム、コンピュータ読み取り可能な記憶媒体、および、コンテンツ配信システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111143610B (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
Minkov et al. | Collaborative future event recommendation | |
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
JP5731250B2 (ja) | 情報ストリーム中の興味深いコンテンツを推奨するためのシステムおよび方法 | |
US8380727B2 (en) | Information processing device and method, program, and recording medium | |
US20150293897A1 (en) | Automatically coding fact check results in a web page | |
US20170098165A1 (en) | Method and Apparatus for Establishing and Using User Recommendation Model in Social Network | |
US9639622B2 (en) | Image processing system, image processing method, program, and non-transitory information storage medium | |
US9268858B1 (en) | Previewing content based on detected customer activities | |
JP2013517563A (ja) | ユーザ通信の解析システムおよび方法 | |
US20230244707A1 (en) | Management of event summary types | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
JP5237353B2 (ja) | 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体 | |
JP2017021796A (ja) | 学習素材のセグメントのランク付け | |
JP5988345B1 (ja) | 評価装置、評価方法、評価プログラム、レコメンド装置、レコメンド方法およびレコメンドプログラム | |
CN104881447A (zh) | 搜索方法及装置 | |
JP5048852B2 (ja) | 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 | |
Park et al. | A computational framework for media bias mitigation | |
US20110087659A1 (en) | Document relevance determining method and computer program | |
KR20160002199A (ko) | 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템 | |
US10339559B2 (en) | Associating social comments with individual assets used in a campaign | |
AU2013201006A1 (en) | Information classification program, information classification method, and information processing apparatus | |
US20150178266A1 (en) | Entity-based summarization for electronic books | |
JP2018195108A (ja) | 情報処理装置、情報処理方法及びプログラム | |
Yamaba et al. | On a serendipity-oriented recommender system based on folksonomy |