JP2012032903A - 書き込み情報収集システム、方法、およびプログラム - Google Patents

書き込み情報収集システム、方法、およびプログラム Download PDF

Info

Publication number
JP2012032903A
JP2012032903A JP2010170085A JP2010170085A JP2012032903A JP 2012032903 A JP2012032903 A JP 2012032903A JP 2010170085 A JP2010170085 A JP 2010170085A JP 2010170085 A JP2010170085 A JP 2010170085A JP 2012032903 A JP2012032903 A JP 2012032903A
Authority
JP
Japan
Prior art keywords
information
writing information
collecting
social media
writing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010170085A
Other languages
English (en)
Inventor
Jie Jung
智愛 成
Yukiko Habu
由希子 土生
Emi Morita
恵美 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2010170085A priority Critical patent/JP2012032903A/ja
Publication of JP2012032903A publication Critical patent/JP2012032903A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】ソーシャルメディアから、所定の言語で記述された情報を収集すること。
【解決手段】複数の言語に対応するソーシャルメディアに書き込まれた書き込み情報の中から、所定の言語の書き込み情報を収集する書き込み情報収集システムは、所定の言語の文に含まれ、文中の他の語との関係を示す単語群が設定された設定ファイルを読み込む読み込み部30と、単語群の各単語に基づいて、ソーシャルメディアから書き込み情報を収集する収集部50と、収集した書き込み情報を記憶する書き込み情報記憶部42と、を備える。
【選択図】図2

Description

本発明は、ソーシャルメディアに書き込まれた書き込み情報を収集する書き込み情報収集システム、方法、およびプログラムに関する。
近年インターネット上では、ユーザが情報を発信し、形成していくメディアであるソーシャルメディアが次々と登場している。ソーシャルメディアには、例えば、ブログ、ソーシャル・ネットワーキング・サービス(SNS)、口コミサイト、FAQサイト、ビデオ投稿共有サイト、掲示板等が含まれる。このようなソーシャルメディアは、世界中のユーザに利用されることから、書き込み情報の言語は複数の言語にわたっている。特に、ブログの一種であるミニブログの1つとして、近年注目されているTwitter(登録商標)は、世界中のユーザがそれぞれの言語で書き込み情報(ツイート)を投稿し合っている(例えば、非特許文献1。)。
また、ネットワークに接続されたウェブサーバからウェブ情報を取得し、取得されたウェブ情報のテキスト情報部分から単語を抽出し、既知の単語情報を基に単語の目的情報との関連性を評価して関連性の高いウェブ情報を収集する装置が提案されている(例えば、特許文献1。)。
特開2005−346598号公報
Twitter、[2010年7月7日検索]インターネット<URL:http://twitter.com/>
ところで、ソーシャルメディアの書き込み情報は、クローラーと呼ばれるプログラムによって収集(クロール)することができる。しかしながら、ソーシャルメディアの書き込み情報は膨大であるにも関わらず、ソーシャルメディアがシステムの負荷軽減のために行っているアクセス制限により、収集できる書き込み情報の数は制限されてしまっている。アクセス制限には、例えば、アクセス回数の制限や取得情報数の制限等がある。例えば、Twitterは、取得できる書き込み情報数の制限を行っており、また、Twitterが提供しているAPIを使用したクローラーに対しては、IPアドレス毎に1時間当たりのアクセス回数の制限も行っている。
また、上述したように、ソーシャルメディアの書き込み情報は複数の言語により記述されているが、所定の言語の書き込み情報のみを収集したい場合も多い。しかしながら、特許文献1に記載の装置では、目的とするウェブ情報を収集することはできるが、所定の言語の書き込み情報を収集することはできないという問題点があった。また、アクセス制限により、収集できる書き込み情報の数は制限されているにも関わらず、クローラーは所定の言語以外の書き込み情報も収集してしまうため、収集される所定の言語の書き込み情報が少なくなってしまうという問題点があった。
そこで、本発明は、上述の課題に鑑みてなされたものであり、ソーシャルメディアから、所定の言語で記述された情報を収集する書き込み情報収集システム、方法、およびプログラムを提供することを目的とする。
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
(1) 本発明は、複数の言語に対応するソーシャルメディアに書き込まれた書き込み情報の中から、所定の言語の書き込み情報を収集する書き込み情報収集システムであって、前記所定の言語の文に含まれ、文中の他の語との関係を示す単語群(例えば、図3の収集キーワード64に相当)が設定された設定ファイル(例えば、図3の設定ファイル60に相当)を読み込む読み込み手段(例えば、図2の読み込み部30に相当)と、前記単語群の各単語に基づいて、前記ソーシャルメディアから書き込み情報を収集する収集手段(例えば、図2の収集部50に相当)と、収集した書き込み情報を記憶する情報記憶手段(例えば、図2の書き込み情報記憶部42に相当)と、を備えることを特徴とする書き込み情報収集システムを提案している。
この発明によれば、読み込み手段は、所定の言語の文に含まれ、文中の他の語との関係を示す単語群が設定された設定ファイルを読み込む。収集手段は、単語群の各単語に基づいて、ソーシャルメディアから書き込み情報を収集する。そして、情報記憶手段は、収集した書き込み情報を記憶する。したがって、ソーシャルメディアから、所定の言語で記述された書き込み情報を収集することができる。また、所定の言語以外の書き込み情報を収集してしまうことにより、収集される所定の言語の書き込み情報は少なくなってしまうという問題点を解決することができる。
(2) 本発明は、(1)の書き込み情報収集システムについて、あらかじめ設定された、収集結果一覧1ページ当たりの書き込み情報表示数に基づいて、前記収集した書き込み情報を表示するのに必要なページ数を求めるページ数チェック手段(例えば、図2のページ数チェック部56に相当)を備え、前記情報記憶手段は、前記収集した書き込み情報をページ毎に記憶することを特徴とする書き込み情報収集システムを提案している。
この発明によれば、ページ数チェック手段は、あらかじめ設定された、収集結果一覧1ページ当たりの書き込み情報表示数に基づいて、収集した書き込み情報を表示するのに必要なページ数を求める。そして、情報記憶手段は、収集した書き込み情報をページ毎に記憶する。したがって、収集した書き込み情報をページ毎に端末等の表示手段に表示することができる。
(3) 本発明は、(1)または(2)の書き込み情報収集システムについて、前記設定ファイルは、前記情報記憶手段への接続情報(例えば、図3の接続情報62に相当)を含み、前記読み込み手段は、前記接続情報に基づいて、前記情報記憶手段に接続することを特徴とする書き込み情報収集システムを提案している。
この発明によれば、また、設定ファイルは、情報記憶手段への接続情報を含む。そして、読み込み手段は、接続情報に基づいて、情報記憶手段に接続する。したがって、収集した書き込み情報を記憶する情報記憶手段を指定することができる。
(4) 本発明は、(1)から(3)の書き込み情報収集システムについて、前記収集手段が、前記ソーシャルメディアから書き込み情報を収集した際の収集結果をログ情報として記憶するログ情報記憶手段を備えることを特徴とする書き込み情報収集システムを提案している。
この発明によれば、ログ情報記憶手段は、収集手段が前記ソーシャルメディアから書き込み情報を収集する際に、収集結果をログ情報として記憶する。したがって、書き込み情報の収集に関するエラーをログ情報により確認することができる。
(5) 本発明は、(1)から(4)の書き込み情報収集システムについて、前記所定の言語は、日本語であって、前記単語群は、助詞を含む文字列であることを特徴とする書き込み情報収集システムを提案している。
この発明によれば、所定の言語は、日本語であって、単語群は、助詞を含む文字列である。したがって、助詞を用いることにより、日本語で記述された書き込み情報を収集することができる。
(6) 本発明は、複数の言語に対応するソーシャルメディアに書き込まれた書き込み情報の中から、所定の言語の書き込み情報を収集する書き込み情報収集システムであって、前記所定の言語の文において出現頻度の高い文字群が設定された設定ファイルを読み込む読み込み手段と、前記文字群の各文字に基づいて、前記ソーシャルメディアから書き込み情報を収集する収集手段と、収集した書き込み情報を記憶する情報記憶手段と、を備えることを特徴とする書き込み情報収集システムを提案している。
この発明によれば、読み込み手段は、所定の言語の文において出現頻度の高い文字群が設定された設定ファイルを読み込む。収集手段は、文字群の各文字に基づいて、ソーシャルメディアから書き込み情報を収集する。そして、情報記憶手段は、収集した書き込み情報を記憶する。したがって、ソーシャルメディアから、所定の言語で記述された書き込み情報を収集することができる。また、所定の言語以外の書き込み情報を収集してしまうことにより、収集される所定の言語の書き込み情報は少なくなってしまうという問題点を解決することができる。
(7) 本発明は、複数の言語に対応するソーシャルメディアに書き込まれた書き込み情報の中から、所定の言語の書き込み情報を収集する書き込み情報収集方法であって、読み込み手段が、前記所定の言語の文に含まれ、文中の他の語との関係を示す単語群が設定された設定ファイルを読み込む第1のステップ(例えば、図4のステップS1に相当)と、収集手段が、前記単語群の各単語に基づいて、前記ソーシャルメディアから書き込み情報を収集する第2のステップ(例えば、図4のステップS3からS7に相当)と、情報記憶手段が、収集した書き込み情報を記憶する第3のステップ(例えば、図4のステップS8に相当)と、を含むことを特徴とする書き込み情報収集方法を提案している。
この発明によれば、まず、第1のステップにおいて、読み込み手段が、所定の言語の文に含まれ、文中の他の語との関係を示す単語群が設定された設定ファイルを読み込む。次に、第2のステップにおいて、収集手段が、単語群の各単語に基づいて、ソーシャルメディアから書き込み情報を収集する。そして、第3のステップにおいて、情報記憶手段が、収集した書き込み情報を記憶する。したがって、ソーシャルメディアから、所定の言語で記述された情報を収集することができる。また、所定の言語以外の書き込み情報を収集してしまうことにより、収集される所定の言語の書き込み情報は少なくなってしまうという問題点を解決することができる。
(8) 本発明は、複数の言語に対応するソーシャルメディアに書き込まれた書き込み情報の中から、所定の言語の書き込み情報を収集する書き込み情報収集方法をコンピュータに実行させるためのプログラムであって、読み込み手段が、前記所定の言語の文に含まれ、文中の他の語との関係を示す単語群が設定された設定ファイルを読み込む第1のステップ(例えば、図4のステップS1に相当)と、収集手段が、前記単語群の各単語に基づいて、前記ソーシャルメディアから書き込み情報を収集する第2のステップ(例えば、図4のステップS3からS7に相当)と、情報記憶手段が、収集した書き込み情報を記憶する第3のステップ(例えば、図4のステップS8に相当)と、をコンピュータに実行させるためのプログラムを提案している。
この発明によれば、まず、第1のステップにおいて、読み込み手段が、所定の言語の文に含まれ、文中の他の語との関係を示す単語群が設定された設定ファイルを読み込む。次に、第2のステップにおいて、収集手段が、単語群の各単語に基づいて、ソーシャルメディアから書き込み情報を収集する。そして、第3のステップにおいて、情報記憶手段が、収集した書き込み情報を記憶する。したがって、ソーシャルメディアから、所定の言語で記述された情報を収集することができる。また、所定の言語以外の書き込み情報を収集してしまうことにより、収集される所定の言語の書き込み情報は少なくなってしまうという問題点を解決することができる。
本発明によれば、ソーシャルメディアから、所定の言語で記述された情報を収集することができる。
本実施形態に係る書き込み情報収集システムのハードウェア構成図である。 本実施形態に係る書き込み情報収集システムの機能構成図である。 本実施形態に係る設定ファイルの設定内容を示す図である。 本実施形態に係る書き込み情報収集の処理フローである。
以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含むさまざまなバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
<第1の実施形態>
本発明を実施するための好適な実施の形態(以下、実施形態という)を、図1から図4を用いて、説明する。
図1は、本実施形態に係る書き込み情報収集システム10のハードウェア構成図である。図1に示すように、本実施形態に係る書き込み情報収集システム10は、制御部12、記憶部14、入出力部16、通信部18、および外部インタフェース部20を備える。制御部12、記憶部14、入出力部16、通信部18、および外部インタフェース部20は、バス22を介して互いに接続される。
制御部12は、CPU(Central Processing Unit)といったプログラム制御デバイスであって、記憶部14に記憶されているプログラムに従って動作する。
記憶部14は、ハードディスクやRAM(Random Access Memory)であって、例えば、制御部12で実行されるプログラムが記憶されている。
入出力部16は、キーボードやマウス等のユーザからの入力を受け付ける機器と、ディスプレイやプリンタ等の処理結果を出力する機器と、を備える。
通信部18は、ネットワークインタフェースカード(NIC)で構成され、ネットワークを介して受信される情報を制御部12に送信したり、制御部12から入力される命令に従って、ネットワークを介して外部に情報を送信したりする。
外部インタフェース部(外部I/F)20は、データベースサーバ等の外部の独立した装置と直接に接続するインタフェースであって、情報収集システム10は、この外部インタフェースを介して外部の独立した装置と直接にデータのやり取りを行う。
図2は、本実施形態に係る書き込み情報収集システム10の機能構成図である。図2に示すように、本実施形態に係る書き込み情報収集システム10は、読み込み部30、設定ファイル記憶部40、書き込み情報記憶部42、ログ情報記憶部44、および収集部50を備える。設定ファイル記憶部40、書き込み情報記憶部42、およびログ情報記憶部44は、記憶部14により実現される。なお、設定ファイル記憶部40は、USBメモリといった外部記憶メディアによって実現されてもよいし、書き込み情報記憶部42およびログ情報記憶部44は、データベースサーバといった独立した記憶装置により実現されてもよい。また、読み込み部30、および収集部50は、制御部12により実現される。
設定ファイル記憶部40は、ユーザにより作成された設定ファイルを格納する。設定ファイルはあらかじめ設定ファイル記憶部40に格納されていてもよいし、書き込み情報収集の処理を開始する際に、設定ファイル記憶部40に格納されてもよい。図3は、設定ファイルの設定内容を示す図である。図3に示すように、設定ファイル60は、「接続情報」62、および「収集キーワード」64を含む。
「接続情報」62は、後述する書き込み情報収集部54で収集された書き込み情報を格納する書き込み情報記憶部42を指定するために用いられる。例えば、書き込み情報記憶部42が独立したデータベースサーバである場合には、「接続情報」62には、IPアドレスが記述される。そして、「接続情報」62に記述されたIPアドレスに従って、独立したデータベースサーバである書き込み情報記憶部42に接続される。また、書き込み情報記憶部42として機能するディレクトリへのパスを記述し、格納するディレクトリを指定することもできる。
「収集キーワード」64は、後述する収集部50で、所定の言語の書き込み情報をソーシャルメディアから収集するために用いられ、文中の他の語との関係を示す単語群が記述される。単語群は、文中の他の語との関係を示す単語の文字列である。文中の他の語との関係を示す単語は文中でなければ使用されないので、文中の他の語との関係を示す単語を用いることにより、所定の言語で記述された書き込み情報をソーシャルメディアから収集することができる。
文中の他の語との関係を示す単語としては、例えば、日本語や韓国語における助詞、英語における後置詞が挙げられる。「収集キーワード」64は、後述する書き込み情報収集部54に収集させたい書き込み情報の言語に基づいて、決まり、例えば、収集する書き込み情報の言語が日本語である場合には、「収集キーワード」として、「が、に、を、は」といったひらがなの助詞が用いられる。
読み込み部30は、書き込み情報収集の処理の実行指示を受け付けると、設定ファイル記憶部40から設定ファイルを読み込む。そして、読み込み部30は、後述する書き込み情報収集部54で収集される書き込み情報を格納する場所を書き込み情報記憶部42に確保する。設定ファイルに「接続情報」62が記述されている場合には、読み込み部30は、「接続情報」62に基づいて、書き込み情報記憶部42に接続する。そして、読み込み部30は、後述する書き込み情報収集部54で収集される書き込み情報を格納する場所を、接続した書き込み情報記憶部42に確保する。
収集部50は、設定ファイルの「収集キーワード」64に基づいて、ソーシャルメディアから書き込み情報を収集し、収集した書き込み情報を後述する書き込み情報記憶部42に格納する。図2に示すように、収集部50は、単語抽出部52、書き込み情報収集部54、ページ数チェック部56、およびログ情報取得部58を備える。
ここで、ソーシャルメディアとは、上述したように、ブログ、SNS、およびTwitter等である。また、書き込み情報は、ユーザによってソーシャルメディアに書き込まれた情報であって、例えば、書き込み内容、書き込み情報の識別子である書き込み情報ID、書き込み情報を投稿したユーザの識別子であるユーザID、書き込み情報を投稿したユーザ名(Fromユーザ名)、書き込み情報の発信先ユーザのユーザ名(Toユーザ名)、書き込み日、書き込み情報を投稿したユーザのプロファイル情報、書き込み情報を投稿したユーザの利用アプリケーション、収集時間等である。
単語抽出部52は、読み込み部30で読み込まれた設定ファイルの「収集キーワード」64として記述されている単語群から単語を抽出する。具体的には、単語抽出部52は、あらかじめ設定された文字数に単語群を分割し、単語を抽出する。
書き込み情報収集部54は、単語抽出部52で抽出された単語の1つを検索キーワードとして、ソーシャルメディアの検索エンジンに送信する。そうすると、ソーシャルメディアの検索エンジンは、受信した検索キーワードを含む書き込み情報を取得し、書き込み情報収集部54に送信する。そして、書き込み情報収集部54は、ソーシャルメディアの検索エンジンから書き込み情報を収集する。書き込み情報収集部54は、単語抽出部52で抽出された全単語について、上記処理を行い、書き込み情報を収集する。
また、書き込み情報収集部54は、収集した書き込み情報のうち、重複する書き込み情報を削除する重複処理を行うこともできる。更に、書き込み情報収集部54は、複数の検索エンジンそれぞれに検索キーワードを送信し、複数の検索エンジンを並行して実行させることもできる。
ページ数チェック部56は、書き込み情報収集部54で収集された書き込み情報の数と、あらかじめ設定された収集結果一覧の1ページの表示件数と、に基づいてページ数を算出する。そして、ページ数チェック部56は、1ページの表示件数と算出されたページ数とに基づいて、収集した書き込み情報をページ毎に分ける。そして、ページ数チェック部56は、ページ数と対応付けて書き込み情報を書き込み情報記憶部42に格納する。それにより、収集された書き込み情報をページ毎に端末等の表示手段に表示することができる。
例えば、書き込み情報収集部54で収集された書き込み情報の数が450件、収集結果一覧の1ページの表示件数が150件である場合には、ページ数は、450件÷150件=3ページと算出される。そして、収集された書き込み情報450件は各ページに分配され、ページ毎に収集された書き込み情報が、書き込み情報記憶部42に格納される。
ログ情報取得部58は、ソーシャルメディアの検索エンジンからログ情報を取得し、取得したログ情報をログ情報記憶部44に格納する。ログ情報には、検索情報ログとエラーログとが含まれる。検索情報ログは、ソーシャルメディアの検索エンジンが書き込み情報を取得した際の取得結果であって、例えば、検索キーワード、取得時間、ページ数、検索完了情報等を含む。一方、エラーログは、ソーシャルメディアの検索エンジンが書き込み情報を取得する際に発生したエラーの情報であって、エラーコード、発生日時、メッセージ等を含む。このように、ソーシャルメディアの検索エンジンからログ情報を取得し、蓄積しておくことにより、取得できなかった書き込み情報を特定することができ、取得し直すことができる。
書き込み情報記憶部42は、書き込み情報収集部54において、収集された書き込み情報を記憶する。具体的には、書き込み情報記憶部42は、ページ毎に書き込み情報を格納する。
ログ情報記憶部44は、ログ情報取得部58で取得されたログ情報を格納する。なお、ログ情報記憶部44が、独立したデータベースサーバである場合には、ログ情報記憶部44への接続情報を設定ファイルに含んでもよい。
図4は、本実施形態に係る書き込み情報収集の処理フローである。
まず、ステップS1において、読み込み部30は、書き込み情報収集の処理の実行指示を受け付けると、設定ファイル記憶部40から設定ファイルを読み込む。
次に、ステップS2において、読み込み部30は、設定ファイルを読み込むと、書き込み情報記憶部42に書き込み情報収集部54で取得される書き込み情報を格納する領域を確保する。また、設定ファイルに接続情報が記述されている場合には、読み込み部30は、接続情報に基づいて、書き込み情報記憶部42に接続し、書き込み情報収集部54で取得される書き込み情報を格納する領域を、書き込み情報記憶部42に確保する。
次に、ステップS3において、単語抽出部52は、設定ファイルの「収集キーワード」として記述されている単語群から単語(以下、検索キーワード候補という。)を抽出する。
次に、ステップS4において、書き込み情報収集部54は、ステップS3において抽出された検索キーワード候補の1つを検索キーワードとして取得し、取得した検索キーワードをソーシャルメディアの検索エンジンに送信する。
次に、ステップS5において、書き込み情報収集部54は、ソーシャルメディアの検索エンジンにより検索キーワードに基づいて取得された書き込み情報を収集する。
次に、ステップ6において、検索キーワード候補から、ステップS4において検索キーワードとされた単語を削除する。
次に、ステップS7において、書き込み情報収集部54は、検索キーワード候補の数がゼロであるか否か判断する。そして、単語の数がゼロの場合には、ステップS8に処理を移し、単語の数がゼロでない場合には、ステップSS4に処理を戻す。
次に、ステップS8において、ステップS5において取得した書き込み情報を書き込み情報記憶部42に格納する。
以上説明したように、本実施形態によれば、ソーシャルメディアから、所定の言語で記述された書き込み情報を収集することができる。また、所定の言語以外の書き込み情報を収集してしまことにより、収集される所定の言語の書き込み情報は少なくなってしまうという問題点を解決することができる。
なお、書き込み情報収集システムの処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを書き込み情報収集システムを構成する各機器に読み込ませ、実行することによって本発明の書き込み情報収集システムを実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
(変形形態)
上述した実施形態において、「収集キーワード」64には文中の他の語との関係を示す単語群が記述されると説明したが、これに限らず、「収集キーワード」64に、所定の言語の書き込み情報に含まれる文において、出現頻度の高い文字群が記述されてもよい。例えば、所定の言語が日本語であるとした場合に、文字群は、書き込み情報に含まれる文において、出現頻度の高いひらがなからなる文字列である。なお、ひらがなに限らずカタカナであってもよい。あらかじめ取得した書き込み情報の文から、出現頻度の高いひらがなを抽出することによって、文字群は作成される。具体的には、まず、書き込み情報に含まれる文のひらがなのうち、出現数の多いひらがなの出現頻度を計算する。そして、計算された出現頻度によって、出現数の多いひらがなをランク付けし、上位のひらがなから文字群を作成する。また、上位のひらがなの相関関係を計算し、計算された相関関係に基づいて、文字群に含めるひらがなを決定することができる。以上、日本語を例に説明したが、本変形形態は、韓国語、英語等のその他の言語についても適用することができる。なお、本変形形態は、上述した実施形態と組み合わせて用いることもできるが、詳細な説明は省略する。
10 書き込み情報収集システム
30 読み込み部
40 設定ファイル記憶部
42 書き込み情報記憶部
44 ログ情報記憶部
50 収集部
52 単語抽出部
54 書き込み情報収集部
56 ページ数チェック部
58 ログ情報取得部

Claims (8)

  1. 複数の言語に対応するソーシャルメディアに書き込まれた書き込み情報の中から、所定の言語の書き込み情報を収集する書き込み情報収集システムであって、
    前記所定の言語の文に含まれ、文中の他の語との関係を示す単語群が設定された設定ファイルを読み込む読み込み手段と、
    前記単語群の各単語に基づいて、前記ソーシャルメディアから書き込み情報を収集する収集手段と、
    収集した書き込み情報を記憶する情報記憶手段と、
    を備えることを特徴とする書き込み情報収集システム。
  2. あらかじめ設定された、収集結果一覧1ページ当たりの書き込み情報表示数に基づいて、前記収集した書き込み情報を表示するのに必要なページ数を求めるページ数チェック手段を備え、
    前記情報記憶手段は、
    前記収集した書き込み情報をページ毎に記憶することを特徴とする請求項1に記載の書き込み情報収集システム。
  3. 前記設定ファイルは、前記情報記憶手段への接続情報を含み、
    前記読み込み手段は、
    前記接続情報に基づいて、前記情報記憶手段に接続することを特徴とする請求項1または2に記載の書き込み情報収集システム。
  4. 前記収集手段が前記ソーシャルメディアから書き込み情報を収集した際の収集結果をログ情報として記憶するログ情報記憶手段を備えることを特徴とする請求項1から3のいずれかに記載の書き込み情報収集システム。
  5. 前記所定の言語は、日本語であって、前記単語群は、助詞を含む文字列であることを特徴とする請求項1から4のいずれかに記載の書き込み情報収集システム。
  6. 複数の言語に対応するソーシャルメディアに書き込まれた書き込み情報の中から、所定の言語の書き込み情報を収集する書き込み情報収集システムであって、
    前記所定の言語の書き込み情報において出現頻度の高い文字群が設定された設定ファイルを読み込む読み込み手段と、
    前記文字群の各文字に基づいて、前記ソーシャルメディアから書き込み情報を収集する収集手段と、
    収集した書き込み情報を記憶する情報記憶手段と、
    を備えることを特徴とする書き込み情報収集システム。
  7. 複数の言語に対応するソーシャルメディアに書き込まれた書き込み情報の中から、所定の言語の書き込み情報を収集する書き込み情報収集方法であって、
    読み込み手段が、前記所定の言語の文に含まれ、文中の他の語との関係を示す単語群が設定された設定ファイルを読み込む第1のステップと、
    収集手段が、前記単語群の各単語に基づいて、前記ソーシャルメディアから書き込み情報を収集する第2のステップと、
    情報記憶手段が、収集した書き込み情報を記憶する第3のステップと、
    を含むことを特徴とする書き込み情報収集方法。
  8. 複数の言語に対応するソーシャルメディアに書き込まれた書き込み情報の中から、所定の言語の書き込み情報を収集する書き込み情報収集方法をコンピュータに実行させるためのプログラムであって、
    読み込み手段が、前記所定の言語の文に含まれ、文中の他の語との関係を示す単語群が設定された設定ファイルを読み込む第1のステップと、
    収集手段が、前記単語群の各単語に基づいて、前記ソーシャルメディアから書き込み情報を収集する第2のステップと、
    情報記憶手段が、収集した書き込み情報を記憶する第3のステップと、
    をコンピュータに実行させるためのプログラム。
JP2010170085A 2010-07-29 2010-07-29 書き込み情報収集システム、方法、およびプログラム Pending JP2012032903A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010170085A JP2012032903A (ja) 2010-07-29 2010-07-29 書き込み情報収集システム、方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010170085A JP2012032903A (ja) 2010-07-29 2010-07-29 書き込み情報収集システム、方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2012032903A true JP2012032903A (ja) 2012-02-16

Family

ID=45846263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010170085A Pending JP2012032903A (ja) 2010-07-29 2010-07-29 書き込み情報収集システム、方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2012032903A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9961038B2 (en) 2014-09-29 2018-05-01 International Business Machines Corporation Posting content to social medium
CN114827648A (zh) * 2022-04-19 2022-07-29 咪咕文化科技有限公司 动态表情包的生成方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06119374A (ja) * 1992-10-04 1994-04-28 Fuji Xerox Co Ltd 関連情報辞書登録装置及び関連情報辞書検索装置
JP2004015629A (ja) * 2002-06-10 2004-01-15 Konica Minolta Holdings Inc 画像入出力システム
JP2004185303A (ja) * 2002-12-03 2004-07-02 Mitsubishi Electric Corp Wwwサイト履歴検索装置及び方法並びにプログラム
WO2006019101A1 (ja) * 2004-08-19 2006-02-23 Nec Corporation コンテンツ関連情報取得装置、およびプログラム
JP2009043023A (ja) * 2007-08-08 2009-02-26 Ricoh Co Ltd 表示制御装置、表示制御方法、および、プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06119374A (ja) * 1992-10-04 1994-04-28 Fuji Xerox Co Ltd 関連情報辞書登録装置及び関連情報辞書検索装置
JP2004015629A (ja) * 2002-06-10 2004-01-15 Konica Minolta Holdings Inc 画像入出力システム
JP2004185303A (ja) * 2002-12-03 2004-07-02 Mitsubishi Electric Corp Wwwサイト履歴検索装置及び方法並びにプログラム
WO2006019101A1 (ja) * 2004-08-19 2006-02-23 Nec Corporation コンテンツ関連情報取得装置、およびプログラム
JP2009043023A (ja) * 2007-08-08 2009-02-26 Ricoh Co Ltd 表示制御装置、表示制御方法、および、プログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200700118012; 黒橋 禎夫: 'セマンティックコンピューティング' 人工知能学会誌 第21巻,第6号, 20061101, p.718-723, (社)人工知能学会 *
CSNG200800358010; 数原 良彦、外2名: 'ブログ記事を用いた複数話題語間の動作関係抽出手法' 電子情報通信学会論文誌 第J91-D巻,第3号, 20080301, p.619-627, 社団法人電子情報通信学会 *
JPN6013064830; 黒橋 禎夫: 'セマンティックコンピューティング' 人工知能学会誌 第21巻,第6号, 20061101, p.718-723, (社)人工知能学会 *
JPN6013064833; 数原 良彦、外2名: 'ブログ記事を用いた複数話題語間の動作関係抽出手法' 電子情報通信学会論文誌 第J91-D巻,第3号, 20080301, p.619-627, 社団法人電子情報通信学会 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9961038B2 (en) 2014-09-29 2018-05-01 International Business Machines Corporation Posting content to social medium
US9985924B2 (en) 2014-09-29 2018-05-29 International Business Machines Corporation Posting content to social medium
US10560420B2 (en) 2014-09-29 2020-02-11 International Business Machines Corporation Posting content to social medium
US10574620B2 (en) 2014-09-29 2020-02-25 International Business Machines Corporation Posting content to social medium
US10979382B2 (en) 2014-09-29 2021-04-13 Airbnb, Inc. Posting content to social medium
US10999238B2 (en) 2014-09-29 2021-05-04 Airbnb, Inc. Posting content to social medium
US11038833B2 (en) 2014-09-29 2021-06-15 Airbnb, Inc. Posting content to social medium
CN114827648A (zh) * 2022-04-19 2022-07-29 咪咕文化科技有限公司 动态表情包的生成方法、装置、设备和介质
CN114827648B (zh) * 2022-04-19 2024-03-22 咪咕文化科技有限公司 动态表情包的生成方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
KR100490734B1 (ko) 주석기반 문서 자동 생성장치 및 방법
US20110184960A1 (en) Methods and systems for content recommendation based on electronic document annotation
US20130031087A1 (en) Systems and methods for contextual personalized searching
CN106933991A (zh) 一种面向智能终端的深度分析与用户画像系统及方法
CN110362372A (zh) 页面转译方法、装置、介质及电子设备
CN104969254A (zh) 内容的个性化概要
US9407589B2 (en) System and method for following topics in an electronic textual conversation
CN104063455A (zh) 一种基于搜索获取疾病咨询信息的方法和装置
CN107368509B (zh) 通信方法、通信系统及计算机可读非暂时性存储介质
CN104346396A (zh) 一种即时通讯客户端的数据处理方法、装置、终端及系统
JP5237353B2 (ja) 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体
CN105302876A (zh) 基于正则表达式的url过滤方法
JP5103051B2 (ja) 情報処理システム及び情報処理方法
US8782078B2 (en) Systematic process for creating large numbers of relevant, contextual marginal comments based on existing discussions of quotations and links
US20180315092A1 (en) Server For Providing Internet Content and Computer-Readable Recording Medium Including Implemented Internet Content Providing Method
JP6147629B2 (ja) ページコンテンツについて注目箇所を直ぐに表示するページサイトサーバ、プログラム及び方法
JP2012032903A (ja) 書き込み情報収集システム、方法、およびプログラム
US8892596B1 (en) Identifying related documents based on links in documents
KR20100090178A (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
US20180075157A1 (en) Method and System for Converting Disparate Financial, Regulatory, and Disclosure Documents to a Linked Table
KR101066225B1 (ko) 검색 서비스 시스템 및 이를 이용한 검색 서비스 방법
JP2013069246A (ja) 話題語抽出装置、話題語抽出方法、およびプログラム
JP2019204299A (ja) 検索処理装置およびプログラム
JP2014089692A (ja) 情報提供サーバ
NL2025417B1 (en) Intelligent Content Identification and Transformation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130311

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140114

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140520