JP2008217157A - 操作履歴を利用した自動情報整理装置、方法、およびプログラム - Google Patents
操作履歴を利用した自動情報整理装置、方法、およびプログラム Download PDFInfo
- Publication number
- JP2008217157A JP2008217157A JP2007050594A JP2007050594A JP2008217157A JP 2008217157 A JP2008217157 A JP 2008217157A JP 2007050594 A JP2007050594 A JP 2007050594A JP 2007050594 A JP2007050594 A JP 2007050594A JP 2008217157 A JP2008217157 A JP 2008217157A
- Authority
- JP
- Japan
- Prior art keywords
- text
- tag
- corpus
- information
- tagged
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】各ユーザに適応した効率的な自動情報整理装置を提供する。
【解決手段】テキストの内容を代表する情報であるタグと、該テキスト中に登場する単語の登場頻度を示す該テキストを特徴づける情報とを対応付けたコーパスを保存するための保存部と、テキストと、該テキストに対する操作履歴から得られるタグとの組であるタグ付きテキストを取得するタグ取得部と、前記タグ付きテキストに基づいて前記コーパスを生成または更新するコーパス生成部と、タグが付けられていないタグなしテキストを取得するテキスト取得部と、前記コーパスに基づいてタグなしテキストに相応しいタグを判定して付与するタグ判定部とを設けた。
【選択図】図1
【解決手段】テキストの内容を代表する情報であるタグと、該テキスト中に登場する単語の登場頻度を示す該テキストを特徴づける情報とを対応付けたコーパスを保存するための保存部と、テキストと、該テキストに対する操作履歴から得られるタグとの組であるタグ付きテキストを取得するタグ取得部と、前記タグ付きテキストに基づいて前記コーパスを生成または更新するコーパス生成部と、タグが付けられていないタグなしテキストを取得するテキスト取得部と、前記コーパスに基づいてタグなしテキストに相応しいタグを判定して付与するタグ判定部とを設けた。
【選択図】図1
Description
本発明は、1台の端末、または複数の端末を含むシステムにおいて、端末のユーザによる操作(作業)の履歴を利用して、このユーザが持つ情報を自動的に整理する装置、方法、およびプログラムに関する。
閲覧したウェブサイトやメールなど、個人が取得、収集する情報(以下「個人取得情報」と呼ぶ)の量は、ネット技術の進展と共に膨大なものとなってきている。このような環境に置かれている現代人の情報処理の負荷を低減するために、個人取得情報を整理するための効率的、低コスト、かつ低負担な方法の確立が強く望まれている。特に、メールなどの個人的な内容が多く含まれているテキスト(文章)を各個人に適合したカテゴリーに分類する機能は、個人取得情報を整理された形で蓄積して各個人が使いやすい形で提示するために不可欠な機能である。
任意の文章を適切なカテゴリーに自動的に分類する文書分類技術が、機械学習技術の進歩と共に有効性が高まり、広く使われるようになってきている。従来の文書分類技術では、分類のために参照するコーパス(事例集)を、ニュース記事などの公開情報を元に生成している。
例えば、非特許文献1では、ウェブサイトの分類情報を基にコーパスを生成し、任意のテキストの分類を行っている。また、「Text Classification with CEEK.JP NEWS」(http://1abs.ceek.jp/classify/)では、ニュース記事から生成したコーパスを用いたテキストの分類をナイーブベイズ分類器によって実現している。
一方、個人取得情報を整理するための技術として、「タグ付け」による整理が近年広く利用されつつある(非特許文献2参照)。例えば「del.icio.us (http://de1.icio.us/)」や「はてなブックマーク (http://b.hatena.ne.jp/)」では、個人が閲覧したウェブサイトを整理するために、「タグ」と呼ばれる任意のキーワードを付与して個人別のデータベースに保存し、後の閲覧時の検索性を高めている。これらの技術では、個人が自分で定義するキーワード(タグ)を利用するため、個人の環境や嗜好を反映した整理が可能である。
「多重トピックテキストの確率モデル・パラメトリック混合モデル」(上田、他、電子情報通信学会論文誌 (D-II), Vol.J87-DII, No.3, March, 2004, pp.872-883) "Folksonomies - Cooperative Classification and Communication Through Shared Metadata"、[online]、[2007年1月29日検索]、インターネット<URL: http://www.adammathes.com/academic/computer-mediated-communication/folksonomies.html>
「多重トピックテキストの確率モデル・パラメトリック混合モデル」(上田、他、電子情報通信学会論文誌 (D-II), Vol.J87-DII, No.3, March, 2004, pp.872-883) "Folksonomies - Cooperative Classification and Communication Through Shared Metadata"、[online]、[2007年1月29日検索]、インターネット<URL: http://www.adammathes.com/academic/computer-mediated-communication/folksonomies.html>
ニュース記事などの公開コーパスを利用して学習した自動分類器は、一般的な文章を一般的なカテゴリーに分類するのには向いているが、メールなどに代表される属人性や環境依存性の強い文章を分類するのには向いていない。このため、既存の公開コーパスを利用する文書分類技術は、そのままでは個人取得情報の整理に適用することが困難である。
前述した困難さは、主に以下の二点の問題から成る。第一点は、公開コーパスには属人性の強いローカルな語彙があまり含まれていないために、ローカルな語彙が頻出する文書への対応が不十分になり、分類精度が低下することである。第二点は、公開コーパスにはニュース記事のジャンル(政治、経済、スポーツなど)などの一般的なカテゴリーのみが定義されているため、個人が普段接するローカルなカテゴリー(例えば、地域コミュニティ名や、小規模な単位組織の名前など)への分類は不可能であることである。
これらの課題を克服するためには、個人が日常的に接する文章に適応した語彙とカテゴリー定義を用いた、属人性の強いコーパスを生成する必要がある。しかし、一般に有効性の高いコーパスの作成および維持には人手による作業が必要であり、そのようなコーパスをユーザ毎に用意することは、コスト的な観点から現実的ではない。
一方、ソーシャルブックマーク(SBM)サービスなどで採用されているタグ付けによる個人取得情報の整理方法も、分類を人手による操作に頼っているため、大量のデータを整理するのには向かない。「はてなブックマーク」では、他のユーザが同じウェブサイトに付与したタグを共有することで、人手による分類の手間をある程度低減させているが、このような協調フィルタリング的な手法は、個人が単独で利用するシステムの場合は採用できない。
本発明の特徴は、ユーザがユーザ自身の情報を操作した際の操作履歴に基づいてコーパスを作成し、作成したコーパスを用いて未分類の情報を分類することである。すなわち、本発明におけるコーパスは、新聞記事などの一般的なコーパスではなく、個人が日常扱う情報と、その操作履歴とに基づいて作成されるコーパスである。本発明では、このようなコーパスを作成し、作成したコーパスを用いて未分類の情報を自動的に分類し、整理する。
本発明は、個人が日常的に扱うメール等のテキストが、一般的に各個人にとって整理された状態で蓄積されることに着目し、それらの情報の整理における傾向をコーパスとして利用することを特徴とする。例えば、あるフォルダにメールを保存したという操作を、このメールのテキストをあるカテゴリー(=フォルダ)に分類したものとしてとらえて、コーパスに学習させる。このような動作を繰り返して生成されるコーパスは、個人が日常的に扱う文体、語彙、カテゴリーについて学習したものとなるため、一般的な公開コーパスを用いた文書分類技術の課題であった個人収集情報への適用を可能にする。
本発明の自動情報整理装置は、テキストの内容を代表する情報であるタグと、該テキストの文書特徴量(具体的には、該テキストに登場する単語の登録頻度など)とを対応付けたコーパスを保存するための保存部と、テキストと、該テキストに対する操作履歴から得られるタグとの組であるタグ付きテキストを取得するタグ取得部と、前記タグ付きテキストに基づいて前記コーパスを生成または更新するコーパス生成部と、タグが付けられていないタグなしテキストを取得するテキスト取得部と、前記コーパスに基づいてタグなしテキストに相応しいタグを判定して付与するタグ判定部とを備えていることを特徴とする。
前記タグ取得部は、ソーシャルブックマーク登録に関する操作履歴からタグを取得し、前記テキスト取得部は、ウェブサイト閲覧履歴からテキストを取得するものであってもよい。また、前記テキスト取得部は、ウェブサイトから定期的に取得するウェブフィード(RSS)データからテキストを取得するものであっても良い。
前記タグ取得部は、メール整理に関する操作履歴からタグを取得し、前記テキスト取得部は、文書ファイル操作履歴からテキストを取得するものであってもよい。
本発明の自動情報整理方法は、テキストの内容を代表する情報であるタグと、該テキストの文書特徴量(具体的には、該テキストに登場する単語の登録頻度など)とを対応付けたコーパスを用いて情報を整理する自動情報整理方法において、テキストと、該テキストに対する操作履歴から得られるタグとの組であるタグ付きテキストを取得するタグ取得ステップと、前記タグ付きテキストに基づいて前記コーパスを生成または更新するコーパス生成ステップと、タグが付けられていないタグなしテキストを取得するテキスト取得ステップと、前記コーパスに基づいてタグなしテキストに相応しいタグを判定して付与するタグ判定ステップとを備えていることを特徴とする。
本発明の自動情報整理プログラムは、上記の自動情報整理装置としてコンピュータを機能させる。
本発明によれば、各ユーザに適応した効率的な自動情報整理装置、方法、およびプログラムが実現できる。
図1に、本発明による自動情報整理装置1の概念図を示す。自動情報整理装置1は、1台の装置であってもよいし、複数の装置によって構成されるシステムであってもよい。自動情報整理装置1は、例えばコンピュータによって構成される。自動情報整理装置1は、ユーザが操作するアプリケーションプログラム2a〜2c(以下「アプリケーション2a〜2c」等と略記する)を備えている。
アプリケーション2aおよび2bからは、タグ付きテキスト(テキスト+タグ)を取得することができるものとする。タグとは、テキストの内容を代表するラベル情報のことであり、具体的には短い単語列等によって構成される。さらに具体的には、タグは、テキストファイルを保存するフォルダのフォルダ名、テキストファイルのファイル名、タイトル等から取得される。アプリケーション2aおよび2bには、タグ付きテキストを取得するためのタグ取得プラグイン3が組み込まれている。プラグインとは、アプリケーションの機能を拡張するためのプログラムである。
一方、アプリケーション2cからは、タグ付きテキストを取得することはできず、タグが付いていないタグなしテキストしか取得することができないものとする。このため、アプリケーション2cには、タグなしテキストを取得するためのテキスト取得プラグイン4が組み込まれている。このテキスト取得プラグイン4は、例えばブラウザアプリケーションから閲覧中のウェブページに含まれるテキストを取得する。
自動情報整理装置1は、さらに、各種のデータを保存するための保存部5と、タグ付きテキストからコーパスデータを生成してコーパスを更新するコーパス生成部6と、タグなしテキストに相応しいタグを判定して付与するタグ判定部7とを備えている。保存部5は、例えばコンピュータのハードディスク等のような記憶装置によって構成される。保存部5には、アプリケーション2a〜2cが扱うデータやコーパスが保存されている。特に、アプリケーション2cが扱うデータのようにプラグインがタグを取得できないデータは、整理されないで時系列順に保存されたデータであるため、以下では「ログデータ」と呼ぶことがある。コーパス生成部6およびタグ判定部7は、例えばコンピュータのプログラムによって実現される。
タグ取得プラグイン3によって取得されたタグ付きテキストは、コーパス生成部6に送られる。コーパス生成部6は、タグ付きテキストに基づいてコーパスデータを生成する。新たに生成されたコーパスデータは、保存部5に保存されているコーパスに追加され、これによりコーパスは更新される。コーパス内には、予め設定されたタグの数だけ、テキスト対タグのコーパスデータがある。機械学習的な観点で説明すれば、コーパス生成部6は、タグ取得プラグイン3から受け取ったデータを教師データとして用いて、自動分類器のオンライン学習を実行する。
テキスト取得プラグイン4によって取得されたタグなしテキストは、タグ判定部7に送られる。タグ判定部7は、コーパスを参照して、タグなしテキストに相応しいタグを判定し、付与する。この判定は、確率的な数値を用いて行われる。すなわち、コーパス内に保存されている全てのタグについて、タグなしテキストへのタグの付与確率を計算し、一定の閾値を越えたタグについては付与すべきと判定する。このとき、タグ判定部7は、1つのテキストに対して複数のタグを付与することもある。
以上のように、タグ判定部7は、ログデータにタグを付与して整理する。すなわち、本発明の自動情報整理装置1においては、一部のアプリケーション、例えばアプリケーション2aおよび2bに対してタグ取得プラグイン3を組み込んでおけば、それ以外のアプリケーション、例えばアプリケーション2cが扱うタグなしテキストに対してもタグが自動的に付与され、全てのテキストが自動的に整理される。
まとめると、本発明の自動情報整理装置1は、まず、タグ取得プラグイン3によって取得するタグ付きテキスト(テキスト+タグ)を用いてコーパスを構築する。次に、構築したコーパスを用いて、タグなしテキスト(ログデータ)に適したタグを判定し、付与することにより、全てのテキストを自動的に整理する。
前者により、ユーザが普段接する情報を元にしたコーパスが低コストで構築できる。このため、一般的な公開コーパスを利用する従来技術で課題であった、ユーザローカルな語彙やカテゴリーへの不適応の問題が解決される。また、後者により、多くのアプリケーションから得られるテキストデータを自動的に整理することが可能となるので、人手によって整理する必要がなくなり、整理のための手間やコストの問題が解決される。その結果、ユーザが普段接するローカルな環境に適応した、効率的な自動情報整理装置が実現できる。
図2に、本発明の第1実施形態における端末101の構成を示す。端末101は、ユーザがソーシャルブックマーク(SBM)サービスにおいて入力したブックマークに関する情報をタグとして用いてコーパスを構築し、構築したコーパスを用いて、ユーザが閲覧したウェブサイトのテキスト(ウェブ閲覧履歴)を自動的に整理する。
端末101は、例えばコンピュータによって構成され、ネットワークに接続されていて、ブラウザ102を備えている。ブラウザ102には、SBMプラグイン103およびWebプラグイン104が組み込まれている。これらのプラグインは、ブラウザ102の拡張機能(例えば、Firefoxブラウザのアドオン)として実装される。ただし、これらのプラグインの別の実装方法として、ウェブアクセスのプロキシとして実装することも考えられる。この場合には、これらのプラグインは、ブラウザ102とは別の独立したプログラムとなる。
端末101は、さらに、各種のデータを保存するための保存部5と、タグ付きテキストからコーパスデータを生成してコーパスを更新するコーパス生成部6と、タグなしテキストに相応しいタグを判定して付与するタグ判定部7とを備えている。保存部5は、例えばコンピュータのハードディスク等のような記憶装置によって構成される。ユーザがブラウザ102を用いてウェブサイトを閲覧すると、閲覧履歴(サイトの内容テキスト等)が保存部5内に保存される。保存部5内にはコーパスも保存されている。コーパス生成部6およびタグ判定部7は、例えばコンピュータのプログラムによって実現される。
SBMプラグイン103は、ユーザがブラウザ102によってSBMサービスを利用した際に、タグ付きテキストを取得して、コーパス生成部6に送る。コーパス生成部6は、タグ付きテキストに基づいてコーパスデータを生成し、保存部5内に保存されているコーパスに追加して、コーパスを更新する。
Webプラグイン104は、ユーザがブラウザ102によって、SBMサービスを提供するサイト以外のウェブサイトを閲覧した際に、あるいは定期的な動作によってウェブフィード(RSS)等のデータを取得した際に、タグなしテキストを取得して、タグ判定部7に送る。タグ判定部7は、コーパスにアクセスして、タグなしテキストに相応しいタグを判定し、付与する。
なお、本実施形態では、ブラウザ102、SBMプラグイン103、Webプラグイン104、コーパス生成部6、タグ判定部7の各プログラムが全て同一の端末101上で動作するものとしたが、各プログラム間の通信を、ネットワークを介して行うことによって、各プログラムをそれぞれ別の端末上で動作させてもよい。
図3に、端末101上で動作する各プログラムの動作シーケンスを示す。ユーザがブラウザ102を用いて、SBMサービスを提供しているサイト上で新規にブックマークを登録すると、SBMプラグイン103は、この登録情報を取得する(ステップS101)。取得する情報は、ブックマーク先のサイトのURL、サイト内の全テキスト、およびSBMサービスにおいてユーザが入力したブックマーク整理のためのタグ(キーワード)である。
SBMプラグイン103は、取得したブックマーク登録情報からテキストとタグを取り出して、これらを組にしてSBMデータ(テキスト+タグ)としてコーパス生成部6に送る(S102)。
コーパス生成部6は、受け取ったSBMデータ(テキスト+タグ)に基づいてコーパスデータを生成し、生成したコーパスデータを保存部5内のコーパスに追加して、コーパスを更新する(S103)。コーパスの更新方法は、一般的なナイーブベイズ分類器(http://www.sakurai.comp.ae.keio.ac.jp/classes/infosem-class/2004/08Bayes.pdf)と同じなので、ここでは詳細には説明しない。概略としては、SBMデータ(テキスト+タグ)に含まれているテキストの内容を単語に分解した後に、各単語がテキスト中に登場する累積回数を、タグ毎に記録する。すなわち、各単語の累積登場回数についてのテーブルがタグ毎に設けられ、これらのテーブルの集合がコーパスとなる。なお、本実施形態では、ナイーブベイズ分類法をもちいてコーパスを生成し、タグなしテキストの自動整理をおこなうが、自動整理のアルゴリズムとしてはサポートベクターマシン(SVM)などの他の機械学習手法を用いることも考えられる。
一方、ユーザがSBMサービスを提供するサイト以外のウェブサイトを閲覧すると、Webプラグイン104は、ブラウザ102から、ユーザが閲覧したサイトの閲覧データ(サイトのURLと内容テキスト)を取得して(S104)、テキストをタグ判定部7に送る(S105)。
タグ判定部7は、受け取ったテキストの内容を単語に分解し、ナイーブベイズ分類に基づいて、付与すべきタグを判定する(S106)。判定されたタグは、Webプラグイン104に返送され、Webプラグイン104は、保存部5に保存されていたログデータに、返送されたタグを付け、タグ付きログデータとして保存する(S107)。
図4に、SBMプラグイン103からコーパス生成部6に送られるSBMデータ(テキスト+タグ)の内容を示す。SBMデータは、ブックマークに対応するウェブサイトの内容テキストと、同ブックマークに付けられたタグ(キーワード)とを含んでいる。テキストは一般に複数の単語を含んでおり、図中ではこれらを、word1, word2, word3, …等と記した。タグも複数付けられる場合があり、図中ではこれらを、tag1, tag2等と記した。
図5を参照して、コーパス生成部6の概略の動作を説明する。コーパス生成部6は、SBMデータ(テキスト+タグ)に含まれているテキストの内容を分かち書き技術(例えば、ChaSen, http://chasen.naist.jp/hiki/ChaSen/)を用いて単語に分解した後に、各単語がテキスト中に登場する回数を計算して、その結果をタグと対応付け、タグ毎の単語と登場回数のテーブルとしてコーパスに保存する。
図6を参照して、タグ判定部7の動作を説明する。タグ判定部7は、Webプラグイン104から、タグが付いていないウェブ閲覧ログ(「タグなしテキストA」とする)を受け取ると、コーパス内に定義されている各タグtag1, tag2, …, tagk, …へのタグなしテキストAの帰属スコアを計算する(ステップS111)。あるタグtagkへのタグなしテキストAの帰属スコアは、タグなしテキストAを登場する単語Tn(1≦n≦N)の列に分解した後、P(Tn|tagk)の総乗で計算される。P(Tn|tagk)は該タグ(=tagk)についての単語Tn出現確率であり、図5のコーパス内の該タグtagkについてのテーブルにおける単語Tnの累積登場回数を用いて容易に計算できる。ただし、単語Tnが該タグtagkについてのテーブル中に存在しない場合にはP(Tn|tagk)=1とし、帰属スコアの計算に影響を与えないようにする。計算の結果、タグtagkへのタグなしテキストAの帰属スコアが一定閾値以上の場合、あるいは、タグtagkへの帰属スコアと、各タグtag1, tag2, …, tagk, …への帰属スコアのうちの最低スコアとの比が一定閾値以上の場合には、そのタグtagkを、タグなしテキストAに付与する(S112)。付与されたタグは、Webプラグイン104に返送され、Webプラグイン104は、保存部5に保存してあったログデータに、返送されたタグを付け、タグ付きログデータとして保存する(S113)。
以上の第1実施形態によれば、ユーザは、SBMサービスを利用してブックマーク登録したサイト以外のウェブサイトについても、自動的に付与されるタグを元に、どのような種類のサイトなのかを判断し、分類整理することができる。このとき、ユーザは、日常的なSBMサービスを利用するだけでよく、追加の手間やコストをかける必要はない。
また、ウェブサイトの分類に用いられるコーパスは、一般の公開コーパスではなく、ユーザ自身が日常的に行っているSBMサービスにおける操作の履歴を用いて構築される。このため、一般的なカテゴリーへの分類だけでなく、ユーザ固有の環境に適応した細かな分類が可能となる。
図7に、本発明の第2実施形態における端末201の構成を示す。第1実施形態は、ユーザがSBMサービスを利用してウェブサイトにタグ(キーワード)を付けるという操作の履歴を用いて、タグを付けていないウェブサイトの閲覧履歴にも自動的にタグを付けて分類するものであったが、第2実施形態は、メール閲覧という操作に含まれている情報整理のための操作の履歴を用いて、メールソフト以外のアプリケーションが扱う情報も整理するものである。
端末201は、例えばコンピュータによって構成され、ネットワークに接続されていて、メールソフト202aおよび文書作成ソフト202cを備えている。メールソフト202aには、メールプラグイン203が組み込まれていて、このメールプラグイン203は、メールソフト202aからタグ付きテキストを取得する。一方、文書作成ソフト202cには、ファイル操作履歴プラグイン204が組み込まれていて、このファイル操作履歴プラグイン204は、文書作成ソフト202cからタグなしテキストを取得する。
端末201は、さらに、第1実施形態と同様に、保存部5と、コーパス生成部6と、タグ判定部7とを備えている。
図8に、端末201上で動作する各プログラムの動作シーケンスを示す。メールソフト202aがネットワークからメールを受信して、受信したメールをユーザが特定のフォルダ内に保存すると、メールプラグイン203は、このメールの内容テキストと、メールを保存したフォルダのフォルダ名との組(テキスト+フォルダ名)をメール保存データとしてコーパス生成部6に送る(ステップS201)。ここではフォルダ名がタグになる。
コーパス生成部6は、メール保存データを受け取ったら、第1実施形態と同じ方法でコーパスデータを生成して、コーパスを更新する(S202)。メール保存データは、第1実施形態におけるSBMデータと同じ形式なので、ここでの動作は第1実施形態と同じになる。
一方、文書作成ソフト202cによって文書ファイルが新規作成または更新されると、ファイル操作履歴プラグイン204は、新規作成または更新された文書ファイルの内容テキスト(タグなしテキスト)を取得してタグ判定部7に送る(S203)。ファイル操作履歴プラグイン204は、ファイルシステム上の変更を通知するOSのAPIを用いてファイルの変更を検知して、変更を検知したファイル内のテキストを、ファイルテキスト化プログラム(wvWare, http://wvware.sourceforge.net/など)を用いて取得し、タグ判定部7に送る。
タグ判定部7は、第1実施形態と同じ方法で、受け取ったテキストに相応しいタグを判定して(S204)ファイル操作履歴プラグイン204に返送する。ファイル操作履歴プラグイン204は、前記の新規作成または更新された文書ファイルにタグを付けて保存部5に保存する(S205)。
図9に、メールプラグイン203からコーパス生成部6に送られるメール保存データ(テキスト+タグ)の内容を示す。メール保存データは、メールの内容テキストと、このテキストに対応するタグとを含んでいる。このタグは、メールを保存したフォルダのフォルダ名である。
以上の第2実施形態によれば、ユーザが日常扱うメールの文体・語彙とカテゴリーに適応したコーパスが構築され、このコーパスによって、メールソフト以外のアプリケーションが扱うテキストも自動的に整理される。ユーザは、普段のメール閲覧の操作を行うだけで、全ての文書ファイルに自動的にタグを付与して整理することができる。すなわち、文書ファイルに対して明示的な整理のための操作を加える必要はなく、追加の手間やコストは必要ない。
なお、第2実施形態でも、メールソフト202a、文書作成ソフト202c、メールプラグイン203、ファイル操作履歴プラグイン204、コーパス生成部6、タグ判定部7の各プログラムが全て同一の端末201上で動作するものとしたが、各プログラム間の通信を、ネットワークを介して行うことによって、各プログラムをそれぞれ別の端末上で動作させてもよい。
なお、上記の各実施形態において、コーパス生成部6にタグ付きテキストのデータを送るプラグインは、1つである必要はない。例えば1つの端末の中に、SBMプラグイン103とメールプラグイン203とが同時に存在していても構わない。
本発明による装置は、コンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。
1 自動情報整理装置
2a〜2c アプリケーション
3 タグ取得プラグイン
4 テキスト取得プラグイン
5 保存部
6 コーパス生成部
7 タグ判定部
2a〜2c アプリケーション
3 タグ取得プラグイン
4 テキスト取得プラグイン
5 保存部
6 コーパス生成部
7 タグ判定部
Claims (5)
- テキストの内容を代表する情報であるタグと、該テキスト中に登場する単語の登場頻度を示す該テキストを特徴づける情報とを対応付けたコーパスを保存するための保存部と、
テキストと、該テキストに対する操作履歴から得られるタグとの組であるタグ付きテキストを取得するタグ取得部と、
前記タグ付きテキストに基づいて前記コーパスを生成または更新するコーパス生成部と、
タグが付けられていないタグなしテキストを取得するテキスト取得部と、
前記コーパスに基づいてタグなしテキストに相応しいタグを判定して付与するタグ判定部と
を備えていることを特徴とする自動情報整理装置。 - 前記タグ取得部は、ソーシャルブックマーク登録に関する操作履歴からタグを取得し、
前記テキスト取得部は、ウェブサイト閲覧履歴からテキストを取得する
ことを特徴とする請求項1に記載の自動情報整理装置。 - 前記タグ取得部は、メール整理に関する操作履歴からタグを取得し、
前記テキスト取得部は、文書ファイル操作履歴からテキストを取得する
ことを特徴とする請求項1に記載の自動情報整理装置。 - テキストの内容を代表する情報であるタグと、該テキスト中に登場する単語の登場頻度を示す該テキストを特徴づける情報とを対応付けたコーパスを用いて情報を整理する自動情報整理方法において、
テキストと、該テキストに対する操作履歴から得られるタグとの組であるタグ付きテキストを取得するタグ取得ステップと、
前記タグ付きテキストに基づいて前記コーパスを生成または更新するコーパス生成ステップと、
タグが付けられていないタグなしテキストを取得するテキスト取得ステップと、
前記コーパスに基づいてタグなしテキストに相応しいタグを判定して付与するタグ判定ステップと
を備えていることを特徴とする自動情報整理方法。 - 請求項1から3に記載の自動情報整理装置としてコンピュータを機能させるための自動情報整理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007050594A JP2008217157A (ja) | 2007-02-28 | 2007-02-28 | 操作履歴を利用した自動情報整理装置、方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007050594A JP2008217157A (ja) | 2007-02-28 | 2007-02-28 | 操作履歴を利用した自動情報整理装置、方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008217157A true JP2008217157A (ja) | 2008-09-18 |
Family
ID=39837161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007050594A Pending JP2008217157A (ja) | 2007-02-28 | 2007-02-28 | 操作履歴を利用した自動情報整理装置、方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008217157A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011221978A (ja) * | 2010-04-14 | 2011-11-04 | Shijin Kogyo Sakushinkai | 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体 |
JP2011248762A (ja) * | 2010-05-28 | 2011-12-08 | Ntt Docomo Inc | 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム |
JP2012042998A (ja) * | 2010-08-12 | 2012-03-01 | Nec Biglobe Ltd | 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム |
JP2013050853A (ja) * | 2011-08-31 | 2013-03-14 | Fuji Xerox Co Ltd | 含意関係判定装置及びプログラム |
WO2015016133A1 (ja) * | 2013-07-30 | 2015-02-05 | 日本電信電話株式会社 | 情報管理装置及び情報管理方法 |
WO2016016974A1 (ja) * | 2014-07-30 | 2016-02-04 | 株式会社Ubic | データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム |
JP2017187823A (ja) * | 2016-04-01 | 2017-10-12 | 前田建設工業株式会社 | 文言追記装置、文言追記方法及び文言追記プログラム |
-
2007
- 2007-02-28 JP JP2007050594A patent/JP2008217157A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011221978A (ja) * | 2010-04-14 | 2011-11-04 | Shijin Kogyo Sakushinkai | 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体 |
JP2011248762A (ja) * | 2010-05-28 | 2011-12-08 | Ntt Docomo Inc | 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム |
JP2012042998A (ja) * | 2010-08-12 | 2012-03-01 | Nec Biglobe Ltd | 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム |
JP2013050853A (ja) * | 2011-08-31 | 2013-03-14 | Fuji Xerox Co Ltd | 含意関係判定装置及びプログラム |
WO2015016133A1 (ja) * | 2013-07-30 | 2015-02-05 | 日本電信電話株式会社 | 情報管理装置及び情報管理方法 |
JPWO2015016133A1 (ja) * | 2013-07-30 | 2017-03-02 | 日本電信電話株式会社 | 情報管理装置及び情報管理方法 |
WO2016016974A1 (ja) * | 2014-07-30 | 2016-02-04 | 株式会社Ubic | データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム |
JP2017187823A (ja) * | 2016-04-01 | 2017-10-12 | 前田建設工業株式会社 | 文言追記装置、文言追記方法及び文言追記プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9864808B2 (en) | Knowledge-based entity detection and disambiguation | |
JP6110389B2 (ja) | 電子文書の内容を自動的に要約するための方法、有形のコンピュータ可読媒体及びシステム | |
CN109614504B (zh) | 一种互联网电子书的管理系统及方法 | |
US8914368B2 (en) | Augmented and cross-service tagging | |
US8051080B2 (en) | Contextual ranking of keywords using click data | |
US8874590B2 (en) | Apparatus and method for supporting keyword input | |
US20110078140A1 (en) | Method and system for user guided search navigation | |
US20110264651A1 (en) | Large scale entity-specific resource classification | |
Dumani et al. | A framework for argument retrieval: Ranking argument clusters by frequency and specificity | |
US20060179039A1 (en) | Method and system for performing secondary search actions based on primary search result attributes | |
CN101404017A (zh) | 智能排序的搜索结果 | |
US9971828B2 (en) | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries | |
EP2307951A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
CN110232126B (zh) | 热点挖掘方法及服务器和计算机可读存储介质 | |
Elliott | Survey of author name disambiguation: 2004 to 2010 | |
JP2008217157A (ja) | 操作履歴を利用した自動情報整理装置、方法、およびプログラム | |
US20120179709A1 (en) | Apparatus, method and program product for searching document | |
US20120239657A1 (en) | Category classification processing device and method | |
JP2010257453A (ja) | サーチクエリデータを用いて文書にタグ付けするシステム | |
JP4430598B2 (ja) | 情報共有システムおよび情報共有方法 | |
CN110674087A (zh) | 文件查询方法、装置及计算机可读存储介质 | |
TW201415254A (zh) | 語意標註建議方法及其系統 | |
KR100671077B1 (ko) | 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템 | |
JP5430960B2 (ja) | コンテンツ分類装置、方法及びプログラム | |
CN116186198A (zh) | 信息检索方法、装置、计算机设备及存储介质 |