JP5324500B2 - ファイル共有装置 - Google Patents

ファイル共有装置 Download PDF

Info

Publication number
JP5324500B2
JP5324500B2 JP2010049811A JP2010049811A JP5324500B2 JP 5324500 B2 JP5324500 B2 JP 5324500B2 JP 2010049811 A JP2010049811 A JP 2010049811A JP 2010049811 A JP2010049811 A JP 2010049811A JP 5324500 B2 JP5324500 B2 JP 5324500B2
Authority
JP
Japan
Prior art keywords
file
attached
expression
meta information
mail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010049811A
Other languages
English (en)
Other versions
JP2011186666A (ja
Inventor
康嗣 森本
敦子 小泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010049811A priority Critical patent/JP5324500B2/ja
Publication of JP2011186666A publication Critical patent/JP2011186666A/ja
Application granted granted Critical
Publication of JP5324500B2 publication Critical patent/JP5324500B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Description

本発明は、ファイルのメタ情報を用いてファイル共有を支援する技術に関し、特にメールやインスタントメッセージなどの電子的コミュニケーション手段によってやり取りされるテキスト情報からファイルのメタ情報を抽出する技術に関する。
パソコン及びインターネットの普及によって、ユーザがアクセス可能な電子化文書の量が増大している。このような大規模な文書情報の中から、所望の文書を効率的に発見するための技術の一つに全文検索技術に代表される文書検索技術がある。文書検索技術によれば、入力されたキーワードを含む文書を発見することで、ユーザが所望の文書を効率的に入手することができる。しかしながら、キーワードの照合のような単純な文字列検索だけでは不十分な場合も多い。
例えば、コールセンタ等においては、全ての問い合わせの中から、「クレーム」だけ、あるいは「質問」だけを抽出して内容を確認したいといったニーズが存在する。このようなニーズに対しては、全文検索技術によって対応することが困難である。このようなニーズに対しては、「質問」、「クレーム」、「謝罪」などの問い合わせのタイプを考え、メールのタイプを示すメタデータを付与しておくことが考えられるが、タイプ分けのコストが大きい。特許文献1には、メールを自動的にタイプ分けすることによってタイプ分けのコストを低減する技術が開示されている。また、関係を持つ文書間の関係を辿ることも、キーワード検索では見つからない文書を発見するための有効な方法である。特許文献2には、情報共有システムに文書を登録する際、文書中の添付ファイルの存在を示唆する表現を利用して、参照している文書の添付忘れを防止するための技術が開示されている。
特開2009−48338号公報 特開2009−70256号公報
特許文献1では、文書のタイプを特定するために文書内の情報のみを用いているが、文書内に明示的に現れない表現も多い。例えば、近年、企業におけるコンプライアンスが重要視されており、社外秘など機密性が高いファイルのみを発見したいというニーズが存在する。機密性の高さ(以下、機密度)は、内容以外の要素も含めて決定されるものであり、内容だけに基づいて発見することは難しい。例えば、特許出願済みで未公開の発明は、公開日までは機密情報であるが、公開日以降は機密情報ではない。すなわち、内容だけからは機密情報であるかどうかを判断することはできない。機密度以外の例として、エピソード的な記憶によって情報を検索したいという状況が存在する。例えば、「2月頃に顧客Aへの提案に用いた」ファイルを参照したい、「何度も手直しした提案資料の最終版の」ファイルを参照したいといった状況が想定できるが、文書の中身から文書が使用された状況等を抽出することは不可能である。
一方、特許文献2では、文書間の関係を辿ることでファイル共有を支援する際に、添付ファイルの添付漏れが課題となると述べられている。しかしながら、文書間の関係を辿るだけでは所望の文書を効率的に発見することは難しい。これは、インターネットにおいて初期の頃は、ネットサーフィン、すなわちリンクを辿って関係のありそうな文書を見つけていたのに対し、現在ではWeb検索が中心であることからも明らかである。
本発明の目的は、文書の中に明示的に表現されていないファイルのメタ情報による検索を可能とすることで、ファイル共有を効率化することである。
本発明の代表的な形態は、プロセッサ、メモリ及びインタフェースを備える計算機システムによって実現されるファイル共有装置であって、電子メールのデータを入力するメール入力手段と、メール入力手段によって入力された複数の電子メールを読み込み、ファイルが添付されている電子メールの本文に統計的に多く出現する表現を抽出する手段と、抽出した表現を添付ファイル言及表現リストとして保持する手段と、ファイルが添付されている電子メールの本文から添付ファイル言及表現の位置を同定し、その位置の近傍に出現する表現を添付ファイル属性表現として抽出する手段と、個々の電子メールから抽出された添付ファイル属性表現をファイル毎に集約し、ファイル名と添付ファイル属性表現を関連づけした添付ファイルメタ情報リストとして保持する手段と、添付ファイルメタ情報をファイル名あるいは添付ファイル属性表現を検索キーとして前記添付ファイルメタ情報リストを検索する検索手段と、を備える。
抽出した添付ファイル属性表現を、ファイルとは独立に集約し、出現頻度に基づいて典型的添付ファイル属性表現を抽出する手段を備えてもよい。
本発明のファイル共有装置は、その一態様として、検索手段の検索キーとしてファイル属性表現を入力する入力部を有し、当該入力部は典型的添付ファイル属性表現を入力候補として表示する表示手段及び表示手段に表示された入力候補を検索キーとして選択する手段を備え、検索手段は、入力手段から検索キーとして入力された添付ファイル属性表現に関連付けされたファイル名を添付ファイルメタ情報リストから検索し出力する。
本発明のファイル共有装置は、その一態様として、検索手段の検索キーとしてファイル名を入力する入力部を有し、検索手段は、入力部から検索キーとして入力されたファイル名と関連づけされた添付ファイル属性表現を添付ファイルメタ情報リストから検索し出力する。
本発明のファイル共有装置は、その一態様として、検索手段はメール入力手段から入力された新着電子メールに添付されたファイル名を検索キーとして添付ファイルメタ情報リストを検索し、当該ファイル名に関連づけされたファイル属性表現により当該ファイルが機密扱いであると判定されたときは警告を出し、当該電子メールの送信を一時停止する。
本発明の代表的な形態によれば、ファイル内に明示的に表現されていない総称的な情報によって検索を行うことが可能となり、利便性が向上する。例えば、文書の機密度を自動抽出することによって、機密文書が漏洩することを防止したり、エピソード的な記憶によって情報を検索したりすることが可能となる。
本発明の実施の形態の計算機システムの構成例のブロック図である。 本発明の処理の流れを示す図である。 本発明のファイル共有装置の処理を説明するための図である。 メタ情報抽出規則学習処理のフローチャートである。 本発明のファイル共有装置の主メモリに一時的に記憶される形態素解析結果の説明図である。 本発明のファイル共有装置の主メモリに一時的に記憶される一時出現表現リストの説明図である。 本発明のファイル共有装置のディスク装置に記憶される添付ファイル言及表現リストの説明図である。 本発明の実施の形態のファイル共有装置においてディスク装置に記憶される添付ファイル属性表現リストの説明図である。 メタ情報抽出規則適用処理のフローチャートである。 本発明のファイル共有装置のディスク装置に記憶される添付ファイルメタ情報リストの説明図である。 メタ情報検索処理のフローチャートである。 メタ情報検索の入出力画面の説明図である。 ファイル検索処理のフローチャートである。 ファイル検索の入出力画面の説明図である。 メールサーバと連携したファイル検索処理のフローチャートである。
以下、本発明の実施の形態を、図面を参照して説明する。
図1は、本発明の実施の形態の計算機システムの構成例を示すブロック図である。
ファイル共有装置100は、CPU101、主メモリ102、入出力装置103、ネットワーク装置104及びディスク装置110を備える。CPU101は、主メモリ102に記憶されているプログラムを実行することによって各種処理を行う。具体的には、CPU101は、ディスク装置110に記憶されるプログラムを、主メモリ102上に呼び出して実行する。主メモリ102は、CPU101によって実行されるプログラム及びCPU101によって必要とされる情報等を一時的に記憶する。入出力装置103には、ユーザから情報が入力される。また、入出力装置103は、CPU101の指示に応じて、情報を出力する。例えば、入出力装置103は、キーボード、マウス及びディスプレイのうち少なくとも一つを含む。ネットワーク装置104は、クライアント装置からの要求を受け付け、クライアント装置への出力を送信する。クライアント装置105は、ネットワーク装置104を介して、ファイル共有装置と接続される。
ディスク装置110は、各種情報を記憶する。具体的には、OS111、メールサーバプログラム112、メタ情報抽出プログラム113、メタ情報検索プログラム114、新着メール格納領域115、添付ファイル言及表現リスト116、添付ファイル属性表現リスト117、添付ファイルメタ情報リスト118を記憶する。
OS111は、当該ファイル共有装置100の処理の全体を制御する。メールサーバプログラム112は、電子メール(以下、単にメールという)の受配信を行うプログラムであり、電子メールのデータを入力するメール入力手段に相当する。メタ情報抽出プログラム113は、新着メール格納領域115に格納されるメールから添付ファイルのメタ情報を抽出するプログラムであり、メタ情報抽出規則学習サブプログラム1131、メタ情報抽出規則適用サブプログラム1132からなる。メタ情報検索プログラム114は、メタ情報抽出プログラム113が抽出した添付ファイルメタ情報リスト118を対象にして検索を行うプログラムであり、メタ情報検索サブプログラム1141、ファイル検索サブプログラム1142からなる。
新着メール格納領域115は、メールサーバプログラム112が受信したメールを一時的に格納するための領域である。添付ファイル言及表現リスト116は、添付ファイルをメールに添付したことに関して、メール本文中で言及している表現を格納するリストである。添付ファイル属性表現リスト117は、添付ファイルの属性に関してメール本文中に記載する表現を格納するリストである。添付ファイルメタ情報リスト118は、ファイルとメール本文から抽出されたメタ情報を対応付けて格納するリストである。
処理の流れは、図2に示すようになる。メタ情報抽出プログラムの実行が指示されると、ディスク装置110上のメタ情報抽出プログラム113が主メモリ102にロードされ、実行される。メタ情報抽出プログラム113は、メタ情報抽出規則学習サブプログラム1131を呼び出し、メタ情報抽出規則学習サブプログラム1131がディスク装置110から主メモリ102にロードされ実行される。メタ情報抽出規則学習サブプログラム1131は、新着メールを主メモリ102にロードし、各種の処理を行った後、添付ファイル言及表現リスト116、添付ファイル属性表現リスト117を出力する。次に、メタ情報抽出プログラム113は、メタ情報抽出規則適用サブプログラム1132を呼び出す。メタ情報抽出規則適用サブプログラム1132がディスク装置110から主メモリ102にロードされ実行される。メタ情報抽出規則適用サブプログラム1132は、主メモリ102上に保持されている新着メール、添付ファイル言及表現リスト116、添付ファイル属性表現リスト117を用いて各種の処理を行った後、添付ファイルメタ情報リスト118を出力する。
また、クライアント装置105からキーワードと共にファイル共有装置100にメタ情報検索プログラムの実行が指示されると、ディスク装置110上のメタ情報検索プログラム114が主メモリ102にロードされ、実行される。メタ情報検索プログラム114は、メタ情報検索サブプログラム1141を呼び出し、メタ情報検索サブプログラム1141がディスク装置110から主メモリ102にロードされ実行される。メタ情報検索サブプログラム1141は、添付ファイルメタ情報リスト118を主メモリ102にロードし、メタ情報として希望のキーワードを含むファイルを検索し、ヒットしたファイル名を検索結果としてクライアントに出力する。クライアントから入力された希望のファイル名、あるいは新着メールがある場合には新着メールに添付されているファイルがあればそのファイル名を取得し、添付ファイルメタ情報リスト118を主メモリにロードし、ファイル名を探索して得られた結果をクライアントに出力する。
以下では、図3に示す例を用いて本発明の基本的な考え方を説明する。図3は、ファイルが添付されているメールの例である。通常、ファイルが添付されたメールの中には、添付ファイルに関する記載が含まれていることが多い。図3の例では、下線部が添付ファイルに関する記載内容であり、「先方から要求があったこと」、「顧客提案資料であること」、「社外秘情報が含まれており、取り扱いに注意する必要があること」、などが分かる。このような添付ファイルに関する、メール中の記載内容をファイルのメタ情報として抽出することにより、添付ファイルの中身を解析することでは得られないメタ情報を抽出することが可能となる。
ここで課題となるのは、メール本文中の記載が、添付ファイルに関する記載であるのか、そうでないのかを判定することである。メールにファイルが添付されているかどうかは、メールのフォーマットを解析すれば自動的に判定できる。そのため、通常の方法として考えられるのは、フォーマット解析で得られた添付ファイルの有無に関する情報とメールのテキストに対して、機械学習、特徴語抽出などの技術を適用することにより、添付ファイルの内容を特徴付ける単語や表現を抽出することである。しかしながら、実際にはこのような方法では所望の情報を抽出することができない。本発明では、添付ファイル付きメールの特徴に着目することで、この課題を解決する。
メール中での添付ファイルに関する記載は、詳細に分析すると以下の2タイプに分類することができる。第1のタイプは、添付ファイルがメールに添付されていることそのものを記載するものであり、「〜を添付します」のような表現である。以下では、添付ファイル言及表現と呼ぶことにする。図3の例では、下線部ゴシック体太字の部分である。第2のタイプは、添付ファイルの内容等の属性を示す表現である。以下では、添付ファイル属性表現と呼ぶことにする。図3の例では、下線部明朝体イタリックの部分である。上で述べた通常の方法では、添付ファイル言及表現は比較的精度良く抽出できるものの、添付ファイル属性表現の抽出精度は低い。一方、ファイルのメタ情報としては、添付ファイル属性表現に価値がある。そのため、添付ファイル属性表現を高精度に抽出する方法を実現する必要がある。
添付ファイル属性表現の抽出精度が低い原因を分析すると、添付ファイルの属性には様々なものがあるため、添付ファイル属性表現にはバリエーションが多く、学習が困難である。また、添付ファイルに関する記載以外の部分でも同様の表現が使用される可能性があり、添付ファイル属性表現になり易い表現のみを手掛かりにファイルのメタ情報を抽出すると精度が低下する。例えば、図3の例では、「慎重な取り扱いが必要」(下線なしゴシック体太字の部分)との記載があるが、これは添付ファイルに関する記載ではないため、この部分をファイルのメタ情報として抽出するのは誤りである。
一方、添付ファイル言及表現は比較的バリエーションが少なく、学習も容易である。そこで、本発明では、添付ファイル言及表現に着目して、メール本文中で添付ファイルに関する記載部分であることを同定した後、その近傍に出現する添付ファイル属性表現を、ファイルのメタ情報として抽出することで目的を達成する。
図4は、本発明の実施の形態のファイル共有装置100のメタ情報抽出規則学習サブプログラム1131によって実行されるメタ情報抽出規則学習処理のフローチャートである。
ステップ10では、全てのメールの処理を終了したかどうか判定する。終了していたらステップ14に進む。終了していないメールが存在すればステップ11に進む。ステップ11では、i番目のメールについて、形態素解析を行い、メール中に出現する表現の一時出現表現リストを作成する。
形態素解析結果の例を図5に示す。形態素解析結果から、一時出現表現リストを作成するには、単語、単語N−グラム(N=1,2,3,・・・)を抽出し、それぞれの頻度をカウントする。図6に一時出現表現リストの例を示す。図6の例では、Nが3の場合を示している。また、「に」のような助詞、助動詞、「、」のような句点等から始まるN−グラムは抽出しないことで必要な計算機資源を節約している。図6の場合、例えば、「取り扱い」に着目し、単語である「取り扱い」および「取り扱い」から始まる2−グラムとして「取り扱いに」、3−グラムとして「取り扱いに注意」などを抽出する。これを着目する単語を移動させながら繰り返し、頻度をカウントする。Nについては、使用できるメモリ・ディスク容量と精度とのバランスで適宜決定する。
次に、ステップ12に進み、i番目のメールが添付ファイルを持つかどうか判定する。添付ファイルの有無については、IETF(Internet Engineering Task Force)で策定されたMIME(Multipurpose Internet Mail Extensions)などのメールフォーマットに準拠して明示的に示されており、機械的に自動認識できるため説明を省略する。添付ファイルを持つ場合はステップ13に進み、持たない場合にはステップ10に戻る。ステップ13では、ステップ11で作成した一時出現表現リストを添付ファイル言及表現リストにマージする。
添付ファイル言及表現リストの例を図7に示す。見出し欄には、今までに処理したメールに含まれた表現(単語、N−グラム等)が格納され、各表現の頻度が、添付ファイルありのメールに出現した場合と、添付ファイルなしのメールに出現した場合に分けて、格納されている。この頻度が添付ファイルありの場合に偏っている単語が、添付ファイル言及表現の候補となる。フラグは、最終的に添付ファイル言及表現であるかどうかの判定結果を示す。
一時出現表現リスト中の表現が添付ファイル言及表現リストに既に含まれている場合は、ステップ12での判定結果に基づいて、出現頻度のいずれかを1増加させる。含まれていない場合は、新たな見出しを追加し、ステップ12での判定結果に基づいて、頻度の初期値として1を設定する。
ステップ14では、添付ファイル言及表現リスト中の添付あり頻度と添付なし頻度を比較し、添付あり頻度が高い、すなわち添付ファイル付きメールに有意に多く出現する単語を添付ファイル言及表現と判定し、フラグ欄に1を格納する。判定は、予め定められた閾値にしたがい、例えば全体の70%以上の場合にフラグを1にするといったように処理する。また、頻度が少ない場合には、有意な判定ができない場合もあるため、全体の頻度に基づいた判定を同時に行うなどしても良い。
次に、ステップ15に進み、全てのメールの処理を終了したかどうか判定する。終了していたらステップ19に進む。終了していないメールが存在すればステップ16に進む。
ステップ16では、i番目のメールの形態素解析結果と添付ファイル言及表現リストを照合し、添付ファイル言及表現が出現する箇所を同定する。N−グラムを照合する際には、形態素解析結果からN−グラムを一時的に作成して、文字列照合すれば良い。次にステップ17に進み、同定された添付ファイル言及表現の「近傍」の表現を添付ファイル属性表現候補として抽出する。「近傍」の定義としては、例えば、同定された添付ファイル言及表現から予め定められた単語数以内の距離に出現した表現、すなわち単語とN−グラムを抽出すれば良い。添付ファイル属性表現候補リストの形式は、一時出現表現リストと同様である。
次に、ステップ18に進み、添付ファイル属性表現候補リストを添付ファイル属性表現リストにマージする。添付ファイル属性表現リストの例を図8に示す。添付ファイル属性表現リストは、見出し語の文字列と出現した頻度、フラグからなる。ステップ19では、添付ファイル属性表現リストの頻度が多い順に一定の個数の行を、典型的添付ファイル属性表現として抽出し、フラグを1に設定する。
以上の処理によって、メール本文から添付ファイルに関する記述を抽出するための、添付ファイル言及表現、添付ファイル属性表現を抽出することができる。
図9は、本発明の実施の形態のファイル共有装置100のメタ情報抽出規則適用サブプログラム1132によって実行されるメタ情報抽出実行処理のフローチャートである。
ステップ20において、全てのメールの処理を終了したかどうか判定する。終了していたら全体の処理を終了する。終了していないメールが存在すればステップ21に進む。ステップ21では、i番目のメールが添付ファイルを持つかどうか判定する。持つ場合は、ステップ22に進み、持たない場合はステップ20に戻る。ステップ22では、i番目のメールの形態素解析結果と添付ファイル言及表現リストを照合し、添付ファイル言及表現を同定する。ステップ23に進み、同定された位置の近傍の表現を添付ファイルメタ情報候補として抽出する。次に、ステップ24に進み、抽出した添付ファイルメタ情報候補を添付ファイルメタ情報リストに格納する。
添付ファイルメタ情報リストの例を図10に示す。添付ファイルメタ情報リストは、ファイルを一意に決定するためのID情報と当該ファイルのメタ情報からなる。ID情報は、ファイルを一意に決定できる情報であれば何でも良いが、本実施例ではファイル名とファイルの作成日時の組を用いる。メタ情報としては、キーワードの他に、メールのヘッダから得られる情報として例えば、メールの送付者を用いることができる。これ以外にも、メールの主題の文字列やメールの送信日時等のメールのヘッダ情報を用いることもできる。
図11は、本発明の実施の形態のファイル共有装置のメタ情報検索サブプログラム1141によって実行されるメタ情報検索処理のフローチャートである。
ステップ30において、ユーザ入力待ち画面を生成する。図12に、メタ情報検索入出力画面1031の例を示す。図12の例では、左上のキーワード入力領域10311に自由にキーワードを入力して検索を行うことができる。また、右上には典型的なキーワード例を示すキーワード選択領域10312が表示されており、希望のキーワードをチェックすることで検索キーワードとして使用することができる。右上の典型的なキーワード例は、添付ファイル属性表現リストを使用して表示する。例えば、フラグが1である単語を表示するが、その際、頻度を用いて適宜閾値を設けても良い。
図11に戻り、ステップ31において、ユーザからの検索指示があるかどうか調べる。検索指示があればステップ32に進み、指示がなければステップ31の処理を繰り返す。ステップ32では、ユーザのキーワード入力を受け付け、入力されたキーワードを同定する。図12の画面のキーワード入力領域10311に入力されたキーワード、及びキーワード選択領域10312で選択されたキーワードを抽出する。次に、ステップ33に進み、添付ファイルメタ情報リスト118のキーワード欄を参照し、ユーザが入力したキーワードが含まれているかどうかを調べ、ヒットしたファイル名を検索結果として表示する。
図13は、本発明の実施の形態のファイル共有装置100のファイル検索サブプログラム1142によって実行されるファイル検索処理のフローチャートである。
ステップ40において、ユーザ入力待ち画面を生成する。図14に、ファイル検索入出力画面1032の例を示す。図14の例では、左上のキーワード入力領域10321に自由にファイル名を入力して検索を行うことができる。
次に、ステップ41に進み、ユーザからの検索指示があるかどうか調べる。検索指示があればステップ42に進み、指示がなければステップ41の処理を繰り返す。ステップ42では、ユーザのファイル名入力を受け付け、入力されたファイル名を同定する。次に、ステップ43に進み、添付ファイルメタ情報リスト118のファイル名欄を参照し、ユーザが入力したファイル名と合致するかどうかを調べ、ヒットしたファイルの作成時間、メタ情報を検索結果として表示する。これにより、自分が所有しているファイルのメタ情報(社外秘であるかどうか、どのように使われたファイルか、等の情報)を取得することができる。検索結果は、図14のように画面出力される。図14の例では、ファイル名、メタ情報(キーワード)と共に、そのファイルの送付者の情報も画面表示している。
ファイル検索装置は、図13に示したような形態だけではなく、例えば、メールサーバプログラムと連動するような形態のアプリケーションとして実現することもできる。この場合には、予め定められたタイプのファイルを検出し、ユーザに警告を出すような使い方が想定される。例えば、メールに添付されたファイルが機密情報である場合には、ユーザに警告を出し、メールの送信を一時停止することが可能になる。
このような処理を実現するためには、特定のタイプ、例えば機密情報である添付ファイルを含むメールのみを予め準備し、これらのメールに対して図4の処理を行い、更に図9の処理を行う。その結果、得られた添付ファイルメタ情報リストには、機密情報であることを示すメタ情報のみが含まれている。
図15は、本発明の実施の形態のファイル共有装置100におけるメールサーバと連携したファイル検索処理のフローチャートである。
ステップ50において、全ての新着メールを処理したか調べる。処理していなければステップ51に進み、処理済みであれば全体の処理を終了する。ステップ51では、添付ファイルの有無を調べる。添付ファイルがあればステップ52に進み、添付ファイルがなければステップ50に戻る。ステップ52では、メールを解析し、添付ファイルを取得する。次に、ステップ53に進み、取得した添付ファイルについてファイル検索を実行する。添付ファイルメタ情報リストを探索し、ID情報が一致するファイルを発見したら、メタ情報欄を参照し、メタ情報が格納されていれば、機密情報であると判定する。また、属性欄にはファイルのタイプ、例えば「機密」などの属性を格納する。
100 ファイル共有装置
101 CPU
102 主メモリ
103 入出力装置
110 ディスク装置
111 OS
112 メールサーバプログラム
113 メタ情報抽出プログラム
1131 メタ情報抽出規則学習サブプログラム
1132 メタ情報抽出規則適用サブプログラム
114 メタ情報検索プログラム
1141 メタ情報検索サブプログラム
1142 ファイル検索サブプログラム
115 新着メール格納領域
116 添付ファイル言及表現リスト
117 添付ファイル属性表現リスト
118 添付ファイルメタ情報リスト

Claims (5)

  1. プロセッサ、メモリ及びインタフェースを備える計算機システムによって実現されるファイル共有装置であって、
    電子メールのデータを入力するメール入力手段と、
    前記メール入力手段によって入力された複数の電子メールを読み込み、ファイルが添付されている電子メールの本文に統計的に多く出現する表現を抽出する手段と、
    前記抽出した表現を添付ファイル言及表現リストとして保持する手段と、
    前記添付ファイル言及表現リストの記述にしたがって、ファイルが添付されている電子メールの本文から添付ファイル言及表現の位置を同定し、その位置の近傍に出現する表現を添付ファイル属性表現として抽出する手段と、
    個々の電子メールから抽出された前記添付ファイル属性表現をファイル毎に集約し、ファイル名と添付ファイル属性表現を関連づけした添付ファイルメタ情報リストとして保持する手段と、
    前記ファイル名あるいは前記添付ファイル属性表現を検索キーとして前記添付ファイルメタ情報リストを検索する検索手段と、
    を備えることを特徴とするファイル共有装置。
  2. 請求項1に記載のファイル共有装置において、前記抽出した添付ファイル属性表現を、ファイルとは独立に集約し、出現頻度に基づいて典型的添付ファイル属性表現を抽出する手段を備えることを特徴とするファイル共有装置。
  3. 請求項2に記載のファイル共有装置において、
    前記検索手段の検索キーとしてファイル属性表現を入力する入力部を有し、当該入力部は前記典型的添付ファイル属性表現を入力候補として表示する表示手段及び前記表示手段に表示された入力候補を検索キーとして選択する手段を備え、
    前記検索手段は、前記入力手段から検索キーとして入力された添付ファイル属性表現に関連付けされたファイル名を前記添付ファイルメタ情報リストから検索し出力することを特徴とするファイル共有装置。
  4. 請求項1に記載のファイル共有装置において、
    前記検索手段の検索キーとしてファイル名を入力する入力部を有し、
    前記検索手段は、前記入力部から検索キーとして入力されたファイル名と関連づけされた添付ファイル属性表現を前記添付ファイルメタ情報リストから検索し出力することを特徴とするファイル共有装置。
  5. 請求項1に記載のファイル共有装置において、前記検索手段は前記メール入力手段から入力された新着電子メールに添付されたファイル名を検索キーとして前記添付ファイルメタ情報リストを検索し、当該ファイル名に関連づけされたファイル属性表現により当該ファイルが機密扱いであると判定されたときは警告を出し、当該電子メールの送信を一時停止することを特徴とするファイル共有装置。
JP2010049811A 2010-03-05 2010-03-05 ファイル共有装置 Expired - Fee Related JP5324500B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010049811A JP5324500B2 (ja) 2010-03-05 2010-03-05 ファイル共有装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010049811A JP5324500B2 (ja) 2010-03-05 2010-03-05 ファイル共有装置

Publications (2)

Publication Number Publication Date
JP2011186666A JP2011186666A (ja) 2011-09-22
JP5324500B2 true JP5324500B2 (ja) 2013-10-23

Family

ID=44792870

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010049811A Expired - Fee Related JP5324500B2 (ja) 2010-03-05 2010-03-05 ファイル共有装置

Country Status (1)

Country Link
JP (1) JP5324500B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10270720B2 (en) 2012-12-20 2019-04-23 Microsoft Technology Licensing, Llc Suggesting related items

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3762585B2 (ja) * 1999-09-22 2006-04-05 沖電気工業株式会社 電子メール管理装置
JP2004192235A (ja) * 2002-12-10 2004-07-08 Canon Inc プリントシステム
JP5057885B2 (ja) * 2007-08-16 2012-10-24 株式会社東芝 メール処理装置、方法及びプログラム並びにメール検索装置
JP4738392B2 (ja) * 2007-09-14 2011-08-03 株式会社東芝 情報共有システム及び情報共有プログラム

Also Published As

Publication number Publication date
JP2011186666A (ja) 2011-09-22

Similar Documents

Publication Publication Date Title
JP7163355B2 (ja) メッセージ中のタスクの識別
US10552539B2 (en) Dynamic highlighting of text in electronic documents
JP5313337B2 (ja) モバイル・コンピューティング装置に対する検索結果の提供
US10296644B2 (en) Salient terms and entities for caption generation and presentation
US20080189273A1 (en) System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
US10108698B2 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
US20100198802A1 (en) System and method for optimizing search objects submitted to a data resource
US10002187B2 (en) Method and system for performing topic creation for social data
US9710456B1 (en) Analyzing user reviews to determine entity attributes
US20140181099A1 (en) User management of electronic documents
WO2011072172A1 (en) System and method for quickly determining a subset of irrelevant data from large data content
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
JP5324500B2 (ja) ファイル共有装置
JP5888182B2 (ja) 文書管理装置及びプログラム
JP5746912B2 (ja) テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
KR101078966B1 (ko) 문서 분석 시스템
JP5137134B2 (ja) 感性情報抽出・検索装置、その方法およびプログラム
JP2009129185A (ja) ドキュメント管理装置、ドキュメント管理方法およびプログラム
JP2008197700A (ja) 文書管理システムおよび文書管理方法
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム
JPWO2019030884A1 (ja) レビュア管理システムおよび方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130319

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130718

LAPS Cancellation because of no payment of annual fees