JP4289513B2 - 文書表示装置およびプログラム記憶媒体 - Google Patents
文書表示装置およびプログラム記憶媒体 Download PDFInfo
- Publication number
- JP4289513B2 JP4289513B2 JP09038597A JP9038597A JP4289513B2 JP 4289513 B2 JP4289513 B2 JP 4289513B2 JP 09038597 A JP09038597 A JP 09038597A JP 9038597 A JP9038597 A JP 9038597A JP 4289513 B2 JP4289513 B2 JP 4289513B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- frequency
- date
- day
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は,非定型の文書群を整理して提示する文書表示装置,特に各日付において日付に関連する文書が出現する頻度を,年/月/曜日/日といった複数の時間的観点から整理して提示できるようにした文書表示装置およびその文書表示装置を実現するプログラム記憶媒体に関する。
【0002】
昨今のパーソナルコンピュータおよびネットワークの発達により,テキストファイル,電子メールまたはネットワークを用いて配信されるニュースデータ(ネットワークニュース)など,個人が授受する電子化文書は増加する一途である。このような文書群を,その文書内容に基づいて整理して提示する技術が求められている。
【0003】
これらの文書群の内容には,例えば講演会の案内の日時,原稿の締切りなど,文書に関連する日付や時刻(日付情報)が記述されているものが多い。
【0004】
【従来の技術】
本発明は,広くはデータの可視化技術に関連する。従来,データの可視化は,データベースなどの定型情報に対して行われることが多かった。定型情報であれば,特定のフィールドを取り出して,既存のグラフ化ソフトウェア等と組み合わせることにより,所望のデータを可視化することができる。
【0005】
しかし,テキストファイル,電子メールやネットワークニュースなどの文書は,必ずしも特定の形式で情報が格納されているとは限らない。オペレーティング・システムにより,ファイルの属性という形で,ファイル名,ファイルサイズ,作成日付,作成者などの情報は文書に付加されて提供されるが,これだけでは文書の内容を表しているとはいえない。例えば,講演会の案内についての文書があったとしても,講演会がいつ開催されるのかは,実際に文書を読むことでしか知ることができない。
【0006】
また,インターネットなどを通じた非定型文書情報の爆発的な増加により,例えばインターネットURLの検索エンジンのように,文字列レベルで文書を検索する全文検索の技術が重要となっている。しかし,ただ単に,ある文字列が記述されているからといって,必ずしもその文字列が存在する文書が,求める文書であるとは限らない場合があり,検索結果にはノイズが含まれることになる。
【0007】
さらに,文書を検索する場合にも,検索対象となる文書の全体量が増大していること,加えて,検索漏れを少なくするために類似語を論理和(OR)で展開して検索することなどが要因で,検索した結果の文書量も膨大になってきている。このように,膨大な量でノイズの多い検索結果の中から有用な情報を探す上でも,データの可視化の技術は重要になっている。
【0008】
このような状況下において,従来,種々の文書群から文書の内容に基づいて,ある出来事がいつごろ多く発生しているか,ある事象の発生が年/月/曜日/日によってどのように変動するかなどを,わかりやすく可視化する装置はなかった。
【0009】
【発明が解決しようとする課題】
以上のように,従来,種々の文書群の中から特定の事柄についての検索技術はあったが,文書の時間的頻度情報を可視化する装置はなかった。膨大な数の文書情報の中から,特定の事柄に着目して,例えば食中毒は何月に多く発生する傾向があるか,交通事故の発生する割合は,曜日によってどのように変わるかなどを知ることができれば,統計的に有用な情報を得ることができると考えられる。
【0010】
本発明は,以上の点に鑑み,次のような従来の問題を解決する。
1.従来技術では,非定型な文書は,ファイルの属性(ファイル名,ファイルサイズ,更新日)によってしか把握できず,また,内容により把握するためには,文書内や文書に関して特定の形式で情報を付加する必要があった。
【0011】
2.非定型の文書の関連する日付情報は,文書内容を実際に読むことでしか得られなかった。
3.文書に関連する日付情報のある期間ごとの分布を,容易に把握することができなかった。
【0012】
本発明は上記問題点の解決を図り,電子化された文書群における日付に関連する文書の頻度を,年/月/曜日/日といった複数の時間的観点から整理して,わかり易く提示する手段を提供することを目的とする。
【0013】
【課題を解決するための手段】
図1は,本発明の構成例を示す図である。1はCPUおよびメモリ等からなる処理装置,2は電子化された非定型の文書群,3は表示装置,4はキーボードやマウス等の入力装置,11は関連日付抽出部,12は頻度集計部,13は頻度データ,14は文書頻度表示制御部,15は正規化処理部,16は強調度表示処理部を表す。
【0014】
関連日付抽出部11は,文書に関する日付情報を文書内容からパターンマッチにより自動的に抽出する処理手段である。頻度集計部12は,日付ごとに関連する文書数を集計して頻度データ13を得る処理手段である。文書頻度表示制御部14は,日付ごとの文書頻度を,表示装置3などの出力手段に応じて強調して表示する制御手段である。
【0015】
正規化処理部15は,文書頻度に応じて頻度情報の強調表示を行うために,年,月,曜日,日といった時間単位における文書頻度の分布に基づき,各文書頻度を正規化して強調度に変換する処理を行う。
【0016】
強調度表示処理部16は,正規化処理部15で得た強調度を用いて,出力装置に応じて文書頻度を強調して表示する。強調して表示する方法として,例えば頻度に応じて色を変える,明度または濃度を変える,頻度を表示する記号(文字を含む)や図形の大きさを変えるなどがある。
【0017】
文書の頻度を集計する時間単位は,入力装置4からの入力により,年,月,曜日または日といった指定が可能であり,頻度を表示する時間単位は随時切り換えることができる。
【0018】
本発明は以下のように作用する。
まず,関連日付抽出部11は,電子化された文書群2の文書内容に記述されている日付表現に着目して,これらの日付表現を文字列のパターンマッチにより自動的に抽出し日付情報とし,
頻度集計部12は,日付情報ごとに関連する文書数を集計し,
文書頻度表示制御部14は,年/月/曜日/日単位といった複数の時間的観点から,各時間単位における文書数の分布を,表示装置3等の出力装置に応じて強調して提示する。
【0019】
以上の処理装置1における各処理部は,処理装置1のCPUが実行するプログラムによって実現され,そのプログラムは適当な記憶媒体に格納して提供することができる。
【0020】
【発明の実施の形態】
以下,本発明の実施の形態の一例を説明する。
[関連日付抽出部]
関連日付抽出部11は,文書内容に記述された日本語および英語等の日付表現の文字列をパターンマッチにより,日付情報を抽出する。
【0021】
文書内容から関連する日付情報を抽出する処理は,1)数字表現の統一,2)パターンマッチ,3)曜日判定ルーチンの手順で行う。
〔1〕数字表現の統一
文書中には,日付の数字は種々の形式で記述される。そこで,パターンマッチによる日付情報の抽出を効率的に行うためには,パターンマッチの前に数字表現を統一しておくことが望ましい。数字表現の統一は,以下の手順で行う。
【0022】
1.全角数字0,1,…,9を,半角数字 0,1, …,9に置き換える。
2.漢数字〇,一,…,九を,半角数字 0,1, …,9に置き換える。
3.“(数字1)十(数字2)”というすべての表現を,“(数字1)(数字2)”に置き換える。
【0023】
4.“(数字)十”という全ての表現を,“(数字)0 ”に置き換える。
5.“十(数字)”という全ての表現を,“1(数字)”に置き換える。
6.すべての“十”を“10”に置き換える。
【0024】
これにより,日付の表現に含まれる2桁までの数字は,全て半角数字の表現に変換される。
〔2〕パターンマッチ
パターンマッチの処理は,英語および日本語における日付を表す表現パターンを各文書内容に順次当てはめ,該当する日付を全て取り出す処理である。年が省略されている場合には,直前の日付表現パターンから得た年とし,それがない場合には現在(処理時点)の年とする。
【0025】
図2〜図4は,パターンマッチにおいて用いる日付表現のパターンの例を示す。図2は英文における日付表現パターン例であり,図2(A)は「日月年」の順序のパターン例,図2(B)は「月日年」の順序のパターン例,図2(C)は,期間を表す表現のパターン例である。
【0026】
図3は日本語文における日付表現パターン例であり,図3(A)は数字のバリエーションの例,図3(B)は,年号(明治,大正,昭和,平成およびそれらの省略形)を使用するパターン例,図3(C)は西暦を使用するパターン例,図3(D)は,期間を表す表現例,図3(E)は慣用的表現の例である。
【0027】
図4はその他の日付表現パターン例を示す。図4に示す日付表現パターン例においては,パターンA「年−月−日」,パターンB「日−月−年」,またはパターンC「月−日−年」で記述されている可能性がある。このため,2000年以前では,年数は「31」より大きいので,パターンAとパターンBまたはCとの区別がつくが,パターンBとパターンCとの区別がつかない場合がある。その場合には,用途に応じて対象とする日付期間(例えば現在の前後10年以内など)に属するパターンを全て抽出する。
【0028】
〔3〕曜日判定ルーチン
曜日判定ルーチンは,パターンマッチで抽出されたX年Y月Z日の曜日を計算する。
【0029】
曜日の計算は,最近何十年かのカレンダー等の表を用いて行ってもよいが,本実施の形態では,以下のような方法によって任意の年月日の曜日計算を行う。y年m月d日に対して,
YP=(y+2+int((y-1)/4)+int((y-1)/400))mod7
を計算する。ここで,int(x)はxを越えない最大の整数,mod7は7で割った剰余を表す。また,
{M1 ,M2 ,…,M12}={0,3,3,6,1,4,6,2,5,0,3,5 }
とする。
【0030】
次の計算式で得られるdowが,y年m月d日の曜日を表す。ただし,0:日曜,1:月曜,…,6:土曜である。
1.y年が閏年(4で割り切れ,400で割り切れない数)であって,m>2の場合:
dow=(YP+Mm +d+1)mod7
2.それ以外の場合:
dow=(YP+Mm +d)mod7
なお,ここでは,非定型文書の文書内の日付表現から日付情報を抽出する場合を説明したが,文書に付加された情報の日付情報についても,同様に扱うことができる。
【0031】
以上,説明した日付情報の抽出処理は,「文書共有整理システム,共有文書管理装置および文書アクセス装置」(特願平8−281940号)において開示した関連日付抽出ルーチンに曜日判定ルーチンを加えて改良したものである。
【0032】
図5は,関連日付抽出部の処理フローチャートである。
ステップS10では,日付の集合Sを空集合とする。
ステップS11では,文書中に現れる数字表現を統一する。
【0033】
ステップS12では,文書中の各行について日本語,英語,その他の日付表現のパターン例を用いてパターンマッチを行う。
ステップS13では,文書中のその行に日付表現のパターンが存在するかどうかを判定する。パターンが存在する場合にはステップS14の処理へ進み,パターンが存在しない場合にはステップS15の処理へ進む。
【0034】
ステップS14では,集合Sに検出した日付を追加する。ただし,同じ文書内の同じ日付がすでに集合Sに追加されている場合には追加せず,すでに追加されたものと異なる日付であれば,同一文書内にいくつあっても追加する。
【0035】
ステップS15では,文書の終わりかどうかを判定する。文書の終わりでなければステップS16の処理へ進み,文書の終わりであればステップS17の処理へ進む。
【0036】
ステップS16では,文書の次の行へ進み,ステップS12以下の処理を文書が終わるまで繰り返す。
ステップS17では,検出した日付の曜日を判定し,集合Sに曜日情報を追加する。
【0037】
[頻度集計部]
頻度集計部12は,関連日付抽出部11で抽出した全ての日付に対して,該当文書数を集計し,頻度データ13を作成する。X年の文書数をyf(X),X年Y月の文書数をmf(X,Y),U曜日の文書数をwf(U),X年Y月Z日の文書数をdf(X,Y,Z)で表すとする。
【0038】
X年Y月Z日U曜日のデータに対しては,次のように文書数を集計する。
1.年単位:yf(X)++
2.月単位:mf(X,Y)++
3.曜日単位:wf(U)++
4.日単位:df(X,Y,Z)++
(++は,文書数を1増やすことを表す。)
また,日付情報が期間を示すものである場合には,期間の最初と最後の日付の両方に対して集計する。さらに,MaxD yfで時間的区間Dにおけるyf(X)の最大値を,MinD yfで0より大きいyf(X)の最小値を表すなどする。なお,後述する変換関数の種類によっては,MinD yfに0を含めてもよい。
【0039】
[文書頻度表示制御部]
文書頻度表示制御部14は,利用者の要求に応じて,例えば年,月,曜日,日の4つの単位で,文書頻度を表示画面上に強調して表示する。文書頻度の分布を容易に把握できるようにするため,表示装置に対応させて,頻度を色または濃度等に変えて強調度表示を行う。
【0040】
例えばカラーCRTに表示する場合には,頻度を暖色から寒色への色相の変化として表示したり,モノクロの表示装置に表示する場合には,頻度を濃度(明度)の変化として表示したりする。また,色や濃度以外にも,表示する文字のフォントやサイズを頻度に応じて変えて表示するようにしてもよい。利用者からの要求があれば,表示単位の年/月/曜日/日を切り換えて表示する。
【0041】
文書頻度表示の制御は,1)頻度−強調度変換(正規化),2)強調度表示の手順で行う。
〔1〕頻度−強調度変換(正規化)
正規化処理部15は,利用者が指定した時間的区間における文書頻度の最大値と最小値から,頻度−強調度の正規化関数を作成する。この正規化関数を用いて,各頻度を強調度に変換する。ここで,強調度とは[0,1]の実数である。
【0042】
具体的には,頻度−強調度の変換を以下のように行う。利用者が対象としたい時間区間をDとして,非負整数による頻度範囲(例えば[MinD yf,MaxD yf]の範囲)を,強調度[0,1]の実数に正規化を行う。変換関数は,頻度f,頻度の最小値min(=MinD yf),頻度の最大値max(=MaxD yf)の関数Conv(f,min,max)として表すことができる。Conv(f,min,max)は,fに関して単調増加する関数であれば,用途や変換方法に応じていろいろと選ぶことができる。すなわち,f1≦f2であれば,Conv(f1,min,max)≦Conv(f2,min,max)となるような関数である。例えば,次のような関数が考えられる。
【0043】
1.線型変換
Conv(f,min,max)=(f−min)/(max−min)
この線型変換は,頻度にばらつきがない場合に適する。
【0044】
2.対数変換
Conv(f,min,fax)=
log(f−min+1)/log(max−min+1)
対数変換は,minとmaxが桁違いの場合など,minとmaxとが非常に離れていて,特にmax側でばらつきがあるような場合に適する。
【0045】
このような変換関数を,システムが頻度の分布に応じて自動的に選択するようにしてもよく,また利用者にメニューで選択させるようにしてもよい。
〔2〕強調度表示
強調度表示処理部16は,強調度に従って文書頻度を表示する。すなわち,[0,1]の実数による強調度を,出力装置に応じて色や濃度を変えることによって表示する。出力装置として24ビットのカラーCRTを想定すると,次のような強調度表示が考えられる。
【0046】
1.色による強調度表示
色による強調度表示では,例えば「(寒色)青色−緑色−黄色−赤色(暖色)」という色の連続的な変化と強調度とを対応させる。RGBについてそれぞれ8ビット(256が最大値)で色を表すとすると,強調度eに対して各色の強さは,図6に示すような変換関数で表すことができる。
【0047】
図7は,図6に示す変換関数による強調度と色との変換の対応関係を示す図である。図6に示す関数では,図7に示すように,強調度が0で青,強調度が0から0.5の間は青と緑の混合,強調度が0.5で緑,強調度が0.5から1.0の間は緑と赤の混合(黄),強調度が1.0で赤となる。
【0048】
2.濃度による強調度表示
強調度を色の変化ではなく,濃度の変化とする場合,例えば次のように濃度の変化と強調度とを対応させる。
【0049】
red(e)=blue(e)=green(e)=256(1−e)
このような関数で,白色(RGBいずれも256)から黒色(RGBいずれも0)への対応を与えることができる。
【0050】
〔3〕表示単位の切り換え
表示単位として,年/月/曜日/日の単位を切り換えて表示を行う。
1.年単位の表示
利用者が指定したある年の集合X∈{x1 ,x2 ,…,xn }に対して,Xとyf(X)との関係を表示する。通常は,yf(X)が定義されている期間のXを対象とすることになる。
【0051】
図8に,年単位の表示例を示す。一次元的に年と強調度を表示する。強調度を色または濃度を変化させて表示することにより,年単位での文書数の分布の推移を把握することができる。図8では,文書頻度の高い年ほど高濃度で表示するようにしており,これにより,ある文書群の年度別の文書頻度(数)について,93年をピークとする文書数の推移が容易に把握できる。
【0052】
2.月単位の表示
利用者が指定したある(年,月)ペアの集合(Y,M)∈{(y1 ,m1 ),(y2 ,m2 ),…,(yn ,mn )}に対して,Y,Mとmf(Y,M)との関係を表示する。通常は,mfが定義されている期間の(Y,M)を対象とすることになる。
【0053】
図9に,月単位の表示例を示す。二次元で年と月とを表示し,強調度を色や濃度の変化で表示する。これにより,月単位の分布や年単位の分布を容易に把握することができる。図9からは,例えば「対象文書の頻度は,毎年,夏になると増加する傾向がある。」ことが把握できる。
【0054】
3.曜日単位の表示
図10に示すように,利用者が指定した時間的区間の文書頻度に対して,一次元的に曜日と強調度を表示する。これにより,例えば「ある文書の頻度は週の半ばに多い。」等,曜日ごとの文書数の分布を容易に把握することができる。
【0055】
4.日単位の表示
図11に示すように,利用者が指定したY年M月のカレンダーの中に,その月の日単位の文書頻度を表示する。これにより,例えば「ある文書の頻度は週の半ばに多い。」とか,「ある文書の頻度は月末に多い。」等,月の中での文書数の分布を容易に把握することができる。
【0056】
【実施例】
本発明は,テキストファイル等,一般の非定型文書に対して適用できるため,例えばオペレーティング・システム(OS)のファイルシステムに組み込むなどの直接的な応用が考えられる。
【0057】
ここでは,検索システム,グループウェアといった既存の情報処理システムに組み合わせた場合の実施例を説明する。
[1]検索システムにおける検索結果の可視化システム
インターネットのホームページのような非定型データの検索手法として,全文検索がある。これは,データベースや特定のキーワードの検索とは異なり,文書内の任意の文字列に関して検索を行うものである。ただし,ある文字列が一致するからといって,必ずしもそれが求める文書とは限らない場合があるため,検索結果にはノイズが含まれる。また,検索対象となる文書の全体量が増大していること,さらに検索漏れをなくすために類似語をORで展開して検索すること等が要因となって,検索結果の文書数も膨大な量になる。このような,膨大でノイズの多い検索結果の中から有用な情報を探し出すために,検索結果の可視化を行うことが望まれる。
【0058】
本発明は,このような検索結果の可視化に適用できる。具体的には,全文検索の検索結果である非定型文書群に対して本発明を適用し,文書頻度の強調度表示により検索結果の可視化を行う。図12は,全文検索システムの検索結果の可視化システムとして本発明を適用した場合の構成例を示す図である。
【0059】
図12に示すデータベース検索エンジン21により,1990年から1994年までのある新聞の全記事(データベース22)を対象に検索する場合を想定する。
【0060】
利用者からの検索要求により,データベース検索エンジン21が,データベース22を全文検索し,該当する検索結果を本発明の文書表示装置に与える。
関連日付抽出部11は,その検索結果(文書群)を得て,文書内に記述されている日付表現からパターンマッチにより日付情報を抽出し,頻度集計部12により,日付情報ごとに関連する文書数を集計し,頻度データ13とする。文書頻度表示制御部14は,年/月/曜日/日単位等の各単位における文書数の分布を,出力装置に応じて強調して表示し,利用者にビューとして提示する。
【0061】
ここでは,月単位のビューおよび日単位のビューを出力するものとする。検索対象が新聞記事なので文書頻度には極端なばらつきがないため,正規化変換には線型変換を使っている。強調度の表示には色の変化(寒暖)を用いている。
【0062】
利用者は,月単位のビューにおいて月のセルを,例えばマウス等によりクリックして選択すると,該当する月の日単位のビューが表示される。これによって,月単位のビューで全体の傾向を把握し,さらに日単位のビューにより,より詳しい傾向を把握し,さらには検索結果そのものへアクセスすることができる。このように,本発明では,利用者の指示入力により,ビューの単位を変えて検索結果を表示することから,利用者は,複数の時間的観点から検索結果を容易に把握することができる。
【0063】
図13および図14は本実施例におけるビューの例を示す図である。
図13は,「食中毒」という文字列を含む記事を検索した結果を月単位のビューで表示した例を示している。このビューにより,「食中毒」に関する記事は,傾向として夏に多いということがわかる。検索結果をさらに絞り込むために条件を追加する場合,通常のデータベース検索の場合と同様に,データベース検索エンジン21に絞り込みの条件を送る。
【0064】
図14は,「高速道路」および「渋滞」を含む記事を検索した結果を1990年の4月の日単位のビューで表示した例を示している。このビューにより,高速道路の渋滞に関する記事は,傾向として週末/休日前に多いことがわかる。
【0065】
[2]文書共有管理システム(グループウェア)における共有文書の可視化システム
グループウェアの目的の一つは,各利用者の文書情報を共有することにあるが,本発明は,このようなグループウェアの文書情報の可視化に適用できる。
【0066】
具体的には,「文書共有整理システム,共有文書管理装置および文書アクセス装置」(特願平8−281940号)の文書共有整理システムと組み合わせ,文書共有整理システムの文書蓄積および再利用の拡張をするものである。
【0067】
まず,「文書共有整理システム,共有文書管理装置および文書アクセス装置」(特願平8−281940号)を説明する。
この文書共有整理システムは,例えばインターネット(イントラネット)等のネットワークを利用して文書を共有するシステムであって,利用者が有用と思われる情報を簡単な操作で付加情報とともにグループの共有マシンに登録することができ,それらの文書群の情報を整理して提示し,更新することを可能にしているものである。
【0068】
図15は,文書共有整理システムの共有文書の可視化システムとして本発明を適用した場合の構成例を示す図である。
ローカルマシン40では,入力装置41により入力・編集された文書を所定の文書構造に変換し,送信手段42を介してネットワークを通じて共有マシン50に送る。
【0069】
共有マシン50では,受信手段51により,受信した文書に文書IDを付与して共有文書群52に蓄積し,文書ID等をインデックス登録手段53へ送る。インデックス登録手段53では,文書ID等をインデックスデータ54に登録する。ビュー生成手段55では,文書群を時間または利用者の文書へのアクセスに応じて整理し,共有文書群52に蓄積された文書群またはそのインデックスデータを時間順や利用者のアクセスに応じて自動的に整理した表示出力(ビュー)を表示装置43に提示する。
【0070】
本実施例は,インデックスデータ54に,文書に関連する日付ごとの文書頻度を示す頻度データを追加し,ビュー生成手段55において,共有文書群52に対するビュー(可視化)の一つとして,年/月/曜日/日といった時間単位ごとの文書の頻度情報を表示することができるようにしたものである。
【0071】
このため,インデックス登録手段53に,本発明に係る関連日付抽出部11および頻度集計部12を組み込み,インデックスデータ54の一つとして頻度データ13を管理する。ビュー生成手段55では,ローカルマシン40からの文書頻度の要求により,文書頻度表示制御部14によって,年/月/曜日/日といった時間単位ごとの文書頻度情報を表示する。
【0072】
このように,グループのメンバー(利用者)が登録した文書群を共有するときのビューの一つとして本発明を適用することによって,共有文書群52のさらに容易な把握が可能になる。
【0073】
【発明の効果】
以上説明したように,本発明は以下のような効果を奏する。
1.テキストファイルなどの非定型な文書群は身の回りにあふれている。それらの分布を時間に沿って可視化することができる。
【0074】
2.日付ごとの文書の頻度は濃度や色の変化により可視化されるため,時間的傾向や変化の推移を一目で把握することができる。特に,検索システムと組み合わせることで,あるトピックに関する時間的推移を把握することができる。
【0075】
3.文書に関連する日付の自動抽出は,日本語または英語の文書に対応している。日頃アクセスする大半の文書に対して適用が可能であり,言語に固有な日付表現のパターンを追加することで,種々の言語にも応用が可能である。
【0076】
4.テキストファイル群だけでなく,全文検索の検索結果や,グループウェアの共通文書群に対しても適用が可能である。
5.文書頻度表示処理に関しては,定型データに対しても適用できる。
【図面の簡単な説明】
【図1】本発明の構成例を示す図である。
【図2】英文における日付表現パターン例を示す図である。
【図3】日本語文における日付表現パターン例を示す図である。
【図4】その他の日付表現パターン例を示す図である。
【図5】関連日付抽出部の処理フローチャートである。
【図6】強調度を色に変換する変換関数の例を示す図である。
【図7】強調度と色の変化との変換の対応関係を示す図である。
【図8】年単位の表示例を示す図である。
【図9】月単位の表示例を示す図である。
【図10】曜日単位の表示例を示す図である。
【図11】日単位の表示例を示す図である。
【図12】本発明を全文検索システムの検索結果の可視化システムとして本発明を適用した場合の構成例を示す図である。
【図13】ビューの例を示す図である。
【図14】ビューの例を示す図である。
【図15】文書共有整理システムの共有文書の可視化システムとして本発明を適用した場合の構成例を示す図である。
【符号の説明】
1 処理装置
2 文書群
3 表示装置
4 入力装置
11 関連日付抽出部
12 頻度集計部
13 頻度データ
14 文書頻度表示制御部
15 正規化処理部
16 強調度表示処理部
Claims (5)
- 検索システムにより検索された文書群の情報を提示する文書表示装置であって,
前記検索された文書群の各文書から,文書内容に記載された日付情報を,所定の日付表現のパターンとのパターンマッチにより自動的に抽出し,抽出した日付情報から曜日を計算する関連日付抽出手段と,
曜日の指定情報の入力を受け付ける入力手段と,
前記計算した曜日に基づき,前記曜日の指定情報ごとに関連する文書の数を集計する頻度集計手段と,
前記頻度集計手段が集計した結果に基づき,前記曜日の指定情報ごとの文書の頻度情報を表示する文書頻度表示制御手段とを備え,
前記関連日付抽出手段は,
前記検索された文書群の各文書からの日付情報の抽出にあたって,各文書の文書内容に記載された日付の表現に含まれる数字を予め定められた数字表現の形式に統一する処理手段を備える
ことを特徴とする文書表示装置。 - 請求項1記載の文書表示装置において,
前記文書頻度表示制御手段は,前記曜日における文書頻度の分布に基づき,各文書頻度を正規化して強調度に変換し,強調度に応じた表示を行う
ことを特徴とする文書表示装置。 - 請求項1または請求項2記載の文書表示装置において,
前記文書頻度表示制御手段は,利用者の指定によりまたは自動的に文書頻度を強調度に変換する変換関数を切り換えて強調度を算出する
ことを特徴とする文書表示装置。 - 請求項2または請求項3記載の文書表示装置において,
前記文書頻度表示制御手段は,算出した強調度に応じて,文書頻度を表す記号または図形の色,明度または大きさを変えて頻度情報を表示する
ことを特徴とする文書表示装置。 - 検索システムにより検索された文書群の情報を提示する文書表示装置を構成するコンピュータに実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって,
前記コンピュータを,
前記検索された文書群の各文書から,文書内容に記載された日付情報を,所定の日付表現のパターンとのパターンマッチにより自動的に抽出し,抽出した日付情報から曜日を計算する関連日付抽出手段と,
曜日の指定情報の入力を受け付ける入力手段と,
前記計算した曜日に基づき,前記曜日の指定情報ごとに関連する文書の数を集計する頻度集計手段と,
前記頻度集計手段が集計した結果に基づき,前記曜日の指定情報ごとの文書の頻度情報を表示する文書頻度表示制御手段として機能させ,
さらに,前記コンピュータを前記関連日付抽出手段として機能させるにあたって,
前記検索された文書群の各文書からの日付情報の抽出にあたって,各文書の文書内容に記載された日付の表現に含まれる数字を予め定められた数字表現の形式に統一する処理手段として機能させる
ための文書表示プログラムを格納したプログラム記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09038597A JP4289513B2 (ja) | 1997-04-09 | 1997-04-09 | 文書表示装置およびプログラム記憶媒体 |
US08/971,922 US6144963A (en) | 1997-04-09 | 1997-11-18 | Apparatus and method for the frequency displaying of documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09038597A JP4289513B2 (ja) | 1997-04-09 | 1997-04-09 | 文書表示装置およびプログラム記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10283365A JPH10283365A (ja) | 1998-10-23 |
JP4289513B2 true JP4289513B2 (ja) | 2009-07-01 |
Family
ID=13997119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09038597A Expired - Fee Related JP4289513B2 (ja) | 1997-04-09 | 1997-04-09 | 文書表示装置およびプログラム記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6144963A (ja) |
JP (1) | JP4289513B2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000285140A (ja) * | 1998-12-24 | 2000-10-13 | Ricoh Co Ltd | 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6549894B1 (en) * | 1999-05-07 | 2003-04-15 | Legalstar, Inc. | Computerized docketing system for intellectual property law with automatic due date alert |
US6853950B1 (en) * | 1999-07-20 | 2005-02-08 | Newsedge Corporation | System for determining changes in the relative interest of subjects |
JP2005108123A (ja) * | 2003-10-01 | 2005-04-21 | Fujitsu Ltd | 人脈情報表示方法、人脈情報表示プログラム、および人脈情報表示装置 |
US20050086634A1 (en) * | 2003-10-16 | 2005-04-21 | International Business Machines Corporation | Web page development environment that displays frequency of use information |
IL159838A0 (en) | 2004-01-13 | 2004-06-20 | Yehuda Binder | Information device |
JP2006079454A (ja) * | 2004-09-10 | 2006-03-23 | Fujitsu Ltd | 検索キーワード分析方法、検索キーワード分析プログラムおよび検索キーワード分析装置 |
US7730013B2 (en) * | 2005-10-25 | 2010-06-01 | International Business Machines Corporation | System and method for searching dates efficiently in a collection of web documents |
US8140506B2 (en) * | 2006-11-30 | 2012-03-20 | Red Hat, Inc. | File sharing based on social network |
WO2008087728A1 (ja) | 2007-01-18 | 2008-07-24 | Fujitsu Limited | キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法 |
JP5181481B2 (ja) * | 2007-01-24 | 2013-04-10 | セイコーエプソン株式会社 | 情報表示装置及びプログラム |
JP2008181335A (ja) * | 2007-01-24 | 2008-08-07 | Seiko Epson Corp | 情報管理装置、情報配信システム及びプログラム |
WO2009101954A1 (ja) * | 2008-02-15 | 2009-08-20 | Nec Corporation | テキスト情報分析システム |
US20090319505A1 (en) * | 2008-06-19 | 2009-12-24 | Microsoft Corporation | Techniques for extracting authorship dates of documents |
US20150302084A1 (en) * | 2014-04-17 | 2015-10-22 | Robert Stewart | Data mining apparatus and method |
JP6183755B2 (ja) * | 2014-05-27 | 2017-08-23 | 有限会社ハタ・ヒューマン・システム | 利用情報表示装置及び方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06337896A (ja) * | 1993-03-31 | 1994-12-06 | Matsushita Electric Ind Co Ltd | 電子書籍表示検索装置及び電子書籍表示検索方法 |
US5499330A (en) * | 1993-09-17 | 1996-03-12 | Digital Equipment Corp. | Document display system for organizing and displaying documents as screen objects organized along strand paths |
US5623681A (en) * | 1993-11-19 | 1997-04-22 | Waverley Holdings, Inc. | Method and apparatus for synchronizing, displaying and manipulating text and image documents |
US5623652A (en) * | 1994-07-25 | 1997-04-22 | Apple Computer, Inc. | Method and apparatus for searching for information in a network and for controlling the display of searchable information on display devices in the network |
WO1996016813A1 (fr) * | 1994-12-02 | 1996-06-06 | Seiko Epson Corporation | Processeur d'informations de caracteres a fonction d'affichage de presentation |
US5903904A (en) * | 1995-04-28 | 1999-05-11 | Ricoh Company | Iconic paper for alphabetic, japanese and graphic documents |
US5893130A (en) * | 1995-04-28 | 1999-04-06 | Sharp Kabushiki Kaisha | Image output device |
JP3461412B2 (ja) * | 1995-10-11 | 2003-10-27 | シャープ株式会社 | データ処理装置およびデータ処理方法 |
US5937160A (en) * | 1997-05-01 | 1999-08-10 | Reedy Creek Technologies, Inc. | Systems, methods and computer program products for updating hypertext documents via electronic mail |
-
1997
- 1997-04-09 JP JP09038597A patent/JP4289513B2/ja not_active Expired - Fee Related
- 1997-11-18 US US08/971,922 patent/US6144963A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US6144963A (en) | 2000-11-07 |
JPH10283365A (ja) | 1998-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7734634B2 (en) | System, apparatus and method for using and managing digital information | |
JP4289513B2 (ja) | 文書表示装置およびプログラム記憶媒体 | |
RU2343537C2 (ru) | Компьютерный поиск с помощью ассоциативных связей | |
US7840524B2 (en) | Method and apparatus for indexing, searching and displaying data | |
US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
US7788251B2 (en) | System, method and computer program product for concept-based searching and analysis | |
US9251130B1 (en) | Tagging annotations of electronic books | |
US20130018805A1 (en) | Method and system for linking information regarding intellectual property, items of trade, and technical, legal or interpretive analysis | |
US20060129538A1 (en) | Text search quality by exploiting organizational information | |
US20010020238A1 (en) | Document searching apparatus, method thereof, and record medium thereof | |
JPH05290098A (ja) | データベースからの情報をスケール付きで表示する装置及び方法 | |
WO2011137386A1 (en) | Systems and methods for semantic search, content correlation and visualization | |
WO2012116287A1 (en) | Methods for electronic document searching and graphically representing electronic document searches | |
US6915303B2 (en) | Code generator system for digital libraries | |
WO2004081822A1 (ja) | キーワードを利用したデータの登録、検索を支援する装置 | |
Sanderson et al. | Nrt-news retrieval tool | |
Duke et al. | Squirrel: An advanced semantic search and browse facility | |
JP2000231570A (ja) | インターネット情報処理装置、インターネット情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Liauw | Content Analysis and Its Application with Dynamic Online Content: A Case Study | |
JP2003076676A (ja) | 報告書作成を支援する装置、プログラムおよび方法 | |
EP0743606B1 (en) | Data unit group handling apparatus | |
Barbaresi et al. | Mapping the German tech blog sphere and its influence on digital policy | |
JP2000231569A (ja) | インターネット情報検索装置、インターネット情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
KR20020061443A (ko) | 컴퓨터 통신망을 이용한 정보의 수집, 가공 및 표시방법과 그 시스템 | |
JP2007293746A (ja) | ファイル管理システム、ファイル管理プログラム及びファイル管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060703 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060725 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060925 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061031 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061130 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070208 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20070302 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090209 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090209 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090226 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090326 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120410 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120410 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130410 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140410 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |