JP4621514B2 - テキスト群特定方法、プログラム、電子ファイル管理システム - Google Patents

テキスト群特定方法、プログラム、電子ファイル管理システム Download PDF

Info

Publication number
JP4621514B2
JP4621514B2 JP2005058483A JP2005058483A JP4621514B2 JP 4621514 B2 JP4621514 B2 JP 4621514B2 JP 2005058483 A JP2005058483 A JP 2005058483A JP 2005058483 A JP2005058483 A JP 2005058483A JP 4621514 B2 JP4621514 B2 JP 4621514B2
Authority
JP
Japan
Prior art keywords
text group
text
character string
old
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005058483A
Other languages
English (en)
Other versions
JP2006244105A (ja
JP2006244105A5 (ja
Inventor
和義 長保
泰 不破
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Shinshu University NUC
Original Assignee
Seiko Epson Corp
Shinshu University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp, Shinshu University NUC filed Critical Seiko Epson Corp
Priority to JP2005058483A priority Critical patent/JP4621514B2/ja
Publication of JP2006244105A publication Critical patent/JP2006244105A/ja
Publication of JP2006244105A5 publication Critical patent/JP2006244105A5/ja
Application granted granted Critical
Publication of JP4621514B2 publication Critical patent/JP4621514B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、更新前のテキスト文書に含まれるテキスト群に対して、このテキスト文書が更新された、更新後テキスト文書に含まれる1以上のテキスト群を、それぞれ対応付けるテキスト群特定方法、プログラム、電子ファイル管理システムに関するものである。
近年、インターネットやイントラネットを介して閲覧されるWebファイルといった電子ファイルは、単なる情報提供に限らず、様々な利用方法が知られている。その一例として、電子教育システム(e−ラーニングシステム)が挙げられる(例えば特許文献1参照)。この電子教育システムとは、教材となる電子ファイルを、ユーザ(生徒)がインターネット等を利用して閲覧し、学習を進める自主自習型の教育システムである。
この教育システムによれば、図や動画等を用いたより効果的なマルチメディア教材の提供が可能であるだけでなく、大勢の生徒を一箇所に集合させて講義を行う必要がないので、コストを大幅に削減することが実現可能であるとともに、ユーザ(生徒)にとっても自身の都合に合わせて学習を進めることができるといった利点がある。さらに、多数の生徒に教材となる印刷物を配布する必要がなく、また、教材の内容変更に伴う更新も容易であることから、教材の作成コストを大幅に軽減させることができるので、従来の講義形式で学習を進める場合にも、この電子教育システムが導入されつつある。
特開平11−282826号公報
しかし、ユーザが学習を進めるうえで、教材である電子ファイルに対して、メモ書きやマーキングといった書き込み情報の書き込みを行う場合には、通常教材をプリントアウトし、プリントアウトした出力物に対して、メモ書きやマーキングを行うといった煩雑な作業を行っている。また、教材である電子ファイルに、メモ書きやマーキングを書き込むことができる場合でも、電子ファイルを表示する表示層、書き込みを行うための書き込み層との2層を構成し、これらを特定のサイズで固定的に表示しているため、電子ファイルの表示サイズは常に固定される。従って、ユーザは電子ファイルの表示サイズを所望のサイズに変更できない。
さらに、教材の内容(例えば電子ファイルのテキスト文書)が変更/更新された場合には、書き込み情報の位置を特定するのが困難であり、書き込み情報を反映することができない。つまり、例えば更新前のテキスト文書における任意の段落(テキスト群)にマーキングを行った場合、段落を追加してテキスト文書を更新すると、マーキングを行った段落の位置がずれてしまうため、マーキングを反映するべき段落の特定が困難であった。このような問題を解決するために、各段落に段落番号を付して管理するといった方法が考えられるが、テキスト文書の更新によって段落の追加、削除、移動等が繰り返されるため、段落番号による管理は適当ではない。
本発明は、上記の問題に鑑み、電子ファイルのテキスト文書が更新/変更された場合でも、更新前のテキスト文書に含まれるテキスト群と、更新後のテキスト文書に含まれるテキスト群との対応付けを効率的に行い得るテキスト群特定方法、プログラム、電子ファイル管理システムを提供することをその課題とする。
本発明のテキスト群特定方法は、1以上のテキスト群を含む電子ファイルに書き込みを行うための情報端末と、情報端末に接続され、電子ファイルを記憶するサーバと、から構成されるネットワークシステムにおいて、更新前のテキスト文書に含まれるテキスト群である1以上の旧テキスト群に対して、当該テキスト文書が更新された更新後テキスト文書に含まれるテキスト群である1以上の新テキスト群を、それぞれ対応付けるテキスト群特定方法であって、旧テキスト群および新テキスト群全てについて、それらの特徴量であるテキスト群特徴量を算出するテキスト群特徴量算出ステップと、テキスト群特徴量を用いてマッチングを行い、各旧テキスト群と、各新テキスト群との対応付けを行うテキスト群マッチングステップと、各旧テキスト群のテキスト群特徴量と、テキスト群マッチングステップによって当該各旧テキスト群に対応付けられた各新テキスト群のテキスト群特徴量との差異が、所定の閾値未満であるかを判定するテキスト群判定ステップと、テキスト群判定ステップによって、両テキスト群特徴量の差異が所定の閾値未満であると判定された旧テキスト群と新テキスト群の組み合わせを、対応するテキスト群として特定するテキスト群特定ステップと、を備え、テキスト群マッチングステップによって、新旧いずれか一方の1のテキスト群に対して、他方のn(nは2以上の整数)個のテキスト群が対応付けられた場合、テキスト群判定ステップは、1のテキスト群に対するn個の組み合わせについて、テキスト群特徴量の差異が所定の閾値未満であるかを判定し、テキスト群特定ステップは、テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが1つの場合、当該組み合わせを対応するテキスト群として特定し、テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが複数の場合、テキスト群特徴量の差異が最小となる組み合わせを対応するテキスト群として特定することを特徴とする。
これらの構成によれば、更新前のテキスト文書、および更新後のテキスト文書に含まれるテキスト群全てについて、テキスト群を表すテキスト群の特徴量を算出し、算出したその特徴量に基づいて、更新前のテキスト文書に含まれる各テキスト群に対して、更新後のテキスト文書に含まれる各テキスト群を対応付けることができる。すなわち、更新前のテキスト文書と、更新後のテキスト文書との対応付けを効率よく行うことが可能となる。
さらに、この構成によれば、マッチングの結果、対応付けられた2つのテキスト群の特徴量の差が所定の閾値未満である組み合わせを、対応するテキスト群として特定する、すなわち一定以上の類似度を有するテキスト群の組み合わせを、対応するテキスト群として特定するので、更新前のテキスト群に対して、若干の変更が加えられた場合にも、対応するテキスト群を正しく特定することが可能となる。
また、マッチングの方法としてDPマッチングを採用することにより、計算量を少なくすることが出来るといった利点がある。なお、「DPマッチング」とは、動的計画法によるパターンマッチングを意味し、二つのパターンの要素間の対応付けを行いながら類似度を計算する方法を指すものである。
また、この場合、テキスト群マッチングステップによって、新旧いずれか一方の1のテキスト群に対して、他方のn(nは2以上の整数)個のテキスト群が対応付けられた場合、テキスト群判定ステップは、1のテキスト群に対するn個の組み合わせについて、テキスト群特徴量の差異が所定の閾値未満であるかを判定し、テキスト群特定ステップは、テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが1つの場合、当該組み合わせを対応するテキスト群として特定し、テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが複数の場合、テキスト群特徴量の差異が最小となる組み合わせを対応するテキスト群として特定することが好ましい。
この構成によれば、マッチングによって1のテキスト群に対して複数のテキスト群が対応付けされたとしても、個々の組み合わせ毎にテキスト群特徴量を比較することによって、最終的に対応する2つのテキスト群の組み合わせを特定することができる。
さらに、これらの場合、テキスト群は、1以上の句読点および/または改行位置で区切られる文字列から構成されており、旧テキスト群に含まれる文字列である1以上の旧文字列と、当該旧テキスト群に対応する新テキスト群に含まれる文字列である1以上の新文字列と、において、各旧文字列および各新文字列の全てについて、それらの特徴量である文字列特徴量を算出する文字列特徴量算出ステップと、文字列特徴量を用いてマッチングを行い、各旧文字列と各新文字列との対応付けを行う文字列マッチングステップと、各旧文字列の文字列特徴量と、文字列マッチングステップによって当該各旧文字列に対応付けられた各新文字列の文字列特徴量との差異が、所定の閾値未満であるかを判定する文字列判定ステップと、文字列判定ステップによって、両文字列特徴量の差異が前記所定の閾値未満であると判定された旧文字列と新文字列の組み合わせを、対応する文字列として特定する文字列特定ステップと、を備え、文字列マッチングステップによって、新旧いずれか一方の1の文字列に対して、他方のn(nは2以上の整数)個の文字列が対応付けられた場合、文字列判定ステップは、1の文字列に対するn個の組み合わせについて、文字列特徴量の差異が所定の閾値未満であるかを判定し、文字列特定ステップは、文字列特徴量の差異が所定の閾値未満であると判定された組み合わせが1つの場合、当該組み合わせを対応する文字列として特定し、文字列特徴量の差異が所定の閾値未満であると判定された組み合わせが複数の場合、文字列特徴量の差異が最小となる組み合わせを対応する文字列として特定することを特徴とする。
この構成によれば、対応する2つのテキスト群において、各テキスト群に含まれる句読点および/または改行位置で区切られる文字列を表す文字列の特徴量を算出し、更新前の旧テキスト群に含まれる各旧文字列に対して、更新後の新テキスト群に含まれる各新文字列が対応付けられる。すなわち、テキスト群の対応付けに加え、さらに詳細な対応付けとなる文字列の対応付けを効率よく行うことが可能となる。
この構成によれば、マッチングによって1の文字列に対して複数の文字列が対応付けされたとしても、個々の組み合わせ毎に文字列特徴量を比較することによって、最終的に対応する2つの文字列の組み合わせを特定することができる。
これらの場合、テキスト群特徴量および前記文字列特徴量は、テキスト群および文字列を形態素解析して得られた各単語のTFIDF値を要素とする多次元ベクトルで表されることが好ましい。
この構成によれば、今日インターネットの検索エンジンを始めとする情報検索の分野で広く用いられている、TFIDF方式のパラメータであるTFIDF値を、テキスト群特徴量および文字列群特徴量の算出に用いることにより、算出した各特徴量に基づいて行われる対応付けの処理精度を高めることができる。なお「TFIDF」とは、(Term Frequency Inverse Document Frequency)の略語である。
本発明のプログラムは、コンピュータに、上記のいずれか1に記載のテキスト群特定方法における各ステップを実行させるものであることを特徴とする。
この構成によれば、電子ファイルのテキスト文書が更新/変更された場合でも、更新前のテキスト文書に含まれるテキスト群と、更新後のテキスト文書に含まれるテキスト群との対応付けを効率的に行い得るためのプログラムを提供することができる。
以下、添付の図面を参照して、本発明のテキスト群特定方法、プログラム、電子ファイル管理システムについて、詳細に説明する。本発明のテキスト群特定方法等は、更新前のテキスト文書に含まれるテキスト群である1以上の旧テキスト群に対して、当該テキスト文書が更新された更新後テキスト文書に含まれるテキスト群である1以上の新テキスト群を、それぞれ対応付けるものである。
そこで、本発明のテキスト群特定方法等を、1以上のテキスト群を含む電子ファイルに書き込みを行うための情報端末と、この情報端末に接続され、電子ファイルを記憶するサーバと、から構成される電子ファイル書き込みシステムに適用して説明する。この電子ファイル書き込みシステムは、例えばインターネットやイントラネットを介して閲覧するWebファイル等の電子ファイルを教材とし、ユーザ(生徒)がこの電子ファイルを用いて学習を進める形態のe−ラーニングシステムに用いられるような、電子ファイルにユーザがメモ書きやマーキングといった書き込みを行うためのシステムである。
本実施形態に係る電子ファイル書き込みシステム1は、図1に示すように、電子ファイルEF(図3参照)および書き込み情報81(図2参照)を記憶するサーバ50と、このサーバ50にネットワーク150を介して接続され、電子ファイルEFに書き込みを行うための情報端末となるクライアントPC(以下単にPCと記載)100(図では3台表示)と、から構成されている。
PC100は、WWWブラウザ106(図2参照)を備え、利用者がWWWブラウザ106を介して電子ファイルEFを閲覧しようとすると、サーバ50へ電子ファイルEFの送信を要求する。そして、その要求に対してサーバ50から送信された電子ファイルEFを受信し、ディスプレイ109(図2参照)に表示する。さらに、表示している電子ファイルEFに対して、マーキングやメモ書きといった書き込みを行うための書き込み手段120と、ユーザにより書き込み手段120を用いて書き込まれた書き込み情報81、および書き込み情報81の電子ファイル上の位置を示す位置情報82、を含む書き込み詳細情報80(いずれも図2参照)を取得し、サーバ50へ送信する送信手段130と、を有している。なお、書き込み手段120は、図2に示すキーボード110並びにマウス111によってその主要部が構成されている。
サーバ50は、電子ファイルEFを記憶する電子ファイルデータベースDB1と、PC100から受信した書き込み詳細情報80を記憶する書き込み情報データベースDB2と、を有している。また、サーバ50は、データ処理部60を有し、データ処理部60は、PC100からの電子ファイルEF送信要求に応じて、書き込み情報81を電子ファイルEFに反映させるための様々な処理を行い、ネットワークインタフェース(NT−I/F)54(図2参照)と共同して書き込み情報81を反映した電子ファイルEFをPC100に送信する。
続いて、図2を参照してサーバ50およびPC100のハードウェア構成について説明する。サーバ50は、ネットワーク150とのデータ送受信部であるネットワークインタフェース(NT−I/F)54、サーバ50で実行される各種処理を制御するCPU51、処理プログラム等を記憶するROM52、ワークエリアとなるRAM53、および電子ファイルデータベースDB1、書き込み情報データベースDB2等を記憶するハードディスク55を備え、これらは互いにシステムバス56を介して互いに接続されている。なお、ハードディスク55にはOS57がインストールされている。また、書き込み情報データベースDB2には、PC100から受信した書き込み詳細情報80(書き込み情報81、位置情報82)に加え、位置情報82に基づいて生成したテキスト群特定情報90および文字特定情報95(詳細については後述する)が記憶されている。
さらに、サーバ50は、電子ファイルEFを更新するための更新手段70(図1参照)を有しており、電子ファイルEFの内容が変更され更新された電子ファイルEFを、元のファイルに上書きして記憶しておくことが可能である。また、サーバ50のハードディスク55には、書き込み情報81を電子ファイルEFに反映させるための様々な処理を行うための、書き込み情報反映プログラムPがインストールされている。
一方、PC100は、ネットワーク150とのデータ送受信部であるネットワークインタフェース(NT−I/F)104、PC100で実行される各種処理を制御するCPU101、処理プログラム等を記憶するROM102、ワークエリアとなるRAM103、WWWブラウザ106を含む各種アプリケーションプログラム107、およびOS108がインストールされているハードディスク105、電子ファイルEFを閲覧するためのディスプレイ109、閲覧している電子ファイルEFに対して、ユーザが書き込みや保存の操作を行うためのキーボード110、およびマウス111を備え、これらは互いにシステムバス112を介して接続されている。
さらに、ユーザが電子ファイルEFに対して行う、メモ書きやマーキングといった書き込み操作について図3ないし図6を参照して説明する。図3に示すように、電子ファイルEFには、例えば空白行Wで区切られる1以上のテキスト群T(T1〜T4)が含まれ、さらに各テキスト群Tには、句読点および/または改行位置で区切られる、1以上の文字列Sが含まれている(本実施形態では句点で区切られる文字列とする)。また、電子ファイルEF上部には、書き込み情報を保存するための保存ボタン200が配置されており、利用者は、メモ書きやマーキングといった書き込みを行った後、この保存ボタン200を選択することによって、書き込み情報を保存する。
図4は、ユーザが電子ファイルEFにメモ書きを書き込む操作手順を示している。同図に示すように、ユーザはまずメモ書きを書き込む所望の位置に、マウス111やキーボード110を用いてカーソルKを合わせ、例えば右クリック操作等でメニューM1を表示させ、「新規メモ作成」を選択する(同図(a)参照)。「新規メモ作成」を選択したことによって、メモ書き用ボックスMBが表示され、メモ書き用ボックスMB内にメモ書きを書き込む(同図(b)参照)。最後に、書き込んだメモ書きを保存するため、保存ボタン200を選択する(同図(c)参照)。
図5は、ユーザが電子ファイルEFに含まれる文字をマーキングするマーキング操作手順を示している。同図に示すように、まずマーキングを行う所望の位置に、マウス111やキーボード110を用いてカーソルKを合わせ、例えば右クリック操作等でメニューM1を表示させ、「新規マーキング作成」を選択する(同図(a)参照)。そして、マーキングを行う範囲指定を行う。例えばマウス111のドラック操作で行う場合、マーキングを行う範囲の開始位置でクリックし(同図(b)参照)そのままマウスをドラッグしてマーキングを行う範囲の終了位置でドラッグを終了する(同図(c)参照)。
なお、この操作に限らずマーキングを行う範囲を指定できる操作なら何でもよい。最後に、書き込んだマーキングを保存するため、保存ボタン200を選択する(同図(d)参照)。このような手順で、ユーザがメモ書きやマーキングといった書き込みを電子ファイルEFに対して行い、次回ユーザが電子ファイルEFを閲覧すると、図6に示すように、電子ファイルEFに対してメモ書きやマーキングといった書き込み情報81が反映されて表示される。また、書き込み情報81を複数書き込んだ場合、複数の書き込み情報81を一括して保存するようにしてもよい。
また、ユーザが書き込み情報を保存すると、PC100は、書き込み情報81および書き込み情報81の電子ファイルEF上の位置を示す位置情報82を取得し、書き込み詳細情報80としてサーバ50へ送信する。なお、「書き込み情報」とは、書き込みがメモ書きの場合、「メモ書きされた画像データ、テキストデータ、および音声データの少なくともいずれか1のデータ」であり、書き込みがマーキングの場合、「マーキングされた文字のテキストデータ」である。また、「位置情報」とは、書き込みがメモ書きの場合、「メモ書きが属するテキスト群T」に関する情報であり、書き込みがマーキングの場合、「マーキングされた文字が属するテキスト群T、およびマーキングされた文字が属する文字列S」に関する情報である。
さらに、書き込み情報81には、書き込まれたメモ書きやマーキングのフォントに関するフォント情報やカラーに関するカラー情報が含まれている。なお、書き込みがメモ書きの場合、本実施形態では「メモ書きが属するテキスト群T」内の位置情報については特に記憶していないが、もちろん「メモ書きが属するテキスト群T」内の位置情報を記憶する構成でもよい。この場合、位置情報はマーキングと同様に、「メモ書きが属するテキスト群T、およびメモ書きの作成位置として指定された位置が含まれる文字列S」に関する情報である。
また、サーバ50は、PC100から受信した書き込み詳細情報80を書き込み情報データベースDB2に記憶する際、受信した書き込み詳細情報80に含まれる位置情報82に基づいて、書き込まれたメモ書きが属するテキスト群Tを特定するためのテキスト群特定情報90(図2参照)、およびマーキングされた文字を特定するための文字特定情報95(図2参照)、を生成し、書き込み情報データベースDB2にさらに記憶する。
ここで、テキスト群特定情報90および文字特定情報95の生成について、詳細に説明する。テキスト群特定情報90とは、電子ファイルEFに含まれる各テキスト群T(図3参照)の特徴量を意味しており(以下テキスト群特徴量Tvと記載)、以下、サーバ50が行うテキスト群Tのテキスト群特徴量Tvの算出について述べる(テキスト群特徴量算出ステップ)。テキスト群特徴量Tvは、テキスト群Tを形態素解析して得られた各単語のTFIDF値を要素とする多次元ベクトルである。形態素解析について簡単に説明すると、例えば図2に示すハードディスク55に格納された日本語辞書(図示省略)を用いてテキスト群Tを解析し、テキスト群Tを構成する各単語を求めるものである。
図3に示すテキスト群T1の一部である「データリンクには、様々な特徴やアクセス方式がある。」という文章に対して形態素解析を行うと、「データ」「リンク」「に」「は」「様々」「な」「特徴」「や」「アクセス」「方式」「が」「ある」といった単語が得られる。また、TFIDF(Term Frequency Inverse Document Frequency)値とは、ある単語が、所定のテキストデータ内で出現する回数を、そのテキストデータの量に応じて正規化したものである。
本実施形態では、上記のTFIDF値として、例えばテキスト群T1(図3参照)に含まれる「データ」という単語のTFIDF値を求めるとすると、
TF=テキスト群T1に含まれる「データ」の単語数/テキスト群T1に含まれる全ての単語数 ×
IDF=LOG(電子ファイルEFに含まれるテキスト群Tの総数/「データ」の単語を含むテキスト群Tの数)の計算式で求めることができる。
形態素解析によって得られたテキスト群T1に含まれる全ての単語について、上記の要領でTFIDF値を求めることによって、各単語を軸とし、各単語のTFIDF値を要素とした多次元ベクトルが得られ、テキスト群T1のテキスト群特徴量Tv1が算出されたことになる。同様にして、この処理を各テキスト群Tについて行うと、各テキスト群Tのテキスト群特徴量Tvを算出することができる。
図7は、3つのテキスト群Ta〜Tcのテキスト群特徴量Tva〜Tvcを簡略して示したものである。同図(a)に示すように、テキスト群Taのテキスト群特徴量Tvaは、xa、ya、za・・・を要素とする多次元ベクトルであり、xa、ya、zaは、テキスト群Taにおける単語「x」、「y」、「z」のそれぞれのTFIDF値である。同様に、テキスト群Tbのテキスト群特徴量Tvbは、xb、yb、zb・・・を要素とする多次元ベクトルであり、xb、yb、zbは、テキスト群Tbにおける単語「x」、「y」、「z」のそれぞれのTFIDF値である。
さらに、テキスト群Tcのテキスト群特徴量Tvcについても、xc、yc、zc・・・を要素とする多次元ベクトルであり、xc、yc、zcは、テキスト群Tcにおける単語「x」、「y」、「z」のそれぞれのTFIDF値となる。なお、簡略化のため図示では3次元のベクトルとして表示しているが、実際のテキスト群特徴量Tvは、テキスト群Tに含まれる単語数に応じた多次元空間上にマッピングされる。
続いて、文字特定情報95について説明する。文字特定情報95とは、マーキングされた文字を特定するための情報であり、マーキングが行われた文字が属するテキスト群Tに含まれる、句読点や改行位置で区切られる所定の文字列Sの文字列特徴量Svを意味している。以下、サーバ50が行う文字列Sの文字列特徴量Svの算出について述べる(文字列特徴量算出ステップ)。文字列特徴量Svは、テキスト群特徴量Tvと同様に、文字列Sを形態素解析して得られた各単語のTFIDF値を要素とする多次元ベクトルである。
従って、例えばテキスト群T1における文字列S1(図3参照)に含まれる「データ」という単語のTFIDF値を求めるとすると、
TF=文字列S1に含まれる「データ」の単語数/文字列S1に含まれる全ての単語数 ×
IDF=LOG(テキスト群T1に含まれる文字列Sの総数/「データ」の単語を含む文字列Sの数)で求めることができる。
形態素解析によって得られた文字列Sに含まれる全ての単語について、上記の要領でTFIDF値を求めることによって、各単語を軸とし、各単語のTFIDF値を要素とした多次元ベクトルが得られ、文字列S1の文字列特徴量Sv1が算出されたことになる。同様にして、この処理を各文字列Sについて行うと、各文字列Sの文字列特徴量Svを算出することができる。なお、TFIDF値算出の対象となる単語は、日本語において、文書を意味する大きな部分を担うとされている、「名詞」、「サ変名詞」、「固有名詞」および「形容動詞」である。
テキスト群特徴量Tvおよび文字列特徴量Svの算出は、書き込み情報の保存時と書き込み情報反映時と、の2回のタイミングで行われる。そして、書き込み情報保存時に算出されたテキスト群特徴量Tvおよび文字列特徴量Svは、旧テキスト群特徴量Tovおよび旧文字列特徴量Sovとして記憶され、書き込み情報反映時に算出されたテキスト群特徴量Tvおよび文字列特徴量Svは、新テキスト群特徴量Tnvおよび新文字列特徴量Snvとして記憶される。また、書き込み情報が反映される以前に電子ファイルEFが更新された場合には、電子ファイルEF更新のタイミングで、新テキスト群特徴量Tnvおよび新文字列特徴量Snvが算出される。
さらに、その更新が複数回に及んだ場合には、更新の度にそれぞれの特徴量が算出され、前回算出された特徴量に上書きして書き込み情報データベースDB2へ記憶される。なお、電子ファイルEFが更新された場合についても、更新毎ではなく書き込み情報反映時に新テキスト群特徴量Tnvおよび新文字列特徴量Snvを算出する構成でもよい。
続いて、サーバ50が、書き込み情報81を書き込み情報データベースDB2に記憶し、次回電子ファイルEFをPC100に送信する際に、その書き込み情報を電子ファイルEFに対して反映するまでの流れを、図8のフローチャートを参照して説明する。なお、以下の説明では、書き込み情報記憶時の電子ファイルEFに含まれるテキスト群Tおよび文字列Sを、旧テキスト群Toおよび旧文字列Soと定義し、書き込み情報反映時の電子ファイルEFに含まれるテキスト群Tおよび文字列Sを、新テキスト群Tnおよび新文字列Snと定義して、説明する。
まず、ユーザが書き込み情報の保存ボタン200をクリックすると(S01)、PC100は書き込み詳細情報80を取得しサーバ50へ送信する。そして、サーバ50は、上述した手順で、書き込み情報が属するテキスト群Tを始め、電子ファイルEFに含まれるテキスト群T全てについて、テキスト群特徴量Tvを算出する。また、書き込み情報がマーキングである場合、テキスト群特徴量Tvに加えて、書き込まれたマーキングが属するテキスト群Tに含まれる、文字列S全ての文字列特徴量Svを算出する(S02)。そして、算出したテキスト群特徴量Tvおよび文字列特徴量Svを、旧テキスト群特徴量Tovおよび旧文字列特徴量Sovとして、書き込み情報データベースDB2へ、書き込み詳細情報80とともに記憶する。
その後、再びPC100においてユーザが電子ファイルEFの閲覧をしようとすると、まずPC100は、電子ファイル送信要求をサーバ50に対して行う(S03)。サーバ50は、PC100からの電子ファイル送信要求を受信すると、まず書き込み情報データベースDB2から、書き込み詳細情報80を取得する。そして、電子ファイルEFを電子ファイルデータベースDB1から取得し、その電子ファイルEFに含まれるテキスト群T全てについて、テキスト群特徴量Tvを算出する(S04)。そして、算出したテキスト群特徴量Tvを新テキスト群特徴量Tnvとして、一旦書き込み情報データベースDB2へ記憶する。
次に、サーバ50は、旧テキスト群特徴量Tovおよび新テキスト群特徴量Tnvに基づいて、DPマッチングを含む対応付け処理を行い、各旧テキスト群Toに対して各新テキスト群Tnを対応付ける処理を行う(S05)。なお、この処理の詳細については後述する。そして、対応付け処理の結果に基づいて、書き込み情報81が属する旧テキスト群Toに対応する新テキスト群Tnを特定する(テキスト群特定ステップ)(S06)。対応する新テキスト群Tnが特定できた場合(S06:Yes)、書き込みがメモ書きであるときは、メモ書きを電子ファイルEFの対応付けられたテキスト群Tの所定位置に反映する(S07)。また、書き込みがマーキングであるときは、さらに特定された新テキスト群Tnに含まれる、文字列S全ての文字列特徴量Svを算出して(S08)、これを新文字列特徴量Snvとして一旦書き込み情報データベースDB2へ記憶する。そして、旧文字列特徴量Sovおよび新文字列特徴量Snvに基づいてDPマッチングを含む対応付け処理を行い、対応するテキスト群Tにおいて、さらに各旧文字列Soに対して各新文字列Snを対応付ける処理を行う(S09)。
そして、対応付け処理の結果に基づいて、マーキングが属する旧文字列Soに対応する新文字列Snを特定する(文字列特定ステップ)(S10)。対応する新文字列Snを特定できた場合(S10:Yes)、書き込み情報81として記憶していた、「マーキングされた文字のテキストデータ」に基づいて、マーキングを電子ファイルEFに対して反映する(S11)。また、対応する新文字列Snが存在しない場合(S10:No)、マーキングを削除する(S12)。
一方、対応する新テキスト群Tnが特定できない場合(S06:No)、書き込み情報81を削除する(S13)。そして、記憶していた書き込み情報81を全て処理したか否かを判定し(S14)、未処理の書き込み情報81がある場合には(S14:No)、次の書き込み情報81について処理を続行する。このようにして、書き込み情報81の処理を全て終了すると(S14:Yes)、サーバ50は、書き込み情報81が反映された電子ファイルEFをPC100へ送信する。
なお、対応するテキスト群Tが特定できない場合でも(S06:No)、書き込み情報81がメモ書きである場合には、書き込み情報保存時に、電子ファイル上における各テキスト群の順序に関する順序情報をさらに記憶しておき、メモ書きが属していた旧テキスト群Toの、直前または直後に位置していたテキスト群Toに対応する新テキスト群Tnに、メモ書きを反映させる構成でもよい。例えば、旧テキスト群To2にメモ書きが書き込まれ、電子ファイルEFの更新によって旧テキスト群To2が削除された場合、旧テキスト群To2の直前に位置していた旧テキスト群To1に対応する新テキスト群Tn1、あるいは旧テキスト群To2の直後に位置していた旧テキスト群To3に対応する新テキスト群Tn3にメモ書き情報を反映させる。
また、書き込み情報81を記憶してから、書き込み情報81を反映するまでの間に、電子ファイルEFの更新を行っている場合には、電子ファイル更新時に、新テキスト群特徴量Tnvおよび新文字列特徴量Snvを既に算出し記憶しているので、書き込み情報反映時に行われる新テキスト群特徴量Tnvおよび新文字列特徴量Snvの算出処理(S04、S08に該当)は省略される。
ここで、サーバ50が行う旧テキスト群Toに対する新テキスト群Tnの対応付け処理について説明する。まず、書き込み情報81が保存されてから、書き込み情報81が反映されるまでの間に、電子ファイルEFが更新されていない場合について説明する。
旧テキスト群Toに対する新テキスト群Tnの対応付けには、最初にDPマッチング等のマッチング処理を実行する(テキスト群マッチングステップ)。そして、DPマッチングによって対応付けられた、旧テキスト群Toと新テキスト群Tnとの組み合わせにおいて、旧テキスト群特徴量Tovと、新テキスト群特徴量Tnvとの差異が所定の閾値未満であるかどうかを判定する処理を行う(テキスト群判定ステップ)。電子ファイルEFが更新されていない場合、各旧テキスト群Toと各新テキスト群Tnとにおいて、その内容は全く同一である。従って、当然対応付けられた新テキスト群特徴量Tnvとの差異は所定の閾値未満となり、マッチングによって対応付けられた旧テキスト群Toと新テキスト群Tnとの組み合わせを、対応するテキスト群Tとして特定する。なお、「DPマッチング」とは、動的計画法によるパターンマッチングを意味し、2つのパターンの要素間の対応付けを行いながら類似度を計算する方法を指すものである。
一方、書き込み情報81を記憶してから、書き込み情報81を反映するまでの間に、電子ファイルEFが更新されていた場合には、更新されなかった場合のように容易に対応するテキスト群Tが定まるとは限らない。そこで、電子ファイルEFが更新された場合について、図9〜図12に示す4種の例を挙げて説明する。
図9に示す例は、書き込み情報記憶時の電子ファイルEFに、旧テキスト群To1、旧テキスト群To2、旧テキスト群To3、旧テキスト群To4、旧テキスト群To5の順序から成る5つのテキスト群Tが含まれ、旧テキスト群To2の内容を変更し電子ファイルEFを更新した例を示している。この場合、まずDPマッチング等のマッチング処理を行うと、旧テキスト群To1〜To5に対してそれぞれ新テキスト群Tn1〜Tn5が対応付けられる(図9参照)。
そして、マッチングによって対応付けられた、旧テキスト群Toと新テキスト群Tnとの組み合わせにおいて、旧テキスト群特徴量Tovと、新テキスト群特徴量Tnvとの差異が所定の閾値未満であるかどうかを判定する処理を行う。旧テキスト群To1と新テキスト群Tn1、および旧テキスト群To3〜To5と新テキスト群Tn3〜Tn5の組み合わせについては、旧テキスト群特徴量Tovと、新テキスト群特徴量Tnvとの差異は所定の閾値未満であり、対応するテキスト群Tとして特定される。
しかし、旧テキスト群To2の内容は変更され、新テキスト群Tn2の内容とは異なることから、旧テキスト群To2の旧テキスト群特徴量Tovと新テキスト群Tn2の新テキスト群特徴量Tnvとは異なるものとなる。例えば、図7(a)に示す電子ファイルEFにおいて、テキスト群Tbの内容が変更され、テキスト群Tb′になった場合、テキスト群Tb′のテキスト群特徴量Tvb′は、図7(b)に示す通りとなる。
よってこの場合、旧テキスト群To2の旧テキスト群特徴量Tovと新テキスト群Tn2の新テキスト群特徴量Tnvとの差異が所定の閾値未満である場合には、旧テキスト群To2に対応するテキスト群を新テキスト群Tn2として特定する。また、旧テキスト群To2の旧テキスト群特徴量Tovと新テキスト群Tn2の新テキスト群特徴量Tnvとの差異が所定の閾値以上である場合、旧テキスト群To2に対応するテキスト群Tはないものと判定する。
図10に示す例は、書き込み情報記憶時の電子ファイルEFに、旧テキスト群To1、旧テキスト群To2、旧テキスト群To3、旧テキスト群To4、旧テキスト群To5の順序から成る5つのテキスト群Tが含まれ、旧テキスト群To2を削除して電子ファイルEFを更新した例を示している。この場合、マッチングを行った結果の一例として、図10に示すとおり、新テキスト群Tn1に対して、旧テキスト群To1および旧テキスト群To2の2つのテキスト群Tが対応付けられる。なお、旧テキスト群To3〜To5に対しては、それぞれ新テキスト群Tn3〜Tn5が対応付けられ、対応するテキスト群Tとして特定される。
このように、1のテキスト群Tに対して複数のテキスト群Tが対応付けられた場合、これらのテキスト群T全ての組み合わせにおいて、旧テキスト群特徴量Tovと新テキスト群特徴量Tnvとの差異を判定し、そして、その差異が所定の閾値未満となった組み合わせを、対応するテキスト群Tとして特定する。図10に示す例の場合、旧テキスト群To1と新テキスト群Tn1、および旧テキスト群To2と新テキスト群Tn1、の2つの組み合わせにおいて、旧テキスト群特徴量Tovと新テキスト群特徴量Tnvとの差異を判定する。
旧テキスト群To1と新テキスト群Tn1との内容は同一であり当然特徴量の差は所定の閾値未満となる。従って、旧テキスト群To1と新テキスト群Tn1の組み合わせを対応するテキスト群Tとして特定する。なお、テキスト群特徴量Tvの差異が所定の閾値未満となった組み合わせが複数存在する場合には、テキスト群特徴量Tvの差異が最小となる組み合わせを対応するテキスト群Tとして特定する。
図11に示す例は、書き込み情報記憶時の電子ファイルEFに、旧テキスト群To1、旧テキスト群To2、旧テキスト群To3、旧テキスト群To4、旧テキスト群To5の順序から成る5つのテキスト群Tが含まれ、旧テキスト群To2を旧テキスト群To4と旧テキスト群To5との間に移動して電子ファイルEFを更新した例を示している。この場合、マッチングを行った結果の一例として、図11に示すとおり、新テキスト群Tn1に対して、旧テキスト群To1および旧テキスト群To2の2つのテキスト群Tが対応付けられ、さらに旧テキスト群To4に対して、新テキスト群Tn4および新テキスト群Tn2の2つのテキスト群Tが対応付けられている。なお、旧テキスト群To3、To5に対しては、それぞれ新テキスト群Tn3、Tn5が対応付けられ、対応するテキスト群Tとして特定される。
この場合、新テキスト群Tn1に対する旧テキスト群To1および旧テキスト群To2の組み合わせと、旧テキスト群To4に対する新テキスト群Tn4および新テキスト群Tn2の組み合わせそれぞれについて、図10に示す例で説明したようにテキスト群特徴量Tvの差を判定する構成でもよいが、ここでは異なる方法を説明する。
図11に示す例では、対応付けが特定されていない旧テキスト群To1、旧テキスト群To2、旧テキスト群To4、新テキスト群Tn1、新テキスト群Tn4並びに新テキスト群Tn2について、各旧テキスト群Toの旧テキスト群特徴量Tovと、各新テキスト群Tnの新テキスト群特徴量Tnvとの差を、全ての組み合わせ分合計した合計値Dが最小となる組み合わせを算出する(テキスト群特徴量差合計値算出ステップ)。例えば、旧テキスト群To1と新テキスト群Tn1、旧テキスト群To2と新テキスト群Tn4、旧テキスト群To4と新テキスト群Tn2、の組み合わせにおける合計値Dは以下に示す計算式で算出される。
Figure 0004621514
すなわち、旧テキスト群To1、旧テキスト群To2、旧テキスト群To4、新テキスト群Tn1、新テキスト群Tn4並びに新テキスト群Tn2において、旧テキスト群Toと新テキスト群Tnとの組み合わせは、6組存在する。この6つの各組み合わせにおいて、各旧テキスト群Toの旧テキスト群特徴量Tovと、各新テキスト群Tnの新テキスト群特徴量Tnvとの差を、全ての組み合わせ分合計した合計値Dを算出し、その値が最小となる合計値Dの組み合わせを求める。このような処理を行った結果、図13に示すように、旧テキスト群To1には新テキスト群Tn1が、旧テキスト群To2には新テキスト群Tn2が、旧テキスト群To4には新テキスト群Tn4がそれぞれ対応付けられることによって、対応するテキスト群Tを全てのテキスト群Tについて特定することができる。
なお、上述した各旧テキスト群Toのテキスト群特徴量Tovと各新テキスト群Tnのテキスト群特徴量Tnvとの差を、全ての組み合わせ分合計した合計値Dが最小となる組み合わせを算出する処理は、最大、テキスト群Tの数の2乗まで計算量が膨大となるので、遺伝的アルゴリズムを用いて算出することが好ましい。
図12に示す例は、書き込み情報記憶時の電子ファイルEFに、旧テキスト群To1、旧テキスト群To2、旧テキスト群To3、旧テキスト群To4、旧テキスト群To5、旧テキスト群To6の順序から成る6つのテキスト群Tが含まれ、旧テキスト群To3と旧テキスト群To4との間に、新テキスト群Tn7および新テキスト群Tn8を追加し、さらに旧テキスト群To5を削除して電子ファイルEFを更新した例を示している。この場合、マッチングを行った結果の一例として、図12に示すとおり、旧テキスト群To4に対して、新テキスト群Tn7、新テキスト群Tn8、新テキスト群Tn4の3つのテキスト群Tがそれぞれ対応付けられ、新テキスト群Tn6に対して、旧テキスト群To5および旧テキスト群To6の2つのテキスト群Tが対応付けられている。なお、旧テキスト群To1〜To3に対しては、それぞれ新テキスト群Tn1〜Tn3が対応付けられ、対応するテキスト群Tとして特定される。
この場合、図11に示して説明した例と同様に、対応付けが特定されていない旧テキスト群To4、旧テキスト群To5、旧テキスト群To6、新テキスト群Tn7、新テキスト群Tn8、新テキスト群Tn4並びに新テキスト群Tn6について、各旧テキスト群Toのテキスト群特徴量Tovと、各新テキスト群Tnのテキスト群特徴量Tnvとの差を全ての組み合わせ分合計した合計値Dが、最小となる組み合わせを算出する。ところで、テキスト群Tの追加/削除によって、書き込み情報記憶時の電子ファイルEFに含まれるテキスト群Toの数と、書き込み情報反映時の電子ファイルEFに含まれるテキスト群Tnの数とが異なる場合、旧テキスト群Toの数をn個、新テキスト群Tnの数をm個とすると、その対応付けは、図14に示すように、n+1×m+1のマトリクスで表すことが可能である。
すなわち、旧テキスト群To4、旧テキスト群To5、旧テキスト群To6、新テキスト群Tn7、新テキスト群Tn8、新テキスト群Tn4並びに新テキスト群Tn6について、各旧テキスト群Toのテキスト群特徴量Tovと、各新テキスト群Tnのテキスト群特徴量Tnvとの差を、全ての組み合わせ分合計した合計値Dが、最小となる組み合わせを算出すると、更新によって削除された旧テキスト群To5は、同図に示すマトリクスにおいてm+1に該当する箇所にはじき出され、また更新によって新たに追加された新テキスト群Tn7および新テキスト群Tn8は、n+1に該当する箇所にはじき出される。このようにして、対応するテキスト群Tをそれぞれ特定することができる。
さらに、サーバ50が行う旧文字列Soに対する新文字列Snの対応付け処理について説明する。文字列Sの対応付け処理は図15に示すように、旧テキスト群Toに含まれる旧文字列Soと、旧テキスト群Toに対応付けされた新テキスト群Tnに含まれる新文字列Snとの対応付けを行うものである。文字列Sの対応付け処理には、テキスト群Tと同様に、各文字列Sの文字列特徴量Svを算出し、算出した文字列特徴量Svを用いてDPマッチング等を行い対応付けを特定する。
例えば、図15に示す旧テキスト群To1における、旧文字列So1〜So5について、それぞれの旧文字列特徴量Sov1〜Sov5を算出する。また、新テキスト群T1における新文字列Sn1〜Sn5について、それぞれの新文字列特徴量Snv1〜Snv5を算出する。そして、旧文字列So1〜So5の旧文字列特徴量Sov1〜Sov5と、新文字列Sn1〜Sn5の新文字列特徴量Snv1〜Snv5を用いて、DPマッチング等を行い対応付けを特定する。なお、文字列Sの対応付け処理については、テキスト群Tの対応付け処理において行った説明と同様であり詳細(文字列マッチングステップ、文字列判定ステップ、文字列特徴量差合計値算出ステップ)については省略する。
書き込み情報がマーキングである場合、対応する文字列Sを特定した後、さらに書き込み情報として記憶した「マーキングされた文字のテキストデータ」に基づいて、対応する文字列Sからマーキングされた文字を特定し、サーバ50は電子ファイルEFに対してマーキングを反映する。
例えば図16に示すように、PC100から受信して取得した書き込み詳細情報80(書き込み情報81:「ネットワーク層」位置情報82:「テキスト群3、文字列1」)が書き込み情報データベースDB2に記憶され、旧テキスト群To全ての旧テキスト群特徴量Tov、および新テキスト群Tn全ての新テキスト群特徴量Tnvをテキスト群特定情報90として記憶し、旧テキスト群To3に含まれる文字列So全ての文字列特徴量Sov、および新テキスト群Tn3に含まれる文字列Sn全ての文字列特徴量Snvを文字特定情報95として書き込み情報データベースDB2に記憶している場合、サーバ50は位置情報82およびテキスト群特定情報90に基づいてテキスト群T3(旧テキスト群To3)に対応するテキスト群Tを新テキスト群Tn3として特定する。
さらに、位置情報82および文字特定情報95に基づいて、新テキスト群Tn3の中から、旧テキスト群To3に含まれる文字列1「ネットワーク層〜用いられる。」(旧文字列So1)に対応する文字列「ネットワーク層〜用いられる。」を新文字列Sn1として特定する。そして、新文字列Sn1「ネットワーク層〜用いられる。」の中から、書き込み情報81として記憶した「ネットワーク層」をさらに特定し、マーキングを反映させる。
なお、文字列S単位でマーキングを反映させる構成でもよい。この場合、ユーザが図16に示す旧文字列So1に含まれる「ネットワーク層」にマーキングを行うと、新文字列Sn1「ネットワーク層〜用いられる。」全てにマーキングが反映される。この構成によれば、「マーキングされた文字列のテキストデータ」を記憶する必要がない。また、文字列Sの内容が若干変更したような場合にも、文字列S単位でマーキング情報を反映させることによる利点がある。
例えば「日本の都市は、東京や大阪である。」という文字列Sにマーキングを行い、その文字列Sが「日本の都市は、東京、大阪、並びに名古屋である。」と変更された場合、対応する文字列Sを特定しさらに「マーキングされた文字列のテキストデータ」を特定する構成では、対応する文字列S「日本の都市は、東京、大阪、並びに名古屋である。」の中から「日本の都市は、東京や大阪である。」を特定するので、マーキングは「日本の都市は、東京」「大阪」および「である。」の文字列に対して反映される。しかし、文字列S単位でマーキング情報を反映させることによって、文字列S「日本の都市は、東京、大阪、並びに名古屋である。」全体に対してマーキングを反映させることができる。
また、マーキングの書き込み時におけるユーザの選択に基づいて、図17に示すマーキング種別情報97を書き込み情報81としてさらに記憶し、記憶したマーキング種別情報97に基づいて、マーキング情報を反映させる構成でもよい。この構成によれば、直線、波線、二重線、下線、点線など多様なマーキングを電子ファイルEFに書き込み、反映させることが可能となる。
なお、マーキングやメモ書きといった書き込み情報81として画像を書き込む構成でもよい。この場合、位置情報82として、表示画面のサイズに関する情報と、テキスト群Tに対する書き込み情報81の相対的な位置に関する情報をPC100が取得し、サーバ50に送信する構成となる。この構成によれば、ユーザが電子ファイルEFに描画した画像を、サーバ50はそのまま書き込み情報81として電子ファイルEFに対して反映することができるので、ユーザによる書き込み処理の自由度をより高めることができる。さらにこの場合、PC100に接続されたペンを用いて、ユーザがディスプレイ109に画像を描画することも可能である。
また、電子ファイルデータベースDB1、および書き込み情報データベースDB2をそれぞれ別のサーバで構成してもよい。この構成によれば、書き込み情報データベースDB2を記憶するサーバのメモリ負担が軽くなるので、書き込み情報を反映させるための処理能力を高めることができる。
なお、電子ファイルEFにはテキスト群Tに加えて画像や動画が含まれていてもよい。また、位置情報82として、表示画面のサイズに関する情報と、表示画面に対する位置(座標)を記憶する構成でもよい。
また、上述した実施例によらず、電子ファイル書き込みシステム1の装置構成や処理工程等について、本発明の要旨を逸脱しない範囲で、適宜変更も可能である。
本実施形態に係る電子ファイル書き込みシステムの全体図である。 電子ファイル書き込みシステムのハードウェア構成を示す図である。 電子ファイルの一例を示す図である。 電子ファイルへのメモ書き操作の一例を示す説明図である。 電子ファイルへのマーキング操作の一例を示す説明図である。 書き込み情報が反映された電子ファイルの一例を示す図である。 テキスト群特徴量を説明するための説明図である。 書き込み情報の記憶から書き込み情報の反映までの流れを示すフローチャートである。 テキスト群のマッチング処理結果の一例を示す図である。 テキスト群のマッチング処理結果の他の例を示す図である。 テキスト群のマッチング処理結果の他の例を示す図である。 テキスト群のマッチング処理結果の他の例を示す図である。 テキスト群の対応付け処理の処理結果の一例を示す図である。 テキスト群の対応付け処理の処理結果の他の例を示す図である。 文字列の対応付け処理を説明するための説明図である。 文字列の対応付け処理を説明するための説明図である。 マーキング種別情報を表す図である。
符号の説明
1 電子ファイル書き込みシステム 50 サーバ
60 データ処理部 70 更新手段
80 書き込み詳細情報 81 書き込み情報
82 位置情報 90 テキスト群特定情報
95 文字特定情報 100 クライアントPC
120 書き込み手段 130 送信手段
P 書き込み情報反映プログラム
DB1 電子ファイルデータベース DB2 書き込み情報データベース
T テキスト群 To 旧テキスト群
Tn 新テキスト群 Tv テキスト群特徴量
Sv 文字列特徴量 S 文字列
So 旧文字列 Sn 新文字列

Claims (5)

  1. 1以上のテキスト群を含む電子ファイルに書き込みを行うための情報端末と、当該情報端末に接続され、前記電子ファイルを記憶するサーバと、から構成されるネットワークシステムにおいて、更新前のテキスト文書に含まれるテキスト群である1以上の旧テキスト群に対して、当該テキスト文書が更新された更新後テキスト文書に含まれるテキスト群である1以上の新テキスト群を、それぞれ対応付けるテキスト群特定方法であって、
    前記旧テキスト群および新テキスト群全てについて、それらの特徴量であるテキスト群特徴量を算出するテキスト群特徴量算出ステップと、
    前記テキスト群特徴量を用いてマッチングを行い、前記各旧テキスト群と、前記各新テキスト群との対応付けを行うテキスト群マッチングステップと、
    前記各旧テキスト群のテキスト群特徴量と、前記テキスト群マッチングステップによって当該各旧テキスト群に対応付けられた前記各新テキスト群のテキスト群特徴量との差異が、所定の閾値未満であるかを判定するテキスト群判定ステップと、
    前記テキスト群判定ステップによって、前記両テキスト群特徴量の差異が前記所定の閾値未満であると判定された旧テキスト群と新テキスト群の組み合わせを、対応するテキスト群として特定するテキスト群特定ステップと、
    を備え、
    前記テキスト群マッチングステップによって、
    新旧いずれか一方の1のテキスト群に対して、他方のn(nは2以上の整数)個のテキスト群が対応付けられた場合、
    前記テキスト群判定ステップは、
    前記1のテキスト群に対するn個の組み合わせについて、前記テキスト群特徴量の差異
    が所定の閾値未満であるかを判定し、
    前記テキスト群特定ステップは、
    前記テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが1つの
    場合、当該組み合わせを対応するテキスト群として特定し、
    前記テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが複数の
    場合、前記テキスト群特徴量の差異が最小となる組み合わせを対応するテキスト群として
    特定することを特徴とするテキスト群特定方法。
  2. 前記テキスト群は、1以上の句読点および/または改行位置で区切られる文字列から構
    成されており、
    前記旧テキスト群に含まれる文字列である1以上の旧文字列と、当該旧テキスト群に対
    応する新テキスト群に含まれる文字列である1以上の新文字列と、において、
    前記各旧文字列および前記各新文字列の全てについて、それらの特徴量である文字列特
    徴量を算出する文字列特徴量算出ステップと、
    前記文字列特徴量を用いてマッチングを行い、前記各旧文字列と前記各新文字列との対応付けを行う文字列マッチングステップと、
    前記各旧文字列の文字列特徴量と、前記文字列マッチングステップによって当該各旧文字列に対応付けられた前記各新文字列の文字列特徴量との差異が、所定の閾値未満であるかを判定する文字列判定ステップと、
    前記文字列判定ステップによって、前記両文字列特徴量の差異が前記所定の閾値未満であると判定された旧文字列と新文字列の組み合わせを、対応する文字列として特定する文字列特定ステップと、
    を備え
    前記文字列マッチングステップによって、
    新旧いずれか一方の1の文字列に対して、他方のn(nは2以上の整数)個の文字列が対応付けられた場合、
    前記文字列判定ステップは、
    前記1の文字列に対するn個の組み合わせについて、前記文字列特徴量の差異が所定の
    閾値未満であるかを判定し、
    前記文字列特定ステップは、
    前記文字列特徴量の差異が所定の閾値未満であると判定された組み合わせが1つの場合、当該組み合わせを対応する文字列として特定し、
    前記文字列特徴量の差異が所定の閾値未満であると判定された組み合わせが複数の場合、前記文字列特徴量の差異が最小となる組み合わせを対応する文字列として特定することを特徴とする請求項に記載のテキスト群特定方法。
  3. 前記テキスト群特徴量および前記文字列特徴量は、前記テキスト群および前記文字列を形態素解析して得られた各単語のTFIDF値を要素とする多次元ベクトルで表されることを特徴とする請求項ないしのいずれか1項に記載のテキスト群特定方法。
  4. コンピュータに、請求項1ないしのいずれか1項に記載のテキスト群特定方法における各ステップを実行させるためのプログラム。
  5. 1以上のテキスト群を含む電子ファイルに書き込みを行うための情報端末と、当該情報端末に接続され、前記電子ファイルを記憶するサーバと、から構成される電子ファイル管理システムであって、電子ファイルを更新する以前のテキスト文書に含まれるテキスト群である1以上の旧テキスト群および、当該テキスト文書が更新された更新後テキスト文書に含まれるテキスト群である1以上の新テキスト群全てについて、それらの特徴量であるテキスト群特徴量を算出するテキスト群特徴量算出手段と、
    前記テキスト群特徴量を用いてマッチングを行い、前記各旧テキスト群と、前記各新テキスト群との対応付けを行うテキスト群マッチング手段と、
    前記各旧テキスト群のテキスト群特徴量と、前記テキスト群マッチングステップによって当該各旧テキスト群に対応付けられた前記各新テキスト群のテキスト群特徴量との差異が、所定の閾値未満であるかを判定するテキスト群判定手段と、
    前記テキスト群判定手段によって、前記両テキスト群特徴量の差異が前記所定の閾値未満であると判定された旧テキスト群と新テキスト群の組み合わせを、対応するテキスト群として特定するテキスト群特定手段と、
    を備え、
    前記テキスト群マッチング手段によって、新旧いずれか一方の1のテキスト群に対して、他方のn(nは2以上の整数)個のテキスト群が対応付けられた場合、
    前記テキスト群判定手段は、
    前記1のテキスト群に対するn個の組み合わせについて、前記テキスト群特徴量の差異
    が所定の閾値未満であるかを判定し、
    前記テキスト群特定手段は、
    前記テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが1つの
    場合、当該組み合わせを対応するテキスト群として特定し、
    前記テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが複数の
    場合、前記テキスト群特徴量の差異が最小となる組み合わせを対応するテキスト群として
    特定することを特徴とする電子ファイル管理システム。
JP2005058483A 2005-03-03 2005-03-03 テキスト群特定方法、プログラム、電子ファイル管理システム Expired - Fee Related JP4621514B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005058483A JP4621514B2 (ja) 2005-03-03 2005-03-03 テキスト群特定方法、プログラム、電子ファイル管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005058483A JP4621514B2 (ja) 2005-03-03 2005-03-03 テキスト群特定方法、プログラム、電子ファイル管理システム

Publications (3)

Publication Number Publication Date
JP2006244105A JP2006244105A (ja) 2006-09-14
JP2006244105A5 JP2006244105A5 (ja) 2008-02-14
JP4621514B2 true JP4621514B2 (ja) 2011-01-26

Family

ID=37050462

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005058483A Expired - Fee Related JP4621514B2 (ja) 2005-03-03 2005-03-03 テキスト群特定方法、プログラム、電子ファイル管理システム

Country Status (1)

Country Link
JP (1) JP4621514B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5209340B2 (ja) * 2008-02-22 2013-06-12 株式会社東芝 レポート作成システム及びレポート作成装置
WO2021124525A1 (ja) 2019-12-19 2021-06-24 日本電信電話株式会社 名称データ対応付け装置、名称データ対応付け方法及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003280903A (ja) * 2002-03-26 2003-10-03 Hitachi Software Eng Co Ltd ソースプログラム比較情報生成システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3477812B2 (ja) * 1994-04-21 2003-12-10 富士ゼロックス株式会社 文書処理装置および方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003280903A (ja) * 2002-03-26 2003-10-03 Hitachi Software Eng Co Ltd ソースプログラム比較情報生成システム

Also Published As

Publication number Publication date
JP2006244105A (ja) 2006-09-14

Similar Documents

Publication Publication Date Title
US7552400B1 (en) System and method for navigating within a graphical user interface without using a pointing device
US6389435B1 (en) Method and system for copying a freeform digital ink mark on an object to a related object
US8200676B2 (en) User interface for geographic search
US8510646B1 (en) Method and system for contextually placed chat-like annotations
CN100429646C (zh) 包括手写数据的电子文档的显示装置及方法
US20080109762A1 (en) Visual document user interface system
US20090249178A1 (en) Document linking
US20070298399A1 (en) Process and system for producing electronic book allowing note and corrigendum sharing as well as differential update
US20080021891A1 (en) Searching a document using relevance feedback
JPH1196166A (ja) 文書情報管理システム
US20180165253A1 (en) Information architecture for the interactive environment
US20030074416A1 (en) Method of establishing a navigation mark for a web page
EP1881417A1 (en) Process and system for producing an electronic book
US7519579B2 (en) Method and system for updating a summary page of a document
JP2006004298A (ja) 文書処理装置、文書処理方法及び文書処理プログラム
US8943431B2 (en) Text operations in a bitmap-based document
JP3356519B2 (ja) 文書情報検索装置
JP4683963B2 (ja) 電子ファイル書き込みシステム、プログラム、電子ファイルへの書き込み情報反映方法
JP4621514B2 (ja) テキスト群特定方法、プログラム、電子ファイル管理システム
US7788283B2 (en) On demand data proxy
JPH07129605A (ja) 文書検索装置
JP2016170676A (ja) 電子ホワイトボードシステム、電子ホワイトボード検索結果表示方法およびそのプログラム
US11995129B2 (en) System and method for annotating website content
KR20120134054A (ko) 사용자 주석 처리 장치 및 그를 위한 전자책 서비스 시스템 및 방법
US11430166B1 (en) Facilitating generation of number-bullet objects

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070404

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101019

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101101

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4621514

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees