JP4621514B2

JP4621514B2 - テキスト群特定方法、プログラム、電子ファイル管理システム

Info

Publication number: JP4621514B2
Application number: JP2005058483A
Authority: JP
Inventors: 和義長保; 泰不破
Original assignee: Seiko Epson Corp; Shinshu University NUC
Current assignee: Seiko Epson Corp; Shinshu University NUC
Priority date: 2005-03-03
Filing date: 2005-03-03
Publication date: 2011-01-26
Anticipated expiration: 2025-03-03
Also published as: JP2006244105A

Description

本発明は、更新前のテキスト文書に含まれるテキスト群に対して、このテキスト文書が更新された、更新後テキスト文書に含まれる１以上のテキスト群を、それぞれ対応付けるテキスト群特定方法、プログラム、電子ファイル管理システムに関するものである。

近年、インターネットやイントラネットを介して閲覧されるＷｅｂファイルといった電子ファイルは、単なる情報提供に限らず、様々な利用方法が知られている。その一例として、電子教育システム（ｅ−ラーニングシステム）が挙げられる（例えば特許文献１参照）。この電子教育システムとは、教材となる電子ファイルを、ユーザ（生徒）がインターネット等を利用して閲覧し、学習を進める自主自習型の教育システムである。

この教育システムによれば、図や動画等を用いたより効果的なマルチメディア教材の提供が可能であるだけでなく、大勢の生徒を一箇所に集合させて講義を行う必要がないので、コストを大幅に削減することが実現可能であるとともに、ユーザ（生徒）にとっても自身の都合に合わせて学習を進めることができるといった利点がある。さらに、多数の生徒に教材となる印刷物を配布する必要がなく、また、教材の内容変更に伴う更新も容易であることから、教材の作成コストを大幅に軽減させることができるので、従来の講義形式で学習を進める場合にも、この電子教育システムが導入されつつある。
特開平１１−２８２８２６号公報

しかし、ユーザが学習を進めるうえで、教材である電子ファイルに対して、メモ書きやマーキングといった書き込み情報の書き込みを行う場合には、通常教材をプリントアウトし、プリントアウトした出力物に対して、メモ書きやマーキングを行うといった煩雑な作業を行っている。また、教材である電子ファイルに、メモ書きやマーキングを書き込むことができる場合でも、電子ファイルを表示する表示層、書き込みを行うための書き込み層との２層を構成し、これらを特定のサイズで固定的に表示しているため、電子ファイルの表示サイズは常に固定される。従って、ユーザは電子ファイルの表示サイズを所望のサイズに変更できない。

さらに、教材の内容（例えば電子ファイルのテキスト文書）が変更／更新された場合には、書き込み情報の位置を特定するのが困難であり、書き込み情報を反映することができない。つまり、例えば更新前のテキスト文書における任意の段落（テキスト群）にマーキングを行った場合、段落を追加してテキスト文書を更新すると、マーキングを行った段落の位置がずれてしまうため、マーキングを反映するべき段落の特定が困難であった。このような問題を解決するために、各段落に段落番号を付して管理するといった方法が考えられるが、テキスト文書の更新によって段落の追加、削除、移動等が繰り返されるため、段落番号による管理は適当ではない。

本発明は、上記の問題に鑑み、電子ファイルのテキスト文書が更新／変更された場合でも、更新前のテキスト文書に含まれるテキスト群と、更新後のテキスト文書に含まれるテキスト群との対応付けを効率的に行い得るテキスト群特定方法、プログラム、電子ファイル管理システムを提供することをその課題とする。

本発明のテキスト群特定方法は、１以上のテキスト群を含む電子ファイルに書き込みを行うための情報端末と、情報端末に接続され、電子ファイルを記憶するサーバと、から構成されるネットワークシステムにおいて、更新前のテキスト文書に含まれるテキスト群である１以上の旧テキスト群に対して、当該テキスト文書が更新された更新後テキスト文書に含まれるテキスト群である１以上の新テキスト群を、それぞれ対応付けるテキスト群特定方法であって、旧テキスト群および新テキスト群全てについて、それらの特徴量であるテキスト群特徴量を算出するテキスト群特徴量算出ステップと、テキスト群特徴量を用いてマッチングを行い、各旧テキスト群と、各新テキスト群との対応付けを行うテキスト群マッチングステップと、各旧テキスト群のテキスト群特徴量と、テキスト群マッチングステップによって当該各旧テキスト群に対応付けられた各新テキスト群のテキスト群特徴量との差異が、所定の閾値未満であるかを判定するテキスト群判定ステップと、テキスト群判定ステップによって、両テキスト群特徴量の差異が所定の閾値未満であると判定された旧テキスト群と新テキスト群の組み合わせを、対応するテキスト群として特定するテキスト群特定ステップと、を備え、テキスト群マッチングステップによって、新旧いずれか一方の１のテキスト群に対して、他方のｎ（ｎは２以上の整数）個のテキスト群が対応付けられた場合、テキスト群判定ステップは、１のテキスト群に対するｎ個の組み合わせについて、テキスト群特徴量の差異が所定の閾値未満であるかを判定し、テキスト群特定ステップは、テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが１つの場合、当該組み合わせを対応するテキスト群として特定し、テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが複数の場合、テキスト群特徴量の差異が最小となる組み合わせを対応するテキスト群として特定することを特徴とする。

これらの構成によれば、更新前のテキスト文書、および更新後のテキスト文書に含まれるテキスト群全てについて、テキスト群を表すテキスト群の特徴量を算出し、算出したその特徴量に基づいて、更新前のテキスト文書に含まれる各テキスト群に対して、更新後のテキスト文書に含まれる各テキスト群を対応付けることができる。すなわち、更新前のテキスト文書と、更新後のテキスト文書との対応付けを効率よく行うことが可能となる。

さらに、この構成によれば、マッチングの結果、対応付けられた２つのテキスト群の特徴量の差が所定の閾値未満である組み合わせを、対応するテキスト群として特定する、すなわち一定以上の類似度を有するテキスト群の組み合わせを、対応するテキスト群として特定するので、更新前のテキスト群に対して、若干の変更が加えられた場合にも、対応するテキスト群を正しく特定することが可能となる。
また、マッチングの方法としてＤＰマッチングを採用することにより、計算量を少なくすることが出来るといった利点がある。なお、「ＤＰマッチング」とは、動的計画法によるパターンマッチングを意味し、二つのパターンの要素間の対応付けを行いながら類似度を計算する方法を指すものである。

また、この場合、テキスト群マッチングステップによって、新旧いずれか一方の１のテキスト群に対して、他方のｎ（ｎは２以上の整数）個のテキスト群が対応付けられた場合、テキスト群判定ステップは、１のテキスト群に対するｎ個の組み合わせについて、テキスト群特徴量の差異が所定の閾値未満であるかを判定し、テキスト群特定ステップは、テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが１つの場合、当該組み合わせを対応するテキスト群として特定し、テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが複数の場合、テキスト群特徴量の差異が最小となる組み合わせを対応するテキスト群として特定することが好ましい。

この構成によれば、マッチングによって１のテキスト群に対して複数のテキスト群が対応付けされたとしても、個々の組み合わせ毎にテキスト群特徴量を比較することによって、最終的に対応する２つのテキスト群の組み合わせを特定することができる。

さらに、これらの場合、テキスト群は、１以上の句読点および／または改行位置で区切られる文字列から構成されており、旧テキスト群に含まれる文字列である１以上の旧文字列と、当該旧テキスト群に対応する新テキスト群に含まれる文字列である１以上の新文字列と、において、各旧文字列および各新文字列の全てについて、それらの特徴量である文字列特徴量を算出する文字列特徴量算出ステップと、文字列特徴量を用いてマッチングを行い、各旧文字列と各新文字列との対応付けを行う文字列マッチングステップと、各旧文字列の文字列特徴量と、文字列マッチングステップによって当該各旧文字列に対応付けられた各新文字列の文字列特徴量との差異が、所定の閾値未満であるかを判定する文字列判定ステップと、文字列判定ステップによって、両文字列特徴量の差異が前記所定の閾値未満であると判定された旧文字列と新文字列の組み合わせを、対応する文字列として特定する文字列特定ステップと、を備え、文字列マッチングステップによって、新旧いずれか一方の１の文字列に対して、他方のｎ（ｎは２以上の整数）個の文字列が対応付けられた場合、文字列判定ステップは、１の文字列に対するｎ個の組み合わせについて、文字列特徴量の差異が所定の閾値未満であるかを判定し、文字列特定ステップは、文字列特徴量の差異が所定の閾値未満であると判定された組み合わせが１つの場合、当該組み合わせを対応する文字列として特定し、文字列特徴量の差異が所定の閾値未満であると判定された組み合わせが複数の場合、文字列特徴量の差異が最小となる組み合わせを対応する文字列として特定することを特徴とする。

この構成によれば、対応する２つのテキスト群において、各テキスト群に含まれる句読点および／または改行位置で区切られる文字列を表す文字列の特徴量を算出し、更新前の旧テキスト群に含まれる各旧文字列に対して、更新後の新テキスト群に含まれる各新文字列が対応付けられる。すなわち、テキスト群の対応付けに加え、さらに詳細な対応付けとなる文字列の対応付けを効率よく行うことが可能となる。

この構成によれば、マッチングによって１の文字列に対して複数の文字列が対応付けされたとしても、個々の組み合わせ毎に文字列特徴量を比較することによって、最終的に対応する２つの文字列の組み合わせを特定することができる。

これらの場合、テキスト群特徴量および前記文字列特徴量は、テキスト群および文字列を形態素解析して得られた各単語のＴＦＩＤＦ値を要素とする多次元ベクトルで表されることが好ましい。

この構成によれば、今日インターネットの検索エンジンを始めとする情報検索の分野で広く用いられている、ＴＦＩＤＦ方式のパラメータであるＴＦＩＤＦ値を、テキスト群特徴量および文字列群特徴量の算出に用いることにより、算出した各特徴量に基づいて行われる対応付けの処理精度を高めることができる。なお「ＴＦＩＤＦ」とは、（Term Frequency Inverse Document Frequency）の略語である。

本発明のプログラムは、コンピュータに、上記のいずれか１に記載のテキスト群特定方法における各ステップを実行させるものであることを特徴とする。

この構成によれば、電子ファイルのテキスト文書が更新／変更された場合でも、更新前のテキスト文書に含まれるテキスト群と、更新後のテキスト文書に含まれるテキスト群との対応付けを効率的に行い得るためのプログラムを提供することができる。

以下、添付の図面を参照して、本発明のテキスト群特定方法、プログラム、電子ファイル管理システムについて、詳細に説明する。本発明のテキスト群特定方法等は、更新前のテキスト文書に含まれるテキスト群である１以上の旧テキスト群に対して、当該テキスト文書が更新された更新後テキスト文書に含まれるテキスト群である１以上の新テキスト群を、それぞれ対応付けるものである。

そこで、本発明のテキスト群特定方法等を、１以上のテキスト群を含む電子ファイルに書き込みを行うための情報端末と、この情報端末に接続され、電子ファイルを記憶するサーバと、から構成される電子ファイル書き込みシステムに適用して説明する。この電子ファイル書き込みシステムは、例えばインターネットやイントラネットを介して閲覧するＷｅｂファイル等の電子ファイルを教材とし、ユーザ（生徒）がこの電子ファイルを用いて学習を進める形態のｅ−ラーニングシステムに用いられるような、電子ファイルにユーザがメモ書きやマーキングといった書き込みを行うためのシステムである。

本実施形態に係る電子ファイル書き込みシステム１は、図１に示すように、電子ファイルＥＦ（図３参照）および書き込み情報８１（図２参照）を記憶するサーバ５０と、このサーバ５０にネットワーク１５０を介して接続され、電子ファイルＥＦに書き込みを行うための情報端末となるクライアントＰＣ（以下単にＰＣと記載）１００（図では３台表示）と、から構成されている。

ＰＣ１００は、ＷＷＷブラウザ１０６（図２参照）を備え、利用者がＷＷＷブラウザ１０６を介して電子ファイルＥＦを閲覧しようとすると、サーバ５０へ電子ファイルＥＦの送信を要求する。そして、その要求に対してサーバ５０から送信された電子ファイルＥＦを受信し、ディスプレイ１０９（図２参照）に表示する。さらに、表示している電子ファイルＥＦに対して、マーキングやメモ書きといった書き込みを行うための書き込み手段１２０と、ユーザにより書き込み手段１２０を用いて書き込まれた書き込み情報８１、および書き込み情報８１の電子ファイル上の位置を示す位置情報８２、を含む書き込み詳細情報８０（いずれも図２参照）を取得し、サーバ５０へ送信する送信手段１３０と、を有している。なお、書き込み手段１２０は、図２に示すキーボード１１０並びにマウス１１１によってその主要部が構成されている。

サーバ５０は、電子ファイルＥＦを記憶する電子ファイルデータベースＤＢ１と、ＰＣ１００から受信した書き込み詳細情報８０を記憶する書き込み情報データベースＤＢ２と、を有している。また、サーバ５０は、データ処理部６０を有し、データ処理部６０は、ＰＣ１００からの電子ファイルＥＦ送信要求に応じて、書き込み情報８１を電子ファイルＥＦに反映させるための様々な処理を行い、ネットワークインタフェース（ＮＴ−Ｉ／Ｆ）５４（図２参照）と共同して書き込み情報８１を反映した電子ファイルＥＦをＰＣ１００に送信する。

続いて、図２を参照してサーバ５０およびＰＣ１００のハードウェア構成について説明する。サーバ５０は、ネットワーク１５０とのデータ送受信部であるネットワークインタフェース（ＮＴ−Ｉ／Ｆ）５４、サーバ５０で実行される各種処理を制御するＣＰＵ５１、処理プログラム等を記憶するＲＯＭ５２、ワークエリアとなるＲＡＭ５３、および電子ファイルデータベースＤＢ１、書き込み情報データベースＤＢ２等を記憶するハードディスク５５を備え、これらは互いにシステムバス５６を介して互いに接続されている。なお、ハードディスク５５にはＯＳ５７がインストールされている。また、書き込み情報データベースＤＢ２には、ＰＣ１００から受信した書き込み詳細情報８０（書き込み情報８１、位置情報８２）に加え、位置情報８２に基づいて生成したテキスト群特定情報９０および文字特定情報９５（詳細については後述する）が記憶されている。

さらに、サーバ５０は、電子ファイルＥＦを更新するための更新手段７０（図１参照）を有しており、電子ファイルＥＦの内容が変更され更新された電子ファイルＥＦを、元のファイルに上書きして記憶しておくことが可能である。また、サーバ５０のハードディスク５５には、書き込み情報８１を電子ファイルＥＦに反映させるための様々な処理を行うための、書き込み情報反映プログラムＰがインストールされている。

一方、ＰＣ１００は、ネットワーク１５０とのデータ送受信部であるネットワークインタフェース（ＮＴ−Ｉ／Ｆ）１０４、ＰＣ１００で実行される各種処理を制御するＣＰＵ１０１、処理プログラム等を記憶するＲＯＭ１０２、ワークエリアとなるＲＡＭ１０３、ＷＷＷブラウザ１０６を含む各種アプリケーションプログラム１０７、およびＯＳ１０８がインストールされているハードディスク１０５、電子ファイルＥＦを閲覧するためのディスプレイ１０９、閲覧している電子ファイルＥＦに対して、ユーザが書き込みや保存の操作を行うためのキーボード１１０、およびマウス１１１を備え、これらは互いにシステムバス１１２を介して接続されている。

さらに、ユーザが電子ファイルＥＦに対して行う、メモ書きやマーキングといった書き込み操作について図３ないし図６を参照して説明する。図３に示すように、電子ファイルＥＦには、例えば空白行Ｗで区切られる１以上のテキスト群Ｔ（Ｔ１〜Ｔ４）が含まれ、さらに各テキスト群Ｔには、句読点および／または改行位置で区切られる、１以上の文字列Ｓが含まれている（本実施形態では句点で区切られる文字列とする）。また、電子ファイルＥＦ上部には、書き込み情報を保存するための保存ボタン２００が配置されており、利用者は、メモ書きやマーキングといった書き込みを行った後、この保存ボタン２００を選択することによって、書き込み情報を保存する。

図４は、ユーザが電子ファイルＥＦにメモ書きを書き込む操作手順を示している。同図に示すように、ユーザはまずメモ書きを書き込む所望の位置に、マウス１１１やキーボード１１０を用いてカーソルＫを合わせ、例えば右クリック操作等でメニューＭ１を表示させ、「新規メモ作成」を選択する（同図（ａ）参照）。「新規メモ作成」を選択したことによって、メモ書き用ボックスＭＢが表示され、メモ書き用ボックスＭＢ内にメモ書きを書き込む（同図（ｂ）参照）。最後に、書き込んだメモ書きを保存するため、保存ボタン２００を選択する（同図（ｃ）参照）。

図５は、ユーザが電子ファイルＥＦに含まれる文字をマーキングするマーキング操作手順を示している。同図に示すように、まずマーキングを行う所望の位置に、マウス１１１やキーボード１１０を用いてカーソルＫを合わせ、例えば右クリック操作等でメニューＭ１を表示させ、「新規マーキング作成」を選択する（同図（ａ）参照）。そして、マーキングを行う範囲指定を行う。例えばマウス１１１のドラック操作で行う場合、マーキングを行う範囲の開始位置でクリックし（同図（ｂ）参照）そのままマウスをドラッグしてマーキングを行う範囲の終了位置でドラッグを終了する（同図（ｃ）参照）。

なお、この操作に限らずマーキングを行う範囲を指定できる操作なら何でもよい。最後に、書き込んだマーキングを保存するため、保存ボタン２００を選択する（同図（ｄ）参照）。このような手順で、ユーザがメモ書きやマーキングといった書き込みを電子ファイルＥＦに対して行い、次回ユーザが電子ファイルＥＦを閲覧すると、図６に示すように、電子ファイルＥＦに対してメモ書きやマーキングといった書き込み情報８１が反映されて表示される。また、書き込み情報８１を複数書き込んだ場合、複数の書き込み情報８１を一括して保存するようにしてもよい。

また、ユーザが書き込み情報を保存すると、ＰＣ１００は、書き込み情報８１および書き込み情報８１の電子ファイルＥＦ上の位置を示す位置情報８２を取得し、書き込み詳細情報８０としてサーバ５０へ送信する。なお、「書き込み情報」とは、書き込みがメモ書きの場合、「メモ書きされた画像データ、テキストデータ、および音声データの少なくともいずれか１のデータ」であり、書き込みがマーキングの場合、「マーキングされた文字のテキストデータ」である。また、「位置情報」とは、書き込みがメモ書きの場合、「メモ書きが属するテキスト群Ｔ」に関する情報であり、書き込みがマーキングの場合、「マーキングされた文字が属するテキスト群Ｔ、およびマーキングされた文字が属する文字列Ｓ」に関する情報である。

さらに、書き込み情報８１には、書き込まれたメモ書きやマーキングのフォントに関するフォント情報やカラーに関するカラー情報が含まれている。なお、書き込みがメモ書きの場合、本実施形態では「メモ書きが属するテキスト群Ｔ」内の位置情報については特に記憶していないが、もちろん「メモ書きが属するテキスト群Ｔ」内の位置情報を記憶する構成でもよい。この場合、位置情報はマーキングと同様に、「メモ書きが属するテキスト群Ｔ、およびメモ書きの作成位置として指定された位置が含まれる文字列Ｓ」に関する情報である。

また、サーバ５０は、ＰＣ１００から受信した書き込み詳細情報８０を書き込み情報データベースＤＢ２に記憶する際、受信した書き込み詳細情報８０に含まれる位置情報８２に基づいて、書き込まれたメモ書きが属するテキスト群Ｔを特定するためのテキスト群特定情報９０（図２参照）、およびマーキングされた文字を特定するための文字特定情報９５（図２参照）、を生成し、書き込み情報データベースＤＢ２にさらに記憶する。

ここで、テキスト群特定情報９０および文字特定情報９５の生成について、詳細に説明する。テキスト群特定情報９０とは、電子ファイルＥＦに含まれる各テキスト群Ｔ（図３参照）の特徴量を意味しており（以下テキスト群特徴量Ｔｖと記載）、以下、サーバ５０が行うテキスト群Ｔのテキスト群特徴量Ｔｖの算出について述べる（テキスト群特徴量算出ステップ）。テキスト群特徴量Ｔｖは、テキスト群Ｔを形態素解析して得られた各単語のＴＦＩＤＦ値を要素とする多次元ベクトルである。形態素解析について簡単に説明すると、例えば図２に示すハードディスク５５に格納された日本語辞書（図示省略）を用いてテキスト群Ｔを解析し、テキスト群Ｔを構成する各単語を求めるものである。

図３に示すテキスト群Ｔ１の一部である「データリンクには、様々な特徴やアクセス方式がある。」という文章に対して形態素解析を行うと、「データ」「リンク」「に」「は」「様々」「な」「特徴」「や」「アクセス」「方式」「が」「ある」といった単語が得られる。また、ＴＦＩＤＦ（Term Frequency Inverse Document Frequency）値とは、ある単語が、所定のテキストデータ内で出現する回数を、そのテキストデータの量に応じて正規化したものである。

本実施形態では、上記のＴＦＩＤＦ値として、例えばテキスト群Ｔ１（図３参照）に含まれる「データ」という単語のＴＦＩＤＦ値を求めるとすると、
ＴＦ＝テキスト群Ｔ１に含まれる「データ」の単語数／テキスト群Ｔ１に含まれる全ての単語数 ×
ＩＤＦ＝ＬＯＧ（電子ファイルＥＦに含まれるテキスト群Ｔの総数／「データ」の単語を含むテキスト群Ｔの数）の計算式で求めることができる。

形態素解析によって得られたテキスト群Ｔ１に含まれる全ての単語について、上記の要領でＴＦＩＤＦ値を求めることによって、各単語を軸とし、各単語のＴＦＩＤＦ値を要素とした多次元ベクトルが得られ、テキスト群Ｔ１のテキスト群特徴量Ｔｖ１が算出されたことになる。同様にして、この処理を各テキスト群Ｔについて行うと、各テキスト群Ｔのテキスト群特徴量Ｔｖを算出することができる。

図７は、３つのテキスト群Ｔａ〜Ｔｃのテキスト群特徴量Ｔｖａ〜Ｔｖｃを簡略して示したものである。同図（ａ）に示すように、テキスト群Ｔａのテキスト群特徴量Ｔｖａは、ｘａ、ｙａ、ｚａ・・・を要素とする多次元ベクトルであり、ｘａ、ｙａ、ｚａは、テキスト群Ｔａにおける単語「ｘ」、「ｙ」、「ｚ」のそれぞれのＴＦＩＤＦ値である。同様に、テキスト群Ｔｂのテキスト群特徴量Ｔｖｂは、ｘｂ、ｙｂ、ｚｂ・・・を要素とする多次元ベクトルであり、ｘｂ、ｙｂ、ｚｂは、テキスト群Ｔｂにおける単語「ｘ」、「ｙ」、「ｚ」のそれぞれのＴＦＩＤＦ値である。

さらに、テキスト群Ｔｃのテキスト群特徴量Ｔｖｃについても、ｘｃ、ｙｃ、ｚｃ・・・を要素とする多次元ベクトルであり、ｘｃ、ｙｃ、ｚｃは、テキスト群Ｔｃにおける単語「ｘ」、「ｙ」、「ｚ」のそれぞれのＴＦＩＤＦ値となる。なお、簡略化のため図示では３次元のベクトルとして表示しているが、実際のテキスト群特徴量Ｔｖは、テキスト群Ｔに含まれる単語数に応じた多次元空間上にマッピングされる。

続いて、文字特定情報９５について説明する。文字特定情報９５とは、マーキングされた文字を特定するための情報であり、マーキングが行われた文字が属するテキスト群Ｔに含まれる、句読点や改行位置で区切られる所定の文字列Ｓの文字列特徴量Ｓｖを意味している。以下、サーバ５０が行う文字列Ｓの文字列特徴量Ｓｖの算出について述べる（文字列特徴量算出ステップ）。文字列特徴量Ｓｖは、テキスト群特徴量Ｔｖと同様に、文字列Ｓを形態素解析して得られた各単語のＴＦＩＤＦ値を要素とする多次元ベクトルである。

従って、例えばテキスト群Ｔ１における文字列Ｓ１（図３参照）に含まれる「データ」という単語のＴＦＩＤＦ値を求めるとすると、
ＴＦ＝文字列Ｓ１に含まれる「データ」の単語数／文字列Ｓ１に含まれる全ての単語数 ×
ＩＤＦ＝ＬＯＧ（テキスト群Ｔ１に含まれる文字列Ｓの総数／「データ」の単語を含む文字列Ｓの数）で求めることができる。

形態素解析によって得られた文字列Ｓに含まれる全ての単語について、上記の要領でＴＦＩＤＦ値を求めることによって、各単語を軸とし、各単語のＴＦＩＤＦ値を要素とした多次元ベクトルが得られ、文字列Ｓ１の文字列特徴量Ｓｖ１が算出されたことになる。同様にして、この処理を各文字列Ｓについて行うと、各文字列Ｓの文字列特徴量Ｓｖを算出することができる。なお、ＴＦＩＤＦ値算出の対象となる単語は、日本語において、文書を意味する大きな部分を担うとされている、「名詞」、「サ変名詞」、「固有名詞」および「形容動詞」である。

テキスト群特徴量Ｔｖおよび文字列特徴量Ｓｖの算出は、書き込み情報の保存時と書き込み情報反映時と、の２回のタイミングで行われる。そして、書き込み情報保存時に算出されたテキスト群特徴量Ｔｖおよび文字列特徴量Ｓｖは、旧テキスト群特徴量Ｔｏｖおよび旧文字列特徴量Ｓｏｖとして記憶され、書き込み情報反映時に算出されたテキスト群特徴量Ｔｖおよび文字列特徴量Ｓｖは、新テキスト群特徴量Ｔｎｖおよび新文字列特徴量Ｓｎｖとして記憶される。また、書き込み情報が反映される以前に電子ファイルＥＦが更新された場合には、電子ファイルＥＦ更新のタイミングで、新テキスト群特徴量Ｔｎｖおよび新文字列特徴量Ｓｎｖが算出される。

さらに、その更新が複数回に及んだ場合には、更新の度にそれぞれの特徴量が算出され、前回算出された特徴量に上書きして書き込み情報データベースＤＢ２へ記憶される。なお、電子ファイルＥＦが更新された場合についても、更新毎ではなく書き込み情報反映時に新テキスト群特徴量Ｔｎｖおよび新文字列特徴量Ｓｎｖを算出する構成でもよい。

続いて、サーバ５０が、書き込み情報８１を書き込み情報データベースＤＢ２に記憶し、次回電子ファイルＥＦをＰＣ１００に送信する際に、その書き込み情報を電子ファイルＥＦに対して反映するまでの流れを、図８のフローチャートを参照して説明する。なお、以下の説明では、書き込み情報記憶時の電子ファイルＥＦに含まれるテキスト群Ｔおよび文字列Ｓを、旧テキスト群Ｔｏおよび旧文字列Ｓｏと定義し、書き込み情報反映時の電子ファイルＥＦに含まれるテキスト群Ｔおよび文字列Ｓを、新テキスト群Ｔｎおよび新文字列Ｓｎと定義して、説明する。

まず、ユーザが書き込み情報の保存ボタン２００をクリックすると（Ｓ０１）、ＰＣ１００は書き込み詳細情報８０を取得しサーバ５０へ送信する。そして、サーバ５０は、上述した手順で、書き込み情報が属するテキスト群Ｔを始め、電子ファイルＥＦに含まれるテキスト群Ｔ全てについて、テキスト群特徴量Ｔｖを算出する。また、書き込み情報がマーキングである場合、テキスト群特徴量Ｔｖに加えて、書き込まれたマーキングが属するテキスト群Ｔに含まれる、文字列Ｓ全ての文字列特徴量Ｓｖを算出する（Ｓ０２）。そして、算出したテキスト群特徴量Ｔｖおよび文字列特徴量Ｓｖを、旧テキスト群特徴量Ｔｏｖおよび旧文字列特徴量Ｓｏｖとして、書き込み情報データベースＤＢ２へ、書き込み詳細情報８０とともに記憶する。

その後、再びＰＣ１００においてユーザが電子ファイルＥＦの閲覧をしようとすると、まずＰＣ１００は、電子ファイル送信要求をサーバ５０に対して行う（Ｓ０３）。サーバ５０は、ＰＣ１００からの電子ファイル送信要求を受信すると、まず書き込み情報データベースＤＢ２から、書き込み詳細情報８０を取得する。そして、電子ファイルＥＦを電子ファイルデータベースＤＢ１から取得し、その電子ファイルＥＦに含まれるテキスト群Ｔ全てについて、テキスト群特徴量Ｔｖを算出する（Ｓ０４）。そして、算出したテキスト群特徴量Ｔｖを新テキスト群特徴量Ｔｎｖとして、一旦書き込み情報データベースＤＢ２へ記憶する。

次に、サーバ５０は、旧テキスト群特徴量Ｔｏｖおよび新テキスト群特徴量Ｔｎｖに基づいて、ＤＰマッチングを含む対応付け処理を行い、各旧テキスト群Ｔｏに対して各新テキスト群Ｔｎを対応付ける処理を行う（Ｓ０５）。なお、この処理の詳細については後述する。そして、対応付け処理の結果に基づいて、書き込み情報８１が属する旧テキスト群Ｔｏに対応する新テキスト群Ｔｎを特定する（テキスト群特定ステップ）（Ｓ０６）。対応する新テキスト群Ｔｎが特定できた場合（Ｓ０６：Ｙｅｓ）、書き込みがメモ書きであるときは、メモ書きを電子ファイルＥＦの対応付けられたテキスト群Ｔの所定位置に反映する（Ｓ０７）。また、書き込みがマーキングであるときは、さらに特定された新テキスト群Ｔｎに含まれる、文字列Ｓ全ての文字列特徴量Ｓｖを算出して（Ｓ０８）、これを新文字列特徴量Ｓｎｖとして一旦書き込み情報データベースＤＢ２へ記憶する。そして、旧文字列特徴量Ｓｏｖおよび新文字列特徴量Ｓｎｖに基づいてＤＰマッチングを含む対応付け処理を行い、対応するテキスト群Ｔにおいて、さらに各旧文字列Ｓｏに対して各新文字列Ｓｎを対応付ける処理を行う（Ｓ０９）。

そして、対応付け処理の結果に基づいて、マーキングが属する旧文字列Ｓｏに対応する新文字列Ｓｎを特定する（文字列特定ステップ）（Ｓ１０）。対応する新文字列Ｓｎを特定できた場合（Ｓ１０：Ｙｅｓ）、書き込み情報８１として記憶していた、「マーキングされた文字のテキストデータ」に基づいて、マーキングを電子ファイルＥＦに対して反映する（Ｓ１１）。また、対応する新文字列Ｓｎが存在しない場合（Ｓ１０：Ｎｏ）、マーキングを削除する（Ｓ１２）。

一方、対応する新テキスト群Ｔｎが特定できない場合（Ｓ０６：Ｎｏ）、書き込み情報８１を削除する（Ｓ１３）。そして、記憶していた書き込み情報８１を全て処理したか否かを判定し（Ｓ１４）、未処理の書き込み情報８１がある場合には（Ｓ１４：Ｎｏ）、次の書き込み情報８１について処理を続行する。このようにして、書き込み情報８１の処理を全て終了すると（Ｓ１４：Ｙｅｓ）、サーバ５０は、書き込み情報８１が反映された電子ファイルＥＦをＰＣ１００へ送信する。

なお、対応するテキスト群Ｔが特定できない場合でも（Ｓ０６：Ｎｏ）、書き込み情報８１がメモ書きである場合には、書き込み情報保存時に、電子ファイル上における各テキスト群の順序に関する順序情報をさらに記憶しておき、メモ書きが属していた旧テキスト群Ｔｏの、直前または直後に位置していたテキスト群Ｔｏに対応する新テキスト群Ｔｎに、メモ書きを反映させる構成でもよい。例えば、旧テキスト群Ｔｏ２にメモ書きが書き込まれ、電子ファイルＥＦの更新によって旧テキスト群Ｔｏ２が削除された場合、旧テキスト群Ｔｏ２の直前に位置していた旧テキスト群Ｔｏ１に対応する新テキスト群Ｔｎ１、あるいは旧テキスト群Ｔｏ２の直後に位置していた旧テキスト群Ｔｏ３に対応する新テキスト群Ｔｎ３にメモ書き情報を反映させる。

また、書き込み情報８１を記憶してから、書き込み情報８１を反映するまでの間に、電子ファイルＥＦの更新を行っている場合には、電子ファイル更新時に、新テキスト群特徴量Ｔｎｖおよび新文字列特徴量Ｓｎｖを既に算出し記憶しているので、書き込み情報反映時に行われる新テキスト群特徴量Ｔｎｖおよび新文字列特徴量Ｓｎｖの算出処理（Ｓ０４、Ｓ０８に該当）は省略される。

ここで、サーバ５０が行う旧テキスト群Ｔｏに対する新テキスト群Ｔｎの対応付け処理について説明する。まず、書き込み情報８１が保存されてから、書き込み情報８１が反映されるまでの間に、電子ファイルＥＦが更新されていない場合について説明する。

旧テキスト群Ｔｏに対する新テキスト群Ｔｎの対応付けには、最初にＤＰマッチング等のマッチング処理を実行する（テキスト群マッチングステップ）。そして、ＤＰマッチングによって対応付けられた、旧テキスト群Ｔｏと新テキスト群Ｔｎとの組み合わせにおいて、旧テキスト群特徴量Ｔｏｖと、新テキスト群特徴量Ｔｎｖとの差異が所定の閾値未満であるかどうかを判定する処理を行う（テキスト群判定ステップ）。電子ファイルＥＦが更新されていない場合、各旧テキスト群Ｔｏと各新テキスト群Ｔｎとにおいて、その内容は全く同一である。従って、当然対応付けられた新テキスト群特徴量Ｔｎｖとの差異は所定の閾値未満となり、マッチングによって対応付けられた旧テキスト群Ｔｏと新テキスト群Ｔｎとの組み合わせを、対応するテキスト群Ｔとして特定する。なお、「ＤＰマッチング」とは、動的計画法によるパターンマッチングを意味し、２つのパターンの要素間の対応付けを行いながら類似度を計算する方法を指すものである。

一方、書き込み情報８１を記憶してから、書き込み情報８１を反映するまでの間に、電子ファイルＥＦが更新されていた場合には、更新されなかった場合のように容易に対応するテキスト群Ｔが定まるとは限らない。そこで、電子ファイルＥＦが更新された場合について、図９〜図１２に示す４種の例を挙げて説明する。

図９に示す例は、書き込み情報記憶時の電子ファイルＥＦに、旧テキスト群Ｔｏ１、旧テキスト群Ｔｏ２、旧テキスト群Ｔｏ３、旧テキスト群Ｔｏ４、旧テキスト群Ｔｏ５の順序から成る５つのテキスト群Ｔが含まれ、旧テキスト群Ｔｏ２の内容を変更し電子ファイルＥＦを更新した例を示している。この場合、まずＤＰマッチング等のマッチング処理を行うと、旧テキスト群Ｔｏ１〜Ｔｏ５に対してそれぞれ新テキスト群Ｔｎ１〜Ｔｎ５が対応付けられる（図９参照）。

そして、マッチングによって対応付けられた、旧テキスト群Ｔｏと新テキスト群Ｔｎとの組み合わせにおいて、旧テキスト群特徴量Ｔｏｖと、新テキスト群特徴量Ｔｎｖとの差異が所定の閾値未満であるかどうかを判定する処理を行う。旧テキスト群Ｔｏ１と新テキスト群Ｔｎ１、および旧テキスト群Ｔｏ３〜Ｔｏ５と新テキスト群Ｔｎ３〜Ｔｎ５の組み合わせについては、旧テキスト群特徴量Ｔｏｖと、新テキスト群特徴量Ｔｎｖとの差異は所定の閾値未満であり、対応するテキスト群Ｔとして特定される。

しかし、旧テキスト群Ｔｏ２の内容は変更され、新テキスト群Ｔｎ２の内容とは異なることから、旧テキスト群Ｔｏ２の旧テキスト群特徴量Ｔｏｖと新テキスト群Ｔｎ２の新テキスト群特徴量Ｔｎｖとは異なるものとなる。例えば、図７（ａ）に示す電子ファイルＥＦにおいて、テキスト群Ｔｂの内容が変更され、テキスト群Ｔｂ′になった場合、テキスト群Ｔｂ′のテキスト群特徴量Ｔｖｂ′は、図７（ｂ）に示す通りとなる。

よってこの場合、旧テキスト群Ｔｏ２の旧テキスト群特徴量Ｔｏｖと新テキスト群Ｔｎ２の新テキスト群特徴量Ｔｎｖとの差異が所定の閾値未満である場合には、旧テキスト群Ｔｏ２に対応するテキスト群を新テキスト群Ｔｎ２として特定する。また、旧テキスト群Ｔｏ２の旧テキスト群特徴量Ｔｏｖと新テキスト群Ｔｎ２の新テキスト群特徴量Ｔｎｖとの差異が所定の閾値以上である場合、旧テキスト群Ｔｏ２に対応するテキスト群Ｔはないものと判定する。

図１０に示す例は、書き込み情報記憶時の電子ファイルＥＦに、旧テキスト群Ｔｏ１、旧テキスト群Ｔｏ２、旧テキスト群Ｔｏ３、旧テキスト群Ｔｏ４、旧テキスト群Ｔｏ５の順序から成る５つのテキスト群Ｔが含まれ、旧テキスト群Ｔｏ２を削除して電子ファイルＥＦを更新した例を示している。この場合、マッチングを行った結果の一例として、図１０に示すとおり、新テキスト群Ｔｎ１に対して、旧テキスト群Ｔｏ１および旧テキスト群Ｔｏ２の２つのテキスト群Ｔが対応付けられる。なお、旧テキスト群Ｔｏ３〜Ｔｏ５に対しては、それぞれ新テキスト群Ｔｎ３〜Ｔｎ５が対応付けられ、対応するテキスト群Ｔとして特定される。

このように、１のテキスト群Ｔに対して複数のテキスト群Ｔが対応付けられた場合、これらのテキスト群Ｔ全ての組み合わせにおいて、旧テキスト群特徴量Ｔｏｖと新テキスト群特徴量Ｔｎｖとの差異を判定し、そして、その差異が所定の閾値未満となった組み合わせを、対応するテキスト群Ｔとして特定する。図１０に示す例の場合、旧テキスト群Ｔｏ１と新テキスト群Ｔｎ１、および旧テキスト群Ｔｏ２と新テキスト群Ｔｎ１、の２つの組み合わせにおいて、旧テキスト群特徴量Ｔｏｖと新テキスト群特徴量Ｔｎｖとの差異を判定する。

旧テキスト群Ｔｏ１と新テキスト群Ｔｎ１との内容は同一であり当然特徴量の差は所定の閾値未満となる。従って、旧テキスト群Ｔｏ１と新テキスト群Ｔｎ１の組み合わせを対応するテキスト群Ｔとして特定する。なお、テキスト群特徴量Ｔｖの差異が所定の閾値未満となった組み合わせが複数存在する場合には、テキスト群特徴量Ｔｖの差異が最小となる組み合わせを対応するテキスト群Ｔとして特定する。

図１１に示す例は、書き込み情報記憶時の電子ファイルＥＦに、旧テキスト群Ｔｏ１、旧テキスト群Ｔｏ２、旧テキスト群Ｔｏ３、旧テキスト群Ｔｏ４、旧テキスト群Ｔｏ５の順序から成る５つのテキスト群Ｔが含まれ、旧テキスト群Ｔｏ２を旧テキスト群Ｔｏ４と旧テキスト群Ｔｏ５との間に移動して電子ファイルＥＦを更新した例を示している。この場合、マッチングを行った結果の一例として、図１１に示すとおり、新テキスト群Ｔｎ１に対して、旧テキスト群Ｔｏ１および旧テキスト群Ｔｏ２の２つのテキスト群Ｔが対応付けられ、さらに旧テキスト群Ｔｏ４に対して、新テキスト群Ｔｎ４および新テキスト群Ｔｎ２の２つのテキスト群Ｔが対応付けられている。なお、旧テキスト群Ｔｏ３、Ｔｏ５に対しては、それぞれ新テキスト群Ｔｎ３、Ｔｎ５が対応付けられ、対応するテキスト群Ｔとして特定される。

この場合、新テキスト群Ｔｎ１に対する旧テキスト群Ｔｏ１および旧テキスト群Ｔｏ２の組み合わせと、旧テキスト群Ｔｏ４に対する新テキスト群Ｔｎ４および新テキスト群Ｔｎ２の組み合わせそれぞれについて、図１０に示す例で説明したようにテキスト群特徴量Ｔｖの差を判定する構成でもよいが、ここでは異なる方法を説明する。

図１１に示す例では、対応付けが特定されていない旧テキスト群Ｔｏ１、旧テキスト群Ｔｏ２、旧テキスト群Ｔｏ４、新テキスト群Ｔｎ１、新テキスト群Ｔｎ４並びに新テキスト群Ｔｎ２について、各旧テキスト群Ｔｏの旧テキスト群特徴量Ｔｏｖと、各新テキスト群Ｔｎの新テキスト群特徴量Ｔｎｖとの差を、全ての組み合わせ分合計した合計値Ｄが最小となる組み合わせを算出する（テキスト群特徴量差合計値算出ステップ）。例えば、旧テキスト群Ｔｏ１と新テキスト群Ｔｎ１、旧テキスト群Ｔｏ２と新テキスト群Ｔｎ４、旧テキスト群Ｔｏ４と新テキスト群Ｔｎ２、の組み合わせにおける合計値Ｄは以下に示す計算式で算出される。

すなわち、旧テキスト群Ｔｏ１、旧テキスト群Ｔｏ２、旧テキスト群Ｔｏ４、新テキスト群Ｔｎ１、新テキスト群Ｔｎ４並びに新テキスト群Ｔｎ２において、旧テキスト群Ｔｏと新テキスト群Ｔｎとの組み合わせは、６組存在する。この６つの各組み合わせにおいて、各旧テキスト群Ｔｏの旧テキスト群特徴量Ｔｏｖと、各新テキスト群Ｔｎの新テキスト群特徴量Ｔｎｖとの差を、全ての組み合わせ分合計した合計値Ｄを算出し、その値が最小となる合計値Ｄの組み合わせを求める。このような処理を行った結果、図１３に示すように、旧テキスト群Ｔｏ１には新テキスト群Ｔｎ１が、旧テキスト群Ｔｏ２には新テキスト群Ｔｎ２が、旧テキスト群Ｔｏ４には新テキスト群Ｔｎ４がそれぞれ対応付けられることによって、対応するテキスト群Ｔを全てのテキスト群Ｔについて特定することができる。

なお、上述した各旧テキスト群Ｔｏのテキスト群特徴量Ｔｏｖと各新テキスト群Ｔｎのテキスト群特徴量Ｔｎｖとの差を、全ての組み合わせ分合計した合計値Ｄが最小となる組み合わせを算出する処理は、最大、テキスト群Ｔの数の２乗まで計算量が膨大となるので、遺伝的アルゴリズムを用いて算出することが好ましい。

図１２に示す例は、書き込み情報記憶時の電子ファイルＥＦに、旧テキスト群Ｔｏ１、旧テキスト群Ｔｏ２、旧テキスト群Ｔｏ３、旧テキスト群Ｔｏ４、旧テキスト群Ｔｏ５、旧テキスト群Ｔｏ６の順序から成る６つのテキスト群Ｔが含まれ、旧テキスト群Ｔｏ３と旧テキスト群Ｔｏ４との間に、新テキスト群Ｔｎ７および新テキスト群Ｔｎ８を追加し、さらに旧テキスト群Ｔｏ５を削除して電子ファイルＥＦを更新した例を示している。この場合、マッチングを行った結果の一例として、図１２に示すとおり、旧テキスト群Ｔｏ４に対して、新テキスト群Ｔｎ７、新テキスト群Ｔｎ８、新テキスト群Ｔｎ４の３つのテキスト群Ｔがそれぞれ対応付けられ、新テキスト群Ｔｎ６に対して、旧テキスト群Ｔｏ５および旧テキスト群Ｔｏ６の２つのテキスト群Ｔが対応付けられている。なお、旧テキスト群Ｔｏ１〜Ｔｏ３に対しては、それぞれ新テキスト群Ｔｎ１〜Ｔｎ３が対応付けられ、対応するテキスト群Ｔとして特定される。

この場合、図１１に示して説明した例と同様に、対応付けが特定されていない旧テキスト群Ｔｏ４、旧テキスト群Ｔｏ５、旧テキスト群Ｔｏ６、新テキスト群Ｔｎ７、新テキスト群Ｔｎ８、新テキスト群Ｔｎ４並びに新テキスト群Ｔｎ６について、各旧テキスト群Ｔｏのテキスト群特徴量Ｔｏｖと、各新テキスト群Ｔｎのテキスト群特徴量Ｔｎｖとの差を全ての組み合わせ分合計した合計値Ｄが、最小となる組み合わせを算出する。ところで、テキスト群Ｔの追加／削除によって、書き込み情報記憶時の電子ファイルＥＦに含まれるテキスト群Ｔｏの数と、書き込み情報反映時の電子ファイルＥＦに含まれるテキスト群Ｔｎの数とが異なる場合、旧テキスト群Ｔｏの数をｎ個、新テキスト群Ｔｎの数をｍ個とすると、その対応付けは、図１４に示すように、ｎ＋１×ｍ＋１のマトリクスで表すことが可能である。

すなわち、旧テキスト群Ｔｏ４、旧テキスト群Ｔｏ５、旧テキスト群Ｔｏ６、新テキスト群Ｔｎ７、新テキスト群Ｔｎ８、新テキスト群Ｔｎ４並びに新テキスト群Ｔｎ６について、各旧テキスト群Ｔｏのテキスト群特徴量Ｔｏｖと、各新テキスト群Ｔｎのテキスト群特徴量Ｔｎｖとの差を、全ての組み合わせ分合計した合計値Ｄが、最小となる組み合わせを算出すると、更新によって削除された旧テキスト群Ｔｏ５は、同図に示すマトリクスにおいてｍ＋１に該当する箇所にはじき出され、また更新によって新たに追加された新テキスト群Ｔｎ７および新テキスト群Ｔｎ８は、ｎ＋１に該当する箇所にはじき出される。このようにして、対応するテキスト群Ｔをそれぞれ特定することができる。

さらに、サーバ５０が行う旧文字列Ｓｏに対する新文字列Ｓｎの対応付け処理について説明する。文字列Ｓの対応付け処理は図１５に示すように、旧テキスト群Ｔｏに含まれる旧文字列Ｓｏと、旧テキスト群Ｔｏに対応付けされた新テキスト群Ｔｎに含まれる新文字列Ｓｎとの対応付けを行うものである。文字列Ｓの対応付け処理には、テキスト群Ｔと同様に、各文字列Ｓの文字列特徴量Ｓｖを算出し、算出した文字列特徴量Ｓｖを用いてＤＰマッチング等を行い対応付けを特定する。

例えば、図１５に示す旧テキスト群Ｔｏ１における、旧文字列Ｓｏ１〜Ｓｏ５について、それぞれの旧文字列特徴量Ｓｏｖ１〜Ｓｏｖ５を算出する。また、新テキスト群Ｔ１における新文字列Ｓｎ１〜Ｓｎ５について、それぞれの新文字列特徴量Ｓｎｖ１〜Ｓｎｖ５を算出する。そして、旧文字列Ｓｏ１〜Ｓｏ５の旧文字列特徴量Ｓｏｖ１〜Ｓｏｖ５と、新文字列Ｓｎ１〜Ｓｎ５の新文字列特徴量Ｓｎｖ１〜Ｓｎｖ５を用いて、ＤＰマッチング等を行い対応付けを特定する。なお、文字列Ｓの対応付け処理については、テキスト群Ｔの対応付け処理において行った説明と同様であり詳細（文字列マッチングステップ、文字列判定ステップ、文字列特徴量差合計値算出ステップ）については省略する。

書き込み情報がマーキングである場合、対応する文字列Ｓを特定した後、さらに書き込み情報として記憶した「マーキングされた文字のテキストデータ」に基づいて、対応する文字列Ｓからマーキングされた文字を特定し、サーバ５０は電子ファイルＥＦに対してマーキングを反映する。

例えば図１６に示すように、ＰＣ１００から受信して取得した書き込み詳細情報８０（書き込み情報８１：「ネットワーク層」位置情報８２：「テキスト群３、文字列１」）が書き込み情報データベースＤＢ２に記憶され、旧テキスト群Ｔｏ全ての旧テキスト群特徴量Ｔｏｖ、および新テキスト群Ｔｎ全ての新テキスト群特徴量Ｔｎｖをテキスト群特定情報９０として記憶し、旧テキスト群Ｔｏ３に含まれる文字列Ｓｏ全ての文字列特徴量Ｓｏｖ、および新テキスト群Ｔｎ３に含まれる文字列Ｓｎ全ての文字列特徴量Ｓｎｖを文字特定情報９５として書き込み情報データベースＤＢ２に記憶している場合、サーバ５０は位置情報８２およびテキスト群特定情報９０に基づいてテキスト群Ｔ３（旧テキスト群Ｔｏ３）に対応するテキスト群Ｔを新テキスト群Ｔｎ３として特定する。

さらに、位置情報８２および文字特定情報９５に基づいて、新テキスト群Ｔｎ３の中から、旧テキスト群Ｔｏ３に含まれる文字列１「ネットワーク層〜用いられる。」（旧文字列Ｓｏ１）に対応する文字列「ネットワーク層〜用いられる。」を新文字列Ｓｎ１として特定する。そして、新文字列Ｓｎ１「ネットワーク層〜用いられる。」の中から、書き込み情報８１として記憶した「ネットワーク層」をさらに特定し、マーキングを反映させる。

なお、文字列Ｓ単位でマーキングを反映させる構成でもよい。この場合、ユーザが図１６に示す旧文字列Ｓｏ１に含まれる「ネットワーク層」にマーキングを行うと、新文字列Ｓｎ１「ネットワーク層〜用いられる。」全てにマーキングが反映される。この構成によれば、「マーキングされた文字列のテキストデータ」を記憶する必要がない。また、文字列Ｓの内容が若干変更したような場合にも、文字列Ｓ単位でマーキング情報を反映させることによる利点がある。

例えば「日本の都市は、東京や大阪である。」という文字列Ｓにマーキングを行い、その文字列Ｓが「日本の都市は、東京、大阪、並びに名古屋である。」と変更された場合、対応する文字列Ｓを特定しさらに「マーキングされた文字列のテキストデータ」を特定する構成では、対応する文字列Ｓ「日本の都市は、東京、大阪、並びに名古屋である。」の中から「日本の都市は、東京や大阪である。」を特定するので、マーキングは「日本の都市は、東京」「大阪」および「である。」の文字列に対して反映される。しかし、文字列Ｓ単位でマーキング情報を反映させることによって、文字列Ｓ「日本の都市は、東京、大阪、並びに名古屋である。」全体に対してマーキングを反映させることができる。

また、マーキングの書き込み時におけるユーザの選択に基づいて、図１７に示すマーキング種別情報９７を書き込み情報８１としてさらに記憶し、記憶したマーキング種別情報９７に基づいて、マーキング情報を反映させる構成でもよい。この構成によれば、直線、波線、二重線、下線、点線など多様なマーキングを電子ファイルＥＦに書き込み、反映させることが可能となる。

なお、マーキングやメモ書きといった書き込み情報８１として画像を書き込む構成でもよい。この場合、位置情報８２として、表示画面のサイズに関する情報と、テキスト群Ｔに対する書き込み情報８１の相対的な位置に関する情報をＰＣ１００が取得し、サーバ５０に送信する構成となる。この構成によれば、ユーザが電子ファイルＥＦに描画した画像を、サーバ５０はそのまま書き込み情報８１として電子ファイルＥＦに対して反映することができるので、ユーザによる書き込み処理の自由度をより高めることができる。さらにこの場合、ＰＣ１００に接続されたペンを用いて、ユーザがディスプレイ１０９に画像を描画することも可能である。

また、電子ファイルデータベースＤＢ１、および書き込み情報データベースＤＢ２をそれぞれ別のサーバで構成してもよい。この構成によれば、書き込み情報データベースＤＢ２を記憶するサーバのメモリ負担が軽くなるので、書き込み情報を反映させるための処理能力を高めることができる。

なお、電子ファイルＥＦにはテキスト群Ｔに加えて画像や動画が含まれていてもよい。また、位置情報８２として、表示画面のサイズに関する情報と、表示画面に対する位置（座標）を記憶する構成でもよい。

また、上述した実施例によらず、電子ファイル書き込みシステム１の装置構成や処理工程等について、本発明の要旨を逸脱しない範囲で、適宜変更も可能である。

本実施形態に係る電子ファイル書き込みシステムの全体図である。電子ファイル書き込みシステムのハードウェア構成を示す図である。電子ファイルの一例を示す図である。電子ファイルへのメモ書き操作の一例を示す説明図である。電子ファイルへのマーキング操作の一例を示す説明図である。書き込み情報が反映された電子ファイルの一例を示す図である。テキスト群特徴量を説明するための説明図である。書き込み情報の記憶から書き込み情報の反映までの流れを示すフローチャートである。テキスト群のマッチング処理結果の一例を示す図である。テキスト群のマッチング処理結果の他の例を示す図である。テキスト群のマッチング処理結果の他の例を示す図である。テキスト群のマッチング処理結果の他の例を示す図である。テキスト群の対応付け処理の処理結果の一例を示す図である。テキスト群の対応付け処理の処理結果の他の例を示す図である。文字列の対応付け処理を説明するための説明図である。文字列の対応付け処理を説明するための説明図である。マーキング種別情報を表す図である。

符号の説明

１電子ファイル書き込みシステム５０サーバ
６０データ処理部７０更新手段
８０書き込み詳細情報８１書き込み情報
８２位置情報９０テキスト群特定情報
９５文字特定情報１００クライアントＰＣ
１２０書き込み手段１３０送信手段
Ｐ書き込み情報反映プログラム
ＤＢ１電子ファイルデータベースＤＢ２書き込み情報データベース
Ｔテキスト群Ｔｏ旧テキスト群
Ｔｎ新テキスト群Ｔｖテキスト群特徴量
Ｓｖ文字列特徴量Ｓ文字列
Ｓｏ旧文字列Ｓｎ新文字列

Claims

１以上のテキスト群を含む電子ファイルに書き込みを行うための情報端末と、当該情報端末に接続され、前記電子ファイルを記憶するサーバと、から構成されるネットワークシステムにおいて、更新前のテキスト文書に含まれるテキスト群である１以上の旧テキスト群に対して、当該テキスト文書が更新された更新後テキスト文書に含まれるテキスト群である１以上の新テキスト群を、それぞれ対応付けるテキスト群特定方法であって、
前記旧テキスト群および新テキスト群全てについて、それらの特徴量であるテキスト群特徴量を算出するテキスト群特徴量算出ステップと、
前記テキスト群特徴量を用いてマッチングを行い、前記各旧テキスト群と、前記各新テキスト群との対応付けを行うテキスト群マッチングステップと、
前記各旧テキスト群のテキスト群特徴量と、前記テキスト群マッチングステップによって当該各旧テキスト群に対応付けられた前記各新テキスト群のテキスト群特徴量との差異が、所定の閾値未満であるかを判定するテキスト群判定ステップと、
前記テキスト群判定ステップによって、前記両テキスト群特徴量の差異が前記所定の閾値未満であると判定された旧テキスト群と新テキスト群の組み合わせを、対応するテキスト群として特定するテキスト群特定ステップと、
を備え、
前記テキスト群マッチングステップによって、
新旧いずれか一方の１のテキスト群に対して、他方のｎ（ｎは２以上の整数）個のテキスト群が対応付けられた場合、
前記テキスト群判定ステップは、
前記１のテキスト群に対するｎ個の組み合わせについて、前記テキスト群特徴量の差異
が所定の閾値未満であるかを判定し、
前記テキスト群特定ステップは、
前記テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが１つの
場合、当該組み合わせを対応するテキスト群として特定し、
前記テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが複数の
場合、前記テキスト群特徴量の差異が最小となる組み合わせを対応するテキスト群として
特定することを特徴とするテキスト群特定方法。
前記テキスト群は、１以上の句読点および／または改行位置で区切られる文字列から構
成されており、
前記旧テキスト群に含まれる文字列である１以上の旧文字列と、当該旧テキスト群に対
応する新テキスト群に含まれる文字列である１以上の新文字列と、において、
前記各旧文字列および前記各新文字列の全てについて、それらの特徴量である文字列特
徴量を算出する文字列特徴量算出ステップと、
前記文字列特徴量を用いてマッチングを行い、前記各旧文字列と前記各新文字列との対応付けを行う文字列マッチングステップと、
前記各旧文字列の文字列特徴量と、前記文字列マッチングステップによって当該各旧文字列に対応付けられた前記各新文字列の文字列特徴量との差異が、所定の閾値未満であるかを判定する文字列判定ステップと、
前記文字列判定ステップによって、前記両文字列特徴量の差異が前記所定の閾値未満であると判定された旧文字列と新文字列の組み合わせを、対応する文字列として特定する文字列特定ステップと、
を備え、
前記文字列マッチングステップによって、
新旧いずれか一方の１の文字列に対して、他方のｎ（ｎは２以上の整数）個の文字列が対応付けられた場合、
前記文字列判定ステップは、
前記１の文字列に対するｎ個の組み合わせについて、前記文字列特徴量の差異が所定の
閾値未満であるかを判定し、
前記文字列特定ステップは、
前記文字列特徴量の差異が所定の閾値未満であると判定された組み合わせが１つの場合、当該組み合わせを対応する文字列として特定し、
前記文字列特徴量の差異が所定の閾値未満であると判定された組み合わせが複数の場合、前記文字列特徴量の差異が最小となる組み合わせを対応する文字列として特定することを特徴とする請求項１に記載のテキスト群特定方法。
前記テキスト群特徴量および前記文字列特徴量は、前記テキスト群および前記文字列を形態素解析して得られた各単語のＴＦＩＤＦ値を要素とする多次元ベクトルで表されることを特徴とする請求項１ないし２のいずれか１項に記載のテキスト群特定方法。
コンピュータに、請求項１ないし２のいずれか１項に記載のテキスト群特定方法における各ステップを実行させるためのプログラム。
１以上のテキスト群を含む電子ファイルに書き込みを行うための情報端末と、当該情報端末に接続され、前記電子ファイルを記憶するサーバと、から構成される電子ファイル管理システムであって、電子ファイルを更新する以前のテキスト文書に含まれるテキスト群である１以上の旧テキスト群および、当該テキスト文書が更新された更新後テキスト文書に含まれるテキスト群である１以上の新テキスト群全てについて、それらの特徴量であるテキスト群特徴量を算出するテキスト群特徴量算出手段と、
前記テキスト群特徴量を用いてマッチングを行い、前記各旧テキスト群と、前記各新テキスト群との対応付けを行うテキスト群マッチング手段と、
前記各旧テキスト群のテキスト群特徴量と、前記テキスト群マッチングステップによって当該各旧テキスト群に対応付けられた前記各新テキスト群のテキスト群特徴量との差異が、所定の閾値未満であるかを判定するテキスト群判定手段と、
前記テキスト群判定手段によって、前記両テキスト群特徴量の差異が前記所定の閾値未満であると判定された旧テキスト群と新テキスト群の組み合わせを、対応するテキスト群として特定するテキスト群特定手段と、
を備え、
前記テキスト群マッチング手段によって、新旧いずれか一方の１のテキスト群に対して、他方のｎ（ｎは２以上の整数）個のテキスト群が対応付けられた場合、
前記テキスト群判定手段は、
前記１のテキスト群に対するｎ個の組み合わせについて、前記テキスト群特徴量の差異
が所定の閾値未満であるかを判定し、
前記テキスト群特定手段は、
前記テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが１つの
場合、当該組み合わせを対応するテキスト群として特定し、
前記テキスト群特徴量の差異が所定の閾値未満であると判定された組み合わせが複数の
場合、前記テキスト群特徴量の差異が最小となる組み合わせを対応するテキスト群として
特定することを特徴とする電子ファイル管理システム。