JP5020352B2

JP5020352B2 - 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体

Info

Publication number: JP5020352B2
Application number: JP2010132907A
Authority: JP
Inventors: 楊秉哲; 谷▲セン▼; 林威伸; 盧家慶; 謝文泰
Original assignee: 財團法人資訊工業策進會
Priority date: 2010-04-14
Filing date: 2010-06-10
Publication date: 2012-09-05
Anticipated expiration: 2030-06-10
Also published as: JP2011221978A; KR101145979B1; US20110258194A1; TWI396983B; TW201135479A; KR20110115061A; US8244732B2

Description

本発明は、名前付き要素マーク付け装置及び方法とそのコンピュータ読出可能な媒体に関する。特に、本発明は複数のステージで電子文書にマーク付けする。即ち、本発明は前のステージのマーク付け結果と、名前付き要素データベース内の１つのセットとを使用して各ステージにおいて電子文書にマーク付けする。
《関連する出願への相互参照》
本出願は、２０１０年４月１４日付で出願した台湾特許出願第０９９１１１５７７号に基づく優先権を主張するものである。

近年、インターネットの急速な発展と、様々な電子製品（例えば、携帯電話、パーソナル・デジタル・アシスタント（ＰＤＡ）、ノートパソコン、及び電子ブック（Ｅブック））の普及と伴に、益々多くの製造業者とユーザとが一般大衆に様々な電子情報と電子閲覧サービスとを提供している。このため、電子情報は人々が情報を得る主な情報源となり、電子情報を読むことは人々の日常生活の不可欠な一部となっている。

一般的には、電子閲覧サービスを使用する（例えば、Ｅブック又はウェブサイトを見る）ユーザが新しい又は興味をひく単語に出会うと、ユーザはその単語の意味、基本情報、又は関係する派生情報を知りたいと望む可能性がある。この要求を満たすために、名前付き要素マーク付け、電子情報の自動リンク検索などのサービスが登場している。

従来、大多数の名前付き要素自動マーク付け技術は、電子文書中の特定の単語列（例えば、人名、地理名、又は固有名詞）をその出現頻度に従って選別し、選別された単語列にその分類、記述、説明、又は他の関係する情報をラベル付けすることでマーク付けする。例えば、インターネット検索エンジンにおいてしばしば使用される単語列は、従来技術によって名前付き要素にマーク付けするためのベースとして採用される。他の幾つかの技術は、単語ライブラリーを用いるトークン化技術又はトークナイザをスピーチ部分群及び構文ツリーに対して使用して、文を頻度に従ってトークン化して名前付き要素マーク付けのためにトークン化結果を生成する（例えば、スピーチ部分に含まれる１つ以上の名前付き要素を取り出す）。しかし、これらの従来の名前付き要素マーク付け技術は、通常、出現頻度だけに基づいており、名前付き要素の分類を考慮しないので、これらの従来技術には、マーク付けされる文書の内容に応じてマーク付けされるべき名前付き要素を決定できない、低出現頻度の新しい単語にマーク付けできない等の多くの問題がある。従って、これらの従来技術は、しばしば誤ったマーク付けをする、関係のない単語にマーク付けする、又は新しい単語にマーク付けできないという欠点を有し、名前付き要素マーク付け結果は不良となる。マーク付けエラーを低減しマーク付け精度を向上させるために、従来の名前付き要素マーク付け技術は、しばしば実行後に手動修正を使用する。これは多くの労力と時間を必要とし、名前付き要素マーク付けの完全自動化の実現を不可能にする。

このため、新しい単語にマーク付けし、マーク付けされる文書に応じてマーク付けされるべき名前付き要素を決定することが出来、文書内の名前付き要素を高精度に、実行後に手動修正する必要なく全自動でマーク付けできる名前付き要素マーク付け方法を提供することが当分野で差し迫って求められている。

本発明の目的は、電子文書と１つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶する記憶部と、該記憶部に電気的に接続されたプロセッサとを備える名前付き要素マーク付け装置を提供することである。

該プロセッサは、該名前付き要素データベース内の第１セットに従って該電子文書にマーク付けして、それぞれが該第１セットに含まれる名前付き要素の１つである複数のマーク付けされた名前付き要素を有する第１マーク付き文書にするよう構成されている。該プロセッサは、該複数のマーク付けされた名前付き要素に対応する分類から１つ以上の第１の選択された分類を決定し、該１つ以上の第１の選択された分類に従って該名前付き要素データベース内の第２セットを規定するよう更に構成されている。該プロセッサは、該第２セットに従って該電子文書に再度マーク付けして第２マーク付き文書にするよう更に構成されている。

本発明の別の目的は、前記名前付き要素マーク付け装置において適用されるための名前付き要素マーク付け方法を提供することである。該名前付き要素マーク付け装置は電子文書と１つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶する記憶部と、該記憶部に電気的に接続されたプロセッサとを備える。該名前付き要素マーク付け方法は（ａ）該プロセッサが、該名前付き要素データベース内の第１セットに従って該電子文書にマーク付けして、それぞれが該第１セットに含まれる名前付き要素の１つである複数のマーク付けされた名前付き要素を有する第１マーク付き文書にするのを可能にするステップと、（ｂ）該プロセッサが、該複数のマーク付けされた名前付き要素に対応する分類から１つ以上の第１の選択された分類を決定し、該１つ以上の第１の選択された分類に従って該名前付き要素データベース内の第２セットを規定するのを可能にするステップと、（ｃ）該プロセッサが、該第２セットに従って該電子文書に再度マーク付けして第２マーク付き文書にするのを可能にするステップとを含む。

本発明の更に別の目的は、電子文書と１つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶する記憶部と、該記憶部に電気的に接続されたプロセッサとを備える電子装置にロードされた時、名前付き要素マーク付け方法を実行させるためのプログラムを記憶するコンピュータ読出可能な媒体を提供することである。該プログラムはコードＡ、コードＢ、及びコードＣを含む。コードＡは、該プロセッサが該名前付き要素データベース内の第１セットに従って該電子文書にマーク付けして、それぞれが該第１セットに含まれる名前付き要素の１つである複数のマーク付けされた名前付き要素を有する第１マーク付き文書にするのを可能にするためのコードであり、コードＢは、該プロセッサが該複数のマーク付けされた名前付き要素に対応する分類から１つ以上の第１の選択された分類を決定し、該１つ以上の第１の選択された分類に従って該名前付き要素データベース内の第２セットを規定するのを可能にするためのコードであり、コードＣは、該プロセッサが該第２セットに従って該電子文書に再度マーク付けして第２マーク付き文書にするのを可能にするためのコードである。

本発明は、該名前付き要素データベース内の第１セットに従って電子文書にマーク付けして第１マーク付き文書にし、該第１マーク付き文書に含まれる複数のマーク付けされた名前付き要素に対応する分類から１つ以上の第１の選択された分類を決定し、該１つ以上の第１の選択された分類に従って該名前付き要素データベース内の第２セットを規定し、次に該第２セットに従って該電子文書に再度マーク付けして第２マーク付き文書にする。このように、本発明は第１ステージのマーク付けされた名前付き要素に従って選択された分類を決定し、次に該選択された分類に従って該電子文書に再度マーク付けすることで、該電子文書にあまり関係しない名前付き要素にマーク付けするのを防ぐ。また、電子文書は出現頻度ではなく該選択された分類に従って再度マーク付けされるので、出現頻度の低い名前付き要素（例えば、新しい単語又は出現頻度がより低い名前付き要素）であってもマーク付けすることが出来る。更に、本発明は該第２マーク付き文書に従って前記名前付き要素データベース内の第３セットを決定し、該第３セットに従って該第２マーク付き文書にマーク付けして第３マーク付き文書にすることが出来る。従って、本発明は、従来技術の新しい単語にマーク付け出来ず、また高精度の名前付き要素マーク付け方法を提供できないという欠点を克服できる。

本発明の詳細な技術と好適な実施形態を、当業者が本発明の特徴をよく理解できるよう添付の図面を参照しながら下記に説明する。

本発明の第１の実施形態に係る名前付き要素マーク付け装置の概略図である。本発明の第１の実施形態における相関を例示する概略図である。本発明の第２の実施形態のフローチャートである。

下記において、実施形態を参照しながら本発明を説明する。しかし、これらの実施形態は、本発明を実施形態において説明する特定の環境、用途、又は特定の実施例に限定するよう意図されていない。従って、これらの実施形態の説明は本発明を限定するものではなく、例示だけのためである。なお、下記の実施形態と添付の図面において、本発明に関係のない構成要素は図示を省略する。

本発明の第１の実施形態は名前付き要素マーク付け装置１であり、その概略図を図１に示す。名前付き要素マーク付け装置１は記憶部１１とプロセッサ１３とを備える。プロセッサ１３は記憶部１１と電気的に接続されている。記憶部１１には電子文書１１０と名前付き要素データベース１１２とが記憶されてよい。記憶部１１はメモリ、フロッピー（登録商標）ディスク、ハードディスク、コンパクトディスク（ＣＤ）、フラッシュメモリディスク、モバイルディスク、磁気テープ、ネットワークを介してアクセス可能なデータベース、又は同じ機能を有し当業者に周知の他の任意の記憶媒体であってよい。プロセッサ１３は、現在入手可能か又は将来開発される様々なプロセッサ、中央処理装置（ＣＰＵ）、マイクロプロセッサ、計算器、又は計算能力を有し当業者に周知の他の装置のいずれでもよい。

本明細書では、用語「マーク付け」は（ａ）電子文書中の特定可能な名前付き要素の先頭アドレスと終了アドレスとを特定の方法で特定すること、次に（ｂ）この名前付き要素の分類、分野、説明、紹介、又は関係する記述を記録したメモを先頭アドレスと終了アドレスとの間の単語列に添付することを意味する。要するに、「マーク付け」は先頭アドレスと終了アドレスとの間の単語列に情報を添付することを意味する。

本発明における電子文書１１０は、電子装置によって生成されるか又は読出し可能な様々なファイル、例えばハイパーテキストマークアップ言語（ＨＴＭＬ）ファイル、ポータブルドキュメントフォーマット（ＰＤＦ）ファイル、ｔｘｔファイル、マイクロソフトオフィス・ワードファイル、図形認識ソフトウェアが認識可能な図形ファイル（例えば、ｂｍｐファイル、ｊｐｅｇファイル、ｇｉｆファイル）、及び音声認識ソフトウェアが音声ファイルを認識する時に生成するテキストファイル（例えば、ｍｐ３ファイル、ｗａｖファイル、ｗｍｖファイル）のいずれでもよい。また、電子文書１１０はプロセッサ１３によって認識可能な又は読出し可能なテキストからなるファイルであってもよい。

下記に、本発明の名前付き要素マーク付け装置１が電子文書１１０内の名前付き要素にマーク付けする方法を詳細に説明する。理解し易いように、「電子文書１１０にマーク付けする」が意味するものを先ず説明する。電子文書１１０にマーク付けすることは、電子文書１１０中に現れる幾つかの名前付き要素に印を付け、更にこれらの名前付き要素に関係するメモ（例えば、名前付き要素の分類、名前付き要素が属する分野、説明、紹介、又は関係する記述、及び名前付き要素に関係するウェブサイトリンク）を添付することを意味する。これにより、マーク付き電子文書１１０を読むユーザが、これらの名前付き要素の関係する情報をそれらのマークから得ることが出来、これにより読む時の便利さと、知識を得る容易さが増加する。

本発明は、電子文書にマーク付けするために、複数の名前付き要素からなる名前付き要素データベース１１２を利用する。本発明に記載した名前付き要素データベースの場合、それに含まれる各名前付き要素は、１つ以上の分類に対応し（即ち、名前付き要素は１つ以上の分類に分類される）、更に１つ以上の情報（例えば、名前付き要素の分野、定義、説明、紹介、又は他の関係する記述などの関係するデータ）に対応する。本発明では、新しい名前付き要素データベースを作成するか、又は既存の名前付き要素データベースを使用してよい。下記に、名前付き要素マーク付け装置１が名前付き要素データベース１１２を作成する方法を例示する。例えば、プロセッサ１３はマークを有する１つ以上の電子文書から１つ以上のマーク付けされた名前付き要素と、該電子文書に含まれるそれらの対応する分類とを取り出して名前付き要素データベース１１２に記憶する。マークを有する該電子文書は、例えばインターネット上のウェブページ、マークを有するＥブック、又は他の種類のファイルであってよい。

１つの実施形態では、プロセッサ１３はインターネットから複数のマーク付き電子文書、例えば複数のウェブページ、第１と第２ウェブページを集めてもよい。第１ウェブページは物語ハリー・ポッターに関連するウェブページであり、名前付き要素がマーク付けされているウェブページである。第１ウェブページに記録された内容は、マーク付けされた複数の名前付き要素を含む。これらの名前付き要素のそれぞれは１つ以上の分類と情報とに対応する。これを下記の表１に例示する。

プロセッサ１３はマーク付けされた名前付き要素と、それらの対応する分類及び情報とを第１ウェブページから取り出す。例えば、プロセッサ１３は第１ウェブページをウェブページタグに従って複数のウェブページ段落に分けてもよい。ウェブページ段落はマーク付けされた名前付き要素、情報、及び分類を含む。特に、プロセッサ１３は先ず、「ハリー・ポッター」を含むマーク付けされた名前付き要素を第１ウェブページから取り出し、次に第１ウェブページの内容内の「ハリー・ポッター」の位置を見つけ、「<a href＝”…”> </a>」等のウェブページタグに従って第１ウェブページを複数のウェブページ段落に分ける。

次に、アルゴリズムを適用することで、プロセッサ１３は名前付き要素、情報、及び分類を含む情報段落をこれらのウェブページ段落から取り出す。本実施形態では、該アルゴリズムはウェブページ情報を取り出すために正規表現を利用してもよい。しかし、他の実施形態では、該アルゴリズムはウェブページ内容を取り出すために使用できる任意のアルゴリズムであってよい。言換えると、本発明において、このステージで使用するアルゴリズムに制限はない。一般的に、正規表現は（特定の配列を示すが無限の数の組合せを有するテキスト段落群を抽出するのに適切な）低水準プログラミングのための形式言語であり、プロセッサ１３が認識し処理できる汎用機械言語である。正規表現の詳細な動作は、当業者によって容易に理解されるであろう。従って、更なる説明を省略する。

次に、このアルゴリズムを適用することで、プロセッサ１３は情報段落から当該ウェブページに関係するメタデータ、例えばフォントサイズ、色、配置等のウェブページタグを取り出す。また、プロセッサ１３はこのアルゴリズムを利用して言語整合処理を情報段落内のテキストに対して実行し、例えば情報段落内の簡体字中国語文字を伝統的な中国語文字に変換する。言語整合処理は異なる言語間でテキストを変換すること、例えば英単語を中国語文字に機械翻訳により変換することも含む。これらの例は、例示だけのためであり限定のためではない。また、プロセッサ１３は情報段落内の構造テンプレートを特定してこれらの情報段落から名前付き要素に対応する情報及び分類を取り出すアルゴリズムを適用してもよい。例えば、プロセッサ１３は正規表現を適用することで、情報段落から「PMingLiu」、「Sept. 20^th, 2009」等のメタデータを取り出し、簡体字中国語の単語

を伝統的な中国語の単語「妙麗（伝統的な中国語で表したハーマイオニー）」に変換する。また、プロセッサ１３は構造テンプレート「<td>魔法学校の首席・・・</td>」内に情報「魔法学校の首席・・・」が存在することを検出しこの情報を取り出す。

上記説明から分かるように、プロセッサ１３は名前付き要素と、該名前付き要素に対応する情報及び分類とを複数のマーク付き電子文書（例えば、複数のウェブページ又は他のＥブックファイル）から取り出し、該名前付き要素と、該名前付き要素に対応する該情報及び分類とを名前付き要素データベース１１２に格納しデータベース１１２を作成することが出来る。

名前付き要素データベース１１２が使用可能になった後、プロセッサ１３は新しい又は更新された電子文書（例えば、新しいウェブページ又は新しいＥブック）に従って、定期的又は非定期的に名前付き要素データベース１１２を更新してもよい。例えば、記憶部１１は第２ウェブページの関係するデータを更に記憶し、プロセッサ１３は第２ウェブページのウェブページ更新時間を読み出し、このウェブページ更新時間に従って、記憶部１１に記憶された後、第２ウェブページが更新されたか否かを判断してもよい。答えがＹＥＳであれば、プロセッサ１３は第２ウェブページから更新された内容を読み出し、この更新された内容に従って、名前付き要素データベース１１２を更新すべきか否かを判断することが出来る。下記に、プロセッサ１３が名前付き要素データベース１１２を更新すべきか否かを判断する方法を詳細に説明する。

名前付き要素データベース１１２を作成する上記方法に従って、プロセッサ１３は更新された内容の名前付き要素リストを作成する。ここで、名前付き要素リストは、更新された内容から取り出した１つ以上の名前付き要素とその対応する分類及び情報とを含む。次に、名前付き要素リスト内の各名前付き要素を名前付き要素データベース１１２内の各名前付き要素と比較することで、プロセッサ１３は名前付き要素リスト内に、データベース１１２の１つの名前付き要素と同一の名前付き要素があるか否かを判断する。もしあれば、プロセッサ１３は更に、名前付き要素データベース１１２の内容を更新するべきか否か、例えば名前付き要素データベース１１２の該名前付き要素に対応する分類又は関係する情報を更新するべきか否かを判断する。また、名前付き要素リストを名前付き要素データベース１１２と比較することで、プロセッサ１３は名前付き要素リスト内に、データベース１１２に含まれていない名前付き要素があるか否かも判断する。もしあれば、プロセッサ１３はその名前付き要素を名前付き要素データベース１１２に追加するべきか否かを判断する。上記の２つの場合を下記に更に詳述する。

名前付き要素リスト内に、データベース１１２の名前付き要素と同一の名前付き要素があると判断すると、プロセッサ１３は名前付き要素リストの同一の名前付き要素の新しい内容に従って、各同一の名前付き要素ごとに名前付き要素リストの新しい内容と名前付き要素データベース１１２の情報との間で異なる部分の比率を計算する。この比率が所定の値より大きい判定すると、プロセッサ１３は名前付き要素データベース１１２を名前付き要素リストの新しい内容で更新する。

また、プロセッサ１３は、出現頻度が高過ぎるか又は低過ぎる特定の単語列を記憶するストップリストを使用してもよい。プロセッサ１３はストップリスト内のそれら特定の単語列を名前付き要素データベース１１２、名前付き要素リスト、マーク付けされた名前付き要素群、又は名前付き要素群の更新された内容から除外してもよい。より詳細には、プロセッサ１３は全ての単語列の単語数及び出現頻度の統計をとってもよい。高過ぎる頻度又は低過ぎる頻度で出現する特定の単語列は、通常、内容に最も関係する「主題の単語」ではないので、そのような単語列はストップリストに記憶される。ストップリストはシステムに関係するが該内容の名前付き要素に関係のない特定の単語列を更に含んでもよい。単語数及び出現頻度の統計は、例えばＴＦ−ＩＤＦ（用語頻度‐逆文献頻度）を用いてもよいし、又は経験又は履歴データに従って、ストップリストに設定記憶されてもよい。

例として、プロセッサ１３は「ハリー・ポッター」が名前付き要素リストに存在し、「ハリー・ポッター」に対応する情報が１００単語の内容を含むことを検出する。プロセッサ１３が１００単語の該内容と、データベース１１２内の「ハリー・ポッター」に対応する情報との間の異なる部分の比率が２０％であり所定値５％より大きいと判定すると、プロセッサ１３は、例えば新しい内容をデータベース１１２内の「ハリー・ポッター」に対応する該情報に追加することで、「ハリー・ポッター」に対応する該情報を更新することを決定する。別の例として、ストップリストが「編集合戦（edit war）」、「論争更新（dispute update）」等の単語列を含んでいる場合、プロセッサ１３は第２ウェブページの編集者の注釈が「編集合戦」、「論争更新」等の単語列を含まないと判定し、異なる部分の比率が所定値より大きいと判定すると、プロセッサ１３は名前付き要素データベース１１２内の「ハリー・ポッター」に対応する情報を更新することを決定する。

一方、名前付き要素リストが名前付き要素データベース１１２の名前付き要素のいずれとも異なる新しい名前付き要素を含むと判定すると、プロセッサ１３はこの新しい名前付き要素をデータベース１１２に追加する。他の幾つかの例では、新しい名前付き要素をデータベース１１２に追加するか否かを判断する時、プロセッサ１３は第２ウェブページから編集者の注釈を更に読み出してもよい。該編集者の注釈がストップリストの特定の単語列を含まないと判定すると、プロセッサ１３はこの新しい名前付き要素をデータベース１１２に追加する。例えば、プロセッサ１３は名前付き要素リストが新しい名前付き要素「ドラコ・マルフォイ」を含み、その対応する情報の単語数は２００であることを検出する。また、そのストップリストは単語列「広告」及び「違反」を含み、プロセッサ１３が第２ウェブページの編集者の注釈は単語列「広告」及び「違反」を含まないと判定すると、プロセッサ１３は新しい名前付き要素「ドラコ・マルフォイ」とその対応する２００単語の情報とをデータベース１１２に追加する。

名前付き要素データベース１１２が作成されると、プロセッサ１３は名前付き要素データベース１１２に従って電子文書１１０にマーク付けすることが出来る。本実施形態では、電子文書１１０は物語「ハリー・ポッター」のＥブックである。下記に、プロセッサ１３が名前付き要素データベース１１２に従って電子文書１１０にマーク付けする方法を詳述する。

先ず、プロセッサ１３は名前付き要素データベース１１２内の第１セットを決定する。第１セットは名前付き要素データベース１１２の１つ以上の名前付き要素からなるセットである。幾つかの実施形態では、プロセッサ１３は名前付き要素データベース１１２に含まれる全ての名前付き要素を第１セットとしてもよい。他の実施形態では、プロセッサ１３は名前付き要素データベース１１２に記憶された名前付き要素を各名前付き要素の単語数に従って並べ替えてもよい。並べ替えは、例えば最大の単語数の名前付き要素から最小の単語数の名前付き要素への順であってもよい。その後、プロセッサ１３は、並べ替え結果に従って、例えば上位５０個の名前付き要素又は上位３０％の名前付き要素を選択することで第１セットを生成する。更に他の実施形態では、プロセッサ１３は単語数に従って名前付き要素を選択してもよい。例えば、プロセッサ１３は単語数が２又は３より大きい名前付き要素を選択してもよい。

次に、プロセッサ１３は名前付き要素データベース１１２内の第１セットに従って電子文書１１０にマーク付けして第１マーク付き文書にする。好適な実施形態では、プロセッサ１３は、先ず、電子文書１１０の内容の一部をマーク付け対象の電子文書として取り出してもよい。例えば、プロセッサ１３は電子文書１１０を複数の文書セグメントに等分し、各段落から特定の数（例えば、１０００個）の単語をマーク付け対象の電子文書として取り出してもよい。次に、プロセッサ１３はこのマーク付け対象の電子文書に、第１セットに含まれる名前付き要素に従って単語列比較によりマーク付けして第１マーク付き文書にするので、この第１マーク付き文書は、それぞれが第１セットに含まれる名前付き要素の１つである複数のマーク付けされた名前付き要素を有する。例えば、第１セットは名前付き要素「秘密の部屋」を含むと仮定すると、電子文書１１０から取り出されたマーク付け対象の電子文書内の単語列「秘密の部屋」はプロセッサ１３によってマーク付けされる。本発明では、このようなマーク付けされた単語列はマーク付けされた名前付き要素と呼ばれる。他の例では、プロセッサ１３は第１セットに含まれる名前付き要素に従って、電子文書１１０からマーク付け対象の電子文書を取り出すことなく直接、電子文書１１０にマーク付けして第１マーク付き電子文書にしてもよい。

第１マーク付き電子文書を生成した後、プロセッサ１３は、第１マーク付き電子文書に含まれるマーク付けされた名前付き要素に対応する分類に従って１つ以上の第１の選択された分類を決定する。プロセッサ１３が第１の選択された分類を選択するための複数の方法がある。例えば、全てのマーク付けされた名前付き要素の全ての分類を第１の選択された分類とするか、又は全てのマーク付けされた名前付き要素の分類の一部を第１の選択された分類とするか、又はより高い頻度で出現する分類を第１の選択された分類とする。好適な実施形態では、プロセッサ１３が第１マーク付き電子文書に含まれるマーク付けされた名前付き要素に対応する分類について統計をとり、各分類に対応するマーク付けされた名前付き要素のそれぞれが第１マーク付き電子文書においてマーク付けされた回数の和を統計値として得てもよい。次に、プロセッサ１３がこの統計値に従って該１つ以上の第１の選択された分類として１つ以上の分類を選択する。プロセッサ１３は該１つ以上の第１の選択された分類に従って名前付き要素データベース１１２内の第２セットを決定する。第２セットは該１つ以上の第１の選択された分類に対応する名前付き要素群からなる。次に、プロセッサ１３は電子文書１１０に第２セットに従って単語列比較により再度マーク付けして第２マーク付き文書にする。その後、プロセッサ１３は第２マーク付き文書を記憶部１１に記憶するか、又は表示のために表示部（不図示）へ送信する。

例えば、本実施形態では、該第１マーク付き文書は「ハリー・ポッター」、「ハーマイオニー」、及び「秘密の部屋」を含む複数のマーク付けされた名前付き要素を有する。プロセッサ１３は統計をとることで、第１マーク付き文書において「ハリー・ポッター」が５７６回出現することと、「ハーマイオニー」が３２７回出現することとを見つける。「ハリー・ポッター」と「ハーマイオニー」の両方が分類「物語ハリー・ポッターの登場人物」に対応するので、プロセッサ１３は統計から分類「物語ハリー・ポッターの登場人物」の統計値は５７６＋３２７＝９０３であると決定する。本実施形態の統計結果が、分類「物語ハリー・ポッターの登場人物」の統計値が９０３であり、分類「魔法学校の生徒」の統計値が４３２であり、分類「物語ハリー・ポッターの題名」の統計値が１０であるとすると、プロセッサ１３はこれらの統計値に従って最大値又はより大きな値の１つ以上の分類を第１の選択された分類として選択する。例えば、「物語ハリー・ポッターの登場人物」が第１の選択された分類として選択される。プロセッサ１３は名前付き要素データベース１１２内の第２セットを該第１の選択された分類に従って規定する。例えば、上述した例では、第２セットは、分類が「物語ハリー・ポッターの登場人物」である名前付き要素からなる。なお、上述した計算方法は単に例示であり、唯一のものではない。

本実施形態では、第２セットを規定するための第１の選択された分類は、名前付き要素データベース１１２によって規定される分類の１つ（例えば、最大統計値を有する分類）であってもよいことが理解されるであろう。しかし、他の実施形態では、第２セットを規定するための選択された分類は、複数の分類、例えばより大きな統計値を有する上位２つ又は３つの分類であってもよい。言換えれば、本発明は、第１の選択された分類の数には制限がなく、例えば分類「物語ハリー・ポッターの登場人物」と分類「魔法学校の生徒」とを同時に第１の選択された分類として選択してもよく、第２セットはこれら２つの分類に対応する名前付き要素からなると規定される。

第２セットに従ってマーク付けされた前記第２マーク付き文書は、複数のマーク付けされた名前付き要素を有し、第２マーク付き文書のマーク付けされた名前付き要素はそれぞれ、第２セットに含まれる名前付き要素の１つである。通常、第２マーク付き文書内のマーク付けされた名前付き要素群は、１つ以上の第１の選択された分類に従ってマーク付けされており、第１マーク付き文書内のマーク付けされた名前付き要素群と一部同一で一部異なる。

更に、１つの機構が提供される。第２マーク付き文書を更に処理するために使用された時、この機構は電子文書１１０内のより多くの名前付き要素にマーク付けするのを可能にする。特に、プロセッサ１３は名前付き要素データベース１１２内の第３セットを第２マーク付き文書のマーク付けされた名前付き要素に対応する情報に従って決定し、第２マーク付き文書に第３セットに従って単語列比較によりマーク付けして第３マーク付き文書にする。幾つかの実施形態では、第３セットに含まれる名前付き要素は、第２マーク付き文書内のマーク付けされた名前付き要素群に対応する情報に従って名前付き要素データベース１１２から取り出され第２セットに含まれていない名前付き要素である。プロセッサ１３は第３セットに従って第２セットに含まれていない第２マーク付き文書内の名前付き要素にマーク付けすることが出来る。

更に、プロセッサ１３は下記の２つの方法の１つで、名前付き要素データベース１１２内の第３セットを決定することが出来る。

先ず、第３セットを決定する第１の方法を説明する。プロセッサ１３は第２マーク付き文書内のマーク付けされた名前付き要素群に対応する情報は、第２マーク付き文書内の１つ以上のマーク付けされていない名前付き要素を含み、該１つ以上のマーク付けされていない名前付き要素は、第２セットに含まれておらず、第１の選択された分類と異なる第２の選択された分類に対応することを見つけると、プロセッサ１３は、第３セットに第２の選択された分類に対応し第２セットに含まれていない名前付き要素群を含めることを決定できる。

例えば、プロセッサ１３は第２マーク付き文書内のマーク付けされた名前付き要素「ハリー・ポッター」に対応する情報「この本の主役、額に稲妻形の傷跡がある・・・」がマーク付けされておらず第２セットに含まれていない名前付き要素「魔法魔術学校」を含むことを見つける。「魔法魔術学校」は分類「魔法学校」（データベース１１２によって規定された分類の１つ）に対応するので、プロセッサ１３は第３セットに分類「魔法学校」に対応する名前付き要素群を含めることを決定する。

次に、第３セットを決定する第２の方法を説明する。プロセッサ１３は第２マーク付き文書内のマーク付けされた名前付き要素群に対応する情報は、１つ以上のマーク付けされておらず第２セットに含まれていない名前付き要素を含むことを見つけると、プロセッサ１３は、第３セットに該１つ以上のマーク付けされていない名前付き要素を含めることを決定できる。

例えば、プロセッサ１３は第２マーク付き文書内のマーク付けされた名前付き要素「ハリー・ポッター」に対応する情報「この本の主役、額に稲妻形の傷跡がある・・・」がマーク付けされておらず第２セットに含まれていない名前付き要素「魔法魔術学校」を含むことを見つけると、プロセッサ１３は第３セットに「魔法魔術学校」を含めることを決定できる。

プロセッサ１３が第３セットに従って新しいマークを第２マーク付き文書に追加し、第３マーク付き文書を得た後、第３マーク付き文書は複数のマーク付けされた名前付き要素を有する（例えば、上記実施形態では、第２セットと第３セットとに従ってマーク付けされた名前付き要素群を有する）。この時、電子文書１１０の名前付き要素マーク付けが完了したと見なしてよい。第３マーク付き文書は記憶部１１に記憶されるか、又は表示のために表示部（不図示）へ送信される。

また、本発明では、第２マーク付き文書又は第３マーク付き文書内のマーク付けされた名前付き要素間の相関を確立してもよい。

先ず、分類アルゴリズムを適用することで、プロセッサ１３がマーク付けされた名前付き要素を該マーク付けされた名前付き要素に対応する分類に従って複数のグループに分類する。次に、中核のマーク付けされた名前付き要素を選択し、分類アルゴリズムを適用することで、プロセッサ１３は中核のマーク付けされた名前付き要素と、各グループ内の各名前付き要素との間の特徴値を計算し、中核のマーク付けされた名前付き要素と、各グループとの間のグループ特徴値を計算する。その後、プロセッサ１３は最大のグループ特徴値を持つ複数のグループと、該グループ内の最大の特徴値を持つ複数の名前付き要素とを選択し相関を確立する。図２に示した相関を表示装置又は操作インターフェイスにより表示することが出来る。

図２において、マーク付き電子文書が４６個のマーク付けされた名前付き要素を有し、これら４６個のマーク付けされた名前付き要素は７つの分類に対応すると仮定すると、プロセッサ１３は分類アルゴリズムを適用することで、マーク付けされた名前付き要素を７つのグループに分類することが出来る。本実施形態では、「ハリー・ポッター」を中核のマーク付けされた名前付き要素として選択する（他の実施形態では、別のマーク付けされた名前付き要素を中核のマーク付けされた名前付き要素として選択してもよい）。プロセッサ１３はこの中核のマーク付けされた名前付き要素と、各グループ内の各名前付き要素との間の特徴値を計算する。例えば、図２に示すように、グループ「物語ハリー・ポッターの登場人物」内の「ハーマイオニー（４２０）」の「４２０」は、「ハリー・ポッター」に対応するグループ「物語ハリー・ポッターの登場人物」内の「ハーマイオニー」の特徴値であり、グループ「魔法学校の生徒」内の「ハーマイオニー（３７５）」の「３７５」は、「ハリー・ポッター」に対応するグループ「魔法学校の生徒」内の「ハーマイオニー」の特徴値である。また、プロセッサ１３は各グループのグループ特徴値を計算する。例えば、図２に示すように、「物語ハリー・ポッターの登場人物（７８７）」の「７８７」は、「物語ハリー・ポッターの登場人物」に対応するグループ特徴値である。最後に、プロセッサ１３は最大グループ特徴値を有する複数の（例えば、３つの）グループと、これら複数のグループ内で最大特徴値を有する複数の（例えば、３つの）マーク付けされた名前付き要素とを選択し、「ハリー・ポッター」とグループ「物語ハリー・ポッターの登場人物」との相関と、グループ「魔法学校の生徒」とグループ「魔法学校の教授陣」との相関と、「ハリー・ポッター」と「ハーマイオニー」、「ヴォルデモート」、「ダンブルドア」、「ロン」等のマーク付けされた名前付き要素との相関とを図２に示すように叙述する。

各グループ内の各名前付き要素と中核のマーク付けされた名前付き要素との間の特徴値を、事前に確立された名前付き要素群の存在論的空間又は意味ツリー構造、又は特徴値公式に従って、例えば名前付き要素群の意味ツリー構造における各名前付き要素と中核のマーク付けされた名前付き要素との距離に従って計算することが出来る。各グループと中核のマーク付けされた名前付き要素との間のグループ特徴値は、該グループ内の一部又は全ての名前付き要素の特徴値に従って計算することが出来る。１つの実施形態では、貪欲算法を適用することで、グループ内の各名前付き要素と中核のマーク付けされた名前付き要素との距離をリストにし、全ての名前付き要素を順に並べ、複数の部分（例えば、３等分又は５等分）に分割して、各部分に係数を割り当てることが出来る。その後、グループ特徴値を特定の公式を使用して計算する。例えば、グループ内の各名前付き要素（又はグループ内の複数の上位名前付き要素のそれぞれ）の特徴値に該名前付き要素が属する部分の係数を掛け、該グループのこれらの積を加算してグループ特徴値を得る。また、グループ特徴値を計算する複数の方法、例えばグループ内の全て又は一部の名前付き要素の特徴値を直接加算する方法、又は他の公式を使用して計算する方法が存在する。

本発明の第２の実施形態が図３に示されている。第２の実施形態は第１の実施形態で説明した名前付き要素マーク付け装置のための名前付き要素マーク付け方法である。名前付き要素マーク付け装置はプロセッサと記憶部とを備える。該プロセッサは該記憶部に電気的に接続されている。該記憶部には電子文書と名前付き要素データベースとが記憶されている。該名前付き要素データベースは複数の名前付き要素を含み、各名前付き要素は１つ以上の分類と情報とに対応する。

また、第２の実施形態で説明する名前付き要素マーク付け方法はプログラムとして実現されてもよい。このプログラムはコンピュータ読出可能な媒体に記憶されてよい。プログラムが電子装置（例えば、名前付き要素マーク付け装置）にロードされた時、該プログラムは該電子装置に名前付き要素マーク付け方法を実行させる。該電子装置はコンピュータ、計算器、サーバー、ＰＤＡ、ノートパソコン、又はネットブックであってよい。該プログラムは複数のコードを含み、第２の実施形態で説明する名前付き要素マーク付け方法を実行させる。コンピュータ読出可能な媒体は、機械読出可能な媒体、例えば読出し専用メモリ（ＲＯＭ）、フラッシュメモリ、フロッピーディスク、ハードディスク、コンパクトディスク、モバイルディスク、磁気テープ、ネットワークを介してアクセス可能なデータベース、又は同じ機能を有し当業者に周知の他の任意の記憶媒体であってよい。

図３は第２の実施形態の名前付き要素マーク付け方法のフローチャートである。ステップ３０４が実行され、該プロセッサが名前付き要素データベース内の第１セットに従って電子文書にマーク付けして第１マーク付き文書にするのを可能にする。第１マーク付き文書は複数のマーク付けされ第１セットに含まれる名前付き要素を有する。

ステップ３０４の実行後、ステップ３０６が実行され、該プロセッサがマーク付けされた名前付き要素に対応する分類から１つ以上の第１の選択された分類を決定し、該１つ以上の第１の選択された分類に従って名前付き要素データベース内の第２セットを規定するのを可能にする。次に、ステップ３０７が実行され、該プロセッサが第２セットに従って該電子文書に再度マーク付けして第２マーク付き文書にするのを可能にする。

更に、本名前付き要素マーク付け方法はステップ３０８を実行し、該プロセッサが該第２マーク付き文書のマーク付けされた名前付き要素に対応する情報に従って名前付き要素データベース内の第３セットを決定するのを可能にする。次に、ステップ３０９が実行され、該プロセッサが第３セットに従って第２マーク付き文書にマーク付けして第３マーク付き文書にするのを可能にする。最後に、ステップ３１０が実行され、該プロセッサがマーク付けされた名前付き要素間の相関を確立するのを可能にする。

他の実施形態では、本名前付き要素マーク付け方法はステップ３０１〜ステップ３０３（不図示）を更に含んでもよい。ステップ３０１が実行され、該プロセッサが１つ以上の電子文書から複数の名前付き要素を取り出して名前付き要素データベースを構築するのを可能にする。ここで、該プロセッサは１つ以上のウェブページから正規表現を適用することで名前付き要素を取り出してもよい。ステップ３０２が実行され、該プロセッサは該電子文書が更新されたか否かを判断する。答えがＹＥＳであれば、ステップ３０３が実行され、該プロセッサは名前付き要素データベースを更新し、その後、ステップ３０４が実行される。答えがＮＯであれば、ステップ３０４が直ちに実行される。

他の実施形態では、ステップ３０４の次に、ステップ３０５を追加して、該プロセッサが第１マーク付き文書のマーク付けされた名前付き要素に対応する分類群について統計をとり、複数の統計値を得るようにしてもよい。各統計値は１つの分類に対応するマーク付けされた名前付き要素のそれぞれが第１マーク付き電子文書においてマーク付けされた回数の和である。

上記ステップ群に加えて、第２の実施形態は、第１の実施形態で述べた全ての動作と機能を実行することも出来る。当業者は第２の実施形態がこれらの動作と機能を実行する方法を第１の実施形態の説明に基づいて容易に理解するであろう。従って、更なる説明を省略する。

上記説明によれば、本発明は名前付き要素データベース内の第１セットに従って電子文書にマーク付けして第１マーク付き文書にし、マーク付けされた名前付き要素に対応する分類から１つ以上の第１の選択された分類を決定して、該電子文書がどの分類により関係するのかを見つける。次に、本発明はより関係する該分類に従って名前付き要素データベース内の第２セットを決定し、第２セットに従って該電子文書に再度マーク付けして第２マーク付き文書にする。このようにして、該電子文書にあまり関係していない名前付き要素にマーク付けするのを防ぐことが出来る。これにより、本発明は、従来技術の新しい単語にマーク付け出来ず、また高精度の名前付き要素マーク付け方法を提供できないという欠点を克服できる。

上記開示は詳細な技術的内容とその独創的特徴に関する。当業者は本発明の開示と示唆に基づいてその特徴から逸脱することなく様々な変形及び置換えを想到する可能性がある。これらの変形及び置換えは上記説明に完全には開示されていないが、添付の請求項に実質的に記載されている。

１１記憶部
１３プロセッサ
１１０電子文書
１１２名前付き要素データベース

Claims

電子文書と、１つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶するよう構成された記憶部と、
該記憶部に電気的に接続されたプロセッサと
を備え、
該プロセッサは
該名前付き要素データベース内の第１セットに従って該電子文書にマーク付けして、それぞれが該第１セットに含まれる名前付き要素の１つである複数のマーク付けされた名前付き要素を有する第１マーク付き文書にし、
該複数のマーク付けされた名前付き要素に対応する分類から１つ以上の第１の選択された分類を決定し、
該１つ以上の第１の選択された分類に従って該名前付き要素データベース内の第２セットを規定し、
該第２セットに従って該電子文書に再度マーク付けして第２マーク付き文書にするよう構成されている名前付き要素マーク付け装置。
前記プロセッサは、複数の統計値に従って前記１つ以上の第１の選択された分類を決定し、該各統計値は１つの分類に対応するマーク付けされた名前付き要素のそれぞれが前記第１マーク付き文書においてマーク付けされた回数の和である請求項１に記載の名前付き要素マーク付け装置。
前記第２セットは、前記名前付き要素データベース内の前記１つ以上の第１の選択された分類に対応する名前付き要素からなる請求項１に記載の名前付き要素マーク付け装置。
前記各名前付き要素は情報に更に対応し、前記第２マーク付き文書は複数のマーク付けされた名前付き要素を有し、該第２マーク付き文書の該各マーク付けされた名前付き要素は前記第２セットに含まれる名前付き要素の１つであり、
前記プロセッサは該第２マーク付き文書の該マーク付けされた名前付き要素に対応する該情報に従って前記名前付き要素データベース内の第３セットを決定し、該第３セットに従って該第２マーク付き文書にマーク付けして第３マーク付き文書にするよう更に構成されている請求項１に記載の名前付き要素マーク付け装置。
前記プロセッサは前記第２マーク付き文書の前記マーク付けされた名前付き要素に対応する前記情報は、該第２マーク付き文書内の１つ以上のマーク付けされていない名前付き要素を含むことを見つけ、該１つ以上のマーク付けされていない名前付き要素が前記第２セットに含まれず、第２の選択された分類に対応する場合、該プロセッサは前記第３セットが該第２の選択された分類に対応する名前付き要素を含むことを決定する請求項４に記載の名前付き要素マーク付け装置。
前記プロセッサは前記第２マーク付き文書の前記マーク付けされた名前付き要素に対応する前記情報は、該第２マーク付き文書内の１つ以上のマーク付けされていない名前付き要素を含むことを見つけ、該１つ以上のマーク付けされていない名前付き要素は前記第２セットに含まれず、該プロセッサは前記第３セットが該１つ以上のマーク付けされていない名前付き要素を含むことを決定する請求項４に記載の名前付き要素マーク付け装置。
前記プロセッサはマークを有する１つ以上の電子文書から１つ以上のマーク付けされた名前付き要素を取り出して、前記名前付き要素データベースを構築する請求項１に記載の名前付き要素マーク付け装置。
前記第２マーク付き文書は複数のマーク付けされた名前付き要素を有し、前記プロセッサは該マーク付けされた名前付き要素間の相関を確立するよう更に構成されている請求項１に記載の名前付き要素マーク付け装置。
電子文書と、１つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶する記憶部と、該記憶部に電気的に接続されたプロセッサとを備える名前付き要素マーク付け装置において適用されるための名前付き要素マーク付け方法であって、
（ａ）該プロセッサが、該名前付き要素データベース内の第１セットに従って該電子文書にマーク付けして、それぞれが該第１セットに含まれる名前付き要素の１つである複数のマーク付けされた名前付き要素を有する第１マーク付き文書にするのを可能にするステップと、
（ｂ）該プロセッサが、該複数のマーク付けされた名前付き要素に対応する分類から１つ以上の第１の選択された分類を決定し、該１つ以上の第１の選択された分類に従って該名前付き要素データベース内の第２セットを規定するのを可能にするステップと、
（ｃ）該プロセッサが、該第２セットに従って該電子文書に再度マーク付けして第２マーク付き文書にするのを可能にするステップと
を含む名前付き要素マーク付け方法。
前記ステップ（ｂ）で、前記プロセッサは、複数の統計値に従って前記１つ以上の第１の選択された分類を決定し、該各統計値は１つの分類に対応するマーク付けされた名前付き要素のそれぞれが前記第１マーク付き文書においてマーク付けされた回数の和である請求項９に記載の名前付き要素マーク付け方法。
前記第２セットは、前記名前付き要素データベース内の前記１つ以上の第１の選択された分類に対応する名前付き要素からなる請求項９に記載の名前付き要素マーク付け方法。
前記各名前付き要素は情報に更に対応し、前記第２マーク付き文書は複数のマーク付けされた名前付き要素を有し、該第２マーク付き文書の該各マーク付けされた名前付き要素は前記第２セットに含まれる名前付き要素の１つであり、
（ｄ）前記プロセッサが該第２マーク付き文書の該マーク付けされた名前付き要素に対応する該情報に従って前記名前付き要素データベース内の第３セットを決定するのを可能にするステップと、
（ｅ）該プロセッサが該第３セットに従って該第２マーク付き文書にマーク付けして第３マーク付き文書にするのを可能にするステップと
を更に含む請求項９に記載の名前付き要素マーク付け方法。
前記ステップ（ｄ）は
（ｄ１）前記プロセッサが前記第２マーク付き文書の前記マーク付けされた名前付き要素に対応する前記情報は、該第２マーク付き文書内の１つ以上のマーク付けされていない名前付き要素を含むことを見つけ、該１つ以上のマーク付けされていない名前付き要素が前記第２セットに含まれず、第２の選択された分類に対応する場合、前記第３セットが該第２の選択された分類に対応する名前付き要素を含むことを決定するのを可能にするステップを含む、請求項１２に記載の名前付き要素マーク付け方法。
前記ステップ（ｄ）は
（ｄ２）前記プロセッサが前記第２マーク付き文書の前記マーク付けされた名前付き要素に対応する前記情報は、該第２マーク付き文書内の１つ以上のマーク付けされておらず前記第２セットに含まれていない名前付き要素を含むことを見つけ、前記第３セットが該１つ以上のマーク付けされていない名前付き要素を含むことを決定するのを可能にするステップを含む、請求項１２に記載の名前付き要素マーク付け方法。
前記ステップ（ａ）の前に、前記プロセッサがマークを有する１つ以上の電子文書から１つ以上のマーク付けされた名前付き要素を取り出して、前記名前付き要素データベースを構築するのを可能にするステップを更に含む請求項９に記載の名前付き要素マーク付け方法。
前記第２マーク付き文書は複数のマーク付けされた名前付き要素を有し、
（ｆ）前記プロセッサが該マーク付けされた名前付き要素間の相関を確立するのを可能にするステップを更に含む請求項９に記載の名前付き要素マーク付け方法。
電子文書と、１つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶する記憶部と、該記憶部に電気的に接続されたプロセッサとを備える電子装置にロードされた時、名前付き要素マーク付け方法を実行させるためのプログラムを記憶するコンピュータ読出可能な媒体であって、該プログラムは
該プロセッサが、該名前付き要素データベース内の第１セットに従って該電子文書にマーク付けして、それぞれが該第１セットに含まれる名前付き要素の１つである複数のマーク付けされた名前付き要素を有する第１マーク付き文書にするのを可能にするためのコードＡと、
該プロセッサが、該複数のマーク付けされた名前付き要素に対応する分類から１つ以上の第１の選択された分類を決定し、該１つ以上の第１の選択された分類に従って該名前付き要素データベース内の第２セットを規定するのを可能にするためのコードＢと、
該プロセッサが、該第２セットに従って該電子文書に再度マーク付けして第２マーク付き文書にするのを可能にするためのコードＣと
を含む、コンピュータ読出可能な媒体。