JP5020352B2 - 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体 - Google Patents

名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体 Download PDF

Info

Publication number
JP5020352B2
JP5020352B2 JP2010132907A JP2010132907A JP5020352B2 JP 5020352 B2 JP5020352 B2 JP 5020352B2 JP 2010132907 A JP2010132907 A JP 2010132907A JP 2010132907 A JP2010132907 A JP 2010132907A JP 5020352 B2 JP5020352 B2 JP 5020352B2
Authority
JP
Japan
Prior art keywords
named
marked
named element
document
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010132907A
Other languages
English (en)
Other versions
JP2011221978A (ja
Inventor
楊秉哲
谷▲セン▼
林威伸
盧家慶
謝文泰
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Publication of JP2011221978A publication Critical patent/JP2011221978A/ja
Application granted granted Critical
Publication of JP5020352B2 publication Critical patent/JP5020352B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、名前付き要素マーク付け装置及び方法とそのコンピュータ読出可能な媒体に関する。特に、本発明は複数のステージで電子文書にマーク付けする。即ち、本発明は前のステージのマーク付け結果と、名前付き要素データベース内の1つのセットとを使用して各ステージにおいて電子文書にマーク付けする。
《関連する出願への相互参照》
本出願は、2010年4月14日付で出願した台湾特許出願第099111577号に基づく優先権を主張するものである。
近年、インターネットの急速な発展と、様々な電子製品(例えば、携帯電話、パーソナル・デジタル・アシスタント(PDA)、ノートパソコン、及び電子ブック(Eブック))の普及と伴に、益々多くの製造業者とユーザとが一般大衆に様々な電子情報と電子閲覧サービスとを提供している。このため、電子情報は人々が情報を得る主な情報源となり、電子情報を読むことは人々の日常生活の不可欠な一部となっている。
一般的には、電子閲覧サービスを使用する(例えば、Eブック又はウェブサイトを見る)ユーザが新しい又は興味をひく単語に出会うと、ユーザはその単語の意味、基本情報、又は関係する派生情報を知りたいと望む可能性がある。この要求を満たすために、名前付き要素マーク付け、電子情報の自動リンク検索などのサービスが登場している。
従来、大多数の名前付き要素自動マーク付け技術は、電子文書中の特定の単語列(例えば、人名、地理名、又は固有名詞)をその出現頻度に従って選別し、選別された単語列にその分類、記述、説明、又は他の関係する情報をラベル付けすることでマーク付けする。例えば、インターネット検索エンジンにおいてしばしば使用される単語列は、従来技術によって名前付き要素にマーク付けするためのベースとして採用される。他の幾つかの技術は、単語ライブラリーを用いるトークン化技術又はトークナイザをスピーチ部分群及び構文ツリーに対して使用して、文を頻度に従ってトークン化して名前付き要素マーク付けのためにトークン化結果を生成する(例えば、スピーチ部分に含まれる1つ以上の名前付き要素を取り出す)。しかし、これらの従来の名前付き要素マーク付け技術は、通常、出現頻度だけに基づいており、名前付き要素の分類を考慮しないので、これらの従来技術には、マーク付けされる文書の内容に応じてマーク付けされるべき名前付き要素を決定できない、低出現頻度の新しい単語にマーク付けできない等の多くの問題がある。従って、これらの従来技術は、しばしば誤ったマーク付けをする、関係のない単語にマーク付けする、又は新しい単語にマーク付けできないという欠点を有し、名前付き要素マーク付け結果は不良となる。マーク付けエラーを低減しマーク付け精度を向上させるために、従来の名前付き要素マーク付け技術は、しばしば実行後に手動修正を使用する。これは多くの労力と時間を必要とし、名前付き要素マーク付けの完全自動化の実現を不可能にする。
このため、新しい単語にマーク付けし、マーク付けされる文書に応じてマーク付けされるべき名前付き要素を決定することが出来、文書内の名前付き要素を高精度に、実行後に手動修正する必要なく全自動でマーク付けできる名前付き要素マーク付け方法を提供することが当分野で差し迫って求められている。
本発明の目的は、電子文書と1つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶する記憶部と、該記憶部に電気的に接続されたプロセッサとを備える名前付き要素マーク付け装置を提供することである。
該プロセッサは、該名前付き要素データベース内の第1セットに従って該電子文書にマーク付けして、それぞれが該第1セットに含まれる名前付き要素の1つである複数のマーク付けされた名前付き要素を有する第1マーク付き文書にするよう構成されている。該プロセッサは、該複数のマーク付けされた名前付き要素に対応する分類から1つ以上の第1の選択された分類を決定し、該1つ以上の第1の選択された分類に従って該名前付き要素データベース内の第2セットを規定するよう更に構成されている。該プロセッサは、該第2セットに従って該電子文書に再度マーク付けして第2マーク付き文書にするよう更に構成されている。
本発明の別の目的は、前記名前付き要素マーク付け装置において適用されるための名前付き要素マーク付け方法を提供することである。該名前付き要素マーク付け装置は電子文書と1つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶する記憶部と、該記憶部に電気的に接続されたプロセッサとを備える。該名前付き要素マーク付け方法は(a)該プロセッサが、該名前付き要素データベース内の第1セットに従って該電子文書にマーク付けして、それぞれが該第1セットに含まれる名前付き要素の1つである複数のマーク付けされた名前付き要素を有する第1マーク付き文書にするのを可能にするステップと、(b)該プロセッサが、該複数のマーク付けされた名前付き要素に対応する分類から1つ以上の第1の選択された分類を決定し、該1つ以上の第1の選択された分類に従って該名前付き要素データベース内の第2セットを規定するのを可能にするステップと、(c)該プロセッサが、該第2セットに従って該電子文書に再度マーク付けして第2マーク付き文書にするのを可能にするステップとを含む。
本発明の更に別の目的は、電子文書と1つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶する記憶部と、該記憶部に電気的に接続されたプロセッサとを備える電子装置にロードされた時、名前付き要素マーク付け方法を実行させるためのプログラムを記憶するコンピュータ読出可能な媒体を提供することである。該プログラムはコードA、コードB、及びコードCを含む。コードAは、該プロセッサが該名前付き要素データベース内の第1セットに従って該電子文書にマーク付けして、それぞれが該第1セットに含まれる名前付き要素の1つである複数のマーク付けされた名前付き要素を有する第1マーク付き文書にするのを可能にするためのコードであり、コードBは、該プロセッサが該複数のマーク付けされた名前付き要素に対応する分類から1つ以上の第1の選択された分類を決定し、該1つ以上の第1の選択された分類に従って該名前付き要素データベース内の第2セットを規定するのを可能にするためのコードであり、コードCは、該プロセッサが該第2セットに従って該電子文書に再度マーク付けして第2マーク付き文書にするのを可能にするためのコードである。
本発明は、該名前付き要素データベース内の第1セットに従って電子文書にマーク付けして第1マーク付き文書にし、該第1マーク付き文書に含まれる複数のマーク付けされた名前付き要素に対応する分類から1つ以上の第1の選択された分類を決定し、該1つ以上の第1の選択された分類に従って該名前付き要素データベース内の第2セットを規定し、次に該第2セットに従って該電子文書に再度マーク付けして第2マーク付き文書にする。このように、本発明は第1ステージのマーク付けされた名前付き要素に従って選択された分類を決定し、次に該選択された分類に従って該電子文書に再度マーク付けすることで、該電子文書にあまり関係しない名前付き要素にマーク付けするのを防ぐ。また、電子文書は出現頻度ではなく該選択された分類に従って再度マーク付けされるので、出現頻度の低い名前付き要素(例えば、新しい単語又は出現頻度がより低い名前付き要素)であってもマーク付けすることが出来る。更に、本発明は該第2マーク付き文書に従って前記名前付き要素データベース内の第3セットを決定し、該第3セットに従って該第2マーク付き文書にマーク付けして第3マーク付き文書にすることが出来る。従って、本発明は、従来技術の新しい単語にマーク付け出来ず、また高精度の名前付き要素マーク付け方法を提供できないという欠点を克服できる。
本発明の詳細な技術と好適な実施形態を、当業者が本発明の特徴をよく理解できるよう添付の図面を参照しながら下記に説明する。
本発明の第1の実施形態に係る名前付き要素マーク付け装置の概略図である。 本発明の第1の実施形態における相関を例示する概略図である。 本発明の第2の実施形態のフローチャートである。
下記において、実施形態を参照しながら本発明を説明する。しかし、これらの実施形態は、本発明を実施形態において説明する特定の環境、用途、又は特定の実施例に限定するよう意図されていない。従って、これらの実施形態の説明は本発明を限定するものではなく、例示だけのためである。なお、下記の実施形態と添付の図面において、本発明に関係のない構成要素は図示を省略する。
本発明の第1の実施形態は名前付き要素マーク付け装置1であり、その概略図を図1に示す。名前付き要素マーク付け装置1は記憶部11とプロセッサ13とを備える。プロセッサ13は記憶部11と電気的に接続されている。記憶部11には電子文書110と名前付き要素データベース112とが記憶されてよい。記憶部11はメモリ、フロッピー(登録商標)ディスク、ハードディスク、コンパクトディスク(CD)、フラッシュメモリディスク、モバイルディスク、磁気テープ、ネットワークを介してアクセス可能なデータベース、又は同じ機能を有し当業者に周知の他の任意の記憶媒体であってよい。プロセッサ13は、現在入手可能か又は将来開発される様々なプロセッサ、中央処理装置(CPU)、マイクロプロセッサ、計算器、又は計算能力を有し当業者に周知の他の装置のいずれでもよい。
本明細書では、用語「マーク付け」は(a)電子文書中の特定可能な名前付き要素の先頭アドレスと終了アドレスとを特定の方法で特定すること、次に(b)この名前付き要素の分類、分野、説明、紹介、又は関係する記述を記録したメモを先頭アドレスと終了アドレスとの間の単語列に添付することを意味する。要するに、「マーク付け」は先頭アドレスと終了アドレスとの間の単語列に情報を添付することを意味する。
本発明における電子文書110は、電子装置によって生成されるか又は読出し可能な様々なファイル、例えばハイパーテキストマークアップ言語(HTML)ファイル、ポータブルドキュメントフォーマット(PDF)ファイル、txtファイル、マイクロソフトオフィス・ワードファイル、図形認識ソフトウェアが認識可能な図形ファイル(例えば、bmpファイル、jpegファイル、gifファイル)、及び音声認識ソフトウェアが音声ファイルを認識する時に生成するテキストファイル(例えば、mp3ファイル、wavファイル、wmvファイル)のいずれでもよい。また、電子文書110はプロセッサ13によって認識可能な又は読出し可能なテキストからなるファイルであってもよい。
下記に、本発明の名前付き要素マーク付け装置1が電子文書110内の名前付き要素にマーク付けする方法を詳細に説明する。理解し易いように、「電子文書110にマーク付けする」が意味するものを先ず説明する。電子文書110にマーク付けすることは、電子文書110中に現れる幾つかの名前付き要素に印を付け、更にこれらの名前付き要素に関係するメモ(例えば、名前付き要素の分類、名前付き要素が属する分野、説明、紹介、又は関係する記述、及び名前付き要素に関係するウェブサイトリンク)を添付することを意味する。これにより、マーク付き電子文書110を読むユーザが、これらの名前付き要素の関係する情報をそれらのマークから得ることが出来、これにより読む時の便利さと、知識を得る容易さが増加する。
本発明は、電子文書にマーク付けするために、複数の名前付き要素からなる名前付き要素データベース112を利用する。本発明に記載した名前付き要素データベースの場合、それに含まれる各名前付き要素は、1つ以上の分類に対応し(即ち、名前付き要素は1つ以上の分類に分類される)、更に1つ以上の情報(例えば、名前付き要素の分野、定義、説明、紹介、又は他の関係する記述などの関係するデータ)に対応する。本発明では、新しい名前付き要素データベースを作成するか、又は既存の名前付き要素データベースを使用してよい。下記に、名前付き要素マーク付け装置1が名前付き要素データベース112を作成する方法を例示する。例えば、プロセッサ13はマークを有する1つ以上の電子文書から1つ以上のマーク付けされた名前付き要素と、該電子文書に含まれるそれらの対応する分類とを取り出して名前付き要素データベース112に記憶する。マークを有する該電子文書は、例えばインターネット上のウェブページ、マークを有するEブック、又は他の種類のファイルであってよい。
1つの実施形態では、プロセッサ13はインターネットから複数のマーク付き電子文書、例えば複数のウェブページ、第1と第2ウェブページを集めてもよい。第1ウェブページは物語ハリー・ポッターに関連するウェブページであり、名前付き要素がマーク付けされているウェブページである。第1ウェブページに記録された内容は、マーク付けされた複数の名前付き要素を含む。これらの名前付き要素のそれぞれは1つ以上の分類と情報とに対応する。これを下記の表1に例示する。
Figure 0005020352
プロセッサ13はマーク付けされた名前付き要素と、それらの対応する分類及び情報とを第1ウェブページから取り出す。例えば、プロセッサ13は第1ウェブページをウェブページタグに従って複数のウェブページ段落に分けてもよい。ウェブページ段落はマーク付けされた名前付き要素、情報、及び分類を含む。特に、プロセッサ13は先ず、「ハリー・ポッター」を含むマーク付けされた名前付き要素を第1ウェブページから取り出し、次に第1ウェブページの内容内の「ハリー・ポッター」の位置を見つけ、「<a href=”…”> </a>」等のウェブページタグに従って第1ウェブページを複数のウェブページ段落に分ける。
次に、アルゴリズムを適用することで、プロセッサ13は名前付き要素、情報、及び分類を含む情報段落をこれらのウェブページ段落から取り出す。本実施形態では、該アルゴリズムはウェブページ情報を取り出すために正規表現を利用してもよい。しかし、他の実施形態では、該アルゴリズムはウェブページ内容を取り出すために使用できる任意のアルゴリズムであってよい。言換えると、本発明において、このステージで使用するアルゴリズムに制限はない。一般的に、正規表現は(特定の配列を示すが無限の数の組合せを有するテキスト段落群を抽出するのに適切な)低水準プログラミングのための形式言語であり、プロセッサ13が認識し処理できる汎用機械言語である。正規表現の詳細な動作は、当業者によって容易に理解されるであろう。従って、更なる説明を省略する。
次に、このアルゴリズムを適用することで、プロセッサ13は情報段落から当該ウェブページに関係するメタデータ、例えばフォントサイズ、色、配置等のウェブページタグを取り出す。また、プロセッサ13はこのアルゴリズムを利用して言語整合処理を情報段落内のテキストに対して実行し、例えば情報段落内の簡体字中国語文字を伝統的な中国語文字に変換する。言語整合処理は異なる言語間でテキストを変換すること、例えば英単語を中国語文字に機械翻訳により変換することも含む。これらの例は、例示だけのためであり限定のためではない。また、プロセッサ13は情報段落内の構造テンプレートを特定してこれらの情報段落から名前付き要素に対応する情報及び分類を取り出すアルゴリズムを適用してもよい。例えば、プロセッサ13は正規表現を適用することで、情報段落から「PMingLiu」、「Sept. 20th, 2009」等のメタデータを取り出し、簡体字中国語の単語
Figure 0005020352
を伝統的な中国語の単語「妙麗(伝統的な中国語で表したハーマイオニー)」に変換する。また、プロセッサ13は構造テンプレート「<td>魔法学校の首席・・・</td>」内に情報「魔法学校の首席・・・」が存在することを検出しこの情報を取り出す。
上記説明から分かるように、プロセッサ13は名前付き要素と、該名前付き要素に対応する情報及び分類とを複数のマーク付き電子文書(例えば、複数のウェブページ又は他のEブックファイル)から取り出し、該名前付き要素と、該名前付き要素に対応する該情報及び分類とを名前付き要素データベース112に格納しデータベース112を作成することが出来る。
名前付き要素データベース112が使用可能になった後、プロセッサ13は新しい又は更新された電子文書(例えば、新しいウェブページ又は新しいEブック)に従って、定期的又は非定期的に名前付き要素データベース112を更新してもよい。例えば、記憶部11は第2ウェブページの関係するデータを更に記憶し、プロセッサ13は第2ウェブページのウェブページ更新時間を読み出し、このウェブページ更新時間に従って、記憶部11に記憶された後、第2ウェブページが更新されたか否かを判断してもよい。答えがYESであれば、プロセッサ13は第2ウェブページから更新された内容を読み出し、この更新された内容に従って、名前付き要素データベース112を更新すべきか否かを判断することが出来る。下記に、プロセッサ13が名前付き要素データベース112を更新すべきか否かを判断する方法を詳細に説明する。
名前付き要素データベース112を作成する上記方法に従って、プロセッサ13は更新された内容の名前付き要素リストを作成する。ここで、名前付き要素リストは、更新された内容から取り出した1つ以上の名前付き要素とその対応する分類及び情報とを含む。次に、名前付き要素リスト内の各名前付き要素を名前付き要素データベース112内の各名前付き要素と比較することで、プロセッサ13は名前付き要素リスト内に、データベース112の1つの名前付き要素と同一の名前付き要素があるか否かを判断する。もしあれば、プロセッサ13は更に、名前付き要素データベース112の内容を更新するべきか否か、例えば名前付き要素データベース112の該名前付き要素に対応する分類又は関係する情報を更新するべきか否かを判断する。また、名前付き要素リストを名前付き要素データベース112と比較することで、プロセッサ13は名前付き要素リスト内に、データベース112に含まれていない名前付き要素があるか否かも判断する。もしあれば、プロセッサ13はその名前付き要素を名前付き要素データベース112に追加するべきか否かを判断する。上記の2つの場合を下記に更に詳述する。
名前付き要素リスト内に、データベース112の名前付き要素と同一の名前付き要素があると判断すると、プロセッサ13は名前付き要素リストの同一の名前付き要素の新しい内容に従って、各同一の名前付き要素ごとに名前付き要素リストの新しい内容と名前付き要素データベース112の情報との間で異なる部分の比率を計算する。この比率が所定の値より大きい判定すると、プロセッサ13は名前付き要素データベース112を名前付き要素リストの新しい内容で更新する。
また、プロセッサ13は、出現頻度が高過ぎるか又は低過ぎる特定の単語列を記憶するストップリストを使用してもよい。プロセッサ13はストップリスト内のそれら特定の単語列を名前付き要素データベース112、名前付き要素リスト、マーク付けされた名前付き要素群、又は名前付き要素群の更新された内容から除外してもよい。より詳細には、プロセッサ13は全ての単語列の単語数及び出現頻度の統計をとってもよい。高過ぎる頻度又は低過ぎる頻度で出現する特定の単語列は、通常、内容に最も関係する「主題の単語」ではないので、そのような単語列はストップリストに記憶される。ストップリストはシステムに関係するが該内容の名前付き要素に関係のない特定の単語列を更に含んでもよい。単語数及び出現頻度の統計は、例えばTF−IDF(用語頻度‐逆文献頻度)を用いてもよいし、又は経験又は履歴データに従って、ストップリストに設定記憶されてもよい。
例として、プロセッサ13は「ハリー・ポッター」が名前付き要素リストに存在し、「ハリー・ポッター」に対応する情報が100単語の内容を含むことを検出する。プロセッサ13が100単語の該内容と、データベース112内の「ハリー・ポッター」に対応する情報との間の異なる部分の比率が20%であり所定値5%より大きいと判定すると、プロセッサ13は、例えば新しい内容をデータベース112内の「ハリー・ポッター」に対応する該情報に追加することで、「ハリー・ポッター」に対応する該情報を更新することを決定する。別の例として、ストップリストが「編集合戦(edit war)」、「論争更新(dispute update)」等の単語列を含んでいる場合、プロセッサ13は第2ウェブページの編集者の注釈が「編集合戦」、「論争更新」等の単語列を含まないと判定し、異なる部分の比率が所定値より大きいと判定すると、プロセッサ13は名前付き要素データベース112内の「ハリー・ポッター」に対応する情報を更新することを決定する。
一方、名前付き要素リストが名前付き要素データベース112の名前付き要素のいずれとも異なる新しい名前付き要素を含むと判定すると、プロセッサ13はこの新しい名前付き要素をデータベース112に追加する。他の幾つかの例では、新しい名前付き要素をデータベース112に追加するか否かを判断する時、プロセッサ13は第2ウェブページから編集者の注釈を更に読み出してもよい。該編集者の注釈がストップリストの特定の単語列を含まないと判定すると、プロセッサ13はこの新しい名前付き要素をデータベース112に追加する。例えば、プロセッサ13は名前付き要素リストが新しい名前付き要素「ドラコ・マルフォイ」を含み、その対応する情報の単語数は200であることを検出する。また、そのストップリストは単語列「広告」及び「違反」を含み、プロセッサ13が第2ウェブページの編集者の注釈は単語列「広告」及び「違反」を含まないと判定すると、プロセッサ13は新しい名前付き要素「ドラコ・マルフォイ」とその対応する200単語の情報とをデータベース112に追加する。
名前付き要素データベース112が作成されると、プロセッサ13は名前付き要素データベース112に従って電子文書110にマーク付けすることが出来る。本実施形態では、電子文書110は物語「ハリー・ポッター」のEブックである。下記に、プロセッサ13が名前付き要素データベース112に従って電子文書110にマーク付けする方法を詳述する。
先ず、プロセッサ13は名前付き要素データベース112内の第1セットを決定する。第1セットは名前付き要素データベース112の1つ以上の名前付き要素からなるセットである。幾つかの実施形態では、プロセッサ13は名前付き要素データベース112に含まれる全ての名前付き要素を第1セットとしてもよい。他の実施形態では、プロセッサ13は名前付き要素データベース112に記憶された名前付き要素を各名前付き要素の単語数に従って並べ替えてもよい。並べ替えは、例えば最大の単語数の名前付き要素から最小の単語数の名前付き要素への順であってもよい。その後、プロセッサ13は、並べ替え結果に従って、例えば上位50個の名前付き要素又は上位30%の名前付き要素を選択することで第1セットを生成する。更に他の実施形態では、プロセッサ13は単語数に従って名前付き要素を選択してもよい。例えば、プロセッサ13は単語数が2又は3より大きい名前付き要素を選択してもよい。
次に、プロセッサ13は名前付き要素データベース112内の第1セットに従って電子文書110にマーク付けして第1マーク付き文書にする。好適な実施形態では、プロセッサ13は、先ず、電子文書110の内容の一部をマーク付け対象の電子文書として取り出してもよい。例えば、プロセッサ13は電子文書110を複数の文書セグメントに等分し、各段落から特定の数(例えば、1000個)の単語をマーク付け対象の電子文書として取り出してもよい。次に、プロセッサ13はこのマーク付け対象の電子文書に、第1セットに含まれる名前付き要素に従って単語列比較によりマーク付けして第1マーク付き文書にするので、この第1マーク付き文書は、それぞれが第1セットに含まれる名前付き要素の1つである複数のマーク付けされた名前付き要素を有する。例えば、第1セットは名前付き要素「秘密の部屋」を含むと仮定すると、電子文書110から取り出されたマーク付け対象の電子文書内の単語列「秘密の部屋」はプロセッサ13によってマーク付けされる。本発明では、このようなマーク付けされた単語列はマーク付けされた名前付き要素と呼ばれる。他の例では、プロセッサ13は第1セットに含まれる名前付き要素に従って、電子文書110からマーク付け対象の電子文書を取り出すことなく直接、電子文書110にマーク付けして第1マーク付き電子文書にしてもよい。
第1マーク付き電子文書を生成した後、プロセッサ13は、第1マーク付き電子文書に含まれるマーク付けされた名前付き要素に対応する分類に従って1つ以上の第1の選択された分類を決定する。プロセッサ13が第1の選択された分類を選択するための複数の方法がある。例えば、全てのマーク付けされた名前付き要素の全ての分類を第1の選択された分類とするか、又は全てのマーク付けされた名前付き要素の分類の一部を第1の選択された分類とするか、又はより高い頻度で出現する分類を第1の選択された分類とする。好適な実施形態では、プロセッサ13が第1マーク付き電子文書に含まれるマーク付けされた名前付き要素に対応する分類について統計をとり、各分類に対応するマーク付けされた名前付き要素のそれぞれが第1マーク付き電子文書においてマーク付けされた回数の和を統計値として得てもよい。次に、プロセッサ13がこの統計値に従って該1つ以上の第1の選択された分類として1つ以上の分類を選択する。プロセッサ13は該1つ以上の第1の選択された分類に従って名前付き要素データベース112内の第2セットを決定する。第2セットは該1つ以上の第1の選択された分類に対応する名前付き要素群からなる。次に、プロセッサ13は電子文書110に第2セットに従って単語列比較により再度マーク付けして第2マーク付き文書にする。その後、プロセッサ13は第2マーク付き文書を記憶部11に記憶するか、又は表示のために表示部(不図示)へ送信する。
例えば、本実施形態では、該第1マーク付き文書は「ハリー・ポッター」、「ハーマイオニー」、及び「秘密の部屋」を含む複数のマーク付けされた名前付き要素を有する。プロセッサ13は統計をとることで、第1マーク付き文書において「ハリー・ポッター」が576回出現することと、「ハーマイオニー」が327回出現することとを見つける。「ハリー・ポッター」と「ハーマイオニー」の両方が分類「物語ハリー・ポッターの登場人物」に対応するので、プロセッサ13は統計から分類「物語ハリー・ポッターの登場人物」の統計値は576+327=903であると決定する。本実施形態の統計結果が、分類「物語ハリー・ポッターの登場人物」の統計値が903であり、分類「魔法学校の生徒」の統計値が432であり、分類「物語ハリー・ポッターの題名」の統計値が10であるとすると、プロセッサ13はこれらの統計値に従って最大値又はより大きな値の1つ以上の分類を第1の選択された分類として選択する。例えば、「物語ハリー・ポッターの登場人物」が第1の選択された分類として選択される。プロセッサ13は名前付き要素データベース112内の第2セットを該第1の選択された分類に従って規定する。例えば、上述した例では、第2セットは、分類が「物語ハリー・ポッターの登場人物」である名前付き要素からなる。なお、上述した計算方法は単に例示であり、唯一のものではない。
本実施形態では、第2セットを規定するための第1の選択された分類は、名前付き要素データベース112によって規定される分類の1つ(例えば、最大統計値を有する分類)であってもよいことが理解されるであろう。しかし、他の実施形態では、第2セットを規定するための選択された分類は、複数の分類、例えばより大きな統計値を有する上位2つ又は3つの分類であってもよい。言換えれば、本発明は、第1の選択された分類の数には制限がなく、例えば分類「物語ハリー・ポッターの登場人物」と分類「魔法学校の生徒」とを同時に第1の選択された分類として選択してもよく、第2セットはこれら2つの分類に対応する名前付き要素からなると規定される。
第2セットに従ってマーク付けされた前記第2マーク付き文書は、複数のマーク付けされた名前付き要素を有し、第2マーク付き文書のマーク付けされた名前付き要素はそれぞれ、第2セットに含まれる名前付き要素の1つである。通常、第2マーク付き文書内のマーク付けされた名前付き要素群は、1つ以上の第1の選択された分類に従ってマーク付けされており、第1マーク付き文書内のマーク付けされた名前付き要素群と一部同一で一部異なる。
更に、1つの機構が提供される。第2マーク付き文書を更に処理するために使用された時、この機構は電子文書110内のより多くの名前付き要素にマーク付けするのを可能にする。特に、プロセッサ13は名前付き要素データベース112内の第3セットを第2マーク付き文書のマーク付けされた名前付き要素に対応する情報に従って決定し、第2マーク付き文書に第3セットに従って単語列比較によりマーク付けして第3マーク付き文書にする。幾つかの実施形態では、第3セットに含まれる名前付き要素は、第2マーク付き文書内のマーク付けされた名前付き要素群に対応する情報に従って名前付き要素データベース112から取り出され第2セットに含まれていない名前付き要素である。プロセッサ13は第3セットに従って第2セットに含まれていない第2マーク付き文書内の名前付き要素にマーク付けすることが出来る。
更に、プロセッサ13は下記の2つの方法の1つで、名前付き要素データベース112内の第3セットを決定することが出来る。
先ず、第3セットを決定する第1の方法を説明する。プロセッサ13は第2マーク付き文書内のマーク付けされた名前付き要素群に対応する情報は、第2マーク付き文書内の1つ以上のマーク付けされていない名前付き要素を含み、該1つ以上のマーク付けされていない名前付き要素は、第2セットに含まれておらず、第1の選択された分類と異なる第2の選択された分類に対応することを見つけると、プロセッサ13は、第3セットに第2の選択された分類に対応し第2セットに含まれていない名前付き要素群を含めることを決定できる。
例えば、プロセッサ13は第2マーク付き文書内のマーク付けされた名前付き要素「ハリー・ポッター」に対応する情報「この本の主役、額に稲妻形の傷跡がある・・・」がマーク付けされておらず第2セットに含まれていない名前付き要素「魔法魔術学校」を含むことを見つける。「魔法魔術学校」は分類「魔法学校」(データベース112によって規定された分類の1つ)に対応するので、プロセッサ13は第3セットに分類「魔法学校」に対応する名前付き要素群を含めることを決定する。
次に、第3セットを決定する第2の方法を説明する。プロセッサ13は第2マーク付き文書内のマーク付けされた名前付き要素群に対応する情報は、1つ以上のマーク付けされておらず第2セットに含まれていない名前付き要素を含むことを見つけると、プロセッサ13は、第3セットに該1つ以上のマーク付けされていない名前付き要素を含めることを決定できる。
例えば、プロセッサ13は第2マーク付き文書内のマーク付けされた名前付き要素「ハリー・ポッター」に対応する情報「この本の主役、額に稲妻形の傷跡がある・・・」がマーク付けされておらず第2セットに含まれていない名前付き要素「魔法魔術学校」を含むことを見つけると、プロセッサ13は第3セットに「魔法魔術学校」を含めることを決定できる。
プロセッサ13が第3セットに従って新しいマークを第2マーク付き文書に追加し、第3マーク付き文書を得た後、第3マーク付き文書は複数のマーク付けされた名前付き要素を有する(例えば、上記実施形態では、第2セットと第3セットとに従ってマーク付けされた名前付き要素群を有する)。この時、電子文書110の名前付き要素マーク付けが完了したと見なしてよい。第3マーク付き文書は記憶部11に記憶されるか、又は表示のために表示部(不図示)へ送信される。
また、本発明では、第2マーク付き文書又は第3マーク付き文書内のマーク付けされた名前付き要素間の相関を確立してもよい。
先ず、分類アルゴリズムを適用することで、プロセッサ13がマーク付けされた名前付き要素を該マーク付けされた名前付き要素に対応する分類に従って複数のグループに分類する。次に、中核のマーク付けされた名前付き要素を選択し、分類アルゴリズムを適用することで、プロセッサ13は中核のマーク付けされた名前付き要素と、各グループ内の各名前付き要素との間の特徴値を計算し、中核のマーク付けされた名前付き要素と、各グループとの間のグループ特徴値を計算する。その後、プロセッサ13は最大のグループ特徴値を持つ複数のグループと、該グループ内の最大の特徴値を持つ複数の名前付き要素とを選択し相関を確立する。図2に示した相関を表示装置又は操作インターフェイスにより表示することが出来る。
図2において、マーク付き電子文書が46個のマーク付けされた名前付き要素を有し、これら46個のマーク付けされた名前付き要素は7つの分類に対応すると仮定すると、プロセッサ13は分類アルゴリズムを適用することで、マーク付けされた名前付き要素を7つのグループに分類することが出来る。本実施形態では、「ハリー・ポッター」を中核のマーク付けされた名前付き要素として選択する(他の実施形態では、別のマーク付けされた名前付き要素を中核のマーク付けされた名前付き要素として選択してもよい)。プロセッサ13はこの中核のマーク付けされた名前付き要素と、各グループ内の各名前付き要素との間の特徴値を計算する。例えば、図2に示すように、グループ「物語ハリー・ポッターの登場人物」内の「ハーマイオニー(420)」の「420」は、「ハリー・ポッター」に対応するグループ「物語ハリー・ポッターの登場人物」内の「ハーマイオニー」の特徴値であり、グループ「魔法学校の生徒」内の「ハーマイオニー(375)」の「375」は、「ハリー・ポッター」に対応するグループ「魔法学校の生徒」内の「ハーマイオニー」の特徴値である。また、プロセッサ13は各グループのグループ特徴値を計算する。例えば、図2に示すように、「物語ハリー・ポッターの登場人物(787)」の「787」は、「物語ハリー・ポッターの登場人物」に対応するグループ特徴値である。最後に、プロセッサ13は最大グループ特徴値を有する複数の(例えば、3つの)グループと、これら複数のグループ内で最大特徴値を有する複数の(例えば、3つの)マーク付けされた名前付き要素とを選択し、「ハリー・ポッター」とグループ「物語ハリー・ポッターの登場人物」との相関と、グループ「魔法学校の生徒」とグループ「魔法学校の教授陣」との相関と、「ハリー・ポッター」と「ハーマイオニー」、「ヴォルデモート」、「ダンブルドア」、「ロン」等のマーク付けされた名前付き要素との相関とを図2に示すように叙述する。
各グループ内の各名前付き要素と中核のマーク付けされた名前付き要素との間の特徴値を、事前に確立された名前付き要素群の存在論的空間又は意味ツリー構造、又は特徴値公式に従って、例えば名前付き要素群の意味ツリー構造における各名前付き要素と中核のマーク付けされた名前付き要素との距離に従って計算することが出来る。各グループと中核のマーク付けされた名前付き要素との間のグループ特徴値は、該グループ内の一部又は全ての名前付き要素の特徴値に従って計算することが出来る。1つの実施形態では、貪欲算法を適用することで、グループ内の各名前付き要素と中核のマーク付けされた名前付き要素との距離をリストにし、全ての名前付き要素を順に並べ、複数の部分(例えば、3等分又は5等分)に分割して、各部分に係数を割り当てることが出来る。その後、グループ特徴値を特定の公式を使用して計算する。例えば、グループ内の各名前付き要素(又はグループ内の複数の上位名前付き要素のそれぞれ)の特徴値に該名前付き要素が属する部分の係数を掛け、該グループのこれらの積を加算してグループ特徴値を得る。また、グループ特徴値を計算する複数の方法、例えばグループ内の全て又は一部の名前付き要素の特徴値を直接加算する方法、又は他の公式を使用して計算する方法が存在する。
本発明の第2の実施形態が図3に示されている。第2の実施形態は第1の実施形態で説明した名前付き要素マーク付け装置のための名前付き要素マーク付け方法である。名前付き要素マーク付け装置はプロセッサと記憶部とを備える。該プロセッサは該記憶部に電気的に接続されている。該記憶部には電子文書と名前付き要素データベースとが記憶されている。該名前付き要素データベースは複数の名前付き要素を含み、各名前付き要素は1つ以上の分類と情報とに対応する。
また、第2の実施形態で説明する名前付き要素マーク付け方法はプログラムとして実現されてもよい。このプログラムはコンピュータ読出可能な媒体に記憶されてよい。プログラムが電子装置(例えば、名前付き要素マーク付け装置)にロードされた時、該プログラムは該電子装置に名前付き要素マーク付け方法を実行させる。該電子装置はコンピュータ、計算器、サーバー、PDA、ノートパソコン、又はネットブックであってよい。該プログラムは複数のコードを含み、第2の実施形態で説明する名前付き要素マーク付け方法を実行させる。コンピュータ読出可能な媒体は、機械読出可能な媒体、例えば読出し専用メモリ(ROM)、フラッシュメモリ、フロッピーディスク、ハードディスク、コンパクトディスク、モバイルディスク、磁気テープ、ネットワークを介してアクセス可能なデータベース、又は同じ機能を有し当業者に周知の他の任意の記憶媒体であってよい。
図3は第2の実施形態の名前付き要素マーク付け方法のフローチャートである。ステップ304が実行され、該プロセッサが名前付き要素データベース内の第1セットに従って電子文書にマーク付けして第1マーク付き文書にするのを可能にする。第1マーク付き文書は複数のマーク付けされ第1セットに含まれる名前付き要素を有する。
ステップ304の実行後、ステップ306が実行され、該プロセッサがマーク付けされた名前付き要素に対応する分類から1つ以上の第1の選択された分類を決定し、該1つ以上の第1の選択された分類に従って名前付き要素データベース内の第2セットを規定するのを可能にする。次に、ステップ307が実行され、該プロセッサが第2セットに従って該電子文書に再度マーク付けして第2マーク付き文書にするのを可能にする。
更に、本名前付き要素マーク付け方法はステップ308を実行し、該プロセッサが該第2マーク付き文書のマーク付けされた名前付き要素に対応する情報に従って名前付き要素データベース内の第3セットを決定するのを可能にする。次に、ステップ309が実行され、該プロセッサが第3セットに従って第2マーク付き文書にマーク付けして第3マーク付き文書にするのを可能にする。最後に、ステップ310が実行され、該プロセッサがマーク付けされた名前付き要素間の相関を確立するのを可能にする。
他の実施形態では、本名前付き要素マーク付け方法はステップ301〜ステップ303(不図示)を更に含んでもよい。ステップ301が実行され、該プロセッサが1つ以上の電子文書から複数の名前付き要素を取り出して名前付き要素データベースを構築するのを可能にする。ここで、該プロセッサは1つ以上のウェブページから正規表現を適用することで名前付き要素を取り出してもよい。ステップ302が実行され、該プロセッサは該電子文書が更新されたか否かを判断する。答えがYESであれば、ステップ303が実行され、該プロセッサは名前付き要素データベースを更新し、その後、ステップ304が実行される。答えがNOであれば、ステップ304が直ちに実行される。
他の実施形態では、ステップ304の次に、ステップ305を追加して、該プロセッサが第1マーク付き文書のマーク付けされた名前付き要素に対応する分類群について統計をとり、複数の統計値を得るようにしてもよい。各統計値は1つの分類に対応するマーク付けされた名前付き要素のそれぞれが第1マーク付き電子文書においてマーク付けされた回数の和である。
上記ステップ群に加えて、第2の実施形態は、第1の実施形態で述べた全ての動作と機能を実行することも出来る。当業者は第2の実施形態がこれらの動作と機能を実行する方法を第1の実施形態の説明に基づいて容易に理解するであろう。従って、更なる説明を省略する。
上記説明によれば、本発明は名前付き要素データベース内の第1セットに従って電子文書にマーク付けして第1マーク付き文書にし、マーク付けされた名前付き要素に対応する分類から1つ以上の第1の選択された分類を決定して、該電子文書がどの分類により関係するのかを見つける。次に、本発明はより関係する該分類に従って名前付き要素データベース内の第2セットを決定し、第2セットに従って該電子文書に再度マーク付けして第2マーク付き文書にする。このようにして、該電子文書にあまり関係していない名前付き要素にマーク付けするのを防ぐことが出来る。これにより、本発明は、従来技術の新しい単語にマーク付け出来ず、また高精度の名前付き要素マーク付け方法を提供できないという欠点を克服できる。
上記開示は詳細な技術的内容とその独創的特徴に関する。当業者は本発明の開示と示唆に基づいてその特徴から逸脱することなく様々な変形及び置換えを想到する可能性がある。これらの変形及び置換えは上記説明に完全には開示されていないが、添付の請求項に実質的に記載されている。
11 記憶部
13 プロセッサ
110 電子文書
112 名前付き要素データベース

Claims (17)

  1. 電子文書と、1つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶するよう構成された記憶部と、
    該記憶部に電気的に接続されたプロセッサと
    を備え、
    該プロセッサは
    該名前付き要素データベース内の第1セットに従って該電子文書にマーク付けして、それぞれが該第1セットに含まれる名前付き要素の1つである複数のマーク付けされた名前付き要素を有する第1マーク付き文書にし、
    該複数のマーク付けされた名前付き要素に対応する分類から1つ以上の第1の選択された分類を決定し、
    該1つ以上の第1の選択された分類に従って該名前付き要素データベース内の第2セットを規定し、
    該第2セットに従って該電子文書に再度マーク付けして第2マーク付き文書にするよう構成されている名前付き要素マーク付け装置。
  2. 前記プロセッサは、複数の統計値に従って前記1つ以上の第1の選択された分類を決定し、該各統計値は1つの分類に対応するマーク付けされた名前付き要素のそれぞれが前記第1マーク付き文書においてマーク付けされた回数の和である請求項1に記載の名前付き要素マーク付け装置。
  3. 前記第2セットは、前記名前付き要素データベース内の前記1つ以上の第1の選択された分類に対応する名前付き要素からなる請求項1に記載の名前付き要素マーク付け装置。
  4. 前記各名前付き要素は情報に更に対応し、前記第2マーク付き文書は複数のマーク付けされた名前付き要素を有し、該第2マーク付き文書の該各マーク付けされた名前付き要素は前記第2セットに含まれる名前付き要素の1つであり、
    前記プロセッサは該第2マーク付き文書の該マーク付けされた名前付き要素に対応する該情報に従って前記名前付き要素データベース内の第3セットを決定し、該第3セットに従って該第2マーク付き文書にマーク付けして第3マーク付き文書にするよう更に構成されている請求項1に記載の名前付き要素マーク付け装置。
  5. 前記プロセッサは前記第2マーク付き文書の前記マーク付けされた名前付き要素に対応する前記情報は、該第2マーク付き文書内の1つ以上のマーク付けされていない名前付き要素を含むことを見つけ、該1つ以上のマーク付けされていない名前付き要素が前記第2セットに含まれず、第2の選択された分類に対応する場合、該プロセッサは前記第3セットが該第2の選択された分類に対応する名前付き要素を含むことを決定する請求項4に記載の名前付き要素マーク付け装置。
  6. 前記プロセッサは前記第2マーク付き文書の前記マーク付けされた名前付き要素に対応する前記情報は、該第2マーク付き文書内の1つ以上のマーク付けされていない名前付き要素を含むことを見つけ、該1つ以上のマーク付けされていない名前付き要素は前記第2セットに含まれず、該プロセッサは前記第3セットが該1つ以上のマーク付けされていない名前付き要素を含むことを決定する請求項4に記載の名前付き要素マーク付け装置。
  7. 前記プロセッサはマークを有する1つ以上の電子文書から1つ以上のマーク付けされた名前付き要素を取り出して、前記名前付き要素データベースを構築する請求項1に記載の名前付き要素マーク付け装置。
  8. 前記第2マーク付き文書は複数のマーク付けされた名前付き要素を有し、前記プロセッサは該マーク付けされた名前付き要素間の相関を確立するよう更に構成されている請求項1に記載の名前付き要素マーク付け装置。
  9. 電子文書と、1つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶する記憶部と、該記憶部に電気的に接続されたプロセッサとを備える名前付き要素マーク付け装置において適用されるための名前付き要素マーク付け方法であって、
    (a)該プロセッサが、該名前付き要素データベース内の第1セットに従って該電子文書にマーク付けして、それぞれが該第1セットに含まれる名前付き要素の1つである複数のマーク付けされた名前付き要素を有する第1マーク付き文書にするのを可能にするステップと、
    (b)該プロセッサが、該複数のマーク付けされた名前付き要素に対応する分類から1つ以上の第1の選択された分類を決定し、該1つ以上の第1の選択された分類に従って該名前付き要素データベース内の第2セットを規定するのを可能にするステップと、
    (c)該プロセッサが、該第2セットに従って該電子文書に再度マーク付けして第2マーク付き文書にするのを可能にするステップと
    を含む名前付き要素マーク付け方法。
  10. 前記ステップ(b)で、前記プロセッサは、複数の統計値に従って前記1つ以上の第1の選択された分類を決定し、該各統計値は1つの分類に対応するマーク付けされた名前付き要素のそれぞれが前記第1マーク付き文書においてマーク付けされた回数の和である請求項9に記載の名前付き要素マーク付け方法。
  11. 前記第2セットは、前記名前付き要素データベース内の前記1つ以上の第1の選択された分類に対応する名前付き要素からなる請求項9に記載の名前付き要素マーク付け方法。
  12. 前記各名前付き要素は情報に更に対応し、前記第2マーク付き文書は複数のマーク付けされた名前付き要素を有し、該第2マーク付き文書の該各マーク付けされた名前付き要素は前記第2セットに含まれる名前付き要素の1つであり、
    (d)前記プロセッサが該第2マーク付き文書の該マーク付けされた名前付き要素に対応する該情報に従って前記名前付き要素データベース内の第3セットを決定するのを可能にするステップと、
    (e)該プロセッサが該第3セットに従って該第2マーク付き文書にマーク付けして第3マーク付き文書にするのを可能にするステップと
    を更に含む請求項9に記載の名前付き要素マーク付け方法。
  13. 前記ステップ(d)は
    (d1)前記プロセッサが前記第2マーク付き文書の前記マーク付けされた名前付き要素に対応する前記情報は、該第2マーク付き文書内の1つ以上のマーク付けされていない名前付き要素を含むことを見つけ、該1つ以上のマーク付けされていない名前付き要素が前記第2セットに含まれず、第2の選択された分類に対応する場合、前記第3セットが該第2の選択された分類に対応する名前付き要素を含むことを決定するのを可能にするステップを含む、請求項12に記載の名前付き要素マーク付け方法。
  14. 前記ステップ(d)は
    (d2)前記プロセッサが前記第2マーク付き文書の前記マーク付けされた名前付き要素に対応する前記情報は、該第2マーク付き文書内の1つ以上のマーク付けされておらず前記第2セットに含まれていない名前付き要素を含むことを見つけ、前記第3セットが該1つ以上のマーク付けされていない名前付き要素を含むことを決定するのを可能にするステップを含む、請求項12に記載の名前付き要素マーク付け方法。
  15. 前記ステップ(a)の前に、前記プロセッサがマークを有する1つ以上の電子文書から1つ以上のマーク付けされた名前付き要素を取り出して、前記名前付き要素データベースを構築するのを可能にするステップを更に含む請求項9に記載の名前付き要素マーク付け方法。
  16. 前記第2マーク付き文書は複数のマーク付けされた名前付き要素を有し、
    (f)前記プロセッサが該マーク付けされた名前付き要素間の相関を確立するのを可能にするステップを更に含む請求項9に記載の名前付き要素マーク付け方法。
  17. 電子文書と、1つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶する記憶部と、該記憶部に電気的に接続されたプロセッサとを備える電子装置にロードされた時、名前付き要素マーク付け方法を実行させるためのプログラムを記憶するコンピュータ読出可能な媒体であって、該プログラムは
    該プロセッサが、該名前付き要素データベース内の第1セットに従って該電子文書にマーク付けして、それぞれが該第1セットに含まれる名前付き要素の1つである複数のマーク付けされた名前付き要素を有する第1マーク付き文書にするのを可能にするためのコードAと、
    該プロセッサが、該複数のマーク付けされた名前付き要素に対応する分類から1つ以上の第1の選択された分類を決定し、該1つ以上の第1の選択された分類に従って該名前付き要素データベース内の第2セットを規定するのを可能にするためのコードBと、
    該プロセッサが、該第2セットに従って該電子文書に再度マーク付けして第2マーク付き文書にするのを可能にするためのコードCと
    を含む、コンピュータ読出可能な媒体。
JP2010132907A 2010-04-14 2010-06-10 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体 Active JP5020352B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW099111577 2010-04-14
TW099111577A TWI396983B (zh) 2010-04-14 2010-04-14 名詞標記裝置、名詞標記方法及其電腦程式產品

Publications (2)

Publication Number Publication Date
JP2011221978A JP2011221978A (ja) 2011-11-04
JP5020352B2 true JP5020352B2 (ja) 2012-09-05

Family

ID=44788990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010132907A Active JP5020352B2 (ja) 2010-04-14 2010-06-10 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体

Country Status (4)

Country Link
US (1) US8244732B2 (ja)
JP (1) JP5020352B2 (ja)
KR (1) KR101145979B1 (ja)
TW (1) TWI396983B (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012859A1 (en) * 2012-07-03 2014-01-09 AGOGO Amalgamated, Inc. Personalized dynamic content delivery system
US10552539B2 (en) * 2015-12-17 2020-02-04 Sap Se Dynamic highlighting of text in electronic documents
TWI595367B (zh) * 2016-10-24 2017-08-11 洪信傑 網路資訊分析方法及採用此方法之網路資訊分析系統
CN109165388B (zh) * 2018-09-28 2022-06-21 郭派 一种构建英语多义词释义语义树的方法和系统
CN112101026B (zh) * 2019-06-18 2024-05-31 掌阅科技股份有限公司 语料样本集合的构建方法、计算设备及计算机存储介质
US11907678B2 (en) 2020-11-10 2024-02-20 International Business Machines Corporation Context-aware machine language identification

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
AU2001264928A1 (en) * 2000-05-25 2001-12-03 Kanisa Inc. System and method for automatically classifying text
US6892204B2 (en) * 2001-04-16 2005-05-10 Science Applications International Corporation Spatially integrated relational database model with dynamic segmentation (SIR-DBMS)
CA2475319A1 (en) * 2002-02-04 2003-08-14 Cataphora, Inc. A method and apparatus to visually present discussions for data mining purposes
US7269544B2 (en) * 2003-05-20 2007-09-11 Hewlett-Packard Development Company, L.P. System and method for identifying special word usage in a document
WO2005029353A1 (ja) 2003-09-18 2005-03-31 Fujitsu Limited 注釈管理システム、注釈管理方法、文書変換サーバ、文書変換プログラム、電子文書付加プログラム
TWI225994B (en) * 2003-12-16 2005-01-01 Inst Information Industry System, method and machine-readable storage medium for automated sentence annotation
US20080072134A1 (en) * 2006-09-19 2008-03-20 Sreeram Viswanath Balakrishnan Annotating token sequences within documents
CN101192220B (zh) * 2006-11-21 2010-09-15 财团法人资讯工业策进会 适用于资源搜寻的标签建构方法及系统
JP2008217157A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 操作履歴を利用した自動情報整理装置、方法、およびプログラム
US8374844B2 (en) * 2007-06-22 2013-02-12 Xerox Corporation Hybrid system for named entity resolution
JP2009217741A (ja) * 2008-03-12 2009-09-24 Fujifilm Corp メタデータ付与方法及び装置、並びにメタデータ付与プログラム
US8275608B2 (en) * 2008-07-03 2012-09-25 Xerox Corporation Clique based clustering for named entity recognition system

Also Published As

Publication number Publication date
TWI396983B (zh) 2013-05-21
US20110258194A1 (en) 2011-10-20
KR101145979B1 (ko) 2012-05-15
JP2011221978A (ja) 2011-11-04
KR20110115061A (ko) 2011-10-20
US8244732B2 (en) 2012-08-14
TW201135479A (en) 2011-10-16

Similar Documents

Publication Publication Date Title
WO2019153607A1 (zh) 智能应答方法、电子装置及存储介质
WO2019227584A1 (zh) 简历数据信息解析处理方法、装置、设备及存储介质
TWI536181B (zh) 在多語文本中的語言識別
US8972413B2 (en) System and method for matching comment data to text data
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
US8868556B2 (en) Method and device for tagging a document
JP5020352B2 (ja) 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体
US10417267B2 (en) Information processing terminal and method, and information management apparatus and method
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
CN101887414A (zh) 对包含图像符号的文本消息传达的评价自动打分的服务器
CN108319583B (zh) 从中文语料库提取知识的方法与系统
WO2011091442A1 (en) System and method for optimizing search objects submitted to a data resource
JPWO2008126862A1 (ja) 情報提供システム
CN111199151A (zh) 数据处理方法、及数据处理装置
JP6409071B2 (ja) 文の並び替え方法および計算機
JP2010250439A (ja) 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体
JP2020067987A (ja) 要約作成装置、要約作成方法、及びプログラム
CN112527954A (zh) 非结构化数据全文搜索方法、系统及计算机设备
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
KR101351555B1 (ko) 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JP2014191777A (ja) 語義解析装置、及びプログラム
JP4799677B2 (ja) 出願文書情報作成装置、出願文書情報作成方法、及びプログラム
Cummings et al. The Holinshed Project: Comparing and linking two editions of Holinshed's Chronicle
JP4579281B2 (ja) 出願文書情報作成装置、出願文書情報作成方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120612

R150 Certificate of patent or registration of utility model

Ref document number: 5020352

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250