JP4929704B2

JP4929704B2 - コンピュータ処理方法及びコンピュータ処理装置

Info

Publication number: JP4929704B2
Application number: JP2005365377A
Authority: JP
Inventors: ジョーゼフアームストロングパトリック; ハシュミナダ; ヨンリースン; 竜介益岡; ソンジョシュアヌ
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-12-20
Filing date: 2005-12-19
Publication date: 2012-05-09
Anticipated expiration: 2025-12-19
Also published as: US8065336B2; JP2006178982A; CN1794234A; US20060136194A1; CN100495395C; EP1672537B1; EP1672537A2; EP1672537A3

Description

本発明は一般にデータの意味的情報を与える方法及びシステムに関連する。特に本発明は大量の半構造化データ又は構造化データをセマンティクスと共に注釈を付ける方法及びコンピュータシステムに関連する。

コンピューティング、ネットワーク及びセンサ装置等を含む技術の進歩により、大量のデータが生成される。一般に集められたデータは分析されることを必要とし、伝統的にそれは１つのアプリケーションの中でなされている。しかしながら生物情報工学や気象学等のような多くの分野では、あるアプリケーションで生成／収集されたデータが別のアプリケーションで更に使用される必要があるかもしれない。更に複数の学問分野の協同が−特に科学技術の社会で−しばしば望まれる。従って１つの重要事項は、情報を交換する能力（シンタクティックオペラビリティ）及び交換された情報を使用する能力（セマンティックオペラビリティ）による相互運用性である。ＩＥＥＥ標準コンピュータ辞典：A Compilation of IEEE Standard Computer Glossaries,IEEE,1990。

情報のオントロジ(ontology)ベースの表現を含む従来のセマンティックワールドワイドウェブ（又はウェブ）技術は、コンピュータ及び人間の協力を可能にし、データ共用及び管理を支援するために使用可能である。オントロジ表現によりエンティティ及びドメイン内の関連性のモデリングはソフトウエア及びコンピュータが以前に無いような情報を処理することを許容する（これについては、西暦２００４年１０月２２日に非特許文献１で開示されている。）。従来のセマンティックウエブ技術はワールドワイドウエブの拡張であり、ウエブページを探索し、そのウエブページをセマンティックウエブページのレベルに橋渡し（ブリッジ）することを前提としている。従って従来のセマンティックウエブ技術は、ウエブページをハイパーテキストマークアップ言語（ＨＴＭＬ）書類のようなタグの付された書類（完全に構造化された書類と考えられる）のように処理する。更に、従来のセマンティックウエブ技術は唯一プレゼンテーション用であり、タスクコンピューティング（即ち、タスク処理装置用の処理装置）用ではない。WEB SCRAPER（ウエブスクラッパ）ソフトウエアはウエブページを構造化書類としてセマンティックレベルにブリッジする従来のセマンティックウエブ技術の具体例である。しかしながらフラットファイルのような半構造データ又は非構造化データに意味（セマンティクス）を付与することは簡単なタスクではなく、従来そのような機能は（入力データごとに）ケースバイケースに実行されており、長々しく誤りやすい傾向がある。注釈付けが自動化される場合でさえ、そのような注釈は注釈される特定のドメインしか標的にしない。

従って半構造化及び未構造化データ注釈に関する既存の手法は、ユーザの知識及び手作業に完全に依存しており、大量のデータを任意のフォーマットで任意のドメインで注釈を付けるには相応しくない。なぜならそのような既存の手法はあまりに長すぎるし誤りやすいので、任意のドメインにおける任意のフォーマットの大量のデータに適用できないからである。例えば西暦２００４年１０月２２日に開示されていた非特許文献２（GENE ONTOLOGY(GO)注釈）や非特許文献３（TRELLIS by University of Southern California’s Information Institute(ISI)）のような既存の手法は、ユーザの知識に完全に依存し、データ特有であり、入力データ毎を基礎とし、長々しく誤りやすい。特にジーンオントロジ（GO）は遺伝的オントロジによるセマンティックデータ注釈を与えるが、GOはジーンプロダクツにしか適用可能でなく、ジーンプロダクツに関する専門知識に強く依存している（何らかのタイプの注釈が用意される場合に、その注釈はジーンプロダクツドメインのみを標的にする或いはそれに固有である。）。更にトレリスではユーザは観察、見解及び結論を通じて書類にセマンティック注釈を付するが、トレリスもユーザに強く依存し、彼らの専門知識に基づいて新たな知識を付加し、更にトレリスでのセマンティック注釈は観察された書類ごとに１つのセマンティック例になる。
インターネット<www.sys-con.com/xml/article.cfm?id=577> インターネット<www.geneontology.org> インターネット<www.isi.edu/ikcap/trellis>

首尾よくデータ共有及び管理を行うように半構造化ないし未構造化フォーマットで収集されたどのデータでも完全に利用するには、セマンティクスでデータを注釈する更に簡易な手法が大いに望まれる。

本発明によるコンピュータシステムは大量のデータ（半構造化ないし未構造化電子データを含む）に如何なるフォーマットでも如何なるドメインででもセマンティクスで注釈を付けるユーザを支援する。従って本発明は電子データのオントロジ表現を如何なるフォーマット及び如何なるドメインでも提供する。

上記課題を解決するため、本発明のコンピュータ処理方法は、オントロジコンセプトを入力データとしての電子データにマッピングするための一群のアノテーション要素を規定するステップと、入力データのサンプルをユーザに提示し、ユーザにより選択された入力データのサンプルを受け付けるステップと、選択されたオントロジより、ユーザにより選択されたオントロジコンセプトを受け付けるステップと、選択された入力データのサンプルに対して、選択されたオントロジコンセプトを対応付けるための、ユーザによるマッピングを受け付けるステップと、ユーザによるマッピングに基づき、規定された一群のアノテーション要素及び入力データのサンプルに従って、オントロジコンセプトと入力データのサンプルとの間の意味論的処理規則を生成するステップと、入力データのサンプルに対する意味論的処理規則の生成に基づいて、入力データにオントロジコンセプトをマッピングするステップと、オントロジコンセプトの入力データへのマッピングに基づいて入力データの注釈済みデータを生成し、入力データ全体に対するユーザ制御データセマンティゼーションサービスを提供するステップとを有することを特徴とする。

上記課題を解決するため、本発明のコンピュータ処理装置は、プログラムされたコンピュータプロセッサを有するコンピュータ処理装置であって、前記プログラムされたコンピュータプロセッサが、オントロジコンセプトを入力データとしての電子データにマッピングするための一群のアノテーション要素を規定し、入力データのサンプルをユーザに提示して、ユーザにより選択された入力データのサンプルを受け付け、選択されたオントロジより、ユーザにより選択されたオントロジコンセプトを受け付け、選択された入力データのサンプルに対して、選択されたオントロジコンセプトを対応付けるための、ユーザによるマッピングを受け付け、ユーザによるマッピングに基づき、規定された一群のアノテーション要素及び入力データのサンプルに従って、オントロジコンセプトと入力データのサンプルとの間の意味論的処理規則を生成し、入力データのサンプルに対する意味論的処理規則の生成に基づいて、入力データにオントロジコンセプトをマッピングし、オントロジコンセプトの入力データへのマッピングに基づいて入力データの注釈済みデータを生成し、入力データ全体に対するユーザ制御データセマンティゼーションサービスを提供することを特徴とする。

上記及び更なる形態及び利点は以下の説明部分に示されており、その説明から明白になるであろうし、或いは説明される実施例により教示されるであろう。

実質的に明白になる他の形態及び利点は明細書及び特許請求の範囲に示される構成及び動作にあり、説明の一部をなす添付図面が参照され、全図を通じて同様な番号は同様な部分を示す。

以下で本発明の実施例が詳細に参照され、その具体例が添付図面に示される。実施例は本発明を説明するために図面を参照することによってなされる。

図１は本発明の一実施例によりデータを意味論的に処理するフローチャートである。本発明はデータセマンティサイザとしてコンピュータシステムを提供し、ユーザが任意のフォーマットで大量の電子データ１０８（半構造化ないし未構造化電子データを含む）に任意のドメインの中でセマンティクスで注釈付けすることを支援する。データセマンティサイザ１００は直感的且つ効果的な方法を用いて任意のフォーマットで任意のドメインでデータ１０８にセマンティクスと共に注釈を付け、データセットがそれらの知識ベースに入力可能であるようにする（知識ベースは問題を解決するのに必要な事実及び規則の集まりである。）。

例えばデータセマンティサイザ１００は構造化データに適用可能である。別の例としてデータセマンティサイザ１００は、データがよく理解されたフォーマットにあるかもしれないが様々なソフトウエアアプリケーションからのデータの出力各々は固有であるかもしれない場合に使用可能である。生体工学分析アプリケーションのような各アプリケーションはよく理解されたフォーマットでデータを生成することは観察可能であるが、アプリケーション各々の実行は固有になる傾向がある。例えば生体工学の場合にはベーシックローカルアライメントサーチツール(BLAST: BASIC LOCAL ALIGNMENT SEARCH TOOL)の出力は、新たなシーケンスと以前に特徴付けられたシーケンスを比較し、入力パラメータに依存して変更し、その出力は合致するシーケンス数及び合致するシーケンスの場所等の点で異なる。国際衛生研究所の生体工学情報(NCBI)国際センターはBLASTに関する情報を提供している（これについては例えば西暦２００４年１０月２２日現在、[www.cnbi.nih.gov/Education/BLASTinfo/information3.html]に及びAtlschul et al.,Basic Local Alignment Search Tool,Journal of Molecular Biology,251:403-410に開示されている。）。ウエブページとは異なり、データの構造を見分けるために特殊なタグも同様な機構もBLASTの出力では一切使用されない。データセマンティサイザ１００は選択されたオントロジに基づいて半構造化データのセマンティックインスタンスを生成する。セマンティックレベルが用意されると、データ特性は識別可能である（そうでなければ、入力及び出力データ中の多数の相違に起因して識別不可能であろう。）。例えばBLASTの場合には多くの出力表現によらず、実際のジーンシーケンスが識別可能である。従ってデータの構造を確認するために特殊なタグも同様な機構も一切使用されない場合に、半構造化ないし未構造化フォーマットにあると考えられるデータについて且つオントロジ選択を許容することで任意のドメインの中でデータセマンティサイザ１００が使用可能である。

図１は任意のフォーマットで任意のドメインで電子データ１０８をセマンティクスと共に注釈を行う、コンピュータを制御するコンピュータソフトウエアで実現されるようなデータシンセサイザ１００のフローチャートである。図１ではセマンティサイザ１００による意味論的処理フローは規則集合生成１０２（破線枠で示される）及びセマンティックインスタンス生成１０４（二重線の多角形で示される）の２つの意味論的処理を有する。規則集合生成１０２はワンタイム（１回の）プロセスであり（但し、１度のプロセスに限定されない）、例えばドメイン技師又はシステム管理者によって実行可能である。ドメインエキスパート又はシステムアドミニストレータは人でも、コンピュータで実現されるものでも或いはそれらの如何なる組み合わせでもよい。処理１０２は意味論的規則集合１１０を生成する。処理１０２で規則集合１１０が利用可能になると、処理１０４でその規則酒豪１１０に基づいてセマンティックインスタンス１１８が生成可能である。「セマンティックインスタンス」１１８はある概念（コンセプト）に基づく個々の項目（アイテム）に関する記述の集合である。１つのアイテムは入力データ１０８のどの部分でもよい。

より具体的には、図１に示されるように、本発明はコンピュータ処理方法を提供し、その方法は処理１０６で電子データ１０８の概念を入力データとしてマッピングするために一群の注釈要素を規定する（意味論的規則エディタ１０６として実行される）ステップを含む。処理１０６は本質的には電子データ１０８の構造を捕捉することを許容する。入力データ１０８の構造を捕捉するため及びコンセプトを入力データ１０８に対応付けるため、対応規則（マッピングルール）１１０は、規定済みの一群の注釈要素及び入力データ１０８のサンプル１１４に従って生成される。処理１１２は、入力データ１０８にマッピングルール１１０を適用することによってコンセプトを入力データ１０８にマッピングし、入力データ１０８に適用されたマッピングルール１１０に基づいて入力データ１０８のセマンティックインスタンス１１８を生成するステップを含む。（意味論的規則エディタ１０６で実行される）コンセプトを入力データ１０８に対応付ける或いは入力データ１０８の構造を取得するための一群の注釈要素は、入力データ１０８から選択されたサンプル１１４と、入力データ１０８に対応する選択されたオントロジ１１６と、サンプル入力データ１１４中のワード又はワードフレーズ（即ち、ワード又はワードフレーズはデータポイントの例である）と選択されたオントロジ１１６から選択されたオントロジのコンセプトとの対応関係と、サンプル入力データ１１４の構造に関するマッピングされたワード又はワードフレーズのパターン（即ち、選択されたオントロジ１１６から選択されたオントロジコンセプトにマッピングされた選択されたサンプル入力データ１１４におけるフレーズ及び／又はフレーズの領域）とを有する。

オントロジ１１６はウエブオントロジ言語（OWL）ファイルフォーマットのような電子情報フォーマットに従ってコンピュータ読取可能な媒体に格納された１以上の同一の及び／又は異なるドメインオントロジとすることができる。データセマンティサイザ１００は１つのオントロジ１１６に対応するセマンティックインスタンスを生成することに限定されず、データセマンティサイザ１００は様々なデータ部分が複数のオントロジ１１６に関連するセマンティックインスタンス１１８を生成することができる。例えば、入力データ１０８文字列「アメリカ合衆国の富士通研究所（FLA）のリサーチ研究員がタスクコンピューティングプロジェクトを率いている。彼はFLAでの任期の間にLSM、エージェント及び他のプロジェクトにも含まれていた。彼は何人かの学生を指導するメリーランド大学（UM）の非常勤講師でもある。」を考察する。そのようなデータ１０８に注釈を付するため、最も予想されることに、その注釈はFLAオントロジ（例えば、プロジェクト管理、プロジェクト包含プロパティ等）及びUMオントロジ（例えば、指導学生、テーマプロパティ等）で規定されたオントロジコンセプトを含むであろう。コンセプトを入力データ１０８に対応付ける或いは入力データ１０８の構造を捕捉するためのマッピングルール１１０の生成は、処理１０６において、あるコンセプト（選択されたオントロジ１１６から選択されたオントロジコンセプト）をサンプル入力データ１１４中のワード又はワードフレーズに対応付けるサンプルを入力データ１０８のマッピングルールとして示唆し、示唆されたマッピング(対応関係)を入力データ１０８のマッピング規則として或いは入力データ１０８のデータ構造規則として選択することを含む。処理１１２では、マッピングルール１１０が入力データ１０８に適用され、コンセプトを入力データ１０８に対応付けセマンティックインスタンス１１８を出力する。従って「マッピングルール」（図１での意味論的規則集合）１１０は入力データ１０８の構造に関するワード又はワードフレーズのマッピングに基づく。サンプル入力データ１１４は例えば開かれた入力データファイル１１４のサンプル番号でもよいし（例えば、１０個のファイル各々が何百ものファイル中の１つの電子メールを含む）、多数のレコードを含む１つのデータファイル１１４でもよい（例えば、１つのファイルが複数のファイル中の何百もの電子メールを含み、ユーザは１つのファイル中の１つの電子メールで作業をするが、システムは残りのファイルに表れる電子メールアドレスの全部又は一部のどの部分集合をも示唆する。）。

データセマンティサイザ１００により解決される主な１つの問題は、半構造化から未構造化に至る電子データ１０８の構造を意味論的処理用に捕捉することである。データセマンティサイザ１００は、データフォーマットに関する不十分な知識しかなかった場合に、処理１０６でデータ構造捕捉要素として又は注釈要素としてデータ１０８の少数の表現サンプル１１４を使用する。他のデータ構造捕捉要素として、選択されたサンプル入力データ１１４内のフレーズ及び／又はフレーズ中の領域を、選択されたオントロジ１１６から選択されたオントロジコンセプトにマッピングすることが処理１０６で実行される。更に処理１０６で、入力データの構造、ロケーション情報、正規の表現又はそれらの如何なる組み合わせも捕捉する２つの他の要素は、選択されたサンプル入力データ１１４でフレーズを見出すための及び／又はフレーズの領域を判定するための規則の生成に使用され、選択されたオントロジ１０６による選択されたオントロジコンセプトにマッピングされる。

２例のデータ構造はロケーションベースの及び正規の表現ベースの要素を捕捉し、データフォーマットに関する事前の知識もユーザによる補助も想定されてない。しかしながらデータセマンティサイザ１００はユーザからの補助を効率的に（即ち、簡易に、速やかに及び非常に効果的に）組み入れることができ、データ１０８の構造を捕捉するプロセスを容易にする。ドメイン技術者及び選択されたオントロジ１１６によるユーザの支援により、データセマンティサイザ１００は意味論的規則集合１１０を生成し、その集合は半構造化ないし未構造化の大量のデータ１０８に関するセマンティックインスタンスを作成するのに使用される。データに注釈を付するこのプロセスでは、ヒューマンドメインエキスパートを使用することで人的相互作用は完全には消去されないかもしれないが、データセマンティサイザ１００は大量のデータ１０８を任意のフォーマットで任意のドメインで意味論的に処理する際の人的支援及び依存性をかなり減らす。従ってデータセマンティサイザ１００はアプリケーションデータ１０８のセマンティック情報を与える半自動化方法をサポートする。

データセマンティサイザ１００の役割はデータをより抽象的な高いレベルに橋渡しするためにデータにセマンティクスで注釈付けすることである。低いレベルのデータはより高い抽象的レベルから容易に引き出すことができるが、逆向きならそうでない。１つの例は構造化データを未構造化と比較することである。構造化データはプレーンテキストフォーマットで簡易に表現される。例えばLATEX書類は表示又は印刷用のフォーマットに容易に変換可能である（LATEXから装置に依存した（DVI:Device-Independent）ビットマップへのファイルフォーマット）。しかしながらビットマップからLATEX書類への変換は非常に困難である；これは、データシンセサイザ１００が、電子データ構造を入力データとして捕捉するための効率的に定められた一群の要素（意味論的規則エディタとして実現される）に起因して、入力データの構造を捕捉するように規定された一群の要素に従ってルールを生成し、そのルールを入力データに適用し、入力データに適用されたルールに基づいて入力データのセマンティクインスタンスを生成することを支援する場合である。データセマンティサイザ１００により、データにセマンティクスで注釈を付ける手順は人的介入を減らしながら達成できる。従って新たな用語「セマンティサイズ(semanticize)」は本発明によりデータにセマンティックな注釈を付けることを示すように導入される。

図１では処理１０６の例として、入力データの構造を取得することでコンセプトを入力データに対応付けるマッピングルール１１０を生成することは、要素的ルールを規定するステップを含み、要素的ルールは例えば６つのタプル(tuple)の組＜Ｃ，Ｗ，Ｒ，Ｋ，Ｐ，Ｏ＞をデータ構造捕捉要素として含む。ここで：
「Ｃ」はユーザがインスタンスを作成することを希望するクラス及びそのプロパティ（概念同士の関係）に対応する選択されたオントロジ１１６によるコンセプトである。

「Ｗ」はサンプルデータ１１４の中で概念化されるワード又はワードフレーズである。例えば表示されたサンプルデータ１１４−例えば入力データ１０８として複数の書類中で表示されたサンプル書類−中のワードをハイライトすることで、「Ｗ」を指定することができる。「Ｃ」及び「Ｗ」はユーザの支援を組み込むことができるデータ構造捕捉要素である。

「Ｒ」は例えば書類のような入力データ１０８（又は入力データ１０８の一部）の構造に関する「Ｗ」ワード又はワードフレーズの領域である。典型的には本発明では「Ｒ」要素はデータ１０８のサンプル１１４（又はサンプル１１４の一部）の構造に関して決定される。入力データの構造を捕捉するための「Ｒ」要素を決定する２方法が説明される−ロケーション情報及び正規の表現。これら２方法の詳細は、データ構造捕捉要素として、以下で更に説明される。「Ｒ」要素は「Ｃ」及び「Ｗ」の表現としてシステム（意味論的規則エディタ１０６）によって実行される。本発明では「Ｒ」データ構造捕捉要素はオントロジ及びオントロジの中のコンセプトに関連付けられるデータポイント（例えば、ワード又はワードフレーズ、及び／又は他の任意のタイプのデータポイント）に基づくものであり、これによりドメイン又はオントロジ規則ベースの知識をシステムに与え、入力データの構造を取得する。本発明はコンセプトを電子データに対応付ける注釈要素一式を規定する方法を提供する。

「Ｋ」は色であり、１つの完全な「Ｃ」コンセプトを表示されているサンプルデータ１１４中の他のものから一意に区別する。例えば姓と名を有するパーソンと呼ばれるクラスのインスタンスを生成することがプロパティであったとする。クラス「パーソン」のセマンティックインスタンスを作成する場合に、規則エディタ１０６はこれら２つのプロパティを自動的にリストにし、表示されるサンプルデータ１１４の中で同じ色を割り当てることで、それらを同じクラスのプロパティとしてグループ化する。本発明は表示される概念を色彩で区別することに限定されず、（限定ではないが、フォント、フォントサイズ、下線、太文字、イタリック体、番号付け、アイコン表示等によりコンピュータ画面上で視覚的に特徴を区別するような）他の知覚的判別特徴／属性／技術（例えば、視覚的及び／又は音響的）が使用されてもよい。

「Ｐ」は規則の優先度である。処理１０２で入力データ１０８について複数の生成済みマッピングルールを適用する場合に、優先度はエラーを減らしつつ効率を増やすために使用される。優先度はルール群１１０の間違ったアプリケーションを判定するのに使用可能である。高優先度のルールが適用できなかったならば、セマンティックインスタンス作成プロセスは止まり、低優先度のルールが安全に無視される。例えばサンプル書類１１４中のワードをオントロジ１１６中のオントロジコンセプトに合わせようとしている場合に、幾つかのデータは他より重要かもしれない。例えばジーンシーケンスがバージョン番号を含む場合に、実際のジーンシーケンスはそのバージョン番号より高い優先度が付与されてよく、あるファイルがそのバージョン番号を省略した場合に、システムがセマンティックインスタンスを作成することを怠らないようにする（即ち、必要ならばバージョン番号をマッピングする）。

「Ｏ」は生成された複数のマッピングルール１１０が適用される順序であり；例えばＯ１は適用される最初のルールであり、Ｏ２は適用される２番目のルールである、等々。

従って要素的ルールの組は共にルール群１１０を規定し、マッピング、意味論的処理又はデータ構造捕捉と言及され、書類や電子メールメッセージのような入力データ１０８に概念を任意のフォーマットで任意のドメインで対応付ける。最小の原子的ルールは３つの注釈付け又はデータ構造取得の組、タプル＜Ｃ，Ｗ，Ｒ＞であり、「Ｃ」及び「Ｗ」はユーザの支援を組み入れることができる。データ構造捕捉要素＜Ｋ，Ｐ，Ｏ＞はパフォーマンスを高めるが、上記の例では必要とされていない。更に３タプル＜Ｃ，Ｗ，Ｒ＞のセットは例えば＜Ｋ，Ｐ，Ｏ＞データ構造捕捉要素のような他のデータ構造捕捉要素とどの組み合わせでも組み合わせ可能である。

２例の方法はその如何なる組み合わせをも含み、ワードの領域を決定し（「Ｒ」要素）、以下にさらに詳細に説明される。従ってロケーション情報は入力データ構造を捕捉するために「Ｒ」要素を決定する他の方法として正規表現と組み合わせ可能である。

ロケーション情報−サンプルデータ１１４の中でハイライトされたロケーション情報を用いること，「Ｒ」は４タプル＜Ｌ，Ｓ，Ｎ，Ｅ＞（ロケーションデータ構造捕捉要素）として表現され、ここで、
Ｌは行番号であり、
Ｓは開始するキャラクタ位置であり、
Ｎは行数であり、
Ｅは終了するキャラクタ位置であり、
特に概念化されるワードに対応する「列」を捕捉する。

ロケーション要素は「Ｗ」要素のようなワード又はワードフレーズに対応するサンプル入力データ１１４中のロケーションを必須的に捕捉し、ワード等はオントロジ１１６から選択されたオントロジコンセプトに対応付けることで概念化される。

正規表現（パターン）−或いは、正規表現はワードの領域−「Ｒ」要素に関してサンプルデータ１１４により入力データ１０８でパターンを導出するのに使用可能である。この手法では、「Ｒ」は正規表現であり、仮定、入力、出力及び処理の観点から次のように記述される：
仮定の例：
以下は入力データ１０８のフォーマットの例に使用されるガイドライン例である：
データは多数のレコードから構成され、レコードの各々は多数のフィールドを有する。

レコード間のデリミタ（区切り符号）は容易に認識可能である。

レコード中のフィールド各々は何らかの特徴を規定するものを有し、その特徴はそれを他のフィールドと区別する。

入力データ１０８の例：
ユーザが分析を希望するデータを含むレコードのリスト。

データ中の部分文字列の開始及び終了の指標，これはユーザが抽出を希望するデータの例である−「Ｗ」データ構造捕捉要素。

共用可能な一致性を規定する許容値。

プロセス処理の例：
１．検討する部分文字列及びパラメータとして分析されるデータ（サンプル１１４）を分析することで入力データ１０８の分析を始める。検討する部分文字列が例えば入力データのディスプレイ上でハイライト、クリック、クリックとドラッグ等のような何らかの既知の選択法で選択される。

２．パターン生成器／分析器（意味論的規則エディタ１０６）が伝送されたパラメータ検討する部分文字列を調査し、検討する部分文字列に合致する正規表現（パターン）を一群のテンプレートに基づいて構築する。

３．分析器が正規表現をサンプルデータ１１４中の各レコードに適用し、そのレコードは発見した合致したどの開始及び終了位置も記録する。

４．レコードが処理された後に、特定の正規表現に合致した総数が検査される。合致カウント数が許容レベルの範疇に該当しなければ（レコード数±許容値）、その正規表現は自動的に拒否される。その場合、分析器は上記の処理２に戻る。

５．そうでなければ、分析器によって作成された合致のリストがユーザに検討用に示唆として提示される。ユーザがこれらの示唆を受け入れたならば、分析は完了する。そうでなければ正規表現（パターン）は拒否され、分析器は上記の処理２に戻る。ユーザが分析器の合致を受け入れるまで或いは分析器が正規表現を処理し尽くすまで処理が続く。従ってパターン生成器／分析器１０６の出力は示唆される合致のリストになる。

図２は電子メールテキストを入力電子データとして意味論的に処理する本発明の一実施例によるフローチャートである。特に上記のプロセス処理１ないし５に従うセマンティサイザ１００による意味論的処理例が図２に関連して示され、電子メール（電子メールメッセージ／テキスト）を入力データ１０８として使用し、「Ｗ」データ構造捕捉要素の範囲を決定するために「Ｒ」データ構造捕捉要素の上述の正規表現を使用し、その決定は入力データ１０８のサンプル１１４で「Ｃ」データ構造捕捉要素へのマッピングである。

図２では処理１５０で入力ファイル１０８が電子メールヘッダ一式を含み、「dean＠cs.umd.edu」が検討する部分文字列であり−「Ｗ」データ構造捕捉要素−それはオントロジ１１６（図２には示されていないが図３には示されている）から選択されたオントロジ概念に対応付けられ（強調表示で示される）、入力ファイル１０８からのサンプルデータ１１４として機能する。処理１５２ではパターン生成器（意味論的規則エディタ１０６としても言及される）が正規表現テンプレート１６０に基づいて所与の入力ファイル１０８の構造を近似するように試みる。処理１５４ではパターン生成器１０６が入力ファイル１０８の構造を捕捉するために正規表現１６０をユーザに示唆する。処理１５６ではユーザはその示唆を検討する。処理１５６ではユーザは正規表現の示唆を入力データ１０８の構造規則として受け入れる或いは拒否することができる。

より具体的には図２では処理１５４の最も左側は、検討する文字列「dean＠cs.umd.edu」を正規表現として使用し、「dean＠cs.umd.edu」の文字列を合致として示している−「Ｒ」データ構造捕捉要素。しかしながらこのファイル１０８は正規表現「dean＠cs.umd.edu」に合致する厳密には１つの文字列を含み（黄色で強調しながら画面に示される）、この正規表現は合致が少なすぎるので破棄できる。処理１５４の中央の場合は正規表現「＼w+＠＼w+.＼w+.」を用いてそれに合致する全ての電子メールアドレスを示している。この正規表現は入力ファイル１０８に表れる電子メールアドレスの全てに合致するが；この表現は合致が多すぎるので再びスキップ可能である。処理１５４での第３の場合は正規表現「From:＼S+＠＼S+,」を用いた合致を示し、その合致は検査用にユーザに示唆される。図２の例ではシステム１００は構築可能なアプリケーション設計基準に従ってケース１（左）及び２（中央）を内部的に削除するが、本発明はそのような構成例に限定されず、システム１００は例えば推奨される示唆を含むパターン生成器１０６の出力全てをユーザに示唆するように制御される（プログラムされる）ことが可能である。

正規表現テンプレート：
正規表現テンプレートは入力データ１０８又はドメイン仕様に関する仮定に基づいて展開可能である。例えばその仮定の１つは、レコード中の各フィールドが何らかの特徴を規定するものを有する、とすることができる。テンプレートは如何なるシナリオも近似するのに充分に多角化されるように設定される。システム１００は追加的なテンプレートが入力データ１０８の様々なタイプに多角的に適合可能であるようにスケーラブルである。

図３は本発明の一実施例によるデータセマンティサイザの機能ブロック図である。図４は本発明の一実施例によるデータセマンティサイザのコンピュータ表示されたグラフィカルユーザインターフェースの画面例である。図３に示されるデータセマンティサイザ１００は、データ１０８を意味論的に処理するのに必要な機能をユーザに提供し、以下の要素から構成される。

オントロジビューアツール２００：オントロジビューア２００は、本発明では典型的にはソフトウエアツールの組み合わせであり、ドメインエキスパートがオントロジを見たり修正したりすることを可能にする。必要であれば新たなオントロジが作成可能である。SWOOP[これについては例えば西暦２００４年１０月２２日現在、www.mindswap.org/2004/SWOOP/にて開示されている]のような既存の如何なるオントロジエディタが使用可能であり、そのエディタはスケーラブルOWL(ウエブオントロジ言語)オントロジブラウザ及びエディタである。SWOOPは慣例的なツリー構造に加えてナビゲーションを容易にするハイパーリンクインターフェースを含む多くの様々な形態による複数のオントロジの表示をサポートする。図４はオントロジビューアツール２００のコンピュータ表示されたグラフィカルユーザインターフェースウインドウを示す。

データビューア２０２：データビューア２０２は（構造化、半構造化及び未構造化データのどのフォーマットでもどのドメインででも入力電子データとしての）複数のデータドキュメント１０８を表示可能にし、１つのバッチで意味論的に処理可能にする。データビューア２０２がサポートできるフォーマットは、例えば：txt，rtf及びhtml書類である。初期のルール群１１０を生成するのに１つの書類（又はその一部分）のみがサンプル１１４として必要とされる。図４はデータビューア２０２のコンピュータ表示されたグラフィカルユーザインターフェースウインドウを示す。

意味論的処理規則エディタ１０６：意味論的処理規則エディタ１０６はデータ１０８の集まりからサンプル１１４及びその対応するオントロジ１１６を入力として取り出し、データ集合１０８につき意味論的処理規則群１１０を決定する際にユーザを支援する。本発明では典型的には規則群１１０はそのデータ集合に精通しているドメインエキスパートの支援と共に生成される。図４ではコンピュータ表示されたグラフィカルユーザインターフェースウインドウ２０４は選択的なユーザインターフェースウインドウであり、生成された規則表現を表示することのように、意味論的処理規則エディタ１０６による処理の様々な表現内容を表示することができる（即ち、意味論的処理規則ビューア２０４である）−「Ｒ」データ構造捕捉要素。図４ではユーザインターフェースウインドウ２０４はオントロジコンセプト（その番号を含む）を表示し、オントロジコンセプトはデータビューアユーザインターフェースウインドウ２０２に表示されるデータにマッピングされる。例えば図４はバイオパックス(biopax)レベル１のプロテインコンセプト（サブクラス）のコメント(COMMENT)プロパティを示し：意味論的処理規則エディタユーザインターフェースウインドウ２０４及びデータビューアユーザインターフェースウインドウ２０２の双方で、物理的エンティティクラス２０８が一度マッピングされ（１）及びオントロジコンセプトマッピングが同じ色で（本実施例では赤色であり、線で結び付けられている）視覚的に表示されている−「Ｋ」データ捕捉構造要素。

セマンティサイザエンジン１１２：セマンティサイザエンジン１１２は本発明では一般にバックグランドで走るプログラムされたコンピュータプロセッサであり、多くのデータ集合１０８とそのデータ集合１０８に適用される意味論的規則群１１０とを取得し、データ集合１０８に対応するセマンティックインスタンス１１８を生成する。

本発明の譲受人である日本国川崎市の富士通株式会社により開発されたいくつもの付加的な要素等がオントロジビューアツール２００及びデータビューア２０２の環境に適用可能である。それらはオントロジマッピングツール、インターフェースエンジン及びデータ視覚化ツールを含む。ONTOLINK[これについては例えば、西暦２００４年１０月２２現在、www.mondswap.org/2004/OntoLinkで開示されている。]のようなオントロジマッピングツールは、シンタクティック及びセマンティックマッピング並びに異なるオントロジで規定されるコンセプト間の変換規則を指定するために使用可能である。PELLET[これについては例えば、西暦２００４年１０月２２日現在、www.mindswap.org/2003/pellet/index.shtmlに開示されている]及びRACER[これについては例えば西暦２００４年１０月２２日現在、www.cs.concordia.ca/~haarslev/racer/jambalayaに開示されている]のような推論エンジンはオントロジの矛盾性の検査を及び更なるクラス分類を支援することができる。JAMBALAYA[これについては例えば、西暦２００４年１０月２２日現在、www.thechiselgroup.org/jambalayaに開示されている。]及びRICE(RACER INTERRACTIVE CLIENT ENVIROMMENT)[これについては例えば、西暦２００４年１０月２２日現在、www.cs.concordia.ca/~haaslev/racer/に開示されている。]のようなデータ視覚化ツールは、オントロジ１１６に関してセマンティックインスタンス１１８を提示するのに使用可能であり、データビューアユーザインターフェースウインドウ２０２に表示可能な、注釈データ１１８の視覚化をもたらす。言い換えれば、オントロジに関する注釈データ又は知識ベースを与えるためにJAMBALAY及びRICEのような視覚化ツールである他の如何なる第三者オントロジビューア及びデータビューアが使用可能であるが、そのような視覚化ツールは注釈付け機能を備えていない。

従って図４ではデータセマンティサイザ１００のコンピュータ表示されたグラフィックユーザインターフェース（GUI）は３つのウインドウペイン（部分ウインドウ）を有する：左上のペイン、左下ペインのルールビューア２０４及び右ペインのデータビューア２０２。図４は基本状態のデータセマンティサイザ１００を示し、オントロジ１１６がオントロジビューア２００にロードされ、いくらかのデータ１０８がデータペイン２０２で開かれ（オープンされ）、ルールビューア２０４に示されるようにルールの小集合が追加され（即ち、番号を含むオントロジコンセプト）、データビューアユーザインターフェースウインドウ２０２に表示されるデータ１０８にマッピングされる。言い換えればルールビューア２０４はユーザがインスタンスにしようとするオブジェクト及びそのクラスのデータプロパティを表示する。また、各プロパティに関連するデータポイント数に関する情報がルールペイン２０４の中で発見できる。

従って図４ではルールペイン２０４はオントロジコンセプト１１６及び未処理データ１０８の間の関連性を定義するコンテナとして機能し、それらの関連性は「マッピングルール」１１０と呼ばれる（即ち、ルールペイン２０４はマッピングルールを格納するコンピュータ読取可能な媒体及びそれに基づくGUIとして実現される。）。「マッピングルール」１１０はウェブオントロジ言語（OWL）プロパティのようなオントロジビューア２００に表示されるオントロジ表現と、データペイン２０２に表示される文字列のような何らかの形式の未処理データ１０８との間の対応関係である。図４では例えば意味論的処理規則エディタ１０６はデータポイント２０５をサンプル１１４としてオントロジビューア２００及びルールビューア２０４に示されるような選択されたオントロジクラスプロパティNAMEにマッピングし（即ち、同じ「Ｋ」の値で示され、本実施例ではＮＡＭＥは青色で強調されている）、「マッピングルール」１１０は「テキスト及びルールの連携(Associate Text with Rule)３０２によりデータポイント２０５（例えばテキスト）をルールに関連付けれることで、「Ｒ」データ構造捕捉要素に基づいて決定される。「マッピングルール」１１０の目的はデータのサンプル１１４を収集することであり、スマートパーサ(smart parser)はデータベース１０８の残りの内で示唆を通じて同様なデータを発見しようとするために使用可能であり、これについては図６を参照しながら詳細に後述される。従って、「マッピングルール」１１０は選択されたドメインオントロジに基づいてデータ１０８の構造を本質的に捕捉し、或いは「マッピングルール」はデータ１０８のオントロジ構造を捕捉する。本発明の一形態では、スマートパーサ１０６がデータを正しく見分ける場合に、そのスマートパーサ１０６はその発見物を当初のマッピングルール定義に付加する。かくてスマートパーサ１０６による正しい推測の各々は理論的には以後の同様なデータ１０８を認識する能力を高める。パーサ１０６が「スマート」であるのは、その入力ファイル１０８が分析用に想定可能な何らの設定パターンも有しないかもしれないからである。多くのパーサでは入力ファイルの構造は既知であり、パーサは既知の構造を利用して分析プロセスを自動化する。事前の構造知識なしに分析するプロセスを自動化することは非常に困難である。パーサ１０６はオントロジコンセプトの対応関係を示唆するために複数のテンプレート、発見法及びスレシホールドを試行することでその分析を自動化し、本発明では一般に、示唆を受け入れる最終的な判断プロセスを人が行うようにしている。データセマンティサイザ１００が「マッピングルール」１１０として示唆したものが適切であることをエンドユーザが確認すると、その「マッピングルール」１１０が格納され、ルールペイン２０４により表示可能になる。適切であるとして人により確認された多くのルール１１０をデータセマンティサイザ１００が集めるにつれて、データセマンティサイザは同様なパターンが再び表れた場合にデータの残りの意味論的処理の中で以前に確認済みのルールを使用することができる。言い換えればツール１０６はその入力ファイル１０８について学んだことを利用する。

データペイン２０２はユーザがデータを抽出しようとするデータ１０８を表示する。注釈データはそれが関連するプロパティに依存して様々な色−「Ｋ」データ構造捕捉要素−で強調される。データセマンティサイザ１００に入力する制御命令の例として、キーパッド２０６は手近なメニュータイプ制御ペインとして使用され、規則の追加（即ち、データポイントを選択されたオントロジコンセプトに対応付ける）、規則による選択物の削除、テキストに規則を適用して「Ｒ」データ構造捕捉要素を生成すること及び／又はインスタンスの生成のような（限定ではなく、それらの任意の組み合わせでもよい）一般的なタスクをユーザが速やかに実行可能にする。本発明は、キーパッド２０６の実現例に及び例えばサンプルデータポイントをオントロジコンセプトに対応付けることに限定されず、一般的に本発明では利用可能な如何なる表示データ選択技術も使用可能であり、その技術はデータビューア２０２に表示されているサンプル入力データ１１４のある領域を選択し、つかんだ選択物をオントロジビューア２００のオントロジ１１６に表示されているコンセプトの中に落とす。

図５は本発明の一実施例により生体工学データを注釈付けする入力電子データ例として意味論的に処理するフローチャートを示す。図５のデータを意味論的に処理するコンピュータ処理方法は、処理２５０にて電子データを意味論的に処理する入力データ１０８として選択するステップ；処理２５２にて少なくとも１つのオントロジ１１６を選択するステップ（本発明では典型的にはユーザによって選択される）；処理２５４では１つの（又は事例によりそれ以上の）入力データを入力データ１０８の中から選択するステップ；処理２５６にて選択されたオントロジ１１６からオントロジコンセプトを選択するステップ（本発明では典型的にはユーザによって選択される）；処理２５８にて選択されたオントロジコンセプトを１つの（又はより多くの）選択された入力データにマッピングするステップ（本発明では典型的にはユーザによる支援／相互作用を組み入れる）；処理２６０にて選択されたオントロジコンセプトと１つの（又はより多くの）入力データとの対応関係に基づいて対応関係（マッピング）又はデータ構造捕捉ルールを生成するステップ（意味論的処理規則エディタ１０６で実行される）；処理２６２にて選択されたオントロジコンセプトと入力データ１０８のサンプル１１４との対応関係をマッピング規則に基づくサンプルマッピングとして示唆するステップ；処理２６４にて選択されたオントロジ、１つの入力データ、選択されたオントロジコンセプト、選択されたオントロジコンセプトと１つの入力データとの対応関係又はそれらの如何なる組み合わせでもそれを修正又は調整することでマッピングルールを修正／最適化するステップ（本発明では典型的にはマッピングルール修正又は最適化はユーザによる支援／相互作用を組み入れる）；処理２６６にてマッピングルールの示唆が受け入れられると、処理２６８にて受け入れ可能なマッピング提案に基づいて、生成され最適化されたマッピングルールを入力データ１０８全体に適用又は移植することでその入力データ１０８を意味論的に処理するステップ（選択されたオントロジコンセプトをサンプル入力データ１１４に対応付ける意味論的処理規則エディタ１０６によるマッピング提案をユーザが受け入れるならば、本発明では典型的にはマッピングルールが受け入れられる）；を有する。例えば処理２６４にて、マッピングルール１１０の最適化に関し、オントロジ１１６が修正され、オントロジ１１６の選択物は修正され又は変更され或いはそれらの如何なる組み合わせが実行可能である。

従って図５では処理２５２ないし２５８は動的に構築可能な意味論的処理又は注釈付けの案内（ガイダンス）２７０を提供し、そのガイダンスは本発明では典型的にはドメインエキスパートを通じてオントロジビューアツール２００、データビューア２０２及び意味論的処理規則エディタ１０６により得られる。注釈ガイダンス２７０は、入力データ１０８のサンプル１１４の中でデータポイントがオントロジ１１６にマッピングされるべきもの及び場所を提供し、そのガイダンス２７０に基づいて入力データ１０８全体にわたって適用可能なデータ構造捕捉ルール又は注釈／意味論的処理ルールを生成する。既存の手法ではユーザは１つのファイルを１つの入力データとして処理し、そのファイルをオントロジにマッピングし、そして次のファイルに移行する必要があり、その手法は実質的には手作業の注釈付けプロセスである。図５では、処理２６２にて本発明では典型的には、意味論的処理規則エディタ１０６は、処理２６２にてサンプルデータポイント１１４及びオントロジ１１６の（例えば、視覚的及び／又は音響的に）知覚可能なマッピングによりスレシホールドに合致する又はそれを超えるルールのみを提案するために、ルールを内部的に生成し且つそのルールを入力データ１０８のサンプル１１４に適用することで、所定のスレシホールド（例えば、合致が多過ぎること、合致が少な過ぎること等）に依存してデータ構造捕捉ルールを自動的に拒否又は排除するよう構成される。

図５では処理２６８にてセマンティックインスタンス１１８が出力される。その規則群１１０及びデータセット１０８の下で、データセマンティサイザ１００は対応するセマンティックインスタンス１１８を生成する。図６−７は本発明の一実施例により生体工学データを入力電子データとするデータセマンティサイザのグラフィカルユーザインターフェースの画面例を示す。より具体的には図６−７は「Ｒ」データ構造捕捉要素として正規表現を用いる生体工学データを注釈付けするデータセマンティサイザ例を示す。図２に示されるのと同様なプロセスでデータセマンティサイザにより提案される合致をユーザが受け入れる場合に、ユーザはルール１１０を入力ファイル１０８のデータに投入することを選択してもよい。便宜的に表示される選択可能なメニューキーパッド２０６は頻繁に使用されるメニュー項目に対する簡易なアクセス性を与える。

図６−７に関連するここでの説明は、データペイン２０２でのオープンデータファイル１０８による全てのデータポイントについてのインスタンス生成に向けられているが（３つのデータポイント>g...が図６のデータペイン２０２に表示されている）、ユーザはオープンデータファイル１０８から数個の選択されたデータポイントのセマンティックインスタンスを作成することを選択してもよい。これは重要な機能である。なぜならデータセマンティサイザ１００は要求に応じて更新されたセマンティックインスタンス１１８を生成できるからである。例えば、データベース１０８の全てのレコードからセマンティックインスタンスの大きな集合を生成する代わりに、データベース１０８中の１つのレコードが注釈付け可能であり使用可能である。従って図５に関連する上述の実施例は１つの入力オントロジと、複数の入力データ１０８の中からの少なくとも１つの入力データ１０８と、入力データ１０８のサンプル１１４とを利用することを説明しているが、データセマンティサイザ１００はそのような形態に限定されず、１以上のオントロジ１１６、複数の入力データ１０８及び複数のサンプル１１４、又はそれらの任意の組み合わせが１以上のセマンティックインスタンス１１８を生成するのに使用可能である。

図６では選択されたオントロジクラスの各々及びデータポイント１０８にマッピングされたプロパティの全てについて、オントロジビューア２００及びルールビューア２０４に示されるように（即ち、マッピングを通じて「規則の追加(Add a Rule)」３００の選択により、同じ「Ｋ」の値により示され、本実施例ではCOMMENT（Description:…）についてはオレンジ色で強調され、NAMEについては黄色で強調され、SEQUENCEについては赤色で強調され、SHORT-NAMEについては深緑色で強調され、SYNONYMSについては黄緑色で強調される）、「Associate Text with Rule」３０２によりデータポイント（例えば、テキスト）にルールを関連付け（図５の処理２６０）、許容すること、拒否すること及び／又は最適化することのために提案された合致３０６を提供することで（図５の処理２６２，２６４及び／又は２６６）、「マッピングルール」は「Ｒ」データ構造捕捉要素に基づいて決定される。特に図６はパーサ１０６がデータポイント２０５についてNAMEオントロジクラスプロパティの同様なデータ３０８をデータベース１０８の残りのサンプル１１４の中で発見することをまさに完了した様子を示し、「Associate Text with Rule」３０２を選択しながら黄色で強調され、パーサ１０６は赤色のフォントで表示された同様なデータの示唆３０８を与える。

提案を受け入れ、誤り検査法を良好に完了すると、「インスタンス生成(Generate an Instance)」の選択３０４により以下の手順を用いてセマンティックインスタンスが作成可能である：
１．同じ色の「Ｋ」の行各々について、格納済みの「列」情報を利用してプロパティ値と共にそのクラスのインスタンスを作成する。

２．誤り検査法の実行：このデータ正当化プロセスはデータファイル中のエラーを検査する一群のテストを含む：例えば、正しいデータファイルは適切に意味的に処理され；即ち、高優先度の規則全てが発見される。例えば初期のデータファイルが説明される特徴全てを有するならば、残りのデータファイルもそうあるべきである。

３．全てのテストに通ったならば、新たなインスタンスが生成される（図５の処理２６８）。

図７は、インスタンスの生成３０４を選択した後に全てのプロパティが投入された様子を示し、同じ「Ｋ」の値により示され、本実施例ではCOMMENT（Description:…）についてはオレンジ色で強調され、NAMEについては黄色で強調され、SEQUENCEについては赤色で強調され、SHORT-NAMEについては深緑色で強調され、SYNONYMSについては黄緑色で強調される。図４，６，７では引き出し線はオントロジコンセプトとデータポイントとの対応関係を示す。

データセマンティサイザ１００は生成可能なインスタンス数及びファイル数についてフレキシブルである。複数のデータポイントを含む１つの入力ファイルは、複数のセマンティックインスタンスを有する１つの出力ファイルになるか、或いはデータポイントの１つのセマンティックインスタンスをそれぞれ含む複数の出力ファイルになり得る。同様に複数の入力ファイルは、複数の出力ファイルになる又は複数の入力ファイルからの全てのデータポイントのセマンティックインスタンスを有する１つの出力ファイルになり得る。更に、複数のデータポイントを有する複数の入力ファイル各々は複数の出力ファイルになることができ、各々は複数のデータポイントを有し、対応する入力ファイルによることは必須でない。例えばユーザはある等級付けに基づいて入力データポイントを分類してもよい。

図８Ａ−８Ｈは本発明の一実施例によるセマンティックインスタンスの出力例を示す。図８ではセマンティックインスタンス出力１１８はリソース記述フレームワーク(RDF: Resource Description Framework)／ウエブオントロジ言語(OWL)フォーマットに従う。RDF/OWLの概念は既知である。言い換えれば、データセマンティサイザはセマンティックオブジェクト１１８をRDF/OWLストアに直接的に表明することができる。より具体的には、図８ＡはＯＷＬドキュメントであり、そのドキュメントはBIOPAXレベル１オントロジ１１６を用いて生体工学アプリケーションデータのセマンティックインスタンス１１８としてデータセマンティサイザにより出力される。BIOPAXレベル１オントロジについては例えば西暦２００４年１０月２２日現在、www.biopax.orgで開示されている。非限定的な例として、図８Ａないし８Ｈの説明が以下に示される：
図８Ａ：１つのデータポイント（この場合、生体工学データでないものが使用される）が、BIOPAXオントロジ１１６のタンパク質クラスの３つのプロパティ（名前、略称及び同意語）にマッピングされる。その出力は１つのデータポイントを正確に含み、出力ファイルごとに１つのセマンティックインスタンス１１８を生成する能力を示す（test1.OWL）。

図８Ｂ：１つのデータポイントがテロリズムオントロジ１１６の「都市」クラスの名称プロパティにマッピングされる。再び、出力ファイルtest2.OWLは正確に１つのデータポイントを１つのセマンティックインスタンス１１８として含む。ここでツール１００は他のドメイン（生体工学ドメイン以外）に適用可能であることが理解される。テロリズムのオントロジに関連するものについては例えば西暦２００４年１０月２２日現在、www.mindswap.org/2003/owl/swint/terrorism に開示されている。

図８Ｃ−８Ｅ：７つのデータポイントがBIOPAXオントロジ１１６のプロテインクラスの２つのプロパティ（コメント及び同義語）にマッピングされる。入力データポイントは生物学的データである。このセマンティックインスタンス出力１１８の例は１つの出力ファイル(test3.OWL)の中に複数のセマンティックインスタンス１１８を生成する能力を証明する。

図８Ｆ−８Ｈ：１２個のデータポイントがBIOPAXオントロジ１１６の「データソース」クラスのコメントプロパティにマッピングされる。１つの出力ファイル(test4.OWL)に複数のセマンティックインスタンス１１８を生成する能力を示すことに加えて、入力ファイル１０８に明白なパターンが無い場合にパーサ１０６はその入力ファイル１０８を適切に捕捉することも示している。特に図８Ｆ−８Ｈに示されるtest4.OWLでは、１２個のデータポイントが入力ファイル１０８内にある。それらは登場する順序で次のとおりである：MINDSWAP，FLACP，FLACP，FLACP，UMIACS，UMIACS，MINDSWAP，MINDSWAP，MINDSWAP，UMIACS，UMIACS及びUMIACS。データセマンティサイザ１００は入力ファイル１０８にパターンが無ければ１２個のデータポイントを捕捉するために正規表現１１０を生成する。

図９は、コンピュータデバイスネットワークでタスクコンピューティングを行うタスクコンピューティング（ＴＣ）環境で使用される本発明によるコンピュータ装置ネットワーク及びデータセマンティサイザ１００を示す図である。タスクコンピューティングはある者が多くの装置、アプリケーション及びサービスに関して作業することを容易にする。既存のタスクコンピューティング環境５００に付加する１つの特徴は、既存のデータ、データベース、フラットデータファイル等（入力電子データ）を統合する能力である。そのような入力電子データを統合することはデータをセマンティクスで注釈する必要がある。

データセマンティサイザ１００は、出力セマンティックデータ１１８によりセマンティックサービス５０２を生成し、非セマンティックデータを提供し或いは（出力セマンティックデータをサービス５０４ａ−ｎとして提供するのに使用可能な）セマンティックデータ１１８を出力し、既存の抽象化レベルと所望のセマンティック抽象化との間のギャップを橋渡しすることで入力電子データ１０８（即ち、非セマンティックデータを入力として使用する）をセマンティックレイヤにブリッジするようにユーザを支援するソフトウエアツールである。従って、データセマンティサイザ１００により、タスクコンピューティング環境５００はセマンティックレイヤのデータにアクセスすることができ、デバイス、アプリケーション、サービス及びデータの最終的な統合を可能にする。データセマンティサイザ１００がデータ１０８に対するセマンティックな抽象化を用意する少なくとも２つの異なる方法がある（但し、これら２つに限定されない）。第１方法では、データセマンティサイザ１００は非セマンティックデータ１０８へのアクセスを与えるセマンティックサービス５０２を用意することができる。第２方法では、データセマンティサイザ１００は注釈済みのセマンティック出力１１８を出力することができ、その出力は、セマンティックデータをサービスとして与えるディレクトリ発行サービス５０４ａのようなデータ提供サービス５０４ａ−ｎにより使用可能である、或いはセマンティックデータをサービスとして提供するホワイトホール(WHITE HOLE)のような管理ツール５０４ｂにより使用可能である。

図９ではタスクコンピューティング環境５００のアーキテクチャは、例えば、プレゼンテーションレイヤ５０６、ウエブサービスアプリケーションプログラミングインターフェース（ＡＰＩ）５０８、ミドルウエアレイヤ５１０、サービスレイヤ５１２及び実現レイヤ５１４を有する。データセマンティサイザ１００は、生成したセマンティックインスタンス１１８を用いて、任意のフォーマットで任意のドメイン内で入力データ１０８に基づいてリソース及びサービス概念を用意し（実現レイヤ５１４）、入力データ１０８のリソース及びサービス概念５１４に基づいてタスクコンピューティング環境５００を作成する。言い換えれば本発明はサービスとしてセマンティックインスタンス１１８を提供し、入力データ１０８の概念のように、タスクコンピューティング環境内で利用可能である。利用可能なデータセマンティクス１１８は新たなアプリケーション及びプラットフォームとインターフェースをとること及び移行することを容易にする。一旦注釈付けされると、自明なセマンティックデータが背景状況に応じて適切に使用されがちになり、意味論的に注釈されたデータを容易に索引付けでき且つ容易に探索でき、大量のデータ管理を容易にする。

より具体的には、本発明はデータセマンティサイザ１００のようなコンピュータシステムを用意し、半構造化ないし未構造化電子データを含む任意のフォーマットでどのドメインででも大量の電子データをセマンティクスで注釈するユーザを支援する。従って本発明は電子データのオントロジ表現を如何なるフォーマットでも如何なるドメインででも用意する。リソース及びサービス概念による相互運用性を用意し、それによりタスクコンピューティングをもたらすためにセマンティックウェブ技術を利用することは、良好に導入され、本願の譲受人である日本国川崎市の富士通株式会社により以下の文献及び／又は特許出願で開示されている（それら全ては本願のリファレンスに組み入れられる）：R.Masuoka,Y.Labrou,B.Parsia,and E.Sirin,Ontology-Enabled Pervasive Computing Applications,IEEE Intelligent Systems, Vol.18,no.5,Sep./Oct.2003,pp.68-72；R.Masuoka,B.Parsia,and Y.Labou, Task Computing-the Semantic Web meets Pervasive Comupting, Proceedings of the 2^nd International Semantic Web Conference 2003,October 20-23,2003,Sundial Resort,Sanibel Island,Florida,USA；Z.Song,Y.Labou and R.Masuoka, Dynamic Service Discovery and Management in Task Computing, MobiQuitous 2004,August 22-25,2004,Boston,USA；Ryusuke Masuoka,Yannis Labrou,and Zhexuan Song,Semantic Web and Ubiquitous Computing-Task Computing as an Example-AIS SIGSEMIS Bulletin,Vol.1No.3,October2004,pp.21-24；Ryusuke Masuoka and Yannis Labrou,Task Computing-Semantic-web enabled,user-driven,interactive environments,WWW Based Communities For Knowledge Presentation,Sharing,Mining and Protection(The PSMP workshop)within CIC2003,June23-36,2003,Las Vegas,USA；西暦２００３年１２月に出願された米国特許出願第10/733,328号；及び米国仮出願番号第60/434,432,60/501,012及び60/511,741。タスクコンピューティングは、セマンティック入力及び／又は出力記述に基づいて利用可能なサービスの相応しい構成をユーザに与え、環境を作成し、コンピュータのエキスパートでない者があたかもコンピュータのエキスパートであるように利用可能なリソース及びサービスを利用できる。データセマンティサイザ１００はどのフォーマットでもどのドメインででもアプリケーションデータセットへの類似する相互運用性をブリッジできる利点を有する。

データ注釈の既存の手法は、ユーザの知識及び手作業に完全に依存し、大量のデータを注釈するには不適切である。それらは長すぎて過剰に誤りやすいのでしばしば利用可能ではない。データセマンティサイザ１００は同様なパターンファイルを有する多くのデータセット１０８に適用可能なルール群１１０を生成してユーザを支援し、そのルール群１１０でデータに注釈付けするプロセスを自動化する。この手法はセマンティクスでデータを注釈することに包まれる人的労力及び人的依存性を最小化する。

更に、データセマンティサイザ１００の自動化されたデータ注釈プロセスはセマンティクデータ１１８の急速な展開を可能にする。２つのファイル（各々が５５０個のファーストＡフォーマットプロテインシーケンスを有する）は、BIOPAXレベル１オントロジ１１６を用いて、ユーザが提案を受け入れた後約２０秒後に誤り無く注釈を付していることを実験結果は示している。

データセマンティサイザを利用する大きな利点の１つは注釈済みデータセット１１８を出力するのにセマンティックウエブ技術を利用できることである。アプリケーションに関するデータのコンパティビリティの判定は簡易化され、場合によっては自動化される。データは様々なアプリケーション及び組織の間で更に容易に且つ適切に共用でき、インターオペラビリティを可能にする。例えば現在データセマンティサイザ１００で生成されるセマンティックデータ１１８はBIO-STEER及びBIO-CENTRALの２つのアプリケーションで使用される。BIO-STEERは生体工学技術分野のタスクコンピューティング用アプリケーションであり、生体工学的分析を実行する意味論的に規定されたサービスを構成する柔軟性をユーザに与える。これらのセマンティックサービスは、あるサービスの出力が次の段階への入力として使用されるように、セマンティックデータを交換する。データセマンティサイザ１００を利用することで、セマンティックデータ１１８は適切な変換により別のセマンティックサービスに今や伝送可能である。

BIO-CENTRALはウエブサイトであり、意味論的に注釈された生体工学データの知識ベースにアクセス可能にする。それは意味論的に記述されたデータの利点を例証する。データセマンティサイザ１００は生体分子相互作用ネットワークデータベース(BIND:Biomolecular Interaction Network Database)[Bader,Betel,and Hogue,“BIND:The Biomolecular Interaction Network Database,”Nucleic Acids, Res,PMID,Vol.31,No.1,2003 ]からの分子相互作用データをBIOPAXレベル１(Biological Pathway Exchange Language)[Bader et al.“Bio-PAX-Biological Pathway Exchange Language,Level 1, Version 1.0 Documentation,”BioPAX Recommendation,[これについては例えば西暦２００４年１０月２２日現在、www.biopax.org/Downloads/Level1c1.0/biopax-level.zipに開示されている]]オントロジで注釈するのに使用可能である。注釈データ１１８はBIO-CENTRALデータベースに蓄積される。

データが豊富なセマンティクスで注釈されるならば、データは容易に処理され、変換され、多種多様な手法で使用されることが可能である。しかしながらデータを上位のレベルに「押し上げる(pushing)」作業は容易ではない。入力データのような電子データの構造を捕捉するため一群の注釈要素を規定し（ソフトウエアで実行する）；規定された一群の注釈要素及び入力データのサンプルに従って、入力データの構造を捕捉するためにルールを生成し；そのルールを入力データに適用し；入力データに適用されたルールに基づいて入力データのセマンティックインスタンスを生成することで、データセマンティサイザ１００のフレームワークは「ポンプ(pump)」として機能し、非常に簡易な手法で手順を完了するようにユーザを支援する。

最近、セマンティックウエブ及びグリッド(Grid)を共にブリッジする利点及びメリットを、双方の分野の増加中の多数の研究者は認めつつある[E-Science,IEEE Intelligent Systems,Vol.19,No.1,Jan/Feb 2004]。グリッドでセマンティックウエブを利用するために、意味的注釈を既存のデータに付加する必要がある。少数の研究者はセマンティクスでデータを注釈する手法を研究している。しかしながらGENE ONTOLOGY ANNOTATION[例えば、西暦２００４年１０月２２日現在、www.geneontology.org に開示されている。]及びTRELLIS[例えば、西暦２００４年１０月２２日現在、www.isi.edu/ikcap/trellis に開示されている。]のような既存の手法は、ユーザの知識に完全に依存し、しばしば長すぎるし誤りやすい。データセマンティサイザ１００は人的依存性を削減しながらデータに意味を付加する方法をもたらす。

更に、データセマンティサイザ１００は入力データ形式及びアプリケーションドメインに関してフレキシブルである。それは平文データだけではなく、関連データベース、拡張間０区アップ言語（XML）データベース、メディア(例えば、イメージ、映像、音、等)ファイル、及びグリッドコンピューティングでのデータアクセスモデルでさえ、そのような他のデータタイプにも適用可能である。データセマンティサイザに使用されるアプローチはドメイン固有ではなく、ライフサイエンス、政府、ビジネス等のような様々なアプリケーションドメインに適用可能である。データセマンティサイザ１００はセマンティックウエブの発展にも重要な役割を果たすことができる。更にデータセマンティサイザ１００は以下の恩恵をもたらす：（ａ）１つの入力ファイル又は複数の入力ファイルの如何なる組み合わせも１つの出力ファイル（複数のセマンティックインスタンスを含む）又は複数の出力ファイル（各出力ファイルは入力データからの１以上のセマンティックインスタンスを含む）を生成する結果となり得る；（ｂ）ユーザの選択する１つのセマンティックインスタンスを生成するサービスを提供可能である；（ｃ）ユーザの選択するセマンティックインスタンスのリストを生成するサービスを提供可能である；（ｄ）入力ファイルの全てのセマンティックインスタンスのリストを生成するサービスを提供可能である；（ｅ）RDF/OWLストア及び／又は関連データベース（RDB）にセマンティックオブジェクトを直接的に表明できる。

データセマンティサイザ１００は、上記のプロセスを行い、ソフトウエアにより（何らかの既知のコンピュータ読取可能な媒体に格納される）及び／又はコンピュータ装置を制御するコンピュータハードウエア（限定ではないが、パーソナルコンピュータ、クライアント−サーバネットワークアーキテクチャの場合のサーバ及び／又はクライアントコンピュータ、分散したネットワークアーキテクチャの場合のネットワーク化されたコンピュータのような何らかのタイプのコンピュータ装置）により実現される。

本発明に関する多くの特徴及び利点は詳細な説明から明白であり、従って特許請求の範囲はそのような本発明の特徴及び利点を本発明の真の精神及び範囲内に含むようにカバーすることが意図される。更に、多くの修正及び変形は当業者にとって自明であるので、例示及び説明された厳密な構成及び動作に本発明を限定することは望まれず、従って適切な全ての修正及び均等物は本発明の範囲内に該当するよう求められる。

以下、本発明により教示される手段が例示的に列挙される。

（付記１）
コンセプトを入力データとしての電子データにマッピングする一群の注釈要素を規定するステップ；
決定された一群の注釈要素及び入力データのサンプルに従って、マッピングルールを生成するステップ；
マッピングルールを入力データに適用することで入力データにコンセプトをマッピングするステップ；及び
コンセプトの入力データへのマッピングに基づいて入力データのセマンティックインスタンスを生成するステップ；
を有することを特徴とするコンピュータ処理方法。

（付記２）
コンセプトを入力データにマッピングする一群の注釈要素が、入力データに対応する選択されたオントロジ、選択されたオントロジからマッピング用コンセプトとして選択されたオントロジコンセプト、サンプル入力データ中のワード又はワードフレーズと選択されたオントロジ中の選択されたオントロジコンセプトとの対応関係、及びサンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを有する
ことを特徴とする付記１記載の方法。

（付記３）
マッピングルールを生成するステップが、
サンプル入力データのワード又はワードフレーズにコンセプトをマッピングするサンプルを、入力データのマッピングルールとして提案するステップ；及び
コンセプトを入力データにマッピングするためにマッピングのマッピングルールを適用するステップ；
を有することを特徴とする付記１記載の方法。

（付記４）
タスクコンピューティング環境で使用可能な入力データの概念としてセマンティックインスタンスを用意するサービスを提供するステップ；
を更に有することを特徴とする付記１記載の方法。

（付記５）
入力データを表示するステップを更に有し、
コンセプトを入力データにマッピングするために定められる一群の要素が、表示される入力データのサンプルにマッピングされる選択されたオントロジの知覚的に識別可能な選択されたオントロジコンセプトを更に有し、該知覚的に識別することは、色、フォント、フォントサイズ、下線、太文字、イタリック体、番号、表示するアイコン又はそれらの組み合わせにより表示画面上で同一のオントロジコンセプトを視覚的に識別することを含む
ことを特徴とする付記２記載の方法。

（付記６）
第１のグラフィカルユーザインターフェースウインドウに入力データのサンプルを表示するステップ；及び
第２のグラフィカルユーザインターフェースウインドウに選択されたオントロジを表示するステップ；
を更に有し、サンプル入力データ中のワード又はワードフレーズを、選択されたオントロジコンセプトにマッピングすることが、第１及び第２のグラフィカルユーザインターフェースでのクリック及びドラッグ動作により実行される
ことを特徴とする付記２記載の方法。

（付記７）
サンプル入力データのワード又はワードフレーズに、選択されたオントロジ中の選択されたコンセプトをマッピングするサンプルを提案するステップが、サンプルデータ入力中のワード又はワードフレーズを選択されたオントロジコンセプトとして同じく知覚的に識別するステップを有する
ことを特徴とする付記３記載の方法。

（付記８）
前記入力データが、構造化されている、半構造化されている、構造化されていない又はそれらの任意の組み合わせである
ことを特徴とする付記１記載の方法。

（付記９）
ロケーション情報、正規表現又はそれらのどの組み合わせでも、サンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを決定する
ことを特徴とする付記２記載の方法。

（付記１０）
入力データに依存するロケーション情報及び正規表現のテンプレートが、サンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを決定するのに使用される
ことを特徴とする付記９記載の方法。

（付記１１）
複数のマッピングルールが生成され、当該方法が、
マッピングルールの各々に優先度を割り当てるステップ；及び
割り当てられたマッピングルール優先度に従ってマッピングルールを入力データに適用するステップ；
を有することを特徴とする付記１記載の方法。

（付記１２）
複数のマッピングルールが生成され、当該方法が、
マッピングルールの各々に順序を割り当てるステップ；及び
マッピングルールの順序に従ってマッピングルールを入力データに適用するステップ；
を有することを特徴とする付記１記載の方法。

（付記１３）
サンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを決定するためにテンプレートが使用される
ことを特徴とする付記２記載の方法。

（付記１４）
電子データを意味論的に処理する入力データとして選択するステップ；
ユーザがオントロジを選択するステップ；
前記入力データの中から入力データを選択するステップ；
選択されたオントロジの中からユーザがオントロジコンセプトを選択するステップ；
選択されたオントロジコンセプトを入力データにユーザがマッピングするステップ；
選択されたオントロジコンセプトの入力データへのマッピングに基づいてデータ構造捕捉ルールを生成するステップ；
データ構造捕捉ルールを格納するステップ；
データ構造捕捉ルールに基づいて、選択されたオントロジコンセプトと入力データのサンプルとのマッピング関係をユーザに提案するステップ；
選択されたオントロジ、入力データ、選択されたオントロジコンセプト、選択されたオントロジコンセプトと入力データとのマッピング関係又はそれらの任意の組み合わせを修正することで、ユーザ入力に従って生成されたデータ構造捕捉ルールを最適化するステップ；及び
選択されたオントロジコンセプトをサンプル入力データに対応付けるマッピング提案をユーザが受け入れる場合に、生成され最適化された適用されるデータ構造捕捉ルールを入力データ全体に適用することで入力データの意味論的処理を行うステップ；
を有することを特徴とするコンピュータ処理方法。

（付記１５）
入力電子データに適用するオントロジを選択するステップ；
データのサンプルを選択するステップ；
データの選択されたオントロジに基づいて、データのサンプルを用いて入力電子データの構造を捕捉するステップ；及び
捕捉されたデータ構造及び選択されたオントロジに基づいて入力電子データのセマンティックインスタンスを生成するステップ；
を有することを特徴とするコンピュータ処理方法。

（付記１６）
サンプル入力データの構造を捕捉する前記ステップが、
選択されたオントロジ中のオントロジコンセプトをサンプル入力データにマッピングするステップ；
オントロジコンセプトのマッピングに基づいてサンプル入力データの構造を近似するステップ；及び
サンプル入力データの近似構造に従って、入力電子データの構造を捕捉するステップ；
を有することを特徴とする付記１５記載の方法。

（付記１７）
サンプル入力データの構造を捕捉する前記ステップが、
ユーザがオントロジコンセプトを選択するステップ；
選択されたオントロジコンセプトとサンプル入力データとのマッピング関係をユーザに提案するステップ；及び
選択されたオントロジコンセプトとサンプル入力データとのマッピング関係をユーザが受け入れた場合に、サンプル入力データの構造を近似するステップ；
を有することを特徴とする付記１６記載の方法。

（付記１８）
前記オントロジが、入力電子データのドメインに従って選択される
ことを特徴とする付記１５記載の方法。

（付記１９）
入力データとしての電子データの構造を捕捉するために一群の注釈要素を規定するステップ；
規定された一群の注釈要素及び入力データのサンプルに従って、入力データの構造を捕捉するためのルールを生成するステップ；
前記ルールを入力データに適用するステップ；及び
入力データに適用されたルールに基づいて、入力データのセマンティックインスタンスを生成するステップ；
を有することを特徴とするコンピュータ処理方法。

（付記２０）
入力データの構造を捕捉するための一群の注釈要素が、入力データに対応する選択されたオントロジ、選択されたオントロジ中の選択されたオントロジコンセプト、サンプル入力データ中のフレーズ及び／又はフレーズの領域と選択されたオントロジ中の選択されたオントロジコンセプトとのマッピング関係を有する
ことを特徴とする付記１９記載の方法。

（付記２１）
入力データの構造を捕捉するためのルールを生成するステップが、
選択されたオントロジ中の選択されたオントロジコンセプトとサンプル入力データとのマッピング関係を、入力データのデータ構造規則として提案するステップ；及び
データ構造規則を入力データに適用するために、入力データのデータ構造規則を選択する提案に従ってマッピング関係を選択するステップ；
を有することを特徴とする付記２０記載の方法。

（付記２２）
前記入力データが単独の入力ファイル又は複数の入力ファイルの何らかの組み合わせであり、前記セマンティックインスタンスを生成するステップが、複数のセマンティックインスタンスを含む単独の出力ファイルを生成するステップ又は複数の出力ファイルを生成するステップより成り、該複数の出力ファイルの各々は入力データ中の１以上のセマンティックインスタンスを含む
ことを特徴とする付記１記載の方法。

（付記２３）
前記出力ファイルが、リソース記述フレームワーク（RDF）／ウエブオントロジ言語（OWL）及び／又はリレーショナルデータベース（RDB）フォーマットである
ことを特徴とする付記２２記載の方法。

（付記２４）
入力データのサンプルをユーザが選択するステップと、
ユーザにより選択された入力データのサンプルに対するコンセプトをユーザがマッピングするステップと、
ユーザによるマッピングに基づいてコンセプトと入力データのサンプルとのマッピングルールを生成するステップと、
入力データのサンプルに対するマッピングルールの生成に基づいて入力データにコンセプトをマッピングするステップと、
コンセプトと入力データとのマッピングに従って入力データのセマンティックインスタンスを生成し、入力データ全体に対するユーザ制御データセマンティゼーションサービスを提供するステップと、
を更に有することを特徴とする付記１記載の方法。

（付記２５）
複数のコンセプトが入力データにマッピングされ、複数のユーザ制御されたセマンティックインスタンスが生成され、当該方法が、入力データに基づいて生成されたユーザ制御セマンティックインスタンスのリストを生成するステップより成る
ことを特徴とする付記２４記載の方法。

（付記２６）
ユーザによるマッピングが、複数のオントロジ中の複数のコンセプトと複数の入力データの複数のサンプルとのマッピング関係を含み、及び
セマンティックインスタンスを生成するステップが、複数のオントロジ中の複数のコンセプトと複数の入力データとを対応付ける複数のセマンティックインスタンスを生成するステップより成る
ことを特徴とする付記２４記載の方法。

（付記２７）
プログラムされたコンピュータプロセッサを有するコンピュータ処理装置であって、前記プログラムされたコンピュータプロセッサは、
コンセプトを入力データとしての電子データにマッピングする一群の注釈要素を規定し、
決定された一群の注釈要素及び入力データのサンプルに従って、マッピングルールを生成し、
マッピングルールを入力データに適用することで入力データにコンセプトをマッピングし、及び
コンセプトの入力データへのマッピングに基づいて入力データのセマンティックインスタンスを生成するプロセスに従って当該装置を制御する
ことを特徴とするコンピュータ処理装置。

（付記２８）
コンセプトを入力データにマッピングする一群の注釈要素が、入力データに対応する選択されたオントロジ、選択されたオントロジからマッピング用コンセプトとして選択されたオントロジコンセプト、サンプル入力データ中のワード又はワードフレーズと選択されたオントロジ中の選択されたオントロジコンセプトとの対応関係、及びサンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを有する
ことを特徴とする付記２７記載のコンピュータ処理装置。

（付記２９）
マッピングルールを生成することが、
サンプル入力データのワード又はワードフレーズにコンセプトをマッピングするサンプルを、入力データのマッピングルールとして提案し、
コンセプトを入力データにマッピングするためにマッピングのマッピングルールを適用することでなされる
ことを特徴とする付記２８記載のコンピュータ処理装置。

（付記３０）
プログラムされたコンピュータプロセッサによりプロセスを制御する当該装置が、
タスクコンピューティング環境で使用可能な入力データの概念としてセマンティックインスタンスを用意するサービスを提供する
こと特徴とする付記２７記載のコンピュータ処理装置。

（付記３１）
プログラムされたコンピュータプロセッサによりプロセスを制御する当該装置が、
入力データのサンプルをユーザにより選択させ、
ユーザにより選択された入力データのサンプルに対するコンセプトをユーザがマッピングし、
ユーザによるマッピングに基づいてコンセプトと入力データのサンプルとのマッピングルールを生成し、
入力データのサンプルに対するマッピングルールの生成に基づいて入力データにコンセプトをマッピングし、
コンセプトと入力データとのマッピングに従って入力データのセマンティックインスタンスを生成し、入力データ全体に対するユーザ制御データセマンティゼーションサービスを提供する、
ことを特徴とする付記２７記載のコンピュータ処理装置。

（付記３２）
入力データとしての電子データにコンセプトを対応付けるために一群の注釈要素を規定する手段；
規定された一群の注釈要素及び入力データのサンプルに従って、マッピングルールを生成する手段；
マッピングルールを入力データに適用することで、コンセプトを入力データにマッピングする手段；及び
コンセプトと入力データとの対応関係に基づいて、入力データのセマンティックインスタンスを生成する手段；
を有することを特徴とするコンピュータ装置。

（付記３３）
プログラムされたコンピュータプロセッサを有するコンピュータ装置であって、前記プログラムされたコンピュータプロセッサは、
電子データを意味論的に処理する入力データとして選択し、
オントロジをユーザにより選択させ、
前記入力データの中から入力データを選択し、
選択されたオントロジの中からユーザによりオントロジコンセプトを選択させ、
選択されたオントロジコンセプトと入力データとのマッピングをユーザに行わせ、
選択されたオントロジコンセプトの入力データへのマッピングに基づいてデータ構造捕捉ルールを生成し、
データ構造捕捉ルールを格納し、
データ構造捕捉ルールに基づいて、選択されたオントロジコンセプトと入力データのサンプルとのマッピング関係をユーザに提案し、
選択されたオントロジ、入力データ、選択されたオントロジコンセプト、選択されたオントロジコンセプトと入力データとのマッピング関係又はそれらの任意の組み合わせを修正することで、ユーザ入力に従って生成されたデータ構造捕捉ルールを最適化し、
選択されたオントロジコンセプトをサンプル入力データに対応付けるマッピング提案をユーザが受け入れる場合に、生成され最適化された適用されるデータ構造捕捉ルールを入力データ全体に適用することで入力データの意味論的処理を行う
ことを特徴とするコンピュータ装置。

本発明の一実施例によりデータを意味論的に処理するフローチャートである。本発明の一実施例により電子メールテキストを入力電子データとして意味論的に処理するフローチャートである。本発明の一実施例によるデータセマンティサイザの機能ブロック図である。本発明の一実施例によるデータセマンティサイザのコンピュータ表示されたグラフィカルユーザインターフェースの画面例を示す図である。本発明の一実施例により生体工学データを注釈付けする入力電子データ例として意味論的に処理するフローチャートである。本発明の一実施例により生体工学データを入力電子データとするデータセマンティサイザのグラフィカルユーザインターフェースの画面例を示す図である。本発明の一実施例により生体工学データを入力電子データとするデータセマンティサイザのグラフィカルユーザインターフェースの画面例を示す図である。本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。コンピュータデバイスネットワークでタスクコンピューティングを行うタスクコンピューティング環境により使用される本発明によるコンピュータ装置ネットワーク及びデータセマンティサイザを示す図である。

符号の説明

１００データセマンティサイザ
１０２ルール群生成部
１０４セマンティックインスタンス生成部
１０６意味論的処理規則エディタ
１０８注釈データ
１１０意味論的処理マッピングルール
１１２セマンティサイザエンジン
１１４入力データ
１１６オントロジ
１１８セマンティックインスタンス
１６０正規表現
２００オントロジビューア
２０２データビューア
２０４意味論的ルールビューア
２０６キーパッド
５００タスクコンピューティング環境
５０６プレゼンテーションレイヤ
５０８ウエブサービスアプリケーションプログラミングインターフェース
５１０ミドルウエアレイヤ
５１２サービスレイヤ
５１４リアリゼーションレイヤ

Claims

オントロジコンセプトを入力データとしての電子データにマッピングするための一群のアノテーション要素を規定するステップと、
入力データのサンプルをユーザに提示し、ユーザにより選択された入力データのサンプルを受け付けるステップと、
選択されたオントロジより、ユーザにより選択されたオントロジコンセプトを受け付けるステップと、
選択された入力データのサンプルに対して、選択されたオントロジコンセプトを対応付けるための、ユーザによるマッピングを受け付けるステップと、
ユーザによるマッピングに基づき、規定された一群のアノテーション要素及び入力データのサンプルに従って、オントロジコンセプトと入力データのサンプルとの間の意味論的処理規則を生成するステップと、
入力データのサンプルに対する意味論的処理規則の生成に基づいて、入力データにオントロジコンセプトをマッピングするステップと、
オントロジコンセプトの入力データへのマッピングに基づいて入力データの注釈済みデータを生成し、入力データ全体に対するユーザ制御データセマンティゼーションサービスを提供するステップと、
を有することを特徴とするコンピュータ処理方法。
オントロジコンセプトを入力データにマッピングする一群のアノテーション要素が、入力データに対応する選択されたオントロジ、選択されたオントロジからマッピング用コンセプトとして選択されたオントロジコンセプト、サンプル入力データ中のワード又はワードフレーズと選択されたオントロジ中の選択されたオントロジコンセプトとの対応関係、及びサンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを有することを特徴とする請求項１記載の方法。
意味論的処理規則を生成するステップが、
サンプル入力データのワード又はワードフレーズにオントロジコンセプトをマッピングするサンプルを、入力データの意味論的処理規則としてユーザに対し提示するステップと、
オントロジコンセプトを入力データにマッピングするためにマッピングの意味論的処理規則を適用するステップと、
を有することを特徴とする請求項１記載の方法。
タスクコンピューティング環境で使用可能な入力データの概念として注釈済みデータを用意するサービスを提供するステップを更に有することを特徴とする請求項１記載の方法。
前記入力データが、構造化されている、半構造化されている、構造化されていない又はそれらの任意の組み合わせであることを特徴とする請求項１記載の方法。
複数の意味論的処理規則が生成される場合に、当該方法が、
複数の意味論的処理規則の各々に優先度を割り当てるステップと、
割り当てられた意味論的処理規則の優先度に従って各意味論的処理規則を入力データに適用するステップと、
を有することを特徴とする請求項１記載の方法。
複数の意味論的処理規則が生成される場合に、当該方法が、
複数の意味論的処理規則の各々に順序を割り当てるステップと、
割り当てられた意味論的処理規則の順序に従って各意味論的処理規則を入力データに適用するステップと、
を有することを特徴とする請求項１記載の方法。
前記入力データが単独の入力ファイル又は複数の入力ファイルの何らかの組み合わせであり、
前記注釈済みデータを生成するステップが、複数の注釈済みデータを含む単独の出力ファイルを生成するステップ又は複数の出力ファイルを生成するステップより成り、
該複数の出力ファイルの各々は入力データ中の１以上の注釈済みデータを含むことを特徴とする請求項１記載の方法。
電子データを意味論的に処理する入力データとして受け付けるステップと、
ユーザにより選択されたオントロジを受け付けるステップと、
オントロジコンセプトを入力データにマッピングするための一群のアノテーション要素を規定するステップと、
入力データのサンプルをユーザに提示して、ユーザにより選択された入力データのサンプルを受け付けるステップと、
選択されたオントロジより、ユーザにより選択されたオントロジコンセプトを受け付けるステップと、
選択された入力データのサンプルに対して、選択されたオントロジコンセプトを対応付けるための、ユーザによるマッピングを受け付けるステップと、
ユーザによるマッピングに基づき、規定された一群のアノテーション要素及び入力データのサンプルに従って、オントロジコンセプトと入力データのサンプルとの間の意味論的処理規則を生成するステップと、
意味論的処理規則を格納するステップと、
格納された意味論的処理規則に基づいて、選択されたオントロジコンセプトと入力データのサンプルとのマッピング関係をユーザに対して提示するステップと、
選択されたオントロジ、入力データ、選択されたオントロジコンセプト、選択されたオントロジコンセプトと入力データとのマッピング関係又はそれらの任意の組み合わせを修正することで、ユーザ入力に従って生成された意味論的処理規則を最適化するステップと、
選択されたオントロジコンセプトをサンプル入力データに対応付けるマッピング提案をユーザが受け入れる場合に、生成され最適化された意味論的処理規則を入力データ全体に適用することで入力データの意味論的処理を行うステップと、
を有することを特徴とするコンピュータ処理方法。
プログラムされたコンピュータプロセッサを有するコンピュータ処理装置であって、前記プログラムされたコンピュータプロセッサは、
オントロジコンセプトを入力データとしての電子データにマッピングするための一群のアノテーション要素を規定し、
入力データのサンプルをユーザに提示して、ユーザにより選択された入力データのサンプルを受け付け、
選択されたオントロジより、ユーザにより選択されたオントロジコンセプトを受け付け、
選択された入力データのサンプルに対して、選択されたオントロジコンセプトを対応付けるための、ユーザによるマッピングを受け付け、
ユーザによるマッピングに基づき、規定された一群のアノテーション要素及び入力データのサンプルに従って、オントロジコンセプトと入力データのサンプルとの間の意味論的処理規則を生成し、
入力データのサンプルに対する意味論的処理規則の生成に基づいて、入力データにオントロジコンセプトをマッピングし、
オントロジコンセプトの入力データへのマッピングに基づいて入力データの注釈済みデータを生成し、入力データ全体に対するユーザ制御データセマンティゼーションサービスを提供する、ことを特徴とするコンピュータ処理装置。
オントロジコンセプトを入力データにマッピングする一群のアノテーション要素が、入力データに対応する選択されたオントロジ、選択されたオントロジからマッピング用コンセプトとして選択されたオントロジコンセプト、サンプル入力データ中のワード又はワードフレーズと選択されたオントロジ中の選択されたオントロジコンセプトとの対応関係、及びサンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを有することを特徴とする請求項１０記載のコンピュータ処理装置。
意味論的処理規則を生成することが、
サンプル入力データのワード又はワードフレーズにオントロジコンセプトをマッピングするサンプルを、入力データの意味論的処理規則としてユーザに対し提示し、
オントロジコンセプトを入力データにマッピングするためにマッピングの意味論的処理規則を適用することでなされることを特徴とする請求項１１記載のコンピュータ処理装置。
前記プログラムされたコンピュータプロセッサが、
タスクコンピューティング環境で使用可能な入力データの概念として注釈済みデータを用意するサービスを提供することを特徴とする請求項１０記載のコンピュータ処理装置。
プログラムされたコンピュータプロセッサを有するコンピュータ装置であって、前記プログラムされたコンピュータプロセッサは、
電子データを意味論的に処理する入力データとして受け付け、
ユーザにより選択されたオントロジを受け付け、
オントロジコンセプトを入力データにマッピングするための一群のアノテーション要素を規定し、
入力データのサンプルをユーザに提示して、ユーザにより選択された入力データのサンプルを受け付け、
選択されたオントロジより、ユーザにより選択されたオントロジコンセプトを受け付け、
選択された入力データのサンプルに対して、選択されたオントロジコンセプトを対応付けるための、ユーザによるマッピングを受け付け、
ユーザによるマッピングに基づき、規定された一群のアノテーション要素及び入力データのサンプルに従って、オントロジコンセプトと入力データのサンプルとの間の意味論的処理規則を生成し、
意味論的処理規則を格納し、
格納された意味論的処理規則に基づいて、選択されたオントロジコンセプトと入力データのサンプルとのマッピング関係をユーザに対して提示し、
選択されたオントロジ、入力データ、選択されたオントロジコンセプト、選択されたオントロジコンセプトと入力データとのマッピング関係又はそれらの任意の組み合わせを修正することで、ユーザ入力に従って生成された意味論的処理規則を最適化し、
選択されたオントロジコンセプトをサンプル入力データに対応付けるマッピング提案をユーザが受け入れる場合に、生成され最適化された意味論的処理規則を入力データ全体に適用することで入力データの意味論的処理を行うことを特徴とするコンピュータ装置。