JP4929704B2 - コンピュータ処理方法及びコンピュータ処理装置 - Google Patents

コンピュータ処理方法及びコンピュータ処理装置 Download PDF

Info

Publication number
JP4929704B2
JP4929704B2 JP2005365377A JP2005365377A JP4929704B2 JP 4929704 B2 JP4929704 B2 JP 4929704B2 JP 2005365377 A JP2005365377 A JP 2005365377A JP 2005365377 A JP2005365377 A JP 2005365377A JP 4929704 B2 JP4929704 B2 JP 4929704B2
Authority
JP
Japan
Prior art keywords
input data
data
ontology
user
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005365377A
Other languages
English (en)
Other versions
JP2006178982A (ja
Inventor
ジョーゼフ アームストロング パトリック
ハシュミ ナダ
ヨン リー スン
竜介 益岡
ソン ジョシュアヌ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2006178982A publication Critical patent/JP2006178982A/ja
Application granted granted Critical
Publication of JP4929704B2 publication Critical patent/JP4929704B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は一般にデータの意味的情報を与える方法及びシステムに関連する。特に本発明は大量の半構造化データ又は構造化データをセマンティクスと共に注釈を付ける方法及びコンピュータシステムに関連する。
コンピューティング、ネットワーク及びセンサ装置等を含む技術の進歩により、大量のデータが生成される。一般に集められたデータは分析されることを必要とし、伝統的にそれは1つのアプリケーションの中でなされている。しかしながら生物情報工学や気象学等のような多くの分野では、あるアプリケーションで生成/収集されたデータが別のアプリケーションで更に使用される必要があるかもしれない。更に複数の学問分野の協同が−特に科学技術の社会で−しばしば望まれる。従って1つの重要事項は、情報を交換する能力(シンタクティックオペラビリティ)及び交換された情報を使用する能力(セマンティックオペラビリティ)による相互運用性である。IEEE標準コンピュータ辞典:A Compilation of IEEE Standard Computer Glossaries,IEEE,1990。
情報のオントロジ(ontology)ベースの表現を含む従来のセマンティックワールドワイドウェブ(又はウェブ)技術は、コンピュータ及び人間の協力を可能にし、データ共用及び管理を支援するために使用可能である。オントロジ表現によりエンティティ及びドメイン内の関連性のモデリングはソフトウエア及びコンピュータが以前に無いような情報を処理することを許容する(これについては、西暦2004年10月22日に非特許文献1で開示されている。)。従来のセマンティックウエブ技術はワールドワイドウエブの拡張であり、ウエブページを探索し、そのウエブページをセマンティックウエブページのレベルに橋渡し(ブリッジ)することを前提としている。従って従来のセマンティックウエブ技術は、ウエブページをハイパーテキストマークアップ言語(HTML)書類のようなタグの付された書類(完全に構造化された書類と考えられる)のように処理する。更に、従来のセマンティックウエブ技術は唯一プレゼンテーション用であり、タスクコンピューティング(即ち、タスク処理装置用の処理装置)用ではない。WEB SCRAPER(ウエブスクラッパ)ソフトウエアはウエブページを構造化書類としてセマンティックレベルにブリッジする従来のセマンティックウエブ技術の具体例である。しかしながらフラットファイルのような半構造データ又は非構造化データに意味(セマンティクス)を付与することは簡単なタスクではなく、従来そのような機能は(入力データごとに)ケースバイケースに実行されており、長々しく誤りやすい傾向がある。注釈付けが自動化される場合でさえ、そのような注釈は注釈される特定のドメインしか標的にしない。
従って半構造化及び未構造化データ注釈に関する既存の手法は、ユーザの知識及び手作業に完全に依存しており、大量のデータを任意のフォーマットで任意のドメインで注釈を付けるには相応しくない。なぜならそのような既存の手法はあまりに長すぎるし誤りやすいので、任意のドメインにおける任意のフォーマットの大量のデータに適用できないからである。例えば西暦2004年10月22日に開示されていた非特許文献2(GENE ONTOLOGY(GO)注釈)や非特許文献3(TRELLIS by University of Southern California’s Information Institute(ISI))のような既存の手法は、ユーザの知識に完全に依存し、データ特有であり、入力データ毎を基礎とし、長々しく誤りやすい。特にジーンオントロジ(GO)は遺伝的オントロジによるセマンティックデータ注釈を与えるが、GOはジーンプロダクツにしか適用可能でなく、ジーンプロダクツに関する専門知識に強く依存している(何らかのタイプの注釈が用意される場合に、その注釈はジーンプロダクツドメインのみを標的にする或いはそれに固有である。)。更にトレリスではユーザは観察、見解及び結論を通じて書類にセマンティック注釈を付するが、トレリスもユーザに強く依存し、彼らの専門知識に基づいて新たな知識を付加し、更にトレリスでのセマンティック注釈は観察された書類ごとに1つのセマンティック例になる。
インターネット<www.sys-con.com/xml/article.cfm?id=577> インターネット<www.geneontology.org> インターネット<www.isi.edu/ikcap/trellis>
首尾よくデータ共有及び管理を行うように半構造化ないし未構造化フォーマットで収集されたどのデータでも完全に利用するには、セマンティクスでデータを注釈する更に簡易な手法が大いに望まれる。
本発明によるコンピュータシステムは大量のデータ(半構造化ないし未構造化電子データを含む)に如何なるフォーマットでも如何なるドメインででもセマンティクスで注釈を付けるユーザを支援する。従って本発明は電子データのオントロジ表現を如何なるフォーマット及び如何なるドメインでも提供する。
上記課題を解決するため、本発明のコンピュータ処理方法は、オントロジコンセプトを入力データとしての電子データにマッピングするための一群のアノテーション要素を規定するステップと、入力データのサンプルをユーザに提示し、ユーザにより選択された入力データのサンプルを受け付けるステップと、選択されたオントロジより、ユーザにより選択されたオントロジコンセプトを受け付けるステップと、選択された入力データのサンプルに対して、選択されたオントロジコンセプトを対応付けるための、ユーザによるマッピングを受け付けるステップと、ユーザによるマッピングに基づき、規定された一群のアノテーション要素及び入力データのサンプルに従って、オントロジコンセプトと入力データのサンプルとの間の意味論的処理規則を生成するステップと、入力データのサンプルに対する意味論的処理規則の生成に基づいて、入力データにオントロジコンセプトをマッピングするステップと、オントロジコンセプトの入力データへのマッピングに基づいて入力データの注釈済みデータを生成し、入力データ全体に対するユーザ制御データセマンティゼーションサービスを提供するステップとを有することを特徴とする
上記課題を解決するため、本発明のコンピュータ処理装置は、プログラムされたコンピュータプロセッサを有するコンピュータ処理装置であって、前記プログラムされたコンピュータプロセッサが、オントロジコンセプトを入力データとしての電子データにマッピングするための一群のアノテーション要素を規定し、入力データのサンプルをユーザに提示して、ユーザにより選択された入力データのサンプルを受け付け、選択されたオントロジより、ユーザにより選択されたオントロジコンセプトを受け付け、選択された入力データのサンプルに対して、選択されたオントロジコンセプトを対応付けるための、ユーザによるマッピングを受け付け、ユーザによるマッピングに基づき、規定された一群のアノテーション要素及び入力データのサンプルに従って、オントロジコンセプトと入力データのサンプルとの間の意味論的処理規則を生成し、入力データのサンプルに対する意味論的処理規則の生成に基づいて、入力データにオントロジコンセプトをマッピングし、オントロジコンセプトの入力データへのマッピングに基づいて入力データの注釈済みデータを生成し、入力データ全体に対するユーザ制御データセマンティゼーションサービスを提供することを特徴とする

上記及び更なる形態及び利点は以下の説明部分に示されており、その説明から明白になるであろうし、或いは説明される実施例により教示されるであろう。
実質的に明白になる他の形態及び利点は明細書及び特許請求の範囲に示される構成及び動作にあり、説明の一部をなす添付図面が参照され、全図を通じて同様な番号は同様な部分を示す。
以下で本発明の実施例が詳細に参照され、その具体例が添付図面に示される。実施例は本発明を説明するために図面を参照することによってなされる。
図1は本発明の一実施例によりデータを意味論的に処理するフローチャートである。本発明はデータセマンティサイザとしてコンピュータシステムを提供し、ユーザが任意のフォーマットで大量の電子データ108(半構造化ないし未構造化電子データを含む)に任意のドメインの中でセマンティクスで注釈付けすることを支援する。データセマンティサイザ100は直感的且つ効果的な方法を用いて任意のフォーマットで任意のドメインでデータ108にセマンティクスと共に注釈を付け、データセットがそれらの知識ベースに入力可能であるようにする(知識ベースは問題を解決するのに必要な事実及び規則の集まりである。)。
例えばデータセマンティサイザ100は構造化データに適用可能である。別の例としてデータセマンティサイザ100は、データがよく理解されたフォーマットにあるかもしれないが様々なソフトウエアアプリケーションからのデータの出力各々は固有であるかもしれない場合に使用可能である。生体工学分析アプリケーションのような各アプリケーションはよく理解されたフォーマットでデータを生成することは観察可能であるが、アプリケーション各々の実行は固有になる傾向がある。例えば生体工学の場合にはベーシックローカルアライメントサーチツール(BLAST: BASIC LOCAL ALIGNMENT SEARCH TOOL)の出力は、新たなシーケンスと以前に特徴付けられたシーケンスを比較し、入力パラメータに依存して変更し、その出力は合致するシーケンス数及び合致するシーケンスの場所等の点で異なる。国際衛生研究所の生体工学情報(NCBI)国際センターはBLASTに関する情報を提供している(これについては例えば西暦2004年10月22日現在、[www.cnbi.nih.gov/Education/BLASTinfo/information3.html]に及びAtlschul et al.,Basic Local Alignment Search Tool,Journal of Molecular Biology,251:403-410に開示されている。)。ウエブページとは異なり、データの構造を見分けるために特殊なタグも同様な機構もBLASTの出力では一切使用されない。データセマンティサイザ100は選択されたオントロジに基づいて半構造化データのセマンティックインスタンスを生成する。セマンティックレベルが用意されると、データ特性は識別可能である(そうでなければ、入力及び出力データ中の多数の相違に起因して識別不可能であろう。)。例えばBLASTの場合には多くの出力表現によらず、実際のジーンシーケンスが識別可能である。従ってデータの構造を確認するために特殊なタグも同様な機構も一切使用されない場合に、半構造化ないし未構造化フォーマットにあると考えられるデータについて且つオントロジ選択を許容することで任意のドメインの中でデータセマンティサイザ100が使用可能である。
図1は任意のフォーマットで任意のドメインで電子データ108をセマンティクスと共に注釈を行う、コンピュータを制御するコンピュータソフトウエアで実現されるようなデータシンセサイザ100のフローチャートである。図1ではセマンティサイザ100による意味論的処理フローは規則集合生成102(破線枠で示される)及びセマンティックインスタンス生成104(二重線の多角形で示される)の2つの意味論的処理を有する。規則集合生成102はワンタイム(1回の)プロセスであり(但し、1度のプロセスに限定されない)、例えばドメイン技師又はシステム管理者によって実行可能である。ドメインエキスパート又はシステムアドミニストレータは人でも、コンピュータで実現されるものでも或いはそれらの如何なる組み合わせでもよい。処理102は意味論的規則集合110を生成する。処理102で規則集合110が利用可能になると、処理104でその規則酒豪110に基づいてセマンティックインスタンス118が生成可能である。「セマンティックインスタンス」118はある概念(コンセプト)に基づく個々の項目(アイテム)に関する記述の集合である。1つのアイテムは入力データ108のどの部分でもよい。
より具体的には、図1に示されるように、本発明はコンピュータ処理方法を提供し、その方法は処理106で電子データ108の概念を入力データとしてマッピングするために一群の注釈要素を規定する(意味論的規則エディタ106として実行される)ステップを含む。処理106は本質的には電子データ108の構造を捕捉することを許容する。入力データ108の構造を捕捉するため及びコンセプトを入力データ108に対応付けるため、対応規則(マッピングルール)110は、規定済みの一群の注釈要素及び入力データ108のサンプル114に従って生成される。処理112は、入力データ108にマッピングルール110を適用することによってコンセプトを入力データ108にマッピングし、入力データ108に適用されたマッピングルール110に基づいて入力データ108のセマンティックインスタンス118を生成するステップを含む。(意味論的規則エディタ106で実行される)コンセプトを入力データ108に対応付ける或いは入力データ108の構造を取得するための一群の注釈要素は、入力データ108から選択されたサンプル114と、入力データ108に対応する選択されたオントロジ116と、サンプル入力データ114中のワード又はワードフレーズ(即ち、ワード又はワードフレーズはデータポイントの例である)と選択されたオントロジ116から選択されたオントロジのコンセプトとの対応関係と、サンプル入力データ114の構造に関するマッピングされたワード又はワードフレーズのパターン(即ち、選択されたオントロジ116から選択されたオントロジコンセプトにマッピングされた選択されたサンプル入力データ114におけるフレーズ及び/又はフレーズの領域)とを有する。
オントロジ116はウエブオントロジ言語(OWL)ファイルフォーマットのような電子情報フォーマットに従ってコンピュータ読取可能な媒体に格納された1以上の同一の及び/又は異なるドメインオントロジとすることができる。データセマンティサイザ100は1つのオントロジ116に対応するセマンティックインスタンスを生成することに限定されず、データセマンティサイザ100は様々なデータ部分が複数のオントロジ116に関連するセマンティックインスタンス118を生成することができる。例えば、入力データ108文字列「アメリカ合衆国の富士通研究所(FLA)のリサーチ研究員がタスクコンピューティングプロジェクトを率いている。彼はFLAでの任期の間にLSM、エージェント及び他のプロジェクトにも含まれていた。彼は何人かの学生を指導するメリーランド大学(UM)の非常勤講師でもある。」を考察する。そのようなデータ108に注釈を付するため、最も予想されることに、その注釈はFLAオントロジ(例えば、プロジェクト管理、プロジェクト包含プロパティ等)及びUMオントロジ(例えば、指導学生、テーマプロパティ等)で規定されたオントロジコンセプトを含むであろう。コンセプトを入力データ108に対応付ける或いは入力データ108の構造を捕捉するためのマッピングルール110の生成は、処理106において、あるコンセプト(選択されたオントロジ116から選択されたオントロジコンセプト)をサンプル入力データ114中のワード又はワードフレーズに対応付けるサンプルを入力データ108のマッピングルールとして示唆し、示唆されたマッピング(対応関係)を入力データ108のマッピング規則として或いは入力データ108のデータ構造規則として選択することを含む。処理112では、マッピングルール110が入力データ108に適用され、コンセプトを入力データ108に対応付けセマンティックインスタンス118を出力する。従って「マッピングルール」(図1での意味論的規則集合)110は入力データ108の構造に関するワード又はワードフレーズのマッピングに基づく。サンプル入力データ114は例えば開かれた入力データファイル114のサンプル番号でもよいし(例えば、10個のファイル各々が何百ものファイル中の1つの電子メールを含む)、多数のレコードを含む1つのデータファイル114でもよい(例えば、1つのファイルが複数のファイル中の何百もの電子メールを含み、ユーザは1つのファイル中の1つの電子メールで作業をするが、システムは残りのファイルに表れる電子メールアドレスの全部又は一部のどの部分集合をも示唆する。)。
データセマンティサイザ100により解決される主な1つの問題は、半構造化から未構造化に至る電子データ108の構造を意味論的処理用に捕捉することである。データセマンティサイザ100は、データフォーマットに関する不十分な知識しかなかった場合に、処理106でデータ構造捕捉要素として又は注釈要素としてデータ108の少数の表現サンプル114を使用する。他のデータ構造捕捉要素として、選択されたサンプル入力データ114内のフレーズ及び/又はフレーズ中の領域を、選択されたオントロジ116から選択されたオントロジコンセプトにマッピングすることが処理106で実行される。更に処理106で、入力データの構造、ロケーション情報、正規の表現又はそれらの如何なる組み合わせも捕捉する2つの他の要素は、選択されたサンプル入力データ114でフレーズを見出すための及び/又はフレーズの領域を判定するための規則の生成に使用され、選択されたオントロジ106による選択されたオントロジコンセプトにマッピングされる。
2例のデータ構造はロケーションベースの及び正規の表現ベースの要素を捕捉し、データフォーマットに関する事前の知識もユーザによる補助も想定されてない。しかしながらデータセマンティサイザ100はユーザからの補助を効率的に(即ち、簡易に、速やかに及び非常に効果的に)組み入れることができ、データ108の構造を捕捉するプロセスを容易にする。ドメイン技術者及び選択されたオントロジ116によるユーザの支援により、データセマンティサイザ100は意味論的規則集合110を生成し、その集合は半構造化ないし未構造化の大量のデータ108に関するセマンティックインスタンスを作成するのに使用される。データに注釈を付するこのプロセスでは、ヒューマンドメインエキスパートを使用することで人的相互作用は完全には消去されないかもしれないが、データセマンティサイザ100は大量のデータ108を任意のフォーマットで任意のドメインで意味論的に処理する際の人的支援及び依存性をかなり減らす。従ってデータセマンティサイザ100はアプリケーションデータ108のセマンティック情報を与える半自動化方法をサポートする。
データセマンティサイザ100の役割はデータをより抽象的な高いレベルに橋渡しするためにデータにセマンティクスで注釈付けすることである。低いレベルのデータはより高い抽象的レベルから容易に引き出すことができるが、逆向きならそうでない。1つの例は構造化データを未構造化と比較することである。構造化データはプレーンテキストフォーマットで簡易に表現される。例えばLATEX書類は表示又は印刷用のフォーマットに容易に変換可能である(LATEXから装置に依存した(DVI:Device-Independent)ビットマップへのファイルフォーマット)。しかしながらビットマップからLATEX書類への変換は非常に困難である;これは、データシンセサイザ100が、電子データ構造を入力データとして捕捉するための効率的に定められた一群の要素(意味論的規則エディタとして実現される)に起因して、入力データの構造を捕捉するように規定された一群の要素に従ってルールを生成し、そのルールを入力データに適用し、入力データに適用されたルールに基づいて入力データのセマンティクインスタンスを生成することを支援する場合である。データセマンティサイザ100により、データにセマンティクスで注釈を付ける手順は人的介入を減らしながら達成できる。従って新たな用語「セマンティサイズ(semanticize)」は本発明によりデータにセマンティックな注釈を付けることを示すように導入される。
図1では処理106の例として、入力データの構造を取得することでコンセプトを入力データに対応付けるマッピングルール110を生成することは、要素的ルールを規定するステップを含み、要素的ルールは例えば6つのタプル(tuple)の組<C,W,R,K,P,O>をデータ構造捕捉要素として含む。ここで:
「C」はユーザがインスタンスを作成することを希望するクラス及びそのプロパティ(概念同士の関係)に対応する選択されたオントロジ116によるコンセプトである。
「W」はサンプルデータ114の中で概念化されるワード又はワードフレーズである。例えば表示されたサンプルデータ114−例えば入力データ108として複数の書類中で表示されたサンプル書類−中のワードをハイライトすることで、「W」を指定することができる。「C」及び「W」はユーザの支援を組み込むことができるデータ構造捕捉要素である。
「R」は例えば書類のような入力データ108(又は入力データ108の一部)の構造に関する「W」ワード又はワードフレーズの領域である。典型的には本発明では「R」要素はデータ108のサンプル114(又はサンプル114の一部)の構造に関して決定される。入力データの構造を捕捉するための「R」要素を決定する2方法が説明される−ロケーション情報及び正規の表現。これら2方法の詳細は、データ構造捕捉要素として、以下で更に説明される。「R」要素は「C」及び「W」の表現としてシステム(意味論的規則エディタ106)によって実行される。本発明では「R」データ構造捕捉要素はオントロジ及びオントロジの中のコンセプトに関連付けられるデータポイント(例えば、ワード又はワードフレーズ、及び/又は他の任意のタイプのデータポイント)に基づくものであり、これによりドメイン又はオントロジ規則ベースの知識をシステムに与え、入力データの構造を取得する。本発明はコンセプトを電子データに対応付ける注釈要素一式を規定する方法を提供する。
「K」は色であり、1つの完全な「C」コンセプトを表示されているサンプルデータ114中の他のものから一意に区別する。例えば姓と名を有するパーソンと呼ばれるクラスのインスタンスを生成することがプロパティであったとする。クラス「パーソン」のセマンティックインスタンスを作成する場合に、規則エディタ106はこれら2つのプロパティを自動的にリストにし、表示されるサンプルデータ114の中で同じ色を割り当てることで、それらを同じクラスのプロパティとしてグループ化する。本発明は表示される概念を色彩で区別することに限定されず、(限定ではないが、フォント、フォントサイズ、下線、太文字、イタリック体、番号付け、アイコン表示等によりコンピュータ画面上で視覚的に特徴を区別するような)他の知覚的判別特徴/属性/技術(例えば、視覚的及び/又は音響的)が使用されてもよい。
「P」は規則の優先度である。処理102で入力データ108について複数の生成済みマッピングルールを適用する場合に、優先度はエラーを減らしつつ効率を増やすために使用される。優先度はルール群110の間違ったアプリケーションを判定するのに使用可能である。高優先度のルールが適用できなかったならば、セマンティックインスタンス作成プロセスは止まり、低優先度のルールが安全に無視される。例えばサンプル書類114中のワードをオントロジ116中のオントロジコンセプトに合わせようとしている場合に、幾つかのデータは他より重要かもしれない。例えばジーンシーケンスがバージョン番号を含む場合に、実際のジーンシーケンスはそのバージョン番号より高い優先度が付与されてよく、あるファイルがそのバージョン番号を省略した場合に、システムがセマンティックインスタンスを作成することを怠らないようにする(即ち、必要ならばバージョン番号をマッピングする)。
「O」は生成された複数のマッピングルール110が適用される順序であり;例えばO1は適用される最初のルールであり、O2は適用される2番目のルールである、等々。
従って要素的ルールの組は共にルール群110を規定し、マッピング、意味論的処理又はデータ構造捕捉と言及され、書類や電子メールメッセージのような入力データ108に概念を任意のフォーマットで任意のドメインで対応付ける。最小の原子的ルールは3つの注釈付け又はデータ構造取得の組、タプル<C,W,R>であり、「C」及び「W」はユーザの支援を組み入れることができる。データ構造捕捉要素<K,P,O>はパフォーマンスを高めるが、上記の例では必要とされていない。更に3タプル<C,W,R>のセットは例えば<K,P,O>データ構造捕捉要素のような他のデータ構造捕捉要素とどの組み合わせでも組み合わせ可能である。
2例の方法はその如何なる組み合わせをも含み、ワードの領域を決定し(「R」要素)、以下にさらに詳細に説明される。従ってロケーション情報は入力データ構造を捕捉するために「R」要素を決定する他の方法として正規表現と組み合わせ可能である。
ロケーション情報−サンプルデータ114の中でハイライトされたロケーション情報を用いること,「R」は4タプル<L,S,N,E>(ロケーションデータ構造捕捉要素)として表現され、ここで、
Lは行番号であり、
Sは開始するキャラクタ位置であり、
Nは行数であり、
Eは終了するキャラクタ位置であり、
特に概念化されるワードに対応する「列」を捕捉する。
ロケーション要素は「W」要素のようなワード又はワードフレーズに対応するサンプル入力データ114中のロケーションを必須的に捕捉し、ワード等はオントロジ116から選択されたオントロジコンセプトに対応付けることで概念化される。
正規表現(パターン)−或いは、正規表現はワードの領域−「R」要素に関してサンプルデータ114により入力データ108でパターンを導出するのに使用可能である。この手法では、「R」は正規表現であり、仮定、入力、出力及び処理の観点から次のように記述される:
仮定の例:
以下は入力データ108のフォーマットの例に使用されるガイドライン例である:
データは多数のレコードから構成され、レコードの各々は多数のフィールドを有する。
レコード間のデリミタ(区切り符号)は容易に認識可能である。
レコード中のフィールド各々は何らかの特徴を規定するものを有し、その特徴はそれを他のフィールドと区別する。
入力データ108の例:
ユーザが分析を希望するデータを含むレコードのリスト。
データ中の部分文字列の開始及び終了の指標,これはユーザが抽出を希望するデータの例である−「W」データ構造捕捉要素。
共用可能な一致性を規定する許容値。
プロセス処理の例:
1.検討する部分文字列及びパラメータとして分析されるデータ(サンプル114)を分析することで入力データ108の分析を始める。検討する部分文字列が例えば入力データのディスプレイ上でハイライト、クリック、クリックとドラッグ等のような何らかの既知の選択法で選択される。
2.パターン生成器/分析器(意味論的規則エディタ106)が伝送されたパラメータ検討する部分文字列を調査し、検討する部分文字列に合致する正規表現(パターン)を一群のテンプレートに基づいて構築する。
3.分析器が正規表現をサンプルデータ114中の各レコードに適用し、そのレコードは発見した合致したどの開始及び終了位置も記録する。
4.レコードが処理された後に、特定の正規表現に合致した総数が検査される。合致カウント数が許容レベルの範疇に該当しなければ(レコード数±許容値)、その正規表現は自動的に拒否される。その場合、分析器は上記の処理2に戻る。
5.そうでなければ、分析器によって作成された合致のリストがユーザに検討用に示唆として提示される。ユーザがこれらの示唆を受け入れたならば、分析は完了する。そうでなければ正規表現(パターン)は拒否され、分析器は上記の処理2に戻る。ユーザが分析器の合致を受け入れるまで或いは分析器が正規表現を処理し尽くすまで処理が続く。従ってパターン生成器/分析器106の出力は示唆される合致のリストになる。
図2は電子メールテキストを入力電子データとして意味論的に処理する本発明の一実施例によるフローチャートである。特に上記のプロセス処理1ないし5に従うセマンティサイザ100による意味論的処理例が図2に関連して示され、電子メール(電子メールメッセージ/テキスト)を入力データ108として使用し、「W」データ構造捕捉要素の範囲を決定するために「R」データ構造捕捉要素の上述の正規表現を使用し、その決定は入力データ108のサンプル114で「C」データ構造捕捉要素へのマッピングである。
図2では処理150で入力ファイル108が電子メールヘッダ一式を含み、「dean@cs.umd.edu」が検討する部分文字列であり−「W」データ構造捕捉要素−それはオントロジ116(図2には示されていないが図3には示されている)から選択されたオントロジ概念に対応付けられ(強調表示で示される)、入力ファイル108からのサンプルデータ114として機能する。処理152ではパターン生成器(意味論的規則エディタ106としても言及される)が正規表現テンプレート160に基づいて所与の入力ファイル108の構造を近似するように試みる。処理154ではパターン生成器106が入力ファイル108の構造を捕捉するために正規表現160をユーザに示唆する。処理156ではユーザはその示唆を検討する。処理156ではユーザは正規表現の示唆を入力データ108の構造規則として受け入れる或いは拒否することができる。
より具体的には図2では処理154の最も左側は、検討する文字列「dean@cs.umd.edu」を正規表現として使用し、「dean@cs.umd.edu」の文字列を合致として示している−「R」データ構造捕捉要素。しかしながらこのファイル108は正規表現「dean@cs.umd.edu」に合致する厳密には1つの文字列を含み(黄色で強調しながら画面に示される)、この正規表現は合致が少なすぎるので破棄できる。処理154の中央の場合は正規表現「\w+@\w+.\w+.」を用いてそれに合致する全ての電子メールアドレスを示している。この正規表現は入力ファイル108に表れる電子メールアドレスの全てに合致するが;この表現は合致が多すぎるので再びスキップ可能である。処理154での第3の場合は正規表現「From:\S+@\S+,」を用いた合致を示し、その合致は検査用にユーザに示唆される。図2の例ではシステム100は構築可能なアプリケーション設計基準に従ってケース1(左)及び2(中央)を内部的に削除するが、本発明はそのような構成例に限定されず、システム100は例えば推奨される示唆を含むパターン生成器106の出力全てをユーザに示唆するように制御される(プログラムされる)ことが可能である。
正規表現テンプレート:
正規表現テンプレートは入力データ108又はドメイン仕様に関する仮定に基づいて展開可能である。例えばその仮定の1つは、レコード中の各フィールドが何らかの特徴を規定するものを有する、とすることができる。テンプレートは如何なるシナリオも近似するのに充分に多角化されるように設定される。システム100は追加的なテンプレートが入力データ108の様々なタイプに多角的に適合可能であるようにスケーラブルである。
図3は本発明の一実施例によるデータセマンティサイザの機能ブロック図である。図4は本発明の一実施例によるデータセマンティサイザのコンピュータ表示されたグラフィカルユーザインターフェースの画面例である。図3に示されるデータセマンティサイザ100は、データ108を意味論的に処理するのに必要な機能をユーザに提供し、以下の要素から構成される。
オントロジビューアツール200:オントロジビューア200は、本発明では典型的にはソフトウエアツールの組み合わせであり、ドメインエキスパートがオントロジを見たり修正したりすることを可能にする。必要であれば新たなオントロジが作成可能である。SWOOP[これについては例えば西暦2004年10月22日現在、www.mindswap.org/2004/SWOOP/にて開示されている]のような既存の如何なるオントロジエディタが使用可能であり、そのエディタはスケーラブルOWL(ウエブオントロジ言語)オントロジブラウザ及びエディタである。SWOOPは慣例的なツリー構造に加えてナビゲーションを容易にするハイパーリンクインターフェースを含む多くの様々な形態による複数のオントロジの表示をサポートする。図4はオントロジビューアツール200のコンピュータ表示されたグラフィカルユーザインターフェースウインドウを示す。
データビューア202:データビューア202は(構造化、半構造化及び未構造化データのどのフォーマットでもどのドメインででも入力電子データとしての)複数のデータドキュメント108を表示可能にし、1つのバッチで意味論的に処理可能にする。データビューア202がサポートできるフォーマットは、例えば:txt,rtf及びhtml書類である。初期のルール群110を生成するのに1つの書類(又はその一部分)のみがサンプル114として必要とされる。図4はデータビューア202のコンピュータ表示されたグラフィカルユーザインターフェースウインドウを示す。
意味論的処理規則エディタ106:意味論的処理規則エディタ106はデータ108の集まりからサンプル114及びその対応するオントロジ116を入力として取り出し、データ集合108につき意味論的処理規則群110を決定する際にユーザを支援する。本発明では典型的には規則群110はそのデータ集合に精通しているドメインエキスパートの支援と共に生成される。図4ではコンピュータ表示されたグラフィカルユーザインターフェースウインドウ204は選択的なユーザインターフェースウインドウであり、生成された規則表現を表示することのように、意味論的処理規則エディタ106による処理の様々な表現内容を表示することができる(即ち、意味論的処理規則ビューア204である)−「R」データ構造捕捉要素。図4ではユーザインターフェースウインドウ204はオントロジコンセプト(その番号を含む)を表示し、オントロジコンセプトはデータビューアユーザインターフェースウインドウ202に表示されるデータにマッピングされる。例えば図4はバイオパックス(biopax)レベル1のプロテインコンセプト(サブクラス)のコメント(COMMENT)プロパティを示し:意味論的処理規則エディタユーザインターフェースウインドウ204及びデータビューアユーザインターフェースウインドウ202の双方で、物理的エンティティクラス208が一度マッピングされ(1)及びオントロジコンセプトマッピングが同じ色で(本実施例では赤色であり、線で結び付けられている)視覚的に表示されている−「K」データ捕捉構造要素。
セマンティサイザエンジン112:セマンティサイザエンジン112は本発明では一般にバックグランドで走るプログラムされたコンピュータプロセッサであり、多くのデータ集合108とそのデータ集合108に適用される意味論的規則群110とを取得し、データ集合108に対応するセマンティックインスタンス118を生成する。
本発明の譲受人である日本国川崎市の富士通株式会社により開発されたいくつもの付加的な要素等がオントロジビューアツール200及びデータビューア202の環境に適用可能である。それらはオントロジマッピングツール、インターフェースエンジン及びデータ視覚化ツールを含む。ONTOLINK[これについては例えば、西暦2004年10月22現在、www.mondswap.org/2004/OntoLinkで開示されている。]のようなオントロジマッピングツールは、シンタクティック及びセマンティックマッピング並びに異なるオントロジで規定されるコンセプト間の変換規則を指定するために使用可能である。PELLET[これについては例えば、西暦2004年10月22日現在、www.mindswap.org/2003/pellet/index.shtmlに開示されている]及びRACER[これについては例えば西暦2004年10月22日現在、www.cs.concordia.ca/~haarslev/racer/jambalayaに開示されている]のような推論エンジンはオントロジの矛盾性の検査を及び更なるクラス分類を支援することができる。JAMBALAYA[これについては例えば、西暦2004年10月22日現在、www.thechiselgroup.org/jambalayaに開示されている。]及びRICE(RACER INTERRACTIVE CLIENT ENVIROMMENT)[これについては例えば、西暦2004年10月22日現在、www.cs.concordia.ca/~haaslev/racer/に開示されている。]のようなデータ視覚化ツールは、オントロジ116に関してセマンティックインスタンス118を提示するのに使用可能であり、データビューアユーザインターフェースウインドウ202に表示可能な、注釈データ118の視覚化をもたらす。言い換えれば、オントロジに関する注釈データ又は知識ベースを与えるためにJAMBALAY及びRICEのような視覚化ツールである他の如何なる第三者オントロジビューア及びデータビューアが使用可能であるが、そのような視覚化ツールは注釈付け機能を備えていない。
従って図4ではデータセマンティサイザ100のコンピュータ表示されたグラフィックユーザインターフェース(GUI)は3つのウインドウペイン(部分ウインドウ)を有する:左上のペイン、左下ペインのルールビューア204及び右ペインのデータビューア202。図4は基本状態のデータセマンティサイザ100を示し、オントロジ116がオントロジビューア200にロードされ、いくらかのデータ108がデータペイン202で開かれ(オープンされ)、ルールビューア204に示されるようにルールの小集合が追加され(即ち、番号を含むオントロジコンセプト)、データビューアユーザインターフェースウインドウ202に表示されるデータ108にマッピングされる。言い換えればルールビューア204はユーザがインスタンスにしようとするオブジェクト及びそのクラスのデータプロパティを表示する。また、各プロパティに関連するデータポイント数に関する情報がルールペイン204の中で発見できる。
従って図4ではルールペイン204はオントロジコンセプト116及び未処理データ108の間の関連性を定義するコンテナとして機能し、それらの関連性は「マッピングルール」110と呼ばれる(即ち、ルールペイン204はマッピングルールを格納するコンピュータ読取可能な媒体及びそれに基づくGUIとして実現される。)。「マッピングルール」110はウェブオントロジ言語(OWL)プロパティのようなオントロジビューア200に表示されるオントロジ表現と、データペイン202に表示される文字列のような何らかの形式の未処理データ108との間の対応関係である。図4では例えば意味論的処理規則エディタ106はデータポイント205をサンプル114としてオントロジビューア200及びルールビューア204に示されるような選択されたオントロジクラスプロパティNAMEにマッピングし(即ち、同じ「K」の値で示され、本実施例ではNAMEは青色で強調されている)、「マッピングルール」110は「テキスト及びルールの連携(Associate Text with Rule)302によりデータポイント205(例えばテキスト)をルールに関連付けれることで、「R」データ構造捕捉要素に基づいて決定される。「マッピングルール」110の目的はデータのサンプル114を収集することであり、スマートパーサ(smart parser)はデータベース108の残りの内で示唆を通じて同様なデータを発見しようとするために使用可能であり、これについては図6を参照しながら詳細に後述される。従って、「マッピングルール」110は選択されたドメインオントロジに基づいてデータ108の構造を本質的に捕捉し、或いは「マッピングルール」はデータ108のオントロジ構造を捕捉する。本発明の一形態では、スマートパーサ106がデータを正しく見分ける場合に、そのスマートパーサ106はその発見物を当初のマッピングルール定義に付加する。かくてスマートパーサ106による正しい推測の各々は理論的には以後の同様なデータ108を認識する能力を高める。パーサ106が「スマート」であるのは、その入力ファイル108が分析用に想定可能な何らの設定パターンも有しないかもしれないからである。多くのパーサでは入力ファイルの構造は既知であり、パーサは既知の構造を利用して分析プロセスを自動化する。事前の構造知識なしに分析するプロセスを自動化することは非常に困難である。パーサ106はオントロジコンセプトの対応関係を示唆するために複数のテンプレート、発見法及びスレシホールドを試行することでその分析を自動化し、本発明では一般に、示唆を受け入れる最終的な判断プロセスを人が行うようにしている。データセマンティサイザ100が「マッピングルール」110として示唆したものが適切であることをエンドユーザが確認すると、その「マッピングルール」110が格納され、ルールペイン204により表示可能になる。適切であるとして人により確認された多くのルール110をデータセマンティサイザ100が集めるにつれて、データセマンティサイザは同様なパターンが再び表れた場合にデータの残りの意味論的処理の中で以前に確認済みのルールを使用することができる。言い換えればツール106はその入力ファイル108について学んだことを利用する。
データペイン202はユーザがデータを抽出しようとするデータ108を表示する。注釈データはそれが関連するプロパティに依存して様々な色−「K」データ構造捕捉要素−で強調される。データセマンティサイザ100に入力する制御命令の例として、キーパッド206は手近なメニュータイプ制御ペインとして使用され、規則の追加(即ち、データポイントを選択されたオントロジコンセプトに対応付ける)、規則による選択物の削除、テキストに規則を適用して「R」データ構造捕捉要素を生成すること及び/又はインスタンスの生成のような(限定ではなく、それらの任意の組み合わせでもよい)一般的なタスクをユーザが速やかに実行可能にする。本発明は、キーパッド206の実現例に及び例えばサンプルデータポイントをオントロジコンセプトに対応付けることに限定されず、一般的に本発明では利用可能な如何なる表示データ選択技術も使用可能であり、その技術はデータビューア202に表示されているサンプル入力データ114のある領域を選択し、つかんだ選択物をオントロジビューア200のオントロジ116に表示されているコンセプトの中に落とす。
図5は本発明の一実施例により生体工学データを注釈付けする入力電子データ例として意味論的に処理するフローチャートを示す。図5のデータを意味論的に処理するコンピュータ処理方法は、処理250にて電子データを意味論的に処理する入力データ108として選択するステップ;処理252にて少なくとも1つのオントロジ116を選択するステップ(本発明では典型的にはユーザによって選択される);処理254では1つの(又は事例によりそれ以上の)入力データを入力データ108の中から選択するステップ;処理256にて選択されたオントロジ116からオントロジコンセプトを選択するステップ(本発明では典型的にはユーザによって選択される);処理258にて選択されたオントロジコンセプトを1つの(又はより多くの)選択された入力データにマッピングするステップ(本発明では典型的にはユーザによる支援/相互作用を組み入れる);処理260にて選択されたオントロジコンセプトと1つの(又はより多くの)入力データとの対応関係に基づいて対応関係(マッピング)又はデータ構造捕捉ルールを生成するステップ(意味論的処理規則エディタ106で実行される);処理262にて選択されたオントロジコンセプトと入力データ108のサンプル114との対応関係をマッピング規則に基づくサンプルマッピングとして示唆するステップ;処理264にて選択されたオントロジ、1つの入力データ、選択されたオントロジコンセプト、選択されたオントロジコンセプトと1つの入力データとの対応関係又はそれらの如何なる組み合わせでもそれを修正又は調整することでマッピングルールを修正/最適化するステップ(本発明では典型的にはマッピングルール修正又は最適化はユーザによる支援/相互作用を組み入れる);処理266にてマッピングルールの示唆が受け入れられると、処理268にて受け入れ可能なマッピング提案に基づいて、生成され最適化されたマッピングルールを入力データ108全体に適用又は移植することでその入力データ108を意味論的に処理するステップ(選択されたオントロジコンセプトをサンプル入力データ114に対応付ける意味論的処理規則エディタ106によるマッピング提案をユーザが受け入れるならば、本発明では典型的にはマッピングルールが受け入れられる);を有する。例えば処理264にて、マッピングルール110の最適化に関し、オントロジ116が修正され、オントロジ116の選択物は修正され又は変更され或いはそれらの如何なる組み合わせが実行可能である。
従って図5では処理252ないし258は動的に構築可能な意味論的処理又は注釈付けの案内(ガイダンス)270を提供し、そのガイダンスは本発明では典型的にはドメインエキスパートを通じてオントロジビューアツール200、データビューア202及び意味論的処理規則エディタ106により得られる。注釈ガイダンス270は、入力データ108のサンプル114の中でデータポイントがオントロジ116にマッピングされるべきもの及び場所を提供し、そのガイダンス270に基づいて入力データ108全体にわたって適用可能なデータ構造捕捉ルール又は注釈/意味論的処理ルールを生成する。既存の手法ではユーザは1つのファイルを1つの入力データとして処理し、そのファイルをオントロジにマッピングし、そして次のファイルに移行する必要があり、その手法は実質的には手作業の注釈付けプロセスである。図5では、処理262にて本発明では典型的には、意味論的処理規則エディタ106は、処理262にてサンプルデータポイント114及びオントロジ116の(例えば、視覚的及び/又は音響的に)知覚可能なマッピングによりスレシホールドに合致する又はそれを超えるルールのみを提案するために、ルールを内部的に生成し且つそのルールを入力データ108のサンプル114に適用することで、所定のスレシホールド(例えば、合致が多過ぎること、合致が少な過ぎること等)に依存してデータ構造捕捉ルールを自動的に拒否又は排除するよう構成される。
図5では処理268にてセマンティックインスタンス118が出力される。その規則群110及びデータセット108の下で、データセマンティサイザ100は対応するセマンティックインスタンス118を生成する。図6−7は本発明の一実施例により生体工学データを入力電子データとするデータセマンティサイザのグラフィカルユーザインターフェースの画面例を示す。より具体的には図6−7は「R」データ構造捕捉要素として正規表現を用いる生体工学データを注釈付けするデータセマンティサイザ例を示す。図2に示されるのと同様なプロセスでデータセマンティサイザにより提案される合致をユーザが受け入れる場合に、ユーザはルール110を入力ファイル108のデータに投入することを選択してもよい。便宜的に表示される選択可能なメニューキーパッド206は頻繁に使用されるメニュー項目に対する簡易なアクセス性を与える。
図6−7に関連するここでの説明は、データペイン202でのオープンデータファイル108による全てのデータポイントについてのインスタンス生成に向けられているが(3つのデータポイント>g...が図6のデータペイン202に表示されている)、ユーザはオープンデータファイル108から数個の選択されたデータポイントのセマンティックインスタンスを作成することを選択してもよい。これは重要な機能である。なぜならデータセマンティサイザ100は要求に応じて更新されたセマンティックインスタンス118を生成できるからである。例えば、データベース108の全てのレコードからセマンティックインスタンスの大きな集合を生成する代わりに、データベース108中の1つのレコードが注釈付け可能であり使用可能である。従って図5に関連する上述の実施例は1つの入力オントロジと、複数の入力データ108の中からの少なくとも1つの入力データ108と、入力データ108のサンプル114とを利用することを説明しているが、データセマンティサイザ100はそのような形態に限定されず、1以上のオントロジ116、複数の入力データ108及び複数のサンプル114、又はそれらの任意の組み合わせが1以上のセマンティックインスタンス118を生成するのに使用可能である。
図6では選択されたオントロジクラスの各々及びデータポイント108にマッピングされたプロパティの全てについて、オントロジビューア200及びルールビューア204に示されるように(即ち、マッピングを通じて「規則の追加(Add a Rule)」300の選択により、同じ「K」の値により示され、本実施例ではCOMMENT(Description:…)についてはオレンジ色で強調され、NAMEについては黄色で強調され、SEQUENCEについては赤色で強調され、SHORT-NAMEについては深緑色で強調され、SYNONYMSについては黄緑色で強調される)、「Associate Text with Rule」302によりデータポイント(例えば、テキスト)にルールを関連付け(図5の処理260)、許容すること、拒否すること及び/又は最適化することのために提案された合致306を提供することで(図5の処理262,264及び/又は266)、「マッピングルール」は「R」データ構造捕捉要素に基づいて決定される。特に図6はパーサ106がデータポイント205についてNAMEオントロジクラスプロパティの同様なデータ308をデータベース108の残りのサンプル114の中で発見することをまさに完了した様子を示し、「Associate Text with Rule」302を選択しながら黄色で強調され、パーサ106は赤色のフォントで表示された同様なデータの示唆308を与える。
提案を受け入れ、誤り検査法を良好に完了すると、「インスタンス生成(Generate an Instance)」の選択304により以下の手順を用いてセマンティックインスタンスが作成可能である:
1.同じ色の「K」の行各々について、格納済みの「列」情報を利用してプロパティ値と共にそのクラスのインスタンスを作成する。
2.誤り検査法の実行:このデータ正当化プロセスはデータファイル中のエラーを検査する一群のテストを含む:例えば、正しいデータファイルは適切に意味的に処理され;即ち、高優先度の規則全てが発見される。例えば初期のデータファイルが説明される特徴全てを有するならば、残りのデータファイルもそうあるべきである。
3.全てのテストに通ったならば、新たなインスタンスが生成される(図5の処理268)。
図7は、インスタンスの生成304を選択した後に全てのプロパティが投入された様子を示し、同じ「K」の値により示され、本実施例ではCOMMENT(Description:…)についてはオレンジ色で強調され、NAMEについては黄色で強調され、SEQUENCEについては赤色で強調され、SHORT-NAMEについては深緑色で強調され、SYNONYMSについては黄緑色で強調される。図4,6,7では引き出し線はオントロジコンセプトとデータポイントとの対応関係を示す。
データセマンティサイザ100は生成可能なインスタンス数及びファイル数についてフレキシブルである。複数のデータポイントを含む1つの入力ファイルは、複数のセマンティックインスタンスを有する1つの出力ファイルになるか、或いはデータポイントの1つのセマンティックインスタンスをそれぞれ含む複数の出力ファイルになり得る。同様に複数の入力ファイルは、複数の出力ファイルになる又は複数の入力ファイルからの全てのデータポイントのセマンティックインスタンスを有する1つの出力ファイルになり得る。更に、複数のデータポイントを有する複数の入力ファイル各々は複数の出力ファイルになることができ、各々は複数のデータポイントを有し、対応する入力ファイルによることは必須でない。例えばユーザはある等級付けに基づいて入力データポイントを分類してもよい。
図8A−8Hは本発明の一実施例によるセマンティックインスタンスの出力例を示す。図8ではセマンティックインスタンス出力118はリソース記述フレームワーク(RDF: Resource Description Framework)/ウエブオントロジ言語(OWL)フォーマットに従う。RDF/OWLの概念は既知である。言い換えれば、データセマンティサイザはセマンティックオブジェクト118をRDF/OWLストアに直接的に表明することができる。より具体的には、図8AはOWLドキュメントであり、そのドキュメントはBIOPAXレベル1オントロジ116を用いて生体工学アプリケーションデータのセマンティックインスタンス118としてデータセマンティサイザにより出力される。BIOPAXレベル1オントロジについては例えば西暦2004年10月22日現在、www.biopax.orgで開示されている。非限定的な例として、図8Aないし8Hの説明が以下に示される:
図8A:1つのデータポイント(この場合、生体工学データでないものが使用される)が、BIOPAXオントロジ116のタンパク質クラスの3つのプロパティ(名前、略称及び同意語)にマッピングされる。その出力は1つのデータポイントを正確に含み、出力ファイルごとに1つのセマンティックインスタンス118を生成する能力を示す(test1.OWL)。
図8B:1つのデータポイントがテロリズムオントロジ116の「都市」クラスの名称プロパティにマッピングされる。再び、出力ファイルtest2.OWLは正確に1つのデータポイントを1つのセマンティックインスタンス118として含む。ここでツール100は他のドメイン(生体工学ドメイン以外)に適用可能であることが理解される。テロリズムのオントロジに関連するものについては例えば西暦2004年10月22日現在、www.mindswap.org/2003/owl/swint/terrorism に開示されている。
図8C−8E:7つのデータポイントがBIOPAXオントロジ116のプロテインクラスの2つのプロパティ(コメント及び同義語)にマッピングされる。入力データポイントは生物学的データである。このセマンティックインスタンス出力118の例は1つの出力ファイル(test3.OWL)の中に複数のセマンティックインスタンス118を生成する能力を証明する。
図8F−8H:12個のデータポイントがBIOPAXオントロジ116の「データソース」クラスのコメントプロパティにマッピングされる。1つの出力ファイル(test4.OWL)に複数のセマンティックインスタンス118を生成する能力を示すことに加えて、入力ファイル108に明白なパターンが無い場合にパーサ106はその入力ファイル108を適切に捕捉することも示している。特に図8F−8Hに示されるtest4.OWLでは、12個のデータポイントが入力ファイル108内にある。それらは登場する順序で次のとおりである:MINDSWAP,FLACP,FLACP,FLACP,UMIACS,UMIACS,MINDSWAP,MINDSWAP,MINDSWAP,UMIACS,UMIACS及びUMIACS。データセマンティサイザ100は入力ファイル108にパターンが無ければ12個のデータポイントを捕捉するために正規表現110を生成する。
図9は、コンピュータデバイスネットワークでタスクコンピューティングを行うタスクコンピューティング(TC)環境で使用される本発明によるコンピュータ装置ネットワーク及びデータセマンティサイザ100を示す図である。タスクコンピューティングはある者が多くの装置、アプリケーション及びサービスに関して作業することを容易にする。既存のタスクコンピューティング環境500に付加する1つの特徴は、既存のデータ、データベース、フラットデータファイル等(入力電子データ)を統合する能力である。そのような入力電子データを統合することはデータをセマンティクスで注釈する必要がある。
データセマンティサイザ100は、出力セマンティックデータ118によりセマンティックサービス502を生成し、非セマンティックデータを提供し或いは(出力セマンティックデータをサービス504a−nとして提供するのに使用可能な)セマンティックデータ118を出力し、既存の抽象化レベルと所望のセマンティック抽象化との間のギャップを橋渡しすることで入力電子データ108(即ち、非セマンティックデータを入力として使用する)をセマンティックレイヤにブリッジするようにユーザを支援するソフトウエアツールである。従って、データセマンティサイザ100により、タスクコンピューティング環境500はセマンティックレイヤのデータにアクセスすることができ、デバイス、アプリケーション、サービス及びデータの最終的な統合を可能にする。データセマンティサイザ100がデータ108に対するセマンティックな抽象化を用意する少なくとも2つの異なる方法がある(但し、これら2つに限定されない)。第1方法では、データセマンティサイザ100は非セマンティックデータ108へのアクセスを与えるセマンティックサービス502を用意することができる。第2方法では、データセマンティサイザ100は注釈済みのセマンティック出力118を出力することができ、その出力は、セマンティックデータをサービスとして与えるディレクトリ発行サービス504aのようなデータ提供サービス504a−nにより使用可能である、或いはセマンティックデータをサービスとして提供するホワイトホール(WHITE HOLE)のような管理ツール504bにより使用可能である。
図9ではタスクコンピューティング環境500のアーキテクチャは、例えば、プレゼンテーションレイヤ506、ウエブサービスアプリケーションプログラミングインターフェース(API)508、ミドルウエアレイヤ510、サービスレイヤ512及び実現レイヤ514を有する。データセマンティサイザ100は、生成したセマンティックインスタンス118を用いて、任意のフォーマットで任意のドメイン内で入力データ108に基づいてリソース及びサービス概念を用意し(実現レイヤ514)、入力データ108のリソース及びサービス概念514に基づいてタスクコンピューティング環境500を作成する。言い換えれば本発明はサービスとしてセマンティックインスタンス118を提供し、入力データ108の概念のように、タスクコンピューティング環境内で利用可能である。利用可能なデータセマンティクス118は新たなアプリケーション及びプラットフォームとインターフェースをとること及び移行することを容易にする。一旦注釈付けされると、自明なセマンティックデータが背景状況に応じて適切に使用されがちになり、意味論的に注釈されたデータを容易に索引付けでき且つ容易に探索でき、大量のデータ管理を容易にする。
より具体的には、本発明はデータセマンティサイザ100のようなコンピュータシステムを用意し、半構造化ないし未構造化電子データを含む任意のフォーマットでどのドメインででも大量の電子データをセマンティクスで注釈するユーザを支援する。従って本発明は電子データのオントロジ表現を如何なるフォーマットでも如何なるドメインででも用意する。リソース及びサービス概念による相互運用性を用意し、それによりタスクコンピューティングをもたらすためにセマンティックウェブ技術を利用することは、良好に導入され、本願の譲受人である日本国川崎市の富士通株式会社により以下の文献及び/又は特許出願で開示されている(それら全ては本願のリファレンスに組み入れられる):R.Masuoka,Y.Labrou,B.Parsia,and E.Sirin,Ontology-Enabled Pervasive Computing Applications,IEEE Intelligent Systems, Vol.18,no.5,Sep./Oct.2003,pp.68-72;R.Masuoka,B.Parsia,and Y.Labou, Task Computing-the Semantic Web meets Pervasive Comupting, Proceedings of the 2nd International Semantic Web Conference 2003,October 20-23,2003,Sundial Resort,Sanibel Island,Florida,USA;Z.Song,Y.Labou and R.Masuoka, Dynamic Service Discovery and Management in Task Computing, MobiQuitous 2004,August 22-25,2004,Boston,USA;Ryusuke Masuoka,Yannis Labrou,and Zhexuan Song,Semantic Web and Ubiquitous Computing-Task Computing as an Example-AIS SIGSEMIS Bulletin,Vol.1No.3,October2004,pp.21-24;Ryusuke Masuoka and Yannis Labrou,Task Computing-Semantic-web enabled,user-driven,interactive environments,WWW Based Communities For Knowledge Presentation,Sharing,Mining and Protection(The PSMP workshop)within CIC2003,June23-36,2003,Las Vegas,USA;西暦2003年12月に出願された米国特許出願第10/733,328号;及び米国仮出願番号第60/434,432,60/501,012及び60/511,741。タスクコンピューティングは、セマンティック入力及び/又は出力記述に基づいて利用可能なサービスの相応しい構成をユーザに与え、環境を作成し、コンピュータのエキスパートでない者があたかもコンピュータのエキスパートであるように利用可能なリソース及びサービスを利用できる。データセマンティサイザ100はどのフォーマットでもどのドメインででもアプリケーションデータセットへの類似する相互運用性をブリッジできる利点を有する。
データ注釈の既存の手法は、ユーザの知識及び手作業に完全に依存し、大量のデータを注釈するには不適切である。それらは長すぎて過剰に誤りやすいのでしばしば利用可能ではない。データセマンティサイザ100は同様なパターンファイルを有する多くのデータセット108に適用可能なルール群110を生成してユーザを支援し、そのルール群110でデータに注釈付けするプロセスを自動化する。この手法はセマンティクスでデータを注釈することに包まれる人的労力及び人的依存性を最小化する。
更に、データセマンティサイザ100の自動化されたデータ注釈プロセスはセマンティクデータ118の急速な展開を可能にする。2つのファイル(各々が550個のファーストAフォーマットプロテインシーケンスを有する)は、BIOPAXレベル1オントロジ116を用いて、ユーザが提案を受け入れた後約20秒後に誤り無く注釈を付していることを実験結果は示している。
データセマンティサイザを利用する大きな利点の1つは注釈済みデータセット118を出力するのにセマンティックウエブ技術を利用できることである。アプリケーションに関するデータのコンパティビリティの判定は簡易化され、場合によっては自動化される。データは様々なアプリケーション及び組織の間で更に容易に且つ適切に共用でき、インターオペラビリティを可能にする。例えば現在データセマンティサイザ100で生成されるセマンティックデータ118はBIO-STEER及びBIO-CENTRALの2つのアプリケーションで使用される。BIO-STEERは生体工学技術分野のタスクコンピューティング用アプリケーションであり、生体工学的分析を実行する意味論的に規定されたサービスを構成する柔軟性をユーザに与える。これらのセマンティックサービスは、あるサービスの出力が次の段階への入力として使用されるように、セマンティックデータを交換する。データセマンティサイザ100を利用することで、セマンティックデータ118は適切な変換により別のセマンティックサービスに今や伝送可能である。
BIO-CENTRALはウエブサイトであり、意味論的に注釈された生体工学データの知識ベースにアクセス可能にする。それは意味論的に記述されたデータの利点を例証する。データセマンティサイザ100は生体分子相互作用ネットワークデータベース(BIND:Biomolecular Interaction Network Database)[Bader,Betel,and Hogue,“BIND:The Biomolecular Interaction Network Database,”Nucleic Acids, Res,PMID,Vol.31,No.1,2003 ]からの分子相互作用データをBIOPAXレベル1(Biological Pathway Exchange Language)[Bader et al.“Bio-PAX-Biological Pathway Exchange Language,Level 1, Version 1.0 Documentation,”BioPAX Recommendation,[これについては例えば西暦2004年10月22日現在、www.biopax.org/Downloads/Level1c1.0/biopax-level.zipに開示されている]]オントロジで注釈するのに使用可能である。注釈データ118はBIO-CENTRALデータベースに蓄積される。
データが豊富なセマンティクスで注釈されるならば、データは容易に処理され、変換され、多種多様な手法で使用されることが可能である。しかしながらデータを上位のレベルに「押し上げる(pushing)」作業は容易ではない。入力データのような電子データの構造を捕捉するため一群の注釈要素を規定し(ソフトウエアで実行する);規定された一群の注釈要素及び入力データのサンプルに従って、入力データの構造を捕捉するためにルールを生成し;そのルールを入力データに適用し;入力データに適用されたルールに基づいて入力データのセマンティックインスタンスを生成することで、データセマンティサイザ100のフレームワークは「ポンプ(pump)」として機能し、非常に簡易な手法で手順を完了するようにユーザを支援する。
最近、セマンティックウエブ及びグリッド(Grid)を共にブリッジする利点及びメリットを、双方の分野の増加中の多数の研究者は認めつつある[E-Science,IEEE Intelligent Systems,Vol.19,No.1,Jan/Feb 2004]。グリッドでセマンティックウエブを利用するために、意味的注釈を既存のデータに付加する必要がある。少数の研究者はセマンティクスでデータを注釈する手法を研究している。しかしながらGENE ONTOLOGY ANNOTATION[例えば、西暦2004年10月22日現在、www.geneontology.org に開示されている。]及びTRELLIS[例えば、西暦2004年10月22日現在、www.isi.edu/ikcap/trellis に開示されている。]のような既存の手法は、ユーザの知識に完全に依存し、しばしば長すぎるし誤りやすい。データセマンティサイザ100は人的依存性を削減しながらデータに意味を付加する方法をもたらす。
更に、データセマンティサイザ100は入力データ形式及びアプリケーションドメインに関してフレキシブルである。それは平文データだけではなく、関連データベース、拡張間0区アップ言語(XML)データベース、メディア(例えば、イメージ、映像、音、等)ファイル、及びグリッドコンピューティングでのデータアクセスモデルでさえ、そのような他のデータタイプにも適用可能である。データセマンティサイザに使用されるアプローチはドメイン固有ではなく、ライフサイエンス、政府、ビジネス等のような様々なアプリケーションドメインに適用可能である。データセマンティサイザ100はセマンティックウエブの発展にも重要な役割を果たすことができる。更にデータセマンティサイザ100は以下の恩恵をもたらす:(a)1つの入力ファイル又は複数の入力ファイルの如何なる組み合わせも1つの出力ファイル(複数のセマンティックインスタンスを含む)又は複数の出力ファイル(各出力ファイルは入力データからの1以上のセマンティックインスタンスを含む)を生成する結果となり得る;(b)ユーザの選択する1つのセマンティックインスタンスを生成するサービスを提供可能である;(c)ユーザの選択するセマンティックインスタンスのリストを生成するサービスを提供可能である;(d)入力ファイルの全てのセマンティックインスタンスのリストを生成するサービスを提供可能である;(e)RDF/OWLストア及び/又は関連データベース(RDB)にセマンティックオブジェクトを直接的に表明できる。
データセマンティサイザ100は、上記のプロセスを行い、ソフトウエアにより(何らかの既知のコンピュータ読取可能な媒体に格納される)及び/又はコンピュータ装置を制御するコンピュータハードウエア(限定ではないが、パーソナルコンピュータ、クライアント−サーバネットワークアーキテクチャの場合のサーバ及び/又はクライアントコンピュータ、分散したネットワークアーキテクチャの場合のネットワーク化されたコンピュータのような何らかのタイプのコンピュータ装置)により実現される。
本発明に関する多くの特徴及び利点は詳細な説明から明白であり、従って特許請求の範囲はそのような本発明の特徴及び利点を本発明の真の精神及び範囲内に含むようにカバーすることが意図される。更に、多くの修正及び変形は当業者にとって自明であるので、例示及び説明された厳密な構成及び動作に本発明を限定することは望まれず、従って適切な全ての修正及び均等物は本発明の範囲内に該当するよう求められる。
以下、本発明により教示される手段が例示的に列挙される。
(付記1)
コンセプトを入力データとしての電子データにマッピングする一群の注釈要素を規定するステップ;
決定された一群の注釈要素及び入力データのサンプルに従って、マッピングルールを生成するステップ;
マッピングルールを入力データに適用することで入力データにコンセプトをマッピングするステップ;及び
コンセプトの入力データへのマッピングに基づいて入力データのセマンティックインスタンスを生成するステップ;
を有することを特徴とするコンピュータ処理方法。
(付記2)
コンセプトを入力データにマッピングする一群の注釈要素が、入力データに対応する選択されたオントロジ、選択されたオントロジからマッピング用コンセプトとして選択されたオントロジコンセプト、サンプル入力データ中のワード又はワードフレーズと選択されたオントロジ中の選択されたオントロジコンセプトとの対応関係、及びサンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを有する
ことを特徴とする付記1記載の方法。
(付記3)
マッピングルールを生成するステップが、
サンプル入力データのワード又はワードフレーズにコンセプトをマッピングするサンプルを、入力データのマッピングルールとして提案するステップ;及び
コンセプトを入力データにマッピングするためにマッピングのマッピングルールを適用するステップ;
を有することを特徴とする付記1記載の方法。
(付記4)
タスクコンピューティング環境で使用可能な入力データの概念としてセマンティックインスタンスを用意するサービスを提供するステップ;
を更に有することを特徴とする付記1記載の方法。
(付記5)
入力データを表示するステップを更に有し、
コンセプトを入力データにマッピングするために定められる一群の要素が、表示される入力データのサンプルにマッピングされる選択されたオントロジの知覚的に識別可能な選択されたオントロジコンセプトを更に有し、該知覚的に識別することは、色、フォント、フォントサイズ、下線、太文字、イタリック体、番号、表示するアイコン又はそれらの組み合わせにより表示画面上で同一のオントロジコンセプトを視覚的に識別することを含む
ことを特徴とする付記2記載の方法。
(付記6)
第1のグラフィカルユーザインターフェースウインドウに入力データのサンプルを表示するステップ;及び
第2のグラフィカルユーザインターフェースウインドウに選択されたオントロジを表示するステップ;
を更に有し、サンプル入力データ中のワード又はワードフレーズを、選択されたオントロジコンセプトにマッピングすることが、第1及び第2のグラフィカルユーザインターフェースでのクリック及びドラッグ動作により実行される
ことを特徴とする付記2記載の方法。
(付記7)
サンプル入力データのワード又はワードフレーズに、選択されたオントロジ中の選択されたコンセプトをマッピングするサンプルを提案するステップが、サンプルデータ入力中のワード又はワードフレーズを選択されたオントロジコンセプトとして同じく知覚的に識別するステップを有する
ことを特徴とする付記3記載の方法。
(付記8)
前記入力データが、構造化されている、半構造化されている、構造化されていない又はそれらの任意の組み合わせである
ことを特徴とする付記1記載の方法。
(付記9)
ロケーション情報、正規表現又はそれらのどの組み合わせでも、サンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを決定する
ことを特徴とする付記2記載の方法。
(付記10)
入力データに依存するロケーション情報及び正規表現のテンプレートが、サンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを決定するのに使用される
ことを特徴とする付記9記載の方法。
(付記11)
複数のマッピングルールが生成され、当該方法が、
マッピングルールの各々に優先度を割り当てるステップ;及び
割り当てられたマッピングルール優先度に従ってマッピングルールを入力データに適用するステップ;
を有することを特徴とする付記1記載の方法。
(付記12)
複数のマッピングルールが生成され、当該方法が、
マッピングルールの各々に順序を割り当てるステップ;及び
マッピングルールの順序に従ってマッピングルールを入力データに適用するステップ;
を有することを特徴とする付記1記載の方法。
(付記13)
サンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを決定するためにテンプレートが使用される
ことを特徴とする付記2記載の方法。
(付記14)
電子データを意味論的に処理する入力データとして選択するステップ;
ユーザがオントロジを選択するステップ;
前記入力データの中から入力データを選択するステップ;
選択されたオントロジの中からユーザがオントロジコンセプトを選択するステップ;
選択されたオントロジコンセプトを入力データにユーザがマッピングするステップ;
選択されたオントロジコンセプトの入力データへのマッピングに基づいてデータ構造捕捉ルールを生成するステップ;
データ構造捕捉ルールを格納するステップ;
データ構造捕捉ルールに基づいて、選択されたオントロジコンセプトと入力データのサンプルとのマッピング関係をユーザに提案するステップ;
選択されたオントロジ、入力データ、選択されたオントロジコンセプト、選択されたオントロジコンセプトと入力データとのマッピング関係又はそれらの任意の組み合わせを修正することで、ユーザ入力に従って生成されたデータ構造捕捉ルールを最適化するステップ;及び
選択されたオントロジコンセプトをサンプル入力データに対応付けるマッピング提案をユーザが受け入れる場合に、生成され最適化された適用されるデータ構造捕捉ルールを入力データ全体に適用することで入力データの意味論的処理を行うステップ;
を有することを特徴とするコンピュータ処理方法。
(付記15)
入力電子データに適用するオントロジを選択するステップ;
データのサンプルを選択するステップ;
データの選択されたオントロジに基づいて、データのサンプルを用いて入力電子データの構造を捕捉するステップ;及び
捕捉されたデータ構造及び選択されたオントロジに基づいて入力電子データのセマンティックインスタンスを生成するステップ;
を有することを特徴とするコンピュータ処理方法。
(付記16)
サンプル入力データの構造を捕捉する前記ステップが、
選択されたオントロジ中のオントロジコンセプトをサンプル入力データにマッピングするステップ;
オントロジコンセプトのマッピングに基づいてサンプル入力データの構造を近似するステップ;及び
サンプル入力データの近似構造に従って、入力電子データの構造を捕捉するステップ;
を有することを特徴とする付記15記載の方法。
(付記17)
サンプル入力データの構造を捕捉する前記ステップが、
ユーザがオントロジコンセプトを選択するステップ;
選択されたオントロジコンセプトとサンプル入力データとのマッピング関係をユーザに提案するステップ;及び
選択されたオントロジコンセプトとサンプル入力データとのマッピング関係をユーザが受け入れた場合に、サンプル入力データの構造を近似するステップ;
を有することを特徴とする付記16記載の方法。
(付記18)
前記オントロジが、入力電子データのドメインに従って選択される
ことを特徴とする付記15記載の方法。
(付記19)
入力データとしての電子データの構造を捕捉するために一群の注釈要素を規定するステップ;
規定された一群の注釈要素及び入力データのサンプルに従って、入力データの構造を捕捉するためのルールを生成するステップ;
前記ルールを入力データに適用するステップ;及び
入力データに適用されたルールに基づいて、入力データのセマンティックインスタンスを生成するステップ;
を有することを特徴とするコンピュータ処理方法。
(付記20)
入力データの構造を捕捉するための一群の注釈要素が、入力データに対応する選択されたオントロジ、選択されたオントロジ中の選択されたオントロジコンセプト、サンプル入力データ中のフレーズ及び/又はフレーズの領域と選択されたオントロジ中の選択されたオントロジコンセプトとのマッピング関係を有する
ことを特徴とする付記19記載の方法。
(付記21)
入力データの構造を捕捉するためのルールを生成するステップが、
選択されたオントロジ中の選択されたオントロジコンセプトとサンプル入力データとのマッピング関係を、入力データのデータ構造規則として提案するステップ;及び
データ構造規則を入力データに適用するために、入力データのデータ構造規則を選択する提案に従ってマッピング関係を選択するステップ;
を有することを特徴とする付記20記載の方法。
(付記22)
前記入力データが単独の入力ファイル又は複数の入力ファイルの何らかの組み合わせであり、前記セマンティックインスタンスを生成するステップが、複数のセマンティックインスタンスを含む単独の出力ファイルを生成するステップ又は複数の出力ファイルを生成するステップより成り、該複数の出力ファイルの各々は入力データ中の1以上のセマンティックインスタンスを含む
ことを特徴とする付記1記載の方法。
(付記23)
前記出力ファイルが、リソース記述フレームワーク(RDF)/ウエブオントロジ言語(OWL)及び/又はリレーショナルデータベース(RDB)フォーマットである
ことを特徴とする付記22記載の方法。
(付記24)
入力データのサンプルをユーザが選択するステップと、
ユーザにより選択された入力データのサンプルに対するコンセプトをユーザがマッピングするステップと、
ユーザによるマッピングに基づいてコンセプトと入力データのサンプルとのマッピングルールを生成するステップと、
入力データのサンプルに対するマッピングルールの生成に基づいて入力データにコンセプトをマッピングするステップと、
コンセプトと入力データとのマッピングに従って入力データのセマンティックインスタンスを生成し、入力データ全体に対するユーザ制御データセマンティゼーションサービスを提供するステップと、
を更に有することを特徴とする付記1記載の方法。
(付記25)
複数のコンセプトが入力データにマッピングされ、複数のユーザ制御されたセマンティックインスタンスが生成され、当該方法が、入力データに基づいて生成されたユーザ制御セマンティックインスタンスのリストを生成するステップより成る
ことを特徴とする付記24記載の方法。
(付記26)
ユーザによるマッピングが、複数のオントロジ中の複数のコンセプトと複数の入力データの複数のサンプルとのマッピング関係を含み、及び
セマンティックインスタンスを生成するステップが、複数のオントロジ中の複数のコンセプトと複数の入力データとを対応付ける複数のセマンティックインスタンスを生成するステップより成る
ことを特徴とする付記24記載の方法。
(付記27)
プログラムされたコンピュータプロセッサを有するコンピュータ処理装置であって、前記プログラムされたコンピュータプロセッサは、
コンセプトを入力データとしての電子データにマッピングする一群の注釈要素を規定し、
決定された一群の注釈要素及び入力データのサンプルに従って、マッピングルールを生成し、
マッピングルールを入力データに適用することで入力データにコンセプトをマッピングし、及び
コンセプトの入力データへのマッピングに基づいて入力データのセマンティックインスタンスを生成するプロセスに従って当該装置を制御する
ことを特徴とするコンピュータ処理装置。
(付記28)
コンセプトを入力データにマッピングする一群の注釈要素が、入力データに対応する選択されたオントロジ、選択されたオントロジからマッピング用コンセプトとして選択されたオントロジコンセプト、サンプル入力データ中のワード又はワードフレーズと選択されたオントロジ中の選択されたオントロジコンセプトとの対応関係、及びサンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを有する
ことを特徴とする付記27記載のコンピュータ処理装置。
(付記29)
マッピングルールを生成することが、
サンプル入力データのワード又はワードフレーズにコンセプトをマッピングするサンプルを、入力データのマッピングルールとして提案し、
コンセプトを入力データにマッピングするためにマッピングのマッピングルールを適用することでなされる
ことを特徴とする付記28記載のコンピュータ処理装置。
(付記30)
プログラムされたコンピュータプロセッサによりプロセスを制御する当該装置が、
タスクコンピューティング環境で使用可能な入力データの概念としてセマンティックインスタンスを用意するサービスを提供する
こと特徴とする付記27記載のコンピュータ処理装置。
(付記31)
プログラムされたコンピュータプロセッサによりプロセスを制御する当該装置が、
入力データのサンプルをユーザにより選択させ、
ユーザにより選択された入力データのサンプルに対するコンセプトをユーザがマッピングし、
ユーザによるマッピングに基づいてコンセプトと入力データのサンプルとのマッピングルールを生成し、
入力データのサンプルに対するマッピングルールの生成に基づいて入力データにコンセプトをマッピングし、
コンセプトと入力データとのマッピングに従って入力データのセマンティックインスタンスを生成し、入力データ全体に対するユーザ制御データセマンティゼーションサービスを提供する、
ことを特徴とする付記27記載のコンピュータ処理装置。
(付記32)
入力データとしての電子データにコンセプトを対応付けるために一群の注釈要素を規定する手段;
規定された一群の注釈要素及び入力データのサンプルに従って、マッピングルールを生成する手段;
マッピングルールを入力データに適用することで、コンセプトを入力データにマッピングする手段;及び
コンセプトと入力データとの対応関係に基づいて、入力データのセマンティックインスタンスを生成する手段;
を有することを特徴とするコンピュータ装置。
(付記33)
プログラムされたコンピュータプロセッサを有するコンピュータ装置であって、前記プログラムされたコンピュータプロセッサは、
電子データを意味論的に処理する入力データとして選択し、
オントロジをユーザにより選択させ、
前記入力データの中から入力データを選択し、
選択されたオントロジの中からユーザによりオントロジコンセプトを選択させ、
選択されたオントロジコンセプトと入力データとのマッピングをユーザに行わせ、
選択されたオントロジコンセプトの入力データへのマッピングに基づいてデータ構造捕捉ルールを生成し、
データ構造捕捉ルールを格納し、
データ構造捕捉ルールに基づいて、選択されたオントロジコンセプトと入力データのサンプルとのマッピング関係をユーザに提案し、
選択されたオントロジ、入力データ、選択されたオントロジコンセプト、選択されたオントロジコンセプトと入力データとのマッピング関係又はそれらの任意の組み合わせを修正することで、ユーザ入力に従って生成されたデータ構造捕捉ルールを最適化し、
選択されたオントロジコンセプトをサンプル入力データに対応付けるマッピング提案をユーザが受け入れる場合に、生成され最適化された適用されるデータ構造捕捉ルールを入力データ全体に適用することで入力データの意味論的処理を行う
ことを特徴とするコンピュータ装置。
本発明の一実施例によりデータを意味論的に処理するフローチャートである。 本発明の一実施例により電子メールテキストを入力電子データとして意味論的に処理するフローチャートである。 本発明の一実施例によるデータセマンティサイザの機能ブロック図である。 本発明の一実施例によるデータセマンティサイザのコンピュータ表示されたグラフィカルユーザインターフェースの画面例を示す図である。 本発明の一実施例により生体工学データを注釈付けする入力電子データ例として意味論的に処理するフローチャートである。 本発明の一実施例により生体工学データを入力電子データとするデータセマンティサイザのグラフィカルユーザインターフェースの画面例を示す図である。 本発明の一実施例により生体工学データを入力電子データとするデータセマンティサイザのグラフィカルユーザインターフェースの画面例を示す図である。 本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。 本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。 本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。 本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。 本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。 本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。 本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。 本発明の一実施例によるセマンティックインスタンスの出力例を示す図である。 コンピュータデバイスネットワークでタスクコンピューティングを行うタスクコンピューティング環境により使用される本発明によるコンピュータ装置ネットワーク及びデータセマンティサイザを示す図である。
符号の説明
100 データセマンティサイザ
102 ルール群生成部
104 セマンティックインスタンス生成部
106 意味論的処理規則エディタ
108 注釈データ
110 意味論的処理マッピングルール
112 セマンティサイザエンジン
114 入力データ
116 オントロジ
118 セマンティックインスタンス
160 正規表現
200 オントロジビューア
202 データビューア
204 意味論的ルールビューア
206 キーパッド
500 タスクコンピューティング環境
506 プレゼンテーションレイヤ
508 ウエブサービスアプリケーションプログラミングインターフェース
510 ミドルウエアレイヤ
512 サービスレイヤ
514 リアリゼーションレイヤ

Claims (14)

  1. オントロジコンセプトを入力データとしての電子データにマッピングするための一群のアノテーション要素を規定するステップと、
    入力データのサンプルをユーザに提示し、ユーザにより選択された入力データのサンプルを受け付けるステップと、
    選択されたオントロジより、ユーザにより選択されたオントロジコンセプトを受け付けるステップと、
    選択された入力データのサンプルに対して、選択されたオントロジコンセプトを対応付けるための、ユーザによるマッピングを受け付けるステップと、
    ユーザによるマッピングに基づき、規定された一群のアノテーション要素及び入力データのサンプルに従って、オントロジコンセプトと入力データのサンプルとの間の意味論的処理規則を生成するステップと、
    入力データのサンプルに対する意味論的処理規則の生成に基づいて、入力データにオントロジコンセプトをマッピングするステップと、
    オントロジコンセプトの入力データへのマッピングに基づいて入力データの注釈済みデータを生成し、入力データ全体に対するユーザ制御データセマンティゼーションサービスを提供するステップと、
    を有することを特徴とするコンピュータ処理方法。
  2. オントロジコンセプトを入力データにマッピングする一群のアノテーション要素が、入力データに対応する選択されたオントロジ、選択されたオントロジからマッピング用コンセプトとして選択されたオントロジコンセプト、サンプル入力データ中のワード又はワードフレーズと選択されたオントロジ中の選択されたオントロジコンセプトとの対応関係、及びサンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを有することを特徴とする請求項1記載の方法。
  3. 意味論的処理規則を生成するステップが、
    サンプル入力データのワード又はワードフレーズにオントロジコンセプトをマッピングするサンプルを、入力データの意味論的処理規則としてユーザに対し提示するステップと、
    オントロジコンセプトを入力データにマッピングするためにマッピングの意味論的処理規則を適用するステップと、
    を有することを特徴とする請求項1記載の方法。
  4. タスクコンピューティング環境で使用可能な入力データの概念として注釈済みデータを用意するサービスを提供するステップ更に有することを特徴とする請求項1記載の方法。
  5. 前記入力データが、構造化されている、半構造化されている、構造化されていない又はそれらの任意の組み合わせであることを特徴とする請求項1記載の方法。
  6. 複数の意味論的処理規則が生成される場合に、当該方法が、
    複数の意味論的処理規則の各々に優先度を割り当てるステップと、
    割り当てられた意味論的処理規則の優先度に従って各意味論的処理規則を入力データに適用するステップと、
    を有することを特徴とする請求項1記載の方法。
  7. 複数の意味論的処理規則が生成される場合に、当該方法が、
    複数の意味論的処理規則の各々に順序を割り当てるステップと、
    割り当てられた意味論的処理規則の順序に従って各意味論的処理規則を入力データに適用するステップと、
    を有することを特徴とする請求項1記載の方法。
  8. 前記入力データが単独の入力ファイル又は複数の入力ファイルの何らかの組み合わせであり、
    前記注釈済みデータを生成するステップが、複数の注釈済みデータを含む単独の出力ファイルを生成するステップ又は複数の出力ファイルを生成するステップより成り、
    該複数の出力ファイルの各々は入力データ中の1以上の注釈済みデータを含むことを特徴とする請求項1記載の方法。
  9. 電子データを意味論的に処理する入力データとして受け付けるステップと、
    ユーザにより選択されたオントロジを受け付けるステップと、
    オントロジコンセプトを入力データにマッピングするための一群のアノテーション要素を規定するステップと、
    入力データのサンプルをユーザに提示して、ユーザにより選択された入力データのサンプルを受け付けるステップと、
    選択されたオントロジより、ユーザにより選択されたオントロジコンセプトを受け付けるステップと、
    選択された入力データのサンプルに対して、選択されたオントロジコンセプトを対応付けるための、ユーザによるマッピングを受け付けるステップと、
    ユーザによるマッピングに基づき、規定された一群のアノテーション要素及び入力データのサンプルに従って、オントロジコンセプトと入力データのサンプルとの間の意味論的処理規則を生成するステップと、
    意味論的処理規則を格納するステップと、
    格納された意味論的処理規則に基づいて、選択されたオントロジコンセプトと入力データのサンプルとのマッピング関係をユーザに対して提示するステップと、
    選択されたオントロジ、入力データ、選択されたオントロジコンセプト、選択されたオントロジコンセプトと入力データとのマッピング関係又はそれらの任意の組み合わせを修正することで、ユーザ入力に従って生成された意味論的処理規則を最適化するステップと、
    選択されたオントロジコンセプトをサンプル入力データに対応付けるマッピング提案をユーザが受け入れる場合に、生成され最適化された意味論的処理規則を入力データ全体に適用することで入力データの意味論的処理を行うステップと、
    を有することを特徴とするコンピュータ処理方法。
  10. プログラムされたコンピュータプロセッサを有するコンピュータ処理装置であって、前記プログラムされたコンピュータプロセッサは、
    オントロジコンセプトを入力データとしての電子データにマッピングするための一群のアノテーション要素を規定し、
    入力データのサンプルをユーザに提示して、ユーザにより選択された入力データのサンプルを受け付け、
    選択されたオントロジより、ユーザにより選択されたオントロジコンセプトを受け付け、
    選択された入力データのサンプルに対して、選択されたオントロジコンセプトを対応付けるための、ユーザによるマッピングを受け付け
    ユーザによるマッピングに基づき、規定された一群のアノテーション要素及び入力データのサンプルに従って、オントロジコンセプトと入力データのサンプルとの間の意味論的処理規則を生成し、
    入力データのサンプルに対する意味論的処理規則の生成に基づいて、入力データにオントロジコンセプトをマッピングし、
    オントロジコンセプトの入力データへのマッピングに基づいて入力データの注釈済みデータを生成し、入力データ全体に対するユーザ制御データセマンティゼーションサービスを提供する、ことを特徴とするコンピュータ処理装置。
  11. オントロジコンセプトを入力データにマッピングする一群のアノテーション要素が、入力データに対応する選択されたオントロジ、選択されたオントロジからマッピング用コンセプトとして選択されたオントロジコンセプト、サンプル入力データ中のワード又はワードフレーズと選択されたオントロジ中の選択されたオントロジコンセプトとの対応関係、及びサンプル入力データ構造に関するマッピングされたワード又はワードフレーズのパターンを有することを特徴とする請求項10記載のコンピュータ処理装置。
  12. 意味論的処理規則を生成することが、
    サンプル入力データのワード又はワードフレーズにオントロジコンセプトをマッピングするサンプルを、入力データの意味論的処理規則としてユーザに対し提示し、
    オントロジコンセプトを入力データにマッピングするためにマッピングの意味論的処理規則を適用することでなされることを特徴とする請求項11記載のコンピュータ処理装置。
  13. 前記プログラムされたコンピュータプロセッサ
    タスクコンピューティング環境で使用可能な入力データの概念として注釈済みデータを用意するサービスを提供すること特徴とする請求項10記載のコンピュータ処理装置。
  14. プログラムされたコンピュータプロセッサを有するコンピュータ装置であって、前記プログラムされたコンピュータプロセッサは、
    電子データを意味論的に処理する入力データとして受け付け
    ユーザにより選択されたオントロジを受け付け
    オントロジコンセプトを入力データにマッピングするための一群のアノテーション要素を規定し、
    入力データのサンプルをユーザに提示して、ユーザにより選択された入力データのサンプルを受け付け、
    選択されたオントロジより、ユーザにより選択されたオントロジコンセプトを受け付け
    選択された入力データのサンプルに対して、選択されたオントロジコンセプトを対応付けるための、ユーザによるマッピングを受け付け
    ユーザによるマッピングに基づき、規定された一群のアノテーション要素及び入力データのサンプルに従って、オントロジコンセプトと入力データのサンプルとの間の意味論的処理規則を生成し、
    意味論的処理規則を格納し、
    格納された意味論的処理規則に基づいて、選択されたオントロジコンセプトと入力データのサンプルとのマッピング関係をユーザに対して提示し、
    選択されたオントロジ、入力データ、選択されたオントロジコンセプト、選択されたオントロジコンセプトと入力データとのマッピング関係又はそれらの任意の組み合わせを修正することで、ユーザ入力に従って生成された意味論的処理規則を最適化し、
    選択されたオントロジコンセプトをサンプル入力データに対応付けるマッピング提案をユーザが受け入れる場合に、生成され最適化された意味論的処理規則を入力データ全体に適用することで入力データの意味論的処理を行うことを特徴とするコンピュータ装置。
JP2005365377A 2004-12-20 2005-12-19 コンピュータ処理方法及びコンピュータ処理装置 Expired - Fee Related JP4929704B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/014,904 2004-12-20
US11/014,904 US8065336B2 (en) 2004-12-20 2004-12-20 Data semanticizer

Publications (2)

Publication Number Publication Date
JP2006178982A JP2006178982A (ja) 2006-07-06
JP4929704B2 true JP4929704B2 (ja) 2012-05-09

Family

ID=35945304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005365377A Expired - Fee Related JP4929704B2 (ja) 2004-12-20 2005-12-19 コンピュータ処理方法及びコンピュータ処理装置

Country Status (4)

Country Link
US (1) US8065336B2 (ja)
EP (1) EP1672537B1 (ja)
JP (1) JP4929704B2 (ja)
CN (1) CN100495395C (ja)

Families Citing this family (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7877703B1 (en) * 2005-03-14 2011-01-25 Seven Networks, Inc. Intelligent rendering of information in a limited display environment
JPWO2006137564A1 (ja) * 2005-06-24 2009-01-22 株式会社ジャストシステム 文書処理装置
US8677377B2 (en) * 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7941433B2 (en) * 2006-01-20 2011-05-10 Glenbrook Associates, Inc. System and method for managing context-rich database
US8875249B2 (en) * 2006-03-01 2014-10-28 Oracle International Corporation Minimum lifespan credentials for crawling data repositories
US8868540B2 (en) * 2006-03-01 2014-10-21 Oracle International Corporation Method for suggesting web links and alternate terms for matching search queries
US9177124B2 (en) * 2006-03-01 2015-11-03 Oracle International Corporation Flexible authentication framework
US20070208726A1 (en) * 2006-03-01 2007-09-06 Oracle International Corporation Enhancing search results using ontologies
US8332430B2 (en) 2006-03-01 2012-12-11 Oracle International Corporation Secure search performance improvement
US20070214129A1 (en) * 2006-03-01 2007-09-13 Oracle International Corporation Flexible Authorization Model for Secure Search
US8005816B2 (en) * 2006-03-01 2011-08-23 Oracle International Corporation Auto generation of suggested links in a search system
US8027982B2 (en) * 2006-03-01 2011-09-27 Oracle International Corporation Self-service sources for secure search
US8433712B2 (en) 2006-03-01 2013-04-30 Oracle International Corporation Link analysis for enterprise environment
US7941419B2 (en) 2006-03-01 2011-05-10 Oracle International Corporation Suggested content with attribute parameterization
US8214394B2 (en) * 2006-03-01 2012-07-03 Oracle International Corporation Propagating user identities in a secure federated search system
US8707451B2 (en) 2006-03-01 2014-04-22 Oracle International Corporation Search hit URL modification for secure application integration
US7962328B2 (en) * 2006-03-13 2011-06-14 Lexikos Corporation Method and apparatus for generating a compact data structure to identify the meaning of a symbol
US7975184B2 (en) * 2006-04-03 2011-07-05 Donald Goff Diagnostic access system
EP2011037A1 (en) * 2006-04-11 2009-01-07 ITI Scotland Limited Information extraction methods and apparatus including a computer-user interface
JP4708288B2 (ja) * 2006-08-28 2011-06-22 日本電信電話株式会社 サービス連携サーバ、方法、システム、プログラム、及び、記録媒体
US8332209B2 (en) * 2007-04-24 2012-12-11 Zinovy D. Grinblat Method and system for text compression and decompression
US20080294427A1 (en) * 2007-05-21 2008-11-27 Justsystems Evans Research, Inc. Method and apparatus for performing a semantically informed merge operation
US20080295013A1 (en) * 2007-05-21 2008-11-27 Justsystems Evans Research, Inc. Method and apparatus for performing semantically informed text operations
US20080294426A1 (en) * 2007-05-21 2008-11-27 Justsystems Evans Research, Inc. Method and apparatus for anchoring expressions based on an ontological model of semantic information
US20080294425A1 (en) * 2007-05-21 2008-11-27 Justsystems Evans Research, Inc. Method and apparatus for performing semantic update and replace operations
US20080306984A1 (en) * 2007-06-08 2008-12-11 Friedlander Robert R System and method for semantic normalization of source for metadata integration with etl processing layer of complex data across multiple data sources particularly for clinical research and applicable to other domains
US7788213B2 (en) * 2007-06-08 2010-08-31 International Business Machines Corporation System and method for a multiple disciplinary normalization of source for metadata integration with ETL processing layer of complex data across multiple claim engine sources in support of the creation of universal/enterprise healthcare claims record
US7996392B2 (en) 2007-06-27 2011-08-09 Oracle International Corporation Changing ranking algorithms based on customer settings
US8316007B2 (en) * 2007-06-28 2012-11-20 Oracle International Corporation Automatically finding acronyms and synonyms in a corpus
US7962324B2 (en) * 2007-08-28 2011-06-14 International Business Machines Corporation Method for globalizing support operations
KR100917176B1 (ko) 2007-11-19 2009-09-15 포항공과대학교 산학협력단 비구조 웹문서로부터 온톨로지를 자동으로 구축하기 위한방법 및 장치
KR100966651B1 (ko) 2008-01-16 2010-06-29 재단법인서울대학교산학협력재단 온톨로지 기반의 시맨틱 어노테이션 시스템 및 그 방법
US8359533B2 (en) 2008-02-22 2013-01-22 Tigerlogic Corporation Systems and methods of performing a text replacement within multiple documents
US8924374B2 (en) * 2008-02-22 2014-12-30 Tigerlogic Corporation Systems and methods of semantically annotating documents of different structures
US7937395B2 (en) * 2008-02-22 2011-05-03 Tigerlogic Corporation Systems and methods of displaying and re-using document chunks in a document development application
US8078630B2 (en) 2008-02-22 2011-12-13 Tigerlogic Corporation Systems and methods of displaying document chunks in response to a search request
US8001162B2 (en) * 2008-02-22 2011-08-16 Tigerlogic Corporation Systems and methods of pipelining multiple document node streams through a query processor
US8924421B2 (en) * 2008-02-22 2014-12-30 Tigerlogic Corporation Systems and methods of refining chunks identified within multiple documents
US8145632B2 (en) 2008-02-22 2012-03-27 Tigerlogic Corporation Systems and methods of identifying chunks within multiple documents
US7933896B2 (en) * 2008-02-22 2011-04-26 Tigerlogic Corporation Systems and methods of searching a document for relevant chunks in response to a search request
US9129036B2 (en) 2008-02-22 2015-09-08 Tigerlogic Corporation Systems and methods of identifying chunks within inter-related documents
US8001140B2 (en) * 2008-02-22 2011-08-16 Tigerlogic Corporation Systems and methods of refining a search query based on user-specified search keywords
US8126880B2 (en) 2008-02-22 2012-02-28 Tigerlogic Corporation Systems and methods of adaptively screening matching chunks within documents
EP2272010A4 (en) * 2008-04-20 2016-09-14 Tigerlogic Corp SYSTEMS AND METHODS FOR IDENTIFYING BLOCKS FROM MULTIPLE SYNDICATION CONTENT PROVIDERS
US20100023549A1 (en) * 2008-07-22 2010-01-28 Electronics And Telecommunications Research Institute Method and apparatus for social tagging using property field of ontology object
EP2377049A1 (en) * 2008-12-12 2011-10-19 Koninklijke Philips Electronics N.V. A method and module for creating a relational database schema from an ontology
US8229937B2 (en) * 2008-12-16 2012-07-24 Sap Ag Automatic creation and transmission of data originating from enterprise information systems as audio podcasts
CN101807181A (zh) * 2009-02-17 2010-08-18 日电(中国)有限公司 用于修复不一致本体的方法和设备
KR101072939B1 (ko) * 2009-05-07 2011-10-17 한국과학기술정보연구원 시맨틱 서비스 적용 시스템 및 방법
WO2010138972A2 (en) 2009-05-29 2010-12-02 Abacast, Inc. Selective access of multi-rate data from a server and/or peer
US8676808B2 (en) * 2009-07-09 2014-03-18 Dillon Software Services, Llc Data store interface that facilitates distribution of application functionality across a multi-tier client-server architecture
US9430566B2 (en) 2009-07-11 2016-08-30 International Business Machines Corporation Control of web content tagging
US8260779B2 (en) * 2009-09-17 2012-09-04 General Electric Company Systems, methods, and apparatus for automated mapping and integrated workflow of a controlled medical vocabulary
WO2011161565A1 (en) * 2010-06-23 2011-12-29 Koninklijke Philips Electronics N.V. Interoperability between a plurality of data protection systems
US8930959B2 (en) 2011-05-13 2015-01-06 Orions Digital Systems, Inc. Generating event definitions based on spatial and relational relationships
CN102622920B (zh) * 2011-10-19 2014-12-10 北京中科希望软件股份有限公司 一种基于技能学习的智能解答方法与系统
US9116947B2 (en) * 2012-03-15 2015-08-25 Hewlett-Packard Development Company, L.P. Data-record pattern searching
US8682906B1 (en) 2013-01-23 2014-03-25 Splunk Inc. Real time display of data field values based on manual editing of regular expressions
US10394946B2 (en) 2012-09-07 2019-08-27 Splunk Inc. Refining extraction rules based on selected text within events
US20140208217A1 (en) 2013-01-22 2014-07-24 Splunk Inc. Interface for managing splittable timestamps across event records
US8751499B1 (en) 2013-01-22 2014-06-10 Splunk Inc. Variable representative sampling under resource constraints
US8751963B1 (en) 2013-01-23 2014-06-10 Splunk Inc. Real time indication of previously extracted data fields for regular expressions
US9594814B2 (en) 2012-09-07 2017-03-14 Splunk Inc. Advanced field extractor with modification of an extracted field
US8909642B2 (en) * 2013-01-23 2014-12-09 Splunk Inc. Automatic generation of a field-extraction rule based on selections in a sample event
US9152929B2 (en) 2013-01-23 2015-10-06 Splunk Inc. Real time display of statistics and values for selected regular expressions
US9460074B2 (en) 2013-04-15 2016-10-04 Vmware, Inc. Efficient data pattern matching
US10318397B2 (en) 2013-04-15 2019-06-11 Vmware, Inc. Efficient data pattern matching
US9594542B2 (en) 2013-06-20 2017-03-14 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on training by third-party developers
US10083009B2 (en) 2013-06-20 2018-09-25 Viv Labs, Inc. Dynamically evolving cognitive architecture system planning
US10474961B2 (en) 2013-06-20 2019-11-12 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on prompting for additional user input
US9633317B2 (en) 2013-06-20 2017-04-25 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on a natural language intent interpreter
US10146865B2 (en) * 2013-10-04 2018-12-04 Orions Digital Systems, Inc. Tagonomy—a system and method of semantic web tagging
WO2015053861A2 (en) * 2013-10-09 2015-04-16 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on a natural language intent interpreter
US20150254211A1 (en) * 2014-03-08 2015-09-10 Microsoft Technology Licensing, Llc Interactive data manipulation using examples and natural language
CN107250932B (zh) * 2014-11-18 2020-09-15 西门子公司 可编程逻辑控制器及其中的语义情境化方法
KR101892161B1 (ko) * 2015-01-23 2018-10-04 주식회사 싸이퍼롬 진료기록 관리 방법 및 그를 위한 메타데이터 저장소
US10452698B2 (en) * 2015-05-11 2019-10-22 Stratifyd, Inc. Unstructured data analytics systems and methods
EP3101534A1 (en) * 2015-06-01 2016-12-07 Siemens Aktiengesellschaft Method and computer program product for semantically representing a system of devices
CN104881496B (zh) * 2015-06-15 2018-12-14 北京金山安全软件有限公司 一种文件名称识别及文件清理方法及装置
CN104881495B (zh) * 2015-06-15 2019-03-26 北京金山安全软件有限公司 一种文件夹路径识别及文件夹清理方法及装置
CN105893574B (zh) * 2016-03-31 2020-05-26 联想(北京)有限公司 一种数据处理方法及电子设备
US11620304B2 (en) 2016-10-20 2023-04-04 Microsoft Technology Licensing, Llc Example management for string transformation
US11256710B2 (en) 2016-10-20 2022-02-22 Microsoft Technology Licensing, Llc String transformation sub-program suggestion
US10846298B2 (en) 2016-10-28 2020-11-24 Microsoft Technology Licensing, Llc Record profiling for dataset sampling
US10579719B2 (en) * 2017-06-15 2020-03-03 Turbopatent Inc. System and method for editor emulation
US10929609B1 (en) * 2017-06-26 2021-02-23 Rm², Llc Modeling english sentences within a distributed neural network for comprehension and understanding of a news article
TWI647618B (zh) * 2017-10-26 2019-01-11 易易資設有限公司 程式語言編輯方法
US11256670B2 (en) 2018-04-29 2022-02-22 Fujitsu Limited Multi-database system
US11531914B2 (en) 2018-08-20 2022-12-20 Accenture Global Solutions Limited Artificial intelligence (AI) based automatic rule generation
EP3745417A1 (en) * 2019-05-29 2020-12-02 Université de Rennes 1 Method for converting a virtual surgical process
DE112019007755T5 (de) 2019-09-26 2022-06-30 Mitsubishi Electric Corporation Entwicklungswerkzeug, Lerngerät und Datensammelsystem
CN111061833B (zh) * 2019-12-10 2023-03-21 北京明略软件系统有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
WO2021195345A1 (en) * 2020-03-26 2021-09-30 Janssen Biotech, Inc. Annotating and managing of therapeutic or biological digital data
US11513930B2 (en) 2020-12-03 2022-11-29 International Business Machines Corporation Log-based status modeling and problem diagnosis for distributed applications
US11403326B2 (en) 2020-12-03 2022-08-02 International Business Machines Corporation Message-based event grouping for a computing operation
US11599404B2 (en) 2020-12-03 2023-03-07 International Business Machines Corporation Correlation-based multi-source problem diagnosis
US11797538B2 (en) 2020-12-03 2023-10-24 International Business Machines Corporation Message correlation extraction for mainframe operation
US11474892B2 (en) 2020-12-03 2022-10-18 International Business Machines Corporation Graph-based log sequence anomaly detection and problem diagnosis
US11243835B1 (en) 2020-12-03 2022-02-08 International Business Machines Corporation Message-based problem diagnosis and root cause analysis
US20230052603A1 (en) * 2021-07-27 2023-02-16 Ai Clerk International Co., Ltd. System and method for data process
EP4124989A1 (en) * 2021-07-30 2023-02-01 Waylay NV Automation rules definition and audit using natural language processing

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5815811A (en) 1989-06-29 1998-09-29 Symbol Technologies, Inc. Preemptive roaming in a cellular local area wireless network
US6002918A (en) 1989-06-29 1999-12-14 Symbol Technologies, Inc. Power-saving arrangement and method for mobile units in communications network
US5224205A (en) 1990-05-21 1993-06-29 International Business Machines Corp. Method of combining architecturally dissimilar computing networks into a single logical network
JPH05197573A (ja) 1991-08-26 1993-08-06 Hewlett Packard Co <Hp> タスク指向パラダイムによるタスク管理システム
US6496872B1 (en) 1994-05-16 2002-12-17 Apple Computer, Inc. Computer system for automatically instantiating tasks designated by a user
US6983227B1 (en) 1995-01-17 2006-01-03 Intertech Ventures, Ltd. Virtual models of complex systems
US5968116A (en) 1996-03-27 1999-10-19 Intel Corporation Method and apparatus for facilitating the management of networked devices
US6101528A (en) 1996-03-27 2000-08-08 Intel Corporation Method and apparatus for discovering server applications by a client application in a network of computer systems
US6067297A (en) 1996-06-28 2000-05-23 Symbol Technologies, Inc. Embedded access point supporting communication with mobile unit operating in power-saving mode
US5979757A (en) 1996-09-05 1999-11-09 Symbol Technologies, Inc. Method and system for presenting item information using a portable data terminal
US6084528A (en) 1996-09-05 2000-07-04 Symbol Technologies, Inc. Intranet scanning terminal system
EP0872991B1 (en) 1997-04-15 2006-07-26 Hewlett-Packard Company, A Delaware Corporation Method and apparatus for device interaction by format
US6324567B2 (en) 1997-06-11 2001-11-27 Oracle Corporation Method and apparatus for providing multiple commands to a server
US6144673A (en) 1997-10-24 2000-11-07 Motorola, Inc. Method and apparatus for providing broadcast group data
US6178426B1 (en) 1998-01-15 2001-01-23 Symbol Technologies, Inc. Apparatus with extended markup language data capture capability
US6188681B1 (en) 1998-04-01 2001-02-13 Symbol Technologies, Inc. Method and apparatus for determining alternative second stationary access point in response to detecting impeded wireless connection
US6173316B1 (en) 1998-04-08 2001-01-09 Geoworks Corporation Wireless communication device with markup language based man-machine interface
US6509913B2 (en) 1998-04-30 2003-01-21 Openwave Systems Inc. Configurable man-machine interface
CN1115824C (zh) 1998-05-07 2003-07-23 三星电子株式会社 网络中的装置对装置命令与控制的方法和系统
US6901596B1 (en) 1998-05-07 2005-05-31 Hewlett-Packard Development Company, L.P. Method of communicating asynchronous events to remote procedure call clients
US6556875B1 (en) 1998-06-30 2003-04-29 Seiko Epson Corporation Device control system
US6456892B1 (en) 1998-07-01 2002-09-24 Sony Electronics, Inc. Data driven interaction for networked control of a DDI target device over a home entertainment network
US6286047B1 (en) 1998-09-10 2001-09-04 Hewlett-Packard Company Method and system for automatic discovery of network services
US6446096B1 (en) 1998-09-11 2002-09-03 International Business Machines Corporation Method and system for providing device-specific key control using role-based HTML element tags
US6560640B2 (en) 1999-01-22 2003-05-06 Openwave Systems, Inc. Remote bookmarking for wireless client devices
US6216158B1 (en) 1999-01-25 2001-04-10 3Com Corporation System and method using a palm sized computer to control network devices
US6792605B1 (en) 1999-06-10 2004-09-14 Bow Street Software, Inc. Method and apparatus for providing web based services using an XML Runtime model to store state session data
EP1069500A1 (en) 1999-07-12 2001-01-17 International Business Machines Corporation Downloadable user-interface
US6956833B1 (en) 2000-02-08 2005-10-18 Sony Corporation Method, system and devices for wireless data storage on a server and data retrieval
US6430395B2 (en) 2000-04-07 2002-08-06 Commil Ltd. Wireless private branch exchange (WPBX) and communicating between mobile units and base stations
KR20010109886A (ko) 2000-06-03 2001-12-12 윤종용 이동통신 단말기를 이용한 멀티미디어 서비스 시스템 및방법
US20020078255A1 (en) 2000-10-17 2002-06-20 Shankar Narayan Pluggable instantiable distributed objects
US6947404B1 (en) 2000-11-06 2005-09-20 Nokia Corporation Automatic WAP login
US20020107939A1 (en) 2001-02-07 2002-08-08 Ford Daniel E. System and method for accessing software components in a distributed network environment
US20020116225A1 (en) 2001-02-15 2002-08-22 Margaret Morse Tracking and reporting client outcome
WO2002084975A2 (en) 2001-04-12 2002-10-24 Research In Motion Limited System and method for dynamically pushing information on wireless data communication devices
EP1390861A4 (en) 2001-04-25 2005-06-01 Metallect Corp SYSTEM AND METHOD FOR SERVICE DELIVERY
WO2003021978A1 (en) 2001-08-10 2003-03-13 Strix Systems, Inc. Virtual linking using a wireless device
US6859803B2 (en) 2001-11-13 2005-02-22 Koninklijke Philips Electronics N.V. Apparatus and method for program selection utilizing exclusive and inclusive metadata searches
WO2003069442A2 (en) 2002-02-12 2003-08-21 Sandpiper Software, Inc. Ontology frame-based knowledge representation in the unified modeling language (uml)
US7127261B2 (en) 2002-02-22 2006-10-24 Julian Van Erlach Enhanced telecommunication services
US6910037B2 (en) 2002-03-07 2005-06-21 Koninklijke Philips Electronics N.V. Method and apparatus for providing search results in response to an information search request
AU2003224673A1 (en) 2002-03-08 2003-09-22 Enleague Systems, Inc Methods and systems for modeling and using computer resources over a heterogeneous distributed network using semantic ontologies
US7159224B2 (en) 2002-04-09 2007-01-02 Sun Microsystems, Inc. Method, system, and articles of manufacture for providing a servlet container based web service endpoint
US7548847B2 (en) * 2002-05-10 2009-06-16 Microsoft Corporation System for automatically annotating training data for a natural language understanding system
KR20040001185A (ko) 2002-06-27 2004-01-07 삼성전자주식회사 부분 상세 지도를 제공하는 지도 표시 장치 및 그 방법
US20040083205A1 (en) 2002-10-29 2004-04-29 Steve Yeager Continuous knowledgebase access improvement systems and methods
US8561069B2 (en) 2002-12-19 2013-10-15 Fujitsu Limited Task computing
JP2004318809A (ja) 2003-02-24 2004-11-11 Fuji Xerox Co Ltd 情報抽出規則生成装置および方法
US7376571B1 (en) 2003-03-31 2008-05-20 Unisys Corporation Logistics management system having task-oriented user interface
US20040207659A1 (en) 2003-04-02 2004-10-21 International Business Machines Corporation Program creation by combining web services using graphic user interface controls
US7406660B1 (en) * 2003-08-01 2008-07-29 Microsoft Corporation Mapping between structured data and a visual surface
US20050060372A1 (en) 2003-08-27 2005-03-17 Debettencourt Jason Techniques for filtering data from a data stream of a web services application
US20050080768A1 (en) 2003-10-10 2005-04-14 International Business Machines Corporation Methods and apparatus for dynamic service discovery from Web services representation chain
US20050160362A1 (en) * 2004-01-15 2005-07-21 Petar Obradovic Systems and methods for performing variable data printing
US20060195411A1 (en) 2005-02-28 2006-08-31 Microsoft Corporation End user data activation
US7596754B2 (en) 2005-07-28 2009-09-29 Microsoft Corporation Application assistance
US8140987B2 (en) 2005-12-29 2012-03-20 Sap Ag GUI modeling of web services

Also Published As

Publication number Publication date
US8065336B2 (en) 2011-11-22
JP2006178982A (ja) 2006-07-06
CN1794234A (zh) 2006-06-28
US20060136194A1 (en) 2006-06-22
CN100495395C (zh) 2009-06-03
EP1672537B1 (en) 2012-04-25
EP1672537A2 (en) 2006-06-21
EP1672537A3 (en) 2008-09-10

Similar Documents

Publication Publication Date Title
JP4929704B2 (ja) コンピュータ処理方法及びコンピュータ処理装置
US10936805B2 (en) Automated document authoring assistant through cognitive computing
US11093487B2 (en) Natural language processing review and override based on confidence analysis
US8566699B2 (en) Intent-based information processing and updates
US9886501B2 (en) Contextual content graph for automatic, unsupervised summarization of content
US11556697B2 (en) Intelligent text annotation
US20190266167A1 (en) Content Authoring
US7672908B2 (en) Intent-based information processing and updates in association with a service agent
Lin et al. DSMDiff: a differentiation tool for domain-specific models
US20170039272A1 (en) Nlp-based content recommender
US20140280072A1 (en) Method and Apparatus for Human-Machine Interaction
US20170364587A1 (en) System and Method for Automatic, Unsupervised Contextualized Content Summarization of Single and Multiple Documents
Osborne et al. Automatic classification of springer nature proceedings with smart topic miner
US10657098B2 (en) Automatically reorganize folder/file visualizations based on natural language-derived intent
US20220129623A1 (en) Performance characteristics of cartridge artifacts over text pattern constructs
Edhlund et al. NVivo for Mac essentials
Borsje et al. Graphical query composition and natural language processing in an RDF visualization interface
Bacci et al. Inspecting data using natural language queries
Edhlund et al. NVivo 12 for Mac Essentials
Kashyap et al. Development of Mobile Application for Faculty Time out Information
Nason et al. A User-Friendly Introduction to RQDA for Qualitative Research: Recommendations for Social Work Students and Educators
Paynter et al. Applying machine learning to programming by demonstration
WO2019239544A1 (ja) 表示形式決定装置、表示形式決定方法および記録媒体
WO2023205204A1 (en) Classification process systems and methods
Danielsen et al. User Interface Design in Semi-Automated Ontology Construction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120117

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120130

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees