JP5392077B2 - オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム - Google Patents

オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム Download PDF

Info

Publication number
JP5392077B2
JP5392077B2 JP2009516323A JP2009516323A JP5392077B2 JP 5392077 B2 JP5392077 B2 JP 5392077B2 JP 2009516323 A JP2009516323 A JP 2009516323A JP 2009516323 A JP2009516323 A JP 2009516323A JP 5392077 B2 JP5392077 B2 JP 5392077B2
Authority
JP
Japan
Prior art keywords
attribute
ontology
data
attributes
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009516323A
Other languages
English (en)
Other versions
JPWO2008146807A1 (ja
Inventor
格 細見
弘紀 水口
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009516323A priority Critical patent/JP5392077B2/ja
Publication of JPWO2008146807A1 publication Critical patent/JPWO2008146807A1/ja
Application granted granted Critical
Publication of JP5392077B2 publication Critical patent/JP5392077B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明はオントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラムに関する。
インターネットやイントラネットが情報発信や意見交換の主要メディアとして定着し、その量と多様性、速報性はもはやあらゆる情報の調査・分析に欠かせない。それらネット上から必要な情報を収集し、各情報を有意な観点で分類するといった作業では、オントロジの構築と利用が有効である。オントロジは、ある概念が持つ属性や、概念または事象間の関係を定義したものであり、さらには定義した関係を満たす事例をも含む場合がある。
World Wide Webコンソーシアム(W3C)で策定されたOWL(Web Ontology Language)のように一定の形式的な記述方法によってオントロジを表現することで、複数のオントロジ同士での比較や統合が容易になる。オントロジの作成は一般に人手で行なわれるが、例えば数多くの種類の製品に対して各々が持つ属性(機能や特徴の種類)を全て調べ上げたり、そのような属性が頻繁に変わる携帯電話などの製品に対して属性の種類や定義をその都度更新したりするには、人手では限界がある。
オントロジの構築を省力化するには、まずはオントロジの要素となる主題やその属性、属性値の収集を容易にする技術が重要となる。ある特定種類の対象が持つ属性を表す語句(属性表現)を自動収集する技術としては、特許文献1がある。特許文献1では、予め用意した特定種類の文書集合を入力として、その文書集合に頻出する語句を属性表現として抽出する。また、特許文献1では抽出した各属性の近傍で共起性の高い語句をその属性に対応する属性値として抽出する。
特許文献2では、オントロジを利用した属性と属性値の抽出方法が開示されている。予め特定の概念を表すオントロジを用意しておき、そのオントロジで表現された条件に合致する属性と属性値を文書から抽出する。以上のような技術によって、インターネットやデータベースから様々な対象が持つ属性や各属性の値を自動的に収集することができる。
また、特許文献3では、オントロジが持つ各属性に重要度を与え、重要度が所定の閾値を超える属性に対してのみ、その属性に関する情報を抽出する方法が開示されている。ただし、どの属性に関する情報を抽出するかという判断基準は重要度に対する1つの閾値のみであり、属性値間の相互依存関係に基づいて抽出する属性値を決定する手段は開示されていない。
非特許文献1ではフレームとして記述された複数種類の対象・属性・属性値の組に対して、異なるフレーム間で対応する属性を自動的に決定する方法が開示されているが、フレーム同士をそれぞれオントロジとして統合する方法までは提供されていない。
非特許文献2では、特定分野の用語について、その同義語、狭義語、広義語、関連語を定義したシソーラスの自動構築方法を開示している。ただし、シソーラスの構築のみに限定しているため、概念を説明するオントロジやその事例を収集し組織化することはできない。
非特許文献3では、CSV(Comma Separated Value)形式で記述された表から前述のOWLに準拠したオントロジへ自動変換する手段を提供しており、OWLに関する詳細な知識が無くともOWLの構文として正しいオントロジを容易に生成できることを特徴としている。しかし、不完全なオントロジの属性や語彙を補強したり、属性間や属性値間の関係を検出して統合またはその支援をしたりするといった機能は備えていない。
非特許文献2や非特許文献3をはじめとした従来のオントロジ生成方法では、図31に示したようにオントロジの元となるデータを入力するデータ入力手段1と、入力されたデータをオントロジの形式に変換するオントロジ化手段2、該変換により生成されたオントロジを格納するオントロジ格納手段3とを備えたオントロジ生成装置20として実現されている。しかし、このようなオントロジ生成装置20の構成のみでは、予めオントロジが持つべき個々の属性の特徴や制約、オントロジの構造に関する情報などを全て入力データに記述しておかなければならず、そのようなデータの準備が利用者にとって大きな負担となる。
または、非特許文献4で開示されているようなオントロジ編集システムをさらに備えることで、オントロジ生成装置20を図32に示したような構成とすることができ、生成済みのオントロジを人手で修正したり、統合したりすることができる。しかし、生成されるオントロジの数が膨大になると、人手による端末画面上での編集作業も困難になってくる。
特開2000−137720号公報 特開2000−207407号公報 特開2005−148886号公報 伊藤、上田、池田、分散情報源に対する情報エージェントのための事例に基づくフレームマッピング、電子情報通信学会誌、Vol. J81-D-I、No.5、pp.4 33-442、1998 内田、石野、オントロジーの自動構築に関する基礎的研究、人工知能学会研究会資料、SIG-SW&ONT-A301-05、2003 サイバーエッヂ、「オントロジジェネレータ」の発売について、2006年11月21日報道発表文、 "http://www.semanticweb.jp/pub/OntologyGenerator.html" 法造 − オントロジエディタの操作マニュアル、"http://www.ei.sanken.osaka-u.ac.jp/hozo/manual/manual.html"
以上のような技術では、オントロジの生成やオントロジに基づく事例知識の構築において、ある特定の概念やその概念の事例を記述するために必要となりうる属性をあらかじめ全て定義しておかなければならず、不完全な属性の組からより多くの属性や属性値を収集し、それらの間の整合化を含めたオントロジや事例を構築することができない。また、ある概念に対する必須属性、非必須属性、および相互補完関係にある属性を自動的に区別し、それらをオントロジの構造の中で表現することができない。
本発明の目的は、所定形式のオントロジを、データの特徴を反映した構造に構造化する技術を提供することにある。
本発明に係るオントロジ処理装置は、オントロジを処理するオントロジ処理装置であって、文字列で表現された主題とその属性および属性値の組を含む事例データの集合から生成された所定形式のオントロジ構造を、前記事例データの集合に含まれる属性値の統計的特徴に基づいて修正すると共に、前記オントロジの属性を、属性値の特徴に基づいて変更する構造化手段を有し、且つ、前記構造化手段は、前記オントロジに含まれる個々の属性が、該属性と関連付けられた前記オントロジ内で定義される概念にとって必須な属性か、必須でない属性かを判定し、該判定結果に応じて該属性に関するオントロジの構造を修正する必要度判定手段を有することを特徴とする。
本発明に係るオントロジ処理方法は、オントロジを処理するオントロジ処理方法であって、文字列で表現された主題とその属性および属性値の組を含む事例データの集合とから生成されたオントロジの構造を、前記事例データの集合に含まれる属性値の統計的特徴に基づいて構造化手段が修正し、前記オントロジの属性を属性値の特徴に基づいて前記構造化手段が変更し、前記オントロジに含まれる個々の属性が、該属性と関連付けられた前記オントロジ内で定義される概念にとって必須な属性か、必須でない属性かを前記構造化手段に含まれる必要度判定手段が判定し、必須でないと判定した属性について前記構造化手段がオントロジの構造を修正することを特徴とする。
本発明に係るオントロジ処理プログラムは、コンピュータに、文字列で表現された主題とその属性および属性値の組を含む事例データの集合から生成された所定形式のオントロジの構造を、前記事例データの集合に含まれる属性値の統計的特徴に基づいて修正する機能と、前記オントロジの属性を、属性値の特徴に基づいて変更する機能と、前記オントロジに含まれる個々の属性が、該属性と関連付けられた前記オントロジ内で定義される概念にとって必須な属性か、必須でない属性かを判定し、該判定結果に応じて該属性に関するオントロジの構造を修正する機能とを実行させることを特徴とする。
本発明によれば、所定形式のオントロジの属性を、データから得られる属性値集合の特性を反映して修正またはオントロジの構造として表現することができる。
(第1の実施形態)
以下、本発明の第1の実施形態を、図面を参照して説明する。
図1は、本発明の第1の実施形態におけるオントロジ生成装置を示すブロック図である。図1を参照すると、本発明の第1の実施形態に係るオントロジ生成装置10は、データ入力手段1と、オントロジ化手段2と、構造化手段3と、オントロジ格納手段4とを備える。
ここで、データ入力手段1は、オントロジの生成に必要なデータを入力する手段を提供する。オントロジの生成に必要なデータは、オントロジとして表現したい対象の概念名、その概念が持つ属性、その属性が取りうる値(属性値)の範囲(値域)、およびその概念に含まれる個々の事例を表す名称や各属性の具体的な属性値などから成る。例えば、「お客様情報」という名前を持つ概念をオントロジとして表現する場合、その属性には「氏名」、「職業」、「住所」などを値域とする属性と、その概念の事例における各属性の値として「鈴木太郎」、「自営業」、「神奈川県横浜市・・・」などが含まれる。
前述のOWLでは、1つの概念や事例を表す主題とその属性および当該属性の値域という3要素からなる「トリプル」をオントロジの基本単位として記述する。属性の値域もまた概念でありうる。例えば、「氏名」は概念の1つであり且つ「書籍」という主題の「著者」という属性の値域として用いることができる。この場合のトリプルは「書籍、著者、氏名」となり、これが最小単位のオントロジである。実際のOWLの構文はXML形式やその他の形式に基づいて記述される。また、トリプルを用いて、ある概念の事例を記述することもできる。例えば、前述の「書籍」に関するオントロジに対して「坊ちゃん、著者、夏目漱石」が1つの事例となる。事例もオントロジの一部とされる場合もある。
本発明の第1の実施形態におけるデータ入力手段1は、各トリプルに対してそれが作成された日時や作成者、信頼度などを表すメタデータをオントロジ生成時の入力データに含んでも良い。信頼度は、当該トリプルを何らかの計算によって作成する際に、その計算処理によって定まる場合や、作成者に対して期待できる能力によって定まる場合がある。
オントロジ化手段2は、データ入力手段1によって入力されたデータを所定の形式のオントロジに変換する。前述のトリプルを基本単位とした入力データからオントロジへの変換は、例えば図2に示したような構成で実現することができる。
図2は、オントロジ化手段2を詳細化した例である。主題分類手段201は、入力データに含まれる主題を必要に応じて分類する。同様に属性分類手段202は、入力データに含まれる属性を必要に応じて分類する。属性値分類手段203は、入力データに含まれる属性値を必要に応じて分類する。オントロジ記述手段204は、分類された主題、属性及び属性値等に基づいて、1単位のオントロジとしてOWL形式などの所定の形式で記述する。メタデータ付与手段205は、オントロジ記述手段204により記述されたトリプル(例えば概念,属性,属性値)に対して各種のメタデータをそれぞれ付与する。
メタデータ付与手段205がメタデータをオントロジに付与する方法としては、オントロジとは別にメタデータ専用のデータベースを用いてメタデータを付与する方法や、メタデータを所定のオントロジの形式と同形式で記述して、そのメタデータをオントロジの一部として扱うことによりメタデータを付与する方法がある。前者の方法ではメタデータのみによるオントロジの検索を高速に行なうことができ、後者の方法ではオントロジとそのメタデータの区別なく検索や参照が行なえる。
前述したようにメタデータ付与手段205でメタデータを付与することにより、トリプル単位で指定日時より新しいオントロジのみを参照したり、用途に応じて特定の信頼度以上のオントロジのみを利用したりするということが可能になる。
構造化手段3は、オントロジ化手段2で生成されたオントロジに含まれる属性関係からそれらの属性を必要に応じて組み合わせて構造化する。ここで構造化とは、オントロジ化手段2によって記述された1つの概念が持つ一連の属性について、ある属性を再定義したり、複数の属性を組み合わせて新たな属性を定義したりすることとする。
図3は、構造化手段3を詳細化した例である。
必要度判定手段301は、オントロジ化手段2で生成されたオントロジに含まれる各属性に対し、対応する属性値の集合から各属性がその属性を持つクラスにとってどの程度必要かを判断し、その必要度合いに応じて属性を分類し、当該分類結果をオントロジに反映する。
相補関係判定手段302は、必要度判定手段301によってオントロジに分類結果が反映された一連の属性に対する属性値の集合からなる事例それぞれにおいて、ある特定の属性に対する属性値が無い場合には必ず別の特定の属性に対する属性値があり、且つその属性の組において逆の関係も成り立つ場合、その属性の組を相補関係と判定する。さらに、相補関係判定手段302は、相補関係と判定した属性の組に対して、それらが互いに相補関係であることをオントロジに反映する。
上述の如く構成された第1の実施形態によれば、入力したデータから所定の形式に従ったオントロジを自動的に生成でき、さらには生成したオントロジの属性を入力したデータから得られる属性値集合の特性を反映して修正またはオントロジの構造として表現することができる。
その理由は、オントロジ化手段2が、入力したデータ内の主題、属性、属性値に各々相当する部分についてそれぞれ必要な分類を行ない、オントロジを構築するためであり、また、構造化手段3が、オントロジ化手段2で生成したオントロジ内の各属性についてその必要度と相補関係を対応する属性値の集合から判定し、それぞれの判定結果に基づいて属性の種類や階層構造を決定するためである。
また、本実施形態によれば、生成したオントロジに当該オントロジの作成日時や作成者、信頼度などを示すメタデータを付与することで、メタデータを用いたオントロジの分類やフィルタリングが可能になる。
次に、上述した実施形態1を更に詳細に具体化したものを述べる。なお、以下の構成及び動作の説明において、上述した構成及び動作の同様のものについては、適宜省略して説明する。
図4は、実施形態1におけるデータ入力手段1によって入力されるデータの一例である。図4を参照すると、データ入力手段1がオントロジを生成するために入力するデータとして、オントロジの各要素名の名前空間を表すnamespace要素と入力データ本体を表すbody要素に加え、入力データの作成者を表すcreator要素、入力データの作成日時を表すtimestamp要素、作成された入力データの信頼度を表すrating要素、入力データの作成に利用した情報源を表すsource要素がそれぞれメタデータとしてXML形式で記述されている。また、入力データ本体はさらに主題(subject)、属性(property)、属性値(object)の少なくとも3種類に分類され、これら3種類のデータ1つずつからなる組を1つのトリプルとして、1つ以上のトリプルがCSV形式で記述されている。加えて、当該body要素は、各トリプルの主題がある特定の概念を表しているのか、ある特定の概念の事例を表しているのかを区別するtype属性と、その特定の概念を識別するための名称を指定するclass属性とを伴っている。
データ入力手段1が対象とするデータは、図4のようなXML形式に限定されず、入力データ本体もCSV形式に限定されない。また、メタデータの有無や種類、メタデータの付与単位も図4の例に限定されない。例えば、図4のように入力データに含まれる全トリプルに共通したメタデータを各種類1つずつ記載する替わりに、body要素内の各行に個々のトリプルに対応したrating要素などのメタデータを記述しても良く、全トリプルで値が共通のメタデータだけを別途記述しておき、個々のトリプルで値の異なるメタデータはそれぞれのトリプルに対応する形で記述しても良い。さらに、入力データはテキストデータではなくXMLのDOMオブジェクトのようなバイナリデータであってもよく、入力データ本体も「主題、属性、属性値」のトリプルに限定する必要は無い。ただし、以下ではトリプルを基本単位としたオントロジを想定し、図4の例で記載した各種の要素や要素属性がそれぞれ入力データに含まれるものとして説明を進める。
図5は、図2に示した実施形態1におけるオントロジ化手段2の処理手順をさらに詳細に説明したフローチャートである。
主題分類手段201は、データ入力手段1が入力する入力データを受け取ってその入力データに含まれている主題が概念を表す「クラス」か否かを判定し、クラスでない場合は主題がある概念の事例(インスタンス)であるものとする。主題分類手段201は、主題がクラスか否かを、例えば図4に示した入力データではbody要素のtype属性の値を参照することによって判断する。クラスまたはインスタンスは、いずれも「リソース」の一種として記述されるものとする。リソースとは、一意に識別可能な事物であり、例えばオントロジ記述言語のOWLでは1つのリソースを1つのURI(Uniform Resource Identifier)で表す。すなわち、OWL形式で表現されるオントロジを生成するためには、主題はURIを持つリソースでなければならない。本発明の実施形態におけるオントロジ化手段2が出力するオントロジは、OWL形式のオントロジに限定されないが、図5に示した詳細な処理手順においてはOWLと同様に主題および属性はそれぞれリソースの一種であり、属性値はリソースまたはリテラルの一種であることを前提としている。
主題分類手段201は、データ入力手段1から受け取った入力データに含まれている主題がクラスであって、図4の例のように入力データがどのクラスについての記述かを指定するclass属性を持つ場合、主題のクラスとclass属性で指定されたクラスとが同じであれば、そのクラスをそのまま出力すべきオントロジの主題とする。主題分類手段201は、主題が表すクラスと指定クラスとが異なる場合、主題が表すクラスを指定クラスと同じ概念を表す別クラスまたは別名称であると判断し、指定クラスとの関係を所定のオントロジ記述形式で記述し、指定クラスを出力すべきオントロジの主題とする。
主題分類手段201は、主題がクラスではない場合、次に主題が既知のリソースか否かを判定する。主題分類手段201は、オントロジ生成装置10に予め記録されているリソースのうちの1つが主題と適合する場合、その既知のリソースを出力すべきオントロジの主題とする。主題分類手段201は、入力データの主題が既知のリソースでない場合、入力データ中に主題として記載されたデータを新たなリソースとして記録し、当該リソースを改めて出力すべきオントロジの主題とする。
主題分類手段201における処理が終了すると、次に属性分類手段202の処理に入る。属性分類手段202は、入力データ中の属性が前述の主題の場合と同様に既知の属性を表すリソースか否かを判定し、既知の属性であればそのまま出力すべきオントロジの属性とする。属性分類手段202は、既知の属性でない場合は、入力データ中に属性として記載されたデータを新たな属性を表すリソースとして記録し、当該リソースを改めて出力すべきオントロジの属性とする。
属性分類手段202における処理が終了すると、属性値分類手段203の処理を行なう。属性値分類手段203は、まず前述の属性分類手段202によって確定した属性の値域を参照し、その値域がリテラルか否かを確認する。
オントロジにおいて主題と属性値との関係を表す属性は、それぞれに定義域と値域を持つものとする。定義域は、主題そのものが表すクラスまたは主題が属する上位のクラスであり、値域は属性値が取りうる値の特性や集合を規定したクラスである。例えば、「人間」クラスを定義域とする「性別」属性の値域は、「男性」と「女性」の2種類のクラスから構成される集合クラスとして表現できる。属性分類手段202において新たな属性を定義する場合、その属性の値域が不明であれば適当なURIを持つ新たなクラスを生成してそのクラスを値域とすることで、属性を定義できる。
「リテラル」とは、記述されたデータが特定の概念や事例を表すのではなく、文字列や数値で記述されたデータそのものを表すクラスである。日付や電話番号、ある事物の略称などはリテラルに該当する。OWLの場合、属性の値域がリテラルであることは「リテラル」クラス(rdfs:Literal)を用いて表現できる。
属性値分類手段203は、属性分類手段202で分類された属性の値域がリテラルであれば、入力データ中に属性値として記載されたデータそのものを出力すべきオントロジの属性値とする。属性値分類手段203は、属性の値域がリテラルでない場合は、入力データ中に記載された属性値がリソースを表すか否かを判定し、リソースであればそのまま出力すべきオントロジの属性値とする。属性値分類手段203は、属性の値域がリテラルではなく記載された属性値がリソースでもない場合は、入力データ中に属性値として記載されたデータを新たなリソースとして定義し、その定義したリソースを出力すべきオントロジの属性値とする。
例えば、図4に示したような形式の入力データにおいて、「主題、属性、属性値」のトリプルに変換される入力データ本体のうちの1行が、「吉田葉子 rdfs:label 高橋葉子」であったとする。rdfs:labelはOWLにおいて主題の別名を定義するための属性であり、主題が人物である場合はその旧姓や愛称などをオントロジに記述する場合に利用できる。rdfs:labelの値域はリテラルであるため、オントロジ化手段2は、rdfs:labelを既知だとすれば、これと前述の「高橋葉子」という文字列は共にそのまま各々オントロジの属性および属性値として記述される。オントロジ化手段2は、上記トリプル中の「吉田葉子」はリソースとして記述する。
以上の主題分類手段201から属性値分類手段203までの各処理で確定した主題、属性、属性値の組を、オントロジ記述手段204は、1単位のオントロジとしてOWL形式などの所定の形式で記述する。
さらに、メタデータ付与手段205により、所定の形式で記述された1単位のオントロジに対して、入力データ中で指定されたメタデータを付与しても良い。
図6は、以上説明したオントロジ化手段2による処理の結果として出力されるオントロジの例である。図6に示したオントロジは、W3Cが提案しているNotation3という構文規則を用いてOWL形式で記述したものである。図6中の「@prefix」は各種の名前空間を定義しており、入力データで明示的に指定した名前空間以外にも、OWL形式のオントロジで利用されるRDFやRDF Schema、OWLの各語彙を指定するための名前空間、メタデータや主題、属性、属性値を識別するための語彙を表す名前空間がそれぞれ記述されている。
名前空間の定義の後に続くデータが生成されたオントロジ本体である。オントロジ本体の1行目にある「pr1:i001 rdf:type pr1:お客様情報.」は、Notation3構文において主題「pr1:i001」が「pr1:お客様情報」クラスに属するリソースであることを表している。「pr1:001」は、オントロジ化手段2において自動的に定義されたリソースであり、図6に記載されている当該リソースを主題とした「主題,属性,属性値」の組(「pr1:001,rdfs:label,“鈴木太郎”」「pr1:001,pr1:氏名,pr1:鈴木太郎」「pr1:001,pr1:職業,pr1:自営業」「pr1:001,pr1:資料送付先,pr1:自宅」)からなる1つの事例を表す。また、図6の中カッコで囲まれた個々のトリプルには、それぞれ入力データ中で指定されたメタデータ(当該トリプル全体を主題とし、「meta:creator」などを属性とした「主題,属性,属性値」の組)が付与されている。
なお、図6のオントロジ記述例では、中カッコで囲まれた各トリプルに対して全て同じメタデータが個別に記述されているが、オントロジ格納手段4においてはメタデータをオントロジ本体のトリプルとは別のデータベースなどに格納し、各トリプルと当該トリプルに対応するメタデータとはそれぞれ参照IDを持たせて相互参照するように実装してもよい。参照IDでトリプル単位や一連のメタデータ単位に参照可能とした場合、同じ内容のメタデータを複数のトリプルと結び付けてメタデータの格納に必要な記憶容量を抑えることができる。
例えば、データ入力手段1により「お客様情報」として図7に示したようなデータが得られたとする。図7では属性(「氏名」「職業」など)と属性値(「鈴木太郎」「自営業」など)のみを対応表として記載しているが、実際の記述形式は図4に示したような形式やその他の形式であっても良い。図7のようなデータから、オントロジ化手段2により、「お客様情報」クラスを主題とした図8のようなオントロジが生成できる。
図8は、図6に示したようなオントロジをグラフとして図示したものである。図8では、異なるクラス間の関係を、クラスを表す2つのノードとそれらのノード間を結ぶ矢印で表現しており、各矢印はそれぞれ1種類の属性を表している。ある属性を表す矢の根元のノードがその属性の定義域を、矢先のノードがその属性の値域を、矢印に付随する文字列(「has氏名」など)が属性名をそれぞれ表している。なお、このように表現した各クラス間の関係について、同一のクラスはグラフ内で単一のノードにより表している(図8においては「お客様情報」ノードのみが該当)。
また、図7の表を参照すると、「資料送付先」属性の属性値には「自宅」と「勤務先」しか無いことが分かる。このように、ある属性に対する属性値の種類が規定数以内であれば、その属性の値域を具体的な属性の和集合として定義することとしても良い。前述の「資料送付先」属性の場合、その値域は{「自宅」,「勤務先」}という2要素からなる集合のクラスで表すことができる。これは、OWLで記述した場合には値域(rdfs:range)の記述に「owl:unionOf」という和集合を表す属性を用いて次のように表現できる(接頭辞pr1は便宜上付与した名前空間を表す)。ただし、このように記述する場合は「自宅」と「勤務先」は共にクラスとして定義しておく必要がある。
<owl:ObjectProperty rdf:about=”&pr1;資料送付先”>
<rdfs:domain rdf:resource=”&pr1;お客様情報”/>
<rdfs:range>
<owl:Class>
<owl:unionOf rdf:parseType=”Collection”>
<owl:Class rdf:about=”&pr1;自宅” />
<owl:Class rdf:about=”&pr1;勤務先” />
</owl:unionOf>
</owl:Class>
</rdfs:range>
</owl:ObjectProperty>
オントロジ化手段2によって得られた図8のようなオントロジを構造化手段3における必要度判定手段301が参照すると、属性ごとに属性値の充足率を評価する。「has氏名」属性および「has資料送付先」属性には全ての事例(図7の表における各レコードに相当)に属性値があるのに対し、「has職業」「has自宅住所」「has勤務先住所」の各属性に対しては属性値のない事例が存在する。必要度判定手段301は、属性値の充足率をある属性に対して全事例における属性値が含まれる事例の割合と定義し、充足率の閾値を例えば80%に設定する。図7を参照すれば、「職業」12の属性値充足率は60%、「自宅住所」13では60%、「勤務先住所」14では40%となり、いずれも閾値の80%を下回っている。同様の評価で「氏名」11と「資料送付先」15の属性値は共に100%であり、閾値80%を上回っている。結果として、必要度判定手段301は、「お客様情報」10のクラスにおける「has氏名」属性と「has資料送付先」属性の必要度は高く、「has職業」、「has自宅住所」、「has勤務先住所」の各属性の必要度は低いものと判定する。
必要度判定手段301は、以上のような充足率の評価に基づく必要度合いの判定結果をオントロジに反映する。必要度判定手段301は、必要度が高いと判定したオントロジの属性をオントロジ化手段2で生成されたまま維持する。必要度判定手段301は、必要度が低いと判定された属性について、その値域であったクラスを定義域に、定義域であったクラスを値域に入れ替え、また、属性名も必要に応じて変更する。必要度判定手段301はが性名の変更する方法としては、例えば図8において「has職業」であったものを「is職業」とする。これは、「has職業」属性が“「お客様情報」クラスが「職業」リソースを属性値として持っている”ことを表すのに対し、「is職業」は“「職業」リソースが「お客様情報」クラスの属性値の1つである”ことを表す。ここで、前者は「お客様情報」クラスが「職業」クラスを常に必要としているのに対して、後者は「お客様情報」クラスが必ずしも「職業」クラスを必要とはしていないことを意味するものと解釈できる。
以上のように必要度判定手段301が属性の必要度合いをオントロジに反映した結果の例を図9に示す。
なお、ここで説明した必要度判定手段301における属性の必要度合いの判定方法およびそのオントロジへの反映方法は一例に過ぎず、属性の必要度合いを上記の充足率とは異なる評価方法で判定しても良く、判定結果は必要度が高いものと低いものの2種類でなくともよい。例えば、前記充足率が10%未満の属性は不必要と判定して当該オントロジから削除しても良い。
必要度判定手段301の処理に続き、相補関係判定手段302がオントロジを参照すると、それぞれの事例単位で前述したような相補関係にある属性の組を探す。相補関係判定手段302は、例えば、ある属性A1が事例I1において属性値を持たなかった場合、同事例I1において属性値を持つ属性A2を見つけたとすると、逆に属性A2が属性値を持っていない事例I2において属性A1が属性値を持っているかを確認する。こうして相補関係判定手段302は、全ての事例について属性A1と属性A2が互いに一方の属性値の欠落を他方が補う関係が成立することが確認した場合、これらの属性を相補関係と判定する。例えば、図7に示したデータでは、「自宅住所」属性と「勤務先住所」属性では互いの属性値が相補関係であることが分かる。
相補関係判定手段302は、相補関係の判定結果を、相補関係にある全属性の属性値の和集合をクラスと属性を用いて表現することで、オントロジに反映する。相補関係判定手段302は、例えば図9に示したグラフのようなオントロジをOWLで記述する場合、図9で属性値にあたる「自宅住所」13と「勤務先住所」14が相補関係にあると判定すると、これら2つのクラスの和集合を表す仮のクラスを定義する。相補関係判定手段302は、仮のクラスにクラス名16を与えても省略してもよく、またその仮のクラス16と「お客様情報」クラスとを関連付ける属性には例えば何らかの要素を持つことを表す「hasPart」といった属性名を与えたり、より具体的に「自宅住所」13と「勤務先住所」14の共通部分を引用して「hasSome住所」といった属性名を与えたりしても良い。そして相補関係判定手段302は、「お客様情報」クラスと「自宅住所」13および「勤務先住所」14の各クラスを関係付けていた「is自宅住所」および「is勤務先住所」属性は共に削除し、替わりに前記仮のクラス16と「自宅住所」13および「勤務先住所」14の各クラスとを、「owl:unionOf」属性と要素のリストを表す「rdf:List」クラス17で関連づける。結果として、図10に示したような相補関係判定手段302によるオントロジが得られる。
以上説明したように、オントロジ構造化手段3における必要度判定手段301および相補関係判定手段302によってオントロジを構造化することができ、例えば図7に示したようなデータを元に生成された図8に示したようなオントロジが、図10に示したようなオントロジへと構造化される。図10に示したオントロジでは、「お客様情報」クラスで表される概念が、「氏名」と「資料送付先」を必ず含み、さらに「自宅住所」と「勤務先住所」のうちいずれかを必ず含み、「職業」は必ずしも必要ではないが要素にはなりうることを表している。
以上のような知識を1つのオントロジで表現できることにより、例えばある文書やデータベースがお客様情報を含んでいるか否かを当該オントロジによって精度良く判別することができる。逆に、図8に示したオントロジを用いて文書やデータベースにお客様情報が含まれているかどうかを判別した場合、氏名と資料送付先および自宅住所か勤務先住所のいずれかを含んでいるものの、職業に関する情報を含んでいない場合や、自宅住所と勤務先住所のいずれかのみしか含んでいない場合には、お客様情報に該当しないと誤判断する可能性がある。
また、必要度判定手段301および相補関係判定手段302による処理結果は、前述のように属性の追加や変更によって表現するほか、図11に示したように、該クラスと該属性および属性値のトリプル全体に対して「必要度」という属性を与え、その属性値で必要度合いを表しても良い。図11では、「お客様情報,has氏名,氏名」といった各トリプルに対する「必要度」属性を与え、その属性値として「必須」「非必須」「選択」のいずれかを与えている。このような表現は、OWLで記述する場合にはレイフィケーション(Reification)という記述方法によって実現できる。なお、「必要度」属性が「選択」となっているトリプル同士は、その各トリプル内の属性が前述したような互いに相補関係にあることを表している。
オントロジ格納手段4は、以上の各処理を施したオントロジを再利用可能な形で格納する。例えば、リレーショナルデータベースやXMLデータベースにオントロジを格納することで、オントロジの検索や部分的な抽出を可能にする。
図12は、第1の実施形態によるオントロジ生成装置のハードウェア構成を示すブロック図である。
図12を参照すると、本実施形態によるオントロジ生成装置10は、一般的なコンピュータ装置と同様のハードウェア構成によって実現することができ、CPU(Central Processing Unit)101、RAM(Random Access Memory)などのメインメモリであり、データの作業領域やデータの一次退避領域に用いられる主記憶部102、液晶ディスプレイ、プリンタ、スピーカーなどによるデータの出力部103、キーボードやマウス、スキャナなどによるデータの入力部104、周辺機器と接続してデータの送受信を行なう通信部105、ROM(Read Only Memory)、ハードディスク装置などである補助記憶部106、以上の各構成要素を相互に接続するシステムバス107などを備えている。
本発明の実施形態によるオントロジ生成装置10は、その動作を、オントロジ生成装置10内部にそのような機能を実現するプログラムを組み込んだ、LSI(Large Scale Integration)などのハードウェア部品からなる回路部品を実装してハードウェア的に実現することは勿論として、上記した各構成要素の各機能を提供するプログラムを、コンピュータのCPU101で実行することにより、ソフトウェア的に実現することができる。
すなわち、CPU101は、補助記憶部106に格納されているプログラムを、主記憶部102にロードして実行し、オントロジ生成装置10の動作を制御することにより、上述した各機能をソフトウェア的に実現する。
以上説明したオントロジ生成装置10の動作にかかる一連のオントロジ生成方法によれば、「主題、属性、属性値」を1レコードとした表構造を持つデータを入力として、W3Cで策定された標準のオントロジ記述言語OWLやこれに類するオントロジ記述形式に基づくオントロジを自動的に生成できる。また、入力されたデータの属性値に相当する部分の集合から、生成されたオントロジが持つ属性それぞれについて、必須属性か非必須属性か、さらには属性値同士が相補関係にある属性かを判定し、これらの判定結果を属性の向きおよび属性名の変更や、複数属性の階層構造化によって表現できる。
(第2の実施形態)
第2の実施形態について説明する。
図13は、本発明によるオントロジ生成装置の第2の実施形態を示すブロック図である。図13において、データ入力手段1、オントロジ化手段2、構造化手段3、オントロジ格納手段4は、それぞれ第1の実施形態における同名の手段と同様であるため、これらの説明は省略する。
図13を参照すると、第2の実施形態では、第1の実施形態に加えて属性統合手段6と、事例獲得手段7とをさらに備える。
属性統合手段6は、構造化手段3から受け取ったオントロジの中で同一のクラスが持つ属性(同一のクラスを定義域とする属性)のうち、それらの属性の値域(属性値の集合)も同一とみなせる場合、それらの属性同士を統合する。属性統合手段6は、統合後の属性名として、統合前の属性のうちより多くの属性値を持つ方の属性名を採用する、または統合前の各属性名をそれぞれ形態素解析し、より形態素の多い方を採用する、または統合前の各属性名を入力キーワードとしてWeb検索を行ない、より多くの検索結果が得られた方を採用する、などの基準で選ぶ。
事例獲得手段7は、属性統合手段6が属性同士を統合したオントロジを使って当該オントロジの事例となるデータを更に収集する。事例獲得手段7は、事例の獲得手順として、例えば、まず事例を得たいクラスをオントロジ中から選択し、そのクラスを定義域または値域とする属性を当該オントロジから収集する。
次に、事例獲得手段7は、収集した属性のうち前記選択したクラスを定義域とする全ての属性の名前(属性名)を文字列として含むようなWeb上のページやファイルシステム上のファイル、またはデータベース上のテーブルを検索する。ただし、属性名が「has氏名」のように「has」+属性値名といった一定の規則に基づいて構成されている場合は、事例獲得手段7は、後方の属性値名のみを検索キーワードに使うなどのヒューリスティックな方法を採っても良い。
また、属性名が図10の「owl:unionOf」のような複数属性の和集合で表されている場合は、事例獲得手段7は、その各属性の属性値である「自宅住所」と「勤務先住所」をそれぞれキーワードとして個別に検索した結果を統合(その際、重複したページやファイル、テーブルは削除)すればよい。
さらに、事例獲得手段7は、属性名または属性値名をキーワードとして検索するだけでなく、その変形(例えば「自宅住所」を「自宅」と「住所」に分けて2つのキーワードのANDで検索するなど)による検索や、文字列の部分一致による検索、「氏名」を「名前」などの同義語に展開してそれぞれをキーワードとした検索などの方法で、より網羅的な事例の収集を図っても良い。
以上のような検索によってWebページやファイル、データベース上のテーブルが収集できると、事例獲得手段7は、それらのデータに含まれる属性と各属性の属性値を抽出し、データ入力手段1で入力されるデータと同じ形式の事例集合にまとめる。事例獲得手段7は、属性の抽出では、検索時に使用したクラスの属性だけでなく、収集したデータに含まれる属性全てを抽出しても良い。また、事例獲得手段7は、属性値の抽出方法としては、対象がデータベースのテーブルであればそのままSQLなどを使って各属性に対応するフィールド内のデータを抽出し、対象がWebページやファイルの場合は、HTMLタグの解析などによってそこにフィールド名として検索キーワードに使った属性名を含む表や表相当の記述があれば、それらに含まれる属性名に対応した各フィールドから属性値を抽出することができる。
また、事例獲得手段7は、上記のようにして得られた属性値の集合を、属性ごとに先のオントロジ生成時に入力されたデータに含まれる属性値と比較し、共通した属性値が所定の数以上含まれていれば新たに収集した属性値の集合全体を有効と判断する、といった方法により、新規獲得事例の精度を確保するようにしても良い。
また、事例獲得手段7は、検索によって収集したデータから属性値を抽出する際には、定義域が前記選択したクラスである属性以外にも、値域が当該クラスであり且つ属性名が「is」+属性値名である場合、そのような属性の属性値も、その属性の定義域である属性値名がフィールド名に合致するフィールドのデータ集合を属性値集合として抽出するようにしても良い。
以上のようにして事例獲得手段7によって得られた事例集合を、オントロジ化手段2を用いて再びオントロジ化する。オントロジ化手段2は、過去に生成されたオントロジに適合するデータを収集し、再びオントロジ化することにより、生成済みのオントロジには無い新たな属性を追加したり、個々の属性や複数の属性からなる構造を修正したりする。
また、図14は、図3に示した前記構造化手段3に対し、さらに上下関係判定手段303を加えた場合の構成を示すブロック図である。上下関係判定手段303は、ある2つ以上の特定の属性に対応する属性値の集合が、それらとは別の特定の属性に対応する属性値の集合に包含される場合、且つそれら包含関係が全ての事例内でも個別に成立する場合、前者の当該2つ以上の属性は後者の属性の下位属性であると判定し、その判定結果をオントロジに反映する。
事例獲得手段7により、過去に生成したオントロジを用いて新たに同じ概念を表すオントロジを生成した際、前記上下関係判定手段303は、過去に生成したオントロジと新たに生成したオントロジとの間で上記のように一方の1つの属性と他方の2つ以上の属性とに属性値の包含関係が検出されれば、後者2つ以上の属性を前者1つの属性の下位属性としてオントロジに階層構造で前述の包含関係を表現する。
第2の実施形態によれは、オントロジ生成装置が属性統合手段6と事例獲得手段7とをさらに備え、加えて構造化手段3に上下関係判定手段303をさらに備えることにより、外部のサービスやシステムが持つデータからオントロジを生成すると共に当該オントロジを継続的に更新し、それらのサービスやシステムに関するデータの変化を反映した最新の知識をオントロジとして他のサービスやシステムにも提供可能になる。また、同一のクラスに関して異なる構造のオントロジを複数生成し統合することで、当該クラスとその属性によって表される概念の定義を拡充していくことができる。
次に、上述した実施形態2を更に詳細に具体化したものを述べる。なお、以下の構成及び動作の説明において、上述した構成及び動作の同様のものについては、適宜省略して説明する。
例えば、図7に示したようなデータから得られた図10に示したようなオントロジがオントロジ格納手段4によって既に格納されているものとし、事例獲得手段7により当該オントロジを使って図15に示したようなデータが新たに得られた場合を考える。図15に示したようなデータを入力データとして、これまでの説明と同様にオントロジ化手段2によってオントロジを生成すると、図16のようなオントロジが得られる。図16に示したオントロジは、図10に示した元のオントロジに加えて、新たに「hasEメールアドレス」という属性と「Eメールアドレス」という属性値を表すクラスが加わっている。
上記のようなケースは、ある情報源からデータを収集してオントロジを生成し、ある程度時間が経ってから同オントロジを用いて以前と同じ情報源からもう一度データを収集した場合に起こりうるものと推測できる。すなわち、当該情報源におけるシステムやサービスの変更に伴うデータ構造の変化が、オントロジに対しても反映される。
事例獲得手段7による別の事例の獲得方法として、前述の手順において事例の検索キーワードに属性名や属性値名を用いる替わりに、各属性値の判定ルールの組を用いてもよい。事例獲得手段7は、例えば、まず図10に示した「お客様情報」クラスに関する新たな事例を収集する際、同クラスを定義域とする属性の値域を表すクラス(「氏名」、「自宅住所」と「勤務先住所」の和集合、「資料送付先」)を、ヒューリスティックな手法もしくは人手によってそれぞれの属性値集合が満たす判定ルールで定義する。事例獲得手段7は、「氏名」属性のインスタンスが全て人の姓と名の組であるため、その属性値の判定ルールを「姓+名」のように表して、人名辞書を用いることで新たな事例を獲得する。事例獲得手段7は、同様に「自宅住所」と「勤務先住所」の和集合が、全て都道府県名と市区町村名の連続で始まる文字列としてルール化して、地名辞書で検出する。「資料送付先」属性の値は「自宅」と「勤務先」のいずれかを検出すればよいため、「自宅or勤務先」とルール化できる。
このようにそれぞれルール化した結果の属性値定義の組は、{「姓+名」、「都道府県名+市区町村名」、「自宅or勤務先」}と表すことができる。この属性値定義の組を用いた事例獲得手段7による新たな事例の収集は、収集対象の情報源にある文字列データに対してChaSen(http://chasen.naist.jp/hiki/ChaSen/)などの形態素解析プログラムを用いて形態素解析を行なうことにより、姓や名、地名といった単語単位の分類を行ない、それら分類された単語を検索することで実現できる。例えば、ある情報源のデータに「酒井一郎 自営業 京都府八幡市・・・ 勤務先」といった一連の文字列が含まれていたとすると、この文字列を先頭から順に形態素に分解し分類することで、「名詞−人名−姓(酒井)名詞−人名−名(一郎) 名詞(自営業) 地名−都道府県名(京都府)地名−市区町村名(八幡市)・・・ 名詞(勤務先)」のような結果が得られる。これを前述の属性値の組と照合することにより、「酒井一郎」は「姓+名」に合致し、「京都府八幡市」は「都道府県名+市区町村名」に合致し、「勤務先」は「自宅or勤務先」に合致するため、「お客様情報」クラスの事例として検出できる。また、「自営業」は「お客様情報」クラスを上位クラスの1つとする「職業」クラスの値の1つに合致するため、これも検出可能である。ただし、「職業」クラスは「お客様情報」クラスの必須属性ではないため、上記データが「自営業」を含んでいない場合も「お客様情報」クラスの事例と判断してよい。
ここで例えば、事例獲得手段7により「お客様情報」クラスに関する事例を前述の方法で収集し、図17に示したようなデータが新たに得られた場合を考える。図17のデータは、図7のデータと比較すると事例数が3件分増えているが、逆に「都道府県名+市区町村名」に合致して抽出されたデータは「自宅住所」と「勤務先住所」の区別が無く、単に「住所」で表されている。この「住所」のような属性名は、事例獲得手段7で検出した事例が表の一部であった場合、その表の各フィールド名をそのまま抽出することで得ることができる。同様に、図17の表では、「自宅or勤務先」に合致して抽出されたデータの属性名は「資料配布先」となっており、元のオントロジにおける「資料送付先」とは異なる。
図17に示したようなデータが得られると、図13に示したオントロジ生成装置の構成により、再びオントロジ化手段2によって当該データのオントロジ化が行なわれる。その結果、図18に示したグラフのようなオントロジが生成される。図18に示したオントロジは、図10に示したような既に生成済みのオントロジと同一の「お客様情報」クラスに関するオントロジであり、両オントロジを合わせると図19のような1つのオントロジとして表すことができる。
図19のように表されたオントロジの属性と属性値の組による事例の一覧を表にすると、図20のようになる。図20の表は、図7の表および図17の表におけるそれぞれ最初の5人分のレコードが同一人物に関する情報だと判断して統合したものである。このようなレコードの統合は、「氏名」属性の属性値と他1つ以上の属性の属性値とが共に共通であるといったヒューリスティックな判断基準や、特開2006−163941号公報で開示されているような重複レコード検出の手法を適用することで実現できる。
図20の表において、「資料送付先」属性の属性値のうち値のある分は全て「資料配布先」の属性値に等しいことが分かる。このように、共に所定の数または所定の割合以上のレコードで値が等しく、且つ少なくとも一方の属性の属性値集合が他方の属性の属性値集合を包含している場合、両属性同士は同一属性またはより多くの属性値を持つ方が上位属性である可能性が高く、両属性を統合することとしてもよい。
該統合の方法としては、例えば、一方の属性の属性値数が他方の属性の属性値数より所定の割合より多い場合は、前者の属性を上位属性、後者の属性を下位属性とし、属性値数の差が所定の割合を上回らない場合は、前者の属性の属性名およびその値域を表すクラス名をそのまま残し、後者の属性の属性名およびその値域を表すクラス名をそれぞれ前者の対応する属性名およびその値域を表すクラス名の別名としてオントロジ内に定義することとすればよい。
同様に、図20の表において、図18に示したようなオントロジから互いに相補関係となっている「自宅住所」と「勤務先住所」それぞれの属性値がいずれも「住所」における各々同一レコードの属性値と等しいことが分かる。加えて「住所」の方がより多くの属性値を有することから、「住所」は「自宅住所」および「勤務先住所」の和集合として定義される属性と同一属性またはその上位属性であることが推定でき、両属性を統合することとしてもよい。
属性の統合においては、属性名同士を比較して、両者の文字列間の編集距離を計算して所定の値以内であるか否かを評価したり、同義語辞書やシソーラスまたはこれらに相当する既存のオントロジを利用して属性名同士が合致するか否かを評価したりすることにより、該統合の可否をさらに判断しても良い。
以上のように、図20に示したような属性集合と各属性の属性値集合から共通性の高い属性同士を判定し、図18に示したようなオントロジのうち共通性の高い属性同士を統合した結果の例を図21に示す。
図21では、「has資料配布先」属性と「has資料送付先」属性、およびそれぞれの値域を表すクラスが統合され、「資料送付先」クラスに使われた名前は「資料配布先」というクラスの別名(OWLではrdfs:label属性で表現できる)として定義されている。また、図21には記載していないが、「has資料配布先」属性に対しても、「has資料送付先」という別名を定義することができる。
また、図21では、「has住所」属性の値域を「住所」クラスで表し、該「住所」クラスを「owl:unionOf」属性を用いることにより「自宅住所」クラスと「勤務先住所」クラスの和集合として定義している。これは、「has住所」属性の値域である「住所」クラスが「hasSome住所」属性の値域に相当する「自宅住所」クラスと「勤務先住所」クラスの各インスタンスの和集合を包含しているため、前記「has資料配布先」属性と「has資料送付先」属性との統合と同様にして統合した結果である。
前記「has住所」属性と「hasSome住所」属性との統合は、前記上下関係判定手段303を新たに備えて実現してもよい。上下関係判定手段303を適用することにより、「has住所」属性の互いに異なる属性値数が「hasSome住所」属性の互いに異なる属性値数に比べて所定の数以上多い場合、「has住所」属性と「hasSome住所」属性を単一の属性に統合するのではなく属性の階層関係として表すことができる。すなわち、「has住所」属性の値域を表す「住所」クラスを「hasSome住所」属性の主題のクラスとして再定義し、図22に示したグラフのように表現できる。これにより、「has住所」属性の値域には、「自宅住所」と「勤務先住所」以外に図22の破線で示した「他の種類の住所」21が存在しうることをオントロジ上で表現することができる。
なお、第2の実施形態によるオントロジ生成装置は、図12に示した第1の実施形態によるオントロジ生成装置と同じハードウェア構成により実現可能である。
以上説明した本実施形態におけるオントロジ生成装置10の動作にかかる一連のオントロジ生成方法によれば、同時または異なるタイミングで生成された同一クラスに関する属性と属性値の集合で構成されたオントロジについて、2つ以上の冗長な属性を各々の属性値と共に統合し、且つ統合後の主たる属性名に対して他の属性名を別名として残すことで、該統合前のいずれ属性名でもオントロジを検索または参照できる。
また、属性値集合が同一と見なされず一方が他方を包含する関係の場合、そのような属性同士を上位属性と下位属性の関係と判定し、オントロジの階層構造で表現することができる。
また、生成されたある特定のクラスに関するオントロジについて、その属性名や属性値名を検索キーワードとしたり、または各属性値の集合からそれぞれの属性値をルール化した検索条件を設定したりすることにより、当該クラスに関する事例となるデータを更に収集し、前記オントロジを拡張または修正するための新たなオントロジ生成用データとすることができる。
更に、上述した実施形態に、属性間の依存関係を判定して自動的に階層構造の追加および/または階層構造の追加案をユーザに提示する依存関係判定手段304をさらに加えた例について説明する。
図23は、図14に示した前記構造化手段3に対し、属性間の依存関係を判定して自動的に階層構造の追加および/または階層構造の追加案をユーザに提示する依存関係判定手段304をさらに加えた場合の構成を示すブロック図である。
依存関係判定手段304は、個々の事例(例えば図7の表における各レコード)における属性値の間に相関性がある属性同士を依存関係として1つの組にまとめる操作をオントロジに対して行なう。
例えば、図24は、少なくとも属性の1つに「has職業」を持つ「お客様情報」クラスが「has会社名」属性をさらに持つ場合のオントロジを表した説明図である。「has職業」属性と「has会社名」属性それぞれの値は図25のような対応関係で得られているとすると、「has職業」属性の属性値が「会社員」または「公務員」の場合のみ「has会社名」属性の属性値が存在し、「has職業」属性の属性値が「学生」や値なしの場合には「has会社名」属性に属性値が無いことが分かる。
このように、依存関係判定手段304は、同一のクラスに関する複数の属性について、ある属性の属性値の有無または特定の属性値が他の属性の属性値の値や値の有無を決定する場合、両属性は依存関係にあると判断してもよい。依存関係にある属性はその上位属性を表すクラスを生成し、図26に示したように新たに生成したクラスを中間ノードに加える階層化によって、当該依存関係を表すことができる。すなわち、図26の例においては「has職業」属性の属性値と「has会社名」属性の属性値とは依存関係のある組として「お客様情報」クラスの属性を成す。さらには、図31で新たに追加した「要素1」クラスおよび「hasPart」(ある要素を持つことを表す属性)をユーザに案として提示することにより、図27に示すようにユーザが「要素1」クラスのクラス名を「職業」に、また「hasPart」属性を「has職業」に修正し、より正確なオントロジを得ることもできる。
依存関係判定手段304は、図23において構造化手段3に含まれる他の手段(必要度判定手段301、相補関係判定手段302、上下関係判定手段303)とは独立に機能し、それら他の手段のいずれかまたは全てが構造化手段3に含まれていなくとも良い。例えば、構造化手段3は、必要度判定手段301と依存関係判定手段304のみから構成されていても良い。
(第3の実施形態)
第3の実施形態を説明する。
図28は、第3の実施形態のオントロジ生成装置を示すブロック図である。図28において、オントロジ化手段2、構造化手段3、オントロジ格納手段4、属性統合手段6、事例獲得手段7は、それぞれ第3の実施形態における同名の手段と同様であるため、これらの説明は省略する。
図28を参照すると、第3の実施形態では、第1および第2の実施形態において備えていたデータ入力手段1を備えず、替わりに事例獲得手段7が最初のデータ入力手段1を兼ねている。すなわち、まず、最初に人手で作成したオントロジまたは既存のオントロジをオントロジ格納手段4に記録しておくか、直接事例獲得手段7に最初のオントロジを与えることで、当該オントロジが表す概念に適合した事例を収集し、新たなオントロジ生成のための入力データとする。
なお、第3の実施形態によるオントロジ生成装置は、図12に示した第1の実施形態によるオントロジ生成装置と同じハードウェア構成により実現可能である。
本実施形態によれば、第2の実施形態と比較して事例獲得手段7がデータ入力手段1の役割を兼ねることにより、第2の実施形態と同等の機能をよりシンプルな構成で実現できる。
(第4の実施形態)
第4の実施形態を説明する。
図29は、本発明によるオントロジ生成装置の第4の実施の形態を示すブロック図である。図29において、オントロジ化手段2、構造化手段3、オントロジ格納手段4、属性統合手段6、事例獲得手段7は、それぞれ第3の実施の形態における同名の手段と同様であるため、これらの説明は省略する。
図29を参照すると、第4の実施形態では、第3の実施形態に加えてデータ格納手段8と、事例数評価手段9とをさらに備えている。
データ格納手段8は、事例獲得手段によって獲得した新たなデータを格納する。
事例数評価手段9は、前記データ格納手段8によって格納されたデータを参照し、当該データに含まれる属性の種類の数と、当該データに含まれる属性値の種類の数とが、それぞれ所定の基準値以上であるか否かを確認する。
前記いずれかの種類の数が所定の基準値を下回っている場合、前記事例数評価手段9は、以降の構造化手段3または属性統合手段6において十分な判定が行なえないものとし、当該構造化手段3および属性統合手段6による処理を行なわず、オントロジ化手段2により生成されたオントロジをそのままオントロジ格納手段4によって格納する。
または、前記いずれかの種類の数が所定の基準値を下回っている場合、前記事例数評価手段9は、データの再収集を事例獲得手段7に要求することにより、不足した前記属性の種類の数および前記属性値の種類の数を補う。
本実施の形態によれば、収集したデータが属性の構造化や統合に十分なだけの属性の種類と属性値の種類を含んでいることを確認した上で、当該属性の構造化や統合を行なうため、当該属性の構造化や統合によるオントロジの修正がより適切に行なわれると共に、必要以上に属性の構造化や統合の処理を行なわないため、オントロジ生成処理全体の効率化を図ることができる。
以上、好ましい実施の形態を挙げて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形して実施することができる。
例えば、本発明におけるオントロジ化手段2、事例数評価手段9、構造化手段3、属性統合手段6の各手段は、これまで説明した実施の形態における接続順序に必ずしも制限されるわけではなく、図30に示したように、オントロジ化手段2と事例数評価手段9との間には順序関係を設けず、同様に構造化手段3と属性統合手段6との間にも順序関係を設けない構成とすることも可能である。また、本発明をソフトウェアとしてのプログラムとして構築した場合、そのプログラムを記録媒体(プログラムプロダクト)に記録することにより、商取引対象とすることが望ましいものである。
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は2007年5月31日に出願された日本出願特願2007−144866を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、入力されたデータに含まれる概念を、その概念の構成に関わる要素集合と、当該各要素と当該概念との関係を表す属性とを用いて構造的に表現することができるため、組織内のサーバや端末装置、またはインターネットのWebサイトなどに蓄積されたWebページ、ファイル、データベースなどに含まれる概念を効率よく抽出し、概念に基づく情報検索や情報分析を行なう際に有効である。また、本発明は、前記概念の構造的表現を新たな入力データによって拡張および修正していくことができるため、前記蓄積されたWebページやファイル、データベースなどの内容変更に伴う概念の変化にも素早く追従でき、当該概念の構造的表現を参照することによって組織内やインターネット上の概念構造の変化や新たな概念の発生を見つけ出すことができるほか、概念上の変化に伴う当該概念に基づいた情報処理システムの修正を効率的に行なうことができる。
本発明の第1の実施形態によるオントロジ生成装置の機能構成を示すブロック図である。 第1の実施形態によるオントロジ化手段の機能構成の例を示すブロック図である。 第1の実施形態による構造化手段の機能構成の例を示すブロック図である。 入力データの例を示す説明図である。 第1の実施形態によるオントロジ化手段の動作を示すフローチャートである。 第1の実施形態により生成されたオントロジの例を示す説明図である。 入力データの例を示す説明図である。 本発明により生成されたオントロジの表現例を示す説明図である。 本発明により生成されたオントロジの表現例を示す説明図である。 本発明により生成されたオントロジの表現例を示す説明図である。 本発明により生成されたオントロジの別の表現例を示す説明図である。 第1の実施形態によるオントロジ生成装置のハードウェア構成を示す説明図である。 本発明の第2の実施形態によるオントロジ生成装置の機能構成を示すブロック図である。 第2の実施形態による構造化手段の機能構成の例を示すブロック図である。 入力データの例を示す説明図である。 本発明により生成されたオントロジの表現例を示す説明図である。 入力データの例を示す説明図である。 本発明により生成されたオントロジの表現例を示す説明図である。 本発明により生成されたオントロジの表現例を示す説明図である。 複数の入力データを統合した例を示す説明図である。 本発明により生成されたオントロジの表現例を示す説明図である。 本発明により生成されたオントロジの表現例を示す説明図である。 図14に示した前記構造化手段に対し、依存関係判定手段304をさらに加えた場合の構成を示すブロック図である。 依存関係判定手段304を説明する為の図である。 依存関係判定手段304を説明する為の図である。 依存関係判定手段304を説明する為の図である。 依存関係判定手段304を説明する為の図である。 本発明の第3の実施形態によるオントロジ生成装置の機能構成を示すブロック図である。 本発明の第4の実施形態によるオントロジ生成装置の機能構成を示すブロック図である。 本発明の第4の実施形態によるオントロジ生成装置の別の機能構成を示すブロック図である。 汎用型のオントロジ生成装置の機能構成を示すブロック図である。 汎用型のオントロジ生成装置の別の機能構成を示すブロック図である。
符号の説明
1 データ入力手段
2 オントロジ化手段
3 構造化手段
4 オントロジ格納手段
5 オントロジ編集手段
6 属性統合手段
7 事例獲得手段
8 データ格納手段
9 事例数評価手段
10 オントロジ生成装置
101 CPU
102 主記憶部
103 表示部
104 入力部
105 通信部
106 補助記憶部
107 システムバス
201 主題分類手段
202 属性分類手段
203 属性値分類手段
204 オントロジ記述手段
205 メタデータ付与手段

Claims (38)

  1. オントロジを処理するオントロジ処理装置であって、
    文字列で表現された主題とその属性および属性値の組を含む事例データの集合から生成された所定形式のオントロジ構造を、前記事例データの集合に含まれる属性値の統計的特徴に基づいて修正すると共に、前記オントロジの属性を、属性値の特徴に基づいて変更する構造化手段を有し、
    且つ、前記構造化手段は、前記オントロジに含まれる個々の属性が、該属性と関連付けられた前記オントロジ内で定義される概念にとって必須な属性か、必須でない属性かを判定し、該判定結果に応じて該属性に関するオントロジの構造を修正する必要度判定手段を有することを特徴とするオントロジ処理装置。
  2. 前記必要度判定手段は、必須でないと判定した属性を、該属性の定義域と値域とが逆の属性に変更することを特徴とする請求項に記載のオントロジ処理装置。
  3. 前記必要度判定手段は、必須でないと判定した属性の名称を判定の結果を表す属性名に変更することを特徴とする請求項又は請求項に記載のオントロジ処理装置。
  4. 前記必要度判定手段は、前記判定の対象となった属性と、前記属性の定義域および値域に相当するオントロジ内の各要素との組を、判定の結果として記録することを特徴とする請求項から請求項のいずれかに記載のオントロジ処理装置。
  5. 前記構造化手段は、前記オントロジ内で互いに一方の属性値の存在が他方の属性値の欠如を補う相補関係にある属性を検出し、前記相補関係にある属性の属性値集合同士の和集合を値域とした新たな属性で、前記相補関係にある属性を置き換える相補関係判定手段を有することを特徴とする請求項1から請求項のいずれかに記載のオントロジ処理装置。
  6. 前記構造化手段は、オントロジ内で1つの属性が2つ以上の属性の上位属性となる上下関係を検出し、上位の属性の値域を下位の属性の定義域とした属性の階層構造を形成する上下関係判定手段を有することを特徴とする請求項1から請求項のいずれかに記載のオントロジ処理装置。
  7. 入力データをオントロジに変換するオントロジ化手段を有し、
    前記オントロジ化手段は、
    入力されたデータのうち主題を表す部分のデータがある特定の概念を表すものか否かを判定し、判定結果に基づいて前記主題を表す部分のデータの変換方法を決定する主題分類手段と、
    入力されたデータのうち属性を表す部分のデータが既知の属性か否かを判定し、判定結果に基づいて前記属性を表す部分のデータの変換方法を決定する属性分類手段と、
    入力されたデータのうち属性値を表す部分のデータが、リテラルか、既知のリソースかを判定し、判定結果に基づいて前記属性値を表す部分のデータの変換方法を決定する属性値分類手段と、
    前記主題、属性、及び属性値を表すデータを、前記決定された変換方法により変換した結果を用いて、所定の形式のオントロジを記述するオントロジ記述手段と
    を備えることを特徴とする請求項1に記載のオントロジ処理装置。
  8. 前記オントロジ化手段は、入力されたデータに含まれるメタデータを抽出し、前記オントロジ記述手段によって記述されたオントロジに対して前記メタデータを付与するメタデータ付与手段を有することを特徴とする請求項1に記載のオントロジ処理装置。
  9. オントロジに含まれるいずれか2つの属性について、互いの値域である属性値集合が共通とみなせるかどうかを判定し、共通とみなせる属性同士および前記属性の属性値同士を統合する属性統合手段を有することを特徴とする請求項1に記載のオントロジ処理装置。
  10. 前記属性統合手段は、オントロジに含まれるいずれか2つの属性の各々に対応する前記メタデータの値がいずれも所定の基準値を下回る場合、または、前記メタデータの値同士の類似度が所定の基準値を下回る場合、2つの属性同士および属性の属性値同士の統合を棄却することを特徴とする請求項に記載のオントロジ処理装置。
  11. オントロジによって表される概念の対象と制約とを満たすデータを新たに獲得する事例獲得手段を有することを特徴とする請求項1に記載のオントロジ処理装置。
  12. オントロジの属性を表す部分のデータの種類の数、及び属性値を表す部分のデータの種類の数のいずれか一方、又は両方が、所定の基準値以上であるか否かを判定し、いずれか一方または両方が所定の基準値以上である場合、前記構造化手段による属性の構造化、又は前記属性統合手段による属性同士の統合を行うよう指示する事例数評価手段を有することを特徴とする請求項1から請求項11のいずれか一項に記載のオントロジ処理装置。
  13. 属性間の依存関係を判定して階層構造の追加、又は階層構造の追加案の提示を行う依存関係判定手段を有することを特徴とする請求項1から請求項11のいずれかに一項に記載のオントロジ処理装置。
  14. コンピュータに、
    文字列で表現された主題とその属性および属性値の組を含む事例データの集合から生成された所定形式のオントロジの構造を、前記事例データの集合に含まれる属性値の統計的特徴に基づいて修正する機能と、
    前記オントロジの属性を、属性値の特徴に基づいて変更する機能と、
    前記オントロジに含まれる個々の属性が、該属性と関連付けられた前記オントロジ内で定義される概念にとって必須な属性か、必須でない属性かを判定し、該判定結果に応じて該属性に関するオントロジの構造を修正する機能と
    を実行させることを特徴とするオントロジ処理プログラム。
  15. 前記コンピュータに、
    前記オントロジ内で互いに一方の属性値の存在が他方の属性値の欠如を補う相補関係にある属性を検出し、前記相補関係にある属性の属性値集合同士の和集合を値域とした新たな属性で、前記相補関係にある属性を置き換える機能を実行させることを特徴とする請求項14に記載のオントロジ処理プログラム。
  16. 前記コンピュータに、
    オントロジ内で1つの属性が2つ以上の属性の上位属性となる上下関係を検出し、上位の属性の値域を下位の属性の定義域とした属性の階層構造を形成する機能を実行させることを特徴とする請求項15に記載のオントロジ処理プログラム。
  17. 前記コンピュータに、
    入力されたデータのうち主題を表す部分のデータがある特定の概念を表すものか否かを判定し、判定結果に基づいて前記主題を表す部分のデータの変換方法を決定する機能と、
    入力されたデータのうち属性を表す部分のデータが既知の属性か否かを判定し、判定結果に基づいて前記属性を表す部分のデータの変換方法を決定する機能と、
    入力されたデータのうち属性値を表す部分のデータが、リテラルか、既知のリソースかを判定し、判定結果に基づいて前記属性値を表す部分のデータの変換方法を決定する機能と、
    前記主題、属性、及び属性値を表すデータを、前記決定された変換方法により変換した結果を用いて、所定の形式のオントロジを記述する機能とを実行させることを特徴とする請求項14に記載のオントロジ処理プログラム。
  18. 前記コンピュータに、
    入力されたデータに含まれるメタデータを抽出し、前記記述されたオントロジに対して前記メタデータを付与する機能を実行させることを特徴とする請求項17に記載のオントロジ処理プログラム。
  19. 前記コンピュータに、
    オントロジに含まれるいずれか2つの属性について、互いの値域である属性値集合が共通とみなせるかどうかを判定し、共通とみなせる属性同士および前記属性の属性値同士を統合する機能を実行させることを特徴とする請求項17に記載のオントロジ処理プログラム。
  20. 前記コンピュータに、
    オントロジによって表される概念の対象と制約とを満たすデータを新たに獲得する機能を実行させることを特徴とする請求項17に記載のオントロジ処理プログラム。
  21. 前記コンピュータに、
    オントロジの属性を表す部分のデータの種類の数、及び属性値を表す部分のデータの種類の数のいずれか一方、又は両方が、所定の基準値以上であるか否かを判定し、いずれか一方または両方が所定の基準値以上である場合、前記構造化手段による属性の構造化、又は前記属性統合手段による属性同士の統合を行うよう指示する機能を実行させることを特徴とする請求項14に記載のオントロジ処理プログラム。
  22. 前記コンピュータに、
    属性間の依存関係を判定して階層構造の追加、又は階層構造の追加案の提示を行う機能を実行させることを特徴とする請求項14に記載のオントロジ処理プログラム。
  23. オントロジを処理するオントロジ処理方法であって、
    文字列で表現された主題とその属性および属性値の組を含む事例データの集合とから生成されたオントロジの構造を、前記事例データの集合に含まれる属性値の統計的特徴に基づいて構造化手段が修正し、
    前記オントロジの属性を属性値の特徴に基づいて前記構造化手段が変更し、
    前記オントロジに含まれる個々の属性が、該属性と関連付けられた前記オントロジ内で定義される概念にとって必須な属性か、必須でない属性かを前記構造化手段に含まれる必要度判定手段が判定し、必須でないと判定した属性について前記構造化手段がオントロジの構造を修正する
    ことを特徴とするオントロジ処理方法。
  24. 必須でないと判定した属性を、前記必要度判定手段が該属性の定義域と値域とが逆の属性に変更することにより、前記構造化手段がオントロジの構造を修正することを特徴とする請求項23に記載のオントロジ処理方法。
  25. 前記構造化において、必須でないと判定した属性の名称を前記必要度判定手段が判定の結果を表す属性名に変更することにより、前記構造化手段がオントロジの構造を修正することを特徴とする請求項23に記載のオントロジ処理方法。
  26. 前記判定の対象となった属性と、前記属性の定義域および値域に相当するオントロジ内の各要素との組を、判定の結果として前記必要度判定手段が記録することを特徴とする請求項23から請求項25のいずれか一項に記載のオントロジ処理方法。
  27. 前記オントロジ内で互いに一方の属性値の存在が他方の属性値の欠如を補う相補関係にある属性を前記構造化手段に含まれる相補関係判定手段が検出し、前記相補関係にある属性の属性値集合同士の和集合を値域とした新たな属性で、前記相補関係にある属性を前記相補関係判定手段が置き換えることを特徴とする請求項23から請求項26のいずれか一項に記載のオントロジ処理方法。
  28. オントロジ内で1つの属性が2つ以上の属性の上位属性となる上下関係を前記構造化手段に含まれる上下関係判定手段が検出し、上位の属性の値域を下位の属性の定義域とした属性の階層構造を前記上下関係判定手段が形成することを特徴とする請求項23から請求項27のいずれか一項に記載のオントロジ処理方法。
  29. 文字列で表現された主題と、その属性および属性値の組とを含む事例データを入力し、前記入力した前記データをオントロジ化手段が所定形式のオントロジに変換することを特徴とする請求項23から請求項28のいずれか一項に記載のオントロジ処理方法。
  30. 入力されたデータのうち主題を表す部分のデータがある特定の概念を表すものか否かを前記オントロジ化手段に含まれる主題分類手段が判定し、判定結果に基づいて前記主題を表す部分のデータの変換方法を前記主題分類手段が決定し、
    入力されたデータのうち属性を表す部分のデータが既知の属性か否かを前記オントロジ化手段に含まれる属性分類手段が判定し、判定結果に基づいて前記属性を表す部分のデータの変換方法を前記属性分類手段が決定し、
    入力されたデータのうち属性値を表す部分のデータが、リテラルか、既知のリソースかを前記オントロジ化手段に含まれる属性値分類手段が判定し、判定結果に基づいて前記属性値を表す部分のデータの変換方法を前記属性値分類手段が決定し、
    前記主題、属性、及び属性値を表すデータを、前記決定された変換方法により変換した結果を用いて、所定の形式のオントロジを前記オントロジ化手段に含まれるオントロジ記述手段が記述することを特徴とする請求項29に記載のオントロジ処理方法。
  31. 入力されたデータに含まれるメタデータを前記オントロジ化手段に含まれるメタデータ付与手段が抽出し、前記記述されたオントロジに対して前記メタデータ付与手段が前記メタデータを付与することを特徴とする請求項29に記載のオントロジ処理方法。
  32. 前記メタデータとして、データの信頼度の値を含むメタデータを用いることを特徴とする請求項31に記載のオントロジ処理方法。
  33. 前記メタデータして、データの収集源の場所を含むメタデータを用いることを特徴とする請求項31に記載のオントロジ処理方法。
  34. オントロジに含まれるいずれか2つの属性について、互いの値域である属性値集合が共通とみなせるかどうかを判定し、共通とみなせる属性同士および前記属性の属性値同士を属性統合手段が統合することを特徴とする請求項23から請求項33のいずれか一項に記載のオントロジ処理方法。
  35. 前記属性を統合する際、オントロジに含まれるいずれか2つの属性の各々に対応する前記メタデータの値がいずれも所定の基準値を下回る場合、または、前記メタデータの値同士の類似度が所定の基準値を下回る場合、2つの属性同士および属性の属性値同士の統合を棄却することを特徴とする請求項34に記載のオントロジ処理方法。
  36. オントロジによって表される概念の対象と制約を満たすデータとを事例獲得手段が新たに獲得し、
    前記獲得したデータを前記構造化手段がオントロジに変換することを特徴とする請求項23から請求項35のいずれか一項に記載のオントロジ処理方法。
  37. 入力されたデータ、または、オントロジによって表される概念の対象と制約とを満たすデータのうち、属性を表す部分のデータの種類の数、及び属性値を表す部分のデータの種類の数のいずれか一方、又は両方が、所定の基準値以上であるか否かを事例数評価手段が判定し、いずれか一方または両方が所定の基準値以上である場合、前記構造化手段による属性の構造化、又は前記属性統合手段による属性同士の統合を行うことを特徴とする請求項23から請求項36のいずれか一項に記載のオントロジ処理方法。
  38. 属性間の依存関係を判定して階層構造の追加、又は階層構造の追加案の提示を依存関係判定手段が行うことを特徴とする請求項23から請求項37のいずれか一項に記載のオントロジ処理方法。
JP2009516323A 2007-05-31 2008-05-27 オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム Active JP5392077B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009516323A JP5392077B2 (ja) 2007-05-31 2008-05-27 オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007144866 2007-05-31
JP2007144866 2007-05-31
PCT/JP2008/059705 WO2008146807A1 (ja) 2007-05-31 2008-05-27 オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
JP2009516323A JP5392077B2 (ja) 2007-05-31 2008-05-27 オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2008146807A1 JPWO2008146807A1 (ja) 2010-08-19
JP5392077B2 true JP5392077B2 (ja) 2014-01-22

Family

ID=40075047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009516323A Active JP5392077B2 (ja) 2007-05-31 2008-05-27 オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム

Country Status (3)

Country Link
US (1) US8244769B2 (ja)
JP (1) JP5392077B2 (ja)
WO (1) WO2008146807A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100023549A1 (en) * 2008-07-22 2010-01-28 Electronics And Telecommunications Research Institute Method and apparatus for social tagging using property field of ontology object
US20100114902A1 (en) * 2008-11-04 2010-05-06 Brigham Young University Hidden-web table interpretation, conceptulization and semantic annotation
WO2010067295A1 (en) * 2008-12-12 2010-06-17 Koninklijke Philips Electronics N.V. A method and module for linking data of a data source to a target database
US20100268723A1 (en) * 2009-04-17 2010-10-21 Buck Brian J Method of partitioning a search query to gather results beyond a search limit
US8793208B2 (en) 2009-12-17 2014-07-29 International Business Machines Corporation Identifying common data objects representing solutions to a problem in different disciplines
JPWO2012035754A1 (ja) * 2010-09-13 2014-01-20 日本電気株式会社 データ統合処理装置、システム、方法及びプログラム
JP5577228B2 (ja) * 2010-12-13 2014-08-20 日本放送協会 概念処理装置及びプログラム
US9684885B2 (en) * 2011-01-17 2017-06-20 Infosys Technologies, Ltd. Method and system for converting UBL process diagrams to OWL
JP5730413B2 (ja) * 2011-02-25 2015-06-10 エンパイア テクノロジー ディベロップメント エルエルシー オントロジ拡張
US9183294B2 (en) * 2011-04-08 2015-11-10 Siemens Aktiengesellschaft Meta-data approach to querying multiple biomedical ontologies
KR20130012388A (ko) * 2011-07-25 2013-02-04 삼성전자주식회사 시맨틱 웹 어플리케이션의 모델 확장 장치, 시맨틱 웹 어플리케이션의 모델 확장 방법 및 이를 이용한 단말기
US8560494B1 (en) * 2011-09-30 2013-10-15 Palantir Technologies, Inc. Visual data importer
US8747115B2 (en) 2012-03-28 2014-06-10 International Business Machines Corporation Building an ontology by transforming complex triples
US8539001B1 (en) 2012-08-20 2013-09-17 International Business Machines Corporation Determining the value of an association between ontologies
GB201300255D0 (en) * 2013-01-08 2013-02-20 Ibm Object naming
US9311300B2 (en) 2013-09-13 2016-04-12 International Business Machines Corporation Using natural language processing (NLP) to create subject matter synonyms from definitions
CN106663143B (zh) * 2014-07-18 2019-12-17 康维达无线有限责任公司 M2m本体管理和语义互操作性
US20170116226A1 (en) * 2015-10-27 2017-04-27 Osthus Inc. Linked data driven semantic data storage and access utilizing horizontal property reification
US10496678B1 (en) * 2016-05-12 2019-12-03 Federal Home Loan Mortgage Corporation (Freddie Mac) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
US10740345B2 (en) * 2018-06-27 2020-08-11 MDClone Ltd. Data structures for storing and manipulating longitudinal data and corresponding novel computer engines and methods of use thereof
CN109325201A (zh) 2018-08-15 2019-02-12 北京百度网讯科技有限公司 实体关系数据的生成方法、装置、设备及存储介质
JP7383886B2 (ja) * 2019-03-06 2023-11-21 富士通株式会社 推定プログラム、装置、および方法
DE112019007213B4 (de) * 2019-05-20 2023-05-04 Mitsubishi Electric Corporation Ontologieerzeugungssystem, Ontologieerzeugungsverfahren und Ontologieerzeugungsprogramm
FR3097346B1 (fr) * 2019-06-14 2021-06-25 Airbus Defence & Space Sas ProcéDé et système de fusion d’informations

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014166A (ja) * 1999-06-29 2001-01-19 Fujitsu Ltd オントロジー対応付け情報生成装置
JP2002099565A (ja) * 2000-09-26 2002-04-05 Fujitsu Ltd 情報検索装置
JP2005258659A (ja) * 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> メタデータ生成装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137720A (ja) 1998-10-29 2000-05-16 Nippon Telegr & Teleph Corp <Ntt> 情報統合作表装置,情報統合作表方法および情報統合作表プログラムを記録した記録媒体
JP2000207407A (ja) 1999-01-13 2000-07-28 Nippon Telegr & Teleph Corp <Ntt> 情報抽出方法及び装置及び情報抽出プログラムを格納した記憶媒体
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
JP2005148886A (ja) 2003-11-12 2005-06-09 Oki Electric Ind Co Ltd 情報抽出装置,情報抽出方法,およびコンピュータシステム
US20060020493A1 (en) * 2004-07-26 2006-01-26 Cousineau Leo E Ontology based method for automatically generating healthcare billing codes from a patient encounter
JP4687089B2 (ja) 2004-12-08 2011-05-25 日本電気株式会社 重複レコード検出システム、および重複レコード検出プログラム
JP2007144866A (ja) 2005-11-29 2007-06-14 Shinshiba Setsubi:Kk 木材の調湿乾燥方法及びその装置
US8972872B2 (en) * 2006-03-27 2015-03-03 Fujitsu Limited Building computing applications based upon metadata

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014166A (ja) * 1999-06-29 2001-01-19 Fujitsu Ltd オントロジー対応付け情報生成装置
JP2002099565A (ja) * 2000-09-26 2002-04-05 Fujitsu Ltd 情報検索装置
JP2005258659A (ja) * 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> メタデータ生成装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CSNG200701394011; 鈴木 敏: '辞書を用いたオントロジー自動生成 -上位語候補の自動抽出-' 言語処理学会第13回年次大会ワークショップ「言語的オントロジーの構築・連携・利用」論文集 , 20070319, p.47-p.50, 言語処理学会 *
CSNG200900289027; 中辻 真,三好 優,大塚 祥広: 'ブログデータに基づくユーザの興味オントロジ自動生成とコミュニティ形成支援手法の提案' DEWS2006論文集 [online] Internet<URL:http://www.ieice.org/iss/de, 20060630, 電子情報通信学会データ工学研究専門委員会 *
CSNJ200710015016; 渡邉 優作、富井 尚志: '高度コミュニティ空間におけるオントロジ言語OWLを用いた意味層の構築' FIT2006 第5回情報科学技術フォーラム 情報科学技術レターズ 第5巻 , 20060821, p.59-p.62, 社団法人電子情報通信学会 社団法人情報処理学会 *
JPN6012055472; 渡邉 優作、富井 尚志: '高度コミュニティ空間におけるオントロジ言語OWLを用いた意味層の構築' FIT2006 第5回情報科学技術フォーラム 情報科学技術レターズ 第5巻 , 20060821, p.59-p.62, 社団法人電子情報通信学会 社団法人情報処理学会 *
JPN6012055474; 鈴木 敏: '辞書を用いたオントロジー自動生成 -上位語候補の自動抽出-' 言語処理学会第13回年次大会ワークショップ「言語的オントロジーの構築・連携・利用」論文集 , 20070319, p.47-p.50, 言語処理学会 *
JPN6013029301; 中辻 真,三好 優,大塚 祥広: 'ブログデータに基づくユーザの興味オントロジ自動生成とコミュニティ形成支援手法の提案' DEWS2006論文集 [online] Internet<URL:http://www.ieice.org/iss/de, 20060630, 電子情報通信学会データ工学研究専門委員会 *
JPN6013029303; 渡邉 優作,富井 尚志: '高度コミュニティ空間におけるオントロジ言語OWLを用いた意味層の構築' FIT2006 第5回情報科学技術フォーラム 情報科学技術レターズ 第5巻 Information Technology L , 20060821, p.59-p.62, 社団法人電子情報通信学会 社団法人情報処理学会 *

Also Published As

Publication number Publication date
WO2008146807A1 (ja) 2008-12-04
US20100121885A1 (en) 2010-05-13
US8244769B2 (en) 2012-08-14
JPWO2008146807A1 (ja) 2010-08-19

Similar Documents

Publication Publication Date Title
JP5392077B2 (ja) オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
Khan et al. A survey on scholarly data: From big data perspective
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
Sumathy et al. Text mining: concepts, applications, tools and issues-an overview
JP4644420B2 (ja) ネットワークを介してデータを検索及び提示する方法及びマシン可読記憶装置
KR101646754B1 (ko) 모바일 시멘틱 검색 장치 및 그 방법
US20080147642A1 (en) System for discovering data artifacts in an on-line data object
US20070198481A1 (en) Automatic object reference identification and linking in a browseable fact repository
US20080147578A1 (en) System for prioritizing search results retrieved in response to a computerized search query
Prudhomme et al. Interpretation and automatic integration of geospatial data into the Semantic Web: Towards a process of automatic geospatial data interpretation, classification and integration using semantic technologies
US20080147641A1 (en) Method for prioritizing search results retrieved in response to a computerized search query
US20080147588A1 (en) Method for discovering data artifacts in an on-line data object
TW201415254A (zh) 語意標註建議方法及其系統
López et al. An efficient and scalable search engine for models
WO2012013938A1 (en) Electronic document repository system
JP4855080B2 (ja) スキーマ統合支援装置、スキーマ統合支援装置のスキーマ統合支援方法およびスキーマ統合支援プログラム
KR20110133909A (ko) 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
US20110252313A1 (en) Document information selection method and computer program product
Rome et al. Towards a formal concept analysis approach to exploring communities on the world wide web
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
Patil et al. An innovative approach to classify and retrieve text documents using feature extraction and Hierarchical clustering based on ontology
KR101303363B1 (ko) 데이터 처리 시스템 및 방법
Han et al. The HWS hybrid web search
Kim et al. Q-PD: query graph extension framework using predicate-based RDF on linked open data
JP5346045B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130725

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130930

R150 Certificate of patent or registration of utility model

Ref document number: 5392077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150