JP2008242836A - 辞書更新装置およびプログラム - Google Patents

辞書更新装置およびプログラム Download PDF

Info

Publication number
JP2008242836A
JP2008242836A JP2007082618A JP2007082618A JP2008242836A JP 2008242836 A JP2008242836 A JP 2008242836A JP 2007082618 A JP2007082618 A JP 2007082618A JP 2007082618 A JP2007082618 A JP 2007082618A JP 2008242836 A JP2008242836 A JP 2008242836A
Authority
JP
Japan
Prior art keywords
similar
term
dictionary
search
property
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007082618A
Other languages
English (en)
Inventor
Ran O
蘭 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007082618A priority Critical patent/JP2008242836A/ja
Priority to US12/034,816 priority patent/US20080243833A1/en
Priority to EP08003545A priority patent/EP1975817A3/en
Publication of JP2008242836A publication Critical patent/JP2008242836A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】既存の辞書構成項目であるクラス及びプロパティの品質を劣化させる要素(例えば、項目の欠損、項目の異常、項目の非統一性、項目の非正規性など)についての改善提案を作成することにより、辞書の品質向上を支援することができる辞書更新装置およびプログラムを提供する。
【解決手段】検索キーワードの利用頻度と各検索キーワード間の関係、すなわち検索キーワードの履歴を用いて、既存の辞書構成項目であるクラス及びプロパティの品質を劣化させる要素(例えば、項目の欠損、項目の異常、項目の非統一性、項目の非正規性など)についての改善提案を作成する。これにより、辞書の品質向上を支援することができる。
【選択図】 図3

Description

本発明は、辞書更新装置およびプログラムに関する。
従来においては、検索の効果を高めるために、検索フィードバックの技術が開示されている。より具体的には、検索時に利用した検索キーワードをクラスターに分類して保存しておき、クラスター内の検索キーワードを利用頻度の高い順にユーザに推薦する、というものである(例えば、特許文献1参照)。このような技術によれば、ユーザの利用状況にしたがって検索キーワードのクラスターを更新するので、ユーザが利用しやすい検索キーワードを推奨することができる、という効果がある。
一方、近年においては、検索対象となるオントロジー(メタデータの意味構造を規定する辞書)の構成項目の品質を改善するために、専門家の経験や知識をフィードバックすることによって、オントロジーの所定の定義に対して追加提案をする技術が開示されている。より具体的には、インターネットの口コミ情報など参考にして、ユーザは特定のリソースからそれらの情報を入力し、その入力された情報を既存のオントロジーの対応する項目に追加提案として提出してオントロジーの拡充を実現する、というものである(例えば、非特許文献1参照)。
特開2004−078618号公報 「利用者からのフィードバック情報を用いたオントロジー拡充技術」(2006年9月15日:人工知能学会研究会資料SIG-SWO-A303-04)
ところが、非特許文献1に開示されているオントロジー拡充技術によれば、インターネットの口コミ情報などのように人手を介して生成されるフィードバック情報に基づいて追加提案を行うので、既存のオントロジー(辞書)を構成するクラスやプロパティ項目の定義欠損や、異常値の発見は非常に困難なものとなっている。また、利用者の嗜好や考え方などについては千差万別であり、フィードバック情報を生成する際に入力される情報について統一を図るのは非常に困難であることから、オントロジー(辞書)間のデータの統一性(同じ定義を利用)、正規性(同じフォーマットを利用)を改善する必要がある。
本発明は、上記に鑑みてなされたものであって、既存の辞書構成項目であるクラス及びプロパティの品質を劣化させる要素(例えば、項目の欠損、項目の異常、項目の非統一性、項目の非正規性など)についての改善提案を作成することにより、辞書の品質向上を支援することができる辞書更新装置およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の辞書更新装置は、メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶部と、前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶部と、前記辞書記憶部に記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定部と、設定された前記検索キーワードの履歴を記憶する検索履歴記憶部と、前記検索キーワードの履歴から、ユーザが検索時に頻繁に利用するクラスおよびプロパティである頻出検索キーワード集合を検出する頻出検索キーワード集合検出部と、前記頻出検索キーワード集合に含まれる全てのクラス間の関係を生成し、生成された前記クラス間の関係について前記類似/関連用語を参照して類似クラスリストを生成するとともに、前記頻出検索キーワード集合に含まれる全てのプロパティについて前記類似/関連用語を参照して類似プロパティリストを生成するリスト生成部と、前記類似クラスリストおよび前記類似プロパティリストを用いて、前記辞書を構成するクラスおよびプロパティの品質を劣化させる要素についての改善提案を作成する改善提案作成部と、前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新部と、を備えることを特徴とする。
また、本発明の辞書更新装置は、メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶部と、前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶部と、前記辞書記憶部に記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定部と、前記検索キーワードに基づいて前記辞書記憶部に記憶されている前記辞書を検索する検索実行部と、前記類似/関連用語記憶部に記憶されている前記類似/関連用語を参照して、前記検索キーワードと対応する類似用語と関連用語とを検出して提示する用語検出提示部と、提示した類似用語または関連用語が選択された場合、選択されたキーワードの条件で前記辞書の再検索を実行する選択用語再検索部と、選択された類似用語または関連用語と前記検索キーワードとを対応付けて利用回数と共にアクセス履歴として記憶するアクセス履歴記憶部と、前記アクセス履歴記憶部に記憶された前記類似用語および前記関連用語の内、所定の閾値よりも大きな前記利用回数を持つ前記検索キーワードに対応付けられた前記類似用語の集合および前記関連用語の集合を頻出用語集合として検出する頻出用語集合検出部と、前記検索キーワードおよび前記頻出用語集合の各用語との関係を生成し、生成された前記各用語の関係について前記類似/関連用語を参照して類似プロパティリストを生成するリスト生成部と、前記類似プロパティリストを用いて、前記辞書を構成するクラスおよびプロパティの品質を劣化させる要素についての改善提案を作成する改善提案作成部と、前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新部と、を備えることを特徴とする。
また、本発明の辞書更新装置は、メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶部と、前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶部と、前記辞書記憶部に記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定部と、設定された前記検索キーワードの履歴を記憶する検索履歴記憶部と、前記検索キーワードの履歴から、ユーザが検索時に頻繁に利用するクラスおよびプロパティである頻出検索キーワード集合を検出する頻出検索キーワード集合検出部と、前記検索キーワードに基づいて前記辞書記憶部に記憶されている前記辞書を検索する検索実行部と、前記類似/関連用語記憶部に記憶されている前記類似/関連用語を参照して、前記検索キーワードと対応する類似用語と関連用語とを検出して提示する用語検出提示部と、提示した類似用語または関連用語が選択された場合、選択されたキーワードの条件で前記辞書の再検索を実行する選択用語再検索部と、選択された類似用語または関連用語と前記検索キーワードとを対応付けて利用回数と共にアクセス履歴として記憶するアクセス履歴記憶部と、前記アクセス履歴記憶部に記憶された前記類似用語および前記関連用語の内、所定の閾値よりも大きな前記利用回数を持つ前記検索キーワードに対応付けられた前記類似用語の集合および前記関連用語の集合を頻出用語集合として検出する頻出用語集合検出部と、前記頻出検索キーワード集合と前記頻出用語集合とから両集合にある同一クラスおよび同一プロパティを検出し、検出された前記同一クラスについて前記類似/関連用語を参照して類似クラスリストを生成するとともに、前記同一プロパティについて前記類似/関連用語を参照して類似プロパティリストを生成するリスト生成部と、前記類似クラスリストおよび前記類似プロパティリストを用いて、前記辞書を構成するクラスおよびプロパティの品質を劣化させる要素についての改善提案を作成する改善提案作成部と、前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新部と、を備えることを特徴とする。
また、本発明の辞書更新装置は、メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶部と、前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶部と、前記辞書記憶部に記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定部と、設定された前記検索キーワードの履歴を記憶する検索履歴記憶部と、前記検索キーワードの履歴から、ユーザが検索時に頻繁に利用する頻出検索キーワード集合を検出する頻出検索キーワード集合検出部と、前記頻出検索キーワード集合に含まれる全てのプロパティに付帯する用語リストを生成するリスト生成部と、前記プロパティに付帯する用語リストを用いて、前記プロパティに付帯する用語の品質を劣化させる要素についての改善提案を作成する改善提案作成部と、前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新部と、を備えることを特徴とする。
また、本発明のプログラムは、メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶機能と、前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶機能と、記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定機能と、設定された前記検索キーワードの履歴を記憶する検索履歴記憶機能と、前記検索キーワードの履歴から、ユーザが検索時に頻繁に利用するクラスおよびプロパティである頻出検索キーワード集合を検出する頻出検索キーワード集合検出機能と、前記頻出検索キーワード集合に含まれる全てのクラス間の関係を生成し、生成された前記クラス間の関係について前記類似/関連用語を参照して類似クラスリストを生成するとともに、前記頻出検索キーワード集合に含まれる全てのプロパティについて前記類似/関連用語を参照して類似プロパティリストを生成するリスト生成機能と、前記類似クラスリストおよび前記類似プロパティリストを用いて、前記辞書を構成するクラスおよびプロパティの品質を劣化させる要素についての改善提案を作成する改善提案作成機能と、前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新機能と、をコンピュータに実行させることを特徴とする。
また、本発明のプログラムは、メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶機能と、前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶機能と、記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定機能と、記憶されている前記辞書を前記検索キーワードに基づいて検索する検索実行機能と、記憶されている前記類似/関連用語を参照して、前記検索キーワードと対応する類似用語と関連用語とを検出して提示する用語検出提示機能と、提示した類似用語または関連用語が選択された場合、選択されたキーワードの条件で前記辞書の再検索を実行する選択用語再検索機能と、選択された類似用語または関連用語と前記検索キーワードとを対応付けて利用回数と共にアクセス履歴として記憶するアクセス履歴記憶機能と、前記アクセス履歴記憶機能に記憶された前記類似用語および前記関連用語の内、所定の閾値よりも大きな前記利用回数を持つ前記検索キーワードに対応付けられた前記類似用語の集合および前記関連用語の集合を頻出用語集合として検出する頻出用語集合検出機能と、前記検索キーワードおよび前記頻出用語集合の各用語との関係を生成し、生成された前記各用語の関係について前記類似/関連用語を参照して類似プロパティリストを生成するリスト生成機能と、前記類似プロパティリストを用いて、前記辞書を構成するクラスおよびプロパティの品質を劣化させる要素についての改善提案を作成する改善提案作成機能と、前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新機能と、をコンピュータに実行させることを特徴とする。
また、本発明のプログラムは、メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶機能と、前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶機能と、記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定機能と、設定された前記検索キーワードの履歴を記憶する検索履歴記憶機能と、前記検索キーワードの履歴から、ユーザが検索時に頻繁に利用するクラスおよびプロパティである頻出検索キーワード集合を検出する頻出検索キーワード集合検出機能と、記憶されている前記辞書を前記検索キーワードに基づいて検索する検索実行機能と、記憶されている前記類似/関連用語を参照して、前記検索キーワードと対応する類似用語と関連用語とを検出して提示する用語検出提示機能と、提示した類似用語または関連用語が選択された場合、選択されたキーワードの条件で前記辞書の再検索を実行する選択用語再検索機能と、選択された類似用語または関連用語と前記検索キーワードとを対応付けて利用回数と共にアクセス履歴として記憶するアクセス履歴記憶機能と、前記アクセス履歴記憶機能に記憶された前記類似用語および前記関連用語の内、所定の閾値よりも大きな前記利用回数を持つ前記検索キーワードに対応付けられた前記類似用語の集合および前記関連用語の集合を頻出用語集合として検出する頻出用語集合検出機能と、前記頻出検索キーワード集合と前記頻出用語集合とから両集合にある同一クラスおよび同一プロパティを検出し、検出された前記同一クラスについて前記類似/関連用語を参照して類似クラスリストを生成するとともに、前記同一プロパティについて前記類似/関連用語を参照して類似プロパティリストを生成するリスト生成機能と、前記類似クラスリストおよび前記類似プロパティリストを用いて、前記辞書を構成するクラスおよびプロパティの品質を劣化させる要素についての改善提案を作成する改善提案作成機能と、前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新機能と、をコンピュータに実行させることを特徴とする。
また、本発明のプログラムは、メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶機能と、前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶機能と、記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定機能と、設定された前記検索キーワードの履歴を記憶する検索履歴記憶機能と、前記検索キーワードの履歴から、ユーザが検索時に頻繁に利用する頻出検索キーワード集合を検出する頻出検索キーワード集合検出機能と、前記頻出検索キーワード集合に含まれる全てのプロパティに付帯する用語リストを生成するリスト生成機能と、前記プロパティに付帯する用語リストを用いて、前記プロパティに付帯する用語の品質を劣化させる要素についての改善提案を作成する改善提案作成機能と、前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新機能と、をコンピュータに実行させることを特徴とする。
本発明によれば、検索キーワードの利用頻度と各検索キーワード間の関係、すなわち検索キーワードの履歴を用いて、既存の辞書構成項目であるクラス及びプロパティの品質を劣化させる要素(例えば、項目の欠損、項目の異常、項目の非統一性、項目の非正規性など)についての改善提案を作成することにより、辞書の品質向上を支援することができる、という効果を奏する。
また、本発明によれば、ユーザからの検索状況の履歴の分析、すなわち類似/関連用語に対するアクセス履歴を用いて、既存の辞書構成項目であるクラス及びプロパティの品質を劣化させる要素(例えば、項目の欠損、項目の異常、項目の非統一性、項目の非正規性など)についての改善提案を作成することにより、辞書の品質向上を支援することができる、という効果を奏する。
以下に添付図面を参照して、この発明にかかる辞書更新装置およびプログラムの最良な実施の形態を詳細に説明する。
[第1の実施の形態]
本発明の第1の実施の形態を図1ないし図14に基づいて説明する。
[1.システムの構成]
図1は、本発明の第1の実施の形態にかかるデータ検索表示システムのシステム構築例を示す模式図である。データ検索表示システムは、図1に示すように、サーバーコンピュータ(以下、サーバーという)100にLAN(Local Area Network)等のネットワーク200を介してクライアントコンピュータ(以下、クライアントという)300が複数台接続されたサーバークライアントシステムを想定する。サーバー100およびクライアント300は、一般的なパーソナルコンピュータ等である。
図2は、サーバー100およびクライアント300のモジュール構成図である。サーバー100およびクライアント300は、情報処理を行うCPU(Central Processing Unit)101、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)102、各種データを書換え可能に記憶するRAM(Random Access Memory)103、各種データベースとして機能するとともに各種のプログラムを格納するHDD(Hard Disk Drive)104、記憶媒体110を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するためのCD−ROMドライブ等の媒体駆動装置105、ネットワーク200を介して外部の他のコンピュータと通信により情報を伝達するための通信制御装置106、処理経過や結果等を操作者に表示するCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等の表示部107、並びに操作者がCPU101に命令や情報等を入力するためのキーボードやマウス等のポインティングデバイスである入力部108等から構成されており、これらの各部間で送受信されるデータをバスコントローラ109が調停して動作する。
このようなサーバー100およびクライアント300では、オペレータが電源を投入するとCPU101がROM102内のローダーというプログラムを起動させ、HDD104よりOS(Operating System)というコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM103に読み込み、このOSを起動させる。このようなOSは、オペレータの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。OSのうち代表的なものとしては、Windows(登録商標)等が知られている。これらのOS上で走る動作プログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のOS上で動作するものに限らず、後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
ここで、サーバー100は、アプリケーションプログラムとして、辞書更新プログラムをHDD104に記憶している。この意味で、HDD104は、辞書更新プログラムを記憶する記憶媒体として機能する。
一方、クライアント300は、アプリケーションプログラムとして、ユーザ管理処理プログラムをHDD104に記憶している。この意味で、HDD104は、ユーザ管理処理プログラムを記憶する記憶媒体として機能する。
また、一般的には、サーバー100およびクライアント300のHDD104にインストールされるアプリケーションプログラムは、CD−ROMやDVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等の各種方式のメディア等の記憶媒体110に記録され、この記憶媒体110に記録された動作プログラムがHDD104にインストールされる。このため、CD−ROM等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体110も、アプリケーションプログラムを記憶する記憶媒体となり得る。さらには、アプリケーションプログラムは、例えば通信制御装置106を介して外部から取り込まれ、HDD104にインストールされても良い。
サーバー100は、OS上で動作する辞書更新プログラムが起動すると、この辞書更新プログラムに従い、CPU101が各種の演算処理を実行して各部を集中的に制御する。一方、クライアント300は、OS上で動作するユーザ管理処理プログラムが起動すると、このユーザ管理処理プログラムに従い、CPU101が各種の演算処理を実行して各部を集中的に制御する。サーバー100およびクライアント300のCPU101が実行する各種の演算処理のうち、本実施の形態の特長的な処理について以下に説明する。
クライアント300は、ユーザ管理処理プログラムに従うことによりユーザ管理装置として機能するものであって、サーバー100から受信したデータを、GUI(Graphic User Interface)を介して表示部107に出力し、表示部107に表示された各画面上でオペレータが入力部108を介して行った作業や設定内容に基づくデータやコマンドを、GUIを介して受け取り、サーバー100へ送信する。なお、ユーザ管理処理プログラムは、操作者が有している権限に応じて各種機能を発揮する。詳細は後述するが、本実施の形態におけるクライアント300は、ユーザ管理処理プログラムに従うことにより、サーバー100にアクセス可能になる。
一方、サーバー100は、図3に示すように、辞書更新プログラムに従うことにより辞書更新装置として機能するものであって、辞書記憶部である登録オントロジーDB1と、類似/関連用語記憶部である用語集2と、シソーラス辞書3と、検索キー設定部4と、検索履歴記憶部5と、検索履歴DB6と、用語集生成部7と、頻出検索キーワード集合検出部8と、リスト生成部9と、オントロジー改善提案部10と、辞書更新部であるオントロジー更新部11と、検索実行部12と、用語検出提示部13と、検索結果表示部14と、選択用語再検索部15と、登録部24と、を備える。このような構成により、サーバー100は、検索キーワードの履歴を用いて既存のオントロジーへの改善提案を行う。以下において、各部について説明する。
登録オントロジーDB1は、既存の各ドメインの複数のオントロジーを、識別子を付けて登録部24を介して登録したものである。登録オントロジーDB1に登録されるオントロジー(メタデータの意味構造を規定する辞書)は、図4に示すように、階層構造のクラス集合と、各クラスが定義するプロパティから構成されている。各クラスは、アトリビュートのセット(例:名前、親クラス等)により定義される。プロパティも、アトリビュートのセット(例:名前、データタイプ、単位等)により定義される。各オントロジーが利用するアトリビュートセットは、オントロジーを生成する際に決定される。本実施の形態においては、クラス間の関係と、クラスとプロパティの関係を定義しているオントロジーを対象とする。
このようなオントロジーは、様々の形式を利用して表現できる。すなわち、オントロジーの表現形式には制限がない。図5は、図4の一部をXML(Extensible Markup Language)フォーマットを利用して表した例である。クラス間の関係は、アトリビュート“superclass”を利用して表現する。プロパティは、アトリビュート“definition_class”を用いて、所在するクラスを表している。
用語集2は、登録オントロジーDB1とシソーラス辞書3とを用いて用語集生成部7により生成される。シソーラス辞書3は、同義語辞書とは異なり、狭義や関連といった様々な観点で分類される辞書である(例えば、WordNetなど)。用語集2としては、図3に示すように、類似用語DB2aに格納される類似用語集と関連用語DB2bに格納される関連用語集の2タイプがある。
図6は、類似用語DB2aに格納される類似用語集のデータ構成の一例を示す模式図である。類似用語DB2aに格納される類似用語集は、後述する3つの情報源により作成されている。なお、図6に示すコラム「現在類似度」は、コラム「key」とコラム「類似用語」に表示する2つの用語の類似程度を示す。本実施の形態では、0%〜100%を設定する。以下、類似用語DB2aに格納される類似用語集を作成する3つの情報源について説明する。
(1)オントロジー定義の別名を利用する方法
オントロジーでは、クラスまたはプロパティ項目を定義する際に、利用する名称と別に、別名を定義する事がある。図4に示すオントロジーの構成例においては、クラス名と別名の2つのコラムを設けてクラスを定義している。すなわち、別名等を定義しているオントロジーの項目名(クラス名)及び対応する別名を利用することにより、類似用語集を作成することができる。なお、項目名(クラス名)とその別名は、100%の類似度とする。
(2)オントロジー間の類似項目検出し、定義名を利用する方法
各項目を定義するアトリビュート内容の比較を行なうことにより、オントロジー間の類似する項目を検出する。より詳細には、アトリビュートの近似度によって、各項目間の類似度を計算する。すなわち、検出した2つの類似項目を利用することにより、類似用語集を作成することができる。
(3)シソーラス辞書3の類似項目を利用する
項目名称に対して、シソーラス辞書3から類似する用語を検出する。検出した類似用語が、類似用語DB2aに存在しない場合は、類似用語として追加する。なお、シソーラス辞書3からの用語は、デフォルトに100%の類似度とする。
図7は、関連用語DB2bに格納される関連用語集のデータ構成の一例を示す模式図である。関連用語DB2bに格納される関連用語集は、オントロジーに定義したクラス用語だけに定義する。関連用語DB2bに格納される関連用語集は、以下に示す2つの方法を用いて生成する。
(1)登録オントロジーDB1を利用する
クラスを定義するオントロジー構造上において親子関係クラス、兄弟関係クラスが存在する場合は、親子関係クラス、兄弟関係クラスがそれぞれ利用するクラス名称は、関連用語となる。また、親子関係クラス、兄弟関係クラスがそれぞれ利用するプロパティ名称も、親子関係クラス、兄弟関係クラスがそれぞれ利用するクラス名称と関連用語となる。図4に示すオントロジーの構成例においては、用語C1との関連用語は、図8に示すように、親子クラスの名称用語:C0,C4,C5と、兄弟クラスの名称用語:C2,C3と、C1が利用するプロパティP3,P4,P5の名称である。なお、関連用語は、クラスの親子関係と兄弟関係のクラスに限るものではなく、クラスの上下2階層及びそれ以上の階層のクラスとプロパティの名称を利用するものであっても良い。関連度は、0〜100%の設定があり、該クラスの親子クラス及び該クラスが利用したプロパティの場合は、デフォルトの関連度90%に設定し、兄弟クラスの場合は80%に設定している。関連度は、ユーザの利用状況により更新される。また、同じ用語を持つクラスが多数オントロジーに定義されている場合には、各オントロジーの情報を関連用語DB2bに格納される関連用語集に登録する。
(2)シソーラス辞書3を利用する
シソーラス辞書3を利用して、関連用語を関連用語DB2bに登録する。より詳細には、クラス項目用語を用いて、シソーラス辞書3から関連する用語を検索して獲得する。なお、検索結果の関連用語が該クラスの関連用語に登録されていない場合は、関連度100%にし、関連用語DB2bに格納される関連用語集への登録を行う。
次に、検索キーワードの履歴を用いて既存のオントロジーに対する改善提案を行う手順を示し、この手順に従って、上述した部分以外のサーバー100を構成する各部について説明する。
図9は、検索キーワードの履歴を用いて既存のオントロジーに対する改善提案を作成する手順を示すフローチャートである。図9に示すように、検索キーワードの履歴を用いて既存のオントロジーに対する改善提案を作成するまでに、4つのステップがある。
ステップS1:検索キーワードを検索履歴上に保存する。
ステップS2:検索履歴から、頻出する検索キーワード集合を検出する。
ステップS3:頻出キーワード集合を用いて、検索キーワード間の関係を獲得する。
ステップS4:獲得した検索キーワードを用いて、改善提案を作成する。
以下、各ステップの詳細について説明する。
(ステップS1:検索キーワードを検索履歴上に保存する)
検索キー設定部4は、図10に示すような検索設定画面30をクライアント300に表示させる。すなわち、ユーザは、登録されたオントロジーへのアクセスを、検索キー設定部4による検索設定画面30を介して行うことになる。
なお、サーバー100にアクセスするユーザは、オントロジーへのアクセス目的によって、以下の2つのユーザ分類に分けることができる。
(ア)オントロジーのインスタンスに関心あるユーザとメタデータに関心あるユーザに分類する。すなわち、「メタデータ関係者」及び「インスタンス関係者」に分類する。
(イ)オントロジーの分野毎にユーザの分類を行う。例えば:電気関連、機械関連、化学関連。
オントロジーのメタデータ・インスタンスへの関心によるユーザ分類(ア)と、分野毎のユーザ分類(イ)は、同時に行うことができる。ユーザは、自分が所属(ア)と(イ)の分類を選択して登録する。さらに、ユーザが細かい分類をし、クライアント300により管理される事も可能である。
図10に示す検索設定画面30では、クラス、プロパティ、値(プロパティの値)、単位(プロパティの単位)の、4つの領域を指定する。ユーザは、該当する領域から検索条件の設定を行う。各検索条件は、“AND”又は“OR”のブール関係を持つ。ユーザは、“AND”又は“OR”のどちら一つの関係を選択して設定する。
検索設定画面30における検索条件(例えば、クラス、プロパティ)を介して検索キー設定部4に設定した検索キーワードは、検索履歴記憶部5により図11に示すような検索履歴DB6の「検索キーワード履歴」に記憶される。
検索設定画面30における検索条件のクラス領域から入力された全てのクラス内容は、図11に示す検索履歴DB6の「検索キーワード履歴」における検索クラス欄に記憶される。また、検索設定画面30における検索条件のプロパティ領域から入力された全てのプロパティは、図11に示す検索履歴DB6の「検索キーワード履歴」における「検索プロパティ」欄に記憶される。図11において破線で示す6aは、図10に示す検索設定画面30で設定した検索条件(プロパティ)の例である。また、各キーワード間のブール関係とは関わらずに、全てのクラス及びプロパティキーワードを検索条件として利用した回数が、図11に示す検索履歴DB6の「検索キーワード履歴」における「利用回数」欄に記憶される。図11に示す検索履歴DB6の「検索キーワード履歴」における「記録開始時間」は、該検索キーワードセットを記録開始した時間を示す。
なお、検索履歴DB6の「検索キーワード履歴」の態様は、図11に示すものに限るものではない。例えば、設定されたクラスキーワードに対してプロパティキーワードを1つずつ対応付けて記憶するようにしても良い。
(ステップS2:頻出検索キーワード集合を検出する)
頻出検索キーワード集合検出部8は、頻出検索キーワード集合を検出する。ここで、図11に示す検索履歴DB6を用いて、ユーザが検索時に頻繁に利用するキーワード(頻出キーワード)とその関連頻出キーワード集合を検出する方法を説明する。検索キーワードには、クラスとプロパティキーワードが存在する。そのため、頻出検索キーワード集合を検出するには、
(A)頻出クラスキーワードを検出する。
(B)クラスキーワードに対して、頻出プロパティキーワードを検出する。
という手順を経ることになる。
(A:頻出クラスキーワードの検出手順)
まず、頻出クラスキーワードを検出する手順を説明する。
(1) クラスの検索キーワードに対して、夫々の利用される頻度(tf:term frequency)を計算する。各クラスの検索キーワードの利用頻度を用いて、設定された頻度閾値αより大きなキーワードを検出する。頻度閾値αは、集計した検索履歴の件数等によって、可変である。頻度が頻度閾値αより大きなキーワードは、頻出クラスキーワードリストL1に追加する。頻出クラスキーワードリストL1は、下記のように表すことができる。
L1={k1,k2,k3,k4・・・}
(2) 頻出クラスキーワードリストL1の各キーワードKに対して、Kを含むキーワード個数が最大になる極大頻出集合まで検出する。以下において、例を提示して詳細に説明する。
例:L1のk1キーワードに対する極大頻出集合の検出
(ア)2つのキーワードを利用する場合の利用頻度(tf2(k1,X))を計算する。ステップ(1)と同様に、設定された頻度閾値βより大きい頻度を持つ集合が存在する場合に、頻出集合を検出する。なお、頻度閾値βは頻度閾値αより小さく設定する。例えば、
L2(k1)={(k1,h1),(k1,h2)}
である。
(イ)頻出クラスキーワードリストL2の各要素K2に対して、各K2を含む、3つのキーワードを利用する場合の利用頻度Tf3()を計算し、上記と同じく、設定された頻出閾値γにより、頻出クラスキーワードリストL3が存在する場合に、頻出集合を検出する。例えば、
L3(k1)={(k1,h1,j11),(k1,h1,j12),(k2,h2,j2)}
である。
(ウ)上記(2)、(3)と同じ方法を用いて、極大クラスキーワードリスト(キーワードの個数が最大の場合)Lmまで算出する。例えば、
Lm=L4(k1)={(k1,h1,j11,i1),(k1,h1,j11,i2)}
である。
(エ)クラス検索キーワードk1の頻出クラスキーワード集合L(k1)を検出する。
L(k1)={L1(k1),L2(k1),L3(k1)・・・Lm(k1)}
(3) ステップ(2)をループし、L1にある全てのキーワードに対して、頻出検索キーワード集合L(k)を検出する。既に検出された頻出検索キーワード集合と全く同じキーワードを利用する場合は、計算せずに頻出検索キーワード集合が得られる。
上述したような方法により、図11に示す検索履歴DB6の「検索キーワード履歴」に示す例では、以下のように頻出クラスキーワード集合を検出することができる。
(1)1つの検索キーワードの利用頻度を計算し、L1を獲得する。
tf(PC)=100+30+40+2=172
tf(サーバー)=10
tf(計算機)=10
tf(NotePC)=100+20=120
tf(display)=2
頻度閾値α=10
と設定すると、
L1={PC、計算機、NotePC、サーバー}
である。
(2)L1の“PC”キーワードに対して、頻出クラスキーワード集合L(PC)を獲得する。
(ア)
Tf2(PC,NotePC)=100
Tf2(PC,サーバー)=10
Tf2(PC,計算機)=10
Tf2(PC,DISPLAY)=2
頻度閾値β=5
と設定すると、
L2(PC)={(PC,NotePC),(PC,サーバー),(PC,計算機)};
である。
(イ)
Tf3(PC,NotePC,計算機)=10
L3(PC)={(PC,NotePC,計算機)}
これは“PC”の極大頻出集合になる。
(ウ)
すなわち、PCの頻出クラスキーワード集合は、
L(PC)={L2(PC),L3(PC)}
={(PC,NotePC),(PC,サーバー),(PC,計算機),{PC,NotePC,計算機}}
である。
(3) ステップ(2)と同じ計算方法を用いる。
L(計算機)={(PC,計算機),{PC,NotePC,計算機}};
この場合は、(PC、計算機)は、L(PC)に存在するので、そのまま利用できる。
L(NotePC)={(PC,NotePC)}
この場合は、(PC、NotePC)の集合はL(PC)に存在するので、そのまま利用できる。
L(サーバー)={(PC,サーバー)}
この場合は、(PC、サーバー)の集合はL(PC)に存在するので、そのまま利用できる。
(B:頻出プロパティキーワードの検出手順)
上記検出した各キーワードの頻出クラスキーワード集合L1={k1,k2,k3,k4・・・}を用いて、各キーワードkに対応する頻出プロパティ集合を検出する。
検索キーワード履歴に基づいて、検索キーワードkを利用した全てのクラス集合と対応するプロパティ集合の中の各プロパティキーワードを利用した頻度tf(prop)を計算する。頻度Tfの高いプロパティは、該検索クラスKの頻出プロパティとされる。図11に示す検索履歴DB6の「検索キーワード履歴」を例にして、以下において詳述する。
上述したように検索された頻出クラスキーワードリストL1は、
L1={PC、計算機、NotePC、サーバー}
である。ここで、検索キーワード「PC」に対する頻出プロパティ検索キーワードを検出する方法を紹介する。
(1) 先ず、検索クラスコラムに「PC」を含む全ての検索プロパティを検出する。図11に示す検索履歴DB6の例においては、符号6aとして示す全てのプロパティの和である。すなわち、
{メーカー,メモリ,HD,電圧,生産日,Manufacture,Producer,価格}
である。
(2) 各プロパティキーワードの頻度を計算する。例えば、
tf(メーカー)=112
tf(メモリ)=170
tf(HD)=170
tf(電圧)=160
tf(生産日)=100
tf(Manufacture)=20
tf(Producer)=40
tf(価格)=50
となる。
(3) 上記頻度の高いプロパティのキーワードを、頻出プロパティ集合に追加する。頻出プロパティは、設定した閾値より高い頻度を持つとなる。閾値は、可変に設定できる。図11に示す検索履歴DB6の例においては、閾値を“20”とすると、上記全てのプロパティは頻出プロパティになる。すなわち、頻出プロパティ集合Pは、
P={メーカー,メモリ,HD,電圧,生産日,Manufacture,Producer,価格}
になる。
以上、上述した方法を用いることにより、頻出検索キーワード集合(頻出クラスキーワード集合および頻出プロパティ集合)を獲得することができる。
(ステップS3:検索キーワード関係分析)
ステップS3においては、リスト生成部9が、上記分析において検出した頻出クラスキーワード集合と頻出プロパティ集合とを用いて、検索キーワード間の関係を分析する。具体的には、頻出クラスキーワード集合の各クラス用語に対して、関係分析を行う。
まず、頻出クラスキーワード集合を用いてクラス間の関係を示す検索キーワード関係図を生成する。頻出クラスキーワード集合にある全てのクラス要素が、該クラスとは関係があると想定する。
ここで、上述した頻出クラスキーワードL(PC)を例に説明する。
L(PC)={L2(PC),L3(PC)}
={(PC,NotePC),(PC,サーバー),(PC,計算機),{PC,NotePC,計算機}}
図12は、頻出クラスキーワードL(PC)の検索キーワード関係を示す模式図である。図12中の符号40が、頻出クラスキーワードL(PC)のクラス関係である。また、図12中の符号41に示す頻出プロパティ集合Pは、クラス「PC」のプロパティになる。すなわち、
P={メーカー,メモリ,HD,電圧,生産日,Manufacture,Producer,価格}
はクラス「PC」のプロパティである。
次に、図12に示した検索キーワードの関係を参照しつつ、図6に示したような用語集2(類似用語DB2aに格納される類似用語集)を利用して類似する用語を検出する。具体的には、頻出クラスキーワード集合にある全てのクラス用語に対して、類似する用語毎に、類似クラスリストを作成する。また、頻出プロパティ集合の全てのプロパティ用語に対して、類似プロパティリストを作成する。
図6に示したような用語集2(類似用語DB2aに格納される類似用語集)の例では、図12中のクラス関係40のクラス「PC」と「計算機」とは類似用語であることから、図12に示すような類似クラスリスト42を生成する。同様に、図12中の頻出プロパティ集合41のプロパティの「メーカー」と、「Manufacture」,「Producer」とが類似用語であることから、図12に示すような類似プロパティリスト43を生成する。
(ステップS4:改善提案を生成)
ステップS4においては、ステップS3で生成した検索キーワード関係図及び類似リスト(類似クラスリスト42、類似プロパティリスト43)を用いて、オントロジー改善提案部10が、既存オントロジーへの改善提案を作成する。本実施の形態においては、図13に示すように、改善提案を6つのタイプに設定する。
[タイプ1]クラスの追加:クラスの追加
[タイプ2]別名追加:クラス、又はプロパティに対して、別名の追加
[タイプ3]定義統一:異なるオントロジーにおいて、類似クラスとプロパティは、同じ定義を持つ
[タイプ4]プロパティ追加:プロパティの追加
[タイプ5]定義削除:クラス、又はプロパティの定義が重複する際に、余分なクラス、又はプロパティを削除する
[タイプ6]定義変更:クラス間の関係を変更する
以下において、既存オントロジーに対する改善提案を作成する方法を説明する。
まず、図12に示すクラス関係を用いて説明する。
(1) オントロジー改善提案部10は、類似クラスリスト42を用いて、1つのオントロジー(例えば、OntoA)において、類似するクラスを同時に定義しているかどうかのチェックを行う。1つのオントロジー(例えば、OntoA)が2つ以上の類似するクラスを同時に定義している場合には、オントロジー改善提案部10は、1つのクラスだけを残して他のクラス定義を削除するように、自動的に改善提案を作成する。加えて、オントロジー改善提案部10は、削除されたクラスの用語を残したクラスに別名として追加するように、改善提案を作成する。このような改善提案は、オントロジー毎に行なう。または、オントロジー毎の改善提案を作成した後、改善提案を集計し、纏めてオントロジーへ提出するようにしても良い。図12に示すクラス関係の例では、クラス「PC」と「計算機」が類似用語であることが分かる。したがって、1つのオントロジー(OntoA)には、「PC」又は「計算機」のどちらか一方のクラスしか定義しないほうが望ましい。したがって、オントロジー改善提案部10は、どちらか一方を削除するように、図13に示す改善提案1301を作成する。さらに、オントロジー改善提案部10は、クラス「PC」に用語「計算機」を別名として追加するように、図13に示す改善提案1302を作成する。
(2) 例えばオントロジーOntoAにおいて、頻出クラスキーワード集合に存在するクラスClsAを定義している場合には、オントロジー改善提案部10は、頻出クラスキーワード集合にあるクラスClsAに類似するクラス項目を、ClsA項目の別名として登録するように、自動的に改善提案を作成する。図12に示すクラス関係の例では、「PC」と「計算機」は類似用語であって、「PC」を定義したオントロジーに「計算機」を別名として追加するように改善提案をし、同じく、「計算機」を定義したオントロジーに「PC」を別名として追加するように、オントロジー改善提案部10は、図13に示す改善提案1302を作成する。
(3) オントロジー改善提案部10は、異なるオントロジーに類似するクラスをそれぞれ定義している場合には、各オントロジーの該当する類似するクラス項目について同じ定義を持つように、改善提案を作成する。例えば、オントロジー2にクラス「PC」を定義しておりオントロジー3にクラス「計算機」を定義している場合、図12に示すクラス関係の例では「PC」と「計算機」が類似クラスであるため、オントロジー改善提案部10は、同じ定義を持つように、図13に示す改善提案1303を作成する。
(4) オントロジー改善提案部10は、クラスの関係を用いて、既存のオントロジーに定義されているクラス項目と関係のあるクラスを、当該クラス項目と親子関係又は兄弟関係のクラスであるように、改善提案を作成する。図12に示すクラス関係の例では、クラス「PC」と、クラス「サーバー」と、クラス「NotePC」との間に関係がある。従って、オントロジーOntoAにおいて、上記3つクラスの何れか一つのクラスを定義している場合は、他の2つのクラスは、該クラスの親子関係又は兄弟関係のクラスであるべきである。例えば、クラス「PC」を定義してあれば、「PC」の親子関係または兄弟関係のクラスに、クラス「サーバー」と「NotePC」を定義しているかどうかをチェックする。存在していないクラスは、定義が欠損している可能性があるので、該クラスを追加するように、オントロジー改善提案部10は、図13に示す改善提案1304を作成する。一方、オントロジーOntoAにおいて、頻出クラス検索集合の全てのクラスを定義しているが、クラス間の関係が異なる場合がある。例えば、既存のオントロジーOntoAでは、クラス「PC」はクラス「サーバー」と「NotePC」とは親子又は兄弟関係ではないと定義されているような場合には、オントロジーでのクラス間の関係を修正するように、オントロジー改善提案部10は、図13に示す改善提案1305を作成する。
次に、図12に示すプロパティ関係を用いて説明する。
(1) 既存のオントロジー(OntoA)において類似するプロパティ項目が存在している場合、すなわち図12において類似プロパティリスト43が少なくとも1つ以上存在する場合には、各類似プロパティリスト43の各プロパティを定義しているかどうかについて、オントロジー改善提案部10は、自動的にチェックを行う。オントロジー改善提案部10は、オントロジーOntoAにおいて類似プロパティを定義している場合は、1つのプロパティだけを残すように改善提案を作成する。さらに、オントロジー改善提案部10は、削除されるプロパティについて、残されるプロパティに別名として追加するように、改善提案を作成する。図12に示すプロパティ関係の例では、プロパティの「メーカー」と「Manufacture」と「Producer」とが類似用語であるため、1つのオントロジーでは、3者の何れか1つしか定義することができない。2つ以上のプロパティを定義する場合は、1つだけ残すように、オントロジー改善提案部10は、図13に示す改善提案1306を作成する。さらに、オントロジー改善提案部10は、削除されるプロパティの名称を別名として残されるプロパティへ追加するように、図13に示す改善提案1307を作成する。
(2) オントロジー改善提案部10は、類似する項目を1つだけ定義している場合には、該項目に対して他の類似用語を別名として追加定義するように、自動的に改善提案を作成する。図12に示すプロパティ関係の例では、「メーカー」と「Manufacture」と「Producer」とが類似用語であるため、各オントロジーに上記定義が存在する場合は、相互に別名として追加するように、オントロジー改善提案部10は、図13に示す改善提案1308を作成する。
(3) オントロジー改善提案部10は、異なるオントロジーに類似プロパティを定義している場合には、同じ定義を持つように、自動的に改善提案を作成する。図12に示すプロパティ関係の例では、「メーカー」と「Manufacture」と「Producer」との定義を同じにするように、図13に示す改善提案1309を作成する。
(4) オントロジー改善提案部10は、既存のオントロジーOntoAにおいて、頻出プロパティ集合の全てのプロパティがOntoAでの対応するクラスに定義しているかどうかをチェックする。オントロジー改善提案部10は、オントロジーOntoAでの対応クラスが全てのプロパティを定義していない場合、定義されていないプロパティをオントロジーOntoAの該クラスに追加定義するように、自動的に改善提案を作成する。図12に示すプロパティ関係の例では、クラス「PC」に対して、プロパティの{メーカー(又はManufacture,又はProducer),メモリ,HD,電圧,生産日,価格}を定義すべきである。すなわち、オントロジー改善提案部10は、既存のオントロジーOntoAにクラス「PC」が定義されている場合には、自動的に該クラスが利用するプロパティを検出し、上記頻出プロパティ集合との比較を行う。頻出プロパティ集合の要素がオントロジーOntoAに定義されていない場合、オントロジー改善提案部10は、定義欠損しているプロパティを追加するように、図13に示す改善提案1310を作成する。
以上が、オントロジー改善提案部10の説明である。このようにしてオントロジー改善提案部10で作成された改善提案は、オントロジー更新部11に送られる。
オントロジー更新部11は、オントロジー改善提案部10で作成された改善提案に従って、対応するオントロジーの対応する部分を自動的又は半自動的に更新を行う。
したがって、既存のオントロジーをオントロジー改善提案部10で作成された改善提案に従って更新した場合には、更新されたオントロジーが登録部24を介して登録オントロジーDB1に登録されることになるので、用語集2もオントロジー改善提案部10で作成された改善提案に従って更新されることになる。
なお、検索実行部12は、検索設定画面30における検索条件(例えば、クラス、プロパティ)を介して検索キー設定部4に設定した検索キーワードに基づいて登録オントロジーDB1に登録されるオントロジーの検索を実行し、検索結果表示部14は、検索実行部12における検索結果を表示する。
また、用語検出提示部13は、検索キーワードを検索実行部12から受け取り、用語集2から検索キーワードと対応する類似用語と関連用語とを検出し、ユーザが利用するクライアント300に図14に示す類似・関連用語表示画面50を表示して、類似用語51と関連用語52とを提示する。なお、類似・関連用語表示画面50を介してユーザに提示する際には、類似用語と関連用語は分別せずに、用語はクラスタイプであるがプロパティタイプであるかを分類して提示する。選択用語再検索部15は、提示された類似・関連用語表示画面50からユーザが必要とする用語が選択された場合、選択されたキーワードの条件で登録オントロジーDB1に登録されるオントロジーの再検索を実行し、検索結果表示部14は、選択用語再検索部15における検索結果を表示する。これにより、ユーザは提示された類似・関連用語表示画面50から、自分関心のある用語を選択し、図10に示す検索設定画面30から入力した検索条件と合わせて再検索することができる。
このように本実施の形態によれば、検索キーワードの利用頻度と各検索キーワード間の関係、すなわち検索キーワードの履歴を用いて、既存のオントロジー構成項目であるクラス及びプロパティの品質を劣化させる要素(例えば、項目の欠損、項目の異常、項目の非統一性、項目の非正規性など)についての改善提案を作成することにより、オントロジーの品質向上を支援することができる。
[第2の実施の形態]
次に、本発明の第2の実施の形態を図15ないし図20に基づいて説明する。なお、前述した第1の実施の形態と同じ部分は同じ符号で示し説明も省略する。
本実施の形態は、用語集のアクセス履歴を用いて既存のオントロジーに対する改善提案を作成する方法を示すものである。
サーバー100は、図15に示すように、辞書更新プログラムに従うことにより、辞書更新装置として機能するものであって、登録オントロジーDB1と、用語集2と、シソーラス辞書3と、検索キー設定部4と、用語集生成部7と、オントロジー更新部11と、検索実行部12と、用語検出提示部13と、検索結果表示部14と、選択用語再検索部15と、選択用語履歴保存部16と、用語評価部17と、評価集計部18と、用語集アクセス履歴DB19と、頻出用語集合検出部20と、リスト生成部21と、オントロジー改善提案部22と、対応用語更新部23と、登録部24と、を備える。このような構成により、サーバー100は、用語集のアクセス履歴を用いて既存のオントロジーへの改善提案を行う。
図16は、用語集のアクセス履歴を用いて既存のオントロジーに対する改善提案を作成する手順を示すフローチャートである。図16に示すように、用語集のアクセス履歴を用いて既存のオントロジーに対する改善提案を作成するまでに、4つのステップがある。
ステップS11:用語集アクセス履歴を保存する。
ステップS12:頻出用語集合を検出する。
ステップS13:頻出用語集合を用いて用語間の関係を獲得する。
ステップS14:改善提案を作成する。
以下、各ステップの詳細について説明する。
(ステップS11:用語集アクセス履歴を保存する)
選択用語履歴保存部16は、第1の実施の形態で説明したユーザが図15に示す類似・関連用語表示画面50から選択した用語と、第1の実施の形態で説明したユーザが図10に示す検索設定画面30から入力した検索キーワードとを対応付け、用語集アクセス履歴DB19に記憶する。図17は、用語集アクセス履歴DB19に記憶された用語集アクセス履歴を示す模式図である。図17に示すように、用語集アクセス履歴DB19に記憶される用語集アクセス履歴は、類似用語アクセス履歴19aと関連用語アクセス履歴19bに分類される。図16に示す類似・関連用語表示画面50から例えば類似用語51における「計算機」と「パソコン」の両方を選択して再検索を行った場合、図17に示す用語集アクセス履歴では、選択された履歴1701が追加される。なお、検索キーワード及び選択した用語が既に用語集アクセス履歴DB19に記憶された用語集アクセス履歴に記憶されている場合は、コラムの「利用回数」は、プラス1になる。
(ステップS12:頻出用語集合の検出)
ステップS12においては、頻出用語集合検出部20が、用語集アクセス履歴DB19に記憶された用語集アクセス履歴を用いることにより、検索キーワード毎に対して頻出用語集合を検出する。
まず、頻出用語集合検出部20は、頻出検索キーワードを、類似用語アクセス履歴19a及び関連用語アクセス履歴19bから検出する。頻出用語集合検出部20は、1つの検索キーワード“K”に対して、類似用語アクセス履歴19a及び関連用語アクセス履歴19bに記憶された利用回数を計算し、利用回数の高い検索キーワードを頻出検索キーワードとする。図17に示す例では、検索キーワード「PC」の利用回数は、1950回である。
tf(PC)=900+100+200+50+100+200+200+200
=1950
また、検索キーワード「NotePC」の利用回数は、300回である。
tf(NotePC)=300
頻出用語集合検出部20は、上位の利用回数を持つ検索キーワード又は設定された閾値より大きい回数を持つ検索キーワードを、頻出クラスキーワードリストLに追加する。そして、頻出用語集合検出部20は、頻出クラスキーワードリストLの各検索キーワードに対して、頻出用語集合を検出する。
まず、頻出類似用語の検出について、頻出検索キーワード「PC」を例として説明する。用語集アクセス履歴DB19に記憶された類似用語アクセス履歴19aにおいては検索キーワード「PC」と対応する類似用語の利用回数が分かるので、類似用語アクセス履歴19aの中から利用回数が予め設定された閾値より高い用語を「頻出類似用語集合」に追加する。図17に示す例では、検索キーワード「PC」に対して類似用語「パソコン」を選択された頻度tf_PC(パソコン)=900,類似用語「計算機」を選択された頻度tf_PC(計算機)=100,類似用語「personal computer」を選択された頻度tf_PC(personal computer)=200である。閾値が150に設定されている場合には、検索キーワード「PC」に対する「頻出類似用語集合」SimilarL(PC)は、{パソコン、personal computer}になる。なお、閾値は、頻出用語集合検出部20により設定することができる。
次に、頻出関連用語の検出について説明する。頻出類似用語を検出する方法と同様に、用語集アクセス履歴DB19に記憶された関連用語アクセス履歴19bにおいては検索キーワード「PC」と対応する関連用語の利用回数が分かるので、関連用語アクセス履歴19bの中から利用回数が予め設定された閾値より高い用語を「頻出関連用語集合」に追加する。図17に示す例では、tf_PC(CPU)=50,tf_PC(メモリ)=100,tf_PC(HD)=200,tf_PC(メーカー)=200,tf_PC(サーバー)=200である。閾値が100に設定されている場合には、検索キーワード「PC」に対する「頻出関連用語集合」RelatedL(PC)は、{メモリ、HD、メーカー、サーバー}になる。なお、閾値は、頻出用語集合検出部20により設定することができる。
このようにして頻出用語集合検出部20により検出した「頻出類似用語集合」SimlarL及び「頻出関連用語集合」RelatedLを、「頻出用語集合」と称する。上述した例において、頻出用語集合検出部20は、1つの検索キーワード「PC」に対する頻出用語集合を検出することができる。
以上のような処理により、頻出用語集合検出部20は、用語集アクセス履歴DB19に記憶された頻出検索キーワード(又は全ての検索キーワード)に対して、頻出用語集合を検出することができる。
(ステップS13:頻出用語集合を用いて用語間の関係を生成)
ステップS13においては、リスト生成部21は、検出したキーワード毎の頻出用語集合を用いて、検索キーワード及び頻出用語集合の各用語との関係を生成する。図18は、頻出用語集合の関係を示す模式図である。図18に示すように、頻出用語集合のクラス用語60に対して、プロパティ集合61及び類似プロパティリスト62が存在する。より詳細には、検索キーワード「PC」に対して、プロパティ集合61と、類似プロパティリスト62が存在する。
上述したように、頻出類似用語集合の全ての用語は、検索キーワードと類似用語である。例えば、検索キーワード「PC」に対する頻出類似用語集合SimilarL(PC)={パソコン、personal computer}は、図18の符号60に示すように、互いに類似用語である。
一方、頻出関連用語集合には、クラス用語とプロパティ用語の2種類が存在する。関連クラス用語は、検索キーワードと親子又は兄弟関係を持つ。関連プロパティ用語は、検索キーワード及びその類似用語を利用するクラスのプロパティになる。図18に示す例では、頻出関連用語集合RelatedL={メモリ、HD、メーカー、サーバー}における「サーバー」はクラス用語であるため、図18の符号60に示すように、検索キーワードの「PC」とその類似用語クラスとは親子又は兄弟関係を持つ。他の関連用語である「メモリ」、「HD」、「メーカー」はプロパティであるので、図18の符号61に示すように、クラス「PC」又はクラス「パソコン」又はクラス「Personal Computer」のプロパティ集合になる。
さらに、リスト生成部21は、プロパティ集合の各プロパティに対して、図6に示す類似用語集2aから各プロパティの用語の類似用語リストを作成する。具体的には、リスト生成部21は、図18の符号61に示すプロパティ集合に対して、類似用語集2aから図18に示す類似プロパティリスト(類似用語リスト)62を生成する。
上述したような方法を用いて、各検索キーワードとその頻出用語集合の各用語間の関連図を生成することができる。
(ステップS14:改善提案を作成)
ステップS14においては、キーワード毎の頻出用語集合を用いて、オントロジー改善提案部22が、既存オントロジーへの改善提案を作成する。第1の実施の形態で説明したのと同様に、本実施の形態においては、図19に示すように、改善提案を6つのタイプに設定する。
[タイプ1]クラスの追加:クラスの追加
[タイプ2]別名追加:クラス、又はプロパティに対して、別名の追加
[タイプ3]定義統一:異なるオントロジーにおいて、類似クラスとプロパティは、同じ定義を持つ
[タイプ4]プロパティ追加:プロパティの追加
[タイプ5]定義削除:クラス、又はプロパティの定義が重複する際に、余分なクラス、又はプロパティを削除する
[タイプ6]定義変更:クラス間の関係を変更する
以下において、既存オントロジーに対する改善提案を作成する方法を説明する。
まず、図18に示すクラス関係を用いて説明する。
(1) オントロジー改善提案部22は、1つのオントロジーが2つ以上のクラスを定義している場合は、クラス定義重複の可能性があるため、1つのクラス定義だけを残すように、自動的に改善提案を作成する。また、削除されるクラスの用語は、残されたクラスに別名として追加するように、改善提案を作成する。図18に示すクラス関係の例では、1つのオントロジーについて、クラス「PC」、「パソコン」、「Personal Computer」のように2つ以上のクラスが定義されているので、オントロジー改善提案部22は、1つのクラス定義だけを残すように、図19に示す改善提案1901を作成する。さらに、オントロジー改善提案部22は、残されたクラスに他の2つのクラスを別名として追加するように、図19に示す改善提案1902を作成する。
(2) オントロジー改善提案部22は、オントロジーに類似するクラス項目が定義してある場合には、他の類似用語を該クラスの別名として追加するように、改善提案を作成する。このようにオントロジークラス間の相互の別名追加することによって、オントロジー間の交換性を向上させることができる。さらに、シソーラス辞書3の用語の追加によって、オントロジーの定義をより正確にすることができる。図18に示すクラス関係の例では、オントロジーにクラス「PC」を定義している場合において、クラス「PC」に類似するクラス「パソコン」、「personal computer」が定義してあることから、オントロジー改善提案部22は、クラス「パソコン」、「personal computer」をクラス「PC」の別名として追加定義するように、図19に示す改善提案1902を作成する。ここで、「personal computer」はシソーラス辞書3からの用語であるため、オントロジーの定義に追加することによって、定義をより正確にすることができる。
(3) オントロジー改善提案部22は、オントロジーにおいて少なくとも1つのクラスを定義している場合に、該クラスに対する親子又は兄弟クラスについて、頻出用語集合の関係と同じ構造を持つかどうかの比較を行なう。図18に示すクラス関係の例では、オントロジーにクラスのPC」を定義していることにより、オントロジー改善提案部22は、そのクラスの親子・兄弟クラスに、クラス「サーバー」を定義しているかどうかのチェックを行う。クラス「サーバー」の定義が存在していない場合には、オントロジー改善提案部22は、クラス「サーバー」を追加するように、図19に示す改善提案1903を作成する。一方、クラス「サーバー」が定義されているが、クラス「PC」と親子又は兄弟関係を持たない場合には、オントロジー改善提案部22は、既存のオントロジーにおいて、クラス「サーバー」とクラス「PC」との関係を修正するように、図19に示す改善提案1904を作成する。
次に、図18に示すクラスとプロパティとの関係を用いて説明する。
オントロジー改善提案部22は、既存のオントロジー(OntoYと称する)に、クラス「PC」又はクラス「パソコン」、クラス「Personal Computer」が定義されている場合は、それらのクラスについて、図18に示すプロパティ集合61と同様のプロパティ集合{P}を定義しているかどうかのチェックを行う。
(1) オントロジーOntoYにプロパティP1を定義していない場合に、オントロジー改善提案部22は、プロパティP1を定義するオントロジーOntoYに、プロパティP1との類似プロパティリストProp_P1の用語を定義しているかどうかをチェックする。
(ア) オントロジーOntoYに、プロパティP1の類似プロパティリストProp_P1に存在する2つ以上のプロパティを定義していれば、オントロジー改善提案部22は、1つだけを残すようにプロパティの削除を要求する図19に示す改善提案1905を作成する。さらに、オントロジー改善提案部22は、削除されたプロパティを残されたプロパティに別名として追加するように、図19に示す改善提案1906を作成する。
(イ) オントロジーOntoYにプロパティP1の類似プロパティリストProp_P1の全ての用語を定義していない場合には、オントロジー改善提案部22は、オントロジーOntoYにプロパティP1を追加するように、図19に示す改善提案1907を作成する。
(ウ) オントロジーOntoYにプロパティP1の類似プロパティリストProp_P1に存在するPxが定義されていれば、オントロジー改善提案部22は、プロパティP1はプロパティPxの別名として追加するように、図19に示す改善提案1908を作成する。
(2) オントロジーOntoYにプロパティ集合{P}にあるプロパティが全て定義されている場合に、オントロジー改善提案部22は、プロパティP1を定義するオントロジーOntoYに、プロパティP1の類似プロパティリストProp_P1にある全ての用語を定義しているかどうかのチェックを行う。
(ア) オントロジーOntoYにプロパティP1の類似プロパティリストProp__P1の用語を1つ以上定義している場合は、オントロジー改善提案部22は、該プロパティを削除するように、図19に示す改善提案1905を作成する。さらに、オントロジー改善提案部22は、該用語をプロパティP1の別名として登録するように、別名追加の図19に示す改善提案1906を作成する。
(イ) オントロジーOntoYにプロパティP1の類似プロパティリストProp_P1の用語を1つも定義していない場合は、オントロジー改善提案部22は、プロパティP1に対して類似プロパティリストProp_P1の用語を類似度の高い順に別名として追加するように、別名追加の図19に示す改善提案1906を作成する。
以上が、オントロジー改善提案部22の説明である。このようにしてオントロジー改善提案部22で作成された改善提案は、オントロジー更新部11に送られる。
オントロジー更新部11は、オントロジー改善提案部22で作成された改善提案に従って、対応するオントロジーの対応する部分を自動的又は半自動的に更新を行う。
したがって、既存のオントロジーをオントロジー改善提案部10で作成された改善提案に従って更新した場合には、更新されたオントロジーが登録部24を介して登録オントロジーDB1に登録されることになるので、用語集2もオントロジー改善提案部10で作成された改善提案に従って更新されることになる。
加えて、本実施の形態においては、図15に示すように、用語評価部17を備えている。用語評価部17は、選択用語再検索部15における再検索の結果を用いて、類似度または関連度の評価を行うことができる。そして、評価集計部18は、用語評価部17における評価結果を集計して用語集アクセス履歴DB19に記憶する。
図20は、評価結果19cの一例を示す模式図である。なお、図20は類似用語に対する評価の一例であるが、関連用語に対してもユーザが同様に評価することができるのは、言うまでもない。類似度及び関連度は、0−5の6段階に設定される。「5」は、図15に示す類似・関連用語表示画面50から選択した用語と図10に示す検索設定画面30から入力した検索キーワードとが最も類似または関連していることを示す。一方、「0」は、選択した用語と検索キーワードとが最も類似していない、または関連していないことを示す。
そして、オントロジー改善提案部22は、当該オントロジー改善提案部22で作成したオントロジーへの改善提案に対し、同じ検索キーワードと用語を持つ用語評価部17における評価結果を追加して、オントロジーへの改善提案として提出することができる。その際に、1つの検索キーワードと用語の組み合わせに対して、全てのユーザの評価結果を改善提案に追加する方法と、全ユーザの評価の平均値を改善提案に追加する方法がある。
さらに、本実施の形態においては、図15に示すように、対応用語更新部23を備えている。対応用語更新部23は、用語集アクセス履歴DB19に記憶された用語評価部17における評価結果を用いて類似・関連用語表示画面50から選択した用語と検索設定画面30から入力した検索キーワードとの類似度及び関連度を再計算し、対応する用語集2を更新する。以下において、対応用語更新部23における再計算について詳述する。なお、以下においては、類似度を例として再計算の説明を行うが、関連度も同様に再計算され、用語集2を更新する。
類似度は、全てのユーザの評価の平均値になる。評価平均値の計算方法は、下記式に示す通りである。
Average_Similarity = (Σ(ユーザ評価*評価回数)/Σ評価回数)/5
図20に示す評価例によれば、検索キーワード“PC”と、用語の“パソコン”との類似度に対するユーザ評価が2001〜2003に記載されている。従って、“PC”と“パソコン”の類似度Sは、
S=((5*10+5*6+4*4)/20)/5
=4.8/5
=96%
となる。従って、対応用語更新部23は、図6に示す類似用語DB2aに格納される類似用語集の“PC”と“パソコン”の類似度を“96%”に更新する。
このように本実施の形態によれば、ユーザからの検索状況の履歴の分析、すなわち類似/関連用語に対するアクセス履歴を用いて、既存のオントロジー構成項目であるクラス及びプロパティの品質を劣化させる要素(例えば、項目の欠損、項目の異常、項目の非統一性、項目の非正規性など)についての改善提案を作成することにより、オントロジーの品質向上を支援することができる。
[第3の実施の形態]
次に、本発明の第3の実施の形態を図21ないし図24に基づいて説明する。なお、前述した第1の実施の形態または第2の実施の形態と同じ部分は同じ符号で示し説明も省略する。
本実施の形態は、第1の実施の形態におけるオントロジーへの改善提案で用いた検索キーワードの履歴と、第2の実施の形態におけるオントロジーへの改善提案で用いた用語集のアクセス履歴との両方を用いて、オントロジーに対する改善提案を作成する方法を示すものである。
サーバー100は、図21に示すように、辞書更新プログラムに従うことにより、辞書更新装置として機能するものであって、登録オントロジーDB1と、用語集2と、シソーラス辞書3と、検索キー設定部4と、検索履歴記憶部5と、検索履歴DB6と、用語集生成部7と、頻出検索キーワード集合検出部8と、リスト生成部9と、オントロジー更新部11と、検索実行部12と、用語検出提示部13と、検索結果表示部14と、選択用語再検索部15と、選択用語履歴保存部16と、用語評価部17と、評価集計部18と、用語集アクセス履歴DB19と、頻出用語集合検出部20と、リスト生成部21と、オントロジー改善提案部22と、対応用語更新部23と、登録部24と、を備える。このような構成により、サーバー100は、検索キーワードの履歴と用語集のアクセス履歴とを用いて既存のオントロジーへの改善提案を行う。
図22は、検索キーワードの履歴と用語集のアクセス履歴とを用いて既存のオントロジーに対する改善提案を作成する手順を示すフローチャートである。図22に示すように、用語集のアクセス履歴を用いて既存のオントロジーに対する改善提案を作成するまでに、6つのステップがある。
ステップS21:頻出検索キーワード集合と頻出用語集合とから同じキーワードを検出する。
ステップS22:頻出検索キーワード集合と頻出用語集合との頻出クラス集合の和を取る。
ステップS23:頻出検索キーワード集合と頻出用語集合との頻出プロパティ集合の和を取る。
ステップS24:類似クラスリストを生成する。
ステップS25:類似プロパティリストを生成する。
ステップS26:改善提案を作成する。
以下、各ステップの詳細について説明する。
(ステップS21:頻出検索キーワード集合と頻出用語集合とから同じキーワードを検出)
ステップS21においては、オントロジー改善提案部22が、第1の実施の形態で説明した頻出検索キーワード集合(図12参照)と、第2の実施の形態で説明した頻出用語集合(図18参照)とを取得し、取得した頻出検索キーワード集合と頻出用語集合とから同じキーワードを検出する。なお、頻出用語集合は、クラス集合とプロパティ集合を含む。図12に示す頻出検索キーワード集合をSearch_Lとすると、クラス集合Search_class_LはSearch_class_L={PC、計算機、サーバー、NotePC}であり、プロパティ集合Search_property_LはSearch_property_L={メーカー、メモリ、HD、電圧、生産日、Manufacture、Producer、価格}である。また、図18に示す検索キーワード「PC」に対応する頻出用語集合をItem_Lとすると、クラス集合Item_class_LはItem_class_L={PC、パソコン、Personal Computer}であり、プロパティ集合Item_property_LはItem_property_L={メモリ、HD、メーカー}である。
(ステップS22:頻出検索キーワード集合と頻出用語集合との頻出クラス集合の和を取る)
ステップS22においては、オントロジー改善提案部22が、頻出検索キーワード集合と頻出用語集合との頻出クラス集合の和を取る。ここで、図23は頻出検索キーワード集合と頻出用語集合との和の一例を示す模式図である。第1の実施の形態で説明した頻出検索キーワード集合(図12参照)と、第2の実施の形態で説明した頻出用語集合(図18参照)との頻出クラス集合の和を取ると、図23に示すような関係になる。図23に示す例では、Search_class_LとItem_class_Lとの和を取ると、頻出クラス集合(Class_L)70は、
頻出クラス集合Class_L=Search_class_L∪Item_class_L={PC、計算機、サーバー、NotePC、パソコン、Personal Computer}
になる。
(ステップS23:頻出検索キーワード集合と頻出用語集合との頻出プロパティ集合の和を取る)
ステップS23においては、オントロジー改善提案部22が、頻出検索キーワード集合と頻出用語集合との頻出プロパティ集合の和を取る。第1の実施の形態で説明した頻出検索キーワード集合(図12参照)と、第2の実施の形態で説明した頻出用語集合(図18参照)との頻出クラス集合の和を取ると、図23に示すような関係になる。図23に示す例では、Search_property_LとItem_property_Lとの和を取ると、頻出プロパティ集合(Property_L)71は、
頻出プロパティ集合Property_L=Search_property_L∪Item_property_L={メーカー、メモリ、HD、電圧、生産日、Manufacture、Producer、価格、メモリ、HD}={メーカー、電圧、生産日、価格、メモリ、HD}
になる。
(ステップS24:類似クラスリストを生成する)
ステップS24においては、オントロジー改善提案部22が、既存の用語集2(類似用語DB2aに格納される類似用語集)を参考にして、頻出クラス集合Class_Lの全ての用語に対して類似するクラスリストを生成する。図23における符号72は、頻出クラス集合Class_Lの類似クラスリスト例である。以下において、具体的に説明する。
まず、オントロジー改善提案部22は、頻出クラス集合Class_Lの各用語が類似用語であるかどうかのチェックを行う。本実施の形態においては、図6に示す既存の用語集2(類似用語DB2aに格納される類似用語集)を用いることにより、用語の「PC」と「パソコン」と「Personal Computer」と「計算機」が類似用語であることが分かるので、類似クラスリストClass_PC={パソコン、計算機、Personal Computer}を生成することができる。
さらに、オントロジー改善提案部22は、既存の用語集2(類似用語DB2aに格納される類似用語集)を用いて、上記類似クラスリストの全ての用語に対して類似用語を検出し、該類似クラスリストに重複しないように追加する。オントロジー改善提案部22は、図6に示す既存の用語集2(類似用語DB2aに格納される類似用語集)を用いることにより、「PC」と類似する用語「電子計算機」を類似クラスリストClass_PCに追加する。従って、Class_PC={パソコン、計算機、Personal Computer、電子計算機}になる。
同様に、オントロジー改善提案部22は、頻出クラス集合Class_Lにある他の用語「サーバー」と「NotePC」についての類似用語を検出し、類似用語リストClass_サーバー={Server}と、Class_NotePC={ノート}を獲得することができる。
(ステップS25:類似プロパティリストを生成する)
ステップS25においては、オントロジー改善提案部22が、既存の用語集2(類似用語DB2aに格納される類似用語集)を参考にして、頻出プロパティ集合Property_Lの全ての用語に対して類似するプロパティリストを生成する。図23における符号73は、頻出プロパティ集合Property_Lの類似プロパティリスト例である。以下において、具体的に説明する。
まず、オントロジー改善提案部22は、頻出プロパティ集合Property_Lの各用語が互いに類似用語であるかどうかのチェックを行う。本実施の形態においては、図6に示す既存の用語集2(類似用語DB2aに格納される類似用語集)を用いることにより、プロパティ「メーカー」と「Manufacture」と「Producer」が類似用語であることが分かるので、類似プロパティリストProp_メーカー={Manufacture,Producer}を生成することができる。該類似プロパティリストは、「メーカー」と「Manufacture」と「Producer」が類似用語であることを表現している。本例においては、Prop_メーカーを用いて表しているが、Prop_Manufactureや、Prop_Producerでも同じ意味を持つ。このように類似用語の一つを用いることにより、類似プロパティリストを表現することができる。
さらに、オントロジー改善提案部22は、既存の用語集2(類似用語DB2aに格納される類似用語集)を用いて、「メーカー」と類似するプロパティは用語「Maker」もあることが分かるので、用語「Maker」を「メーカー」の類似プロパティリストに追加する。従って、類似プロパティリストProp_メーカーは、Prop_メーカー={Manufacture, Producer、maker}になる。
同様に、オントロジー改善提案部22は、頻出プロパティ集合Property_Lにある他の用語に対しても類似プロパティリストを得ることができる。
最後に、オントロジー改善提案部22は、頻出プロパティ集合(Property_L)Lから類似する項目を除くことにより、図23に示す実際の類似プロパティリスト74を生成する。
(ステップS26:改善提案を作成する)
ステップS26においては、オントロジー改善提案部22が、プロパティ集合及び対応する類似クラスリストとプロパティリストを用いて、既存オントロジーへの改善提案を作成する。第1の実施の形態および第2の実施の形態で説明したのと同様に、本実施の形態においては、図24に示すように、改善提案を6つのタイプに設定する。
[タイプ1]クラスの追加:クラスの追加
[タイプ2]別名追加:クラス、又はプロパティに対して、別名の追加
[タイプ3]定義統一:異なるオントロジーにおいて、類似クラスとプロパティは、同じ定義を持つ
[タイプ4]プロパティ追加:プロパティの追加
[タイプ5]定義削除:クラス、又はプロパティの定義が重複する際に、余分なクラス、又はプロパティを削除する
[タイプ6]定義変更:クラス間の関係を変更する
以下において、既存オントロジーに対する改善提案を作成する方法を説明する。
まず、頻出クラス集合及び類似クラスリストを用いて説明する。
(1) オントロジー改善提案部22は、1つの類似クラスリストにある全ての用語が類似であることから、1つのオントロジーには1つの項目しか定義しないように、自動的に改善提案を作成する。類似クラスリストClass_PCを例にして説明すると、クラス「PC」とその類似クラスリスト:{パソコン、計算機、Personal Computer、電子計算機}の全てのクラス用語に対して、1つのオントロジーに上記リストの中から1つのクラスしか定義することができない。オントロジー改善提案部22は、2つ以上のクラスを定義している場合は、1つのクラス定義だけを残すように、図24に示す改善提案2401を作成する。さらに、オントロジー改善提案部22は、削除されるクラスを残されるクラスに別名として追加するように、図24に示す改善提案2402を作成する。
(2) オントロジー改善提案部22は、類似クラスリストの1つのクラスを定義している場合には、他の用語は別名として追加するように、改善提案を作成する。例えば、オントロジー改善提案部22は、クラス「PC」にまだ定義していない類似用語{パソコン、計算機、Personal Computer}を、「PC」の別名として追加するように、図24に示す改善提案2403を作成する。
(3) オントロジー改善提案部22は、オントロジーにおいて少なくとも1つのクラスを定義している場合に、該クラスに対する親子又は兄弟クラスについて、頻出クラス集合と同様なクラスを持つかどうかの比較を行う。オントロジー改善提案部22は、頻出クラス集合で定義されており、オントロジーで定義されていない場合には、該クラスの追加改善提案を作成する。例えば、クラス「PC」に対してクラス「サーバー」とクラス「NotePC」は親子クラス又は兄弟クラスに定義すべきである。従って、オントロジー改善提案部22は、既存のオントロジーにおいて、クラス「PC」に、クラス「サーバー」とクラス「NotePC」を定義していない場合は、クラスを追加するように、図24に示す改善提案2404を作成する。一方、既存のオントロジーで定義したクラス関係と頻出クラス集合にあるクラス間の関係と異なる場合は、オントロジー改善提案部22は、オントロジーでのクラス間の関係を修正するように、図24に示す改善提案2405を作成する。
次に、クラスとプロパティとの関係を用いて説明する。
既存のオントロジーにおいて、頻出クラス集合と同様なクラスを定義している場合は、該クラスに対して、頻出プロパティ集合の項目、またはプロパティの類似項目を定義すべきである。より具体的には、図23に示す例では、既存のオントロジーにおいて、クラス「PC」(及びその類似クラス)に、頻出プロパティ集合74の集合{P}、又その項目の類似リスト73を定義すべきである。そこで、オントロジー改善提案部22は、既存のオントロジー(OntoXとする)の「PC」が利用するプロパティと、頻出プロパティ集合{P}を比較する。
(1) 頻出プロパティ集合{P}に定義してあるプロパティP2が既存のオントロジーOntoXに定義していない場合に、オントロジー改善提案部22は、プロパティP2を定義するオントロジーOntoXに、プロパティP2との類似プロパティリストProp_P2の用語を定義しているかどうかをチェックする。
(ア) オントロジーOntoXに、プロパティP2の類似プロパティリストProp_P2に存在する2つ以上のプロパティを定義していれば、オントロジー改善提案部22は、1つだけを残すようにプロパティの削除を要求する図24に示す改善提案2406を作成する。さらに、オントロジー改善提案部22は、削除されたプロパティを残されたプロパティに別名として追加するように、図24に示す改善提案2407を作成する。
(イ) オントロジーOntoXにプロパティP2の類似プロパティリストProp_P2の全ての用語を定義していない場合には、オントロジー改善提案部22は、オントロジーOntoXにプロパティP2を追加するように、図24に示す改善提案2408を作成する。
(ウ) オントロジーOntoXにプロパティP2の類似プロパティリストProp_P2に存在するPxが定義されていれば、オントロジー改善提案部22は、プロパティP2はプロパティPxの別名として追加するように、図24に示す改善提案2407を作成する。
(2) オントロジーOntoXにプロパティ集合{P}にあるプロパティが全て定義されている場合に、オントロジー改善提案部22は、プロパティP2を定義するオントロジーOntoXに、プロパティP2の類似プロパティリストProp_P2にある全ての用語を定義しているかどうかのチェックを行う。
(ア) オントロジーOntoXにプロパティP2の類似プロパティリストProp__P2の用語を1つ以上定義している場合は、オントロジー改善提案部22は、該プロパティを削除するように、図24に示す改善提案2406を作成する。さらに、オントロジー改善提案部22は、該用語をプロパティP2の別名として登録するように、図24に示す別名追加の改善提案2407を作成する。
(イ) オントロジーOntoXにプロパティP2の類似プロパティリストProp_P2の用語を1つも定義していない場合は、オントロジー改善提案部22は、プロパティP2に対して類似プロパティリストProp_P2の用語を類似度の高い順に別名として追加するように、図24に示す別名追加の改善提案2409を作成する。
以上が、オントロジー改善提案部22の説明である。このようにしてオントロジー改善提案部22で作成された改善提案は、オントロジー更新部11に送られる。
オントロジー更新部11は、オントロジー改善提案部22で作成された改善提案に従って、対応するオントロジーの対応する部分を自動的又は半自動的に更新を行う。
このように本実施の形態によれば、第1の実施の形態と、第2の実施の形態の両方の情報を利用しているため、第1の実施の形態および第2の実施形態より改善提案の範囲を広くすることができる。
[第4の実施の形態]
次に、本発明の第4の実施の形態を図25および図26に基づいて説明する。なお、前述した第1の実施の形態ないし第3の実施の形態と同じ部分は同じ符号で示し説明も省略する。
図10に示す検索設定画面30を介して検索キー設定部4に設定される検索条件は、前述したクラスおよびプロパティに限るものではない。例えば、図10に示すように、その値や単位なども検索条件として検索キー設定部4に設定することができる。そして、検索設定画面30における検索条件(例えば、クラス、プロパティ、プロパティの値および単位の情報など)を介して検索キー設定部4に設定した検索キーワードは、検索履歴DB6に記憶される。図25は、検索履歴DB6に記憶される検索キーワード履歴6bを示す模式図である。図25に示すように、設定したクラスキーワードは、「クラス」コラムに記憶する。設定したクラス条件と同時に設定したプロパティ検索条件は、プロパティは「プロパティ」のコラムに記憶し、値は「値」のコラムに記憶する。プロパティに対して、単位の設定があれば、「単位」のコラムに記憶する。プロパティと値の関係は、「計算符号」コラムに記憶する。「値」、「単位」、「計算符号」などは、プロパティに付帯する用語である。
頻出検索キーワード集合検出部8は、検索履歴DB6に記憶された検索キーワード履歴に対して頻出検索キーワード集合を検出し、リスト生成部9は、頻出検索キーワード集合に含まれる全てのプロパティに付帯する用語リストを生成する。
オントロジー改善提案部10は、キーワード毎の頻出用語集合を用いて、既存オントロジーへの改善提案を作成する。本実施の形態においては、図26に示すように、改善提案を3つのタイプに設定する。
[タイプ1]データタイプ(DataType)
[タイプ2]単位(UNIT)
[タイプ3]ENUM
以下において、既存オントロジーに対する改善提案を作成する方法を説明する。
(1) DataType
図25に示すように、頻出クラス「PC」における頻出プロパティとしては、プロパティ「メモリ」がある。検索キーワード履歴上では、プロパティ「メモリ」に対して、良く利用される値は256、又は512であることが分かる。夫々の利用頻度は、tf_メモリ(256)=30であり、tf_メモリ(512)=80である。オントロジー改善提案部10は、該プロパティが利用する値は整数であることを自動的に判別し、プロパティ「メモリ」のデータタイプを整数にするように、図26に示すオントロジーへの改善提案2601を作成する。
(2) UNIT
図25に示すように、頻出クラス「PC」における頻出プロパティとしては、プロパティ「電圧」がある。このようなプロパティ「電圧」について、頻繁に指定される単位を検出することができる。図25に示す例では、プロパティ「電圧」に対して、単位V(ボルト)が利用された回数は“30”であり、該プロパティについてはその他の単位は利用されていない。即ち、単位のV(ボルト)が、プロパティ「電圧」が頻繁に利用される単位である。オントロジー改善提案部10は、オントロジーの該当するクラス(図25に示す例では、「PC」又は「NotePC」)の「電圧」プロパティについて“単位”のアトリビュートを利用している場合には、“V(ボルト)”に定義するように、図26に示すオントロジーへの改善提案2602を作成する。
(3) ENUM
頻出クラスの頻出プロパティは、元のオントロジーにおいてセットである場合がある。セットタイプのプロパティは、決定された値のセットから、該プロパティの値を選択するデータタイプである。例えば、“色”のプロパティに対して、{赤、黒、白、青、・・・}の色のセットから値を選ぶ。本実施の形態においては、プロパティがセットである場合は、検索履歴DB6に記憶される検索キーワード履歴(検索値の履歴)6bを用いて、該プロパティの頻出値を検出することができる。図25に示す例では、プロパティ「メーカー」に対して、頻出値は“AAA”、“BBB”、“CCC”であることが分かる。従って、既存のオントロジーにおいて、プロパティ「メーカー」の選択できる値セットは上記3者を含むことが必要である。オントロジー改善提案部10は、既存のオントロジーでは、上記3者を定義していない場合には、定義していない値を列挙子として追加するように、図26に示すオントロジーへの改善提案2603を作成する。
本発明の第1の実施の形態にかかるデータ検索表示システムのシステム構築例を示す模式図である。 サーバーおよびクライアントのモジュール構成図である。 サーバーの機能構成を示すブロック図である。 オントロジー構成の一例を示す模式図である。 図4の一部をXMLフォーマットで表した例を示す説明図である。 類似用語集のデータ構成の一例を示す模式図である。 関連用語集のデータ構成の一例を示す模式図である。 関連用語集のデータ構成の一例を示す模式図である。 改善提案を作成する手順を示すフローチャートである。 検索設定画面を示す正面図である。 検索キーワード履歴を示す模式図である。 検索キーワード関係を示す模式図である。 改善提案例を示す模式図である。 類似・関連用語表示画面を示す正面図である。 本発明の第2の実施の形態にかかるサーバーの機能構成を示すブロック図である。 改善提案を作成する手順を示すフローチャートである。 用語集アクセス履歴を示す模式図である。 頻出用語集合の関係を示す模式図である。 改善提案例を示す模式図である。 評価結果の一例を示す模式図である。 本発明の第3の実施の形態にかかるサーバーの機能構成を示すブロック図である。 改善提案を作成する手順を示すフローチャートである。 頻出検索キーワード集合と頻出用語集合との和の一例を示す模式図である。 改善提案例を示す模式図である。 本発明の第4の実施の形態にかかる検索キーワード履歴を示す模式図である。 改善提案例を示す模式図である。
符号の説明
1 辞書記憶部
2 類似/関連用語記憶部
4 検索キー設定部
5 検索履歴記憶部
8 頻出検索キーワード集合検出部
9 リスト生成部
10 改善提案作成部
11 辞書更新部
12 検索実行部
13 用語検出提示部
15 選択用語再検索部
19 アクセス履歴記憶部
20 頻出用語集合検出部
21 リスト生成部
17 用語評価部
18 評価集計部
22 改善提案作成部
23 対応用語更新部
100 辞書更新装置

Claims (14)

  1. メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶部と、
    前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶部と、
    前記辞書記憶部に記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定部と、
    設定された前記検索キーワードの履歴を記憶する検索履歴記憶部と、
    前記検索キーワードの履歴から、ユーザが検索時に頻繁に利用するクラスおよびプロパティである頻出検索キーワード集合を検出する頻出検索キーワード集合検出部と、
    前記頻出検索キーワード集合に含まれる全てのクラス間の関係を生成し、生成された前記クラス間の関係について前記類似/関連用語を参照して類似クラスリストを生成するとともに、前記頻出検索キーワード集合に含まれる全てのプロパティについて前記類似/関連用語を参照して類似プロパティリストを生成するリスト生成部と、
    前記類似クラスリストおよび前記類似プロパティリストを用いて、前記辞書を構成するクラスおよびプロパティの品質を劣化させる要素についての改善提案を作成する改善提案作成部と、
    前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新部と、
    を備えることを特徴とする辞書更新装置。
  2. メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶部と、
    前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶部と、
    前記辞書記憶部に記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定部と、
    前記検索キーワードに基づいて前記辞書記憶部に記憶されている前記辞書を検索する検索実行部と、
    前記類似/関連用語記憶部に記憶されている前記類似/関連用語を参照して、前記検索キーワードと対応する類似用語と関連用語とを検出して提示する用語検出提示部と、
    提示した類似用語または関連用語が選択された場合、選択されたキーワードの条件で前記辞書の再検索を実行する選択用語再検索部と、
    選択された類似用語または関連用語と前記検索キーワードとを対応付けて利用回数と共にアクセス履歴として記憶するアクセス履歴記憶部と、
    前記アクセス履歴記憶部に記憶された前記類似用語および前記関連用語の内、所定の閾値よりも大きな前記利用回数を持つ前記検索キーワードに対応付けられた前記類似用語の集合および前記関連用語の集合を頻出用語集合として検出する頻出用語集合検出部と、
    前記検索キーワードおよび前記頻出用語集合の各用語との関係を生成し、生成された前記各用語の関係について前記類似/関連用語を参照して類似プロパティリストを生成するリスト生成部と、
    前記類似プロパティリストを用いて、前記辞書を構成するクラスおよびプロパティの品質を劣化させる要素についての改善提案を作成する改善提案作成部と、
    前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新部と、
    を備えることを特徴とする辞書更新装置。
  3. メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶部と、
    前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶部と、
    前記辞書記憶部に記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定部と、
    設定された前記検索キーワードの履歴を記憶する検索履歴記憶部と、
    前記検索キーワードの履歴から、ユーザが検索時に頻繁に利用するクラスおよびプロパティである頻出検索キーワード集合を検出する頻出検索キーワード集合検出部と、
    前記検索キーワードに基づいて前記辞書記憶部に記憶されている前記辞書を検索する検索実行部と、
    前記類似/関連用語記憶部に記憶されている前記類似/関連用語を参照して、前記検索キーワードと対応する類似用語と関連用語とを検出して提示する用語検出提示部と、
    提示した類似用語または関連用語が選択された場合、選択されたキーワードの条件で前記辞書の再検索を実行する選択用語再検索部と、
    選択された類似用語または関連用語と前記検索キーワードとを対応付けて利用回数と共にアクセス履歴として記憶するアクセス履歴記憶部と、
    前記アクセス履歴記憶部に記憶された前記類似用語および前記関連用語の内、所定の閾値よりも大きな前記利用回数を持つ前記検索キーワードに対応付けられた前記類似用語の集合および前記関連用語の集合を頻出用語集合として検出する頻出用語集合検出部と、
    前記頻出検索キーワード集合と前記頻出用語集合とから両集合にある同一クラスおよび同一プロパティを検出し、検出された前記同一クラスについて前記類似/関連用語を参照して類似クラスリストを生成するとともに、前記同一プロパティについて前記類似/関連用語を参照して類似プロパティリストを生成するリスト生成部と、
    前記類似クラスリストおよび前記類似プロパティリストを用いて、前記辞書を構成するクラスおよびプロパティの品質を劣化させる要素についての改善提案を作成する改善提案作成部と、
    前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新部と、
    を備えることを特徴とする辞書更新装置。
  4. 前記選択用語再検索部における再検索の結果を用いて、類似度または関連度の評価を行う用語評価部と、
    前記用語評価部における評価結果を集計して、前記アクセス履歴記憶部に記憶する評価集計部と、
    を備え、
    前記改善提案作成部は、作成した前記改善提案に対して同じ前記検索キーワードおよび前記頻出用語集合の各用語を持つ前記用語評価部における評価結果を追加して、既存の前記辞書への改善提案として提出する、
    ことを特徴とする請求項2または3記載の辞書更新装置。
  5. 前記アクセス履歴記憶部に記憶された前記用語評価部における評価結果を用いて、入力または選択された前記検索キーワードとの類似度及び関連度を再計算し、対応する前記類似/関連用語記憶部に記憶されている前記類似/関連用語を更新する対応用語更新部を更に備える、
    ことを特徴とする請求項4記載の辞書更新装置。
  6. 前記辞書を構成するクラスおよびプロパティの品質を劣化させる要素は、前記辞書を構成するクラスおよびプロパティの欠損、前記辞書を構成するクラスおよびプロパティの異常、前記辞書を構成するクラスおよびプロパティの非統一性、前記辞書を構成するクラスおよびプロパティの非正規性のいずれかである、
    ことを特徴とする請求項1ないし5のいずれか一記載の辞書更新装置。
  7. 前記改善提案作成部が作成する改善提案は、クラスを追加するクラス追加、クラスまたはプロパティに対して別名を追加する別名追加、異なる辞書間で類似するクラスまたはプロパティの定義を統一する定義統一、プロパティを追加するプロパティ追加、余分なクラスまたはプロパティを削除する定義削除、クラス間の関係を変更する定義変更のいずれかである、
    ことを特徴とする請求項1ないし5のいずれか一記載の辞書更新装置。
  8. メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶部と、
    前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶部と、
    前記辞書記憶部に記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定部と、
    設定された前記検索キーワードの履歴を記憶する検索履歴記憶部と、
    前記検索キーワードの履歴から、ユーザが検索時に頻繁に利用する頻出検索キーワード集合を検出する頻出検索キーワード集合検出部と、
    前記頻出検索キーワード集合に含まれる全てのプロパティに付帯する用語リストを生成するリスト生成部と、
    前記プロパティに付帯する用語リストを用いて、前記プロパティに付帯する用語の品質を劣化させる要素についての改善提案を作成する改善提案作成部と、
    前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新部と、
    を備えることを特徴とする辞書更新装置。
  9. 前記プロパティに付帯する用語の品質を劣化させる要素は、前記プロパティに付帯する用語の欠損、前記プロパティに付帯する用語の異常、前記プロパティに付帯する用語の非統一性、前記プロパティに付帯する用語の非正規性のいずれかである、
    ことを特徴とする請求項8記載の辞書更新装置。
  10. 前記改善提案作成部が作成する改善提案は、データタイプ、単位、ENUMの列挙子のいずれかである、
    ことを特徴とする請求項8記載の辞書更新装置。
  11. メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶機能と、
    前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶機能と、
    記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定機能と、
    設定された前記検索キーワードの履歴を記憶する検索履歴記憶機能と、
    前記検索キーワードの履歴から、ユーザが検索時に頻繁に利用するクラスおよびプロパティである頻出検索キーワード集合を検出する頻出検索キーワード集合検出機能と、
    前記頻出検索キーワード集合に含まれる全てのクラス間の関係を生成し、生成された前記クラス間の関係について前記類似/関連用語を参照して類似クラスリストを生成するとともに、前記頻出検索キーワード集合に含まれる全てのプロパティについて前記類似/関連用語を参照して類似プロパティリストを生成するリスト生成機能と、
    前記類似クラスリストおよび前記類似プロパティリストを用いて、前記辞書を構成するクラスおよびプロパティの品質を劣化させる要素についての改善提案を作成する改善提案作成機能と、
    前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新機能と、
    をコンピュータに実行させることを特徴とするプログラム。
  12. メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶機能と、
    前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶機能と、
    記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定機能と、
    記憶されている前記辞書を前記検索キーワードに基づいて検索する検索実行機能と、
    記憶されている前記類似/関連用語を参照して、前記検索キーワードと対応する類似用語と関連用語とを検出して提示する用語検出提示機能と、
    提示した類似用語または関連用語が選択された場合、選択されたキーワードの条件で前記辞書の再検索を実行する選択用語再検索機能と、
    選択された類似用語または関連用語と前記検索キーワードとを対応付けて利用回数と共にアクセス履歴として記憶するアクセス履歴記憶機能と、
    前記アクセス履歴記憶機能に記憶された前記類似用語および前記関連用語の内、所定の閾値よりも大きな前記利用回数を持つ前記検索キーワードに対応付けられた前記類似用語の集合および前記関連用語の集合を頻出用語集合として検出する頻出用語集合検出機能と、
    前記検索キーワードおよび前記頻出用語集合の各用語との関係を生成し、生成された前記各用語の関係について前記類似/関連用語を参照して類似プロパティリストを生成するリスト生成機能と、
    前記類似プロパティリストを用いて、前記辞書を構成するクラスおよびプロパティの品質を劣化させる要素についての改善提案を作成する改善提案作成機能と、
    前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新機能と、
    をコンピュータに実行させることを特徴とするプログラム。
  13. メタデータの意味構造を表すクラスおよびプロパティを規定する辞書である辞書を複数記憶する辞書記憶機能と、
    前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶機能と、
    記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定機能と、
    設定された前記検索キーワードの履歴を記憶する検索履歴記憶機能と、
    前記検索キーワードの履歴から、ユーザが検索時に頻繁に利用するクラスおよびプロパティである頻出検索キーワード集合を検出する頻出検索キーワード集合検出機能と、
    記憶されている前記辞書を前記検索キーワードに基づいて検索する検索実行機能と、
    記憶されている前記類似/関連用語を参照して、前記検索キーワードと対応する類似用語と関連用語とを検出して提示する用語検出提示機能と、
    提示した類似用語または関連用語が選択された場合、選択されたキーワードの条件で前記辞書の再検索を実行する選択用語再検索機能と、
    選択された類似用語または関連用語と前記検索キーワードとを対応付けて利用回数と共にアクセス履歴として記憶するアクセス履歴記憶機能と、
    前記アクセス履歴記憶機能に記憶された前記類似用語および前記関連用語の内、所定の閾値よりも大きな前記利用回数を持つ前記検索キーワードに対応付けられた前記類似用語の集合および前記関連用語の集合を頻出用語集合として検出する頻出用語集合検出機能と、
    前記頻出検索キーワード集合と前記頻出用語集合とから両集合にある同一クラスおよび同一プロパティを検出し、検出された前記同一クラスについて前記類似/関連用語を参照して類似クラスリストを生成するとともに、前記同一プロパティについて前記類似/関連用語を参照して類似プロパティリストを生成するリスト生成機能と、
    前記類似クラスリストおよび前記類似プロパティリストを用いて、前記辞書を構成するクラスおよびプロパティの品質を劣化させる要素についての改善提案を作成する改善提案作成機能と、
    前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新機能と、
    をコンピュータに実行させることを特徴とするプログラム。
  14. メタデータの意味構造を表すクラスおよびプロパティを規定する辞書を複数記憶する辞書記憶機能と、
    前記辞書で規定されるクラス/プロパティについて類似または関連する類似/関連用語を記憶する類似/関連用語記憶機能と、
    記憶されている前記辞書を検索するための検索キーワードを設定する検索キー設定機能と、
    設定された前記検索キーワードの履歴を記憶する検索履歴記憶機能と、
    前記検索キーワードの履歴から、ユーザが検索時に頻繁に利用する頻出検索キーワード集合を検出する頻出検索キーワード集合検出機能と、
    前記頻出検索キーワード集合に含まれる全てのプロパティに付帯する用語リストを生成するリスト生成機能と、
    前記プロパティに付帯する用語リストを用いて、前記プロパティに付帯する用語の品質を劣化させる要素についての改善提案を作成する改善提案作成機能と、
    前記改善提案に従って既存の前記辞書の対応する部分を更新する辞書更新機能と、
    をコンピュータに実行させることを特徴とするプログラム。
JP2007082618A 2007-03-27 2007-03-27 辞書更新装置およびプログラム Pending JP2008242836A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007082618A JP2008242836A (ja) 2007-03-27 2007-03-27 辞書更新装置およびプログラム
US12/034,816 US20080243833A1 (en) 2007-03-27 2008-02-21 Dictionary updating apparatus and computer program product therefor
EP08003545A EP1975817A3 (en) 2007-03-27 2008-02-27 Dictionary updating apparatus and computer program product therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007082618A JP2008242836A (ja) 2007-03-27 2007-03-27 辞書更新装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2008242836A true JP2008242836A (ja) 2008-10-09

Family

ID=39592724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007082618A Pending JP2008242836A (ja) 2007-03-27 2007-03-27 辞書更新装置およびプログラム

Country Status (3)

Country Link
US (1) US20080243833A1 (ja)
EP (1) EP1975817A3 (ja)
JP (1) JP2008242836A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225101A (ja) * 2009-03-25 2010-10-07 Toshiba Corp 検索装置、方法及びプログラム
JP2011118759A (ja) * 2009-12-04 2011-06-16 Yahoo Japan Corp 購買ステージ判定装置及び購買ステージ判定方法
WO2017090175A1 (ja) * 2015-11-27 2017-06-01 株式会社日立製作所 検証支援システム及び方法
WO2018163241A1 (ja) * 2017-03-06 2018-09-13 三菱電機株式会社 オントロジー構築支援装置
JP2020149343A (ja) * 2019-03-13 2020-09-17 株式会社日立製作所 オントロジー拡張支援装置及びオントロジー拡張支援方法
WO2022113219A1 (ja) * 2020-11-25 2022-06-02 株式会社日立製作所 タグドメイン提示装置およびタグドメイン提示方法、およびそれを用いた情報処理システム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688674B2 (en) 2008-02-14 2014-04-01 Beats Music, Llc Fast search in a music sharing environment
NZ589787A (en) * 2010-12-08 2012-03-30 S L I Systems Inc A method for determining relevant search results
WO2014022715A1 (en) * 2012-08-01 2014-02-06 Google Inc. Categorizing search terms
US20150088493A1 (en) * 2013-09-20 2015-03-26 Amazon Technologies, Inc. Providing descriptive information associated with objects
US9754210B2 (en) * 2014-04-01 2017-09-05 Microsoft Technology Licensing, Llc User interests facilitated by a knowledge base
US11188864B2 (en) * 2016-06-27 2021-11-30 International Business Machines Corporation Calculating an expertise score from aggregated employee data
JP6611091B2 (ja) * 2017-05-11 2019-11-27 株式会社村田製作所 情報処理システム、情報処理装置、コンピュータプログラム、及び辞書データベースの更新方法
US10706107B2 (en) * 2017-05-30 2020-07-07 Open Text Sa Ulc Search systems and methods utilizing search based user clustering
CN111931500B (zh) * 2020-09-21 2023-06-23 北京百度网讯科技有限公司 搜索信息的处理方法、装置
US12050866B2 (en) * 2020-12-13 2024-07-30 International Business Machines Corporation Maintenance of a data glossary
US20220391388A1 (en) * 2021-06-08 2022-12-08 Red Hat, Inc. Automatic replacement of command parameters during command history searching

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6516312B1 (en) * 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
JP4073734B2 (ja) 2002-08-19 2008-04-09 日本電信電話株式会社 入力単語候補を推薦する情報検索システム
WO2005066837A1 (ja) * 2003-12-26 2005-07-21 Matsushita Electric Industrial Co., Ltd. 辞書作成装置および辞書作成方法
CN100550014C (zh) * 2004-10-29 2009-10-14 松下电器产业株式会社 信息检索装置
JP2007082618A (ja) 2005-09-20 2007-04-05 Rokusan O ゴルフクラブのクラブヘッドのボールショット面及びその製造方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225101A (ja) * 2009-03-25 2010-10-07 Toshiba Corp 検索装置、方法及びプログラム
JP2011118759A (ja) * 2009-12-04 2011-06-16 Yahoo Japan Corp 購買ステージ判定装置及び購買ステージ判定方法
WO2017090175A1 (ja) * 2015-11-27 2017-06-01 株式会社日立製作所 検証支援システム及び方法
JPWO2017090175A1 (ja) * 2015-11-27 2017-11-24 株式会社日立製作所 検証支援システム及び方法
WO2018163241A1 (ja) * 2017-03-06 2018-09-13 三菱電機株式会社 オントロジー構築支援装置
JPWO2018163241A1 (ja) * 2017-03-06 2019-11-07 三菱電機株式会社 オントロジー構築支援装置
JP2020149343A (ja) * 2019-03-13 2020-09-17 株式会社日立製作所 オントロジー拡張支援装置及びオントロジー拡張支援方法
JP7036760B2 (ja) 2019-03-13 2022-03-15 株式会社日立製作所 オントロジー拡張支援装置及びオントロジー拡張支援方法
WO2022113219A1 (ja) * 2020-11-25 2022-06-02 株式会社日立製作所 タグドメイン提示装置およびタグドメイン提示方法、およびそれを用いた情報処理システム

Also Published As

Publication number Publication date
US20080243833A1 (en) 2008-10-02
EP1975817A3 (en) 2009-06-24
EP1975817A2 (en) 2008-10-01

Similar Documents

Publication Publication Date Title
JP2008242836A (ja) 辞書更新装置およびプログラム
US12007989B1 (en) Query execution using access permissions of queries
US11442924B2 (en) Selective filtered summary graph
US7401064B1 (en) Method and apparatus for obtaining metadata from multiple information sources within an organization in real time
US20190155803A1 (en) Selective query loading across query interfaces
KR101691243B1 (ko) 검색 결과 통합 기법
US8538934B2 (en) Contextual gravitation of datasets and data services
US10860677B2 (en) Providing dynamic content in context of particular equipment
US20090044144A1 (en) Methods And Apparatus For Sharing User Interface Widget Annotations
US10275495B2 (en) User-dependent ranking of data items
AU2014318392B2 (en) Systems, methods, and software for manuscript recommendations and submissions
US20060155689A1 (en) Web-based user interface for searching metadata-driven relational databases
US20140059038A1 (en) Filtering structured data using inexact, culture-dependent terms
EP4280545A2 (en) Differentially private database permissions system
US10255239B2 (en) Ranking based on object data
US20150127688A1 (en) Facilitating discovery and re-use of information constructs
US20080222141A1 (en) Method and System for Document Searching
US20090043799A1 (en) Methods And Apparatus For Using Annotated User Interface Widgets In Search Operations
US7900094B2 (en) Method, system and computer program for facilitating the analysis of error messages
JP2012059041A (ja) 文書管理システム、検索指定方法、プログラム
Miele et al. A data-mining approach to preference-based data ranking founded on contextual information
US20100218139A1 (en) Search-friendly templates
US20100235383A1 (en) Storage system and data migration-compatible search system
US20140136155A1 (en) Analyzing hardware designs based on component re-use
WO2013155024A2 (en) Developing implicit metadata for data stores

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090813

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091006