JP2010225101A - 検索装置、方法及びプログラム - Google Patents

検索装置、方法及びプログラム Download PDF

Info

Publication number
JP2010225101A
JP2010225101A JP2009074490A JP2009074490A JP2010225101A JP 2010225101 A JP2010225101 A JP 2010225101A JP 2009074490 A JP2009074490 A JP 2009074490A JP 2009074490 A JP2009074490 A JP 2009074490A JP 2010225101 A JP2010225101 A JP 2010225101A
Authority
JP
Japan
Prior art keywords
dictionary data
class
dictionary
property
word element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009074490A
Other languages
English (en)
Other versions
JP5330049B2 (ja
Inventor
Yasutaka Otake
康隆 大嶽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009074490A priority Critical patent/JP5330049B2/ja
Publication of JP2010225101A publication Critical patent/JP2010225101A/ja
Application granted granted Critical
Publication of JP5330049B2 publication Critical patent/JP5330049B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索者の意図に合った辞書データを検索可能な検索技術を提供する。
【解決手段】インデックス格納部22は、辞書データ管理部21が辞書データを辞書DB13に登録する際に、当該辞書データに含まれるある種類のアトリビュートを単語解析し、単語要素毎にアトリビュートの種類に応じて重み付けを行って、インデックスを登録する。入力受付部23が入力を受け付けたキーワードを適宜分解した単語要素とインデックスとを用いて、辞書データを検索する。辞書要素ランキング確定部25は、検索された辞書データが、クラスに対応する辞書データ及びプロパティに対応する辞書データの両方ある場合、クラスとプロパティとの対応関係に応じてランキングを確定する。検索結果出力部26は、確定されたランキング順に、各辞書データに含まれる少なくとも推奨名を検索結果として検索者端末12へ送信する。
【選択図】 図3

Description

本発明は、検索装置、方法及びプログラムに関する。
従来、製品を製造したり販売したりするサプライヤ企業と、その製品を利用するユーザ企業との間で交換される技術文書には、製品カタログ、スペックシート、納入仕様書などがある。これらの文書で用いる用語、特に、製品の仕様を表すデータ項目の統一が急務の課題となっている。用語やデータ項目の統一は、サプライヤ企業内におけるデータ作成のみならず、ユーザ企業とサプライヤ企業との間においても、ユーザ企業側の文書の一覧性の観点から必要となってきている。最近では、サプライヤ企業と、ユーザ企業とが一丸となり製品分類毎に標準的なデータ項目を定めた辞書(標準辞書という)を開発しており、データ項目の標準化や統一化がはかられるようになってきている。辞書の形式の1つとして、ISO13584(通称、PLIB:Parts Library)がある。PLIBは、各製品の仕様データを表現するためのデータ項目の集合である「プロパティ」と製品分類を定める「クラス」とを定義するための構造及びその辞書に従って具体的な製品仕様を記述した「コンテンツ」を交換するための構造を定めた国際規格である。PLIBにおいては、データ項目が何を意味するかを説明する詳細項目に相当する「アトリビュート」を標準化している。PLIBに従ったデータを管理するデータベースは、階層型データベースの1つととらえることができる。
PLIBに従う国際辞書としては、計測器に関するISO13584-501や、ボルト/ナットなどに関するISO13584-511などがある。また、工業界標準辞書としては、日本では(社)電子情報技術産業協会のECALS辞書、(社)日本電機工業会のJeMarche辞書などがある。世界各国においても、このような辞書の開発が活発となっている。
PLIB辞書には、「プロパティ」の「アトリビュート」の1つとして、「推奨名」が定義されており、一般の製品仕様文書などの技術文書においても、この「推奨名」で定義された用語が用いられることが望ましいと考えられる。用語として別名が用いられていたとしても、その概念自体は辞書にて定義された「プロパティ」と一致することが望ましい。
通常、技術文書を作成するのは、一般のドメインエンジニアである。このためPLIBに精通していないエンジニアであっても、自分が頭の中で思い描いている「プロパティ」やその「推奨名」をキーワード入力等により簡単に正しく同定(検索)できる機能が必要とされている。
階層型データベースの「プロパティ」及び「アトリビュート」を含む辞書データを検索する方式としては、例えば以下の2つの方式がある。
(1)いくつかのアトリビュートをまとめて部分一致検索する方式。例えば「推奨名」と「別名」と「短縮名」などのアトリビュートに関して入力したキーワードと部分一致するプロパティを出力するという方式(例えば特許文献1,2参照)。
(2)ベクトル空間法によって検索する方式。例えば、全文検索を利用し、文書をN-gram又は形態素解析により単語に分割して、tf-idfに代表されるように特徴ベクトルを抽出し、これをキーワードのベクトルと比較し、類似する辞書データを検索するという方式。
また、PLIBの検索とは少し異なるが、一般のオントロジー検索エンジンの分野において、辞書データを検索する方式としては、例えば以下の2つの方式がある。
(3)Web上のオントロジーについて「クラス名」や「プロパティ名」などを対象に部分一致検索し、閲覧するOntoSelectという方式。これは上述の(1)の方式と略同等である。
(4)より多くのセマンティックWebコンテンツから参照されているクラスやプロパティが良いオントロジーであるとの前提に立ち、検索結果をランキングするSwoogleにおけるOntoRankやTermRankなどの方式。
特開2004−177996号公報 特開2004−178015号公報
しかしながら、(1)、(3)の方式では、個々の辞書データを検索対象としているため、例えば以下のような問題が発生する恐れがある。検索者が「クラス」「プロパティ」をまたがるキーワードを入力することで、関連する辞書データを検索して関連性の高い順にランキングするといったケースでは、辞書上に同一の「推奨名」を持つプロパティが存在する場合、検索者の意図に合わない誤ったランキングを提示してしまう恐れがある。
また、各辞書データを文書と見なし、(2)の方式で辞書データを検索する場合には、例えば以下のことが困難になる恐れがある。辞書データにおける定義は文字数が少ないため、そこから特徴ベクトルを抽出することは不正確となり、PLIB内にある「クラス」「プロパティ」間の明示的な関係を検索結果に反映するということである。更に(4)の方式では、ランキングの上位になった辞書データが、必ずしも対象領域において適用可能であるとは限らない、といった問題があることが分かっている。
本発明は、上記に鑑みてなされたものであって、検索者の意図に合った辞書データを検索可能な検索装置、方法及びプログラムを提供することを目的とする。
上述した課題を解決し、本発明は、検索装置であって、分類を示すクラス毎のデータであってアトリビュートとプロパティによって記述される辞書データ及びプロパティ毎のデータであってアトリビュートによって記述される辞書データを記憶する第1記憶手段と、前記辞書データのアトリビュートのうちある種類のアトリビュートの値を単語解析して、前記辞書データ毎に少なくとも1つの第1単語要素を各々得る第1解析手段と、前記辞書データ毎の各前記第1単語要素に対して、前記アトリビュートの種類に応じた重み付けを行う重み付け手段と、前記第1単語要素と、当該第1単語要素に対して付けられた重みとを前記辞書データと対応付けて記憶する第2記憶手段と、キーワードの入力を受け付ける第1入力受付手段と、前記キーワードを単語解析して、少なくとも1つの第2単語要素を得る第2解析手段と、前記第2単語要素と一致する前記第1単語要素に対応する前記辞書データを検索する検索手段と、検索された前記辞書データを同一のクラス又は同一のプロパティ毎にグループ化し、前記第1単語要素に対して付けられた重みに従って、グループ毎に前記辞書データをランキングするランキング手段と、検索された辞書データが、クラスに対応する前記辞書データ及びプロパティに対応する前記辞書データの両方ある場合、クラスとプロパティとの対応関係に応じて、前記グループ毎の前記辞書データのランキングを確定する確定手段と、確定されたランキングの順に前記辞書データのアトリビュートのうち少なくとも1つを出力する出力手段とを備えることを特徴とする。
また、本発明は、分類を示すクラス毎のデータであってアトリビュートとプロパティによって記述される辞書データ及びプロパティ毎のデータであってアトリビュートによって記述される辞書データを記憶する第1記憶手段を備える検索装置で実行される検索方法であって、前記辞書データのアトリビュートのうちある種類のアトリビュートの値を単語解析して、前記辞書データ毎に少なくとも1つの第1単語要素を各々得る第1解析ステップと、前記辞書データ毎の各前記第1単語要素に対して、前記アトリビュートの種類に応じた重み付けを行う重み付けステップと、前記第1単語要素と、当該第1単語要素に対して付けられた重みとを前記辞書データと対応付けて第2記憶手段に記憶させる記憶制御ステップと、キーワードの入力を受け付ける第1入力受付ステップと、前記キーワードを単語解析して、少なくとも1つの第2単語要素を得る第2解析ステップと、前記第2単語要素と一致する前記第1単語要素に対応する前記辞書データを検索する検索ステップと、検索された前記辞書データを同一のクラス又は同一のプロパティ毎にグループ化し、前記第1単語要素に対して付けられた重みに従って、グループ毎に前記辞書データをランキングするランキングステップと、検索された辞書データが、クラスに対応する前記辞書データ及びプロパティに対応する前記辞書データの両方ある場合、クラスとプロパティとの対応関係に応じて、前記グループ毎の前記辞書データのランキングを確定する確定ステップと、確定されたランキングの順に前記辞書データのアトリビュートのうち少なくとも1つを出力する出力ステップとを含むことを特徴とする。
また、本発明は、上記の記載の方法をコンピュータに実行させるためのプログラムである。
本発明によれば、検索者の意図に合った辞書データを検索可能になる。
以下に添付図面を参照して、この発明にかかる検索装置、方法及びプログラムの最良な実施の形態を詳細に説明する。
(1)構成
まず、本実施の形態にかかる検索システムの構成について図1を用いて説明する。検索システムは、検索装置10は、辞書管理者端末11と有線又は無線により接続され、検索者端末12と有線又は無線により接続される。辞書管理者端末11は、後述する辞書DBへ登録する辞書データを検索装置10に送信する。検索者端末12は、検索者が辞書データを検索するためにキーワードが入力される装置であり、入力されたキーワードを検索装置10に送信する。
次に、検索装置10のハードウェア構成について図2を用いて説明する。検索装置10は、装置全体を制御するCPU(Central Processing Unit)等の制御部101と、各種データや各種プログラムを記憶するROM(Read Only Memory)104やRAM105(Random Access Memory)等の記憶部と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部107と、これらを接続するバス108とを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、検索装置10には、情報を表示する表示部103と、ユーザの指示入力を受け付けるキーボードやマウス等の操作部102と、外部装置である辞書管理者端末11や検索者端末12との通信を制御する通信I/F(interface)とが有線又は無線により各々接続される。
次に、このようなハードウェア構成において、検索装置10の制御部101がROM104や外部記憶部107に記憶された各種プログラムを実行することにより実現される各種機能について具体的に説明する。図3は、検索装置10の各機能的構成を例示する図である。検索装置10は、辞書DB13と、辞書データ管理部21と、インデックス格納部22と、入力受付部23と、辞書要素あいまい検索部24と、辞書要素ランキング確定部25と、検索結果出力部26とを有する。これらのうち、辞書データ管理部21と、インデックス格納部22と、入力受付部23と、辞書要素あいまい検索部24と、辞書要素ランキング確定部25と、検索結果出力部26とは、制御部101のプログラム実行時にRAM105などの記憶部上に生成されるものである。辞書DB13は、例えば外部記憶部107に記憶されるものである。
辞書DB13は、辞書データ及びインデックステーブルを記憶する。辞書データは、製品の分類と階層を示すクラスと、クラスを特徴付けるプロパティによって定義される。またプロパティは少なくとも1つのアトリビュートによって記述される。このクラス及びプロパティ毎に辞書データは存在する。辞書データの具体例及びインデックステーブルの詳細については後述する。尚、製品とは、ユーザのニーズや欲求を満たすために、市場へと提供されるものであり、有形のものだけでなく、サービス、経験、イベント、人、場所、資産、組織、情報、アイデアなどが製品に含まれる。
図4は、辞書DB13のデータ構造を例示する図である。同図では、辞書DB13は、分類(クラス)を中心とした階層構造を有していることが示されている。同図に示される階層構造においては、「半導体」という分類をルートクラスとし、その子クラスとして「発光ダイオード」と「受光素子」とが存在する。即ち、「半導体」は「発光ダイオード」「受光素子」という2つの分類に細分化されることが示されている。階層構造は何層であっても構わない。尚、()内に書かれた記号(この例ではC1〜C3)は、辞書DB13内で唯一につけられたクラスを表すコードであり、PLIB規格では「クラスBSUコード」と呼ぶ識別子に相当する。
図4に示すように、階層構造を定義するクラスでは、それぞれ固有のプロパティ(図4中、点線で囲まれた部分)が定義される。各クラスにおいては、当該クラスの上位クラスで定義されたプロパティが継承される。例えば、クラス「受光素子」が持つプロパティは、当該クラスで定義されたプロパティと、その上位クラス「半導体」で定義されたプロパティということになる。このようにクラスとプロパティとは対応関係を有している。尚、クラスの場合と同様にプロパティにおいても辞書DB13内で唯一に付与されたプロパティを表すコード(「プロパティBSUコード」又は単に「BSU」)(この例ではP0〜P3)が付与される。以降では、上述したクラスを表すコード及びプロパティを表すコードを共にBSUコードとして取り扱う。
図5は、クラス毎の辞書データを例示する図である。各行がクラス毎の各辞書データに対応しており、各辞書データは、各クラスを識別するためのBSUコードと、各アトリビュートとして「推奨名」「別名」「定義」と、当該クラスの上位のクラスを識別するための上位クラスのBSUコードとを各々含んでいる。
図6は、プロパティ毎の辞書データを例示する図である。1番上の行を除く各行がプロパティ毎の各辞書データに対応したレコードである。各辞書データは、各プロパティを識別するためのBSUコードと、当該プロパティが定義されたクラス(定義クラスという)を識別するためのBSUコードと、各アトリビュートとして「推奨名」「別名」「定義」「単位」とを各々含んでいる。また本実施の形態では利用しないがプロパティの「短縮名称」や「シンボル」や「データ型」や、プロパティ自体の定義の出典を示す「出典」といったアトリビュートもPLIBには存在する。このようにクラスの親子関係、プロパティとそのアトリビュートの種類及びデータ型の種類などの辞書の構造を定めたデータモデルの1つとして、前述した製品部品ライブラリの交換フォーマットの国際標準であるISO13584(Parts Library:PLIB)がある。なお、本実施の形態においては、辞書がPLIBに従った場合の適用例を用いて説明するが、PLIB以外のデータベースへ適用しても構わない。
図3の説明に戻る。辞書データ管理部21は、辞書DB13を管理するものであり、具体的には、辞書管理者端末11から送信された辞書データを受信し、これを辞書DB13に登録したり、辞書DB13に登録された辞書データへのアクセスを制御したり当該辞書データの修正や削除を行なったりする。インデックス格納部22は、辞書データ管理部21が辞書データを辞書DB13に登録する際に、当該辞書データに含まれるアトリビュートのうちある種類のアトリビュートの値を単語解析して各単語(単語要素という)に分解し、単語要素毎にアトリビュートの種類に応じて重み付けを行って、各クラス及び各プロパティの単語要素毎のインデックスとしてインデックステーブルに各々登録する。ある種類のアトリビュートとは、ここでは「推奨名」「別名」「定義」とする。
図7は、インデックスを例示する図である。図7に示されるように、図5及び図6に示した各クラス及び各プロパティのそれぞれについて、アトリビュートである「推奨名」「別名」「定義」の各値である文字列が各々分解された単語要素毎のインデックスが各行において例示されている。各行において示されるインデックスは、クラスかプロパティかをC又はPにより識別するためのC/Pと、当該クラス又はプロパティのBSUコードと、単語要素と、当該単語要素に分解されたアトリビュートのアトリビュート名と、重みの値とを含む。各インデックスは、BSUコードにより、クラス又はプロパティの辞書データと対応付けられる。
図3の説明に戻る。入力受付部23は、検索者端末12において入力され送信されたキーワードを受信し、当該キーワードを単語解析して各単語要素に適宜分解する。辞書要素あいまい検索部24は、入力受付部23が入力を受け付けたキーワードを適宜分解した単語要素とインデックステーブルに登録されたインデックスとを用いて、辞書データを検索して、当該辞書データをランキングする。具体的には、辞書要素あいまい検索部24は、キーワードから適宜分解された単語要素と一致する単語要素を含むインデックスのレコードをインデックステーブルから検索し、その検索結果を同一のクラス又は同一のプロパティ毎にグループ化し、重み付けに従って各辞書データの得点を計算し、得点の順に辞書データをランキングする。尚、検索されたインデックスに含まれるBSUコードに対応する辞書データが、検索された辞書データとなる。辞書要素ランキング確定部25は、辞書要素あいまい検索部24が検索した辞書データが、クラスに対応する辞書データ及びプロパティに対応する辞書データの両方ある場合、クラスとプロパティとの対応関係に応じてランキングを確定する。検索結果出力部26は、辞書要素ランキング確定部25が確定したランキングの順に、各辞書データに含まれる少なくとも「推奨名」を含むアトリビュートの値を検索結果として検索者端末12へ送信する。
(2)動作
次に、本実施の形態にかかる検索装置10の行う処理の手順について説明する。まず、検索装置10が辞書データを辞書DB13に登録すると共にインデックスをインデックステーブルに登録する登録処理の手順について説明する。検索装置10は、辞書管理者端末11から送信された辞書データを受信すると、辞書データ管理部21の機能により、辞書データを辞書DB13に登録する。ここで登録対象の辞書データは図5〜6に示したものとする。このとき、検索装置10は、インデックス格納部22の機能により、当該辞書データのインデックスをインデックステーブルに登録する。図8は、辞書データのインデックスをインデックステーブルに登録する処理の手順を示すフローチャートである。検索装置10は、図5〜6に示した登録対象の辞書データをdicElem(i,j)としてRAM105などの記憶部に記憶する(ステップS1)。但し、iは一番上の行を除く各行に対応する、辞書データのレコードを表し、jは各列に対応するアトリビュートを表している。上述したようにアトリビュートの種類はここでは「推奨名」「定義」「別名」であり、jの値は左から順に「1」,「2」,「3」とする。次に、検索装置10は、dicElem(i,j)の全ての辞書データについて(ステップS2)、対象とするアトリビュートの全てに対して(ステップS3)、アトリビュート値として表される文字列を各々単語解析する(ステップS4)。例えば、図5においてiが「2」でありjが「1」のアトリビュートについては、即ち、図5の2行目のクラス「C2」でアトリビュート「推奨名」については、その文字列は「発光ダイオード」である。この場合、検索装置10は、単語解析により、これを「発光」と「ダイオード」とに分解する。そして、検索装置10は、このように分解した全ての単語(単語要素)に対して、アトリビュートの種類に応じた重み付けを行い、この重みの値(w(j))をBSUコードと共にインデックステーブルに登録する(ステップS5)。
本実施の形態では、重みとして、アトリビュートの種類毎に以下の値を用いるものとする。
「推奨名」:1.0
「別名」:0.8
「定義」:0.2
この結果、図5の2行目のクラス「C2」でアトリビュート「推奨名」については、図7に示されるインデックスId1〜Id2がインデックステーブルに登録される。検索装置10は、登録対象の全ての辞書データに含まれ、対象となるアトリビュートの全てに対して以上の処理を繰り返す。図5〜6に示した辞書データについては、図7に示される全てのインデックスがインデックステーブルに登録されることになる。
次に、検索者が入力したキーワードに基づいて辞書データを検索する検索処理の手順について図9〜10を用いて説明する。検索装置10は、入力受付部23の機能により、検索者端末12で入力され送信されたキーワードを受信すると、当該キーワードを単語解析して、単語に分解する(ステップS10)。ここでの単語解析の方法はステップS4で行なう単語解析の方法と同様である。例えばここでは、キーワードとして、「ダイオード 上昇時間」が入力されたとする。このとき、ステップS10では、検索装置10は、「ダイオード」と「上昇」と「時間」との各単語に分解する。続いて、検索装置10は、分解した各単語(単語要素)を用いて、辞書要素あいまい検索部24の機能により、以下の処理を行う。まず、検索装置10は、キーワードから分解した各単語要素に一致する単語要素を含むインデックスをインデックステーブルから検索する(ステップS11)。そして、検索装置10は、その検索結果を同一のクラス又は同一のプロパティ毎にグループ化して、重み付けに従って辞書データの得点を計算する(ステップS12)。本実施の形態ではBSUコードによりインデックスと辞書データとが対応付けられている。このため、グループ化は、BSUコード毎に行うものとする。また、得点は、BSUコード毎に重みの値を単純に合算するものとする。
「ダイオード」と「上昇」と「時間」との各単語要素の例では、ステップS12では、図7に示されるインデックスId2〜Id9が検索の結果得られる。図11は、この検索結果をBSUコード毎にグループ化し、重み付けに従って計算された辞書データの得点を示す図である。図11においては、各辞書データを識別するためのBSUコードと、計算された得点とが辞書データ毎に示されている。以上のようにして検索された結果は簡単なあいまい検索の結果と同様であり、この結果だけを参照すると、プロパティ「P1」(クラス「C3」における「立ち上がり時間」)の得点が一番高いため、プロパティ「P1」の辞書データが検索結果としてもっともらしいという結果が得られる。
続いて、検索装置10は、辞書要素ランキング確定部25の機能により、ランキングされた辞書データが、クラスに対応する辞書データ及びプロパティに対応する辞書データの両方ある場合、クラスとプロパティとの対応関係に応じてランキングを確定する(ステップS13)。具体的には、検索装置10は、クラスと当該クラスで定義されたプロパティとについて、その得点をプロパティ毎及びクラス毎に合計して、合計得点の順をランキングとして確定する。ここで、ランキングを確定する処理の手順の詳細について図10を用いて説明する。尚、プロパティPiの定義されているクラス(定義クラス)をPi.def_classと表記し、プロパティPiに対応する辞書データの得点をPoint^(Pi)と表記する。ここでは、各プロパティの定義クラスは以下の通りである。
P0.def_class=C1
P1.def_class=C3
P2.def_class=C2
P3.def_class= C2
検索装置10は、プロパティPiの得点に対し、その定義クラスPi.def_classの得点を合算して、プロパティPiの合計得点を算出する(ステップS20)。各合計得点は例えば以下の通りとなる。
Point^(P0)=0+0=0
Point^(P1)=2.8+0=2.8
Point^(P2)=2.6+1.0=3.6
Point^(P3)=0+1.0 =1.0
その後、検索装置10は、合計得点の順に辞書データをランキングする(ステップS21)。上述の例では、プロパティについてのランキングの順は、「P2>P1>P3>P0」となる。
そして、クラス自体の得点については、検索装置10は変更せずに、その得点の順に辞書データをランキングする(ステップS22)。図6の例では、クラスについてのランキングの順は、「C2>C3=C1」となる。
この結果、プロパティP1,P2の各「推奨名」は、いずれも「立ち上がり時間」であり同一であるが、プロパティと定義クラスとの関係を考慮することで、同一の推奨名を有するプロパティのいずれが、検索者の意図に合うかを判別することができる。従って、適切な辞書データを検索することが可能になる。
図9の説明に戻る。最後に、検索装置10は、検索結果出力部26の機能により、ステップS13で確定したランキングの順に、各辞書データとして少なくとも「推奨名」を含むアトリビュートの値を検索結果として検索者端末12へ送信する(ステップS14)。図12は、検索結果を例示する図である。図12においては、辞書データを識別するためのBSUコードと、「推奨名」とが検索結果として各々示されている。
以上のように、クラスの辞書データ及びプロパティの辞書データのうちある種類のアトリビュートについて単語要素を切り出し、アトリビュートの種類に応じて各単語要素に重み付けを行なう。これにより、辞書データ内のあいまい性を持たせた上で、PLIBの特徴である辞書データ間で定義された対応関係、例えばプロパティと当該プロパティが定義されているクラスとの関係を考慮した検索を実現することができる。即ち、辞書データにおいて同一の推奨名を持つプロパティが存在し、検索者がクラスとプロパティとで共通するキーワードを入力しこれを用いて検索する場合においても、単語要素に付けられた重みを考慮してランキングすることにより、検索者の意図にあった確からしいランキングで辞書データを提示することができる。このため、PLIBに精通していない人でも、キーワードの入力から、「プロパティ」や「推奨名」を簡単に同定(検索)することができる。このため、製品の仕様文書などの技術文書の作成時に、標準辞書で定義された推奨名と概念を用いた記述の支援をすることができる。このように、製品の仕様文書に記述される用語を、標準辞書で定義された推奨名に統一することで、仕様文書を作成するサプライ企業及び仕様文書を利用するユーザ企業間の意味解釈の齟齬をなくすことができ、仕様文書の品質を向上させることができる。
[変形例]
なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。
<変形例1>
上述した実施の形態において、検索装置10で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。
<変形例2>
上述した実施の形態において、検索者端末12でキーワードと共に検索の対象となるクラスが入力され検索装置10に送信されるようにしても良い。検索装置10は、キーワードと共にクラスの入力を受け付けると、辞書DB13に記憶された辞書データのうち、当該クラスの辞書データのみを検索の対象として上述の検索処理を行うようにする。このように検索の対象を限定することで、検索処理をより効率的に行うことができる。
<変形例3>
上述した実施の形態において、インデックス格納部22は、各クラス及び各プロパティの単語要素毎のインデックスをインデックステーブルに各々登録する際に、助詞や副詞や形容詞などの単語を登録の対象外とし、名詞や未知の単語のみを登録の対象とするようにしても良い。
<変形例4>
上述した実施の形態において、重み付けに従って辞書データの得点を計算する方法は、上述の例に限らず、また、クラスとプロパティとの対応関係に応じてランキングを確定する方法も上述の例に限らない。
<変形例5>
上述した実施の形態において、検索対象とするクラスを検索者が指定するように構成しても良い。この場合、入力受付部23は、検索者端末12を介して、キーワードの他、検索対象のクラスを識別可能なクラス識別子の入力を受け付ける。クラス識別子は、例えばBSUコードや「推奨名」などの名称である。辞書要素あいまい検索部24は、入力受付部23が入力を受け付けたキーワードを適宜分解した単語要素とインデックステーブルに登録されたインデックスとを用いて、入力受付部23が入力を受け付けた検索対象のクラスの辞書データを検索して、当該辞書データをランキングする。
図13は、本変形例にかかる検索者が入力したキーワードに基づいて辞書データを検索する検索処理の手順を示すフローチャートである。ステップS10は上述の実施の形態と同様である。ステップS30では、検索装置10は、検索対象のクラスの上位のクラスと、自身を含む下位のクラスと、上位のクラスで定義されたプロパティと、自身を含む下位のクラスで定義されたプロパティとの各々に対応する辞書データを検索対象とする(ステップS30)。検索対象の辞書データのBSUコードの集合を検索対象集合Eとする。例えば、検索対象のクラスとして「発光ダイオード(C2)」が指定されている場合、この上位のクラスはC1である。下位クラスは存在しないため、自身を含む下位のクラスは、C2である。上位のクラスで定義されたプロパティは、P0である。自身を含む下位のクラスで定義されたプロパティは、P2,P3である。従って、検索対象集合は、「E={C1,C2,P0,P2,P3}」となる。
そして、検索装置10は、BSUコードが検索対象集合に含まれるインデックスのうち、キーワードから分解した各単語要素に一致する単語要素を含むインデックスをインデックステーブルから検索する(ステップS31)。例えば、キーワードとして、「ダイオード 上昇時間」が入力された場合、キーワードから分解した各単語要素は、「ダイオード」と「上昇」と「時間」である。この各単語要素を用いた検索の結果、本変形例においては、ステップS31では、図7に示されるインデックスId2,Id7〜Id9が得られる。そして、検索装置10は、上述の実施の形態と同様にして、検索結果を同一のクラスと同一のプロパティ毎とにグループ化して、重み付けに従って辞書データの得点を計算する(ステップS32)。図14は、この検索結果をBSUコード毎にグループ化し、重み付けに従って計算された辞書データの得点を示す図である。ステップS13は上述の実施の形態と同様である。各プロパティの定義クラスは以下の通りである。
P0.def_class=C1
P2.def_class=C2
P3.def_class= C2
この検索対象集合の例では、検索装置10は、プロパティPiの得点に対し、その定義クラスPi.def_classの得点を合算して、プロパティPiの合計得点を算出すると、各合計得点は例えば以下の通りとなる。
Point^(P0)=0+0=0
Point^(P2)=2.6+1.0=3.6
Point^(P3)=0+1.0 =1.0
プロパティについてのランキングの順は、「P2>P3>P0」となる。上述の実施の形態の例と比べて、ここでは、プロパティP1及びクラスC3が対象外となっているため、上述の実施の形態の例と異なるランキングとなる。クラスについてのランキングの順は、「C2>C3」となる。このようにランキングを確定した後検索装置10は、ステップS14で、上述の実施の形態と同様にして検索結果を検索者端末12へ送信する。
以上のように、検索対象のクラスを絞ることで、検索の処理効率を向上させることができつつ、仕様文書の品質を向上させることができる。
<変形例6>
上述した実施の形態において、表面的に仕様文書上の用語を推奨語に合わせることの他に、辞書データを仕様文書に埋め込むことができる場合には、検索した辞書データ自体又はそのBSUコードを仕様文書に埋め込むようにしても良い。図15は、Office Open XML形式に従い、カスタム定義XMLを利用した時のタグ挿入例を示す図である。図15においては、辞書データのBSUコードがタグTG1により埋め込まれ、「推奨名」がタグTG2により埋め込まれている。図16は、尚、予め定義したカスタムXMLのスキーマを例示する図である。このような構成によれば、ステップS14の検索結果として、例えば、図17に示されるように、タグTG1〜TG2が表示されないものの、このような情報を埋め込むための情報を、検索者端末12に表示させることができる。
一実施の形態にかかる検索システムの構成を例示する図である。 同実施の形態にかかる検索装置10のハードウェア構成を例示する図である。 同実施の形態にかかる検索装置10の各機能的構成を例示する図である。 同実施の形態にかかる辞書DB13のデータ構造を例示する図である。 同実施の形態にかかるクラス毎の辞書データを例示する図である。 同実施の形態にかかるプロパティ毎の辞書データを例示する図である。 同実施の形態にかかるインデックスを例示する図である。 同実施の形態にかかる辞書データのインデックスをインデックステーブルに登録する処理の手順を示すフローチャートである。 検索者が入力したキーワードに基づいて辞書データを検索する検索処理の手順を示すフローチャートである。 同実施の形態にかかるランキングを確定する処理の手順の詳細について図10を用いて説明する。 同実施の形態にかかる検索結果をBSUコード毎にグループ化し、重み付けに従って計算された辞書データの得点を示す図である。 同実施の形態にかかる最終的な検索結果を例示する図である。 同実施の形態の変形例にかかる検索者が入力したキーワードに基づいて辞書データを検索する検索処理の手順を示すフローチャートである。 同変形例にかかる検索結果をBSUコード毎にグループ化し、重み付けに従って計算された辞書データの得点を示す図である。 一変形例にかかるOffice Open XML形式に従い、カスタム定義XMLを利用した時のタグ挿入例を示す図である。 同変形例にかかる予め定義したカスタムXMLのスキーマを例示する図である。 同変形例にかかる検索結果を例示する図である。
10 検索装置
11 辞書管理者端末
12 検索者端末
13 辞書DB
21 辞書データ管理部
22 インデックス格納部
23 入力受付部
24 辞書要素あいまい検索部
25 辞書要素ランキング確定部
26 検索結果出力部
101 制御部
102 操作部
103 表示部
107 外部記憶部
108 バス

Claims (8)

  1. 分類を示すクラス毎のデータであってアトリビュートとプロパティによって記述される辞書データ及びプロパティ毎のデータであってアトリビュートによって記述される辞書データを記憶する第1記憶手段と、
    前記辞書データのアトリビュートのうちある種類のアトリビュートの値を単語解析して、前記辞書データ毎に第1単語要素を各々得る第1解析手段と、
    前記辞書データ毎の各前記第1単語要素に対して、前記アトリビュートの種類に応じた重み付けを行う重み付け手段と、
    前記第1単語要素と、当該第1単語要素に対して付けられた重みとを前記辞書データと対応付けて記憶する第2記憶手段と、
    キーワードの入力を受け付ける第1入力受付手段と、
    前記キーワードを単語解析して、第2単語要素を得る第2解析手段と、
    前記第2単語要素と一致する前記第1単語要素に対応する前記辞書データを検索する検索手段と、
    検索された前記辞書データを同一のクラス又は同一のプロパティ毎にグループ化し、前記第1単語要素に対して付けられた重みに従って、グループ毎に前記辞書データをランキングするランキング手段と、
    検索された辞書データが、クラスに対応する前記辞書データ及びプロパティに対応する前記辞書データの両方ある場合、クラスとプロパティとの対応関係に応じて、前記グループ毎の前記辞書データのランキングを確定する確定手段と、
    確定されたランキングの順に前記辞書データのアトリビュートのうち少なくとも1つを出力する出力手段とを備える
    ことを特徴とする検索装置。
  2. 前記確定手段は、検索された辞書データが、クラスに対応する前記辞書データ及びプロパティに対応する前記辞書データの両方ある場合、クラスと当該クラスで定義されたプロパティとの関係に応じて、前記グループ毎の前記辞書データのランキングを確定する
    ことを特徴とする請求項1に記載の検索装置。
  3. 検索対象となるクラスを識別可能なクラス識別子の入力を受け付ける第2入力受付手段を更に備え、
    前記検索手段は、前記クラス識別子によって特定されるクラスに対応する前記辞書データであって前記第2単語要素と一致する前記第1単語要素に対応する前記辞書データを検索する
    ことを特徴とする請求項1又は2に記載の検索装置。
  4. 前記辞書データは、階層付けられており、
    前記第1記憶手段は、階層の上位の分類に属する前記プロパティがその下位の分類に継承される前記辞書データを記憶する
    ことを特徴とする請求項1乃至3のいずれか一項に記載の検索装置。
  5. 前記出力手段は、確定されたランキングの順に前記辞書データのアトリビュートのうち少なくとも推奨名を出力する
    ことを特徴とする請求項1乃至4のいずれか一項に記載の検索装置。
  6. 前記第1解析手段は、前記辞書データのうち、アトリビュートの種類である推奨名、別名及び定義のうち少なくとも1つの値を単語解析して、前記辞書データ毎に少なくとも1つの第1単語要素を各々得る
    ことを特徴とする請求項1乃至5のいずれか一項に記載の検索装置。
  7. 分類を示すクラス毎のデータであってアトリビュートとプロパティによって記述される辞書データ及びプロパティ毎のデータであってアトリビュートによって記述される辞書データを記憶する第1記憶手段を備える検索装置で実行される検索方法であって、
    前記辞書データのアトリビュートのうちある種類のアトリビュートの値を単語解析して、前記辞書データ毎に少なくとも1つの第1単語要素を各々得る第1解析ステップと、
    前記辞書データ毎の各前記第1単語要素に対して、前記アトリビュートの種類に応じた重み付けを行う重み付けステップと、
    前記第1単語要素と、当該第1単語要素に対して付けられた重みとを前記辞書データと対応付けて第2記憶手段に記憶させる記憶制御ステップと、
    キーワードの入力を受け付ける第1入力受付ステップと、
    前記キーワードを単語解析して、少なくとも1つの第2単語要素を得る第2解析ステップと、
    前記第2単語要素と一致する前記第1単語要素に対応する前記辞書データを検索する検索ステップと、
    検索された前記辞書データを同一のクラス又は同一のプロパティ毎にグループ化し、前記第1単語要素に対して付けられた重みに従って、グループ毎に前記辞書データをランキングするランキングステップと、
    検索された辞書データが、クラスに対応する前記辞書データ及びプロパティに対応する前記辞書データの両方ある場合、クラスとプロパティとの対応関係に応じて、前記グループ毎の前記辞書データのランキングを確定する確定ステップと、
    確定されたランキングの順に前記辞書データのアトリビュートのうち少なくとも1つを出力する出力ステップとを含む
    ことを特徴とする検索方法。
  8. 請求項7に記載の方法をコンピュータに実行させるためのプログラム。
JP2009074490A 2009-03-25 2009-03-25 検索装置、方法及びプログラム Expired - Fee Related JP5330049B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009074490A JP5330049B2 (ja) 2009-03-25 2009-03-25 検索装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009074490A JP5330049B2 (ja) 2009-03-25 2009-03-25 検索装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010225101A true JP2010225101A (ja) 2010-10-07
JP5330049B2 JP5330049B2 (ja) 2013-10-30

Family

ID=43042188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009074490A Expired - Fee Related JP5330049B2 (ja) 2009-03-25 2009-03-25 検索装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5330049B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03294963A (ja) * 1990-04-12 1991-12-26 Ricoh Co Ltd 文書検索装置
JPH11232298A (ja) * 1998-02-18 1999-08-27 Sharp Corp データ検索装置及びコンピュータ読み取り可能な記録媒体
JP2000311178A (ja) * 1999-04-28 2000-11-07 Toshiba Corp 電子カタログ利用装置および電子カタログシステム
JP2006309446A (ja) * 2005-04-27 2006-11-09 Toshiba Corp 分類辞書更新装置、分類辞書更新プログラムおよび分類辞書更新方法
JP2007026074A (ja) * 2005-07-15 2007-02-01 Toshiba Corp 部品情報表示装置、部品情報表示システム、部品情報表示プログラムおよび部品情報表示方法
JP2008242836A (ja) * 2007-03-27 2008-10-09 Toshiba Corp 辞書更新装置およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03294963A (ja) * 1990-04-12 1991-12-26 Ricoh Co Ltd 文書検索装置
JPH11232298A (ja) * 1998-02-18 1999-08-27 Sharp Corp データ検索装置及びコンピュータ読み取り可能な記録媒体
JP2000311178A (ja) * 1999-04-28 2000-11-07 Toshiba Corp 電子カタログ利用装置および電子カタログシステム
JP2006309446A (ja) * 2005-04-27 2006-11-09 Toshiba Corp 分類辞書更新装置、分類辞書更新プログラムおよび分類辞書更新方法
JP2007026074A (ja) * 2005-07-15 2007-02-01 Toshiba Corp 部品情報表示装置、部品情報表示システム、部品情報表示プログラムおよび部品情報表示方法
JP2008242836A (ja) * 2007-03-27 2008-10-09 Toshiba Corp 辞書更新装置およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNH200700041004; 大嶽 康隆 外2名: '"製造業のサービスイノベーションのための知識処理技術 モノビス(モノ+サービス)による顧客と製造業の' 東芝レビュー 第61巻,第12号, 20061201, p.23-26, 株式会社東芝 *
JPN6013015236; 大嶽 康隆 外2名: '"製造業のサービスイノベーションのための知識処理技術 モノビス(モノ+サービス)による顧客と製造業の' 東芝レビュー 第61巻,第12号, 20061201, p.23-26, 株式会社東芝 *

Also Published As

Publication number Publication date
JP5330049B2 (ja) 2013-10-30

Similar Documents

Publication Publication Date Title
KR101793222B1 (ko) 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트
Wache et al. Ontology-based integration of information-a survey of existing approaches.
US9652799B2 (en) Product recommendation with product review analysis
US10783159B2 (en) Question answering with entailment analysis
US9846901B2 (en) Product recommendation with ontology-linked product review
US10565533B2 (en) Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches
US20160179934A1 (en) Question answering from structured and unstructured data sources
US7444325B2 (en) Method and system for information extraction
US20060173753A1 (en) Method and system for online shopping
US20130013580A1 (en) Optimized ontology based internet search systems and methods
JPH11259498A (ja) 文書処理装置および記録媒体
JP2004501421A (ja) 文書用メタデータ生成のための方法と装置
WO2015084759A1 (en) Systems and methods for in-memory database search
JPWO2011105606A1 (ja) 情報処理装置、情報処理方法、情報処理装置用のプログラム、および、記録媒体
JP5237353B2 (ja) 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体
US8121970B1 (en) Method for identifying primary product objects
JP5836893B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
Jannach et al. Automated ontology instantiation from tabular web sources—the AllRight system
JP2010134709A (ja) 語彙誤り検出装置及び語彙誤り検出方法
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP2006343925A (ja) 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
Uçar et al. A novel algorithm for extracting the user reviews from web pages
JP5330049B2 (ja) 検索装置、方法及びプログラム
US11017172B2 (en) Proposition identification in natural language and usage thereof for search and retrieval
Hong et al. Extracting Web query interfaces based on form structures and semantic similarity

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130402

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130725

LAPS Cancellation because of no payment of annual fees