JP3867145B2 - 突合せ検索装置および検索方法 - Google Patents

突合せ検索装置および検索方法 Download PDF

Info

Publication number
JP3867145B2
JP3867145B2 JP2003387140A JP2003387140A JP3867145B2 JP 3867145 B2 JP3867145 B2 JP 3867145B2 JP 2003387140 A JP2003387140 A JP 2003387140A JP 2003387140 A JP2003387140 A JP 2003387140A JP 3867145 B2 JP3867145 B2 JP 3867145B2
Authority
JP
Japan
Prior art keywords
search
content
record
database
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003387140A
Other languages
English (en)
Other versions
JP2005149233A (ja
Inventor
隆弘 大橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2003387140A priority Critical patent/JP3867145B2/ja
Publication of JP2005149233A publication Critical patent/JP2005149233A/ja
Application granted granted Critical
Publication of JP3867145B2 publication Critical patent/JP3867145B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書またはデータの検索装置および検索方法に関し、特にウェッブ上に蓄積された加工データベースを有効に活用することができる検索装置に関する。
従来の検索システムは、検索者が検索したいデータや文書に必ず含まれていると思われる検索語を組み合わせて提示し、システムがこれを受け取るとデータベースを走査して検索語が含まれるコンテンツを抽出して表示するものであった。
このため、検索者が知っている事項についてはその事項が記載されている文書やデータシートを効率的に抽出することができるが、実際には関連性があるような事項でも検索者が知らなければこれを抽出することができない。
特許文献1には、満足な検索結果が得られなかった時に使用した検索語と類似する検索語を自動的に選択して提示し検索者の支援を行うようにしたデータベース検索システムが開示されている。
開示された検索システムでは、関連項目データベースに、検索対象となるテキストのテキストデータベース中の位置情報と、そのテキストにおいて予め登録されている「の」「や」「と」などの関連項目抽出文字列の前後から抽出した関連性を有するワードの組をテキストIDと共に登録しておく。
検索キーが入力されると、検索キーと一致するワードを関連項目データベースから検索して、このワードの関連性を有する組に属するワード群を抽出して提示する。利用者は提示されたワード群から適当と思われるものを選んで、これを検索キーとして、今度はテキストデータベースを検索してテキストを抽出する。
検索結果は、検出されたテキストの全文を提示しても良いし、タイトルだけあるいはたとえば先頭から100文字などの一部だけを提示してもよい。さらに検索されたテキストの数だけを提示する方法も用いられる。
特開平8−241328号公報
しかし、開示された方法は使用者の判断を支援するためのもので、検索キーを用いた検索は毎回検索者の知識に基づく判断を要求する。したがって、検索者の知識を超えた資料を抽出することはできない。
そこで、本発明が解決しようとする課題は、指定した事項に関連して活用できる情報を自動的に検索して提示する検索システムおよび検索方法を提供することによりデータベースの新しい利用方法を提供することである。特にインターネット上のウェッブに配置されたデータベースを活用して、種々の技術を新しい観点から取り上げて適用できるようにすることを目的とする。
上記課題を解決するため、本発明の検索システムは、データベースに電子的または物理的に蓄積されたコンテンツを検索する計算機システムであって、コンテンツごとにそのコンテンツを指定できる識別符号とそのコンテンツ中に記述された意味群を符号化した意味符号群とを電子的なレコードとして格納した記憶装置と、その記憶装置を参照して検索する突合せ検索装置と、検索結果を表示し指令を入力する入出力装置とを備える。
この入出力装置は、検索者の操作により2個以上の検索対象概念を入力する。
すると、突合せ検索装置が、記憶装置に格納されたレコードを検索してその検索対象概念に関連した意味符号を含むコンテンツを各検索対象概念についてそれぞれ抽出する。
さらに、抽出されたコンテンツのおのおのについて登録された意味符号についてその意味符号と同一もしくは同意の意味符号を検索キーとしてレコードを検索して、検索キーを1つ以上含むレコードを抽出する。
このレコード抽出作業を繰り返して、入力した検索対象概念のそれぞれに関連して抽出されたレコードが同じものになると、抽出されたレコードが繋がり連鎖を形成するので、レコード抽出作業を終了する。複数の連鎖が形成されることもあるが、これらはそれぞれ意義があり利用できる。また、連鎖を形成するレコードの数が多くなる場合は、関連性が薄い場合が多いので、適当な回数だけレコード抽出作業を繰り返したら、それ以上は繰り返さないようにすることが好ましい。
突合せ検索装置は、連鎖を形成したレコードそれぞれに対応するコンテンツの識別符号を入出力装置に伝送し、入出力装置がそのコンテンツの識別符号を表示する。
なお、同じ検索語でも、資料や資料作成者が異なれば異なる概念を指示することがある。そこで、資料中の語について、その語の所属する命名空間名を指定しておいて、検索対象概念は語と命名空間名をペアとして指示することが好ましい。一般には、資料や著作者が異なれば同じ語も別の概念を有する可能性があるので、命名空間は資料名や著作者名によって指定される。ある命名空間に含まれる語の概念と別の命名空間に含まれる同一の語の概念が同一であるとするときは、たとえば、この資料中のこの語はある著作者が使っている、あるいはある資料に記載されているこれこれの語と同一の意義を有しているなど、語と命名空間について積極的な定義付けをする必要がある。
本発明の検索システムでは、資料ごとにそれに含まれる検索語とその検索語が含まれる命名空間を指示する情報を持った付加情報を添付しておくことが好ましい。インターネット上の資料については、命名空間名として資料のURL(uniform resource locator)を利用すると、他の資料における命名空間名と重複しないことが保証できる。作成した資料中のある語が別の資料中の語と同じ概念であるときには、命名空間名をその別資料名と同じものであると定義することができる。
本発明の検索システムによれば、検索者が調べたい事項を2個以上の概念で検索すると、それぞれの検索対象概念について、それに関連した意味符号を検索キーとして記憶装置に収められたレコードを検索し、初めの関連レコードを検出する。検索語は、ある文書において、語とその所属する命名空間名のペアからなるデータセットである。検索対象概念は、このようなデータセットによって指示される。
検出されたレコードには、対応するコンテンツに記述された意味群が符号化した意味符号群が含まれているので、この意味符号を新しく検索キーとしてレコードを検索する。
こうして検出されたレコードが、別の検索対象概念に基づいて検索されたレコードのいずれかと同じものであれば、2個の検索対象概念の間がレコードで繋がることになり、何らかの関連性を持って繋がった連鎖を形成する。
連鎖を形成しないときには、さらに、新しく検出されたレコードについて、同じ作業により、新しい検索キーを選択して、検索を繰り返す。
あまり多くのレコードを連ねて初めて連鎖状態になるのでは、相互の関連性は弱いと見ざるを得ないので、特に技術的文献やデータを検索する場合は適当な繰り返し回数を超えたら、その枝については検索を終了させることが好ましい。
なお、意味符号群を入出力装置に表示して、次の検索キーとして利用する意味符号を検索者が選択するようにしても良い。
検索の結果形成された連鎖に係るレコードあるいはコンテンツは入出力装置に表示される。検索者はこうして示されたコンテンツのうち興味を持ったものを指定して取り寄せることができる。
本発明の検索システムによると、検索者が検索キーを与えるときには予想しなかったような領域の資料であっても、目的の事項と関連を有するものがほぼ自動的に検出されるので、ユーザにとっては新しい有用な情報を得ることができる。
ユーザは、このようにして、データベースに蓄積された膨大な技術資料を有効に活用することができる。また、情報を別の観点から見直して利用することになり、たとえば技術資料を対象とするときは技術の進歩を促進し加速する効果が期待できる。
ローカルディスクもしくはネットワーク上に格納された文書には、URLなどの文書アドレスと、文書に含まれる語とその語が所属する命名空間を指示する情報を持った付加情報が、XML(extensible markup language)/XHTML(extensible hypertext markup language)などの情報記述法を用いて文書自体に内在させてあって、WEBロボットがこれを自動閲覧して、データベース化するようにしてもよい。
技術文書自体に付加情報を内在させる代わりに、別の検索用文書をネットワークもしくはローカルディスク上に設置して、検索用文書をWEBロボットが自動閲覧してデータベース化するようにしてもよい。検索用文書は1個の文書に集中しても、複数の文書に分散させても良い。
自動閲覧により形成された検索用データベースは、ネットワーク上に散在させておいても、検索装置のローカルディスクに格納しておいても良い。
本発明の検索システムは、さらに、全文検索装置を備えて、対象とするデータベースを巡回して各データベースに含まれるコンテンツについて識別符号と意味符号群を収集して、記憶装置に格納されたレコードを更新するようにしてもよい。レコードの内容は、対応するコンテンツの識別符号と意味符号群である。
全文検索装置は、新しいコンテンツを発見したときにはレコードを追加し、登録されたレコードに対応するコンテンツが無くなったときには記憶装置からそのレコードを削除する。
意味符号は、コンテンツに記述された意味に対応してコンテンツの索引語として記述しておいてもよく、また全文検索装置が意味を符号化して生成しても良い。
データベースが通信ネットワーク上に配置されている場合は、本発明の検索システムをこの通信ネットワークに接続させて、指定されたコンテンツの識別符号に基づいて該当するデータベースからコンテンツを取り寄せて、それを入出力装置を介して物理的あるいは電気的に提示あるいは提供するようにすることができる。
このように、通信ネットワーク上のデータベースを直接的に利用できるようにすれば、幾つかの部局で開発された各種の技術を動員して新たな技術を開発することができ、技術開発の効率化が図れる。
なお、コンテンツの識別符号には、コンテンツの物理的あるいは電子的な格納場所を指示する符号を用いることが好ましい。インターネット接続の場合は、URL(uniform resource locator)やhttp(hypertext transfer protocol)などを利用しても良い。また、コンテンツの名称や名称中の主要部、論文番号など、コンテンツを表示する文字列を直接利用するものを含ませておいてもよい。これらの文字列は、1個の識別符号の部分として含ませておいても良い。
さらに、これらの識別符号を意味符号群に加えておいても良い。識別符号を検索キーとして検索すれば、検索対象が1つに決まっている場合などに、直接的に検出することができ検索の効率が向上する。
また、識別符号が意味符号群に含まれているものでは、入出力装置をコンテンツを指定するとそれに付随する識別符号が指定されるように構成すれば、検索者が検索対象概念を入力しないでも、コンテンツを指定すればよいようになる。
このように構成された検索システムでは、関連するコンテンツが分かっているときには、検索対象概念を確立しなくても突合せ検索を実行することができる。
検索の結果は、連鎖を形成したレコードあるいはコンテンツの名称あるいは電子的な格納場所を表す文字列あるいは所定の規則の基づいて生成した文字列として入出力装置を介して表示するようにすることができる。検索途中の中間結果も同様に表示することができる。これらの表示に基づいて、目的のレコードあるいはコンテンツを指定することにより、直接的あるいは間接的に取り寄せることができる。
コンテンツを格納するデータベースは、検索システムに付属するものであっても良いが、通信回線で接続されたインターネットのウェッブサイトなどに配置されたものであってもよいことは言うまでもない。
その領域について最も詳しい部局が制作するコンテンツが最も良質なものであるから、各所に分散したそれぞれの分野についての専門家が担当するようにすることが、全体として良質なデータベースシステムを構築することができる。
データベースに電子的または物理的に蓄積されたコンテンツを検索する本発明の検索方法は、コンテンツごとにそのコンテンツを指定できる識別符号とそのコンテンツ中に記述された意味群を符号化した意味符号群とを電子的なレコードとして記憶装置に格納しておいて、2個以上の検索対象概念を入力させて、レコードを検索して入力した検索対象概念に関連した意味符号を含むコンテンツを各検索対象概念についてそれぞれ抽出し、抽出されたコンテンツのおのおのに含まれる意味符号についてその意味符号と同一もしくは同意の意味符号を1つ以上含むレコードを抽出する作業を繰り返して、入力した2個以上の各検索対象概念について抽出されたレコードが同じものになって抽出されたレコードが繋がり連鎖を形成したときに、その連鎖を形成したレコードそれぞれのコンテンツの識別符号を表示することを特徴とする。
突合せ検索を行おうとする者は、出発点となる文書に基づいてそれぞれ1個または2個以上の突合せ検索語を選択して検索装置に入力する。すると、検索装置は検索語を1個ずつ順次選択して、これを含む文書を検索用データベースから抽出する。検索語に関連する文書を全て一度に抽出してから次の段階に移行しても良いし、1個の関連文書を抽出するたびに次の段階に進んで処理するような逐次処理方法によっても良い。
抽出された関連文書について、さらに別の指定突合せ検索語が含まれるか否かを判定する。この検証を繰り返して、指定された突合せ検索語の全てを含有する文書を特定して、検索を完了する。
それぞれの出発文書に繋がる関連文書が共通のものとなったときに連鎖が形成され、出発文書に記載の技術が連鎖に連なる技術を介して相互に関連性を有することになる。
なお、該当する文書が余り多すぎても無意味なので、所定の数の関連文書が抽出されたときには検索を終了するようにしても良い。
また、指定された突合せ検索語を全て含む文書が見つからないときには、この検索語については関連文書がないため適当な連鎖を得ることができないという結論を持って検索を終了し、改めて別の組み合わせについて検索するようにすればよい。
本発明の検索システムおよび検索方法によれば、データベースを検索し指定した事項に関連して活用できる情報を自動的に検出して提示するので、検索者が検索キーを与えるときには予想しなかったような領域の資料であっても、目的の事項と関連を有するものがほぼ自動的に検出される。
ユーザは、このようにして、データベースに蓄積された膨大な技術資料を有効に活用することができる。特にインターネット上のウェッブに配置されたデータベースを活用して、種々の技術を新しい観点から取り上げて適用でき、ユーザにとっては新しい有用な情報を選別して獲得することができる。
たとえば技術資料を対象とするときは技術の進歩を加速する効果が期待できる。特に、通信ネットワーク上のデータベースを直接的に利用することにより、別の部局で開発された高度な技術を動員して新たな技術を開発することができ、技術開発の効率化が図れる。
以下、本発明に係る検索システムと検索方法を図面を用い実施例に基づいて詳細に説明する。
図1は本発明の1実施例における検索システムの構成図、図2は本実施例の検索システムにおいてインターネット中に散在するデータベースを利用する形態を表したブロック図、図3はデータベースと記憶装置の内容を説明する概念図、図4は意味の連鎖を説明する概念図、図5は検索を実行するときの画面の変遷を説明するフロー図、図6−図10は画面表示例、図11は検索結果の模式図である。
本実施例の検索システムは、加工データベースを活用した加工技術検索に適用した例で、図1に示すような構成を有し、図2に示すようにインターネットの各所に配置されたデータベースから有用な技術情報を検索して収集するものである。情報は文書やデータで、データシートの形で蓄積されている。
本システムは、データシートWebサーバ機能100とデータシート検索サーバ機能120とWebブラウザ機能110を備え、いずれも電子計算機により実行される。
検索者が扱う検索計算機1は演算装置11と記憶装置13と入出力装置15から構成され、インターネット3を介して幾つかのデータベース21,22,23に接続されている。
各データベース21,22,23はそれぞれ検索システムに提供できる文書やデータなどの情報をデータシートの形で蓄積している。
データシートWebサーバ機能100は通常、各データベース21,22,23に付帯して設けられる。一方、データシート検索サーバ機能120とWebブラウザ機能110は通常、検索者が扱う検索用電子計算機1に装備される。
検索システムは、インターネット上に複数かつ任意に配置することができる。複数配置された検索システムは、階層的に相互接続され連携して作動するように組織される。
なお、本実施例の説明はインターネット3に配置されたデータベース21,22,23と接続したシステムとして行うが、本実施例の検索システムはローカルネットワークに配置されたデータベースを対象としても、また直接接続したデータベースを対象としてもよいことは言うまでもない。
データシートWebサーバ機能100は、インターネット上のデータベース21,22,23に格納されたデータシートを公開する機能である。
データシートWebサーバ内に登録したデータシートとそのメタ情報を記述したRDFファイル(resource description framework file)を共に公開する。
データシートは、デジタル信号化した技術文書、図面、映像、あるいは非テキストによる情報などのデジタル技術情報によって構成され、インターネット上でやり取り可能なHTML(hypertext markup language)ファイル形式、XMLファイル形式、文章ファイル形式(pdf, ppt, docなど)をサポートする。データシートはメタ情報(プロパティ情報)を格納したRDFファイルを付随する必要がある。メタ情報は、データシート内の言語の構成に係る情報である。
データシートWebサーバ機能100は、既存のソフトウエアで実行することができる。
データシート検索サーバ機能120は、データシートWebサーバ機能100で開示されたデータシートとメタ情報を取得して突合せ検索を実行する機能で、一般的な全文検索機能も備えている。
データシート検索サーバ機能120は、突合せ検索を行う機能121と、全文検索を行う機能122と、フロントエンド機能123を備える。
突合せ検索を行う機能121と全文検索を行う機能122は、それぞれWeb巡回機能124,127と検索用データベース125,128と検索機能126,129を備える。
Web巡回機能124,127は、巡回ロボットを用いて実行するもので、インターネット上の登録サイト21,22,23を巡回し、これらサイトに蓄積されたデータシートのRDFフィルとHTMLファイルなどに収納された突合せ検索語や全文検索語の定義、引用・借用関係、および新しい検索語などを検索用データベース125,128に登録する。
検索語のデータエントリーは、語、データシートファイル、ラベルスペース間の関係を含む。なお、インターネット上のデータシートが削除されたときは、検索用データベースに登録された対応するデータエントリーも削除することが好ましい。
ここで、ラベルスペースとは、技術文書中の単語の命名空間を意味し、ラベル(単語)のシンボルと意味が一意に対応する範囲を示す。本実施例の検索システムでは、各データシートは少なくとも1個の固有(デフォルト)のラベルスペースの宣言を有する。
また、ラベルとは、ある事象を指示するシンボルのパターンである。たとえば、語の表記や文字列はラベルの例となる。
意味の借用とは、あるラベルスペースにおけるあるラベルの持つ意味が、既に確立されている他のラベルスペースの別のラベルの意味と等価であることを宣言して、そのまま利用することをいう。
ラベルスペースの借用とは、既に確立されているラベルスペースの全てのラベルをまとめて適用することをいう。また、語の借用とは、それぞれのラベルごとに借用することをいう。
検索用データベース125、128は、検索語のデータエントリーと関係情報を管理するデータベースである。突合せ検索と全文検索のそれぞれに設けられる。
検索機能126,129は、具体的な検索語を与えられたときに、記憶装置13に準備された検索用データベースを検索する機能である。実際の検索対象は計算機システム1内の記憶装置13であるので、効率的に検索することができる。
検索結果は、フロントエンド機能123により、Webのポータルサイトとして表示され、検索者はポータルサイトのフレームを介して各データベース21,22,23から収集したデータシートを閲覧することができる。
突合せ検索を行う機能121におけるWeb巡回機能124は、定期的にデータシートWebサーバを巡回し、データシートごとに更新されたプロパティ情報を収集する機能を有する。
図3に示すように、各データシートWebサーバWS1,WS2においてデータシートWebサーバ機能100により公開されるデータシートとメタ情報ds1−1,2,3、ds2−1,2を収集し、更新情報があるとデータエントリde1,2,・・・を更新して記憶装置13に準備された突合せ検索用データベースDB1に格納する。
データエントリde1,2,・・・は、データシートds1−1,2,・・・のそれぞれに対応して形成され、データシートの表記idと意味符号群mcが収納されている。
本実施例の検索計算機システム1では、システム構成要素である記憶装置13に突合せ検索用データベースDB1を形成するので、突合せ検索を行うときに、通信回路を介してインターネット3上のWebサーバWS1,2,・・・に直接アクセスしなくても同じ検索結果を得ることができる。
なお、あるデータシートにおいて宣言した表記(ラベル)と、別のデータシートにおいて用いられたラベルに違いがあるときにも、参照テーブルrtを作成して同一関係を確立して突合せ検索を実行することができる。
ここで、データシートの表記として、文書の名称、文書の番号などの他に、データシートの所在場所を表す文字列などを使用しても良い。
突合せ検索は、複数のデータシートに含まれるトピック間の同一関係に基づいてデータシートを検索する検索方法である。別々のデータシートを起点として、互いに共有する意味あるいは技術情報を接点としたデータシートの連鎖を求める。
別々の起点に繋がる連鎖が1個のデータシートを共有することにより連結してデータシートの連環を形成するときには、これらデータシートのつながりの中に検索者が解明したいトピック間の関係あるいは事象の構造に係る技術情報が含まれていることが期待できる。このように、意味の共有関係を連ねて起点同士が接続するようにする検索を、本明細書で突合せ検索と呼ぶ。
検索アルゴリズムは、データシートに付随する意味符号と同一性を有する突合せ検索語に基づいて、その突合せ検索語と同一あるいは同意の意味符号が含まれる次のデータシートを抽出する作業を繰り返して、データシートの鎖を形成するものである。別々の起点から成長させたデータシートの連鎖が1個のデータシートを共有するに至ったとき、すなわち1個のデータシートで連鎖が突き合わされたときに、その枝に係る突合せ検索が完成する。
たとえば、図4に模式的に説明した例では、検索者が「a」「b」を検索語として入力すると、「a」を意味符号として含むデータシートA1,A2と、「b」を意味符号に含むデータシートB1,B2を抽出する。
次に、抽出されたデータシートA1,A2,B1,B2に付随する意味符号のそれぞれについて、その意味符号が含まれるデータシートを抽出する。
そして、これら新たに抽出されたデータシートが、検索語「a」を起点として成長してきた系統と、検索語「b」を起点として成長してきた系統の両方に係わるものであると、ここで、データシートの連鎖が完成する。図3には、A2−E2−B1と、A2−F1−B2の2個の連鎖が観察される。
フロントエンド機能123は、突合せ検索機能121と全文検索機能122とWebブラウザ110との間のインターフェイスを提供する機能である。
検索結果は、Webブラウザ110で表示できるHTML形式に加工し、検索で抽出したデータシートを示す情報を表示装置15に表示する。
抽出されたデータシートが複数ある時は、リストで表示し、検索者はさらに任意のデータシートを選択してデータシートの内容を表示させることができる。
検索者は、フロントエンド機能123によりラベルスペースと突合せ検索語の組み合わせを指定することができる。
Webブラウザ機能110は、Webに格納された文書やデータを閲覧する機能である。広く一般に利用されているHTTP/1.1規格に対応した既存のブラウザを使用して実行することができる。
突合せ検索を実行するときに、検出されたデータシートの意味符号群が大きいと、意味符号を新たな検索語として次のデータシートを検索すると、さらに膨大な数のデータシートが検出される。検索者が抽出したいと望む適切な技術情報を含むものであるかを判定するためには、検索者がデータシートの内容を吟味して判断しなければならないが、あまりに対象文献が多くなりすぎると、的確な吟味が困難になる。
そこで、機械的に抽出されたデータシートの意味符号群を表示させて、検索者が表示された意味符号群の内から、次の検索語として採用すべき意味符号を選択できるするようにしてもよい。
このように、突合せ検索語を適当に選択することは、検索を無意味な方向に拡散させることを防ぎ、目的に即した技術内容を抽出する上でより効率的な文献検索をすることにも役立つ。
また、検索したい技術がある場合に、この技術に関連する技術用語が意味符号として採用されているかを知らないことがある。このような場合は、その技術用語を検索語として全文検索を実行することによって初めのデータシートを抽出し、その後は通常の突合せ検索を実行するようにすればよい。
全文検索は、全文検索を行う機能122のWeb巡回機能127と検索用データベース128と検索機能129により実行される。
Web巡回機能127は、データシートを定期的に収集し、データシートのインデックスを作成して、データベースに登録する機能である。
公開データシートURLに登録されたデータシートWebサーバに定期的にアクセスして、データシートを収集する。収集したデータシートについてインデックスファイルを作成して全文検索用データベース128に登録し、また更新をする。
全文検索用データベース128は、インデックスデータの実体を格納する。
全文検索機能129は、全文検索用データベース128にアクセスして、インデックス方式の全文検索を行う。検索は、ブーリアン検索方式で、フレーズ検索、中間一致/後方一致による検索なども行えるようにすることが好ましい。
検索結果は、何らかのアルゴリズムにしたがって順位付けがされることが望ましい。
データベースに蓄積したデータシートに対して突合せ検索を行うことにより、2つ以上の技術トピックの間をつなぐ関係情報を見い出すことができる。たとえば、ユーザが指定したある「切削加工条件」に関するデータシートと材料の「硬さ」に関連するデータシートから、たとえば「結晶粒度」関連のデータシートなど、初めに指定したデータシートを連繋する新たなデータシート、すなわちユーザにとっては新しい有用な技術情報を発掘することができる。
突合せ検索を可能にするためには、データシートを跨って用語と意味の対応関係が同一であることを保証する必要がある。
このため、初めに、デジタル加工データシートを構成する電子ファイルごとに、表現それぞれが一意に対応する意味を有するラベルスペースを設定する。すなわち、ラベルスペースが共通ならば、同じ表現は同じ意味を持つことになる。
技術情報の提供者は、データシートごとに用語と意味の対応関係について同一性を保証できる範囲(ラベルスペース)を確定する宣言を行うことができる。これにより、対象とする複数のデジタル加工データシートの間で同一のラベルスペースを共有するようにすることができる。
また、デジタル加工データシート内の表現を引用によって異なるラベルスペースのデジタル加工データシート中に挿入することができる。このとき、引用された表現は元のラベルスペースにおける意味を有するものとして扱われる。
デジタルシート製作者は、ラベルスペースの共有や引用について許可権限を有する。他のデジタル加工データシートからのラベルスペースの共有・引用を無条件に認めることもできるし、共有または引用できる元のデジタル加工データシートやラベルスペースの範囲を指定することにより予め認めるリンク範囲を限定することもできる。
突合せ検索の対象とするデータシートには、これらの宣言を組み込んで、厳密に関係を有するものについて要素技術を辿ることができるようにした。
なお、技術情報の記述はフリーフォーマットとして、広く情報収集ができるようにすることが好ましい。特に、技術情報の開示によく用いられるHTML、XML、テキスト、RFT、MIME(multipurpose internet mail extensions)、S/MIME、CSV(comma separated value)、RDF、PGP(pretty good privacy)などのファイル形式で記述されたものについて、HTTPプロトコルを介してブラウザで閲覧が可能であることが好ましい。
本実施例では、具体的な例として機械部品製造についてインターネットあるいはローカルネットワーク上で蓄積され展開されるデジタル技術情報について、
(1)技術情報の中に現れる用語やその他の表現について、同一の表現が持つ「意味」の同一性を保証できる範囲を、技術情報の提供者が明示的に定義する技術と、
(2)上記同一性が定義された「意味」に対してリンクを張って、他のデジタル技術情報中で引用できるようにする技術、
(3)上記同一性の保証された範囲と上記引用を除き、技術文書の中に現れる用語やその他の表現の持つ「意味」について、表現に影響されずにユニーク性を判別する技術、
を適用することにより、適切な突合せ検索を行う。
本実施例の突合せ検索は、デジタル技術情報によって構成されたデジタル加工データシートについて、データシートに含まれる「意味」を指定して、その「意味」を同一性の範囲内で含む次段のデータシートを探索する。抽出された新しいデータシートにおいても、そこに含まれる「意味」の同一性に基づいて次のデータシートを探索し、データシートの連鎖を形成する。こうして、複数の技術トピック間の関連を検索して、関連するデータシート群を探し出す。
突合せ検索システムは、通常の検索サービスと同様に、検索サーバ上に実装されポータルサイトにおける検索ページとして提供される。
図5は、サーバ検索画面の状態遷移図である。
図5のフローにしたがって、「鋳鉄、鋳造」と「ドリル加工」に関連する突合せ検索を行った場合について説明する。
図6は、検索機関のポータルサイトにより提供される検索ページの例で、突合せ検索中の表示画面例を表す。検索ページは、ブラウザを用いてポータルサイトにアクセスして表示させる。表示画面のURL表示部に示されているアドレスはこのポータルサイトのアドレスである。図6ではデータシートがデータ表示画面に大きく表示されており、画面の上部にデータシートのURLが示されている。
検索システムは、ロボットによってデータベースを巡回して収集したデータシートのRDF情報をもとに作成したテーブル情報を参照して突合せ検索語のリストを表示する。また、閲覧中のURLを監視してデータシートに含まれる突合せ検索語のリストを適宜更新する。
表示中のデータシートに突合せ検索語が存在する場合は、画面の左欄にその突合せ検索語がボタンリストとして表示される。検索者はポインテングデバイスを用いてボタンを押すことにより任意の突合せ検索語を指定して検索対象語とすることができる。
突合せ検索の開始点となる複数のデータシートは、それぞれのURLを直接入力することによっても指定することができる。また、図5のフロー図にあるように、適宜の検索語について全文検索を行って、抽出されたデータシートを開始点としてもよい(P201)。
図7は、全文検索に使用する全文検索フォームの例である。検索式の欄に「切削」など、検索したい語を入力して検索ボタンを押すと、データベースに蓄積された技術情報ファイルを直接に、あるいは検索計算機の全文検索用データベースに収納されたそれらファイルのコピーを使って間接的に全文検索を行って、検索語に係る記事が記載されたデータシートを抽出する(P202)。
突合せ検索語は、データシートごとに情報提供者が予め選定してRDFファイルの形で添付しておくので、検索結果のデータシートが抽出されると直ちに表示することができる。
図8は、「切削条件、鋳造」の論理和について全文検索したときの例を示した検索語選択フォームである。検出されたデータシートは13件あり、データシートの表示と要約が表示画面にリストされている。表示画面のデータシート表示をクリックすると、データベースを探索してその内容がブラウザで表示される(P203)。なお、元のデータベースに直接アクセスして常時最新のデータシートを取り寄せるようにしても良い。図8では、マッチングスコアの最も大きい第1候補のデータシートの内容とその突合せ検索語をブラウザ画面に表示している。
検索者は、データシートの内容を検討して、突合せ検索語のうちから自分の技術課題に沿っていると考えられる事項を選択して指定する(P204)。ここでは、第1候補のデータシートにおける「切削速度」を次の段階の突合せ検索語として選択して登録した。
また、図9には、別の例として、データシートを検討した結果、「再研磨」を突合せ検索語として登録した例を示す。選択結果は突合せ検索語フォームの表示画面に表示される。
このように、突合せ検索語を決定する操作を繰り返して、複数の突合せ検索語を決定すると、突合せ検索を行うことができるようになる。
図10は、突合せ検索を行った結果を表示する突合せ検索フォームの画面例である。検索した結果得られたデータシートはスレッド表示としてレイアウトされ、書誌情報と共に、データシート間で突合せ(ナレッジチェインとも言う)が生じた検索語が表示される(P205)。
こうして得られたデータシートは、データシートの所在情報を使って、インターネット等に接続された元のデータベースや手元の電子計算機に付帯するデータベースにアクセスして、データシートのコピーを電子的あるいは物理的に取り寄せて、画面に表示したりプリントしたりして、利用することができる。
図11は、ネズミ鋳鉄をドリル加工する際の工具摩耗に関して調査する場合を想定した突合せ検索の結果を模式的に表示したものである。
最初に「鋳造」と「ドリル加工」を検索語として全文検索して、「鋳造品の切削性の評価手法」と「チル化高硬度鋳鉄の穴あけ」を題号とするデータシートを得、得たデータシートについて突合せ検索を行った。すると、この2つのデータシートを連結するデータシートが、鋳造とドリル加工に関するもの以外にも、いくつか抽出された。
たとえば、「鋳造品の切削性の評価手法」のデータシートに付帯した突合せ検索語である「球状黒鉛鋳鉄」について検索して得られたデータシートのうち「ステップ送り」に関するデータシート、「高合金粉末バイス工具」についてのデータシート、「球状黒鉛鋳鉄についての技術報文」のデータシートが、付帯する突合せ検索語によって検索したときに、「チル化高硬度鋳鉄の穴あけ」のデータシートを検出して、「鋳造品の切削性の評価手法」と「チル化高硬度鋳鉄の穴あけ」の間にナレッジチェインを構成する連環を形成した。
このように、突合せ検索によって、旋削に関連するデータシートであるが鋳造品のドリル加工においても同様に適用できそうなもの、あるいは、材料組織状態と加工技術が関連付けられたもので材料組織に関する情報が検出された。これらの情報は、検索者が検索前に熟知していた技術分野のものではなく、これら異分野の知見を活用することによって目的の技術開発に新しいアプローチが可能になる。
突合せ検索は技術情報の連環を辿って検索する機能を持つために、たとえば「加工」についても色々な方向から捉えて、技術情報の連繋を促し効果的な加工間連携技術を活用することができる。
大量の技術情報を集積しておけば、本発明の突合せ検索装置と方法を用いて、個人では収集し切れない有効技術情報を発掘して利用することができる。
なお、上の実施例では、検索語の選択を検索者が行う利用方法について説明しているが、これを電子計算機により網羅的に行ってもよいことは言うまでもない。
電子計算機で機械的に突合せ検索を行うことにより、検索者の予見に縛られず、通常では当然に利用する範囲から外れた意外な効用を持つ中間的な分野の技術を検出する可能性が高くなる。また、適当な判定基準を用いて電子計算機の論理演算力で技術目的に添ったデータシートを選別するようにしてもよい。
また、上記明細書ではデータベースがインターネットに接続された態様を示したが、ローカルネットワークや直接接続であっても良いし、オフライン接続であっても良い。
本発明の1実施例における検索システムの構成図である。 本実施例の検索システムにおいてインターネットに接続されたデータベースを利用する形態を表したブロック図である。 本実施例におけるデータベースと記憶装置の内容を説明する概念図である。 本実施例における意味の連鎖を説明する概念図である。 本実施例において検索を実行するときの画面の変遷を説明するフロー図である。 本実施例における突合せ検索中の表示画面例である。 本実施例における全文検索フォームの表示画面例である。 本実施例における検索語選択フォームの表示画面例である。 本実施例における検索語選択フォームの別の表示画面例である。 本実施例における突合せ検索結果を表す表示画面例である。 本実施例における検索結果表示の模式図である。
符号の説明
1 検索用電子計算機システム
11 演算装置
13 記憶装置
15 入出力装置
21,22,23 データベース
3 インターネット
100 データシートWebサーバ機能
110 Webブラウザ機能
120 データシート検索サーバ機能
121 突合せ検索を行う機能
122 全文検索を行う機能
123 フロントエンド機能
124,127 Web巡回機能
125,128 検索用データベース
126,129 検索機能

Claims (11)

  1. データベースに蓄積されたコンテンツを検索する検索システムであって、
    対象とする範囲に含まれるコンテンツごとに該コンテンツを指定できる識別符号と該コンテンツ中に記述された意味群を符号化した意味符号群とをレコードとして格納した記憶装置と、
    該記憶装置を参照して検索する突合せ検索装置と、
    検索結果を表示し検索に必要な指令を入力する入出力装置とを備え、
    該入出力装置が2個以上の検索対象概念を入力すると、前記突合せ検索装置が、前記レコードを検索して該検索対象概念に関連した意味符号を含むコンテンツを各検索対象概念についてそれぞれ抽出し、この抽出したそれぞれのレコードを別々の起点として、さらに該抽出されたコンテンツのおのおのに含まれる意味符号について該意味符号と同一もしくは同意の意味符号を1つ以上含むレコードを抽出するレコード連鎖の作業を前記2個以上の各検索対象概念について別々に繰り返して、別々に抽出されたレコードが同一のものとなってレコード連鎖が前記別々の起点のそれぞれに繋がる繋がり連鎖を形成したときに、該繋がり連鎖を形成したレコードそれぞれのコンテンツの識別符号を前記入出力装置に伝送し、前記入出力装置が該伝送されたコンテンツの識別符号を表示することを特徴とする検索システム。
  2. 全文検索装置をさらに備え、該全文検索装置が対象とするデータベースを巡回して該データベースに含まれるコンテンツについて識別符号と意味符号群を収集し前記記憶装置に格納されたレコードを更新することを特徴とする請求項1記載の検索システム。
  3. 前記検索システムが通信ネットワークによってデータベースに接続されており、前記入出力装置を介して前記識別符号に基づいて指定するコンテンツを前記データベースから受信して、前記入出力装置により提示もしくは供給することを特徴とする請求項1または2記載の検索システム。
  4. 前記識別符号がコンテンツの格納場所を指示する符号であることを特徴とする請求項1から3のいずれかに記載の検索システム。
  5. 前記識別符号が前記コンテンツを特定する符号もしくは名称に基づいた符号であることを特徴とする請求項1から3のいずれかに記載の検索システム。
  6. 前記意味符号の全体または一部に前記識別符号を用いたことを特徴とする請求項4または5記載の検索システム。
  7. 前記レコードに収納されたコンテンツの前記識別符号を意味符号として前記レコードを検索することを特徴とする請求項6記載の検索システム。
  8. 前記入出力装置において前記識別符号を用いてコンテンツを指定することにより、該コンテンツに係る意味符号を以て前記検索対象概念を前記検索装置に入力することを特徴とする請求項6または7記載の検索システム。
  9. 前記突合せ検索装置が、検索結果、連鎖として形成されたレコードもしくはコンテンツまたは検索の中間結果として抽出されたレコードもしくはコンテンツの名称あるいは電子的な格納場所を表す文字列あるいはこれらから所定の規則に基づいて生成した文字列を前記入出力装置を介して表示することを特徴とする請求項1からのいずれかに記載の検索システム。
  10. 前記データベースが通信線を介してアクセスするウェッブに構築されたものであることを特徴とする請求項1からのいずれかに記載の検索システム。
  11. データベースに蓄積されたコンテンツを検索する方法であって、
    コンテンツごとに該コンテンツを指定できる識別符号と該コンテンツ中に記述された意味群を符号化した意味符号群とを電子的なレコードとして記憶装置に格納しておいて、
    検索結果を表示し検索に必要な指令を入力する入出力装置が2個以上の検索対象概念を入力すると、該記憶装置を参照して検索する突合せ検索装置は、前記レコードを検索して該検索対象概念に関連した意味符号を含むコンテンツを各検索対象概念についてそれぞれ抽出し、
    この抽出したそれぞれのレコードを別々の起点として、さらに該抽出されたコンテンツのおのおのに含まれる意味符号について該意味符号と同一もしくは同意の意味符号を1つ以上含むレコードを抽出するレコード連鎖の作業を前記2個以上の各検索対象概念について別々に繰り返し、
    別々に抽出されたレコードが同一のものとなってレコード連鎖が前記別々の起点のそれぞれに繋がる繋がり連鎖を形成したときに、前記入出力装置は、該連鎖を形成したレコードそれぞれのコンテンツの識別符号を表示することを特徴とする検索方法。
JP2003387140A 2003-11-17 2003-11-17 突合せ検索装置および検索方法 Expired - Lifetime JP3867145B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003387140A JP3867145B2 (ja) 2003-11-17 2003-11-17 突合せ検索装置および検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003387140A JP3867145B2 (ja) 2003-11-17 2003-11-17 突合せ検索装置および検索方法

Publications (2)

Publication Number Publication Date
JP2005149233A JP2005149233A (ja) 2005-06-09
JP3867145B2 true JP3867145B2 (ja) 2007-01-10

Family

ID=34694611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003387140A Expired - Lifetime JP3867145B2 (ja) 2003-11-17 2003-11-17 突合せ検索装置および検索方法

Country Status (1)

Country Link
JP (1) JP3867145B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053701A (ja) * 2017-09-12 2019-04-04 大橋 正 電子機器のクラウド(ウェブ)空間での設計開発と実行方法及び電子機器デバイスへの書込み方法

Also Published As

Publication number Publication date
JP2005149233A (ja) 2005-06-09

Similar Documents

Publication Publication Date Title
CN100483407C (zh) 文档信息管理系统和文档信息管理方法
US8849789B2 (en) System and method for searching for documents
US9710467B2 (en) Method and system for annotating and/or linking documents and data for intellectual property management
US20070244867A1 (en) Knowledge management tool
JP2004062446A (ja) 情報収集システム、アプリケーションサーバ、情報収集方法、およびプログラム
JP2007122513A (ja) コンテンツ検索方法、及び、コンテンツ検索サーバ
JP2008052570A (ja) 操作履歴管理システム
JP2006309515A (ja) 情報配信方法および情報配信サーバ
JP2006099341A (ja) 更新履歴生成装置及びプログラム
JPWO2004111877A1 (ja) 情報処理方法及びその装置、及びそのプログラム
Seaman Selection, access, and control in a library of electronic texts
JP2003157283A (ja) 情報検索プログラム
Golshan et al. Sofia search: a tool for automating related-work search
CN106202146A (zh) 一种搜索引擎终端用户输入参考文件搜索提示信息的处理方法
JP2009015589A (ja) 関連文書提示システム及びプログラム
Vording Harvesting unstructured data in heterogenous business environments; exploring modern web scraping technologies
JP2009205588A (ja) ページ検索システム及びプログラム
JP2008117134A (ja) 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体
JP3867145B2 (ja) 突合せ検索装置および検索方法
US8131752B2 (en) Breaking documents
Gatenby Aiming at quality and coverage combined: blending physical and virtual union catalogues
US7225221B2 (en) Method and system for retrieving information, and computer product
JP2007012100A (ja) 人物情報に基づく検索方法および検索装置、あるいは情報提供システム
KR101079802B1 (ko) 웹사이트 검색 방법 및 시스템과 웹사이트 검색 장치 및이를 위한 기록매체
Heery et al. Metadata

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060912

R150 Certificate of patent or registration of utility model

Ref document number: 3867145

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term