JP2008084070A - 構造化文書検索装置およびプログラム - Google Patents

構造化文書検索装置およびプログラム Download PDF

Info

Publication number
JP2008084070A
JP2008084070A JP2006264202A JP2006264202A JP2008084070A JP 2008084070 A JP2008084070 A JP 2008084070A JP 2006264202 A JP2006264202 A JP 2006264202A JP 2006264202 A JP2006264202 A JP 2006264202A JP 2008084070 A JP2008084070 A JP 2008084070A
Authority
JP
Japan
Prior art keywords
search
question
document
structured document
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006264202A
Other languages
English (en)
Inventor
Tomoharu Kokubu
智晴 國分
Toshihiko Manabe
俊彦 真鍋
Tetsuya Sakai
哲也 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006264202A priority Critical patent/JP2008084070A/ja
Priority to US11/851,260 priority patent/US20080082505A1/en
Publication of JP2008084070A publication Critical patent/JP2008084070A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザの所望する文書を柔軟に検索することができる構造化文書検索装置およびプログラムを提供する。
【解決手段】検索質問を構成する質問文と質問文の検索の対象となる要素とを予め定められたルールに従って変換して新たな検索質問を生成する(S4)。これにより、検索質問の検索対象要素が「/要約J」である場合、その検索対象要素を「/要約E」という検索対象要素に変換し、入力された質問文に対して「英語翻訳」を行い、変換された検索対象要素と質問文で「英単語TF・IDF検索」を行うというようにルールを予め定めることで、例えば「要約」という要素中に「自然言語処理」が含まれる文書を検索するという検索質問により、要素「summarize」中に「natural language processing」という文字列が含まれる文書を検索することができるようになるので、ユーザの所望する文書を柔軟に検索することができるようになる。
【選択図】 図7

Description

本発明は、文書を構成する要素を階層化して表現する構造化文書を質問文と当該質問文の検索の対象となる要素と当該検索にかかる検索方式とを指定する検索質問に応じて検索する構造化文書検索装置およびプログラムに関する。
従来より、文書管理については、テキストにより行われることが多かった。ところが、近年においては、XML(Extensible Markup Language)に代表されるような階層化された論理構造を有している構造化文書によって文書を構造化して管理することが一般化されつつある。
また、XMLなどの構造化文書に対しては、リレーショナルデータベースのためのSQL(Structured Query Language)に似た構文を持ち、検索の対象となる要素や検索対象中に含まれる文字列などを記述できる問合せ言語が提供されている。例えば、W3C(World Wide Web Consortium)で策定されたXPATHでは、XML文書に対して「要約」という要素中に「自然言語処理」という文字列が含まれるような文書を検索し、「タイトル」を結果として出力するという場合に、
/文書[/要約//,contains(“自然言語処理”)]/タイトル
と記述する。ここで、contains(X)とは、検索の対象として指定された要素中にXと言う文字列が含まれていることを示す。
加えて、単に指定した文字列が含まれているという検索方法の他、例えば「自然言語検索」を形態素解析し、ベクトル空間法(TF・IDF)等による検索ランキングに基づき結果を返すなど、従来より文書検索の分野で研究されてきた技術を適用するための問合せ言語もW3Cで検討されている。
ところが、上述したように構造化文書に対して特定の要素を指定して詳細な検索を行う場合には、対象となる構造化文書の要素名などの詳細を知らなければならないという問題がある。
そこで、この問題を解決すべく、特許文献1では、要素名と質問文を入力するとそれぞれをシソーラス展開することにより、異なる要素名であっても検索することを可能にしている。また、特許文献2では、質問文との類似性や検索対象となる要素の構造上の類似性に基づいて類似する構造化文書を検索することを可能にしている。
特開2003−296355号公報 特開2002−297605号公報
しかしながら、上述したような特許文献1,2によれば、語彙の表記や構造的な類似性に基づく検索質問で検索された構造化文書と類似する構造化文書のみを検索することになるため、ユーザの所望する文書を柔軟に検索できているとはいえない。
例えば、上述した例である「要約」という要素中に「自然言語処理」という文字列が含まれるような文書を検索したいという検索質問の場合においては、要素「summarize」中に「natural language processing」という文字列が含まれる文書を検索することができない。
本発明は、上記に鑑みてなされたものであって、ユーザの所望する文書を柔軟に検索することができる構造化文書検索装置およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の構造化文書検索装置は、文書を構成する要素を階層化して表現する構造化文書を質問文と当該質問文の検索の対象となる要素と当該検索にかかる検索方式とを指定する検索質問に応じて検索する構造化文書検索装置において、前記検索質問を構成する前記質問文と前記要素とを予め定められたルールに従って変換して新たな検索質問を生成する質問変換手段と、この質問変換手段によって生成された前記検索質問によって前記構造化文書を検索する文書検索手段と、この文書検索手段による検索結果を提示する検索結果提示手段と、を備える。
また、本発明のプログラムは、文書を構成する要素を階層化して表現する構造化文書を質問文と当該質問文の検索の対象となる要素と当該検索にかかる検索方式とを指定する検索質問に応じて検索する処理をコンピュータに実行させるプログラムであって、前記検索質問を構成する前記質問文と前記要素とを予め定められたルールに従って変換して新たな検索質問を生成する質問変換機能と、この質問変換機能によって生成された前記検索質問によって前記構造化文書を検索する文書検索機能と、この文書検索機能による検索結果を提示する検索結果提示機能と、を前記コンピュータに実行させる。
本発明によれば、検索質問を構成する質問文と質問文の検索の対象となる要素とを予め定められたルールに従って変換して新たな検索質問を生成することにより、検索質問の検索対象要素が「/要約」である場合、その検索対象要素を「/summarize」という検索対象要素に変換し、入力された質問文に対して「英語翻訳」を行い、変換された検索対象要素と質問文で「英単語TF・IDF検索」を行うというようにルールを予め定めることで、例えば「要約」という要素中に「自然言語処理」が含まれる文書を検索するという検索質問により、要素「summarize」中に「natural language processing」という文字列が含まれる文書を検索することができるようになるので、ユーザの所望する文書を柔軟に検索することができるようになる。
以下に添付図面を参照して、この発明にかかる構造化文書検索装置およびプログラムの最良な実施の形態を詳細に説明する。
[第1の実施の形態]
本発明の第1の実施の形態を図1ないし図10に基づいて説明する。ここで、階層化された論理構造を有している構造化文書としては、XML(Extensible Markup Language)やSGML(Standard Generalized Markup Language)などで記述した文書があげられる。SGMLとは、ISO(国際標準化機構)で定められた規格である。また、XMLとは、W3C(World Wide Web Consortium)で定められた規格である。それぞれ文書を構造化することを可能とする構造化文書規約である。以下においては、構造化文書としてXMLにて記述された文書を例に説明を進める。
図1は、本発明の第1の実施の形態にかかる構造化文書検索装置1のハードウェア構成図である。構造化文書検索装置1は、例えば、一般的なパーソナルコンピュータである。
図1に示すように、構造化文書検索装置1は、情報処理を行うCPU(Central Processing Unit)101、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)102、各種データを書換え可能に記憶するRAM(Random Access Memory)103、各種データベースとして機能するとともに各種のプログラムを格納するHDD(Hard Disk Drive)104、記憶媒体110を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するためのCD−ROMドライブ等の媒体駆動装置105、ネットワーク2を介して外部の他のコンピュータと通信により情報を伝達するための通信制御装置106、処理経過や結果等を操作者に表示するCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等の表示部107、並びに操作者がCPU101に命令や情報等を入力するためのキーボードやマウス等の入力部108等から構成されており、これらの各部間で送受信されるデータをバスコントローラ109が調停して動作する。
このような構造化文書検索装置1では、ユーザが電源を投入するとCPU101がROM102内のローダーというプログラムを起動させ、HDD104よりOS(Operating System)というコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM103に読み込み、このOSを起動させる。このようなOSは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。OSのうち代表的なものとしては、Windows(登録商標)等が知られている。これらのOS上で走る動作プログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のOS上で動作するものに限らず、後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
ここで、構造化文書検索装置1は、アプリケーションプログラムとして、構造化文書検索プログラムをHDD104に記憶している。この意味で、HDD104は、構造化文書検索プログラムを記憶する記憶媒体として機能する。
また、一般的には、構造化文書検索装置1のHDD104にインストールされるアプリケーションプログラムは、CD−ROMやDVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等の各種方式のメディア等の記憶媒体110に記録され、この記憶媒体110に記録された動作プログラムがHDD104にインストールされる。このため、CD−ROM等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体110も、アプリケーションプログラムを記憶する記憶媒体となり得る。さらには、アプリケーションプログラムは、例えば通信制御装置106を介して外部から取り込まれ、HDD104にインストールされても良い。
構造化文書検索装置1は、OS上で動作する構造化文書検索プログラムが起動すると、この構造化文書検索プログラムに従い、CPU101が各種の演算処理を実行して各部を集中的に制御する。構造化文書検索装置1のCPU101が実行する各種の演算処理のうち、本実施の形態の特長的な処理について以下に説明する。
図2は、構造化文書検索装置1の機能構成を概略的に示すブロック図である。図2に示すように、構造化文書検索装置1は、構造化文書検索プログラムに従うことにより、入力部11と、変換部12と、検索部13と、出力部14とを備える。また、構造化文書検索装置1は、構造化文書検索プログラムに従うことにより、HDD104に、変換ルールデータベース(変換ルールDB)15と、構造化文書索引データベース(構造化文書索引DB)16とを形成する。
入力部11は、ユーザの検索質問の入力を受け付ける機能を有している。変換部12は、入力部11で受け付けた検索質問を検索対象となる構造化文書を検索するために適切な検索質問に変換する機能を有している。検索部13は、変換部12で変換された検索質問によって構造化文書を検索する機能を有している。出力部14は、検索部13による検索結果をユーザに提示する機能を有している。
変換ルールDB15は、変換ルール20を格納するデータベースである。図3は、変換ルールDB15に格納されている変換ルール20を例示的に示す模式図である。図3に示すように、変換ルール20は、ルールの番号を示す「ID」、入力された検索質問の検索対象要素を示す「入力検索質問の検索対象要素」、変換された検索質問の検索対象要素を示す「変換後の検索質問の検索対象要素」、入力された検索質問中の質問文を変換する「質問文の変換方式」、変換された検索対象要素について質問文で検索対象となる構造化文書に対してどのような検索方法で検索を行うかを記述した「変換後の検索方法」から構成されている。例えば、「ID」が“1”の変換ルール20は、入力検索質問の検索対象要素が「/要約J」である場合、その検索対象要素を「/要約E」という検索対象要素に変換し、入力された質問文に対して「英語翻訳」を行い、変換された検索対象要素と質問文で「英単語TF・IDF検索」を行うことを示す。なお、「英語翻訳」は質問文を英語で翻訳することを示し、既存の英語翻訳システムの機械翻訳を用いてもかまわない。
変換後の検索方法は、変換後の検索対象要素および変換された質問文に対応した検索方法を指定する部分である。これは、例えば日本語の文書を検索する場合と英語の文書を検索する場合では、適切な単語の処理方式なども異なるために、変換された質問文に最適な検索方法を指定する必要があるためである。また、例えば「/音声認識」で指定された要素中に、話者が発話した情報を自動音声認識した結果の漢字かな混じり文が表されており、さらに「/音声認識読み」で指定された要素中に、前記「/音声認識」中の読み仮名が表現されているような場合に、「/音声認識読み」の部分に対して、入力された質問文を仮名変換し、「編集距離」を用いた検索方法を行うことなどが考えられる。
構造化文書索引DB16は、構造化文書索引30を格納するデータベースである。図4は、構造化文書索引DB16に格納されている構造化文書索引30を例示的に示す模式図である。図4に示すように、構造化文書索引30は、文書を構成する要素を階層化して表現する構造化文書の各要素の語彙情報を格納する語彙索引31、構造化文書の各要素の親子や兄弟等の構造情報を格納する構造索引32、構造化文書の本文情報を格納する本文索引33から構成されている。
例えば、図5に示す語彙索引31は、図6に示す構造化文書1,2に出現する各要素の索引種別に従って構造化文書が索引付けされている。図6に示す構造化文書1の要素「/titleJ」中に出現する文字列には、図5に示すように「日本語単語」の索引付けが行われている。ここで「日本語単語」の索引とは、「/titleJ」中の文字列「自然言語処理」を形態素解析し、例えば「自然」「言語」「処理」という単語を切り出し、各単語が構造化文書1の「/doc/titleJ」に出現するという情報が索引付けされているものである。また、図6に示す構造化文書2の要素「/titleE」中に出現する文字列には、図5に示すように「英単語」の索引付けが行われている。ここで「英単語」の索引とは、「/titleE」中の各単語に対してステミング処理を行い「natural」「language」「process」を切り出し、各単語が構造化文書2の「/titleE」に出現するという情報が索引付けされているものである。ステミング処理とは、単語の語形変化を取り除く処理のことである。さらに、構造化文書1、2のそのほかの要素「/date」「/要約J」「/要約E」に関しても上記の例のように、対応した情報が索引付けされている。
このような構成による概略的な処理の流れは以下のようになる。まず、入力部11が、ユーザが入力する検索質問を受け付けて変換部12へ渡す。変換部12は、質問変換手段として機能するものであり、入力部11から検索質問を受け取り、変換ルールDB15内の変換ルール20を用いて検索質問を変換し、変換された検索質問を検索部13へ渡す。検索部13は、文書検索手段として機能するものであり、変換部12より受け取った検索質問により構造化文書索引DB16内の構造化文書索引30から構造文書中の構成要素を検索し、検索結果を出力部14へ渡す。出力部14は、検索結果提示手段として機能するものであり、受け取った検索結果をユーザに提示する。
ここで、変換部12について詳述する。図7は、変換部12における処理の流れを概略的に示すフローチャートである。図7に示すように、変換部12は、入力部11より検索質問を受け取る(ステップS1のYes)。
ここで、図8に示すような構造化文書に対して「要約に自然言語が含まれる文書を検索し、タイトルを結果として返す」処理を行うことを考えた場合は、XPATHでは
/doc[/要約/,contains(自然言語)]/title
と記述できる。本実施の形態では、XPATH中の「/要約」に示されるように検索の対象となる要素を示す部分と「contains(X)」のように検索方法を示す部分と「自然言語」のように質問文を示す部分と「/title」のように検索結果として提示すべき要素を示す部分に注目する。上記部分をそれぞれ検索対象要素指定部、質問文部、検索方法指定部、提示要素指定部と呼ぶ。すなわち、上記XPATHでは、検索対象要素指定部は「/要約」、質問文部は「自然言語」、検索方法指定部は「contains」、提示要素指定部は「/title」と表される。
ここでは、入力部11より受け取った検索質問として、検索対象要素指定部が「/要約J」、質問文部が「自然言語処理」、検索方法指定部が「日本語単語TF・IDF検索」とする。
次に、変換部12は、入力部11より受け取った検索質問中で指定された検索対象要素をチェックする(ステップS2)。これにより、[/要約J」という要素が指定されていることがわかる。
続いて変換部12は、図3に一例が示されたような変換ルール20から指定された検索対象要素に対する変換先の検索対象要素、質問文の変換方法、検索方法を探す(ステップS3)。例えば、「ID」が“1”の変換ルール20によれば、入力検索質問の検索対象要素が「/要約J」である場合、その検索対象要素を「/要約E」という検索対象要素に変換し、入力された質問文に対して「英語翻訳」を行い、変換された検索対象要素と質問文で「英単語TF・IDF検索」を行うことを示す。
次いで、変換部12は、ステップS3で探した方法に従って検索質問を変換する(ステップS4)。ここでは、変換ルール20により、入力部11より受け取った検索質問中の質問文「自然言語処理」が「natural language processing」に翻訳される。
以上の処理により、入力された検索質問“検索対象要素指定部「/要約J」、質問文部「自然言語処理」、検索方法指定部「日本語単語TF・IDF検索」”は、“検索対象要素指定部「/要約E」、質問文部「natural language processing」、検索方法指定部「英単語TF・IDF検索」”に変換される。
最後に、変換部12は、変換された検索質問を検索部13へ送る(ステップS5)。
なお、質問文の変換方式は図3の例に限られたものではなく、例えば特定の分野を示すような要素がある場合に対応する同義語辞書を用いて同義語展開を行うなども考えられる。
次に、検索部13について詳述する。検索部13は、変換部12より受け取った検索質問と構造化文書索引30を用いて、構造化文書の検索を行い、結果を出力部14へ渡す。
図9は、検索部13における処理の流れを概略的に示すフローチャートである。図9に示すように、まず、検索部13は、変換部12から受け取った検索質問の検索方法をチェックする(ステップS11)。ここでは、変換部12から受け取った検索質問の検索方法は「英語TF・IDF検索」である。
次に、検索部13は、検索方法に対応した質問文の処理を行う(ステップS12)。ここでは、質問文「natural language processing」に対してステミング処理を行い「natural」「language」「process」が検索語として切り出される。
次に、検索部13は、検索の対象となる構造(要素)をチェックする(ステップS13)。ここで検索の対象となる構造(要素)が「/要約E」であることがわかる。
続いて検索部13は、対象となる構造(要素)中に質問文に適切な情報が含まれる文書を検索する(ステップS14)。ここでは、構造化文書索引30の語彙索引31により、構造化文書2の「/要約E」中に「natural」「language」「process」が出現することがわかり、構造化文書2が適切な検索結果であることがわかる。
最後に検索部13は、本文索引から構造化文書2を取得し、検索結果として出力部14へ送る(ステップS15)。
出力部14は、例えば図10に示すような出力結果をユーザに提示する。
このように本実施の形態によれば、検索質問を構成する質問文と質問文の検索の対象となる要素とを予め定められたルールに従って変換して新たな検索質問を生成することにより、検索質問の検索対象要素が「/要約J」である場合、その検索対象要素を「/要約E」という検索対象要素に変換し、入力された質問文に対して「英語翻訳」を行い、変換された検索対象要素と質問文で「英単語TF・IDF検索」を行うというようにルールを予め定めることで、例えば「要約」という要素中に「自然言語処理」が含まれる文書を検索するという検索質問により、要素「summarize」中に「natural language processing」という文字列が含まれる文書を検索することができるようになるので、ユーザの所望する文書を柔軟に検索することができるようになる。
[第2の実施の形態]
次に、本発明の第2の実施の形態を図11ないし図15に基づいて説明する。なお、前述した第1の実施の形態と同じ部分は同じ符号で示し説明も省略する。
本実施の形態と第1の実施の形態との違いは、検索部13が、ユーザの入力した質問及び変換部12により変換された検索質問の両方の検索質問を用いて構造化文書を検索し、検索された構造化文書を適切に並べ替える機能を有する点である。
本実施の形態の概略的な処理の流れは以下のようになる。まず、入力部11が、ユーザが入力する検索質問を受け付けて変換部12へ渡す。変換部12は、入力部11から検索質問を受け取り、変換ルールDB15内の変換ルール20を用いて検索質問を変換し、変換された検索質問及び入力された検索質問を検索部13へ渡す。検索部13は、変換部12より受け取った変換された検索質問及び入力された検索質問をそれぞれ用いて、構造化文書索引DB16内の構造化文書索引30から構造文書中の構成要素を検索し、検索結果を出力部14へ渡す。出力部14は、受け取った検索結果をユーザに提示する。
ここで、変換部12について詳述する。本実施の形態の変換部12においては、変換ルール20により変換された検索質問により構造化文書を検索する際のスコアを調整するための重みを各変換ルールが有する点が、第1の実施の形態とは異なっている。
本実施の形態の変換部12は、入力部11より、例えば検索質問として、検索対象要素指定部が「/要約J」、質問文部が「自然言語処理」、検索方法指定部が「日本語単語TF・IDF検索」という検索質問を受け取ると、図11に示す変換ルール20を用いて、検索対象要素指定部「/要約E」、質問文「natural language processing」、検索方法指定部「英単語TF・IDF検索」という検索質問に変換する。また、図11に示すように、本実施の形態の変換ルール20は、構造化文書を検索する際のスコアを調整するための「重み」を有しており、変換部12は、重み「0.8」を含む変換された検索質問及び入力された検索質問を検索部13へ送る。
次に、検索部13について詳述する。検索部13は、変換部12より受け取った重みを含む変換された検索質問及び入力された検索質問と構造化文書索引30を用いて、構造化文書の検索を行い、結果を出力部14へ渡すものである。
ここで、図12は検索部13における処理の流れを概略的に示すフローチャート、図13は検索対象となる文書を例示的に示す模式図である。図12に示すように、まず、検索部13は、変換部12から受け取った2種類の検索質問に対してそれぞれの検索方法をチェックする(ステップS21)。ここでは、ユーザの入力した検索質問“検索対象要素指定部「/要約J」、質問文部「自然言語処理」、検索方法指定部が「日本語単語TF・IDF検索」”と、変換された検索質問“検索対象要素指定部「/要約E」、質問文「natural language processing」、検索方法指定部「英単語TF・IDF検索」”の2種類の検索質問を受け取ったものとする。この時、変換された検索質問に関しては重み「0.8」もあわせて受け取る。したがって、変換部12から受け取った変換された検索質問の検索方法は「英語TF・IDF検索」であり、変換部12から受け取ったユーザの入力した検索質問の検索方法は「日本語単語TF・IDF検索」である。
次に、検索部13は、変換部12から受け取った2種類の検索質問に対して、検索方法に対応した質問文の処理を行う(ステップS22)。ここでは、変換された質問文「natural language processing」に対してステミング処理を行い「natural」「language」「process」が検索語として切り出されるとともに、ユーザの入力した検索質問「自然言語処理」を形態素解析し、「自然」「言語」「処理」が検索語として切り出される。
次に、検索部13は、2種類の検索質問に対して検索の対象となる構造(要素)をチェックする(ステップS23)。ここで検索の対象となる構造(要素)が「/要約E」および「/要約J」であることがわかる。
続いて検索部13は、2種類の検索質問それぞれについて、対象となる構造(要素)中に質問文に適切な情報が含まれる文書を検索する(ステップS24)。2種類の検索質問により、図13に示した構造化文書1,2,3を検索すると、ユーザの入力した検索質問により、「要約J」中に「自然」「言語」「処理」が出現する構造化文書1、および、「要約J」中に「自然」「言語」が出現する構造化文書3が検索される。また、変換部12により変換された検索質問により、「要約E]中に「natural」「language」「process」が出現する構造化文書2が検索される。
次いで、検索部13は、検索結果をスコアによって適切に並べ替える(ステップS25)。本実施の形態においては、TF・IDF法により、それぞれの文書にスコアをつける。TFは、検索対象要素中に出現する該当する単語の頻度を用いる。IDFには簡単のため、1/DF(Document Frequency:該当する単語の出現する文書数)を用いる。この際、例えば「自然」の翻訳語である「natural」、「言語」の翻訳語である「language」、「処理」の翻訳語である「processing」をそれぞれ同一の単語とすると、文書1のスコアは、
(単語「自然」のTF・IDF)+(単語「言語」のTF・IDF)+(単語「処理」のTF・IDF) = 1*1/3 + 1*1/3 + 1*1/3 = 1
となり、文書2のスコアは、
(単語「natural」のTF・IDF)+(単語「language」のTF・IDF)+(単語「process」のTF・IDF) = 1*1/3 + 1*1/3 + 1*1/3 = 1
となり、文書3のスコアは、
(単語「自然」のTF・IDF)+(単語「言語」のTF・IDF) = 1*1/3 + 1*1/3 = 0.67
となる。
加えて、検索部13は、変換された検索質問による検索結果である文書2に対してスコアを調整するための重み「0.8」をかける。この処理で文書2のスコアは、
1*0.8 = 0.8
となる。
以上の処理により検索された文書のスコアは、
文書1 > 文書2 > 文書3
となる。
最後に検索部13は、検索結果の本文情報を本文索引から取得し、スコア順とともに出力部14へ送る(ステップS26)。
出力部14は、例えば図14に示すように、順位とともに検索結果を提示する。
このように本実施の形態によれば、検索部13が、ユーザの入力した質問及び変換部12により変換された検索質問の両方の検索質問を用いて構造化文書を検索し、検索された構造化文書を適切に並べ替えることにより、ユーザの所望の検索結果を得ることが可能になる。
なお、図14に示した例では、ユーザの入力した検索質問および変換部12により変換された検索質問を最終的にまとめて昇順に並べて出力したが、検索質問ごとに分けて結果を出力することも可能である。その際、例えば図15に示すように、なぜそのような結果が得られたかをユーザが直感的にわかるように、検索部13へ送られた検索質問とともに検索結果である文書を提示することも可能である。
[第3の実施の形態]
次に、本発明の第3の実施の形態を図16ないし図18に基づいて説明する。なお、前述した第1の実施の形態と同じ部分は同じ符号で示し説明も省略する。
本実施の形態と第1の実施の形態との違いは、変換部12が、ユーザの入力した検索質問で指定された提示要素指定部も合わせて変換する機能を有する点である。
以下、主要なモジュールの第1の実施の形態との相違点を述べる。
例えば、入力部11は、ユーザが「要約Jに自然言語処理が含まれる文書を検索し、titleJを結果として返す」ための検索質問として、対象要素指定部が「/要約J」、質問文部が「自然言語処理」、検索方法指定部が「日本語単語TF・IDF検索」、提示要素指定部が「/titleJ」という検索質問を受け取るとする。入力部11は、上記検索質問を変換部12へ送る。
本実施の形態の変換部12は、入力部11より、検索対象要素指定部が「/要約J」、質問文部が「自然言語処理」、検索方法指定部が「日本語単語TF・IDF検索」、提示要素指定部が「/titleJ」という検索質問を受け取ると、図16に示す変換ルール20を用いて、検索質問を変換する。
図16に示すように、本実施の形態の変換ルール20は、図3に示した構成に加えて、入力された検索質問中が指定した提示すべき要素を示す「入力検索質問中の提示要素」、変換された検索質問の提示すべき要素を示す「変換後の検索質問中の提示要素」を有している。
変換部12は、変換ルール20中の各ルールから、入力された検索質問中の検索対象要素指定部と「入力検索質問の検索対象要素」とが等しく、かつ、入力された検索質問中の提示要素指定部と「入力検索質問中の提示要素」とが等しいルールを探し出す。これにより、IDが“1”であるルールが探し出される。
次に、変換部12は、IDが“1”であるルールにより入力された検索質問を変換する。この処理により、検索対象要素指定部が「/要約J」、質問文部が「自然言語処理」、検索方法指定部が「日本語単語TF・IDF検索」、提示要素指定部が「/titleJ」という検索質問が検索対象要素指定部が「/要約E」、質問文部が「natural language processing」、検索方法指定部が「英単語TF・IDF検索」、提示要素指定部が「/titleE」に変換される。このような変換結果は、変換部12から検索部13へ送られる。
検索部13は、変換部12より受け取った検索質問と構造化文書索引30を用いて、構造化文書の検索を行い、結果を出力部14へ渡す。
検索部13は、変換部12より、検索対象要素指定部「/要約E」、質問文部「natural language processing」、検索方法指定部「英単語TF・IDF検索」、提示要素指定部「/titleE」である検索質問を受け取る。このような検索質問により、例えば図17に示すような文書を検索すると、構造化文書2が検索される。
最後に検索部13は、検索結果の提示要素指定部により指定された/titleE以下の情報を本文索引33から取得し、検索結果として出力部14へ送る。
出力部14は、例えば図18に示すような出力結果をユーザに提示する。
このように本実施の形態によれば、変換部12が、ユーザの入力した検索質問で指定された提示要素指定部も合わせて変換することにより、検索結果として、適切な要素をユーザに出力することが可能となる。
本発明の第1の実施の形態にかかる構造化文書検索装置のハードウェア構成図である。 構造化文書検索装置の機能構成を概略的に示すブロック図である。 変換ルールDBに格納されている変換ルールを例示的に示す模式図である。 構造化文書索引DBに格納されている構造化文書索引を例示的に示す模式図である。 語彙索引を例示的に示す模式図である。 検索対象となる文書を例示的に示す模式図である。 変換部における処理の流れを概略的に示すフローチャートである。 構造化文書を例示的に示す模式図である。 検索部における処理の流れを概略的に示すフローチャートである。 出力結果を例示的に示す模式図である。 本発明の第2の実施の形態の変換ルールDBに格納されている変換ルールを例示的に示す模式図である。 検索部における処理の流れを概略的に示すフローチャートである。 検索対象となる文書を例示的に示す模式図である。 出力結果を例示的に示す模式図である。 出力結果の変形例を例示的に示す模式図である。 本発明の第3の実施の形態の変換ルールDBに格納されている変換ルールを例示的に示す模式図である。 検索対象となる文書を例示的に示す模式図である。 出力結果を例示的に示す模式図である。
符号の説明
1 構造化文書検索装置
12 質問変換手段
13 文書検索手段
14 検索結果提示手段
31 語彙索引

Claims (9)

  1. 文書を構成する要素を階層化して表現する構造化文書を質問文と当該質問文の検索の対象となる要素と当該検索にかかる検索方式とを指定する検索質問に応じて検索する構造化文書検索装置において、
    文字列である質問文と当該質問文の検索の対象となる要素と当該検索にかかる検索方式とを指定する検索質問に応じて階層化された論理構造を有している構造化文書を検索する構造化文書検索装置において、
    前記検索質問を構成する前記質問文と前記要素とを予め定められたルールに従って変換して新たな検索質問を生成する質問変換手段と、
    この質問変換手段によって生成された前記検索質問によって前記構造化文書を検索する文書検索手段と、
    この文書検索手段による検索結果を提示する検索結果提示手段と、
    を備えることを特徴とする構造化文書検索装置。
  2. 前記質問変換手段は、前記検索質問を構成する前記検索方法も予め定められたルールに従って変換する
    ことを特徴とする請求項1記載の構造化文書検索装置。
  3. 前記文書検索手段は、前記質問変換手段によって変換されて生成された前記検索質問によって前記構造化文書を検索するだけではなく、前記質問変換手段による変換前の前記検索質問によっても前記構造化文書を検索し、
    前記検索結果提示手段は、前記文書検索手段による前記各検索質問に応じた前記各検索結果を提示する
    ことを特徴とする請求項1または2記載の構造化文書検索装置。
  4. 前記文書検索手段は、前記質問変換手段によって変換されて生成された前記検索質問によって前記構造化文書を検索するだけではなく、前記質問変換手段による変換前の前記検索質問によっても前記構造化文書を検索し、前記各検索質問に応じた前記各検索結果に対してランク付けを行い、
    前記検索結果提示手段は、前記文書検索手段による前記各検索質問に応じた前記各検索結果を前記ランク付けに応じて並べ替えて提示する
    ことを特徴とする請求項1または2記載の構造化文書検索装置。
  5. 前記構造化文書中の前記各要素の索引種別に従って、前記構造化文書が索引付けされている語彙索引を有しており、
    前記文書検索手段は、前記語彙索引を用いて前記構造化文書を検索する
    ことを特徴とする請求項1ないし4のいずれか一記載の構造化文書検索装置。
  6. 前記質問変換手段は、当該質問変換手段による変換前の前記検索質問で前記検索結果提示手段により検索結果として提示する際の提示要素が指定されている場合に、当該提示要素についても予め定められたルールに従って変換する
    ことを特徴とする請求項1ないし5記載のいずれか一記載の構造化文書検索装置。
  7. 前記質問変換手段は、機械翻訳を用いて前記質問文を翻訳する
    ことを特徴とする請求項1ないし6記載のいずれか一記載の構造化文書検索装置。
  8. 前記検索結果提示手段は、前記文書検索手段による検索結果を前記検索質問に対応付けて提示する
    ことを特徴とする請求項1ないし7記載のいずれか一記載の構造化文書検索装置。
  9. 文書を構成する要素を階層化して表現する構造化文書を質問文と当該質問文の検索の対象となる要素と当該検索にかかる検索方式とを指定する検索質問に応じて検索する処理をコンピュータに実行させるプログラムであって、
    前記検索質問を構成する前記質問文と前記要素とを予め定められたルールに従って変換して新たな検索質問を生成する質問変換機能と、
    この質問変換機能によって生成された前記検索質問によって前記構造化文書を検索する文書検索機能と、
    この文書検索機能による検索結果を提示する検索結果提示機能と、
    を前記コンピュータに実行させることを特徴とするプログラム。
JP2006264202A 2006-09-28 2006-09-28 構造化文書検索装置およびプログラム Pending JP2008084070A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006264202A JP2008084070A (ja) 2006-09-28 2006-09-28 構造化文書検索装置およびプログラム
US11/851,260 US20080082505A1 (en) 2006-09-28 2007-09-06 Document searching apparatus and computer program product therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006264202A JP2008084070A (ja) 2006-09-28 2006-09-28 構造化文書検索装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2008084070A true JP2008084070A (ja) 2008-04-10

Family

ID=39262200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006264202A Pending JP2008084070A (ja) 2006-09-28 2006-09-28 構造化文書検索装置およびプログラム

Country Status (2)

Country Link
US (1) US20080082505A1 (ja)
JP (1) JP2008084070A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134922A (ja) * 2008-12-08 2010-06-17 Nhn Corp 類似語決定方法およびシステム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8918383B2 (en) * 2008-07-09 2014-12-23 International Business Machines Corporation Vector space lightweight directory access protocol data search
JP5100820B2 (ja) * 2010-11-25 2012-12-19 株式会社東芝 問合せ式変換装置、方法およびプログラム
US10275518B2 (en) * 2011-04-30 2019-04-30 Tibco Software Inc. Integrated phonetic matching methods and systems
JP6063217B2 (ja) * 2012-11-16 2017-01-18 任天堂株式会社 プログラム、情報処理装置、情報処理システム、および情報処理方法
WO2015193879A1 (en) * 2014-06-15 2015-12-23 Opisoft Care Ltd. Method and system for searching words in documents written in a source language as transcript of words in an origin language
US10650009B2 (en) * 2016-11-22 2020-05-12 Facebook, Inc. Generating news headlines on online social networks
JP7174377B2 (ja) * 2018-11-26 2022-11-17 株式会社日立製作所 データベース管理システム、および、匿名加工処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6055528A (en) * 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
JP3181548B2 (ja) * 1998-02-03 2001-07-03 富士通株式会社 情報検索装置及び情報検索方法
US6424980B1 (en) * 1998-06-10 2002-07-23 Nippon Telegraph And Telephone Corporation Integrated retrieval scheme for retrieving semi-structured documents
US6480843B2 (en) * 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
JP3842577B2 (ja) * 2001-03-30 2006-11-08 株式会社東芝 構造化文書検索方法および構造化文書検索装置およびプログラム
US20040064447A1 (en) * 2002-09-27 2004-04-01 Simske Steven J. System and method for management of synonymic searching

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134922A (ja) * 2008-12-08 2010-06-17 Nhn Corp 類似語決定方法およびシステム

Also Published As

Publication number Publication date
US20080082505A1 (en) 2008-04-03

Similar Documents

Publication Publication Date Title
JP4658420B2 (ja) 文字列の正規化表示を生成するシステム
US8346795B2 (en) System and method for guiding entity-based searching
US7376642B2 (en) Integrated full text search system and method
JP5243167B2 (ja) 情報検索システム
JP2783558B2 (ja) 要約生成方法および要約生成装置
CN1815477B (zh) 用于提供基于标记语言的限定词的方法和系统
US20140114942A1 (en) Dynamic Pruning of a Search Index Based on Search Results
JP2012248210A (ja) 日本語などの複雑言語のコンテンツを検索するシステム及び方法
JP2008084070A (ja) 構造化文書検索装置およびプログラム
JP2004110835A (ja) 確認文を検索するための方法およびシステム
JP2007334894A (ja) ドキュメントの注釈をソースドキュメントのコンテキスト内で視覚化すること
WO2004001570A1 (ja) 自然言語による既存データの記述方法及びそのためのプログラム
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US8229970B2 (en) Efficient storage and retrieval of posting lists
JP3767763B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5228451B2 (ja) 文書検索装置
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
JP3292160B2 (ja) Cobol言語のソースプログラムのコンバージョン方法及び装置並びに記録媒体
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010250389A (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
JP2008140204A (ja) データ検索システム及びプログラム
JP2003108582A (ja) 類義語抽出方法および文書検索装置
JP2001034630A (ja) 文書ベース検索システム、およびその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080901

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081007