JP2013191046A - 構造化文書管理装置、構造化文書検索方法 - Google Patents

構造化文書管理装置、構造化文書検索方法 Download PDF

Info

Publication number
JP2013191046A
JP2013191046A JP2012057240A JP2012057240A JP2013191046A JP 2013191046 A JP2013191046 A JP 2013191046A JP 2012057240 A JP2012057240 A JP 2012057240A JP 2012057240 A JP2012057240 A JP 2012057240A JP 2013191046 A JP2013191046 A JP 2013191046A
Authority
JP
Japan
Prior art keywords
document
headline
vocabulary
structured document
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012057240A
Other languages
English (en)
Other versions
JP5417471B2 (ja
JP2013191046A5 (ja
Inventor
Tomoharu Kokubu
智晴 國分
Toshihiko Manabe
俊彦 真鍋
Wataru Nakano
亘 仲野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2012057240A priority Critical patent/JP5417471B2/ja
Priority to PCT/JP2012/068505 priority patent/WO2013136545A1/ja
Priority to CN2012800029691A priority patent/CN103415850A/zh
Priority to US13/845,878 priority patent/US20130268554A1/en
Publication of JP2013191046A publication Critical patent/JP2013191046A/ja
Publication of JP2013191046A5 publication Critical patent/JP2013191046A5/ja
Application granted granted Critical
Publication of JP5417471B2 publication Critical patent/JP5417471B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing
    • G06F16/8373Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索時の利便性を向上できる構造化文書管理装置を提供する。
【解決手段】実施形態の構造化文書管理装置は、文書記憶部と、見出し抽出部と、関連度計算部と、文書検索部と、見出し選択部と、見出し表示部と、を備える。文書記憶部は、複数の構造化文書を記憶する。見出し抽出部は、構造化文書の見出しを抽出し、抽出した見出しを含む見出しリストを作成する。関連度計算部は、構造化文書中の語彙と、構造化文書と対応する見出しとの概念の関連度をそれぞれ計算する。文書検索部は、検索用キーワードと一致する語彙を含む構造化文書を検索する。見出し選択部は、検索用キーワードと一致した語彙に対する関連度が大きい見出しを、関連度が小さい見出しより優先して選択する。表示制御部は、見出し選択部により選択された見出しを、表示見出しとして表示部に表示させる。
【選択図】図3

Description

本発明の実施形態は、構造化文書管理装置、構造化文書検索方法に関する。
従来、電子データを構造化文書として生成し、情報の共有化を容易にしたり、より効率的に情報を検索できるようにしたりする技術が知られている。例えば、HTML(Hyper Text Markup Language)では、文書の構成要素、例えば文書の見出し、本文、リスト構造などをタグ(tag)で記載することにより、文書の構造を表現することができる。また、目的に応じて文書構造を示すタグを独自に定義することができるXML(Extensible Markup Language)も利用されるようになっている。このような構造化文書に対して検索を行う場合、タグによってどういうデータが文書中のどの位置に存在するのかを把握しやすくなり、検索性を向上させることができる。
こうした、構造化文書を検索した結果を表示する方法としては、検索結果の文章から自動的に要約を生成して表示する文書要約技術が知られている。文書要約技術の代表的な技術としてKWIC(KEYWORD IN CONTEXT)要約技術が知られており、KWICでは検索対象の文書中から検索用キーワードを含むテキストの前後所定文字数抜き出して表示する。
また、構造化文書を検索した結果を表示する方法としては、検索に用いたキーワードと一致した語彙を含む文書に対応した見出しを検索結果として表示する方法が知られている。
特開2002−278972号公報
しかしながら、見出しを検索結果として表示する場合、仮に検索用キーワードと文書中の語彙とが一致していたとしても、見出しが検索用キーワードとは関連度の低いものであった場合、利用者はその情報を自分が探している情報であると認識できない。その場合、利用者は実際にその文章を読んで、自分が探したい内容と近いものであるかを確認する必要があり、より一層の検索の利便性の向上が求められていた。
本発明は、上記に鑑みてなされたものであって、検索時の利便性を向上できる構造化文書管理装置を提供することにある。
上述した課題を解決し、目的を達成するために、実施形態の構造化文書管理装置は、文書記憶部と、見出し抽出部と、関連度計算部と、文書検索部と、見出し選択部と、見出し表示部と、を備える。文書記憶部は、複数の構造化文書を記憶する。見出し抽出部は、構造化文書の見出しを抽出し、抽出した見出しを含む見出しリストを作成する。関連度計算部は、構造化文書中の語彙と、構造化文書と対応する見出しとの概念の関連度をそれぞれ計算する。文書検索部は、検索用キーワードと一致する語彙を含む構造化文書を検索する。見出し選択部は、検索用キーワードと一致した語彙に対する関連度が大きい見出しを、関連度が小さい見出しより優先して選択する。表示制御部は、見出し選択部により選択された見出しを、表示見出しとして表示部に表示させる。
図1は、構造化文書管理システムのシステム構築例を示す模式図である。 図2は、サーバおよびクライアント端末のモジュール構成図である。 図3は、第1の実施形態のサーバおよびクライアント端末の概略構成を示すブロック図である。 図4は、第1の実施形態の構造化文書の1例を示す図である。 図5は、第1の実施形態の構造化文書の1例を示す図である。 図6は、第1の実施形態の見出しリストの1例を示す図である。 図7は、第1の実施形態の概念辞書の一例を示す図である。 図8は、第1の実施形態の語彙間の関連度を示すデータ図である。 図9は、第1の実施形態の見出しに対する本文中の語彙との関連度を示す図である。 図10は、第1の実施形態の検索結果の表示の仕方の一例を示す図である。 図11は、第1の実施形態の検索結果の表示の仕方の変形例を示す図である。 図12は、第1の実施形態の構造化文書を登録する際の処理の流れを示すフロー図である。 図13は、第1の実施形態の見出しに対する本文中の語彙との関連度を計算する処理の流れを示すフロー図である。 図14は、第1の実施形態の検索時において検索結果として表示する見出しを決定する処理の流れを示すフロー図である。 図15は、第2の実施形態の検索時において検索結果として表示する見出しを決定する処理の流れを示すフロー図である。
(第1の実施形態)
以下に、本発明にかかる構造化文書管理装置の第1の実施形態を図面に基づいて詳細に説明する。図1は、第1の実施形態にかかる構造化文書管理システムのシステム構築例を示す模式図である。ここでは、実施形態の構造化文書管理システムとして、図1に示すように、構造化文書管理装置であるサーバコンピュータ(以下、サーバという。)1に、LAN(Local Area Network)等のネットワーク2を介して、クライアントコンピュータ(以下、クライアント端末という。)3が複数台接続されたサーバクライアントシステムを想定する。
図2は、サーバ1およびクライアント端末3のモジュール構成図である。サーバ1およびクライアント端末3は、例えば、通常のコンピュータを利用したハードウェア構成を有している。すなわち、サーバ1およびクライアント端末3は、情報処理を行うCPU(Central Processing Unit)101、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)102、各種データを書き換え可能に記憶するRAM(Random Access Memory)103、各種データベースとして機能するとともに各種のプログラムを格納するHDD(Hard Disc Drive)104、記憶媒体110を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するためのCD−ROMドライブ等の媒体駆動装置105、ネットワーク2を介して外部の他のコンピュータと通信により情報を伝達するための通信制御装置106、処理経過や結果等を操作者に表示するCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等の表示部107、並びに操作者がCPU101に命令や情報等を入力するためのキーボードやマウス等の入力部108等を備えた構成であり、これらの各部間で送受信されるデータをバスコントローラ109が調停して動作する。
このようなサーバ1およびクライアント端末3では、ユーザが電源を投入するとCPU101がROM102内のローダーというプログラムを起動させ、HDD104よりOS(Operating System)というコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM103に読み込み、このOSを起動させる。このようなOSは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。OSのうち代表的なものとしては、Windows(登録商標)、UNIX(登録商標)等が知られている。これらのOS上で動作するプログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のOS上で動作するものに限らず、後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
ここで、サーバ1は、アプリケーションプログラムとして、構造化文書管理プログラムをHDD104に記憶している。この意味で、HDD104は、構造化文書管理プログラムを記憶する記憶媒体として機能する。また、一般的には、サーバ1のHDD104にインストールされるアプリケーションプログラムは、CD−ROMやDVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等の各種方式のメディア等の記憶媒体110に記録されて提供される。このため、CD−ROM等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体110も、構造化文書管理プログラムを記憶する記憶媒体となり得る。さらには、構造化文書管理プログラムは、例えば通信制御装置106を介して外部から取り込まれ、HDD104にインストールされてもよい。
サーバ1は、OS上で動作する構造化文書管理プログラムが起動すると、この構造化文書管理プログラムに従い、CPU101が各種の演算処理を実行して各部を集中的に制御する。一方、クライアント端末3は、OS上で動作するアプリケーションプログラムが起動すると、このアプリケーションプログラムに従い、CPU101が各種の演算処理を実行して各部を集中的に制御する。サーバ1およびクライアント端末3のCPU101が実行する各種の演算処理のうち、実施形態の構造化文書管理システムにおいて特徴的な処理について、以下に説明する。
図3は、第1の実施形態におけるサーバ1およびクライアント端末3の概略構成を示すブロック図である。図3に示すように、クライアント端末3は、アプリケーションプログラムにより実現される機能構成として、構造化文書登録部11と、検索部12とを備える。
構造化文書登録部11は、入力部108から入力された構造化文書データやクライアント端末3のHDD104に予め記憶された構造化文書データを、後述するサーバ1の構造化文書データベース(構造化文書DB)21に登録するためのものである。この構造化文書登録部11は、登録すべき構造化文書データとともに格納要求をサーバ1に送信する。
検索部12は、ユーザにより入力部108から入力された指示に従って、構造化文書DB21から所望のデータを検索するための検索用キーワードなどが記述されたクエリデータを作成し、当該クエリデータを含む検索要求をサーバ1へ送信する。また、検索部12は、サーバ1から送信された当該検索要求に対応する結果データを受け取り、これを表示部107に表示する。
一方、サーバ1は、構造化文書管理プログラムにより実現される機能構成として、登録部22と、検索部23とを備える。また、サーバ1は、HDD104などの記憶装置を利用した構造化文書DB21を備える。
登録部22は、クライアント端末3からの格納要求を受けて、クライアント端末3から送信された構造化文書データを構造化文書DB21に格納する処理を行う。登録部22は、格納インタフェース部24と、見出し抽出部25と、関連度計算部26とを備える。
格納インタフェース部24は、構造化文書データの入力を受け付けて、構造化文書データを構造化文書DB21に格納するために、クライアント端末3から送信された構造化文書データを構文解析する。そして、格納インタフェース部24は、データ中に出現する要素に、要素間で出現順序が比較可能な識別子(以下、要素IDという。)を付与した上で、要素IDが付与された構造化文書データを構造化文書DB21(構造化文書データ記憶手段)に格納する。なお、要素IDはクライアント端末3側で予め構造化文書に手動で付与しておいてもよい。
図4は、この要素IDが付与された構造化文書データの一例を示したものである。構造化文書データを記述するための代表的な言語としてXML(Extensible Markup Language)が挙げられる。図4に示す構造化文書データは、XMLで記述されたものである。XMLでは、文書構造を構成する個々のパーツを「要素」(エレメント:Element)と呼び、要素はタグ(tag)を使って記述する。具体的には、要素の始まりを示すタグ(開始タグ)と、終わりを示すタグ(終了タグ)の2つのタグでデータを挟み込んで、1つの要素を表現している。なお、開始タグと終了タグで挟み込まれたテキストデータは、当該開始タグと終了タグで表された1つの要素に含まれるテキスト要素である。
図4では、<doc>というタグで囲まれたルート要素が存在する。<doc>要素は、そのドキュメントの文書IDとしてid=1が割り当てられている。<doc>要素は、<title>要素を持ち、<title>要素はその構造化文書の見出しを示している。また、<doc>要素は、5つの<sec>要素を有している。<sec>要素は、<doc>要素によって規定される構造化文書と親子関係にある構造化文書であり、本実施形態においては部分文書と呼ぶ。<sec>というタグで囲まれた中には、<sectitle>要素と、<para>要素とが含まれている。<sectitle>は、その部分文書の見出しを示すタグである。また、<para>は、その部分文書の説明文を示すタグである。この<sectitle>、および<para>で定義されてテキストが「本文」に相当する。それぞれのタグには@eidという形式で要素IDが付与されている。
また、図5も同様に構造化文書の一例を示している。図5においても、図4の構造化文書と同じ構造を有しているが、要素IDである@eid=208にて定義された部分文書が、@eid=205にて定義された部分文書中に含まれており、親子関係の階層となっている。
見出し抽出部25は、格納インタフェース部24から受理した構造化文書から見出しを抽出して、抽出した見出しをリスト化する。見出しを抽出する際には、構造化文書中の<sectitle>要素によって囲まれたテキストが見出しであると認識される。図6は、文書ID 1、および文書ID 2の2つの構造化文書において見出しをリスト化したデータの一例を示している。図6に示されるように、文書ID 1の構造化文書においては、要素ID 109、102、106、112および115で示される部分文書に対して、@eid=110、103、107、113および116が、それぞれ見出しとして抽出される。
また、文書ID 2の構造化文書においては、要素ID 202、205、および211で示される部分文書に対して、@eid=203、206、および212が、それぞれ見出しとして抽出される。また、要素ID 208で示される部分文書に対しては、@eid=206、および209の2つの見出しが抽出される。文書ID 2の構造化文書においては、要素ID 208で示される部分文書の見出しとして、自身の<sec>タグで囲われた@eid=209の見出しだけではなく、親階層における@eid=206の見出しも抽出される。本実施形態において、従属文書とは、親階層の部分文書を定義する<sec>要素内の子階層にて<sec>要素にて定義された部分文書である。図5に示される構造化文書おいては、見出し@eid=206を含む部分文書@eid=205にとって、部分文書@eid=208が従属文書に相当し、一方、部分文書@eid=208にとって、部分文書@eid=205は、従属元の部分文書に相当する。
見出し抽出部25は、生成した見出しリストを構造化文書DB21に記憶するとともに、見出しリストを関連度計算部26へと引き渡す。関連度計算部26は、見出し抽出部25によって抽出された見出しと、対応する部分文書中に含まれる語彙との関連度を計算する。関連度の計算にあたっては、図7にて示される概念辞書が用いられる。概念辞書は、概念の上下構造に基づき、それぞれの概念がどれくらい近似したものであるかを示している。例えば、図7における「ルーター」と「アクセスポイント」は、同じノードから分岐した同じ階層に位置しており、その概念上の距離lengthは「1」として示される。また、親ノードと子ノードとの概念的な距離lengthも「1」として示される。図8は、概念辞書に予め設定された辞書関連度に基づき語彙間の関連度を計算した表である。関連度は概念的な距離lengthを用いて表され、1/(距離length+1)によって計算され、距離lengthが5以上のものは0として示している。
関連度計算部26は、それぞれの見出しから語彙を抽出し、本文中の語彙との間で関連度を計算する。語彙の抽出の仕方は、既存の方法を用いることができ、テキスト中から語彙を認識して抽出する。例えば、@eid=116にて定義された「無線LANのトラブルシューティング」という見出しからは、語彙として「LAN、無線LAN」の2語彙が抽出される。一方、この部分文書の@eid=115で定義される本文からは、「LAN、無線LAN、ルーター、アクセスポイント」の語彙が抽出される。この場合、見出し中の語彙それぞれに対する各語彙の関連度が計算される。語彙「LAN」に対する「LAN、無線LAN、ルーター、アクセスポイント」の関連度は順に「1.0、0.333、0.333、0.333」となり、語彙「無線LAN」に対する「LAN、無線LAN、ルーター、アクセスポイント」の関連度は順に「0.333、1.0、0.25、0.25」となる。この場合、各語彙に対して関連度が大きい語彙の値が優先されるため、@eid=116に対する@eid=15の部分文書中の語彙の関連度は、「1.0、1.0、0.333、0.333」となる。関連度計算部26は、それぞれの見出しと部分文書との組み合わせに対してこの計算を行い、計算結果を図9で示す、見出し語彙関連度表として、構造化文書DB21に記憶する。なお、関連度の計算の際に、例えば文書ID 2の見出しである@eid=206のように、子階層の部分文書との間で関連度を計算する場合は、同じ階層の部分文書との間で関連度を計算する場合と比較して、その関連度が少なく計算され、本実施形態においては、1/(距離length+1)を1/2にした値となる。このように構造化文書の階層の深さが深いほど関連度を小さくしていく。
図3へと戻り、検索部23の機能構成について説明する。検索部23は、検索インタフェース部29と、照合部30と、見出し選択部31とを備えている。
検索インタフェース部29は、検索用キーワードの入力を受け付けて、受け付けた検索用キーワードを含むクエリデータにより指定された検索用キーワードと一致する語彙を含むデータを得るために照合部30を呼び出す。
照合部30は、構造化文書DB21へとアクセスし、構造化文書データ27からクエリデータにより指定された検索用キーワードを含む構造化文書を検索し、検索用キーワードと一致する語彙を含む部分文書の一覧を見出し選択部31へと送る。例えば、検索用キーワードが「無線LAN」である場合、部分文書として、文書ID 1の@eid=109、102、106、112、115、および文書ID 2の@eid=202、205、208、211がヒットし、この検索結果が見出し選択部31へと送られる。
見出し選択部31は、検索用キーワードと一致した語彙に対して関連度が大きい見出しを、関連度が小さい見出しよりも優先して選択し、この選択結果を検索インタフェース部29へと引き渡す。関連度が大きい見出しを優先する方法としては、関連度が低い見出しは選択しないようにしたり、関連度が上位の見出しのみを選択したりするような方法が考えられる。具体的には、まず、見出し選択部31は、ヒットした部分文書それぞれの見出しの検索用キーワードと一致する語彙に対する関連度を見出し語彙関連度表から調べる。上述の「無線LAN」という検索用キーワードに対しては、関連度が0より大きい見出しは、文書ID 1では@eid=110、116であり、見出し選択部31はこれらの関連度を取得する。見出し選択部31は、この取得した関連度のうち上位N個、例えば2個を選択し、検索結果に表示見出しとして表示する見出しを選択する。この場合、文書ID 1の部分文書の要素ID@eid=109と対応した見出し@eid=110と、部分文書の要素ID@eid=115と対応した見出し@eid=116と、が選択される。また、文書ID 2の部分文書の要素ID@eid=205と対応した見出し@eid=206と、部分文書の要素ID@eid=208と対応した見出し@eid=209と、が選択される。見出し選択部31は、この選択結果を検索インタフェース部29へと送る。
検索インタフェース部29は、見出し選択部31から受け取った見出しを、表示部107に対して、表示させるように出力する。図10は、表示部に表示された検索結果画面の一例を示している。図10に示されるように、検索インタフェース部29は、文書ID 1のタイトルである「パソコン取扱説明書」を表示した下に、表示見出しである「ネットワーク接続」と「無線LANのトラブルシューティング」の2つの表示見出しを表示させるよう処理を行う。また、検索インタフェース部29は、文書ID 2のタイトルである「携帯端末取扱説明書」を表示した下に、表示見出しである「ネットワーク設定」、および「アクセスポイントの設定」を表示させる。利用者はこの表示された表示見出しを選択することで、この表示見出しと対応付けられた本文を閲覧することができる。
なお、この表示画面の別の例としては図11で示す態様となるようにすることできる。図11においては、検索インタフェース部29は、見出し選択部31から送られた見出し以外の見出しについては、検索用キーワードと一致する語彙の前後の文も表示するようにしている。図11に示されるように、タイトルである「パソコン取扱説明書」の下に、@eid=102の部分文書中の本文である「無線LANとは無線通信を利用してデータの・・・」が、@eid=106の部分文書中の本文である「無線機能を無線LANオン/オフボタンで有効にしてか・・・」が、@eid=112の部分文書中の本文である「対策のためパスワード設定や、無線LANの暗号化設定などを備えており・・・」が、それぞれ表示されている。検索用キーワードと一致する語彙を含む前後それぞれ何文字を抽出するかは適宜変更可能である。このようにすることで、見出しの語彙と、検索用キーワードと一致する語彙との関連度が低いため、表示見出しからでは利用者がその部分文書中に検索用キーワードが含まれているか否かわかりにくい文書であっても、利用者は文章から内容を把握することができるようになる。本実施形態では、検索インタフェース部29が、見出し表示制御部、および本文表示制御部に相当する。
以上に示した本実施形態における構造化文書の登録、および検索の処理の流れを図12〜図14を用いて説明する。図12は、構造化文書の登録時の処理の流れを示している。図12の処理は例えばクライアント端末3の構造化文書登録部11から構造化文書を登録する旨の指示が出されたときに処理がスタートする。まず、格納インタフェース部24は、クライアント端末3から送られた構造化文書の読み込みを行う(ステップS101)。次いで、見出し抽出部25は、読み込んだ構造化文書から見出しを抽出する(ステップS102)。そして、見出し抽出部25は、抽出した見出しから見出しリストを作成し(ステップS103)、構造化文書DB21に記憶する(ステップS104)。そして、処理を終了する。
次いで、見出しと本文中の語彙との関連度を計算する処理の流れを図13から説明する。図13に示されるように、関連度計算部26は、構造化文書DB21に記憶された見出しリストからデータ1行分の見出しを選択する(ステップS201)。次いで、関連度計算部26は、選択した見出しから語彙を抽出する(ステップS202)。次いで、関連度計算部26は、見出しと対応する本文、ここでは<sectitle>と<para>で定義されたテキストの中から、語彙を抽出する(ステップS203)。関連度計算部26は、見出し中の語彙と、部分文書中の語彙との間で関連度を計算する。(ステップS204)。次いで、関連度計算部26は、見出し中に語彙が複数ある場合に、それぞれの語彙との関連度のうち高いほうの値を見出しの関連度として設定する(ステップS205)。そして、関連度計算部26は、見出し語彙関連度表の該当する部分文書と見出しとの組み合わせのデータの「見出し語彙関連度」の項目へ関連度のデータを追加する(ステップS206)。最後に、全ての見出しについて関連度を計算する処理が完了したか否かの判定がなされ(ステップS207)、処理が完了した場合(ステップS207:Yes)、一連の処理を終了し、処理が完了していない場合(ステップS207:No)、次の行の見出しについて同様の処理を繰り返す。
次に、検索時に見出し選択部31によって見出しが選択される処理の流れを、図14を用いて説明する。見出し選択部31は、検索用キーワードと一致した語彙を含む構造化文書を取得する(ステップS301)。次いで、見出し選択部31は、取得した構造化文書中で、検索用キーワードと一致した語彙を含む部分文書の見出しに対する、当該キーワードに対する関連度を見出し語彙関連度表から取得する(ステップS302)。見出し選択部31は、全ての一致語彙を含む部分文書に対して関連度を取得したか否かの判定を行い(ステップS303)、全て取得済みである場合(ステップS303:Yes)、一致した語彙を含む部分文書の見出しを関連度に基づき降順でソートする(ステップS304)。一方、全ての部分文書に対する関連度が取得できていないと判定された場合(ステップS303:No)、ステップS302の処理を繰り返す。見出し選択部31は、関連度の上位N個の見出しを選択し、構造化文書中の出現順でソートする(ステップS305)。そして、見出し選択部31は、全ての構造化文書(本実施形態では、文書ID 1、および文書ID 2の2つの文書)において、見出しの選択が終了したか否かを判定し(ステップS306)、終了した場合は(ステップS306:Yes)、ステップS305でソートして選択した見出しを表示見出しとして検索インタフェース部29へと送り(ステップS307)、処理を終了する。全ての構造化文書での見出しの選択が終了していない場合は(ステップS306:No)。ステップS301からの処理を繰り返し、別の構造化文書を取得する。
以上に示した本実施形態の構造化文書管理装置においては、検索に用いたキーワードと一致する語彙を含む部分文書が存在していた場合、検索用キーワードとの関連度が高い見出しを優先して表示させることとしたため、利用者は表示見出しから自分の求めている情報がその文書に含まれているかどうかを容易に判断することができるようになる。表示見出しを利用する場合、文章をわざわざ利用者が読んでその文章が求めている内容に近いかどうかを判断する必要がなく、構造化文書のどの位置に欲しい情報が存在するかを迅速に把握可能となる。
なお、関連度が上位N個の見出しを選択するのではなく、関連度が所定値以上の見出しを見出し選択部31が選択するようにしてもよい。また、関連度が、上位N個であり、かつ所定値以上の見出しを見出し選択部31が選択するようにしてもよい。
また、表示見出しを表示部に表示させる際に、構造化文書中の表示順でソートしたり、上位のものから先に表示させたりといった構成は必須ではない。
また、見出しや本文を定義するタグの種類は本実施形態のものに限定されず、自由に定義することができる。
(第2の実施形態)
次に、本発明の構造化文書管理装置の第2の実施形態について図15に基づき説明する。第2の実施形態においては、部分文書の見出しと本文中の語彙との関連度を構造化文書の登録時に予め計算して登録しておくのではなく、利用者が検索した際にキーワードと一致した語彙を含む部分文書のみ関連度を計算する点で異なっている。
図15は、検索時に見出しを選択する処理の流れを示したフロー図である。図15に示されるように、見出し選択部31は、検索用キーワードと一致した語彙を含む構造化文書を取得する(ステップS401)。次いで、関連度計算部26は、取得した構造化文書のうち、検索用キーワードと一致した語彙を含む部分文書を1つ選択し、その対応する見出しと検索用キーワードとの関連度を計算する(ステップS402)。この際の計算の方法については、第1の実施形態にて示した見出しと、本文中の語彙との間で関連度を計算する方法と同様である。
見出し選択部31は、検索用キーワードと一致した語彙を含む全ての部分文書の見出しに対して関連度の計算が終了したか否かの判定を行い(ステップS403)、全て計算済みである場合(ステップS403:Yes)、検索用キーワードが一致する語彙を含む部分文書の見出しを関連度に基づき降順でソートする(ステップS404)。一方、検索用キーワードと一致した語彙を含む全ての部分文書に対する関連度が計算できていないと判定された場合(ステップS403:No)、ステップ402の処理を繰り返す。見出し選択部31は、関連度の上位N個の見出しを選択し、構造化文書中のその見出しの出現順でソートする(ステップS405)。そして、見出し選択部31は、全ての構造化文書(本実施形態では、文書ID 1、および文書ID 2の2つの文書)において、見出しの選択が終了したか否かを判定し(ステップS406)、終了した場合は(ステップS406:Yes)、ステップS305でソートして選択した見出しを表示見出しとして検索インタフェース部29へと送り(ステップS407)、処理を終了する。全ての構造化文書での見出しの選択が終了していない場合は(ステップS406:No)。ステップS401からの処理を繰り返す。
本実施形態においては、事前に見出しと本文中の語彙との関連度を計算しておく必要がないため、計算結果を記憶していく記憶容量が確保できないときであっても、本発明を利用することができるようになる。また、関連度を計算する対象も、検索用のキーワードと一致した語彙を含む部分文書中の、当該検索用キーワードと見出し間における関連度のみでよいため、計算にかかる時間も抑制することができる。
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
1 サーバ
2 ネットワーク
3 クライアント端末
11 構造化文書登録部
12 検索部
21 構造化文書DB
22 登録部
23 検索部
24 格納インタフェース部
25 見出し抽出部
26 関連度計算部
27 構造化文書データ
29 検索インタフェース部
30 照合部
31 見出し選択部
105 媒体駆動装置
106 通信制御装置
107 表示部
108 入力部
109 バスコントローラ
110 記憶媒体

Claims (10)

  1. 見出し、及び本文を含む複数の部分文書を備えた構造化文書を記憶する文書記憶部と、
    前記見出しを抽出し、見出しリストを作成する見出し抽出部と、
    前記部分文書中の語彙と、前記部分文書と対応する前記見出しとの概念の関連度をそれぞれ計算する関連度計算部と、
    検索用キーワードと一致する前記語彙を含む前記部分文書を検索する文書検索部と、
    前記検索用キーワードと一致した前記部分文書中の語彙に対する前記関連度が大きい前記見出しを前記関連度が小さい前記見出しより優先して選択する見出し選択部と、
    選択された前記見出しを、それぞれ表示見出しとして表示部に表示させる見出し表示制御部と、
    を備えることを特徴とする構造化文書管理装置。
  2. 前記見出し選択部は、前記関連度が上位N個(Nは1以上の整数)の前記見出しを選択する
    ことを特徴とする請求項1に記載の構造化文書管理装置。
  3. 前記見出し選択部は、前記関連度が所定値以上の前記見出しを選択する
    ことを特徴とする請求項1に記載の構造化文書管理装置。
  4. 前記部分文書が、文書内に別の前記部分文書を従属文書として有しており、
    前記関連度計算部は、前記従属文書中の前記語彙と、従属元の前記部分文書の前記見出しとの前記関連度を、前記従属文書中の前記語彙と、前記従属文書の前記見出しとの関連度よりも低く計算する
    ことを特徴とする請求項1に記載の構造化文書管理装置。
  5. 前記検索用キーワードと一致する前記語彙を含み、かつ前記見出し選択部により選択されなかった前記見出しを含む前記部分文書を、一致する前記語彙の前後の文章を含む態様で、前記表示部に表示させる本文表示制御部と、
    をさらに備えることを特徴とする請求項1に記載の構造化文書管理装置。
  6. 前記関連度計算部は、予め記録された概念辞書の語彙間の辞書関連度から、前記見出しと前記構造化文書中の語彙との前記関連度を計算する
    ことを特徴とする請求項1に記載の構造化文書管理装置。
  7. 前記見出し表示制御部は、表示した前記見出しが選択されると、選択された前記見出しと対応する前記本文を前記表示部に表示させる、
    ことを特徴とする請求項1に記載の構造化文書管理装置。
  8. 前記関連度計算部は、前記見出しが複数の語彙から構成される場合、計算した前記関連度が最も高い前記語彙の前記関連度を前記見出しの前記関連度として設定する
    ことを特徴とする請求項1に記載の構造化文書管理装置。
  9. 構造化文書管理装置にて実行される構造化文書検索方法であって、
    見出し、及び本文を含む複数の部分文書を備えた構造化文書を記憶する文書記憶ステップと、
    文書記憶ステップによる記憶時に、前記見出しを抽出して見出しリストを作成する見出し抽出ステップと、
    前記部分文書中の語彙と、前記部分文書と対応する前記見出しとの概念の関連度をそれぞれ計算する関連度計算ステップと、
    検索用キーワードと一致する前記語彙を含む前記部分文書を検索する文書検索ステップと、
    前記検索用キーワードと一致した前記部分文書中の語彙に対する前記関連度が大きい前記見出しを前記関連度が小さい前記見出しより優先して選択する見出し選択ステップと、
    選択された前記見出しを、それぞれ表示見出しとして表示部に表示させる見出し表示ステップと、
    を含むことを特徴とする構造化文書検索方法。
  10. 構造化文書管理装置にて実行される構造化文書検索方法であって、
    見出し、及び本文を含む複数の部分文書を備えた構造化文書を記憶する文書記憶ステップと、
    文書記憶ステップによる記憶時に、前記見出しを抽出して見出しリストを作成する見出し抽出ステップと、
    検索用キーワードと一致する前記語彙を含む前記部分文書を検索する文書検索ステップと、
    前記文書検索ステップにより前記検索用キーワードと一致した前記語彙と、当該語彙が含まれる前記構造化文書と対応する前記見出しとの概念の関連度を計算する関連度計算ステップと、
    前記検索用キーワードとの前記関連度が大きい前記見出しを前記関連度が小さい前記見出しより優先して選択する見出し選択ステップと、
    選択された前記見出しを、それぞれ表示見出しとして表示部に表示させる見出し表示ステップと、
    を含むことを特徴とする構造化文書検索方法。
JP2012057240A 2012-03-14 2012-03-14 構造化文書管理装置、構造化文書検索方法 Expired - Fee Related JP5417471B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012057240A JP5417471B2 (ja) 2012-03-14 2012-03-14 構造化文書管理装置、構造化文書検索方法
PCT/JP2012/068505 WO2013136545A1 (ja) 2012-03-14 2012-07-20 構造化文書管理装置、構造化文書検索方法
CN2012800029691A CN103415850A (zh) 2012-03-14 2012-07-20 结构化文档管理装置、结构化文档检索方法
US13/845,878 US20130268554A1 (en) 2012-03-14 2013-03-18 Structured document management apparatus and structured document search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012057240A JP5417471B2 (ja) 2012-03-14 2012-03-14 構造化文書管理装置、構造化文書検索方法

Publications (3)

Publication Number Publication Date
JP2013191046A true JP2013191046A (ja) 2013-09-26
JP2013191046A5 JP2013191046A5 (ja) 2013-11-21
JP5417471B2 JP5417471B2 (ja) 2014-02-12

Family

ID=49160504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012057240A Expired - Fee Related JP5417471B2 (ja) 2012-03-14 2012-03-14 構造化文書管理装置、構造化文書検索方法

Country Status (4)

Country Link
US (1) US20130268554A1 (ja)
JP (1) JP5417471B2 (ja)
CN (1) CN103415850A (ja)
WO (1) WO2013136545A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020184294A (ja) * 2019-04-26 2020-11-12 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157175B2 (en) * 2013-03-15 2018-12-18 International Business Machines Corporation Business intelligence data models with concept identification using language-specific clues
US10698924B2 (en) 2014-05-22 2020-06-30 International Business Machines Corporation Generating partitioned hierarchical groups based on data sets for business intelligence data models
US10002179B2 (en) 2015-01-30 2018-06-19 International Business Machines Corporation Detection and creation of appropriate row concept during automated model generation
US9984116B2 (en) 2015-08-28 2018-05-29 International Business Machines Corporation Automated management of natural language queries in enterprise business intelligence analytics
CN105912585A (zh) * 2016-04-01 2016-08-31 乐视控股(北京)有限公司 一种邮件搜索方法及装置
CN106407330A (zh) * 2016-09-04 2017-02-15 乐视控股(北京)有限公司 一种电子邮件的显示方法及装置
US10657158B2 (en) * 2016-11-23 2020-05-19 Google Llc Template-based structured document classification and extraction
CN107391535B (zh) * 2017-04-20 2021-01-12 创新先进技术有限公司 在文档应用中搜索文档的方法及装置
CN110175322A (zh) * 2019-05-22 2019-08-27 北京神州泰岳软件股份有限公司 一种文档的结构化方法及装置
CN110688842B (zh) * 2019-10-14 2023-06-09 鼎富智能科技有限公司 一种文档标题层级的分析方法、装置及服务器
US11663215B2 (en) 2020-08-12 2023-05-30 International Business Machines Corporation Selectively targeting content section for cognitive analytics and search
CN113408660B (zh) * 2021-07-15 2024-05-24 北京百度网讯科技有限公司 图书聚类方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003242175A (ja) * 2002-02-15 2003-08-29 Ricoh Co Ltd 文書検索システム、文書検索方法、その方法によったプログラムおよびそのプログラムを記憶した記憶媒体
JP2004126770A (ja) * 2002-09-30 2004-04-22 Toshiba Corp 構造化文書検索方法、構造化文書検索システム及び構造化文書データベース管理装置
JP2006195667A (ja) * 2005-01-12 2006-07-27 Toshiba Corp 構造化文書検索装置、構造化文書検索方法、及び構造化文書検索プログラム
JP2008146209A (ja) * 2006-12-07 2008-06-26 Just Syst Corp 文書検索装置、文書検索方法および文書検索プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385602B1 (en) * 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
US7587381B1 (en) * 2002-01-25 2009-09-08 Sphere Source, Inc. Method for extracting a compact representation of the topical content of an electronic text
US20060150076A1 (en) * 2004-12-30 2006-07-06 Microsoft Corporation Methods and apparatus for the evaluation of aspects of a web page
US7546294B2 (en) * 2005-03-31 2009-06-09 Microsoft Corporation Automated relevance tuning
US20070150473A1 (en) * 2005-12-22 2007-06-28 Microsoft Corporation Search By Document Type And Relevance
JP2007206822A (ja) * 2006-01-31 2007-08-16 Fuji Xerox Co Ltd 文書管理システム、文書廃棄管理システム、文書管理方法および文書廃棄管理方法
US7779370B2 (en) * 2006-06-30 2010-08-17 Google Inc. User interface for mobile devices
US9218414B2 (en) * 2007-02-06 2015-12-22 Dmitri Soubbotin System, method, and user interface for a search engine based on multi-document summarization
US20090055386A1 (en) * 2007-08-24 2009-02-26 Boss Gregory J System and Method for Enhanced In-Document Searching for Text Applications in a Data Processing System
US8538989B1 (en) * 2008-02-08 2013-09-17 Google Inc. Assigning weights to parts of a document
JP5355949B2 (ja) * 2008-07-16 2013-11-27 株式会社東芝 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム
GB2472250A (en) * 2009-07-31 2011-02-02 Stephen Timothy Morris Method for determining document relevance
US8209361B2 (en) * 2010-01-19 2012-06-26 Oracle International Corporation Techniques for efficient and scalable processing of complex sets of XML schemas
US8140512B2 (en) * 2010-04-12 2012-03-20 Ancestry.Com Operations Inc. Consolidated information retrieval results
US8504567B2 (en) * 2010-08-23 2013-08-06 Yahoo! Inc. Automatically constructing titles

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003242175A (ja) * 2002-02-15 2003-08-29 Ricoh Co Ltd 文書検索システム、文書検索方法、その方法によったプログラムおよびそのプログラムを記憶した記憶媒体
JP2004126770A (ja) * 2002-09-30 2004-04-22 Toshiba Corp 構造化文書検索方法、構造化文書検索システム及び構造化文書データベース管理装置
JP2006195667A (ja) * 2005-01-12 2006-07-27 Toshiba Corp 構造化文書検索装置、構造化文書検索方法、及び構造化文書検索プログラム
JP2008146209A (ja) * 2006-12-07 2008-06-26 Just Syst Corp 文書検索装置、文書検索方法および文書検索プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020184294A (ja) * 2019-04-26 2020-11-12 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム

Also Published As

Publication number Publication date
JP5417471B2 (ja) 2014-02-12
CN103415850A (zh) 2013-11-27
WO2013136545A1 (ja) 2013-09-19
US20130268554A1 (en) 2013-10-10

Similar Documents

Publication Publication Date Title
JP5417471B2 (ja) 構造化文書管理装置、構造化文書検索方法
US10073913B2 (en) System and method for displaying of most relevant vertical search results
US10810237B2 (en) Search query generation using query segments and semantic suggestions
US9910932B2 (en) System and method for completing a user query and for providing a query response
US8972413B2 (en) System and method for matching comment data to text data
US20160179816A1 (en) Near Real Time Auto-Suggest Search Results
EP3345118B1 (en) Identifying query patterns and associated aggregate statistics among search queries
US20080294619A1 (en) System and method for automatic generation of search suggestions based on recent operator behavior
US20120290561A1 (en) Information processing apparatus, information processing method, program, and information processing system
US20120109932A1 (en) Related links
US11347815B2 (en) Method and system for generating an offline search engine result page
US20150339387A1 (en) Method of and system for furnishing a user of a client device with a network resource
JP2009037501A (ja) 情報検索装置、情報検索方法およびプログラム
JP2017045196A (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
US20170228464A1 (en) Finding users in a social network based on document content
US10078686B2 (en) Combination filter for search query suggestions
US20170193119A1 (en) Add-On Module Search System
US9773035B1 (en) System and method for an annotation search index
US10496711B2 (en) Method of and system for processing a prefix associated with a search query
JP5104329B2 (ja) ドキュメント検索システム
WO2013015811A1 (en) Search query generation using query segments and semantic suggestions
JP2013003670A (ja) 検索サーバ及び方法
CN116049238A (zh) 节点信息查询方法、装置、设备、介质和程序产品
JP2010272082A (ja) 情報共有システム、情報共有方法、および情報共有プログラム
JP2006072881A (ja) 文書管理システム、及び、文書管理方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131008

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131118

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees