JP2004157830A

JP2004157830A - 情報検索プログラム

Info

Publication number: JP2004157830A
Application number: JP2002323793A
Authority: JP
Inventors: Mineki Takechi; 峰樹武智
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-11-07
Filing date: 2002-11-07
Publication date: 2004-06-03
Anticipated expiration: 2022-11-07
Also published as: JP3943005B2

Abstract

【課題】手順を示す内容の情報のみを検索する。
【解決手段】コンピュータ１の分類モデル生成手段２は、手順を示した学習用テキストＡ１及び手順を示していない学習用テキストＡ１を学習して、手順を示しているか否かによってテキストを分類するための分類モデルを生成する。分類手段３は、分類モデルに基づいて、入力される被検索テキストＡ２を手順を示しているか否かによって分類し、手順検索ＤＢ５ａ、非手順検索ＤＢ５ｂに記憶する。検索手段４は、手順検索ＤＢ５ａに記憶されている手順を示す被検索テキストＡ２から、利用者が希望する検索テキストを検索する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は情報検索プログラムに関し、特に手順を示したテキストを検索する情報検索プログラムに関する。
【０００２】
【従来の技術】
現在、電子文書の蓄積に加えて、インターネットの普及によってＷｅｂ上の大量のテキストへのアクセスが容易となり、コンピュータによる情報検索技術の重要性が増している。
【０００３】
現在行われている情報検索は、利用者が得たい情報に関連するキーワードをコンピュータに羅列入力する。コンピュータは、そのキーワードに関連する情報を検索して利用者に示す。例えば、Ｘという名称のソフトウェアのインストール手順を示した内容の情報を得たい場合、‘ソフトウェア’、‘Ｘ’、‘インストール’、‘手順’などのキーワードをコンピュータに入力する。コンピュータは、キーワードに関連する情報を検索して利用者に示す。
【０００４】
ところで、文章の構造を解析することは、従来から行われている。表、箇条書き、多段組等任意にレイアウトされた文書から、意味あるテキストブロックを抽出する文書処理方法がある（例えば、特許文献１参照）。
【０００５】
【特許文献１】
特開２００２−０３２７７０号公報（第６頁、第８図）
【０００６】
【発明が解決しようとする課題】
しかしながら、従来の情報検索は、利用者が手順を示した内容の情報のみを検索したい場合であっても、入力されたキーワードに関連する情報が全て検索されるので、利用者は手順を示した情報を検索された情報の中から選択しなければならないという問題点があった。
【０００７】
本発明はこのような点に鑑みてなされたものであり、手順を示す内容の情報のみを検索することができる情報検索プログラムを提供することを目的とする。
【０００８】
【課題を解決するための手段】
本発明では上記課題を解決するために、図１に示すコンピュータ１に手順を示したテキストを検索させる情報検索プログラムが提供される。まず、コンピュータ１の分類モデル生成手段２は、手順を示した学習用テキストＡ１及び手順を示していない学習用テキストＡ１を学習して、手順を示しているか否かによってテキストを分類するための分類モデルを生成する。分類手段３は、分類モデルに基づいて、入力される被検索テキストＡ２を手順を示しているか否かによって分類する。検索手段４は、手順を示す被検索テキストＡ２から、利用者が希望する検索テキストを検索する。
【０００９】
このような情報検索プログラムによれば、検索対象となる被検索テキストＡ２を手順を示しているか否かによって分類し、手順を示した被検索テキストＡ２の中から、利用者が希望する検索テキストを検索するようにしたので、手順を示す内容の情報のみを検索する。
【００１０】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
図１は、本発明の原理を説明する原理図である。図に示すコンピュータ１は、分類モデル生成手段２、分類手段３、検索手段４、手順検索ＤＢ５ａ、及び非手順検索ＤＢ５ｂを有している。また、図１には、コンピュータ１が学習をするための学習用テキストＡ１が示してある。また、情報検索の対象となる被検索テキストＡ２が示してある。学習用テキストＡ１は、手順を示した内容のテキストと、手順を示してないテキストが複数準備される。コンピュータ１は、学習用テキストＡ１を学習し、検索対象となる被検索テキストＡ２を、手順を示しているか否かによって分類する。そして、コンピュータ１は、分類した、手順を示している被検索テキストＡ２の中から、利用者が希望する検索テキストを検索する。
【００１１】
コンピュータ１の手順検索ＤＢ５ａは、手順を示している被検索テキストＡ２が記憶されるデータベースである。非手順検索ＤＢ５ｂは、手順を示していない被検索テキストＡ２が記憶されるデータベースである。
【００１２】
分類モデル生成手段２は、学習用テキストＡ１を学習して、テキストを手順を示しているか否かによって分類するための分類モデルを生成する。
分類手段３は、分類モデル生成手段２が生成した分類モデルに基づいて、入力される被検索テキストＡ２を、手順を示しているか否かによって分類する。分類手段３は、被検索テキストＡ２が、手順を示している場合、手順検索ＤＢ５ａに記憶する。被検索テキストＡ２が、手順を示していない場合、非手順検索ＤＢ５ｂに記憶する。
【００１３】
検索手段４は、手順検索ＤＢ５ａに記憶されている、手順を示している被検索テキストＡ２から、利用者が希望する検索テキストを検索する。
以下、原理図の動作について説明する。
【００１４】
まず、分類モデル生成手段２は、学習用テキストＡ１を学習して、テキストが手順を示しているか否かを判断するための分類モデルを生成する。
分類手段３は、分類モデルに基づいて、入力される被検索テキストＡ２を、手順を示しているか否かによって分類する。分類手段３は、被検索テキストＡ２が、手順を示している場合、手順検索ＤＢ５ａに記憶する。被検索テキストＡ２が、手順を示していない場合、非手順検索ＤＢ５ｂに記憶する。
【００１５】
検索手段４は、手順検索ＤＢ５ａに記憶されている、手順を示している被検索テキストから、利用者が希望する検索テキストを検索する。
このように、被検索テキストを、手順を示しているものと示していないものとに分類し、手順を示している被検索テキストから、利用者が希望する検索テキストを検索するようにした。これにより、手順を示す内容の情報のみを検索することができるようになる。
【００１６】
次に、本発明の情報検索プログラムを実行する情報検索サーバについて説明する。
図２は、本発明の実施の形態の構成例を示す図である。図に示すように、情報検索プログラムを実行する情報検索サーバ１０は、ネットワーク３０を介して、クライアント２１、サーバ２２と接続されている。クライアント２１は、情報検索を行う利用者が使用する。サーバ２２は、情報検索の対象となる被検索テキストを記憶している。
【００１７】
情報検索サーバ１０は、サーバ２２から、情報検索の対象となる被検索テキストをそのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）とともに入力する。情報検索サーバ１０は、入力した被検索テキストを、手順を示しているか否かによって分類し、記憶する。
【００１８】
情報検索サーバ１０は、利用者からの指定に応じて、分類した手順を示している被検索テキストの中から、利用者が希望する検索テキストを検索する。または、情報検索サーバ１０は、利用者からの指定に応じて、分類した手順を示している被検索テキストの中から、利用者が希望する検索テキストを検索する。
【００１９】
具体的には、情報検索サーバ１０は、クライアント２１から、手順検索（手順を示す内容を含むテキストを検索）するように指示され、利用者の検索したい情報のキーワードが送信されると、分類して記憶していた、手順を示す内容を含む被検索テキストの中から、キーワードに合致する検索テキストを検索する。そして、情報検索サーバ１０は、そのテキストが掲載されているＵＲＬ又は手順が示されたテキスト部分のみをクライアント２１に送信する。また、クライアント２１から、通常検索（手順を示していないテキストの検索）をするように指示され、利用者の検索したい情報のキーワードが送信されると、分類して記憶していた、手順を示していない被検索テキストの中から、キーワードに合致するテキストを検索する。そして、情報検索サーバ１０は、そのテキストが掲載されているＵＲＬをクライアント２１に送信する。
【００２０】
なお、クライアント２１及びサーバ２２は、説明を簡単にするため、１つしか示してないが、実際は、複数のクライアント及びサーバが接続されている。そして、情報検索サーバ１０は、複数のクライアントから情報検索が行われ、複数のサーバから被検索電子データが入力される。また、ネットワーク３０は、例えばインターネットである。
【００２１】
図３は、情報検索サーバのハードウェア構成を示すブロック図である。図に示す情報検索サーバ１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０ａによって装置全体が制御されている。ＣＰＵ１０ａには、バス１０ｇを介してＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０ｂ、ハードディスクドライブ（ＨＤＤ：ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０ｃ、グラフィック処理装置１０ｄ、入力インタフェース１０ｅ、及び通信インタフェース１０ｆが接続されている。
【００２２】
ＲＡＭ１０ｂには、ＣＰＵ１０ａに実行させるＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０ｂには、ＣＰＵ１０ａによる処理に必要な各種データが保存される。ＨＤＤ１０ｃには、ＯＳやアプリケーションプログラムなどが格納される。
【００２３】
グラフィック処理装置１０ｄには、モニタ１０ｈが接続されている。グラフィック処理装置１０ｄは、ＣＰＵ１０ａからの命令に従って、画像をモニタ１０ｈの表示画面に表示させる。入力インタフェース１０ｅには、キーボード１０ｉと、マウス１０ｊとが接続されている。入力インタフェース１０ｅは、キーボード１０ｉやマウス１０ｊから送られてくる信号を、バス１０ｇを介してＣＰＵ１０ａに送信する。
【００２４】
通信インタフェース１０ｆは、ネットワーク３０に接続されている。通信インタフェース１０ｆは、ネットワーク３０を介して、クライアント２１、サーバ２２と通信を行う。
【００２５】
以上のようなハードウェア構成によって、本発明の情報検索プログラムを実行することができる。
図４は、情報検索サーバの機能ブロック図である。図に示すように、情報検索サーバ１０は、ＳＶＭ部１１、学習ＤＢ１２、モデル記憶部１３、検索テキスト入力部１４、検索ＤＢ１５、及び検索部１６を有している。また、図には、情報検索サーバ１０が学習をするための学習用テキストＢ１が示してある。また、情報検索の対象となる被検索テキストＢ２が示してある。学習用テキストＢ１及び被検索テキストＢ２は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）で記述されている。
【００２６】
学習用テキストＢ１は、人によって収集され、箇条書き部分を示す＜ＯＬ＞又は＜ＵＬ＞タグで囲まれた文章のみが抽出される。そして、箇条書きされている文章を、人によって手順を示した内容であるか否かを区別し、識別子を付与して学習ＤＢ１２に記憶する。学習ＤＢ１２への記憶は、例えば、図３で示したキーボード１０ｉから入力して行う。なお、箇条書きの文章を抽出するのは、手順は箇条書きされていることが多いためであり、箇条書きされている部分について、手順を示しているか否かを情報検索サーバ１０に学習させるためである。
【００２７】
被検索テキストＢ２は、手順を示したものと手順を示していないものがある。手順は、被検索テキストＢ２の一部分にのみ表現されていてもよい。手順の具体例としては、ソフトウェアのインストール手順や料理の手順などがある。非手順（手順を示してない）の具体例としては、単なる記事の表示、情報の羅列がある。
【００２８】
ＳＶＭ部１１は、与えられたデータをサポートベクトルマシンによって学習し、新たに与えられるデータを学習した結果に基づいて分類する。本発明では、学習ＤＢ１２に記憶されている学習用テキストＢ１を用いて以下のように学習させている。
【００２９】
ＳＶＭ部１１は、学習用テキストＢ１の形態素解析を行い、文書タグと品詞タグを付与し、品詞の出現数などを抽出する。ＳＶＭ部１１は、箇条書きを１つの単位として、シーケンシャルパターンマイニング（Ｓｅｑｕｅｎｔｉａｌｐａｔｔｅｒｎｍｉｎｉｎｇ）手法の１つであるプレフィックススパン（ＰｒｅｆｉｘＳｐａｎ）によって、繰り返し現れる文字の出現パターンを抽出する。そして、ＳＶＭ部１１は、これらを箇条書き文章の特徴量としてベクトル化し、特徴ベクトルを生成する。
【００３０】
図５は、文書タグ、品詞タグを説明する図である。図に示すタグ表４１には、タグ名と、そのタグを付与する単位が示してある。ＳＶＭ部１１は、形態素解析を行って、箇条書きの構造及び品詞に応じて、図に示すタグを付与する。
【００３１】
図６は、形態素解析を行った学習用テキストを示す図で、（Ａ）はタグ付与後の学習用テキストＢ１の一例を示し、（Ｂ）はプレフィックススパンに与える文字列を示す。図６（Ａ）に示すように、学習用テキストＢ１の箇条書き文章を形態素解析し、図５に示した文書タグ、品詞タグを付与する。そして、箇条書きの各項目の１文目からｎ文（図６（Ｂ）では、ｎ＝１）を取り出し、プレフィックススパンに与える。そして、品詞の出現数、繰り返し表れる文字の出現パターンを抽出し、学習用テキストＢ１の箇条書き文章の特徴量としてベクトル化する。なお、特徴量としては、この他に、ｕｎｉ／ｂｉ／ｔｒｉ−ｇｒａｍの頻度、読点前の文字の字種別頻度、各文毎のひらがなの出現数（文頭からＮ形態素）、文末における各品詞の出現数（文末からＮ形態素）を特徴量としてもよい。また、１文あたりの文字数、１文あたりの漢字数、１文あたりの読点数を特徴量としてもよい。さらに、箇条書き文章の複数の文に繰り返し現れる形態素の出現パターンとその頻度、箇条書き文章の複数の項目に横断的に現れる形態素の出現パターンとその頻度、これらの頻度において、同一の箇条書き文章内での頻度とその特徴が表れる箇条書き文章の学習データ内での個数の逆数の積を特徴量としてもよい。
【００３２】
なお、上記に挙げた特徴量の全てを又は一部のみを選択して学習用テキストＢ１の箇条書き文章の特徴量としてもよい。
図７は、手順を示した箇条書き文章から特徴ベクトルを生成するまでの処理の流れを説明する図である。図の左側には、特徴ベクトルが生成されるまでのステップが示され、右側には、その各ステップにおける処理結果の一例が示してある。学習用テキストＢ１の特徴ベクトルは、以下のステップに従って処理される。ステップＳ１：ＨＴＭＬの＜ＯＬ＞タグ、＜ＬＩ＞タグに囲まれた箇条書き部分が、人によって抽出される。ステップＳ２：＜ＯＬ＞タグ、＜ＬＩ＞タグを除去し、箇条書きの文章のみにする。ステップＳ３：ステップＳ２の箇条書き文章の形態素解析を行う。ステップＳ４：箇条書き文章の特徴量を抽出する。なお、手順内容を示す分と、手順内容を示していない文は、文頭、文末、句読点前に使われる品詞や文字が大きく異なる。そのため、この例では文頭、文末（ステップＳ２の箇条書き文章の下線部）に出現した品詞の数、句読点前の文字種別、出現パターンを特徴量としている。ｎｐ：８のｎｐは、名詞（図５参照）を示している。そして、名詞の数は、８個であることを示している。また、Ｐ０，Ｐ１は、出現パターンの種類を示す。＊は、任意の文字列を示す。＜Ｐ＞は、項目（図５参照）を示す。ステップＳ５：ステップＳ４で得た特徴量をベクトル表現し、特徴ベクトルを生成する。品詞の出現数は、その出現数がそのままベクトル成分となる。Ｐ０，Ｐ１は、プレフィックススパンによって予め抽出された出現パターンと比較し、一致したか否かを示す２値がベクトル成分となる。例えば、パターンが一致していれば‘１’、一致していなければ‘０’がベクトル成分となる。
【００３３】
図８は、手順を示した箇条書き文章から特徴ベクトルを生成するまでの処理の流れを別の例で説明する図である。図の左側には、特徴ベクトルが生成されるまでのステップが示され、右側には、その各ステップにおける処理結果の一例が示してある。図７の説明と同様にして特徴ベクトルを生成する。ステップＳ１１：ＨＴＭＬの＜ＯＬ＞タグ、＜ＬＩ＞タグに囲まれた箇条書き部分を抽出し、さらに、＜ＯＬ＞タグ、＜ＬＩ＞タグを除去して箇条書き文章のみにする。ステップＳ１２：ステップＳ１１の箇条書き文章の形態素解析を行う。ステップＳ１３：箇条書き文章の特徴量を抽出する。ここでは、文頭、文末における品詞の出現数、文字の出現パターン、読点前の文字種別を特徴量として抽出している。ステップＳ１４：ステップＳ１３で抽出した特徴量を、所定のベクトル成分ｔｆ_１，ｔｆ_２，…，ｔｆ_ｉ，…ｔｆ_ｌ，ｐ_０，ｐ_１，…，ｐ_ｉ，…ｐ_ｍに対応して代入し、特徴ベクトルを生成する。
【００３４】
図９は、手順を示していない箇条書き文章から特徴ベクトルを生成するまでの処理の流れを説明する図である。手順を示していないＨＴＭＬの箇条書き文章から特徴ベクトルを生成する場合も、図７の説明と同様にして特徴ベクトルを生成する。図の左側には、特徴ベクトルが生成されるまでのステップが示され、右側には、その各ステップにおける処理結果の一例が示してある。ステップＳ２１：ＨＴＭＬの＜ＯＬ＞タグ、＜ＬＩ＞タグに囲まれた箇条書き部分が人によって抽出される。そして、＜ＯＬ＞タグ、＜ＬＩ＞タグを除いて箇条書きの文章のみにする。ステップＳ２２：ステップＳ１１の箇条書き文章の形態素解析を行う。ステップＳ２３：箇条書き文章の特徴量を抽出する。ここでは、文頭、文末における品詞の出現数、文字の出現パターン、読点前の文字種別を特徴量として抽出している。ステップＳ２４：ステップＳ１２で抽出した特徴量を、所定のベクトル成分ｔｆ_１，ｔｆ_２，…，ｔｆ_ｉ，…ｔｆ_ｌ，ｐ_０，Ｐ_１，…，ｐ_ｉ，…ｐ_ｍに対応して代入し、特徴ベクトルを生成する。
【００３５】
ＳＶＭ部１１は、特徴空間上に点在している特徴ベクトルを、学習用テキストＢ１の人によって付与された識別子を参照し、手順を示したものとそうでないものとに分ける識別平面を算出する。ＳＶＭ部１１は、これらの特徴ベクトル、識別平面を分離モデルとして、モデル記憶部１３に記憶する。
【００３６】
ここで、サポートベクトルマシンの識別平面の導出一例について説明する。
ｘを特徴空間上の点、ｙをその２値ラベルとする。
【００３７】
【数１】

【００３８】
式（１）で示される特徴空間を正例（ｙ_ｉ＝＋１）、負例（ｙ_ｉ＝−１）に分ける分離平面を以下の式（２）とすると、
【００３９】
【数２】

【００４０】
サポートベクトルマシンは、次の式（３）で示される、マージン領域を加えた３つの領域に特徴空間を分割する。
【００４１】
【数３】

【００４２】
そして、次の式（４）に示す最適化問題を解いて、識別平面を見つける。
【００４３】
【数４】

【００４４】
実際には、Ｌａｇｒａｎｇｅ乗数αを導入し、次の式（５）で示される双対問題を解く。
【００４５】
【数５】

【００４６】
そして最終的な識別関数（識別平面）は、以下の式（６）のようになる。
【００４７】
【数６】

【００４８】
識別平面によって、特徴空間を分けられない場合は、特徴空間を高次元へ写像する。この写像をφとすると式（６）は、以下の式（７）のように変形される。
【００４９】
【数７】

【００５０】
学習、識別関数は、素性ベクトルの内積のみに依存する、以下に示す式（８）の関数があれば内積計算だけで済む。
【００５１】
【数８】

【００５２】
実際、以下に示すように、式（９）を満たす関数が知られている。
【００５３】
【数９】

【００５４】
このようにして、識別平面が導出される。
また、ＳＶＭ部１１は、検索テキスト入力部１４が入力した検索対象となる被検索テキストＢ２の箇条書き部分を示す＜ＯＬ＞タグ、＜ＬＩ＞タグで囲まれた部分を抽出する。ＳＶＭ部１１は、＜ＯＬ＞タグ、＜ＬＩ＞タグを除き、箇条書きの文章のみにする。ＳＶＭ部１１は、学習用テキストＢ１と同様に、被検索テキストＢ２の形態素解析を行い、文書タグと品詞タグを付与し、品詞の出現数などを抽出する。また、箇条書きを１つの単位として、シーケンシャルパターンマイニング（Ｓｅｑｕｅｎｔｉａｌｐａｔｔｅｒｎｍｉｎｉｎｇ）手法の１つであるプレフィックススパン（ＰｒｅｆｉｘＳｐａｎ）によって、繰り返し現れる文字の出現パターンを抽出する。そして、ＳＶＭ部１１は、これらを箇条書き文章の特徴量としてベクトル化し、特徴ベクトルを生成する。なお、被検索テキストＢ２においても、学習用テキストＢ１で示した他の特徴量と同様の特徴量を用いてもよい。
【００５５】
ＳＶＭ部１１は、生成した被検索テキストＢ２の特徴ベクトルが、モデル記憶部１３に記憶されている識別平面の手順を示している側の特徴空間に存在しているか、手順を示していない側の特徴空間に存在しているかを判断する。ＳＶＭ部１１は、判断結果に基づいて、手順を示しているか否かを示す識別子を被検索テキストＢ２に付与して、検索ＤＢ１５に記憶する。
【００５６】
検索テキスト入力部１４は、ネットワーク３０を介して、図２で示したサーバ２２から検索対象となる被検索テキストＢ２を収集する。又は、検索テキスト入力部１４は、情報検索対象として情報を登録したい利用者（図２のクライアント２１）からネットワーク３０を介して送られてくる被検索テキストを入力する。
【００５７】
検索部１６は、クライアント２１を介して利用者から、手順検索又は通常検索の指示を受け、検索希望する情報のキーワードを入力する。検索部１６は、クライアント２１から手順検索をする旨の指示を受けた場合、検索ＤＢ１５に記憶されている、手順を示している旨の識別子が付与された被検索テキストＢ２を検索対象とする。そして、検索部１６は、その検索対象の中から、利用者が指定したキーワードに合致する検索テキストを検索する。
【００５８】
一方、検索部１６は、利用者から通常検索をする旨の指示を受けた場合、検索ＤＢ１５に記憶されている、手順を示していない旨の識別子が付与された被検索テキストＢ２を検索対象とする。そして、検索部１６は、その検索対象の中から、利用者が指定したキーワードに合致する検索テキストを検索する。
【００５９】
図１０は、クライアントの表示装置に表示される画面の一例を示す。図に示す画面５１は、クライアント２１の表示装置に表示される画面である。画面５１には、手順検索をするか否かを指定するチェックボックス５２が示してある。また、画面５１には、キーワード（図では、検索文字列）を入力するテキストボックス５３が示してある。また、画面５１には、検索を開始する検索ボタン５４が示してある。
【００６０】
利用者は、手順検索を行いたい場合、チェックボックス５２をチェックする。利用者は、検索したい情報に関連するキーワードをテキストボックス５３に入力する。そして、利用者が検索ボタン５４をクリックすると、手順検索を行う旨の指示情報とキーワードが情報検索サーバ１０の検索部１６に送信される。
【００６１】
検索部１６は、クライアント２１から送信された手順検索をする旨の指示情報に従って、キーワードに関連する被検索テキストＢ２を検索する。チェックボックス５２に手順検索を指定するチェックが入力されていれば、検索部１６は、検索ＤＢ１５に記憶されている、手順を示している旨の識別子が付与された被検索テキストＢ２の中から、テキストボックス５３に入力されているキーワードに合致する被検索テキストＢ２を検索する。
【００６２】
検索部１６は、検索した被検索テキストＢ２のＵＲＬをクライアント２１に送信する。又は、検索した被検索テキストＢ２の手順を示した部分のみをクライアント２１に送信する。
【００６３】
以下、図４の情報検索サーバ１０の動作について説明する。
まず、図２で示したキーボード１０ｉなどから、学習用テキストＢ１が人によって入力され、学習ＤＢ１２に記憶される。
【００６４】
ＳＶＭ部１１は、学習ＤＢ１２に記憶された学習用テキストＢ１の学習を行い、テキストを手順を示しているか否かによって分類するための分類モデルを生成する。ＳＶＭ部１１は、生成した分類モデルをモデル記憶部１３に記憶する。
【００６５】
検索テキスト入力部１４は、ネットワーク３０を介して、情報検索対象となる被検索テキストＢ２を収集する。又は、情報検索対象として登録したい利用者から送信される被検索テキストＢ２を入力する。
【００６６】
ＳＶＭ部１１は、検索テキスト入力部１４が入力した被検索テキストＢ２を、モデル記憶部１３に記憶されている分類モデルを参照して、手順を示す内容を含んでいるか否かによって分類する。ＳＶＭ部１１は、手順を示す内容を含んでいるか否かを区別する識別子を、分類した被検索テキストＢ２に付与して検索ＤＢ１５に記憶する。
【００６７】
利用者は、例えば図１０に示したように、クライアント２１の表示装置の画面５１から、検索方法をチェックボックス５２に指定し、検索したい情報に関連するキーワードをテキストボックス５３に入力する。
【００６８】
検索部１６は、利用者から検索方法の指示を受け、その指示に従った検索方法によって、情報検索する。検索部１６は、利用者から手順検索をする旨の指示を受けた場合、検索ＤＢ１５に記憶されている、手順を示している旨を示す識別子が付与された被検索テキストＢ２の中から、利用者が指定したキーワードに合致する被検索テキストＢ２を検索する。
【００６９】
検索部１６は、利用者から通常検索をする旨の指示を受けた場合、検索ＤＢ１５に記憶されている、手順を示していない旨を示す識別子が付与された被検索テキストＢ２の中から、利用者が指定したキーワードに合致する被検索テキストＢ２を検索する。
【００７０】
検索部１６は、検索した被検索テキストＢ２のＵＲＬを利用者のクライアント２１に出力する。又は、検索部１６は、検索した被検索テキストＢ２の手順を示している部分のみを抽出し、クライアント２１に送信する。
【００７１】
このように、学習用テキストＢ１から分類モデルを生成し、この分類モデルによって、検索対象となる被検索テキストＢ２を、手順を示すものとそうでないものとに分類し、利用者（クライアント２１）の希望する手順を示す被検索テキストＢ２を検索するようにたので、手順を示した情報のみを利用者に提供することができる。
【００７２】
また、手順が書かれていることの多い、箇条書き部分を学習用テキストＢ１から抽出し、箇条書き部分をＳＶＭ部１１に学習させるようにしたので、被検索テキストＢ２の手順を示す内容か否かの分類精度を高めることがきる。同様に、検索対象となる被検索テキストＢ２の箇条書き部分を抽出し、箇条書き部分の特徴ベクトルで被検索テキストＢ２を分類するようにしたので、被検索テキストＢ２の手順を示す内容か否かの分類精度を高めることがきる。
【００７３】
また、ＳＶＭ部１１のサポートベクトルマシンが処理するパラメータを、品詞の出現数、出現パターン等とし、被検索テキストＢ２を分類するようにしたので、被検索テキストＢ２の手順を示す内容か否かの分類精度を高めることがきる。
【００７４】
また、本発明では、箇条書き文章が手順を示しているか否かを判断することにより、特開２００２−０３２７７０で示される表、箇条書き、多段組等任意にレイアウトされた文書から、意味あるテキストブロックを抽出する文書処理方法とは異なる。
【００７５】
なお、手順を示しているテキストと手順を示していないテキストが別々に検索されるようになっているが、両方を同時に検索することもできる。この場合、検索部１６は、手順を示している旨を示す識別子と手順を示していない旨を示す識別子とが付与された両方の被検索テキストＢ２（検索ＤＢ１５に記憶されている被検索テキストＢ２の全て）を検索対象とし、利用者が指定するキーワードに合致するテキストを検索する。
【００７６】
また、上記の処理機能を実現するプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置（ＨＤＤ）フレキシブルディスク（ＦＤ）、磁気テープなどがある。光ディスクには、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＤＶＤ−ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）などがある。光磁気記録媒体には、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｃ）などがある。
【００７７】
プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
【００７８】
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
【００７９】
（付記１）手順を示したテキストを検索する情報検索プログラムにおいて、
コンピュータに、
手順を示した学習用テキスト及び手順を示していない学習用テキストを学習して、手順を示しているか否かによってテキストを分類するための分類モデルを生成し、
前記分類モデルに基づいて、入力される被検索テキストを手順を示しているか否かによって分類し、
手順を示す前記被検索テキストから、利用者が希望する検索テキストを検索する、
処理を実行させることを特徴とする情報検索プログラム。
【００８０】
（付記２）前記学習用テキストの手順は、箇条書きされていることを特徴とする付記１記載の情報検索プログラム。
（付記３）前記被検索テキストの箇条書き文章を抽出し、前記箇条書き文章が手順を示しているか否かによって分類することを特徴とする付記１記載の情報検索プログラム。
【００８１】
（付記４）前記箇条書き文章は、箇条書き文章であることを示すタグによって囲まれており、前記タグに囲まれた部分を抽出することを特徴とする付記３記載の情報検索プログラム。
【００８２】
（付記５）前記被検索テキストは、ネットワークを介して入力されることを特徴とする付記１記載の情報検索プログラム。
（付記６）前記利用者からキーワードを受け付け、前記キーワードを含む前記検索テキストを検索することを特徴とする付記１記載の情報検索プログラム。
【００８３】
（付記７）前記学習用テキストの形態素解析を行って、手順を示した文章及び手順を示していない文章の特徴を抽出することを特徴とする付記１記載の情報検索プログラム。
【００８４】
（付記８）前記被検索テキストの形態素解析を行って、手順を示した文章及び手順を示していない文章の特徴を抽出することを特徴とする付記１記載の情報検索プログラム。
【００８５】
（付記９）前記分類モデルの生成及び前記検索テキストの分類は、サポートベクトルマシンによって行われることを特徴とする付記１記載の情報検索プログラム。
【００８６】
（付記１０）前記学習用テキストには、手順を示しているか否かを識別する識別子が付与されており、前記サポートベクトルマシンは、前記識別子を参照して前記分類モデルを生成することを特徴とする付記９記載の情報検索プログラム。
【００８７】
（付記１１）手順を示したテキストをコンピュータを用いて検索する情報検索方法において、
手順を示した学習用テキスト及び手順を示していない学習用テキストを学習して、手順を示しているか否かによってテキストを分類するための分類モデルを生成し、
前記分類モデルに基づいて、入力される被検索テキストを手順を示しているか否かによって分類し、
手順を示す前記被検索テキストから、利用者が希望する検索テキストを検索する、
ことを特徴とする情報検索方法。
【００８８】
（付記１２）手順を示したテキストを検索する情報検索装置において、
手順を示した学習用テキスト及び手順を示していない学習用テキストを学習して、手順を示しているか否かによってテキストを分類するための分類モデルを生成する分類モデル生成手段と、
前記分類モデルに基づいて、入力される被検索テキストを手順を示しているか否かによって分類する分類手段と、
手順を示す前記被検索テキストから、利用者が希望する検索テキストを検索する検索手段と、
を有することを特徴とする情報検索装置。
【００８９】
【発明の効果】
以上説明したように本発明では、手順を示しているか否かによってテキストを分類するための分類モデルを生成し、分類モデルに基づいて、検索対象となる被検索テキストを、手順を示しているか否かによって分類する。そして、手順を示した被検索テキストの中から、利用者が希望する検索テキストを検索するようにしたので、手順を示す内容の情報のみを検索することができる。
【図面の簡単な説明】
【図１】本発明の原理を説明する原理図である。
【図２】本発明の実施の形態の構成例を示す図である。
【図３】情報検索サーバのハードウェア構成を示すブロック図である。
【図４】情報検索サーバの機能ブロック図である。
【図５】文書タグ、品詞タグを説明する図である。
【図６】形態素解析を行った学習用テキストを示す図で、（Ａ）はタグ付与後の学習用テキストＢ１の一例を示し、（Ｂ）はプレフィックススパンに与える文字列を示す。
【図７】手順を示した箇条書き文章から特徴ベクトルを生成するまでの処理の流れを説明する図である。
【図８】手順を示した箇条書き文章から特徴ベクトルを生成するまでの処理の流れを別の例で説明する図である。
【図９】手順を示していない箇条書き文章から特徴ベクトルを生成するまでの処理の流れを説明する図である。
【図１０】クライアントの表示装置に表示される画面の一例を示す。
【符号の説明】
１コンピュータ
２分類モデル生成手段
３分類手段
４検索手段
５ａ手順検索ＤＢ
５ｂ非手順検索ＤＢ
１０情報検索サーバ１０
１１ＳＶＭ部
１２学習ＤＢ
１３モデル記憶部
１４検索テキスト入力部
１５検索ＤＢ
１６検索部
２１クライアント
２２サーバ
３０ネットワーク
Ａ１，Ｂ１学習用テキスト
Ａ２，Ｂ２被検索テキスト

Claims

手順を示したテキストを検索する情報検索プログラムにおいて、
コンピュータに、
手順を示した学習用テキスト及び手順を示していない学習用テキストを学習して、手順を示しているか否かによってテキストを分類するための分類モデルを生成し、
前記分類モデルに基づいて、入力される被検索テキストを手順を示しているか否かによって分類し、
手順を示す前記被検索テキストから、利用者が希望する検索テキストを検索する、
処理を実行させることを特徴とする情報検索プログラム。
前記学習用テキストの手順は、箇条書きされていることを特徴とする請求項１記載の情報検索プログラム。
前記被検索テキストの箇条書き文章を抽出し、前記箇条書き文章が手順を示しているか否かによって分類することを特徴とする請求項１記載の情報検索プログラム。