JP3943005B2 - 情報検索プログラム - Google Patents
情報検索プログラム Download PDFInfo
- Publication number
- JP3943005B2 JP3943005B2 JP2002323793A JP2002323793A JP3943005B2 JP 3943005 B2 JP3943005 B2 JP 3943005B2 JP 2002323793 A JP2002323793 A JP 2002323793A JP 2002323793 A JP2002323793 A JP 2002323793A JP 3943005 B2 JP3943005 B2 JP 3943005B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- search
- procedure
- searched
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は情報検索プログラムに関し、特に手順を示したテキストを検索する情報検索プログラムに関する。
【0002】
【従来の技術】
現在、電子文書の蓄積に加えて、インターネットの普及によってWeb上の大量のテキストへのアクセスが容易となり、コンピュータによる情報検索技術の重要性が増している。
【0003】
現在行われている情報検索は、利用者が得たい情報に関連するキーワードをコンピュータに羅列入力する。コンピュータは、そのキーワードに関連する情報を検索して利用者に示す。例えば、Xという名称のソフトウェアのインストール手順を示した内容の情報を得たい場合、‘ソフトウェア’、‘X’、‘インストール’、‘手順’などのキーワードをコンピュータに入力する。コンピュータは、キーワードに関連する情報を検索して利用者に示す。
【0004】
ところで、文章の構造を解析することは、従来から行われている。表、箇条書き、多段組等任意にレイアウトされた文書から、意味あるテキストブロックを抽出する文書処理方法がある(例えば、特許文献1参照)。
【0005】
【特許文献1】
特開2002−032770号公報(第6頁、第8図)
【0006】
【発明が解決しようとする課題】
しかしながら、従来の情報検索は、利用者が手順を示した内容の情報のみを検索したい場合であっても、入力されたキーワードに関連する情報が全て検索されるので、利用者は手順を示した情報を検索された情報の中から選択しなければならないという問題点があった。
【0007】
本発明はこのような点に鑑みてなされたものであり、手順を示す内容の情報のみを検索することができる情報検索プログラムを提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明では上記課題を解決するために、手順を示したテキストを検索する情報検索プログラムにおいて、コンピュータに、手順を示した学習用テキスト及び手順を示していない学習用テキストを学習して、手順を示しているか否かによってテキストを分類するための分類モデルを生成し、前記分類モデルに基づいて、入力される被検索テキストを手順を示しているか否かによって分類し、手順を示す前記被検索テキストから、利用者が希望する検索テキストを検索し、前記分類モデルの生成および前記被検索テキストの分類は、サポートベクトルマシン手段によって行い、少なくとも前記学習用テキストおよび前記被検索テキストの文頭、文末に出現する品詞の数、句読点前の文字種別、および出現文字の出現パターンを特徴量として前記分類モデルの生成および前記被検索テキストの分類を行う、処理を実行させることを特徴とする情報検索プログラムが提供される。
【0009】
このような情報検索プログラムによれば、手順を示しているか否かによってテキストを分類するための分類モデルを生成し、分類モデルに基づいて、検索対象となる被検索テキストを、手順を示しているか否かによって分類する。分類モデルの生成および被検索テキストの分類は、サポートベクトルマシン手段によって行い、少なくとも学習用テキストおよび被検索テキストの文頭、文末に出現する品詞の数、句読点前の文字種別、および出現文字の出現パターンを特徴量として分類モデルの生成および被検索テキストの分類を行う。そして、手順を示した被検索テキストの中から、利用者が希望する検索テキストを検索する。
【0010】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
図1は、本発明の原理を説明する原理図である。図に示すコンピュータ1は、
分類モデル生成手段2、分類手段3、検索手段4、手順検索DB5a、及び非手順検索DB5bを有している。また、図1には、コンピュータ1が学習をするための学習用テキストA1が示してある。また、情報検索の対象となる被検索テキストA2が示してある。学習用テキストA1は、手順を示した内容のテキストと、手順を示してないテキストが複数準備される。コンピュータ1は、学習用テキストA1を学習し、検索対象となる被検索テキストA2を、手順を示しているか否かによって分類する。そして、コンピュータ1は、分類した、手順を示している被検索テキストA2の中から、利用者が希望する検索テキストを検索する。
【0011】
コンピュータ1の手順検索DB5aは、手順を示している被検索テキストA2が記憶されるデータベースである。非手順検索DB5bは、手順を示していない被検索テキストA2が記憶されるデータベースである。
【0012】
分類モデル生成手段2は、学習用テキストA1を学習して、テキストを手順を示しているか否かによって分類するための分類モデルを生成する。
分類手段3は、分類モデル生成手段2が生成した分類モデルに基づいて、入力される被検索テキストA2を、手順を示しているか否かによって分類する。分類手段3は、被検索テキストA2が、手順を示している場合、手順検索DB5aに記憶する。被検索テキストA2が、手順を示していない場合、非手順検索DB5bに記憶する。
【0013】
検索手段4は、手順検索DB5aに記憶されている、手順を示している被検索テキストA2から、利用者が希望する検索テキストを検索する。
以下、原理図の動作について説明する。
【0014】
まず、分類モデル生成手段2は、学習用テキストA1を学習して、テキストが手順を示しているか否かを判断するための分類モデルを生成する。
分類手段3は、分類モデルに基づいて、入力される被検索テキストA2を、手順を示しているか否かによって分類する。分類手段3は、被検索テキストA2が、手順を示している場合、手順検索DB5aに記憶する。被検索テキストA2が、手順を示していない場合、非手順検索DB5bに記憶する。
【0015】
検索手段4は、手順検索DB5aに記憶されている、手順を示している被検索テキストから、利用者が希望する検索テキストを検索する。
このように、被検索テキストを、手順を示しているものと示していないものとに分類し、手順を示している被検索テキストから、利用者が希望する検索テキストを検索するようにした。これにより、手順を示す内容の情報のみを検索することができるようになる。
【0016】
次に、本発明の情報検索プログラムを実行する情報検索サーバについて説明する。
図2は、本発明の実施の形態の構成例を示す図である。図に示すように、情報検索プログラムを実行する情報検索サーバ10は、ネットワーク30を介して、クライアント21、サーバ22と接続されている。クライアント21は、情報検索を行う利用者が使用する。サーバ22は、情報検索の対象となる被検索テキストを記憶している。
【0017】
情報検索サーバ10は、サーバ22から、情報検索の対象となる被検索テキストをそのURL(Uniform Resource Locator)とともに入力する。情報検索サーバ10は、入力した被検索テキストを、手順を示しているか否かによって分類し、記憶する。
【0018】
情報検索サーバ10は、利用者からの指定に応じて、分類した手順を示している被検索テキストの中から、利用者が希望する検索テキストを検索する。または、情報検索サーバ10は、利用者からの指定に応じて、分類した手順を示している被検索テキストの中から、利用者が希望する検索テキストを検索する。
【0019】
具体的には、情報検索サーバ10は、クライアント21から、手順検索(手順を示す内容を含むテキストを検索)するように指示され、利用者の検索したい情報のキーワードが送信されると、分類して記憶していた、手順を示す内容を含む被検索テキストの中から、キーワードに合致する検索テキストを検索する。そして、情報検索サーバ10は、そのテキストが掲載されているURL又は手順が示されたテキスト部分のみをクライアント21に送信する。また、クライアント21から、通常検索(手順を示していないテキストの検索)をするように指示され、利用者の検索したい情報のキーワードが送信されると、分類して記憶していた、手順を示していない被検索テキストの中から、キーワードに合致するテキストを検索する。そして、情報検索サーバ10は、そのテキストが掲載されているURLをクライアント21に送信する。
【0020】
なお、クライアント21及びサーバ22は、説明を簡単にするため、1つしか示してないが、実際は、複数のクライアント及びサーバが接続されている。そして、情報検索サーバ10は、複数のクライアントから情報検索が行われ、複数のサーバから被検索電子データが入力される。また、ネットワーク30は、例えばインターネットである。
【0021】
図3は、情報検索サーバのハードウェア構成を示すブロック図である。図に示す情報検索サーバ10は、CPU(Central Processing Unit)10aによって装置全体が制御されている。CPU10aには、バス10gを介してRAM(Random Access Memory)10b、ハードディスクドライブ(HDD:Hard Disk Drive)10c、グラフィック処理装置10d、入力インタフェース10e、及び通信インタフェース10fが接続されている。
【0022】
RAM10bには、CPU10aに実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。
また、RAM10bには、CPU10aによる処理に必要な各種データが保存される。HDD10cには、OSやアプリケーションプログラムなどが格納される。
【0023】
グラフィック処理装置10dには、モニタ10hが接続されている。グラフィック処理装置10dは、CPU10aからの命令に従って、画像をモニタ10hの表示画面に表示させる。入力インタフェース10eには、キーボード10iと、マウス10jとが接続されている。入力インタフェース10eは、キーボード10iやマウス10jから送られてくる信号を、バス10gを介してCPU10aに送信する。
【0024】
通信インタフェース10fは、ネットワーク30に接続されている。通信インタフェース10fは、ネットワーク30を介して、クライアント21、サーバ22と通信を行う。
【0025】
以上のようなハードウェア構成によって、本発明の情報検索プログラムを実行することができる。
図4は、情報検索サーバの機能ブロック図である。図に示すように、情報検索サーバ10は、SVM部11、学習DB12、モデル記憶部13、検索テキスト入力部14、検索DB15、及び検索部16を有している。また、図には、情報検索サーバ10が学習をするための学習用テキストB1が示してある。また、情報検索の対象となる被検索テキストB2が示してある。学習用テキストB1及び被検索テキストB2は、HTML(Hyper Text Markup Language)で記述されている。
【0026】
学習用テキストB1は、人によって収集され、箇条書き部分を示す<OL>又は<UL>タグで囲まれた文章のみが抽出される。そして、箇条書きされている文章を、人によって手順を示した内容であるか否かを区別し、識別子を付与して学習DB12に記憶する。学習DB12への記憶は、例えば、図3で示したキーボード10iから入力して行う。なお、箇条書きの文章を抽出するのは、手順は箇条書きされていることが多いためであり、箇条書きされている部分について、手順を示しているか否かを情報検索サーバ10に学習させるためである。
【0027】
被検索テキストB2は、手順を示したものと手順を示していないものがある。
手順は、被検索テキストB2の一部分にのみ表現されていてもよい。手順の具体例としては、ソフトウェアのインストール手順や料理の手順などがある。非手順(手順を示してない)の具体例としては、単なる記事の表示、情報の羅列がある。
【0028】
SVM部11は、与えられたデータをサポートベクトルマシンによって学習し、新たに与えられるデータを学習した結果に基づいて分類する。本発明では、学習DB12に記憶されている学習用テキストB1を用いて以下のように学習させている。
【0029】
SVM部11は、学習用テキストB1の形態素解析を行い、文書タグと品詞タグを付与し、品詞の出現数などを抽出する。SVM部11は、箇条書きを1つの単位として、シーケンシャルパターンマイニング(Sequential pattern mining)手法の1つであるプレフィックススパン(Prefix Span)によって、繰り返し現れる文字の出現パターンを抽出する。そして、SVM部11は、これらを箇条書き文章の特徴量としてベクトル化し、特徴ベクトルを生成する。
【0030】
図5は、文書タグ、品詞タグを説明する図である。図に示すタグ表41には、タグ名と、そのタグを付与する単位が示してある。SVM部11は、形態素解析を行って、箇条書きの構造及び品詞に応じて、図に示すタグを付与する。
【0031】
図6は、形態素解析を行った学習用テキストを示す図で、(A)はタグ付与後の学習用テキストB1の一例を示し、(B)はプレフィックススパンに与える文字列を示す。図6(A)に示すように、学習用テキストB1の箇条書き文章を形態素解析し、図5に示した文書タグ、品詞タグを付与する。そして、箇条書きの各項目の1文目からn文(図6(B)では、n=1)を取り出し、プレフィックススパンに与える。そして、品詞の出現数、繰り返し表れる文字の出現パターンを抽出し、学習用テキストB1の箇条書き文章の特徴量としてベクトル化する。
なお、特徴量としては、この他に、uni/bi/tri−gramの頻度、読点前の文字の字種別頻度、各文毎のひらがなの出現数(文頭からN形態素)、文末における各品詞の出現数(文末からN形態素)を特徴量としてもよい。また、1文あたりの文字数、1文あたりの漢字数、1文あたりの読点数を特徴量としてもよい。さらに、箇条書き文章の複数の文に繰り返し現れる形態素の出現パターンとその頻度、箇条書き文章の複数の項目に横断的に現れる形態素の出現パターンとその頻度、これらの頻度において、同一の箇条書き文章内での頻度とその特徴が表れる箇条書き文章の学習データ内での個数の逆数の積を特徴量としてもよい。
【0032】
なお、上記に挙げた特徴量の全てを又は一部のみを選択して学習用テキストB1の箇条書き文章の特徴量としてもよい。
図7は、手順を示した箇条書き文章から特徴ベクトルを生成するまでの処理の流れを説明する図である。図の左側には、特徴ベクトルが生成されるまでのステップが示され、右側には、その各ステップにおける処理結果の一例が示してある。学習用テキストB1の特徴ベクトルは、以下のステップに従って処理される。
ステップS1:HTMLの<OL>タグ、<LI>タグに囲まれた箇条書き部分が、人によって抽出される。ステップS2:<OL>タグ、<LI>タグを除去し、箇条書きの文章のみにする。ステップS3:ステップS2の箇条書き文章の形態素解析を行う。ステップS4:箇条書き文章の特徴量を抽出する。なお、手順内容を示す分と、手順内容を示していない文は、文頭、文末、句読点前に使われる品詞や文字が大きく異なる。そのため、この例では文頭、文末(ステップS2の箇条書き文章の下線部)に出現した品詞の数、句読点前の文字種別、出現パターンを特徴量としている。np:8のnpは、名詞(図5参照)を示している。そして、名詞の数は、8個であることを示している。また、P0,P1は、出現パターンの種類を示す。*は、任意の文字列を示す。<P>は、項目(図5参照)を示す。ステップS5:ステップS4で得た特徴量をベクトル表現し、特徴ベクトルを生成する。品詞の出現数は、その出現数がそのままベクトル成分となる。P0,P1は、プレフィックススパンによって予め抽出された出現パターンと比較し、一致したか否かを示す2値がベクトル成分となる。例えば、パターンが一致していれば‘1’、一致していなければ‘0’がベクトル成分となる。
【0033】
図8は、手順を示した箇条書き文章から特徴ベクトルを生成するまでの処理の流れを別の例で説明する図である。図の左側には、特徴ベクトルが生成されるまでのステップが示され、右側には、その各ステップにおける処理結果の一例が示してある。図7の説明と同様にして特徴ベクトルを生成する。ステップS11:HTMLの<OL>タグ、<LI>タグに囲まれた箇条書き部分を抽出し、さらに、<OL>タグ、<LI>タグを除去して箇条書き文章のみにする。ステップS12:ステップS11の箇条書き文章の形態素解析を行う。ステップS13:箇条書き文章の特徴量を抽出する。ここでは、文頭、文末における品詞の出現数、文字の出現パターン、読点前の文字種別を特徴量として抽出している。ステップS14:ステップS13で抽出した特徴量を、所定のベクトル成分tf1,tf2,…,tfi,…tfl,p0,p1,…,pi,…pmに対応して代入し、特徴ベクトルを生成する。
【0034】
図9は、手順を示していない箇条書き文章から特徴ベクトルを生成するまでの処理の流れを説明する図である。手順を示していないHTMLの箇条書き文章から特徴ベクトルを生成する場合も、図7の説明と同様にして特徴ベクトルを生成する。図の左側には、特徴ベクトルが生成されるまでのステップが示され、右側には、その各ステップにおける処理結果の一例が示してある。ステップS21:HTMLの<OL>タグ、<LI>タグに囲まれた箇条書き部分が人によって抽出される。そして、<OL>タグ、<LI>タグを除いて箇条書きの文章のみにする。ステップS22:ステップS11の箇条書き文章の形態素解析を行う。ステップS23:箇条書き文章の特徴量を抽出する。ここでは、文頭、文末における品詞の出現数、文字の出現パターン、読点前の文字種別を特徴量として抽出している。ステップS24:ステップS12で抽出した特徴量を、所定のベクトル成分tf1,tf2,…,tfi,…tfl,p0,P1,…,pi,…pmに対応して代入し、特徴ベクトルを生成する。
【0035】
SVM部11は、特徴空間上に点在している特徴ベクトルを、学習用テキストB1の人によって付与された識別子を参照し、手順を示したものとそうでないものとに分ける識別平面を算出する。SVM部11は、これらの特徴ベクトル、識別平面を分離モデルとして、モデル記憶部13に記憶する。
【0036】
ここで、サポートベクトルマシンの識別平面の導出一例について説明する。
xを特徴空間上の点、yをその2値ラベルとする。
【0037】
【数1】
【0038】
式(1)で示される特徴空間を正例(yi=+1)、負例(yi=−1)に分ける分離平面を以下の式(2)とすると、
【0039】
【数2】
【0040】
サポートベクトルマシンは、次の式(3)で示される、マージン領域を加えた3つの領域に特徴空間を分割する。
【0041】
【数3】
【0042】
そして、次の式(4)に示す最適化問題を解いて、識別平面を見つける。
【0043】
【数4】
【0044】
実際には、Lagrange乗数αを導入し、次の式(5)で示される双対問題を解く。
【0045】
【数5】
【0046】
そして最終的な識別関数(識別平面)は、以下の式(6)のようになる。
【0047】
【数6】
【0048】
識別平面によって、特徴空間を分けられない場合は、特徴空間を高次元へ写像する。この写像をφとすると式(6)は、以下の式(7)のように変形される。
【0049】
【数7】
【0050】
学習、識別関数は、素性ベクトルの内積のみに依存する、以下に示す式(8)の関数があれば内積計算だけで済む。
【0051】
【数8】
【0052】
実際、以下に示すように、式(9)を満たす関数が知られている。
【0053】
【数9】
【0054】
このようにして、識別平面が導出される。
また、SVM部11は、検索テキスト入力部14が入力した検索対象となる被検索テキストB2の箇条書き部分を示す<OL>タグ、<LI>タグで囲まれた部分を抽出する。SVM部11は、<OL>タグ、<LI>タグを除き、箇条書きの文章のみにする。SVM部11は、学習用テキストB1と同様に、被検索テキストB2の形態素解析を行い、文書タグと品詞タグを付与し、品詞の出現数などを抽出する。また、箇条書きを1つの単位として、シーケンシャルパターンマイニング(Sequential pattern mining)手法の1つであるプレフィックススパン(Prefix Span)によって、繰り返し現れる文字の出現パターンを抽出する。
そして、SVM部11は、これらを箇条書き文章の特徴量としてベクトル化し、特徴ベクトルを生成する。なお、被検索テキストB2においても、学習用テキストB1で示した他の特徴量と同様の特徴量を用いてもよい。
【0055】
SVM部11は、生成した被検索テキストB2の特徴ベクトルが、モデル記憶部13に記憶されている識別平面の手順を示している側の特徴空間に存在しているか、手順を示していない側の特徴空間に存在しているかを判断する。SVM部11は、判断結果に基づいて、手順を示しているか否かを示す識別子を被検索テキストB2に付与して、検索DB15に記憶する。
【0056】
検索テキスト入力部14は、ネットワーク30を介して、図2で示したサーバ22から検索対象となる被検索テキストB2を収集する。又は、検索テキスト入力部14は、情報検索対象として情報を登録したい利用者(図2のクライアント21)からネットワーク30を介して送られてくる被検索テキストを入力する。
【0057】
検索部16は、クライアント21を介して利用者から、手順検索又は通常検索の指示を受け、検索希望する情報のキーワードを入力する。検索部16は、クライアント21から手順検索をする旨の指示を受けた場合、検索DB15に記憶されている、手順を示している旨の識別子が付与された被検索テキストB2を検索対象とする。そして、検索部16は、その検索対象の中から、利用者が指定したキーワードに合致する検索テキストを検索する。
【0058】
一方、検索部16は、利用者から通常検索をする旨の指示を受けた場合、検索DB15に記憶されている、手順を示していない旨の識別子が付与された被検索テキストB2を検索対象とする。そして、検索部16は、その検索対象の中から、利用者が指定したキーワードに合致する検索テキストを検索する。
【0059】
図10は、クライアントの表示装置に表示される画面の一例を示す。図に示す画面51は、クライアント21の表示装置に表示される画面である。画面51には、手順検索をするか否かを指定するチェックボックス52が示してある。また、画面51には、キーワード(図では、検索文字列)を入力するテキストボックス53が示してある。また、画面51には、検索を開始する検索ボタン54が示してある。
【0060】
利用者は、手順検索を行いたい場合、チェックボックス52をチェックする。
利用者は、検索したい情報に関連するキーワードをテキストボックス53に入力する。そして、利用者が検索ボタン54をクリックすると、手順検索を行う旨の指示情報とキーワードが情報検索サーバ10の検索部16に送信される。
【0061】
検索部16は、クライアント21から送信された手順検索をする旨の指示情報に従って、キーワードに関連する被検索テキストB2を検索する。チェックボックス52に手順検索を指定するチェックが入力されていれば、検索部16は、検索DB15に記憶されている、手順を示している旨の識別子が付与された被検索テキストB2の中から、テキストボックス53に入力されているキーワードに合致する被検索テキストB2を検索する。
【0062】
検索部16は、検索した被検索テキストB2のURLをクライアント21に送信する。又は、検索した被検索テキストB2の手順を示した部分のみをクライアント21に送信する。
【0063】
以下、図4の情報検索サーバ10の動作について説明する。
まず、図2で示したキーボード10iなどから、学習用テキストB1が人によって入力され、学習DB12に記憶される。
【0064】
SVM部11は、学習DB12に記憶された学習用テキストB1の学習を行い、テキストを手順を示しているか否かによって分類するための分類モデルを生成する。SVM部11は、生成した分類モデルをモデル記憶部13に記憶する。
【0065】
検索テキスト入力部14は、ネットワーク30を介して、情報検索対象となる被検索テキストB2を収集する。又は、情報検索対象として登録したい利用者から送信される被検索テキストB2を入力する。
【0066】
SVM部11は、検索テキスト入力部14が入力した被検索テキストB2を、モデル記憶部13に記憶されている分類モデルを参照して、手順を示す内容を含んでいるか否かによって分類する。SVM部11は、手順を示す内容を含んでいるか否かを区別する識別子を、分類した被検索テキストB2に付与して検索DB15に記憶する。
【0067】
利用者は、例えば図10に示したように、クライアント21の表示装置の画面51から、検索方法をチェックボックス52に指定し、検索したい情報に関連するキーワードをテキストボックス53に入力する。
【0068】
検索部16は、利用者から検索方法の指示を受け、その指示に従った検索方法によって、情報検索する。検索部16は、利用者から手順検索をする旨の指示を受けた場合、検索DB15に記憶されている、手順を示している旨を示す識別子が付与された被検索テキストB2の中から、利用者が指定したキーワードに合致する被検索テキストB2を検索する。
【0069】
検索部16は、利用者から通常検索をする旨の指示を受けた場合、検索DB15に記憶されている、手順を示していない旨を示す識別子が付与された被検索テキストB2の中から、利用者が指定したキーワードに合致する被検索テキストB2を検索する。
【0070】
検索部16は、検索した被検索テキストB2のURLを利用者のクライアント21に出力する。又は、検索部16は、検索した被検索テキストB2の手順を示している部分のみを抽出し、クライアント21に送信する。
【0071】
このように、学習用テキストB1から分類モデルを生成し、この分類モデルによって、検索対象となる被検索テキストB2を、手順を示すものとそうでないものとに分類し、利用者(クライアント21)の希望する手順を示す被検索テキストB2を検索するようにたので、手順を示した情報のみを利用者に提供することができる。
【0072】
また、手順が書かれていることの多い、箇条書き部分を学習用テキストB1から抽出し、箇条書き部分をSVM部11に学習させるようにしたので、被検索テキストB2の手順を示す内容か否かの分類精度を高めることがきる。同様に、検索対象となる被検索テキストB2の箇条書き部分を抽出し、箇条書き部分の特徴ベクトルで被検索テキストB2を分類するようにしたので、被検索テキストB2の手順を示す内容か否かの分類精度を高めることがきる。
【0073】
また、SVM部11のサポートベクトルマシンが処理するパラメータを、品詞の出現数、出現パターン等とし、被検索テキストB2を分類するようにしたので、被検索テキストB2の手順を示す内容か否かの分類精度を高めることがきる。
【0074】
また、本発明では、箇条書き文章が手順を示しているか否かを判断することにより、特開2002−032770で示される表、箇条書き、多段組等任意にレイアウトされた文書から、意味あるテキストブロックを抽出する文書処理方法とは異なる。
【0075】
なお、手順を示しているテキストと手順を示していないテキストが別々に検索されるようになっているが、両方を同時に検索することもできる。この場合、検索部16は、手順を示している旨を示す識別子と手順を示していない旨を示す識別子とが付与された両方の被検索テキストB2(検索DB15に記憶されている被検索テキストB2の全て)を検索対象とし、利用者が指定するキーワードに合致するテキストを検索する。
【0076】
また、上記の処理機能を実現するプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disc)などがある。
【0077】
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
【0078】
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
【0079】
(付記1) 手順を示したテキストを検索する情報検索プログラムにおいて、
コンピュータに、
手順を示した学習用テキスト及び手順を示していない学習用テキストを学習して、手順を示しているか否かによってテキストを分類するための分類モデルを生成し、
前記分類モデルに基づいて、入力される被検索テキストを手順を示しているか否かによって分類し、
手順を示す前記被検索テキストから、利用者が希望する検索テキストを検索する、
処理を実行させることを特徴とする情報検索プログラム。
【0080】
(付記2) 前記学習用テキストの手順は、箇条書きされていることを特徴とする付記1記載の情報検索プログラム。
(付記3) 前記被検索テキストの箇条書き文章を抽出し、前記箇条書き文章が手順を示しているか否かによって分類することを特徴とする付記1記載の情報検索プログラム。
【0081】
(付記4) 前記箇条書き文章は、箇条書き文章であることを示すタグによって囲まれており、前記タグに囲まれた部分を抽出することを特徴とする付記3記載の情報検索プログラム。
【0082】
(付記5) 前記被検索テキストは、ネットワークを介して入力されることを特徴とする付記1記載の情報検索プログラム。
(付記6) 前記利用者からキーワードを受け付け、前記キーワードを含む前記検索テキストを検索することを特徴とする付記1記載の情報検索プログラム。
【0083】
(付記7) 前記学習用テキストの形態素解析を行って、手順を示した文章及び手順を示していない文章の特徴を抽出することを特徴とする付記1記載の情報検索プログラム。
【0084】
(付記8) 前記被検索テキストの形態素解析を行って、手順を示した文章及び手順を示していない文章の特徴を抽出することを特徴とする付記1記載の情報検索プログラム。
【0085】
(付記9) 前記分類モデルの生成及び前記検索テキストの分類は、サポートベクトルマシンによって行われることを特徴とする付記1記載の情報検索プログラム。
【0086】
(付記10) 前記学習用テキストには、手順を示しているか否かを識別する識別子が付与されており、前記サポートベクトルマシンは、前記識別子を参照して前記分類モデルを生成することを特徴とする付記9記載の情報検索プログラム。
【0087】
(付記11) 手順を示したテキストをコンピュータを用いて検索する情報検索方法において、
手順を示した学習用テキスト及び手順を示していない学習用テキストを学習して、手順を示しているか否かによってテキストを分類するための分類モデルを生成し、
前記分類モデルに基づいて、入力される被検索テキストを手順を示しているか否かによって分類し、
手順を示す前記被検索テキストから、利用者が希望する検索テキストを検索する、
ことを特徴とする情報検索方法。
【0088】
(付記12) 手順を示したテキストを検索する情報検索装置において、
手順を示した学習用テキスト及び手順を示していない学習用テキストを学習して、手順を示しているか否かによってテキストを分類するための分類モデルを生成する分類モデル生成手段と、
前記分類モデルに基づいて、入力される被検索テキストを手順を示しているか否かによって分類する分類手段と、
手順を示す前記被検索テキストから、利用者が希望する検索テキストを検索する検索手段と、
を有することを特徴とする情報検索装置。
【0089】
【発明の効果】
以上説明したように本発明では、手順を示しているか否かによってテキストを分類するための分類モデルを生成し、分類モデルに基づいて、検索対象となる被検索テキストを、手順を示しているか否かによって分類する。分類モデルの生成および被検索テキストの分類は、サポートベクトルマシン手段によって行い、少なくとも学習用テキストおよび被検索テキストの文頭、文末に出現する品詞の数、句読点前の文字種別、および出現文字の出現パターンを特徴量として分類モデルの生成および被検索テキストの分類を行う。そして、手順を示した被検索テキストの中から、利用者が希望する検索テキストを検索するようにした。これによって、手順を示す内容の情報のみを適切に検索することができる。
【図面の簡単な説明】
【図1】本発明の原理を説明する原理図である。
【図2】本発明の実施の形態の構成例を示す図である。
【図3】情報検索サーバのハードウェア構成を示すブロック図である。
【図4】情報検索サーバの機能ブロック図である。
【図5】文書タグ、品詞タグを説明する図である。
【図6】形態素解析を行った学習用テキストを示す図で、(A)はタグ付与後の学習用テキストB1の一例を示し、(B)はプレフィックススパンに与える文字列を示す。
【図7】手順を示した箇条書き文章から特徴ベクトルを生成するまでの処理の流れを説明する図である。
【図8】手順を示した箇条書き文章から特徴ベクトルを生成するまでの処理の流れを別の例で説明する図である。
【図9】手順を示していない箇条書き文章から特徴ベクトルを生成するまでの処理の流れを説明する図である。
【図10】クライアントの表示装置に表示される画面の一例を示す。
【符号の説明】
1 コンピュータ
2 分類モデル生成手段
3 分類手段
4 検索手段
5a 手順検索DB
5b 非手順検索DB
10 情報検索サーバ10
11 SVM部
12 学習DB
13 モデル記憶部
14 検索テキスト入力部
15 検索DB
16 検索部
21 クライアント
22 サーバ
30 ネットワーク
A1,B1 学習用テキスト
A2,B2 被検索テキスト
Claims (3)
- 手順を示したテキストを検索する情報検索プログラムにおいて、
コンピュータに、
手順を示した学習用テキスト及び手順を示していない学習用テキストを学習して、手順を示しているか否かによってテキストを分類するための分類モデルを生成し、
前記分類モデルに基づいて、入力される被検索テキストを手順を示しているか否かによって分類し、
手順を示す前記被検索テキストから、利用者が希望する検索テキストを検索し、
前記分類モデルの生成および前記被検索テキストの分類は、サポートベクトルマシン手段によって行い、少なくとも前記学習用テキストおよび前記被検索テキストの文頭、文末に出現する品詞の数、句読点前の文字種別、および出現文字の出現パターンを特徴量として前記分類モデルの生成および前記被検索テキストの分類を行う、
処理を実行させることを特徴とする情報検索プログラム。 - 前記学習用テキストの手順は、箇条書きされていることを特徴とする請求項1記載の情報検索プログラム。
- 前記被検索テキストの箇条書き文章を抽出し、前記箇条書き文章が手順を示しているか否かによって分類することを特徴とする請求項1記載の情報検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002323793A JP3943005B2 (ja) | 2002-11-07 | 2002-11-07 | 情報検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002323793A JP3943005B2 (ja) | 2002-11-07 | 2002-11-07 | 情報検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004157830A JP2004157830A (ja) | 2004-06-03 |
JP3943005B2 true JP3943005B2 (ja) | 2007-07-11 |
Family
ID=32803573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002323793A Expired - Fee Related JP3943005B2 (ja) | 2002-11-07 | 2002-11-07 | 情報検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3943005B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7567895B2 (en) * | 2004-08-31 | 2009-07-28 | Microsoft Corporation | Method and system for prioritizing communications based on sentence classifications |
JP2006323670A (ja) * | 2005-05-19 | 2006-11-30 | Nippon Telegr & Teleph Corp <Ntt> | 方法質問応答方法、方法質問応答装置およびプログラム |
JP4526080B2 (ja) * | 2005-05-20 | 2010-08-18 | 日本電信電話株式会社 | 方法説明検索装置およびプログラム |
CN117874230A (zh) * | 2023-12-21 | 2024-04-12 | 汉王科技股份有限公司 | 案由类别获取方法、装置、电子设备 |
-
2002
- 2002-11-07 JP JP2002323793A patent/JP3943005B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004157830A (ja) | 2004-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10565313B2 (en) | Automatic semantic rating and abstraction of literature | |
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
US9262527B2 (en) | Optimized ontology based internet search systems and methods | |
US8983977B2 (en) | Question answering device, question answering method, and question answering program | |
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
JP7171100B1 (ja) | 特許文書作成支援装置、特許文書作成支援方法、特許文書作成支援プログラム。 | |
JP2020113129A (ja) | 文書評価装置、文書評価方法及びプログラム | |
Siklósi | Using embedding models for lexical categorization in morphologically rich languages | |
JP3583631B2 (ja) | 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3943005B2 (ja) | 情報検索プログラム | |
JP2003196294A (ja) | 知識分析システムおよび知識分析方法 | |
CN109213830B (zh) | 专业性技术文档的文档检索系统 | |
JP2021064143A (ja) | 文作成装置、文作成方法および文作成プログラム | |
JP3683687B2 (ja) | 情報フィルタリング装置および情報フィルタリング方法 | |
KR100659370B1 (ko) | 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법 | |
JP2004348239A (ja) | テキスト分類プログラム | |
JP3543726B2 (ja) | 書籍などの検索を支援する知識検索サービス方法および装置 | |
JP2000105769A (ja) | 文書表示方法 | |
Tsapatsoulis | Web image indexing using WICE and a learning-free language model | |
CN117972025B (zh) | 一种基于语义分析的海量文本检索匹配方法 | |
JPH10105562A (ja) | 検索システム | |
JP7037778B2 (ja) | 検索装置および方法 | |
JP5289468B2 (ja) | 回答検索装置、方法、及びプログラム | |
CN110837740B (zh) | 一种基于词典改进lda模型的评论方面观点级挖掘方法 | |
JP4173857B2 (ja) | 情報フィルタリング装置および情報フィルタリング方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061212 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070403 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070404 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110413 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110413 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120413 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130413 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140413 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |