JP2004287696A - Retrieval system and retrieval program - Google Patents

Retrieval system and retrieval program Download PDF

Info

Publication number
JP2004287696A
JP2004287696A JP2003077367A JP2003077367A JP2004287696A JP 2004287696 A JP2004287696 A JP 2004287696A JP 2003077367 A JP2003077367 A JP 2003077367A JP 2003077367 A JP2003077367 A JP 2003077367A JP 2004287696 A JP2004287696 A JP 2004287696A
Authority
JP
Japan
Prior art keywords
search
morphological analysis
word
document
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003077367A
Other languages
Japanese (ja)
Inventor
Takashige Tanaka
敬重 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2003077367A priority Critical patent/JP2004287696A/en
Publication of JP2004287696A publication Critical patent/JP2004287696A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a retrieval system capable of efficiently retrieving a desired document. <P>SOLUTION: This system comprises a document database for recording document data that are an object of retrieval; a retrieval database for recording retrieval data; and a morphological analysis dictionary preliminarily recording morphological analysis data, in which a word is extracted by morphologically analyzing the document data recorded in the document database. This system further comprises a morphological analysis means for specifying, with respect to the word, an affirmative form or negative form; a document registration means for recording the extracted word, information for specifying the affirmation or negation, and information for specifying the document in association with each other in the retrieval database; an input means for inputting a question sentence; a retrieval condition forming means for morphologically analyzing the question sentence and forming a retrieval condition based on the resulting word and information for specifying the affirmation or negation; a retrieval means for retrieving a document matched to the retrieval condition from the retrieval database; and a display means for displaying the retrieval result by the retrieval means. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、所望の文書データを効率よく検索することが可能な検索システム及び検索プログラムに関する。
【0002】
【従来の技術】
文書等の検索を行う際、通常はテキストベースの文章を形態素解析という手法で、単語毎に分割して予めデータベースに登録をしておき、検索時において質問文を形態素解析して単語毎に分割して、検索をかける事により、短時間で正確な結果を得るシステムが主流になっている。文書検索にはこの形態素解析の技術が欠かせなくなっている。また、検索の精度を求めて検索エンジンの検索方式には様々なアプローチがある。通常は形態素解析をして名詞句や動詞などを取り出し、その単語の有無により結果を表示する他、最近の傾向では構文解析を行い、意味まで解析するものまで出てきている。
構文解析を行うシステムとして、構文規則を使用し、構文解析を行い文章の構造まで考えた形態素解析システムが知られている(特許文献1)。またテキストベースで類似した単語と単語を登録しておくことで形態素解析の質を上げようというシステムも知られている(特許文献2)。
【0003】
【特許文献1】
特開平08−050588号公報
【特許文献2】
特開平11−039347号公報
【0004】
【発明が解決しようとする課題】
しかしながら、特許文献1、2に示すシステムにあっては、類似語として、単語と単語をマッチングさせることができるが、同じ意味の単語(例えば、文字化け)と文(例えば、文字が表示できない)とをマッチングさせることができないという問題がある。また、「文字が表示できない」という文自体を形態素解析用の辞書に登録すると、「文字」、「表示」という単語を含む文書が検索できなくなるため、検索精度が落ちてしまうという問題もある。
【0005】
本発明は、このような事情に鑑みてなされたもので、所望の文書を効率良く検索することができる検索システム及び検索プログラムを提供することを目的とする。
【0006】
【課題を解決するための手段】
請求項1に記載の発明は、検索対象の文書データを記録する文書データベースと、検索用のデータを記録する検索用データベースと、形態素解析用のデータが予め記録された形態素解析辞書と、前記形態素解析辞書を参照して、前記文書データベースに記録された文書データを形態素解析することにより単語を抽出するとともに、該単語について、肯定形または否定形を特定する形態素解析手段と、前記形態素解析手段によって抽出した単語と、肯定または否定を特定する情報と、文書を特定する情報とを関連付けて前記検索用データベースに記録する文書登録手段と、質問文を入力する入力手段と、前記形態素解析手段により前記質問文を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する検索条件作成手段と、前記検索条件に合致する文書を前記検索用データベースから検索する検索手段と、前記検索手段における検索結果を表示する表示手段とを備えたことを特徴とする。
【0007】
請求項2に記載の発明は、検索対象の文書データを記録する文書データベースと、検索用のデータを記録する検索用データベースと、形態素解析用のデータが予め記録された形態素解析辞書と、前記形態素解析辞書を参照して、前記文書データベースに記録された文書データを形態素解析することにより単語を抽出するとともに、該単語について、肯定形または否定形を特定する形態素解析手段と、前記形態素解析手段によって抽出した単語と、肯定または否定を特定する情報と、文書を特定する情報とを関連付けて前記検索用データベースに記録する文書登録手段と、単語毎に類似語が予め記録された類似語辞書と、質問文を入力する入力手段と、前記形態素解析手段により前記質問文を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する第1の検索条件作成手段と、前記類似語辞書を参照して、前記質問文を形態素解析した結果得られた単語の類似語を得る類似語取得手段と、前記類似語取得手段により得られた類似語に基づいて、検索条件を作成する第2の検索条件作成手段と、前記第1の検索条件及び第2の検索条件のそれぞれに合致する文書を前記検索用データベースから検索する検索手段と、前記検索手段によって検索した文書データを表示する表示手段とを備えたことを特徴とする。
【0008】
請求項3に記載の発明は、検索対象の文書データを記録する文書データベースと、検索用のデータを記録する検索用データベースと、形態素解析用のデータが予め記録された形態素解析辞書と、前記形態素解析辞書を参照して、前記文書データベースに記録された文書データを形態素解析することにより単語を抽出するとともに、該単語について、肯定形または否定形を特定する形態素解析手段と、前記形態素解析手段によって抽出した単語と、肯定または否定を特定する情報と、文書を特定する情報とを関連付けて前記検索用データベースに記録する文書登録手段と、単語毎に類似語が予め記録された類似語辞書と、質問文を入力する入力手段と、前記形態素解析手段により前記質問文を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する第1の検索条件作成手段と、前記類似語辞書を参照して、前記質問文を形態素解析した結果得られた単語の類似語を得る類似語取得手段と、前記形態素解析手段により前記類似語を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する第2の検索条件作成手段と、前記第1の検索条件及び第2の検索条件のそれぞれに合致する文書を前記検索用データベースから検索する検索手段と、前記検索手段によって検索した文書データを表示する表示手段とを備えたことを特徴とする。
【0009】
請求項4に記載の発明は、前記検索システムは、形態素解析手段により得られた単語の重要度を計算して、単語の重要度を各単語に関連付けて前記検索用データベースに記録する重要度計算手段と、検索結果を重要度順に並べ替える集計手段とをさらに備え、前記表示手段は、前記集計手段により重要度順に並べ替えた検索結果を表示することを特徴とする。
【0010】
請求項5に記載の発明は、検索対象の文書データを記録する文書データベースと、検索用のデータを記録する検索用データベースと、形態素解析用のデータが予め記録された形態素解析辞書とを備えた検索システムにおいて動作する検索プログラムであって、前記形態素解析辞書を参照して、前記文書データベースに記録された文書データを形態素解析することにより単語を抽出するとともに、該単語について、肯定形または否定形を特定する形態素解析処理と、前記形態素解析処理によって抽出した単語と、肯定または否定を特定する情報と、文書を特定する情報とを関連付けて前記検索用データベースに記録する文書登録処理と、質問文を入力する入力処理と、前記形態素解析処理により前記質問文を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する検索条件作成処理と、前記検索条件に合致する文書を前記検索用データベースから検索する検索処理と、前記検索処理における検索結果を表示する表示処理とをコンピュータに行わせることを特徴とする。
【0011】
請求項6に記載の発明は、検索対象の文書データを記録する文書データベースと、検索用のデータを記録する検索用データベースと、形態素解析用のデータが予め記録された形態素解析辞書と、単語毎に類似語が予め記録された類似語辞書とを備えた検索システムにおいて動作する検索プログラムであって、前記形態素解析辞書を参照して、前記文書データベースに記録された文書データを形態素解析することにより単語を抽出するとともに、該単語について、肯定形または否定形を特定する形態素解析処理と、前記形態素解析処理によって抽出した単語と、肯定または否定を特定する情報と、文書を特定する情報とを関連付けて前記検索用データベースに記録する文書登録処理と、質問文を入力する入力処理と、前記形態素解析処理により前記質問文を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する第1の検索条件作成処理と、前記類似語辞書を参照して、前記質問文を形態素解析した結果得られた単語の類似語を得る類似語取得処理と、前記類似語取得処理により得られた類似語に基づいて、検索条件を作成する第2の検索条件作成処理と、前記第1の検索条件及び第2の検索条件のそれぞれに合致する文書を前記検索用データベースから検索する検索処理と、前記検索処理によって検索した文書データを表示する表示処理とをコンピュータに行わせることを特徴とする。
【0012】
請求項7に記載の発明は、検索対象の文書データを記録する文書データベースと、検索用のデータを記録する検索用データベースと、形態素解析用のデータが予め記録された形態素解析辞書と、単語毎に類似語が予め記録された類似語辞書とを備えた検索システムにおいて動作する検索プログラムであって、前記形態素解析辞書を参照して、前記文書データベースに記録された文書データを形態素解析することにより単語を抽出するとともに、該単語について、肯定形または否定形を特定する形態素解析処理と、前記形態素解析処理によって抽出した単語と、肯定または否定を特定する情報と、文書を特定する情報とを関連付けて前記検索用データベースに記録する文書登録処理と、質問文を入力する入力処理と、前記形態素解析処理により前記質問文を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する第1の検索条件作成処理と、前記類似語辞書を参照して、前記質問文を形態素解析した結果得られた単語の類似語を得る類似語取得処理と、前記形態素解析処理により前記類似語を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する第2の検索条件作成処理と、前記第1の検索条件及び第2の検索条件のそれぞれに合致する文書を前記検索用データベースから検索する検索処理と、前記検索処理によって検索した文書データを表示する表示処理とをコンピュータに行わせることを特徴とする。
【0013】
請求項8に記載の発明は、前記検索プログラムは、形態素解析処理により得られた単語の重要度を計算して、単語の重要度を各単語に関連付けて前記検索用データベースに記録する重要度計算処理と、検索結果を重要度順に並べ替える集計処理とをさらにコンピュータに行わせ、前記表示処理は、前記集計処理により重要度順に並べ替えた検索結果を表示することを特徴とする。
【0014】
この発明によれば、文書登録時における形態素解析時において、肯定否定フラグを検索用データベースに登録するようにしたため、全く逆の意味を持つ文書が見つかることを防止することができる。特に、トラブル対応処理時には、全く逆の意味を持つ文書データは不要であるため、効率よく所望の文書データを見つけだすことが可能となる。また、質問文を形態素解析した結果得られた単語の類似語を含む文書を検索するようにしたため、所望の文書データを見つけだすことが容易になる。また、検索結果を表示する場合に、形態素解析結果を用いた検索結果と、類似語を用いた検索結果とを検索結果記憶部に記憶しておき、重要度の並べ替えをしてから表示するようにしたため、形態素解析結果を用いた検索と、類似語を用いた検索とを別々に実行した場合と比べて、重要度の高い文書が上位に表示される可能性が高くなるという効果が得られる。
【0015】
【発明の実施の形態】
以下、本発明の一実施形態による検索システムを図面を参照して説明する。図1は同実施形態の構成を示すブロック図である。この図において、符号1は、検索対象の複数の文書データが記録された文書データベースである。符号2は、文書データベース1に記録されている文書データの検索を高速に行うために、検索用データベース3へ検索用データの登録を行う文書登録部である。符号4は、文章を形態素解析するための辞書データが記録された形態素解析辞書である。符号5は、形態素解析辞書を参照して、文書データベース1に記録されている文書データの形態素解析を行う形態素解析部である。符号6は、文書データ中に含まれる重要な単語に対して重み付けを行うための辞書データが記録された重み付け辞書である。符号7は、重み付け辞書6を参照して、文書データベース1に記録されている文書データ中に含まれる単語の重み付けを行う重要度計算部である。符号8は、所望の文書データを見つけるための質問文を入力する入力部であり、キーボード等から構成される。符号9は、入力部8より入力された質問文に対する回答を効率よく検索するための検索条件を作成する検索条件作成部である。符号10は、単語毎に類似語が予め記録された類似語辞書である。符号11は、検索条件作成部9が作成した検索条件に従って検索を行う検索部である。符号12は、検索部11で得られた検索結果を一時的に記憶しておく検索結果記憶部である。符号13は、検索結果記憶部12に記憶されている検索結果を集計する集計部である。符号14は、検索結果の表示を行う表示部であり、ディスプレイ等で構成される。
【0016】
ここで、図1に示す検索システムを利用する業務について説明する。文書データベース1には、コンピュータやコンピュータ周辺機器等のトラブル発生時の対処方法等を説明した文書が記録されており、入力部1から入力された質問(機器のトラブル時の現象等)に対する対処方法を、文書データベース1に記録されている文書データの中から効率良く見つけだすような時に用いるシステムである。以下の説明においては、機器のユーザサポートを行うために、ユーザサポート担当者が図1に示す検索システムを使用して、電話やFAX、さらには、電子メール等で受け付けたトラブルに対する回答を得ることを例にして説明する。
【0017】
初めに、図1、図2を参照して、検索用データベースを作成する動作を説明する。まず、文書登録部2は、文書データベース1に記録されている文書データを読み込み、形態素解析部5へ受け渡す。これを受けて、形態素解析部5は、文書データを形態素解析辞書4を参照して形態素解析を行い、頻出する自立語品詞(名詞、動詞、形容詞など)と肯定否定フラグを文書登録部2へ返す。また、このとき、形態素解析部5は、文書データ中に出現する単語についての頻度をカウントし、文書登録部2へ返す。これを受けて文書登録部2は、解析結果を検索用データベース3へ登録する。
【0018】
通常、文章を形態素解析すると、自立語と付属語が取得できるとともに、それぞれの活用形を取得することができる。ここでは検索用データベース3への登録時において、動詞、形容詞、形容動詞、さ変名詞、慣用句を含む名詞のいずれかに分類する。そして、活用語尾品詞(付属語品詞)は原則登録しない。ただし「打ち消し」があった場合は「肯定否定フラグ」を「1」とする。
【0019】
次に、文書登録部2は、重要度計算部7に対して、重要度の計算を指示する。これを受けて重要度計算部7は、重み付け用辞書6を参照して文書に出現する単語に対して、重み付けを行い、重要度を計算して検索用データベース3へ登録する。ここで用いる重要度計算は、周知のtfidf法を用いて行い、重み付けは、予め重み付けをする単語を抽出して重み付け値を重み付け辞書6に登録しておく。
【0020】
この動作によって、作成される検索用データベース3のテーブル構造を図2を参照して説明する。検索用データベース3は、ページテーブル、キーワードテーブル、単語テーブルの3種類のテーブルからなる。ページテーブルは、文書データ毎の固有の番号である「ページID」と、この文書データが保存されているディレクトリのフルパス、またはURLである「アドレス」と、文書データの文書の題名である「タイトル」と、文書データの本文である「テキスト」と、検索で使用する際の絞り込みの「分類ID」とからなる。
【0021】
キーワードテーブルは、「ページID」によりページテーブルを連結され、「ワードID」により単語テーブルと連結される。「コスト」は、このキーワードが、この文書データ内で何回出現したかを示す値である。「重み付け値」は重み付け辞書6によって与えられた値である。「重要度」はtfidf法で求めた値である。
【0022】
単語テーブルは、形態素解析で得られた「単語」と、単語毎に付与した「ワードID」と、この単語が全文書データ中で使用された文書数を示す「使用頻度」と、形態素解析で得られた「品詞」と、「否定肯定フラグ」からなる。
【0023】
次に、図3を参照して、入力した質問に対する回答を得る動作を説明する。まず、サポート担当者が、入力部8より質問文を入力すると、入力部8は入力された質問文を読み取る(ステップS1)。ここでは、質問文として「勝手に文字化けが起きるようになった」と入力したものとする。入力部8は、ここで入力された質問文を検索条件作成部9へ受け渡す。
【0024】
次に、検索条件作成部9は、受け取った質問文を形態素解析部5へ渡す。これを受けて、形態素解析部5は、形態素解析辞書4を参照して、受け取った質問文を形態素解析する(ステップS2)。この解析の結果、「名詞:文字化け」、「形容動詞:勝手(肯定形)」、「一般動詞:起き(肯定形)」が解析結果として得られる。続いて、形態素解析部5は、ここで得られた解析結果は、検索条件作成部9へ返す。
【0025】
次に、検索条件作成部9は、形態素解析結果に基づいて、検索条件を作成する(ステップS3)。ここでは検索条件が、「名詞:文字化け&形容動詞:勝手(否定肯定フラグ=0)&一般動詞:起き(否定肯定フラグ=0)」となる。検索条件作成部9は、ここで作成した検索条件を検索部11へ受け渡す。
【0026】
次に検索部11は、検索条件作成部9より受け取った検索条件を使用して、検索用データベース3内を検索する(ステップS4)。この検索の結果、名詞の文字化けを含み、かつ形容動詞の勝手(肯定形)を含み、かつ一般動詞の起き(肯定形)を含む文書データのページIDが検索部11において得られる。該当する文書データが複数存在すれば、複数のページIDが検索部11において得られる。続いて、検索部11は、ここで得られた検索結果を検索結果記憶部12へ保存する(ステップS5)。そして、検索部11は、検索が終了したことを検索条件作成部9へ通知する。
【0027】
次に、検索条件作成部9は、類似語辞書10を参照して、質問文を形態素解析した結果得られた単語(ここでは、「名詞:文字化け」、「形容動詞:勝手(肯定形)」、「一般動詞:起き(肯定形)」)について、類似語を求める(ステップS6)。類似語辞書10には、図4に示すように、単語毎に類似語が関連付けられて記録されている。この例では、「文字化け」に対して「文字が表示できない」が予め記録されている。検索条件作成部9は、検索用データベース3のページテーブルに記録されている「テキスト」中に、ここで得られた類似語を検索する(ステップS7)。この検索の結果、該当する類似語(ここでは、「文字が表示できない」)を含む文書データのページIDが検索部11において得られる。該当する文書データが複数存在すれば、複数のページIDが検索部11において得られる。続いて、検索部11は、ここで得られた検索結果を検索結果記憶部12へ保存する(ステップS8)。そして、検索部11は、検索が終了したことを集計部13へ通知する。
【0028】
次に、集計部13は、検索用データベース3を参照して、検索結果記憶部12に記録されているページIDを持つキーワードテーブル中の重要度、重み付け値に基づいて、ページIDを重要な文書データ順に並べ替えることにより検索結果の集計を行う(ステップS9)。そして、集計部13は、並べ替えた文書データを表示部14に表示する(ステップS10)。
【0029】
この動作によって、「勝手に文字化けが起きるようになった」という質問に対する回答が含まれる可能性が高い文書データが順に表示部14に表示されることとなる。サポート担当者は、この文書データを見て、質問を送ったユーザに対して回答を送る。
【0030】
次に、図3を参照して、得られた類似語をさらに形態素解析する動作を説明する。この場合、図3に示す各ステップにおいて、ステップS7の検索動作が、ステップS71とS72に置き換わることになる。
検索条件作成部9は、類似語辞書10を参照して得られた「文字が表示できない」という文を、形態素解析部5へ受け渡す。これを受けて、形態素解析部5は、形態素解析を行う(ステップS71)。そして、形態素解析部5は、形態素解析結果を検索条件作成部9へ返す。ここでは、形態素解析結果として、「文字」、「表示(否定)」が得られる。そして、検索条件作成部9は、この解析結果に基づいて検索条件を作成し、検索部11へ受け渡す。そして、検索部11は、検索条件作成部9より受け取った検索条件を使用して、検索用データベース3内を検索する(ステップS72)。
【0031】
このように、類似語についても形態素解析を行うようにすれば、検索用データベース3を変更することなく使用できるため、効率よく所望の文書データを検索することが可能となる。
【0032】
なお、検索条件作成部9は、予め決められた単語は検索しないようにするためのストップワード辞書を参照して、検索時間の短縮化を図るための検索条件を加えるようにしてもよい。これにより意図的に調べなくてもいい単語を登録することができるため、多くの文書に出現する単語についての処理時間が長くなってしまうことを防止することができる。
【0033】
以上説明したように、文書登録時における形態素解析時において、肯定否定フラグを検索用データベース3に登録するようにしたため、全く逆の意味を持つ文書が見つかることを防止することができる。特に、トラブル対応処理時には、全く逆の意味を持つ文書データは不要であるため、効率よく所望の文書データを見つけだすことが可能となる。また、質問文を形態素解析した結果得られた単語の類似語を含む文書を検索するようにしたため、所望の文書データを見つけだすことが容易になる。また、検索結果を表示する場合に、形態素解析結果を用いた検索結果と、類似語を用いた検索結果とを検索結果記憶部12に記憶しておき、重要度の並べ替えをしてから表示するようにしたため、形態素解析結果を用いた検索と、類似語を用いた検索とを別々に実行した場合と比べて、重要度の高い文書が上位に表示される可能性が高くなる。
【0034】
なお、図1に示す入力部8と表示部14は、インターネット等を介した端末装置に備えていてもよい。このようにすることにより、コンピュータ機器を購入したユーザ自身が自宅のパソコン等を使用して質問文を入力し、その回答をユーザのパソコンへ表示すれば、インターネットを使用したユーザサポートシステムを構築することが可能である。
【0035】
また、入力部8より入力した質問文を集計し、そこから出現頻度の高い単語を選択し、この選択した単語を図4に示す類似語辞書10の「単語」フィールドで使用するようにしてもよい。そして、これらの単語に対する類似語を用語辞典等から抽出し、類似語辞書10に登録すれば、簡単に類似語辞書10を作成することができる。
【0036】
また、図1における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより文書検索処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0037】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【図面の簡単な説明】
【図1】本発明の一実施形態の構成を示すブロック図である。
【図2】図1に示す検索用データベース3のテーブル構造を示す説明図である。
【図3】図1に示す検索システムの検索動作を示すフローチャートである。
【図4】図1に示す類似語辞書10のテーブル構造を示す説明図である。
【符号の説明】
1…文書データベース、2…文書登録部、3…検索用データベース、4…形態素解析辞書、5…形態素解析部、6…重み付け辞書、7…重要度計算部、8…入力部、9…検索条件作成部、10…類似語辞書、11…検索部、12…検索結果記憶部、13…集計部、14…表示部
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a search system and a search program capable of efficiently searching for desired document data.
[0002]
[Prior art]
When searching for documents, etc., usually a text-based sentence is divided for each word by a method called morphological analysis and registered in the database in advance, and at the time of search, a question sentence is morphologically analyzed and divided for each word A system that obtains accurate results in a short time by performing a search has become mainstream. This morphological analysis technology is indispensable for document retrieval. In addition, there are various approaches to a search method of a search engine in search of search accuracy. Normally, morphological analysis is performed to extract noun phrases, verbs, etc., and the result is displayed depending on the presence or absence of the word. In recent trends, syntax analysis is performed to analyze even the meaning.
As a system for performing syntax analysis, a morphological analysis system that uses syntax rules to perform syntax analysis and considers the structure of a sentence is known (Patent Document 1). There is also known a system that improves the quality of morphological analysis by registering similar words and words on a text basis (Patent Document 2).
[0003]
[Patent Document 1]
Japanese Patent Application Laid-Open No. 08-050588 [Patent Document 2]
JP-A-11-039347
[Problems to be solved by the invention]
However, in the systems disclosed in Patent Literatures 1 and 2, words and words can be matched as similar words, but words having the same meaning (for example, garbled characters) and sentences (for example, characters cannot be displayed). There is a problem that can not be matched with. Further, if the sentence “characters cannot be displayed” is registered in the dictionary for morphological analysis, documents containing the words “characters” and “display” cannot be searched, so that there is a problem that search accuracy is reduced.
[0005]
The present invention has been made in view of such circumstances, and has as its object to provide a search system and a search program capable of efficiently searching for a desired document.
[0006]
[Means for Solving the Problems]
According to the first aspect of the present invention, there is provided a document database for recording document data to be searched, a search database for recording search data, a morphological analysis dictionary in which morphological analysis data is recorded in advance, With reference to the analysis dictionary, a word is extracted by performing a morphological analysis on the document data recorded in the document database, and a morphological analysis unit for specifying a positive form or a negative form for the word, and the morphological analysis unit The extracted words, information for specifying affirmation or denial, information for specifying a document, and document registration means for recording the information in the search database in association with each other, input means for inputting a question sentence, and the morphological analysis means A search that morphologically analyzes a question sentence and creates search conditions based on the obtained words and information that identifies affirmation or negation A matter creating means, search means for a document matching the search condition to search from the search database, and further comprising a display means for displaying the search result in the search unit.
[0007]
According to a second aspect of the present invention, there is provided a document database for recording document data to be searched, a search database for recording data for search, a morphological analysis dictionary in which data for morphological analysis is recorded in advance, With reference to the analysis dictionary, a word is extracted by performing a morphological analysis on the document data recorded in the document database, and a morphological analysis unit for specifying a positive form or a negative form for the word, and the morphological analysis unit Document registration means for associating the extracted words, information specifying affirmation or negation, and information specifying a document and recording them in the search database, a similar word dictionary in which similar words are recorded in advance for each word, The question sentence is morphologically analyzed by the input means for inputting the question sentence and the morphological analysis means, and the obtained word is identified as affirmative or negative. First search condition creation means for creating a search condition based on information to be searched, and similar word acquisition means for obtaining a similar word of a word obtained as a result of morphological analysis of the question sentence with reference to the similar word dictionary A second search condition creating means for creating a search condition based on the similar words obtained by the similar word acquisition means; and a document which matches each of the first search condition and the second search condition. A search unit for searching the search database; and a display unit for displaying the document data searched by the search unit.
[0008]
According to a third aspect of the present invention, there is provided a document database for recording document data to be searched, a search database for recording data for search, a morphological analysis dictionary in which data for morphological analysis is recorded in advance, With reference to the analysis dictionary, a word is extracted by performing a morphological analysis on the document data recorded in the document database, and a morphological analysis unit for specifying a positive form or a negative form for the word, and the morphological analysis unit Document registration means for associating the extracted words, information specifying affirmation or negation, and information specifying a document and recording them in the search database, a similar word dictionary in which similar words are recorded in advance for each word, The question sentence is morphologically analyzed by the input means for inputting the question sentence and the morphological analysis means, and the obtained word is identified as affirmative or negative. First search condition creation means for creating a search condition based on information to be searched, and similar word acquisition means for obtaining a similar word of a word obtained as a result of morphological analysis of the question sentence with reference to the similar word dictionary Morphological analysis of the similar words by the morphological analysis means, and second search condition creation means for creating a search condition based on the obtained word and information specifying affirmative or negative, and the first search A search unit for searching the search database for a document that satisfies each of the condition and the second search condition; and a display unit for displaying the document data searched by the search unit.
[0009]
According to a fourth aspect of the present invention, in the search system, the search system calculates the importance of the word obtained by the morphological analysis unit, and associates the importance of the word with each word and records the importance in the search database. Means, and a counting means for sorting the search results in order of importance, wherein the display means displays the search results sorted in order of importance by the counting means.
[0010]
The invention according to claim 5 includes a document database for recording document data to be searched, a search database for recording data for search, and a morphological analysis dictionary in which data for morphological analysis is recorded in advance. A search program operating in a search system, wherein a word is extracted by morphologically analyzing document data recorded in the document database with reference to the morphological analysis dictionary, and a positive or negative form of the word is extracted. A document extraction process for associating a word extracted by the morphological analysis process, information for specifying affirmative or negative, and information for specifying a document and recording the information in the search database; And a morphological analysis of the question sentence by the morphological analysis processing. Or a search condition creating process for creating a search condition based on the information specifying the negation, a search process for searching the search database for a document that meets the search condition, and a search result in the search process is displayed. The display processing is performed by a computer.
[0011]
According to a sixth aspect of the present invention, there is provided a document database for recording document data to be searched, a search database for recording search data, a morphological analysis dictionary in which morphological analysis data is recorded in advance, Is a search program that operates in a search system including a similar word dictionary in which similar words are recorded in advance, and by performing morphological analysis on document data recorded in the document database with reference to the morphological analysis dictionary. A word is extracted and, for the word, a morphological analysis process for specifying a positive or negative form, and the word extracted by the morphological analysis process, information for specifying positive or negative, and information for specifying a document are associated with each other. A document registration process for recording in the search database, an input process for inputting a question sentence, and the morphological analysis process. A first search condition creating process for creating a search condition based on the morphological analysis of the written question sentence and the obtained word and information specifying affirmative or negative, and referring to the similar word dictionary, A synonym acquisition process for obtaining a synonym of the word obtained as a result of morphological analysis of the word, a second search condition creation process for creating a search condition based on the synonym obtained by the similar word acquisition process, And causing the computer to perform a search process of searching the search database for a document that meets each of the first search condition and the second search condition, and a display process of displaying the document data searched by the search process. Features.
[0012]
According to a seventh aspect of the present invention, there is provided a document database for recording document data to be searched, a search database for recording search data, a morphological analysis dictionary in which morphological analysis data is recorded in advance, Is a search program that operates in a search system including a similar word dictionary in which similar words are recorded in advance, and by performing morphological analysis on document data recorded in the document database with reference to the morphological analysis dictionary. A word is extracted and, for the word, a morphological analysis process for specifying a positive or negative form, and the word extracted by the morphological analysis process, information for specifying positive or negative, and information for specifying a document are associated with each other. A document registration process for recording in the search database, an input process for inputting a question sentence, and the morphological analysis process. A first search condition creating process for creating a search condition based on the morphological analysis of the written question sentence and the obtained word and information specifying affirmative or negative, and referring to the similar word dictionary, A morphological analysis of the similar word by the morphological analysis process, and a search based on the obtained word and information identifying affirmative or negative. A second search condition creation process for creating a condition, a search process for searching the search database for a document that meets each of the first search condition and the second search condition, and a document searched for by the search process A display process for displaying data is performed by a computer.
[0013]
In the invention according to claim 8, the search program calculates importance of words obtained by morphological analysis processing, and associates the importance of words with each word and records the importance in the search database. The computer is further made to perform a process and a tallying process of sorting the search results in order of importance, and the display process displays the search results sorted in order of importance by the tallying process.
[0014]
According to the present invention, the affirmative / negative flag is registered in the search database at the time of morphological analysis at the time of document registration, so that it is possible to prevent a document having a completely opposite meaning from being found. In particular, at the time of trouble handling processing, document data having a completely opposite meaning is unnecessary, so that desired document data can be efficiently found. Further, since a document containing a similar word of a word obtained as a result of morphological analysis of a question sentence is searched, it is easy to find desired document data. When displaying the search result, the search result using the morphological analysis result and the search result using the similar word are stored in the search result storage unit, and are displayed after the importance is rearranged. As a result, compared to the case where the search using the morphological analysis result and the search using similar words are executed separately, the effect that the document with high importance is more likely to be displayed at the top is obtained. Can be
[0015]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, a search system according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the embodiment. In this figure, reference numeral 1 denotes a document database in which a plurality of document data to be searched are recorded. Reference numeral 2 denotes a document registration unit that registers search data in the search database 3 in order to search for document data recorded in the document database 1 at high speed. Reference numeral 4 denotes a morphological analysis dictionary in which dictionary data for morphologically analyzing a sentence is recorded. Reference numeral 5 denotes a morphological analysis unit that performs morphological analysis of document data recorded in the document database 1 with reference to the morphological analysis dictionary. Reference numeral 6 denotes a weighting dictionary in which dictionary data for weighting important words included in the document data is recorded. Reference numeral 7 denotes an importance calculating unit that refers to the weight dictionary 6 and weights words included in the document data recorded in the document database 1. Reference numeral 8 denotes an input unit for inputting a question sentence for finding desired document data, and is constituted by a keyboard or the like. Reference numeral 9 denotes a search condition creation unit that creates search conditions for efficiently searching for an answer to the question sentence input from the input unit 8. Reference numeral 10 denotes a similar word dictionary in which similar words are recorded in advance for each word. Reference numeral 11 denotes a search unit that performs a search according to the search condition created by the search condition creation unit 9. Reference numeral 12 denotes a search result storage unit that temporarily stores the search results obtained by the search unit 11. Reference numeral 13 denotes a counting unit that counts search results stored in the search result storage unit 12. Reference numeral 14 denotes a display unit that displays a search result, and is configured by a display or the like.
[0016]
Here, a business using the search system shown in FIG. 1 will be described. The document database 1 records documents that explain how to deal with troubles such as computers and computer peripherals, and how to deal with questions (phenomena when troubles occur in devices) input from the input unit 1. Is used to efficiently find out from the document data recorded in the document database 1. In the following description, in order to provide user support for a device, a user support representative obtains a response to a trouble received by telephone, fax, or e-mail using the search system shown in FIG. Will be described as an example.
[0017]
First, an operation of creating a search database will be described with reference to FIGS. First, the document registration unit 2 reads the document data recorded in the document database 1 and passes it to the morphological analysis unit 5. In response, the morphological analysis unit 5 performs a morphological analysis on the document data with reference to the morphological analysis dictionary 4, and outputs frequently appearing independence part of speech (noun, verb, adjective, etc.) and affirmative / negative flag to the document registration unit 2. return. At this time, the morphological analysis unit 5 counts the frequency of words appearing in the document data, and returns it to the document registration unit 2. In response, the document registration unit 2 registers the analysis result in the search database 3.
[0018]
Normally, when a sentence is morphologically analyzed, an independent word and an adjunct word can be acquired, and each inflected form can be acquired. Here, at the time of registration in the database 3 for search, it is classified into any one of a verb, an adjective, an adjective verb, an inflected noun, and a noun including an idiom. In addition, the inflected part of speech (part of speech) is not registered in principle. However, if there is "cancellation", the "affirmative / negative flag" is set to "1".
[0019]
Next, the document registration unit 2 instructs the importance calculation unit 7 to calculate the importance. In response to this, the importance calculation unit 7 refers to the weighting dictionary 6 to weight the words that appear in the document, calculates the importance, and registers it in the search database 3. The importance calculation used here is performed using the well-known tfidf method, and the weighting is performed by extracting a word to be weighted in advance and registering the weighting value in the weighting dictionary 6.
[0020]
The table structure of the search database 3 created by this operation will be described with reference to FIG. The search database 3 includes three types of tables: a page table, a keyword table, and a word table. The page table includes a “page ID” which is a unique number for each document data, a “full address” of a directory where the document data is stored or an “address” which is a URL, and a “title” which is a title of the document of the document data. , "Text" which is the text of the document data, and "classification ID" for narrowing down when used in the search.
[0021]
The keyword table is linked to the page table by “page ID” and linked to the word table by “word ID”. “Cost” is a value indicating how many times this keyword has appeared in this document data. “Weighting value” is a value given by the weighting dictionary 6. “Importance” is a value obtained by the tfidf method.
[0022]
The word table includes a “word” obtained by morphological analysis, a “word ID” assigned to each word, a “frequency of use” indicating the number of documents in which this word is used in all document data, It consists of the obtained “part of speech” and the “negative affirmation flag”.
[0023]
Next, an operation of obtaining an answer to the input question will be described with reference to FIG. First, when the support person inputs a question sentence from the input unit 8, the input unit 8 reads the input question sentence (step S1). Here, it is assumed that the user has input as a question sentence that "garbled characters have started to appear". The input unit 8 transfers the input question sentence to the search condition creating unit 9.
[0024]
Next, the search condition creating unit 9 passes the received question sentence to the morphological analysis unit 5. In response, the morphological analysis unit 5 refers to the morphological analysis dictionary 4 and morphologically analyzes the received question sentence (step S2). As a result of this analysis, “noun: garbled”, “adjective verb: selfish (positive form)”, and “general verb: awake (positive form)” are obtained as the analysis results. Subsequently, the morphological analysis unit 5 returns the analysis result obtained here to the search condition creation unit 9.
[0025]
Next, the search condition creating unit 9 creates a search condition based on the morphological analysis result (Step S3). Here, the search condition is “noun: garbled & adjective verb: selfish (negative affirmation flag = 0) & general verb: awake (negative affirmation flag = 0)”. The search condition creating unit 9 transfers the created search condition to the search unit 11.
[0026]
Next, the search unit 11 searches the search database 3 using the search condition received from the search condition creation unit 9 (step S4). As a result of this search, the search unit 11 obtains the page ID of the document data including the garbled noun, the adjective verb (positive form), and the occurrence of the general verb (positive form). If there is a plurality of corresponding document data, a plurality of page IDs can be obtained in the search unit 11. Subsequently, the search unit 11 stores the obtained search result in the search result storage unit 12 (Step S5). Then, the search unit 11 notifies the search condition creation unit 9 that the search has been completed.
[0027]
Next, the search condition creation unit 9 refers to the similar word dictionary 10 and obtains words obtained as a result of morphological analysis of the question sentence (here, “noun: garbled”, “adjective verb: selfish (positive form)” , "General verb: awake (positive form)") (step S6). In the similar word dictionary 10, as shown in FIG. 4, similar words are recorded in association with each other. In this example, “characters cannot be displayed” is recorded in advance for “garbled characters”. The search condition creating unit 9 searches for the similar words obtained here in “text” recorded in the page table of the search database 3 (step S7). As a result of this search, the search unit 11 obtains a page ID of the document data including the corresponding similar word (here, “characters cannot be displayed”). If there is a plurality of corresponding document data, a plurality of page IDs can be obtained in the search unit 11. Subsequently, the search unit 11 stores the obtained search result in the search result storage unit 12 (Step S8). Then, the search unit 11 notifies the counting unit 13 that the search has been completed.
[0028]
Next, the tallying unit 13 refers to the search database 3 and assigns the page ID to the important document based on the importance and weighting value in the keyword table having the page ID recorded in the search result storage unit 12. The search results are totalized by rearranging them in the order of data (step S9). Then, the counting unit 13 displays the sorted document data on the display unit 14 (Step S10).
[0029]
By this operation, the document data having a high possibility of containing an answer to the question “garbled characters are arbitrarily generated” are sequentially displayed on the display unit 14. The support person looks at the document data and sends an answer to the user who sent the question.
[0030]
Next, an operation of further performing morphological analysis on the obtained similar words will be described with reference to FIG. In this case, in each step shown in FIG. 3, the search operation in step S7 is replaced with steps S71 and S72.
The search condition creation unit 9 transfers the sentence “characters cannot be displayed” obtained by referring to the similar word dictionary 10 to the morphological analysis unit 5. In response, the morphological analysis unit 5 performs a morphological analysis (step S71). Then, the morphological analysis unit 5 returns the morphological analysis result to the search condition creating unit 9. Here, “character” and “display (negation)” are obtained as the morphological analysis results. Then, the search condition creating unit 9 creates a search condition based on the analysis result, and transfers the created search condition to the search unit 11. Then, the search unit 11 searches the search database 3 using the search condition received from the search condition creation unit 9 (Step S72).
[0031]
As described above, by performing morphological analysis on similar words, it is possible to use the search database 3 without changing it, so that desired document data can be efficiently searched.
[0032]
The search condition creating unit 9 may add a search condition for shortening the search time by referring to a stop word dictionary for preventing a predetermined word from being searched. This makes it possible to register words that do not need to be checked intentionally, thereby preventing the processing time for words appearing in many documents from being lengthened.
[0033]
As described above, since the affirmative / negative flag is registered in the search database 3 during the morphological analysis at the time of document registration, it is possible to prevent a document having a completely opposite meaning from being found. In particular, at the time of troubleshooting, document data having a completely opposite meaning is not necessary, so that desired document data can be efficiently found. Further, since a document containing a similar word of a word obtained as a result of morphological analysis of a question sentence is searched, it is easy to find desired document data. When displaying the search result, the search result using the morphological analysis result and the search result using the similar word are stored in the search result storage unit 12, and the display is performed after the importance is rearranged. As a result, the possibility that a document with higher importance is displayed at a higher position than in a case where a search using a morphological analysis result and a search using a similar word are executed separately is increased.
[0034]
Note that the input unit 8 and the display unit 14 illustrated in FIG. 1 may be provided in a terminal device via the Internet or the like. In this way, if the user who purchases the computer equipment inputs a question using a personal computer at home and displays the answer on the user's personal computer, a user support system using the Internet is constructed. It is possible.
[0035]
Alternatively, a question sentence input from the input unit 8 is totaled, a word having a high frequency of appearance is selected from the question sentence, and the selected word is used in the “word” field of the similar word dictionary 10 shown in FIG. Good. Then, by extracting similar words for these words from a term dictionary or the like and registering them in the similar word dictionary 10, the similar word dictionary 10 can be easily created.
[0036]
Further, a program for realizing the function of the processing unit in FIG. 1 is recorded on a computer-readable recording medium, and the program recorded on this recording medium is read into a computer system and executed to execute the document search process. May go. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer system” also includes a WWW system provided with a homepage providing environment (or display environment). The “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a storage device such as a hard disk built in a computer system. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) inside a computer system serving as a server or a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. In addition, programs that hold programs for a certain period of time are also included.
[0037]
Further, the above program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the "transmission medium" for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. Further, the program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an embodiment of the present invention.
FIG. 2 is an explanatory diagram showing a table structure of a search database 3 shown in FIG.
FIG. 3 is a flowchart showing a search operation of the search system shown in FIG. 1;
4 is an explanatory diagram showing a table structure of a similar word dictionary 10 shown in FIG.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Document database, 2 ... Document registration part, 3 ... Search database, 4 ... Morphological analysis dictionary, 5 ... Morphological analysis part, 6 ... Weighting dictionary, 7 ... Importance calculation part, 8 ... Input part, 9 ... Search condition Creation unit, 10 ... Similar word dictionary, 11 ... Search unit, 12 ... Search result storage unit, 13 ... Total unit, 14 ... Display unit

Claims (8)

検索対象の文書データを記録する文書データベースと、
検索用のデータを記録する検索用データベースと、
形態素解析用のデータが予め記録された形態素解析辞書と、
前記形態素解析辞書を参照して、前記文書データベースに記録された文書データを形態素解析することにより単語を抽出するとともに、該単語について、肯定形または否定形を特定する形態素解析手段と、
前記形態素解析手段によって抽出した単語と、肯定または否定を特定する情報と、文書を特定する情報とを関連付けて前記検索用データベースに記録する文書登録手段と、
質問文を入力する入力手段と、
前記形態素解析手段により前記質問文を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する検索条件作成手段と、
前記検索条件に合致する文書を前記検索用データベースから検索する検索手段と、
前記検索手段における検索結果を表示する表示手段と
を備えたことを特徴とする検索システム。
A document database for recording document data to be searched;
A search database that records search data;
A morphological analysis dictionary in which data for morphological analysis is recorded in advance,
With reference to the morphological analysis dictionary, while extracting words by morphologically analyzing the document data recorded in the document database, for the words, a morphological analysis unit that specifies a positive or negative form,
Document registration means for associating the word extracted by the morphological analysis means, information specifying affirmation or negation, and information specifying a document and recording the information in the search database,
Input means for inputting a question sentence,
A morphological analysis of the question sentence by the morphological analysis means, based on the obtained word and information specifying affirmation or negation, a search condition creating means for creating a search condition,
Search means for searching the search database for documents matching the search condition;
Display means for displaying a search result in the search means.
検索対象の文書データを記録する文書データベースと、
検索用のデータを記録する検索用データベースと、
形態素解析用のデータが予め記録された形態素解析辞書と、
前記形態素解析辞書を参照して、前記文書データベースに記録された文書データを形態素解析することにより単語を抽出するとともに、該単語について、肯定形または否定形を特定する形態素解析手段と、
前記形態素解析手段によって抽出した単語と、肯定または否定を特定する情報と、文書を特定する情報とを関連付けて前記検索用データベースに記録する文書登録手段と、
単語毎に類似語が予め記録された類似語辞書と、
質問文を入力する入力手段と、
前記形態素解析手段により前記質問文を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する第1の検索条件作成手段と、
前記類似語辞書を参照して、前記質問文を形態素解析した結果得られた単語の類似語を得る類似語取得手段と、
前記類似語取得手段により得られた類似語に基づいて、検索条件を作成する第2の検索条件作成手段と、
前記第1の検索条件及び第2の検索条件のそれぞれに合致する文書を前記検索用データベースから検索する検索手段と、
前記検索手段によって検索した文書データを表示する表示手段と
を備えたことを特徴とする検索システム。
A document database for recording document data to be searched;
A search database that records search data;
A morphological analysis dictionary in which data for morphological analysis is recorded in advance,
With reference to the morphological analysis dictionary, while extracting words by morphologically analyzing the document data recorded in the document database, for the words, a morphological analysis unit that specifies a positive or negative form,
Document registration means for associating the word extracted by the morphological analysis means, information specifying affirmation or negation, and information specifying a document and recording the information in the search database,
A similar word dictionary in which similar words are recorded in advance for each word,
Input means for inputting a question sentence,
Morphological analysis of the question sentence by the morphological analysis means, a first search condition creating means for creating a search condition based on the obtained word and information specifying affirmative or negative,
Referring to the similar word dictionary, a similar word acquiring means for obtaining a similar word of a word obtained as a result of morphological analysis of the question sentence,
A second search condition creation unit that creates a search condition based on the similar words obtained by the similar word acquisition unit;
Search means for searching the search database for documents matching each of the first search condition and the second search condition;
Display means for displaying the document data searched by the search means.
検索対象の文書データを記録する文書データベースと、
検索用のデータを記録する検索用データベースと、
形態素解析用のデータが予め記録された形態素解析辞書と、
前記形態素解析辞書を参照して、前記文書データベースに記録された文書データを形態素解析することにより単語を抽出するとともに、該単語について、肯定形または否定形を特定する形態素解析手段と、
前記形態素解析手段によって抽出した単語と、肯定または否定を特定する情報と、文書を特定する情報とを関連付けて前記検索用データベースに記録する文書登録手段と、
単語毎に類似語が予め記録された類似語辞書と、
質問文を入力する入力手段と、
前記形態素解析手段により前記質問文を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する第1の検索条件作成手段と、
前記類似語辞書を参照して、前記質問文を形態素解析した結果得られた単語の類似語を得る類似語取得手段と、
前記形態素解析手段により前記類似語を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する第2の検索条件作成手段と、
前記第1の検索条件及び第2の検索条件のそれぞれに合致する文書を前記検索用データベースから検索する検索手段と、
前記検索手段によって検索した文書データを表示する表示手段と
を備えたことを特徴とする検索システム。
A document database for recording document data to be searched;
A search database that records search data;
A morphological analysis dictionary in which data for morphological analysis is recorded in advance,
With reference to the morphological analysis dictionary, while extracting words by morphologically analyzing the document data recorded in the document database, for the words, a morphological analysis unit that specifies a positive or negative form,
Document registration means for associating the word extracted by the morphological analysis means, information specifying affirmation or negation, and information specifying a document and recording the information in the search database,
A similar word dictionary in which similar words are recorded in advance for each word,
Input means for inputting a question sentence,
Morphological analysis of the question sentence by the morphological analysis means, a first search condition creating means for creating a search condition based on the obtained word and information specifying affirmative or negative,
Referring to the similar word dictionary, a similar word acquiring means for obtaining a similar word of a word obtained as a result of morphological analysis of the question sentence,
Morphological analysis of the similar words by the morphological analysis means, a second search condition creation means for creating a search condition based on the obtained word and information specifying affirmation or negation,
Search means for searching the search database for documents matching each of the first search condition and the second search condition;
Display means for displaying the document data searched by the search means.
前記検索システムは、
形態素解析手段により得られた単語の重要度を計算して、単語の重要度を各単語に関連付けて前記検索用データベースに記録する重要度計算手段と、
検索結果を重要度順に並べ替える集計手段と、
をさらに備え、
前記表示手段は、前記集計手段により重要度順に並べ替えた検索結果を表示することを特徴とする請求項1ないし3のいずれかに記載の検索システム。
The search system comprises:
Importance calculating means for calculating the importance of the word obtained by the morphological analysis means, recording the importance of the word in the search database in association with each word,
Aggregation means for sorting search results by importance,
Further comprising
4. The search system according to claim 1, wherein the display unit displays the search results sorted by importance in the totaling unit.
検索対象の文書データを記録する文書データベースと、
検索用のデータを記録する検索用データベースと、
形態素解析用のデータが予め記録された形態素解析辞書と
を備えた検索システムにおいて動作する検索プログラムであって、
前記形態素解析辞書を参照して、前記文書データベースに記録された文書データを形態素解析することにより単語を抽出するとともに、該単語について、肯定形または否定形を特定する形態素解析処理と、
前記形態素解析処理によって抽出した単語と、肯定または否定を特定する情報と、文書を特定する情報とを関連付けて前記検索用データベースに記録する文書登録処理と、
質問文を入力する入力処理と、
前記形態素解析処理により前記質問文を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する検索条件作成処理と、
前記検索条件に合致する文書を前記検索用データベースから検索する検索処理と、
前記検索処理における検索結果を表示する表示処理と
をコンピュータに行わせることを特徴とする検索プログラム。
A document database for recording document data to be searched;
A search database that records search data;
A search program that operates in a search system including a morphological analysis dictionary in which data for morphological analysis is recorded in advance,
With reference to the morphological analysis dictionary, while extracting words by morphologically analyzing the document data recorded in the document database, for the words, a morphological analysis process for specifying a positive or negative form,
A word extracted by the morphological analysis process, information for specifying affirmation or negation, and document registration processing for associating information for specifying a document and recording the information in the search database;
Input processing for inputting a question sentence,
A morphological analysis of the question sentence by the morphological analysis process, based on the obtained word and information specifying affirmation or negation, a search condition creation process of creating a search condition,
A search process for searching the search database for a document that matches the search condition;
A search program for causing a computer to perform a display process for displaying a search result in the search process.
検索対象の文書データを記録する文書データベースと、
検索用のデータを記録する検索用データベースと、
形態素解析用のデータが予め記録された形態素解析辞書と、
単語毎に類似語が予め記録された類似語辞書と
を備えた検索システムにおいて動作する検索プログラムであって、
前記形態素解析辞書を参照して、前記文書データベースに記録された文書データを形態素解析することにより単語を抽出するとともに、該単語について、肯定形または否定形を特定する形態素解析処理と、
前記形態素解析処理によって抽出した単語と、肯定または否定を特定する情報と、文書を特定する情報とを関連付けて前記検索用データベースに記録する文書登録処理と、
質問文を入力する入力処理と、
前記形態素解析処理により前記質問文を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する第1の検索条件作成処理と、
前記類似語辞書を参照して、前記質問文を形態素解析した結果得られた単語の類似語を得る類似語取得処理と、
前記類似語取得処理により得られた類似語に基づいて、検索条件を作成する第2の検索条件作成処理と、
前記第1の検索条件及び第2の検索条件のそれぞれに合致する文書を前記検索用データベースから検索する検索処理と、
前記検索処理によって検索した文書データを表示する表示処理と
をコンピュータに行わせることを特徴とする検索プログラム。
A document database for recording document data to be searched;
A search database that records search data;
A morphological analysis dictionary in which data for morphological analysis is recorded in advance,
A search program that operates in a search system including a similar word dictionary in which similar words are recorded in advance for each word,
With reference to the morphological analysis dictionary, while extracting words by morphologically analyzing the document data recorded in the document database, for the words, a morphological analysis process for specifying a positive or negative form,
A word extracted by the morphological analysis process, information for specifying affirmation or negation, and document registration processing for associating information for specifying a document and recording the information in the search database;
Input processing for inputting a question sentence,
A first search condition creation process for creating a search condition based on the obtained word and information specifying affirmation or negation, by morphologically analyzing the question sentence by the morphological analysis process;
Referring to the similar word dictionary, a similar word acquisition process of obtaining a similar word of a word obtained as a result of morphological analysis of the question sentence,
A second search condition creation process for creating a search condition based on the similar words obtained by the similar word acquisition process;
A search process for searching the search database for a document that matches each of the first search condition and the second search condition;
A search program for causing a computer to perform a display process of displaying document data searched by the search process.
検索対象の文書データを記録する文書データベースと、
検索用のデータを記録する検索用データベースと、
形態素解析用のデータが予め記録された形態素解析辞書と、
単語毎に類似語が予め記録された類似語辞書と
を備えた検索システムにおいて動作する検索プログラムであって、
前記形態素解析辞書を参照して、前記文書データベースに記録された文書データを形態素解析することにより単語を抽出するとともに、該単語について、肯定形または否定形を特定する形態素解析処理と、
前記形態素解析処理によって抽出した単語と、肯定または否定を特定する情報と、文書を特定する情報とを関連付けて前記検索用データベースに記録する文書登録処理と、
質問文を入力する入力処理と、
前記形態素解析処理により前記質問文を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する第1の検索条件作成処理と、
前記類似語辞書を参照して、前記質問文を形態素解析した結果得られた単語の類似語を得る類似語取得処理と、
前記形態素解析処理により前記類似語を形態素解析し、得られた単語と肯定または否定を特定する情報に基づいて、検索条件を作成する第2の検索条件作成処理と、
前記第1の検索条件及び第2の検索条件のそれぞれに合致する文書を前記検索用データベースから検索する検索処理と、
前記検索処理によって検索した文書データを表示する表示処理と
をコンピュータに行わせることを特徴とする検索プログラム。
A document database for recording document data to be searched;
A search database that records search data;
A morphological analysis dictionary in which data for morphological analysis is recorded in advance,
A search program that operates in a search system including a similar word dictionary in which similar words are recorded in advance for each word,
With reference to the morphological analysis dictionary, while extracting words by morphologically analyzing the document data recorded in the document database, for the words, a morphological analysis process for specifying a positive or negative form,
A word extracted by the morphological analysis process, information for specifying affirmation or negation, and document registration processing for associating information for specifying a document and recording the information in the search database;
Input processing for inputting a question sentence,
A first search condition creation process for creating a search condition based on the obtained word and information specifying affirmation or negation, by morphologically analyzing the question sentence by the morphological analysis process;
Referring to the similar word dictionary, a similar word acquisition process of obtaining a similar word of a word obtained as a result of morphological analysis of the question sentence,
A second search condition creating process for creating a search condition based on the obtained word and information specifying affirmative or negative, by morphologically analyzing the similar words by the morphological analysis process;
A search process for searching the search database for a document that matches each of the first search condition and the second search condition;
A search program for causing a computer to perform a display process of displaying document data searched by the search process.
前記検索プログラムは、
形態素解析処理により得られた単語の重要度を計算して、単語の重要度を各単語に関連付けて前記検索用データベースに記録する重要度計算処理と、
検索結果を重要度順に並べ替える集計処理と、
をさらにコンピュータに行わせ、
前記表示処理は、前記集計処理により重要度順に並べ替えた検索結果を表示することを特徴とする請求項5ないし7のいずれかに記載の検索プログラム。
The search program,
Calculating the importance of the word obtained by the morphological analysis processing, and the importance calculation processing of recording the importance of the word in association with each word in the search database;
An aggregation process that sorts search results by importance,
To the computer further,
8. The search program according to claim 5, wherein the display process displays search results sorted in order of importance by the aggregation process.
JP2003077367A 2003-03-20 2003-03-20 Retrieval system and retrieval program Pending JP2004287696A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003077367A JP2004287696A (en) 2003-03-20 2003-03-20 Retrieval system and retrieval program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003077367A JP2004287696A (en) 2003-03-20 2003-03-20 Retrieval system and retrieval program

Publications (1)

Publication Number Publication Date
JP2004287696A true JP2004287696A (en) 2004-10-14

Family

ID=33292136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003077367A Pending JP2004287696A (en) 2003-03-20 2003-03-20 Retrieval system and retrieval program

Country Status (1)

Country Link
JP (1) JP2004287696A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086210A (en) * 2008-09-30 2010-04-15 Yahoo Japan Corp Retrieval method, program, and server for preferentially displaying page corresponding to amount of information
WO2019193796A1 (en) * 2018-04-03 2019-10-10 株式会社Nttドコモ Interaction server
JP2020013514A (en) * 2018-07-20 2020-01-23 株式会社リコー Retrieval device, retrieval method and retrieval program
CN111814018A (en) * 2019-04-10 2020-10-23 蓝海系统株式会社 Recording management system, recording management apparatus, document approval and creation method, and recording medium

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086210A (en) * 2008-09-30 2010-04-15 Yahoo Japan Corp Retrieval method, program, and server for preferentially displaying page corresponding to amount of information
WO2019193796A1 (en) * 2018-04-03 2019-10-10 株式会社Nttドコモ Interaction server
JP2020013514A (en) * 2018-07-20 2020-01-23 株式会社リコー Retrieval device, retrieval method and retrieval program
JP7172226B2 (en) 2018-07-20 2022-11-16 株式会社リコー SEARCH DEVICE, SEARCH METHOD AND SEARCH PROGRAM
US11531816B2 (en) 2018-07-20 2022-12-20 Ricoh Company, Ltd. Search apparatus based on synonym of words and search method thereof
CN111814018A (en) * 2019-04-10 2020-10-23 蓝海系统株式会社 Recording management system, recording management apparatus, document approval and creation method, and recording medium

Similar Documents

Publication Publication Date Title
US8402036B2 (en) Phrase based snippet generation
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
KR101723862B1 (en) Apparatus and method for classifying and analyzing documents including text
RU2704531C1 (en) Method and apparatus for analyzing semantic information
JP2002245061A (en) Keyword extraction
JP2002132812A (en) Method and system for answering question and recording medium with recorded question answering program
JP5718405B2 (en) Utterance selection apparatus, method and program, dialogue apparatus and method
JP2001084250A (en) Method and device for extracting knowledge from enormous document data and medium
WO2012067586A1 (en) Database searching
JP2002132811A (en) Method and system for answering question and recording medium with recorded question answering program
JP2010267247A (en) Device and method for retrieving information, terminal equipment, and program
JP3583631B2 (en) Information mining method, information mining device, and computer-readable recording medium recording information mining program
JPH10207910A (en) Related word dictionary preparing device
CN110427626B (en) Keyword extraction method and device
Sharma et al. Phrase-based text representation for managing the web documents
JP4499179B1 (en) Terminal device
JP4428703B2 (en) Information retrieval method and system, and computer program
JP4057962B2 (en) Question answering apparatus, question answering method and program
JP2004287696A (en) Retrieval system and retrieval program
JP2006293616A (en) Document aggregating method, and device and program
JP2008257511A (en) Technical term extraction device, method, and program
JP2005202924A (en) Translation determination system, method, and program
JP5187187B2 (en) Experience information search system
JP2005326952A (en) Method and device for word registration in concept dictionary, and program
Selvadurai A natural language processing based web mining system for social media analysis