JP2002251402A - 文書検索方法及び文書検索装置 - Google Patents

文書検索方法及び文書検索装置

Info

Publication number
JP2002251402A
JP2002251402A JP2001050257A JP2001050257A JP2002251402A JP 2002251402 A JP2002251402 A JP 2002251402A JP 2001050257 A JP2001050257 A JP 2001050257A JP 2001050257 A JP2001050257 A JP 2001050257A JP 2002251402 A JP2002251402 A JP 2002251402A
Authority
JP
Japan
Prior art keywords
search
compound word
keyword
extracting
compound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001050257A
Other languages
English (en)
Inventor
Takeyuki Aikawa
勇之 相川
Katsushi Suzuki
克志 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001050257A priority Critical patent/JP2002251402A/ja
Publication of JP2002251402A publication Critical patent/JP2002251402A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来の検索システムは、形態素解析時に単語
区切りの曖昧性があると、誤った索引付けがされる可能
性があり、検索漏れを生じる。また、複合語区切りの曖
昧性解消手法は、解析誤り修正ルールや用例データを人
手で作成するため、大規模な用例データを作成すること
は困難である。 【解決手段】 キーワード抽出ステップで、電子化文書
からキーワードを抽出し、そのキーワードを上記電子化
文書に対応付けて索引データベースを索引生成ステップ
で生成する。一方、複合語用例抽出ステップで検索要求
の検索履歴から複合語用例データを抽出して複合語用例
データベースを生成し、上記キーワード抽出ステップ
は、上記複合語用例データベースを用いてキーワード抽
出を行なうことで、大量の複合語用例を自動的に収集
し、キーワード抽出時の複合語解析精度を向上させ、複
合語の一部からなる単語での検索もれを少なくする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、インターネット
上のWWW文書や、イントラネット上の電子化文書を検索
するための全文検索システムに関するものである。
【0002】
【従来の技術】近年のインターネットの普及および電子
化文書の急激な増大に伴い、大規模な検索システムの必
要性が大きくなっており、インターネット上のWWW文書
を検索するための全文検索システムが実用化されてい
る。日本語文書を検索対象とする既存システムのほとん
どでは、検索対象文書に対する形態素解析処理を行ない
日本語テキストを単語に分割し、これらの単語をキーワ
ードとする索引を生成して検索処理に用いている。
【0003】従来システムの一例として、「Goo/InfoBe
eが目指す自然言語処理(稲垣他、情報処理学会自然言
語処理研究会NL129-4、1999)」(以下、文献1)に開
示される技術について図8を参照しながら説明する。従
来の検索装置1は、制御部101、索引生成部102、キーワ
ード抽出部103、キーワード抽出用辞書104、索引データ
ベース106、検索処理部107から構成される。
【0004】制御部101では、索引生成部102や検索処理
部107の動作を制御する。索引生成部102がインターネッ
ト上のWWW文書121を収集する時間間隔を制御したり、大
量に発せられるユーザからの検索要求を並列処理するた
めの制御を行なう。
【0005】索引生成部102では、検索処理部107におけ
る検索処理を高速に行なうための索引データベース106
を生成する。インターネット上のWWW文書121を収集し、
テキスト部分を抽出してキーワード抽出部103において
キーワード抽出用辞書104を参照しつつ形態素解析を行
ない、WWW文書のインターネット上の存在位置を指し示
す情報であるURL(Uniform Resource Locator)と、当該
文書に含まれるキーワードとを対応づける索引データベ
ース106を生成する。
【0006】検索処理部107ではユーザからの検索要求1
22を受け付け、検索要求からキーワードを抽出して索引
データベース106を検索し、検索結果画面123を生成して
ユーザ端末に出力する。
【0007】文献1に示されるような形態素解析による
キーワード抽出を用いる検索システムには、単純な文字
列検索と異なり単語の区切りを考慮した索引付けがなさ
れるので不要な検索結果が少ないという利点がある。た
とえば、文字列検索であれば「義経」を検索しようとす
ると、「資本主義経済」という検索意図とは異なる検索
結果が多数出力されてしまうが、形態素解析によるキー
ワード抽出では「資本」「主義」「経済」という3つの
単語で索引付けされるので、「義経」という検索入力に
対して「資本主義経済」が検索されることはない。
【0008】しかし、日本語の単語区切りには曖昧性が
ある。とくに名詞が連続するような複合語の区切りに
は、たとえば「現代/用語」と「現/代用/語」のよう
な曖昧性があることが、「日本語形態素解析の誤りの回
復について(横尾他、言語処理学会第3回年次大会、p
p.429-432)」(文献2)において指摘されている。文
献2では、上記のような区切り誤りを手作業で分類して
修正ルールを作成し、形態素解析の後処理でこれらの修
正ルールを適用することにより区切り誤りを少なくして
いる。
【0009】また、上記のような曖昧性解消にあたっ
て、区切り情報、品詞情報、意味カテゴリ情報などをあ
らかじめ人手で付与した用例データを用いた複合語解析
手法が、「規則/用例融合型の日本語複合名詞解析法
(村中他、言語処理学会第6回年次大会、pp.399-40
2)」(文献3)において提案されている。
【0010】
【発明が解決しようとする課題】文献1に示される形態
素解析に基づくキーワード抽出を行なう検索システムで
は、形態素解析の際に単語区切りの曖昧性がある場合
は、誤った索引付けがなされる可能性があった。とくに
名詞等が連続して出現する複合語の区切り誤りを避けら
れなかった。そのため、図8のキーワード抽出部103の
処理結果によっては、たとえば「現代用語」を含む文書
に「現」「代用」「語」という誤った索引付けがされて
しまい、「用語」という検索入力に対して検索漏れを生
じるという問題があった。
【0011】文献2および文献3では複合語の区切りの
曖昧性を解消する手法が提案されているが、いずれも解
析誤り修正ルールや用例データを人手で作成するため作
成コストが非常に大きく、インタネット上の大量文書に
適用できるような大規模な用例データを作成することが
困難であるという課題があった。
【0012】この発明は上記のような問題点を解決する
ためになされたもので、ユーザの検索履歴から複合語区
切りを自動的に検出して複合語用例データベースに追加
する複合語用例データ抽出部を備えることにより、大量
の複合語用例を自動的に収集し、キーワード抽出におけ
る複合語の解析精度を向上し、複合語の一部からなる単
語での検索もれを少なくすることを目的とする。
【0013】
【課題を解決するための手段】この発明の文書検索方法
は、電子化文書からキーワードを抽出するキーワード抽
出ステップと、抽出されたキーワードを上記電子化文書
に対応付けて索引データベースを生成する索引生成ステ
ップと、検索要求からキーワードを抽出して上記索引デ
ータベースを検索し、検索結果を作成する検索処理ステ
ップとを備える検索方法において、検索要求を記録した
検索履歴から複合語用例データを抽出して複合語用例デ
ータベースを生成する複合語用例抽出ステップを有し、
上記キーワード抽出ステップでは、上記複合語用例デー
タベースを用いてキーワード抽出を行なう。
【0014】また、この発明の文書検索方法は、上記複
合語用例抽出ステップが、検索要求を表す検索式が複数
の単語を含む場合にこれらを組み合わせた単語入力がな
されているかどうかを判定する複合語出現判定ステップ
を有する。
【0015】また、この発明の文書検索方法は、上記複
合語用例抽出ステップが、同一ユーザの直前の検索要求
を表す検索式に部分文字列となる単語を含む場合に複合
語区切りを検出する複合語区切り検出ステップを有す
る。
【0016】また、この発明の文書検索方法は、上記複
合語用例抽出ステップが、検索要求を表す検索式の構造
を考慮した複合語用例を検索履歴から抽出する手法から
なる。
【0017】また、この発明の文書検索装置は、電子化
文書からキーワードを抽出するキーワード抽出部と、こ
のキーワードを上記電子化文書に対応付けた索引データ
ベースを生成する索引生成部と、検索要求からキーワー
ドを抽出して上記索引データベースを検索し、検索結果
を作成する検索処理部とを備える文書検索装置におい
て、検索要求を記録した検索履歴から複合語用例を抽出
して複合語用例データベースを生成する複合語用例抽出
部を有し、上記キーワード抽出部は上記複合語用例デー
タベースを用いてキーワード抽出を行なう。
【0018】
【発明の実施の形態】実施の形態1.図1に本発明の実施
の形態1.におけるシステム構成図を示す。検索装置1
は、制御部101、索引生成部102、キーワード抽出部10
3、キーワード抽出用辞書104、複合語用例データベース
105、索引データベース106、検索処理部107、検索履歴
データ108、複合語用例抽出部109から構成される。
【0019】制御部101では、索引生成部102や検索処理
部107、複合語用例抽出部109の動作を制御する。即ち、
制御部101は、索引生成部102がインターネット上のWWW
文書121を収集する時間間隔を制御したり、大量に発せ
られるユーザからの検索要求を並列処理するため検索処
理部107の制御を行なう。また、複合語用例抽出部109の
入力となる検索履歴データ108を出力する。
【0020】索引生成部102では、検索処理部107におけ
る検索処理を高速に行なうための索引データベース106
を生成する。インターネット上のWWW文書121を収集し、
テキスト部分を抽出してキーワード抽出部103において
キーワード抽出用辞書104および複合用例データベース1
05を参照しつつ形態素解析を行ない、WWW文書のインタ
ーネット上の存在位置を指し示す情報であるURL(Unifor
m Resource Locator)と、当該文書に含まれるキーワー
ドとを対応づける索引データベース106を生成する。
【0021】検索処理部107ではユーザからの検索要求1
22を受け付け、検索要求からキーワードを抽出して索引
データベース106を検索し、検索結果画面123を生成して
ユーザ端末に出力する。このとき、検索処理部107はユ
ーザからの検索要求122の内容を検索履歴データ108に出
力する。
【0022】図2は、図1の複合語用例抽出部109にお
いて実行される複合語用例抽出処理の詳細処理フローで
ある。以下、適宜図1およびその他の詳細図面を参照し
つつ、図2の各ステップについて説明する。
【0023】まず、複合語用例抽出部109は図2のステ
ップS201において、検索履歴データ108に含まれるすべ
ての単語を抽出して複合語用例抽出部109の作業用メモ
リ領域(図示は省略)に格納する。ここで抽出する単語
はキーワード抽出部103で形態素解析処理により抽出さ
れるキーワードではなく、実際にユーザが検索要求(検
索式)において記述した単語である。このことについ
て、図3に示した検索履歴データ108の例を用いて説明
する。
【0024】図3の301は、当該検索要求がどのユーザ
からいつ発せられたかを示すセッションIDである。この
情報はHTTP-cookieなどの既存技術により得ることがで
きるので詳細な説明は割愛する。ここでは以下の詳細処
理の説明を簡易にするため、IDの上4桁がユーザ情報
を、下4桁が同一ユーザによるセッション情報を表わす
ものとする。302は、各セッションにおいて入力された
検索式である。
【0025】図3に示した検索履歴データ108におい
て、セッションIDが01010001の検索式「現代用語」を
図1の検索処理部107で受け付けたときの処理について
考える。複合語用例データ105が空の状態では形態素解
析処理で区切り誤りの曖昧性を解消できず、「現」「代
用」「語」がキーワード抽出部103により抽出される。
ステップS201において抽出する単語とは、これらのキー
ワードではなく、「現代用語」というユーザが入力した
単語そのものである。なお、セッションIDが00010002
の検索式「現代 AND 用語」のように、"AND"や"OR"とい
った検索用の演算子を含む場合には、これらの演算子を
除いた各単語を抽出する。
【0026】つぎに図3のステップS202に進み、検索履
歴108の各検索式について、ステップS203からステップS
209の処理を繰り返す。
【0027】まず、ステップS203では、処理対象の検索
式が複数単語を含むかどうかを判定する。たとえば、図
3におけるセッションIDが00010002の検索式には、
「現代」と「用語」の2つの単語が含まれるのでステッ
プS204に進む。複数単語を含まない検索式については、
ステップS204からステップS206の処理をスキップしてス
テップS207に進む。
【0028】つぎにステップS204では、上記の複数単語
を組み合わせて複合語を生成し、この複合語がステップ
S201において作業用領域に格納した単語に含まれている
かどうかを判定する。たとえば、図3におけるセッショ
ンIDが01010001の検索式には、「現代用語」という単
語が含まれるので判定は成功してステップS205に進む。
検索式の複数単語を含まない検索式については、ステッ
プS204乃至ステップS206の処理をスキップしてステップ
S207に進む。
【0029】なお、上記の例では、「現代 AND 用語」
から「現代用語」という複合語を生成して判定を行なっ
たが、複合語の生成にあたって3つ以上の単語から生成
する場合には、検索式中の出現順序に従って組み合わせ
を決定しても良いし、順序を無視してすべての組み合わ
せを生成しても良い。たとえば「自然 AND 言語 AND処
理」という検索式から「自然言語処理」のみを生成して
も良いし、「自然言語」と「言語処理」をあわせて生成
してもよい。生成するパターンが増えれば、処理時間が
かかるかわりに、獲得できる複合語用例の量が増加す
る。
【0030】また、検索式が括弧などにより構造化され
ている場合には、組み合わせの生成に検索式の構造を反
映しても良い。たとえば、「語彙 AND (獲得 OR 抽
出)」という検索式の構造を反映して、「語彙獲得」と
「語彙抽出」という2つの組み合わせで複合語を生成す
ることも可能である。
【0031】図2に戻ってステップS205では、ステップ
S204で抽出された複合語用例が、図1の複合語用例デー
タベース105にすでに登録されているかどうかを判定す
る。未登録であればステップS206に進み、複合語用例を
登録する。既に登録済の用例であれば、ステップS207に
進む。上記の例では、「現代/用語」という複合語の用
例が登録される。
【0032】なお、図面を簡易にするため図2には示し
ていないが、ステップS204において複数の用例が抽出さ
れた場合には、それぞれの用例についてステップS205の
判定を行ない、未登録の用例についてはステップS206で
複合語用例を登録する。以下、図4の詳細フローで用例
登録処理の内容を説明する。
【0033】図4のステップS401において、まずステッ
プS204において抽出された用例中の各単語に対して図1
のキーワード抽出部103を呼び出してキーワード抽出処
理を行なう。これは、生成された複合語の各単語が複数
の形態素からなる場合もあるためである。たとえば、
「横浜 AND 博物館」という検索式と、「横浜博物館」
という検索式から「横浜/博物館」という複合語用例が
抽出されたとする。このとき、「博物館」は形態素解析
の結果、接尾語の「館」が区切られて「博物/館」とな
る。このような場合には、「横浜/博物/館」という複
合語用例を登録する。
【0034】つぎに図4のステップS402において、品詞
推定処理を行なう。品詞推定では、原則として抽出され
た複合語用例の右端形態素の品詞を用いる。例えば「現
代/用語」の場合は、「用語」という形態素のもつ品詞
情報である「名詞」であると推定する。ただし、元の形
態素の品詞を変更する働きをもつ例外的な形態素につい
ては、これらの形態素が接続した場合の品詞情報をあら
かじめ品詞変化一覧表として用意し、これを参照して品
詞を推定する。図5に品詞変化一覧表の例を示す。品詞
変化一覧表501には上記の働きをもつ例外的な形態素の
見出し情報502、品詞情報503、および接続後の複合語が
もつ品詞情報504からなる。
【0035】図6に複合語用例データベースの例を示
す。601は見出し情報であり、複合語全体の見出し文字
列を格納する。区切り情報602には複合語の区切り位置
を格納する。図6ではわかりやすいよう「/」で区切っ
た文字列を用いたが、このような区切り文字を使用する
かわりに分割文字位置を格納することで記憶容量を節減
することもできる。品詞情報603は、キーワード抽出処
理(後述)において使用する品詞情報である。
【0036】図2に戻ってステップS207では、同一ユー
ザの直前の検索式に含まれる単語と、今回の検索式に含
まれる単語とで部分文字列関係にあるものを検出する。
図3に示した例ではセッションIDが02010001の検索式
には「参政権」という単語があり、セッションIDが02
010002の検索式には「外国人参政権」という単語があ
る。このように前者が後者の部分文字列になっている場
合は、ユーザが検索キーワードを長くすることにより検
索結果を絞り込もうとした検索履歴であることが推定さ
れる。このことから、「外国人/参政権」という区切り
が正しいことが推定でき、これを複合語用例として抽出
することができる。
【0037】上記では説明を簡易にするために、連続す
る2つの検索式が、一方を部分文字列とするそれぞれ単
一の検索式となっている例を示したが、複数単語を含む
場合も同様に処理可能である。すなわち、「参政権 AND
歴史」という検索式と「外国人参政権 AND 歴史」とい
う検索式が連続して出現すれば、それぞれの検索式に出
現する単語の組み合わせのうち、部分文字列となる組み
合わせがひとつでも存在すれば、これを抽出すれば良
い。また、検索式「端末 OR 通信」と検索式「携帯端末
OR 無線通信」が連続する場合のように、「携帯/端
末」と「無線/通信」のように複数の組み合わせを同時
に抽出することもできる。
【0038】また、上記では連続する2つの検索式にお
いて、前者が後者の部分文字列になる単語の組み合わせ
がある場合について説明したが、逆に後者が前者の部分
文字列になる単語の組み合わせがある場合についても同
様の処理が可能である。たとえば、検索式「違法画像検
索」と検索式「画像検索」とが連続して出現したとす
る。この場合には、ユーザが検索キーワードを短くする
ことにより検索結果を広げようとした検索履歴であるこ
とが推定されるので、上記の「外国人/参政権」の場合
と同様に「違法/画像検索」という区切りが正しいこと
が推定でき、これを複合語用例として抽出することがで
きる。
【0039】さらに、上記では説明を簡易にするために
連続する2つの検索式において部分文字列となる単語の
組み合わせでの処理について説明したが、部分文字列と
なる単語の組み合わせをさがす範囲を広げることも可能
である。たとえば同一ユーザの検索式のうち、前後2番
目までに含まれる単語で処理することも可能である。ま
た、図3の検索履歴データ108のセッションIDに受付
処理時刻も含めるようにして、一定時間内に実行された
検索式のなかで部分文字列となる単語をさがすというこ
とも可能である。
【0040】図2に戻って、ステップS208では上記のよ
うな部分文字列を手がかりにして得られる複合語用例
が、図1の複合語用例データベース105にすでに登録さ
れているかどうかを判定する。未登録であればステップ
S209に進み、複合語用例を登録する。既に登録済の用例
であれば、ステップS202に進み次の検索式について処理
を続行する。
【0041】なお、図面を簡易にするため図2には示し
ていないが、ステップS207において複数の用例が抽出さ
れた場合には、それぞれの用例についてステップS208の
判定を行ない、未登録の用例についてはステップS209で
複合語用例を登録する。この点はステップS205およびス
テップS206と同様である。また、登録の際には、生成さ
れた複合語の各単語が複数の形態素からなる場合もある
ので、各単語が形態素解析により分割される場合には、
分割後の複合語用例を登録するという点についてもステ
ップS206と同様である。以上で図1の複合語用例抽出部
109において実行される複合語用例抽出処理の説明を終
わる。
【0042】つぎに図7を参照しながら、図1のキーワ
ード抽出部103において実行されるキーワード抽出処理
について説明する。前述のようにキーワード抽出処理に
は形態素解析処理を用いる。形態素解析のアルゴリズム
は良く知られているコスト最小法を用いるものとする。
【0043】図7のステップS701では、図1のキーワー
ド抽出用辞書データ104を参照して辞書検索処理を行な
う。入力された日本語テキストの各文字位置から始まる
部分文字列と見出し文字列との照合を行ない、照合に成
功した辞書エントリの内容を解析用の作業領域(図示せ
ず)に格納する。キーワード抽出用辞書データ104は、
形態素解析用の辞書であり、各形態素の見出し情報や品
詞情報を格納している。形態素解析に用いる辞書データ
および辞書検索処理については公知の技術が多数存在す
るので詳細な処理内容については説明を割愛する。
【0044】図7のステップS702では、図1の複合語用
例データベース105の検索処理を行なう。図6に示した
見出し情報601で複合語用例データを検索し、各複合語
をステップS701で検索された辞書情報と同様のデータ形
式で解析用の作業領域に格納する。ただし、解析結果出
力時に図6の区切り情報602を参照できるよう、ステッ
プS701において検索された辞書エントリとは区別できる
ようなフラグ情報も同時に作業領域に格納する。たとえ
ば、複合語用例データであれば1、ステップS701で検索
された辞書エントリであれば0であるとする。
【0045】図7のステップS703では、コスト最小法ア
ルゴリズムにしたがって解析処理を行なう。コスト最小
法では、上記ステップS701およびステップS702において
検索された各辞書エントリの品詞情報にしたがって接続
検定を行ない、もっともコストの小さくなる接続の組み
合わせをコスト最小解として出力するアルゴリズムであ
る。通常、文節数が少なくなるようにコストを設定する
と良い解析結果が得られることが経験的に知られてい
る。
【0046】一般にはステップS701で検索された個別の
形態素エントリよりも、ステップS702で検索された複合
語用例データのほうが見出しが長いため、上記のように
設定されたコストにしたがって解析すれば複合語用例デ
ータのほうが優先して解として採用される。ステップS7
02において作業領域に格納したフラグ情報を用いて、複
合語用例データがより優先的に解として採用されるよう
コストを調整することもできる。
【0047】図7のステップS704では、ステップS703で
求めたコスト最小解を出力する。このとき、作業用領域
に格納されたフラグ情報が1であれば複合語用例データ
なので、図6の区切り情報602を参照して単語分割の結
果を出力する。
【0048】このように、大量の検索要求を記録した検
索履歴データから抽出した複合語用例データベースを参
照してキーワード抽出を行なうことにより、複合語の区
切り誤りが減少する。たとえば「現/代用/語」といっ
た区切り誤りが減少すれば、「用語」という検索要求に
対して検索漏れも減少し、好適な検索結果が得られるよ
うになる。
【0049】以上説明したように、検索履歴から複合語
用例を抽出する複合語用例抽出ステップを有することに
より、自動的に大量の複合語用例データを抽出できるの
で、複合語の解析誤りが減少し、複合語を含む文書の検
索漏れが少なくなり好適な検索結果が得られるようにな
る。
【0050】
【発明の効果】以上説明したように、この発明は検索要
求を記録した検索履歴のデータから抽出した複合語用例
データの複合語用例データベースを生成し、複合語用例
データベースを参照してキーワード抽出を行なうことに
より、複合語の区切り誤りが減少し、検索漏れも減少し
て、好適な検索結果が得られるようになる。
【図面の簡単な説明】
【図1】 本発明の実施の形態1におけるシステム構成
図。
【図2】 複合語用例抽出処理の詳細処理フロー図。
【図3】 検索履歴データの例を示す説明図。
【図4】 用例登録処理の詳細フロー図。
【図5】 品詞変化一覧表の例を示す説明図。
【図6】 複合語用例データベースの例を示す説明図。
【図7】 キーワード抽出処理の詳細処理フロー図。
【図8】 従来の検索装置のシステム構成図。
【符号の説明】
1:検索装置、101:制御部、102:索引生成部、103:
キーワード抽出部、104:キーワード抽出用辞書、105:
複合語用例データベース、106:索引データベース、10
7:検索処理部、108:検索履歴データ、109複合語用例
抽出部。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 電子化文書からキーワードを抽出するキ
    ーワード抽出ステップと、抽出されたキーワードを上記
    電子化文書に対応付けて索引データベースを生成する索
    引生成ステップと、検索要求からキーワードを抽出して
    上記索引データベースを検索し、検索結果を作成する検
    索処理ステップとを備える検索方法において、検索要求
    を記録した検索履歴から複合語用例データを抽出して複
    合語用例データベースを生成する複合語用例抽出ステッ
    プを有し、上記キーワード抽出ステップでは、上記複合
    語用例データベースを用いてキーワード抽出を行なうこ
    とを特徴とする文書検索方法。
  2. 【請求項2】 上記複合語用例抽出ステップは、検索要
    求を表す検索式が複数の単語を含む場合にこれらを組み
    合わせた単語入力がなされているかどうかを判定する複
    合語出現判定ステップを有することを特徴とする請求項
    1記載の文書検索方法。
  3. 【請求項3】 上記複合語用例抽出ステップは、同一ユ
    ーザの直前の検索要求を表す検索式に部分文字列となる
    単語を含む場合に複合語区切りを検出する複合語区切り
    検出ステップを有することを特徴とする請求項1記載の
    文書検索方法。
  4. 【請求項4】 上記複合語用例抽出ステップは、検索要
    求を表す検索式の構造を考慮した複合語用例を検索履歴
    から抽出する手法であることを特徴とする請求項1記載
    の文書検索方法。
  5. 【請求項5】 電子化文書からキーワードを抽出するキ
    ーワード抽出部と、このキーワードを上記電子化文書に
    対応付けた索引データベースを生成する索引生成部と、
    検索要求からキーワードを抽出して上記索引データベー
    スを検索し、検索結果を作成する検索処理部とを備える
    文書検索装置において、検索要求を記録した検索履歴か
    ら複合語用例を抽出して複合語用例データベースを生成
    する複合語用例抽出部を有し、上記キーワード抽出部は
    上記複合語用例データベースを用いてキーワード抽出を
    行なうことを特徴とする文書検索装置。
JP2001050257A 2001-02-26 2001-02-26 文書検索方法及び文書検索装置 Pending JP2002251402A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001050257A JP2002251402A (ja) 2001-02-26 2001-02-26 文書検索方法及び文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001050257A JP2002251402A (ja) 2001-02-26 2001-02-26 文書検索方法及び文書検索装置

Publications (1)

Publication Number Publication Date
JP2002251402A true JP2002251402A (ja) 2002-09-06

Family

ID=18911244

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001050257A Pending JP2002251402A (ja) 2001-02-26 2001-02-26 文書検索方法及び文書検索装置

Country Status (1)

Country Link
JP (1) JP2002251402A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006524393A (ja) * 2003-04-04 2006-10-26 ヤフー! インコーポレイテッド 検索照会からコンセプトユニットを生成するためのシステム及び方法
US7684975B2 (en) 2003-02-12 2010-03-23 International Business Machines Corporation Morphological analyzer, natural language processor, morphological analysis method and program
JP2010244341A (ja) * 2009-04-07 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> 属性表現獲得方法及び装置及びプログラム
JP2012093465A (ja) * 2010-10-26 2012-05-17 Yahoo Japan Corp 抽出装置、抽出方法、プログラム、及びプログラムを配信する情報処理装置
US8190613B2 (en) 2007-06-19 2012-05-29 International Business Machines Corporation System, method and program for creating index for database
JP2014106707A (ja) * 2012-11-27 2014-06-09 Yahoo Japan Corp 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム
JP2014120007A (ja) * 2012-12-18 2014-06-30 Yahoo Japan Corp 辞書登録装置、単語分割装置、辞書登録方法、単語分割方法、およびプログラム
JP2015007943A (ja) * 2013-06-26 2015-01-15 日本電気株式会社 形態素解析装置、形態素解析方法、及び、形態素解析プログラム
JP2018041145A (ja) * 2016-09-05 2018-03-15 株式会社トヨタマップマスター 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7684975B2 (en) 2003-02-12 2010-03-23 International Business Machines Corporation Morphological analyzer, natural language processor, morphological analysis method and program
JP2006524393A (ja) * 2003-04-04 2006-10-26 ヤフー! インコーポレイテッド 検索照会からコンセプトユニットを生成するためのシステム及び方法
JP2011044159A (ja) * 2003-04-04 2011-03-03 Yahoo Inc 検索照会からコンセプトユニットを生成するためのシステム及び方法
US8190613B2 (en) 2007-06-19 2012-05-29 International Business Machines Corporation System, method and program for creating index for database
JP2010244341A (ja) * 2009-04-07 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> 属性表現獲得方法及び装置及びプログラム
JP2012093465A (ja) * 2010-10-26 2012-05-17 Yahoo Japan Corp 抽出装置、抽出方法、プログラム、及びプログラムを配信する情報処理装置
JP2014106707A (ja) * 2012-11-27 2014-06-09 Yahoo Japan Corp 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム
JP2014120007A (ja) * 2012-12-18 2014-06-30 Yahoo Japan Corp 辞書登録装置、単語分割装置、辞書登録方法、単語分割方法、およびプログラム
JP2015007943A (ja) * 2013-06-26 2015-01-15 日本電気株式会社 形態素解析装置、形態素解析方法、及び、形態素解析プログラム
JP2018041145A (ja) * 2016-09-05 2018-03-15 株式会社トヨタマップマスター 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体

Similar Documents

Publication Publication Date Title
JP4421134B2 (ja) 文書画像検索装置
KR100451978B1 (ko) 정보 검색 방법과 정보 검색 장치
US20060212433A1 (en) Prioritization of search responses system and method
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JP2014238865A (ja) 曖昧感応自然言語処理システムにおける同一指示解決
JP2000200291A (ja) 選択された文字列をテキスト内で自動検出する方法
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
WO1997004405A1 (en) Method and apparatus for automated search and retrieval processing
EP2529320A1 (en) Semantic textual analysis
JP2006523344A (ja) 対話形サーチクエリー改良のためのシステム及び方法
JP2002197104A (ja) 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
KR101709055B1 (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
KR20080085165A (ko) 입력 데이터 확장 시스템 및 방법, 및 와일드카드 삽입 및입력 데이터 확장 시스템
CN111859013A (zh) 数据处理方法、装置、终端和存储介质
JP2002251402A (ja) 文書検索方法及び文書検索装置
JP2000276487A (ja) 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体
JP4401269B2 (ja) 対訳判断装置及びプログラム
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2005326952A (ja) 概念辞書への単語登録方法、装置、およびプログラム
JP4298342B2 (ja) 重要度算出装置
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP3477822B2 (ja) 文書登録検索システム
JP2500680B2 (ja) デ−タ名付与登録装置
JP4206266B2 (ja) 全文検索装置、処理方法、処理プログラム及び記録媒体

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040702