JP2002269139A - 文書検索方法 - Google Patents

文書検索方法

Info

Publication number
JP2002269139A
JP2002269139A JP2001064404A JP2001064404A JP2002269139A JP 2002269139 A JP2002269139 A JP 2002269139A JP 2001064404 A JP2001064404 A JP 2001064404A JP 2001064404 A JP2001064404 A JP 2001064404A JP 2002269139 A JP2002269139 A JP 2002269139A
Authority
JP
Japan
Prior art keywords
document
search
character string
word
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001064404A
Other languages
English (en)
Inventor
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001064404A priority Critical patent/JP2002269139A/ja
Publication of JP2002269139A publication Critical patent/JP2002269139A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 登録された文書群から指定された文字列を含
む文書を簡易にかつ高速に検索することである。 【解決手段】 登録文書あるいは検索文字列であるテキ
ストをn−gram(n文字組)および単語に分解する
テキスト分割手段、登録文書中のn−gramに関する
出現情報をn−gramごとに保持しておくn−gra
m索引、登録文書中の単語境界に関する出現情報を保持
しておく単語境界索引、検索文字列をn−gramに分
割した結果に基づいてn−gram索引を参照して検索
文字列を含む文書あるいはその文書における出現位置を
検索する文字列単位検索手段、文字列単位検索手段の結
果に対し検索文字列を単語に分割した結果に基づいて単
語境界索引を参照して検索文字列が単語として現われて
いるかを判断し、検索文字列を単語として含む文書を検
索する単語単位検索手段、からなる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、登録された文書群
から指定された文字列を含む文書を検索する文書検索方
法に関する。
【0002】
【従来の技術】登録された文書群から必要な文書を検索
する文書検索方法には、文字列単位の検索(以下、文字
列単位検索)と単語単位の検索(以下、単語単位検索)
の2つの方法がある。文字列単位検索では、ユーザが指
定した文字列(以下、検索文字列)を文字列として含む
文書を検索する。文字列単位検索を高速化する方法とし
ては、文書中のn文字組(以下、n−gram)を索引
単位として、索引単位ごとに出現した文書識別子と文書
内での出現位置を記録する n−gram 索引を用意
しておく方法が知られている。一方、単語単位検索で
は、ユーザが指定した検索文字列を単語として含む文書
を検索する。単語単位検索を高速化する方法としては、
文書中の単語を索引単位として、索引単位ごとに出現し
た文書識別子と文書内での出現位置を記録する単語索引
を用意しておく方法が知られている。
【0003】
【発明が解決しようとする課題】しかし、いずれの検索
方法にも問題がある。文字列単位検索の場合、単語境界
を無視して検索するため、ユーザが意図しない文書が検
索結果に含まれることがある。例えば、「帯電」(電気
を帯びること;electrification)を検
索文字列とした場合、「彼女の携帯電話」という文書が
検索されてしまう。一方、単語単位検索の場合、日本語
においては単語の区切れが明示的に示されないため、索
引を作成する際に形態素解析などを施して単語を切り出
す必要があるが、現在の技術レベルでは形態素解析の誤
りが避けられない。したがって、形態素解析誤りが原因
で検索漏れが起こる。例えば、「東京都にある清水寺」
という文書を登録する際、/東/京都/に/ある/清水
寺/と形態素解析されるべきところを/東京/都/に/
ある/清水/寺/のように誤って解析されれば、検索文
字列が「京都」のときに「東京都にある清水寺」という
文書を検索することができない。
【0004】上述した問題を避けるには、システムが両
検索方法をサポートし、ユーザがニーズに応じていずれ
かの検索方法を指定できるようにすればよい。そのよう
な検索方法の従来技術として特開2000−67070
がある。この発明では、文書登録時に単語の切れ目に特
殊な区切り文字を挿入し、区切り文字を挿入したデータ
からn−gramを切り出し、索引を作成する。その
際、区切り文字の前後を連結させて得られるn−gra
mも切り出して索引に記録する。ユーザが単語単位検索
を指定した場合には区切り文字を含むn−gramを無
視することなく検索処理を行い、文字列単位検索を指定
した場合には区切り文字を含むn−gramを無視して
検索処理を行う。
【0005】別の従来技術としては特開平7−8503
3号公報に記載された技術がある。この発明では、文字
ごとにその文字が出現する文書、その文書における出現
位置、および各出現位置が単語の先頭/末尾かのフラグ
を記録しておく。検索時には文字ごとの出現位置に基づ
いて文字列単位の検索を実現するとともに、単語の先頭
/末尾かのフラグも参照することで単語単位の検索も実
現する。
【0006】しかし、前者には以下の問題がある。単語
の切れ目を区切り文字で表現している。一般に文字は固
定長(例えば、UCS2表現のユニコードでは2バイ
ト)で表現されるが、表現可能な値がすべて意味ある文
字として使われる場合には、この方法を適用できない。
【0007】一方、後者には以下の問題がある。文字列
単位の検索が文字索引に基づいているので、n−gra
m索引と比較して検索速度が遅い。
【0008】さらに、両者に共通の問題点として以下の
問題もある。単語の切れ目を発見するための形態素解析
系(あるいはそれが使用する辞書)を更新した場合、切
れ目の位置が変わるため、索引全体の作り直しが必要で
ある。その結果、索引のメンテナンス作業に多大な時間
を要する。
【0009】
【課題を解決するための手段】本発明はこれら問題点を
鑑みて発明されたもので、文字列単位検索用のn−gr
am索引に加えて、単語の切れ目の位置を記録した単語
境界索引を用意する。文字列単位検索は従来と同じくn
−gram索引を用いて処理する。単語単位索引は、文
字列単位検索を行った上で検索文字列の文書中での出現
位置が単語境界に一致するかを単語境界索引を用いて判
定し、実現する。本発明によれば、特殊な区切り文字が
不要なので、どんな文字コードに対して適用可能であ
る。また、文字列単位検索をn−gram索引を用いて
行うので高速である。さらに、単語の切れ目に関する情
報はn−gram索引には影響しないので、形態素解析
系を更新した場合でも単語境界索引のみを作り直せばよ
い。
【0010】
【発明の実施の形態】本発明の第1の実施の形態を図面
に基づいて説明する。図1において、テキスト分割手段
は、登録文書あるいは検索条件に含まれるテキストをn
−gramおよび単語に分解する。N−gram索引
は、登録文書を分割したn−gramの情報を、検索の
ために保持するものである。単語境界索引は、登録文書
を分割した単語の情報を、検索のために保持するもので
ある。文字列単位検索手段は、テキスト分割手段が検索
文字列を分割したn−gramに基づいて、n−gra
m索引を用いて検索文字列を含む文書を検索するもので
ある。単語単位検索手段は、文字列単位検索手段で求め
られた文字列検索結果において検索文字列が単語として
出現しているかを単語境界索引を用いて決定するもので
ある。
【0011】登録においては、文書が与えられるとテキ
スト分割手段でn−gramと単語に分割し、それら出
現情報をn−gram索引および単語境界索引に記録す
る。
【0012】なお、単語への分割には形態素解析を利用
するが、形態素解析は既存の手法(例えば、松本裕治
他、「単語と辞書」言語の科学第3巻、岩波書店の53
ページ以降に書かれている)を採用すればよい。
【0013】登録手順を図2の例を用いて説明する。登
録文書(=文書1)の内容が図2の(a)、その形態素
解析結果は(b)の通りであるとする。いま、索引単位
をbi−gram(2文字組;n=2のn−gram)
とすると、この文書は「携帯」「帯電」のようなbi−
gramに分割され、(c)のようなn−gram索引
ができる。ここで、左側の文字列(「携帯」など)が索
引単位であるbi−gramを表し、右側の数字がその
索引単位が出現した文書識別子、その文書での出現回
数、各出現位置(文書先頭を1とした場合の文字数)を
表す。例えば、「帯電」に対する{1,1,(5)}
は、文書1には1回出現し、その位置は5文字目である
ことを意味する。(d)は単語境界索引で、形態素解析
結果で得られる単語境界の出現位置を記録したものであ
る。データの記述方法はn−gram索引と同じであ
り、{1,5,(1,3,4,6,8)}は文書1には
5回出現し、その位置は1,3,4,6,8文字目であ
ることを意味する。最後の8文字目は最後の単語の末尾
位置に対応する。
【0014】なお、n−gram索引の構成方法は、n
=2であるbi−gram 以外を用いてもかまわな
い。さらには、文字種に応じてnを調整する方法でもか
まわない。また、索引中では文書識別子などを圧縮〔例
えば、I.H.Witten他、Managing G
igabytes (second editio
n),Morgan Kaufmannの114〜12
8ページの方法〕して記録してもよい。
【0015】文字列単位検索では、検索文字列が与えら
れると、テキスト分割手段はn−gramに分割し、文
字列単位検索手段は分割されたn−gramに関する登
録文書中の出現文書あるいは出現文書とその文書内での
出現位置を用いて検索文字列を含む文書を決定する。
【0016】図2の索引を用いるとして、文字列単位検
索処理を説明する。検索文字列を「帯電」とすると、
(この検索文字列自体がbi−gramなので)テキス
ト分割手段は「帯電」を抽出する。つぎに、文字列単位
検索手段は、索引を調べると、「帯電」は文書1に出現
していることがわかり、文書1を検索結果とする。検索
文字列が「携帯電話」であれば、テキスト分割手段は
「携帯」[帯電]「電話」の3つのbi−gramを抽
出する。つぎに、文字列単位検索手段は、これらのbi
−gramを全て含む文書を特定し、その文書において
bi−gramが連続した位置に出現している場合には
その文書を検索結果とする。この場合、「携帯」[帯
電][電話]の出現位置は4,5,6と1ずれているの
で「携帯電話」は文書1において出現位置4に現われて
いると判断でき、文書1を検索結果とする一方、単語単
位検索では、文字列単位検索において文字列検索手段が
求める検索文字列の文書における出現が単語としてであ
るかを判定する。手順は以下の通りである。
【0017】(1)検索文字列を形態素解析し、単語の
区切りを得る。
【0018】(2)検索文字列で文字列検索を行い、検
索文字列を含む文書を特定する(なお、(3)(4)か
ら戻ってきた場合には、検索文字列を含む次の文書を特
定する)。見つからなければ終了。
【0019】(3)前述の(2)で検索された文書につ
いて、検索文字列の出現位置を得る(なお、(4)から
戻ってきた場合には、検索文字列の次の出現位置を得
る)。見つからなければ(2)に戻る。
【0020】(4)前述の(3)で得られた出現位置の
先頭から末尾までに含まれる単語境界を単語境界索引か
ら得る。その相対位置が(1)で得られた検索文字列の
単語境界と一致すれば(2)で特定された文書を検索結
果に追加し、(2)に戻る。相対位置が検索文字列の単
語境界と一致しなければ、(3)に戻る。
【0021】検索文字列「帯電」を例に説明する。ま
ず、形態素解析し/帯電/という結果が得られ、単語境
界は1,3文字目(先頭位置が1文字目で、末尾位置は
先頭位置に単語の長さ2を足して得られる)とわかる。
次に文字列検索すると文書1が特定され、そこでの出現
位置は5文字目から7文字目とわかる。ところが、この
文書における単語境界は…,4,6,…文字目で、一致
しないことがわかる。これ以外の出現位置・文書は見つ
けられないので、単語単位検索によれば該当文書なしと
いう検索結果になる。つまり、「帯電」は単語としては
現われていないことがわかる。
【0022】検索文字列が「携帯電話」だと以下のよう
になる。まず、形態素解析し/携帯/電話/という結果
が得られ、単語境界は1,3,5文字目とわかる。次に
文字列検索すると文書1が特定され、そこでの出現位置
は4文字目から8文字目とわかる。一方、この出現位置
付近の単語境界は4,6,8文字目であり、検索文字列
における単語境界と一致する。したがって、文書1は検
索結果に含まれる。この方法では、単語境界を文書の先
頭からの文字数で表現しているので、特殊文字を使用す
る必要がなく、任意の文字コードに対して適用可能であ
る。また、単語境界は文字列検索用のn−gram索引
とは別に作成・管理されるので、形態素解析系の変更時
には単語境界索引だけを作り直せばよく、索引のメンテ
ナンス作業が軽減される。
【0023】本発明の第2の実施の形態を説明する。前
述の第1の実施形態では、検索文字列の単語区切りと文
字列単位検索結果で得られる文書中の出現位置範囲の単
語区切りが一致することを検査する。したがって、検索
文字列が長くて単語区切りが多く含まれる場合には検索
文字列と文書中での単語区切りの一致検査に要する処理
量も多くなり、検索に時間を要する。
【0024】そこで、検索文字列と文書中での単語境界
の一致検査で全ての単語境界を用いるのではなく、先頭
位置と末尾位置のみを使用する。検索文字列が3個以上
の単語境界を含むのは複合語と考えられるが、ほとんど
の場合、先頭位置と末尾位置の単語境界が一致すれば文
字列単位検索で生じた誤検索を除くことができる。ま
た、先頭位置と末尾位置しか一致を調べないのであれば
検索文字列を形態素解析する必要もなく、一致検査も検
索文字列の長さに依存しないので、検索を高速化でき
る。
【0025】この方法では、単語単位検索の手順は以下
のように置き換わる。
【0026】(1)検索文字列で文字列検索を行い、検
索文字列を含む文書を特定する(なお、(2)(3)か
ら戻ってきた場合には、検索文字列を含む次の文書を特
定する)。見つからなければ終了。
【0027】(2)前述の(1)で検索された文書につ
いて、検索文字列の出現位置を得る(なお、(3)から
戻ってきた場合には、検索文字列の次の出現位置を得
る)。見つからなければ(1)に戻る。
【0028】(3)前述の(2)で得られた出現位置の
先頭から末尾が、単語境界索引に記録されていれば
(1)で特定された文書を検索結果に追加し、(1)に
戻る。記録されていなければ、(2)に戻る。
【0029】検索文字列が「携帯電話」の場合、文字列
検索される文書1における出現位置は4文字目から8文
字目である。これらは単語境界索引に記録されているの
で、検索文字列の前後の位置は単語境界であり、文書1
は検索結果に含まれる。
【0030】本発明の第3の実施の形態を説明する。前
述の第1、第2の実施の形態では単語単位検索により、
検索文字列が単語として出現しているかを判断した上で
検索を行っていた。しかし、特定の文字列で始まる単語
を含む文書を検索したい場合もある(以下では前方一致
検索と呼ぶ)。
【0031】前方一致検索では、文字列単位検索におい
て文字列検索手段が求める検索文字列の文書における出
現の先頭が単語境界であるかを判定する。検索手順は以
下の通りである。
【0032】(1)検索文字列で文字列検索を行い、検
索文字列を含む文書を特定する(なお、(2)(3)か
ら戻ってきた場合には、検索文字列を含む次の文書を特
定する)。見つからなければ終了。
【0033】(2)前述の(1)で検索された文書につ
いて、検索文字列の出現位置を得る(なお、(3)から
戻ってきた場合には、検索文字列の次の出現位置を得
る)。見つからなければ(1)に戻る。
【0034】(3)前述の(2)で得られた出現位置の
先頭が、単語境界索引に記録されていれば(1)で特定
された文書を検索結果に追加し、(1)に戻る。記録さ
れていなければ、(2)に戻る。
【0035】「携帯」ではじまる単語を含む文書を特定
したいという場合を例に説明する。「携帯」で文字列単
位検索される文書1における出現位置の先頭は4文字目
である。これは単語境界索引に記録されているので、文
書1は検索結果に含まれる。
【0036】検索文字列が「帯電」であれば、その文字
列単位検索で得られる出現位置の先頭は5文字目で、単
語境界索引に記録されていないので文書1は検索結果に
含まれない。
【0037】本発明の第4の実施の形態を説明する。第
3の実施の形態とは異なり、特定の文字列で終わる単語
を含む文書を検索したい場合もある(以下では、後方一
致検索と呼ぶ)。
【0038】後方一致検索では、文字列単位検索におい
て文字列検索手段が求める検索文字列の文書における出
現の末尾が単語境界であるかを判定する。検索手順は以
下の通りである。
【0039】(1)検索文字列で文字列検索を行い、検
索文字列を含む文書を特定する(なお、(2)(3)か
ら戻ってきた場合には、検索文字列を含む次の文書を特
定する)。見つからなければ終了。
【0040】(2)前述の(1)で検索された文書につ
いて、検索文字列の出現位置を得る(なお、(3)から
戻ってきた場合には、検索文字列の次の出現位置を得
る)。見つからなければ(1)に戻る。
【0041】(3)前述の(2)で得られた出現位置の
末尾が、単語境界索引に記録されていれば(1)で特定
された文書を検索結果に追加し、(1)に戻る。記録さ
れていなければ、(2)に戻る。
【0042】「電話」で終わる単語を含む文書を特定し
たいという場合を例に説明する。「電話」で文字列単位
検索される文書1における出現位置の末尾は8文字目で
ある。これは単語境界索引に記録されているので、文書
1は検索結果に含まれる。
【0043】本発明の第5の実施の形態を説明する。第
1の実施の形態では、全ての単語境界をまとめて記録し
ていたため、検索時に単語境界索引から読み出し、照合
処理にまわされるデータ量が多いという問題がある。通
常の日本語であれば単語の平均文字数は3文字程度であ
るので、1000文字の文書であれば単語数は300程
度となる。
【0044】そこで、本実施の形態では、単語の長さに
注目し、単語の長さ(文字数)によって単語境界位置を
分類し、異なるレコードとして記録する。例えば、図2
(d)には単語長が1と2のものが含まれているので、
単語長ごとに異なるレコードとした場合、図3のように
なる。なお、図2(d)では単語境界位置の末尾に最後
の単語の末尾位置を記録していたが、この方法では単語
の先頭位置と長さから単語の末尾位置が求められるの
で、最後の単語の末尾位置を記録する必要はない。した
がって、単語長1と2の単語境界の出現回数の合計は
4 であり、図2(d)の場合の出現回数5よりも1少
なくなっている。
【0045】この方法で記録した場合でも、単語単位検
索の流れは同じである。ただし、ステップ(4)で文書
から単語境界位置を読み出す際には、検索文字列中の単
語の長さに応じた境界位置を読み出す点が異なる。例え
ば、検索文字列が「帯電」、「携帯電話」であれば、い
ずれも検索文字列中の単語の長さは2なので、単語長2
に対応する単語境界位置データのみを使用する。
【0046】一方、第2、第3、第4の実施の形態に示
した単語単位検索では照合すべき単語境界に対応する単
語の長さが一意に特定できないので、全ての長さの単語
境界位置を位置順にマージした結果を単語境界位置とし
て使用する必要がある。マージの際、最後の単語の末尾
位置を最後の単語の先頭位置と長さから計算し、マージ
結果に含める必要がある。図3のデータであれば、
(3)と(1,4,6)を単にマージして(1,3,
4,6)とするのでなく、最後の単語の先頭位置6にそ
の単語の長さ2を足した8をアペンドした(1,3,
4,6,8)を単語境界の照合に使用する。
【0047】本発明の第6の実施の形態を説明する。第
1の実施の形態では、全ての単語境界を記録していたた
め、単語境界索引が大きいという問題がある。1文書中
の単語数が300の場合、位置を4バイトで記録する
と、1文書あたり1.2キロバイト必要になる。出現位
置は圧縮することでデータ量を削減することは可能だ
が、それでも記録すべき単語境界位置を減らすことが望
ましい。
【0048】そこで、本実施の形態では、検索語として
実際に使用されるのは名詞等の自立語が大半であるとい
う点に注目し、文書登録時に形態素解析結果から特定の
品詞の単語についてのみ単語境界位置を単語境界索引に
記録する。例えば、図4(a)の文書は形態素解析によ
って(b)のように単語分割される。これを実施形態1
の単語境界索引に記録すると(c)のようになる。この
文書の大半の単語は助詞・助動詞・形式名詞であり、検
索文字列として使用されることが多い名詞類は「経験」
「台風」だけである。それにもかかわらず(c)では全
ての単語の位置を記録しているので、多くの領域を使用
している。これに対し、本実施形態では名詞類である
「経験」「台風」の位置だけを記録する。この方法では
記録される単語が連続しているとは限らないので、連続
していない部分には連続していないことを表す特別な値
として0を挿入している。
【0049】なお、この例では選択する品詞を名詞とし
たが、それ以外の品詞を含めてもかまわない。
【0050】
【発明の効果】請求項1および請求項2に記載された文
書検索方法においては、文字列単位検索用のn−gra
m索引とは別個の単語境界索引を用いて単語単位検索を
提供しているので、どんな文字コードに対しても適用可
能であり、検索が高速で、索引のメンテナンスが簡単で
ある。
【0051】請求項3記載の文書検索方法においては、
単語単位検索時に照合すべき単語境界の個数が少なくな
るので、検索処理が高速になる。
【0052】請求項4記載の文書検索方法においては、
検索文字列ではじまる単語を検索できるので、ユーザに
柔軟な検索機能を提供できる。
【0053】請求項5記載の文書検索方法においては、
検索文字列でおわる単語を検索できるので、ユーザに柔
軟な検索機能を提供できる。
【0054】請求項6記載の文書検索方法においては、
単語境界索引を単語長に応じて分割するので、単語単位
検索時に参照すべき単語境界データが削減され、検索処
理が高速になる。
【0055】請求項7記載の文書検索方法においては、
単語境界索引に記録する単語を品詞によって選択するの
で、単語境界索引が小型化される。
【図面の簡単な説明】
【図1】文書検索方法の概要を示すブロック図である。
【図2】登録文書と索引の例を示す説明図である。
【図3】単語の長さで分割した単語境界索引の例を示す
説明図である。
【図4】登録文書と単語境界索引の例を示す説明図であ
る。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 登録文書あるいは検索文字列であるテキ
    ストをn−gram(n文字組)および単語に分解する
    テキスト分割手段、登録文書中のn−gramに関する
    出現情報をn−gramごとに保持しておくn−gra
    m索引、登録文書中の単語境界に関する出現情報を保持
    しておく単語境界索引、検索文字列をn−gramに分
    割した結果に基づいてn−gram索引を参照して検索
    文字列を含む文書あるいはその文書における出現位置を
    検索する文字列単位検索手段、文字列単位検索手段の結
    果に対し検索文字列を単語に分割した結果に基づいて単
    語境界索引を参照して検索文字列が単語として現われて
    いるかを判断し、検索文字列を単語として含む文書を検
    索する単語単位検索手段、からなることを特徴とする文
    書検索方法。
  2. 【請求項2】 n−gram索引および単語境界索引
    は、出現情報として出現文書の文書識別子・出現文書で
    の出現回数・出現文書での出現位置を含むことを特徴と
    する請求項1記載の文書検索方法。
  3. 【請求項3】 単語単位検索手段は、検索文字列の文書
    中での出現の先頭位置と末尾位置がその文書の単語境界
    に含まれている文書を、検索文字列を単語として含む文
    書として検索することを特徴とする請求項1又は請求項
    2記載の文書検索方法。
  4. 【請求項4】 単語単位検索手段は、検索文字列の文書
    中での出現の先頭位置がその文書の単語境界に含まれて
    いる文書を、検索文字列ではじまる単語を含む文書とし
    て検索することを特徴とする請求項1又は請求項2記載
    の文書検索方法。
  5. 【請求項5】 単語単位検索手段は、検索文字列の文書
    中での出現の末尾位置がその文書の単語境界に含まれて
    いる文書を、検索文字列で終わる単語を含む文書として
    検索することを特徴とする請求項1又は請求項2記載の
    文書検索方法。
  6. 【請求項6】 単語境界索引は、単語の長さごとに単語
    境界情報を記録することを特徴とする請求項1又は請求
    項2記載の文書検索方法。
  7. 【請求項7】 単語境界索引は、特定の品詞に属する単
    語に関する単語境界情報を記録することを特徴とする請
    求項1又は請求項2記載の文書検索方法。
JP2001064404A 2001-03-08 2001-03-08 文書検索方法 Pending JP2002269139A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001064404A JP2002269139A (ja) 2001-03-08 2001-03-08 文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001064404A JP2002269139A (ja) 2001-03-08 2001-03-08 文書検索方法

Publications (1)

Publication Number Publication Date
JP2002269139A true JP2002269139A (ja) 2002-09-20

Family

ID=18923227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001064404A Pending JP2002269139A (ja) 2001-03-08 2001-03-08 文書検索方法

Country Status (1)

Country Link
JP (1) JP2002269139A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008077543A (ja) * 2006-09-25 2008-04-03 Fujitsu Ltd レポート引用元情報取得装置、レポート引用元情報取得方法及びレポート引用元情報取得プログラム
US7529726B2 (en) 2005-08-22 2009-05-05 International Business Machines Corporation XML sub-document versioning method in XML databases using record storages
JP2009205397A (ja) * 2008-02-27 2009-09-10 Internatl Business Mach Corp <Ibm> 検索エンジン、検索システム、検索方法およびプログラム
JP2010250389A (ja) * 2009-04-10 2010-11-04 Internatl Business Mach Corp <Ibm> 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
US7937413B2 (en) 2004-05-04 2011-05-03 International Business Machines Corporation Self-adaptive prefix encoding for stable node identifiers
JP2013161371A (ja) * 2012-02-07 2013-08-19 Casio Comput Co Ltd テキスト検索装置及びプログラム
US8543614B2 (en) 2005-08-22 2013-09-24 International Business Machines Corporation Packing nodes into records to store XML XQuery data model and other hierarchically structured data
US8572125B2 (en) 2005-08-22 2013-10-29 International Business Machines Corporation Scalable storage schemes for native XML column data of relational tables
JP2014204356A (ja) * 2013-04-08 2014-10-27 日本電信電話株式会社 文字列圧縮方法及び装置
WO2017126057A1 (ja) * 2016-01-20 2017-07-27 株式会社日立製作所 情報検索方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937413B2 (en) 2004-05-04 2011-05-03 International Business Machines Corporation Self-adaptive prefix encoding for stable node identifiers
US7529726B2 (en) 2005-08-22 2009-05-05 International Business Machines Corporation XML sub-document versioning method in XML databases using record storages
US8161004B2 (en) 2005-08-22 2012-04-17 International Business Machines Corporation XML sub-document versioning method in XML databases using record storages
US8543614B2 (en) 2005-08-22 2013-09-24 International Business Machines Corporation Packing nodes into records to store XML XQuery data model and other hierarchically structured data
US8572125B2 (en) 2005-08-22 2013-10-29 International Business Machines Corporation Scalable storage schemes for native XML column data of relational tables
JP2008077543A (ja) * 2006-09-25 2008-04-03 Fujitsu Ltd レポート引用元情報取得装置、レポート引用元情報取得方法及びレポート引用元情報取得プログラム
JP2009205397A (ja) * 2008-02-27 2009-09-10 Internatl Business Mach Corp <Ibm> 検索エンジン、検索システム、検索方法およびプログラム
US8930372B2 (en) 2008-02-27 2015-01-06 International Business Machines Corporation Search engine, search system, search method, and search program product
JP2010250389A (ja) * 2009-04-10 2010-11-04 Internatl Business Mach Corp <Ibm> 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP2013161371A (ja) * 2012-02-07 2013-08-19 Casio Comput Co Ltd テキスト検索装置及びプログラム
JP2014204356A (ja) * 2013-04-08 2014-10-27 日本電信電話株式会社 文字列圧縮方法及び装置
WO2017126057A1 (ja) * 2016-01-20 2017-07-27 株式会社日立製作所 情報検索方法

Similar Documents

Publication Publication Date Title
JP4342753B2 (ja) 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
US7120586B2 (en) Method and system for segmenting and identifying events in images using spoken annotations
KR100612169B1 (ko) 데이터베이스 주석 처리 및 검색
US20070233465A1 (en) Information extracting apparatus, and information extracting method
US9020811B2 (en) Method and system for converting text files searchable text and for processing the searchable text
JP2002269139A (ja) 文書検索方法
JP4237813B2 (ja) 構造化文書管理システム
JP2007286742A (ja) 文書検索装置
JP3497243B2 (ja) 文書検索方法及び装置
JP4439496B2 (ja) 検索処理装置及びプログラム
Grishman Information extraction and speech recognition
JP2000090093A (ja) 全文検索方法及び全文検索システム並びに全文検索プログラムを記録した記録媒体
JP4091586B2 (ja) 構造化文書管理システム、索引構築方法及びプログラム
JPH10214268A (ja) 文書検索方法および装置
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JP4646289B2 (ja) データベースマネジメントシステム
JPH06124305A (ja) 文書検索方法
JPS61248160A (ja) 文書情報登録方式
JP2001092831A (ja) 文書検索装置及び文書検索方法
JP4160627B2 (ja) 構造化文書管理システム及びプログラム
JP4304226B2 (ja) 構造化文書管理システム、構造化文書管理方法及びプログラム
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP5644087B2 (ja) 構成要素ハイライト装置、プログラム、及び方法
JP3072955B2 (ja) 重複話題語を考慮した話題構造認識方法と装置
JPS6389976A (ja) 言語解析装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040930

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20051021

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060823

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090414

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090615

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090707