JP2002269139A - 文書検索方法 - Google Patents
文書検索方法Info
- Publication number
- JP2002269139A JP2002269139A JP2001064404A JP2001064404A JP2002269139A JP 2002269139 A JP2002269139 A JP 2002269139A JP 2001064404 A JP2001064404 A JP 2001064404A JP 2001064404 A JP2001064404 A JP 2001064404A JP 2002269139 A JP2002269139 A JP 2002269139A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- character string
- word
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
む文書を簡易にかつ高速に検索することである。 【解決手段】 登録文書あるいは検索文字列であるテキ
ストをn−gram(n文字組)および単語に分解する
テキスト分割手段、登録文書中のn−gramに関する
出現情報をn−gramごとに保持しておくn−gra
m索引、登録文書中の単語境界に関する出現情報を保持
しておく単語境界索引、検索文字列をn−gramに分
割した結果に基づいてn−gram索引を参照して検索
文字列を含む文書あるいはその文書における出現位置を
検索する文字列単位検索手段、文字列単位検索手段の結
果に対し検索文字列を単語に分割した結果に基づいて単
語境界索引を参照して検索文字列が単語として現われて
いるかを判断し、検索文字列を単語として含む文書を検
索する単語単位検索手段、からなる。
Description
から指定された文字列を含む文書を検索する文書検索方
法に関する。
する文書検索方法には、文字列単位の検索(以下、文字
列単位検索)と単語単位の検索(以下、単語単位検索)
の2つの方法がある。文字列単位検索では、ユーザが指
定した文字列(以下、検索文字列)を文字列として含む
文書を検索する。文字列単位検索を高速化する方法とし
ては、文書中のn文字組(以下、n−gram)を索引
単位として、索引単位ごとに出現した文書識別子と文書
内での出現位置を記録する n−gram 索引を用意
しておく方法が知られている。一方、単語単位検索で
は、ユーザが指定した検索文字列を単語として含む文書
を検索する。単語単位検索を高速化する方法としては、
文書中の単語を索引単位として、索引単位ごとに出現し
た文書識別子と文書内での出現位置を記録する単語索引
を用意しておく方法が知られている。
方法にも問題がある。文字列単位検索の場合、単語境界
を無視して検索するため、ユーザが意図しない文書が検
索結果に含まれることがある。例えば、「帯電」(電気
を帯びること;electrification)を検
索文字列とした場合、「彼女の携帯電話」という文書が
検索されてしまう。一方、単語単位検索の場合、日本語
においては単語の区切れが明示的に示されないため、索
引を作成する際に形態素解析などを施して単語を切り出
す必要があるが、現在の技術レベルでは形態素解析の誤
りが避けられない。したがって、形態素解析誤りが原因
で検索漏れが起こる。例えば、「東京都にある清水寺」
という文書を登録する際、/東/京都/に/ある/清水
寺/と形態素解析されるべきところを/東京/都/に/
ある/清水/寺/のように誤って解析されれば、検索文
字列が「京都」のときに「東京都にある清水寺」という
文書を検索することができない。
検索方法をサポートし、ユーザがニーズに応じていずれ
かの検索方法を指定できるようにすればよい。そのよう
な検索方法の従来技術として特開2000−67070
がある。この発明では、文書登録時に単語の切れ目に特
殊な区切り文字を挿入し、区切り文字を挿入したデータ
からn−gramを切り出し、索引を作成する。その
際、区切り文字の前後を連結させて得られるn−gra
mも切り出して索引に記録する。ユーザが単語単位検索
を指定した場合には区切り文字を含むn−gramを無
視することなく検索処理を行い、文字列単位検索を指定
した場合には区切り文字を含むn−gramを無視して
検索処理を行う。
3号公報に記載された技術がある。この発明では、文字
ごとにその文字が出現する文書、その文書における出現
位置、および各出現位置が単語の先頭/末尾かのフラグ
を記録しておく。検索時には文字ごとの出現位置に基づ
いて文字列単位の検索を実現するとともに、単語の先頭
/末尾かのフラグも参照することで単語単位の検索も実
現する。
の切れ目を区切り文字で表現している。一般に文字は固
定長(例えば、UCS2表現のユニコードでは2バイ
ト)で表現されるが、表現可能な値がすべて意味ある文
字として使われる場合には、この方法を適用できない。
単位の検索が文字索引に基づいているので、n−gra
m索引と比較して検索速度が遅い。
問題もある。単語の切れ目を発見するための形態素解析
系(あるいはそれが使用する辞書)を更新した場合、切
れ目の位置が変わるため、索引全体の作り直しが必要で
ある。その結果、索引のメンテナンス作業に多大な時間
を要する。
鑑みて発明されたもので、文字列単位検索用のn−gr
am索引に加えて、単語の切れ目の位置を記録した単語
境界索引を用意する。文字列単位検索は従来と同じくn
−gram索引を用いて処理する。単語単位索引は、文
字列単位検索を行った上で検索文字列の文書中での出現
位置が単語境界に一致するかを単語境界索引を用いて判
定し、実現する。本発明によれば、特殊な区切り文字が
不要なので、どんな文字コードに対して適用可能であ
る。また、文字列単位検索をn−gram索引を用いて
行うので高速である。さらに、単語の切れ目に関する情
報はn−gram索引には影響しないので、形態素解析
系を更新した場合でも単語境界索引のみを作り直せばよ
い。
に基づいて説明する。図1において、テキスト分割手段
は、登録文書あるいは検索条件に含まれるテキストをn
−gramおよび単語に分解する。N−gram索引
は、登録文書を分割したn−gramの情報を、検索の
ために保持するものである。単語境界索引は、登録文書
を分割した単語の情報を、検索のために保持するもので
ある。文字列単位検索手段は、テキスト分割手段が検索
文字列を分割したn−gramに基づいて、n−gra
m索引を用いて検索文字列を含む文書を検索するもので
ある。単語単位検索手段は、文字列単位検索手段で求め
られた文字列検索結果において検索文字列が単語として
出現しているかを単語境界索引を用いて決定するもので
ある。
スト分割手段でn−gramと単語に分割し、それら出
現情報をn−gram索引および単語境界索引に記録す
る。
するが、形態素解析は既存の手法(例えば、松本裕治
他、「単語と辞書」言語の科学第3巻、岩波書店の53
ページ以降に書かれている)を採用すればよい。
録文書(=文書1)の内容が図2の(a)、その形態素
解析結果は(b)の通りであるとする。いま、索引単位
をbi−gram(2文字組;n=2のn−gram)
とすると、この文書は「携帯」「帯電」のようなbi−
gramに分割され、(c)のようなn−gram索引
ができる。ここで、左側の文字列(「携帯」など)が索
引単位であるbi−gramを表し、右側の数字がその
索引単位が出現した文書識別子、その文書での出現回
数、各出現位置(文書先頭を1とした場合の文字数)を
表す。例えば、「帯電」に対する{1,1,(5)}
は、文書1には1回出現し、その位置は5文字目である
ことを意味する。(d)は単語境界索引で、形態素解析
結果で得られる単語境界の出現位置を記録したものであ
る。データの記述方法はn−gram索引と同じであ
り、{1,5,(1,3,4,6,8)}は文書1には
5回出現し、その位置は1,3,4,6,8文字目であ
ることを意味する。最後の8文字目は最後の単語の末尾
位置に対応する。
=2であるbi−gram 以外を用いてもかまわな
い。さらには、文字種に応じてnを調整する方法でもか
まわない。また、索引中では文書識別子などを圧縮〔例
えば、I.H.Witten他、Managing G
igabytes (second editio
n),Morgan Kaufmannの114〜12
8ページの方法〕して記録してもよい。
れると、テキスト分割手段はn−gramに分割し、文
字列単位検索手段は分割されたn−gramに関する登
録文書中の出現文書あるいは出現文書とその文書内での
出現位置を用いて検索文字列を含む文書を決定する。
索処理を説明する。検索文字列を「帯電」とすると、
(この検索文字列自体がbi−gramなので)テキス
ト分割手段は「帯電」を抽出する。つぎに、文字列単位
検索手段は、索引を調べると、「帯電」は文書1に出現
していることがわかり、文書1を検索結果とする。検索
文字列が「携帯電話」であれば、テキスト分割手段は
「携帯」[帯電]「電話」の3つのbi−gramを抽
出する。つぎに、文字列単位検索手段は、これらのbi
−gramを全て含む文書を特定し、その文書において
bi−gramが連続した位置に出現している場合には
その文書を検索結果とする。この場合、「携帯」[帯
電][電話]の出現位置は4,5,6と1ずれているの
で「携帯電話」は文書1において出現位置4に現われて
いると判断でき、文書1を検索結果とする一方、単語単
位検索では、文字列単位検索において文字列検索手段が
求める検索文字列の文書における出現が単語としてであ
るかを判定する。手順は以下の通りである。
区切りを得る。
索文字列を含む文書を特定する(なお、(3)(4)か
ら戻ってきた場合には、検索文字列を含む次の文書を特
定する)。見つからなければ終了。
いて、検索文字列の出現位置を得る(なお、(4)から
戻ってきた場合には、検索文字列の次の出現位置を得
る)。見つからなければ(2)に戻る。
先頭から末尾までに含まれる単語境界を単語境界索引か
ら得る。その相対位置が(1)で得られた検索文字列の
単語境界と一致すれば(2)で特定された文書を検索結
果に追加し、(2)に戻る。相対位置が検索文字列の単
語境界と一致しなければ、(3)に戻る。
ず、形態素解析し/帯電/という結果が得られ、単語境
界は1,3文字目(先頭位置が1文字目で、末尾位置は
先頭位置に単語の長さ2を足して得られる)とわかる。
次に文字列検索すると文書1が特定され、そこでの出現
位置は5文字目から7文字目とわかる。ところが、この
文書における単語境界は…,4,6,…文字目で、一致
しないことがわかる。これ以外の出現位置・文書は見つ
けられないので、単語単位検索によれば該当文書なしと
いう検索結果になる。つまり、「帯電」は単語としては
現われていないことがわかる。
になる。まず、形態素解析し/携帯/電話/という結果
が得られ、単語境界は1,3,5文字目とわかる。次に
文字列検索すると文書1が特定され、そこでの出現位置
は4文字目から8文字目とわかる。一方、この出現位置
付近の単語境界は4,6,8文字目であり、検索文字列
における単語境界と一致する。したがって、文書1は検
索結果に含まれる。この方法では、単語境界を文書の先
頭からの文字数で表現しているので、特殊文字を使用す
る必要がなく、任意の文字コードに対して適用可能であ
る。また、単語境界は文字列検索用のn−gram索引
とは別に作成・管理されるので、形態素解析系の変更時
には単語境界索引だけを作り直せばよく、索引のメンテ
ナンス作業が軽減される。
述の第1の実施形態では、検索文字列の単語区切りと文
字列単位検索結果で得られる文書中の出現位置範囲の単
語区切りが一致することを検査する。したがって、検索
文字列が長くて単語区切りが多く含まれる場合には検索
文字列と文書中での単語区切りの一致検査に要する処理
量も多くなり、検索に時間を要する。
の一致検査で全ての単語境界を用いるのではなく、先頭
位置と末尾位置のみを使用する。検索文字列が3個以上
の単語境界を含むのは複合語と考えられるが、ほとんど
の場合、先頭位置と末尾位置の単語境界が一致すれば文
字列単位検索で生じた誤検索を除くことができる。ま
た、先頭位置と末尾位置しか一致を調べないのであれば
検索文字列を形態素解析する必要もなく、一致検査も検
索文字列の長さに依存しないので、検索を高速化でき
る。
のように置き換わる。
索文字列を含む文書を特定する(なお、(2)(3)か
ら戻ってきた場合には、検索文字列を含む次の文書を特
定する)。見つからなければ終了。
いて、検索文字列の出現位置を得る(なお、(3)から
戻ってきた場合には、検索文字列の次の出現位置を得
る)。見つからなければ(1)に戻る。
先頭から末尾が、単語境界索引に記録されていれば
(1)で特定された文書を検索結果に追加し、(1)に
戻る。記録されていなければ、(2)に戻る。
検索される文書1における出現位置は4文字目から8文
字目である。これらは単語境界索引に記録されているの
で、検索文字列の前後の位置は単語境界であり、文書1
は検索結果に含まれる。
述の第1、第2の実施の形態では単語単位検索により、
検索文字列が単語として出現しているかを判断した上で
検索を行っていた。しかし、特定の文字列で始まる単語
を含む文書を検索したい場合もある(以下では前方一致
検索と呼ぶ)。
て文字列検索手段が求める検索文字列の文書における出
現の先頭が単語境界であるかを判定する。検索手順は以
下の通りである。
索文字列を含む文書を特定する(なお、(2)(3)か
ら戻ってきた場合には、検索文字列を含む次の文書を特
定する)。見つからなければ終了。
いて、検索文字列の出現位置を得る(なお、(3)から
戻ってきた場合には、検索文字列の次の出現位置を得
る)。見つからなければ(1)に戻る。
先頭が、単語境界索引に記録されていれば(1)で特定
された文書を検索結果に追加し、(1)に戻る。記録さ
れていなければ、(2)に戻る。
したいという場合を例に説明する。「携帯」で文字列単
位検索される文書1における出現位置の先頭は4文字目
である。これは単語境界索引に記録されているので、文
書1は検索結果に含まれる。
列単位検索で得られる出現位置の先頭は5文字目で、単
語境界索引に記録されていないので文書1は検索結果に
含まれない。
3の実施の形態とは異なり、特定の文字列で終わる単語
を含む文書を検索したい場合もある(以下では、後方一
致検索と呼ぶ)。
て文字列検索手段が求める検索文字列の文書における出
現の末尾が単語境界であるかを判定する。検索手順は以
下の通りである。
索文字列を含む文書を特定する(なお、(2)(3)か
ら戻ってきた場合には、検索文字列を含む次の文書を特
定する)。見つからなければ終了。
いて、検索文字列の出現位置を得る(なお、(3)から
戻ってきた場合には、検索文字列の次の出現位置を得
る)。見つからなければ(1)に戻る。
末尾が、単語境界索引に記録されていれば(1)で特定
された文書を検索結果に追加し、(1)に戻る。記録さ
れていなければ、(2)に戻る。
たいという場合を例に説明する。「電話」で文字列単位
検索される文書1における出現位置の末尾は8文字目で
ある。これは単語境界索引に記録されているので、文書
1は検索結果に含まれる。
1の実施の形態では、全ての単語境界をまとめて記録し
ていたため、検索時に単語境界索引から読み出し、照合
処理にまわされるデータ量が多いという問題がある。通
常の日本語であれば単語の平均文字数は3文字程度であ
るので、1000文字の文書であれば単語数は300程
度となる。
注目し、単語の長さ(文字数)によって単語境界位置を
分類し、異なるレコードとして記録する。例えば、図2
(d)には単語長が1と2のものが含まれているので、
単語長ごとに異なるレコードとした場合、図3のように
なる。なお、図2(d)では単語境界位置の末尾に最後
の単語の末尾位置を記録していたが、この方法では単語
の先頭位置と長さから単語の末尾位置が求められるの
で、最後の単語の末尾位置を記録する必要はない。した
がって、単語長1と2の単語境界の出現回数の合計は
4 であり、図2(d)の場合の出現回数5よりも1少
なくなっている。
索の流れは同じである。ただし、ステップ(4)で文書
から単語境界位置を読み出す際には、検索文字列中の単
語の長さに応じた境界位置を読み出す点が異なる。例え
ば、検索文字列が「帯電」、「携帯電話」であれば、い
ずれも検索文字列中の単語の長さは2なので、単語長2
に対応する単語境界位置データのみを使用する。
した単語単位検索では照合すべき単語境界に対応する単
語の長さが一意に特定できないので、全ての長さの単語
境界位置を位置順にマージした結果を単語境界位置とし
て使用する必要がある。マージの際、最後の単語の末尾
位置を最後の単語の先頭位置と長さから計算し、マージ
結果に含める必要がある。図3のデータであれば、
(3)と(1,4,6)を単にマージして(1,3,
4,6)とするのでなく、最後の単語の先頭位置6にそ
の単語の長さ2を足した8をアペンドした(1,3,
4,6,8)を単語境界の照合に使用する。
1の実施の形態では、全ての単語境界を記録していたた
め、単語境界索引が大きいという問題がある。1文書中
の単語数が300の場合、位置を4バイトで記録する
と、1文書あたり1.2キロバイト必要になる。出現位
置は圧縮することでデータ量を削減することは可能だ
が、それでも記録すべき単語境界位置を減らすことが望
ましい。
実際に使用されるのは名詞等の自立語が大半であるとい
う点に注目し、文書登録時に形態素解析結果から特定の
品詞の単語についてのみ単語境界位置を単語境界索引に
記録する。例えば、図4(a)の文書は形態素解析によ
って(b)のように単語分割される。これを実施形態1
の単語境界索引に記録すると(c)のようになる。この
文書の大半の単語は助詞・助動詞・形式名詞であり、検
索文字列として使用されることが多い名詞類は「経験」
「台風」だけである。それにもかかわらず(c)では全
ての単語の位置を記録しているので、多くの領域を使用
している。これに対し、本実施形態では名詞類である
「経験」「台風」の位置だけを記録する。この方法では
記録される単語が連続しているとは限らないので、連続
していない部分には連続していないことを表す特別な値
として0を挿入している。
たが、それ以外の品詞を含めてもかまわない。
書検索方法においては、文字列単位検索用のn−gra
m索引とは別個の単語境界索引を用いて単語単位検索を
提供しているので、どんな文字コードに対しても適用可
能であり、検索が高速で、索引のメンテナンスが簡単で
ある。
単語単位検索時に照合すべき単語境界の個数が少なくな
るので、検索処理が高速になる。
検索文字列ではじまる単語を検索できるので、ユーザに
柔軟な検索機能を提供できる。
検索文字列でおわる単語を検索できるので、ユーザに柔
軟な検索機能を提供できる。
単語境界索引を単語長に応じて分割するので、単語単位
検索時に参照すべき単語境界データが削減され、検索処
理が高速になる。
単語境界索引に記録する単語を品詞によって選択するの
で、単語境界索引が小型化される。
説明図である。
る。
Claims (7)
- 【請求項1】 登録文書あるいは検索文字列であるテキ
ストをn−gram(n文字組)および単語に分解する
テキスト分割手段、登録文書中のn−gramに関する
出現情報をn−gramごとに保持しておくn−gra
m索引、登録文書中の単語境界に関する出現情報を保持
しておく単語境界索引、検索文字列をn−gramに分
割した結果に基づいてn−gram索引を参照して検索
文字列を含む文書あるいはその文書における出現位置を
検索する文字列単位検索手段、文字列単位検索手段の結
果に対し検索文字列を単語に分割した結果に基づいて単
語境界索引を参照して検索文字列が単語として現われて
いるかを判断し、検索文字列を単語として含む文書を検
索する単語単位検索手段、からなることを特徴とする文
書検索方法。 - 【請求項2】 n−gram索引および単語境界索引
は、出現情報として出現文書の文書識別子・出現文書で
の出現回数・出現文書での出現位置を含むことを特徴と
する請求項1記載の文書検索方法。 - 【請求項3】 単語単位検索手段は、検索文字列の文書
中での出現の先頭位置と末尾位置がその文書の単語境界
に含まれている文書を、検索文字列を単語として含む文
書として検索することを特徴とする請求項1又は請求項
2記載の文書検索方法。 - 【請求項4】 単語単位検索手段は、検索文字列の文書
中での出現の先頭位置がその文書の単語境界に含まれて
いる文書を、検索文字列ではじまる単語を含む文書とし
て検索することを特徴とする請求項1又は請求項2記載
の文書検索方法。 - 【請求項5】 単語単位検索手段は、検索文字列の文書
中での出現の末尾位置がその文書の単語境界に含まれて
いる文書を、検索文字列で終わる単語を含む文書として
検索することを特徴とする請求項1又は請求項2記載の
文書検索方法。 - 【請求項6】 単語境界索引は、単語の長さごとに単語
境界情報を記録することを特徴とする請求項1又は請求
項2記載の文書検索方法。 - 【請求項7】 単語境界索引は、特定の品詞に属する単
語に関する単語境界情報を記録することを特徴とする請
求項1又は請求項2記載の文書検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001064404A JP2002269139A (ja) | 2001-03-08 | 2001-03-08 | 文書検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001064404A JP2002269139A (ja) | 2001-03-08 | 2001-03-08 | 文書検索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002269139A true JP2002269139A (ja) | 2002-09-20 |
Family
ID=18923227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001064404A Pending JP2002269139A (ja) | 2001-03-08 | 2001-03-08 | 文書検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002269139A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008077543A (ja) * | 2006-09-25 | 2008-04-03 | Fujitsu Ltd | レポート引用元情報取得装置、レポート引用元情報取得方法及びレポート引用元情報取得プログラム |
US7529726B2 (en) | 2005-08-22 | 2009-05-05 | International Business Machines Corporation | XML sub-document versioning method in XML databases using record storages |
JP2009205397A (ja) * | 2008-02-27 | 2009-09-10 | Internatl Business Mach Corp <Ibm> | 検索エンジン、検索システム、検索方法およびプログラム |
JP2010250389A (ja) * | 2009-04-10 | 2010-11-04 | Internatl Business Mach Corp <Ibm> | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 |
US7937413B2 (en) | 2004-05-04 | 2011-05-03 | International Business Machines Corporation | Self-adaptive prefix encoding for stable node identifiers |
JP2013161371A (ja) * | 2012-02-07 | 2013-08-19 | Casio Comput Co Ltd | テキスト検索装置及びプログラム |
US8543614B2 (en) | 2005-08-22 | 2013-09-24 | International Business Machines Corporation | Packing nodes into records to store XML XQuery data model and other hierarchically structured data |
US8572125B2 (en) | 2005-08-22 | 2013-10-29 | International Business Machines Corporation | Scalable storage schemes for native XML column data of relational tables |
JP2014204356A (ja) * | 2013-04-08 | 2014-10-27 | 日本電信電話株式会社 | 文字列圧縮方法及び装置 |
WO2017126057A1 (ja) * | 2016-01-20 | 2017-07-27 | 株式会社日立製作所 | 情報検索方法 |
-
2001
- 2001-03-08 JP JP2001064404A patent/JP2002269139A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7937413B2 (en) | 2004-05-04 | 2011-05-03 | International Business Machines Corporation | Self-adaptive prefix encoding for stable node identifiers |
US7529726B2 (en) | 2005-08-22 | 2009-05-05 | International Business Machines Corporation | XML sub-document versioning method in XML databases using record storages |
US8161004B2 (en) | 2005-08-22 | 2012-04-17 | International Business Machines Corporation | XML sub-document versioning method in XML databases using record storages |
US8543614B2 (en) | 2005-08-22 | 2013-09-24 | International Business Machines Corporation | Packing nodes into records to store XML XQuery data model and other hierarchically structured data |
US8572125B2 (en) | 2005-08-22 | 2013-10-29 | International Business Machines Corporation | Scalable storage schemes for native XML column data of relational tables |
JP2008077543A (ja) * | 2006-09-25 | 2008-04-03 | Fujitsu Ltd | レポート引用元情報取得装置、レポート引用元情報取得方法及びレポート引用元情報取得プログラム |
JP2009205397A (ja) * | 2008-02-27 | 2009-09-10 | Internatl Business Mach Corp <Ibm> | 検索エンジン、検索システム、検索方法およびプログラム |
US8930372B2 (en) | 2008-02-27 | 2015-01-06 | International Business Machines Corporation | Search engine, search system, search method, and search program product |
JP2010250389A (ja) * | 2009-04-10 | 2010-11-04 | Internatl Business Mach Corp <Ibm> | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 |
JP2013161371A (ja) * | 2012-02-07 | 2013-08-19 | Casio Comput Co Ltd | テキスト検索装置及びプログラム |
JP2014204356A (ja) * | 2013-04-08 | 2014-10-27 | 日本電信電話株式会社 | 文字列圧縮方法及び装置 |
WO2017126057A1 (ja) * | 2016-01-20 | 2017-07-27 | 株式会社日立製作所 | 情報検索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4342753B2 (ja) | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 | |
US7120586B2 (en) | Method and system for segmenting and identifying events in images using spoken annotations | |
KR100612169B1 (ko) | 데이터베이스 주석 처리 및 검색 | |
US20070233465A1 (en) | Information extracting apparatus, and information extracting method | |
US9020811B2 (en) | Method and system for converting text files searchable text and for processing the searchable text | |
JP2002269139A (ja) | 文書検索方法 | |
JP4237813B2 (ja) | 構造化文書管理システム | |
JP2007286742A (ja) | 文書検索装置 | |
JP3497243B2 (ja) | 文書検索方法及び装置 | |
JP4439496B2 (ja) | 検索処理装置及びプログラム | |
Grishman | Information extraction and speech recognition | |
JP2000090093A (ja) | 全文検索方法及び全文検索システム並びに全文検索プログラムを記録した記録媒体 | |
JP4091586B2 (ja) | 構造化文書管理システム、索引構築方法及びプログラム | |
JPH10214268A (ja) | 文書検索方法および装置 | |
KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
JP4646289B2 (ja) | データベースマネジメントシステム | |
JPH06124305A (ja) | 文書検索方法 | |
JPS61248160A (ja) | 文書情報登録方式 | |
JP2001092831A (ja) | 文書検索装置及び文書検索方法 | |
JP4160627B2 (ja) | 構造化文書管理システム及びプログラム | |
JP4304226B2 (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JPH07296005A (ja) | 日本語テキスト登録・検索装置 | |
JP5644087B2 (ja) | 構成要素ハイライト装置、プログラム、及び方法 | |
JP3072955B2 (ja) | 重複話題語を考慮した話題構造認識方法と装置 | |
JPS6389976A (ja) | 言語解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040930 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20051021 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060823 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060811 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090414 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090615 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090707 |