JP4115048B2 - 文書検索システム - Google Patents

文書検索システム Download PDF

Info

Publication number
JP4115048B2
JP4115048B2 JP23074999A JP23074999A JP4115048B2 JP 4115048 B2 JP4115048 B2 JP 4115048B2 JP 23074999 A JP23074999 A JP 23074999A JP 23074999 A JP23074999 A JP 23074999A JP 4115048 B2 JP4115048 B2 JP 4115048B2
Authority
JP
Japan
Prior art keywords
search
character
document
index
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP23074999A
Other languages
English (en)
Other versions
JP2001052029A (ja
Inventor
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP23074999A priority Critical patent/JP4115048B2/ja
Priority to US09/639,108 priority patent/US6714927B1/en
Publication of JP2001052029A publication Critical patent/JP2001052029A/ja
Priority to US10/724,213 priority patent/US7188104B2/en
Application granted granted Critical
Publication of JP4115048B2 publication Critical patent/JP4115048B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、電子化された文書群を索引登録しておき、指定した文字列の検索語を含む文書を検索する電子化文書検索システムに関する。
【0002】
【従来の技術】
文書検索方法として全文検索がある。しかし、この方法は、基本的には検索時に登録全文書の内容を走査する必要があるため、大量の文書に対しては膨大な検索処理時間を要するという問題があった。その問題を解決するために、索引構造の工夫や検索処理方法の工夫による高速化が試みられている。索引構造としては、索引語に文書IDのみを対応づける(したがって登録各文書における索引語の有無のみが索引からわかる)方式が当初は主流であったが、一般的には検索語を複数の索引語に分解して索引照合するため、検索ノイズ(過剰ヒット)が避けられず、ノイズ除去のために全文走査による後処理を必要とし、高速化に限界があった。さらに高速化するために、索引語の各文書内での出現位置などの付加情報を索引に持たせる方式も最近提案されている。
【0003】
例えば、特開平6−52222号公報のものは、登録文書中の特定数の文字連鎖を出現位置とともに索引に登録し、検索時には検索語を含む文書を、検索語中の文字連鎖に関する索引に記録された出現位置を用いて特定する。
【0004】
特開平8−101848号公報のものは、登録文書中の各1文字を出現位置とともに圧縮して索引に登録し、検索時には検索語を含む文書を、検索語中の文字連鎖に関する索引に記録された出現位置を用いて特定する。
ただ、これらの方法には、索引語の長さが短いと検査時間が増大する、索引語の長さが長いと索引語が短い検索語を検索できない、検索語が長いと検索時間が増大する等の問題点がある。
【0005】
【発明が解決しようとする課題】
本発明は上述のごとき実情に鑑みてなされたもので、文字列分割方法・検索評価順序の工夫により、検索を効率化した文書検索システムを提供することを目的とする。
【0010】
【課題を解決するための手段】
請求項1の発明は、登録文書を索引の見出しとなる各文字列による索引語に分割する文書分割手段と、索引語を見出しとして、該索引語を含む文書数を表す文書頻度、索引語を含む文書の識別子、索引語の各文書内での出現回数を表す文書内頻度、及び索引語の各文書内での出現位置の並びを保持する索引と、検索条件中の検索語を索引に記録されている索引語に分割する検索語分割手段と、検索条件を解析して索引語あるいは前記検索語分割手段が検索語から索引語を一つも出力しない場合に対応して作成する該当文書のないことを表す空文書集合あるいはそれらの一方または両方を演算子で合成した検索条件木を生成する検索条件解析手段と、該検索条件木に基づいて前記索引から索引語に関する情報を取り出し検索結果合成処理を実行して検索結果を得る検索条件評価手段とを有し、前記文書分割手段および前記検索語分割手段は、登録文書あるいは検索語を同一文字種の連続部分に大きく分割した上で、各前記連続部分をその文字種に応じて個別に指定された分割方法で分割する文書検索システムであって、前記文書分割手段は、登録文書中の所定の文字種の連続部分を、n文字連鎖である索引語と、n′をn未満の整数とするときに前記所定の文字種の連続部分の末尾の文字を含むn′文字連鎖である索引語と、前記所定の文字種の連続部分の先頭の文字を含むn′文字連鎖である索引語とに分割することを特徴としたものである。
【0012】
請求項の発明は、請求項1の発明において、前記文書分割手段は、登録文書中に含まれる指定された異なる文字種からなる2文字連鎖をも抽出し、前記検索語分割手段は、検索語中に含まれる指定された異なる文字種からなる2文字連鎖をも抽出することを特徴としたものである。
【0013】
請求項の発明は、請求項の発明において、検索語が、指定された異なる文字種からなる2文字連鎖を含んでおり、該2文字連鎖の前側の文字種の連続部分の長さが1文字の場合、前記検索語分割手段は前記2文字連鎖の前側の1文字に対応する索引語を生成しないことを特徴としたものである。
【0014】
請求項の発明は、請求項の発明において、検索語が、指定された異なる文字種からなる2文字連鎖を含んでおり、該2文字連鎖の後側の文字種の連続部分の長さが1文字の場合、前記検索語分割手段は前記2文字連鎖の後側の1文字に対応する索引語を生成しないことを特徴としたものである。
【0015】
請求項の発明は、請求項の発明において、検索語が同一の文字種から構成されており、該検索語の長さが該同一の文字種の最小の切り出し長さnより短い場合には、前記検索語分割手段は、前記検索語と先頭部分が一致する索引に存在している前記同一の文字種だけから構成される索引語を出力することを特徴としたものである。
【0024】
【発明の実施の形態】
図1は本発明による文書検索システムの概要を示すブロック図である。本発明は、登録文書を索引の見出しとなる各文字列(以下、索引語)に分割する文書分割手段1と、索引語を見出しとしてその索引語を含む文書数(以下、文書頻度)・文書ごとにその索引語を含む文書の識別子(以下、文書識別子あるいは文書ID)・その索引語の各文書内での出現回数(以下、文書内頻度)・その索引語の各文書内での出現位置の並び(以下、これら索引語ごとの一連データを転置リストと呼ぶ)とを保持する索引2と、検索条件中の検索語を索引に記録されている索引語に分割する検索語分割手段3と、検索条件を解析し、索引語、あるいは検索語分割手段が検索語から索引語を一つも出力しない場合に対応して作成する該当文書のないことを表す空文書集合、あるいはそれらの一方または両方を演算子で合成した検索条件木を生成する検索条件解析手段4と、検索条件木に基づいて索引から索引語に関する情報を適当に取りだし、検索結果合成処理を実行して検索結果を得る検索条件評価手段5とを有する文書検索システムである。
【0025】
本発明では、検索対象の文書群は登録処理によって高速検索のための索引に必要な情報を記録しておく。本願と同一人により出願された先行出願として、特願平10−25694号の電子化文書検索システムおよび記憶媒体がある。上記出願の請求項2のシステムでは、検索語がn文字未満の場合、登録文書の末尾部分にある検索を正しく検索できないことがある。これに対し、本願の1の実施形態では、1以上の整数nに対し、文書分割手段は登録文書をn文字連鎖である索引語に分割する。このとき、n>1の場合であればn′をn未満の整数とするとき、n文字連鎖の索引語に加えて、登録文書の末尾の文字を含むn′文字連鎖である索引語も分割結果とする。今、文書1=“あああ”,文書2=“あいうえお”,文書3=“あいえ”,文書4=“いう”を登録することとする。n=2であれば、索引には図2に示す表のような情報が記録される。ここで、文書ごとの出現情報は{,}で囲まれた範囲がひとつの文書での出現であり、1番目のフィールドが文書ID、2番目のフィールドが文書内頻度、3番目のフィールド((,)で囲まれたもの)が出現位置の並びである。
【0026】
第1の実施形態は、長さ1の索引語(「あ」「い」「う」「え」「お」)が登録される点が上記先行出願の請求項2のシステムと異なっている。なお、n=3であれば、例えば、文書2からは「あいう」「いうえ」「うえお」に加えて、末尾の文字「お」を含む3未満の文字連鎖である「えお」「お」も抽出される。
【0027】
検索語がn+1文字以上の場合、検索語分割手段は検索語を覆う2つ以上のn文字連鎖である索引語に当該検索語を分割し、検索条件解析手段はそれら索引語の出現位置間の距離を指定する位置演算子で合成する。いま、#distance[x](A,B)で索引語Aと索引語Bが距離x文字にある文書を検索することを指定するものとする。例えば、n=2で、検索語が「あいう」であれば、検索語分割手段は検索語を2個の索引語「あい」「いう」に分割し、検索条件解析手段は#distance[1](あい,いう)に相当する検索条件木をつくる。検索条件評価手段は、「あい」「いう」に関する転置リストを読み出し、これら2つの索引語が同時に出現しており、これが検索結果となる。
【0028】
検索語がn文字の場合、検索語分割手段は検索語を索引とし、検索条件解析手段はその索引語からなる検索条件を作成する。例えば、n=2で、検索語が「いえ」であれば、検索語分割手段は検索語から索引語「いえ」を抽出し、検索条件解析手段は′いえ′に相当する検索条件木をつくる。この場合、検索結果は文書3になる。
【0029】
n>1であって検索語がn文字未満の場合、検索語分割手段は1文字目からがその検索語と一致する索引に存在している全ての索引語を出力し、検索条件解析手段はそれら索引語を複数の検索結果の和集合をとる和集合演算子で合成する。例えば、検索語が「え」であれば、検索語分割手段は「え」「えお」を出力し、検索条件解析手段は#or(え,えお)という検索条件木をつくる。ここで、#or(A,B)は索引語Aを含む文書集合と索引語Bを含む文書集合の和集合を検索することを指定するものとする。この場合、文書2,3が検索結果となる。なお、上記先行出願の請求項2のシステムでは、文書2のみが検索され、文書3は検索されない。
【0030】
実施形態のシステムでは、n>1のときに1文字からなる検索語は複数の索引語の和集合演算結果として検索が行われる。したがって、1文字からなる検索語の検索が遅いという問題がある。そこで、本願の2の実施形態では、1文字以上N文字以下の異なる長さの索引語を登録文書から抽出して索引を作成する。1の実施形態の説明で用いた4つの文書をN=2として、2の実施形態のシステムで登録した場合の索引を図3の表に示す。末尾に限らず1文字の出現が記録されている点が図2の表と異なる。
【0031】
このシステムでは、検索語がN+1文字以上の場合の処理は、の実施形態のシステムと同じである。一方、検索語が1文字以上N以下の場合、検索語分割手段は検索語を索引語とし、検索条件解析手段はその索引語からなる検索条件を作成する。検索語が「え」であれば、検索語分割手段は「え」を出力し、検索条件解析手段は′え′という検索条件木をつくる。の実施形態のように和集合演算を行うことなく、文書2,3が検索結果となることがわかる。
【0032】
第2の実施形態のシステムでは、1文字の検索語の処理は高速化されるが、その分索引が大きくなる。すなわち、の実施形態のように登録文書分割の長さを1以上とすることは望ましくない。そこで、の実施形態では、nを2以上の整数としたとき、n文字以上N文字以下の異なる長さの索引語を登録文書から抽出して索引を作成する。この場合、検索処理はの実施形態のように3つに場合分けされる。以下では、n=2,N=3として説明する。検索語が「あいうえ」であれば、検索語の長さはN以上なので、検索条件木は#distance[1](あいう,いうえ)となる。検索語が「あいう」であれば、n以上N以下なので、検索条件木は′あいう′となる。検索語が「あい」である場合も同様にして検索条件木は′あい′となる。検索語が「あ」であれば、n未満なので、検索条件木は#or(あ,ああ,あああ,…,あい,あいあ,…,あん,…,あんん)となる(ここでは、ひらがなのみからなる文書が登録されているものとしている)。
【0033】
の実施形態のシステムでは、n文字未満の検索語の処理において、検索語分割手段はその検索語と先頭部分が一致する索引に存在している全ての索引語を出力するため、和集合演算子で合成すべき索引語数が非常に大きくなる。そこで、4の実施形態では、検索語分割手段はその検索語と先頭部分が一致する索引に存在しているn文字以下の索引語を出力する。登録時には、登録文書中に存在するn文字連鎖は必ず登録されているので、検索時はn以下の索引の文字連鎖を和集合演算子で合成すれば十分である。このようにn文字以下の索引語だけを出力することで、和集合演算子で合成すべき索引語が削減され、検索が高速化できる。例えば、n=2,N=3として、検索語が「あ」であれば、検索条件木は#or(あ,ああ,あい,…,あん)となる。
【0034】
日本語には、カタカナ・ひらがな・漢字などの複数の文字種があり、以下のような特徴がある。
・同一文字種のみからなる単語が多い。
・同一文字種のみからなる単語の長さは、文字種によって異なる。
【0035】
従って、1〜3の実施形態のシステムのように、登録文書・検索語を分割する際、文字種を無視するのは効率的とは言えない。これに対し5の実施形態のシステムでは、文字種を考慮することで効率的な登録・検索処理を実現する。具体的には、文字種ごとに、1・2・の実施形態による処理方法を含む個別の方法を指定できるようにする。例えば、ある文字種に対する分割方法が1の実施形態のシステムによるものであればその文字種に対するnを、の実施形態であればその文字種に対するNを、の実施形態であればその文字種に対するnとNを、指定できる。
【0036】
以下では、文字種にはカタカナ・漢字・その他の3種類があるものとして説明する。このとき、例えば、以下のように索引を作成することができる。
・カタカナに対しては、の実施形態による処理でn=2,N=3とする。
・漢字に対しては、の実施形態による処理でN=2とする。
・その他に対しては、の実施形態による処理でn=1とする。
【0037】
登録文書が例えば「検索システムを作る」であれば、「検」「検索」「索」「シス」「システ」「ステ」「ステム」「テム」「ム」「を」「作」「る」のように分割される。「ム」が切り出されているのは、「システム」というカタカナの連続部分の末尾に位置するn未満の文字連鎖だからである。
【0038】
検索処理は、検索語が同一文字種だけで構成されているか否かによって異なる。同一文字種だけで構成されている場合、検索処理は、その文字種の分割方法に対応した検索処理となる。例えば、検索語が「検索」であればの実施形態の処理を行うので検索条件木は′検索′となる。一方、異なる文字種から構成されている場合、同一文字種の連続部分に対しては上記方法で検索条件木(これを副検索条件木と呼ぶ)を作成し、それらを位置演算子で結合したものを最終的な検索条件木とする。例えば、検索語が「検索システム」であるとする。この場合、まず、漢字の連続部分「検索」に対する副検索条件木′検索′と、カタカナの連続部分「システム」に対する副検索条件木#distance[1](システ,ステム)がまず作成される。つぎに、「検索」と「システム」の距離(2文字)で2つの副検索条件木を結合した#distance[2](検索,#distance[1](システ,ステム))が最終的な検索条件木となる。
【0039】
ただし、検索語が異なる文字種から構成されており、同一文字種の連続部分の末尾以外のものの長さがその文字種の最小の切り出し長さnより短い場合の検索が効率的でないという問題がある。例えば、検索語が「ムを」であれば、「ム」に対する副検索条件木#or(ム,ムア,…)と、「を」に対する副検索条件木と′を′を結合して最終的な検索条件木を#distance[1](#or(ム,ムア,…),を)とする。しかし、「ム」に対する副検索条件木で和集合演算子で展開されている索引語のうち、「ム」以外は「を」以外の文字と連続している文字連鎖であるので、「を」との距離は1になり得ない。したがって、同一文字種の連続部分の末尾以外のものの長さがその文字種の最小の切り出し長さnより短い場合であっても、検索処理では、その連続部分に対してはその連続部分そのものである索引語を用いればよい。すなわち、検索語が「ムを」の場合の「ム」に対する副検索条件木は′ム′でよく、最終的な検索条件木は#distance[1](ム,を)となる。この場合、検索条件木は単純となり、検索も高速化できる。
【0040】
5の実施形態のシステムでは、検索語が異なる文字種から構成されており、同一文字種の連続部分の末尾のものの長さがその文字種の最小の切り出し長さnより短い場合の検索が効率的でないという問題がある(これに該当するのは、同一文字種の連続部分の末尾のものに対する切り出し方式が、の実施形態でn>1の場合および3の実施形態の場合だけである)。例えば、検索語が「索シ」であれば、「索」に対する副検索条件木′索′と、「シ」に対する副検索条件木#or(シ,シア,…)となるため、最終的な検索条件木は#distance[1](#or(シ,シア,…)となる。しかし、このように位置演算子のなかに和集合演算子が含まれると、検索処理が複雑となり、検索時間が増大する。
【0041】
これに対し、6の実施形態のシステムでは、の実施形態でn>1の場合およびの実施形態を適用する文字種に対しては、文書分割手段は登録文書中のその文字種の連続部分をn文字連鎖である索引語と、n′をn未満の整数とするときにその文字種の連続部分の末尾の文字を含むn′文字連鎖である索引語と、その文字種の連続部分の先頭の文字を含むn′文字連鎖である索引語とに分割する。例えば、登録文書が「検索システムを作る」であれば、「検」「検索」「索」「シ」「シス」「システ」「ステ」「ステム」「テム」「ム」「を」「作」「る」のように分割する。カタカナ連続部分の先頭文字を含む1文字連鎖である「シ」が単独で切り出されている点が、の実施形態による処理と異なる。
【0042】
検索処理は、検索語が同一文字種だけで構成されているか否かによって異なるが、同一文字種だけで構成されている場合はの実施形態と全く同様に処理すれば良い。一方、異なる文字種から構成されている場合、同一文字種の連続部分の末尾のものの長さがその文字種の最小の切り出し長さnより短い場合の処理がの実施形態と異なる。このとき、登録時には、同一文字種の連続部分の先頭文字を含むn′文字連鎖は索引語として抽出されているので、検索時にも、その連続部分に対してはその連続部分そのものである索引語を用いればよい。すなわち、検索語が「索シ」の場合の「シ」に対する副検索条件木は′シ′でよく、最終的な検索条件木は#distance[1](索,シ)となる。
【0043】
5の実施形態のシステムでは、異なる文字種からなる2文字連鎖は索引に記録されることはなく、検索にも利用されることがない。しかし、文字種の組み合わせのなかには、検索語として指定されることの多いものもある。例えば、漢字・ひらがなの組合わせは「動き」のように活用語を構成するので、検索語としても使用されることが多い。しかし、5の実施形態のシステムであれば、「動き」は#distance[1](動,き)という検索条件木として処理されるため、検索に時間がかかる。
【0044】
そこで、7の実施形態のシステムでは、指定された異なる文字種からなる2文字連鎖を索引に利用する。文書分割手段は、登録文書中の同一文字種の連続部分ごとにその文字種に対するnあるいはNに対応して索引語に分割するとともに、指定された異なる文字種からなる2文字連鎖も索引語として抽出する。例えば、5の実施形態の例のように文字種ごとの処理方法を指定するのに加えて、漢字・ひらがなの組み合わせも索引に使用するとする。この場合、登録文書が「検索システムを作る」であれば、「検」「検索」「索」「シス」「システ」「ステ」「ステム」「テム」「ム」「を」「作」「る」に加えて、漢字・ひらがなの組合わせである「作る」も抽出する。
【0045】
検索語分割手段も、文書分割手段と同様に、検索語を分割する。検索条件解析手段は、検索語が指定された異なる文字種からなる2文字連鎖を含まない場合は、これまでと同様に、検索条件木を作成する。異なる文字種からなる2文字連鎖を含む場合は、それによって連結される連側部分を位置演算子で連結する副検索条件木を作成する対象と捉え、そのなかの同一文字種の連続部分を分割するとともに異なる文字種からなる2文字連鎖も索引語として抽出する。その上で、検索条件解析手段が、抽出された索引語を位置演算子で副検索条件木に組み上げる。
【0046】
例えば、漢字・カタカナの組み合わせが指定されている場合、検索語が「検索システム」であれば、「検索システム」全体を副検索条件木作成対象と捉え、漢字の連続部分「検索」とカタカナの連続部分「システム」から「検索」「システ」「ステム」を抽出し、さらに漢字・カタカナからなる「索シ」も抽出する。これから#distance[1](検索,#distance[1](索シ,#distance[1](システ,ステム)))という副検索条件木を作成する(この場合、検索語からひとつの副検索条件木作成対象が作成されないので、この副検索条件木が最終的な検索条件木になる)。
【0047】
また、検索語が「検索システム作成」であれば、「検索システム」と「作成」が副検索条件木作成対象となる「ム」と「作」で大きく分割されるのは、カタカナ・漢字の組み合わせは指定されていないからである。「検索システム」からは先の副検索条件木が作成され、「作成」からは副検索条件木′作成′が作成される。したがって、最終的な検索条件木は#distance[6](#distance[1](検索,#distance[1](索シ,#distance[1](システ,ステム))),作成)となる。
【0048】
7の実施形態のシステムでは、検索語が指定された異なる文字種からなる2文字種連鎖を含んでおり、その前側の文字種の連続部分の長さが1文字の場合、検索処理に無駄が発生する。例えば、漢字・ひらがなに対する分割方法がの実施形態でn=2であり、漢字・ひらがなが指定されているとする。このとき、検索語が「動きが」であれば、漢字の連続部分「動」からは#or(動,動あ,…)が、ひらがなの連続部分「きが」からは′きが′が作成され、それと漢字・ひらがなの連続「動き」から生成された′動き′を組み合わせればよい最終的な検索条件木は#distance[1](#distance[0](#or(動,動あ,…),動き),きが)となる。しかし、#distance[0](#or(動,動あ,…),動き)は′動き′と等価であるので、上述した検索条件木を作成することは無駄である。
【0049】
そこで、8の実施形態のシステムでは、検索語が指定された異なる文字種からなる2文字連鎖を含んでおり、その前側の文字種の連続部分の長さが1文字の場合、検索語分割手段はその前側の1文字に対応する索引語を生成しない。すなわち、「動きが」という検索語からは「動き」「きが」が抽出され、最終的な検索条件木も#distance[1](動き,きが)となる。その結果、検索処理が簡単となり、検索処理も高速化される。
【0050】
7の実施形態のシステムでは、検索語が指定された異なる文字種からなる2文字連鎖を含んでおり、その後側の文字種の連続部分の長さが1文字の場合、検索処理に無駄が発生する。例えば、漢字・ひらがなに対する分割方法がの実施形態でn=2であり、漢字・ひらがなが指定されているとする。このとき、検索語が「動作が」であれば、漢字の連続部分「動作」からは′動作′が、ひらがなの連続部分「が」からは#or(が,があ,…)が作成され、それと漢字・ひらがなの連続「作が」から生成された′作が′を組み合わせて、最終的な検索条件木#distance[1](動作,#distance[1](作が,#or(が,があ,…)))が作成される。しかし、#distance[1](作が,#or(が,があ,…))は′作が′と等価であるので、上述した検索条件木を作成することは無駄である。
【0051】
そこで、9の実施形態のシステムでは、検索語が指定された異なる文字種からなる2文字連鎖を含んでおり、その後側の文字種の連続部分の長さが1文字の場合、検索語分割手段はその後側の1文字に対応する索引語を生成しない。すなわち、「動作が」という検索語からは「動作」「作が」が抽出され、最終的な検索条件木も#distance[1](動作が,作が)となる。その結果、検索処理が簡単となり、検索処理も高速化される。
【0052】
7の実施形態のシステムでは、検索語が同一の文字種から構成されており、その長さがその文字種の最小の切り出し長さnより短い場合の検索が効率的でないという問題がある(これに該当するのは、同一文字種の連続部分の末尾のものに対する切り出し方式が、の実施形態でn>1の場合および3の実施形態の場合だけである)。例えば、漢字およびひらがなに対する分割方法がの実施形態でn=2,ひらがな・漢字が指定されており、検索語が「あ」であれば、「あ」に対する検索条件木は#or(あ,ああ,…,あん,あ亜,…)となる。
ところが、文書登録においては「あ」に異なる文字種が続いていた場合には「あ」が抽出されているので、ひらがな・漢字の連続である索引語を含む文書はすべて「あ」に対応する索引に記録されている。したがって、検索語分割手段がひらがな・漢字を生成するのは無駄である。
【0053】
10の実施形態のシステムでは、検索語分割手段が、検索語が同一の文字種から構成されており、その長さがその文字種の最小の切り出し長さnより短い場合には、その検索語と先頭部分が一致する索引に存在しているその文字種だけから構成される索引語を出力する。例えば、「あ」に対する検索条件木は#or(あ,ああ,…,あん)となる。その結果、上述したような無駄な索引語を検索処理で用いなくなるので、検索が高速化される。
【0054】
これまでの手法では、検索語が2つ以上の索引語に分割される場合には位置演算子で合成した検索条件のみを用いて検索が実施されていた。この方法では、無駄な位置の突き合わせ処理の発生する可能性がある。例えば、文書1=“あいうえお”、文書2=“あいうえい”、文書3=“あいうえう”、文書4=“あいうええ”、文書5=“あいうえお”とし、の実施形態のシステムによる方法でn=2として索引を作成すると図4に示す表のようになる。
【0055】
1の実施形態の説明に示した方法で検索語「あいいう」を処理すると、索引語として「あい」「いい」「いう」が得られ、#distance[2](#distance[1](あい,いい),いう)という検索条件木が作成される。しかし、「あい」と「いう」が距離2の位置にあれば、両者の間には必ず「いい」が存在するので、#distance[2](あい,いう)という検索条件木で十分である。位置演算子を含む検索条件の処理は、まず全ての索引語が出現している文書IDを特定し、次にその文書において索引語間の出現位置のズレが位置演算子の指定通りかを検査することで、その文書が本当に検索条件に該当するかを決定するという手順で実現できる。上記検索語では、出現位置のズレを検査する際には、「あい」「いう」の2つの索引語を用いれば良いが、文書IDの特定の際には、「いい」も用いた方が効率化される。索引には「いい」が登録されていないので、「いい」が出現しているか調べるだけで「あいいう」に該当する文書がないことがわかるからである(この手法は前述した先行出願特願平10−256974号の請求項8・9で提案済み)。以下、文書IDの特定処理を候補決定、出現位置のズレの検査処理を詳細判定と呼び、前者に使用する検索条件木を候補決定用条件木、後者に使用する検索条件木を詳細判定用条件木と呼ぶ。すると、この検索語に対しては、候補決定用条件木:#and(あい,いい,いう)、詳細判定用条件木:#distance[2](あい,いう)となる。ここで、#andは各オペランドに対する検索結果の集合積を検索結果とするもので、集合積演算子という。
【0056】
検索語「いうえお」に対して上記方法を適用すると、候補決定条件木:#and(いう,うえ,えお)、詳細判定用条件木:#distance[2](いう,えお)となる。ところが、この場合、「いう」が出現している文書には必ず「うえ」が出現しているので、候補決定用条件木に「うえ」を加えても、候補文書を絞り込む効果はなく、索引語が増えたぶん処理が増大するので、検索が遅くなるという問題がある。
【0057】
11の実施形態及び12の実施形態では、候補文書を絞り込む効果が期待できる索引語のみを候補決定用条件木に追加し、検索を高速化する。すなわち、単純に検索語から抽出された索引語を加えるのではなく、候補決定用条件木には、詳細判定用条件木に用いられる索引語と、それ以外の索引語のうち前後にある詳細判定用条件木に用いられる索引語よりも文書頻度が少ない索引語を使用する。例えば、検索語「あいいう」では、詳細判定に使用する「あい」「いう」の文書頻度5に対して「いい」の文書頻度は0なので、「いい」を使用することとなる。一方、検索語「いうえお」では、詳細決定に使用する「いう」の文書頻度5に対して「うえ」の文書頻度も5で小さくないので、「うえ」は使用しない。なお、11の実施形態12の実施形態では、詳細判定用に使用する索引語として、11の実施形態が最小個数のものを選択するのに対し、12の実施形態が索引語ごとの文書頻度の合計が最小となるものを選択する点で異なっている。
【0058】
本願と同一人にて出願された他の先行出願として特願平10−020840号があるが、当該先行出願の請求項8では、検索条件木に複数の検索結果の集合和をとる集合和演算子が入れ子になっている場合、後者の子ノードを前者の子ノードとし、後者を前者の要素から取り除く平坦化を行う。例えば、検索条件木が#or(#or(東京,江戸),大阪)であれば、#or(東京,江戸,大阪)とする。ここで、#orが集合和演算子である。
【0059】
ところが、集合和演算子に子ノードである集合和演算子の子ノード数が多い場合、平坦化の作業に処理コストがかかる。そこで、本願の13の実施形態では、検索条件木に複数の検索結果の集合和をとる集合和演算子が入れ子になっている場合、集合和演算子に子ノードである集合和演算子の子ノード数がしきい値以下である場合に限って、後者の子ノードを前者の子ノードとし、後者を前者の要素から取り除く平坦化を行う。その結果、集合和演算子に子ノードである集合和演算子の子ノード数が多い場合に処理コストが増大することを回避できる。
【0060】
検索条件木に複数の検索結果の集合積をとる集合積演算子の子ノードに集合和演算子がある場合、集合和演算子の子ノードに集合積演算子が来るそれと等価な和標準形に変換することができる。例えば、#and(#or(東京,江戸),大阪)は#or(#and(東京,大阪),#and(江戸,大坂))となる。このように変形すると、集合和演算を行う対象となる文書集合が小さくなるので、検索を効率化できる。
【0061】
しかし、集合積演算子の子ノードにある集合和演算子の子ノード数が多いと、変換後の集合和演算子の子ノード数が膨大になってしまうことがある。例えば、#and(#or(東京,とうきょう,トウキョウ,TOKYO,tokyo,江戸,えど,エド,EDO,edo),#or(大阪,おおさか,オオサカ,OOSAKA,oosaka))であると、変換後の子ノード数は10×5=50個にもなり、変換作業にかかる処理コストも大きくなる。
【0062】
そこで、本願の14の実施形態では、検索条件木に複数の検索結果の集合積をとる集合積演算子の子ノードに集合和演算子がある場合、集合和演算子の子ノードに集合積演算子が来るそれと等価な形式に、変換後の集合和演算子の子ノード数がしきい値以下である場合に限って、変換する。その結果、変換後の集合和演算子の子ノード数が多くなる場合に処理コストが増大することを回避できる。
【0063】
複数の索引語に分割される検索語を集合積演算子で合成したような検索条件の場合を考える。例えば、の実施形態のシステムによる処理(n=2)で索引を作成しているとき、#and(プリンタ,システム)という検索条件からは#and(#distance[2](#distance[1](プリ,リン),ンタ),#distance[2](#distance[1](シス,ステ),テム))という検索条件木が作成される。この検索条件木は、まず、#distance[2](#distance[1](プリ,リン),ンタ)で「プリンタ」に該当する文書を決定し、その文書が、#distance[2](#distance[1](シス,ステ),テム)で「システム」に該当するかを判定し、該当していれば検索結果に加えるという手順で、評価される。
【0064】
このとき、検索条件木はand(#distance[2](プリ,ンタ),#distance[2](シス,テム))となり、前記の特願平10−256974号の請求項8・請求項9あるいは請求項11・請求項12のシステムによる処理であれば、例えば、#distance[2](プリ,ンタ)に対しては#and(プリ,リン,ンタ)、#distance[2](シス,テム)に対しては#and(シス,ステ,テム)が候補決定用条件木として設定される。そこで、まず、#and(プリ,リン,ンタ)で「プリンタ」を含む候補文書を決定し、その文書が、#and(シス,ステ,テム)で「システム」を含む候補かを判定し、満たしていれば#distance[2](プリ,ンタ)で「プリンタ」を含むための位置条件を満たしているか判定し、満たしていれば#distance[2](シス,テム)で「システム」を含むための位置条件を満たしているか判定するという手順で、該当文書かを決定できる。この手順では、位置条件を満たしているかを判断する回数が少なくなるので、検索処理を高速化できる。
【0065】
そこで、本願の15の実施形態では、子ノードの候補決定用条件木を集合積演算子で合成したものを候補決定用条件木として持つ。例えば、先の検索条件に対する候補決定用条件木は#and(プリ,リン,ンタ,シス,ステ,テム)となる。この方法では、候補文書決定の手間が減るので、検索処理をさらに高速化できる。
【0066】
15の実施形態の方法では、#and(プリンタ,装置)のように子ノードに索引語ノードがある検索条件に対しては、そのノードが候補決定用条件木に含まれず、候補決定用条件木は#and(プリ,リン,ンタ)となる。そのため、候補文書が十分に絞り込まれず検索処理が遅くなる可能性がある。そこで、本発明の更に他の例では、集合積演算子の候補決定用条件木として子ノードが索引語ノードも付加する。例えば、先の検索条件に対する候補決定用条件木は#and(プリ,リン,ンタ,装置)となる。この方法では、候補文書が絞り込まれるので、検索処理を高速化できる。
【0067】
2つの検索結果の集合差をとる集合差演算子(以下#and−notと書く)で合成したような検索条件の場合を考える。例えばの実施形態の方法(n=2)で索引を作成しているとき、#and−not(プリンタ,システム)という検索条件からは#and−not(#distance[2](#distance[1](プリ,リン),ンタ),#distance[2](#distance[1]シス,ステ),テム))という検索条件木が作成される。この検索条件木は、まず、#distance[2](#distance[1](プリ,リン),ンタ)で「プリンタ」に該当する文書を決定し、その文書が#distance[2](#distance[1](シス,ステ),テム)で「システム」に該当するかを判定し、該当していなければ検索結果に加えるという手順で、評価される。
【0068】
このとき、検索条件木は#and−not(#distance[2](プリ,ンタ),#distance[2]シス,テム))となり、上記特願平10−256974号の請求項8・請求項9あるいは請求項11・請求項12の方法であれば、例えば、#distance[2](プリ,ンタ)に対しては#and(プリ,リン,ンタ)、#distance[2]シス,テム)に対しては#and(シス,ステ,テム)が候補決定用条件木として設定される。そこで、まず、#and(プリ,リン,ンタ)と#distance[2](プリ,ンタ)を用いて「システム」を含む文書を決定し、その文書が、#and(シス,ステ,テム)で「システム」を含む候補かを判定し、満たしていなければ#distance[2]シス,テム)で「システム」を含むための位置条件を満たしているか判定するという手順で該当文書かを決定できる。この手順が本願の17の実施形態であり、位置条件を満たしているか判断する回数が少なくなるので、検索処理を高速化できる。
【0069】
複数の索引語に分割される検索語を集合和演算子で合成したような検索条件の場合を考える。例えば、の実施形態の方法(n=2)で索引を作成しているとき、#or(プリンタ,システム)という検索条件からは#or#distance[2](プリ,ンタ),#distance[2]シス,テム))という検索条件木が作成される。
【0070】
このとき、上記特願平10−25694号の請求項8・請求項9あるいは請求項11・請求項12の方法であれば、例えば、#distance[2](プリ,ンタ)に対しては#and(プリ,リン,ンタ)、#distance[2](シス,テム)に対しては#and(シス,ステ,テム)が候補決定用条件として設定される。この検索条件木は以下のように評価できる。まず、「プリンタ」に該当する文書を#and(プリ,リン,ンタ)および#distance[2](プリ,ンタ)を用いて決定する。次に、「システム」に該当する文書を#and(シス,ステ,テム)および#distance[2](シス,テム)を用いて決定する。そして最後に両者の集合和を求める。
【0071】
ところが、「システム」に該当する文書を決定する際には、「プリンタ」に該当する文書はすでに検索結果に含まれることが判定済みなので、「システム」に該当するかを正確に判断する必要がない。したがって、上の説明における2番目の処理は、#and(シス,ステ,テム)で「システム」を含む候補文書を決定し、その文書が「プリンタ」に該当していなければ#distance[2](シス,テム)で「システムを含むための位置条件を満たしているかを判定し、満たしていれば結果集合に追加するが、その文書が「プリンタ」に該当していれば位置条件の判定は不要で次の候補文書の決定に進むこととできる。この処理を実現するのが、本願の18の実施形態であり、この方法では、子ノードに対して位置条件を判断する回数が削減できるので、検索処理が高速化される。
【0073】
【発明の効果】
請求項の発明によれば、文字種を考慮して索引を作成し検索処理するので、索引を大きくすることなく長い検索語の検索処理を高速化できる。
請求項の発明によれば、同一文字種の連続部分の先頭を考慮して索引語を抽出するので、複数の文字種からなる検索語の検索処理を高速化できる。
請求項乃至請求項の発明によれば、複数の文字種からなる索引語を抽出するので、複数の文字種からなる検索語の検索処理を高速化できる
【図面の簡単な説明】
【図1】 本発明による文書検索システムの概要を示すブロック図である。
【図2】 1の実施形態を説明するための表である。
【図3】 2の実施形態を説明するための表である。
【図4】 10の実施形態を説明するための表である。
【符号の説明】
1…文書分割手段、2…索引、3…検索語分割手段、4…検索条件解析手段、5…検索条件評価手段。

Claims (5)

  1. 登録文書を索引の見出しとなる各文字列による索引語に分割する文書分割手段と、索引語を見出しとして、該索引語を含む文書数を表す文書頻度、索引語を含む文書の識別子、索引語の各文書内での出現回数を表す文書内頻度、及び索引語の各文書内での出現位置の並びを保持する索引と、検索条件中の検索語を索引に記録されている索引語に分割する検索語分割手段と、検索条件を解析して索引語あるいは前記検索語分割手段が検索語から索引語を一つも出力しない場合に対応して作成する該当文書のないことを表す空文書集合あるいはそれらの一方または両方を演算子で合成した検索条件木を生成する検索条件解析手段と、該検索条件木に基づいて前記索引から索引語に関する情報を取り出し検索結果合成処理を実行して検索結果を得る検索条件評価手段とを有し、
    前記文書分割手段および前記検索語分割手段は、登録文書あるいは検索語を同一文字種の連続部分に大きく分割した上で、各前記連続部分をその文字種に応じて個別に指定された分割方法で分割する文書検索システムであって、
    前記文書分割手段は、登録文書中の所定の文字種の連続部分を、n文字連鎖である索引語と、n′をn未満の整数とするときに前記所定の文字種の連続部分の末尾の文字を含むn′文字連鎖である索引語と、前記所定の文字種の連続部分の先頭の文字を含むn′文字連鎖である索引語とに分割することを特徴とする文書検索システム。
  2. 請求項1に記載の文書検索システムおいて、前記文書分割手段は、登録文書中に含まれる指定された異なる文字種からなる2文字連鎖をも抽出し、前記検索語分割手段は、検索語中に含まれる指定された異なる文字種からなる2文字連鎖をも抽出することを特徴とする文書検索システム。
  3. 請求項に記載の文書検索システムおいて、検索語が、指定された異なる文字種からなる2文字連鎖を含んでおり、該2文字連鎖の前側の文字種の連続部分の長さが1文字の場合、前記検索語分割手段は前記2文字連鎖の前側の1文字に対応する索引語を生成しないことを特徴とする文書検索システム。
  4. 請求項に記載の文書検索システムおいて、検索語が、指定された異なる文字種からなる2文字連鎖を含んでおり、該2文字連鎖の後側の文字種の連続部分の長さが1文字の場合、前記検索語分割手段は前記2文字連鎖の後側の1文字に対応する索引語を生成しないことを特徴とする文書検索システム。
  5. 請求項に記載の文書検索システムおいて、検索語が同一の文字種から構成されており、該検索語の長さが該同一の文字種の最小の切り出し長さnより短い場合には、前記検索語分割手段は、前記検索語と先頭部分が一致する索引に存在している前記同一の文字種だけから構成される索引語を出力することを特徴とする文書検索システム。
JP23074999A 1999-08-17 1999-08-17 文書検索システム Expired - Lifetime JP4115048B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP23074999A JP4115048B2 (ja) 1999-08-17 1999-08-17 文書検索システム
US09/639,108 US6714927B1 (en) 1999-08-17 2000-08-16 Apparatus for retrieving documents
US10/724,213 US7188104B2 (en) 1999-08-17 2003-12-01 Apparatus for retrieving documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23074999A JP4115048B2 (ja) 1999-08-17 1999-08-17 文書検索システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007106800A Division JP4205753B2 (ja) 2007-04-16 2007-04-16 文書検索システム

Publications (2)

Publication Number Publication Date
JP2001052029A JP2001052029A (ja) 2001-02-23
JP4115048B2 true JP4115048B2 (ja) 2008-07-09

Family

ID=16912691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23074999A Expired - Lifetime JP4115048B2 (ja) 1999-08-17 1999-08-17 文書検索システム

Country Status (2)

Country Link
US (2) US6714927B1 (ja)
JP (1) JP4115048B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7296066B2 (en) * 2001-03-04 2007-11-13 Adomo, Inc. Mobile communication system for a network
JP4066621B2 (ja) * 2001-07-19 2008-03-26 富士通株式会社 全文検索システム及び全文検索プログラム
JP4342753B2 (ja) 2001-08-10 2009-10-14 株式会社リコー 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
US7617197B2 (en) * 2005-08-19 2009-11-10 Google Inc. Combined title prefix and full-word content searching
JP4486324B2 (ja) * 2003-06-19 2010-06-23 ヤフー株式会社 類似単語検索装置、この方法、このプログラム、および情報検索システム
JP2005134462A (ja) * 2003-10-28 2005-05-26 Seiko Epson Corp 電気光学装置の駆動方法、電気光学装置及び電子機器
JP2006072744A (ja) * 2004-09-02 2006-03-16 Canon Inc 文書処理装置、その制御方法、プログラム、及び記憶媒体
US7386570B2 (en) * 2005-03-31 2008-06-10 International Business Machines Corporation Method, system and program product for providing high performance data lookup
JP2007219620A (ja) * 2006-02-14 2007-08-30 Fuji Xerox Co Ltd テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
CN102053993B (zh) * 2009-11-10 2014-04-09 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
JP5533197B2 (ja) * 2010-04-27 2014-06-25 カシオ計算機株式会社 検索装置、ならびに、コンピュータプログラム
US9223857B2 (en) * 2011-10-24 2015-12-29 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for generating a two-dimensional graphical grid representation of the treatment of a document
US9208254B2 (en) * 2012-12-10 2015-12-08 Microsoft Technology Licensing, Llc Query and index over documents
JP6152711B2 (ja) * 2013-06-04 2017-06-28 富士通株式会社 情報検索装置および情報検索方法
US10394870B2 (en) * 2014-06-30 2019-08-27 Hitachi, Ltd. Search method
CN109241124B (zh) * 2017-07-11 2023-03-10 沪江教育科技(上海)股份有限公司 一种快速检索相似字符串的方法及系统
CN117332126A (zh) * 2023-09-11 2024-01-02 中科驭数(北京)科技有限公司 字符串过滤方法、装置、加速卡及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3260428B2 (ja) 1992-07-30 2002-02-25 松下電器産業株式会社 情報検索処理装置
US5412807A (en) * 1992-08-20 1995-05-02 Microsoft Corporation System and method for text searching using an n-ary search tree
JPH08101848A (ja) 1994-09-30 1996-04-16 Canon Inc 文書処理装置及び検索方法
US5706365A (en) * 1995-04-10 1998-01-06 Rebus Technology, Inc. System and method for portable document indexing using n-gram word decomposition
JPH11282880A (ja) 1998-02-02 1999-10-15 Ricoh Co Ltd 電子化文書検索システムおよび記憶媒体

Also Published As

Publication number Publication date
US7188104B2 (en) 2007-03-06
JP2001052029A (ja) 2001-02-23
US20040111437A1 (en) 2004-06-10
US6714927B1 (en) 2004-03-30

Similar Documents

Publication Publication Date Title
JP4115048B2 (ja) 文書検索システム
US5684999A (en) Apparatus and a method for retrieving image objects based on correlation with natural language sentence parameters
EP1907946B1 (en) A method for finding text reading order in a document
JP2006004417A (ja) 情報ファイルの特定のタイプを認識する方法及び装置
JP2007226797A (ja) 目次判別目的類似度リンク計算の高速化
CN105404677A (zh) 一种基于树形结构的检索方法
JP3594701B2 (ja) キーセンテンス抽出装置
JP4205753B2 (ja) 文書検索システム
CN105426490A (zh) 一种基于树形结构的索引方法
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JP2004046438A (ja) テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体
JP4389102B2 (ja) 技術文献検索システム
JP3598738B2 (ja) 情報抽出装置、情報検索方法及び情報抽出方法
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JPH09128402A (ja) 文書類似度計算装置および文書分類装置
JP2001067354A (ja) 新語性判定装置及び新語性判定方法
Marathe et al. Extracting content blocks from web Pages
Win et al. Mining frequent patterns from XML data
JP2006073035A (ja) 電子化文書検索システム、検索装置、および記録媒体
JP2005215716A (ja) テキスト検索方法
JPH09138801A (ja) 文字列抽出方法とシステム
JP2000348059A (ja) 文書検索方法
JP4077128B2 (ja) 文書検索装置、文書検索方法および記憶媒体
CN105488114B (zh) 一种基于树形结构的排序方法
JP2684138B2 (ja) 日本語形態素解析システム及び見出し切り出し方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080415

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4115048

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140425

Year of fee payment: 6

EXPY Cancellation because of completion of term