JP3918531B2 - 類似文書検索方法およびシステム - Google Patents

類似文書検索方法およびシステム Download PDF

Info

Publication number
JP3918531B2
JP3918531B2 JP2001363568A JP2001363568A JP3918531B2 JP 3918531 B2 JP3918531 B2 JP 3918531B2 JP 2001363568 A JP2001363568 A JP 2001363568A JP 2001363568 A JP2001363568 A JP 2001363568A JP 3918531 B2 JP3918531 B2 JP 3918531B2
Authority
JP
Japan
Prior art keywords
document
word
registered
documents
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001363568A
Other languages
English (en)
Other versions
JP2003167913A (ja
Inventor
忠孝 松林
勝己 多田
佳史 里
靖彦 稲場
伸也 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001363568A priority Critical patent/JP3918531B2/ja
Priority to CA002392893A priority patent/CA2392893C/en
Priority to US10/206,595 priority patent/US7231388B2/en
Publication of JP2003167913A publication Critical patent/JP2003167913A/ja
Application granted granted Critical
Publication of JP3918531B2 publication Critical patent/JP3918531B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ユーザが指定した文書に記述されている内容と類似する内容を含む文書を、文書データベースの中から検索する方法に関する。
【0002】
【従来の技術】
近年、組織内での業務の効率化や、業務の質を向上させるために、組織内の個人の知識を共有し、再利用することを目的とする知識管理システムへの要求が高まってきている。特に企業内で活用する知識管理システムに対しては、有識者の経験やノウハウなどを文書化し、知識として共有、活用することへの要望が高まっている。
【0003】
また、インターネットの普及に伴い、世界各国で文書化された有識者の経験やノウハウも容易に入手することができるようになってきており、組織内の知識と同様に共有し、活用したいという要望が高まってきている。
【0004】
このような背景の下、組織内で蓄えられた大量の知識の中から、ユーザが所望するものを簡単に、かつ適切に取得する高精度な検索機能が重要になってきている。
【0005】
このような要求に応える技術として、ユーザが自分の所望する内容を含んだ文書(以下、種文書と呼ぶ)を例示し、その文書と内容の類似するものを検索する類似文書検索技術が注目されている。
【0006】
類似文書検索の方法としては、例えば、全文検索用インデクスを用いた類似文書検索方法(以下、従来技術1と呼ぶ)がある。
【0007】
従来技術1の処理手順を図2を用いて説明する。まず、ステップ200において、入力されたコマンドが登録処理か検索処理かを判定し、登録処理と判定された場合にはステップ210〜ステップ211を実行し、検索処理と判定された場合にはステップ220〜ステップ222を実行する。
【0008】
文書の登録処理であるステップ210では、文書データベースでの統計情報を計数し、格納する。そして、ステップ211において各登録文書に対して、全文検索用インデクスを作成する。
【0009】
また、類似文書の検索時には、まずステップ220を実行し、検索条件として指定された種文書に対する種文書特徴ベクトルを作成する。
【0010】
そして、全ての登録文書に対してステップ222を繰返し実行する(ステップ221)。ステップ222では、種文書に対する各登録文書の類似度を算出する。以上が、従来技術1の概要である。
【0011】
以下、従来技術1の処理手順について図3を用いて具体的に説明する。従来技術1では、まずステップ200において、要求されている処理が文書の登録処理であるか検索処理かを判定する。そして、文書の登録処理と判定された場合には、ステップ210〜211を実行し、類似文書の検索処理と判定された場合にはステップ310〜313を実行する。
【0012】
文書の登録処理であるステップ210では、文書データベースへの登録文書数が統計情報として計数される。本図に示した例では、登録文書301「LANの構築と運用・保守に必要な機器を…」および302「情報システムの構築や保守を手がける…」が登録対象文書として指定された場合を表しており、文書データベースに対して2件の文書が登録されるため、統計情報309として「登録文書数:2」と格納される。
【0013】
次にステップ211で、登録対象となる文書に対する全文検索用インデクスが作成される。本図に示した例では、登録文書301および302に対する検索用インデクス303が作成されることを示している。ここで、検索用インデクス303を「単語[出現文書数](文書番号,出現回数)」と表記した。例えば、検索用インデクス303内の「システム[1](2,1)」は、単語“システム”の出現文書数は1であり、文書2の中に1回出現していることを表している。
【0014】
また、類似文書の検索処理ではステップ310〜313が実行される。以下、検索条件として種文書304「情報システムの保守を担当する。」が入力された場合を例に説明する。まず、ステップ310において種文書から単語が抽出され、種文書内での出現回数との組にしたリスト(以下、単語リストと呼ぶ)が出力される。本図に示した例では、種文書304「情報システムの保守を担当する。」から、単語リスト305「("情報", 1)("システム", 1)("保守", 1)("担当", 1)」が出力される。ここで、("情報", 1)は、単語“情報”が種文書中に1回出現していることを表している。
【0015】
次に、ステップ311において、上記ステップ310で出力された単語リストに含まれる各単語の重みが、登録時に作成された統計情報および検索用インデクスを参照して算出され、単語重みリストとして出力される。本図に示した例では、統計情報309を参照することで取得された登録文書数と検索用インデクス303を参照することで取得された各単語の出現文書数から数1を用いて重みが算出され、単語重みリスト306「"情報"(2.00)"システム"(2.00)"保守"(1.00)"担当"(0.00)」が出力される。ここで、"情報"(2.00)は、単語“情報”の重みは2.00であることを表しており、また、単語“担当”は登録文書中に出現しないため、その重みは0.00と算出される。
【数1】
Figure 0003918531
ここで、Nは登録文書数を表し、nは各単語の出現文書数を表す。次に、ステップ312において、上記ステップ311で作成された単語重みリストの中から、重みが所定の条件を満たす単語が種文書の特徴を表す単語(以下、特徴語と呼ぶ)として選択され、特徴語リストとして出力される。本図に示した例では、重みが1.0を超える単語が特徴語として出力されるものとした。したがって、単語重みリスト306に含まれる単語の重みが1.0を超える“情報”および“システム”が特徴語として抽出され、特徴語リスト307に格納される。
【0016】
そして、ステップ313において、各登録文書の種文書に対する類似度が算出される。本図に示した例では、類似度の算出式として数2を用いた。本式は、単語の重みと種文書および各登録文書のそれぞれにおける出現回数の積和を類似度として算出するものである。この結果、文書1の類似度は数3に示すように1.00と算出され、文書2の類似度は数4に示すように5.00と算出される。これらは、類似度算出結果308として出力される。
【数2】
Figure 0003918531
【数3】
Figure 0003918531
【数4】
Figure 0003918531
この結果、文書1よりも文書2の方が、種文書に対して内容が類似している文書として検索される。以上が、従来技術1の処理手順である。以上説明したように従来技術1では、種文書と登録文書の間に共通して出現する各単語の統計情報と出現回数情報を用いることにより、検索条件として指定された種文書に内容が類似する文書を検索することができる。
【0017】
【発明が解決しようとする課題】
しかし、従来技術1では、全体が日本語や英語などの単一の言語で記述された文書(以下、単一言語文書と呼ぶ)や一文書中に日本語や英語などで記述された文あるいは段落等が複数の言語にまたがって混在している文書(以下、複数言語混在文書と呼ぶ)が蓄積された文書データベースを対象に、類似文書検索を行なう場合には、以下のような問題点がある。
【0018】
すなわち、従来技術1では文書データベースに蓄積される全ての登録文書を対象として一様に収集した統計情報を使用するため、種文書から抽出された単語の重要度が正しく算出されない場合がある。特に、記述する言語の種類によって蓄積される文書の登録件数に偏りがある場合には、この問題は顕著に表れる。
【0019】
以下、日本語や英語の単一言語文書あるいは複数言語混在文書が蓄積された文書データベースに対して類似文書検索を行なった場合の問題点を、図4を用いて説明する。
【0020】
図4は、文書401「本稿では、目的の文書を検索することを…」等の単一言語文書や文書402「本稿では、入力された文書に対する… This paper shows how to search documents ...」等の複数言語混在文書が蓄積され、統計情報409として「登録文書数:14000」および検索用インデクス403が作成された文書データベースに対して、検索条件として種文書404「about connecting to a network, ...」が指定された場合の例である。なお、検索用インデクス403は、前述の検索用インデクス303と同一形式で表記した。すなわち、検索用インデクス403は「単語[出現文書数](文書番号,出現回数)」と表記されており、例えば「documents[801](4,1)」は、単語“documents”の出現文書数は801であり、文書4の中には1回出現していることを表している。
【0021】
まず、ステップ310が実行され、種文書404から単語が抽出される。ここで、英文からの単語抽出方法については、スペース(空白)やカンマ、ピリオドなどを区切り文字として抽出されるアルファベットの連続文字列を単語として抽出する。この結果として、種文書から抽出された単語および該単語の種文書における出現回数との組である単語リスト405が出力される。次に、ステップ311が実行され、文書データベースへの文書蓄積時に作成された検索用インデクス403および統計情報409が参照され、上記ステップ310で作成された単語リスト405内の各単語の重みが算出される。この結果として単語重みリスト406が出力される。
【0022】
そして、ステップ312において、上記ステップ311で作成された単語重みリスト406の中から、重みが所定の条件を満たす単語が特徴語として選択され、特徴語リスト407として出力される。本図で示した例では、重みが2.0を超える単語が特徴語として出力されるものとした。したがって、種文書から抽出された全ての単語"about", "connecting", "to", "a", "network"が特徴語として選択され、特徴語リスト407に格納される。そして、ステップ313において、各登録文書の種文書に対する類似度が算出される。この結果、特徴語リスト407内の単語を含まない文書3の類似度は0.0と算出され、単語“to”が共通する文書4の類似度は数5に示されるように3.18と算出される。これらは、類似度算出結果408として出力される。
【数5】
Figure 0003918531
この結果、種文書の内容と関係のない文書4に対しても類似度が付与されてしまうことになる。この結果、ノイズを含む検索結果が得られる。本発明では、このような問題に対し、登録文書が複数の言語で記述される場合でも、検索ノイズの少ない高精度な類似文書検索方法を提供することを課題とする。
【0023】
【課題を解決するための手段】
上記課題を解決するための、本発明に示す類似文書検索方法は、統計情報計数ステップ210の代わりに、図5のPAD図に示すように、文書の登録時に登録文書の記述言語を識別し、記述言語別の統計情報を計数する記述言語別統計情報計数ステップ510を有することを特徴とする。
【0024】
以下、本発明による類似文書検索の処理手順を図6を用いて具体的に説明する。まず、本発明の文書登録処理について説明する。本発明の言語別統計情報計数ステップ510では、登録対象となる文書に対して言語別に統計情報を計数する。例えば、本図に示した登録文書401「本稿では、目的の文書を検索することを…」は日本語文書と判定され、登録文書402「本稿では、入力された文書に対する… This paper shows how to search documents ...」は日本語文書および英語文書と判定される。そして、本判定結果を集計した「日本語文書2、英語文書1」が言語別統計情報609に追加される。この結果、言語別統計情報609として「登録文書数 日本語文書:13020、英語文書:3180」が格納される。そして、ステップ211において、全文検索用インデクスを作成する。以上が、本発明における文書登録の処理手順である。
【0025】
次に、本発明を適用した類似文書検索システムにおける類似文書検索処理手順について、検索条件として種文書404「about connecting to a network, ...」が入力された場合の例を用いて説明する。まず、ステップ310において、従来技術1と同様に種文書404から単語が抽出され、単語リスト405が生成される。次に、ステップ311において、単語リスト405に含まれる各単語について、文書データベースへの文書蓄積時に作成された言語別統計情報609を参照し、各単語の記述言語に対応する登録文書数を取得すると共に、検索用インデクス403を参照することで該単語の出現文書数を取得する。そして、これらの情報を用いて該単語の重みが算出され、単語重みリスト606として出力される。
【0026】
本図に示した例では、例えば、単語リスト405に含まれる単語“about”の記述言語は英語であることから、英語登録文書数として3180を言語別統計情報609から取得する。また、検索用インデクス403を参照することで出現文書数3013を取得する。これらの値を数6に代入することで、単語“about”の重みは1.08と算出され、単語重みリスト606に格納される。
【数6】
Figure 0003918531
ここで、Nは登録文書数を表し、nは各単語の出現文書数を表す。そして、ステップ312において重みが所定の条件を満たす単語が特徴語として抽出され、続くステップ313で類似度算出に使用される。本図に示した例では、前述の図3と同様に重みが2.0を超える単語を特徴語として抽出する。このため単語“connecting”および“network”が特徴語として抽出され、類似度算出に使用される。この結果、文書3および文書4の類似度は0.00と算出される。
【0027】
すなわち、本発明によれば、種文書の記述に関係のない文書4が検索結果として出力されない。以上が、本発明における類似文書検索処理手順である。
【0028】
以上説明したように、本発明では言語別に登録文書の統計情報を計数し、類似文書検索時の重み算出に使用することにより、各言語の特性に応じた特徴語を抽出できるようになる。この結果、検索ノイズのない高精度な類似文書検索結果を得ることができるようになる。
【0029】
【発明の実施の形態】
以下、本発明の第一の実施例について図1を用いて説明する。本発明を適用した類似文書検索システムの第一例は、ディスプレイ100、キーボード101、中央演算処理装置(CPU)102、磁気ディスク装置103、フロッピディスクドライブ(FDD)104、主メモリ105、これらを結ぶバス106および他の機器と本システムを接続するネットワーク107から構成される。
【0030】
磁気ディスク装置103は二次記憶装置の一つであり、言語別統計情報ファイル170および検索用インデクス171が格納される。FDD104を介してフロッピディスク108に格納されている登録対象として指定された文書(以下、登録対象文書と呼ぶ)が、主メモリ105あるいは磁気ディスク装置103へ読み込まれる。主メモリ105には、システム制御プログラム110、登録制御プログラム111、検索制御プログラム112、登録文書取得プログラム120、言語別統計情報収集登録プログラム121、検索用インデクス作成登録プログラム122、検索条件解析プログラム130、特徴語抽出プログラム131、類似度算出プログラム132、検索結果出力プログラム133、単語抽出プログラム150、単語重み算出プログラム151、特徴語選択プログラム152、検索用インデクス読込プログラム160および特徴語別類似度算出プログラム161が格納されると共にワークエリア140が確保される。
【0031】
特徴語抽出プログラム131は、単語抽出プログラム150、単語重み算出プログラム151および特徴語選択プログラム152を呼び出す構成を取る。類似度算出プログラム132は、検索用インデクス読込プログラム160および特徴語別類似度算出プログラム161を呼び出す構成を取る。登録制御プログラム111および検索制御プログラム112は、ユーザによるキーボード101からの指示に応じてシステム制御プログラム110によって起動される。登録制御プログラム111は、登録文書取得プログラム120、言語別統計情報収集登録プログラム121および検索用インデクス作成登録プログラム122の制御を行なう。
【0032】
検索制御プログラムは検索条件解析プログラム130、特徴語抽出プログラム131、類似度算出プログラム132および検索結果出力プログラム133の制御を行なう。なお本実施例では、キーボード101から入力されたコマンドにより、登録制御プログラム111や検索制御プログラム112が起動されるものとしたが、他の入力装置あるいはネットワーク107を介して入力されたコマンドあるいはイベントにより起動されるものであってもかまわない。
【0033】
また、これらのプログラムを磁気ディスク装置103、フロッピディスク108、MO、CD−ROM、DVD等の記憶媒体(図1には示していない)に格納し、駆動装置を介して主メモリ105に読み込み、CPU102によって実行することが可能である。また、これらのプログラムをネットワーク107を介して主メモリ105に読みこみ、CPU102によって実行することも可能である。
【0034】
さらに、本実施例では言語別統計情報ファイル170および検索用インデクス171を磁気ディスク装置103に格納されるものとしたが、フロッピディスク108、MO、CD−ROM、DVD等の記憶媒体(図1には示していない)に格納し、駆動装置を介して主メモリ105に読み込み利用することも可能である。また、これらのファイルをネットワーク107を介して、他のシステムに接続された記憶媒体(図1には示していない)に格納されるものとしてもよいし、あるいはネットワーク107に直接接続された記憶媒体に格納されるものとしても構わない。さらに、本実施例では登録対象文書をフロッピディスク108に格納されるものとしたが、磁気ディスク装置103、MO、CD−ROM、DVD等の記憶媒体(図1には示していない)に格納し、駆動装置を介して主メモリ105に読み込み利用することも可能である。
【0035】
また、登録対象文書をネットワーク107を介して、他のシステムに接続された記憶媒体(図1には示していない)に格納されるものとしてもよいし、あるいはネットワーク107に直接接続された記憶媒体に格納されるものとしても構わない。
【0036】
以下、本実施例における類似文書検索システムの処理手順について説明する。まず、システム制御プログラム110の処理手順について図7のPAD図を用いて説明する。システム制御プログラム110は、まずステップ700で、キーボード101から入力されたコマンドを解析する。
【0037】
そしてステップ701で、この結果が登録実行のコマンドであると解析された場合には、ステップ702で登録制御プログラム111を起動して、文書の登録を行なう。またステップ701で、検索実行のコマンドであると解析された場合には、ステップ703で検索制御プログラム112を起動して、類似文書の検索を行なう。以上が、システム制御プログラム110の処理手順である。
【0038】
次に、図7に示したステップ702でシステム制御プログラム110により起動される登録制御プログラム111の処理手順について、図8のPAD図を用いて説明する。登録制御プログラム111は、まずステップ800において登録文書取得プログラム120を起動し、登録対象文書を読み込み、ワークエリア140に格納する。次に、ステップ801において言語別統計情報収集登録プログラム121を起動し、前記ステップ800においてワークエリア140に格納された登録対象文書に関する統計情報を、該登録対象文書の記述言語別に収集する。そして、言語別統計情報ファイル170として磁気ディスク装置103に格納する。
【0039】
ここで、登録対象文書の記述言語の識別方法としては、該登録文書を記述する文字の文字コードが属する言語分野により判断するものとしてもよいし、該登録文書の属性情報としてユーザにより指定されるものとしてもよいし、あるいはSGMLやXMLなどのタグ属性として該登録文書内に記述されるものとしてもよい。また、登録文書を記述する文字の文字コードが属する言語分野により判定する場合、ある言語の文字が所定の文字数以上含まれるものを該言語の文書と判定するものとしてもよいし、該登録文書に含まれる文字コードの言語種別比を算出し、該言語種別比が所定の値を超えている場合に該言語の文書と判定するものとしてもよいし、あるいは、ある言語の文字が所定の文字数以上連続して出現するものを該言語の文書と判定するものとしてもよい。
【0040】
次に、ステップ802において検索用インデクス作成登録プログラム122を起動し、前記ステップ800においてワークエリア140に格納された登録対象文書に対する検索用インデクスを作成する。そして、検索用インデクス171として、磁気ディスク装置103に格納する。以上が、登録制御プログラム111の処理手順である。
【0041】
次に、図7に示したステップ703でシステム制御プログラム110により起動される検索制御プログラム112の処理手順について、図9のPAD図を用いて説明する。検索制御プログラム112は、まずステップ900において検索条件解析プログラム130を起動し、検索条件で指定された種文書を読み込み、ワークエリア140に格納する。そして、ステップ901において特徴語抽出プログラム131を起動し、上記ステップ900でワークエリア140に格納された種文書から特徴語を抽出する。
【0042】
次に、ステップ902において類似度算出プログラム132を起動し、文書データベースに登録された文書(以下、登録文書と呼ぶ)の種文書に対する類似度を算出する。そして、ステップ903において検索結果出力プログラム133を起動し、上記ステップ902で算出された各登録文書の種文書に対する類似度を出力する。以上が、検索制御プログラム112の処理手順である。
【0043】
次に、図9で示したステップ901で検索制御プログラム112により起動される特徴語抽出プログラム131の処理手順について、図10に示すPAD図を用いて説明する。特徴語抽出プログラム131は、まずステップ1000において単語抽出プログラム150を起動し、種文書から単語を抽出すると共に、各単語の出現回数を計数し、ワークエリア140に格納する。
【0044】
次に、ステップ1001において単語重み算出プログラム151を起動し、言語別統計情報ファイル170および検索用インデクス171を参照することにより、上記ステップ1000でワークエリア140に格納された全ての単語の重みを算出し、ワークエリア140に格納する。そして、ステップ1002において特徴語選択プログラム152を起動し、上記ステップ1001においてワークエリア140に格納された単語の重みが、検索条件で指定された所定の値を超えるものを特徴語として選択し、ワークエリア140に格納する。ここで、特徴語として選択するための単語の重み値条件を検索条件で指定されるものとしたが、検索条件で指定されるのではなく、システム設定ファイル(図1には示していない)に記述されるものとしてもよいし、環境変数により指定されるものとしてもよい。以上が、特徴語抽出プログラム131の処理手順である。
【0045】
次に、図9に示したステップ902で検索制御プログラム112により起動される類似度算出プログラム132の処理手順について、図11に示すPAD図を用いて説明する。類似度算出プログラム132では、図9に示したステップ901において特徴語抽出プログラム131により種文書から抽出された全ての特徴語に対し、それぞれステップ1101〜1103を繰り返し実行する(ステップ1100)。まずステップ1101において、検索用インデクス読込プログラム160を起動し、上記ステップ1100で選択された特徴語に対する検索用インデクス171を読み込み、各登録文書における出現情報を取得する。
【0046】
次に、ステップ1102において、特徴語別類似度算出プログラム161を起動し、上記ステップ1100で選択された特徴語による種文書に対する各登録文書の類似度(以下、特徴語別類似度と呼ぶ)を算出する。そして、ステップ1103において、上記ステップ1102で算出された各登録文書の特徴語別類似度を、各登録文書全体の類似度に加算し、ワークエリア140に格納する。以上が、類似度算出プログラム132の処理手順である。
【0047】
以下、本発明の第一の実施例における類似文書検索システムの具体的な処理手順を図12〜図15を用いて説明する。まず、本発明の第一の実施例における類似文書検索システムへの文書の登録処理について、図12を用いて説明する。図12では、文書3「本稿では、目的の文書を検索することを…」および文書4「本稿では、入力された文書に対する… This paper shows how to search documents ...」が文書データベースに登録される場合の処理の流れを示す。
【0048】
まず、登録文書取得処理120が実行され、文書3および文書4が読み込まれ、ワークエリア140に格納される。次に、登録対象の文書3および文書4に対して言語別統計情報を収集する。本図に示した例では、文書3の記述言語は日本語であり、また文書4の記述言語は日本語および英語の両方であることから、統計情報1203として「追加文書数 日本語文書:2 英語文書:1」が作成される。そして、本処理で作成された統計情報1203(日本語文書、英語文書の追加文書数)は既登録文書の統計情報1202へ加算され、新しい統計情報609が出力される。そして、これが言語別統計情報ファイル170として格納される。
【0049】
次に、検索用インデクス作成処理122が実行され、ワークエリア140上の登録対象の文書3および文書4に対して検索用インデクスを作成する。そして、これが検索用インデクスファイル171として格納される。以上が、本実施例に示した類似文書検索システムにおける文書の登録処理である。
【0050】
次に、本発明の第一の実施例における類似文書検索システムの類似文書の検索処理について、図13を用いて説明する。図13では、種文書404「about connecting to a network, ...」が入力された場合の例である。まず、検索条件解析処理130が実行され、検索条件で指定された種文書が取得され、ワークエリア140に格納される。
【0051】
そして、特徴語抽出処理131が実行され、前記文書の登録処理で作成された言語別統計情報ファイル170および検索用インデクス171を参照することでワークエリア140に格納された種文書1301から特徴語が抽出され、特徴語リスト607としてワークエリア140に格納される。次に、類似度算出処理132が実行され、前記文書の登録処理で作成された検索用インデクス171が読み込まれ、種文書に対する各登録文書の類似度が算出される。この結果、類似度算出結果608が出力される。以上が、本発明の第一の実施例における類似文書検索システムの類似文書の検索処理手順である。
【0052】
次に、図13に示した類似文書検索処理手順における特徴語抽出処理131の処理手順について、図14を用いて説明する。図14では、ワークエリア140上に格納された種文書1301「about connecting to a network, ...」が入力された場合の例である。まず、単語抽出処理150が実行され、ワークエリア140に格納された種文書1301から単語が抽出され、単語リスト1401「("about", 1)("connecting", 1)("to", 1)...」としてワークエリア140に格納される。ここで、("about",1)は単語「about」が種文書内に1回出現することを表している。単語の抽出方法として、空白やカンマなどの区切り文字により抽出される一連の文字列を単語として抽出するものとする。
【0053】
そして単語重み算出処理151が実行され、前記文書の登録処理で作成された言語別統計情報ファイル170および検索用インデクス171を参照することにより、単語リスト1401に格納された各単語の重みを算出する。そして、単語重みリスト1402としてワークエリア140に格納する。ここで、「"about"(1.08)」は単語「about」の重みが1.08であることを表している。本図に示した例では、前述の数6を用いて該単語の重みを算出するが、他の重み算出式を用いてもよい。
【0054】
ここで、参照される言語別統計情報ファイル170の言語種別としては、単語抽出処理150で抽出された各単語の文字コードにより識別するものとしたが、種文書2100に含まれる文字コードの言語種別比の値により識別するものとしてもよいし、ある言語の文字コードの連続出現数により識別するものとしてもよいし、検索条件、システム設定ファイル(図1には示していない)、あるいは環境変数などにより指定されるものとしてもよい。これにより、例えば、日本語で記述された文書内に出現する組織名や製品名などのアルファベット文字列を日本語として取り扱うことができる。
【0055】
次に、特徴語選択処理152が実行され、上記単語重み算出処理151でワークエリア140に格納された単語重みリスト1402が読み込まれ、各単語の重みが所定の条件を満たすものを特徴語として抽出し、特徴語リスト607としてワークエリア140に格納される。本図に示した例では、特徴語の抽出条件を「重みが2.0を超える単語」としており、単語重みリスト1402の中から「"connecting"(2.64)」および「"network"(3.63)」が特徴語として抽出され、特徴語リスト607に格納されている。
【0056】
以上が、本発明の第一の実施例における類似文書検索システムの特徴語抽出処理手順である。なお、図14に示した特徴語選択処理152では、特徴語の抽出条件を「重みが2.0」を超えるものとしたが、「重みの降順に所定の個数を選択する」としてもよいし、これらを組み合わせて使用してもよい。あるいは、言語別に異なる条件を設定できるものとしてもよい。
【0057】
次に、図13に示した類似文書検索処理手順における類似度算出処理132の処理手順について、図15を用いて説明する。図15は、ワークエリア上に格納された特徴語リスト607「"connecting"(2.64) "network"(3.63)」が入力された場合の例である。まず、検索用インデクス参照処理160が実行され、特徴語リスト607内の単語"connecting"が選択され、該単語に関する検索用インデクス1501がワークエリア140上に格納される。
【0058】
次に、特徴語別類似度算出処理161が実行され、単語"connecting"に関する検索用インデクス1501が読み込まれ、該単語による種文書に対する各登録文書の類似度が算出され、特徴語別類似度1502としてワークエリア140に格納される。ここで特徴語別の類似度算出式として、前述の数2を用いるものとする。そして、登録文書別類似度算出処理1102が実行され、文書別の類似度が算出される。本図に示した例では、単語"connecting"による特徴語別類似度1502は1単語目の処理であることから、特徴語別類似度1502は文書別類似度1503として出力される。
【0059】
次に、特徴語リスト607の二つ目の単語"network"に関して、上記検索用インデクス参照処理160〜登録文書別類時度算出処理1102が実行される。この結果として、文書別類似度1513がワークエリア140に格納される。以上が、本発明の第一の実施例における類似文書検索システムの類似度算出処理手順である。
【0060】
以上が、本発明の第一の実施形態である。以上説明したように、本発明の第一の実施形態によれば、記述言語別に登録文書の文書数を計数した統計情報を使用することにより、種文書から抽出された単語の重要度を正しく算出することができるようになる。この結果、重要度の高い単語を特徴語として抽出することができるようになり、検索ノイズのない高精度な類似文書検索を実現することができる。なお、本実施例では、登録対象文書や種文書を文書として説明したが、文章あるいは文字列であっても構わない。また、本実施例では、特徴語別の類似度算出式として数2を用いたが、他の算出式を用いてもよい。また、本実施例では、単語の抽出処理として空白やカンマなどの区切り文字により抽出される一連の文字列を抽出するものとしたが、形態素解析を用いて構文解析を行なうことで単語を抽出する方法を用いてもよいし、「特開平11−338883」に開示されるようにn文字の連続文字列(以下、n−gramと呼ぶ)の境界確率を用いて抽出された文字列を単語として用いるものとしてもよいし、その他の方法を用いるものとしてもよい。これにより、種文書が英語でない場合でも同様に類似文書を検索できるのは明らかであろう。
【0061】
また、本実施例では、文書データベースで蓄積される文書の種類として英語文書と日本語文書の例を用いて説明したが、3種類以上の文書が蓄積される場合でも同様に類似文書を検索できるのは明らかであろう。また、本実施例では、検索用インデクスの種類には特に言及しなかったが、登録対象文書から抽出された単語単位にインデクスを作成するものとしてもよいし、登録対象文書からn−gramを抽出し、抽出されたn−gram単位にインデクスを作成するものとしてもよい。
【0062】
次に、本発明の第二の実施例について説明する。本発明を適用した類似文書検索システムの第二の実施例は、種文書に対する登録文書の類似度を算出する際に、言語別の統計情報の代わりに文書データベース全体の統計情報を利用するものである。例えば、この統計情報として言語別の登録文書数の代わりに文書データベース全体の登録文書数を用いる。すなわち本実施例では、言語別統計情報を用いて抽出された特徴語に対し、文書データベース全体の統計情報を用いて算出された重みを付与し、これを類似度算出に用いる。これにより、種文書が複数の言語で記述されている場合でも、記述言語の種類による文書登録件数の偏りに関わらず、高精度な類似文書検索を実現することができるようになる。
【0063】
本実施例は、図1に示した第一の実施例とほぼ同様の構成を取るが、登録制御プログラム111の構成と特徴語抽出プログラム131の構成が異なる。図16に示すように登録制御プログラム111に統合統計情報収集登録プログラム1600が加わると共に、図17に示すように特徴語抽出プログラム131に統合重み算出プログラム1700が加わる。以下、第一の実施例とは異なる登録制御プログラム111aの処理手順を図18を用いて説明する。第一の実施例における登録制御プログラム111の処理手順(図8)と異なるのは、ステップ800とステップ801の間にステップ1800が加わり、文書データベース全体での統計情報を保持することである。
【0064】
ステップ1800では、統合統計情報収集登録プログラム1600を起動し、ステップ800でワークエリア140に格納された登録対象文書に関する統計情報を収集し、統合統計情報ファイル1601に格納する。以上が、第二の実施例における登録制御プログラム111aの処理手順である。
【0065】
次に、第一の実施例とは異なる特徴語抽出プログラム131aの処理手順を図19を用いて説明する。第一の実施例における特徴語抽出プログラム131の処理手順(図10)と異なるのは、ステップ1002の後にステップ1900が加わり、文書データベース全体の統計情報を用いて各特徴語の重みを算出することである。ステップ1900では、統合重み算出プログラム1700を起動し、各特徴語に対する統合重みを算出する。以上が、第二の実施例における特徴語抽出プログラム131aの処理手順である。
【0066】
以下、第二の実施例における類似文書検索システムへの文書の登録処理について、図20を用いて説明する。図20では、第一の実施例における文書の登録処理(図12)と同様に、文書3「本稿では、目的の文書を検索することを…」および文書4「本稿では、入力された文書に対する… This paper shows how to search documents ...」が文書データベースに登録される場合の処理の流れを示す。ここで、図12と異なるのは、登録文書取得処理120が実行された後に、統合統計情報収集登録処理1600が実行されることである。
【0067】
統合統計情報収集登録処理1600では、登録対象の文書3および文書4に対して統計情報を収集する。本図に示した例では、統合統計情報2000として「登録文書数:2」が収集される。そして、本処理で作成された統合統計情報2000(登録文書数)は既登録文書の統計情報2001へ加味され、新しい統計情報2002が出力される。そして、これが統合統計情報ファイル1601として格納される。以上が、第二の実施例に示した類似文書検索システムにおける文書の登録処理手順の概要である。
【0068】
次に、第二の実施例における類似文書検索システムの特徴語抽出処理131aの処理手順について、図21を用いて説明する。図21では、ワークエリア140上に格納された種文書2100「本稿では、入力された文書に対する… This paper shows how to search documents ...」が入力された場合の例である。まず、単語抽出処理150が実行され、ワークエリア140に格納された種文書2100から単語が抽出され、これが単語リスト2101「("本稿", 1)("入力", 1)("文書", 1)...」としてワークエリア140に格納される。ここで、単語の抽出方法として、種文書の文字列の文字コードが英語コードの場合には空白やカンマなどの区切り文字により抽出される一連の文字列を単語として抽出するものとし、日本語コードの場合には単語辞書(図1には示していない)に掲載された単語を抽出するものとする。
【0069】
そして単語重み算出処理151が実行され、文書の登録処理で作成された言語別統計情報ファイル170および検索用インデクス171を参照することにより、単語リスト2101に格納された各単語の重みを算出する。そして、単語重みリスト2102としてワークエリア140に格納する。次に、特徴語選択処理152が実行され、上記単語重み算出処理151でワークエリア140に格納された単語重みリスト2102が読み込まれ、各単語の重みが所定の条件を満たすものを特徴語として抽出し、特徴語リスト2103としてワークエリア140に格納される。本図に示した例では、特徴語の抽出条件を「重みが2.0を超える単語」としており、単語重みリスト2102の中から「"入力"(2.58)」、「"search"(3.04)」および「"documents"(2.99)」が特徴語として抽出され、特徴語リスト2103に格納されている。
【0070】
そして、統合重み算出処理1700が実行され、上記特徴語選択処理152でワークエリア140に格納された特徴語リスト2103に格納された全ての単語に対して、単語リスト2101および統計情報2002を参照し、前述の数6を用いて統合重みを算出する。そして、重み統合特徴語リスト2104としてワークエリア140に格納する。本図に示した例では、数7に示すように単語"入力"の統合重みとして「"入力"(2.69)」が算出される。同様に、「"search"(5.22)」および「"documents"(5.13)」が統合重みとして算出され、重み統合特徴語リスト2104に格納される。
【数7】
Figure 0003918531
すなわち、単語"入力"に比べ単語"search"や"documents"は文書データベース内で重要な単語であると判断され、重みが高く付与されることになる。なお、統合重みの算出には、前述の数6を用いて該単語の重みを算出するが、他の重み算出式を用いてもよい。以上が、第二の実施例に示した類似文書検索システムにおける特徴語抽出処理手順の概要である。
【0071】
次に、図1に示した類似度算出プログラム132において、前述の統合重み算出処理で算出された統合重みを各特徴語の重みとみなし、各登録文書の種文書に対する類似度を算出する。統合重みを用いることにより、種文書2100に記述された内容に関して、文書データベース内で近い内容が記述される文書を優先的に出力することができるようになり、ユーザは検索結果を上位から順番に閲覧することで、目的の文書を検索できるようになる。以上が、本発明の第二の実施形態である。
【0072】
以上説明したように、本発明の第二の実施形態によれば、言語別統計情報を用いて抽出された特徴語に対し、文書データベース全体の統計情報を用いて算出された重みを付与し、これを類似度算出に用いる。これにより、種文書が複数の言語で記述されている場合でも、記述言語の種類による文書登録件数の偏りに関わらず、高精度な類似文書検索を実現することができるようになる。
【0073】
【発明の効果】
以上説明したように、本発明では、言語の種別に応じた統計情報を用いることにより、種文書の記述言語を考慮して単語の重みを算出することができるようになる。この結果、各言語で重要度の高い単語を特徴語として抽出して類似文書検索を行うことができる。
【図面の簡単な説明】
【図1】本発明の第一の実施例における類似文書検索システムの全体構成を示す図である。
【図2】従来技術1の処理手順を説明するPAD図である。
【図3】従来技術1の処理手順の概要を説明する図である。
【図4】従来技術1の問題点を説明する図である。
【図5】本発明の原理を説明するPAD図である。
【図6】本発明の処理手順の概要を説明する図である。
【図7】本発明の第一の実施例におけるシステム制御プログラム110の処理手順を説明するPAD図である。
【図8】本発明の第一の実施例における登録制御プログラム111の処理手順を説明するPAD図である。
【図9】本発明の第一の実施例における検索制御プログラム112の処理手順を説明するPAD図である。
【図10】本発明の第一の実施例における特徴語抽出プログラム131の処理手順を説明するPAD図である。
【図11】本発明の第一の実施例における類似度算出プログラム132の処理手順を説明するPAD図である。
【図12】本発明の第一の実施例における文書登録処理の概要を説明する図である。
【図13】本発明の第一の実施例における類似文書検索処理の概要を説明する図である。
【図14】本発明の第一の実施例における特徴語抽出処理の概要を説明する図である。
【図15】本発明の第一の実施例における類似度算出処理の概要を説明する図である。
【図16】本発明の第二の実施例における登録制御プログラム111aの構成を示す図である。
【図17】本発明の第二の実施例における特徴語抽出プログラム131aの構成を示す図である。
【図18】本発明の第二の実施例における登録制御プログラム111aの処理手順を説明するPAD図である。
【図19】本発明の第二の実施例における類似度算出プログラム132aの処理手順を説明するPAD図である。
【図20】本発明の第二の実施例における文書登録処理の概要を説明する図である。
【図21】本発明の第二の実施例における特徴語抽出処理の概要を説明する図である。
【符号の説明】
100 ディスプレイ
101 キーボード
102 中央演算処理装置(CPU)
103 磁気ディスク装置
104 フロッピディスクドライブ(FDD)
105 主メモリ
106 バス
107 ネットワーク
108 フロッピディスク
110 システム制御プログラム
111 登録制御プログラム
112 検索制御プログラム
120 登録文書取得プログラム
121 言語別統計情報収集登録プログラム
122 検索用インデクス作成登録プログラム
130 検索条件解析プログラム
131 特徴語抽出プログラム
132 類似度算出プログラム
133 検索結果出力プログラム
140 ワークエリア
150 単語抽出プログラム
151 単語重み算出プログラム
152 特徴語選択プログラム
160 検索用インデクス読込プログラム
161 特徴語別類似度算出プログラム
170 言語別統計情報ファイル
171 検索用インデクス
1600 統合統計情報収集登録プログラム
1601 統合統計情報ファイル
1700 統合重み算出プログラム

Claims (14)

  1. 種文書に類似する文書を登録文書から検索する類似文書検索方法であって、
    前記登録文書の登録文書数および、前記登録文書の言語種別毎の言語別登録文書数を格納しており
    単語抽出手段が、前記種文書から単語を抽出し、
    単語重み算出手段が、前記単語が使用されている文書数を前記登録文書から取得し、該取得した文書数と前記言語別登録文書数とから、前記単語の重要度を算出し、
    特徴語選択手段が、前記重要度が所定の条件を満たす前記単語を選択し、
    統合重み算出手段が、前記選択した単語が使用されている文書数を前記登録文書から取得し、該取得した文書数と前記登録文書数とから、前記選択した単語の重要度を算出し、
    類似度算出手段が、該算出された重要度を用いて前記種文書と前記登録文書との類似度を算出することを特徴とする類似文書検索方法。
  2. 前記重要度は、前記単語が使用されている文書が前記登録文書のなかに存在する度合いに基づき算出されることを特徴とする請求項1に記載の類似文書検索方法。
  3. 前記類似度は、前記重要度と、前記種文書内に前記単語が出現する頻度と、前記登録文書内に前記単語が出現する頻度とから求められることを特徴とする請求項1または2に記載の類似文書検索方法。
  4. 前記所定の条件は、前記単語の重要度が所定の値を超えるものであることを特徴とする請求項1乃至3のいずれか1項に記載の類似文書検索方法。
  5. 前記所定の条件は、前記重要度の降順に所定の個数の前記単語を抽出することを特徴とする請求項1乃至3のいずれか1項に記載の類似文書検索方法。
  6. 検索結果出力手段が、前記類似度が所定の条件を満たす前記登録文書を出力することを特徴とする請求項1乃至5のいずれか1項に記載の類似文書検索方法。
  7. 検索結果出力手段が、前記類似度の降順に前記登録文書を出力することを特徴とする請求項1乃至6のいずれか1項に記載の類似文書検索方法。
  8. 種文書に類似する文書を登録文書から検索する類似文書検索システムであって、
    前記登録文書の登録文書数および、前記登録文書の言語種別毎の言語別登録文書数を格納する記憶手段と、
    前記種文書から単語を抽出する単語抽出手段と、
    前記単語が使用されている文書数を前記登録文書から取得し、該取得した文書数と前記言語別登録文書数とから、前記単語の重要度を算出する単語重み算出手段と、
    前記重要度が所定の条件を満たす前記単語を選択する特徴語選択手段と、
    前記選択した単語が使用されている文書数を前記登録文書から取得し、該取得した文書数と前記登録文書数とから、前記選択した単語の重要度を算出する統合重み算出手段と、
    該算出された重要度を用いて前記種文書と前記登録文書との類似度を算出する類似度算出手段と、
    を有することを特徴とする類似文書検索システム。
  9. 前記重要度は、前記単語が使用されている文書が前記登録文書のなかに存在する度合いに基づき算出されることを特徴とする請求項8に記載の類似文書検索システム。
  10. 前記類似度は、前記重要度と、前記種文書内に前記単語が出現する頻度と、前記登録文書内に前記単語が出現する頻度とから求められることを特徴とする請求項8または9に記載の類似文書検索システム。
  11. 前記所定の条件は、前記重要度が所定の値を超えるものであることを特徴とする請求項8乃至10のいずれか1項に記載の類似文書検索システム。
  12. 前記所定の条件は、前記重要度の降順に所定の個数の前記単語を抽出することを特徴とする請求項8乃至10のいずれか1項に記載の類似文書検索システム。
  13. 前記類似度が所定の条件を満たす前記登録文書を出力する検索結果出力手段を有することを特徴とする請求項8乃至12のいずれか1項に記載の類似文書検索システム。
  14. 前記類似度の降順に前記登録文書を出力する検索結果出力手段を有することを特徴とする請求項8乃至13のいずれか1項に記載の類似文書検索システム。
JP2001363568A 2001-11-29 2001-11-29 類似文書検索方法およびシステム Expired - Fee Related JP3918531B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001363568A JP3918531B2 (ja) 2001-11-29 2001-11-29 類似文書検索方法およびシステム
CA002392893A CA2392893C (en) 2001-11-29 2002-07-10 Similar document retrieving method and system
US10/206,595 US7231388B2 (en) 2001-11-29 2002-07-29 Similar document retrieving method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001363568A JP3918531B2 (ja) 2001-11-29 2001-11-29 類似文書検索方法およびシステム

Publications (2)

Publication Number Publication Date
JP2003167913A JP2003167913A (ja) 2003-06-13
JP3918531B2 true JP3918531B2 (ja) 2007-05-23

Family

ID=19173891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001363568A Expired - Fee Related JP3918531B2 (ja) 2001-11-29 2001-11-29 類似文書検索方法およびシステム

Country Status (3)

Country Link
US (1) US7231388B2 (ja)
JP (1) JP3918531B2 (ja)
CA (1) CA2392893C (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7136845B2 (en) * 2001-07-12 2006-11-14 Microsoft Corporation System and method for query refinement to enable improved searching based on identifying and utilizing popular concepts related to users' queries
JP2004334339A (ja) * 2003-04-30 2004-11-25 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP4366108B2 (ja) * 2003-04-30 2009-11-18 キヤノン株式会社 文書検索装置、文書検索方法及びコンピュータプログラム
JP2004348241A (ja) * 2003-05-20 2004-12-09 Hitachi Ltd 情報提供方法、サーバ及びプログラム
EP1562126A1 (en) * 2004-02-03 2005-08-10 Sap Ag A database management system and a method of managing a database
WO2005091192A1 (ja) * 2004-03-19 2005-09-29 Hitachi, Ltd. 生活処理水取引支援装置、生活処理水取引支援方法および そのプログラムが記録された記録媒体
US7246117B2 (en) * 2004-03-31 2007-07-17 Sap Ag Algorithm for fast disk based text mining
US7814105B2 (en) * 2004-10-27 2010-10-12 Harris Corporation Method for domain identification of documents in a document database
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
JP4923604B2 (ja) * 2006-02-13 2012-04-25 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP4807618B2 (ja) * 2006-03-06 2011-11-02 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2007241888A (ja) * 2006-03-10 2007-09-20 Sony Corp 情報処理装置および方法、並びにプログラム
US8200695B2 (en) * 2006-04-13 2012-06-12 Lg Electronics Inc. Database for uploading, storing, and retrieving similar documents
US8001130B2 (en) * 2006-07-25 2011-08-16 Microsoft Corporation Web object retrieval based on a language model
US7720830B2 (en) * 2006-07-31 2010-05-18 Microsoft Corporation Hierarchical conditional random fields for web extraction
JP2008077543A (ja) * 2006-09-25 2008-04-03 Fujitsu Ltd レポート引用元情報取得装置、レポート引用元情報取得方法及びレポート引用元情報取得プログラム
US7908279B1 (en) 2007-05-25 2011-03-15 Amazon Technologies, Inc. Filtering invalid tokens from a document using high IDF token filtering
US7814107B1 (en) * 2007-05-25 2010-10-12 Amazon Technologies, Inc. Generating similarity scores for matching non-identical data strings
US8046372B1 (en) * 2007-05-25 2011-10-25 Amazon Technologies, Inc. Duplicate entry detection system and method
JP5031472B2 (ja) * 2007-07-23 2012-09-19 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
US7895225B1 (en) 2007-12-06 2011-02-22 Amazon Technologies, Inc. Identifying potential duplicates of a document in a document corpus
US8560298B2 (en) * 2008-10-21 2013-10-15 Microsoft Corporation Named entity transliteration using comparable CORPRA
US8645298B2 (en) 2010-10-26 2014-02-04 Microsoft Corporation Topic models
US8612457B2 (en) 2011-03-28 2013-12-17 Palo Alto Research Center Incorporated Method and system for comparing documents based on different document-similarity calculation methods using adaptive weighting
US9124590B2 (en) * 2011-07-19 2015-09-01 Sk Planet Co., Ltd. Intelligent information providing system and method
KR101911903B1 (ko) * 2011-12-05 2018-10-26 에스케이플래닛 주식회사 인텐트 등록 및 개인화된 정보 제공 시스템, 방법 및 그에 대한 기록매체
US8738595B2 (en) 2011-11-22 2014-05-27 Navteq B.V. Location based full text search
US8745022B2 (en) * 2011-11-22 2014-06-03 Navteq B.V. Full text search based on interwoven string tokens
US8832057B2 (en) * 2011-12-02 2014-09-09 Yahoo! Inc. Results returned for list-seeking queries
KR101881060B1 (ko) * 2011-12-13 2018-07-25 에스케이플래닛 주식회사 인텐트 등록 및 개인화된 정보 제공 시스템, 방법 및 그에 대한 기록매체
US20130173610A1 (en) * 2011-12-29 2013-07-04 Microsoft Corporation Extracting Search-Focused Key N-Grams and/or Phrases for Relevance Rankings in Searches
JP2013149061A (ja) * 2012-01-19 2013-08-01 Nec Corp 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム
US8700661B2 (en) 2012-04-12 2014-04-15 Navteq B.V. Full text search using R-trees
JP5676517B2 (ja) * 2012-04-12 2015-02-25 日本電信電話株式会社 文字列類似度計算装置、方法、及びプログラム
CN106294476B (zh) * 2015-06-05 2020-10-16 北京搜狗科技发展有限公司 一种特征词关系获取方法及装置
JP6805720B2 (ja) * 2016-10-21 2020-12-23 富士通株式会社 データ検索プログラム、データ検索装置およびデータ検索方法
CN108170716B (zh) * 2017-12-04 2021-12-17 昆明理工大学 一种基于人体视觉的文本查重方法
US10929218B2 (en) 2018-05-16 2021-02-23 Nec Corporation Joint semantic and format similarity for large scale log retrieval
US11120033B2 (en) 2018-05-16 2021-09-14 Nec Corporation Computer log retrieval based on multivariate log time series
US11132248B2 (en) 2018-11-29 2021-09-28 Nec Corporation Automated information technology system failure recommendation and mitigation
WO2020240312A1 (ja) * 2019-05-24 2020-12-03 株式会社半導体エネルギー研究所 文書検索システム、及び文書検索方法
CN110263170A (zh) * 2019-06-21 2019-09-20 中科软科技股份有限公司 一种文本类别的自动标注方法及系统
CN112380352B (zh) * 2020-10-28 2024-06-18 中国商用飞机有限责任公司北京民用飞机技术研究中心 一种交互式检索方法、装置、计算机设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893065A (en) * 1994-08-05 1999-04-06 Nippon Steel Corporation Apparatus for compressing audio data
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US6347315B1 (en) * 1997-12-12 2002-02-12 Canon Kabushiki Kaisha Method and apparatus for selecting and utilizing one of computers or databases
JP3622503B2 (ja) * 1998-05-29 2005-02-23 株式会社日立製作所 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
US6556992B1 (en) * 1999-09-14 2003-04-29 Patent Ratings, Llc Method and system for rating patents and other intangible assets

Also Published As

Publication number Publication date
CA2392893A1 (en) 2003-05-29
CA2392893C (en) 2009-08-25
US20030101177A1 (en) 2003-05-29
US7231388B2 (en) 2007-06-12
JP2003167913A (ja) 2003-06-13

Similar Documents

Publication Publication Date Title
JP3918531B2 (ja) 類似文書検索方法およびシステム
JP2742115B2 (ja) 類似文書検索装置
EP2367121A1 (en) Search system, search method, and program
JP2005352888A (ja) 表記揺れ対応辞書作成システム
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JP2014106665A (ja) 文書検索装置、文書検索方法
JP4238616B2 (ja) 類似文書検索方法および類似文書検索装置
Ghanem et al. Stemming effectiveness in clustering of Arabic documents
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3765801B2 (ja) 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム
JP2006227823A (ja) 情報処理装置及びその制御方法
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JP3249743B2 (ja) 文書検索システム
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JPH11143902A (ja) n−gramを用いた類似文書検索方法
JP2000285122A (ja) シソーラス生成装置および方法,ならびにシソーラス生成プログラムを記録した記録媒体
Harrag et al. UML modeling of text mining in Arabic language and application to the prophetic traditions “Hadiths”
KR101078907B1 (ko) 문서 평가 시스템
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100223

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110223

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110223

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120223

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120223

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130223

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees