JPH1049549A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH1049549A
JPH1049549A JP9087328A JP8732897A JPH1049549A JP H1049549 A JPH1049549 A JP H1049549A JP 9087328 A JP9087328 A JP 9087328A JP 8732897 A JP8732897 A JP 8732897A JP H1049549 A JPH1049549 A JP H1049549A
Authority
JP
Japan
Prior art keywords
document
word
search
occurrence
search request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9087328A
Other languages
English (en)
Inventor
Mitsuaki Inaba
光昭 稲葉
Naohiko Noguchi
直彦 野口
Yuji Sugano
祐司 菅野
Mitsuhiro Sato
光弘 佐藤
Masako Nomoto
昌子 野本
Hideki Yasukawa
秀樹 安川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP9087328A priority Critical patent/JPH1049549A/ja
Priority to KR1019970021247A priority patent/KR100295354B1/ko
Priority to DE69731142T priority patent/DE69731142T2/de
Priority to EP97108617A priority patent/EP0810535B1/en
Priority to US08/865,181 priority patent/US6154737A/en
Priority to CN97105515A priority patent/CN1133127C/zh
Publication of JPH1049549A publication Critical patent/JPH1049549A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書データからユーザの入力した検索要求に
合致する文書を探索し、その合致する度合によって順位
付けを行なう文書検索装置に関するもので、従来の単語
頻度のみによる文書の順位付けのもっていたユーザの検
索意図に反した記事が上位に来てしまう問題点を解決
し、高精度な検索と絞り込を含めた総合的な検索時間の
短縮を可能にする文書検索装置の提供を目的とする。 【解決手段】 頻度スコア算定手段308は単語頻度算定
手段307が出力した総文書数、単語の出現する文書数、
文書における単語の出現頻度、単語の重み付けパラメー
タから、単語頻度による文書と検索要求の合致度合を示
す頻度スコアを算出し、文書スコア算定手段309が上記
頻度スコアから文書と検索要求の合致度合を示す文書ス
コア算出し、順位付けを行なうことによって、ユーザの
検索意図により近い検索結果を得ることが可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書検索装置に関
し、特に大量の文書データからユーザの入力した検索要
求に合致する文書を探索し、その合致する度合によって
順位付けを行なう文書検索装置に関するものである。
【0002】
【従来の技術】近年、文書検索の分野においては文書デ
ータベースの大規模化が進み、従来のようなキーワード
検索や全文検索ではたとえ検索結果が高速に得られたと
しても、その数が膨大で目的の文書を捜し出すのが困難
な場合が増え、トータルな検索時間は必ずしも短縮され
ているとは言い難い。結果文書数を減らすためには、さ
らに別のキーワードを追加するなどして絞り込みを行な
うという方法もあるが、目的とする文書が不必要な文書
とともにふるい落とされてしまわないような適切なキー
ワードを追加するのは難しい。
【0003】そこで、検索対象文書に文字列が存在する
か否かだけでなく、その出現頻度等に着目して検索結果
文書の順位付けを行ない、目的の文書を効率良く捜し出
せるランキングの手法が注目されている。
【0004】図11は検索結果の順位付けを行なう従来
の文書検索装置の構成を示したブロック図である。図1
1において、文書検索装置は、検索対象となる文書デー
タ1101と、辞書1102と、辞書単語の文書中での出現頻度
を格納した単語頻度索引1103と、文書データ1101から単
語の出現頻度情報を得る単語頻度情報抽出手段1104と、
ユーザからの検索要求を入力する検索要求入力手段1105
と、単語頻度索引1103から単語の出現頻度を求める単語
頻度算定手段1106と、単語の出現頻度をもとに各文書の
頻度スコアを求める頻度スコア算定手段1107と、頻度ス
コアをもとに各文書と検索要求の合致度合を示す文書ス
コアを算出する文書スコア算定手段1108と、文書スコア
の順に文書を並べ替える文書順位付け手段1109と、スコ
アの順に並べられた結果文書を表示する検索結果表示手
段1110とから構成されている。
【0005】図12は検索結果の順位付けを行なう従来
の文書検索装置の索引作成の手順を示した流れ図であ
る。まず、検索の前に予め単語頻度情報抽出手段1104が
文書データ1101を調べ、総文書数、出現文書数とともに
単語頻度索引1103に出力し単語頻度索引を作成してお
く。
【0006】ステップ1201において、検索するユー
ザは検索要求入力手段1105により、検索要求を入力す
る。ステップ1202において、単語頻度算定手段1106
は単語頻度索引1103を参照し、総文書数NDおよび、検
索要求入力手段1105で入力された検索要求に含まれる辞
書単語Wi(i=1、2、・・・、NW:NWは検索要
求に含まれる辞書単語数)について、当該単語の出現文
書数NDi、文書Dj(j=1、2、・・・、ND)中
での出現頻度TFijを算出する。ステップ1203に
おいて、文書スコア算定手段1107が単語頻度算定手段11
06からの出力をもとに文書Djの頻度スコアSFjを式
(1)によって算出する。 ここで、IDFiは単語Wiの全文書における偏りを表
すパラメータである。
【0007】ステップ1204において、文書スコア算
定手段1108が頻度スコア算定手段1107の出力した文書D
jの頻度スコアSFjをもとに文書Djと検索要求の合
致度合を示す文書スコアSjを求める。従来の検索装置
においては式(2)のように文書スコアSjは頻度スコ
アSFjそのものである。 Sj=SFj ・・・(2)
【0008】ステップ1205において、文書順位付け
手段1109が文書スコア算定手段1108で算出された各文書
のスコアの大きい順に検索結果を並べ替え、ステップ1
206において、検索結果表示手段1110がその検索結果
をユーザに提示する。
【0009】
【発明が解決しようとする課題】しかしながら前記の従
来の構成では、図13に示すように、検索要求のうちの
1つの単語が非常に高頻度で出現するような文書があっ
た場合、ユーザの検索意図に反した文書であっても、高
い順位にランクされてしまうという課題を有していた。
また、検索対象文書の順位付けに用いるスコアの算出
は、フィールドに関係なく文書単位で行なわれるため、
その文書の内容を良く表しているであろうと思われる新
聞記事の「見出し」や特許の「発明の名称」等の情報が
活用できないという課題を有していた。
【0010】また、複数の検索要求を与える場合、それ
らに優先順位をつけられず、ユーザの要求を柔軟に表現
できないという課題や、全てを含んでいて欲しい単語群
を検索要求として与えた場合でも、1つの単語が非常に
高頻度で出現する文書があると高順位にきてしまうとい
う課題や、近接して出現しなければ意味の無いような単
語群を検索要求として表現し、検索することができない
といった課題を有していた。
【0011】本発明は前記従来技術の課題を解決するた
めに、ユーザの検索要求を柔軟に受け付け、検索、順位
付けを行なうことにより、ゴミの少ない高精度な検索結
果が得られ、結果の絞り込みを含めた総合的な検索時間
が短縮可能な文書検索装置を提供することを目的とす
る。
【0012】
【課題を解決するための手段】本発明の文書検索装置に
おいては、検索対象文書中の単語共起関係の情報を索引
に持ち、検索要求に含まれる単語共起関係が検索対象文
書に現れるか否かを調べる共起関係算定手段を備えたも
のである。
【0013】また、優先度の異なる複数の検索要求を入
力するために、複数の検索要求入力手段を備えたもので
ある。
【0014】また、検索対象文書の複数のフィールドに
対して、各々索引情報を持ち、検索対象文書の順位付け
に反映させるフィールドの割合をユーザが指定できるフ
ィールド割合入力手段を備えたものである。
【0015】また、検索要求に含まれる複数の単語が検
索対象文書中にいくつ含まれるかを算出する出現語数算
定手段を備えたものである。
【0016】また、検索対象文書中の単語出現位置を索
引に持ち、検索要求に含まれる複数の単語の検索対象文
書中での出現位置が隣接もしくは比較的近いかどうかを
調べる単語近接度算定手段を備えたものである。
【0017】本発明によれば、ユーザの検索要求を柔軟
に表現し、検索、順位付けを行なうことにより、ユーザ
の検索意図に沿った、ゴミの少ない高精度な検索結果が
得られ、結果の絞り込みを含めた総合的な検索時間が短
縮可能な文書検索装置が得られる。
【0018】
【発明の実施の形態】本発明の請求項1記載の発明は、
検索要求に基づいて、検索対象文書の検索と順位付けを
行なう文書検索装置において、複数の検索要求入力手段
を備え、優先度の異なる複数の検索要求をユーザが入力
できるようにしたことを特徴とするものであり、ユーザ
の目的とする文書を高精度で検索することが可能となる
作用を有する。
【0019】また、本発明の請求項2記載の発明は、検
索要求に基づいて、検索対象文書の検索と順位付けを行
なう文書検索装置において、検索対象文書の複数のフィ
ールドに対して、各々索引情報を持ち、検索対象文書の
順位付けに反映させるフィールドの割合をユーザが指定
できるフィールド割合入力手段を備え、検索対象文書の
順位付けに反映させる割合をフィールド毎にユーザが指
定できるようにしたことを特徴とするものであり、ユー
ザの目的とする文書を高精度で検索することが可能とな
る作用を有する。
【0020】また、本発明の請求項3記載の発明は、検
索要求に基づいて、検索対象文書の検索と順位付けを行
なう文書検索装置において、検索要求に含まれる複数の
単語が検索対象文書中にいくつ含まれるかを算出する出
現語算定手段を備え、検索要求に含まれる複数の単語が
検索対象文書中に同時に現れる場合に、当該文書に与え
る得点を加算することによりこれを優先的に表示させる
ようにしたことを特徴とするものであり、ユーザの目的
とする文書を高精度で検索することが可能となる作用を
有する。
【0021】また、本発明の請求項4記載の発明は、検
索要求に基づいて、検索対象文書の検索と順位付けを行
なう文書検索装置において、検索対象文書中の単語出現
頻度と単語出現位置を索引に持ち、検索要求に含まれる
複数の単語の検索対象文書中での出現位置の近接度合を
調べる単語近接度算定手段を備え、出現位置の近接度合
によって、当該文書に与える得点を加算することにより
これを優先的に表示させるようにしたことを特徴とする
ものであり、ユーザの目的とする文書を高精度で検索す
ることが可能となる作用を有する。
【0022】また、本発明の請求項5記載の発明は、検
索要求に基づいて、検索対象文書の検索と順位付けを行
なう文書検索装置において、検索対象文書中の単語出現
頻度と単語共起情報を索引に持ち、複数の検索要求入力
手段、および検索要求に含まれる単語共起関係が検索対
象文書中に現れるかどうかを調べる単語共起関係照合手
段を備え、優先度の異なる複数の検索要求をユーザが入
力できるようにすると共に単語共起関係が現れる文書に
与える得点を加算することにより、これを優先的に表示
させるようにしたことを特徴とする文書検索装置とした
ものであり、ユーザの目的とする文書をより高精度で検
索することが可能となる作用を有する。
【0023】また、本発明の請求項6記載の発明は、検
索要求に基づいて、検索対象文書の検索と順位付けを行
なう文書検索装置において、検索対象文書中の単語出現
頻度と単語共起情報をフィールド毎に索引に持ち、検索
対象文書の順位付けに反映させるフィールドの割合をユ
ーザが指定できるフィールド割合入力手段、および検索
要求に含まれる単語共起関係が検索対象文書中に現れる
かどうかを調べるフィールド別単語共起関係照合手段を
備え、検索対象文書の順位付けに反映させる割合をフィ
ールド毎にユーザが指定できるようにすると共にフィー
ルド毎に単語共起関係が現れる文書に与える得点を加算
することにより、これを優先的に表示させるようにした
ことを特徴とする文書検索装置としたものであり、ユー
ザの目的とする文書をより高精度で検索することが可能
となる作用を有する。
【0024】また、本発明の請求項7記載の発明は、検
索要求に基づいて、検索対象文書の検索と順位付けを行
なう文書検索装置において、検索対象文書中の単語出現
頻度と単語共起情報を索引に持ち、検索要求に含まれる
複数の単語が検索対象文書中にいくつ含まれるかを算出
する出現語算定手段、および検索要求に含まれる単語共
起関係が検索対象文書中に現れるかどうかを調べる単語
共起関係照合手段を備え、検索要求に含まれる複数の単
語が検索対象文書中に同時に現れる場合に、当該文書に
与える得点を加算すると共に単語共起関係が現れる文書
に与える得点を加算することにより、これを優先的に表
示させるようにしたことを特徴とする文書検索装置とし
たものであり、ユーザの目的とする文書をより高精度で
検索することが可能となる作用を有する。
【0025】以下、本発明の実施の形態について、図を
参照しながら説明する。
【0026】(第1の実施の形態)図1は本発明の第1
の実施の形態における文書検索装置の構成を示したブロ
ック図である。図1において、文書検索装置は、検索対
象となる文書データ301と、辞書302と、辞書単語の検索
対象文書中における出現頻度を格納した単語頻度索引30
3と、文書データ301から単語頻度情報を抽出し、単語頻
度索引303に格納する単語頻度情報抽出手段304と、ユー
ザが優先させたいと思う検索要求を入力するための主題
検索要求入力手段305と、主題検索要求に比べ優先度の
低い検索要求をユーザが入力するための副題検索要求入
力手段306と、主題検索要求入力手段305および副題検索
要求入力手段306で入力された検索要求に含まれる辞書
単語について、単語頻度索引303を調べ各文書中での出
現頻度を求める単語頻度算定手段307と、単語頻度算定
手段307で得られた単語頻度をもとに各文書の頻度スコ
アを求める頻度スコア算定手段308と、頻度スコア算定
手段308の出力をもとに各文書の文書スコアを算出する
文書スコア算定手段309と、スコアの順に文書を並べ替
える文書順位付け手段310と、スコアの順に並べられた
結果文書を表示する検索結果表示手段311とから構成さ
れている。
【0027】図2は本発明の第1の実施の形態における
文書検索装置の検索の手順を示した流れ図である。
【0028】まず、検索の前に予め、単語頻度情報抽出
手段304が文書データ301を走査し、辞書302に含まれる
辞書単語の各文書中での出現頻度を調べ、総文書数、当
該単語の出現文書数とともに単語頻度索引303に出力
し、索引を作成しておく。
【0029】ステップ401において、ユーザは主題検
索要求入力手段305によって探したい文書に対する検索
要求でかつ重視してほしいものを主題検索要求として入
力する。ステップ402において、ユーザは副題検索要
求入力手段306によってそれほど重視しなくてもよいも
のを副題検索要求として入力する。
【0030】ステップ403において、単語頻度算定手
段307は単語頻度索引303を参照し、総文書数NDを求め
るとともに、主題検索要求入力手段305および副題検索
要求入力手段306で入力された検索要求に含まれる辞書
単語Wi(i=1、2、・・・、NW:NWは検索要求
に含まれる辞書単語数)に対し、当該単語の文書Dj
(j=1、2、・・・、ND)中での出現頻度TFij
と当該単語の出現する文書数NDiを取得し、頻度スコ
ア算定手段308に出力する。ステップ404において、
単語頻度算定手段307は単語Wiが主題検索要求、副題
検索要求のどちらに含まれるかによってパラメータWT
iを選び、ステップ405において、頻度スコア算定手
段308は単語頻度算定手段307が出力した総文書数ND、
単語Wiの出現する文書数NDi、文書Djにおける単
語Wiの出現頻度TFij、単語Wiの重み付けパラメ
ータWTiから、単語頻度による文書Djと検索要求の
合致度合を示す頻度スコアSFjを式(3)によって算
出する。 ここで、IDFiは単語Wiの全文書における偏りを表
すパラメータである。
【0031】ステップ406において、文書スコア算定
手段309は頻度スコア算定手段308の出力した頻度スコア
から文書Djと検索要求の合致度合を示す文書スコアS
jを前記式(2)によって算出する。
【0032】ステップ407において、文書順位付け手
段310は文書スコア算定手段309の出力した各文書Djの
文書スコアSjの値の大きい順に文書を並べ替え、ステ
ップ407において、検索結果表示手段311が文書順位
付け手段310の出力から得られたソート済の文書を検索
の結果としてユーザに表示する。
【0033】前記のようにして、ユーザが入力する検索
要求に優先度を設けることにより、ユーザの検索意図を
柔軟に表現することができ、効率的な検索が可能とな
る。
【0034】(第2の実施の形態)図3は本発明の第2
の実施の形態における文書検索装置の構成を示したブロ
ック図である。図3において、文書検索装置は、検索対
象となる文書データ501と、辞書502と、辞書単語の検索
対象文書中における出現頻度を各フィールド毎に格納し
たフィールド別単語頻度索引503と、文書データ501から
単語頻度情報を抽出し、フィールド別単語頻度索引503
に格納する単語頻度情報抽出手段504と、ユーザが検索
要求を入力するための検索要求入力手段505と、文書の
どのフィールドのスコアをどの程度文書スコアに反映さ
せるかという割合をユーザが入力するためのフィールド
割合入力手段506と、検索要求入力手段505で入力された
検索要求に含まれる辞書単語について、フィールド別単
語頻度索引503を調べ、各文書中でのフィールド毎の出
現頻度を求めるフィールド別単語頻度算定手段507と、
フィールド別単語頻度算定手段507で得られた単語頻度
をもとに各文書のフィールド別の頻度スコアを求めるフ
ィールド別頻度スコア算定手段508と、フィールド別頻
度スコア算定手段508の出力とフィールド割合入力手段5
06からの入力をもとに各文書の文書スコアを算出する文
書スコア算定手段509と、スコアの順に文書を並べ替え
る文書順位付け手段510と、スコアの順に並べられた結
果文書を表示する検索結果表示手段511とから構成され
ている。
【0035】図4は本発明の第2の実施の形態における
文書検索装置の検索の手順を示した流れ図である。
【0036】まず、検索の前に予め、単語頻度情報抽出
手段504が文書データ501を走査し、辞書502に含まれる
辞書単語の各文書内でのフィールド毎の出現頻度を調
べ、総文書数、当該単語の出現文書数とともに出現頻度
をフィールド別単語頻度索引503に出力し、索引を作成
しておく。
【0037】ステップ601において、ユーザは検索要
求入力手段505によって探したい文書に対する検索要求
を入力する。ステップ602において、ユーザはフィー
ルド割合入力手段506によってフィールドFk(k=
1、2、・・・、NF:NFは総フィールド数)のスコ
アを順位付けに反映させる割合Rkを入力する。
【0038】ステップ603において、フィールド別単
語頻度算定手段507はフィールド別単語頻度索引503を参
照し、総文書数NDを求めるとともに、検索要求入力手
段505によって入力された検索要求に含まれる辞書単語
Wi(i=1、2、・・・、NW:NWは検索要求に含
まれる辞書単語数)に対し、当該単語の文書Dj(j=
1、2、・・・、ND)のフィールドFk中での出現頻
度TFijkとフィールドFkに当該単語の出現する文
書数NDikを取得し、フィールド別頻度スコア算定手
段508に出力する。
【0039】ステップ604において、フィールド別頻
度スコア算定手段508はフィールド別単語頻度算定手段5
07が出力した総文書数ND、フィールドFkに単語Wi
の出現する文書数NDik、文書DjのフィールドFk
における単語Wiの出現頻度TFijk、単語頻度によ
る文書DjのフィールドFkと検索要求の合致度合を示
す頻度スコア頻度スコアSFjkを式(4)によって算
出する。
【0040】ステップ605において、文書スコア算定
手段509はフィールド別頻度スコア算定手段508の出力し
たフィールド毎の頻度とスコアフィールド割合入力手段
506で入力されたフィールドFkを反映させる割合Rk
から、文書Djと検索要求の合致度合を示す文書スコア
Sjを式(5)によって算出する。
【0041】ステップ606において、文書順位付け手
段510は文書スコア算定手段509の出力した各文書Djの
文書スコアSjの値の大きい順に文書を並べ替え、ステ
ップ607において、検索結果表示手段511が文書順位
付け手段510の出力から得られたソート済の文書を検索
の結果としてユーザに表示する。
【0042】前記のようにして、ユーザが検索対象フィ
ールドのスコア配分の割合を変化させられるようにする
ことにより、ユーザの検索意図を柔軟に表現することが
でき、効率的な検索が可能となる。
【0043】(第3の実施の形態)図5は本発明の第3
の実施の形態における文書検索装置の構成を示したブロ
ック図である。図5において、文書検索装置は、検索対
象となる文書データ701と、辞書702と、辞書単語の検索
対象文書中での出現頻度を格納した単語頻度索引703
と、文書データ701から単語頻度情報を抽出し、単語頻
度索引703に格納する単語頻度情報抽出手段705と、検索
要求をユーザが入力するための検索要求入力手段707
と、検索要求入力手段707で入力された検索要求に含ま
れる辞書単語について、単語頻度索引703を調べ当該単
語の文書中での出現頻度を求める単語頻度算定手段708
と、単語頻度算定手段708で得られた単語頻度をもとに
各文書のスコアを求める頻度スコア算定手段709と、単
語頻度索引703を調べ、検索要求入力手段707で入力され
た検索要求に含まれる単語のうちいくつが、文書中に出
現するかを求める出現語数算定手段710と、出現語数算
定手段710で得られた出現語数に基づいて各文書に加算
するスコアを求める出現語数スコア算定手段711と、頻
度スコア算定手段709および出現語数スコア算定手段711
の出力から各文書のスコアを算出する文書スコア算定手
段712と、スコアの順に文書を並べ替える文書順位付け
手段713と、スコアの順に並べられた結果文書を表示す
る検索結果表示手段714とから構成されている。
【0044】図6は本発明の第3の実施の形態における
文書検索装置の検索の手順を示した流れ図である。
【0045】まず、検索の前に予め、単語頻度情報抽出
手段705が文書データ701を走査し、辞書702に含まれる
辞書単語の各文書内での出現頻度を調べ、総文書数、当
該単語の出現文書数とともに出現頻度を単語頻度索引70
3に出力し、索引を作成しておく。
【0046】ステップ801において、ユーザは検索要
求入力手段707によって探したい文書に対する検索要求
を入力する。検索要求は複数の単語を入力してもよい
し、文章を入力し別途単語抽出手段を用いて文章から単
語を切り出すようにしてもよい。
【0047】ステップ802において、単語頻度算定手
段708は単語頻度索引703を参照し、総文書数Nを求める
とともに検索要求入力手段707で入力された複数の辞書
単語Wi(i=1、2、・・・、NW:NWは検索要求
に含まれる辞書単語数)に対し、当該単語の文書Dj
(j=1、2、・・・、ND)中での出現頻度TFij
と単語Wiの出現する文書数NDiを取得し、頻度スコ
ア算定手段709に出力する。
【0048】ステップ803において、頻度スコア算定
手段709は単語頻度算定手段708が出力した総文書数N
D、単語Wiの出現する文書数NDi、文書Djにおけ
る単語Wiの出現頻度TFijから、単語頻度による文
書Djと検索要求の合致度合を示す頻度スコアSFjを
前記式(1)によって算出する。
【0049】ステップ804において、出現語数算定手
段710はステップ802までで既に得られている文書D
jに出現する辞書単語の情報と検索要求入力手段707で
入力された検索要求に含まれる複数の単語Wiを比較
し、複数の単語Wiのうちで文書Djに出現するものの
数NAjを算出し、出現語数スコア算定手段711に出力
する。
【0050】ステップ805において、出現語数スコア
算定手段711は出現語数算定手段710が出力した検索要求
に含まれる単語のうちで文書Djに出現するものの数N
Ajに基づいた出現語数スコアSAjを算出する。例え
ば式(6)によって算出することができる。 SAj=NAj−1 ・・・(6)
【0051】ステップ806において、文書スコア算定
手段712は頻度スコア算定手段709が出力した頻度スコア
SFjと出現語数スコア算定手段711が出力した出現語
数スコアSAjから検索要求と文書Djの合致度合を表
すスコアSjを式(7)によって算出する。 Sj=SFj+SAj×定数 ・・・(7)
【0052】出現語数スコアSAjを用意することによ
り、検索要求に含まれる単語をより多く含むような文書
のスコアを高くし、優先的に表示させることが可能とな
る。また、式(7)において定数の値を変化させること
により、出現語数による優先表示の度合を変えることも
可能である。
【0053】ステップ807において、文書順位付け手
段713は文書スコア算定手段712が出力した各文書Djの
文書スコアSjの値の大きい順に文書を並べ替える。ス
テップ 808において、検索結果表示手段714は文書順
位付け手段713の出力から得られたソート済の文書を検
索の結果としてユーザに提示する。
【0054】前記のようにすれば、検索要求に複数の単
語を含む場合に高頻度単語を1つだけ含むような文書が
検索結果の上位に来てしまうというような不都合を回避
でき、効率的な検索が可能となる。
【0055】(第4の実施の形態)図7は本発明の第4
の実施の形態における文書検索装置の構成を示したブロ
ック図である。図7において、文書検索装置は、検索対
象となる文書データ901と、辞書902と、辞書単語の検索
対象文書中での出現頻度を格納した単語頻度索引903
と、検索対象文書中に現れる単語の位置を格納した単語
出現位置索引904と、文書データ901から単語頻度情報を
抽出し、単語頻度索引903に格納する単語頻度情報抽出
手段905と、文書データ901から単語の位置情報を求め、
単語出現位置索引904に格納する単語出現位置情報抽出
手段906と、検索要求をユーザが入力するための検索要
求入力手段907と、検索要求入力手段907で入力された検
索要求に含まれる辞書単語について、単語頻度索引903
を調べ当該単語の文書中での出現頻度を求める単語頻度
算定手段908と、単語頻度算定手段908で得られた単語頻
度をもとに各文書のスコアを求める頻度スコア算定手段
909と、単語出現位置索引904を参照し、検索要求入力手
段907で入力された検索要求に含まれる単語の文書中で
の出現位置を求める出現位置算定手段910と、単語出現
位置算定手段910の出力から単語どうしの近接度合を求
める単語近接度算定手段911と、単語近接度算定手段911
の出力に基づいて各文書に加算するスコアを求める近接
スコア算定手段912と、頻度スコア算定手段909および近
接スコア算定手段912の出力から各文書のスコアを算出
する文書スコア算定手段913と、スコアの順に文書を並
べ替える文書順位付け手段914と、スコアの順に並べら
れた結果文書を表示する検索結果表示手段915とから構
成されている。
【0056】図8は、本発明の第4の実施の形態におけ
る文書検索装置の検索の手順を示した流れ図である。ま
ず、検索の前に予め、単語頻度情報抽出手段905が文書
データ901を走査し、辞書902に含まれる辞書単語の各文
書内での出現頻度を調べ、総文書数、当該単語の出現文
書数とともに出現頻度を単語頻度索引903に出力し、単
語出現位置情報抽出手段906が辞書単語の各文書中での
出現位置を調べ、単語出現位置索引904に出力し、索引
を作成しておく。
【0057】ステップ1001において、ユーザは検索
要求入力手段907によって探したい文書に対する検索要
求として複数の単語を入力する。なお、検索要求として
ユーザは文章を入力し、別途単語抽出手段を用いて文章
から単語を切り出すようにしても良い。
【0058】ステップ1002において、単語頻度算定
手段908は単語頻度索引903を参照し、総文書数Nを求め
るとともに検索要求入力手段907で入力された複数の辞
書単語Wi(i=1、2、・・・、NW:NWは検索要
求に含まれる辞書単語数)に対し、文書Dj(j=1、
2、・・・、ND)中での出現頻度TFijと単語Wi
の出現する文書数Niを取得し、頻度スコア算定手段90
9に出力する。
【0059】ステップ1003において、単語出現位置
算定手段910は単語出現位置索引904を参照し検索要求入
力手段907で入力された複数の単語Wiの文書Dj中で
の出現位置を全て求め、単語近接度算定手段911に出力
する。
【0060】ステップ1004において、頻度スコア算
定手段909は単語頻度算定手段908が出力した総文書数N
D、単語Wiの出現する文書数NDi、文書Djにおけ
る単語Wiの出現頻度TFijから、単語頻度による文
書Djと検索要求の合致度合を示す頻度スコアSFjを
前記式(1)によって算出する。
【0061】ステップ1005において、単語近接度算
定手段911は単語出現位置算定手段が出力した文書Dj
中での各単語Wiの出現位置と単語長から、異なる単語
の全ての出現位置の組合せPk(k=1、2、・・・、
NP:NPは異なる単語の全ての出現位置の組合せの
数)について2単語の間の距離DSTjkを求め、ステ
ップ1006において、DSTjkをもとに単語近接度
NEjkを求める。例えば単語近接度NEjkは式
(8)を用いて求めることができる。
【0062】 NEjk=1/(DSTjk+1) ・・・(8)
【0063】なお、全ての組合せについて単語近接度を
求めるのは計算コストがかかるため、閾値dを設け距離
DSTjkがd以下であるような出現位置の組合せにつ
いてのみ計算をしたり、近接度を求める単語ペアをユー
ザが限定するようにしても良い。
【0064】ステップ1007において、近接スコア算
定手段912は単語近接度算定手段911の出力した単語近接
度NEjkにより各文書Djの近接スコアSNjを式
(9)により算出する。
【0065】ステップ1008において、文書スコア算
定手段913は頻度スコア算定手段909が出力した頻度スコ
アSFjと近接スコア算定手段912が出力した近接スコ
アSNjから文書DjのスコアSj、すなわち検索要求
と文書Djの合致度合を式(10)によって算出する。 Sj=SFj+SNj×定数 ・・・(10)
【0066】このように、近接スコアSNjを用意する
ことにより、検索要求に含まれる異なり単語が互いに接
近して出現するような文書のスコアを高くし、優先的に
表示させることが可能となる。また、前記式(10)に
おいて定数の値を変化させることにより、単語近接度に
よる優先表示の度合を変えることも可能である。
【0067】ステップ1009において、文書順位付け
手段914は文書スコア算定手段913が出力した各文書Dj
の文書スコアSjの値の大きい順に文書を並べ替える。
ステップ1010において、検索結果表示手段915は文
書順位付け手段914の出力から得られたソート済の文書
を検索の結果としてユーザに提示する。
【0068】前記のようにすれば、検索要求に含まれる
複数の単語が互いに近くに出現しなければ検索要求とし
て意味をなさないよう場合に、不要な文書が検索結果の
上位に来てしまうというような不都合を回避でき、効率
的な検索が可能となる。
【0069】(第5の実施の形態)図9は本発明の第5
の実施の形態における文書検索装置の構成を示したブロ
ック図である。図9において、文書検索装置は、検索対
象となる文書データ101と、辞書102と、辞書単語の検索
対象文書中における出現頻度を格納した単語頻度索引10
3と、検索対象文書中に現れる単語共起情報を格納した
単語共起索引104と、文書データ101から単語頻度情報を
抽出し、単語頻度索引103に格納する単語頻度情報抽出
手段105と、文書データ101から単語共起情報を抽出し、
単語共起索引104に格納する単語共起情報抽出手段106
と、ユーザが検索要求を入力するための検索要求入力手
段107と、検索要求入力手段107で入力された検索要求に
含まれる辞書単語について、単語頻度索引103を調べ当
該単語の文書中での出現頻度を求める単語頻度算定手段
108と、単語頻度算定手段108で得られた単語頻度をもと
に各文書の頻度スコアを求める頻度スコア算定手段109
と、検索要求入力手段107で入力された検索要求から単
語共起情報を抽出する単語共起情報抽出手段110と、単
語共起索引104の内容を参照し、単語共起情報抽出手段1
10が出力した検索要求に含まれる単語共起関係が、各文
書にいくつ現れるかを求める単語共起関係照合手段111
と、単語共起関係照合手段111によって得られた検索要
求と文書に共通して出現する単語共起関係の度合によっ
て各文書の共起スコアを求める共起スコア算定手段112
と、頻度スコア算定手段109の出力と共起スコア算定手
段112の出力から文書スコアを算出する文書スコア算定
手段113と、スコアの順に文書を並べ替える文書順位付
け手段114と、スコアの順に並べられた結果文書を表示
する検索結果表示手段115とから構成されている。
【0070】図10は本発明の第5の実施の形態におけ
る文書検索装置の検索の手順を示した流れ図である。
【0071】まず、検索の前に、予め単語頻度情報抽出
手段105が文書データ101を走査し、総文書数、当該単語
の出現文書数とともに単語頻度索引103に出力し、単語
共起情報抽出手段106が文書データ101を走査し、各文書
内での単語共起情報を求め、単語共起索引104に出力
し、索引を作成しておく。単語共起情報としては例えば
同一文章内に出現する単語のペアを共起関係にあると判
断して抽出する方法や、形態素解析を行なって係受けの
関係にある単語のペアを抽出する方法が考えられる。
【0072】ステップ201において、ユーザは検索要
求入力手段107によって探したい文書に対する検索要求
を文章で入力する。ステップ202において、単語頻度
算定手段108は単語頻度索引103を参照し、総文書数ND
を求めるとともに、検索要求入力手段107で入力された
検索要求に含まれる辞書単語Wi(i=1、2、・・
・、NW:NWは検索要求に含まれる辞書単語数)に対
し、当該単語の文書Dj(j=1、2、・・・、ND)
中での出現頻度TFijと当該単語の出現する文書数N
Diを取得し、頻度スコア算定手段109に出力する。
【0073】ステップ203において、頻度スコア算定
手段109は単語頻度算定手段108が出力した総文書数N
D、単語Wiの出現する文書数NDi、文書Djにおけ
る単語Wiの出現頻度TFijから、単語頻度による文
書Djと検索要求による合致度合を示す頻度スコアSF
jを前記式(1)によって算出する。
【0074】ステップ204において、単語共起情報抽
出手段110は検索要求入力手段107で入力された検索要求
から、索引作成時と同様の方法によって単語共起関係C
k(k=1、2、・・・、NC:NCは検索要求に含ま
れる単語共起関係の数)を抽出する。ステップ205に
おいて、単語共起関係照合手段111は単語共起索引104を
参照し、文書Djに出現する単語共起関係のうち単語共
起情報抽出手段110で得られた検索要求に含まれる単語
共起関係Ckと一致するものの数NCjを算出し、共起
スコア算定手段112に出力する。
【0075】ステップ206において、共起スコア算定
手段112は検索要求と文書の間で一致する単語共起関係
の数に基づいて文書Djの共起スコアSCjを算出す
る。最も単純な例としては式(11)のように共起の数
をそのまま共起スコアSCjとする。 SCj=NCj ・・・(11)
【0076】ステップ207において、文書スコア算定
手段113は頻度スコア算定手段109の出力した頻度スコア
と共起スコア算定手段112の出力した共起スコアから文
書Djと検索要求の合致度合を示す文書スコアSjを式
(12)によって算出する。 Sj=SFj+SCj×Const ・・・(12)
【0077】ステップ208において、文書順位付け手
段114は文書スコア算定手段113の出力した各文書Djの
文書スコアSjの値の大きい順に文書を並べ替え、ステ
ップ209において、検索結果表示手段115が文書順位
付け手段114の出力から得られたソート済の文書を検索
の結果としてユーザに表示する。
【0078】前記のようにして、単語頻度だけでなく検
索要求と検索対象文書に含まれる単語共起関係を照合
し、順位付けに反映させることにより、ユーザの検索意
図により近い文書を検索結果の上位に表示することがで
き、効率的な検索が可能となる。
【0079】(第6の実施の形態)図14は本発明の第
6の実施の形態における文書検索装置の構成を示したブ
ロック図である。図14において、文書検索装置は、検
索対象となる文書データ1401と、辞書1402と、辞書単語
の検索対象文書中における出現頻度を格納した単語頻度
索引1403と、検索対象文書中に現れる単語共起情報を格
納した単語共起索引1404と、文書データ1401から単語頻
度情報を抽出し、単語頻度索引1403に格納する単語頻度
情報抽出手段1405と、文書データ1401から単語共起情報
を抽出し、単語共起索引1404に格納する単語共起情報抽
出手段1406と、ユーザが重要視したいと思う検索要求を
入力するための主題検索要求入力手段1407と、ユーザが
主題検索要求に比べそれほど重要視しなくても良いと思
う検索要求を入力するための副題検索要求入力手段1408
と、主題検索要求入力手段1407および副題検索要求入力
手段1408で入力された検索要求に含まれる辞書単語につ
いて、単語頻度索引1403を調べ当該単語の文書中での出
現頻度を求める単語頻度算定手段1409と、単語頻度算定
手段1409で得られた単語頻度をもとに各文書の頻度スコ
アを求める頻度スコア算定手段1410と、主題検索要求入
力手段1407および副題検索要求入力手段1408で入力され
た検索要求から単語共起情報を抽出する単語共起情報抽
出手段1411と、単語共起索引1404の内容を参照し、単語
共起情報抽出手段1411が出力した検索要求に含まれる単
語共起関係が、各文書にいくつ現れるかを求める単語共
起関係照合手段1412と、単語共起関係照合手段1412によ
って得られた検索要求と文書に共通して出現する単語共
起関係の数によって各文書の共起スコアを求める共起ス
コア算定手段1413と、頻度スコア算定手段1410の出力と
共起スコア算定手段1413の出力から各文書に対する最終
的なスコアを算出する文書スコア算定手段1414と、スコ
アの順に文書を並べ替える文書順位付け手段1415と、ス
コアの順に並べられた結果文書を表示する検索結果表示
手段1416とから構成される。
【0080】図15、図16、図17および図18は本
発明の第6の実施の形態における文書検索装置の検索の
手順を示した流れ図である。
【0081】まず、検索の前に予め、単語頻度情報抽出
手段1405が文書データ1401を走査し、辞書1402に含まれ
る辞書単語の各文書内での出現頻度を調べ、総文書数、
当該単語の出現文書数とともに単語頻度索引1403に出力
し、単語共起情報抽出手段1406が文書データ1401を走査
し、各文書内での単語共起情報を求め、単語共起索引14
04に出力し、索引を作成しておく。単語共起情報として
は例えば同一文章内に出現する単語のペアを共起関係に
あると判断して抽出する方法や、形態素解析を行なって
係受けの関係にある単語のペアを抽出する方法が考えら
れる。
【0082】ステップ1501において、ユーザは主題
検索要求入力手段1407によって探したい文書に対する検
索要求でかつ重視したいものを主題検索要求として入力
する。
【0083】ステップ1502において、ユーザは副題
検索要求入力手段1408によって主題検索要求に比べそれ
ほど重視しなくてもよいものを副題検索要求として入力
する。
【0084】ステップ1503において、単語頻度算定
手段1409は単語頻度索引1403を参照し、総文書数NDを
求めるとともに、主題検索要求入力手段1407および副題
検索要求入力手段1408で入力された検索要求に含まれる
辞書単語Wi(i=1、2、・・・、NW:NWは検索
要求に含まれる辞書単語数)に対し、当該単語の文書D
j(j=1、2、・・・、ND)中での出現頻度TFi
jと当該単語の出現する文書数NDiを取得し、ステッ
プ1504において、単語頻度算定手段1409は単語Wi
が主題検索要求、副題検索要求のどちらに含まれるかに
よって重み付けパラメータWTiを選び、頻度スコア算
定手段1410に出力する。
【0085】ステップ1505において、頻度スコア算
定手段1410は単語頻度算定手段1409が出力した総文書数
ND、単語Wiの出現する文書数NDi、文書Djにお
ける単語Wiの出現頻度TFij、単語Wiの重み付け
パラメータWTiから、単語頻度による文書Djと検索
要求の合致度合いを示す頻度スコアSFjを前記式
(5)によって算出し、文書スコア算定手段1414に出力
する。
【0086】ステップ1506において、単語共起情報
抽出手段1411は索引作成時と同様の方法によって主題検
索要求入力手段1407で入力された主題検索要求から主題
共起関係Csk(k=1、2、・・・、NCs:NCs
は主題検索要求に含まれる単語共起関係の数)を抽出
し、単語共起関係照合手段1412に出力する。
【0087】ステップ1507において、単語共起関係
照合手段1412は単語共起索引1404を参照し、文書Djに
出現する単語共起関係のうち単語共起情報抽出手段1411
で得られた主題共起関係Cskと一致するものの数NC
sjを算出し、共起スコア算定手段1413に出力する。
【0088】ステップ1508において、単語共起情報
抽出手段1411は索引作成時と同様の方法によって副題検
索要求入力手段1408で入力された副題検索要求から副題
共起関係Cfm(m=1、2、・・・、NCf:NCf
は副題検索要求に含まれる単語共起関係の数)を抽出
し、単語共起関係照合手段1412に出力する。
【0089】ステップ1509において、単語共起関係
照合手段1412は単語共起索引1404を参照し、文書Djに
出現する単語共起関係のうち単語共起情報抽出手段1411
で得られた副題共起関係Cfmと一致するものの数NC
fjを算出し、共起スコア算定手段1413に出力する。
【0090】ステップ1510において、共起スコア算
定手段1413は式(13)に基づいて文書Djの共起スコ
アSCjを算出し、文書スコア算定手段1414に出力す
る。 SCj=NCsj×(NCf+1)+NCfj ・・・(13)
【0091】ステップ1511において、文書スコア算
定手段1414は式(14)に基づいて頻度スコアの最大値
と最小値の差SRを算出する。 SR=Max(SFj)−Min(SFj) ・・・(14)
【0092】ステップ1512において、文書スコア算
定手段1414は頻度スコア算定手段1410の出力した頻度ス
コアと共起スコア算定手段1413の出力した共起スコアか
ら文書Djと検索要求との合致度合いを示す文書スコア
Sjを式(15)によって算出する。 Sj=SFj+SCj×SR ・・・(15)
【0093】ステップ1513において、文書順位付け
手段1415は文書スコア算定手段1414の出力した各文書D
jの文書スコアSjの値の大きい順に文書を並べ替え、
ステップ1514において検索結果表示手段1416が文書
順位付け手段1415の出力から得られたソート済みの文書
を検索の結果としてユーザに表示する。前記のようにし
て、主題検索要求と副題検索要求という重要視する度合
の異る検索要求を受け付け、検索要求と文書の合致度合
いを判定する基準として、主題共起関係>副題共起関係
>主題単語頻度>副題単語頻度、の順に優先することに
より、ユーザの検索意図により近い文書を検索結果の上
位に表示することができ、高精度で効率的な検索が可能
となる。
【0094】(第7の実施の形態)図19は本発明の第
7の実施の形態における文書検索装置の構成を示したブ
ロック図である。図19において、文書検索装置は、検
索対象となる文書データ1901と、辞書1902と、辞書単語
の検索対象文書中における出現頻度をフィールド毎に格
納したフィールド別単語頻度索引1903と、検索対象文書
中に現れる単語共起情報をフィールド毎に格納したフィ
ールド別単語共起索引1904と、文書データ1901から単語
頻度情報を抽出し、フィールド別単語頻度索引1903に格
納する単語頻度情報抽出手段1905と、文書データ1901か
ら単語共起情報を抽出し、フィールド別単語共起索引19
04に格納する単語共起情報抽出手段1906と、ユーザが検
索要求を入力するための検索要求入力手段1907と、検索
要求入力手段1907で入力された検索要求に含まれる辞書
単語について、フィールド別単語頻度索引1903を調べ当
該単語の文書中でのフィールド毎の出現頻度を求めるフ
ィールド別単語頻度算定手段1908と、フィールド別単語
頻度算定手段1908で得られた単語頻度をもとに各文書の
フィールド毎の頻度スコアを求めるフィールド別頻度ス
コア算定手段1909と、検索要求入力手段1907で入力され
た検索要求から単語共起情報を抽出する単語共起情報抽
出手段1910と、フィールド別単語共起索引1904の内容を
参照し、単語共起情報抽出手段1910が出力した検索要求
に含まれる単語共起関係が、各文書の各フィールドにい
くつ現れるかを求めるフィールド別単語共起関係照合手
段1911と、フィールド別単語共起関係照合手段1911によ
って得られた検索要求と文書の各フィールドに共通して
出現する単語共起関係の数によって各文書のフィールド
毎の共起スコアを求めるフィールド別共起スコア算定手
段1912と、各フィールドのスコアをどの程度文書の順位
付けにスコアに反映させるかという割合をユーザが入力
するためのフィールド割合入力手段1913と、フィールド
別頻度スコア算定手段1909の出力とフィールド別共起ス
コア算定手段1912の出力とフ ィールド割合入力手段191
3の出力から各文書に対する最終的なスコアを算出する
文書スコア算定手段1914と、スコアの順に文書を並べ替
える文書順位付け手段1915と、スコアの順に並べられた
結果文書を表示する検索結果表示手段1916とから構成さ
れる。
【0095】図20、図21、図22および図23は本
発明の第7の実施の形態における文書検索装置の検索の
手順を示した流れ図である。
【0096】まず、検索の前に予め、単語頻度情報抽出
手段1905が文書データ1901を走査し、辞書1902に含まれ
る辞書単語の各文書内でのフィールド毎の出現頻度を調
べ、総文書数、当該単語の出現文書数とともにフィール
ド別単語頻度索引1903出力し、単語共起情報抽出手段19
06が文書データ1901を走査し、各文書内でのフィールド
毎の単語共起情報を求め、フィールド別単語共起索引19
04に出力し、索引を作成しておく。単語共起情報として
は例えば同一文章内に出現する単語のペアを共起関係に
あると判断して抽出する方法や、形態素解析を行なって
係受けの関係にある単語のペアを抽出する方法が考えら
れる。
【0097】ステップ2001において、ユーザは検索
要求入力手段1907によって探したい文書に対する検索要
求を入力する。
【0098】ステップ2002において、ユーザはフィ
ールド割合入力手段1913によってフィールドFm(m=
1、2、・・・、NF:NFは総フィールド数)のスコ
アを順位付けに反映させる割合Rmを入力する。
【0099】ステップ2003において、フィールド別
単語頻度算定手段1908はフィールド別単語頻度索引1903
を参照し、総文書数NDを求めるとともに、検索要求入
力手段1907で入力された検索要求に含まれる辞書単語W
i(i=1、2、・・・、NW:NWは検索要求に含ま
れる辞書単語数)に対し、当該単語の文書Dj(j=
1、2、・・・、ND)のフィールドFm中での出現頻
度TFijmとフィールドFmに当該単語の出現する文
書数NDimを取得し、フィールド別頻度スコア算定手
段1909に出力する。
【0100】ステップ2004において、フィールド別
頻度スコア算定手段1909はフィールド別単語頻度算定手
段1908が出力した総文書数ND、フィールドFmに単語
Wiの出現する文書数NDim、文書Djのフィールド
Fmにおける単語Wiの出現頻度TFijmから、単語
頻度に基づく文書DjのフィールドFmと検索要求の合
致度合いを示す頻度スコアSFjmを前記式(4)によ
って算出し、文書スコア算定手段1914に出力する。
【0101】ステップ2005において、単語共起情報
抽出手段1910は索引作成時と同様の方法によって検索要
求入力手段1907で入力された検索要求から共起関係Ck
(k=1、2、・・・、NC:NCは検索要求に含まれ
る単語共起関係の数)を抽出し、フィールド別単語共起
関係照合手段1911に出力する。
【0102】ステップ2006において、フィールド別
単語共起関係照合手段1911はフィールド別単語共起索引
1904を参照し、文書DjのフィールドFmに出現する単
語共起関係のうち単語共起情報抽出手段1910で得られた
単語共起関係Ckと一致するものの数NCjmを算出
し、フィールド別共起スコア算定手段1912に出力する。
【0103】ステップ2007において、フィールド別
共起スコア算定手段1912は式(16)に基づいて文書D
jのフィールドFmの共起スコアSCjmを算出し、文
書スコア算定手段1914に出力する。 SCjm=NCjm ・・・(16)
【0104】ステップ2008において、文書スコア算
定手段1914は式(17)に基づいてフィールド別頻度ス
コアの最大値と最小値の差SRを算出する。 SR=Max(SFjm)−Min(SFjm) ・・・(17)
【0105】ステップ2009において、文書スコア算
定手段1914はフィールド別頻度スコア算定手段1909の出
力したフィールド毎の頻度スコアSFjmとフィールド
別共起スコア算定手段1912の出力したフィールド毎の共
起スコアSCjmとフィールド割合入力手段で入力され
たスコア配分割合Rmから文書Djと検索要求との合致
度合いを示す文書スコアSjを式(18)によって算出
する。
【0106】ステップ2010において文書順位付け手
段1915は文書スコア算定手段1914の出力した各文書Dj
の文書スコアSjの値の大きい順に文書を並べ替え、ス
テップ2011において検索結果表示手段1916が文書順
位付け手段1915の出力から得られたソート済みの文書を
検索の結果としてユーザに表示する。
【0107】前記のようにして、ユーザが検索対象フィ
ールドのスコア配分の割合を変化させられるようにする
ことにより、ユーザの検索意図を柔軟に表現することが
でき、効率的な検索が可能となる。
【0108】(第8の実施の形態)図24は本発明の第
8の実施の形態における文書検索装置の構成を示したブ
ロック図である。図24において、文書検索装置は、検
索対象となる文書データ2401と、辞書2402と、辞書単語
の検索対象文書中における出現頻度を格納した単語頻度
索引2403と、検索対象文書中に現れる単語共起情報を格
納した単語共起索引2404と、文書データ2401から単語頻
度情報を抽出し、単語頻度索引2403に格納する単語頻度
情報抽出手段2405と、文書データ2401から単語共起情報
を抽出し、単語共起索引2404に格納する単語共起情報抽
出手段2406と、ユーザが検索要求を入力するための検索
要求入力手段2407と、検索要求入力手段2407で入力され
た検索要求に含まれる辞書単語について、単語頻度索引
2403を調べ当該単語の文書中での出現頻度を求める単語
頻度算定手段2408と、単語頻度算定手段2408で得られた
単語頻度をもとに各文書の頻度スコアを求める頻度スコ
ア算定手段2409と、単語頻度索引2403を調べ、検索要求
入力手段2407で入力された検索要求に含まれる辞書単語
が、各文書中にいくつ出現するのかを求める出現語数算
定手段2410と、出現語数算定手段2411で得られた出現語
数をもとに各文書の出現語数スコアを求める出現語数ス
コア算定手段2411と、検索要求入力手段2407で入力され
た検索要求から単語共起情報を抽出する単語共起情報抽
出手段2412と、単語共起索引2404の内容を参照し、単語
共起情報抽出手段2412が出力した検索要求に含まれる単
語共起関係が、各文書にいくつ現れるかを求める単語共
起関係照合手段2413と、単語共起関係照合手段2413によ
って得られた検索要求と文書に共通して出現する単語共
起関係の数によって各文書の共起スコアを求める共起ス
コア算定手段2414と、頻度スコア算定手段2409の出力と
出現語数スコア算定手段2411の出力と共起スコア算定手
段2414の出力から各文書に対する最終的なスコアを算出
する文書スコア算定手段2415と、スコアの順に文書を並
べ替える文書順位付け手段2416と、スコアの順に並べら
れた結果文書を表示する検索結果表示手段2417とから構
成される。
【0109】図25、図26、図27、図28および図
29は本発明の第8の実施の形態における文書検索装置
の検索の手順を示した流れ図である。
【0110】まず、検索の前に予め、単語頻度情報抽出
手段2405が文書データ2401を走査し、辞書2402に含まれ
る辞書単語の各文書内での出現頻度を調べ、総文書数、
当該単語の出現文書数とともに単語頻度索引2403に出力
し、単語共起情報抽出手段2406が文書データ2401を走査
し、各文書内での単語共起情報を求め、単語共起索引24
04に出力し、索引を作成しておく。単語共起情報として
は例えば同一文章内に出現する単語のペアを共起関係に
あると判断して抽出する方法や、形態素解析を行なって
係受けの関係にある単語のペアを抽出する方法が考えら
れる。
【0111】ステップ2501において、ユーザは検索
要求入力手段2407によって探したい文書に対する検索要
求を入力する。
【0112】ステップ2502において、単語頻度算定
手段2408は単語頻度索引2403を参照し、総文書数NDを
求めるとともに、検索要求入力手段2407で入力された検
索要求に含まれる辞書単語Wi(i=1、2、・・・、
NW:NWは検索要求に含まれる辞書単語数)に対し、
当該単語の文書Dj(j=1、2、・・・、ND)中で
の出現頻度TFijと当該単語の出現する文書数NDi
を取得し、頻度スコア算定手段2409に出力する。
【0113】ステップ2503において、頻度スコア算
定手段2409は単語頻度算定手段2408が出力した総文書数
ND、単語Wiの出現する文書数NDi、文書Djにお
ける単語Wiの出現頻度TFijから、単語頻度による
文書Djと検索要求の合致度合いを示す頻度スコアSF
jを前記式(1)によって算出し、文書スコア算定手段
2415に出力する。
【0114】ステップ2504において、出現語数算定
手段2410は単語頻度索引2403を参照し、検索要求入力手
段2407で入力された検索要求に含まれる辞書単語Wiの
うち、文書Djに出現する単語の数NAjを算出し、出
現語数スコア算定手段2411に出力する。
【0115】ステップ2505において、出現語数スコ
ア算定手段2411は出現語数算定手段2410の出力した出現
語数NAjにもとづいて、文書Djの出現語数スコアを
前記式(6)によって算出し、出現語数スコア算定手段
2411に出力する。
【0116】ステップ2506において、単語共起情報
抽出手段2412は索引作成時と同様の方法によって検索要
求入力手段2407で入力された検索要求から共起関係Ck
(k=1、2、・・・、NC:NCは検索要求に含まれ
る単語共起関係の数)を抽出し、単語共起関係照合手段
2413に出力する。
【0117】ステップ2507において、単語共起関係
照合手段2413は単語共起索引2404を参照し、単語共起情
報抽出手段2404で得られた各単語共起関係Ckが出現す
る文書を求め、単語共起関係Ckのうちで文書Djに出
現するものの数NCjを算出し、共起スコア算定手段24
14に出力する。
【0118】ステップ2508において、共起スコア算
定手段2414は前記式(11)に基づいて文書Djの共起
スコアSCjを算出し、文書スコア算定手段2415に出力
する。
【0119】ステップ2509において、文書スコア算
定手段2415は前記式(14)に基づいて頻度スコアの最
大値と最小値の差SRを算出する。
【0120】ステップ2510において、文書スコア算
定手段2415は頻度スコア算定手段2409の出力した頻度ス
コアSFjと出現語数スコア算定手段2411の出力した出
現語数スコアSAjと共起スコア算定手段2414の出力し
た共起スコアSCjから文書Djと検索要求との合致度
合いを示す文書スコアSjを式(19)によって算出す
る。 Sj=SFj+(SAj+SCj×NW)×SR ・・・(19)
【0121】ステップ2511において、文書順位付け
手段2416は文書スコア算定手段2415の出力した各文書D
jの文書スコアSjの値の大きい順に文書を並べ替え、
ステップ2512において検索結果表示手段2417が文書
順位付け手段2416の出力から得られたソート済みの文書
を検索の結果としてユーザに表示する。
【0122】前記のようにして、検索要求と文書の合致
度合いを判定する基準として、単語頻度だけでなく、共
起関係、出現語数を採り入れ、共起関係>出現語数>単
語頻度、の順に優先することにより、ユーザの検索意図
により近い文書を検索結果の上位に表示することがで
き、高精度で効率的な検索が可能となる。
【0123】
【発明の効果】以上のように本発明の文書検索装置にお
いては、優先度の異なる複数の検索要求を入力するため
の複数の検索要求入力手段を設けることにより、また、
検索対象文書のフィールド毎の索引情報を持ち、順位付
けに反映させるフィールドの割合をユーザが指定できる
フィールド割合入力手段を設けることにより、また、検
索要求に含まれる複数の単語が検索対象文書中にいくつ
含まれるかを算出する出現語数算定手段を設けることに
より、また、検索対象文書中の単語出現位置を索引に持
ち、検索要求に含まれる複数の単語の検索対象文書中で
の出現位置が隣接もしくは比較的近いかどうかを調べる
単語近接度算定手段を設けることにより、また、検索対
象文書中の単語共起情報を索引に持ち、複数の検索要求
入力手段および検索要求に含まれる単語共起関係が検索
対象文書に現れるか否かを調べる単語共起関係照合手段
を設けることにより、また、検索対象文書中の単語出現
頻度と単語共起情報をフィールド毎に索引に持ち、検索
対象文書の順位付けに反映させるフィールドの割合をユ
ーザが指定できるフィールド割合入力手段および検索要
求に含まれる単語共起関係が検索対象文書中に現れるか
どうかを調べるフィールド別単語共起関係照合手段を設
けることにより、また、検索対象文書中の単語出現頻度
と単語共起情報を索引に持ち、検索要求に含まれる複数
の単語が検索対象文書中にいくつ含まれるかを算出する
出現語算定手段および検索要求に含まれる単語共起関係
が検索対象文書中に現れるかどうかを調べる単語共起関
係照合手段を設けることにより、ユーザの検索要求を柔
軟に受け付け、検索、順位付けを行なうことにより、ゴ
ミの少ない高精度な検索結果が得られ、結果の絞り込み
を含めた総合的な検索時間が短縮可能な文書検索装置が
得られるものである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における文書検索装
置の構成を示すブロック図、
【図2】本発明の第1の実施の形態における文書検索装
置の検索の手順を示す流れ図、
【図3】本発明の第2の実施の形態における文書検索装
置の構成を示すブロック図、
【図4】本発明の第2の実施の形態における文書検索装
置の検索の手順を示す流れ図、
【図5】本発明の第3の実施の形態における文書検索装
置の構成を示すブロック図、
【図6】本発明の第3の実施の形態における文書検索装
置の検索の手順を示す流れ図、
【図7】本発明の第4の実施の形態における文書検索装
置の構成を示すブロック図、
【図8】本発明の第4の実施の形態における文書検索装
置の検索の手順を示す流れ図、
【図9】本発明の第5の実施の形態における文書検索装
置の構成を示すブロック図、
【図10】本発明の第5の実施の形態における文書検索
装置の検索の手順を示す流れ図、
【図11】従来の文書検索装置の構成を示すブロック
図、
【図12】従来の文書検索装置の検索の手順を示す流れ
図、
【図13】従来の文書検索装置の検索の例を示す図、
【図14】本発明の第6の実施の形態における文書検索
装置の構成を示すブロック図、
【図15】本発明の第6の実施の形態における文書検索
装置の検索の手順を示す流れ図、
【図16】本発明の第6の実施の形態における文書検索
装置の検索の手順を示す流れ図、
【図17】本発明の第6の実施の形態における文書検索
装置の検索の手順を示す流れ図、
【図18】本発明の第6の実施の形態における文書検索
装置の検索の手順を示す流れ図、
【図19】本発明の第7の実施の形態における文書検索
装置の構成を示すブロック図、
【図20】本発明の第7の実施の形態における文書検索
装置の検索の手順を示す流れ図、
【図21】本発明の第7の実施の形態における文書検索
装置の検索の手順を示す流れ図、
【図22】本発明の第7の実施の形態における文書検索
装置の検索の手順を示す流れ図、
【図23】本発明の第7の実施の形態における文書検索
装置の検索の手順を示す流れ図、
【図24】本発明の第8の実施の形態における文書検索
装置の構成を示すブロック図、
【図25】本発明の第8の実施の形態における文書検索
装置の検索の手順を示す流れ図、
【図26】本発明の第8の実施の形態における文書検索
装置の検索の手順を示す流れ図、
【図27】本発明の第8の実施の形態における文書検索
装置の検索の手順を示す流れ図、
【図28】本発明の第8の実施の形態における文書検索
装置の検索の手順を示す流れ図、
【図29】本発明の第8の実施の形態における文書検索
装置の検索の手順を示す流れ図である。
【符号の説明】
101、301、501、701、901、1101、1401、1901、2401
文書データ 102、302、502、702、902、1102、1402、1902、2402
辞書 103、303、503、703、903、1103、1403、2403 単語頻
度索引 104、1404、2404 単語共起索引 105、304、504、705、905、1104、1405 単語頻度情報
抽出手段 1905、2405 単語頻度情報抽出手段 106、1406、1906、2406 単語共起情報抽出手段 107、505、707、907、1105、1907、2407 検索要求入力
手段 108、307、708、908、1106、1409、2408 単語頻度算定
手段 109、308、709、909、1107、1410、2409 頻度スコア算
定手段 110、1406、1411、1906、1910、2406、2412 単語共起
情報抽出手段 111、1412、2413 単語共起関係照合手段 112、1413、2414 共起スコア算定手段 113、309、509、712、913、1108、1414 文書スコア算
定手段 1914、2415 文書スコア算定手段 114、310、510、713、914、1109、1415 文書順位付け
手段 1915、2416 文書順位付け手段 115、311、511、714、915、1110、1416 検索結果表示
手段 1916、2417 検索結果表示手段 305、1407 主題検索要求入力手段 306、1408 副題検索要求入力手段 506、1913 フィールド割合入力手段 507、1908 フィールド別単語頻度算定手段 508、1909 フィールド別頻度スコア算定手段 710、2410 出現語数算定手段 711、2411 出現語数スコア算定手段 904 単語出現位置索引 906 単語出現位置情報抽出手段 910 単語出現位置算定手段 911 単語近接度算定手段 912 近接スコア算定手段 1911 フィールド別単語共起関係照合手段 1912 フィールド別共起スコア算定手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 佐藤 光弘 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 野本 昌子 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 安川 秀樹 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 検索要求に基づいて、検索対象文書の検
    索と順位付けを行なう文書検索装置において、複数の検
    索要求入力手段を備え、優先度の異なる複数の検索要求
    をユーザが入力できるようにしたことを特徴とする文書
    検索装置。
  2. 【請求項2】 検索要求に基づいて、検索対象文書の検
    索と順位付けを行なう文書検索装置において、検索対象
    文書の複数のフィールドに対して、各々索引情報を持
    ち、検索対象文書の順位付けに反映させるフィールドの
    割合をユーザが指定できるフィールド割合入力手段を備
    え、検索対象文書の順位付けに反映させる割合をフィー
    ルド毎にユーザが指定できるようにしたことを特徴とす
    る文書検索装置。
  3. 【請求項3】 検索要求に基づいて、検索対象文書の検
    索と順位付けを行なう文書検索装置において、検索要求
    に含まれる複数の単語が検索対象文書中にいくつ含まれ
    るかを算出する出現語数算定手段を備え、検索要求に含
    まれる複数の単語が検索対象文書中に同時に現れる場合
    に、当該文書に与える得点を加算することによりこれを
    優先的に表示させるようにしたことを特徴とする文書検
    索装置。
  4. 【請求項4】 検索要求に基づいて、検索対象文書の検
    索と順位付けを行なう文書検索装置において、検索対象
    文書中の単語出現頻度と単語出現位置を索引に持ち、検
    索要求に含まれる複数の単語の検索対象文書中での出現
    位置の隣接度合を調べる単語近接度算定手段を備え、出
    現位置の近接度合によって、当該文書に与える得点を加
    算することによりこれを優先的に表示させるようにした
    ことを特徴とする文書検索装置。
  5. 【請求項5】 検索要求に基づいて、検索対象文書の検
    索と順位付けを行なう文書検索装置において、検索対象
    文書中の単語出現頻度と単語共起情報を索引に持ち、複
    数の検索要求入力手段、および検索要求に含まれる単語
    共起関係が検索対象文書中に現れるかどうかを調べる単
    語共起関係照合手段を備え、優先度の異なる複数の検索
    要求をユーザが入力できるようにすると共に単語共起関
    係が現れる文書に与える得点を加算することにより、こ
    れを優先的に表示させるようにしたことを特徴とする文
    書検索装置。
  6. 【請求項6】 検索要求に基づいて、検索対象文書の検
    索と順位付けを行なう文書検索装置において、検索対象
    文書中の単語出現頻度と単語共起情報をフィールド毎に
    索引に持ち、検索対象文書の順位付けに反映させるフィ
    ールドの割合をユーザが指定できるフィールド割合入力
    手段、および検索要求に含まれる単語共起関係が検索対
    象文書中に現れるかどうかを調べるフィールド別単語共
    起関係照合手段を備え、検索対象文書の順位付けに反映
    させる割合をフィールド毎にユーザが指定できるように
    すると共にフィールド毎に単語共起関係が現れる文書に
    与える得点を加算することにより、これを優先的に表示
    させるようにしたことを特徴とする文書検索装置。
  7. 【請求項7】 検索要求に基づいて、検索対象文書の検
    索と順位付けを行なう文書検索装置において、検索対象
    文書中の単語出現頻度と単語共起情報を索引に持ち、検
    索要求に含まれる複数の単語が検索対象文書中にいくつ
    含まれるかを算出する出現語算定手段、および検索要求
    に含まれる単語共起関係が検索対象文書中に現れるかど
    うかを調べる単語共起関係照合手段を備え、検索要求に
    含まれる複数の単語が検索対象文書中に同時に現れる場
    合に、当該文書に与える得点を加算すると共に単語共起
    関係が現れる文書に与える得点を加算することにより、
    これを優先的に表示させるようにしたことを特徴とする
    文書検索装置。
JP9087328A 1996-05-29 1997-03-24 文書検索装置 Pending JPH1049549A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP9087328A JPH1049549A (ja) 1996-05-29 1997-03-24 文書検索装置
KR1019970021247A KR100295354B1 (ko) 1996-05-29 1997-05-28 문서 정보 검색 시스템
DE69731142T DE69731142T2 (de) 1996-05-29 1997-05-28 System zum Wiederauffinden von Dokumenten
EP97108617A EP0810535B1 (en) 1996-05-29 1997-05-28 Document retrieval system
US08/865,181 US6154737A (en) 1996-05-29 1997-05-29 Document retrieval system
CN97105515A CN1133127C (zh) 1996-05-29 1997-05-29 文件检索系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP8-156418 1996-05-29
JP15641896 1996-05-29
JP9087328A JPH1049549A (ja) 1996-05-29 1997-03-24 文書検索装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2004352279A Division JP2005063468A (ja) 1996-05-29 2004-12-06 文書検索装置

Publications (1)

Publication Number Publication Date
JPH1049549A true JPH1049549A (ja) 1998-02-20

Family

ID=26428613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9087328A Pending JPH1049549A (ja) 1996-05-29 1997-03-24 文書検索装置

Country Status (6)

Country Link
US (1) US6154737A (ja)
EP (1) EP0810535B1 (ja)
JP (1) JPH1049549A (ja)
KR (1) KR100295354B1 (ja)
CN (1) CN1133127C (ja)
DE (1) DE69731142T2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000227922A (ja) * 1999-02-08 2000-08-15 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体
JP2000322416A (ja) * 1999-05-06 2000-11-24 Ntt Data Corp 文書検索装置
JP2000339346A (ja) * 1999-03-19 2000-12-08 Hitachi Ltd 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体
JP2002197104A (ja) * 2000-12-27 2002-07-12 Communication Research Laboratory 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
JP2005031950A (ja) * 2003-07-11 2005-02-03 Canon Inc 情報検索装置、情報検索方法およびプログラム
JP2009093429A (ja) * 2007-10-09 2009-04-30 Kodansha Ltd 検索システム及び検索方法
US8996571B2 (en) 2012-02-07 2015-03-31 Casio Computer Co., Ltd. Text search apparatus and text search method
JP2019160271A (ja) * 2018-03-14 2019-09-19 モクポ ナショナル マリタイム ユニバーシティー インダストリー−アカデミック コーオペレーション ファウンデーションMokpo National Maritime University Industry−Academic Cooperation Foundation コード化された標準海事通信用語を用いた海上無線通信方法

Families Citing this family (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
JP3521176B2 (ja) * 1997-09-26 2004-04-19 株式会社東芝 検索方法および検索装置
GB2333871A (en) * 1998-01-29 1999-08-04 Sharp Kk Ranking of text units
JP2000067081A (ja) * 1998-08-24 2000-03-03 Matsushita Electric Ind Co Ltd 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置
US7039856B2 (en) * 1998-09-30 2006-05-02 Ricoh Co., Ltd. Automatic document classification using text and images
JP3880235B2 (ja) * 1999-01-29 2007-02-14 キヤノン株式会社 情報検索装置及びその方法、及びそのプログラムを記憶した記憶媒体
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US8775396B2 (en) * 1999-04-15 2014-07-08 Intellectual Ventures I Llc Method and system for searching a wide area network
US6175830B1 (en) * 1999-05-20 2001-01-16 Evresearch, Ltd. Information management, retrieval and display system and associated method
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
US6757866B1 (en) 1999-10-29 2004-06-29 Verizon Laboratories Inc. Hyper video: information retrieval using text from multimedia
US6490580B1 (en) 1999-10-29 2002-12-03 Verizon Laboratories Inc. Hypervideo information retrieval usingmultimedia
US6493707B1 (en) 1999-10-29 2002-12-10 Verizon Laboratories Inc. Hypervideo: information retrieval using realtime buffers
US6996775B1 (en) 1999-10-29 2006-02-07 Verizon Laboratories Inc. Hypervideo: information retrieval using time-related multimedia:
US6569206B1 (en) * 1999-10-29 2003-05-27 Verizon Laboratories Inc. Facilitation of hypervideo by automatic IR techniques in response to user requests
US6546388B1 (en) 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6912525B1 (en) 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
JP2001318939A (ja) * 2000-05-09 2001-11-16 Hitachi Ltd 文書処理方法及び装置並びにその処理プログラムを記憶した媒体
US7747611B1 (en) 2000-05-25 2010-06-29 Microsoft Corporation Systems and methods for enhancing search query results
US6968332B1 (en) * 2000-05-25 2005-11-22 Microsoft Corporation Facility for highlighting documents accessed through search or browsing
JP3870666B2 (ja) * 2000-06-02 2007-01-24 株式会社日立製作所 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
US7577683B2 (en) 2000-06-08 2009-08-18 Ingenuity Systems, Inc. Methods for the construction and maintenance of a knowledge representation system
US6772160B2 (en) * 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
KR20000063310A (ko) * 2000-06-26 2000-11-06 민재기 통신망을 통한 명사의 순위 검색 시스템과 그 방법
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버
GB2364583B (en) * 2000-07-08 2004-09-22 Paul David Mills Database interrogation
US7395222B1 (en) * 2000-09-07 2008-07-01 Sotos John G Method and system for identifying expertise
US8205237B2 (en) 2000-09-14 2012-06-19 Cox Ingemar J Identifying works, using a sub-linear time search, such as an approximate nearest neighbor search, for initiating a work-based action, such as an action on the internet
GB2368670A (en) * 2000-11-03 2002-05-08 Envisional Software Solutions Data acquisition system
JP2002269114A (ja) * 2001-03-14 2002-09-20 Kousaku Ookubo 知識データベース及び知識データベースの構築方法
US7010515B2 (en) 2001-07-12 2006-03-07 Matsushita Electric Industrial Co., Ltd. Text comparison apparatus
US8117072B2 (en) * 2001-11-13 2012-02-14 International Business Machines Corporation Promoting strategic documents by bias ranking of search results on a web browser
US8793073B2 (en) * 2002-02-04 2014-07-29 Ingenuity Systems, Inc. Drug discovery methods
AU2003207786B2 (en) * 2002-02-04 2009-09-17 QIAGEN Redwood City, Inc. Drug discovery methods
JP2003323457A (ja) * 2002-02-28 2003-11-14 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及び記録媒体
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US7716199B2 (en) 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US7743045B2 (en) 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US20040039734A1 (en) * 2002-05-14 2004-02-26 Judd Douglass Russell Apparatus and method for region sensitive dynamically configurable document relevance ranking
KR100505848B1 (ko) * 2002-10-02 2005-08-04 씨씨알 주식회사 검색 시스템
ES2301857T3 (es) * 2002-12-26 2008-07-01 Casio Computer Co., Ltd. Diccionario electronico con ejemplos de frases.
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US20050033771A1 (en) * 2003-04-30 2005-02-10 Schmitter Thomas A. Contextual advertising system
US20040225555A1 (en) * 2003-05-09 2004-11-11 Andreas Persidis System and method for generating targeted marketing resources and market performance data
US20050060290A1 (en) * 2003-09-15 2005-03-17 International Business Machines Corporation Automatic query routing and rank configuration for search queries in an information retrieval system
US7725487B2 (en) * 2003-12-01 2010-05-25 National Institute Of Information And Communications Technology Content synchronization system and method of similar web pages
JP2005202535A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US20060041484A1 (en) 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
KR100462292B1 (ko) * 2004-02-26 2004-12-17 엔에이치엔(주) 중요도 정보를 반영한 검색 결과 리스트 제공 방법 및 그시스템
US7636710B2 (en) * 2004-03-04 2009-12-22 Symantec Operating Corporation System and method for efficient file content searching within a file system
KR20050096541A (ko) * 2004-03-31 2005-10-06 삼성에스디아이 주식회사 돌출부를 갖는 네거티브 홀 구조, 그것의 형성 방법 및그것을 포함하는 fed 캐소드 부
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US7565630B1 (en) 2004-06-15 2009-07-21 Google Inc. Customization of search results for search queries received from third party sites
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US8407239B2 (en) 2004-08-13 2013-03-26 Google Inc. Multi-stage query processing system and method for use with tokenspace repository
US7917480B2 (en) 2004-08-13 2011-03-29 Google Inc. Document compression system and method for use with tokenspace repository
US20060106788A1 (en) * 2004-10-29 2006-05-18 Microsoft Corporation Computer-implemented system and method for providing authoritative answers to a general information search
US20080005085A1 (en) * 2004-11-12 2008-01-03 Yusuke Fujimaki Server Device and Search Method
US20110029504A1 (en) * 2004-12-03 2011-02-03 King Martin T Searching and accessing documents on private networks for use with captures from rendered documents
US7333667B2 (en) * 2004-12-23 2008-02-19 Kabushiki Kaisha Toshiba Image encoding apparatus and image encoding method
CN1946075B (zh) * 2005-10-04 2010-10-13 国际商业机器公司 确定消息的用户特定关联性得分的方法和系统
US20070185859A1 (en) * 2005-10-12 2007-08-09 John Flowers Novel systems and methods for performing contextual information retrieval
US20070150477A1 (en) * 2005-12-22 2007-06-28 International Business Machines Corporation Validating a uniform resource locator ('URL') in a document
US7814099B2 (en) * 2006-01-31 2010-10-12 Louis S. Wang Method for ranking and sorting electronic documents in a search result list based on relevance
US20110096174A1 (en) * 2006-02-28 2011-04-28 King Martin T Accessing resources based on capturing information from a rendered document
JP2007287134A (ja) * 2006-03-20 2007-11-01 Ricoh Co Ltd 情報抽出装置、及び情報抽出方法
US20070244866A1 (en) * 2006-04-18 2007-10-18 Mainstream Advertising, Inc. System and method for responding to a search request
US9043197B1 (en) * 2006-07-14 2015-05-26 Google Inc. Extracting information from unstructured text using generalized extraction patterns
WO2008014495A2 (en) * 2006-07-28 2008-01-31 Ingenuity Systems, Inc. Genomics based targeted advertising
EP2067119A2 (en) 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US7702680B2 (en) * 2006-11-02 2010-04-20 Microsoft Corporation Document summarization by maximizing informative content words
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US20080288488A1 (en) * 2007-05-15 2008-11-20 Iprm Intellectual Property Rights Management Ag C/O Dr. Hans Durrer Method and system for determining trend potentials
CN100520767C (zh) * 2007-05-31 2009-07-29 腾讯科技(深圳)有限公司 在网络上判断文章重要性的方法和系统、及滑动窗口
WO2009066501A1 (ja) * 2007-11-19 2009-05-28 Nippon Telegraph And Telephone Corporation 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
US8316041B1 (en) 2007-11-28 2012-11-20 Adobe Systems Incorporated Generation and processing of numerical identifiers
US7849081B1 (en) * 2007-11-28 2010-12-07 Adobe Systems Incorporated Document analyzer and metadata generation and use
US8090724B1 (en) 2007-11-28 2012-01-03 Adobe Systems Incorporated Document analysis and multi-word term detector
KR100926876B1 (ko) * 2008-04-01 2009-11-16 엔에이치엔(주) 랭크 발생 확률을 이용한 랭크 학습 모델 생성 방법 및랭크 학습 모델 생성 시스템
JP5321583B2 (ja) * 2008-04-01 2013-10-23 日本電気株式会社 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
KR101052631B1 (ko) * 2009-01-29 2011-07-28 성균관대학교산학협력단 동시 발생빈도를 이용한 검색어에 대한 연관어 제공 방법 및 이를 이용한 장치
DE202010018601U1 (de) * 2009-02-18 2018-04-30 Google LLC (n.d.Ges.d. Staates Delaware) Automatisches Erfassen von Informationen, wie etwa Erfassen von Informationen unter Verwendung einer dokumentenerkennenden Vorrichtung
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
ES2396017T3 (es) 2009-04-24 2013-02-18 Agfa Graphics N.V. Método de fabricación de planchas de impresión litográfica
WO2011011777A2 (en) * 2009-07-24 2011-01-27 Discovery Engine Corporation Pre-computed ranking using proximity terms
EP2316645B1 (en) 2009-10-27 2012-05-02 AGFA Graphics NV Novel cyanine dyes and lithographic printing plate precursors comprising such dyes
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
WO2012126180A1 (en) 2011-03-24 2012-09-27 Microsoft Corporation Multi-layer search-engine index
WO2012154164A1 (en) * 2011-05-08 2012-11-15 Hewlett-Packard Development Company, L.P. Indicating documents in a thread reaching a threshold
US8849835B1 (en) * 2011-05-10 2014-09-30 Google Inc. Reconciling data
US20130024459A1 (en) * 2011-07-20 2013-01-24 Microsoft Corporation Combining Full-Text Search and Queryable Fields in the Same Data Structure
JP5526209B2 (ja) * 2012-10-09 2014-06-18 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
CN103853742B (zh) * 2012-11-29 2017-11-24 北大方正集团有限公司 检索装置、终端和检索方法
US20140229476A1 (en) * 2013-02-14 2014-08-14 SailMinders, Inc. System for Information Discovery & Organization
US9355372B2 (en) * 2013-07-03 2016-05-31 Thomson Reuters Global Resources Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
JP6107513B2 (ja) 2013-07-29 2017-04-05 富士通株式会社 情報処理システム、情報処理方法、および情報処理プログラム
US9292579B2 (en) * 2013-11-01 2016-03-22 Intuit Inc. Method and system for document data extraction template management
US9298780B1 (en) * 2013-11-01 2016-03-29 Intuit Inc. Method and system for managing user contributed data extraction templates using weighted ranking score analysis
CN106815266B (zh) * 2015-12-01 2020-06-16 北京国双科技有限公司 裁判文书检索方法和装置
US9996527B1 (en) * 2017-03-30 2018-06-12 International Business Machines Corporation Supporting interactive text mining process with natural language and dialog
CN108897843B (zh) * 2018-06-27 2021-12-24 吉安职业技术学院 一种基于中心法的文本自适应推荐方法
KR20200117500A (ko) 2019-04-04 2020-10-14 주식회사 테이크뷰 문서 검색 방법 및 그 장치
JP7343311B2 (ja) * 2019-06-11 2023-09-12 ファナック株式会社 文書検索装置及び文書検索方法
KR102360080B1 (ko) * 2019-10-02 2022-02-09 (주)디앤아이파비스 검색특허문헌의 참조 정보에 기반한 단어의 중요도 스코어 산출 방법
KR102403168B1 (ko) * 2019-10-02 2022-05-27 (주)디앤아이파비스 세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법
KR102472200B1 (ko) * 2019-10-02 2022-11-29 (주)디앤아이파비스 단어의 출현 비율을 이용한 중요도 스코어 산출 방법
KR102085216B1 (ko) * 2019-10-02 2020-03-04 (주)디앤아이파비스 단어의 중요도 스코어 산출 방법, 장치 및 컴퓨터프로그램
CN113744803A (zh) 2020-05-29 2021-12-03 鸿富锦精密电子(天津)有限公司 基因测序进度管理方法、装置、计算机装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0628408A (ja) * 1992-07-08 1994-02-04 Ricoh Co Ltd 文書ファイリング装置
JPH0756953A (ja) * 1993-08-19 1995-03-03 Nec Corp データ組合せ抽出方法およびその装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3694813A (en) * 1970-10-30 1972-09-26 Ibm Method of achieving data compaction utilizing variable-length dependent coding techniques
US4674066A (en) * 1983-02-18 1987-06-16 Houghton Mifflin Company Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
US5408655A (en) * 1989-02-27 1995-04-18 Apple Computer, Inc. User interface system and method for traversing a database
US5220625A (en) * 1989-06-14 1993-06-15 Hitachi, Ltd. Information search terminal and system
JPH0675265B2 (ja) * 1989-09-20 1994-09-21 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 情報検索方法及びシステム
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents
JP2795719B2 (ja) * 1990-03-07 1998-09-10 富士通株式会社 認識距離の差に基づく最良優先探索処理方法
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
US5440481A (en) * 1992-10-28 1995-08-08 The United States Of America As Represented By The Secretary Of The Navy System and method for database tomography
US5701399A (en) * 1993-06-09 1997-12-23 Inference Corporation Integration of case-based search engine into help database
US5544352A (en) * 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5523945A (en) * 1993-09-17 1996-06-04 Nec Corporation Related information presentation method in document processing system
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
JPH0793370A (ja) * 1993-09-27 1995-04-07 Hitachi Device Eng Co Ltd 遺伝子データベース検索システム
US5761496A (en) * 1993-12-14 1998-06-02 Kabushiki Kaisha Toshiba Similar information retrieval system and its method
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
JP3016691B2 (ja) * 1994-06-29 2000-03-06 富士通株式会社 データ検索条件設定方法
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5717913A (en) * 1995-01-03 1998-02-10 University Of Central Florida Method for detecting and extracting text data using database schemas
US5659732A (en) * 1995-05-17 1997-08-19 Infoseek Corporation Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5794193A (en) * 1995-09-15 1998-08-11 Lucent Technologies Inc. Automated phrase generation
US5826260A (en) * 1995-12-11 1998-10-20 International Business Machines Corporation Information retrieval system and method for displaying and ordering information based on query element contribution
US5710915A (en) * 1995-12-21 1998-01-20 Electronic Data Systems Corporation Method for accelerating access to a database clustered partitioning
US5826031A (en) * 1996-06-10 1998-10-20 Sun Microsystems, Inc. Method and system for prioritized downloading of embedded web objects
US5765150A (en) * 1996-08-09 1998-06-09 Digital Equipment Corporation Method for statistically projecting the ranking of information
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0628408A (ja) * 1992-07-08 1994-02-04 Ricoh Co Ltd 文書ファイリング装置
JPH0756953A (ja) * 1993-08-19 1995-03-03 Nec Corp データ組合せ抽出方法およびその装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000227922A (ja) * 1999-02-08 2000-08-15 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体
JP2000339346A (ja) * 1999-03-19 2000-12-08 Hitachi Ltd 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体
JP2000322416A (ja) * 1999-05-06 2000-11-24 Ntt Data Corp 文書検索装置
JP2002197104A (ja) * 2000-12-27 2002-07-12 Communication Research Laboratory 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
JP2005031950A (ja) * 2003-07-11 2005-02-03 Canon Inc 情報検索装置、情報検索方法およびプログラム
JP2009093429A (ja) * 2007-10-09 2009-04-30 Kodansha Ltd 検索システム及び検索方法
US8996571B2 (en) 2012-02-07 2015-03-31 Casio Computer Co., Ltd. Text search apparatus and text search method
JP2019160271A (ja) * 2018-03-14 2019-09-19 モクポ ナショナル マリタイム ユニバーシティー インダストリー−アカデミック コーオペレーション ファウンデーションMokpo National Maritime University Industry−Academic Cooperation Foundation コード化された標準海事通信用語を用いた海上無線通信方法

Also Published As

Publication number Publication date
US6154737A (en) 2000-11-28
CN1172994A (zh) 1998-02-11
EP0810535B1 (en) 2004-10-13
DE69731142D1 (de) 2004-11-18
EP0810535A3 (en) 1999-04-21
EP0810535A2 (en) 1997-12-03
KR970076328A (ko) 1997-12-12
KR100295354B1 (ko) 2001-09-17
CN1133127C (zh) 2003-12-31
DE69731142T2 (de) 2005-10-20

Similar Documents

Publication Publication Date Title
JPH1049549A (ja) 文書検索装置
US7257530B2 (en) Method and system of knowledge based search engine using text mining
US6826576B2 (en) Very-large-scale automatic categorizer for web content
JP3636941B2 (ja) 情報検索方法と情報検索装置
CN109947904B (zh) 一种基于Spark环境的偏好空间Skyline查询处理方法
US20050278292A1 (en) Spelling variation dictionary generation system
JPH1125108A (ja) 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
JP2002521767A (ja) 確率を利用した情報検索装置
WO2013140636A1 (ja) 検索装置、検索方法およびプログラム
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
JPH09101991A (ja) 情報フィルタリング装置
US7440938B2 (en) Method and apparatus for calculating similarity among documents
JP2669601B2 (ja) 情報検索方法及びシステム
JP2001084255A (ja) 文書検索装置および方法
JPH0844771A (ja) 情報検索装置
JP2004054882A (ja) 類義語検索装置、方法、プログラム及び記憶媒体
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JPH06208588A (ja) 文書検索方式
JP2002032394A (ja) 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体
JP2732661B2 (ja) テキスト型データベース装置
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JPH09185632A (ja) 情報検索・編集方法及び装置
KR20010107113A (ko) 자연어 정보 검색 시스템에서 구문 트리를 이용한 자연어질의의 불린 질의 및 벡터 질의 변환 방법
JP2002189734A (ja) 検索語抽出装置および検索語抽出方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050531