JPH09204437A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH09204437A
JPH09204437A JP8012330A JP1233096A JPH09204437A JP H09204437 A JPH09204437 A JP H09204437A JP 8012330 A JP8012330 A JP 8012330A JP 1233096 A JP1233096 A JP 1233096A JP H09204437 A JPH09204437 A JP H09204437A
Authority
JP
Japan
Prior art keywords
keyword
input
document
dictionary
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8012330A
Other languages
English (en)
Inventor
Hiroshi Masuichi
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP8012330A priority Critical patent/JPH09204437A/ja
Publication of JPH09204437A publication Critical patent/JPH09204437A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 新語や造語等をキーワードとした検索を可能
とした文書検索装置を提供する。 【解決手段】 入力部4で入力された検索キーが名詞辞
書格納部11中の名詞語彙辞書に存在れば、インデック
ス格納部3中のインデックスファイルを用いて検索キー
による検索を行なう。名詞語彙辞書中に検索キーがない
場合、入力回数記憶部12中に検索キーが存在しなけれ
ば、新たに入力回数記憶部12に検索キーを記憶させ
る。検索キーが入力回数記憶部12に記憶されていれ
ば、出現頻度を更新し、出現頻度が閾値を上回ると、辞
書変更部7はその単語を名詞語彙辞書に追加する。キー
ワード抽出部2は追加された単語をキーワードとして文
書格納部1中の文書から抽出し、インデックス格納部3
中のインデックスファイルを更新する。以後、その単語
での検索が可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、キーワード検索方
式の文書検索装置に関するものである。
【0002】
【従来の技術】膨大な量の文書を対象とした検索を行な
う検索方式として、キーワード検索方式が一般に用いら
れている。キーワード検索方式では、検索対象となる文
書から予めキーワードとなり得る語を抽出し、インデッ
クスファイルと呼ばれるファイルに登録する。インデッ
クスファイルには、キーワードとそのキーワードが出現
する文書名、文書中の位置等の情報が対になって記録さ
れる。検索時には、求める文書を指定すべく入力された
語と一致するキーワードをインデックス中から探し出
し、その文書名あるいは文書中の位置情報を得ることに
より、高速の文書検索を実現している。
【0003】文書中からキーワードを抽出する方法とし
ては、人手によって抽出する方法と、例えば、形態素解
析プログラムに代表されるキーワード抽出プログラムを
用いた自動抽出による方法とを挙げることができる。キ
ーワード抽出の時間的なコストの観点から、プログラム
を用いた自動抽出による方法が有利であるといえる。自
動抽出の手法は、例えば、特開昭57−137965号
公報「漢字かな混じり文からのキーワード自動抽出方
式」等において論じられている。
【0004】現状の形態素解析を含むキーワードの自動
抽出技術では、キーワードの抽出を主に語彙辞書を参照
することによって実現している。ここで、語彙辞書と
は、品詞別に語彙を集めた電子ファイルであって、一般
的に用いる意味での辞書とは異なるものである。語彙辞
書を用いるキーワード抽出では、語彙辞書に登録されて
いない新語や造語をキーワードとして抽出することはで
きない。すなわち、語彙辞書にない新語や造語を入力キ
ーワードとして検索した場合には、検索結果として何も
得ることができないという問題がある。
【0005】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、新語や造語等をキーワード
とした検索を可能とした文書検索装置を提供することを
目的とするものである。
【0006】
【課題を解決するための手段】請求項1に記載の発明
は、文書検索装置において、複数の文書を格納する文書
格納手段と、キーワードと文書名等を組にして記憶する
インデックス格納手段と、前記文書格納手段に格納され
た各文書から予めキーワードを抽出して該キーワードと
該キーワードが存在する文書名等を組にして前記インデ
ックス格納手段に記録する抽出手段と、検索対象を指定
するためのキーワードを入力する入力手段と、該入力手
段により入力されたキーワードと前記インデックス格納
手段に記録されているキーワードとを比較して検索対象
の文書を特定する特定手段と、該特定手段により特定さ
れた文書を前記格納手段から読み出して出力する出力手
段と、前記入力手段に入力されたキーワードに基づき前
記抽出手段で抽出するキーワードを変更する変更手段を
有することを特徴とするものである。
【0007】請求項2に記載の発明は、請求項1に記載
の文書検索装置において、前記抽出手段は、語彙辞書を
参照することによりキーワード抽出を行なうものであ
り、前記変更手段は、前記語彙辞書に未登録のキーワー
ドの入力手段への入力回数をもとに前記抽出手段の前記
語彙辞書を変更して前記抽出手段にキーワードの抽出を
行なわせることを特徴とするものである。
【0008】
【発明の実施の形態】図1は、本発明の文書検索装置の
第1の実施の形態を示す構成図である。図中、1は文書
格納部、2はキーワード抽出部、3はインデックス格納
部、4は入力部、5は特定部、6は出力部、7は辞書変
更部、11は名詞辞書格納部、12は入力回数記憶部で
ある。この実施の形態では、キーワードとしてインデッ
クスファイルに登録する語、および、検索条件として入
力する検索キーを、名詞のみに限定して説明する。
【0009】文書格納部1は、検索対象となる複数の文
書を格納する。インデックス格納部3は、キーワード抽
出部2によって作成されたインデックスファイルを格納
する。これらは、例えば、メモリやディスク装置などの
記憶装置で構成される。
【0010】キーワード抽出部2は、文書格納部1に新
たな文書が格納された場合と、辞書変更部7により名詞
辞書格納部11中の名詞語彙辞書の内容が変更された場
合、最初にインデックスファイルを作成する場合に、文
書格納部1中に格納されている文書に対して形態素解析
処理を施し、キーワード(名詞)を抽出する。そして、
各キーワードとそのキーワードを含む文書名を対にして
記録し、インデックスファイルとする。作成したインデ
ックスファイルは、インデックス格納部3に格納する。
【0011】キーワード抽出部2は、名詞辞書格納部1
1を有する。名詞辞書格納部11は、形態素解析に必要
な名詞を多数記述した名詞語彙辞書を格納している。格
納される名詞語彙辞書は、キーワード抽出部2が解析を
行なう際に参照される。名詞辞書格納部11には、名詞
語彙辞書の他、形態素解析を実行するために必要な文法
辞書および名詞語彙辞書以外の各種語彙辞書を含むよう
に構成することができる。
【0012】入力部4は、検索者が所望の文書を指定す
るための検索キーを入力することができるユーザインタ
フェースを有している。また、入力部4は入力回数記憶
部12を有している。入力回数記憶部12は、入力部4
に入力された検索キーのうち、名詞辞書格納部11中の
名詞語彙辞書に存在しないものを、その入力された回数
とともに記憶する。
【0013】特定部5は、入力部4に入力された検索キ
ーを満たす文書を、インデックス格納部3中のインデッ
クスファイルを参照することによって、文書格納部1中
から特定する。出力部6は、特定部5によって特定され
た文書を検索結果として検索者に表示するユーザインタ
フェースを持つ。
【0014】辞書変更部7は、入力回数記憶部12中の
キーワード入力回数を参照し、入力回数が予め設定され
た閾値を上回るキーワードを名詞辞書格納部11に追加
する。名詞辞書格納部11に追加したキーワードは、入
力回数記憶部12中から削除する。
【0015】図2は、本発明の文書検索装置の第1の実
施の形態における処理手順の一例を示すフローチャート
である。図中、nは予め設定された閾値である。S21
において、入力部4は検索者が入力した検索キーを受け
取る。入力部4は、S22において、入力された検索キ
ーが名詞辞書格納部11内の名詞語彙辞書に存在するか
否かを判定する。もし、入力された検索キーが名詞語彙
辞書に存在すれば、S23において、特定部5がインデ
ックス格納部3内のインデックスファイルを参照し、入
力された検索キーを含む文書を特定する。そして、S2
4において、特定された文書を検索結果として出力部6
で表示する。このようにして入力された検索キーによる
検索が行なわれる。
【0016】S22において入力された検索キーが名詞
語彙辞書に存在しない場合、この入力された検索キーは
キーワードとして文書から抽出されていないので、その
ままインデックスファイルを参照しても検索できず、検
索結果は得られない。まずS25において入力された検
索キーが入力回数記憶部12に記憶されているか否かを
判定する。記憶されていなければ、S26において、入
力された検索キーを入力回数記憶部12に記憶させ、対
応する回数の値を1とする。
【0017】S25において、入力された検索キーが入
力回数記憶部12に記憶されている場合には、S27に
おいて、入力された検索キーに対応する回数の値に1を
加える。そしてS28において、辞書変更部7は、その
回数の値が閾値nを越えているか否かを判定する。回数
の値が閾値nを越えていなければそのまま終了する。
【0018】S28において、回数の値が閾値nを越え
ている場合には、その入力された検索キーをキーワード
として採用する。S29において、辞書変更部7は、入
力回数記憶部12の入力された検索キーのエントリを削
除し、S30で入力された検索キーを名詞語彙辞書に加
える。この名詞語彙辞書の変更を契機として、キーワー
ド抽出部2はS31においてインデックスファイルを再
度生成し、インデックス格納部3に格納する。以後、こ
の検索キーが入力されると、名詞語彙辞書に登録されて
いるので、S23,S24における検索が行なわれるこ
とになる。
【0019】このようにして、辞書変更部7は、名詞辞
書格納部11中の名詞語彙辞書に存在しないキーワード
のうち、検索者によって入力される頻度の高いものを当
該語彙辞書に追加する。このようなキーワードは、新語
や造語である可能性が高い。さらに、更新された名詞語
彙辞書を用いたインデックスファイルの作成がキーワー
ド抽出部2によって再度行われるため、その後の検索で
は、新たに登録された新語や造語である可能性が高いキ
ーワードによっても検索が可能となる。
【0020】具体例を用いて上述の動作の一例を説明す
る。検索者が「破防法」を検索キーとして検索を行なっ
たとする。通常の名詞語彙辞書には「破防法」の登録は
なく、したがってインデックスファイル中にも当該キー
ワードは存在しない。よって、文書格納部1中に「破防
法」を含む文書が存在している場合でも、検索結果とし
ては何も得られない。
【0021】このとき、入力回数記憶部12内に「破防
法」が記憶されているか否かを調べ、記憶されていなけ
れば新たに入力回数記憶部12に「破防法」を記憶さ
せ、既に記憶されている場合には、対応する回数の値に
1を加える。
【0022】複数の検索者が同様に「破防法」を検索キ
ーとして検索を行ない、その指定回数が閾値nを越える
と、「破防法」が新語や造語として名詞辞書格納部11
中の名詞語彙辞書に追加され、インデックスファイルが
再度作成される。その後の検索では、「破防法」を検索
キーとして検索を行なうことが可能となる。
【0023】次に、本発明の文書検索装置の第2の実施
の形態について説明する。この第2の実施の形態では、
キーワードとしてインデックスファイルに登録する語お
よび検索条件として入力する検索キーを名詞、動詞(一
段動詞、五段動詞)、形容詞とする。この第2の実施の
形態の構成は、図1に示した上述の第1の実施の形態に
おける構成と同様である。各部の機能について、相違す
る部分を説明する。
【0024】キーワード抽出部2中の名詞辞書格納部1
1には、名詞語彙辞書、動詞(一段動詞,五段動詞)語
彙辞書、形容詞語彙辞書の各語彙辞書が格納されてい
る。図3は、本発明の第2の実施の形態における名詞辞
書格納手段内の各語彙辞書の一例の説明図である。名詞
語彙辞書、動詞(一段動詞,五段動詞)語彙辞書、形容
詞語彙辞書の各語彙辞書には、文書からキーワードとし
て抽出すべき単語がそれぞれの品詞ごとに格納されてい
る。例えば、図3に示す例では、名詞語彙辞書には、
「愛」、「間」、・・・等の名詞語句が、また、五段動
詞語彙辞書には、「相知る」、「相次ぐ」、・・・等の
五段活用の動詞語句が登録されている。図3では、名詞
辞書格納部11中の各語彙辞書のデータは、単語の読み
のあいうえお順にソートされている。もちろん、コード
の順でソートされていてもよい。名詞辞書格納部11に
は、その他の形態素解析を実行するために必要な文法辞
書および名詞、動詞、形容詞の各語彙辞書以外の各種語
彙辞書を含んでいてもよい。
【0025】キーワード抽出部2は、文書格納部1に新
たな文書が格納された場合と、辞書変更部7により名詞
辞書格納部11中の各語彙辞書のいずれかの内容が変更
された場合に、各語彙辞書を参照しながら、文書格納部
1中に格納されている文書に対して形態素解析処理を施
し、キーワード(名詞、動詞(一段動詞,五段動詞)、
形容詞)を抽出する。各キーワードと、キーワードを含
む文書名を対にして記録し、インデックスファイルとす
る。作成したインデックスファイルは、インデックス格
納部3に格納する。
【0026】入力部4は、検索者が所望の文書を指定す
るための検索キーを入力し、さらに、入力した検索キー
が名詞、動詞、形容詞のいずれかであるかを入力するこ
とができるユーザインタフェースを持つ。あるいは、簡
単な解析を行なって、自動的に品詞を特定してもよい。
【0027】入力部4内の入力回数記憶部12は、入力
部4に入力された検索キーのうち、名詞辞書格納部11
中の各語彙辞書に存在しないものを、名詞、動詞(一段
動詞,五段動詞)、形容詞の品詞別に、その入力された
回数とともに記憶する。図4は、本発明の第2の実施の
形態における入力回数記憶部の保持する入力回数データ
の一例の説明図である。入力回数記憶部12中の各単語
は、品詞別に記憶されており、出現頻度(入力回数)の
多いものから順にソートされている。例えば、名詞の単
語「破防法」は出現頻度「147」が付加され、他の名
詞の単語とともに出現頻度でソートされて記憶されてい
る。
【0028】辞書変更部7は、入力回数記憶部12中の
検索キーの入力回数を参照し、入力回数が名詞、動詞
(一段動詞,五段動詞)、形容詞の各品詞別に予め設定
された閾値を上回る語を名詞辞書格納部11の対応する
品詞の語彙辞書に追加する。名詞辞書格納部11のいず
れかの語彙辞書に追加した語は、入力回数記憶部12中
から削除する。
【0029】この第2の実施の形態における動作は、上
述の図2に示した第1の実施の形態における動作とほぼ
同様であり、検索キーとして名詞のほかに、動詞(一段
動詞,五段動詞)、形容詞も入力可能である点が相違す
るのみである。図5は、本発明の第2の実施の形態にお
ける入力部の画面イメージの一例の説明図である。この
第2の実施の形態では、入力部4において、検索キーと
なる単語を入力した後に、ポップアップウィンドウから
対応する品詞を選択して指定することができる。図5に
示した例では、検索キーとして「ハマる」を入力し、品
詞として「動詞」のうちの「五段動詞」を選択してい
る。
【0030】このようにして入力部4で入力された検索
キーと、その検索キーの品詞が入力されると、検索キー
の品詞に対応する語彙辞書中に検索キーが存在するか否
かを判定し、存在する場合には、検索キーによる検索を
行なう。例えば、図5に示すような入力がなされた場
合、検索キー「ハマる」が五段動詞語彙辞書に存在する
か否かを判定し、存在すれば検索を行なう。
【0031】検索キーの品詞に対応する語彙辞書中に検
索キーが存在しない場合には、入力回数記憶部12中に
品詞別に記憶されている単語中に検索キーが存在するか
否かを判定する。入力回数記憶部12に記憶されていな
ければ新たに検索キーの単語をその品詞に従って記憶さ
せ、出現頻度を1に設定する。入力回数記憶部12に記
憶されていれば、出現頻度を1だけ増加させ、各品詞別
にあらかじめ設定された閾値を上回った場合には、その
単語を名詞辞書格納部11中の対応する品詞の語彙辞書
に追加する。
【0032】入力回数記憶部12に、図4に示すような
内容が記憶されているとすれば、上述の検索キー「ハマ
る」が五段動詞として記憶されているので、対応する出
現頻度を「3」から「4」に変更する。また、名詞の閾
値が147のとき、検索キーとして「破防法」が品詞と
して名詞が指定されて入力された場合、「破防法」の出
現頻度は「148」となり閾値を上回るので、「破防
法」は名詞辞書格納部11中の名詞語彙辞書に登録され
るとともに、入力回数記憶部12から削除される。そし
て、キーワード抽出部2が文書格納部1内の文書から
「破防法」をキーワードとして抽出してインデックス格
納部3内のインデックスファイルを更新する。
【0033】上述の各実施の形態では、辞書変更部7は
新語や造語等を登録する機能を有するのみであった。し
かし新語や造語の中には流行によって一時的に使用され
るだけの単語もある。そのため、名詞辞書格納部11中
の各語彙辞書に登録した単語を保持しておき、長期にわ
たり入力部4から入力されなかった単語を削除するよう
な機能を付加することも可能である。入力回数記憶部1
2においても、出現頻度が少なく、長期にわたり入力さ
れない単語を削除するように構成することもできる。
【0034】なお、上述の各実施例の構成では、語彙辞
書への登録が、同じ単語が複数回入力された場合として
いるため、複数の検索者が共同でこの文書検索装置を使
用する構成とすると効果的である。
【0035】
【発明の効果】以上の説明から明らかなように、本発明
によれば、検索者によって入力される頻度の高い検索キ
ーのうち、キーワード抽出部がキーワードの抽出の際に
用いる語彙辞書に存在しないものを、当該語彙辞書に追
加することが可能である。検索者によって入力される頻
度の高い検索キーのうち、キーワード抽出部がキーワー
ドの抽出の際に用いる辞書に存在しないものは、新語や
造語である可能性が高い。そのため、この単語を語彙辞
書に追加することによって、通常、キーワード抽出部が
キーワードの抽出の際に用いる語彙辞書に存在しない新
語や造語等をキーワードとした場合でも検索が可能とな
るという効果がある。
【図面の簡単な説明】
【図1】 本発明の文書検索装置の第1の実施の形態を
示す構成図である。
【図2】 本発明の文書検索装置の第1の実施の形態に
おける処理手順の一例を示すフローチャートである。
【図3】 本発明の第2の実施の形態における名詞辞書
格納手段内の各語彙辞書の一例の説明図である。
【図4】 本発明の第2の実施の形態における入力回数
記憶部の保持する入力回数データの一例の説明図であ
る。
【図5】 本発明の第2の実施の形態における入力部の
画面イメージの一例の説明図である。
【符号の説明】
1…文書格納部、2…キーワード抽出部、3…インデッ
クス格納部、4…入力部、5…特定部、6…出力部、7
…辞書変更部、11…名詞辞書格納部、12…入力回数
記憶部。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書を格納する文書格納手段と、
    キーワードと文書名等を組にして記憶するインデックス
    格納手段と、前記文書格納手段に格納された各文書から
    予めキーワードを抽出して該キーワードと該キーワード
    が存在する文書名等を組にして前記インデックス格納手
    段に記録する抽出手段と、検索対象を指定するためのキ
    ーワードを入力する入力手段と、該入力手段により入力
    されたキーワードと前記インデックス格納手段に記録さ
    れているキーワードとを比較して検索対象の文書を特定
    する特定手段と、該特定手段により特定された文書を前
    記格納手段から読み出して出力する出力手段と、前記入
    力手段に入力されたキーワードに基づき前記抽出手段で
    抽出するキーワードを変更する変更手段を有することを
    特徴とする文書検索装置。
  2. 【請求項2】 前記抽出手段は、語彙辞書を参照するこ
    とによりキーワード抽出を行なうものであり、前記変更
    手段は、前記語彙辞書に未登録のキーワードの入力手段
    への入力回数をもとに前記抽出手段の前記語彙辞書を変
    更して前記抽出手段にキーワードの抽出を行なわせるこ
    とを特徴とする請求項1に記載の文書検索装置。
JP8012330A 1996-01-26 1996-01-26 文書検索装置 Pending JPH09204437A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8012330A JPH09204437A (ja) 1996-01-26 1996-01-26 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8012330A JPH09204437A (ja) 1996-01-26 1996-01-26 文書検索装置

Publications (1)

Publication Number Publication Date
JPH09204437A true JPH09204437A (ja) 1997-08-05

Family

ID=11802307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8012330A Pending JPH09204437A (ja) 1996-01-26 1996-01-26 文書検索装置

Country Status (1)

Country Link
JP (1) JPH09204437A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000063310A (ko) * 2000-06-26 2000-11-06 민재기 통신망을 통한 명사의 순위 검색 시스템과 그 방법
JP2001014337A (ja) * 1999-06-30 2001-01-19 Sharp Corp 検索装置及び検索プログラムを記録した記録媒体
JP2002015004A (ja) * 2000-06-28 2002-01-18 Matsushita Electric Ind Co Ltd 文書検索装置
JP2005251206A (ja) * 2004-03-03 2005-09-15 Microsoft Corp 単語分割で使用される新単語収集方法およびシステム
JP2008268985A (ja) * 2007-04-16 2008-11-06 Yahoo Japan Corp タグを付与する方法
JP2009271919A (ja) * 2008-04-30 2009-11-19 Ricoh Co Ltd 電子データを管理するシステム、装置及び方法
JP2010134720A (ja) * 2008-12-04 2010-06-17 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置および文書検索プログラム
KR101274295B1 (ko) * 2007-03-26 2013-06-13 엔에이치엔(주) 분류를 이용한 검색 데이터베이스의 자동 색인어 추가 방법및 시스템
CN104143004A (zh) * 2014-08-04 2014-11-12 浪潮(北京)电子信息产业有限公司 一种查找k-ux系统文件的方法及装置
CN112905610A (zh) * 2021-01-30 2021-06-04 铁道警察学院 一种大数据的数据筛选模型及方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014337A (ja) * 1999-06-30 2001-01-19 Sharp Corp 検索装置及び検索プログラムを記録した記録媒体
KR20000063310A (ko) * 2000-06-26 2000-11-06 민재기 통신망을 통한 명사의 순위 검색 시스템과 그 방법
JP2002015004A (ja) * 2000-06-28 2002-01-18 Matsushita Electric Ind Co Ltd 文書検索装置
JP2005251206A (ja) * 2004-03-03 2005-09-15 Microsoft Corp 単語分割で使用される新単語収集方法およびシステム
KR101274295B1 (ko) * 2007-03-26 2013-06-13 엔에이치엔(주) 분류를 이용한 검색 데이터베이스의 자동 색인어 추가 방법및 시스템
JP2008268985A (ja) * 2007-04-16 2008-11-06 Yahoo Japan Corp タグを付与する方法
JP2009271919A (ja) * 2008-04-30 2009-11-19 Ricoh Co Ltd 電子データを管理するシステム、装置及び方法
JP2010134720A (ja) * 2008-12-04 2010-06-17 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置および文書検索プログラム
CN104143004A (zh) * 2014-08-04 2014-11-12 浪潮(北京)电子信息产业有限公司 一种查找k-ux系统文件的方法及装置
CN104143004B (zh) * 2014-08-04 2017-09-22 浪潮(北京)电子信息产业有限公司 一种查找k‑ux系统文件的方法及装置
CN112905610A (zh) * 2021-01-30 2021-06-04 铁道警察学院 一种大数据的数据筛选模型及方法

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
JP2783558B2 (ja) 要約生成方法および要約生成装置
WO2018097091A1 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JPH11161682A (ja) 情報検索装置、情報検索方法及び記録媒体
JPH09204437A (ja) 文書検索装置
US20100185438A1 (en) Method of creating a dictionary
JP2005135113A (ja) 電子機器装置、関連語抽出方法及びプログラム
JPH09198395A (ja) 文書検索装置
US6620207B1 (en) Method and apparatus for processing chinese teletext
JP3380034B2 (ja) 辞書編集装置
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
KR100452024B1 (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JPH0877196A (ja) 文書情報抽出装置
WO2020240756A1 (ja) 応答処理プログラム、応答処理方法および情報処理装置
JPS61248160A (ja) 文書情報登録方式
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP3707506B2 (ja) 文書検索装置及び文書検索方法
JPS6389976A (ja) 言語解析装置
JPS6175952A (ja) 文書入力処理方式
JPH07152778A (ja) 文書検索装置
KR20020003701A (ko) 디지털 문서의 키워드를 자동으로 추출하는 방법
JPH0954781A (ja) 文書検索システム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040406