JPH08202737A - キーワード自動抽出装置およびキーワード自動抽出方法 - Google Patents

キーワード自動抽出装置およびキーワード自動抽出方法

Info

Publication number
JPH08202737A
JPH08202737A JP7029949A JP2994995A JPH08202737A JP H08202737 A JPH08202737 A JP H08202737A JP 7029949 A JP7029949 A JP 7029949A JP 2994995 A JP2994995 A JP 2994995A JP H08202737 A JPH08202737 A JP H08202737A
Authority
JP
Japan
Prior art keywords
keyword
text
words
word
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7029949A
Other languages
English (en)
Inventor
Masami Hara
正巳 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP7029949A priority Critical patent/JPH08202737A/ja
Publication of JPH08202737A publication Critical patent/JPH08202737A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 テキスト中から高品質のキーワードを高速に
自動抽出する。 【構成】 見出し語テーブル5に登録されている見出し
語の内キーワード抽出対象として必要なものを特定する
キーワード抽出対象段落特定処理部1と、特定した見出
し語内の文を単語に分割する形態素解析部2と、各単語
に対して不要語辞書6との照合を行い、必要な単語のみ
キーワード候補として選択するキーワード候補選択処理
部3と、候補とされた単語に対してその出現頻度と文字
の包含関係に基づき重要度を決定し、重要度の高い順に
ソートして上位の単語をキーワードとする重要度決定処
理部4とを備えた。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、テキスト中のキーワー
ドを自動的に抽出するキーワード自動抽出装置およびキ
ーワード自動抽出方法に関する。
【0002】
【従来の技術】テキスト中のキーワードの抽出は、従
来、人間がテキストを熟読し、内容を熟知した上で手作
業で行っていた。
【0003】しかし、テキストの電子化が進み、膨大な
数量でかつ長大なテキストデータを扱う必要が生じてき
た現在、キーワードの作成を人手で行うことは事実上不
可能となっている。
【0004】そこで、このような電子化されたテキスト
に対して、コンピュータによりキーワードを自動的に抽
出する方法が検討されてきている。
【0005】その方法として、自然言語処理技術、特に
文の意味をコンピュータ上で解釈する意味理解技術を用
いて文中の各語の重要性を決定する方法や、出現頻度、
語長、文字種などテキストの表層情報を利用することに
より重要性を決定する方法が考えられている。
【0006】
【発明が解決しようとする課題】しかしながら、膨大な
数量でかつ長大なテキストに対して、意味解析や文脈解
析などの自然言語処理を実施することは現状では困難で
ある。従って、上述の意味理解技術を用いたキーワード
自動抽出を高い精度で達成することは困難であり、ま
た、仮にキーワード自動抽出を実現しても多大な実行時
間を要するという問題があった。
【0007】一方、表層情報を利用して重要性を決定す
るキーワード自動抽出方式においては、高速処理は実現
できるものの、語の意味や語同士の関連性を考慮してい
ないため、実際には余り重要でない語がキーワードとし
て抽出されやすいという問題があった。また、必要な語
句がキーワードとして抽出されない場合が生じるという
不具合もあった。
【0008】本発明はこのような背景に基づいてなされ
たものであり、その目的は、テキスト中から高品質なキ
ーワードを高速に自動抽出することにある。
【0009】
【課題を解決するための手段】上記の目的を達成するた
めに、本発明の第1の側面に従うキーワード自動抽出装
置は、予め定めた見出し語を登録した見出し語テーブル
と、テキストのデータを入力し、テキスト中の段落の内
から、見出し語テーブルに登録されている見出し語のい
ずれかを含んだ段落を、キーワード抽出対象段落として
特定するキーワード抽出対照段落特定処理部とを備え、
特定されたキーワード抽出対照段落からキーワード抽出
を行うことを特徴とする。
【0010】本発明の第2の側面に従うキーワード自動
抽出装置は、テキストのデータを入力して、このテキス
トを単語に分割する形態素解析部と、予め定めた不要語
を登録した不要語辞書と、形態素解析部で得られた各単
語に対して不要語辞書との照合を行い、必要な単語のみ
キーワード候補として選択するキーワード候補選択処理
部とを備え、選択されたキーワード候補の中からキーワ
ード抽出を行うようにしたことを特徴とする。
【0011】本発明の第3の側面に従うキーワード自動
抽出装置は、テキストのデータを入力して、このテキス
トの中からキーワード候補を選択する選択処理部と、選
択された各キーワード候補について、テキスト内での出
現頻度に関する統計量を計算する頻度計算部と、計算さ
れた各キーワード候補の統計量を記録した頻度テーブル
と、頻度テーブルに記録された各キーワード候補の統計
量から、各キーワード候補に対して重要度を決定し、重
要度に基づいてキーワード候補中からキーワードを抽出
する重要度決定処理部とを備えたことを特徴とする。
【0012】本発明の第4の側面に従うキーワード自動
抽出装置は、予め定めた見出し語を登録した見出し語テ
ーブルと、テキストのデータを入力し、テキスト中の段
落の内から、見出し語テーブルに登録されている見出し
語のいずれかを含んだ段落を、キーワード抽出対象段落
として特定するキーワード抽出対照段落特定処理部と、
キーワード抽出対照段落を単語に分割する形態素解析部
と、予め定めた不要語を登録した不要語辞書と、形態素
解析部で得られた各単語に対して不要語辞書との照合を
行い、必要な単語のみキーワード候補として選択するキ
ーワード候補選択処理部と、選択された各キーワード候
補について、テキスト内での出現頻度に関する統計量を
計算する頻度計算部と、計算された各キーワード候補の
統計量を記録した頻度テーブルと、頻度テーブルに記録
された各キーワード候補の統計量から、各キーワード候
補に対して重要度を決定し、重要度に基づいてキーワー
ド候補中からキーワードを抽出する重要度決定処理部と
を備えたことを特徴とする。
【0013】本発明の第5の側面に従うキーワード自動
抽出方法は、テキスト中の段落の中から、見出し語テー
ブルに登録されている見出し語を含む段落をキーワード
抽出対象段落として特定する第1の工程と、この第1の
工程で特定したキーワード抽出段落を単語に分割する第
2の工程と、この第2の工程で得られた各単語に対して
不要語辞書との照合を行い、キーワード候補を選択する
第3の工程と、この第3の工程で候補とされた単語に対
して重要度を決定し、重要度の高い単語をキーワードと
する第4の工程とを有することを特徴とする。
【0014】
【作用】本発明の第1の側面に係る装置は、テキストに
含まれる段落の内、見出し語テーブルに予め登録されて
いる見出し語を備えた段落だけを、キーワード抽出対象
段落として特定し、この特定したキーワード抽出対照段
落からキーワード抽出を行う。そのため、キーワードが
含まれている可能性の低い段落からキーワード抽出する
無駄が省かれる。
【0015】また本発明の第2の側面に係る装置は、形
態素解析部で得られたテキスト中の各単語に対して不要
語辞書との照合を行い、必要な単語のみをキーワード候
補として選択し、キーワード候補とされた単語の中から
キーワード抽出を行う。そのため、キーワードとなり得
ない不要な単語をも含んだ膨大なデータに対してキーワ
ード抽出処理を行う無駄が省かれる。
【0016】また本発明の第3の側面に係る装置は、テ
キストの中からキーワード候補を選択し、キーワード候
補とされた単語に対して、出現頻度に基づく重要度を決
定し、重要度の高い単語を優先的にキーワードとする。
そのため、キーワードである確率の低い単語が除外さ
れ、キーワード抽出の精度が高まる。
【0017】ここで、重要度は、キーワード候補の出現
頻度だけでなく、他のキーワード候補との文字の含有関
係をも考慮して決定することが望ましい。その場合、統
計量としては、例えば、テキスト内での各キーワード候
補それ自体の出現頻度と、テキストを区分した所定範囲
で各キーワード候補と他のキーワード候補とが共に出現
する頻度である共起頻度と、更に、キーワード候補同士
の含有関係を利用した最長語への重要度補正とを用いる
ことができる。このように出現頻度と文字の含有関係と
に基づき重要度を決定することにより、より一層の精度
向上が期待できる。一般に、キーワードに適した重要単
語は、出現頻度が高い傾向があり、さらに、その重要単
語の近傍に現れる語は、重要単語と密接に関連してテキ
ストの主題を表現する傾向があるため、キーワードにな
り易いからである。
【0018】また、この場合、キーワードの部分一致に
よる重要度補正では最長の単語を優先することが好まし
い。一般に、長い語句ほどより内容が限定されること
と、同一テキストにおいて部分的に一致する単語は、最
長の単語の内容をより抽象的に述べていることが多いか
らである。
【0019】また本発明の第4の側面に係る装置又は第
5の側面に係る方法によれば、見出し語テーブルに登録
されている見出し語を備える段落がキーワード抽出対象
段落として特定され、特定されたキーワード抽出対照段
落が単語に分割される。次に、各単語に対して不要語辞
書との照合が行われ、必要な単語のみがキーワード候補
として選択され、次いで、キーワード候補とされた単語
に対して重要度が決定され、重要度の高い単語がキーワ
ードとして選択される。このため、処理の早い段階で不
要なデータが除外されて処理負担が減るために、処理速
度が向上すると共に、キーワードである可能性の高いデ
ータだけを抽出するフィルタリングが異なる観点から複
数段階にわたって行われるため、キーワード抽出の精度
が向上する。
【0020】
【実施例】以下、本発明の一実施例を添付図面に基づい
て詳細に説明する。
【0021】図1は本実施例に係るキーワード自動抽出
装置の機能ブロック図である。
【0022】この図において、1はキーワード抽出対象
段落特定処理部(以下、単に段落特定処理部と称する)
である。この段落特定処理部1は見出し語テーブル5と
信号の授受を行うようになっている。段落特定処理部1
の機能については後述する。
【0023】2は形態素解析部である。この形態素解析
部2では文を単語に分割する。
【0024】3はキーワード候補選択処理部(以下、単
に候補選択処理部と称する)である。この候補選択処理
部3は不要語辞書6と信号の授受を行うようになってい
る。候補選択処理部3の機能については後述する。
【0025】4は重要度決定処理部である。この重要度
決定処理部4は文内共起頻度テーブル7、段落内共起頻
度テーブル8、出現頻度テーブル9のそれぞれと信号の
授受を行うようになっている。重要度決定処理部4の機
能については後述する。
【0026】図2は段落特定処理部1における制御動作
のフローチャートである。
【0027】動作を、定型フォーマットのテキストの例
として特許明細書を用いて説明する。
【0028】まず、特許明細書のデータが入力される
と、段落特定処理部1が起動される。段落特定処理部1
ではテキストから1行を読み込み(S1)、見出し語テ
ーブル5を参照して、見出し語を含むかどうかを調べる
(S2)。見出し語テーブル5を参照した結果、見出し
語が存在しなければ(S2でN)、直前の行と同様の処
理を行う(S3)。但し1行目については、見出し語が
存在しない場合スキップする。
【0029】図3は特許明細書における見出し語を示す
説明図である。
【0030】「発明の名称」、「構成」、「産業上の利
用分野」等の見出し語には、要、不要のマークが
「1」、「0」として付されている。キーワードが含ま
れている可能性がある見出し語、即ち、キーワード自動
抽出に必要な見出し語は「1」が付されており、そうで
ない見出し語は「0」が付されている。例えば、見出し
語「発明の名称」はキーワード自動抽出に必要であり、
「産業上の利用分野」は必要でない。
【0031】再び図2のフローチャートに戻り、見出し
語が存在した場合(S2でY)、不要な見出し語でなけ
れば(S4でY)、キーワード抽出対象として採用する
(S6)。一方、不要な見出し語であれば(S4で
N)、スキップする(S5)。採用された行はその見出
し語に属する文として追加される。
【0032】図4は必要な見出し語とそれに属する文を
示す説明図である。
【0033】例えば、必要な見出し語として挙げられて
いる「発明の名称」に属する文は「キーワード自動抽出
方式」であることが示されている。
【0034】再び図2のフローチャートに戻り、不要な
見出し語が存在した後は、次に必要な見出し語が現れる
まで(S4でY)、S5、S1、S2のルーチンが繰り
返される。
【0035】以上の処理をテキストが終了するまで(S
7でY)行う。
【0036】形態素解析部2では、段落特定処理部1で
得られた見出し語内の文を単語に分割する。
【0037】図5は見出し語内の文とその文の単語を示
す説明図である。
【0038】「各確率的予測関数・・・計算する」とい
う文が、“各”、“確率的予測関数”、・・・“計
算”、“する”等の単語に分割される。
【0039】図6は候補選択処理部3における制御動作
のフローチャートである。
【0040】候補選択処理部3では、形態素解析部2に
より単語切りされた各語を取り込んで(S11)、この
語について不要語辞書6を照合し(S12)、不要語辞
書に登録されている語は削除し(S13)、それ以外は
キーワード候補とする(S14)。形態素解析部2によ
り単語切りされた全単語について上述の処理が終了した
時点で(S15でY)、このフローは終了する。
【0041】図7は候補選択処理部3の出力例を示す説
明図である。
【0042】例えば、見出し語「特許請求の範囲」の段
落の文中、“定型フォーマット”、“テキスト”等がキ
ーワード候補として挙げられている。
【0043】図8は重要度決定処理部4における制御動
作のフローチャートである。
【0044】重要度決定処理部4では、候補選択処理部
3により候補とされた語について、まず同一文内での共
起頻度を求め、文内共起頻度テーブル7に登録する(S
21、S22)。次に、同一見出し語内での共起頻度を
求め、段落内共起頻度テーブル8に登録する(S2
3)。さらに、テキスト全体における語単独の出現頻度
を求め、出現頻度テーブル9に登録する(S24)。
【0045】以上の処理を処理対象段落がなくなるまで
(S25でN)実行する。
【0046】図9は共起頻度テーブルの一例を示す説明
図である。
【0047】この図において、「確率分布」は「解析シ
ステム」とは同時に出現はせず、また「微分方程式」と
は9回同時に出現することが示されている。さらに合計
により、「確率分布」が他の語と共起して出現する回数
は20回であることが示されている。
【0048】再び図8のフローチャートに戻り、処理対
象段落を全て処理した後、作成された文内共起頻度テー
ブル7と段落内共起頻度テーブル8で求められた共起頻
度および出現頻度テーブル9で求められたテキスト全体
の出現頻度の合計を基にして、重要度Iが決定される
(S26)。
【0049】図10は重要度の算出の仕方を示す説明図
である。
【0050】重要度Iは、 I=α・(共起頻度テーブル7における各単語の合計
値)+β・(共起頻度テーブル8における各単語の合計
値)+(出現頻度テーブル9の合計値) で表される。α,βは定数である。
【0051】ここで、α=3、β=2とした場合、例え
ば“確率分布”の重要度Iは、 I=3×8+2×32+23=111 ということになる。また同様に“情報管理”の重要度I
は89ということになる。
【0052】このようにして、図8のステップS26に
おいて、各単語の重要度は決定される。次にキーワード
候補語の含有関係を調査し、語長の長いキーワード候補
語に含まれる語が、同様にキーワード候補語に含まれる
場合、重要度の補正を行う(S27)。
【0053】図11は補正された重要度の算出の仕方を
示す説明図である。
【0054】補正重要度I* は、 I* =(語長の長いキーワード候補語の重要度I)+γ
・(長い候補語に含まれる候補語の重要度I) によって求められる。γは定数である。
【0055】例えば、γ=1とした場合、“確率分布”
の場合、重要度は前述したように111であるが、“確
率”の重要度は42であるので、“確率分布”の補正重
要度は153(=111+42)ということになる。
【0056】再び図8のフローチャートに戻り、このよ
うにして補正された重要度の高い順に単語をソートし、
上位の語をキーワードとする(S28)。
【0057】上述した一連の処理を実行することによ
り、キーワードの自動抽出を高速に、かつ効率的に行う
ことができる。
【0058】本実施例は、段落特定処理部1、形態素解
析部2、候補選択処理部3、重要度決定処理部4の各処
理過程を経て、キーワード自動抽出を行うようにしてい
るが、この内の一つの処理だけを採用しても、従来例に
比べて高速に処理することができる。
【0059】例えば、段落特定処理部1を用い、予め重
要な語句を入りやすい段落の見出し語を調査しておくこ
とで、不要な段落に関する処理を回避し、高速にキーワ
ードを抽出することができる。
【0060】また、候補選択処理部3を用い、予め不要
な単語は削除しておくだけでもキーワード自動抽出の高
速化を図ることができる。
【0061】さらに、重要度決定処理部4で、表層情報
である出現頻度や共起出現頻度、語の含有関係を総合的
に判断することにより従来のように、複雑かつ長時間に
わたりテキストの意味や文脈を解析することを回避し、
かつ語同士の関連を考慮したキーワード抽出が可能とな
る。
【0062】なお、本実施例ではテキストとして特許明
細書を挙げて説明したが、他の定型フォーマットのテキ
ストにも適用できることは言うまでもない。
【0063】
【発明の効果】本発明によれば、高速にキーワードの自
動抽出を行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施例に係るキーワード自動抽出装
置の機能ブロック図である。
【図2】キーワード抽出対象段落特定処理部における制
御動作のフローチャートである。
【図3】特許明細書における見出し語を示す説明図であ
る。
【図4】必要な見出し語とそれに属する文を示す説明図
である。
【図5】見出し語内の文とその文の単語を示す説明図で
ある。
【図6】キーワード候補選択処理部における制御動作の
フローチャートである。
【図7】キーワード候補選択処理部の出力例を示す説明
図である。
【図8】重要度決定処理部における制御動作のフローチ
ャートである。
【図9】共起頻度テーブルの一例を示す説明図である。
【図10】重要度の算出の仕方を示す説明図である。
【図11】補正重要度の算出の仕方を示す説明図であ
る。
【符号の説明】
1 キーワード抽出対象段落特定処理部 2 形態素解析部 3 キーワード候補選択処理部 4 重要度決定処理部 5 見出し語テーブル 6 不要語辞書 7 文内共起頻度テーブル 8 段落内共起頻度テーブル 9 出現頻度テーブル

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 予め定めた見出し語を登録した見出し語
    テーブルと、 テキストのデータを入力し、前記テキスト中の段落の内
    から、前記見出し語テーブルに登録されている見出し語
    のいずれかを含んだ段落を、キーワード抽出対象段落と
    して特定するキーワード抽出対照段落特定処理部とを備
    え前記特定されたキーワード抽出対照段落からキーワー
    ド抽出を行うことを特徴とするキーワード自動抽出装
    置。
  2. 【請求項2】 テキストのデータを入力して、このテキ
    ストを単語に分割する形態素解析部と、 予め定めた不要語を登録した不要語辞書と、 前記形態素解析部で得られた各単語に対して不要語辞書
    との照合を行い、必要な単語のみキーワード候補として
    選択するキーワード候補選択処理部とを備え、 前記選択されたキーワード候補の中からキーワード抽出
    を行うようにしたことを特徴とするキーワード自動抽出
    装置。
  3. 【請求項3】 テキストのデータを入力して、このテキ
    ストの中からキーワード候補を選択する選択処理部と、 前記選択された各キーワード候補について、前記テキス
    ト内での出現頻度に関する統計量を計算する頻度計算部
    と、 前記計算された各キーワード候補の統計量を記録した頻
    度テーブルと、 前記頻度テーブルに記録された各キーワード候補の統計
    量から、各キーワード候補に対して重要度を決定し、重
    要度に基づいて前記キーワード候補中からキーワードを
    抽出する重要度決定処理部とを備えたことを特徴とする
    キーワード自動抽出装置。
  4. 【請求項4】 請求項3記載の装置において、 前記統計量として、前記テキスト内での各キーワード候
    補それ自体の出現頻度と、前記テキストを区分した所定
    範囲で各キーワード候補と他のキーワード候補とが共に
    出現する頻度たる共起頻度と、キーワード候補同士の含
    有関係を利用した最長語への重要度補正とが用いられる
    ことを特徴とするキーワード自動抽出装置。
  5. 【請求項5】 予め定めた見出し語を登録した見出し語
    テーブルと、 テキストのデータを入力し、前記テキスト中の段落の内
    から、前記見出し語テーブルに登録されている見出し語
    のいずれかを含んだ段落を、キーワード抽出対象段落と
    して特定するキーワード抽出対照段落特定処理部と前記
    キーワード抽出対照段落を単語に分割する形態素解析部
    と、 予め定めた不要語を登録した不要語辞書と、 前記形態素解析部で得られた各単語に対して不要語辞書
    との照合を行い、必要な単語のみキーワード候補として
    選択するキーワード候補選択処理部と前記選択された各
    キーワード候補について、前記テキスト内での出現頻度
    に関する統計量を計算する頻度計算部と、 前記計算された各キーワード候補の統計量を記録した頻
    度テーブルと、 前記頻度テーブルに記録された各キーワード候補の統計
    量から、各キーワード候補に対して重要度を決定し、重
    要度に基づいて前記キーワード候補中からキーワードを
    抽出する重要度決定処理部とを備えたことを特徴とする
    キーワード自動抽出装置。
  6. 【請求項6】 テキスト中の段落の中から、見出し語テ
    ーブルに登録されている見出し語を含む段落をキーワー
    ド抽出対象段落として特定する第1の工程と、 この第1の工程で特定したキーワード抽出段落を単語に
    分割する第2の工程と、 この第2の工程で得られた各単語に対して不要語辞書と
    の照合を行い、キーワード候補を選択する第3の工程
    と、 この第3の工程で候補とされた単語に対して重要度を決
    定し、重要度の高い単語をキーワードとする第4の工程
    と、 を有することを特徴とするキーワード自動抽出方法。
JP7029949A 1995-01-26 1995-01-26 キーワード自動抽出装置およびキーワード自動抽出方法 Pending JPH08202737A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7029949A JPH08202737A (ja) 1995-01-26 1995-01-26 キーワード自動抽出装置およびキーワード自動抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7029949A JPH08202737A (ja) 1995-01-26 1995-01-26 キーワード自動抽出装置およびキーワード自動抽出方法

Publications (1)

Publication Number Publication Date
JPH08202737A true JPH08202737A (ja) 1996-08-09

Family

ID=12290246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7029949A Pending JPH08202737A (ja) 1995-01-26 1995-01-26 キーワード自動抽出装置およびキーワード自動抽出方法

Country Status (1)

Country Link
JP (1) JPH08202737A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187752A (ja) * 1996-12-24 1998-07-21 Kokusai Denshin Denwa Co Ltd <Kdd> 言語間情報検索支援システム
JP2000172691A (ja) * 1998-12-03 2000-06-23 Mitsubishi Electric Corp 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
US6473754B1 (en) 1998-05-29 2002-10-29 Hitachi, Ltd. Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program
JP2003067412A (ja) * 2001-08-24 2003-03-07 Yutaka Matsuo データからの特徴アイテム抽出方法
US6836772B1 (en) 1998-10-22 2004-12-28 Sharp Kabushiki Kaisha Key word deriving device, key word deriving method, and storage medium containing key word deriving program
WO2006085455A1 (ja) * 2005-02-14 2006-08-17 Justsystems Corporation 文書処理装置および文書処理方法
JP2011028747A (ja) * 2009-07-24 2011-02-10 Avaya Inc サーチ・タームを生成するシステムと方法
CN116629254A (zh) * 2023-05-05 2023-08-22 杭州正策信息科技有限公司 一种基于文本分析和识别的政策文本分析方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187752A (ja) * 1996-12-24 1998-07-21 Kokusai Denshin Denwa Co Ltd <Kdd> 言語間情報検索支援システム
US6473754B1 (en) 1998-05-29 2002-10-29 Hitachi, Ltd. Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program
US6836772B1 (en) 1998-10-22 2004-12-28 Sharp Kabushiki Kaisha Key word deriving device, key word deriving method, and storage medium containing key word deriving program
JP2000172691A (ja) * 1998-12-03 2000-06-23 Mitsubishi Electric Corp 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003067412A (ja) * 2001-08-24 2003-03-07 Yutaka Matsuo データからの特徴アイテム抽出方法
JP4679003B2 (ja) * 2001-08-24 2011-04-27 ヤフー株式会社 データからの特徴アイテム抽出方法
WO2006085455A1 (ja) * 2005-02-14 2006-08-17 Justsystems Corporation 文書処理装置および文書処理方法
JPWO2006085455A1 (ja) * 2005-02-14 2008-06-26 株式会社ジャストシステム 文書処理装置および文書処理方法
JP2011028747A (ja) * 2009-07-24 2011-02-10 Avaya Inc サーチ・タームを生成するシステムと方法
CN116629254A (zh) * 2023-05-05 2023-08-22 杭州正策信息科技有限公司 一种基于文本分析和识别的政策文本分析方法
CN116629254B (zh) * 2023-05-05 2024-03-22 杭州正策信息科技有限公司 一种基于文本分析和识别的政策文本分析方法

Similar Documents

Publication Publication Date Title
US6178420B1 (en) Related term extraction apparatus, related term extraction method, and a computer-readable recording medium having a related term extraction program recorded thereon
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5077668A (en) Method and apparatus for producing an abstract of a document
JP4024861B2 (ja) 辞書に基づく品詞確率による自然言語パーザ
US5680628A (en) Method and apparatus for automated search and retrieval process
US8458198B1 (en) Document analysis and multi-word term detector
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US20030065658A1 (en) Method of searching similar document, system for performing the same and program for processing the same
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH08272826A (ja) 文書加工方法および装置
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
WO2017091985A1 (zh) 停用词识别方法与装置
US6278990B1 (en) Sort system for text retrieval
CN114266256A (zh) 一种领域新词的提取方法及系统
JPH08202737A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP3583631B2 (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JPH1139313A (ja) 文書自動分類システム、文書分類向け知識ベース生成方法及びそのプログラムを記録した記録媒体
JPH1185766A (ja) キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
JPH0877196A (ja) 文書情報抽出装置
JP2004280316A (ja) 分野判定装置及び言語処理装置
JPH05298349A (ja) 共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法
CN117972025B (zh) 一种基于语义分析的海量文本检索匹配方法
JP4059501B2 (ja) 自然語辞書更新装置
JP2002245062A (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体