JPH1011460A - キーワード抽出装置 - Google Patents

キーワード抽出装置

Info

Publication number
JPH1011460A
JPH1011460A JP8165407A JP16540796A JPH1011460A JP H1011460 A JPH1011460 A JP H1011460A JP 8165407 A JP8165407 A JP 8165407A JP 16540796 A JP16540796 A JP 16540796A JP H1011460 A JPH1011460 A JP H1011460A
Authority
JP
Japan
Prior art keywords
character
keyword
character type
characters
hiragana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8165407A
Other languages
English (en)
Inventor
Takumi Hasegawa
拓己 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP8165407A priority Critical patent/JPH1011460A/ja
Publication of JPH1011460A publication Critical patent/JPH1011460A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書中のキーワードを高速にかつその使われ
方まで考慮して抽出可能とする。 【解決手段】 文字分解手段2は文書格納手段1に格納
された日本語文書を1文字ずつに分解して文字の並びと
し、文字格納手段3に格納する。文字種別判断手段4は
文字の並びの各文字の文字種別が漢字、カタカナ、英
字、その他のいずれであるかをその文字の文字コードか
ら判断する。文字種別格納手段5は文字の並びに文字の
並びの各文字の文字種別を付加した情報を格納する。キ
ーワード抽出手段6は文字の並びの各文字とその文字の
文字種別とから、隣り合う文字種別が異なっている文字
を検出して文字の並びを文字種別毎に区切ってキーワー
ドを抽出し、それにひらがなが連続する場合にそのひら
がなの文字も対応付けて出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はキーワード抽出装置
に関し、特に高速にキーワードを抽出するキーワード抽
出方式に関する。
【0002】
【従来の技術】従来、この種のキーワード抽出方式にお
いては、被抽出文書を字句解析することによって文書内
に含まれる語句を抽出し、その語句を品詞分解した後に
その中からキーワードの抽出を行っている。
【0003】例えば、特開平3−286372号公報に
は、入力された日本語文章を単語分割して接辞と名詞と
からなる複合語を検出し、この複合語の名詞の日本語文
章内における結合数と頻度とから評価値を算出して所定
の閾値と比較し、この比較で選別された複合語の名詞を
特定語として辞書に入力することで、技術文書から専門
用語の抽出等に必要な特定語を格納した辞書を自動的に
作成する方法が開示されている。
【0004】また、特開平6−301722号公報に
は、辞書が解析に必要な少なくとも文法情報を格納し、
入力された日本語文章から少なくとも名詞単語を、辞書
を利用して抽出するとともに、入力された日本語文章中
の連続した片仮名や英字からなる文字列を名詞相当単語
として抽出する方法が開示されている。
【0005】この公報には、辞書が解析に必要な少なく
とも文法情報を格納し、入力された日本語文章から少な
くとも名詞単語及び名詞相当単語を、辞書を利用して抽
出するとともに、抽出された名詞単語又は名詞相当単語
が連続してなる複合語を構成している各単語又は相当単
語を複数個組合せてなる複合語をキーワード候補として
列挙し、列挙された複合語キーワード候補の累積頻度か
ら相互の重複頻度を考慮して各複合語キーワード候補の
評価値を決定し、それに基づいてキーワードを決定する
方法も開示されている。
【0006】さらに、特開平7−73200号公報に
は、日本語文書を形態素解析して得られる単語列から、
予め定義しておいた単語パターンに一致する単語の連続
部分を日本語文書のキーワードとして抽出する方法が開
示されている。
【0007】この公報には、キーワードとして定義する
単語パターンを品詞名の正規表現で記述すること、形態
素解析の結果から得られる品詞をキーワード抽出用品詞
にマッピングすること、キーワードとして抽出する単語
の連続部分の選択に、品詞だけでなく、品詞以外の単語
の構文的・意味的情報を記述する素性を用いること等も
開示されている。
【0008】すなわち、これらの従来文献に示されてい
る方法では、キーワードを形態素分析等の方法により字
句解析し、単語分割することに基づきキーワードの抽出
を行っている。
【0009】一方、特開平6−187373号公報に
は、対象となる文書を構成する文字の文字コードに着目
し、それらの文字コードに基づいて、助詞の直前に位置
する名詞に限ることなく、文書中に連続して隣接する少
なくとも2個以上の語が漢字、片仮名、アルファベッ
ト、長音又は数字の任意の組合せである場合に、それら
の連続する語をキーワード候補として抽出すると共に、
そのキーワード候補の同義関係、及び部分一致関係を考
慮して、各々の関係となるキーワード候補を夫々包括的
に取り扱って出現頻度を算出することでキーワードを抽
出する方法が開示されている。
【0010】
【発明が解決しようとする課題】上述した従来のキーワ
ード抽出方式では、被抽出文書を字句解析することで文
書内に含まれる語句を抽出し、品詞分解した後にその中
からキーワードの抽出を行っているので、キーワードを
抽出するために多大な処理時間が必要となる。
【0011】また、文書中に連続して隣接する少なくと
も2個以上の語が漢字、片仮名、アルファベット、長音
又は数字の任意の組合せである場合に、それらの連続す
る語をキーワード候補として抽出し、そのキーワード候
補の出現頻度を算出してキーワードの抽出を行う方法の
場合、抽出したキーワードのみを用いてその後の処理を
行っている。よって、キーワードが主語として用いられ
ているのか、あるいはキーワードが述語として用いられ
ているのか等のキーワードの使われ方まで考慮したキー
ワード処理を行うことができない。
【0012】そこで、本発明の目的は上記の問題点を解
消し、文書中のキーワードを高速にかつその使われ方ま
で考慮して抽出することができるキーワード抽出装置を
提供することにある。
【0013】
【課題を解決するための手段】本発明によるキーワード
抽出装置は、キーワード検索の対象となる日本語文書を
1文字ずつ分解して文字の並びとする文字分解手段と、
前記文字の並びの各文字の文字種別を判断する文字種別
判断手段と、前記文字の並びの各文字に前記文字種別判
断手段の判断結果を付加して格納する文字種別格納手段
と、前記文字種別格納手段の格納内容から隣り合う文字
種別が異なっている文字の並びをキーワードとして抽出
しかつ前記キーワードとそのキーワードの後に連続する
ひらがなの文字とを対応付けて出力するキーワード抽出
手段とを備えている。
【0014】本発明による他のキーワード抽出装置は、
キーワード検索の対象となる日本語文書を格納する文書
格納手段と、前記文書格納手段に格納された日本語文書
を読取って当該日本語文書を1文字ずつ分解して文字の
並びとする文字分解手段と、前記文字分解手段で分解さ
れた文字の並びを格納する文字格納手段と、前記文字格
納手段に格納された文字の並びを読込んでその文字種別
を判断する文字種別判断手段と、前記文字格納手段に格
納された文字の並びに前記文字種別判断手段で判断され
た文字種別を付加して格納する文字種別格納手段と、前
記文字種別格納手段に格納された情報から前記文字の並
びが同一文字種別のキーワードを抽出しかつ該キーワー
ドの後に連続して現れるひらがなの文字とともに出力す
るキーワード抽出手段と、前記キーワード格納手段から
出力されるキーワード及びそれに対応するひらがなの文
字を格納するキーワード格納手段とを備えている。
【0015】
【発明の実施の形態】まず、本発明の作用について以下
に述べる。
【0016】文書格納手段に格納されたキーワード検索
の対象となる日本語文書を文字分解手段で1文字ずつ分
解して文字の並びとし、その文字の並びの各文字の文字
種別を文字種別判断手段で判断して文字種別格納手段に
文字の並びの各文字に付加して格納する。
【0017】この文字種別格納手段の格納内容から、キ
ーワード抽出手段で隣り合う文字種別が異なっている文
字の並びをキーワードとして抽出しかつキーワードとそ
のキーワードの後に連続するひらがなの文字とを対応付
けて出力する。
【0018】これによって、被抽出文書を字句解析する
ことなしに、単純な文字分解と文字種別判断とで文書中
のキーワードを抽出することができるので、文書中のキ
ーワードを高速に抽出することが可能となる。
【0019】また、キーワードに加えて、そのキーワー
ドに連続するひらがなの文字を一緒に出力しているの
で、キーワードの抽出処理後にその使われ方まで考慮し
て扱うことが可能となる。よって、文書中のキーワード
を高速にかつその使われ方まで考慮して抽出することが
できる。
【0020】次に、本発明の一実施例について図面を参
照して説明する。図1は本発明の一実施例の構成を示す
ブロック図である。図において、本発明の一実施例によ
るキーワード抽出装置は文書格納手段1と、文字分解手
段2と、文字格納手段3と、文字種別判断手段4と、文
字種別格納手段5と、キーワード抽出手段6と、キーワ
ード格納手段7とから構成されている。
【0021】文書格納手段1はキーワード検索の対象と
なる日本語文書を格納する。文字分解手段2は文書格納
手段1に格納された日本語文書を読取り、その日本語文
書を1文字ずつに分解して文字の並びとする。文字格納
手段3は文字分解手段2で分解された文字の並びを格納
する。
【0022】文字種別判断手段4は文字格納手段3に格
納された文字の並びを読込み、文字の並びの各文字の文
字種別が漢字、カタカナ、英字、その他(句読点等)の
いずれであるかをその文字の文字コードから判断する。
文字種別格納手段5は文字格納手段3に格納された文字
の並びを読込み、文字の並びの各文字に文字種別判断手
段4で判断された文字種別が付加された情報を格納す
る。
【0023】キーワード抽出手段6は文字種別格納手段
5に格納された文字の並びの各文字とその文字の文字種
別とから、隣り合う文字種別が異なっている文字を検出
し、その文字に基づいて文字の並びを文字種別毎に区切
ってキーワードを抽出する。
【0024】また、キーワード抽出手段6は抽出したキ
ーワードに連続する文字の文字種別がひらがなか否かを
判断し、文字種別がひらがなの文字がキーワードに連続
する場合、キーワードにそのひらがなの文字を対応付け
て出力する。キーワード格納手段7はキーワード抽出手
段6から出力されるキーワード及びひらがなの文字、ま
たはキーワードのみを格納する。
【0025】図2は図1の文書格納手段1に格納される
日本語文書の一例を示す図であり、図3は図1の文字格
納手段3に格納される文字の並びを示す図であり、図4
は図1の文字種別格納手段5に格納される文字の並び及
び文字種別を示す図であり、図5及び図6は図1のキー
ワード抽出手段6のキーワード抽出処理を示すフローチ
ャートである。これら図1〜図6を用いて本発明の一実
施例の動作について説明する。
【0026】本発明の一実施例によるキーワード抽出装
置に「この特許は、CADツールについてのもので
す。」という日本語文書が入力されると、この日本語文
書は文書格納手段1に格納される(図2参照)。
【0027】文字分解手段2は文書格納手段1に格納さ
れた日本語文書を読取り、その日本語文書を1文字ずつ
に分解して文字の並びとする。すなわち、文字分解手段
2は「こ」、「の」、「特」、「許」、
「は」、「、」、「C」、「A」、「D」、「ツ」、
「ー」、「ル」、「に」、「つ」、「い」、「て」、
「の」、「も」、「の」、「で」、「す」、「。」とい
うように1文字ずつに分解する。文字分解手段2で分解
された文字の並びは文字格納手段3に格納される(図3
参照)。
【0028】文字種別判断手段4は文字格納手段3に格
納された文字の並びを読込み、文字の並びの各文字の文
字コードを基に、文字種別[漢字、カタカナ、英字、そ
の他(句読点等)]を判断する。
【0029】上記の文字の並びの場合、文字種別判断手
段4は「こ」及び「の」をひらがな(「ひ」と表す)
と、「特」及び「許」を漢字(「漢」と表す)と、
「は」をひらがなと、「、」をその他(「他」と表す)
と、「C」と「A」と「D」とを英字(「英」と表す)
と、「ツ」と「ー」と「ル」とをカタカナ(「カ」と表
す)と、「に」と「つ」と「い」と「て」と「の」と
「も」と「の」と「で」と「す」とをひらがな
と、「。」をその他と夫々判断する。
【0030】文字種別判断手段4で判断された文字種別
は文字格納手段3に格納された文字の並びとともに、互
いに対応付けられて文字種別格納手段5に格納される
(図4参照)。
【0031】キーワード抽出手段6は文字種別格納手段
5に格納された文字の並びの各文字とその文字の文字種
別とから、隣り合う文字種別が異なっている文字を検出
し、文字を基に文字の並びを文字種別毎に区切ってキー
ワードを抽出する。
【0032】上記の文字の並びの場合、キーワード抽出
手段6は「この」、「特許」、「は」、「、」、「CA
D」、「ツール」、「についてのものです」、「。」と
いうように区切る。
【0033】その後に、キーワード抽出手段6は抽出し
たキーワードに連続する文字の並びの文字種別がひらが
なか否かを判断し、文字種別がひらがなの文字の並びが
キーワードに連続する場合、キーワードにひらがなの文
字を対応付けて出力する。
【0034】この場合、キーワード抽出手段6は「特
許」と「は」とを対応付け、「ツール」と「に」とを対
応付けて出力すると共に、「CAD」をそのまま出力す
る。キーワード格納手段7はキーワード抽出手段6から
出力されるキーワード及びひらがなの文字、またはキー
ワードのみを格納する。
【0035】ここで、キーワード抽出手段6はキーワー
ド抽出処理を開始すると、まずword(語)及びpr
e(前回の処理の文字種別)に空(“ ”)を夫々設定
する(word←“ ”,pre←“ ”)(図5ステ
ップS1)。
【0036】キーワード抽出手段6はその設定後に、文
字種別格納手段5から1文字読込み(図5ステップS
2)、文字種別格納手段5に文字があるか否かを判断す
る(図5ステップS3)。
【0037】キーワード抽出手段6は文字種別格納手段
5に文字があれば、文字をchar(今回の処理の文
字)とし、文字種別をnow(今回の処理の文字種別)
としてから(図5ステップS4)、wordが空
(“ ”)かどうかを判断する(word=“ ”)
(図5ステップS5)。
【0038】キーワード抽出手段6はwordが空であ
ると判断すると、wordに今回の文字を設定し(wo
rd←“char)(図5ステップS9)、前回の文字
種別に今回の文字種別を設定して(pre←now)
(図5ステップS8)、ステップS2に戻る。
【0039】一方、キーワード抽出手段6はwordが
空でないと判断すると、今回の文字種別と前回の文字種
別とが一致するかどうかを判断し(now=pre)
(図5ステップS6)、それらが一致すれば、word
の末尾に今回の文字(char)を追加してから(図5
ステップS9)、前回の文字種別に今回の文字種別を設
定して(pre←now)(図5ステップS8)、ステ
ップS2に戻る。
【0040】また、キーワード抽出手段6はそれらが一
致しなければ、前回の処理のwordを語として追加出
力すると共に、wordに今回の文字を設定し(wor
d←char)(図5ステップS7)、前回の文字種別
に今回の文字種別を設定して(pre←now)(図5
ステップS8)、ステップS2に戻る。
【0041】これに対し、キーワード抽出手段6は文字
種別格納手段5に文字がなければ、上記のように処理し
たwordがあるか否かを判定する(図6ステップS1
1)。この判定でwordがあれば、そのwordを追
加出力してから(図6ステップS12)、またword
がなければそのまま、key(キーワードの数)に0を
設定し(図6ステップS13)、上記のステップS7で
出力された語の中から一語を読込む(図6ステップS1
4)。
【0042】キーワード抽出手段6はステップS7,S
12で出力された語に対する処理が全て終了したかを判
断し(図6ステップS15)、処理していない語が有れ
ば、語をwordとする(図6ステップS16)。
【0043】キーワード抽出手段6はwordが漢字、
カタカナ、英字のうちのいずれかであると判断すると
(図6ステップS17)、そのwordをkeywor
d(キーワード)とし、keyに1を設定する(key
word←word、key←1)(図6ステップS1
8)。
【0044】キーワード抽出手段6はこの設定が終わる
と、あるいはwordが漢字、カタカナ、英字のうちの
いずれでもないと判断すると(図6ステップS17)、
wordがひらがなでかつkeyが1か否かを判断する
(図6ステップS19)。キーワード抽出手段6はwo
rdがひらがなでない場合、またはkeyが1でない場
合にステップS14に戻ってステップS7,S12で出
力された語の中から次の一語を読込む。
【0045】また、キーワード抽出手段6はwordが
ひらがなでかつkeyが1の場合、wordが助詞また
は助動詞かを図示せぬ辞書を基に判定する(図6ステッ
プS20)。ここで、辞書には助詞や助動詞等が予め格
納されており、キーワード抽出手段6はこの辞書の内容
を基に助詞や助動詞等を判別する。
【0046】キーワード抽出手段6はwordが助詞ま
たは助動詞であると判定すると、keywordと助詞
/助動詞の用法をキーワード格納手段7に出力すると共
に、keyに0を設定する(key←0)(図6ステッ
プS21)。
【0047】キーワード抽出手段6はwordが助詞ま
たは助動詞でないと判定すると、wordの長さ(文字
数)から1を減算し(図6ステップS22)、その減算
結果が1以上(i≧1)かどうかを判定する(図6ステ
ップS23)。
【0048】キーワード抽出手段6は減算結果が1以上
であると判定すると、その減算結果を長さとするwor
d(先頭からi番目のword)が助詞かどうかを判断
する(図6ステップS24)。
【0049】キーワード抽出手段6はそのwordが助
詞であると判断すると、keywordと助詞の用法を
キーワード格納手段7に出力すると共に、keyに0を
設定する(key←0)(図6ステップS25)。
【0050】キーワード抽出手段6はそのwordが助
詞でないと判断すると、その減算結果からさらに1を減
算し(図6ステップS26)、ステップS23に戻って
その減算結果が1以上(i≧1)かどうかを判定する。
【0051】キーワード抽出手段6は減算結果が1未満
であると判定すると、keywordのみをキーワード
格納手段7に出力すると共に、keyに0を設定する
(key←0)(図6ステップS27)。
【0052】上記の処理を繰返し行って、ステップS
7,S12で出力された語に対する処理が全て終了した
と判断すると(図6ステップS15)、キーワード抽出
手段6はkeyが1かどうかを判定する(key=1)
(図6ステップS28)。
【0053】キーワード抽出手段6はkeyが1であれ
ば、keywordのみをキーワード格納手段7に出力
して(図6ステップS29)、処理を終了する。また、
キーワード抽出手段6はkeyが1でなければ、そのま
ま処理を終了する。
【0054】キーワード格納手段7に格納されたキーワ
ード及びそれに連続するひらがなの文字を用いることに
よって、該当するキーワードが日本語文章中でどのよう
な使われ方をしているかを考慮した処理が可能となる。
例えば、上述した例では、「特許」というキーワードに
は「は」というひらがなの文字が連続しているので、そ
のキーワードが日本語文章中で主語として使われている
ことがわかる。
【0055】このように、文書格納手段1に格納された
キーワード検索の対象となる日本語文書を文字分解手段
2で1文字ずつ分解して文字の並びとし、その文字の並
びの各文字の文字種別を文字種別判断手段4で判断して
文字種別格納手段5に文字の並びの各文字に付加して格
納しておき、キーワード抽出手段6で文字種別格納手段
5の格納内容から隣り合う文字種別が異なっている文字
の並びをキーワードとして抽出しかつキーワードとその
キーワードの後に連続するひらがなの文字とを対応付け
て出力することによって、被抽出文書を字句解析するこ
となしに、単純な文字分解と文字種別判断とで文書中の
キーワードを抽出することができるので、文書中のキー
ワードを高速に抽出することができる。
【0056】また、キーワードに加えて、そのキーワー
ドに連続するひらがなの文字を一緒に出力しているの
で、キーワードの抽出処理後にその使われ方まで考慮し
て扱うことができる。よって、文書中のキーワードを高
速にかつその使われ方まで考慮して抽出することができ
る。
【0057】
【発明の効果】以上説明したように本発明によれば、キ
ーワード検索の対象となる日本語文書を1文字ずつ分解
して文字の並びとし、その文字の並びの各文字の文字種
別を判断して文字の並びの各文字に付加して格納してお
き、この格納内容から隣り合う文字種別が異なっている
文字の並びをキーワードとして抽出しかつキーワードと
そのキーワードの後に連続するひらがなの文字とを対応
付けて出力することによって、文書中のキーワードを高
速にかつその使われ方まで考慮して抽出することができ
るという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】図1の文書格納手段に格納される日本語文書の
一例を示す図である。
【図3】図1の文字格納手段に格納される文字の並びを
示す図である。
【図4】図1の文字種別格納手段に格納される文字の並
び及び文字種別を示す図である。
【図5】図1のキーワード抽出手段のキーワード抽出処
理を示すフローチャートである。
【図6】図1のキーワード抽出手段のキーワード抽出処
理を示すフローチャートである。
【符号の説明】
1 文書格納手段 2 文字分解手段 3 文字格納手段 4 文字種別判断手段 5 文字種別格納手段 6 キーワード抽出手段 7 キーワード格納手段

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 キーワード検索の対象となる日本語文書
    を1文字ずつ分解して文字の並びとする文字分解手段
    と、 前記文字の並びの各文字の文字種別を判断する文字種別
    判断手段と、 前記文字の並びの各文字に前記文字種別判断手段の判断
    結果を付加して格納する文字種別格納手段と、 前記文字種別格納手段の格納内容から隣り合う文字種別
    が異なっている文字の並びをキーワードとして抽出しか
    つ前記キーワードとそのキーワードの後に連続するひら
    がなの文字とを対応付けて出力するキーワード抽出手段
    とを有することを特徴とするキーワード抽出装置。
  2. 【請求項2】 前記キーワード抽出手段は、前記文字種
    別格納手段に格納された前記文字の並びにおいて隣り合
    う文字種別が異なっている文字を検出する検出手段と、
    前記検出手段で検出された文字を基に前記文字の並びを
    前記文字種別毎に区切る手段と、前記区切られた文字の
    並びをキーワードとして抽出する抽出手段と、前記抽出
    手段で抽出された前記キーワードに連続する前記文字の
    並びの文字種別がひらがなか否かを判断する判断手段
    と、前記判断手段で前記文字種別がひらがなと判断され
    たときに前記キーワードと前記ひらがなの文字の並びと
    を対応付けて出力する手段と、前記判断手段で前記文字
    種別がひらがなでないと判断されたときに前記キーワー
    ドのみを出力する手段とを含むことを特徴とする請求項
    1記載のキーワード抽出装置。
  3. 【請求項3】 キーワード検索の対象となる日本語文書
    を格納する文書格納手段と、 前記文書格納手段に格納された日本語文書を読取って当
    該日本語文書を1文字ずつ分解して文字の並びとする文
    字分解手段と、 前記文字分解手段で分解された文字の並びを格納する文
    字格納手段と、 前記文字格納手段に格納された文字の並びを読込んでそ
    の文字種別を判断する文字種別判断手段と、 前記文字格納手段に格納された文字の並びに前記文字種
    別判断手段で判断された文字種別を付加して格納する文
    字種別格納手段と、 前記文字種別格納手段に格納された情報から前記文字の
    並びが同一文字種別のキーワードを抽出しかつ該キーワ
    ードの後に連続して現れるひらがなの文字とともに出力
    するキーワード抽出手段と、 前記キーワード格納手段から出力されるキーワード及び
    それに対応するひらがなの文字を格納するキーワード格
    納手段とを有することを特徴とするキーワード抽出装
    置。
  4. 【請求項4】 前記キーワード抽出手段は、前記文字種
    別格納手段に格納された前記文字の並びにおいて同一文
    字種別毎に区切る手段と、前記区切られた文字の並びを
    キーワードとして抽出する抽出手段と、前記抽出手段で
    抽出された前記キーワードに連続する前記文字の並びの
    文字種別がひらがなか否かを判断する判断手段と、前記
    判断手段で前記文字種別がひらがなと判断されたときに
    前記キーワードと前記ひらがなの文字の並びとを対応付
    けて出力する手段と、前記判断手段で前記文字種別がひ
    らがなでないと判断されたときに前記キーワードのみを
    出力する手段とを含むことを特徴とする請求項3記載の
    キーワード抽出装置。
JP8165407A 1996-06-26 1996-06-26 キーワード抽出装置 Pending JPH1011460A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8165407A JPH1011460A (ja) 1996-06-26 1996-06-26 キーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8165407A JPH1011460A (ja) 1996-06-26 1996-06-26 キーワード抽出装置

Publications (1)

Publication Number Publication Date
JPH1011460A true JPH1011460A (ja) 1998-01-16

Family

ID=15811831

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8165407A Pending JPH1011460A (ja) 1996-06-26 1996-06-26 キーワード抽出装置

Country Status (1)

Country Link
JP (1) JPH1011460A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282572A (ja) * 1993-03-29 1994-10-07 Nec Corp キーワード自動抽出装置
JPH07230468A (ja) * 1994-02-18 1995-08-29 Fujitsu Ltd キーワード自動抽出装置およびキーワード自動抽出方法
JPH0830627A (ja) * 1994-05-12 1996-02-02 Mitsubishi Electric Corp キーワード抽出方式

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282572A (ja) * 1993-03-29 1994-10-07 Nec Corp キーワード自動抽出装置
JPH07230468A (ja) * 1994-02-18 1995-08-29 Fujitsu Ltd キーワード自動抽出装置およびキーワード自動抽出方法
JPH0830627A (ja) * 1994-05-12 1996-02-02 Mitsubishi Electric Corp キーワード抽出方式

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH05242138A (ja) 単語ディスアンビギュエーション装置及び方法
JPH06301722A (ja) 形態素解析装置及びキーワード抽出装置
JPH06259424A (ja) 文書表示装置及び文書要約装置並びにディジタル複写装置
JPH1011460A (ja) キーワード抽出装置
JPH03105465A (ja) 複合語抽出装置
JP2006119697A (ja) 質問応答システム、質疑応答方法および質疑応答プログラム
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2002189734A (ja) 検索語抽出装置および検索語抽出方法
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
Manne et al. A Feature Terms based Method for Improving Text Summarization with Supervised POS Tagging
Hardie Automated part-of-speech analysis of Urdu: conceptual and technical issues
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2995717B2 (ja) 形態素解析方法およびその装置
JP3244286B2 (ja) 翻訳処理装置
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH09223143A (ja) 文書情報処理装置
JP2006338682A (ja) 文書校正装置およびプログラム記憶媒体
JPH10269221A (ja) 未登録語処理方式
JPH10240736A (ja) 形態素解析装置
JPH04188364A (ja) 日本文固有用語抽出装置
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JP2001022752A (ja) 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体
JPH0756926A (ja) 中日機械翻訳における離合詞処理方式