JP3398729B2 - キーワード自動抽出装置およびキーワード自動抽出方法 - Google Patents
キーワード自動抽出装置およびキーワード自動抽出方法Info
- Publication number
- JP3398729B2 JP3398729B2 JP02097194A JP2097194A JP3398729B2 JP 3398729 B2 JP3398729 B2 JP 3398729B2 JP 02097194 A JP02097194 A JP 02097194A JP 2097194 A JP2097194 A JP 2097194A JP 3398729 B2 JP3398729 B2 JP 3398729B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- morphological analysis
- keyword
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
キーワードを求めるに際し、その中の所定の文字種部
分、例えば漢字文字列のみの形態素解析を実行するよう
にしたキーワード自動抽出装置およびキーワード自動抽
出方法に関する。
システムなどではあらかじめ作成された辞書を参照する
ことにより文書(入力文)を形態素に分割し、これらの
形態素や形態素同士の連語の中で名詞にあたるものなど
をキーワードとして自動抽出することが実行されてお
り、本発明は、このようなキーワードの品質を高めたい
という要請に応えるものである。
書に登録されている1単語のことであって必ずしも「文
章を構成している有意の最少単位」ではなく例えば慣用
表現、接頭語、接尾語、活用語尾、複合動詞や連語など
も含み、また「文字」は数字や記号などを含むものであ
る。
構成する文字列の全体に形態素解析を実行し、この形態
素解析により得られる形態素やそれらの連語の中からキ
ーワードを抽出している。
り、この解析では、 ・辞書引き ・隣接チェック ・最尤評価 といった一連の処理が実行される。
意した辞書を参照して処理対象の文字列の先頭の表記を
持つ形態素、さらには後ろに続く一字を順次追加した表
記を持つ形態素をすべて求めていく処理である。
東京で花瓶を買った。」という入力分の「私」と「は」
の二つの形態素が解析された状態では、先ず次の処理対
象文字列である「東京で花瓶を買った。」の先頭の
「東」の表記を持つ文字部分を、続いてその後ろの一字
を追加した「東京」の表記を持つ文字部分をそれぞれ辞
書から引き、さらにはその後ろの一字を追加した「東京
で」の表記を持つ文字部分を辞書から引こうとする。
記を持つ文字部分が辞書から引けない、すなわち辞書に
登録されていないことにより終了して「東」と「東京」
の二つの文字部分が形態素候補としてリストアップされ
る〔図10(b) 参照〕。なお、辞書には、このリストア
ップからも分かるように各形態素の文法属性、左右それ
ぞれの隣接情報や頻度なども登録されている。
候補のいずれか一つを選択することになるが、このとき
の選択手法として前記の「隣接チェック」や「最尤評
価」が用いられる。
その直前の解析済形態素「は」との隣接が認められるか
どうかを両者の隣接情報(解析済形態素「は」の右隣接
情報と形態素候補の左隣接情報)に基づいて判断する処
理である。
助詞」と、「東」の左隣接情報である「名詞」および
「東京」の左隣接情報である「名詞」のそれぞれとの隣
接可否が隣接マトリックス〔図10(c) 参照〕を参照す
ることにより判断される。
行と左隣接情報の列とで選択されるマトリックス要素の
値によって両者の隣接が認められるかどうかを示すもの
で、図示の場合、隣接する可能性があれば「1」の値
が、隣接する可能性がなければ「0」の値がそれぞれ設
定されている。
「東京」はともにその直前の解析済形態素である「は」
と隣接可能であり、両者のいずれを選択するかの決定に
は次の最尤評価が必要となる。
の語長と頻度に基づいて評価値を計算し、最も高い評価
値を持つものが「は」に続く形態素として選ばれる。な
お、評価値は語長が長い程、また頻度が大きい程高くな
るもので、この場合には「東京」の評価値の方が「東」
のそれよりも高い。
として選択し、その後は次の文字列である「で花瓶を買
った。」の形態素解析を順次実行して最終的には図10
(e)に示すような形態素リストを求め、この中の所定の
文法属性(例えば名詞)を持つ形態素やこれらの連語を
入力文のキーワードとして抽出している。
ーワード抽出の手法では入力文の文字列全体に形態素解
析を実行する、すなわちその文字列を辞書に登録されて
いる形態素で区切っていくため、カタカナ文字列や数字
文字列の一部や、漢字文字列中の接頭語および接尾語な
どが不適切なキーワードとして抽出されてしまうという
問題点があった。
ードを抽出すること ・「金融再緩和」の漢字文字列から「再」のキーワード
を抽出すること ・「一九九四」の数字文字列から「九九(掛け算のく
く)」のキーワードを抽出すること などが挙げられる。
ず連続した同一の文字種からなる文字列要素(漢字文字
列、カタカナ文字列および数字列など)に分割し、さら
には形態素解析しない文字列要素についてはその文法情
報をともなった代替文字に置き換えた上で、その中の少
なくとも漢字文字列を形態素解析して形態素に再分割
し、その他の例えばカタカナ文字列や数字列については
形態素解析を実行せずに、その後、これらの文字列要素
や形態素の中から連語を含むかたちのキーワードを所定
のルールで選択することにより、キーワードの品質およ
び情報検索システムの検索精度を高めることを目的とす
る。
図である。図1において、 1は、CPUやメモリなどからなるプロセッサ 2は、キーワード抽出に関する全体の制御を行う主制御
部 3は、入力された文字列を連続した同一の文字種からな
る文字列要素に分割し、さらには形態素解析しない文字
列要素、例えば数字文字列、カタカナ文字列、英字文字
列などについてはその文法情報をともなった記号に置き
換える文字種区分け部 4は、この文字列要素の中の少なくとも漢字文字列を含
む特定の文字種を形態素に再分割する形態素解析部 5は、所定のルールに従って文字列要素および単語やこ
れらの連語の中から入力文のキーワードを選択するキー
ワード抽出部 6は、キーワード抽出対象の文字列(テキスト) 7は、文字種区分け部3の処理結果である文字列要素リ
スト 8は、形態素解析部4の処理結果である形態素解析リス
ト 9は、キーワード抽出部5の処理結果であるキーワード
リスト をそれぞれ示している。
ひらがな文字列のみを形態素解析の対象とする場合につ
いて記したものであり、このときのキーワード抽出の処
理手順は次のようになる(図2参照)。
方針として・・・人件費削減によりcostdownを
図る。)を、各文字のコードに基づいて ・カタカナ ・数字 ・英字/記号 ・漢字 ・ひらがな の文字種ごとの連続した文字列要素に分けて文字列要素
リスト7を作成し、これをワーク領域に格納する。 カタカナ文字列および英字/記号文字列を一般名詞の
代替文字「*」で、数字文字列を数詞の代替文字「*」
でそれぞれ置き換え、また漢字文字列およびひらがな文
字列はそのまま残す。なお、この代替文字に置き換えた
文字列要素についてはそれぞれの原文内での位置と文字
列要素長とを置き換えテーブルに格納する。 カタカナ文字列、英字/記号文字列および数字文字列
を代替文字で置換した後の新テキストを形態素解析して
形態素解析リスト8を作成し、これをワーク領域に格納
する。なお、形態素解析リスト8の全体は図3で示され
る。 この形態素解析リスト8から名詞(一般名詞、固有名
詞、サ変名詞など)を文法情報とする表記を抽出してキ
ーワードリスト9を作成し、これをワーク領域に格納す
る。なお、サ変名詞とは例えば「開発する」の「開発」
などである。 この形態素解析リスト8の表記の中で ・名詞+名詞 ・名詞接頭語+名詞 ・名詞+名詞接尾語 ・数詞+数詞接尾語 ・数詞+名詞 などの所定のルールにしたがう連語を抽出してキーワー
ドリスト9を作成し、これをワーク領域に格納する。な
お、このルールの「数詞+名詞」に相当する連語は例え
ば「100」+「デ−タ」の「100デ−タ」である。
テキストを先ず文字種ごとの文字列要素に分割し、さら
には形態素解析しない文字列要素についてはその文法情
報をともなった代替文字に置き換えた上で、漢字文字列
を含む特定の文字列要素の形態素解析を実行し、このと
きの文字列要素、形態素およびこれらの連語の中から所
定のルールにしたがってキーワードを選択することによ
り、キーワードの品質および情報検索システムの検索精
度を高めるようにしたものである。
列などを、辞書に登録されている形態素に分割していく
だけのことを必要条件とするものであり、この分割に際
して従来の形態素解析のように隣接チェックや最尤評価
の手法を利用するかどうかは任意である。なお、(辞書
に登録されている)各形態素の隣接情報や頻度なども形
態素解析リスト8に記すようにしてもよい。
についても形態素解析するかどうか、さらには漢字以外
のどの文字種について形態素解析しないかどうかは任意
であり、図1のように漢字文字列とひらがな文字列とを
形態素解析する場合にはもともと漢字で記述される名詞
などをひらがなで記したテキストからも本来のキーワー
ドを選択することができる。
「する」の語尾があるときには、文字種区分け部3でこ
れらを代替文字「*」に置き換えるときの文法情報とし
ては「サ変名詞」が選ばれる。
文字列、英字文字列や数字文字列を文法情報をともなっ
た代替文字「*」で置き換えることなしに、単にその部
分に各文字列を示すコードを設定しておき、形態素解析
部4が、カタカナ文字列および英字文字列のコードつい
ては名詞と判断し、数字文字列のコードについては数詞
と判断するようにしてもよい。
る文字列要素、例えば「業務方針」自体の抽出手法とし
ては、 ・文字列要素である「業務方針」をワーク領域からその
まま選択する ・形態素である「業務」および「方針」の連語として選
択する のいずれを用いてもよい。そして、前者の場合には文字
種区分け部3で漢字文字列にその文法情報として「名
詞」を付与しておけばよい。
あって、例えば「平成」、「六」、「年度」の形態素が
ある場合、先ず「六」の数詞と「年度」の数詞接尾語と
からなる「六年度」の連語(名詞)が作成され、続いて
「平成」の名詞とこれとの連語である「平成六年度」が
作成されることになる。前記の「組織再編成」のキーワ
ードも同じような処理で抽出される。
する。図4は、文書ファイル11に格納されている一つの
文書12からテキスト13を抽出する様子を示す説明図であ
り、この抽出処理では文書12の文頭、文中の空白を詰
め、また改行コードの前後での文のつながりを意識して
いる。
上でのテキスト13の不要な空白部がなくなるため、テキ
スト13に対する文字種区分けや形態素解析などのキーワ
ード抽出処理を効率的に行うことができる。
スト14を編集する様子を示す説明図であり、この編集処
理では編集ルールファイル15を参照することにより、テ
キスト13を数字文字列、漢字文字列、英字/記号文字
列、ひらがな文字列およびカタカナ文字列の各文字列要
素に分割している。
度/の/開発計画」に ・「FAIRSーSVは以下の機能を有している」の1
文は「FAIRSーSV/は/以下/の/機能/を/有
/している」に それぞれ分割され、この中の「一九九四」や「FAIR
SーSV」の各文字列要素は以後の処理では形態素解析
されることのない一つの数字、英字/記号として取り扱
われる。
素解析リスト16を作成する様子を示す説明図であり、こ
の作成処理では形態素解析用辞書ファイル17を参照する
ことにより、形態素解析リスト16の漢字やひらがなの部
分を形態素に分割している。図示の形態素解析リストは
「一九九四/年度/の/開発計画」の1文に対するもの
である。
ドリスト18を作成する様子を示す説明図であり、この作
成処理ではキーワード化ルールファイル19を参照するこ
とにより、文法情報が名詞(一般名詞、サ変名詞、固有
名詞など)である「開発」および「計画」と、前記の連
語作成ルールに該当する「一九九四年度」および「開発
計画」とを抽出している。図示のキーワードリストは
「一九九四/年度/の/開発計画」の1文に対するもの
である。
てそのキーワードを抽出する手順を示す説明図であり、
当該手順は次のようになっている。 (1) 文書ファイル11からキーワード抽出処理対象の文書
12をすべて読み込んで、次のステップに進む。 (2) 最初の文書のテキスト13を抽出して、次のステップ
に進む(図4参照)。 (3) テキスト13を形態素解析用テキスト14に編集して、
次のステップに進む(図5参照)。 (4) この形態素解析用テキスト14の最初の1文を取り出
して、次のステップに進む。 (5) この1文を形態素に分割した形態素解析リスト16を
作成して、次のステップに進む(図6参照)。 (6) この形態素解析リスト16から、文法情報が名詞とな
っているものを抽出して、次のステップに進む。 (7) この形態素解析リスト16から、前記連語抽出ルール
(名詞+名詞、数詞+数詞接尾語など)を満足する連語
の部分を抽出して、次のステップに進む。 (8) ステップ(6) および(7) で求めた形態素や連語をフ
ァイルに格納し、次のステップに進む。 (9) 例えば文終了コードの有無により、形態素解析用テ
キスト14のすべての文についてのキーワード抽出処理が
終了したかどうかを判断し、「YES 」の場合はステップ
(11)に進み、「NO」の場合は次のステップに進む。 (10)形態素解析用テキスト14の次の1文を取り出して、
ステップ(5) に戻る。 (11)例えばキーワード抽出処理を実行した文書数をカウ
ントすることにより、ステップ(1) で読み込んだすべて
の文書12についてのキーワード抽出処理が終了したかど
うかを判断し、「YES 」の場合はステップ(13)に進み、
「NO」の場合は次のステップに進む。 (12)次の文書のテキスト13を抽出して、ステップ(3) に
戻る。 (13)ファイルに格納されているキーワードを出力する
(図7参照)。
形態素解析により不適切なキーワードが抽出される程度
の高い文字列要素(数字文字列、カタカナ文字列や英字
文字列など)については、その文法情報をともなった代
替文字に置き換えて形態素解析しないでそのままとし、
かつこのときの文字列要素や、形態素解析される漢字文
字列などの形態素から特定のもの(名詞や特定のルール
に合致した連語)をキーワードとして抽出するようにし
ているため、キーワードの品質および情報検索システム
の検索精度を高めることができる。
示す説明図である。
す説明図である。
示す説明図である。
を編集する様子を示す説明図である。
析リストを作成する様子を示す説明図である。
リストを作成する様子を示す説明図である。
そのキーワードを抽出する手順を示す説明図(その1)
である。
そのキーワードを抽出する手順を示す説明図(その2)
である。
Claims (2)
- 【請求項1】 文字列の中の特定の文字種についてだけ
の形態素解析を実行することにより当該文字列のキーワ
ードを求めるようにしたキーワード自動抽出装置であっ
て、 前記文字列を、連続した同一の文字種からなる文字列要
素に分割し、数字文字列やカタカナ文字列などのように
前記形態素解析が行われない文字列要素については、こ
れに対応する文法情報を持った代替文字で置き換え、前
記分割した文字列要素と前記代替文字とを含む形態素解
析用テキストを作成する文字種区分け部と、 前記形態素解析を前記形態素解析用テキストに対して実
行して前記文字列要素の中の少なくとも漢字文字列を形
態素に分割する形態素解析部と、 前記文字列要素および前記形態素それぞれの文法情報に
もとづいて、これらの中の名詞などの所定のものと、も
ともと名詞同士などの所定の文法関係により隣接してい
たこれらの連語とを、前記キーワードとして選択するキ
ーワード抽出部とを備えた、 ことを特徴とするキーワード自動抽出装置。 - 【請求項2】 文字列の中の特定の文字種についてだけ
の形態素解析を実行することにより当該文字列のキーワ
ードを求めるようにしたキーワード自動抽出方法であっ
て、 先ず、前記文字列を、連続した同一の文字種からなる文
字列要素に分割し、数字文字列やカタカナ文字列などの
ように前記形態素解析が行われない文字列要素について
は、これに対応する文法情報を持った代替文字で置き換
え、前記分割した文字列要素と前記代替文字とを含む形
態素解析用テキストを作成し、 次に、前記形態素解析を前記形態素解析用テキストに対
して実行して前記文字列要素の中の少なくとも漢字文字
列を形態素に分割し、 次に、前記文字列要素および前記形態素それぞれの文法
情報にもとづいて、これらの中の名詞などの所定のもの
と、もともと名詞同士などの所定の文法関係により隣接
していたこれらの連語とを、前記キーワードとして選択
するようにした、 ことを特徴とするキーワード自動抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02097194A JP3398729B2 (ja) | 1994-02-18 | 1994-02-18 | キーワード自動抽出装置およびキーワード自動抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02097194A JP3398729B2 (ja) | 1994-02-18 | 1994-02-18 | キーワード自動抽出装置およびキーワード自動抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07230468A JPH07230468A (ja) | 1995-08-29 |
JP3398729B2 true JP3398729B2 (ja) | 2003-04-21 |
Family
ID=12042058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP02097194A Expired - Fee Related JP3398729B2 (ja) | 1994-02-18 | 1994-02-18 | キーワード自動抽出装置およびキーワード自動抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3398729B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3674119B2 (ja) * | 1995-11-29 | 2005-07-20 | 株式会社日立製作所 | 類似文書検索方法 |
JPH1011460A (ja) * | 1996-06-26 | 1998-01-16 | Nec Corp | キーワード抽出装置 |
JPH1153384A (ja) * | 1997-08-05 | 1999-02-26 | Mitsubishi Electric Corp | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 |
JPH11272701A (ja) * | 1998-03-23 | 1999-10-08 | Oki Electric Ind Co Ltd | 情報抽出装置 |
JP5165616B2 (ja) * | 2009-02-18 | 2013-03-21 | ヤフー株式会社 | ジャンル判定辞書作成装置、ジャンル判定装置及び方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2536633B2 (ja) * | 1989-09-19 | 1996-09-18 | 日本電気株式会社 | 複合語抽出装置 |
JPH0535794A (ja) * | 1991-07-25 | 1993-02-12 | Toshiba Corp | 知識データベース用検索キーワード作成方法 |
-
1994
- 1994-02-18 JP JP02097194A patent/JP3398729B2/ja not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
伊藤哲、他4名,利用目的に応じて最適化可能なキーワード抽出手法,電子情報通信学会技術研究報告 NLC93−48〜53,1993年12月 9日,第93巻,第366号,p.41−46 |
Also Published As
Publication number | Publication date |
---|---|
JPH07230468A (ja) | 1995-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7197449B2 (en) | Method for extracting name entities and jargon terms using a suffix tree data structure | |
JP3254642B2 (ja) | 索引の表示方法 | |
EP0394633A2 (en) | Method for language-independent text tokenization using a character categorization | |
US20060277173A1 (en) | Extraction of information from documents | |
US20070179932A1 (en) | Method for finding data, research engine and microprocessor therefor | |
JPH0823864B2 (ja) | 見出し判定方法 | |
JPH06325076A (ja) | 入力テキストをワードで区切る方法 | |
Arslan | DeASCIIfication approach to handle diacritics in Turkish information retrieval | |
JP3398729B2 (ja) | キーワード自動抽出装置およびキーワード自動抽出方法 | |
JP3937741B2 (ja) | 文書の標準化 | |
JPS59165179A (ja) | 辞書引方式 | |
JP3483585B2 (ja) | 文書検索装置及び文書検索方法 | |
JPS61248160A (ja) | 文書情報登録方式 | |
EP1076305A1 (en) | A phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element | |
Debnath et al. | A Hybrid Approach to Design Automatic Spelling Corrector and Converter for Transliterated Bangla Words | |
JP3744136B2 (ja) | 訳語選択装置と記憶媒体 | |
JP3508312B2 (ja) | キーワード抽出装置 | |
JP2002351870A (ja) | 形態素の解析方法 | |
JP2575947B2 (ja) | 文節切出し装置 | |
JP2024033667A (ja) | 明細書入力支援方法、およびプログラム | |
JPH0612453A (ja) | 未知語抽出登録装置 | |
JPH0232467A (ja) | 機械翻訳方式 | |
JPS6366663A (ja) | 文書構造管理方式 | |
JPH0944496A (ja) | 自然語解析方法及び装置 | |
JPH0785040A (ja) | 表記不統一検出方法およびかな漢字変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20021217 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090221 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090221 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100221 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110221 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |