JPH09330331A - 成句検出方法 - Google Patents

成句検出方法

Info

Publication number
JPH09330331A
JPH09330331A JP8147715A JP14771596A JPH09330331A JP H09330331 A JPH09330331 A JP H09330331A JP 8147715 A JP8147715 A JP 8147715A JP 14771596 A JP14771596 A JP 14771596A JP H09330331 A JPH09330331 A JP H09330331A
Authority
JP
Japan
Prior art keywords
phrase
list
noun
partial
noun word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8147715A
Other languages
English (en)
Inventor
Takashi Kanbayashi
隆 神林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP8147715A priority Critical patent/JPH09330331A/ja
Publication of JPH09330331A publication Critical patent/JPH09330331A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 名詞語の出現順序を調査して成句検出を行う
ことにより、辞書に未登録の語もキーワード候補となる
ことを可能にする。 【解決手段】 形態素解析部31は、日本語テキスト4
1を形態素解析し、品詞情報を持った形態素の順序配列
42を得る。成句候補作成部32は、形態素順序配列4
2を順に走査して、名詞語が2語以上連続している時
に、それを名詞語リストとして、その出現回数を付加し
て成句候補リスト44に登録する。成句検出部(1)3
3は、成句候補リスト44を走査して、出現回数が2回
以上の名詞語リストを成句として検出する。また、出現
回数が1回の名詞語リストは細分割リスト45に登録す
る。成句検出部(2)34は、細分割リスト45の各名
詞語リストについて部分名詞語リストを作成し、2回以
上出現した部分名詞語リストを成句として検出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は成句検出方法に係
り、詳しくは日本語テキストからのキーワード抽出に好
適な成句検出方法に関するものである。
【0002】
【従来の技術】近年、WWW(World Wide Wed)の
発展に伴い、インターネット上に公開されている情報を
集めてきて、それに対する検索インデックスを作成して
提供する、検索エンジンが日本でも数多く発表されてい
る。利用者が検索エンジンに対してあるキーワードを入
力すると、検索エンジンは検索インデックスを走査し
て、そのキーワードを含む情報を利用者に提示する。集
めてきたテキスト情報からのキーワードが抽出がうまく
いけば、よりよい検索インデックスが出来上がり、検索
エンジンの質が高くなる。
【0003】テキスト情報からキーワードを抽出するに
は、まず、テキストを語に分割し、次に、各語の頻度を
計算し、頻度に重み付けをして、最後に、重み付けの高
い語をキーワードとして選択する、というのが一般的で
ある。
【0004】英語の場合、各語はスペース(空白)によ
って区切られているので、スペースを基に分割してやる
だけで十分であるが、日本語の場合、基本的に文章内に
語を分けるスペースは存在しないので、形態素解析を行
なう必要がある。形態素解析を行うことにより、日本語
テキストは形態素、つまり、語に分割することができ
る。
【0005】大部分の形態素解析は辞書に基づいて行な
われており、辞書に登録されている語は正しく分割され
るが、登録されていない語は、未定議語として一字ごと
に分割されてしまうか、登録されている複数の語に分割
される。つまり、特定の専門分野の用語などは、キーワ
ードとなる可能性が非常に高いのにもかかわらず、辞書
に登録されていないために、バラバラの語に分割されて
しまい、キーワードとして抽出され得ないという問題が
ある。
【0006】
【発明が解決しようとする課題】本発明の目的は、形態
素解析の結果、辞書に未登録のため、細かく分割されて
しまった複数の語を、キーワード抽出時のキーワード候
補となるように、一つの語(成句)として検出すること
にある。
【0007】
【課題を解決するための手段】本発明では、名詞以外の
語は成句となり得ないと仮定し、日本語テキストについ
て形態素解析した各語の出現順序のうち、名詞語のみの
出現順序に着目する。出現順序が連続している名詞語の
並びを検索し、それが同一テキスト内で2回以上出現し
ている場合は、その名詞語の並びを成句(一つの語)と
見なすことにする。
【0008】また、1回しか出現していない名詞語の並
びに関しては、できるだけ長い成句が検出されるよう
に、構成される名詞語の数が多い順に名詞語の並びを部
分的に切り出して、部分名詞語列を求める。これらの名
詞語列について出現回数を調べ、2回以上出現する部分
名詞語列については成句と見なすことにする。
【0009】日本語の場合、複数の名詞語の出現順序が
連続しているということは、それらの名詞語がテキスト
内ではくっついていたことを示しており、辞書には登録
されていないものの、一つの語であった可能性がある。
さらに、それらが同一テキスト内で2回以上出現してい
るということは、それらがテキスト内で意識的に用いら
れたことを示している。したがって、このような名詞語
の並びは、キーワードとなり得る意味のある一つの語で
あると推定される。また、連続して出現した名詞語の並
びの部分名詞語列についても出現回数を調べるので、検
出される成句が名詞語の並びの区切りと一致していなく
ても、検出が可能である。
【0010】
【発明の実施の形態】以下、本発明の一実施例について
図面を用いて説明する。図1に、本発明にかかるシステ
ムの概略ブロック図を示す。本システムは、成句検出対
象の日本語テキスト等を入力する入力装置10、検出さ
れた成句等を出力する出力装置20、本発明の成句検出
を司る処理装置(CPU)30、及び、処理装置30の
作業用メモリ等に用いられるメモリ装置40からなる。
処理装置30は、機能上、形態素解析部31と成句候補
作成部32と成句検出部(1)33と成句検出部(2)
34に大別される。また、メモリ装置40には、入力さ
れた日本語テキスト41、検出された成句リスト48、
さらに、後述の各途中結果データ42〜47などが格納
される。
【0011】図2に、本発明による成句検出処理の概略
フローチャートを示す。ここで、成句検出対象の日本語
テキストは、入力装置20より入力され、処理装置30
を通してすでにメモリ装置40に取り込まれているとす
る。
【0012】形態素順序配列設定100:形態素解析部
31にて、まず、日本語テキスト41を形態素解析し
て、各形態素(語)を出現順に配列した形態素順序配列
42を得る。形態素順序配列42の各形態素(語)は、
当該形態素の品詞情報を保持している。
【0013】成句候補リスト作成110:成句候補作成
部32では、形態素順序配列42を順に走査して、名詞
語が2語以上連続する形態素の集合を名詞語リスト43
として抽出し、成句候補リスト44に登録する。成句候
補リスト44内の名詞語リストは出現回数を保持してお
り、同一の名詞語リストが抽出されると、成句候補リス
ト44に登録済みの該当名詞語リストの出現回数を1つ
増やす。
【0014】成句検出(1)120:成句検出部(1)
33では、成句候補リスト44を走査して、出現回数が
2回以上の名詞語リストについて、当該名詞語リストの
各要素(形態素)を結合して一語とし、成句として成句
リスト48に登録する。また、成句候補リスト44を走
査して、出現回数が1回の名詞語リストは細分割リスト
45に登録する。
【0015】成句検出(2)130:成句検出部(2)
34では、細分割リスト45の各名詞語リストについ
て、構成される形態素の個数の多い順に部分名詞語リス
ト46に分割し、該部分名詞語リスト46を要素とする
部分成句候補リスト47を作成する。そして、該部分成
句候補リスト47を走査して、2回以上出現した部分名
詞語リストを成句として成句リスト48に登録する。
【0016】図3乃至図8に各処理の詳細フローチャー
ト、図9乃至図12に具体的処理例を示す。以下、これ
らの図に基づいて各処理の詳細を説明する。
【0017】図3は、形態素順序配列設定の詳細フロー
チャートである。まず、形態素順序配列42を空に、i
(出現順序)を0に初期化する(ステップ201,20
2)。次に、日本語テキスト41を形態素解析して得ら
れる各形態素を、順次、iをインデックスとして形態素
順序配列42に格納し(ステップ203)、iを1つ増
やす(ステップ204)。これを、解析して得られる形
態素がなくなるまで続ける(ステップ205)。この結
果、例えば図9の具体例において、日本語テキストが
(A)のような内容の場合、形態素順序配列は(B)の
ようになる。
【0018】図4は、成句候補リスト作成の詳細フロー
チャートである。まず、成句候補リスト44を空に、さ
らに、名詞語リスト43も空に、iを0に初期化する
(ステップ301,302,303)。次に、iをイン
デックスとする形態素を形態素順序配列42から取り出
し(ステップ304)、その形態素が名詞かどうか判定
する(ステップ305)。そして、名詞の場合は、当該
形態素を名詞語リスト43に加え(ステップ306)、
ステップ311,312を経てステップ304に戻り、
次の形態素を取り出す。一方、名詞でない場合は、そこ
が成句候補の区切りとなるので、その時点での名詞語リ
スト43の要素(形態素)の個数を調べる(ステップ3
07)。ここで、名詞語リスト43が2個以上ある場合
のみ、同一の名詞語リストが既に成句候補リスト44に
登録済みか判定し(ステップ308)、登録済みであれ
ば、成句候補リスト44中の該当名詞語リストの出現回
数を1つ増やし(ステップ409)、未登録であれば、
当該名詞語リスト43を成句候補リスト44に登録し、
その出現回数を1とする(ステップ410)。その後、
名詞語リスト43の要素の個数に関係なく、名詞語リス
ト43を新たに初期化する(ステップ411)。これに
より、名詞語が連続して出現しない場合には、成句とは
なり得ないため除外される。以上の動作を、iが形態素
順序配列42の最大インデックスになるまで続ける(ス
テップ413)。この結果、図9の具体例の場合、
(C)に示すように、「形態/素/解析」が出現回数2
として成句候補リスト44に登録される。
【0019】図5は、成句検出(1)の詳細フローチャ
ートである。まず、細分割リスト45を空に初期化する
(ステップ401)。次に、成句候補リスト44の要素
である名詞語リストを1つ取り出し(ステップ40
2)、その出現回数を調べる(ステップ403)。そし
て、出現回数が2以上の名詞語リストの場合は、それは
成句と認められるので、当該名詞語リストの要素を1つ
の語にして成句とし、成句リスト48に登録する(ステ
ップ404)。また、出現回数が1のものは、細分割リ
スト45に登録する(ステップ405)。これを、成句
候補リスト44の要素(名詞語リスト)がなくなるまで
続ける(ステップ406)。この結果、図9の例の場
合、名詞語リスト「形態/素/解析」が成句として認め
られ、「形態素解析」が成句リスト48に登録される。
【0020】図6は、成句検出(2)の全体のフローチ
ャートである。成句検出(2)は、図10に例を示すよ
うに、細分割リスト45の要素である1回しか出現して
いない連続した名詞語の並び(名詞語リスト)の中で
も、部分的に一致するものがある時は、その部分名詞語
リストを成句として検出するものである。この場合、で
きるだけ長い成句(図10の例では、3つの名詞語を含
む部分名詞語リスト「共出 頻度 係数」)から先に検
出されるように、部分名詞語リストを求め、出現回数を
調べる必要がある。
【0021】図6のフローチャートにおいて、まず、前
処理として、成句検出(1)の処理で得られた細分割リ
スト45を、名詞語リストの要素の個数が多い順にソー
トして(ステップ501)、最もたくさんの要素を持つ
名詞語リストの要素の個数LENを求め、それから1つ
減じた数lenを、求める部分名詞語リストの要素の個
数として初期設定する(ステップ502)。図10の例
では、LEN=4、len=3である。次に、細分割リ
スト45の名詞語リストについて、len個の要素を持
つ部分名詞語リスト46に順次分割して、該部分名詞語
リスト46を要素とする部分成句候補リスト47を作る
(ステップ503)。なお、部分成句候補リストの作成
処理の詳細については、図7で後述する。この部分成句
候補リスト47の要素である部分名詞語リストを順に走
査していき(ステップ504)、当該名詞語リストがす
でに成句として成句リスト48に登録されている場合、
および、全く同一の部分名詞語リストが該部分成句候補
リスト47内にある(つまり、2回以上出現している)
場合は、当該部分名詞語リストを一語にして成句として
検出し、すでに登録済みのものを除いて、該検出された
成句を成句リスト48に登録する(ステップ505,5
06)。
【0022】その後、この部分名詞語リストを成句とし
て検出した後処理として、当該部分名詞語リストを含む
すべての名詞語リストを細分割リスト45から抜き出
し、該抜き出した各名詞語リストに関して細分割リスト
45を修正する(ステップ507)。なお、この細分割
リストの修正処理の詳細については、図8で後述する。
【0023】部分成句候補リスト47内の、len個の
要素を持つ各部分名詞語リストについて、以上の成句検
出を繰り返す(ステップ508)。そして、それが終了
した場合、lenの値を1つ減らし(ステップ50
9)、再び部分成句候補リスト47を作成して同様に成
句検出を行う。これを、lenの値が2になるまで繰り
返す(ステップ510)。lenの値が1の名詞語は成
句となり得ないので、len=1のケースは処理する必
要がない。
【0024】図10の例の場合、len=3では、図1
1に示すように、(A)の細分割リストに対して、部分
成句候補リストは(B)のようになり、「共用頻度係
数」の部分名詞語リストが(C)のように成句として検
出される。また、len=2では、図12に示すよう
に、修正処理後の(A)の細分割リストに対して、部分
成句候補リストは(B)のようになり、「共用頻度」の
部分名詞語リストが(C)のように成句として検出され
る。
【0025】図7は、長さlenの部分名詞語リストを
要素とする部分成句候補リスト作成の詳細フローチャー
トである。まず、部分成句候補リスト47を空に初期化
し(ステップ601)、細分割リスト45の要素である
1回しか出現していない連続した名詞語の並び(名詞語
リスト)を順に走査し(ステップ602)、その名詞語
リストの要素の個数がlen以上か判定する(ステップ
604)。そして、当該名詞語リストの要素の個数がl
enと同じ時には、当該名詞語リストそのものを部分成
句候補リスト47に登録する(ステップ605)。この
結果、図11の(B)に示すように、len=3の場
合、「共出 頻度 ベクトル」、「共出頻度 情報」が
そのまま部分成句候補リスト47に登録される。一方、
当該名詞語リストの要素の個数がlenより長い時に
は、当該名詞語リストの先頭(又は最後)から順に要素
数lenの部分名詞語リストに分割して、それらを部分
成句候補リスト47に登録する(ステップ606)。こ
の結果、図11の場合、例えば「個別 共出 頻度 係
数」は「個別 共出 頻度」と「個別 頻度 係数」の
部分名詞語リストに分割されて、部分成句候補リスト4
7に登録される。図12のlen=2の場合についても
同様である。以上の処理を、細分割リスト45のすべて
の名詞語リストについて繰り返す(ステップ607)。
【0026】図8は、細分割リストの修正の詳細フロー
チャートである。これは、部分名詞語リストを成句とし
て検出した後処理として、その部分名詞語リストを含む
すべての名詞語リストを細分割リスト45から抜き出
し、この抜き出した各名詞語リストに関して、細分割リ
ストを修正してやる処理である。
【0027】まず、細分割リスト45の名詞語リストを
走査して(ステップ701)、当該名詞語リストが成句
として検出した部分名詞語リストを含むか判定する(ス
テップ702)。そして、成句の部分名詞語リストを含
む場合、当該名詞語リストについて、部分名詞語リスト
前の部分としての前部分名詞語リストと、部分名詞語リ
ストより後ろの部分としての後部分名詞語リストを抽出
して、それぞれ細分割候補リストとする(ステップ70
3)。例えば、図10の例の場合、「高 共出頻度」が
成句として検出される部分名詞語リストであるので、
「高」が前部分名詞語リスト、「語」が後部分名詞語リ
ストとなる。この細分割候補リストの前および後部分名
詞語リストを順に走査し(ステップ704)、当該部分
名詞語リストの要素の個数が2以上で、当該部分名詞語
リストと同一のものが成句リスト48に登録されていな
い場合に限り、この前あるいは後部分名詞語リストを、
細分割リスト45の適当な位置(その部分名詞語リスト
の要素の個数と同じ部分名詞語リストのソート位置)に
付け加える(ステップ705,706,707)。細分
割候補リストの前および後部分名詞語リストの走査をす
べて終えたなら(ステップ708)、当該名詞語リスト
を細分割リストから取り除く(ステップ709)。以上
の処理を、細分割リスト45の各名詞語リストについて
繰り返す。
【0028】
【発明の効果】本発明では、日本語テキストの形態素解
析された後の名詞語のみの出現順序を調査し、連続して
出現する名詞語の並びが2回以上出現する場合に成句と
して検出することにより、辞書に登録されていない語で
も、キーワード候補となるべき一つの語として扱うこと
が可能となる。また、本発明では、連続して出現した名
詞語の並びの部分名詞語列についても出現回数を調べる
ので、検出される成句が名詞語の並びの区切りと一致し
ていなくても、成句の検出が可能である。
【図面の簡単な説明】
【図1】本発明にかかる一実施例のシステム構成図であ
る。
【図2】本発明の全体の処理フローチャートである。
【図3】形態素順序配列の設定の詳細フローチャートで
ある。
【図4】成句候補リストの作成の詳細フローチャートで
ある。
【図5】2回以上出現する名詞語リストの成句検出の詳
細フローチャートである。
【図6】部分名詞語リストの成句検出の全体的フローチ
ャートである。
【図7】長さlenの部分成句候補リスト作成の詳細フ
ローチャートである。
【図8】検出した部分名詞語リストによる細分割リスト
の修正の詳細フローチャートである。
【図9】成句候補リストの具体的処理例である。
【図10】名詞語リストの部分一致による成句検出の具
体例である。
【図11】長さlen=3の部分一致による成句検出の
処理例である。
【図12】長さlen=2の部分一致による成句検出の
処理例である。
【符号の説明】
10 入力装置 20 出力装置 30 処理装置 31 形態素解析部 32 成句候補作成部 33 成句検出部(1) 34 成句検出部(2) 40 メモリ装置 41 日本語テキスト 42 形態素順序配列 43 名詞語リスト 44 成句候補リスト 45 細分割リスト 46 部分名詞語リスト 47 部分成句候補リスト 48 成句リスト

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 日本語テキストを形態素解析し、その結
    果得られる品詞情報を持った形態素の列に対して、名詞
    語のみの出現順序を調査し、連続して出現する名詞語の
    並びが2回以上出現する場合に、その名詞語の並びを成
    句とすることを特徴とする成句検出方法。
  2. 【請求項2】 請求項1記載の成句検出方法において、
    1回しか出現していない名詞語の並びについては、出来
    上がる部分名詞語列が含む名詞語数の多い順に、その語
    数だけの名詞語を持つ部分名詞語列を求め、これらの部
    分名詞語列に対して出現回数を調査し、出現回数が2回
    以上になる部分名詞語列を成句とすることを特徴とする
    成句検出方法。
JP8147715A 1996-06-10 1996-06-10 成句検出方法 Pending JPH09330331A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8147715A JPH09330331A (ja) 1996-06-10 1996-06-10 成句検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8147715A JPH09330331A (ja) 1996-06-10 1996-06-10 成句検出方法

Publications (1)

Publication Number Publication Date
JPH09330331A true JPH09330331A (ja) 1997-12-22

Family

ID=15436568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8147715A Pending JPH09330331A (ja) 1996-06-10 1996-06-10 成句検出方法

Country Status (1)

Country Link
JP (1) JPH09330331A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134720A (ja) * 2008-12-04 2010-06-17 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置および文書検索プログラム
WO2022183923A1 (zh) * 2021-03-03 2022-09-09 北京沃东天骏信息技术有限公司 短语生成方法、装置和计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134720A (ja) * 2008-12-04 2010-06-17 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置および文書検索プログラム
WO2022183923A1 (zh) * 2021-03-03 2022-09-09 北京沃东天骏信息技术有限公司 短语生成方法、装置和计算机可读存储介质

Similar Documents

Publication Publication Date Title
JP3077765B2 (ja) 語彙辞書の検索範囲を削減するシステム及び方法
US5542090A (en) Text retrieval method and system using signature of nearby words
JP4467791B2 (ja) 情報管理及び検索
US5706496A (en) Full-text search apparatus utilizing two-stage index file to achieve high speed and reliability of searching a text which is a continuous sequence of characters
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
JPH06325076A (ja) 入力テキストをワードで区切る方法
JPH06131398A (ja) 複数の文書検索方法
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
US7676358B2 (en) System and method for the recognition of organic chemical names in text documents
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
JPH10260972A (ja) 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
JPH09288676A (ja) 全文インデックス作成装置および全文データベース検索装置
WO2011086637A1 (ja) 要求抽出システム、要求抽出方法および要求抽出プログラム
JP3361563B2 (ja) 形態素解析装置及びキーワード抽出装置
JPH09330331A (ja) 成句検出方法
JP3727995B2 (ja) 文書処理方法及び装置
JP2004046438A (ja) テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体
JP4682627B2 (ja) 文書検索装置および方法
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JPH0619962A (ja) テキスト分割装置
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JP3752535B2 (ja) 訳語選択装置、及び翻訳装置
KR100328963B1 (ko) 띄어쓰기오류허용한국어형태소분석방법및그장치
JPH07244665A (ja) 機械翻訳システム用辞書・ルール学習方法及び機械翻訳システム用辞書・ルール学習装置
JP2003288366A (ja) 類似テキスト検索装置