JP3507936B2 - 文字列パターン抽出方法及び装置 - Google Patents

文字列パターン抽出方法及び装置

Info

Publication number
JP3507936B2
JP3507936B2 JP33866596A JP33866596A JP3507936B2 JP 3507936 B2 JP3507936 B2 JP 3507936B2 JP 33866596 A JP33866596 A JP 33866596A JP 33866596 A JP33866596 A JP 33866596A JP 3507936 B2 JP3507936 B2 JP 3507936B2
Authority
JP
Japan
Prior art keywords
character string
extracted
particle
character
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33866596A
Other languages
English (en)
Other versions
JPH10177581A (ja
Inventor
恵 石井
一 内野
俊和 宮川
美樹 亀山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP33866596A priority Critical patent/JP3507936B2/ja
Publication of JPH10177581A publication Critical patent/JPH10177581A/ja
Application granted granted Critical
Publication of JP3507936B2 publication Critical patent/JP3507936B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字列パターン抽
出方法及び装置に係り、特に、複数文からなる日本語文
字列データから文字列パターンを抽出する文字列パター
ン抽出方法及び装置に関する。
【0002】
【従来の技術】図11は、従来の文字列パターン抽出の
動作を示すフローチャートである。 ステップ10) 従来の文字列パターン抽出方法は、ま
ず、入力された複数文からなる日本語文字列データから
出現回数が2回以上で、かつ、任意の文字数からなる文
字列を、文番号とカラム番号を付与して抽出する。
【0003】ステップ11) 抽出された文字列で、他
の抽出文字列に包含される文字列を、抽出文字列として
除外する。 ステップ12) 抽出文字列から任意の出現回数でかつ
任意の文字数からなる文字列を選定文字列として選定す
る。
【0004】ステップ13) すべての選定文字列に付
与した文番号とカラム番号を利用して、同一文中に出現
する選定文字列を要素とする任意の出現回数でかつ任意
の要素数からなる組を、組の要素となる文字列の出現順
序を区別して抽出する。これにより、文字列パターンを
抽出する。
【0005】なお、上記の内容に関する文献として、
“池原 悟、白井 諭、河岡 司著『大規模日本語コー
パスからの連鎖型及び離散型の共起表現の自動抽出方
法』、情報処理学会論文誌、第36巻第11号pp.2
584〜2596”がある。従来の装置において、「〜
が〜を〜に〜」などのような1文字の助詞で構成される
日本文の文型パターンとなる文字列パターンを抽出する
ために、任意の(1文字以上の)文字数からなる文字列
を抽出する。このとき、日本語文字列データから選定さ
れた選定文字列を図12に示す。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来の方法では、図12に示すように、1文字の文字数か
らなる文字列まで抽出すると、選定文字列の個数が多く
なり、結果として選定文字列の組の個数も多くなり、
「〜が〜を〜に〜」などのような、文字数が1文字であ
る助詞で構成される日本語の文型パターンとなる文字列
パターンを抽出する際に、現実には処理できないほど過
大な処理時間、メモリ量を要し、効率が悪いという問題
がある。
【0007】本発明は、上記の点に鑑みなされたもの
で、文字列パターンを短時間でかつ、メモリ資源を有効
に活用することが可能な文字列パターン抽出方法及び装
置を提供することを目的とする。
【0008】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明は、複数文からなる日
本語文字列データから文字列パターンを抽出する装置に
おける文字列パターン抽出方法において、文字列抽出手
段が、複数文からなる日本語文字列データから、出現回
数が所定の回数以上であり、かつ所定の文字数からなる
文字列を文番号とカラム番号を付与して抽出し(ステッ
プ1)抽出文字列除外手段が、抽出された抽出文字列
において、他の抽出文字列に包含される文字列を抽出文
字列として除外し(ステップ2)第1の選定文字列選
定手段が、抽出文字列から所定の出現回数でかつ所定の
文字数からなる文字列を第1の選定文字列として選定し
(ステップ3)、助詞抽出手段が、日本語文字列データ
を形態素解析し、所定の文字数である助詞を文番号とカ
ラム番号を付与して抽出し(ステップ4)第2の選定
文字列選定手段が、第1の選定文字列に包含されない助
詞を第2の選定文字列として選定し(ステップ5)、パ
ターン抽出手段が、全ての第1の選定文字列と、第2の
選定文字列に付与されている文番号とカラム番号を用い
て、同一文中に出現する選定文字列を要素とする、所定
の出現回数でかつ、所定の要素数からなる組を、組の要
素となる文字列の出現順序に従って抽出する(ステップ
6)。
【0009】 また、本発明は、文字列抽出手段におい
て、出現回数を2回以上とし、文字数を2文字以上とす
る。また、本発明は、助詞抽出手段において、日本語文
字列データを形態素解析して得られる文字数が1文字の
助詞を抽出する。
【0010】図2は、本発明の原理構成図である。本発
明は、複数文からなる日本語文字列データから、出現回
数が所定の回数以上であり、かつ所定の文字数以上の文
字列を文番号とカラム番号を付与して抽出する文字列抽
出手段2と、文字列抽出手段2により抽出された抽出文
字列において、他の抽出文字列に包含される文字列を抽
出文字列として、除外する抽出文字列除外手段3と、抽
出文字列から所定の出現回数でかつ所定の文字数からな
る文字列を第1の選定文字列として選定する第1の選定
文字列選定手段4と、日本語文字列データを形態素解析
し、所定の文字数である助詞を文番号とカラム番号を付
与して抽出する助詞抽出手段5と、助詞抽出手段におい
て、第1の選定文字列に包含されない助詞を第2の選定
文字列として選定する第2の選定文字列選定手段6と、
すべての第1の選定文字列と、第2の選定文字列に付与
されている文番号とカラム番号を用いて、同一文中に出
現する選定文字列を要素とする、所定の出現回数でか
つ、所定の要素数からなる組を、組の要素となる文字列
の出現順序に従って抽出するパターン抽出手段7とを有
する。
【0011】上記の文字列抽出手段2は、出現回数を2
回以上とし、文字数を2文字以上とする。上記の助詞抽
出手段5は、文字数が1文字の助詞を抽出する。上記の
ように、本発明では、複数文からなる日本語文字列デー
タから出現回数が2回以上でかつ2文字以上の文字数か
らなる文字列のみを抽出することにより、一度選定文字
列の個数を絞り込んだ後、複数文からなる日本語文字列
データを形態素解析して、文字数が1文字である助詞を
抽出し、当該助詞も文字列の組の要素とすることによ
り、従来の装置よりも文字列の組の要素数を減らし、
「〜が〜を〜に〜」などのような1文字の助詞で構成さ
れる日本文の文型パターンとなる文字列パターンを処理
時間、使用メモリ量の面で効率よく抽出することが可能
となる。
【0012】
【発明の実施の形態】図3は、本発明の文字列パターン
抽出装置の構成図である。同図に示す文字列パターン抽
出装置10は、文字列データ入力部1、文字列抽出部
2、文字列除外部3、選定文字列抽出部4、形態素解析
部5、助詞選定部6及び文字列パターン決定部7より構
成される。
【0013】文字列データ入力部1は、複数文の日本語
文字列データを入力し、文字列抽出部2と形態素解析部
5に当該文字列データを転送する。文字列抽出部2は、
複数文からなる日本語文字列データから、出現回数が2
回以上で、かつ2文字以上の文字数からなる文字列を、
文番号とカラム番号を付与して抽出する。
【0014】文字列除外部3は、抽出文字列で他の抽出
文字列に包含される文字列を除外する。選定文字列抽出
部4は、文字列除外部3により除外され、残された抽出
文字列から出現回数が2回以上の文字列を選定文字列a
として選定し、文字列パターン決定部7と助詞選択部6
に転送する。
【0015】形態素解析部5は、文字列データ入力部1
から転送された日本語文字列データを形態素解析し、文
字数が1文字である助詞を文番号とカラム番号を付与し
て抽出する。当該形態素解析は、自然言語処理分野にお
いて周知の手法で実現するものとし、例えば、奈良先端
科学技術大学院大学から提供される“JUMAN”等を
利用して実現することが可能である。
【0016】助詞選択部6は、形態素解析部5において
抽出された助詞のうち、選定文字列抽出部4において抽
出された選定文字列aに包含されていない助詞を選択し
て選定文字列bとして選定し、文字列パターン決定部7
に転送する。文字列パターン決定部7は、選定文字列抽
出部4において抽出された選定文字列aと、助詞選択部
6において抽出された選定文字列bに付与された文番号
とカラム番号を利用して、同一文中に出現する選定文字
列を要素とする、出現回数が2回以上でかつ、2個以上
の要素数からなる組を、組の要素となる文字列の出現順
序を区別して抽出する。
【0017】
【実施例】以下、図面と共に本発明の実施例を説明す
る。図4は、本発明の一実施例の文字列パターン抽出方
法の動作を示すフローチャートである。以下の説明で
は、前述の図3に示す構成に基づいて説明する。
【0018】ステップ101) 以下の複数文からなる
日本語文字列データが文字列データ入力部1から入力さ
れる。 文番号1:『基金は加入員の給与の月額に基づき標準給
与を定めなければならない。』 文番号2:『支給は適正な年金数理に基づいてその業務
を行わなければならない。』 文番号3:『年金給付は当該基金の加入員または、加入
員であった者が老齢厚生年金の受給検索を取得したとき
にその者に支給するものでなければならない。』 ステップ102) 文字列抽出部2は、入力された文字
列データから出現回数が2回以上で、かつ2文字以上の
文字数からなる文字列を、文番号とカラム番号を付与し
て抽出する。
【0019】この例では、以下のような文字列が当該条
件に対応する。「基金」「は加入員」「給与」「に基
づ」「給与」「なければならない」「支給」「年金」
「に基づ」「その」「なければならない」「年金」「基
金」「金の」「は加入員」「年金」「金の」「その」
「支給」「なければならない」この例において、「基
金」の文番号は先頭の文であるので“1”であり、カラ
ム番号は当該文の先頭に位置するため“1”である。ま
た、「支給」の文番号は“2”であり、カラム番号は、
当該文番号の文の先頭にあるため“1”となる。
【0020】ステップ103) 文字列除外部3は、文
字列抽出部2で抽出された文字列で、他の抽出文字列に
包含される文字列を、抽出文字列として除外する。例え
ば、「なければならない」という抽出文字列と、それに
包含される「ければならない」という抽出文字列がある
場合、「ければならない」を抽出文字列として除外す
る。本例には、該当する例がないため、当該処理はスキ
ップされる。
【0021】ステップ104) 選定文字列抽出部4
は、抽出文字列から出現回数が2回以上の文字列を選定
文字列aとして選定する。このようにして図5に示すよ
うな選択文字列aが抽出され、各々の選択文字列に文番
号とカラム番号が付与されている。例えば、『基金』に
ついては、文番号“1”、カラム番号“1”が付与され
ている。
【0022】ステップ105) 次に、形態素解析部5
は、文字列データ入力部1において入力された文字列デ
ータを形態素解析する。例えば、文番号1の文について
は、「基金」「は」「加入員」「の」「給与」「の」
「月額」「に」「基づき」標準給与」「を」「定めなけ
れば」「ならない」「。」となる。このうち、文字数が
1文字である助詞を文番号とカラム番号を付与して抽出
する。例えば、文番号1の『基金は加入員の給与の月額
に基づき標準給与を定めなければならない』という文字
列における助詞は、「は」「の」「の」「に」「を」で
あるため、最初の助詞「は」がカラム“3”にあり、次
の助詞「の」がカラム“7”に存在し、次の「の」がカ
ラム“10”に存在し、さらに、「に」がカラム“1
3”に存在し、「を」がカラム“21”に存在するた
め、図6に示すような助詞と文番号、カラム番号の組が
抽出される。他の文番号2、3についても同様である。
【0023】ステップ106) 次に、助詞選択部6
は、ステップ105において抽出された助詞のうち、ス
テップ104で抽出された選択文字列aに包含されない
助詞を選定文字列bとして選定する。例えば、「は加入
員」という選択文字列aと、それに包含される「は」と
いう抽出助詞がある場合、「は」は選定文字列bとして
選定されない。このようにして、上記の日本語文字列デ
ータから選定された選定文字列a及び選定文字列bを図
7に示す。
【0024】ステップ107) 文字列パターン決定部
7は、最後に、すべての選定文字列に付与されている文
番号とカラム番号を利用して、同一文中に出現する選定
文字列を要素とする出現回数が2回以上でかつ2個以上
の要素数からなる組を、組の要素となる文字列の出現順
序に従って抽出する。
【0025】このようにして入力された日本語文字列デ
ータから抽出された2個の要素からなる文字列パターン
を図8に示す。図7において、最初の文字列が『基金』
であり、次に続く文字列が『は加入員』であるため、図
8において、『基金』を前方文字列とし、『は加入員』
を後方文字列とする。同様にして、『基金』を前方文字
列とし、図7に示す選択文字列から後続する文字列を後
方文字列とする。
【0026】このような方法により、日本語文字列デー
タのうち、図9は、出現回数が2回の組を示し、図10
は、出現回数が4回の組を示す。上記の結果から明らか
なように、図12に示す従来の装置の結果に比べて、本
発明では、日本文の文型パターンとなる文字列パターン
を効率よく抽出することができる。
【0027】
【発明の効果】上述のように、本発明によれば、複数文
からなる日本語文字列データから文字列パターンを抽出
する文字列パターン抽出方法において、日本語文字列デ
ータから、出現回数が2回以上でかつ、2文字以上の文
字数からなる文字列と、日本語文字列データを形態素解
析して得られる文字数が1文字である助詞を抽出し、抽
出された2文字以上の抽出文字列を、助詞を文字列の組
の要素とする処理を行うことにより、複数文からなる日
本語文字列データ中の、日本文の文型パターンとなる文
字列パターンを処理時間、使用メモリ量の面で効率よく
抽出することができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の文字列パターン抽出装置の構成図であ
る。
【図4】本発明の一実施例の文字列パターン抽出方法の
フローチャートである。
【図5】本発明の一実施例の抽出された選択文字列aの
例である。
【図6】本発明の一実施例の抽出された選択文字列bの
例である。
【図7】本発明の一実施例の選定文字列a,bを組み合
わせた例である。
【図8】本発明の一実施例の抽出された2個の要素から
なる文字列パターンの例である。
【図9】本発明の一実施例の出現回数が2回の組の例で
ある。
【図10】本発明の一実施例の出現回数が4回の組の例
である。
【図11】従来の文字列パターン抽出動作のフローチャ
ートである。
【図12】従来の抽出された選定文字列の例である。
【符号の説明】
1 文字列データ入力部 2 文字列抽出部、文字列抽出手段 3 文字列除外部、抽出文字列除外手段 4 選定文字列抽出部、第1の選定文字列選定手段 5 形態素解析部、助詞抽出手段 6 助詞選択部、第2の選定文字列選定手段 7 文字列パターン決定部、パターン抽出手段 10 文字列パターン抽出装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 亀山 美樹 東京都武蔵野市御殿山一丁目1番3号 エヌ・ティ・ティ・アドバンステクノロ ジ株式会社内 (56)参考文献 特開 平6−149882(JP,A) 小川泰嗣ほか,全文検索のための文字 成分表方式の改良,情報処理学会研究報 告,日本,社団法人情報処理学会,1994 年 7月22日,第94巻 第62号,第261 頁〜第264頁(94−DBS−99−35) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】複数文からなる日本語文字列データから文
    字列パターンを抽出する装置における文字列パターン抽
    出方法において、文字列抽出手段が、前記複数文からなる日本語文字列デ
    ータから、出現回数が所定の回数以上であり、かつ所定
    の文字数からなる文字列を文番号とカラム番号を付与し
    て抽出し抽出文字列除外手段が、抽出された抽出文字列におい
    て、他の抽出文字列に包含される文字列を抽出文字列と
    して除外し第1の選定文字列選定手段が、前記抽出文字列から所定
    の出現回数でかつ所定の文字数からなる文字列を第1の
    選定文字列として選定し、 助詞抽出手段が、前記日本語文字列データを形態素解析
    し、所定の文字数である助詞を文番号とカラム番号を付
    与して抽出し第2の選定文字列選定手段が、前記第1の選定文字列に
    包含されない助詞を第2の選定文字列として選定し、 パターン抽出手段が、全ての前記第1の選定文字列と、
    前記第2の選定文字列に付与されている前記文番号と前
    記カラム番号を用いて、同一文中に出現する選定文字列
    を要素とする、所定の出現回数でかつ、所定の要素数か
    らなる組を、組の要素となる文字列の出現順序に従って
    抽出する、 ことを特徴とする文字列パターン抽出方法。
  2. 【請求項2】前記文字列抽出手段において、 前記出現回数を2回以上とし、前記文字数を2文字以上
    とする 請求項1記載の文字列パターン抽出方法。
  3. 【請求項3】前記助詞抽出手段において、 前記日本語文字列データを形態素解析して得られる文字
    数が1文字の助詞を抽出する請求項1記載の文字列パタ
    ーン抽出方法。
  4. 【請求項4】複数文からなる日本語文字列データから、
    出現回数が所定の回数以上であり、かつ所定の文字数か
    らなる文字列を文番号とカラム番号を付与して抽出する
    文字列抽出手段と、 前記文字列抽出手段により抽出された抽出文字列におい
    て、他の抽出文字列に包含される文字列を抽出文字列と
    して、除外する抽出文字列除外手段と、 前記抽出文字列から所定の出現回数でかつ所定の文字数
    からなる文字列を第1の選定文字列として選定する第1
    の選定文字列選定手段と、 前記日本語文字列データを形態素解析し、所定の文字数
    である助詞を文番号とカラム番号を付与して抽出する助
    詞抽出手段と、 前記助詞抽出手段において、前記第1の選定文字列に包
    含されない助詞を第2の選定文字列として選定する第2
    の選定文字列選定手段と、 すべての前記第1の選定文字列と、前記第2の選定文字
    列に付与されている前記文番号と前記カラム番号を用い
    て、同一文中に出現する選定文字列を要素とする、所定
    の出現回数でかつ、所定の要素数からなる組を、組の要
    素となる文字列の出現順序に従って抽出するパターン抽
    出手段とを有することを特徴とする文字列パターン抽
    出装置。
  5. 【請求項5】前記文字列抽出手段は、 前記出現回数を2回以上とし、前記文字数を2文字以上
    とする請求項記載の文字列パターン抽出装置。
  6. 【請求項6】前記助詞抽出手段は、 前記文字数が1文字の助詞を抽出する請求項記載の文
    字列パターン抽出装置。
JP33866596A 1996-12-18 1996-12-18 文字列パターン抽出方法及び装置 Expired - Fee Related JP3507936B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33866596A JP3507936B2 (ja) 1996-12-18 1996-12-18 文字列パターン抽出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33866596A JP3507936B2 (ja) 1996-12-18 1996-12-18 文字列パターン抽出方法及び装置

Publications (2)

Publication Number Publication Date
JPH10177581A JPH10177581A (ja) 1998-06-30
JP3507936B2 true JP3507936B2 (ja) 2004-03-15

Family

ID=18320316

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33866596A Expired - Fee Related JP3507936B2 (ja) 1996-12-18 1996-12-18 文字列パターン抽出方法及び装置

Country Status (1)

Country Link
JP (1) JP3507936B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3317904B2 (ja) * 1998-09-02 2002-08-26 日本電気株式会社 省略名称抽出装置、方法および記録媒体
JP5930228B2 (ja) 2014-02-25 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3328334B2 (ja) * 1992-11-06 2002-09-24 富士通株式会社 全文データベース検索装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小川泰嗣ほか,全文検索のための文字成分表方式の改良,情報処理学会研究報告,日本,社団法人情報処理学会,1994年 7月22日,第94巻 第62号,第261頁〜第264頁(94−DBS−99−35)

Also Published As

Publication number Publication date
JPH10177581A (ja) 1998-06-30

Similar Documents

Publication Publication Date Title
US6021416A (en) Dynamic source code capture for a selected region of a display
EP0953192B1 (en) Natural language parser with dictionary-based part-of-speech probabilities
US6070162A (en) Information search and collection system
JP3001047B2 (ja) 文書要約装置
EP1301853B1 (en) Apparatus and method for text segmentation based on coherent units
US9075775B2 (en) Method and system of identifying textual passages that affect document length
JP2004246440A (ja) 形態素解析装置、自然言語処理装置、形態素解析方法及びプログラム
JP3507936B2 (ja) 文字列パターン抽出方法及び装置
Greenbacker et al. A corpus of human-written summaries of line graphs
Gottron Combining content extraction heuristics: the CombinE system
JP2004234051A (ja) 文章分類装置およびその方法
Simard et al. TransSearch: A bilingual concordance tool
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
Narayanan et al. Iconic sql: Practical issues in the querying of databases through structured iconic expressions
JP3416918B2 (ja) キーワード自動抽出方法および装置
JPH0743728B2 (ja) 要約文生成方式
JPH103478A (ja) 概念の類似性判別方法
JPH09319768A (ja) 要点抽出方法
JP2000259658A (ja) 文書分類装置
JP4040233B2 (ja) 重要文抽出装置および記憶媒体
JPH07121568A (ja) 情報提示装置
JP3256614B2 (ja) 情報提示装置
JP3149555B2 (ja) システム設計用目的変換装置
CN110019726B (zh) 图书书评的生成方法及装置、计算机设备及可读介质
JP3442214B2 (ja) キーワード抽出方法、概念抽出方法、キーワード抽出装置、及び概念抽出装置

Legal Events

Date Code Title Description
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090109

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090109

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100109

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees