JP3416918B2 - キーワード自動抽出方法および装置 - Google Patents

キーワード自動抽出方法および装置

Info

Publication number
JP3416918B2
JP3416918B2 JP12652495A JP12652495A JP3416918B2 JP 3416918 B2 JP3416918 B2 JP 3416918B2 JP 12652495 A JP12652495 A JP 12652495A JP 12652495 A JP12652495 A JP 12652495A JP 3416918 B2 JP3416918 B2 JP 3416918B2
Authority
JP
Japan
Prior art keywords
character string
importance
substring
length
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP12652495A
Other languages
English (en)
Other versions
JPH08320873A (ja
Inventor
秀一 中渡瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP12652495A priority Critical patent/JP3416918B2/ja
Publication of JPH08320873A publication Critical patent/JPH08320873A/ja
Application granted granted Critical
Publication of JP3416918B2 publication Critical patent/JP3416918B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、キーワード検索できる
テキストデータベースを作成する際に必要となるキーワ
ードを自動的に抽出する装置に関する。
【0002】
【従来の技術】従来、文章中からキーワード等を自動的
に抽出する方法としてフリーターム方式と統制キーワー
ド方式があった。
【0003】フリーターム方式では、まず文章の分かち
書きを、字種や区切り記号に着目してキーワード抽出を
行い、さらに分かち書き用の辞書を用いて語を品詞単位
に分割する。次に、接尾語を登録した辞書との照合によ
り、分かち書きされた語から接頭語、接尾語を取り去
り、さらに、複合語の分割を、最小単位の単語を登録し
た語彙辞書を利用して分割する。次に、不要語辞書との
照合により、分かち書きされた語から不要語も取り除い
て残った語の中で名詞をキーワードとする。
【0004】統制キーワード方式では、上記フリーター
ム方式の処理においてキーワードとされた語について、
キーワードとする語を登録した辞書であるキーワード辞
書と照合を行いキーワードを選択する方式である。
【0005】
【発明が解決しようとする課題】上記フリーターム方式
と統制キーワード方式では語彙辞書、不要語辞書、また
統制キーワード方式ではさらにキーワード辞書を用いる
が、キーワードおよび不要語は文章の文脈に依存するも
のであり、これを無視した画一的な不要語、キーワード
の辞書では文章によってはキーワードとして必要な語を
削除したり、不必要な語をキーワードにしてしまうこと
があった。また、これら語彙辞書、不要語辞書、キーワ
ード辞書をあらかじめ作成しておかねばならないが、こ
れには膨大な労力が必要であり、新語の発生やその用法
が変化すればその度に辞書を入手によって更新しなけれ
ばならなかった。
【0006】本発明の目的は、辞書などをあらかじめ作
成し、その後保守していく労力を大幅に削減し、キーワ
ード候補を自動的に抽出するキーワード自動抽出装置を
提供することである。
【0007】
【課題を解決するための手段】本発明のキーワード自動
抽出装置は、与えられた文章を入力し、該文章から文字
列長n(nは所定の自然数)以下の部分文字列を生成
し、文字列長n以下の部分文字列を文字列テーブルに出
力する手段と、 前記文字列テーブルから部分文字列を入
力し、各文字列長の部分文字列の種類と各種類の部分文
字列の前記文章中の出現頻度を算出し、文字列長に応じ
たNグラムテーブルに出力する手段と、 前記各Nグラム
テーブルに格納されている部分文字列の出現頻度と、当
該部分文字列の長さn以下の部分文字列の種類の総和と
を乗じた値を当該部分文字列の重要度として算出し、部
分文字列長に応じたNグラム重要度テーブルに出力する
手段と、 前記全てのNグラム重要度テーブルより、重要
度が求められた文字列を順次求め、これら文字列のう
ち、当該文字列より重要度が小さく、かつ当該文字列の
部分文字列となっている文字列をキーワード候補から除
外してキーワード候補テーブルに出力する手段を有す
る。
【0008】本発明の実施態様によれば、文字列n以下
の部分文字列を、当該部分文字列長に応じた文字列テー
ブルに出力する手段は、前記文章から部分文字列を生成
し、各部分文字列の先頭の文字から文字列長n以下の部
分文字列を生成する。
【0009】
【0010】
【0011】本発明の他の実施態様によれば、前記キー
ワード候補テーブルに出力する手段は、n個のNグラム
重要度テーブルを結合する処理と、該テーブルの文字列
を重要度の順にソートする処理と、ソートしたテーブル
から文字列を逐次読み出し、該文字列が他の文字列の部
分としてキーワード候補テーブル上に登録されているか
否かを検査する処理と、該文字列が他の文字列の部分と
して前記キーワード候補テーブル上に登録されていた場
合には、該文字列を前記キーワード候補テーブルに登録
しない処理を含む。
【0012】
【0013】
【作用】まず、与えられた文章全体における任意の文字
列に対する重要度を計算し、文字列重要度テーブルに登
録する。次に、文字列重要度テーブルの文字列の中から
無意味な文字列を削除することによって、重要度で順序
つけられたキーワードの候補リストを生成する。
【0014】これにより、辞書をあらかじめ作成する労
力が不要になる。
【0015】
【実施例】次に、本発明の実施例について図面により説
明する。
【0016】図1は本発明の一実施例のキーワード自動
抽出装置の構成図である。
【0017】本実施例のキーワード候補自動抽出装置
は、キーワードを抽出するためのデータとなる文書が記
録されている文書ファイル10と、文書ファイル10に
記録されている文書を読み込み、その文書に含まれる任
意の文字列を抽出し、該文字列の出現頻度を計数するN
グラム頻度情報計部11と、文字列の出現頻度と実際
に出現した文字列の種類の総数頻度から文字列の重要度
を計算する文字列重要度計算部12と、文書ファイル1
0から抽出された文字列と文字列重要度計算部12によ
って計数されたその文字列の重要度が記録される文字列
重要度テーブル13と、文字列重要度テーブル13から
無意味な文字列を排除しキーワード候補を抽出する文字
列選別部14と、文字列選別部14によって抽出された
キーワード候補が記録されるキーワード候補テーブル1
5で構成されている。
【0018】図2はNグラム頻度情報計数部11と文字
列重要度計算部12の処理を示すフローチャートであ
る。まず、文書ファイル10に記録されている文書を1
文ごとに読み込み(ステップ21)、その文から部分文
字列を作り、さらにその各部分文字列を先頭の文字から
n(nは所定の自然数)以下の部分文字列を作り、文字
列テーブル16に出力する(ステップ22,23)。次
に、各文字列長さの部分文字列の種類と各種類の部分文
字列の文章中の出現頻度を求め、各文字列長さに応じた
テーブル(Nグラムテーブル)17に格納する(ステッ
プ24)。ここで、テーブル17に記録される出現頻度
は実際の出現頻度から1を引いたものである。最後に、
各部分文字列Xの重要度Iを次式により算出し、部分
文字列Xのグラム重要度テーブル18に格納する(ス
テップ26)。
【0019】 I =Y×S ・・・・・(1) ここで、YはNグラムテーブル17に格納されている部
分文字列Xの出現頻度、Sは部分文字列Xの長さ以下
の部分文字列の種類の総数である。
【0020】図3は文字列選別部14の処理を示すフロ
ーチャートである。まず、全てのNグラム重要度テーブ
ル18を合併し、部分文字列を重要度の高い順に並べか
え、文字列重要度テーブル13に記録する(ステップ3
1)。次に、文字列重要度テーブル13に記録された部
分文字列を重要度の高いものから順にキーワード候補と
して抽出する(ステップ32)。そして抽出した部分文
字列がキーワード候補テーブル15にすでに記録されて
いる文字列の部分文字列になっていなければ、抽出した
文字列をキーワード候補テーブル15に記録する(ステ
ップ35)。文字列重要度テーブル13にある全ての文
字列について以上の操作を繰り返す。
【0021】こうしてキーワード候補テーブル15に記
録された文字列がその重要度の高いものから順に選択部
分におけるキーワード候補となっている。
【0022】次の文章は文書ファイル10に記録されて
いる文書の第1の例である。 「核融合炉の開発は着実に進展している それは巨額の開発資金を要するので 開発に関する議論が重要である 本研究は核融合炉実用化を評価するため 実用炉の費用を計算する解析コードを作成した 費用の解析にはデータベースを取り入れた 本コードの試算によってアスペスト比が3程度の場合経
済的には 成立し難いことがわかった」 次は文字列テーブル16の内容である。 「核融合炉の開発は着実に進展している 融合炉の開発は着実に進展している 合炉の開発は着実に進展している 炉の開発は着実に進展している の開発は着実に進展している 開発は着実に進展している 発は着実に進展している は着実に進展している 着実に進展している 実に進展している に進展している 進展している 展している している ている いる る それは巨額の開発資金を要するので れは巨額の開発資金を要するので (略) し難いことがわかった 難いことがわかった いことがわかった ことがわかった とがわかった がわかった わかった かった った た」 次はNグラムテーブル17(n=3の場合)の内容の一
部である。 「の解析 0 の開発 1 の試算 0 の場合 0 の費用 0 アスペ 0 コード 1 スを取 0 開発資 0 核融合 1 額の開 0 本研究 0 融合炉 1 用の解 0 用を計 0」 表1は文字列長別の文字列の種類の数を示している。
【0023】
【表1】 次はグラム重要度テーブル18の内容の一部(n=
3)である。
【0024】 「の解析 0 の開発 329 の試算 0 の場合 0 の費用 0 アスペ 0 コード 329 スを取 0 開発資 0 核融合 329 額の開 0 本研究 0 融合炉 329 用の解 0 用を計 0」 次はグラム重要度テーブル18を合併し重要度で文字
列をソート(0は除外)した文字列重要度テーブル13
の内容の一部である。 「603 する 468 の 453 核融合炉 402 開発 390 る 329 融合炉 329 核融合 329 コード 329 の開発 312 を 312 は 312 に 234 用 234 た 234 す 234 ー 201 炉の 201 融合 201 費用 201 実用 201 合炉 201 核融 201 解析 201 コー 201 の開 201 には 201 ード (以下略)」 次はキーワード候補テーブル15の内容の一部である。 「する 603 の 468 核融合炉 453 開発 402 コード 329 の開発 329 を 312 は 312 に 312 用 234 た 234 炉の 201 費用 201 実用 201 解析 201 には 201 ス 156 し 156 が 156 要 78 本 78 成 78 算 78 れ 78 で 78 て 78 っ 78 い 78」 次の文章は文書ファイル10に記録されている文書の第
2の例である。「赤字を出してほめられた「日本の銀
行」のウラ事情銀行というのは奇妙な世界に見えるだろ
う。太郎銀行が今3月期で800億円もの不良積権を償
却し、経常利益が2800億円の赤字になることを発表
した。普通なら赤字決算は評判の悪いものだが、AA
省、BBは高く高く”評価”したし、株価は1日で27
0円もはね上がった。赤字を出してほめられるのだか
ら、ほめられる方もこそばゆいだろうが、世間の人が
「なぜだ!!」と思うのもムリはない。
【0025】さよう、銀行ならではの事情があったので
ある。
【0026】民間の株式会社は業績が悪くなったり、不
良債権を抱え込めば赤字決算になるのは当り前だが、銀
行はAA省が認めてくれなければ赤字にできないのであ
る。昨年の決算で不良債権を大量に抱えた某銀行の決算
が問題になった。BBの関係者の中には赤字にすべきだ
という意見もあったが、AA省は「ノー」。AA省は信
用不安に火がつくことを極度に警戒するし、銀行もイメ
ージを損なうことを嫌うからだ。何のことはない。粉飾
とまではいわないが、合法的な操作で何とか利益を出し
て辻褄を合わせることを指導しているようなものだ。
【0027】ところが長引く株価低迷でもうこの手が使
えない。不良債権は次々と表面化して増えてくる。太郎
銀行は8000億を一気に償却したとほめられているが
全部なくなるわけではない。
【0028】AA省もかつて収益力ナンバーワンの太郎
銀行が踏み切るならば世間も納得し、信用不安になるま
いという読みがある。後に赤字決算の銀行が続きやす
い。一方、太郎銀行は単純な赤字決算と違う。8000
億円も一度に償却し、積立金を崩して赤字を埋められる
のは体力のあることを天下にしめすもの。追随できるな
らやってご覧という自負もある。
【0029】かくてAA省と太郎銀行の思惑は一致した
のである。」 表2は上記文書例中の文字列の出現頻度の一部を示して
いる
【0030】
【表2】 表3は上記文書例中の文字列長別の文字列の種類の数の
一部を示している。
【0031】
【表3】 表4は上記文書例中の文字列を重要度の高い順にソート
したときの上位文字列を示している。
【0032】
【表4】 表5は上記文書例からキーワード候補の文字列の一部を
重要度とともに示したものである。
【0033】
【表5】
【0034】
【発明の効果】以上説明したように本発明によれば、与
えられた文書とその選択部分を自動的に解析し、キーワ
ード候補の抽出をすることによって、あらかじめ人手に
より辞書を作成する労力を大幅に削減できる。
【0035】また、本発明は、未知語などの辞書や構文
などのルール等、与えられる文章以外の情報を一切使用
しないため、静的にはプログラムおよびデータサイズが
非常に小さくて済み、動的には情報処理における辞書検
索やルール適用などの複雑かつ重い処理が不要であるの
で、メインフレームはもちろん、パソコンなどプロセッ
サ処理能力に制限がある環境下においても、十分な機能
および処理速度を発揮できる。
【0036】また、本発明を、例えば実施例に示したよ
うな時事刻々流れるニュース記事などに適用するとき、
事前の辞書登録やルール教示などを一切必要としないた
め、初めて遭遇する未知語が含まれており、かつそれが
内容上重要であるような場合にも、内容の分野の如何に
かかわらず、その未知語をキーワード候補として捕捉で
きるという、応用上の顕著な利点がある。
【0037】さらに、本発明を、全国紙新聞記事1年分
のように、各分野の内容がまんべんなく出現するよう
な、十分大規模な文章群に対して適用すれば、得られた
キーワード候補は特定の専門分野に偏らない性格を持つ
ため、簡便な「一般語群抽出方法または装置」として利
用でき、得られた一般語群は、例えば専門分野の文献の
キーワードから一般語を除外するために有効に利用でき
ることは明らかである。
【図面の簡単な説明】
【図1】本発明の一実施例のキーワード自動抽出装置の
ブロック図である。
【図2】Nグラム頻度情報計算部11と文字列重要度計
算部12の処理を示すフローチャートである。
【図3】文字列選別部14の処理を示すフローチャート
である。
【符号の説明】
10 文書ファイル 11 Nグラム頻度情報計算部 12 文字列重要度計算部 13 文字列重要度テーブル 14 文字列選別部 15 キーワード候補テーブル 16 文字列テーブル 17 グラムテーブル 18 グラム重要度テーブル 21〜25,31〜35 ステップ
フロントページの続き (56)参考文献 特開 平3−135669(JP,A) 特開 平6−282572(JP,A) 長尾眞 他,大規模日本語テキストの nグラム統計の作り方と語句の自動抽 出,情報処理学会研究報告 NL,日 本,社団法人 情報処理学会,1993年 7月 9日,VOL.93,No.61,第 1頁乃至第8頁 神尾達夫,新聞記事データベースにお けるキーワード自動抽出,情報管理,日 本,日本科学技術情報センター,1989年 7月 1日,VOL32 No.4,第 283頁乃至第293頁 広木守雄,シソーラスの研究,Jou rnal of Library an d Information Scie nce,日本,図書館情報学会,1990年 3月31日,VOL5,第37頁乃至第48 頁 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 与えられた文章を入力し、該文章から文
    字列長n(nは所定の自然数)以下の部分文字列を生成
    し、文字列長n以下の部分文字列を文字列テーブルに出
    力する手段と、 前記文字列テーブルから部分文字列を入力し、各文字列
    長の部分文字列の種類と各種類の部分文字列の前記文章
    中の出現頻度を算出し、文字列長に応じたNグラムテー
    ブルに出力する手段と、 前記各Nグラムテーブルに格納されている部分文字列の
    出現頻度と、当該部分文字列の長さn以下の部分文字列
    の種類の総和とを乗じた値を当該部分文字列の重要度と
    して算出し、部分文字列長に応じたNグラム重要度テー
    ブルに出力する手段と、 前記全てのNグラム重要度テーブルより、重要度が求め
    られた文字列を順次求め、これら文字列のうち、当該文
    字列より重要度が小さく、かつ当該文字列の部分文字列
    となっている文字列をキーワード候補から除外してキー
    ワード候補テーブルに出力する手段を有する キーワード
    自動抽出装置。
  2. 【請求項2】 文字列長n以下の部分文字列を文字列テ
    ーブルに出力する手段は、前記文章から部分文字列を生
    成し、各部分文字列の先頭の文字から文字列長n以下の
    部分文字列を生成する、請求項1に記載のキーワード自
    動抽出装置。
  3. 【請求項3】 前記キーワード候補テーブルに出力する
    手段は、n個のNグラム重要度テーブルを結合する処理
    と、該テーブルの文字列を重要度の順にソートする処理
    と、ソートしたテーブルから文字列を逐次読み出し、該
    文字列が他の文字列の部分としてキーワード候補テーブ
    ル上に登録されているか否かを検査する処理と、該文字
    列が他の文字列の部分として前記キーワード候補テーブ
    ル上に登録されていた場合には、該文字列を前記キーワ
    ード候補テーブルに登録しない処理を含む、請求項1ま
    たは2に記載のキーワード自動抽出装置。
JP12652495A 1995-05-25 1995-05-25 キーワード自動抽出方法および装置 Expired - Fee Related JP3416918B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12652495A JP3416918B2 (ja) 1995-05-25 1995-05-25 キーワード自動抽出方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12652495A JP3416918B2 (ja) 1995-05-25 1995-05-25 キーワード自動抽出方法および装置

Publications (2)

Publication Number Publication Date
JPH08320873A JPH08320873A (ja) 1996-12-03
JP3416918B2 true JP3416918B2 (ja) 2003-06-16

Family

ID=14937345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12652495A Expired - Fee Related JP3416918B2 (ja) 1995-05-25 1995-05-25 キーワード自動抽出方法および装置

Country Status (1)

Country Link
JP (1) JP3416918B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3622503B2 (ja) * 1998-05-29 2005-02-23 株式会社日立製作所 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
EP2336908B1 (en) * 2008-08-26 2014-01-29 International Business Machines Corporation Search device, search method and search program using open search engine
JP4831787B2 (ja) * 2009-02-09 2011-12-07 日本電信電話株式会社 引用検出装置、そのプログラム及び記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03135669A (ja) * 1989-06-29 1991-06-10 Tokyo Electric Power Co Inc:The キーワード自動抽出システム
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
広木守雄,シソーラスの研究,Journal of Library and Information Science,日本,図書館情報学会,1990年 3月31日,VOL5,第37頁乃至第48頁
神尾達夫,新聞記事データベースにおけるキーワード自動抽出,情報管理,日本,日本科学技術情報センター,1989年 7月 1日,VOL32 No.4,第283頁乃至第293頁
長尾眞 他,大規模日本語テキストのnグラム統計の作り方と語句の自動抽出,情報処理学会研究報告 NL,日本,社団法人 情報処理学会,1993年 7月 9日,VOL.93,No.61,第1頁乃至第8頁

Also Published As

Publication number Publication date
JPH08320873A (ja) 1996-12-03

Similar Documents

Publication Publication Date Title
Pollard et al. Information-based syntax and semantics: Vol. 1: fundamentals
US7269544B2 (en) System and method for identifying special word usage in a document
Phatthiyaphaibun et al. Pythainlp: Thai natural language processing in python
US7197449B2 (en) Method for extracting name entities and jargon terms using a suffix tree data structure
Srihari et al. Infoxtract: A customizable intermediate level information extraction engine
Sameen et al. Measuring short text reuse for the Urdu language
JP2001084250A (ja) 膨大な文書データからの知識抽出方法、その装置及び媒体
Singh et al. Writing Style Change Detection on Multi-Author Documents.
CN112668281B (zh) 基于模板的语料自动化扩充方法、装置、设备及介质
Hu et al. The methods of big data fusion and semantic collision detection in Internet of Thing
Elbarougy et al. A proposed natural language processing preprocessing procedures for enhancing arabic text summarization
JP3416918B2 (ja) キーワード自動抽出方法および装置
JP3123836B2 (ja) テキスト型データベース装置
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
Fatima et al. STEMUR: An automated word conflation algorithm for the Urdu language
Revanth et al. Nl2sql: Natural language to sql query translator
Vaishali Kadam et al. Design and development of marathi word stemmer
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
CN114462378A (zh) 科技项目查重方法、系统、计算机设备及存储介质
Saroj et al. Rule based Event Extraction System from Newswires and Social Media Text in Indian Languages (EventXtract-IL) for English and Hindi Data.
JP7312841B2 (ja) 法律分析装置、及び法律分析方法
JP2778025B2 (ja) 共起関係辞書の学習方法
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Abera et al. Information extraction model for afan oromo news text
Peng Research on Corpus Construction of Legal English Teaching Based on Data-Driven Learning

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees