JP2002259411A

JP2002259411A - 文章情報変換システム、文章情報変換方法および文章情報変換プログラム

Info

Publication number: JP2002259411A
Application number: JP2001061879A
Authority: JP
Inventors: Shinji Toga; 伸治外賀
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-03-06
Filing date: 2001-03-06
Publication date: 2002-09-13

Abstract

(57)【要約】【課題】リレーショナルデータベース上の文書情報
を、集計処理可能なグルーピング（カテゴリ）情報に変
換する。【解決手段】単語抽出部２は、リレーショナルデータ
ベース１格納された文書情報を、その文書中に含まれる
単語に分解する。クラスタ化辞書作成部３は、分解され
た単語間の共起データを元に単語をクラスタに分類し、
単語クラスタ辞書４を作成する。特徴単語抽出部５は、
単語クラスタ辞書４を参照し、クラスタグループ中の出
現頻度が高いものを、そのクラスタグループの特徴単語
として抽出する。特徴単語付加部６は、単語クラスタ辞
書を用い、リレーショナルデータベース１の各レコード
の文書情報がどのクラスタグループとの距離が近いかを
判断し、各レコードに該当クラスタグループの特徴語を
付与する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、リレーショナルデ
ータベース上の文書情報を、集計処理可能なグルーピン
グ情報に変換する文章情報変換システム、文章情報変換
方法および文章情報変換プログラムに関する。

【０００２】

【従来の技術】マルチメディア時代においては、大量の
電子化されたテキストの分類や検索、統計的な処理が、
現在よりさらに頻繁にかつ身近に行われると考えられ
る。こうした要望に応えるためには、正確かつ高速に文
章を分類し、統計的な処理を可能にする技術の確立が必
要である。

【０００３】

【発明が解決しようとする課題】しかしながら、上述し
た従来技術では、リレーショナルデータベースに格納さ
れた文書情報は、集計処理におけるグルーピングには使
用できず、その定量的な情報が取得できないため、定量
分析には使用できないという問題があった。

【０００４】この発明は上述した事情に鑑みてなされた
もので、リレーショナルデータベース上の文書情報を、
集計処理可能なグルーピング（カテゴリ）情報に変換す
ることができる文章情報変換システム、文章情報変換方
法および文章情報変換プログラムを提供することを目的
とする。

【０００５】

【課題を解決するための手段】上述した問題点を解決す
るために、請求項１記載の発明では、リレーショナルデ
ータベースに蓄積された文書情報から、そこに含まれる
単語を、単語間の共起データに基づいてクラスタグルー
プに分類する分類手段と、前記分類手段によって分類さ
れたクラスタグループ中の出現頻度が高い単語を、その
クラスタグループの特徴単語として抽出する抽出手段
と、前記リレーショナルデータベースに蓄積された文書
情報に前記抽出手段により抽出された特徴単語を付与す
る付与手段とを具備することを特徴とする。

【０００６】また、請求項２記載の発明では、請求項１
記載の文書情報変換システムにおいて、前記付与手段
は、前記リレーショナルデータベースの各レコードの文
書情報がどのクラスタグループとの距離が近いかを判断
し、該距離に基づいて、各レコードに該当クラスタグル
ープの特徴語を付与することを特徴とする。

【０００７】また、上述した問題点を解決するために、
請求項３記載の発明では、リレーショナルデータベース
に蓄積された文書情報から、そこに含まれる単語を、単
語間の共起データに基づいてクラスタグループに分類
し、前記分類されたクラスタグループ中の出現頻度が高
い単語を、そのクラスタグループの特徴単語として抽出
し、前記リレーショナルデータベースに蓄積された文書
情報に前記抽出された特徴単語を付与することを特徴と
する。

【０００８】また、請求項４記載の発明では、請求項２
記載の文書情報変換方法において、前記リレーショナル
データベースの文書情報に特徴単語を付与する際、前記
リレーショナルデータベースの各レコードの文書情報が
どのクラスタグループとの距離が近いかを判断し、該距
離に基づいて、各レコードに該当クラスタグループの特
徴語を付与することを特徴とする。

【０００９】また、上述した問題点を解決するために、
請求項５記載の発明では、リレーショナルデータベース
に蓄積された文書情報から、そこに含まれる単語を、単
語間の共起データに基づいてクラスタグループに分類す
るステップと、前記分類されたクラスタグループ中の出
現頻度が高い単語を、そのクラスタグループの特徴単語
として抽出するステップと、前記リレーショナルデータ
ベースに蓄積された文書情報に前記抽出された特徴単語
を付与するステップとをコンピュータに実行させること
を特徴とする。

【００１０】この発明では、分類手段により、リレーシ
ョナルデータベースに格納された文書情報を、その文書
中に含まれる単語を、単語間の共起データを元にクラス
タに分類し、抽出手段により、それぞれのクラスタグル
ープ中の出現頻度が高い単語をクラスタグループの特徴
単語とし、付与手段により、リレーショナルデータベー
ス上の文書情報に前記特徴単語を付与する。したがっ
て、リレーショナルデータベース上に格納された文書情
報を、カテゴリ情報に変換し、集計項目として使用する
ことが可能となる。

【００１１】

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。Ａ．実施形態の構成図１は、本発明の実施形態による文章情報変換システム
の構成を示すブロック図である。図１において、リレー
ショナルデータベース１は、複数の文書情報をレコード
単位で蓄積している。単語抽出部２は、リレーショナル
データベース１格納された文書情報を、その文書中に含
まれる単語に分解する。クラスタ化辞書作成部３は、分
解された単語間の共起データを元に単語をクラスタに分
類し、単語のクラスタを辞書化する。

【００１２】単語クラスタ辞書４は、クラスタ化辞書作
成部３により作成された辞書である。特徴単語抽出部５
は、単語クラスタ辞書４を参照し、クラスタグループ中
の出現頻度が高いものを、そのクラスタグループの特徴
単語として抽出する。

【００１３】特徴単語付加部６は、単語クラスタ辞書を
用い、リレーショナルデータベース１の各レコードの文
書情報がどのクラスタグループとの距離が近いかを判断
し、各レコードに該当クラスタグループの特徴語を付与
する。

【００１４】Ｂ．実施形態の動作次に、図２に示すフローを参照して本実施形態の動作に
ついて詳細に説明する。リレーショナルデータベース１
に格納された文書情報は、単語抽出部２により、単語に
分解され、クラスタ化辞書作成部３により、分解された
単語間の共起データを元にクラスタに分類され、単語ク
ラスタ辞書４としてクラスタグループ化される（Ｓ
１）。

【００１５】次に、特徴単語抽出部５により、単語クラ
スタ辞書４が参照され、クラスタグループ中の出現頻度
が高いものが、そのクラスタグループの特徴単語として
抽出され、該当クラスタグループに対応付けられて単語
クラスタ辞書４に保持される（Ｓ２）。図示の例では、
グループ０１〜０３に分類され、それぞれの特徴語とし
て「Ｈ」、「Ｉ」、「Ｊ」が抽出される。

【００１６】そして、特徴単語付加部６により、単語ク
ラスタ辞書を参照することにより、リレーショナルデー
タベース１の各レコードの文書情報がどのクラスタグル
ープと最も距離が近いかが判断され、リレーショナルデ
ータベース１の各レコードに該当クラスタグループの特
徴語が付与される（Ｓ３）。図示の例では、キー部「０
０１」の文書には、特徴語「Ｊ」が付与され、キー部
「００２」の文章には、特徴語「Ｉ」、キー部「００
３」の文章には、特徴語「Ｈ」が付与される。

【００１７】これにより、リレーショナルデータベース
１上では、参照情報としてのみ利用可能であった文書情
報を、集計処理におけるグルーピング情報として用いる
ことが可能となる。

【００１８】

【発明の効果】以上説明したように、本発明によれば、
分類手段により、リレーショナルデータベースに格納さ
れた文書情報を、その文書中に含まれる単語を、単語間
の共起データを元にクラスタに分類し、抽出手段によ
り、それぞれのクラスタグループ中の出現頻度が高い単
語をクラスタグループの特徴単語とし、付与手段によ
り、リレーショナルデータベース上の文書情報に前記特
徴単語を付与するようにしたので、リレーショナルデー
タベース上の文書情報を、集計処理可能なグルーピング
（カテゴリ）情報に変換することができるという利点が
得られる。

【図面の簡単な説明】

【図１】本発明の実施形態による文章情報変換システ
ムの構成を示すブロック図である。

【図２】本実施形態による文章情報変換システムの動
作を説明するための概念図である。

【符号の説明】

１リレーショナルデータベース２単語抽出部（分類手段）３クラスタ化辞書作成部（分類手段）４単語クラスタ辞書５特徴単語抽出部（抽出手段）６特徴単語付加部（付与手段）

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 12/00 ５１２Ｇ０６Ｆ 12/00 ５１２

Claims

【特許請求の範囲】

【請求項１】リレーショナルデータベースに蓄積され
た文書情報から、そこに含まれる単語を、単語間の共起
データに基づいてクラスタグループに分類する分類手段
と、前記分類手段によって分類されたクラスタグループ中の
出現頻度が高い単語を、そのクラスタグループの特徴単
語として抽出する抽出手段と、前記リレーショナルデータベースに蓄積された文書情報
に前記抽出手段により抽出された特徴単語を付与する付
与手段とを具備することを特徴とする文章情報変換シス
テム。
【請求項２】前記付与手段は、前記リレーショナルデ
ータベースの各レコードの文書情報がどのクラスタグル
ープとの距離が近いかを判断し、該距離に基づいて、各
レコードに該当クラスタグループの特徴語を付与するこ
とを特徴とする請求項１記載の文書情報変換システム。
【請求項３】リレーショナルデータベースに蓄積され
た文書情報から、そこに含まれる単語を、単語間の共起
データに基づいてクラスタグループに分類し、前記分類されたクラスタグループ中の出現頻度が高い単
語を、そのクラスタグループの特徴単語として抽出し、前記リレーショナルデータベースに蓄積された文書情報
に前記抽出された特徴単語を付与することを特徴とする
文章情報変換方法。
【請求項４】前記リレーショナルデータベースの文書
情報に特徴単語を付与する際、前記リレーショナルデー
タベースの各レコードの文書情報がどのクラスタグルー
プとの距離が近いかを判断し、該距離に基づいて、各レ
コードに該当クラスタグループの特徴語を付与すること
を特徴とする請求項２記載の文書情報変換方法。
【請求項５】リレーショナルデータベースに蓄積され
た文書情報から、そこに含まれる単語を、単語間の共起
データに基づいてクラスタグループに分類するステップ
と、前記分類されたクラスタグループ中の出現頻度が高い単
語を、そのクラスタグループの特徴単語として抽出する
ステップと、前記リレーショナルデータベースに蓄積された文書情報
に前記抽出された特徴単語を付与するステップとをコン
ピュータに実行させることを特徴とする文章情報変換プ
ログラム。