JP2002259411A - 文章情報変換システム、文章情報変換方法および文章情報変換プログラム - Google Patents
文章情報変換システム、文章情報変換方法および文章情報変換プログラムInfo
- Publication number
- JP2002259411A JP2002259411A JP2001061879A JP2001061879A JP2002259411A JP 2002259411 A JP2002259411 A JP 2002259411A JP 2001061879 A JP2001061879 A JP 2001061879A JP 2001061879 A JP2001061879 A JP 2001061879A JP 2002259411 A JP2002259411 A JP 2002259411A
- Authority
- JP
- Japan
- Prior art keywords
- document information
- word
- relational database
- cluster
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 リレーショナルデータベース上の文書情報
を、集計処理可能なグルーピング(カテゴリ)情報に変
換する。 【解決手段】 単語抽出部2は、リレーショナルデータ
ベース1格納された文書情報を、その文書中に含まれる
単語に分解する。クラスタ化辞書作成部3は、分解され
た単語間の共起データを元に単語をクラスタに分類し、
単語クラスタ辞書4を作成する。特徴単語抽出部5は、
単語クラスタ辞書4を参照し、クラスタグループ中の出
現頻度が高いものを、そのクラスタグループの特徴単語
として抽出する。特徴単語付加部6は、単語クラスタ辞
書を用い、リレーショナルデータベース1の各レコード
の文書情報がどのクラスタグループとの距離が近いかを
判断し、各レコードに該当クラスタグループの特徴語を
付与する。
を、集計処理可能なグルーピング(カテゴリ)情報に変
換する。 【解決手段】 単語抽出部2は、リレーショナルデータ
ベース1格納された文書情報を、その文書中に含まれる
単語に分解する。クラスタ化辞書作成部3は、分解され
た単語間の共起データを元に単語をクラスタに分類し、
単語クラスタ辞書4を作成する。特徴単語抽出部5は、
単語クラスタ辞書4を参照し、クラスタグループ中の出
現頻度が高いものを、そのクラスタグループの特徴単語
として抽出する。特徴単語付加部6は、単語クラスタ辞
書を用い、リレーショナルデータベース1の各レコード
の文書情報がどのクラスタグループとの距離が近いかを
判断し、各レコードに該当クラスタグループの特徴語を
付与する。
Description
【0001】
【発明の属する技術分野】本発明は、リレーショナルデ
ータベース上の文書情報を、集計処理可能なグルーピン
グ情報に変換する文章情報変換システム、文章情報変換
方法および文章情報変換プログラムに関する。
ータベース上の文書情報を、集計処理可能なグルーピン
グ情報に変換する文章情報変換システム、文章情報変換
方法および文章情報変換プログラムに関する。
【0002】
【従来の技術】マルチメディア時代においては、大量の
電子化されたテキストの分類や検索、統計的な処理が、
現在よりさらに頻繁にかつ身近に行われると考えられ
る。こうした要望に応えるためには、正確かつ高速に文
章を分類し、統計的な処理を可能にする技術の確立が必
要である。
電子化されたテキストの分類や検索、統計的な処理が、
現在よりさらに頻繁にかつ身近に行われると考えられ
る。こうした要望に応えるためには、正確かつ高速に文
章を分類し、統計的な処理を可能にする技術の確立が必
要である。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た従来技術では、リレーショナルデータベースに格納さ
れた文書情報は、集計処理におけるグルーピングには使
用できず、その定量的な情報が取得できないため、定量
分析には使用できないという問題があった。
た従来技術では、リレーショナルデータベースに格納さ
れた文書情報は、集計処理におけるグルーピングには使
用できず、その定量的な情報が取得できないため、定量
分析には使用できないという問題があった。
【0004】この発明は上述した事情に鑑みてなされた
もので、リレーショナルデータベース上の文書情報を、
集計処理可能なグルーピング(カテゴリ)情報に変換す
ることができる文章情報変換システム、文章情報変換方
法および文章情報変換プログラムを提供することを目的
とする。
もので、リレーショナルデータベース上の文書情報を、
集計処理可能なグルーピング(カテゴリ)情報に変換す
ることができる文章情報変換システム、文章情報変換方
法および文章情報変換プログラムを提供することを目的
とする。
【0005】
【課題を解決するための手段】上述した問題点を解決す
るために、請求項1記載の発明では、リレーショナルデ
ータベースに蓄積された文書情報から、そこに含まれる
単語を、単語間の共起データに基づいてクラスタグルー
プに分類する分類手段と、前記分類手段によって分類さ
れたクラスタグループ中の出現頻度が高い単語を、その
クラスタグループの特徴単語として抽出する抽出手段
と、前記リレーショナルデータベースに蓄積された文書
情報に前記抽出手段により抽出された特徴単語を付与す
る付与手段とを具備することを特徴とする。
るために、請求項1記載の発明では、リレーショナルデ
ータベースに蓄積された文書情報から、そこに含まれる
単語を、単語間の共起データに基づいてクラスタグルー
プに分類する分類手段と、前記分類手段によって分類さ
れたクラスタグループ中の出現頻度が高い単語を、その
クラスタグループの特徴単語として抽出する抽出手段
と、前記リレーショナルデータベースに蓄積された文書
情報に前記抽出手段により抽出された特徴単語を付与す
る付与手段とを具備することを特徴とする。
【0006】また、請求項2記載の発明では、請求項1
記載の文書情報変換システムにおいて、前記付与手段
は、前記リレーショナルデータベースの各レコードの文
書情報がどのクラスタグループとの距離が近いかを判断
し、該距離に基づいて、各レコードに該当クラスタグル
ープの特徴語を付与することを特徴とする。
記載の文書情報変換システムにおいて、前記付与手段
は、前記リレーショナルデータベースの各レコードの文
書情報がどのクラスタグループとの距離が近いかを判断
し、該距離に基づいて、各レコードに該当クラスタグル
ープの特徴語を付与することを特徴とする。
【0007】また、上述した問題点を解決するために、
請求項3記載の発明では、リレーショナルデータベース
に蓄積された文書情報から、そこに含まれる単語を、単
語間の共起データに基づいてクラスタグループに分類
し、前記分類されたクラスタグループ中の出現頻度が高
い単語を、そのクラスタグループの特徴単語として抽出
し、前記リレーショナルデータベースに蓄積された文書
情報に前記抽出された特徴単語を付与することを特徴と
する。
請求項3記載の発明では、リレーショナルデータベース
に蓄積された文書情報から、そこに含まれる単語を、単
語間の共起データに基づいてクラスタグループに分類
し、前記分類されたクラスタグループ中の出現頻度が高
い単語を、そのクラスタグループの特徴単語として抽出
し、前記リレーショナルデータベースに蓄積された文書
情報に前記抽出された特徴単語を付与することを特徴と
する。
【0008】また、請求項4記載の発明では、請求項2
記載の文書情報変換方法において、前記リレーショナル
データベースの文書情報に特徴単語を付与する際、前記
リレーショナルデータベースの各レコードの文書情報が
どのクラスタグループとの距離が近いかを判断し、該距
離に基づいて、各レコードに該当クラスタグループの特
徴語を付与することを特徴とする。
記載の文書情報変換方法において、前記リレーショナル
データベースの文書情報に特徴単語を付与する際、前記
リレーショナルデータベースの各レコードの文書情報が
どのクラスタグループとの距離が近いかを判断し、該距
離に基づいて、各レコードに該当クラスタグループの特
徴語を付与することを特徴とする。
【0009】また、上述した問題点を解決するために、
請求項5記載の発明では、リレーショナルデータベース
に蓄積された文書情報から、そこに含まれる単語を、単
語間の共起データに基づいてクラスタグループに分類す
るステップと、前記分類されたクラスタグループ中の出
現頻度が高い単語を、そのクラスタグループの特徴単語
として抽出するステップと、前記リレーショナルデータ
ベースに蓄積された文書情報に前記抽出された特徴単語
を付与するステップとをコンピュータに実行させること
を特徴とする。
請求項5記載の発明では、リレーショナルデータベース
に蓄積された文書情報から、そこに含まれる単語を、単
語間の共起データに基づいてクラスタグループに分類す
るステップと、前記分類されたクラスタグループ中の出
現頻度が高い単語を、そのクラスタグループの特徴単語
として抽出するステップと、前記リレーショナルデータ
ベースに蓄積された文書情報に前記抽出された特徴単語
を付与するステップとをコンピュータに実行させること
を特徴とする。
【0010】この発明では、分類手段により、リレーシ
ョナルデータベースに格納された文書情報を、その文書
中に含まれる単語を、単語間の共起データを元にクラス
タに分類し、抽出手段により、それぞれのクラスタグル
ープ中の出現頻度が高い単語をクラスタグループの特徴
単語とし、付与手段により、リレーショナルデータベー
ス上の文書情報に前記特徴単語を付与する。したがっ
て、リレーショナルデータベース上に格納された文書情
報を、カテゴリ情報に変換し、集計項目として使用する
ことが可能となる。
ョナルデータベースに格納された文書情報を、その文書
中に含まれる単語を、単語間の共起データを元にクラス
タに分類し、抽出手段により、それぞれのクラスタグル
ープ中の出現頻度が高い単語をクラスタグループの特徴
単語とし、付与手段により、リレーショナルデータベー
ス上の文書情報に前記特徴単語を付与する。したがっ
て、リレーショナルデータベース上に格納された文書情
報を、カテゴリ情報に変換し、集計項目として使用する
ことが可能となる。
【0011】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。 A.実施形態の構成 図1は、本発明の実施形態による文章情報変換システム
の構成を示すブロック図である。図1において、リレー
ショナルデータベース1は、複数の文書情報をレコード
単位で蓄積している。単語抽出部2は、リレーショナル
データベース1格納された文書情報を、その文書中に含
まれる単語に分解する。クラスタ化辞書作成部3は、分
解された単語間の共起データを元に単語をクラスタに分
類し、単語のクラスタを辞書化する。
の形態を説明する。 A.実施形態の構成 図1は、本発明の実施形態による文章情報変換システム
の構成を示すブロック図である。図1において、リレー
ショナルデータベース1は、複数の文書情報をレコード
単位で蓄積している。単語抽出部2は、リレーショナル
データベース1格納された文書情報を、その文書中に含
まれる単語に分解する。クラスタ化辞書作成部3は、分
解された単語間の共起データを元に単語をクラスタに分
類し、単語のクラスタを辞書化する。
【0012】単語クラスタ辞書4は、クラスタ化辞書作
成部3により作成された辞書である。特徴単語抽出部5
は、単語クラスタ辞書4を参照し、クラスタグループ中
の出現頻度が高いものを、そのクラスタグループの特徴
単語として抽出する。
成部3により作成された辞書である。特徴単語抽出部5
は、単語クラスタ辞書4を参照し、クラスタグループ中
の出現頻度が高いものを、そのクラスタグループの特徴
単語として抽出する。
【0013】特徴単語付加部6は、単語クラスタ辞書を
用い、リレーショナルデータベース1の各レコードの文
書情報がどのクラスタグループとの距離が近いかを判断
し、各レコードに該当クラスタグループの特徴語を付与
する。
用い、リレーショナルデータベース1の各レコードの文
書情報がどのクラスタグループとの距離が近いかを判断
し、各レコードに該当クラスタグループの特徴語を付与
する。
【0014】B.実施形態の動作 次に、図2に示すフローを参照して本実施形態の動作に
ついて詳細に説明する。リレーショナルデータベース1
に格納された文書情報は、単語抽出部2により、単語に
分解され、クラスタ化辞書作成部3により、分解された
単語間の共起データを元にクラスタに分類され、単語ク
ラスタ辞書4としてクラスタグループ化される(S
1)。
ついて詳細に説明する。リレーショナルデータベース1
に格納された文書情報は、単語抽出部2により、単語に
分解され、クラスタ化辞書作成部3により、分解された
単語間の共起データを元にクラスタに分類され、単語ク
ラスタ辞書4としてクラスタグループ化される(S
1)。
【0015】次に、特徴単語抽出部5により、単語クラ
スタ辞書4が参照され、クラスタグループ中の出現頻度
が高いものが、そのクラスタグループの特徴単語として
抽出され、該当クラスタグループに対応付けられて単語
クラスタ辞書4に保持される(S2)。図示の例では、
グループ01〜03に分類され、それぞれの特徴語とし
て「H」、「I」、「J」が抽出される。
スタ辞書4が参照され、クラスタグループ中の出現頻度
が高いものが、そのクラスタグループの特徴単語として
抽出され、該当クラスタグループに対応付けられて単語
クラスタ辞書4に保持される(S2)。図示の例では、
グループ01〜03に分類され、それぞれの特徴語とし
て「H」、「I」、「J」が抽出される。
【0016】そして、特徴単語付加部6により、単語ク
ラスタ辞書を参照することにより、リレーショナルデー
タベース1の各レコードの文書情報がどのクラスタグル
ープと最も距離が近いかが判断され、リレーショナルデ
ータベース1の各レコードに該当クラスタグループの特
徴語が付与される(S3)。図示の例では、キー部「0
01」の文書には、特徴語「J」が付与され、キー部
「002」の文章には、特徴語「I」、キー部「00
3」の文章には、特徴語「H」が付与される。
ラスタ辞書を参照することにより、リレーショナルデー
タベース1の各レコードの文書情報がどのクラスタグル
ープと最も距離が近いかが判断され、リレーショナルデ
ータベース1の各レコードに該当クラスタグループの特
徴語が付与される(S3)。図示の例では、キー部「0
01」の文書には、特徴語「J」が付与され、キー部
「002」の文章には、特徴語「I」、キー部「00
3」の文章には、特徴語「H」が付与される。
【0017】これにより、リレーショナルデータベース
1上では、参照情報としてのみ利用可能であった文書情
報を、集計処理におけるグルーピング情報として用いる
ことが可能となる。
1上では、参照情報としてのみ利用可能であった文書情
報を、集計処理におけるグルーピング情報として用いる
ことが可能となる。
【0018】
【発明の効果】以上説明したように、本発明によれば、
分類手段により、リレーショナルデータベースに格納さ
れた文書情報を、その文書中に含まれる単語を、単語間
の共起データを元にクラスタに分類し、抽出手段によ
り、それぞれのクラスタグループ中の出現頻度が高い単
語をクラスタグループの特徴単語とし、付与手段によ
り、リレーショナルデータベース上の文書情報に前記特
徴単語を付与するようにしたので、リレーショナルデー
タベース上の文書情報を、集計処理可能なグルーピング
(カテゴリ)情報に変換することができるという利点が
得られる。
分類手段により、リレーショナルデータベースに格納さ
れた文書情報を、その文書中に含まれる単語を、単語間
の共起データを元にクラスタに分類し、抽出手段によ
り、それぞれのクラスタグループ中の出現頻度が高い単
語をクラスタグループの特徴単語とし、付与手段によ
り、リレーショナルデータベース上の文書情報に前記特
徴単語を付与するようにしたので、リレーショナルデー
タベース上の文書情報を、集計処理可能なグルーピング
(カテゴリ)情報に変換することができるという利点が
得られる。
【図1】 本発明の実施形態による文章情報変換システ
ムの構成を示すブロック図である。
ムの構成を示すブロック図である。
【図2】 本実施形態による文章情報変換システムの動
作を説明するための概念図である。
作を説明するための概念図である。
1 リレーショナルデータベース 2 単語抽出部(分類手段) 3 クラスタ化辞書作成部(分類手段) 4 単語クラスタ辞書 5 特徴単語抽出部(抽出手段) 6 特徴単語付加部(付与手段)
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 12/00 512 G06F 12/00 512
Claims (5)
- 【請求項1】 リレーショナルデータベースに蓄積され
た文書情報から、そこに含まれる単語を、単語間の共起
データに基づいてクラスタグループに分類する分類手段
と、 前記分類手段によって分類されたクラスタグループ中の
出現頻度が高い単語を、そのクラスタグループの特徴単
語として抽出する抽出手段と、 前記リレーショナルデータベースに蓄積された文書情報
に前記抽出手段により抽出された特徴単語を付与する付
与手段とを具備することを特徴とする文章情報変換シス
テム。 - 【請求項2】 前記付与手段は、前記リレーショナルデ
ータベースの各レコードの文書情報がどのクラスタグル
ープとの距離が近いかを判断し、該距離に基づいて、各
レコードに該当クラスタグループの特徴語を付与するこ
とを特徴とする請求項1記載の文書情報変換システム。 - 【請求項3】 リレーショナルデータベースに蓄積され
た文書情報から、そこに含まれる単語を、単語間の共起
データに基づいてクラスタグループに分類し、 前記分類されたクラスタグループ中の出現頻度が高い単
語を、そのクラスタグループの特徴単語として抽出し、 前記リレーショナルデータベースに蓄積された文書情報
に前記抽出された特徴単語を付与することを特徴とする
文章情報変換方法。 - 【請求項4】 前記リレーショナルデータベースの文書
情報に特徴単語を付与する際、前記リレーショナルデー
タベースの各レコードの文書情報がどのクラスタグルー
プとの距離が近いかを判断し、該距離に基づいて、各レ
コードに該当クラスタグループの特徴語を付与すること
を特徴とする請求項2記載の文書情報変換方法。 - 【請求項5】 リレーショナルデータベースに蓄積され
た文書情報から、そこに含まれる単語を、単語間の共起
データに基づいてクラスタグループに分類するステップ
と、 前記分類されたクラスタグループ中の出現頻度が高い単
語を、そのクラスタグループの特徴単語として抽出する
ステップと、 前記リレーショナルデータベースに蓄積された文書情報
に前記抽出された特徴単語を付与するステップとをコン
ピュータに実行させることを特徴とする文章情報変換プ
ログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001061879A JP2002259411A (ja) | 2001-03-06 | 2001-03-06 | 文章情報変換システム、文章情報変換方法および文章情報変換プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001061879A JP2002259411A (ja) | 2001-03-06 | 2001-03-06 | 文章情報変換システム、文章情報変換方法および文章情報変換プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002259411A true JP2002259411A (ja) | 2002-09-13 |
Family
ID=18921097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001061879A Pending JP2002259411A (ja) | 2001-03-06 | 2001-03-06 | 文章情報変換システム、文章情報変換方法および文章情報変換プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002259411A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013186764A (ja) * | 2012-03-09 | 2013-09-19 | Kddi Corp | 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ |
WO2022130578A1 (ja) * | 2020-12-17 | 2022-06-23 | 富士通株式会社 | 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 |
WO2022130579A1 (ja) * | 2020-12-17 | 2022-06-23 | 富士通株式会社 | 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000172701A (ja) * | 1998-12-04 | 2000-06-23 | Fujitsu Ltd | 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体 |
JP2000250919A (ja) * | 1999-02-26 | 2000-09-14 | Fujitsu Ltd | 文書処理装置及びそのプログラム記憶媒体 |
-
2001
- 2001-03-06 JP JP2001061879A patent/JP2002259411A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000172701A (ja) * | 1998-12-04 | 2000-06-23 | Fujitsu Ltd | 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体 |
JP2000250919A (ja) * | 1999-02-26 | 2000-09-14 | Fujitsu Ltd | 文書処理装置及びそのプログラム記憶媒体 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013186764A (ja) * | 2012-03-09 | 2013-09-19 | Kddi Corp | 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ |
WO2022130578A1 (ja) * | 2020-12-17 | 2022-06-23 | 富士通株式会社 | 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 |
WO2022130579A1 (ja) * | 2020-12-17 | 2022-06-23 | 富士通株式会社 | 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 |
JP7487797B2 (ja) | 2020-12-17 | 2024-05-21 | 富士通株式会社 | 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Duwairi | Machine learning for Arabic text categorization | |
Kadhim et al. | Text document preprocessing and dimension reduction techniques for text document clustering | |
Runkler et al. | Web mining with relational clustering | |
CN110457676B (zh) | 评价信息的提取方法及装置、存储介质、计算机设备 | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN105138864B (zh) | 基于生物医学文献的蛋白质交互关系数据库构建方法 | |
US7046847B2 (en) | Document processing method, system and medium | |
CN107391565B (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
CN109885641B (zh) | 一种数据库中文全文检索的方法及系统 | |
CN113722483A (zh) | 话题分类方法、装置、设备及存储介质 | |
CN111949774A (zh) | 一种智能问答方法和系统 | |
CN110110326B (zh) | 一种基于主题信息的文本切割方法 | |
US9563666B2 (en) | Unsupervised detection and categorization of word clusters in text data | |
JP2002259411A (ja) | 文章情報変換システム、文章情報変換方法および文章情報変換プログラム | |
CN112882997B (zh) | 一种基于N-gram与频繁模式挖掘的系统日志解析方法 | |
Serrano et al. | The evaluation of ordered features for sms spam filtering | |
US20210073258A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
Dasri et al. | Text mining framework, methods and techniques | |
Alkhafaji et al. | A topic modeling for clustering Arabic documents | |
US20130166558A1 (en) | Method and system for classifying article | |
CN100378713C (zh) | 为对象分类的自动确定显著特点的方法和装置 | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
CN117150046B (zh) | 基于上下文语义的任务自动分解方法和系统 | |
Kale et al. | Influence of language-specific features for author identification on Indian literature in Marathi |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041019 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050531 |