JP2002259411A - 文章情報変換システム、文章情報変換方法および文章情報変換プログラム - Google Patents

文章情報変換システム、文章情報変換方法および文章情報変換プログラム

Info

Publication number
JP2002259411A
JP2002259411A JP2001061879A JP2001061879A JP2002259411A JP 2002259411 A JP2002259411 A JP 2002259411A JP 2001061879 A JP2001061879 A JP 2001061879A JP 2001061879 A JP2001061879 A JP 2001061879A JP 2002259411 A JP2002259411 A JP 2002259411A
Authority
JP
Japan
Prior art keywords
document information
word
relational database
cluster
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001061879A
Other languages
English (en)
Inventor
Shinji Toga
伸治 外賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001061879A priority Critical patent/JP2002259411A/ja
Publication of JP2002259411A publication Critical patent/JP2002259411A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 リレーショナルデータベース上の文書情報
を、集計処理可能なグルーピング(カテゴリ)情報に変
換する。 【解決手段】 単語抽出部2は、リレーショナルデータ
ベース1格納された文書情報を、その文書中に含まれる
単語に分解する。クラスタ化辞書作成部3は、分解され
た単語間の共起データを元に単語をクラスタに分類し、
単語クラスタ辞書4を作成する。特徴単語抽出部5は、
単語クラスタ辞書4を参照し、クラスタグループ中の出
現頻度が高いものを、そのクラスタグループの特徴単語
として抽出する。特徴単語付加部6は、単語クラスタ辞
書を用い、リレーショナルデータベース1の各レコード
の文書情報がどのクラスタグループとの距離が近いかを
判断し、各レコードに該当クラスタグループの特徴語を
付与する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、リレーショナルデ
ータベース上の文書情報を、集計処理可能なグルーピン
グ情報に変換する文章情報変換システム、文章情報変換
方法および文章情報変換プログラムに関する。
【0002】
【従来の技術】マルチメディア時代においては、大量の
電子化されたテキストの分類や検索、統計的な処理が、
現在よりさらに頻繁にかつ身近に行われると考えられ
る。こうした要望に応えるためには、正確かつ高速に文
章を分類し、統計的な処理を可能にする技術の確立が必
要である。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た従来技術では、リレーショナルデータベースに格納さ
れた文書情報は、集計処理におけるグルーピングには使
用できず、その定量的な情報が取得できないため、定量
分析には使用できないという問題があった。
【0004】この発明は上述した事情に鑑みてなされた
もので、リレーショナルデータベース上の文書情報を、
集計処理可能なグルーピング(カテゴリ)情報に変換す
ることができる文章情報変換システム、文章情報変換方
法および文章情報変換プログラムを提供することを目的
とする。
【0005】
【課題を解決するための手段】上述した問題点を解決す
るために、請求項1記載の発明では、リレーショナルデ
ータベースに蓄積された文書情報から、そこに含まれる
単語を、単語間の共起データに基づいてクラスタグルー
プに分類する分類手段と、前記分類手段によって分類さ
れたクラスタグループ中の出現頻度が高い単語を、その
クラスタグループの特徴単語として抽出する抽出手段
と、前記リレーショナルデータベースに蓄積された文書
情報に前記抽出手段により抽出された特徴単語を付与す
る付与手段とを具備することを特徴とする。
【0006】また、請求項2記載の発明では、請求項1
記載の文書情報変換システムにおいて、前記付与手段
は、前記リレーショナルデータベースの各レコードの文
書情報がどのクラスタグループとの距離が近いかを判断
し、該距離に基づいて、各レコードに該当クラスタグル
ープの特徴語を付与することを特徴とする。
【0007】また、上述した問題点を解決するために、
請求項3記載の発明では、リレーショナルデータベース
に蓄積された文書情報から、そこに含まれる単語を、単
語間の共起データに基づいてクラスタグループに分類
し、前記分類されたクラスタグループ中の出現頻度が高
い単語を、そのクラスタグループの特徴単語として抽出
し、前記リレーショナルデータベースに蓄積された文書
情報に前記抽出された特徴単語を付与することを特徴と
する。
【0008】また、請求項4記載の発明では、請求項2
記載の文書情報変換方法において、前記リレーショナル
データベースの文書情報に特徴単語を付与する際、前記
リレーショナルデータベースの各レコードの文書情報が
どのクラスタグループとの距離が近いかを判断し、該距
離に基づいて、各レコードに該当クラスタグループの特
徴語を付与することを特徴とする。
【0009】また、上述した問題点を解決するために、
請求項5記載の発明では、リレーショナルデータベース
に蓄積された文書情報から、そこに含まれる単語を、単
語間の共起データに基づいてクラスタグループに分類す
るステップと、前記分類されたクラスタグループ中の出
現頻度が高い単語を、そのクラスタグループの特徴単語
として抽出するステップと、前記リレーショナルデータ
ベースに蓄積された文書情報に前記抽出された特徴単語
を付与するステップとをコンピュータに実行させること
を特徴とする。
【0010】この発明では、分類手段により、リレーシ
ョナルデータベースに格納された文書情報を、その文書
中に含まれる単語を、単語間の共起データを元にクラス
タに分類し、抽出手段により、それぞれのクラスタグル
ープ中の出現頻度が高い単語をクラスタグループの特徴
単語とし、付与手段により、リレーショナルデータベー
ス上の文書情報に前記特徴単語を付与する。したがっ
て、リレーショナルデータベース上に格納された文書情
報を、カテゴリ情報に変換し、集計項目として使用する
ことが可能となる。
【0011】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。 A.実施形態の構成 図1は、本発明の実施形態による文章情報変換システム
の構成を示すブロック図である。図1において、リレー
ショナルデータベース1は、複数の文書情報をレコード
単位で蓄積している。単語抽出部2は、リレーショナル
データベース1格納された文書情報を、その文書中に含
まれる単語に分解する。クラスタ化辞書作成部3は、分
解された単語間の共起データを元に単語をクラスタに分
類し、単語のクラスタを辞書化する。
【0012】単語クラスタ辞書4は、クラスタ化辞書作
成部3により作成された辞書である。特徴単語抽出部5
は、単語クラスタ辞書4を参照し、クラスタグループ中
の出現頻度が高いものを、そのクラスタグループの特徴
単語として抽出する。
【0013】特徴単語付加部6は、単語クラスタ辞書を
用い、リレーショナルデータベース1の各レコードの文
書情報がどのクラスタグループとの距離が近いかを判断
し、各レコードに該当クラスタグループの特徴語を付与
する。
【0014】B.実施形態の動作 次に、図2に示すフローを参照して本実施形態の動作に
ついて詳細に説明する。リレーショナルデータベース1
に格納された文書情報は、単語抽出部2により、単語に
分解され、クラスタ化辞書作成部3により、分解された
単語間の共起データを元にクラスタに分類され、単語ク
ラスタ辞書4としてクラスタグループ化される(S
1)。
【0015】次に、特徴単語抽出部5により、単語クラ
スタ辞書4が参照され、クラスタグループ中の出現頻度
が高いものが、そのクラスタグループの特徴単語として
抽出され、該当クラスタグループに対応付けられて単語
クラスタ辞書4に保持される(S2)。図示の例では、
グループ01〜03に分類され、それぞれの特徴語とし
て「H」、「I」、「J」が抽出される。
【0016】そして、特徴単語付加部6により、単語ク
ラスタ辞書を参照することにより、リレーショナルデー
タベース1の各レコードの文書情報がどのクラスタグル
ープと最も距離が近いかが判断され、リレーショナルデ
ータベース1の各レコードに該当クラスタグループの特
徴語が付与される(S3)。図示の例では、キー部「0
01」の文書には、特徴語「J」が付与され、キー部
「002」の文章には、特徴語「I」、キー部「00
3」の文章には、特徴語「H」が付与される。
【0017】これにより、リレーショナルデータベース
1上では、参照情報としてのみ利用可能であった文書情
報を、集計処理におけるグルーピング情報として用いる
ことが可能となる。
【0018】
【発明の効果】以上説明したように、本発明によれば、
分類手段により、リレーショナルデータベースに格納さ
れた文書情報を、その文書中に含まれる単語を、単語間
の共起データを元にクラスタに分類し、抽出手段によ
り、それぞれのクラスタグループ中の出現頻度が高い単
語をクラスタグループの特徴単語とし、付与手段によ
り、リレーショナルデータベース上の文書情報に前記特
徴単語を付与するようにしたので、リレーショナルデー
タベース上の文書情報を、集計処理可能なグルーピング
(カテゴリ)情報に変換することができるという利点が
得られる。
【図面の簡単な説明】
【図1】 本発明の実施形態による文章情報変換システ
ムの構成を示すブロック図である。
【図2】 本実施形態による文章情報変換システムの動
作を説明するための概念図である。
【符号の説明】
1 リレーショナルデータベース 2 単語抽出部(分類手段) 3 クラスタ化辞書作成部(分類手段) 4 単語クラスタ辞書 5 特徴単語抽出部(抽出手段) 6 特徴単語付加部(付与手段)
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 12/00 512 G06F 12/00 512

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 リレーショナルデータベースに蓄積され
    た文書情報から、そこに含まれる単語を、単語間の共起
    データに基づいてクラスタグループに分類する分類手段
    と、 前記分類手段によって分類されたクラスタグループ中の
    出現頻度が高い単語を、そのクラスタグループの特徴単
    語として抽出する抽出手段と、 前記リレーショナルデータベースに蓄積された文書情報
    に前記抽出手段により抽出された特徴単語を付与する付
    与手段とを具備することを特徴とする文章情報変換シス
    テム。
  2. 【請求項2】 前記付与手段は、前記リレーショナルデ
    ータベースの各レコードの文書情報がどのクラスタグル
    ープとの距離が近いかを判断し、該距離に基づいて、各
    レコードに該当クラスタグループの特徴語を付与するこ
    とを特徴とする請求項1記載の文書情報変換システム。
  3. 【請求項3】 リレーショナルデータベースに蓄積され
    た文書情報から、そこに含まれる単語を、単語間の共起
    データに基づいてクラスタグループに分類し、 前記分類されたクラスタグループ中の出現頻度が高い単
    語を、そのクラスタグループの特徴単語として抽出し、 前記リレーショナルデータベースに蓄積された文書情報
    に前記抽出された特徴単語を付与することを特徴とする
    文章情報変換方法。
  4. 【請求項4】 前記リレーショナルデータベースの文書
    情報に特徴単語を付与する際、前記リレーショナルデー
    タベースの各レコードの文書情報がどのクラスタグルー
    プとの距離が近いかを判断し、該距離に基づいて、各レ
    コードに該当クラスタグループの特徴語を付与すること
    を特徴とする請求項2記載の文書情報変換方法。
  5. 【請求項5】 リレーショナルデータベースに蓄積され
    た文書情報から、そこに含まれる単語を、単語間の共起
    データに基づいてクラスタグループに分類するステップ
    と、 前記分類されたクラスタグループ中の出現頻度が高い単
    語を、そのクラスタグループの特徴単語として抽出する
    ステップと、 前記リレーショナルデータベースに蓄積された文書情報
    に前記抽出された特徴単語を付与するステップとをコン
    ピュータに実行させることを特徴とする文章情報変換プ
    ログラム。
JP2001061879A 2001-03-06 2001-03-06 文章情報変換システム、文章情報変換方法および文章情報変換プログラム Pending JP2002259411A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001061879A JP2002259411A (ja) 2001-03-06 2001-03-06 文章情報変換システム、文章情報変換方法および文章情報変換プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001061879A JP2002259411A (ja) 2001-03-06 2001-03-06 文章情報変換システム、文章情報変換方法および文章情報変換プログラム

Publications (1)

Publication Number Publication Date
JP2002259411A true JP2002259411A (ja) 2002-09-13

Family

ID=18921097

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001061879A Pending JP2002259411A (ja) 2001-03-06 2001-03-06 文章情報変換システム、文章情報変換方法および文章情報変換プログラム

Country Status (1)

Country Link
JP (1) JP2002259411A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013186764A (ja) * 2012-03-09 2013-09-19 Kddi Corp 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ
WO2022130578A1 (ja) * 2020-12-17 2022-06-23 富士通株式会社 類似度判定プログラム、類似度判定装置、及び、類似度判定方法
WO2022130579A1 (ja) * 2020-12-17 2022-06-23 富士通株式会社 類似度判定プログラム、類似度判定装置、及び、類似度判定方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172701A (ja) * 1998-12-04 2000-06-23 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体
JP2000250919A (ja) * 1999-02-26 2000-09-14 Fujitsu Ltd 文書処理装置及びそのプログラム記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172701A (ja) * 1998-12-04 2000-06-23 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体
JP2000250919A (ja) * 1999-02-26 2000-09-14 Fujitsu Ltd 文書処理装置及びそのプログラム記憶媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013186764A (ja) * 2012-03-09 2013-09-19 Kddi Corp 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ
WO2022130578A1 (ja) * 2020-12-17 2022-06-23 富士通株式会社 類似度判定プログラム、類似度判定装置、及び、類似度判定方法
WO2022130579A1 (ja) * 2020-12-17 2022-06-23 富士通株式会社 類似度判定プログラム、類似度判定装置、及び、類似度判定方法
JP7487797B2 (ja) 2020-12-17 2024-05-21 富士通株式会社 類似度判定プログラム、類似度判定装置、及び、類似度判定方法

Similar Documents

Publication Publication Date Title
Duwairi Machine learning for Arabic text categorization
Kadhim et al. Text document preprocessing and dimension reduction techniques for text document clustering
Runkler et al. Web mining with relational clustering
CN110457676B (zh) 评价信息的提取方法及装置、存储介质、计算机设备
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN105138864B (zh) 基于生物医学文献的蛋白质交互关系数据库构建方法
US7046847B2 (en) Document processing method, system and medium
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
CN113722483A (zh) 话题分类方法、装置、设备及存储介质
CN111949774A (zh) 一种智能问答方法和系统
CN110110326B (zh) 一种基于主题信息的文本切割方法
US9563666B2 (en) Unsupervised detection and categorization of word clusters in text data
JP2002259411A (ja) 文章情報変換システム、文章情報変換方法および文章情報変換プログラム
CN112882997B (zh) 一种基于N-gram与频繁模式挖掘的系统日志解析方法
Serrano et al. The evaluation of ordered features for sms spam filtering
US20210073258A1 (en) Information processing apparatus and non-transitory computer readable medium
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
Dasri et al. Text mining framework, methods and techniques
Alkhafaji et al. A topic modeling for clustering Arabic documents
US20130166558A1 (en) Method and system for classifying article
CN100378713C (zh) 为对象分类的自动确定显著特点的方法和装置
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
CN117150046B (zh) 基于上下文语义的任务自动分解方法和系统
Kale et al. Influence of language-specific features for author identification on Indian literature in Marathi

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041019

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050531