JP2003248686A

JP2003248686A - 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体

Info

Publication number: JP2003248686A
Application number: JP2002045516A
Authority: JP
Inventors: Naoko Sato; 奈穂子佐藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2002-02-22
Filing date: 2002-02-22
Publication date: 2003-09-05

Abstract

(57)【要約】【課題】本発明は文書群の言語属性を言語解析して文書
群の内容を個々に読むことなくその内容を示すラベルを
自動的に取得する文書群ラベル生成装置、文書群ラベル
生成方法及び記録媒体を提供する。【解決手段】文書群ラベル生成装置１は、テキスト文書
群記憶部２に収集・蓄積された複数のテキスト文書から
なる複数のテキスト文書群の言語属性を言語解析部３で
解析し、解析された言語属性情報を計量して、計量結果
に基づいてテキスト文書群に特徴的な言語現象を抽出
し、抽出された特徴的な言語現象とラベル生成規則を記
憶するラベル生成規則辞書記憶部６のラベル生成規則と
の照合処理を行ってテキスト文書群に対してテキスト文
書群の内容を示すラベルをラベル生成部４で生成してい
る。したがって、大量の文書群の内容を個々に読むこと
なく、ユーザに分かりやすい表現による内容を示すラベ
ルを自動的に取得する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書群ラベル生成
装置、文書群ラベル生成方法及び記録媒体に関し、詳細
には、テキスト文書の言語属性を言語解析して、大量の
文書群の内容を個々に読むことなく、ユーザに分かりや
すい表現による内容を示すラベルを自動的に取得する文
書群ラベル生成装置、文書群ラベル生成方法及び当該文
書群ラベル生成方法とデータを記録した記録媒体に関す
る。

【０００２】

【従来の技術】近時、情報の電子化が進み、従来では紙
文書で保管されていた文書も電子化されるようになって
きている。このような文書の電子化に伴って、大量の電
子化文書が流通し、収集・蓄積された電子化文書をいか
に管理して簡便に再利用するかが重量な問題となってき
ている。そこでは、ある目的で収集された文書群の自動
分類が要望されている。この文書群の自動分類技術は、
大量の電子化文書群から類似した文書を自動分類する技
術であり、一般的には、各文書に含まれている重要語句
の類似性、出現頻度、出現場所等の共通点に基づいて、
関連性の高い文書をグルーピングする技術である。

【０００３】そして、このように分類された文書群を再
利用しようとする場合、文書群に対して検索する、一覧
する等の行為が生じる。この場合、文書群にラベルが付
与されていると、検索を行うことも一覧することも容易
である。

【０００４】ところが、一文書には、タイトルや場合に
よってはキーワードが付与されてラベル付与をするに
は、現在のところグルーピング後にその文書群の内容を
人手で把握して、ラベル付与することになる。

【０００５】そして、テキスト単位群に名前を付与する
技術として、従来、テキスト情報群より指定された分析
の単位となるテキスト単位群を作成するテキスト情報変
換手段と、該作成したテキスト単位群から単語を抽出
し、該抽出した単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間のうち少なくとも一つの
間の距離を計算する距離計算手段と、該計算した距離情
報をもとに分析を行う分析手段とを備えたテキスト情報
の分析装置が提案されている（特開平１１−３４５２４
１号公報参照）。

【０００６】すなわち、この従来技術は、テキスト単位
群にユーザが情報の組み合わせや書式を指定して名前を
付与している。

【０００７】また、従来、データから特徴的な概念を取
り出す、データ分析システムであって、文書データを含
むデータからカテゴリ別の概念を抽出する、概念抽出手
段と、前記カテゴリ別の概念において、同一カテゴリに
属する概念のうち、対応する別のカテゴリに属する概念
の中で占める割合が既定値を超えている概念を抽出する
特徴的概念抽出手段を有するデータ分析システムが提案
されている（特開２００１−７５９６６号公報参照）。

【０００８】すなわち、この従来技術は、特定の用途向
けに予めカテゴリ辞書を用意し、前処理で自動的にデー
タをラベル付きデータに変換している。

【０００９】

【発明が解決しようとする課題】しかしながら、このよ
うな従来技術にあっては、簡単かつ容易に文書を分類し
て、利用性を向上させる上で改良の必要があった。

【００１０】すなわち、上記特開平１１−３４５２４１
号公報記載の従来技術にあっては、テキスト文書群が多
数ある場合、ユーザが各々のテキスト文書群に対して指
定を行う必要があり、ユーザに非常な労力を強いること
となり、改良の必要があった。

【００１１】また、特開２００１−７５９６６号公報記
載の従来技術にあっては、特定の用途向けにカテゴリ辞
書を用意する必要があり、その辞書の構築に高額な費用
を要するだけでなく、別の用途に再利用しにくいという
問題があった。

【００１２】ところで、ラベル付与の自動化を目的とす
る場合、グルーピング時の検索条件式をそのままラベル
化するという方法が一般的であるが、一般に、検索条件
式は、単語やキーワードのアンド、オアによる組み合わ
せが多いため、検索式をそのままを表示しても、ユーザ
がその文書群の内容を把握するのは困難であり、さら
に、表示時の一覧性という観点で適切ではない。

【００１３】一方、重要文抽出技術や要約技術が文書内
容の概要を知るための一つの手段として利用することが
できるが、文書群の特徴を知るために、各々の文書の重
要文や要約を読む必要があり、ユーザにとっては非常な
労力を強いられることとなり、改良の必要があった。

【００１４】そこで、請求項１記載の発明は、文書蓄積
手段に収集・蓄積された複数のテキスト文書からなる複
数のテキスト文書群に対してラベルを生成するに際し
て、文書蓄積手段のテキスト文書の言語属性を言語解析
手段で解析し、当該解析された言語属性情報を計量手段
で計量して、当該計量結果に基づいてテキスト文書群に
特徴的な言語現象を特徴抽出手段で抽出し、抽出された
特徴的な言語現象とラベル生成規則を記憶するラベル生
成規則辞書記憶手段のラベル生成規則との照合処理を行
ってテキスト文書群に対して当該テキスト文書群の内容
を示すラベルをラベル生成手段で生成することにより、
大量の文書群の内容を個々に読むことなく、ユーザに分
かりやすい表現による内容を示すラベルを自動的に取得
し、利用性の良好な文書群ラベル生成装置を提供するこ
とを目的としている。

【００１５】請求項２記載の発明は、計量手段が、少な
くとも言語属性情報として各テキスト文書毎の単語の出
現頻度、出現文節頻度、係り受け関係にある文節対の出
現頻度を計量することにより、さまざまな言語単位によ
る計量を行なって、文書の特徴をさまざまな言語単位で
取得し、ユーザにより一層分かりやすい表現による内容
を示すラベルを自動的に取得して、より一層利用性の良
好な文書群ラベル生成装置を提供することを目的として
いる。

【００１６】請求項３記載の発明は、特徴抽出手段が、
計量手段で計量された言語属性情報のうち、頻度の高い
情報を、当該テキスト文書群における特徴的な言語現象
として抽出することにより、多く存在する言語情報から
文書中の高頻度語句を文書群の特徴語句として同定し
て、容易に特徴語句の絞り込みを行い、ユーザにより一
層分かりやすい表現による内容を示すラベルを自動的に
取得して、より一層利用性の良好な文書群ラベル生成装
置を提供することを目的としている。

【００１７】請求項４記載の発明は、ラベル生成規則辞
書記憶手段が、ラベル生成規則辞書として、正規化され
た言語現象と当該言語現象をラベル化するための規則と
が複数パターンにわたって記載されており、当該言語現
象をラベル化するための規則をユーザが適宜追加登録可
能であることにより、さまざまな言語表現を吸収すると
ともに、ユーザ所望のラベル形式を設定し、ユーザによ
り一層分かりやすい表現による内容を示すラベルを自動
的に取得して、より一層利用性の良好な文書群ラベル生
成装置を提供することを目的としている。

【００１８】請求項５記載の発明は、ラベル生成手段
が、特徴抽出手段で抽出された対象文書群の特徴的な言
語現象を正規化して、ラベル生成規則辞書記憶手段のラ
ベル生成規則との照合処理を行い、一致した言語現象に
対してラベル化を行なうことにより、ラベル生成規則辞
書をより一層有効に利用可能とし、ユーザにより一層分
かりやすい表現による内容を示すラベルを自動的に取得
して、より一層利用性の良好な文書群ラベル生成装置を
提供することを目的としている。

【００１９】請求項６記載の発明は、文書蓄積手段に収
集・蓄積された複数のテキスト文書からなる複数のテキ
スト文書群に対してラベルを生成するに際して、言語解
析処理ステップで、文書蓄積手段のテキスト文書の言語
属性を解析し、計量処理ステップで、当該解析された言
語属性情報を計量して、特徴抽出処理ステップで、当該
計量結果に基づいてテキスト文書群に特徴的な言語現象
を抽出し、ラベル生成処理ステップで、抽出された特徴
的な言語現象とラベル生成規則を記憶するラベル生成規
則辞書記憶手段のラベル生成規則との照合処理を行って
テキスト文書群に対して当該テキスト文書群の内容を示
すラベルを生成することにより、大量の文書群の内容を
個々に読むことなく、ユーザに分かりやすい表現による
内容を示すラベルを自動的に取得し、利用性の良好な文
書群ラベル生成方法を提供することを目的としている。

【００２０】請求項７記載の発明は、計量処理ステップ
で、少なくとも言語属性情報として各テキスト文書毎の
単語の出現頻度、出現文節頻度、係り受け関係にある文
節対の出現頻度を計量することにより、さまざまな言語
単位による計量を行なって、文書の特徴をさまざまな言
語単位で取得し、ユーザにより一層分かりやすい表現に
よる内容を示すラベルを自動的に取得して、より一層利
用性の良好な文書群ラベル生成方法を提供することを目
的としている。

【００２１】請求項８記載の発明は、特徴抽出処理ステ
ップで、計量処理ステップによって計量された言語属性
情報のうち、頻度の高い情報を、当該テキスト文書群に
おける特徴的な言語現象として抽出することにより、多
く存在する言語情報から文書中の高頻度語句を文書群の
特徴語句として同定して、容易に特徴語句の絞り込みを
行い、ユーザにより一層分かりやすい表現による内容を
示すラベルを自動的に取得して、より一層利用性の良好
な文書群ラベル生成方法を提供することを目的としてい
る。

【００２２】請求項９記載の発明は、ラベル生成規則辞
書記憶手段が、ラベル生成規則辞書として、正規化され
た言語現象と当該言語現象をラベル化するための規則と
が複数パターンにわたって記載されており、当該言語現
象をラベル化するための規則をユーザが適宜追加登録可
能であることにより、さまざまな言語表現を吸収すると
ともに、ユーザ所望のラベル形式を設定し、ユーザによ
り一層分かりやすい表現による内容を示すラベルを自動
的に取得して、より一層利用性の良好な文書群ラベル生
成方法を提供することを目的としている。

【００２３】請求項１０記載の発明は、ラベル生成ステ
ップで、特徴抽出処理ステップにより抽出された対象文
書群の特徴的な言語現象を正規化して、ラベル生成規則
辞書記憶手段のラベル生成規則との照合処理を行い、一
致した言語現象に対してラベル化を行なうことにより、
ラベル生成規則辞書をより一層有効に利用可能とし、ユ
ーザにより一層分かりやすい表現による内容を示すラベ
ルを自動的に取得して、より一層利用性の良好な文書群
ラベル生成方法を提供することを目的としている。

【００２４】請求項１１記載の発明は、記録媒体に、文
書蓄積手段に収集・蓄積された複数のテキスト文書から
なる複数のテキスト文書群に対してラベルを生成する文
書群ラベル生成方法のプログラムであって、請求項６か
ら請求項１０のいずれかに記載の文書群ラベル生成方法
のプログラム及びデータを記録することにより、大量の
文書群の内容を個々に読むことなく、ユーザに分かりや
すい表現による内容を示すラベルを自動的に取得し、利
用性を向上させることのできる文書群ラベル生成装置及
び文書群ラベル生成方法を実現する記録媒体を提供する
ことを目的としている。

【００２５】

【課題を解決するための手段】請求項１記載の発明の文
書群ラベル生成装置は、文書蓄積手段に収集・蓄積され
た複数のテキスト文書からなる複数のテキスト文書群に
対してラベルを生成する文書群ラベル生成装置におい
て、前記文書蓄積手段のテキスト文書の言語属性を解析
する言語解析手段と、当該言語解析手段の解析した言語
属性情報を計量する計量手段と、当該計量結果に基づい
て前記テキスト文書群に特徴的な言語現象を抽出する特
徴抽出手段と、ラベル生成規則を記憶するラベル生成規
則辞書記憶手段と、前記特徴抽出手段の抽出した前記特
徴的な言語現象と前記ラベル生成規則辞書記憶手段の前
記ラベル生成規則との照合処理を行って前記テキスト文
書群に対して当該テキスト文書群の内容を示すラベルを
生成するラベル生成手段と、を備えていることにより、
上記目的を達成している。

【００２６】上記構成によれば、文書蓄積手段に収集・
蓄積された複数のテキスト文書からなる複数のテキスト
文書群に対してラベルを生成するに際して、文書蓄積手
段のテキスト文書の言語属性を言語解析手段で解析し、
当該解析された言語属性情報を計量手段で計量して、当
該計量結果に基づいてテキスト文書群に特徴的な言語現
象を特徴抽出手段で抽出し、抽出された特徴的な言語現
象とラベル生成規則を記憶するラベル生成規則辞書記憶
手段のラベル生成規則との照合処理を行ってテキスト文
書群に対して当該テキスト文書群の内容を示すラベルを
ラベル生成手段で生成するので、大量の文書群の内容を
個々に読むことなく、ユーザに分かりやすい表現による
内容を示すラベルを自動的に取得することができ、利用
性を向上させることができる。

【００２７】この場合、例えば、請求項２に記載するよ
うに、前記計量手段は、少なくとも言語属性情報として
各テキスト文書毎の単語の出現頻度、出現文節頻度、係
り受け関係にある文節対の出現頻度を計量するものであ
ってもよい。

【００２８】上記構成によれば、計量手段が、少なくと
も言語属性情報として各テキスト文書毎の単語の出現頻
度、出現文節頻度、係り受け関係にある文節対の出現頻
度を計量するので、さまざまな言語単位による計量を行
なって、文書の特徴をさまざまな言語単位で取得するこ
とができ、ユーザにより一層分かりやすい表現による内
容を示すラベルを自動的に取得して、より一層利用性を
向上させることができる。

【００２９】また、例えば、請求項３に記載するよう
に、前記特徴抽出手段は、前記計量手段で計量された言
語属性情報のうち、頻度の高い情報を、当該テキスト文
書群における特徴的な言語現象として抽出するものであ
ってもよい。

【００３０】上記構成によれば、特徴抽出手段が、計量
手段で計量された言語属性情報のうち、頻度の高い情報
を、当該テキスト文書群における特徴的な言語現象とし
て抽出するので、多く存在する言語情報から文書中の高
頻度語句を文書群の特徴語句として同定して、容易に特
徴語句の絞り込みを行うことができ、ユーザにより一層
分かりやすい表現による内容を示すラベルを自動的に取
得して、より一層利用性を向上させることができる。

【００３１】さらに、例えば、請求項４に記載するよう
に、前記ラベル生成規則辞書記憶手段は、前記ラベル生
成規則辞書として、正規化された言語現象と当該言語現
象をラベル化するための規則とが複数パターンにわたっ
て記載されており、当該言語現象をラベル化するための
規則をユーザが適宜追加登録可能なものであってもよ
い。

【００３２】上記構成によれば、ラベル生成規則辞書記
憶手段が、ラベル生成規則辞書として、正規化された言
語現象と当該言語現象をラベル化するための規則とが複
数パターンにわたって記載されており、当該言語現象を
ラベル化するための規則をユーザが適宜追加登録可能で
あるので、さまざまな言語表現を吸収するとともに、ユ
ーザ所望のラベル形式を設定することができ、ユーザに
より一層分かりやすい表現による内容を示すラベルを自
動的に取得して、より一層利用性を向上させることがで
きる。

【００３３】また、例えば、請求項５に記載するよう
に、前記ラベル生成手段は、前記特徴抽出手段で抽出さ
れた対象文書群の特徴的な言語現象を正規化して、前記
ラベル生成規則辞書記憶手段の前記ラベル生成規則との
照合処理を行い、一致した言語現象に対してラベル化を
行なうものであってもよい。

【００３４】上記構成によれば、ラベル生成手段が、特
徴抽出手段で抽出された対象文書群の特徴的な言語現象
を正規化して、ラベル生成規則辞書記憶手段のラベル生
成規則との照合処理を行い、一致した言語現象に対して
ラベル化を行なうので、ラベル生成規則辞書をより一層
有効に利用可能とすることができ、ユーザにより一層分
かりやすい表現による内容を示すラベルを自動的に取得
して、より一層利用性を向上させることができる。

【００３５】請求項６記載の発明の文書群ラベル生成方
法は、文書蓄積手段に収集・蓄積された複数のテキスト
文書からなる複数のテキスト文書群に対してラベルを生
成する文書群ラベル生成方法において、前記文書蓄積手
段のテキスト文書の言語属性を解析する言語解析処理ス
テップと、当該言語解析処理ステップで解析した言語属
性情報を計量する計量処理ステップと、当該計量結果に
基づいて前記テキスト文書群に特徴的な言語現象を抽出
する特徴抽出処理ステップと、前記特徴抽出処理ステッ
プで抽出した前記特徴的な言語現象とラベル生成規則を
記憶するラベル生成規則辞書記憶手段のラベル生成規則
との照合処理を行って前記テキスト文書群に対して当該
テキスト文書群の内容を示すラベルを生成するラベル生
成処理ステップと、の各ステップ処理を行うことによ
り、上記目的を達成している。

【００３６】上記構成によれば、文書蓄積手段に収集・
蓄積された複数のテキスト文書からなる複数のテキスト
文書群に対してラベルを生成するに際して、言語解析処
理ステップで、文書蓄積手段のテキスト文書の言語属性
を解析し、計量処理ステップで、当該解析された言語属
性情報を計量して、特徴抽出処理ステップで、当該計量
結果に基づいてテキスト文書群に特徴的な言語現象を抽
出し、ラベル生成処理ステップで、抽出された特徴的な
言語現象とラベル生成規則を記憶するラベル生成規則辞
書記憶手段のラベル生成規則との照合処理を行ってテキ
スト文書群に対して当該テキスト文書群の内容を示すラ
ベルを生成するので、大量の文書群の内容を個々に読む
ことなく、ユーザに分かりやすい表現による内容を示す
ラベルを自動的に取得することができ、利用性を向上さ
せることができる。

【００３７】この場合、例えば、請求項７に記載するよ
うに、前記文書群ラベル生成方法は、前記計量処理ステ
ップで、少なくとも言語属性情報として各文書毎の単語
の出現頻度、出現文節頻度、係り受け関係にある文節対
の出現頻度を計量してもよい。

【００３８】上記構成によれば、計量処理ステップで、
少なくとも言語属性情報として各テキスト文書毎の単語
の出現頻度、出現文節頻度、係り受け関係にある文節対
の出現頻度を計量するので、さまざまな言語単位による
計量を行なって、文書の特徴をさまざまな言語単位で取
得することができ、ユーザにより一層分かりやすい表現
による内容を示すラベルを自動的に取得して、より一層
利用性を向上させることができる。

【００３９】また、例えば、請求項８に記載するよう
に、前記文書群ラベル生成方法は、前記特徴抽出処理ス
テップで、前記計量処理ステップで計量された言語属性
情報のうち、頻度の高い情報を、該当文書群における特
徴的な言語現象として抽出してもよい。

【００４０】上記構成によれば、特徴抽出処理ステップ
で、計量処理ステップによって計量された言語属性情報
のうち、頻度の高い情報を、当該テキスト文書群におけ
る特徴的な言語現象として抽出するので、多く存在する
言語情報から文書中の高頻度語句を文書群の特徴語句と
して同定して、容易に特徴語句の絞り込みを行うことが
でき、ユーザにより一層分かりやすい表現による内容を
示すラベルを自動的に取得して、より一層利用性を向上
させることができる。

【００４１】さらに、例えば、請求項９に記載するよう
に、前記文書群ラベル生成方法は、前記ラベル生成規則
辞書記憶手段が、前記ラベル生成規則辞書として、正規
化された言語現象と当該言語現象をラベル化するための
規則とが複数パターンにわたって記載されており、当該
言語現象をラベル化するための規則をユーザが適宜追加
登録可能であってもよい。

【００４２】上記構成によれば、ラベル生成規則辞書記
憶手段が、ラベル生成規則辞書として、正規化された言
語現象と当該言語現象をラベル化するための規則とが複
数パターンにわたって記載されており、当該言語現象を
ラベル化するための規則をユーザが適宜追加登録可能で
あるので、さまざまな言語表現を吸収するとともに、ユ
ーザ所望のラベル形式を設定することができ、ユーザに
より一層分かりやすい表現による内容を示すラベルを自
動的に取得して、より一層利用性を向上させることがで
きる。

【００４３】また、例えば、請求項１０に記載するよう
に、前記文書群ラベル生成方法は、前記ラベル生成処理
ステップで、前記特徴抽出処理ステップで抽出された対
象文書群の特徴的な言語現象を正規化して、前記ラベル
生成規則辞書記憶手段の前記ラベル生成規則との照合処
理を行い、一致した言語現象に対してラベル化を行なっ
てもよい。

【００４４】上記構成によれば、ラベル生成ステップ
で、特徴抽出処理ステップにより抽出された対象文書群
の特徴的な言語現象を正規化して、ラベル生成規則辞書
記憶手段のラベル生成規則との照合処理を行い、一致し
た言語現象に対してラベル化を行なうので、ラベル生成
規則辞書をより一層有効に利用可能とすることができ、
ユーザにより一層分かりやすい表現による内容を示すラ
ベルを自動的に取得して、より一層利用性を向上させる
ことができる。

【００４５】請求項１１記載の発明の記録媒体は、文書
蓄積手段に収集・蓄積された複数のテキスト文書からな
る複数のテキスト文書群に対してラベルを生成する文書
群ラベル生成方法のプログラムを記録する記録媒体であ
って、前記請求項６から請求項１０のいずれかに記載の
文書群ラベル生成方法のプログラム及びデータを記録す
ることにより、上記目的を達成している。

【００４６】上記構成によれば、記録媒体に、文書蓄積
手段に収集・蓄積された複数のテキスト文書からなる複
数のテキスト文書群に対してラベルを生成する文書群ラ
ベル生成方法のプログラムであって、請求項６から請求
項１０のいずれかに記載の文書群ラベル生成方法のプロ
グラム及びデータを記録しているので、記録媒体を、コ
ンピュータ等の情報処理装置に読み取らせることで、大
量の文書群の内容を個々に読むことなく、ユーザに分か
りやすい表現による内容を示すラベルを自動的に取得す
ることができ、利用性を向上させることのできる文書群
ラベル生成方法を実現する文書群ラベル生成装置を構築
することができ、文書群に適切にラベルを生成して、利
用性を向上させることができる。

【００４７】

【発明の実施の形態】以下、本発明の好適な実施の形態
を添付図面に基づいて詳細に説明する。なお、以下に述
べる実施の形態は、本発明の好適な実施の形態であるか
ら、技術的に好ましい種々の限定が付されているが、本
発明の範囲は、以下の説明において特に本発明を限定す
る旨の記載がない限り、これらの態様に限られるもので
はない。

【００４８】図１〜図３は、本発明の文書群ラベル生成
装置、文書群ラベル生成方法及び記録媒体の一実施の形
態を示す図であり、図１は、本発明の文書群ラベル生成
装置、文書群ラベル生成方法及び記録媒体の一実施の形
態を適用した文書群ラベル生成装置１のブロック構成図
である。

【００４９】図１において、文書群ラベル生成装置１
は、テキスト文書群記憶部２、言語解析部３、ラベル生
成部４、言語解析用辞書記憶部５及びラベル生成規則辞
書記憶部６等を備えている。

【００５０】文書群ラベル生成装置１は、文書分析処理
プログラム及び必要なデータを記録するＣＤ−ＲＯＭ
（Compact Disc Read Only Memory ）等の記録媒体を、
例えば、コンピュータ等に読み取らせて導入すること
で、構築される。

【００５１】テキスト文書群記憶部（文書群蓄積手段）
２は、収集されたテキスト文書のテキスト文書群が登録
され、登録されたテキスト文書群がラベル生成の対象と
なる。

【００５２】言語解析用辞書記憶部５は、言語解析部３
による言語解析に必要な各種言語解析情報を記憶する。

【００５３】言語解析部（言語解析手段、計量手段、特
徴抽出手段）３は、言語解析用辞書記憶部５の記憶する
言語解析用辞書に基づいて、テキスト文書群記憶部２に
よりテキスト文書群記憶部２に登録された各テキスト文
書を言語解析用辞書記憶部５の言語解析情報に基づいて
言語解析する言語解析処理、言語解析結果における言語
属性情報を計量する計量処理及び計量処理の計量結果に
基づいてテキスト文書群の特徴的な言語現象を抽出する
特徴抽出処理等の各ステップ処理を実行して、処理結果
をラベル生成部４に出力する。

【００５４】ラベル生成規則辞書記憶部（ラベル生成規
則辞書記憶手段）６は、ラベル生成規則を保持し、例え
ば、図２に示すようなもので、正規化された言語現象と
当該言語現象をラベル化するための規則が複数パターン
にわたって記録されている。また、ラベル生成規則辞書
記憶部６には、ユーザが規則を新規に適宜追加登録可能
である。

【００５５】ラベル生成部（ラベル生成手段）４は、言
語解析部３の特徴抽出処理で抽出された特徴的な言語現
象とラベル生成規則辞書記憶部６に登録されているラベ
ル生成規則辞書のラベル生成規則とのマッチング処理を
行って、対象文書群に対して、そのマッチング内容を示
すラベルを生成する。ラベル生成部４は、具体的には、
例えば、言語解析部３の特徴抽出処理で抽出された特徴
的な言語現象を正規化し、ラベル生成規則辞書記憶部６
を検索して、一致した言語現象に対してラベル化を行っ
て、ラベルを生成する。

【００５６】次に、本実施の形態の作用を説明する。文
書群ラベル生成装置１は、文書分析処理プログラム及び
必要なデータを記録するＣＤ−ＲＯＭ等の記録媒体を、
例えば、コンピュータ等に読み取らせて導入すること
で、構築され、電子化されたテキスト文書群を言語解析
して言語属性情報を計量し、テキスト文書群の特徴的な
言語現象を抽出して、抽出された特徴的な言語現象とラ
ベル生成規則とのマッチング処理を行って、対象文書群
に対して、そのマッチング内容を示すラベルを生成す
る。

【００５７】すなわち、文書群ラベル生成装置１は、分
析対象のテキスト文書群が入力されると、当該テキスト
文書群をテキスト文書群記億部２に登録する。

【００５８】そして、文書群ラベル生成装置１は、図３
に示すように、言語解析部３が、言語解析用辞書記憶部
５の記憶する言語解析用辞書に基づいて、テキスト文書
群記憶部２に登録された各テキスト文書を言語解析、例
えば、形態素解析を行なって、その品詞等の属性情報を
得たり、係り受け解析を行なって、係り受けの関係のあ
る文節対を得たり、書き手の意図を推定できる語句を得
たりする言語解析を行う言語解析処理を行い（ステップ
Ｓ１０１）、言語解析の解析結果における言語属性情報
を計量する計量処理を行う（ステップＳ１０２）。

【００５９】次に、言語解析部３が、計量処理の計量結
果に基づいてテキスト文書群の特徴的な言語現象を抽出
する特徴抽出処理を実行して、処理結果をラベル生成部
４に出力する（ステップＳ１０３）。

【００６０】次に、ラベル生成部４が、言語解析部３の
特徴抽出処理で抽出された特徴的な言語現象に基づい
て、ラベル生成規則辞書記憶部６に登録されているラベ
ル生成規則の辞書引きを行う辞書引き処理を行い（ステ
ップＳ１０４）、特徴抽出処理で抽出された特徴的な言
語現象とマッチングするラベルを生成するラベル生成処
理を行う（ステップＳ１０５）。

【００６１】そして、いま、例えば、ある海のスポーツ
について意見を収集・蓄積したテキストデータがあり、
集めた意見を内容別に分類し、それぞれのグループに適
したラベルを付与して整理する場合、まず、最初に、全
てのテキストデータを内容別にグルーピングする。テキ
ストデータを内容別にグループ分けするには、既存の文
書検索技術、文書分類技術、クラスタリング技術等を用
いて行うことができる。このグルーピングの結果、以下
のような文書群Ａ〜Ｄが得られたとものとする。

【００６２】〈文書群Ａ〉・どこでもできるような気がしない。とても楽しそうだ
が面倒くさそう。・仲間と楽しく遊びたい。・楽しそうだけど自分にはちょっと向いていない気がす
る。・きっかけがないという感じです。でもやりたいです。
たのしそう。

【００６３】〈文書群Ｂ〉・お金がかかる。・もっと余暇と、お金があればもっと楽しめると思う
が、やりたくてもできないな。・おもしろそーでやりたいけどお金がかかりそう。

【００６４】〈文書群Ｃ〉・夏しかできない気がする。ポツンとあってさみしい。・夏にうってつけの遊び。楽しいぞ。・夏ならではのたのしい遊び。

【００６５】〈文書群Ｄ〉・安く手軽にできるならやってみたい。・もう少し手軽にできないものなのかな。日本だと何か
と制限とかうるさそうなので。・手軽に出来ない。でもぜひイルカと一緒に泳ぎたい。・ジェットスキーなどもう少し手軽にできるようにな
るといい。

【００６６】文書群ラベル生成装置１は、これらのテキ
スト文書群それぞれに対して、言語解析部３で、言語解
析、例えば、形態素解析を行なって、その品詞等の属性
情報を得たり、係り受け解析を行なって、係り受けの関
係のある文節対を得たり、書き手の意図を推定できる語
句を得たりする言語解析を行う。これら言語解析は、既
存のさまざまな手法で実現可能である。

【００６７】さらに、言語解析部３は、テキスト文書群
毎に、これらの出現頻度を計量し、頻出語句について、
一定のフィルタリングを行ない、その文書群に特徴的な
語句を抽出する。この計量処理で計量対象となる単位
は、単語、文節、または、係り受け対等のように任意に
設定することができる。また、特徴語句のフィルタリン
グは、情報検索技術で用いられている品詞限定や不要語
除去等の手法を用いて実現することができる。

【００６８】そして、言語解析部３で、上記例のテキス
ト文書群について、各文書群に出現する語句の計量とそ
の頻出語句を品詞によってフィルタリングを行なったと
ころ、特徴語句として、以下の情報（特徴的な言語現
象）が抽出された。

【００６９】文書群Ａ：「楽しい（形容詞）」文書群Ｂ：「お金（名詞）が」→「かかる（動詞）」文書群Ｃ：「夏（名詞）」「遊び（名詞）」文書群Ｄ：「手軽（形容動詞）に」→「できる（助動
詞）＋ない（助動詞）」次に、抽出された語句（言語現象）を、ラベル生成規則
辞書記憶部６に登録されているラベル生成規則辞書で検
索可能な形式に変換する。この場合、ラベル生成規則辞
書として、図２に示したようなラベル生成規則辞書を用
いるとすると、抽出された語句は、以下のように変換さ
れる。これらは、言語解析の結果得られた語句の属性情
報の並び替えや正規化で行われる。

【００７０】文書群Ａ：単語１｛形容詞｝単語１表記（楽しい）文書群Ｂ：文節対｛格修飾関係｝係り文節表記（お金
が）→受け文節表記（かかる）文書群Ｃ：単語１｛名詞｝単語２｛名詞｝単語１表
記（夏）単語２表記（遊び）文書群Ｄ：文節対｛連用修飾関係｝係り文節表記（手
軽に）→受け文節表記（できない）そして、ラベル生成部４が、上記形式で、図２に示した
ラベル生成規則辞書を適用し、一致した言語現象に対し
てラベル化を行ったところ、以下のラベルを得ることが
できた。

【００７１】文書群Ａ：ラベル（楽しい）文書群Ｂ：ラベル（お金がかかる）文書群Ｃ：ラベル（夏の遊び）文書群Ｄ：ラベル（手軽にできない）すなわち、上記例では、ある海のスポーツについての意
見を内容別に分類すると、「楽しい」「お金がかかる」
「夏の遊び」「手軽にできない」と整理することがで
き、各文書群を再利用可能なラベル付きデータ群として
保存することができる。

【００７２】もし、ユーザが、この例のように、ある海
のスポーツの印象についてのアンケートを行なおうとす
る場合、上記文書群ラベル生成装置１で作成された各文
書群のラベルをそのまま選択項目として再利用すること
ができる。

【００７３】このように、本実施の形態の文書群ラベル
生成装置１及び文書群ラベル生成方法は、テキスト文書
群記憶部２に収集・蓄積された複数のテキスト文書から
なる複数のテキスト文書群に対してラベルを生成するに
際して、テキスト文書群記憶部２のテキスト文書の言語
属性を言語解析部３で解析し、解析された言語属性情報
を計量して、当該計量結果に基づいてテキスト文書群に
特徴的な言語現象を抽出し、抽出された特徴的な言語現
象とラベル生成規則を記憶するラベル生成規則辞書記憶
部６のラベル生成規則との照合処理を行ってテキスト文
書群に対してテキスト文書群の内容を示すラベルをラベ
ル生成部４で生成している。

【００７４】したがって、大量の文書群の内容を個々に
読むことなく、収集・蓄積された大量のテキスト文書デ
ータをユーザに分かりやすい表現による内容を示すラベ
ルを自動的に取得することができ、このラベルは、従来
のような単語キーワードの域を超えたユーザにとって理
解しやすいものである。その結果、利用性を向上させる
ことができる。

【００７５】また、本実施の形態の文書群ラベル生成装
置１及び文書群ラベル生成方法は、言語解析部３が、少
なくとも言語属性情報として各テキスト文書毎の単語の
出現頻度、出現文節頻度、係り受け関係にある文節対の
出現頻度を計量している。

【００７６】したがって、さまざまな言語単位による計
量を行なって、文書の特徴をさまざまな言語単位で取得
することができ、ユーザにより一層分かりやすい表現に
よる内容を示すラベルを自動的に取得して、より一層利
用性を向上させることができる。

【００７７】さらに、本実施の形態の文書群ラベル生成
装置１及び文書群ラベル生成方法は、言語解析部３が、
計量処理で計量した言語属性情報のうち、頻度の高い情
報を、当該テキスト文書群における特徴的な言語現象と
して抽出している。

【００７８】したがって、多く存在する言語情報から文
書中の高頻度語句を文書群の特徴語句として同定して、
容易に特徴語句の絞り込みを行うことができ、ユーザに
より一層分かりやすい表現による内容を示すラベルを自
動的に取得して、より一層利用性を向上させることがで
きる。

【００７９】また、本実施の形態の文書群ラベル生成装
置１及び文書群ラベル生成方法は、ラベル生成規則辞書
記憶部６が、ラベル生成規則辞書として、正規化された
言語現象と当該言語現象をラベル化するための規則とが
複数パターンにわたって記載されており、当該言語現象
をラベル化するための規則をユーザが適宜追加登録可能
である。

【００８０】したがって、さまざまな言語表現を吸収す
るとともに、ユーザ所望のラベル形式を設定することが
でき、ユーザにより一層分かりやすい表現による内容を
示すラベルを自動的に取得して、より一層利用性を向上
させることができる。

【００８１】さらに、本実施の形態の文書群ラベル生成
装置１及び文書群ラベル生成方法は、ラベル生成部４
が、言語解析部３の特徴抽出処理で抽出された対象文書
群の特徴的な言語現象を正規化して、ラベル生成規則辞
書記憶手段のラベル生成規則との照合処理を行い、一致
した言語現象に対してラベル化を行なっている。

【００８２】したがって、ラベル生成規則辞書をより一
層有効に利用可能とすることができ、ユーザにより一層
分かりやすい表現による内容を示すラベルを自動的に取
得して、より一層利用性を向上させることができる。

【００８３】以上、本発明者によってなされた発明を好
適な実施の形態に基づき具体的に説明したが、本発明は
上記のものに限定されるものではなく、その要旨を逸脱
しない範囲で種々変更可能であることはいうまでもな
い。

【００８４】

【発明の効果】請求項１記載の発明の文書群ラベル生成
装置によれば、文書蓄積手段に収集・蓄積された複数の
テキスト文書からなる複数のテキスト文書群に対してラ
ベルを生成するに際して、文書蓄積手段のテキスト文書
の言語属性を言語解析手段で解析し、当該解析された言
語属性情報を計量手段で計量して、当該計量結果に基づ
いてテキスト文書群に特徴的な言語現象を特徴抽出手段
で抽出し、抽出された特徴的な言語現象とラベル生成規
則を記憶するラベル生成規則辞書記憶手段のラベル生成
規則との照合処理を行ってテキスト文書群に対して当該
テキスト文書群の内容を示すラベルをラベル生成手段で
生成するので、大量の文書群の内容を個々に読むことな
く、ユーザに分かりやすい表現による内容を示すラベル
を自動的に取得することができ、利用性を向上させるこ
とができる。

【００８５】請求項２記載の発明の文書群ラベル生成装
置によれば、計量手段が、少なくとも言語属性情報とし
て各テキスト文書毎の単語の出現頻度、出現文節頻度、
係り受け関係にある文節対の出現頻度を計量するので、
さまざまな言語単位による計量を行なって、文書の特徴
をさまざまな言語単位で取得することができ、ユーザに
より一層分かりやすい表現による内容を示すラベルを自
動的に取得して、より一層利用性を向上させることがで
きる。

【００８６】請求項３記載の発明の文書群ラベル生成装
置によれば、特徴抽出手段が、計量手段で計量された言
語属性情報のうち、頻度の高い情報を、当該テキスト文
書群における特徴的な言語現象として抽出するので、多
く存在する言語情報から文書中の高頻度語句を文書群の
特徴語句として同定して、容易に特徴語句の絞り込みを
行うことができ、ユーザにより一層分かりやすい表現に
よる内容を示すラベルを自動的に取得して、より一層利
用性を向上させることができる。

【００８７】請求項４記載の発明の文書群ラベル生成装
置によれば、ラベル生成規則辞書記憶手段が、ラベル生
成規則辞書として、正規化された言語現象と当該言語現
象をラベル化するための規則とが複数パターンにわたっ
て記載されており、当該言語現象をラベル化するための
規則をユーザが適宜追加登録可能であるので、さまざま
な言語表現を吸収するとともに、ユーザ所望のラベル形
式を設定することができ、ユーザにより一層分かりやす
い表現による内容を示すラベルを自動的に取得して、よ
り一層利用性を向上させることができる。

【００８８】請求項５記載の発明の文書群ラベル生成装
置によれば、ラベル生成手段が、特徴抽出手段で抽出さ
れた対象文書群の特徴的な言語現象を正規化して、ラベ
ル生成規則辞書記憶手段のラベル生成規則との照合処理
を行い、一致した言語現象に対してラベル化を行なうの
で、ラベル生成規則辞書をより一層有効に利用可能とす
ることができ、ユーザにより一層分かりやすい表現によ
る内容を示すラベルを自動的に取得して、より一層利用
性を向上させることができる。

【００８９】請求項６記載の発明の文書群ラベル生成方
法によれば、文書蓄積手段に収集・蓄積された複数のテ
キスト文書からなる複数のテキスト文書群に対してラベ
ルを生成するに際して、言語解析処理ステップで、文書
蓄積手段のテキスト文書の言語属性を解析し、計量処理
ステップで、当該解析された言語属性情報を計量して、
特徴抽出処理ステップで、当該計量結果に基づいてテキ
スト文書群に特徴的な言語現象を抽出し、ラベル生成処
理ステップで、抽出された特徴的な言語現象とラベル生
成規則を記憶するラベル生成規則辞書記憶手段のラベル
生成規則との照合処理を行ってテキスト文書群に対して
当該テキスト文書群の内容を示すラベルを生成するの
で、大量の文書群の内容を個々に読むことなく、ユーザ
に分かりやすい表現による内容を示すラベルを自動的に
取得することができ、利用性を向上させることができ
る。

【００９０】請求項７記載の発明の文書群ラベル生成方
法によれば、計量処理ステップで、少なくとも言語属性
情報として各テキスト文書毎の単語の出現頻度、出現文
節頻度、係り受け関係にある文節対の出現頻度を計量す
るので、さまざまな言語単位による計量を行なって、文
書の特徴をさまざまな言語単位で取得することができ、
ユーザにより一層分かりやすい表現による内容を示すラ
ベルを自動的に取得して、より一層利用性を向上させる
ことができる。

【００９１】請求項８記載の発明の文書群ラベル生成方
法によれば、特徴抽出処理ステップで、計量処理ステッ
プによって計量された言語属性情報のうち、頻度の高い
情報を、当該テキスト文書群における特徴的な言語現象
として抽出するので、多く存在する言語情報から文書中
の高頻度語句を文書群の特徴語句として同定して、容易
に特徴語句の絞り込みを行うことができ、ユーザにより
一層分かりやすい表現による内容を示すラベルを自動的
に取得して、より一層利用性を向上させることができ
る。

【００９２】請求項９記載の発明の文書群ラベル生成方
法によれば、ラベル生成規則辞書記憶手段が、ラベル生
成規則辞書として、正規化された言語現象と当該言語現
象をラベル化するための規則とが複数パターンにわたっ
て記載されており、当該言語現象をラベル化するための
規則をユーザが適宜追加登録可能であるので、さまざま
な言語表現を吸収するとともに、ユーザ所望のラベル形
式を設定することができ、ユーザにより一層分かりやす
い表現による内容を示すラベルを自動的に取得して、よ
り一層利用性を向上させることができる。

【００９３】請求項１０記載の発明の文書群ラベル生成
方法によれば、ラベル生成ステップで、特徴抽出処理ス
テップにより抽出された対象文書群の特徴的な言語現象
を正規化して、ラベル生成規則辞書記憶手段のラベル生
成規則との照合処理を行い、一致した言語現象に対して
ラベル化を行なうので、ラベル生成規則辞書をより一層
有効に利用可能とすることができ、ユーザにより一層分
かりやすい表現による内容を示すラベルを自動的に取得
して、より一層利用性を向上させることができる。

【００９４】請求項１１記載の発明の記録媒体によれ
ば、記録媒体に、文書蓄積手段に収集・蓄積された複数
のテキスト文書からなる複数のテキスト文書群に対して
ラベルを生成する文書群ラベル生成方法のプログラムで
あって、請求項６から請求項１０のいずれかに記載の文
書群ラベル生成方法のプログラム及びデータを記録して
いるので、記録媒体を、コンピュータ等の情報処理装置
に読み取らせることで、大量の文書群の内容を個々に読
むことなく、ユーザに分かりやすい表現による内容を示
すラベルを自動的に取得することができ、利用性を向上
させることのできる文書群ラベル生成方法を実現する文
書群ラベル生成装置を構築することができ、文書群に適
切にラベルを生成して、利用性を向上させることができ
る。

【図面の簡単な説明】

【図１】本発明の文書群ラベル生成装置、文書群ラベル
生成方法及び記録媒体の一実施の形態を適用した文書群
ラベル生成装置の要部ブロック構成図。

【図２】図１のラベル生成規則辞書記憶部に登録されて
いるラベル生成規則辞書の一例を示す図。

【図３】図１の文書群ラベル生成装置による文書ラベル
生成処理を示すフローチャート。

【符号の説明】

１文書群ラベル生成装置２テキスト文書群記憶部３言語解析部４ラベル生成部５言語解析用辞書記憶部６ラベル生成規則辞書記憶部

Claims

【特許請求の範囲】

【請求項１】文書蓄積手段に収集・蓄積された複数のテ
キスト文書からなる複数のテキスト文書群に対してラベ
ルを生成する文書群ラベル生成装置において、前記文書
蓄積手段のテキスト文書の言語属性を解析する言語解析
手段と、当該言語解析手段の解析した言語属性情報を計
量する計量手段と、当該計量結果に基づいて前記テキス
ト文書群に特徴的な言語現象を抽出する特徴抽出手段
と、ラベル生成規則を記憶するラベル生成規則辞書記憶
手段と、前記特徴抽出手段の抽出した前記特徴的な言語
現象と前記ラベル生成規則辞書記憶手段の前記ラベル生
成規則との照合処理を行って前記テキスト文書群に対し
て当該テキスト文書群の内容を示すラベルを生成するラ
ベル生成手段と、を備えていることを特徴とする文書群
ラベル生成装置。
【請求項２】前記計量手段は、少なくとも言語属性情報
として各テキスト文書毎の単語の出現頻度、出現文節頻
度、係り受け関係にある文節対の出現頻度を計量するこ
とを特徴とする請求項１記載の文書群ラベル生成装置。
【請求項３】前記特徴抽出手段は、前記計量手段で計量
された言語属性情報のうち、頻度の高い情報を、当該テ
キスト文書群における特徴的な言語現象として抽出する
ことを特徴とする請求項１記載の文書群ラベル生成装
置。
【請求項４】前記ラベル生成規則辞書記憶手段は、前記
ラベル生成規則辞書として、正規化された言語現象と当
該言語現象をラベル化するための規則とが複数パターン
にわたって記載されており、当該言語現象をラベル化す
るための規則をユーザが適宜追加登録可能であることを
特徴とする請求項１記載の文書群ラベル生成装置。
【請求項５】前記ラベル生成手段は、前記特徴抽出手段
で抽出された対象文書群の特徴的な言語現象を正規化し
て、前記ラベル生成規則辞書記憶手段の前記ラベル生成
規則との照合処理を行い、一致した言語現象に対してラ
ベル化を行なうことを特徴とする請求項１記載の文書群
ラベル生成装置。
【請求項６】文書蓄積手段に収集・蓄積された複数のテ
キスト文書からなる複数のテキスト文書群に対してラベ
ルを生成する文書群ラベル生成方法において、前記文書
蓄積手段のテキスト文書の言語属性を解析する言語解析
処理ステップと、当該言語解析処理ステップで解析した
言語属性情報を計量する計量処理ステップと、当該計量
結果に基づいて前記テキスト文書群に特徴的な言語現象
を抽出する特徴抽出処理ステップと、前記特徴抽出処理
ステップで抽出した前記特徴的な言語現象とラベル生成
規則を記憶するラベル生成規則辞書記憶手段のラベル生
成規則との照合処理を行って前記テキスト文書群に対し
て当該テキスト文書群の内容を示すラベルを生成するラ
ベル生成処理ステップと、の各ステップ処理を行うこと
を特徴とする文書群ラベル生成方法。
【請求項７】前記文書群ラベル生成方法は、前記計量処
理ステップで、少なくとも言語属性情報として各文書毎
の単語の出現頻度、出現文節頻度、係り受け関係にある
文節対の出現頻度を計量することを特徴とする請求項６
記載の文書群ラベル生成方法。
【請求項８】前記文書群ラベル生成方法は、前記特徴抽
出処理ステップで、前記計量処理ステップで計量された
言語属性情報のうち、頻度の高い情報を、該当文書群に
おける特徴的な言語現象として抽出することを特徴とす
る請求項６記載の文書群ラベル生成方法。
【請求項９】前記文書群ラベル生成方法は、前記ラベル
生成規則辞書記憶手段が、前記ラベル生成規則辞書とし
て、正規化された言語現象と当該言語現象をラベル化す
るための規則とが複数パターンにわたって記載されてお
り、当該言語現象をラベル化するための規則をユーザが
適宜追加登録可能であることを特徴とする請求項６記載
の文書群ラベル生成方法。
【請求項１０】前記文書群ラベル生成方法は、前記ラベ
ル生成処理ステップで、前記特徴抽出処理ステップで抽
出された対象文書群の特徴的な言語現象を正規化して、
前記ラベル生成規則辞書記憶手段の前記ラベル生成規則
との照合処理を行い、一致した言語現象に対してラベル
化を行なうことを特徴とする請求項６記載の文書群ラベ
ル生成方法。
【請求項１１】文書蓄積手段に収集・蓄積された複数の
テキスト文書からなる複数のテキスト文書群に対してラ
ベルを生成する文書群ラベル生成方法のプログラムを記
録する記録媒体であって、前記請求項６から請求項１０
のいずれかに記載の文書群ラベル生成方法のプログラム
及びデータを記録することを特徴とする記録媒体。