JP2003248686A - 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体 - Google Patents
文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体Info
- Publication number
- JP2003248686A JP2003248686A JP2002045516A JP2002045516A JP2003248686A JP 2003248686 A JP2003248686 A JP 2003248686A JP 2002045516 A JP2002045516 A JP 2002045516A JP 2002045516 A JP2002045516 A JP 2002045516A JP 2003248686 A JP2003248686 A JP 2003248686A
- Authority
- JP
- Japan
- Prior art keywords
- label
- language
- document group
- label generation
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
群の内容を個々に読むことなくその内容を示すラベルを
自動的に取得する文書群ラベル生成装置、文書群ラベル
生成方法及び記録媒体を提供する。 【解決手段】文書群ラベル生成装置1は、テキスト文書
群記憶部2に収集・蓄積された複数のテキスト文書から
なる複数のテキスト文書群の言語属性を言語解析部3で
解析し、解析された言語属性情報を計量して、計量結果
に基づいてテキスト文書群に特徴的な言語現象を抽出
し、抽出された特徴的な言語現象とラベル生成規則を記
憶するラベル生成規則辞書記憶部6のラベル生成規則と
の照合処理を行ってテキスト文書群に対してテキスト文
書群の内容を示すラベルをラベル生成部4で生成してい
る。したがって、大量の文書群の内容を個々に読むこと
なく、ユーザに分かりやすい表現による内容を示すラベ
ルを自動的に取得する。
Description
装置、文書群ラベル生成方法及び記録媒体に関し、詳細
には、テキスト文書の言語属性を言語解析して、大量の
文書群の内容を個々に読むことなく、ユーザに分かりや
すい表現による内容を示すラベルを自動的に取得する文
書群ラベル生成装置、文書群ラベル生成方法及び当該文
書群ラベル生成方法とデータを記録した記録媒体に関す
る。
文書で保管されていた文書も電子化されるようになって
きている。このような文書の電子化に伴って、大量の電
子化文書が流通し、収集・蓄積された電子化文書をいか
に管理して簡便に再利用するかが重量な問題となってき
ている。そこでは、ある目的で収集された文書群の自動
分類が要望されている。この文書群の自動分類技術は、
大量の電子化文書群から類似した文書を自動分類する技
術であり、一般的には、各文書に含まれている重要語句
の類似性、出現頻度、出現場所等の共通点に基づいて、
関連性の高い文書をグルーピングする技術である。
利用しようとする場合、文書群に対して検索する、一覧
する等の行為が生じる。この場合、文書群にラベルが付
与されていると、検索を行うことも一覧することも容易
である。
よってはキーワードが付与されてラベル付与をするに
は、現在のところグルーピング後にその文書群の内容を
人手で把握して、ラベル付与することになる。
技術として、従来、テキスト情報群より指定された分析
の単位となるテキスト単位群を作成するテキスト情報変
換手段と、該作成したテキスト単位群から単語を抽出
し、該抽出した単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間のうち少なくとも一つの
間の距離を計算する距離計算手段と、該計算した距離情
報をもとに分析を行う分析手段とを備えたテキスト情報
の分析装置が提案されている(特開平11−34524
1号公報参照)。
群にユーザが情報の組み合わせや書式を指定して名前を
付与している。
り出す、データ分析システムであって、文書データを含
むデータからカテゴリ別の概念を抽出する、概念抽出手
段と、前記カテゴリ別の概念において、同一カテゴリに
属する概念のうち、対応する別のカテゴリに属する概念
の中で占める割合が既定値を超えている概念を抽出する
特徴的概念抽出手段を有するデータ分析システムが提案
されている(特開2001−75966号公報参照)。
けに予めカテゴリ辞書を用意し、前処理で自動的にデー
タをラベル付きデータに変換している。
うな従来技術にあっては、簡単かつ容易に文書を分類し
て、利用性を向上させる上で改良の必要があった。
号公報記載の従来技術にあっては、テキスト文書群が多
数ある場合、ユーザが各々のテキスト文書群に対して指
定を行う必要があり、ユーザに非常な労力を強いること
となり、改良の必要があった。
載の従来技術にあっては、特定の用途向けにカテゴリ辞
書を用意する必要があり、その辞書の構築に高額な費用
を要するだけでなく、別の用途に再利用しにくいという
問題があった。
る場合、グルーピング時の検索条件式をそのままラベル
化するという方法が一般的であるが、一般に、検索条件
式は、単語やキーワードのアンド、オアによる組み合わ
せが多いため、検索式をそのままを表示しても、ユーザ
がその文書群の内容を把握するのは困難であり、さら
に、表示時の一覧性という観点で適切ではない。
容の概要を知るための一つの手段として利用することが
できるが、文書群の特徴を知るために、各々の文書の重
要文や要約を読む必要があり、ユーザにとっては非常な
労力を強いられることとなり、改良の必要があった。
手段に収集・蓄積された複数のテキスト文書からなる複
数のテキスト文書群に対してラベルを生成するに際し
て、文書蓄積手段のテキスト文書の言語属性を言語解析
手段で解析し、当該解析された言語属性情報を計量手段
で計量して、当該計量結果に基づいてテキスト文書群に
特徴的な言語現象を特徴抽出手段で抽出し、抽出された
特徴的な言語現象とラベル生成規則を記憶するラベル生
成規則辞書記憶手段のラベル生成規則との照合処理を行
ってテキスト文書群に対して当該テキスト文書群の内容
を示すラベルをラベル生成手段で生成することにより、
大量の文書群の内容を個々に読むことなく、ユーザに分
かりやすい表現による内容を示すラベルを自動的に取得
し、利用性の良好な文書群ラベル生成装置を提供するこ
とを目的としている。
くとも言語属性情報として各テキスト文書毎の単語の出
現頻度、出現文節頻度、係り受け関係にある文節対の出
現頻度を計量することにより、さまざまな言語単位によ
る計量を行なって、文書の特徴をさまざまな言語単位で
取得し、ユーザにより一層分かりやすい表現による内容
を示すラベルを自動的に取得して、より一層利用性の良
好な文書群ラベル生成装置を提供することを目的として
いる。
計量手段で計量された言語属性情報のうち、頻度の高い
情報を、当該テキスト文書群における特徴的な言語現象
として抽出することにより、多く存在する言語情報から
文書中の高頻度語句を文書群の特徴語句として同定し
て、容易に特徴語句の絞り込みを行い、ユーザにより一
層分かりやすい表現による内容を示すラベルを自動的に
取得して、より一層利用性の良好な文書群ラベル生成装
置を提供することを目的としている。
書記憶手段が、ラベル生成規則辞書として、正規化され
た言語現象と当該言語現象をラベル化するための規則と
が複数パターンにわたって記載されており、当該言語現
象をラベル化するための規則をユーザが適宜追加登録可
能であることにより、さまざまな言語表現を吸収すると
ともに、ユーザ所望のラベル形式を設定し、ユーザによ
り一層分かりやすい表現による内容を示すラベルを自動
的に取得して、より一層利用性の良好な文書群ラベル生
成装置を提供することを目的としている。
が、特徴抽出手段で抽出された対象文書群の特徴的な言
語現象を正規化して、ラベル生成規則辞書記憶手段のラ
ベル生成規則との照合処理を行い、一致した言語現象に
対してラベル化を行なうことにより、ラベル生成規則辞
書をより一層有効に利用可能とし、ユーザにより一層分
かりやすい表現による内容を示すラベルを自動的に取得
して、より一層利用性の良好な文書群ラベル生成装置を
提供することを目的としている。
集・蓄積された複数のテキスト文書からなる複数のテキ
スト文書群に対してラベルを生成するに際して、言語解
析処理ステップで、文書蓄積手段のテキスト文書の言語
属性を解析し、計量処理ステップで、当該解析された言
語属性情報を計量して、特徴抽出処理ステップで、当該
計量結果に基づいてテキスト文書群に特徴的な言語現象
を抽出し、ラベル生成処理ステップで、抽出された特徴
的な言語現象とラベル生成規則を記憶するラベル生成規
則辞書記憶手段のラベル生成規則との照合処理を行って
テキスト文書群に対して当該テキスト文書群の内容を示
すラベルを生成することにより、大量の文書群の内容を
個々に読むことなく、ユーザに分かりやすい表現による
内容を示すラベルを自動的に取得し、利用性の良好な文
書群ラベル生成方法を提供することを目的としている。
で、少なくとも言語属性情報として各テキスト文書毎の
単語の出現頻度、出現文節頻度、係り受け関係にある文
節対の出現頻度を計量することにより、さまざまな言語
単位による計量を行なって、文書の特徴をさまざまな言
語単位で取得し、ユーザにより一層分かりやすい表現に
よる内容を示すラベルを自動的に取得して、より一層利
用性の良好な文書群ラベル生成方法を提供することを目
的としている。
ップで、計量処理ステップによって計量された言語属性
情報のうち、頻度の高い情報を、当該テキスト文書群に
おける特徴的な言語現象として抽出することにより、多
く存在する言語情報から文書中の高頻度語句を文書群の
特徴語句として同定して、容易に特徴語句の絞り込みを
行い、ユーザにより一層分かりやすい表現による内容を
示すラベルを自動的に取得して、より一層利用性の良好
な文書群ラベル生成方法を提供することを目的としてい
る。
書記憶手段が、ラベル生成規則辞書として、正規化され
た言語現象と当該言語現象をラベル化するための規則と
が複数パターンにわたって記載されており、当該言語現
象をラベル化するための規則をユーザが適宜追加登録可
能であることにより、さまざまな言語表現を吸収すると
ともに、ユーザ所望のラベル形式を設定し、ユーザによ
り一層分かりやすい表現による内容を示すラベルを自動
的に取得して、より一層利用性の良好な文書群ラベル生
成方法を提供することを目的としている。
ップで、特徴抽出処理ステップにより抽出された対象文
書群の特徴的な言語現象を正規化して、ラベル生成規則
辞書記憶手段のラベル生成規則との照合処理を行い、一
致した言語現象に対してラベル化を行なうことにより、
ラベル生成規則辞書をより一層有効に利用可能とし、ユ
ーザにより一層分かりやすい表現による内容を示すラベ
ルを自動的に取得して、より一層利用性の良好な文書群
ラベル生成方法を提供することを目的としている。
書蓄積手段に収集・蓄積された複数のテキスト文書から
なる複数のテキスト文書群に対してラベルを生成する文
書群ラベル生成方法のプログラムであって、請求項6か
ら請求項10のいずれかに記載の文書群ラベル生成方法
のプログラム及びデータを記録することにより、大量の
文書群の内容を個々に読むことなく、ユーザに分かりや
すい表現による内容を示すラベルを自動的に取得し、利
用性を向上させることのできる文書群ラベル生成装置及
び文書群ラベル生成方法を実現する記録媒体を提供する
ことを目的としている。
書群ラベル生成装置は、文書蓄積手段に収集・蓄積され
た複数のテキスト文書からなる複数のテキスト文書群に
対してラベルを生成する文書群ラベル生成装置におい
て、前記文書蓄積手段のテキスト文書の言語属性を解析
する言語解析手段と、当該言語解析手段の解析した言語
属性情報を計量する計量手段と、当該計量結果に基づい
て前記テキスト文書群に特徴的な言語現象を抽出する特
徴抽出手段と、ラベル生成規則を記憶するラベル生成規
則辞書記憶手段と、前記特徴抽出手段の抽出した前記特
徴的な言語現象と前記ラベル生成規則辞書記憶手段の前
記ラベル生成規則との照合処理を行って前記テキスト文
書群に対して当該テキスト文書群の内容を示すラベルを
生成するラベル生成手段と、を備えていることにより、
上記目的を達成している。
蓄積された複数のテキスト文書からなる複数のテキスト
文書群に対してラベルを生成するに際して、文書蓄積手
段のテキスト文書の言語属性を言語解析手段で解析し、
当該解析された言語属性情報を計量手段で計量して、当
該計量結果に基づいてテキスト文書群に特徴的な言語現
象を特徴抽出手段で抽出し、抽出された特徴的な言語現
象とラベル生成規則を記憶するラベル生成規則辞書記憶
手段のラベル生成規則との照合処理を行ってテキスト文
書群に対して当該テキスト文書群の内容を示すラベルを
ラベル生成手段で生成するので、大量の文書群の内容を
個々に読むことなく、ユーザに分かりやすい表現による
内容を示すラベルを自動的に取得することができ、利用
性を向上させることができる。
うに、前記計量手段は、少なくとも言語属性情報として
各テキスト文書毎の単語の出現頻度、出現文節頻度、係
り受け関係にある文節対の出現頻度を計量するものであ
ってもよい。
も言語属性情報として各テキスト文書毎の単語の出現頻
度、出現文節頻度、係り受け関係にある文節対の出現頻
度を計量するので、さまざまな言語単位による計量を行
なって、文書の特徴をさまざまな言語単位で取得するこ
とができ、ユーザにより一層分かりやすい表現による内
容を示すラベルを自動的に取得して、より一層利用性を
向上させることができる。
に、前記特徴抽出手段は、前記計量手段で計量された言
語属性情報のうち、頻度の高い情報を、当該テキスト文
書群における特徴的な言語現象として抽出するものであ
ってもよい。
手段で計量された言語属性情報のうち、頻度の高い情報
を、当該テキスト文書群における特徴的な言語現象とし
て抽出するので、多く存在する言語情報から文書中の高
頻度語句を文書群の特徴語句として同定して、容易に特
徴語句の絞り込みを行うことができ、ユーザにより一層
分かりやすい表現による内容を示すラベルを自動的に取
得して、より一層利用性を向上させることができる。
に、前記ラベル生成規則辞書記憶手段は、前記ラベル生
成規則辞書として、正規化された言語現象と当該言語現
象をラベル化するための規則とが複数パターンにわたっ
て記載されており、当該言語現象をラベル化するための
規則をユーザが適宜追加登録可能なものであってもよ
い。
憶手段が、ラベル生成規則辞書として、正規化された言
語現象と当該言語現象をラベル化するための規則とが複
数パターンにわたって記載されており、当該言語現象を
ラベル化するための規則をユーザが適宜追加登録可能で
あるので、さまざまな言語表現を吸収するとともに、ユ
ーザ所望のラベル形式を設定することができ、ユーザに
より一層分かりやすい表現による内容を示すラベルを自
動的に取得して、より一層利用性を向上させることがで
きる。
に、前記ラベル生成手段は、前記特徴抽出手段で抽出さ
れた対象文書群の特徴的な言語現象を正規化して、前記
ラベル生成規則辞書記憶手段の前記ラベル生成規則との
照合処理を行い、一致した言語現象に対してラベル化を
行なうものであってもよい。
徴抽出手段で抽出された対象文書群の特徴的な言語現象
を正規化して、ラベル生成規則辞書記憶手段のラベル生
成規則との照合処理を行い、一致した言語現象に対して
ラベル化を行なうので、ラベル生成規則辞書をより一層
有効に利用可能とすることができ、ユーザにより一層分
かりやすい表現による内容を示すラベルを自動的に取得
して、より一層利用性を向上させることができる。
法は、文書蓄積手段に収集・蓄積された複数のテキスト
文書からなる複数のテキスト文書群に対してラベルを生
成する文書群ラベル生成方法において、前記文書蓄積手
段のテキスト文書の言語属性を解析する言語解析処理ス
テップと、当該言語解析処理ステップで解析した言語属
性情報を計量する計量処理ステップと、当該計量結果に
基づいて前記テキスト文書群に特徴的な言語現象を抽出
する特徴抽出処理ステップと、前記特徴抽出処理ステッ
プで抽出した前記特徴的な言語現象とラベル生成規則を
記憶するラベル生成規則辞書記憶手段のラベル生成規則
との照合処理を行って前記テキスト文書群に対して当該
テキスト文書群の内容を示すラベルを生成するラベル生
成処理ステップと、の各ステップ処理を行うことによ
り、上記目的を達成している。
蓄積された複数のテキスト文書からなる複数のテキスト
文書群に対してラベルを生成するに際して、言語解析処
理ステップで、文書蓄積手段のテキスト文書の言語属性
を解析し、計量処理ステップで、当該解析された言語属
性情報を計量して、特徴抽出処理ステップで、当該計量
結果に基づいてテキスト文書群に特徴的な言語現象を抽
出し、ラベル生成処理ステップで、抽出された特徴的な
言語現象とラベル生成規則を記憶するラベル生成規則辞
書記憶手段のラベル生成規則との照合処理を行ってテキ
スト文書群に対して当該テキスト文書群の内容を示すラ
ベルを生成するので、大量の文書群の内容を個々に読む
ことなく、ユーザに分かりやすい表現による内容を示す
ラベルを自動的に取得することができ、利用性を向上さ
せることができる。
うに、前記文書群ラベル生成方法は、前記計量処理ステ
ップで、少なくとも言語属性情報として各文書毎の単語
の出現頻度、出現文節頻度、係り受け関係にある文節対
の出現頻度を計量してもよい。
少なくとも言語属性情報として各テキスト文書毎の単語
の出現頻度、出現文節頻度、係り受け関係にある文節対
の出現頻度を計量するので、さまざまな言語単位による
計量を行なって、文書の特徴をさまざまな言語単位で取
得することができ、ユーザにより一層分かりやすい表現
による内容を示すラベルを自動的に取得して、より一層
利用性を向上させることができる。
に、前記文書群ラベル生成方法は、前記特徴抽出処理ス
テップで、前記計量処理ステップで計量された言語属性
情報のうち、頻度の高い情報を、該当文書群における特
徴的な言語現象として抽出してもよい。
で、計量処理ステップによって計量された言語属性情報
のうち、頻度の高い情報を、当該テキスト文書群におけ
る特徴的な言語現象として抽出するので、多く存在する
言語情報から文書中の高頻度語句を文書群の特徴語句と
して同定して、容易に特徴語句の絞り込みを行うことが
でき、ユーザにより一層分かりやすい表現による内容を
示すラベルを自動的に取得して、より一層利用性を向上
させることができる。
に、前記文書群ラベル生成方法は、前記ラベル生成規則
辞書記憶手段が、前記ラベル生成規則辞書として、正規
化された言語現象と当該言語現象をラベル化するための
規則とが複数パターンにわたって記載されており、当該
言語現象をラベル化するための規則をユーザが適宜追加
登録可能であってもよい。
憶手段が、ラベル生成規則辞書として、正規化された言
語現象と当該言語現象をラベル化するための規則とが複
数パターンにわたって記載されており、当該言語現象を
ラベル化するための規則をユーザが適宜追加登録可能で
あるので、さまざまな言語表現を吸収するとともに、ユ
ーザ所望のラベル形式を設定することができ、ユーザに
より一層分かりやすい表現による内容を示すラベルを自
動的に取得して、より一層利用性を向上させることがで
きる。
に、前記文書群ラベル生成方法は、前記ラベル生成処理
ステップで、前記特徴抽出処理ステップで抽出された対
象文書群の特徴的な言語現象を正規化して、前記ラベル
生成規則辞書記憶手段の前記ラベル生成規則との照合処
理を行い、一致した言語現象に対してラベル化を行なっ
てもよい。
で、特徴抽出処理ステップにより抽出された対象文書群
の特徴的な言語現象を正規化して、ラベル生成規則辞書
記憶手段のラベル生成規則との照合処理を行い、一致し
た言語現象に対してラベル化を行なうので、ラベル生成
規則辞書をより一層有効に利用可能とすることができ、
ユーザにより一層分かりやすい表現による内容を示すラ
ベルを自動的に取得して、より一層利用性を向上させる
ことができる。
蓄積手段に収集・蓄積された複数のテキスト文書からな
る複数のテキスト文書群に対してラベルを生成する文書
群ラベル生成方法のプログラムを記録する記録媒体であ
って、前記請求項6から請求項10のいずれかに記載の
文書群ラベル生成方法のプログラム及びデータを記録す
ることにより、上記目的を達成している。
手段に収集・蓄積された複数のテキスト文書からなる複
数のテキスト文書群に対してラベルを生成する文書群ラ
ベル生成方法のプログラムであって、請求項6から請求
項10のいずれかに記載の文書群ラベル生成方法のプロ
グラム及びデータを記録しているので、記録媒体を、コ
ンピュータ等の情報処理装置に読み取らせることで、大
量の文書群の内容を個々に読むことなく、ユーザに分か
りやすい表現による内容を示すラベルを自動的に取得す
ることができ、利用性を向上させることのできる文書群
ラベル生成方法を実現する文書群ラベル生成装置を構築
することができ、文書群に適切にラベルを生成して、利
用性を向上させることができる。
を添付図面に基づいて詳細に説明する。なお、以下に述
べる実施の形態は、本発明の好適な実施の形態であるか
ら、技術的に好ましい種々の限定が付されているが、本
発明の範囲は、以下の説明において特に本発明を限定す
る旨の記載がない限り、これらの態様に限られるもので
はない。
装置、文書群ラベル生成方法及び記録媒体の一実施の形
態を示す図であり、図1は、本発明の文書群ラベル生成
装置、文書群ラベル生成方法及び記録媒体の一実施の形
態を適用した文書群ラベル生成装置1のブロック構成図
である。
は、テキスト文書群記憶部2、言語解析部3、ラベル生
成部4、言語解析用辞書記憶部5及びラベル生成規則辞
書記憶部6等を備えている。
プログラム及び必要なデータを記録するCD−ROM
(Compact Disc Read Only Memory )等の記録媒体を、
例えば、コンピュータ等に読み取らせて導入すること
で、構築される。
2は、収集されたテキスト文書のテキスト文書群が登録
され、登録されたテキスト文書群がラベル生成の対象と
なる。
による言語解析に必要な各種言語解析情報を記憶する。
徴抽出手段)3は、言語解析用辞書記憶部5の記憶する
言語解析用辞書に基づいて、テキスト文書群記憶部2に
よりテキスト文書群記憶部2に登録された各テキスト文
書を言語解析用辞書記憶部5の言語解析情報に基づいて
言語解析する言語解析処理、言語解析結果における言語
属性情報を計量する計量処理及び計量処理の計量結果に
基づいてテキスト文書群の特徴的な言語現象を抽出する
特徴抽出処理等の各ステップ処理を実行して、処理結果
をラベル生成部4に出力する。
則辞書記憶手段)6は、ラベル生成規則を保持し、例え
ば、図2に示すようなもので、正規化された言語現象と
当該言語現象をラベル化するための規則が複数パターン
にわたって記録されている。また、ラベル生成規則辞書
記憶部6には、ユーザが規則を新規に適宜追加登録可能
である。
語解析部3の特徴抽出処理で抽出された特徴的な言語現
象とラベル生成規則辞書記憶部6に登録されているラベ
ル生成規則辞書のラベル生成規則とのマッチング処理を
行って、対象文書群に対して、そのマッチング内容を示
すラベルを生成する。ラベル生成部4は、具体的には、
例えば、言語解析部3の特徴抽出処理で抽出された特徴
的な言語現象を正規化し、ラベル生成規則辞書記憶部6
を検索して、一致した言語現象に対してラベル化を行っ
て、ラベルを生成する。
書群ラベル生成装置1は、文書分析処理プログラム及び
必要なデータを記録するCD−ROM等の記録媒体を、
例えば、コンピュータ等に読み取らせて導入すること
で、構築され、電子化されたテキスト文書群を言語解析
して言語属性情報を計量し、テキスト文書群の特徴的な
言語現象を抽出して、抽出された特徴的な言語現象とラ
ベル生成規則とのマッチング処理を行って、対象文書群
に対して、そのマッチング内容を示すラベルを生成す
る。
析対象のテキスト文書群が入力されると、当該テキスト
文書群をテキスト文書群記億部2に登録する。
に示すように、言語解析部3が、言語解析用辞書記憶部
5の記憶する言語解析用辞書に基づいて、テキスト文書
群記憶部2に登録された各テキスト文書を言語解析、例
えば、形態素解析を行なって、その品詞等の属性情報を
得たり、係り受け解析を行なって、係り受けの関係のあ
る文節対を得たり、書き手の意図を推定できる語句を得
たりする言語解析を行う言語解析処理を行い(ステップ
S101)、言語解析の解析結果における言語属性情報
を計量する計量処理を行う(ステップS102)。
果に基づいてテキスト文書群の特徴的な言語現象を抽出
する特徴抽出処理を実行して、処理結果をラベル生成部
4に出力する(ステップS103)。
特徴抽出処理で抽出された特徴的な言語現象に基づい
て、ラベル生成規則辞書記憶部6に登録されているラベ
ル生成規則の辞書引きを行う辞書引き処理を行い(ステ
ップS104)、特徴抽出処理で抽出された特徴的な言
語現象とマッチングするラベルを生成するラベル生成処
理を行う(ステップS105)。
について意見を収集・蓄積したテキストデータがあり、
集めた意見を内容別に分類し、それぞれのグループに適
したラベルを付与して整理する場合、まず、最初に、全
てのテキストデータを内容別にグルーピングする。テキ
ストデータを内容別にグループ分けするには、既存の文
書検索技術、文書分類技術、クラスタリング技術等を用
いて行うことができる。このグルーピングの結果、以下
のような文書群A〜Dが得られたとものとする。
が面倒くさそう。 ・仲間と楽しく遊びたい。 ・楽しそうだけど自分にはちょっと向いていない気がす
る。 ・きっかけがないという感じです。でもやりたいです。
たのしそう。
が、やりたくてもできないな。 ・おもしろそーでやりたいけどお金がかかりそう。
と制限とかうるさそうなので。 ・手軽に出来ない。でもぜひイルカと一緒に泳ぎたい。 ・ ジェットスキーなどもう少し手軽にできるようにな
るといい。
スト文書群それぞれに対して、言語解析部3で、言語解
析、例えば、形態素解析を行なって、その品詞等の属性
情報を得たり、係り受け解析を行なって、係り受けの関
係のある文節対を得たり、書き手の意図を推定できる語
句を得たりする言語解析を行う。これら言語解析は、既
存のさまざまな手法で実現可能である。
毎に、これらの出現頻度を計量し、頻出語句について、
一定のフィルタリングを行ない、その文書群に特徴的な
語句を抽出する。この計量処理で計量対象となる単位
は、単語、文節、または、係り受け対等のように任意に
設定することができる。また、特徴語句のフィルタリン
グは、情報検索技術で用いられている品詞限定や不要語
除去等の手法を用いて実現することができる。
ト文書群について、各文書群に出現する語句の計量とそ
の頻出語句を品詞によってフィルタリングを行なったと
ころ、特徴語句として、以下の情報(特徴的な言語現
象)が抽出された。
詞)+ない(助動詞)」 次に、抽出された語句(言語現象)を、ラベル生成規則
辞書記憶部6に登録されているラベル生成規則辞書で検
索可能な形式に変換する。この場合、ラベル生成規則辞
書として、図2に示したようなラベル生成規則辞書を用
いるとすると、抽出された語句は、以下のように変換さ
れる。これらは、言語解析の結果得られた語句の属性情
報の並び替えや正規化で行われる。
が)→受け文節表記(かかる) 文書群C:単語1{名詞} 単語2{名詞} 単語1表
記(夏)単語2表記(遊び) 文書群D:文節対{連用修飾関係} 係り文節表記(手
軽に)→受け文節表記(できない) そして、ラベル生成部4が、上記形式で、図2に示した
ラベル生成規則辞書を適用し、一致した言語現象に対し
てラベル化を行ったところ、以下のラベルを得ることが
できた。
見を内容別に分類すると、「楽しい」「お金がかかる」
「夏の遊び」「手軽にできない」と整理することがで
き、各文書群を再利用可能なラベル付きデータ群として
保存することができる。
のスポーツの印象についてのアンケートを行なおうとす
る場合、上記文書群ラベル生成装置1で作成された各文
書群のラベルをそのまま選択項目として再利用すること
ができる。
生成装置1及び文書群ラベル生成方法は、テキスト文書
群記憶部2に収集・蓄積された複数のテキスト文書から
なる複数のテキスト文書群に対してラベルを生成するに
際して、テキスト文書群記憶部2のテキスト文書の言語
属性を言語解析部3で解析し、解析された言語属性情報
を計量して、当該計量結果に基づいてテキスト文書群に
特徴的な言語現象を抽出し、抽出された特徴的な言語現
象とラベル生成規則を記憶するラベル生成規則辞書記憶
部6のラベル生成規則との照合処理を行ってテキスト文
書群に対してテキスト文書群の内容を示すラベルをラベ
ル生成部4で生成している。
読むことなく、収集・蓄積された大量のテキスト文書デ
ータをユーザに分かりやすい表現による内容を示すラベ
ルを自動的に取得することができ、このラベルは、従来
のような単語キーワードの域を超えたユーザにとって理
解しやすいものである。その結果、利用性を向上させる
ことができる。
置1及び文書群ラベル生成方法は、言語解析部3が、少
なくとも言語属性情報として各テキスト文書毎の単語の
出現頻度、出現文節頻度、係り受け関係にある文節対の
出現頻度を計量している。
量を行なって、文書の特徴をさまざまな言語単位で取得
することができ、ユーザにより一層分かりやすい表現に
よる内容を示すラベルを自動的に取得して、より一層利
用性を向上させることができる。
装置1及び文書群ラベル生成方法は、言語解析部3が、
計量処理で計量した言語属性情報のうち、頻度の高い情
報を、当該テキスト文書群における特徴的な言語現象と
して抽出している。
書中の高頻度語句を文書群の特徴語句として同定して、
容易に特徴語句の絞り込みを行うことができ、ユーザに
より一層分かりやすい表現による内容を示すラベルを自
動的に取得して、より一層利用性を向上させることがで
きる。
置1及び文書群ラベル生成方法は、ラベル生成規則辞書
記憶部6が、ラベル生成規則辞書として、正規化された
言語現象と当該言語現象をラベル化するための規則とが
複数パターンにわたって記載されており、当該言語現象
をラベル化するための規則をユーザが適宜追加登録可能
である。
るとともに、ユーザ所望のラベル形式を設定することが
でき、ユーザにより一層分かりやすい表現による内容を
示すラベルを自動的に取得して、より一層利用性を向上
させることができる。
装置1及び文書群ラベル生成方法は、ラベル生成部4
が、言語解析部3の特徴抽出処理で抽出された対象文書
群の特徴的な言語現象を正規化して、ラベル生成規則辞
書記憶手段のラベル生成規則との照合処理を行い、一致
した言語現象に対してラベル化を行なっている。
層有効に利用可能とすることができ、ユーザにより一層
分かりやすい表現による内容を示すラベルを自動的に取
得して、より一層利用性を向上させることができる。
適な実施の形態に基づき具体的に説明したが、本発明は
上記のものに限定されるものではなく、その要旨を逸脱
しない範囲で種々変更可能であることはいうまでもな
い。
装置によれば、文書蓄積手段に収集・蓄積された複数の
テキスト文書からなる複数のテキスト文書群に対してラ
ベルを生成するに際して、文書蓄積手段のテキスト文書
の言語属性を言語解析手段で解析し、当該解析された言
語属性情報を計量手段で計量して、当該計量結果に基づ
いてテキスト文書群に特徴的な言語現象を特徴抽出手段
で抽出し、抽出された特徴的な言語現象とラベル生成規
則を記憶するラベル生成規則辞書記憶手段のラベル生成
規則との照合処理を行ってテキスト文書群に対して当該
テキスト文書群の内容を示すラベルをラベル生成手段で
生成するので、大量の文書群の内容を個々に読むことな
く、ユーザに分かりやすい表現による内容を示すラベル
を自動的に取得することができ、利用性を向上させるこ
とができる。
置によれば、計量手段が、少なくとも言語属性情報とし
て各テキスト文書毎の単語の出現頻度、出現文節頻度、
係り受け関係にある文節対の出現頻度を計量するので、
さまざまな言語単位による計量を行なって、文書の特徴
をさまざまな言語単位で取得することができ、ユーザに
より一層分かりやすい表現による内容を示すラベルを自
動的に取得して、より一層利用性を向上させることがで
きる。
置によれば、特徴抽出手段が、計量手段で計量された言
語属性情報のうち、頻度の高い情報を、当該テキスト文
書群における特徴的な言語現象として抽出するので、多
く存在する言語情報から文書中の高頻度語句を文書群の
特徴語句として同定して、容易に特徴語句の絞り込みを
行うことができ、ユーザにより一層分かりやすい表現に
よる内容を示すラベルを自動的に取得して、より一層利
用性を向上させることができる。
置によれば、ラベル生成規則辞書記憶手段が、ラベル生
成規則辞書として、正規化された言語現象と当該言語現
象をラベル化するための規則とが複数パターンにわたっ
て記載されており、当該言語現象をラベル化するための
規則をユーザが適宜追加登録可能であるので、さまざま
な言語表現を吸収するとともに、ユーザ所望のラベル形
式を設定することができ、ユーザにより一層分かりやす
い表現による内容を示すラベルを自動的に取得して、よ
り一層利用性を向上させることができる。
置によれば、ラベル生成手段が、特徴抽出手段で抽出さ
れた対象文書群の特徴的な言語現象を正規化して、ラベ
ル生成規則辞書記憶手段のラベル生成規則との照合処理
を行い、一致した言語現象に対してラベル化を行なうの
で、ラベル生成規則辞書をより一層有効に利用可能とす
ることができ、ユーザにより一層分かりやすい表現によ
る内容を示すラベルを自動的に取得して、より一層利用
性を向上させることができる。
法によれば、文書蓄積手段に収集・蓄積された複数のテ
キスト文書からなる複数のテキスト文書群に対してラベ
ルを生成するに際して、言語解析処理ステップで、文書
蓄積手段のテキスト文書の言語属性を解析し、計量処理
ステップで、当該解析された言語属性情報を計量して、
特徴抽出処理ステップで、当該計量結果に基づいてテキ
スト文書群に特徴的な言語現象を抽出し、ラベル生成処
理ステップで、抽出された特徴的な言語現象とラベル生
成規則を記憶するラベル生成規則辞書記憶手段のラベル
生成規則との照合処理を行ってテキスト文書群に対して
当該テキスト文書群の内容を示すラベルを生成するの
で、大量の文書群の内容を個々に読むことなく、ユーザ
に分かりやすい表現による内容を示すラベルを自動的に
取得することができ、利用性を向上させることができ
る。
法によれば、計量処理ステップで、少なくとも言語属性
情報として各テキスト文書毎の単語の出現頻度、出現文
節頻度、係り受け関係にある文節対の出現頻度を計量す
るので、さまざまな言語単位による計量を行なって、文
書の特徴をさまざまな言語単位で取得することができ、
ユーザにより一層分かりやすい表現による内容を示すラ
ベルを自動的に取得して、より一層利用性を向上させる
ことができる。
法によれば、特徴抽出処理ステップで、計量処理ステッ
プによって計量された言語属性情報のうち、頻度の高い
情報を、当該テキスト文書群における特徴的な言語現象
として抽出するので、多く存在する言語情報から文書中
の高頻度語句を文書群の特徴語句として同定して、容易
に特徴語句の絞り込みを行うことができ、ユーザにより
一層分かりやすい表現による内容を示すラベルを自動的
に取得して、より一層利用性を向上させることができ
る。
法によれば、ラベル生成規則辞書記憶手段が、ラベル生
成規則辞書として、正規化された言語現象と当該言語現
象をラベル化するための規則とが複数パターンにわたっ
て記載されており、当該言語現象をラベル化するための
規則をユーザが適宜追加登録可能であるので、さまざま
な言語表現を吸収するとともに、ユーザ所望のラベル形
式を設定することができ、ユーザにより一層分かりやす
い表現による内容を示すラベルを自動的に取得して、よ
り一層利用性を向上させることができる。
方法によれば、ラベル生成ステップで、特徴抽出処理ス
テップにより抽出された対象文書群の特徴的な言語現象
を正規化して、ラベル生成規則辞書記憶手段のラベル生
成規則との照合処理を行い、一致した言語現象に対して
ラベル化を行なうので、ラベル生成規則辞書をより一層
有効に利用可能とすることができ、ユーザにより一層分
かりやすい表現による内容を示すラベルを自動的に取得
して、より一層利用性を向上させることができる。
ば、記録媒体に、文書蓄積手段に収集・蓄積された複数
のテキスト文書からなる複数のテキスト文書群に対して
ラベルを生成する文書群ラベル生成方法のプログラムで
あって、請求項6から請求項10のいずれかに記載の文
書群ラベル生成方法のプログラム及びデータを記録して
いるので、記録媒体を、コンピュータ等の情報処理装置
に読み取らせることで、大量の文書群の内容を個々に読
むことなく、ユーザに分かりやすい表現による内容を示
すラベルを自動的に取得することができ、利用性を向上
させることのできる文書群ラベル生成方法を実現する文
書群ラベル生成装置を構築することができ、文書群に適
切にラベルを生成して、利用性を向上させることができ
る。
生成方法及び記録媒体の一実施の形態を適用した文書群
ラベル生成装置の要部ブロック構成図。
いるラベル生成規則辞書の一例を示す図。
生成処理を示すフローチャート。
Claims (11)
- 【請求項1】文書蓄積手段に収集・蓄積された複数のテ
キスト文書からなる複数のテキスト文書群に対してラベ
ルを生成する文書群ラベル生成装置において、前記文書
蓄積手段のテキスト文書の言語属性を解析する言語解析
手段と、当該言語解析手段の解析した言語属性情報を計
量する計量手段と、当該計量結果に基づいて前記テキス
ト文書群に特徴的な言語現象を抽出する特徴抽出手段
と、ラベル生成規則を記憶するラベル生成規則辞書記憶
手段と、前記特徴抽出手段の抽出した前記特徴的な言語
現象と前記ラベル生成規則辞書記憶手段の前記ラベル生
成規則との照合処理を行って前記テキスト文書群に対し
て当該テキスト文書群の内容を示すラベルを生成するラ
ベル生成手段と、を備えていることを特徴とする文書群
ラベル生成装置。 - 【請求項2】前記計量手段は、少なくとも言語属性情報
として各テキスト文書毎の単語の出現頻度、出現文節頻
度、係り受け関係にある文節対の出現頻度を計量するこ
とを特徴とする請求項1記載の文書群ラベル生成装置。 - 【請求項3】前記特徴抽出手段は、前記計量手段で計量
された言語属性情報のうち、頻度の高い情報を、当該テ
キスト文書群における特徴的な言語現象として抽出する
ことを特徴とする請求項1記載の文書群ラベル生成装
置。 - 【請求項4】前記ラベル生成規則辞書記憶手段は、前記
ラベル生成規則辞書として、正規化された言語現象と当
該言語現象をラベル化するための規則とが複数パターン
にわたって記載されており、当該言語現象をラベル化す
るための規則をユーザが適宜追加登録可能であることを
特徴とする請求項1記載の文書群ラベル生成装置。 - 【請求項5】前記ラベル生成手段は、前記特徴抽出手段
で抽出された対象文書群の特徴的な言語現象を正規化し
て、前記ラベル生成規則辞書記憶手段の前記ラベル生成
規則との照合処理を行い、一致した言語現象に対してラ
ベル化を行なうことを特徴とする請求項1記載の文書群
ラベル生成装置。 - 【請求項6】文書蓄積手段に収集・蓄積された複数のテ
キスト文書からなる複数のテキスト文書群に対してラベ
ルを生成する文書群ラベル生成方法において、前記文書
蓄積手段のテキスト文書の言語属性を解析する言語解析
処理ステップと、当該言語解析処理ステップで解析した
言語属性情報を計量する計量処理ステップと、当該計量
結果に基づいて前記テキスト文書群に特徴的な言語現象
を抽出する特徴抽出処理ステップと、前記特徴抽出処理
ステップで抽出した前記特徴的な言語現象とラベル生成
規則を記憶するラベル生成規則辞書記憶手段のラベル生
成規則との照合処理を行って前記テキスト文書群に対し
て当該テキスト文書群の内容を示すラベルを生成するラ
ベル生成処理ステップと、の各ステップ処理を行うこと
を特徴とする文書群ラベル生成方法。 - 【請求項7】前記文書群ラベル生成方法は、前記計量処
理ステップで、少なくとも言語属性情報として各文書毎
の単語の出現頻度、出現文節頻度、係り受け関係にある
文節対の出現頻度を計量することを特徴とする請求項6
記載の文書群ラベル生成方法。 - 【請求項8】前記文書群ラベル生成方法は、前記特徴抽
出処理ステップで、前記計量処理ステップで計量された
言語属性情報のうち、頻度の高い情報を、該当文書群に
おける特徴的な言語現象として抽出することを特徴とす
る請求項6記載の文書群ラベル生成方法。 - 【請求項9】前記文書群ラベル生成方法は、前記ラベル
生成規則辞書記憶手段が、前記ラベル生成規則辞書とし
て、正規化された言語現象と当該言語現象をラベル化す
るための規則とが複数パターンにわたって記載されてお
り、当該言語現象をラベル化するための規則をユーザが
適宜追加登録可能であることを特徴とする請求項6記載
の文書群ラベル生成方法。 - 【請求項10】前記文書群ラベル生成方法は、前記ラベ
ル生成処理ステップで、前記特徴抽出処理ステップで抽
出された対象文書群の特徴的な言語現象を正規化して、
前記ラベル生成規則辞書記憶手段の前記ラベル生成規則
との照合処理を行い、一致した言語現象に対してラベル
化を行なうことを特徴とする請求項6記載の文書群ラベ
ル生成方法。 - 【請求項11】文書蓄積手段に収集・蓄積された複数の
テキスト文書からなる複数のテキスト文書群に対してラ
ベルを生成する文書群ラベル生成方法のプログラムを記
録する記録媒体であって、前記請求項6から請求項10
のいずれかに記載の文書群ラベル生成方法のプログラム
及びデータを記録することを特徴とする記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002045516A JP2003248686A (ja) | 2002-02-22 | 2002-02-22 | 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002045516A JP2003248686A (ja) | 2002-02-22 | 2002-02-22 | 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003248686A true JP2003248686A (ja) | 2003-09-05 |
Family
ID=28659323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002045516A Pending JP2003248686A (ja) | 2002-02-22 | 2002-02-22 | 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003248686A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1835422A1 (en) * | 2006-03-10 | 2007-09-19 | Sony Corporation | Information processing device and method, and program |
JP2009015394A (ja) * | 2007-06-29 | 2009-01-22 | Toshiba Corp | 辞書構築支援装置 |
WO2010061537A1 (ja) * | 2008-11-26 | 2010-06-03 | 日本電気株式会社 | 検索装置、検索方法、及びプログラムが格納された記録媒体 |
JP2012123496A (ja) * | 2010-12-07 | 2012-06-28 | Fujitsu Ltd | 検索装置、方法及びプログラム |
-
2002
- 2002-02-22 JP JP2002045516A patent/JP2003248686A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1835422A1 (en) * | 2006-03-10 | 2007-09-19 | Sony Corporation | Information processing device and method, and program |
US7778988B2 (en) | 2006-03-10 | 2010-08-17 | Sony Corporation | Information processing device, method, and program for determining relativity between contents |
JP2009015394A (ja) * | 2007-06-29 | 2009-01-22 | Toshiba Corp | 辞書構築支援装置 |
WO2010061537A1 (ja) * | 2008-11-26 | 2010-06-03 | 日本電気株式会社 | 検索装置、検索方法、及びプログラムが格納された記録媒体 |
JP5594145B2 (ja) * | 2008-11-26 | 2014-09-24 | 日本電気株式会社 | 検索装置、検索方法、及びプログラム |
US8892574B2 (en) | 2008-11-26 | 2014-11-18 | Nec Corporation | Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset |
JP2012123496A (ja) * | 2010-12-07 | 2012-06-28 | Fujitsu Ltd | 検索装置、方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108009293B (zh) | 视频标签生成方法、装置、计算机设备和存储介质 | |
JP4595692B2 (ja) | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
US7544881B2 (en) | Music-piece classifying apparatus and method, and related computer program | |
JP5106636B2 (ja) | テキストセグメントを有する文書から用語を抽出するためのシステム | |
JP2007280342A (ja) | 楽曲特徴量演算装置及び楽曲検索システム | |
US20060253433A1 (en) | Method and apparatus for knowledge-based music searching and method and apparatus for managing music file | |
Knees et al. | Towards semantic music information extraction from the web using rule patterns and supervised learning | |
JPH11120183A (ja) | キーワード抽出方法及び装置 | |
JP2009199302A (ja) | ドキュメントを解析するためのプログラム,装置および方法 | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP2011227749A (ja) | 略語完全語復元装置とその方法と、プログラム | |
JP2003248686A (ja) | 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体 | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
JP2006221478A (ja) | 文書検索装置及びマクロアプローチによるポートフォリオ分析装置 | |
JPH08166965A (ja) | 日本語テキスト自動分類方法 | |
JP5679400B2 (ja) | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2011048527A (ja) | 感性情報抽出装置、感性検索装置、その方法およびプログラム | |
JP4213900B2 (ja) | 文書分類装置と記録媒体 | |
JP4965766B2 (ja) | 関係情報抽出装置および属性情報抽出装置 | |
JP2009282903A (ja) | 知識抽出・検索装置およびその方法 | |
JP2002108888A (ja) | ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体 | |
CN117972025B (zh) | 一种基于语义分析的海量文本检索匹配方法 | |
JP2000137718A (ja) | 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体 | |
JP2013182580A (ja) | 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム | |
JP2008234557A (ja) | 評判情報検索装置、その方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050217 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080415 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080616 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081007 |