JP2003248686A - 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体 - Google Patents

文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体

Info

Publication number
JP2003248686A
JP2003248686A JP2002045516A JP2002045516A JP2003248686A JP 2003248686 A JP2003248686 A JP 2003248686A JP 2002045516 A JP2002045516 A JP 2002045516A JP 2002045516 A JP2002045516 A JP 2002045516A JP 2003248686 A JP2003248686 A JP 2003248686A
Authority
JP
Japan
Prior art keywords
label
language
document group
label generation
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002045516A
Other languages
English (en)
Inventor
Naoko Sato
奈穂子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002045516A priority Critical patent/JP2003248686A/ja
Publication of JP2003248686A publication Critical patent/JP2003248686A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】本発明は文書群の言語属性を言語解析して文書
群の内容を個々に読むことなくその内容を示すラベルを
自動的に取得する文書群ラベル生成装置、文書群ラベル
生成方法及び記録媒体を提供する。 【解決手段】文書群ラベル生成装置1は、テキスト文書
群記憶部2に収集・蓄積された複数のテキスト文書から
なる複数のテキスト文書群の言語属性を言語解析部3で
解析し、解析された言語属性情報を計量して、計量結果
に基づいてテキスト文書群に特徴的な言語現象を抽出
し、抽出された特徴的な言語現象とラベル生成規則を記
憶するラベル生成規則辞書記憶部6のラベル生成規則と
の照合処理を行ってテキスト文書群に対してテキスト文
書群の内容を示すラベルをラベル生成部4で生成してい
る。したがって、大量の文書群の内容を個々に読むこと
なく、ユーザに分かりやすい表現による内容を示すラベ
ルを自動的に取得する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書群ラベル生成
装置、文書群ラベル生成方法及び記録媒体に関し、詳細
には、テキスト文書の言語属性を言語解析して、大量の
文書群の内容を個々に読むことなく、ユーザに分かりや
すい表現による内容を示すラベルを自動的に取得する文
書群ラベル生成装置、文書群ラベル生成方法及び当該文
書群ラベル生成方法とデータを記録した記録媒体に関す
る。
【0002】
【従来の技術】近時、情報の電子化が進み、従来では紙
文書で保管されていた文書も電子化されるようになって
きている。このような文書の電子化に伴って、大量の電
子化文書が流通し、収集・蓄積された電子化文書をいか
に管理して簡便に再利用するかが重量な問題となってき
ている。そこでは、ある目的で収集された文書群の自動
分類が要望されている。この文書群の自動分類技術は、
大量の電子化文書群から類似した文書を自動分類する技
術であり、一般的には、各文書に含まれている重要語句
の類似性、出現頻度、出現場所等の共通点に基づいて、
関連性の高い文書をグルーピングする技術である。
【0003】そして、このように分類された文書群を再
利用しようとする場合、文書群に対して検索する、一覧
する等の行為が生じる。この場合、文書群にラベルが付
与されていると、検索を行うことも一覧することも容易
である。
【0004】ところが、一文書には、タイトルや場合に
よってはキーワードが付与されてラベル付与をするに
は、現在のところグルーピング後にその文書群の内容を
人手で把握して、ラベル付与することになる。
【0005】そして、テキスト単位群に名前を付与する
技術として、従来、テキスト情報群より指定された分析
の単位となるテキスト単位群を作成するテキスト情報変
換手段と、該作成したテキスト単位群から単語を抽出
し、該抽出した単語・テキスト単位間、単語・単語間、
テキスト単位・テキスト単位間のうち少なくとも一つの
間の距離を計算する距離計算手段と、該計算した距離情
報をもとに分析を行う分析手段とを備えたテキスト情報
の分析装置が提案されている(特開平11−34524
1号公報参照)。
【0006】すなわち、この従来技術は、テキスト単位
群にユーザが情報の組み合わせや書式を指定して名前を
付与している。
【0007】また、従来、データから特徴的な概念を取
り出す、データ分析システムであって、文書データを含
むデータからカテゴリ別の概念を抽出する、概念抽出手
段と、前記カテゴリ別の概念において、同一カテゴリに
属する概念のうち、対応する別のカテゴリに属する概念
の中で占める割合が既定値を超えている概念を抽出する
特徴的概念抽出手段を有するデータ分析システムが提案
されている(特開2001−75966号公報参照)。
【0008】すなわち、この従来技術は、特定の用途向
けに予めカテゴリ辞書を用意し、前処理で自動的にデー
タをラベル付きデータに変換している。
【0009】
【発明が解決しようとする課題】しかしながら、このよ
うな従来技術にあっては、簡単かつ容易に文書を分類し
て、利用性を向上させる上で改良の必要があった。
【0010】すなわち、上記特開平11−345241
号公報記載の従来技術にあっては、テキスト文書群が多
数ある場合、ユーザが各々のテキスト文書群に対して指
定を行う必要があり、ユーザに非常な労力を強いること
となり、改良の必要があった。
【0011】また、特開2001−75966号公報記
載の従来技術にあっては、特定の用途向けにカテゴリ辞
書を用意する必要があり、その辞書の構築に高額な費用
を要するだけでなく、別の用途に再利用しにくいという
問題があった。
【0012】ところで、ラベル付与の自動化を目的とす
る場合、グルーピング時の検索条件式をそのままラベル
化するという方法が一般的であるが、一般に、検索条件
式は、単語やキーワードのアンド、オアによる組み合わ
せが多いため、検索式をそのままを表示しても、ユーザ
がその文書群の内容を把握するのは困難であり、さら
に、表示時の一覧性という観点で適切ではない。
【0013】一方、重要文抽出技術や要約技術が文書内
容の概要を知るための一つの手段として利用することが
できるが、文書群の特徴を知るために、各々の文書の重
要文や要約を読む必要があり、ユーザにとっては非常な
労力を強いられることとなり、改良の必要があった。
【0014】そこで、請求項1記載の発明は、文書蓄積
手段に収集・蓄積された複数のテキスト文書からなる複
数のテキスト文書群に対してラベルを生成するに際し
て、文書蓄積手段のテキスト文書の言語属性を言語解析
手段で解析し、当該解析された言語属性情報を計量手段
で計量して、当該計量結果に基づいてテキスト文書群に
特徴的な言語現象を特徴抽出手段で抽出し、抽出された
特徴的な言語現象とラベル生成規則を記憶するラベル生
成規則辞書記憶手段のラベル生成規則との照合処理を行
ってテキスト文書群に対して当該テキスト文書群の内容
を示すラベルをラベル生成手段で生成することにより、
大量の文書群の内容を個々に読むことなく、ユーザに分
かりやすい表現による内容を示すラベルを自動的に取得
し、利用性の良好な文書群ラベル生成装置を提供するこ
とを目的としている。
【0015】請求項2記載の発明は、計量手段が、少な
くとも言語属性情報として各テキスト文書毎の単語の出
現頻度、出現文節頻度、係り受け関係にある文節対の出
現頻度を計量することにより、さまざまな言語単位によ
る計量を行なって、文書の特徴をさまざまな言語単位で
取得し、ユーザにより一層分かりやすい表現による内容
を示すラベルを自動的に取得して、より一層利用性の良
好な文書群ラベル生成装置を提供することを目的として
いる。
【0016】請求項3記載の発明は、特徴抽出手段が、
計量手段で計量された言語属性情報のうち、頻度の高い
情報を、当該テキスト文書群における特徴的な言語現象
として抽出することにより、多く存在する言語情報から
文書中の高頻度語句を文書群の特徴語句として同定し
て、容易に特徴語句の絞り込みを行い、ユーザにより一
層分かりやすい表現による内容を示すラベルを自動的に
取得して、より一層利用性の良好な文書群ラベル生成装
置を提供することを目的としている。
【0017】請求項4記載の発明は、ラベル生成規則辞
書記憶手段が、ラベル生成規則辞書として、正規化され
た言語現象と当該言語現象をラベル化するための規則と
が複数パターンにわたって記載されており、当該言語現
象をラベル化するための規則をユーザが適宜追加登録可
能であることにより、さまざまな言語表現を吸収すると
ともに、ユーザ所望のラベル形式を設定し、ユーザによ
り一層分かりやすい表現による内容を示すラベルを自動
的に取得して、より一層利用性の良好な文書群ラベル生
成装置を提供することを目的としている。
【0018】請求項5記載の発明は、ラベル生成手段
が、特徴抽出手段で抽出された対象文書群の特徴的な言
語現象を正規化して、ラベル生成規則辞書記憶手段のラ
ベル生成規則との照合処理を行い、一致した言語現象に
対してラベル化を行なうことにより、ラベル生成規則辞
書をより一層有効に利用可能とし、ユーザにより一層分
かりやすい表現による内容を示すラベルを自動的に取得
して、より一層利用性の良好な文書群ラベル生成装置を
提供することを目的としている。
【0019】請求項6記載の発明は、文書蓄積手段に収
集・蓄積された複数のテキスト文書からなる複数のテキ
スト文書群に対してラベルを生成するに際して、言語解
析処理ステップで、文書蓄積手段のテキスト文書の言語
属性を解析し、計量処理ステップで、当該解析された言
語属性情報を計量して、特徴抽出処理ステップで、当該
計量結果に基づいてテキスト文書群に特徴的な言語現象
を抽出し、ラベル生成処理ステップで、抽出された特徴
的な言語現象とラベル生成規則を記憶するラベル生成規
則辞書記憶手段のラベル生成規則との照合処理を行って
テキスト文書群に対して当該テキスト文書群の内容を示
すラベルを生成することにより、大量の文書群の内容を
個々に読むことなく、ユーザに分かりやすい表現による
内容を示すラベルを自動的に取得し、利用性の良好な文
書群ラベル生成方法を提供することを目的としている。
【0020】請求項7記載の発明は、計量処理ステップ
で、少なくとも言語属性情報として各テキスト文書毎の
単語の出現頻度、出現文節頻度、係り受け関係にある文
節対の出現頻度を計量することにより、さまざまな言語
単位による計量を行なって、文書の特徴をさまざまな言
語単位で取得し、ユーザにより一層分かりやすい表現に
よる内容を示すラベルを自動的に取得して、より一層利
用性の良好な文書群ラベル生成方法を提供することを目
的としている。
【0021】請求項8記載の発明は、特徴抽出処理ステ
ップで、計量処理ステップによって計量された言語属性
情報のうち、頻度の高い情報を、当該テキスト文書群に
おける特徴的な言語現象として抽出することにより、多
く存在する言語情報から文書中の高頻度語句を文書群の
特徴語句として同定して、容易に特徴語句の絞り込みを
行い、ユーザにより一層分かりやすい表現による内容を
示すラベルを自動的に取得して、より一層利用性の良好
な文書群ラベル生成方法を提供することを目的としてい
る。
【0022】請求項9記載の発明は、ラベル生成規則辞
書記憶手段が、ラベル生成規則辞書として、正規化され
た言語現象と当該言語現象をラベル化するための規則と
が複数パターンにわたって記載されており、当該言語現
象をラベル化するための規則をユーザが適宜追加登録可
能であることにより、さまざまな言語表現を吸収すると
ともに、ユーザ所望のラベル形式を設定し、ユーザによ
り一層分かりやすい表現による内容を示すラベルを自動
的に取得して、より一層利用性の良好な文書群ラベル生
成方法を提供することを目的としている。
【0023】請求項10記載の発明は、ラベル生成ステ
ップで、特徴抽出処理ステップにより抽出された対象文
書群の特徴的な言語現象を正規化して、ラベル生成規則
辞書記憶手段のラベル生成規則との照合処理を行い、一
致した言語現象に対してラベル化を行なうことにより、
ラベル生成規則辞書をより一層有効に利用可能とし、ユ
ーザにより一層分かりやすい表現による内容を示すラベ
ルを自動的に取得して、より一層利用性の良好な文書群
ラベル生成方法を提供することを目的としている。
【0024】請求項11記載の発明は、記録媒体に、文
書蓄積手段に収集・蓄積された複数のテキスト文書から
なる複数のテキスト文書群に対してラベルを生成する文
書群ラベル生成方法のプログラムであって、請求項6か
ら請求項10のいずれかに記載の文書群ラベル生成方法
のプログラム及びデータを記録することにより、大量の
文書群の内容を個々に読むことなく、ユーザに分かりや
すい表現による内容を示すラベルを自動的に取得し、利
用性を向上させることのできる文書群ラベル生成装置及
び文書群ラベル生成方法を実現する記録媒体を提供する
ことを目的としている。
【0025】
【課題を解決するための手段】請求項1記載の発明の文
書群ラベル生成装置は、文書蓄積手段に収集・蓄積され
た複数のテキスト文書からなる複数のテキスト文書群に
対してラベルを生成する文書群ラベル生成装置におい
て、前記文書蓄積手段のテキスト文書の言語属性を解析
する言語解析手段と、当該言語解析手段の解析した言語
属性情報を計量する計量手段と、当該計量結果に基づい
て前記テキスト文書群に特徴的な言語現象を抽出する特
徴抽出手段と、ラベル生成規則を記憶するラベル生成規
則辞書記憶手段と、前記特徴抽出手段の抽出した前記特
徴的な言語現象と前記ラベル生成規則辞書記憶手段の前
記ラベル生成規則との照合処理を行って前記テキスト文
書群に対して当該テキスト文書群の内容を示すラベルを
生成するラベル生成手段と、を備えていることにより、
上記目的を達成している。
【0026】上記構成によれば、文書蓄積手段に収集・
蓄積された複数のテキスト文書からなる複数のテキスト
文書群に対してラベルを生成するに際して、文書蓄積手
段のテキスト文書の言語属性を言語解析手段で解析し、
当該解析された言語属性情報を計量手段で計量して、当
該計量結果に基づいてテキスト文書群に特徴的な言語現
象を特徴抽出手段で抽出し、抽出された特徴的な言語現
象とラベル生成規則を記憶するラベル生成規則辞書記憶
手段のラベル生成規則との照合処理を行ってテキスト文
書群に対して当該テキスト文書群の内容を示すラベルを
ラベル生成手段で生成するので、大量の文書群の内容を
個々に読むことなく、ユーザに分かりやすい表現による
内容を示すラベルを自動的に取得することができ、利用
性を向上させることができる。
【0027】この場合、例えば、請求項2に記載するよ
うに、前記計量手段は、少なくとも言語属性情報として
各テキスト文書毎の単語の出現頻度、出現文節頻度、係
り受け関係にある文節対の出現頻度を計量するものであ
ってもよい。
【0028】上記構成によれば、計量手段が、少なくと
も言語属性情報として各テキスト文書毎の単語の出現頻
度、出現文節頻度、係り受け関係にある文節対の出現頻
度を計量するので、さまざまな言語単位による計量を行
なって、文書の特徴をさまざまな言語単位で取得するこ
とができ、ユーザにより一層分かりやすい表現による内
容を示すラベルを自動的に取得して、より一層利用性を
向上させることができる。
【0029】また、例えば、請求項3に記載するよう
に、前記特徴抽出手段は、前記計量手段で計量された言
語属性情報のうち、頻度の高い情報を、当該テキスト文
書群における特徴的な言語現象として抽出するものであ
ってもよい。
【0030】上記構成によれば、特徴抽出手段が、計量
手段で計量された言語属性情報のうち、頻度の高い情報
を、当該テキスト文書群における特徴的な言語現象とし
て抽出するので、多く存在する言語情報から文書中の高
頻度語句を文書群の特徴語句として同定して、容易に特
徴語句の絞り込みを行うことができ、ユーザにより一層
分かりやすい表現による内容を示すラベルを自動的に取
得して、より一層利用性を向上させることができる。
【0031】さらに、例えば、請求項4に記載するよう
に、前記ラベル生成規則辞書記憶手段は、前記ラベル生
成規則辞書として、正規化された言語現象と当該言語現
象をラベル化するための規則とが複数パターンにわたっ
て記載されており、当該言語現象をラベル化するための
規則をユーザが適宜追加登録可能なものであってもよ
い。
【0032】上記構成によれば、ラベル生成規則辞書記
憶手段が、ラベル生成規則辞書として、正規化された言
語現象と当該言語現象をラベル化するための規則とが複
数パターンにわたって記載されており、当該言語現象を
ラベル化するための規則をユーザが適宜追加登録可能で
あるので、さまざまな言語表現を吸収するとともに、ユ
ーザ所望のラベル形式を設定することができ、ユーザに
より一層分かりやすい表現による内容を示すラベルを自
動的に取得して、より一層利用性を向上させることがで
きる。
【0033】また、例えば、請求項5に記載するよう
に、前記ラベル生成手段は、前記特徴抽出手段で抽出さ
れた対象文書群の特徴的な言語現象を正規化して、前記
ラベル生成規則辞書記憶手段の前記ラベル生成規則との
照合処理を行い、一致した言語現象に対してラベル化を
行なうものであってもよい。
【0034】上記構成によれば、ラベル生成手段が、特
徴抽出手段で抽出された対象文書群の特徴的な言語現象
を正規化して、ラベル生成規則辞書記憶手段のラベル生
成規則との照合処理を行い、一致した言語現象に対して
ラベル化を行なうので、ラベル生成規則辞書をより一層
有効に利用可能とすることができ、ユーザにより一層分
かりやすい表現による内容を示すラベルを自動的に取得
して、より一層利用性を向上させることができる。
【0035】請求項6記載の発明の文書群ラベル生成方
法は、文書蓄積手段に収集・蓄積された複数のテキスト
文書からなる複数のテキスト文書群に対してラベルを生
成する文書群ラベル生成方法において、前記文書蓄積手
段のテキスト文書の言語属性を解析する言語解析処理ス
テップと、当該言語解析処理ステップで解析した言語属
性情報を計量する計量処理ステップと、当該計量結果に
基づいて前記テキスト文書群に特徴的な言語現象を抽出
する特徴抽出処理ステップと、前記特徴抽出処理ステッ
プで抽出した前記特徴的な言語現象とラベル生成規則を
記憶するラベル生成規則辞書記憶手段のラベル生成規則
との照合処理を行って前記テキスト文書群に対して当該
テキスト文書群の内容を示すラベルを生成するラベル生
成処理ステップと、の各ステップ処理を行うことによ
り、上記目的を達成している。
【0036】上記構成によれば、文書蓄積手段に収集・
蓄積された複数のテキスト文書からなる複数のテキスト
文書群に対してラベルを生成するに際して、言語解析処
理ステップで、文書蓄積手段のテキスト文書の言語属性
を解析し、計量処理ステップで、当該解析された言語属
性情報を計量して、特徴抽出処理ステップで、当該計量
結果に基づいてテキスト文書群に特徴的な言語現象を抽
出し、ラベル生成処理ステップで、抽出された特徴的な
言語現象とラベル生成規則を記憶するラベル生成規則辞
書記憶手段のラベル生成規則との照合処理を行ってテキ
スト文書群に対して当該テキスト文書群の内容を示すラ
ベルを生成するので、大量の文書群の内容を個々に読む
ことなく、ユーザに分かりやすい表現による内容を示す
ラベルを自動的に取得することができ、利用性を向上さ
せることができる。
【0037】この場合、例えば、請求項7に記載するよ
うに、前記文書群ラベル生成方法は、前記計量処理ステ
ップで、少なくとも言語属性情報として各文書毎の単語
の出現頻度、出現文節頻度、係り受け関係にある文節対
の出現頻度を計量してもよい。
【0038】上記構成によれば、計量処理ステップで、
少なくとも言語属性情報として各テキスト文書毎の単語
の出現頻度、出現文節頻度、係り受け関係にある文節対
の出現頻度を計量するので、さまざまな言語単位による
計量を行なって、文書の特徴をさまざまな言語単位で取
得することができ、ユーザにより一層分かりやすい表現
による内容を示すラベルを自動的に取得して、より一層
利用性を向上させることができる。
【0039】また、例えば、請求項8に記載するよう
に、前記文書群ラベル生成方法は、前記特徴抽出処理ス
テップで、前記計量処理ステップで計量された言語属性
情報のうち、頻度の高い情報を、該当文書群における特
徴的な言語現象として抽出してもよい。
【0040】上記構成によれば、特徴抽出処理ステップ
で、計量処理ステップによって計量された言語属性情報
のうち、頻度の高い情報を、当該テキスト文書群におけ
る特徴的な言語現象として抽出するので、多く存在する
言語情報から文書中の高頻度語句を文書群の特徴語句と
して同定して、容易に特徴語句の絞り込みを行うことが
でき、ユーザにより一層分かりやすい表現による内容を
示すラベルを自動的に取得して、より一層利用性を向上
させることができる。
【0041】さらに、例えば、請求項9に記載するよう
に、前記文書群ラベル生成方法は、前記ラベル生成規則
辞書記憶手段が、前記ラベル生成規則辞書として、正規
化された言語現象と当該言語現象をラベル化するための
規則とが複数パターンにわたって記載されており、当該
言語現象をラベル化するための規則をユーザが適宜追加
登録可能であってもよい。
【0042】上記構成によれば、ラベル生成規則辞書記
憶手段が、ラベル生成規則辞書として、正規化された言
語現象と当該言語現象をラベル化するための規則とが複
数パターンにわたって記載されており、当該言語現象を
ラベル化するための規則をユーザが適宜追加登録可能で
あるので、さまざまな言語表現を吸収するとともに、ユ
ーザ所望のラベル形式を設定することができ、ユーザに
より一層分かりやすい表現による内容を示すラベルを自
動的に取得して、より一層利用性を向上させることがで
きる。
【0043】また、例えば、請求項10に記載するよう
に、前記文書群ラベル生成方法は、前記ラベル生成処理
ステップで、前記特徴抽出処理ステップで抽出された対
象文書群の特徴的な言語現象を正規化して、前記ラベル
生成規則辞書記憶手段の前記ラベル生成規則との照合処
理を行い、一致した言語現象に対してラベル化を行なっ
てもよい。
【0044】上記構成によれば、ラベル生成ステップ
で、特徴抽出処理ステップにより抽出された対象文書群
の特徴的な言語現象を正規化して、ラベル生成規則辞書
記憶手段のラベル生成規則との照合処理を行い、一致し
た言語現象に対してラベル化を行なうので、ラベル生成
規則辞書をより一層有効に利用可能とすることができ、
ユーザにより一層分かりやすい表現による内容を示すラ
ベルを自動的に取得して、より一層利用性を向上させる
ことができる。
【0045】請求項11記載の発明の記録媒体は、文書
蓄積手段に収集・蓄積された複数のテキスト文書からな
る複数のテキスト文書群に対してラベルを生成する文書
群ラベル生成方法のプログラムを記録する記録媒体であ
って、前記請求項6から請求項10のいずれかに記載の
文書群ラベル生成方法のプログラム及びデータを記録す
ることにより、上記目的を達成している。
【0046】上記構成によれば、記録媒体に、文書蓄積
手段に収集・蓄積された複数のテキスト文書からなる複
数のテキスト文書群に対してラベルを生成する文書群ラ
ベル生成方法のプログラムであって、請求項6から請求
項10のいずれかに記載の文書群ラベル生成方法のプロ
グラム及びデータを記録しているので、記録媒体を、コ
ンピュータ等の情報処理装置に読み取らせることで、大
量の文書群の内容を個々に読むことなく、ユーザに分か
りやすい表現による内容を示すラベルを自動的に取得す
ることができ、利用性を向上させることのできる文書群
ラベル生成方法を実現する文書群ラベル生成装置を構築
することができ、文書群に適切にラベルを生成して、利
用性を向上させることができる。
【0047】
【発明の実施の形態】以下、本発明の好適な実施の形態
を添付図面に基づいて詳細に説明する。なお、以下に述
べる実施の形態は、本発明の好適な実施の形態であるか
ら、技術的に好ましい種々の限定が付されているが、本
発明の範囲は、以下の説明において特に本発明を限定す
る旨の記載がない限り、これらの態様に限られるもので
はない。
【0048】図1〜図3は、本発明の文書群ラベル生成
装置、文書群ラベル生成方法及び記録媒体の一実施の形
態を示す図であり、図1は、本発明の文書群ラベル生成
装置、文書群ラベル生成方法及び記録媒体の一実施の形
態を適用した文書群ラベル生成装置1のブロック構成図
である。
【0049】図1において、文書群ラベル生成装置1
は、テキスト文書群記憶部2、言語解析部3、ラベル生
成部4、言語解析用辞書記憶部5及びラベル生成規則辞
書記憶部6等を備えている。
【0050】文書群ラベル生成装置1は、文書分析処理
プログラム及び必要なデータを記録するCD−ROM
(Compact Disc Read Only Memory )等の記録媒体を、
例えば、コンピュータ等に読み取らせて導入すること
で、構築される。
【0051】テキスト文書群記憶部(文書群蓄積手段)
2は、収集されたテキスト文書のテキスト文書群が登録
され、登録されたテキスト文書群がラベル生成の対象と
なる。
【0052】言語解析用辞書記憶部5は、言語解析部3
による言語解析に必要な各種言語解析情報を記憶する。
【0053】言語解析部(言語解析手段、計量手段、特
徴抽出手段)3は、言語解析用辞書記憶部5の記憶する
言語解析用辞書に基づいて、テキスト文書群記憶部2に
よりテキスト文書群記憶部2に登録された各テキスト文
書を言語解析用辞書記憶部5の言語解析情報に基づいて
言語解析する言語解析処理、言語解析結果における言語
属性情報を計量する計量処理及び計量処理の計量結果に
基づいてテキスト文書群の特徴的な言語現象を抽出する
特徴抽出処理等の各ステップ処理を実行して、処理結果
をラベル生成部4に出力する。
【0054】ラベル生成規則辞書記憶部(ラベル生成規
則辞書記憶手段)6は、ラベル生成規則を保持し、例え
ば、図2に示すようなもので、正規化された言語現象と
当該言語現象をラベル化するための規則が複数パターン
にわたって記録されている。また、ラベル生成規則辞書
記憶部6には、ユーザが規則を新規に適宜追加登録可能
である。
【0055】ラベル生成部(ラベル生成手段)4は、言
語解析部3の特徴抽出処理で抽出された特徴的な言語現
象とラベル生成規則辞書記憶部6に登録されているラベ
ル生成規則辞書のラベル生成規則とのマッチング処理を
行って、対象文書群に対して、そのマッチング内容を示
すラベルを生成する。ラベル生成部4は、具体的には、
例えば、言語解析部3の特徴抽出処理で抽出された特徴
的な言語現象を正規化し、ラベル生成規則辞書記憶部6
を検索して、一致した言語現象に対してラベル化を行っ
て、ラベルを生成する。
【0056】次に、本実施の形態の作用を説明する。文
書群ラベル生成装置1は、文書分析処理プログラム及び
必要なデータを記録するCD−ROM等の記録媒体を、
例えば、コンピュータ等に読み取らせて導入すること
で、構築され、電子化されたテキスト文書群を言語解析
して言語属性情報を計量し、テキスト文書群の特徴的な
言語現象を抽出して、抽出された特徴的な言語現象とラ
ベル生成規則とのマッチング処理を行って、対象文書群
に対して、そのマッチング内容を示すラベルを生成す
る。
【0057】すなわち、文書群ラベル生成装置1は、分
析対象のテキスト文書群が入力されると、当該テキスト
文書群をテキスト文書群記億部2に登録する。
【0058】そして、文書群ラベル生成装置1は、図3
に示すように、言語解析部3が、言語解析用辞書記憶部
5の記憶する言語解析用辞書に基づいて、テキスト文書
群記憶部2に登録された各テキスト文書を言語解析、例
えば、形態素解析を行なって、その品詞等の属性情報を
得たり、係り受け解析を行なって、係り受けの関係のあ
る文節対を得たり、書き手の意図を推定できる語句を得
たりする言語解析を行う言語解析処理を行い(ステップ
S101)、言語解析の解析結果における言語属性情報
を計量する計量処理を行う(ステップS102)。
【0059】次に、言語解析部3が、計量処理の計量結
果に基づいてテキスト文書群の特徴的な言語現象を抽出
する特徴抽出処理を実行して、処理結果をラベル生成部
4に出力する(ステップS103)。
【0060】次に、ラベル生成部4が、言語解析部3の
特徴抽出処理で抽出された特徴的な言語現象に基づい
て、ラベル生成規則辞書記憶部6に登録されているラベ
ル生成規則の辞書引きを行う辞書引き処理を行い(ステ
ップS104)、特徴抽出処理で抽出された特徴的な言
語現象とマッチングするラベルを生成するラベル生成処
理を行う(ステップS105)。
【0061】そして、いま、例えば、ある海のスポーツ
について意見を収集・蓄積したテキストデータがあり、
集めた意見を内容別に分類し、それぞれのグループに適
したラベルを付与して整理する場合、まず、最初に、全
てのテキストデータを内容別にグルーピングする。テキ
ストデータを内容別にグループ分けするには、既存の文
書検索技術、文書分類技術、クラスタリング技術等を用
いて行うことができる。このグルーピングの結果、以下
のような文書群A〜Dが得られたとものとする。
【0062】〈文書群A〉 ・どこでもできるような気がしない。とても楽しそうだ
が面倒くさそう。 ・仲間と楽しく遊びたい。 ・楽しそうだけど自分にはちょっと向いていない気がす
る。 ・きっかけがないという感じです。でもやりたいです。
たのしそう。
【0063】〈文書群B〉 ・お金がかかる。 ・もっと余暇と、お金があればもっと楽しめると思う
が、やりたくてもできないな。 ・おもしろそーでやりたいけどお金がかかりそう。
【0064】〈文書群C〉 ・夏しかできない気がする。ポツンとあってさみしい。 ・夏にうってつけの遊び。楽しいぞ。 ・夏ならではのたのしい遊び。
【0065】〈文書群D〉 ・安く手軽にできるならやってみたい。 ・もう少し手軽にできないものなのかな。日本だと何か
と制限とかうるさそうなので。 ・手軽に出来ない。でもぜひイルカと一緒に泳ぎたい。 ・ ジェットスキーなどもう少し手軽にできるようにな
るといい。
【0066】文書群ラベル生成装置1は、これらのテキ
スト文書群それぞれに対して、言語解析部3で、言語解
析、例えば、形態素解析を行なって、その品詞等の属性
情報を得たり、係り受け解析を行なって、係り受けの関
係のある文節対を得たり、書き手の意図を推定できる語
句を得たりする言語解析を行う。これら言語解析は、既
存のさまざまな手法で実現可能である。
【0067】さらに、言語解析部3は、テキスト文書群
毎に、これらの出現頻度を計量し、頻出語句について、
一定のフィルタリングを行ない、その文書群に特徴的な
語句を抽出する。この計量処理で計量対象となる単位
は、単語、文節、または、係り受け対等のように任意に
設定することができる。また、特徴語句のフィルタリン
グは、情報検索技術で用いられている品詞限定や不要語
除去等の手法を用いて実現することができる。
【0068】そして、言語解析部3で、上記例のテキス
ト文書群について、各文書群に出現する語句の計量とそ
の頻出語句を品詞によってフィルタリングを行なったと
ころ、特徴語句として、以下の情報(特徴的な言語現
象)が抽出された。
【0069】文書群A:「楽しい(形容詞)」 文書群B:「お金(名詞)が」→「かかる(動詞)」 文書群C:「夏(名詞)」「遊び(名詞)」 文書群D:「手軽(形容動詞)に」→「できる(助動
詞)+ない(助動詞)」 次に、抽出された語句(言語現象)を、ラベル生成規則
辞書記憶部6に登録されているラベル生成規則辞書で検
索可能な形式に変換する。この場合、ラベル生成規則辞
書として、図2に示したようなラベル生成規則辞書を用
いるとすると、抽出された語句は、以下のように変換さ
れる。これらは、言語解析の結果得られた語句の属性情
報の並び替えや正規化で行われる。
【0070】 文書群A:単語1{形容詞} 単語1表記(楽しい) 文書群B:文節対{格修飾関係} 係り文節表記(お金
が)→受け文節表記(かかる) 文書群C:単語1{名詞} 単語2{名詞} 単語1表
記(夏)単語2表記(遊び) 文書群D:文節対{連用修飾関係} 係り文節表記(手
軽に)→受け文節表記(できない) そして、ラベル生成部4が、上記形式で、図2に示した
ラベル生成規則辞書を適用し、一致した言語現象に対し
てラベル化を行ったところ、以下のラベルを得ることが
できた。
【0071】文書群A:ラベル(楽しい) 文書群B:ラベル(お金がかかる) 文書群C:ラベル(夏の遊び) 文書群D:ラベル(手軽にできない) すなわち、上記例では、ある海のスポーツについての意
見を内容別に分類すると、「楽しい」「お金がかかる」
「夏の遊び」「手軽にできない」と整理することがで
き、各文書群を再利用可能なラベル付きデータ群として
保存することができる。
【0072】もし、ユーザが、この例のように、ある海
のスポーツの印象についてのアンケートを行なおうとす
る場合、上記文書群ラベル生成装置1で作成された各文
書群のラベルをそのまま選択項目として再利用すること
ができる。
【0073】このように、本実施の形態の文書群ラベル
生成装置1及び文書群ラベル生成方法は、テキスト文書
群記憶部2に収集・蓄積された複数のテキスト文書から
なる複数のテキスト文書群に対してラベルを生成するに
際して、テキスト文書群記憶部2のテキスト文書の言語
属性を言語解析部3で解析し、解析された言語属性情報
を計量して、当該計量結果に基づいてテキスト文書群に
特徴的な言語現象を抽出し、抽出された特徴的な言語現
象とラベル生成規則を記憶するラベル生成規則辞書記憶
部6のラベル生成規則との照合処理を行ってテキスト文
書群に対してテキスト文書群の内容を示すラベルをラベ
ル生成部4で生成している。
【0074】したがって、大量の文書群の内容を個々に
読むことなく、収集・蓄積された大量のテキスト文書デ
ータをユーザに分かりやすい表現による内容を示すラベ
ルを自動的に取得することができ、このラベルは、従来
のような単語キーワードの域を超えたユーザにとって理
解しやすいものである。その結果、利用性を向上させる
ことができる。
【0075】また、本実施の形態の文書群ラベル生成装
置1及び文書群ラベル生成方法は、言語解析部3が、少
なくとも言語属性情報として各テキスト文書毎の単語の
出現頻度、出現文節頻度、係り受け関係にある文節対の
出現頻度を計量している。
【0076】したがって、さまざまな言語単位による計
量を行なって、文書の特徴をさまざまな言語単位で取得
することができ、ユーザにより一層分かりやすい表現に
よる内容を示すラベルを自動的に取得して、より一層利
用性を向上させることができる。
【0077】さらに、本実施の形態の文書群ラベル生成
装置1及び文書群ラベル生成方法は、言語解析部3が、
計量処理で計量した言語属性情報のうち、頻度の高い情
報を、当該テキスト文書群における特徴的な言語現象と
して抽出している。
【0078】したがって、多く存在する言語情報から文
書中の高頻度語句を文書群の特徴語句として同定して、
容易に特徴語句の絞り込みを行うことができ、ユーザに
より一層分かりやすい表現による内容を示すラベルを自
動的に取得して、より一層利用性を向上させることがで
きる。
【0079】また、本実施の形態の文書群ラベル生成装
置1及び文書群ラベル生成方法は、ラベル生成規則辞書
記憶部6が、ラベル生成規則辞書として、正規化された
言語現象と当該言語現象をラベル化するための規則とが
複数パターンにわたって記載されており、当該言語現象
をラベル化するための規則をユーザが適宜追加登録可能
である。
【0080】したがって、さまざまな言語表現を吸収す
るとともに、ユーザ所望のラベル形式を設定することが
でき、ユーザにより一層分かりやすい表現による内容を
示すラベルを自動的に取得して、より一層利用性を向上
させることができる。
【0081】さらに、本実施の形態の文書群ラベル生成
装置1及び文書群ラベル生成方法は、ラベル生成部4
が、言語解析部3の特徴抽出処理で抽出された対象文書
群の特徴的な言語現象を正規化して、ラベル生成規則辞
書記憶手段のラベル生成規則との照合処理を行い、一致
した言語現象に対してラベル化を行なっている。
【0082】したがって、ラベル生成規則辞書をより一
層有効に利用可能とすることができ、ユーザにより一層
分かりやすい表現による内容を示すラベルを自動的に取
得して、より一層利用性を向上させることができる。
【0083】以上、本発明者によってなされた発明を好
適な実施の形態に基づき具体的に説明したが、本発明は
上記のものに限定されるものではなく、その要旨を逸脱
しない範囲で種々変更可能であることはいうまでもな
い。
【0084】
【発明の効果】請求項1記載の発明の文書群ラベル生成
装置によれば、文書蓄積手段に収集・蓄積された複数の
テキスト文書からなる複数のテキスト文書群に対してラ
ベルを生成するに際して、文書蓄積手段のテキスト文書
の言語属性を言語解析手段で解析し、当該解析された言
語属性情報を計量手段で計量して、当該計量結果に基づ
いてテキスト文書群に特徴的な言語現象を特徴抽出手段
で抽出し、抽出された特徴的な言語現象とラベル生成規
則を記憶するラベル生成規則辞書記憶手段のラベル生成
規則との照合処理を行ってテキスト文書群に対して当該
テキスト文書群の内容を示すラベルをラベル生成手段で
生成するので、大量の文書群の内容を個々に読むことな
く、ユーザに分かりやすい表現による内容を示すラベル
を自動的に取得することができ、利用性を向上させるこ
とができる。
【0085】請求項2記載の発明の文書群ラベル生成装
置によれば、計量手段が、少なくとも言語属性情報とし
て各テキスト文書毎の単語の出現頻度、出現文節頻度、
係り受け関係にある文節対の出現頻度を計量するので、
さまざまな言語単位による計量を行なって、文書の特徴
をさまざまな言語単位で取得することができ、ユーザに
より一層分かりやすい表現による内容を示すラベルを自
動的に取得して、より一層利用性を向上させることがで
きる。
【0086】請求項3記載の発明の文書群ラベル生成装
置によれば、特徴抽出手段が、計量手段で計量された言
語属性情報のうち、頻度の高い情報を、当該テキスト文
書群における特徴的な言語現象として抽出するので、多
く存在する言語情報から文書中の高頻度語句を文書群の
特徴語句として同定して、容易に特徴語句の絞り込みを
行うことができ、ユーザにより一層分かりやすい表現に
よる内容を示すラベルを自動的に取得して、より一層利
用性を向上させることができる。
【0087】請求項4記載の発明の文書群ラベル生成装
置によれば、ラベル生成規則辞書記憶手段が、ラベル生
成規則辞書として、正規化された言語現象と当該言語現
象をラベル化するための規則とが複数パターンにわたっ
て記載されており、当該言語現象をラベル化するための
規則をユーザが適宜追加登録可能であるので、さまざま
な言語表現を吸収するとともに、ユーザ所望のラベル形
式を設定することができ、ユーザにより一層分かりやす
い表現による内容を示すラベルを自動的に取得して、よ
り一層利用性を向上させることができる。
【0088】請求項5記載の発明の文書群ラベル生成装
置によれば、ラベル生成手段が、特徴抽出手段で抽出さ
れた対象文書群の特徴的な言語現象を正規化して、ラベ
ル生成規則辞書記憶手段のラベル生成規則との照合処理
を行い、一致した言語現象に対してラベル化を行なうの
で、ラベル生成規則辞書をより一層有効に利用可能とす
ることができ、ユーザにより一層分かりやすい表現によ
る内容を示すラベルを自動的に取得して、より一層利用
性を向上させることができる。
【0089】請求項6記載の発明の文書群ラベル生成方
法によれば、文書蓄積手段に収集・蓄積された複数のテ
キスト文書からなる複数のテキスト文書群に対してラベ
ルを生成するに際して、言語解析処理ステップで、文書
蓄積手段のテキスト文書の言語属性を解析し、計量処理
ステップで、当該解析された言語属性情報を計量して、
特徴抽出処理ステップで、当該計量結果に基づいてテキ
スト文書群に特徴的な言語現象を抽出し、ラベル生成処
理ステップで、抽出された特徴的な言語現象とラベル生
成規則を記憶するラベル生成規則辞書記憶手段のラベル
生成規則との照合処理を行ってテキスト文書群に対して
当該テキスト文書群の内容を示すラベルを生成するの
で、大量の文書群の内容を個々に読むことなく、ユーザ
に分かりやすい表現による内容を示すラベルを自動的に
取得することができ、利用性を向上させることができ
る。
【0090】請求項7記載の発明の文書群ラベル生成方
法によれば、計量処理ステップで、少なくとも言語属性
情報として各テキスト文書毎の単語の出現頻度、出現文
節頻度、係り受け関係にある文節対の出現頻度を計量す
るので、さまざまな言語単位による計量を行なって、文
書の特徴をさまざまな言語単位で取得することができ、
ユーザにより一層分かりやすい表現による内容を示すラ
ベルを自動的に取得して、より一層利用性を向上させる
ことができる。
【0091】請求項8記載の発明の文書群ラベル生成方
法によれば、特徴抽出処理ステップで、計量処理ステッ
プによって計量された言語属性情報のうち、頻度の高い
情報を、当該テキスト文書群における特徴的な言語現象
として抽出するので、多く存在する言語情報から文書中
の高頻度語句を文書群の特徴語句として同定して、容易
に特徴語句の絞り込みを行うことができ、ユーザにより
一層分かりやすい表現による内容を示すラベルを自動的
に取得して、より一層利用性を向上させることができ
る。
【0092】請求項9記載の発明の文書群ラベル生成方
法によれば、ラベル生成規則辞書記憶手段が、ラベル生
成規則辞書として、正規化された言語現象と当該言語現
象をラベル化するための規則とが複数パターンにわたっ
て記載されており、当該言語現象をラベル化するための
規則をユーザが適宜追加登録可能であるので、さまざま
な言語表現を吸収するとともに、ユーザ所望のラベル形
式を設定することができ、ユーザにより一層分かりやす
い表現による内容を示すラベルを自動的に取得して、よ
り一層利用性を向上させることができる。
【0093】請求項10記載の発明の文書群ラベル生成
方法によれば、ラベル生成ステップで、特徴抽出処理ス
テップにより抽出された対象文書群の特徴的な言語現象
を正規化して、ラベル生成規則辞書記憶手段のラベル生
成規則との照合処理を行い、一致した言語現象に対して
ラベル化を行なうので、ラベル生成規則辞書をより一層
有効に利用可能とすることができ、ユーザにより一層分
かりやすい表現による内容を示すラベルを自動的に取得
して、より一層利用性を向上させることができる。
【0094】請求項11記載の発明の記録媒体によれ
ば、記録媒体に、文書蓄積手段に収集・蓄積された複数
のテキスト文書からなる複数のテキスト文書群に対して
ラベルを生成する文書群ラベル生成方法のプログラムで
あって、請求項6から請求項10のいずれかに記載の文
書群ラベル生成方法のプログラム及びデータを記録して
いるので、記録媒体を、コンピュータ等の情報処理装置
に読み取らせることで、大量の文書群の内容を個々に読
むことなく、ユーザに分かりやすい表現による内容を示
すラベルを自動的に取得することができ、利用性を向上
させることのできる文書群ラベル生成方法を実現する文
書群ラベル生成装置を構築することができ、文書群に適
切にラベルを生成して、利用性を向上させることができ
る。
【図面の簡単な説明】
【図1】本発明の文書群ラベル生成装置、文書群ラベル
生成方法及び記録媒体の一実施の形態を適用した文書群
ラベル生成装置の要部ブロック構成図。
【図2】図1のラベル生成規則辞書記憶部に登録されて
いるラベル生成規則辞書の一例を示す図。
【図3】図1の文書群ラベル生成装置による文書ラベル
生成処理を示すフローチャート。
【符号の説明】
1 文書群ラベル生成装置 2 テキスト文書群記憶部 3 言語解析部 4 ラベル生成部 5 言語解析用辞書記憶部 6 ラベル生成規則辞書記憶部

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】文書蓄積手段に収集・蓄積された複数のテ
    キスト文書からなる複数のテキスト文書群に対してラベ
    ルを生成する文書群ラベル生成装置において、前記文書
    蓄積手段のテキスト文書の言語属性を解析する言語解析
    手段と、当該言語解析手段の解析した言語属性情報を計
    量する計量手段と、当該計量結果に基づいて前記テキス
    ト文書群に特徴的な言語現象を抽出する特徴抽出手段
    と、ラベル生成規則を記憶するラベル生成規則辞書記憶
    手段と、前記特徴抽出手段の抽出した前記特徴的な言語
    現象と前記ラベル生成規則辞書記憶手段の前記ラベル生
    成規則との照合処理を行って前記テキスト文書群に対し
    て当該テキスト文書群の内容を示すラベルを生成するラ
    ベル生成手段と、を備えていることを特徴とする文書群
    ラベル生成装置。
  2. 【請求項2】前記計量手段は、少なくとも言語属性情報
    として各テキスト文書毎の単語の出現頻度、出現文節頻
    度、係り受け関係にある文節対の出現頻度を計量するこ
    とを特徴とする請求項1記載の文書群ラベル生成装置。
  3. 【請求項3】前記特徴抽出手段は、前記計量手段で計量
    された言語属性情報のうち、頻度の高い情報を、当該テ
    キスト文書群における特徴的な言語現象として抽出する
    ことを特徴とする請求項1記載の文書群ラベル生成装
    置。
  4. 【請求項4】前記ラベル生成規則辞書記憶手段は、前記
    ラベル生成規則辞書として、正規化された言語現象と当
    該言語現象をラベル化するための規則とが複数パターン
    にわたって記載されており、当該言語現象をラベル化す
    るための規則をユーザが適宜追加登録可能であることを
    特徴とする請求項1記載の文書群ラベル生成装置。
  5. 【請求項5】前記ラベル生成手段は、前記特徴抽出手段
    で抽出された対象文書群の特徴的な言語現象を正規化し
    て、前記ラベル生成規則辞書記憶手段の前記ラベル生成
    規則との照合処理を行い、一致した言語現象に対してラ
    ベル化を行なうことを特徴とする請求項1記載の文書群
    ラベル生成装置。
  6. 【請求項6】文書蓄積手段に収集・蓄積された複数のテ
    キスト文書からなる複数のテキスト文書群に対してラベ
    ルを生成する文書群ラベル生成方法において、前記文書
    蓄積手段のテキスト文書の言語属性を解析する言語解析
    処理ステップと、当該言語解析処理ステップで解析した
    言語属性情報を計量する計量処理ステップと、当該計量
    結果に基づいて前記テキスト文書群に特徴的な言語現象
    を抽出する特徴抽出処理ステップと、前記特徴抽出処理
    ステップで抽出した前記特徴的な言語現象とラベル生成
    規則を記憶するラベル生成規則辞書記憶手段のラベル生
    成規則との照合処理を行って前記テキスト文書群に対し
    て当該テキスト文書群の内容を示すラベルを生成するラ
    ベル生成処理ステップと、の各ステップ処理を行うこと
    を特徴とする文書群ラベル生成方法。
  7. 【請求項7】前記文書群ラベル生成方法は、前記計量処
    理ステップで、少なくとも言語属性情報として各文書毎
    の単語の出現頻度、出現文節頻度、係り受け関係にある
    文節対の出現頻度を計量することを特徴とする請求項6
    記載の文書群ラベル生成方法。
  8. 【請求項8】前記文書群ラベル生成方法は、前記特徴抽
    出処理ステップで、前記計量処理ステップで計量された
    言語属性情報のうち、頻度の高い情報を、該当文書群に
    おける特徴的な言語現象として抽出することを特徴とす
    る請求項6記載の文書群ラベル生成方法。
  9. 【請求項9】前記文書群ラベル生成方法は、前記ラベル
    生成規則辞書記憶手段が、前記ラベル生成規則辞書とし
    て、正規化された言語現象と当該言語現象をラベル化す
    るための規則とが複数パターンにわたって記載されてお
    り、当該言語現象をラベル化するための規則をユーザが
    適宜追加登録可能であることを特徴とする請求項6記載
    の文書群ラベル生成方法。
  10. 【請求項10】前記文書群ラベル生成方法は、前記ラベ
    ル生成処理ステップで、前記特徴抽出処理ステップで抽
    出された対象文書群の特徴的な言語現象を正規化して、
    前記ラベル生成規則辞書記憶手段の前記ラベル生成規則
    との照合処理を行い、一致した言語現象に対してラベル
    化を行なうことを特徴とする請求項6記載の文書群ラベ
    ル生成方法。
  11. 【請求項11】文書蓄積手段に収集・蓄積された複数の
    テキスト文書からなる複数のテキスト文書群に対してラ
    ベルを生成する文書群ラベル生成方法のプログラムを記
    録する記録媒体であって、前記請求項6から請求項10
    のいずれかに記載の文書群ラベル生成方法のプログラム
    及びデータを記録することを特徴とする記録媒体。
JP2002045516A 2002-02-22 2002-02-22 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体 Pending JP2003248686A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002045516A JP2003248686A (ja) 2002-02-22 2002-02-22 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002045516A JP2003248686A (ja) 2002-02-22 2002-02-22 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体

Publications (1)

Publication Number Publication Date
JP2003248686A true JP2003248686A (ja) 2003-09-05

Family

ID=28659323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002045516A Pending JP2003248686A (ja) 2002-02-22 2002-02-22 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP2003248686A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1835422A1 (en) * 2006-03-10 2007-09-19 Sony Corporation Information processing device and method, and program
JP2009015394A (ja) * 2007-06-29 2009-01-22 Toshiba Corp 辞書構築支援装置
WO2010061537A1 (ja) * 2008-11-26 2010-06-03 日本電気株式会社 検索装置、検索方法、及びプログラムが格納された記録媒体
JP2012123496A (ja) * 2010-12-07 2012-06-28 Fujitsu Ltd 検索装置、方法及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1835422A1 (en) * 2006-03-10 2007-09-19 Sony Corporation Information processing device and method, and program
US7778988B2 (en) 2006-03-10 2010-08-17 Sony Corporation Information processing device, method, and program for determining relativity between contents
JP2009015394A (ja) * 2007-06-29 2009-01-22 Toshiba Corp 辞書構築支援装置
WO2010061537A1 (ja) * 2008-11-26 2010-06-03 日本電気株式会社 検索装置、検索方法、及びプログラムが格納された記録媒体
JP5594145B2 (ja) * 2008-11-26 2014-09-24 日本電気株式会社 検索装置、検索方法、及びプログラム
US8892574B2 (en) 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset
JP2012123496A (ja) * 2010-12-07 2012-06-28 Fujitsu Ltd 検索装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
CN108009293B (zh) 视频标签生成方法、装置、计算机设备和存储介质
JP4595692B2 (ja) 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
US7544881B2 (en) Music-piece classifying apparatus and method, and related computer program
JP5106636B2 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
JP2007280342A (ja) 楽曲特徴量演算装置及び楽曲検索システム
US20060253433A1 (en) Method and apparatus for knowledge-based music searching and method and apparatus for managing music file
Knees et al. Towards semantic music information extraction from the web using rule patterns and supervised learning
JPH11120183A (ja) キーワード抽出方法及び装置
JP2009199302A (ja) ドキュメントを解析するためのプログラム,装置および方法
JP4525433B2 (ja) 文書集約装置及びプログラム
JP2011227749A (ja) 略語完全語復元装置とその方法と、プログラム
JP2003248686A (ja) 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP2006221478A (ja) 文書検索装置及びマクロアプローチによるポートフォリオ分析装置
JPH08166965A (ja) 日本語テキスト自動分類方法
JP5679400B2 (ja) カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2011048527A (ja) 感性情報抽出装置、感性検索装置、その方法およびプログラム
JP4213900B2 (ja) 文書分類装置と記録媒体
JP4965766B2 (ja) 関係情報抽出装置および属性情報抽出装置
JP2009282903A (ja) 知識抽出・検索装置およびその方法
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
CN117972025B (zh) 一种基于语义分析的海量文本检索匹配方法
JP2000137718A (ja) 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体
JP2013182580A (ja) 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム
JP2008234557A (ja) 評判情報検索装置、その方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050217

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080415

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080616

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081007