JP2000163437A - 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 - Google Patents

文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体

Info

Publication number
JP2000163437A
JP2000163437A JP10337389A JP33738998A JP2000163437A JP 2000163437 A JP2000163437 A JP 2000163437A JP 10337389 A JP10337389 A JP 10337389A JP 33738998 A JP33738998 A JP 33738998A JP 2000163437 A JP2000163437 A JP 2000163437A
Authority
JP
Japan
Prior art keywords
document
keyword
density
processing target
appearance density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10337389A
Other languages
English (en)
Other versions
JP3829506B2 (ja
Inventor
Michihiro Nagaishi
道博 長石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP33738998A priority Critical patent/JP3829506B2/ja
Publication of JP2000163437A publication Critical patent/JP2000163437A/ja
Application granted granted Critical
Publication of JP3829506B2 publication Critical patent/JP3829506B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 膨大な文書の中からユーザの所望とする文書
を適切に抽出するために文書を高精度に分類する。 【解決手段】 処理対象文書を1次元文字列に展開し
て、キーワード設定部20によって設定されたキーワー
ドの出現位置を1次元文字列上で特定し、その1次元文
字列上で重み付け範囲を設定し、その範囲の中心文字位
置付近におけるキーワードの出現に対しては重みを重く
し中心から離れるに従って重みを軽くするような重み付
け関数を用いて前記重み付け範囲の中心におけるキーワ
ード出現密度を、重み付け範囲の中心をずらしながら順
次算出するキーワード出現密度計算部7と、このキーワ
ード出現密度計算部7で求められたキーワード出現密度
に基づいて前記処理対象文書の1次元文字列上における
キーワード出現密度分布を得て、このキーワード出現密
度分布から前記ユーザ検索要求に対する当該文書の有用
度を求める有用文書判定部8とを有する構成とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、多数の文書からあ
る分野に関連する文書かどうか判定して区別する文書分
類方法および文書分類装置ならびに文書分類処理プログ
ラムを記録した記録媒体に関する。
【0002】
【従来の技術】多数の文書の中からある分野に関連する
文書かどうか判定して区別することが従来より行われて
いる。特に、最近ではインターネットの普及によって、
ユーザの欲しい情報を比較的簡単に取り出せるようにな
ってきている。しかし、インターネット上には膨大な量
の文書が存在し、その中から、ユーザの所望とする文書
を適切に判断して取り出すのは容易なことではない。こ
のように、膨大な量の文書の中からユーザの所望とする
文書を抽出するには、ユーザの検索要求を受けると、そ
の検索要求に基づいて多数の文書を分野別に分類してそ
の中からユーザの所望とする文書を抽出するというよう
な処理が必要となってくる。このような文書の分類を可
能とする技術は、従来より、様々提案されている。
【0003】これまで、複数の文書を分類する方法とし
て最も多く使われるのは、ユーザの所望とする文書を捜
すために、何らかのキーワードを設定し、そのキーワー
ドがそれぞれの文書にどのくらい存在するか調べる方法
である。キーワードが沢山ある文書は、ユーザの所望と
する有用度が高い文書であるといえる。
【0004】しかし、この方法はキーワードが存在して
いるか否かしか見ていないため、非常に沢山の文書の中
から、おおまかに候補を絞り込む場合には、ある程度有
効なものとなるが、本当に欲しい文書に絞り込むのは難
しい。ただし、これは単純なキーワード照合なので、we
bのようなある程度実時間処理を求められる用途でも使
われている。
【0005】これに対して、単にキーワードが存在する
か否かの判断だけではなく、1つ1つの文書において、
個々の文書内全体における各用語の出現頻度や割合か
ら、文書中で有効な用語を選出し、検索の時に入力され
たキーワードをそれらの用語と照合させることで、文書
分類の精度を向上させる方法も使われている。代表的な
方法として、TF・IDF法が知られている。この方法
は単純な文書中のキーワード照合方法に比べて精度が高
い。
【0006】
【発明が解決しようとする課題】しかし、上述のTF・
IDF法は、たとえば、ある商品についての文書を沢山
の文書の中から的確に探し出すという場合にはかなり有
効であるが、そのある商品についてのの文書から、その
商品の評判などが詳しく書かれた文書を捜し出すことは
難しい。また、事前に検索対象にする全文書について、
単語頻度などを計算する必要があるので、計算量が多い
という問題点もある。
【0007】しかも、形態素解析で文章を単語に切り分
ける必要があり、検索対象文書が多くなると、計算量は
莫大なものとなる。したがって、単純にキーワードを与
えて、すぐに該当する文書を探し出すことが難しい。
【0008】このように、これまで使われている主な文
書分類方法は、キーワードの出現頻度を利用している。
一方、我々は単純に頻度ではなく、関連するキーワード
がどの程度の密度で文書中に存在するのか、存在位置も
見ていると考えられる。実際、キーワードの出現位置を
考慮したキーワード出現密度がその文書で重要な場所を
的確に示していることが報告されている(黒橋、白木、
長尾:出現密度分布を用いた語の重要説明箇所の特定、
情報処理学会論文誌、Vol.38,No.4,pp.845-854 (199
7))。この文献を以下では第1の文献という。
【0009】この第1の文献に書かれている方法は、設
定したキーワードと一致する語句の文書上の位置から簡
単にキーワード出現密度を計算することができる。した
がって、事前に頻度や形態素分析をする必要がなく、単
純に設定したキーワードと照合するだけでよい。しか
も、文書中の有用な部分がわかるので、そのような有用
部分が相対的に数多く存在する文書を見つければ、精度
の高い文書分類が可能になると考えられる。
【0010】なお、キーワードの位置を利用する方法と
して、語彙の連鎖の一致度を文書全体で計算・分類する
方法も検討されている(望月,岩山,奥村:語彙的連鎖
に基づくパッセージ検索、情報処理学会研究会報告、98
-NL-127,pp.39-46,1998)。この文献を以下では第2
の文献という。
【0011】この第2の文献に記載された方法は、キー
ワード検索時に入力されたクエリー(検索エンジンなど
で最初に入力することばなど)に適応する部分を文書中
で見つける一種のパターンマッチングである。しかし、
この方法は与えられたクエリーとのマッチングだけを調
べるので、前述のようなある商品の評判などが詳しく書
かれた文書を捜すというように、単純なクエリーでは表
現しにくい内容の文書を捜すには向かない。
【0012】そこで本発明は、文書内におけるキーワー
ド出現位置を考慮したキーワード出現密度を求めて、こ
のキーワード出現密度を利用して文書の分類を行うこと
で、非常に計算が簡単で精度の高い文書分類を可能とす
ることを目的としている。
【0013】
【課題を解決するための手段】上述の目的を達成するた
めに、本発明の文書分類方法は、ユーザの検索要求に基
づいて多数の文書群の文書を分類して、その分類結果を
出力する文書分類方法において、処理対象文書を1次元
文字列に展開して、前記ユーザの検索要求に基づくキー
ワードの出現位置を前記1次元文字列上において特定す
るとともに、その1次元文字列上で所定の範囲を重み付
け範囲として設定し、その重み付け範囲の中心位置付近
におけるキーワードの出現に対しては重みを重くし、中
心から離れるに従って重みを軽くするような重み付け関
数を用いて前記設定された重み付け範囲の中心文字位置
に対するキーワード出現密度を前記中心文字位置をずら
しながら順次算出することによって、前記1次元文字列
上におけるキーワード出現密度分布を得て、このキーワ
ード出現密度分布から前記ユーザの検索要求に対する当
該処理対象文書の有用度を求め、その有用度によって複
数の処理対象文書の分類を行うようにしている。
【0014】また、本発明の文書分類装置は、ユーザの
検索要求に基づいて多数の文書群の文書を分類して、そ
の分類結果を出力する文書分類装置において、処理対象
文書をそれぞれの処理対象文書ごとに1次元文字列に展
開して、前記ユーザの検索要求に基づくキーワードの出
現位置を前記1次元文字列上において特定するととも
に、その1次元文字列上で所定の範囲を重みけ範囲とし
て設定し、その重み付け範囲の中心文字位置付近におけ
るキーワードの出現に対しては重みを重くし中心から離
れるに従って重みを軽くするような重み付け関数を用い
て前記設定された重み付け範囲の中心文字位置に対する
キーワード出現密度を前記中心文字位置をずらしながら
順次算出するキーワード出現密度計算手段と、このキー
ワード密度計算手段によって求められたキーワード出現
密度に基づいて前記処理対象文書の前記1次元文字列上
におけるキーワード出現密度分布を得て、このキーワー
ド出現密度分布から前記ユーザ検索要求に対する当該文
書の有用度を求める有用文書判定手段とを含む構成とし
ている。
【0015】これら文書分類方法および文書分類装置に
おいて、前記重み付け関数は、ハニング窓関数またはガ
ウス関数であり、ガウス関数を用いる場合は、前記設定
された重み付け範囲から外側は前記重みの値をゼロにす
るような設定として用いる。
【0016】また、前記キーワードの出現位置は、検出
されたキーワードを構成する文字列の中心の文字位置と
し、キーワードを構成する文字数が偶数文字である場合
は、その文字数を2で割って得られた値に位置する文字
またはその次に位置する文字とするようにしている。
【0017】また、前記1次元文字列上におけるキーワ
ード出現密度分布は、それぞれの処理対象文書ごとに得
られたキーワード出現密度の最大値を1.0とした正規化
を行ってそれぞれの処理対象文書ごとに求めるようにす
る。
【0018】また、前記キーワード出現密度計算を行う
際の前記重み付け範囲は、それぞれの処理対象文書ごと
にそれぞれの処理対象文書長の1/10程度を目安に設定す
ることが望ましい。
【0019】また、前記キーワード出現密度は、それぞ
れの処理対象文書ごとにそれぞれの処理対象文書を構成
する全ての文字位置について計算するようにしてもよ
く、また、前記キーワード出現密度は、それぞれの処理
対象文書ごとにそれぞれの処理対象文書内の前記キーワ
ードの出現位置について計算し、かつ、計算されたキー
ワード出現密度のピーク値を包絡線でつないで、当該処
理対象文書を構成する全ての文字位置についてキーワー
ド出現密度を計算した場合のキーワード出現密度分布を
推定するようにしてもよい。
【0020】さらに、前記キーワード出現密度計算は、
それぞれの処理対象文書ごとにそれぞれの処理対象文書
をテキスト変換した後に行い、テキスト変換前の元文書
とテキスト変換後の文書との位置の対応付けを行って、
その対応付け内容を保存しておくようにする。
【0021】また、前記処理対象文書ごとに得られた前
記ユーザ検索要求に対する有用度は、当該処理対象文書
において算出されたキーワード出現密度の総和を求める
ことによって得るようにする。
【0022】さらに、前記処理対象文書ごとに得られた
前記ユーザ検索要求に対する有用度は、当該処理対象文
書において算出されたキーワード出現密度に基づき、そ
のエントロピを計算して求めるようにしてもよい。
【0023】そして、分類された結果を出力する際、出
力される文書が複数存在する場合、分類を行うために求
められた有用度の高い方から順番に出力し、その出力内
容は、それぞれの文書におけるユーザの検索要求に対す
る有用度、それぞれの文書におけるユーザの検索要求に
対する有用部分、それぞれの文書の要約を表す部分の少
なくとも1つを表示するようにする。
【0024】前記有用部分は、キーワード出現密度の特
に高い部分の区間を設定しその区間を抽出することで有
用部分として抽出し、少なくともその抽出された区間を
含む所定範囲を形態素解析して、その形態素解析結果を
用いて意味のある内容として抽出するようにする。
【0025】さらに、前記出力内容に対する詳細な文書
内容を当該出力内容にリンクして設け、所定部分がユー
ザによって指示されることにより、前記詳細な文書内容
を出力可能とし、その詳細な文書内容において、キーワ
ード出現密度の特に高い部分については、その部分の表
示の仕方を他の部分と異ならせて表示する。
【0026】また、前記キーワードの設定は、ユーザの
検索要求入力によって、システム側がその検索要求に基
づいて適正な用語を選択することによって行われ、当該
選択された用語に関連する類義語や類似語さらには前記
選択された用語に付加される形容詞、副詞、感嘆詞をも
キーワードとして設定可能とする。
【0027】また、本発明の文書分類装置は、前記キー
ワード出現密度計算手段の前段に、前記処理対象文書を
テキスト文書に変換するテキスト変換手段を設けること
が可能である。このテキスト変換手段は、前述したよう
に、処理対象文書をテキスト変換する際、テキスト変換
前の元文書とテキスト変換後の文書との位置の対応付け
を行って、その対応付け内容を保存することを可能とす
る。また、ユーザの検索要求を受け付ける検索要求入力
手段とキーワード設定手段を設ける。このキーワード設
定手段は、検索要求入力手段に入力されたユーザの検索
要求に対してどの用語をキーワードとして選択するかの
知識データベースを有し、当該選択された用語に関連す
る類義語や類似語さらには前記選択された用語に付加さ
れる形容詞、副詞、感嘆詞をもキーワードとして設定可
能とする。
【0028】また、本発明の文書分類装置は、出力すべ
き文書の表示レイアウトを生成して文書を出力する文書
出力手段を設けることを可能とし、この文書出力手段か
ら出力される内容は、前述したように、それぞれの文書
におけるユーザの検索要求に対する有用度、それぞれの
文書におけるユーザの検索要求に対する有用部分、それ
ぞれの文書の要約を表す部分の少なくとも1つであり、
これらを出力する文書対応に所定の表示レイアウト設定
を行って出力する。
【0029】さらに、有用部分を抽出する有用部分抽出
手段を設けることを可能としている。この有用部分抽出
手段は、前述したように、キーワード出現密度の特に高
い部分の区間を設定しその区間を抽出することで有用部
分として抽出し、少なくともその抽出された区間を含む
所定範囲を形態素解析して、その形態素解析結果を用い
て意味のある内容として抽出する。
【0030】また、本発明の文書分類処理プログラムを
記録した記録媒体は、ユーザの検索要求に基づいて多数
の文書群の文書を分類して、その分類結果を出力する文
書分類処理プログラムを記録した記録媒体であって、そ
の文書分類処理プログラムは、複数の処理対象文書をそ
れぞれの処理対象文書ごとに1次元文字列に展開する手
順と、前記ユーザの検索要求に基づくキーワードの出現
位置を前記1次元文字列上において特定するとともに、
その1次元文字列上で所定の範囲を重み付け範囲として
設定し、その重み付け範囲の中心文字位置付近における
キーワードの出現に対しては重みを重くし中心から離れ
るに従って重みを軽くするような重み付け関数を用いて
前記設定された重み付け範囲の中心文字位置に対するキ
ーワード出現密度を前記中心文字位置をずらしながら順
次算出する手順と、これによって求められたキーワード
出現密度に基づいて前記処理対象文書の前記1次元文字
列上におけるキーワード出現密度分布を得て、このキー
ワード出現密度分布から前記ユーザ検索要求に対する当
該文書の有用度を求める手順とを含むものでる。
【0031】本発明は、膨大な文書の中からユーザの所
望とする文書を取り出す際の前処理としての文書分類を
如何に効率的に行うかについての発明である。これを実
現するために、まず、設定されたキーワードが文書内に
どのような密度で存在するかを判断する。このキーワー
ドが文書内にどのような密度で存在するかを本発明で
は、キーワード出現密度と呼び、このキーワード出現密
度を調べて、その結果に基づいて文書の有用度について
判定する。
【0032】このキーワード出現密度は、既に公知の方
法、つまり、前述の第1の文献(黒橋、白木、長尾:出
現密度分布を用いた語の重要説明箇所の特定、情報処理
学会論文誌、Vol.38,No.4,pp.845-854 (1997))に記
載された方法を用いて求めるが、本発明は、このキーワ
ード出現密度そのもの求めることを要旨とするものでは
ない。本発明は、このキーワード出現密度を用いて如何
に文書を効率よくかつ高精度に分類するかを主旨として
いる。
【0033】また、キーワード出現密度を求める際に用
いられる関数は、ハニング窓関数やガウス関数など中心
から両側になだらかに減少する関数を用いることができ
る。
【0034】また、本発明では、キーワード出現位置は
それぞれのキーワードを構成する文字の中心の文字また
はその中心付近の文字とすることによって、キーワード
の位置を正確に表すことができる。つまり、前述の第1
の文献では、キーワード出現位置をキーワードの先頭と
しており、このように、キーワードを構成する文字の先
頭の文字位置をキーワード位置とすると、キーワードが
文字数の多い熟語のような場合、キーワードの位置を正
確に表すことができないなどの問題が生じる。
【0035】また、それぞれの処理対象文書ごとに、キ
ーワード出現密度の最大値を1.0とした正規化を行って
キーワード出現密度分布を求めることによって、他の処
理対象文書との比較が容易となる。
【0036】前記キーワード出現密度計算を行う際に設
定される重み付け範囲は、それぞれの処理対象文書ごと
にそれぞれの処理対象文書長の1/10程度を目安に設定す
ることによって、得られるキーワード出現密度分布が有
用箇所を適切に表したものとなり、その後の処理として
の分類処理を適切に行うことができる。
【0037】また、それぞれの処理対象文書ごとにそれ
ぞれの処理対象文書を構成する全ての文字位置について
キーワード出現密度を計算することにより、キーワード
出現密度分布を高精度に出すことができる。
【0038】これに対して、それぞれの処理対象文書内
の前記キーワードの出現位置についてのみキーワード出
現密度を計算することも可能であり、これによれば、多
少おおまかなキーワード出現密度分布となるが、計算量
が少なく高速な処理が可能となる。また、計算されたキ
ーワード出現密度のピーク値を包絡線でつないで、当該
処理対象文書を構成する全ての文字位置についてキーワ
ード出現密度を計算した場合のキーワード出現密度分布
を推定することもできる。
【0039】また、それぞれの処理対象文書ごとにそれ
ぞれの処理対象文書をテキスト変換した後にキーワード
出現密度計算を行うことで、どのような形式の文書に対
してもキーワード出現密度計算以降の処理を共通化する
ことができる。しかも、テキスト変換を行う際、テキス
ト変換前の元文書とテキスト変換後の文書との位置の対
応付けを行って、その対応付けした内容を保存しておく
ことで、有用部分を表示する場合、無理のない自然なレ
イアウトでの表示が行える。
【0040】また、それぞれの処理対象文書が有用であ
るか否かの判定は、算出されたキーワード出現密度の総
和を求めて、その総和の値によって判断することができ
る。この総和によって有用度を方法は、それぞれの文書
ごとにキーワード出現密度の総和を求めるだけでよいの
で、計算量が少なく容易に有用度の判定を行うことがで
きる。
【0041】また、それぞれの処理対象文書が有用であ
るか否かの判定を行う際、それぞれの処理対象文書にお
いて求められたキーワード出現密度のエントロピを計算
してそのエントロピから判断することもできる。これに
よれば、キーワード出現密度の総和だけでは、判定が微
妙なものとなるような場合にも、高精度な有用度の判定
が行える。
【0042】また、分類された結果の出力は、分類を行
うために求められた有用度の高い文書から順番に出力
し、その出力内容は、有用度やどの部分が有用であるか
を示す有用部分さらにそれぞれの文書の要約など(全て
でなくともよい)を表示するので、ユーザは、出力され
た文書内容を即座に把握することができる。
【0043】そして、有用部分を表示する場合、有用部
分としては、キーワード出現密度の特に高い部分の区間
を設定しその区間を有用部分として抽出し、少なくとも
その抽出された区間を含む所定範囲を形態素解析して、
その形態素解析結果を用いて意味のある内容として抽出
するようにしたので、有用部分を1つのまとまった内容
を持つ文として出力することができる。
【0044】また、上述の出力内容についてさらに詳細
な内容を出力可能としておき、その詳細な文書内容にお
いて、重要部分は色を変えたりブリンクさせるようにし
たので、ユーザは自分の知りたい詳細な情報を一目で見
ることができる。
【0045】また、ユーザの検索要求入力によって、シ
ステム側がその検索要求に基づいて適正な用語を選択す
ることによって自動的にキーワードが選択されるので、
ユーザがキーワードの設定を行う必要がなく、ユーザは
何を知りたいかを検索要求として入力するだけでよいの
で、入力操作が簡単となる。また、キーワードとして設
定された用語に関連する類義語や類似語さらには、その
形容詞、副詞、感嘆詞などをもキーワードとして設定可
能とするので、より一層、検索精度が向上し、ユーザの
所望とする情報を適切に取り出すことができるようにな
る。
【0046】
【発明の実施の形態】本発明は、複数の文書からある分
野に関連する文書かどうかを判定し、区分する方法であ
って、その分野かどうかを複数のキーワード(キーワー
ドとして設定された語句だけでなくそれに関連する類義
語や類似語、さらには、その形容詞、副詞、感嘆詞など
の語句も含んでもよい)が、どの程度の密度で存在する
かを、検索対象文書ごとに計算し、求められたキーワー
ド出現密度に基づいて、それぞれの文書の有用度を求め
その有用度によって文書を分類するものである。
【0047】以下、文書中のキーワードの位置情報から
当該文書におけるキーワード出現密度分布を用いて文書
の分類を行う方法について述べる。なお、以下に説明す
る内容は、本発明の文書分類処理プログラムの内容の説
明でもある。
【0048】最初に文書の分類についてここでの定義を
述べる。複数の文書からある分野に関する内容がその文
書に存在するかどうか判定して区別する方法というの
は、次のようなものを指す。
【0049】まず、「ある分野」かどうかはその分野に
ついて複数のキーワードや表現などで記述できるある知
識があるものと考える。たとえば、商品の評判について
の内容を想定すると、「批評」、「好評」、「感想」な
どのキーワードが多く含まれるような内容は、商品の評
判という分野に関する内容が存在するといえる。
【0050】本発明は、このようなキーワードが各文書
内にどの程度の密度で出現するのかを文書ごとに計算
し、密度の高い文書をその分野の内容をよく含んでいる
文書として選出して分類するものである。
【0051】続いて、具体的な文書密度計算方法につい
て述べる。ここでは文書としてタグや特殊記号などが一
切ない単純なテキストを処理対象文書として考える。図
1(a),(b),(c)は、ある3つの文書(文書
A、文書B、文書Cという)において、あるキーワード
のキーワード出現密度の概念を示したものである。図
中、×印は文書中に存在するキーワードを示している。
そして、これら文書を図示の左から右方向に見たときの
キーワードの数を曲線Rで示す山の高さで表している。
この図1の例では、同図(a)の文書Aはある狭い範囲
に高い山が形成され、その部分にキーワードが集中して
いることを示し、同図(b)の文書Bは広い範囲に低い
山が幾つか形成され、キーワードが文書全体にまんべん
なく散らばっていることを示している。また、同図
(c)の文書Cは2箇所の狭い範囲にそれぞれ高い山が
形成され、その2つの範囲にキーワードが集中している
ことを示している。
【0052】このようなキーワード出現密度は次のよう
に計算する。まず、図2(a)に示すような処理対象文
書を、図2(b)に示すように、単純な一次元文字列に
展開する。つまり、図2(a)に示す文書は横書きで書
かれた文書であり、その横書きの文書の先頭をS、文書
末をEとし、文書の先頭Sから図示左方向にその行の終
わりまで展開したあと、次の行の初めに戻ってそこから
再び左方向に展開して行くといようにしてある1つの処
理対象文書全体を1次元文字列に展開する。
【0053】そして、このような1次元文字列に展開さ
れた文書上でキーワードの存在した位置を記録して行
く。キーワードは、分類すべき分野や項目別にあらかじ
め用意しておく(これについては後述する)。なお、図
2(a),(b)において、図中、楕円F1で示す部分
にはあるキーワードk1が存在し、三角形F2で示す部
分には他のキーワードk2が存在するものとする。この
ように、この場合は、2種類のキーワードk1,k2が
存在することになるが、ここではキーワードの種類によ
る区別はせず、あらかじめ決めたキーワードが存在する
か否かだけを見て、キーワードが存在したらその出現位
置を全て記録する。
【0054】なお、ここでいうキーワードの出現位置と
は、見つかったキーワードの中心を指し、キーワードの
中心位置のみを記録する。たとえば、図2(b)に示す
ような1次元文字列に変換された文書内容の一部が、図
3(a)のような文書内容であって、予め決められたキ
ーワードk1が「人民政府軍」、キーワードk2が「再
登録」(それぞれ、図3(a)において下線を施してあ
る)であったとすれば、図3(b)に示すように、キー
ワードk1である「人民政府軍」を構成する1つ1つの
文字の列方向の中心となる文字の位置、キーワードk2
である「再登録」を構成する1つ1つの文字の列方向の
中心となる文字の位置をそれぞれキーワードの中心位置
として記録する。
【0055】図3(b)では、1つ1つの丸印(白丸及
び黒丸)が文書内容の1つ1つの文字に対応し、黒丸が
それぞれキーワードk1,k2の中心となる文字を示し
ている。つまり、キーワードk1である「人民政府軍」
にあっては、「政」がキーワードの中心文字であり、
「再登録」にあっては、「登」がキーワードの中心文字
である。
【0056】なお、この図3で示すキーワードk1,k
2は、キーワードk1(人民政府軍)が5文字でキーワ
ードk2(再登録)が3文字であり、両者とも文字数が
奇数であるため、その中心の文字が存在するが、キーワ
ードの文字数が偶数であった場合には、それを2で割っ
て得られた値に基づいて中心文字を決定することができ
る。たとえば、6文字であれば、それを2で割って得ら
れた値3を基に、3文字目を中心としてみなしたり、そ
の3に+1した4文字目を中心としてみなしたりする。
これは、予めどのようにするかを決めておくことで対処
できる。
【0057】このように、本発明では、キーワード出現
位置はそれぞれのキーワードを構成する文字の中心の文
字またはその中心付近のある1つの文字位置としてい
る。
【0058】これによって、ある1つのキーワードを構
成する文字数に関係なく、1つのキーワードについてそ
の中心または中心付近の1つの文字に対応した位置をキ
ーワードの出現位置情報として持っていればよいので、
後で述べるキーワード出現密度を求める際、キーワード
を構成する文字数に影響されない正確な出現密度を求め
ることができ、さらに、キーワードを構成する文字全て
についてキーワード位置情報を持つ場合に比べて大幅に
データ量を少なくすることができ、それに伴う計算量も
大幅に少なくすることができる。
【0059】しかも、本発明では、キーワードを構成す
る文字列の中心または中心付近のある1つの文字をキー
ワード出現位置としているので、たとえ、キーワードが
文字数の多い熟語などであってもその出現位置を正確に
表すことができる。
【0060】このようにして、それぞれのキーワードの
中心位置が検出されてそれが記録されると、今度は、あ
る位置におけるキーワード出現密度をここでは図4に示
すようなハニング窓関数を用いて求める。
【0061】今、文書内容の中でキーワード(種類は問
わない)の見つかった位置をa(i)とする。ただし、
iは文字位置(処理対象文書を1次元文字列に展開した
ときの文字位置)を表し、その位置にキーワードがあれ
ばa(i)=1、キーワードがなければa(i)=0と
する。
【0062】そして、文書の先頭(i=0)からスター
トして、順次、各文字位置をハニング窓の中心位置lと
し、その中心位置lに対するキーワード出現密度d
(l)を求める。文字位置iにおける重み関数hl
(i)、重み付けする範囲(ハニング窓の幅)をWとす
ると、
【0063】
【数1】
【0064】で表される。なお、ハニング関数を示す図
4は横軸に文字位置iをとり、縦軸に重みをとったもの
で、この図4の場合は、重み付けをする範囲Wは、ハニ
ング窓の中心位置lに対し左右両側に15文字分をとっ
た場合が示されている。
【0065】このように、処理対象文書を1次元文字列
に展開して、キーワードの出現位置からキーワード出現
密度を求めるのは、前述した第1の文献(黒橋、白木、
長尾:出現密度分布を用いた語の重要説明箇所の特定、
情報処理学会論文誌、Vol.38,No.4,pp.845-854 (199
7))に述べられており、これは公知の技術である。ただ
し、この第1の文献では、キーワード位置としては、そ
れぞれのキーワードの先頭位置としているが、本発明で
は、それぞれのキーワードの中心位置としている点は異
なる。
【0066】なお、重み関数hl(i)としてはここで
はハニング関数を用いたが、これは、中心から周辺にな
だらかに変化する関数ならば色々使える。たとえば、ガ
ウス関数もその1つであるが、ここでは、重み付け範囲
Wでゼロになるハニング窓関数を用いる。ガウス関数は
無限遠方でもゼロにならないため、キーワード近傍の影
響だけ調べるにはハニング窓関数が向いていると考えら
れる。しかし、応用の仕方によって関数を適宜変えるこ
とは可能である。なお、ガウス関数でも重み付け範囲W
以外は強制的にゼロとするような設定を行えば使える。
【0067】図5は上述した計算方法で文書密度を計算
した例である。この文書はある商品についてのレポート
であるが、その商品の評判に関するキーワードを適切に
設定しておくと、文書中で商品の感想、批評の記述に関
する部分の密度が高くなっていることがわかる。
【0068】この図5は、処理対象文書が商品について
のレポートであって、このレポートに対し、前述の
(1)式を用いてキーワード出現密度を求めることによ
って得られたキーワード出現密度分布を示すものであ
る。図5において、横軸は処理対象文書の文字位置、縦
軸は上述の(1)式で求められたキーワード出現密度d
(l)を示している。
【0069】なお、横軸の文字位置は、レポートの文書
を1次元文字列に展開し、その文書の先頭から文書末ま
でを文書の先頭からのバイト数で表している。また、縦
軸のキーワード出現密度は、(1)式で求められたキー
ワード出現密度d(l)であるが、その処理対象文書に
ついて求められたキーワード出現密度の中で最大値を1.
0にした正規化を行って表わされている。このように、
処理対象文書ごとに正規化を行うことで、他の処理対象
文書との比較が容易となる。
【0070】この図5に示される処理対象文書は、具体
的にはあるメーカのディジタルカメラについての評価を
まとめたレポートであり、設定されたキーワードとして
は、たとえば、「評価」、「性能」、「価格」、「使い
勝手」などであるとし、これらのキーワードは、デザイ
ンについて触れた部分や、画質について触れた部分での
キーワード出現密度が特に高く、その他、パノラマ機能
などについてやメモリなどについて触れた部分において
もキーワード出現密度が比較的高いことがわかる。
【0071】ところで、上述の密度計算を行う際、重み
付け範囲Wの設定の仕方により密度の出方が変わる。一
般には重み付け範囲Wを広くとると、キーワード出現位
置近傍のキーワード出現密度が求められることになり、
逆に重み付け範囲Wを広くとると、広い範囲に存在する
キーワードの影響まで計算されることになる。しかし、
重み付け範囲Wが広すぎると重要箇所が不明瞭になり、
狭すぎると単なるキーワード頻度と変わりなくなるの
で、重み付け範囲の設定の仕方は重要である。
【0072】そこで、それぞれの処理対象文書ごとに1
つの処理対象文書の文書長により適切な重み付け範囲W
を設定する必要がある。図6は重み付け範囲Wの取り方
によって、前述の(1)式により求められるキーワード
出現密度d(l)分布曲線がどのようになるかを示した
ものである。図6において、分布曲線U1は重み付け範
囲Wを4096バイト、分布曲線U2は重み付け範囲W
を2048バイト、分布曲線U3は重み付け範囲Wを1
024バイトとして、それぞれ(1)式を用いて求めら
れたキーワード出現密度d(l)の分布曲線を示すもの
である。なお、分布曲線U3は図5の分布曲線とほぼ同
じである。つまり、図5は重み付け範囲Wを1024バ
イトとした場合であるといえる。
【0073】この図6からわかるように、重み付け範囲
Wを広くとりすぎると、密度の変化に明確性を欠き(範
囲Wを2048バイトや4096バイトとした場合)、
重要箇所が不明瞭となる。この3つの範囲の中では、重
み付け範囲wを1024バイトとした場合が最も適切で
あるといえる。この場合、ここで用いられた処理対象文
書の文書長が、1.2×10の4乗バイトの文書長を有す
る場合であるので、おおよそ、1つの処理対象文書の文
書長の1/10を目安にするのがよいことがわかる。特
に、技術系の文書においてはその傾向が強いことがわか
った。
【0074】次に、このようにして求められたキーワー
ド出現密度を用いてシステム上で文書を分類する方法に
ついて説明する。
【0075】前述した説明では、処理対象文書はプレイ
ンテキストであることを前提にしているが、実際に我々
が扱う文書は色々な形式が存在する。したがって、キー
ワード位置検出を行う場合、文書形式によって検出方法
が異なる。一般に前述したキーワード出現位置というの
は、人間が視覚的に見たレイアウト上の位置である。処
理対象文書が蓄積されている文書ファイルの内容自体に
は、文字自身の情報の他に制御に関する情報も多いの
で、これらを適宜排除した上でないと視覚的に見たレイ
アウトに一致するような位置を見つけることは難しい。
たとえば、HTML文書では表示に使うタグが多数あるの
で、このタグは読み飛ばして文字の位置を計算する必要
がある。
【0076】すなわち、本発明を実施するには、文書を
制御記号などの存在しない文字だけの一次元文字列に変
換して行うが、たとえば、文書中に様々な制御記号など
が入った文書にあっては、それらの制御記号を省いて文
字だけで1次元文字列を構成する必要がある。
【0077】したがって、処理対象文書を文字だけによ
る1次元文字列に展開し、キーワード位置検出を行う処
理は、処理対象文書ごとに、その文書がどのような形式
の文書であるかを判定し、その判定結果に基づいて、処
理対象文書の文書形式ごとにアルゴリズムを設定して行
う必要がある。しかし、これを実際に行うのは処理負担
が大きく実用的ではない。
【0078】したがって、ここでは、どのような文書で
も全て一旦プレインテキストに変換し、その上でキーワ
ード出現位置の検出を行ってキーワード出現密度計算を
行う方法をとる。この方法をとれば、文書形式ごとにキ
ーワード位置検出アルゴリズムを開発する必要がない。
また、プレインテキスト変換は殆どの文書作成ソフトで
備えられている機能であるので、システムに組み込むこ
とが容易である。
【0079】また、全ての文書形式をプレインテキスト
に変換してキーワード位置検出を行う場合は、キーワー
ド位置検出は、単純なキーワードマッチングで可能とな
る。しかし、プレインテキストに変換せず、各文書形式
ごとにキーワード位置を見る場合は、それぞれの文書形
式ごとに、キーワード位置検出アルゴリズムが必要とな
る。具体的には、タグや特殊記号、ヘッダなどの知識
と、それらがどのような場合は何文字飛ばすなどの指示
が必要である。
【0080】次にこれまで説明した方法により、多数の
文書について図5に示すようなキーワード出現密度分布
が求められたとして、それぞれの文書の中から最も適当
と思われる文書を抽出する処理(文書分類処理)につい
て説明する。
【0081】この文書分類の仕方としては、まず、図5
に示すように求められたキーワード出現密度の総和を求
めて(積分する)、その中から最も大きい値の文書を出
力したり、あるいは、値の高い順から幾つかの文書を出
力する方法が考えられる。
【0082】これとは別の方法としてエントロピを計算
して分類する方法もある。この方法は、上述の総和だけ
では判定が微妙となるような場合に有効なものとなる。
【0083】たとえば、図1に示すような3つの文書A
〜Cについて考えると、この3つの文書A〜Cは、キー
ワード(×印)の数はどれも10個で同じであり、ま
た、その密度を積分した値もほぼ同じであるとする。し
かし、これらの文書のキーワード分布はそれぞれ大きく
異なっている。つまり、文書Aはページのある一部に詳
しい情報がまとまって記載されており、文書Bはページ
全体に関連する記事があるが、その内容は薄いと思われ
る。また、文書Cは文書Aと文書Bの中間程度の詳しい
情報が2箇所あるというように、それぞれの文書の分布
形態は異なる。
【0084】これらの点から、抽出されるべき文書が、
文書Aあるいは文書Cであることが望ましいとして、こ
れら文書Aあるいは文書Cを選択するような処理がなさ
れるような処理を行う。これを、キーワード出現密度以
外の値(キーワードのヒット数やキーワードが存在した
場所の数など)で総合的に判定するのは容易ではない。
つまり、キーワード出現密度以外の値で総合的に判定し
ようとすると、判定の条件分岐が複雑になり、微妙な判
定が難しくなる。そこで、エントロピを使う。求めるべ
きエントロピをEとすると、
【0085】
【数2】
【0086】で表される。
【0087】エントロピEはそれぞれの処理対象文書に
おけるキーワード出現密度d(l)の分布が平坦である
と小さく、先鋭な部分が多い分布では大きくなる傾向を
もっている。したがって、それぞれの処理対象文書ごと
のキーワード出現密度全体の状況を一意に表現する尺度
として有用だと考えられ、図1に示すようなキーワード
出現密度の総和が似ている場合の微妙な判定に役立つ。
【0088】図7は処理対象文書として90個の雑誌
(ある商品の評判が書かれている)の内容を主観評価で
3段階に分類した結果と、文書密度のエントロピEの相
関をとったグラフである。ここで、主観評価で3段階の
分類というのは、たとえば、H3は商品の評判について
非常によく書かれている文書群、H2は商品の評判につ
いて比較的よく書かれている文書群、H1は商品の評判
について一応書かれている文書群というように、ここで
は主観的な評価を3つの段階H1,H2,H3に分け
て、90個の雑誌をそれぞれの段階に分類している。
【0089】このように粗い分類をしたのち、それぞれ
の処理対象文書(それぞれの雑誌)についてエントロピ
を計算する。エントロピは先鋭な部分の多いキーワード
出現密度分布ほど大きな値となるので、エントロピの値
の大きいものほどその内容についてよく書かれているも
のであるといえる。
【0090】上述したような3つの段階H1,H2,H
3の分類は、かなり粗い分類であるが、それぞれの分類
の中で、内容が濃くなるほどエントロピの値も高いもの
となるので、エントロピを指標にして文書内容の程度を
定量的に評価できる。なお、図7において、それぞれの
文書に対して求められたエントロピを1つ1つの四角形
で表している(たとえば、段階H1の文書群について
は、求められたエントロピをE11,E12,・・・,
E1nで表し、H2の文書群については、求められた
エントロピをE21.E22,・・・,E2nで表し、
H3の文書群については、求められたエントロピをE
31,E32,・・・,E3nで表している)が、それ
ぞれの文書群において求められたエントロピは似た値に
なる場合もあり、その場合は、エントロピの値を示す四
角形が重なるので、四角形は90個全ては図示されては
いない。
【0091】このようにして幾つかの文書がユーザの所
望とする文書候補として抽出されるが、これら抽出され
た複数の文書が一定以上存在する場合は、有用度の高い
順から並べて表示する。このような表示を行う際、有用
度の高い順から並べただけでは内容が解りにくいので、
その他の情報も合わせて表示することが好ましい。
【0092】図8はその表示例を示すものである。図8
(a)において、#1,#2,#3,・・・は有用度の
高い順番を示すもので、その順番に対するそれぞれの文
書の重要度z1としてキーワード出現密度、求められた
エントロピ、キーワードヒット数なども表示する。さら
に、文書の概要(見出しや文書の冒頭部分を抽出)z
2、その文書の重要部分(これについては後述する)z
3などの併せて表示する。さらに、図8(b)に示すよ
うに、それぞれの文書ごとに文書全文の特にキーワード
出現密度の高い部分を色やブリンクでの表示を可能とす
る。すなわち、それぞれの文書対応にアイコンのような
マークM1,M2,M3などを付して、たとえば、マー
クM1をクリックすると、#1の文書全体を表示し、か
つ、その文書の中で特に密度の高い部分z0を他の部分
とは異なった色やブリンクで表示する。
【0093】本発明は複数の文書を分類することが主な
目的としているが、分類した文書のどのが重要だったか
示すことは、その文書が選ばれた理由を知ったり、分類
された文書の概要を把握する上で有用である。以下にそ
の有用部分の切り出しについて説明する。
【0094】まず、文書の有用部分を特定する方法を述
べる。基本的には図1のように、局所的にキーワード出
現密度の高い部分(山の部分)を有用部分とし、あるし
きい値を設定して、そのしきい値以上の密度を有する部
分を有用部分として抽出することができる。
【0095】なお、これまでの説明では、文書分類を主
としているので、キーワード出現密度は文書の全ての文
字位置について計算をするが、有用部分切り出しを主と
し、それとともに文書分類も行いたいというような場合
は、キーワードが出現した位置のみのキーワード出現密
度から文書全体の様子を推定することも可能である。
【0096】図9はキーワード出現位置のみについて、
キーワード出現密度と全ての文字位置について計算した
例を比較して示すもので、図5で説明した文書と同じ文
書を用いた場合である。この図9からもわかるように、
キーワード出現位置のみにおけるキーワード出現密度の
ピークp1,p2,p3,・・・を包絡線でつないで得
られたキーワード出現密度分布曲線Lは、文書の全ての
文字位置についてのキーワード出現密度分布曲線(図5
参照)とほぼ同じになる。
【0097】このように、キーワード出現位置のみにつ
いてキーワード出現密度を求める方法は、計算時間が速
いので、多少精度が悪くても、速くおおよその判定をし
たい場合などに有効である。
【0098】次に有用部分の表示方法について述べる。
抽出するかしないかの基準は上述したように、適当なし
きい値以上のキーワード出現密度部分を単純に切り出せ
ばよいが、そのまま単純に切り出すと、不具合が生じ、
それに対処する必要がある。
【0099】これを示したものが図10である。図10
(a)で示すような元文書(その一部のみが図示されて
いる)が存在したとし、アンダーライン部分が、あるし
きい値以上のキーワード出現密度を有する有用部分とし
て抽出された区間であるとする。
【0100】しかし、この抽出された区間の内容は、こ
の場合、「い表示を後処理と」であり、これでは、何が
書かれているのか意味がわからないことになる。そこ
で、図10(b)に示すような形態素解析を行い、語句
の切れ目が自然なものとなる境界を有用部分として抽出
する。つまり、この場合は、形態素解析結果は、「無
理」・「が」・「ない」・「表示」・「を」・「後処
理」・「として」・「行う」・「こと」であり、このよ
うな形態素解析結果において、「表示」・「を」・「後
処理」・「として」を抽出し、図11(c)に示すよう
に、「表示を後処理として」という内容を抽出する。
【0101】この例では、有用部分の先頭に助詞(上述
の例では「い」)が単独で出現する場合はそれを無視
し、語尾の一部(上述の例では「と」)が存在している
ときは語尾として意味をなすような処理を行い、有用部
分が意味のある文章になるようにしている。このよう
に、形態素解析を行ってその結果に基づき、有用部分と
して抽出された部分の文が不自然なものとならないよう
にすることができる。
【0102】以上は文書が文字だけのテキストの場合に
ついて述べたが、実際にはHTML文書などのレイアウトや
画像などの複数の要素が組み合わされた文書の場合、密
度の高い場所だけ抽出して表示を行うと不自然なものと
なる。このような場合、次のような方法をとることで、
抽出した有用部分を自然な内容として表示できる。
【0103】すなわち、一般文書からテキスト文書に変
換する際に、テキスト文書のどの文字はテキスト変換前
の元の文書のどの位置かを記録しておく。そして、テキ
スト文書状態で有用部分を決定し、その有用部分の文字
の位置に相当する元の文書の位置を特定する。そして、
特定した元文書の位置を中心にレイアウトが不自然でな
い区切りを判定する。たとえば、その領域を含む最低の
かたまり(段落や章)で区切る。ただし、有用部分の中
に段落が存在しているような場合、その段落部分で区切
ると不自然となるので、前後の段落を含めた少し広い範
囲で区切るようにしたり、あるいは、有用部分の中に異
なった章が存在しているような場合、その章の変わるで
区切ると不自然となるので、前後の章を含めた少し広い
範囲で区切るようにしたりする。
【0104】このように、文書密度計算のためのテキス
ト変換を行った際に、元文書とテキスト文書の位置の対
応づけを行っておけば、レイアウトに無理がない表示を
後処理として行うことが可能である。
【0105】次に本発明を実現する際のシステム構成を
説明する。図11は、本発明を実現するためのシステム
構成図を示すもので、検索要求入力部1、知識データベ
ース部2、キーワード群決定部3、検索対象文書データ
ベース部4、文書タイプ判定部5、テキスト変換部6、
キーワード出現密度計算部7、有用文書判定部8、表示
部9、有用部分抽出部10、表示レイアウト生成部11
などから構成されている。なお、知識データベース部2
とキーワード群決定部3によってキーワード群設定部2
0が構成され、表示部9、有用部分抽出部10、表示レ
イアウト生成部11によって文書出力部30が構成され
る。
【0106】検索要求入力部1は、ユーザが何らかの情
報を収集しようとしたとき、ユーザの知りたい内容につ
いて入力可能となっており、これは、自然言語で入力す
るようにしてもよく、あるいは、予め多数の項目を用意
しておき、ユーザがその中から所定の項目を指示するよ
うにしてもよい。
【0107】知識データベース部2は、ユーザの入力し
た検索要求内容に基づいてその内容に対してはどのよう
な用語(単語など)がキーワードとして適切であるかを
判断して、ユーザの検索入力内容に対する適切な用語を
複数個選択し、ここで選択された複数の用語はキーワー
ド群決定部3によって、キーワード群として決定され
る。ここで設定されるキーワードは、ユーザの入力した
検索内容によっては、数十あるいは100個以上という
こともある。
【0108】ところで、ユーザの検索要求に対しそれに
適合したキーワードを決定する処理は次のようにして行
われる。
【0109】たとえば、検索要求入力部1から、ユーザ
がある製品について知りたい旨を入力すると、知識デー
タベース部2では、そのユーザの入力に対して、「性
能」、「価格」、「評価」、「使い勝手」などその製品
を表す上で必要な用語を選び、これらが、キーワードと
して決定される。つまり、ユーザ検索要求に対して有用
な文書を抽出する際文書の分類が必要となるが、このと
き、分類したい分野によって、その分野に関する一般的
な知識や連想される用語をキーワードとする。また、連
想される用語の類似語や類義語も利用できる。これらは
個人の直感または辞書、国語辞典などの事例などから予
め作成して知識データベース部2に持たせることができ
る。また、分類したい分野に該当する文書を複数収集し
て、これら収集された文書に数多く目にする用語を探し
出し、その頻度が高いものをキーワードとする方法も可
能である。
【0110】さらに、1つのキーワードについてそのキ
ーワードに対する類義語や類似語などの関連語も適宜組
み合わせて使用したり、そのキーワードに一緒に使われ
る形容詞、副詞、感嘆詞などを含んだ表現とすること
で、検索精度がより一層向上する。たとえば、前者の場
合、キーワードが「評価」であれば、その類義語や関連
後「批判」、「評判」、「好評」などというように「評
価」から連想される類義語や類似語を適宜組み合わせて
用いる。また、後者の場合は、キーワードが「評価」で
あれば、「素晴らしい」、「品質のよい」、「非常に」
などを適宜組み合わせて用いる。
【0111】文書タイプ判定部5は、検索対象文書デー
タベース部4に存在する文書がどのような形式で書かれ
た文書であるかを判定するものである。また、テキスト
変換部6は、文書タイプ判定部5による判定結果に基づ
いて、その文書をテキスト文書に変換する。なお、検索
対象文書データベース4は、たとえば、インターネット
上のサーバ側に存在するデータベースを考えているが、
これに限らず、ユーザ個人のパーソナルコンピュータな
どの情報処理機器に保存されている文書であってもよ
い。
【0112】キーワード出現密度計算部7は、キーワー
ド群決定部3で決定された複数のキーワードに基づき、
テキスト変換された文書に対し前述したような方法でキ
ーワード出現密度を計算する。このキーワード出現密度
計算については、すでに詳細に説明したので、ここでは
その説明は省略する。
【0113】このキーワード出現密度計算部4によって
それぞれの文書について、キーワード出現密度が計算さ
れると、有用文書判定部8は、それぞれの文書ごとに、
たとえば図5に示すようなキーワード出現密度分布を作
成して、その結果に基づいて、有用度(ユーザの所望と
する文書としての有用度)を判定し、その判定結果を用
いて表示すべき文書を決定する。なお、重要度の判定
は、前述したように、たとえば、図5に示すようなグラ
フを積分してその結果よって判定する。
【0114】一方、有用部分抽出部10は、キーワード
出現密度計算部4によって計算されたそれぞれの文書ご
とに計算されたキーワード出現文書密度を用いて、前述
したような方法により有用部分の抽出を行う。そして表
示レイアウト生成部11によって、図8に示すような表
示レイアウトを生成し、それを表示部9で表示する。そ
の表示結果の一例が図8である。
【0115】以上のような手順によって、ユーザの検索
要求に対し、それに適合した幾つかの文書が表示される
ことになる。
【0116】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、前
述の実施の形態では、表示部9での表示例は図8のよう
な表示の仕方であるが、この表示の仕方は種々設定可能
である。
【0117】また、以上説明した本発明の文書分類処理
を行う処理プログラムは、フロッピィディスク、光ディ
スク、ハードディスクなどの記録媒体に記録させておく
ことができ、本発明はその記録媒体をも含むものであ
る。また、ネットワークから処理プログラムを得るよう
にしてもよい。
【0118】
【発明の効果】本発明によれば、処理対象文書ごとに、
設定されたキーワードが当該処理対象文書内にどのよう
な密度で存在するか(キーワード出現密度)を判断し、
このキーワード出現密度に基づいてユーザの検索要求に
対する文書の有用度について判定するようにしているの
で、膨大な文書の中からユーザの所望とする文書を取り
出す際の前処理としての文書分類を、精度よく効率的
に、しかも、少ない計算量で可能となる。
【0119】このように、計算量を少なくできる1つの
例として、本発明では、キーワード出現位置はそれぞれ
のキーワードを構成する文字の中心の文字またはその中
心付近のある1つの文字としていることが挙げられる。
すなわち、ある1つのキーワードを構成する文字数に関
係なく、キーワード出現位置を示すデータは、1つのキ
ーワードについて中心またはその付近の1つの文字に対
応した位置のデータのみを持っていればよいので、キー
ワードを構成する文字全てについてキーワード出現位置
を示すデータを持つ場合に比べて大幅にデータ量を少な
くすることができ、またそれに伴う計算量も大幅に少な
くすることができる。
【0120】また、本発明では、処理対象文書を構成す
る全ての文字位置についてキーワード出現密度を計算す
ることによって、より高精度なキーワード出現密度分布
を得ることも可能であるが、それぞれの処理対象文書内
の前記キーワードの出現位置についてのみキーワード出
現密度を計算することも可能であり、これによれば、多
少おおまかなキーワード出現密度分布となるが、計算量
が少なく高速な処理が可能となる。
【0121】また、処理対象文書をテキスト変換した後
にキーワード出現密度計算を行うことで、どのような形
式の文書に対してもキーワード出現密度計算以降の処理
を共通化することができる。しかも、テキスト変換を行
う際、テキスト変換前の元文書とテキスト変換後の文書
との位置の対応付けを行って、その対応付けした内容を
保存しておくことで、有用部分を表示する場合、無理の
ない自然なレイアウトでの表示が行える。
【0122】また、それぞれの処理対象文書が有用であ
るか否かの判定は、算出されたキーワード出現密度の総
和を求めて、その総和の値によって判断することがで
き、このように、キーワード出現密度の総和によって有
用度を判断する方法は、それぞれの文書ごとにキーワー
ド出現密度の総和を求めるだけでよいので、少ない計算
量で容易に有用度の判定を行うことができる。
【0123】また、それぞれの処理対象文書が有用であ
るか否かの判定を行う際、それぞれの処理対象文書にお
いて求められたキーワード出現密度のエントロピを計算
してそのエントロピから判断することもできる。これに
よれば、キーワード出現密度の総和だけでは、判定が微
妙となるような場合でも、高精度な有用度の判定が行え
る。
【0124】また、分類された結果の出力は、分類を行
うために求められた有用度の高い文書から順番に出力
し、その出力内容は、有用度やどの部分が有用であるか
を示す有用部分さらにそれぞれの文書の要約など(全て
でなくともよい)を表示可能とするので、ユーザは、出
力された文書内容を即座に把握することができる。
【0125】そして、有用部分を表示する場合、有用部
分としては、キーワード出現密度の特に高い部分の区間
を設定しその区間を有用部分として抽出し、少なくとも
その抽出された区間を含む所定範囲を形態素解析して、
その形態素解析結果を用いて意味のある内容として抽出
するようにしたので、有用部分を1つのまとまった内容
の文として出力することができる。
【0126】また、上述の出力内容についてさらに詳細
な内容を出力可能としておき、その詳細な文書内容にお
いて、重要部分は色を変えたりブリンクさせるようにす
ることによって、ユーザは自分の知りたい情報を一目で
見ることができる。
【0127】また、ユーザの検索要求入力によって、シ
ステム側がその検索要求に基づいて適正な用語をキーワ
ードとして選択するようにしているので、ユーザ自身が
キーワードの設定を行う必要がない。したがって、ユー
ザは何を知りたいかを検索要求として入力するだけでよ
いので、ユーザの行う入力操作をきわめて簡単なものと
することができる。また、キーワードとして設定された
用語に関連する類義語や類似語さらにはキーワードに付
加される形容詞、副詞、感嘆詞などをもキーワードとす
ることができるので、これによって、より一層、検索精
度が向上し、ユーザの所望とする情報を適切に取り出す
ことができるようになる。
【0128】このように、本発明は、計算量が少なく高
精度な文書分類が可能となりる。しかも、どこがどの程
度有用なのかを適切に表示することができる。また、本
発明を適用すれば、作成した文書にキーワードやインデ
ックスをつけて分類できるように準備しておく必要がな
く、作成された文書に対し後に行われる分類処理につい
て何等意識する必要がない。つまり、どのような文書で
あっても、キーワードさえ設定されれば適切な分類がな
される。
【図面の簡単な説明】
【図1】本発明の実施の形態を説明するためにキーワー
ド出現密度の概念を説明する図である。
【図2】処理対象文書を1次元文字列に展開してキーワ
ード出現位置を求める例を説明する図である。
【図3】個々のキーワードの出現位置を決定する処理を
説明する図である。
【図4】ハニング窓関数の一例を示す図である。
【図5】処理対象文書の1次元文字列上におけるキーワ
ード出現密度分布を示す図である。
【図6】キーワード出現密度を計算する際にハニング窓
の幅(重み付け範囲)を変えて計算して得られたキーワ
ード出現密度分布を示す図である。
【図7】複数の処理対象文書を3段階の文書群に分けて
それぞれの文書ごとに得られたキーワード出現密度から
エントロピを求めてそのエントロピの分布を示す図であ
る。
【図8】本発明の実施の形態の表示例を示す図であり、
(a)は有用度の大きい順に必要な表示項目を併せて表
示する表示例を示す図、(b)はその中から指定された
文書内容を表示する例を示す図である。
【図9】キーワード出現位置のみでキーワード出現密度
を計算した場合の1次元文字列上におけるキーワード出
現密度分布を示す図である。
【図10】有用部分の抽出処理法法を説明する図であ
る。
【図11】本発明の実施の形態のシステム構成を示す図
である。
【符号の説明】
1 検索要求入力部 2 知識データベース部 3 キーワード群決定部 4 検索対象文書データベース部 5 文書タイプ検出部 6 テキスト変換部 7 キーワード出現密度計算部 8 有用文書判定部 9 表示部 10 有用部分抽出部 11 表示レイアウト生成部 20 キーワード設定部 30 文書出力部

Claims (29)

    【特許請求の範囲】
  1. 【請求項1】 ユーザの検索要求に基づいて多数の文書
    群の文書を分類して、その分類結果を出力する文書分類
    方法において、 処理対象文書を1次元文字列に展開して、前記ユーザの
    検索要求に基づくキーワードの出現位置を前記1次元文
    字列上において特定するとともに、その1次元文字列上
    で所定の範囲を重み付け範囲として設定し、その重み付
    け範囲の中心位置付近におけるキーワードの出現に対し
    ては重みを重くし、中心から離れるに従って重みを軽く
    するような重み付け関数を用いて前記設定された重み付
    け範囲の中心文字位置に対するキーワード出現密度を前
    記中心文字位置をずらしながら順次算出することによっ
    て、前記1次元文字列上におけるキーワード出現密度分
    布を得て、このキーワード出現密度分布から前記ユーザ
    の検索要求に対する当該処理対象文書の有用度を求め、
    その有用度によって複数の処理対象文書の分類を行うこ
    とを特徴とする文書分類方法。
  2. 【請求項2】 前記重み付け関数は、ハニング窓関数ま
    たはガウス関数であり、ガウス関数を用いる場合は、前
    記設定された重み付け範囲から外側は前記重みの値をゼ
    ロにすることを特徴とする請求項1記載の文書分類方
    法。
  3. 【請求項3】 前記キーワードの出現位置は、検出され
    たキーワードを構成する文字列の中心の文字位置とし、
    キーワードを構成する文字数が偶数文字である場合は、
    その文字数を2で割って得られた値に位置する文字また
    はその次に位置する文字とすることを特徴とする請求項
    1または2記載の文書分類方法。
  4. 【請求項4】 前記1次元文字列上におけるキーワード
    出現密度分布は、それぞれの処理対象文書ごとに得られ
    たキーワード出現密度の最大値を1.0とした正規化を行
    ってそれぞれの処理対象文書ごとに求めることを特徴と
    する請求項1から3のいずれか1項に記載の文書分類方
    法。
  5. 【請求項5】 前記キーワード出現密度計算を行う際の
    前記重み付け範囲は、それぞれの処理対象文書ごとにそ
    れぞれの処理対象文書長の1/10程度を目安に設定するこ
    とを特徴とする請求項1から4のいずれか1項に記載の
    文書分類方法。
  6. 【請求項6】 前記キーワード出現密度は、それぞれの
    処理対象文書ごとにそれぞれの処理対象文書を構成する
    全ての文字位置について計算することを特徴とする請求
    項1から5のいずれか1項に記載の文書分類方法。
  7. 【請求項7】 前記キーワード出現密度は、それぞれの
    処理対象文書ごとにそれぞれの処理対象文書内の前記キ
    ーワードの出現位置について計算し、かつ、計算された
    キーワード出現密度のピーク値を包絡線でつないで、当
    該処理対象文書を構成する全ての文字位置についてキー
    ワード出現密度を計算した場合のキーワード出現密度分
    布を推定することを特徴とする請求項1から5のいずれ
    か1項に記載の文書分類方法。
  8. 【請求項8】 前記キーワード出現密度計算は、それぞ
    れの処理対象文書ごとにそれぞれの処理対象文書をテキ
    スト変換した後に行い、テキスト変換前の元文書とテキ
    スト変換後の文書との位置の対応付けを行って、その対
    応付け内容を保存しておくことを特徴とする請求項1か
    ら7のいずれか1項に記載の文書分類方法。
  9. 【請求項9】 前記処理対象文書ごとに得られた前記ユ
    ーザ検索要求に対する有用度は、当該処理対象文書にお
    いて算出されたキーワード出現密度の総和を求めること
    によって得ることを特徴とする請求項1から8のいずれ
    か1項に記載の文書分類方法。
  10. 【請求項10】 前記処理対象文書ごとに得られた前記
    ユーザ検索要求に対する有用度は、当該処理対象文書に
    おいて算出されたキーワード出現密度に基づき、そのエ
    ントロピを計算して求めることを特徴とする請求項1か
    ら8のいずれか1項に記載の文書分類方法。
  11. 【請求項11】 分類された結果を出力する際、出力さ
    れる文書が複数存在する場合、分類を行うために求めら
    れた有用度の高い方から順番に出力し、その出力内容
    は、それぞれの文書におけるユーザの検索要求に対する
    有用度、それぞれの文書におけるユーザの検索要求に対
    する有用部分、それぞれの文書の要約を表す部分の少な
    くとも1つを表示することを特徴とする請求項1から1
    0のいずれか1項に記載の文書分類方法。
  12. 【請求項12】 前記有用部分は、キーワード出現密度
    の特に高い部分の区間を設定しその区間を抽出すること
    で有用部分として抽出し、少なくともその抽出された区
    間を含む所定範囲を形態素解析して、その形態素解析結
    果を用いて意味のある内容として抽出することを特徴と
    する請求項11に記載の文書分類方法。
  13. 【請求項13】 前記出力内容に対する詳細な文書内容
    を当該出力内容にリンクして設け、所定部分がユーザに
    よって指示されることにより、前記詳細な文書内容を出
    力可能とし、その詳細な文書内容において、キーワード
    出現密度の特に高い部分については、その部分の表示の
    仕方を他の部分と異ならせることを特徴とする請求項1
    1または12に記載の文書分類方法。
  14. 【請求項14】 前記キーワードの設定は、ユーザの検
    索要求入力によって、システム側がその検索要求に基づ
    いて適正な用語を選択することによって行われ、当該選
    択された用語に関連する類義語や類似語さらには前記選
    択された用語に付加される形容詞、副詞、感嘆詞をもキ
    ーワードとして設定可能とすることを特徴とする請求項
    1から13のいずれか1項に記載の文書分類方法。
  15. 【請求項15】 ユーザの検索要求に基づいて多数の文
    書群の文書を分類して、その分類結果を出力する文書分
    類装置において、 処理対象文書をそれぞれの処理対象文書ごとに1次元文
    字列に展開して、前記ユーザの検索要求に基づくキーワ
    ードの出現位置を前記1次元文字列上において特定する
    とともに、その1次元文字列上で所定の範囲を重みけ範
    囲として設定し、その重み付け範囲の中心文字位置付近
    におけるキーワードの出現に対しては重みを重くし中心
    から離れるに従って重みを軽くするような重み付け関数
    を用いて前記設定された重み付け範囲の中心文字位置に
    対するキーワード出現密度を前記中心文字位置をずらし
    ながら順次算出するキーワード出現密度計算手段と、 このキーワード密度計算手段によって求められたキーワ
    ード出現密度に基づいて前記処理対象文書の前記1次元
    文字列上におけるキーワード出現密度分布を得て、この
    キーワード出現密度分布から前記ユーザ検索要求に対す
    る当該文書の有用度を求める有用文書判定手段と、 を含むことを特徴とする文書分類装置。
  16. 【請求項16】 前記重み付け関数は、ハニング窓関数
    またはガウス関数であり、ガウス関数を用いる場合は、
    前記設定された重み付け範囲からり外側は前記重みの値
    をゼロにすることを特徴とする請求項15に記載の文書
    分類装置。
  17. 【請求項17】 前記キーワードの出現位置は、検出さ
    れたキーワードを構成する文字列の中心の文字位置と
    し、キーワードを構成する文字数が偶数文字である場合
    は、その文字数を2で割って得られた値に位置する文字
    またはその次に位置する文字とすることを特徴とする請
    求項15または16に記載の文書分類装置。
  18. 【請求項18】 前記1次元文字列上におけるキーワー
    ド出現密度分布は、それぞれの処理対象文書ごとに得ら
    れたキーワード出現密度の最大値を1.0とした正規化を
    行ってそれぞれの処理対象文書ごとに求めることを特徴
    とする請求項15から17のいずれか1項に記載の文書
    分類装置。
  19. 【請求項19】 前記キーワード出現密度計算を行う際
    の前記重み付け範囲は、それぞれの処理対象文書ごとに
    それぞれの処理対象文書長の1/10程度を目安に設定する
    ことを特徴とする請求項15から18のいずれか1項に
    記載の文書分類装置。
  20. 【請求項20】 前記キーワード出現密度は、それぞれ
    の処理対象文書ごとにそれぞれの処理対象文書を構成す
    る全ての文字位置について計算することを特徴とする請
    求項15から19のいずれか1項に記載の文書分類装
    置。
  21. 【請求項21】 前記キーワード出現密度は、それぞれ
    の処理対象文書ごとにそれぞれの処理対象文書内の前記
    キーワードの出現位置について計算し、かつ、計算され
    たキーワード出現密度のピーク値を包絡線でつないで、
    当該処理対象文書を構成する全ての文字位置についてキ
    ーワード出現密度を計算した場合のキーワード出現密度
    分布を推定することを特徴とする請求項15から19の
    いずれか1項に記載の文書分類装置。
  22. 【請求項22】 前記キーワード出現密度計算手段の前
    段に、前記処理対象文書をテキスト文書に変換するテキ
    スト変換手段を設け、前記処理対象文書をテキスト変換
    する際、テキスト変換前の元文書とテキスト変換後の文
    書との位置の対応付けを行って、その対応付け内容を保
    存しておくことを特徴とする請求項15から21のいず
    れか1項に記載の文書分類装置。
  23. 【請求項23】 前記処理対象文書ごとに得られた前記
    ユーザ検索要求に対する有用度は、当該処理対象文書に
    おいて算出されたキーワード出現密度の総和を求めるこ
    とによって得ることを特徴とする請求項15から22の
    いずれか1項に記載の文書分類装置。
  24. 【請求項24】 前記処理対象文書ごとに得られた前記
    ユーザ検索要求に対する有用度は、当該処理対象文書に
    おいて算出されたキーワード出現密度に基づき、そのエ
    ントロピを計算して求めることを特徴とする請求項15
    から22のいずれか1項に記載の文書分類装置。
  25. 【請求項25】 前記キーワード出現密度計算手段の前
    段に、ユーザの検索要求を受け付ける検索要求入力手段
    と、この検索要求入力手段に入力されたユーザの検索要
    求に対してどの用語をキーワードとして選択するかの知
    識データベースを有し、当該選択された用語に関連する
    類義語や類似語さらには前記選択された用語に付加され
    る形容詞、副詞、感嘆詞をもキーワードとして設定可能
    とするキーワード設定手段とを設けたことを特徴とする
    請求項15から22のいずれか1項に記載の文書分類装
    置。
  26. 【請求項26】 出力すべき文書の表示レイアウトを生
    成して文書を出力する文書出力手段を設け、出力される
    内容は、それぞれの文書におけるユーザの検索要求に対
    する有用度、それぞれの文書におけるユーザの検索要求
    に対する有用部分、それぞれの文書の要約を表す部分の
    少なくとも1つであり、これらを出力する文書対応に所
    定の表示レイアウト設定を行って出力することを特徴と
    する請求項15から25のいずれか1項に記載の文書分
    類装置。
  27. 【請求項27】 前記有用部分を抽出する有用部分抽出
    手段を設け、この有用部分抽出手段は、キーワード出現
    密度の特に高い部分の区間を設定しその区間を抽出する
    ことで有用部分として抽出し、少なくともその抽出され
    た区間を含む所定範囲を形態素解析して、その形態素解
    析結果を用いて意味のある内容として抽出することを特
    徴とする請求項26に記載のの文書分類装置。
  28. 【請求項28】 前記出力内容に対する詳細な文書内容
    を当該出力内容にリンクして設け、所定部分がユーザに
    よって指示されることにより、前記詳細な文書内容を出
    力可能とし、その詳細な文書内容において、キーワード
    出現密度の特に高い部分については、その部分の表示の
    仕方を他の部分と異ならせることを特徴とする請求項2
    6または27に記載の文書分類装置。
  29. 【請求項29】 ユーザの検索要求に基づいて多数の文
    書群の文書を分類して、その分類結果を出力する文書分
    類処理プログラムを記録した記録媒体であって、その文
    書分類処理プログラムは、 複数の処理対象文書をそれぞれの処理対象文書ごとに1
    次元文字列に展開する手順と、 前記ユーザの検索要求に基づくキーワードの出現位置を
    前記1次元文字列上において特定するとともに、その1
    次元文字列上で所定の範囲を重み付け範囲として設定
    し、その重み付け範囲の中心文字位置付近におけるキー
    ワードの出現に対しては重みを重くし中心から離れるに
    従って重みを軽くするような重み付け関数を用いて前記
    設定された重み付け範囲の中心文字位置に対するキーワ
    ード出現密度を前記中心文字位置をずらしながら順次算
    出する手順と、 これによって求められたキーワード出現密度に基づいて
    前記処理対象文書の前記1次元文字列上におけるキーワ
    ード出現密度分布を得て、このキーワード出現密度分布
    から前記ユーザ検索要求に対する当該文書の有用度を求
    める手順と、 を含むことを特徴とする文書分類処理プログラムを記録
    した記録媒体。
JP33738998A 1998-11-27 1998-11-27 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 Expired - Fee Related JP3829506B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33738998A JP3829506B2 (ja) 1998-11-27 1998-11-27 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33738998A JP3829506B2 (ja) 1998-11-27 1998-11-27 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2000163437A true JP2000163437A (ja) 2000-06-16
JP3829506B2 JP3829506B2 (ja) 2006-10-04

Family

ID=18308181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33738998A Expired - Fee Related JP3829506B2 (ja) 1998-11-27 1998-11-27 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3829506B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288203A (ja) * 2001-03-23 2002-10-04 Ntt Software Corp 情報検索方法及びシステム及び情報検索プログラム及び情報検索プログラムを格納した記憶媒体
JP2002334070A (ja) * 2001-05-10 2002-11-22 Sony Corp 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
JP2005259088A (ja) * 2004-03-15 2005-09-22 Kousaku Ookubo 注目する情報を知識集積物との関係で可視的に処理するためのシステム及びそのためのコンピュータソフトウエアプログラム製品
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
JP2006252090A (ja) * 2005-03-10 2006-09-21 Nippon Telegr & Teleph Corp <Ntt> 評判情報取得装置、評判情報取得方法、プログラムおよび記憶媒体
JP2007172179A (ja) * 2005-12-20 2007-07-05 Nec Corp 意見抽出装置、意見抽出方法、および意見抽出プログラム
JP2013190988A (ja) * 2012-03-13 2013-09-26 Toshiba Corp 文書分析装置および文書分析プログラム
KR101764479B1 (ko) 2015-03-03 2017-08-03 단국대학교 산학협력단 장르 분석 장치 및 방법
JPWO2018235326A1 (ja) * 2017-06-23 2020-04-23 大日本印刷株式会社 コンピュータプログラム、フォント切替装置及びフォント切替方法
JP2020067831A (ja) * 2018-10-24 2020-04-30 Solize株式会社 テキスト処理方法及び、テキスト処理装置
CN115905506A (zh) * 2023-02-21 2023-04-04 江西省科技事务中心 基础理论文件推送方法、系统、计算机及可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765726B (zh) * 2015-04-27 2018-07-31 湘潭大学 一种基于信息密度的数据分类方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288203A (ja) * 2001-03-23 2002-10-04 Ntt Software Corp 情報検索方法及びシステム及び情報検索プログラム及び情報検索プログラムを格納した記憶媒体
JP2002334070A (ja) * 2001-05-10 2002-11-22 Sony Corp 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
JP2005259088A (ja) * 2004-03-15 2005-09-22 Kousaku Ookubo 注目する情報を知識集積物との関係で可視的に処理するためのシステム及びそのためのコンピュータソフトウエアプログラム製品
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
JP4513098B2 (ja) * 2005-03-10 2010-07-28 日本電信電話株式会社 評判情報取得装置、評判情報取得方法、プログラムおよび記憶媒体
JP2006252090A (ja) * 2005-03-10 2006-09-21 Nippon Telegr & Teleph Corp <Ntt> 評判情報取得装置、評判情報取得方法、プログラムおよび記憶媒体
JP2007172179A (ja) * 2005-12-20 2007-07-05 Nec Corp 意見抽出装置、意見抽出方法、および意見抽出プログラム
JP2013190988A (ja) * 2012-03-13 2013-09-26 Toshiba Corp 文書分析装置および文書分析プログラム
KR101764479B1 (ko) 2015-03-03 2017-08-03 단국대학교 산학협력단 장르 분석 장치 및 방법
JPWO2018235326A1 (ja) * 2017-06-23 2020-04-23 大日本印刷株式会社 コンピュータプログラム、フォント切替装置及びフォント切替方法
JP2020067831A (ja) * 2018-10-24 2020-04-30 Solize株式会社 テキスト処理方法及び、テキスト処理装置
JP7324577B2 (ja) 2018-10-24 2023-08-10 Solize株式会社 テキスト処理方法及び、テキスト処理装置
CN115905506A (zh) * 2023-02-21 2023-04-04 江西省科技事务中心 基础理论文件推送方法、系统、计算机及可读存储介质
CN115905506B (zh) * 2023-02-21 2023-05-16 江西省科技事务中心 基础理论文件推送方法、系统、计算机及可读存储介质

Also Published As

Publication number Publication date
JP3829506B2 (ja) 2006-10-04

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
JP3691844B2 (ja) 文書処理方法
US7213205B1 (en) Document categorizing method, document categorizing apparatus, and storage medium on which a document categorization program is stored
US8355902B1 (en) Semantic unit recognition
US8788494B2 (en) Method, device and system for processing, browsing and searching an electronic documents
JP4595692B2 (ja) 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
EP2019361A1 (en) A method and apparatus for extraction of textual content from hypertext web documents
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
KR20010015368A (ko) 정보 검색 방법과 정보 검색 장치
JP2008511075A5 (ja)
CA2577376A1 (en) Point of law search system and method
WO2009123260A1 (ja) 共起辞書作成システムおよびスコアリングシステム
KR100685023B1 (ko) 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
JP3829506B2 (ja) 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JP2008243024A (ja) 情報取得装置、そのプログラム及び方法
JP3583631B2 (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP7427510B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JP2006119697A (ja) 質問応答システム、質疑応答方法および質疑応答プログラム
JP4389102B2 (ja) 技術文献検索システム
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2001067364A (ja) 複合メディア検索方法および複合メディア検索用プログラム記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051206

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060322

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060703

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100721

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110721

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110721

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120721

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120721

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130721

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees