JP2000163437A

JP2000163437A - 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体

Info

Publication number: JP2000163437A
Application number: JP10337389A
Authority: JP
Inventors: Michihiro Nagaishi; 道博長石
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1998-11-27
Filing date: 1998-11-27
Publication date: 2000-06-16
Anticipated expiration: 2018-11-27
Also published as: JP3829506B2

Abstract

(57)【要約】【課題】膨大な文書の中からユーザの所望とする文書
を適切に抽出するために文書を高精度に分類する。【解決手段】処理対象文書を１次元文字列に展開し
て、キーワード設定部２０によって設定されたキーワー
ドの出現位置を１次元文字列上で特定し、その１次元文
字列上で重み付け範囲を設定し、その範囲の中心文字位
置付近におけるキーワードの出現に対しては重みを重く
し中心から離れるに従って重みを軽くするような重み付
け関数を用いて前記重み付け範囲の中心におけるキーワ
ード出現密度を、重み付け範囲の中心をずらしながら順
次算出するキーワード出現密度計算部７と、このキーワ
ード出現密度計算部７で求められたキーワード出現密度
に基づいて前記処理対象文書の１次元文字列上における
キーワード出現密度分布を得て、このキーワード出現密
度分布から前記ユーザ検索要求に対する当該文書の有用
度を求める有用文書判定部８とを有する構成とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、多数の文書からあ
る分野に関連する文書かどうか判定して区別する文書分
類方法および文書分類装置ならびに文書分類処理プログ
ラムを記録した記録媒体に関する。

【０００２】

【従来の技術】多数の文書の中からある分野に関連する
文書かどうか判定して区別することが従来より行われて
いる。特に、最近ではインターネットの普及によって、
ユーザの欲しい情報を比較的簡単に取り出せるようにな
ってきている。しかし、インターネット上には膨大な量
の文書が存在し、その中から、ユーザの所望とする文書
を適切に判断して取り出すのは容易なことではない。こ
のように、膨大な量の文書の中からユーザの所望とする
文書を抽出するには、ユーザの検索要求を受けると、そ
の検索要求に基づいて多数の文書を分野別に分類してそ
の中からユーザの所望とする文書を抽出するというよう
な処理が必要となってくる。このような文書の分類を可
能とする技術は、従来より、様々提案されている。

【０００３】これまで、複数の文書を分類する方法とし
て最も多く使われるのは、ユーザの所望とする文書を捜
すために、何らかのキーワードを設定し、そのキーワー
ドがそれぞれの文書にどのくらい存在するか調べる方法
である。キーワードが沢山ある文書は、ユーザの所望と
する有用度が高い文書であるといえる。

【０００４】しかし、この方法はキーワードが存在して
いるか否かしか見ていないため、非常に沢山の文書の中
から、おおまかに候補を絞り込む場合には、ある程度有
効なものとなるが、本当に欲しい文書に絞り込むのは難
しい。ただし、これは単純なキーワード照合なので、we
bのようなある程度実時間処理を求められる用途でも使
われている。

【０００５】これに対して、単にキーワードが存在する
か否かの判断だけではなく、１つ１つの文書において、
個々の文書内全体における各用語の出現頻度や割合か
ら、文書中で有効な用語を選出し、検索の時に入力され
たキーワードをそれらの用語と照合させることで、文書
分類の精度を向上させる方法も使われている。代表的な
方法として、ＴＦ・ＩＤＦ法が知られている。この方法
は単純な文書中のキーワード照合方法に比べて精度が高
い。

【０００６】

【発明が解決しようとする課題】しかし、上述のＴＦ・
ＩＤＦ法は、たとえば、ある商品についての文書を沢山
の文書の中から的確に探し出すという場合にはかなり有
効であるが、そのある商品についてのの文書から、その
商品の評判などが詳しく書かれた文書を捜し出すことは
難しい。また、事前に検索対象にする全文書について、
単語頻度などを計算する必要があるので、計算量が多い
という問題点もある。

【０００７】しかも、形態素解析で文章を単語に切り分
ける必要があり、検索対象文書が多くなると、計算量は
莫大なものとなる。したがって、単純にキーワードを与
えて、すぐに該当する文書を探し出すことが難しい。

【０００８】このように、これまで使われている主な文
書分類方法は、キーワードの出現頻度を利用している。
一方、我々は単純に頻度ではなく、関連するキーワード
がどの程度の密度で文書中に存在するのか、存在位置も
見ていると考えられる。実際、キーワードの出現位置を
考慮したキーワード出現密度がその文書で重要な場所を
的確に示していることが報告されている（黒橋、白木、
長尾：出現密度分布を用いた語の重要説明箇所の特定、
情報処理学会論文誌、Vol.38，No.4，pp.845-854 (199
7)）。この文献を以下では第１の文献という。

【０００９】この第１の文献に書かれている方法は、設
定したキーワードと一致する語句の文書上の位置から簡
単にキーワード出現密度を計算することができる。した
がって、事前に頻度や形態素分析をする必要がなく、単
純に設定したキーワードと照合するだけでよい。しか
も、文書中の有用な部分がわかるので、そのような有用
部分が相対的に数多く存在する文書を見つければ、精度
の高い文書分類が可能になると考えられる。

【００１０】なお、キーワードの位置を利用する方法と
して、語彙の連鎖の一致度を文書全体で計算・分類する
方法も検討されている（望月，岩山，奥村：語彙的連鎖
に基づくパッセージ検索、情報処理学会研究会報告、98
-NL-127，pp.39-46，1998）。この文献を以下では第２
の文献という。

【００１１】この第２の文献に記載された方法は、キー
ワード検索時に入力されたクエリー（検索エンジンなど
で最初に入力することばなど）に適応する部分を文書中
で見つける一種のパターンマッチングである。しかし、
この方法は与えられたクエリーとのマッチングだけを調
べるので、前述のようなある商品の評判などが詳しく書
かれた文書を捜すというように、単純なクエリーでは表
現しにくい内容の文書を捜すには向かない。

【００１２】そこで本発明は、文書内におけるキーワー
ド出現位置を考慮したキーワード出現密度を求めて、こ
のキーワード出現密度を利用して文書の分類を行うこと
で、非常に計算が簡単で精度の高い文書分類を可能とす
ることを目的としている。

【００１３】

【課題を解決するための手段】上述の目的を達成するた
めに、本発明の文書分類方法は、ユーザの検索要求に基
づいて多数の文書群の文書を分類して、その分類結果を
出力する文書分類方法において、処理対象文書を１次元
文字列に展開して、前記ユーザの検索要求に基づくキー
ワードの出現位置を前記１次元文字列上において特定す
るとともに、その１次元文字列上で所定の範囲を重み付
け範囲として設定し、その重み付け範囲の中心位置付近
におけるキーワードの出現に対しては重みを重くし、中
心から離れるに従って重みを軽くするような重み付け関
数を用いて前記設定された重み付け範囲の中心文字位置
に対するキーワード出現密度を前記中心文字位置をずら
しながら順次算出することによって、前記１次元文字列
上におけるキーワード出現密度分布を得て、このキーワ
ード出現密度分布から前記ユーザの検索要求に対する当
該処理対象文書の有用度を求め、その有用度によって複
数の処理対象文書の分類を行うようにしている。

【００１４】また、本発明の文書分類装置は、ユーザの
検索要求に基づいて多数の文書群の文書を分類して、そ
の分類結果を出力する文書分類装置において、処理対象
文書をそれぞれの処理対象文書ごとに１次元文字列に展
開して、前記ユーザの検索要求に基づくキーワードの出
現位置を前記１次元文字列上において特定するととも
に、その１次元文字列上で所定の範囲を重みけ範囲とし
て設定し、その重み付け範囲の中心文字位置付近におけ
るキーワードの出現に対しては重みを重くし中心から離
れるに従って重みを軽くするような重み付け関数を用い
て前記設定された重み付け範囲の中心文字位置に対する
キーワード出現密度を前記中心文字位置をずらしながら
順次算出するキーワード出現密度計算手段と、このキー
ワード密度計算手段によって求められたキーワード出現
密度に基づいて前記処理対象文書の前記１次元文字列上
におけるキーワード出現密度分布を得て、このキーワー
ド出現密度分布から前記ユーザ検索要求に対する当該文
書の有用度を求める有用文書判定手段とを含む構成とし
ている。

【００１５】これら文書分類方法および文書分類装置に
おいて、前記重み付け関数は、ハニング窓関数またはガ
ウス関数であり、ガウス関数を用いる場合は、前記設定
された重み付け範囲から外側は前記重みの値をゼロにす
るような設定として用いる。

【００１６】また、前記キーワードの出現位置は、検出
されたキーワードを構成する文字列の中心の文字位置と
し、キーワードを構成する文字数が偶数文字である場合
は、その文字数を２で割って得られた値に位置する文字
またはその次に位置する文字とするようにしている。

【００１７】また、前記１次元文字列上におけるキーワ
ード出現密度分布は、それぞれの処理対象文書ごとに得
られたキーワード出現密度の最大値を1.0とした正規化
を行ってそれぞれの処理対象文書ごとに求めるようにす
る。

【００１８】また、前記キーワード出現密度計算を行う
際の前記重み付け範囲は、それぞれの処理対象文書ごと
にそれぞれの処理対象文書長の1/10程度を目安に設定す
ることが望ましい。

【００１９】また、前記キーワード出現密度は、それぞ
れの処理対象文書ごとにそれぞれの処理対象文書を構成
する全ての文字位置について計算するようにしてもよ
く、また、前記キーワード出現密度は、それぞれの処理
対象文書ごとにそれぞれの処理対象文書内の前記キーワ
ードの出現位置について計算し、かつ、計算されたキー
ワード出現密度のピーク値を包絡線でつないで、当該処
理対象文書を構成する全ての文字位置についてキーワー
ド出現密度を計算した場合のキーワード出現密度分布を
推定するようにしてもよい。

【００２０】さらに、前記キーワード出現密度計算は、
それぞれの処理対象文書ごとにそれぞれの処理対象文書
をテキスト変換した後に行い、テキスト変換前の元文書
とテキスト変換後の文書との位置の対応付けを行って、
その対応付け内容を保存しておくようにする。

【００２１】また、前記処理対象文書ごとに得られた前
記ユーザ検索要求に対する有用度は、当該処理対象文書
において算出されたキーワード出現密度の総和を求める
ことによって得るようにする。

【００２２】さらに、前記処理対象文書ごとに得られた
前記ユーザ検索要求に対する有用度は、当該処理対象文
書において算出されたキーワード出現密度に基づき、そ
のエントロピを計算して求めるようにしてもよい。

【００２３】そして、分類された結果を出力する際、出
力される文書が複数存在する場合、分類を行うために求
められた有用度の高い方から順番に出力し、その出力内
容は、それぞれの文書におけるユーザの検索要求に対す
る有用度、それぞれの文書におけるユーザの検索要求に
対する有用部分、それぞれの文書の要約を表す部分の少
なくとも１つを表示するようにする。

【００２４】前記有用部分は、キーワード出現密度の特
に高い部分の区間を設定しその区間を抽出することで有
用部分として抽出し、少なくともその抽出された区間を
含む所定範囲を形態素解析して、その形態素解析結果を
用いて意味のある内容として抽出するようにする。

【００２５】さらに、前記出力内容に対する詳細な文書
内容を当該出力内容にリンクして設け、所定部分がユー
ザによって指示されることにより、前記詳細な文書内容
を出力可能とし、その詳細な文書内容において、キーワ
ード出現密度の特に高い部分については、その部分の表
示の仕方を他の部分と異ならせて表示する。

【００２６】また、前記キーワードの設定は、ユーザの
検索要求入力によって、システム側がその検索要求に基
づいて適正な用語を選択することによって行われ、当該
選択された用語に関連する類義語や類似語さらには前記
選択された用語に付加される形容詞、副詞、感嘆詞をも
キーワードとして設定可能とする。

【００２７】また、本発明の文書分類装置は、前記キー
ワード出現密度計算手段の前段に、前記処理対象文書を
テキスト文書に変換するテキスト変換手段を設けること
が可能である。このテキスト変換手段は、前述したよう
に、処理対象文書をテキスト変換する際、テキスト変換
前の元文書とテキスト変換後の文書との位置の対応付け
を行って、その対応付け内容を保存することを可能とす
る。また、ユーザの検索要求を受け付ける検索要求入力
手段とキーワード設定手段を設ける。このキーワード設
定手段は、検索要求入力手段に入力されたユーザの検索
要求に対してどの用語をキーワードとして選択するかの
知識データベースを有し、当該選択された用語に関連す
る類義語や類似語さらには前記選択された用語に付加さ
れる形容詞、副詞、感嘆詞をもキーワードとして設定可
能とする。

【００２８】また、本発明の文書分類装置は、出力すべ
き文書の表示レイアウトを生成して文書を出力する文書
出力手段を設けることを可能とし、この文書出力手段か
ら出力される内容は、前述したように、それぞれの文書
におけるユーザの検索要求に対する有用度、それぞれの
文書におけるユーザの検索要求に対する有用部分、それ
ぞれの文書の要約を表す部分の少なくとも１つであり、
これらを出力する文書対応に所定の表示レイアウト設定
を行って出力する。

【００２９】さらに、有用部分を抽出する有用部分抽出
手段を設けることを可能としている。この有用部分抽出
手段は、前述したように、キーワード出現密度の特に高
い部分の区間を設定しその区間を抽出することで有用部
分として抽出し、少なくともその抽出された区間を含む
所定範囲を形態素解析して、その形態素解析結果を用い
て意味のある内容として抽出する。

【００３０】また、本発明の文書分類処理プログラムを
記録した記録媒体は、ユーザの検索要求に基づいて多数
の文書群の文書を分類して、その分類結果を出力する文
書分類処理プログラムを記録した記録媒体であって、そ
の文書分類処理プログラムは、複数の処理対象文書をそ
れぞれの処理対象文書ごとに１次元文字列に展開する手
順と、前記ユーザの検索要求に基づくキーワードの出現
位置を前記１次元文字列上において特定するとともに、
その１次元文字列上で所定の範囲を重み付け範囲として
設定し、その重み付け範囲の中心文字位置付近における
キーワードの出現に対しては重みを重くし中心から離れ
るに従って重みを軽くするような重み付け関数を用いて
前記設定された重み付け範囲の中心文字位置に対するキ
ーワード出現密度を前記中心文字位置をずらしながら順
次算出する手順と、これによって求められたキーワード
出現密度に基づいて前記処理対象文書の前記１次元文字
列上におけるキーワード出現密度分布を得て、このキー
ワード出現密度分布から前記ユーザ検索要求に対する当
該文書の有用度を求める手順とを含むものでる。

【００３１】本発明は、膨大な文書の中からユーザの所
望とする文書を取り出す際の前処理としての文書分類を
如何に効率的に行うかについての発明である。これを実
現するために、まず、設定されたキーワードが文書内に
どのような密度で存在するかを判断する。このキーワー
ドが文書内にどのような密度で存在するかを本発明で
は、キーワード出現密度と呼び、このキーワード出現密
度を調べて、その結果に基づいて文書の有用度について
判定する。

【００３２】このキーワード出現密度は、既に公知の方
法、つまり、前述の第１の文献（黒橋、白木、長尾：出
現密度分布を用いた語の重要説明箇所の特定、情報処理
学会論文誌、Vol.38，No.4，pp.845-854 (1997)）に記
載された方法を用いて求めるが、本発明は、このキーワ
ード出現密度そのもの求めることを要旨とするものでは
ない。本発明は、このキーワード出現密度を用いて如何
に文書を効率よくかつ高精度に分類するかを主旨として
いる。

【００３３】また、キーワード出現密度を求める際に用
いられる関数は、ハニング窓関数やガウス関数など中心
から両側になだらかに減少する関数を用いることができ
る。

【００３４】また、本発明では、キーワード出現位置は
それぞれのキーワードを構成する文字の中心の文字また
はその中心付近の文字とすることによって、キーワード
の位置を正確に表すことができる。つまり、前述の第１
の文献では、キーワード出現位置をキーワードの先頭と
しており、このように、キーワードを構成する文字の先
頭の文字位置をキーワード位置とすると、キーワードが
文字数の多い熟語のような場合、キーワードの位置を正
確に表すことができないなどの問題が生じる。

【００３５】また、それぞれの処理対象文書ごとに、キ
ーワード出現密度の最大値を1.0とした正規化を行って
キーワード出現密度分布を求めることによって、他の処
理対象文書との比較が容易となる。

【００３６】前記キーワード出現密度計算を行う際に設
定される重み付け範囲は、それぞれの処理対象文書ごと
にそれぞれの処理対象文書長の1/10程度を目安に設定す
ることによって、得られるキーワード出現密度分布が有
用箇所を適切に表したものとなり、その後の処理として
の分類処理を適切に行うことができる。

【００３７】また、それぞれの処理対象文書ごとにそれ
ぞれの処理対象文書を構成する全ての文字位置について
キーワード出現密度を計算することにより、キーワード
出現密度分布を高精度に出すことができる。

【００３８】これに対して、それぞれの処理対象文書内
の前記キーワードの出現位置についてのみキーワード出
現密度を計算することも可能であり、これによれば、多
少おおまかなキーワード出現密度分布となるが、計算量
が少なく高速な処理が可能となる。また、計算されたキ
ーワード出現密度のピーク値を包絡線でつないで、当該
処理対象文書を構成する全ての文字位置についてキーワ
ード出現密度を計算した場合のキーワード出現密度分布
を推定することもできる。

【００３９】また、それぞれの処理対象文書ごとにそれ
ぞれの処理対象文書をテキスト変換した後にキーワード
出現密度計算を行うことで、どのような形式の文書に対
してもキーワード出現密度計算以降の処理を共通化する
ことができる。しかも、テキスト変換を行う際、テキス
ト変換前の元文書とテキスト変換後の文書との位置の対
応付けを行って、その対応付けした内容を保存しておく
ことで、有用部分を表示する場合、無理のない自然なレ
イアウトでの表示が行える。

【００４０】また、それぞれの処理対象文書が有用であ
るか否かの判定は、算出されたキーワード出現密度の総
和を求めて、その総和の値によって判断することができ
る。この総和によって有用度を方法は、それぞれの文書
ごとにキーワード出現密度の総和を求めるだけでよいの
で、計算量が少なく容易に有用度の判定を行うことがで
きる。

【００４１】また、それぞれの処理対象文書が有用であ
るか否かの判定を行う際、それぞれの処理対象文書にお
いて求められたキーワード出現密度のエントロピを計算
してそのエントロピから判断することもできる。これに
よれば、キーワード出現密度の総和だけでは、判定が微
妙なものとなるような場合にも、高精度な有用度の判定
が行える。

【００４２】また、分類された結果の出力は、分類を行
うために求められた有用度の高い文書から順番に出力
し、その出力内容は、有用度やどの部分が有用であるか
を示す有用部分さらにそれぞれの文書の要約など（全て
でなくともよい）を表示するので、ユーザは、出力され
た文書内容を即座に把握することができる。

【００４３】そして、有用部分を表示する場合、有用部
分としては、キーワード出現密度の特に高い部分の区間
を設定しその区間を有用部分として抽出し、少なくとも
その抽出された区間を含む所定範囲を形態素解析して、
その形態素解析結果を用いて意味のある内容として抽出
するようにしたので、有用部分を１つのまとまった内容
を持つ文として出力することができる。

【００４４】また、上述の出力内容についてさらに詳細
な内容を出力可能としておき、その詳細な文書内容にお
いて、重要部分は色を変えたりブリンクさせるようにし
たので、ユーザは自分の知りたい詳細な情報を一目で見
ることができる。

【００４５】また、ユーザの検索要求入力によって、シ
ステム側がその検索要求に基づいて適正な用語を選択す
ることによって自動的にキーワードが選択されるので、
ユーザがキーワードの設定を行う必要がなく、ユーザは
何を知りたいかを検索要求として入力するだけでよいの
で、入力操作が簡単となる。また、キーワードとして設
定された用語に関連する類義語や類似語さらには、その
形容詞、副詞、感嘆詞などをもキーワードとして設定可
能とするので、より一層、検索精度が向上し、ユーザの
所望とする情報を適切に取り出すことができるようにな
る。

【００４６】

【発明の実施の形態】本発明は、複数の文書からある分
野に関連する文書かどうかを判定し、区分する方法であ
って、その分野かどうかを複数のキーワード（キーワー
ドとして設定された語句だけでなくそれに関連する類義
語や類似語、さらには、その形容詞、副詞、感嘆詞など
の語句も含んでもよい）が、どの程度の密度で存在する
かを、検索対象文書ごとに計算し、求められたキーワー
ド出現密度に基づいて、それぞれの文書の有用度を求め
その有用度によって文書を分類するものである。

【００４７】以下、文書中のキーワードの位置情報から
当該文書におけるキーワード出現密度分布を用いて文書
の分類を行う方法について述べる。なお、以下に説明す
る内容は、本発明の文書分類処理プログラムの内容の説
明でもある。

【００４８】最初に文書の分類についてここでの定義を
述べる。複数の文書からある分野に関する内容がその文
書に存在するかどうか判定して区別する方法というの
は、次のようなものを指す。

【００４９】まず、「ある分野」かどうかはその分野に
ついて複数のキーワードや表現などで記述できるある知
識があるものと考える。たとえば、商品の評判について
の内容を想定すると、「批評」、「好評」、「感想」な
どのキーワードが多く含まれるような内容は、商品の評
判という分野に関する内容が存在するといえる。

【００５０】本発明は、このようなキーワードが各文書
内にどの程度の密度で出現するのかを文書ごとに計算
し、密度の高い文書をその分野の内容をよく含んでいる
文書として選出して分類するものである。

【００５１】続いて、具体的な文書密度計算方法につい
て述べる。ここでは文書としてタグや特殊記号などが一
切ない単純なテキストを処理対象文書として考える。図
１（ａ），（ｂ），（ｃ）は、ある３つの文書（文書
Ａ、文書Ｂ、文書Ｃという）において、あるキーワード
のキーワード出現密度の概念を示したものである。図
中、×印は文書中に存在するキーワードを示している。
そして、これら文書を図示の左から右方向に見たときの
キーワードの数を曲線Ｒで示す山の高さで表している。
この図１の例では、同図（ａ）の文書Ａはある狭い範囲
に高い山が形成され、その部分にキーワードが集中して
いることを示し、同図（ｂ）の文書Ｂは広い範囲に低い
山が幾つか形成され、キーワードが文書全体にまんべん
なく散らばっていることを示している。また、同図
（ｃ）の文書Ｃは２箇所の狭い範囲にそれぞれ高い山が
形成され、その２つの範囲にキーワードが集中している
ことを示している。

【００５２】このようなキーワード出現密度は次のよう
に計算する。まず、図２（ａ）に示すような処理対象文
書を、図２（ｂ）に示すように、単純な一次元文字列に
展開する。つまり、図２（ａ）に示す文書は横書きで書
かれた文書であり、その横書きの文書の先頭をＳ、文書
末をＥとし、文書の先頭Ｓから図示左方向にその行の終
わりまで展開したあと、次の行の初めに戻ってそこから
再び左方向に展開して行くといようにしてある１つの処
理対象文書全体を１次元文字列に展開する。

【００５３】そして、このような１次元文字列に展開さ
れた文書上でキーワードの存在した位置を記録して行
く。キーワードは、分類すべき分野や項目別にあらかじ
め用意しておく（これについては後述する）。なお、図
２（ａ），（ｂ）において、図中、楕円Ｆ１で示す部分
にはあるキーワードｋ１が存在し、三角形Ｆ２で示す部
分には他のキーワードｋ２が存在するものとする。この
ように、この場合は、２種類のキーワードｋ１，ｋ２が
存在することになるが、ここではキーワードの種類によ
る区別はせず、あらかじめ決めたキーワードが存在する
か否かだけを見て、キーワードが存在したらその出現位
置を全て記録する。

【００５４】なお、ここでいうキーワードの出現位置と
は、見つかったキーワードの中心を指し、キーワードの
中心位置のみを記録する。たとえば、図２（ｂ）に示す
ような１次元文字列に変換された文書内容の一部が、図
３（ａ）のような文書内容であって、予め決められたキ
ーワードｋ１が「人民政府軍」、キーワードｋ２が「再
登録」（それぞれ、図３（ａ）において下線を施してあ
る）であったとすれば、図３（ｂ）に示すように、キー
ワードｋ１である「人民政府軍」を構成する１つ１つの
文字の列方向の中心となる文字の位置、キーワードｋ２
である「再登録」を構成する１つ１つの文字の列方向の
中心となる文字の位置をそれぞれキーワードの中心位置
として記録する。

【００５５】図３（ｂ）では、１つ１つの丸印（白丸及
び黒丸）が文書内容の１つ１つの文字に対応し、黒丸が
それぞれキーワードｋ１，ｋ２の中心となる文字を示し
ている。つまり、キーワードｋ１である「人民政府軍」
にあっては、「政」がキーワードの中心文字であり、
「再登録」にあっては、「登」がキーワードの中心文字
である。

【００５６】なお、この図３で示すキーワードｋ１，ｋ
２は、キーワードｋ１（人民政府軍）が５文字でキーワ
ードｋ２（再登録）が３文字であり、両者とも文字数が
奇数であるため、その中心の文字が存在するが、キーワ
ードの文字数が偶数であった場合には、それを２で割っ
て得られた値に基づいて中心文字を決定することができ
る。たとえば、６文字であれば、それを２で割って得ら
れた値３を基に、３文字目を中心としてみなしたり、そ
の３に＋１した４文字目を中心としてみなしたりする。
これは、予めどのようにするかを決めておくことで対処
できる。

【００５７】このように、本発明では、キーワード出現
位置はそれぞれのキーワードを構成する文字の中心の文
字またはその中心付近のある１つの文字位置としてい
る。

【００５８】これによって、ある１つのキーワードを構
成する文字数に関係なく、１つのキーワードについてそ
の中心または中心付近の１つの文字に対応した位置をキ
ーワードの出現位置情報として持っていればよいので、
後で述べるキーワード出現密度を求める際、キーワード
を構成する文字数に影響されない正確な出現密度を求め
ることができ、さらに、キーワードを構成する文字全て
についてキーワード位置情報を持つ場合に比べて大幅に
データ量を少なくすることができ、それに伴う計算量も
大幅に少なくすることができる。

【００５９】しかも、本発明では、キーワードを構成す
る文字列の中心または中心付近のある１つの文字をキー
ワード出現位置としているので、たとえ、キーワードが
文字数の多い熟語などであってもその出現位置を正確に
表すことができる。

【００６０】このようにして、それぞれのキーワードの
中心位置が検出されてそれが記録されると、今度は、あ
る位置におけるキーワード出現密度をここでは図４に示
すようなハニング窓関数を用いて求める。

【００６１】今、文書内容の中でキーワード（種類は問
わない）の見つかった位置をａ（ｉ）とする。ただし、
ｉは文字位置（処理対象文書を１次元文字列に展開した
ときの文字位置）を表し、その位置にキーワードがあれ
ばａ（ｉ）＝１、キーワードがなければａ（ｉ）＝０と
する。

【００６２】そして、文書の先頭（ｉ＝０）からスター
トして、順次、各文字位置をハニング窓の中心位置ｌと
し、その中心位置ｌに対するキーワード出現密度ｄ
（ｌ）を求める。文字位置ｉにおける重み関数ｈｌ
（ｉ）、重み付けする範囲（ハニング窓の幅）をＷとす
ると、

【００６３】

【数１】

【００６４】で表される。なお、ハニング関数を示す図
４は横軸に文字位置ｉをとり、縦軸に重みをとったもの
で、この図４の場合は、重み付けをする範囲Ｗは、ハニ
ング窓の中心位置ｌに対し左右両側に１５文字分をとっ
た場合が示されている。

【００６５】このように、処理対象文書を１次元文字列
に展開して、キーワードの出現位置からキーワード出現
密度を求めるのは、前述した第１の文献（黒橋、白木、
長尾：出現密度分布を用いた語の重要説明箇所の特定、
情報処理学会論文誌、Vol.38,No.4，pp.845-854 (199
7)）に述べられており、これは公知の技術である。ただ
し、この第１の文献では、キーワード位置としては、そ
れぞれのキーワードの先頭位置としているが、本発明で
は、それぞれのキーワードの中心位置としている点は異
なる。

【００６６】なお、重み関数ｈｌ（ｉ）としてはここで
はハニング関数を用いたが、これは、中心から周辺にな
だらかに変化する関数ならば色々使える。たとえば、ガ
ウス関数もその１つであるが、ここでは、重み付け範囲
Wでゼロになるハニング窓関数を用いる。ガウス関数は
無限遠方でもゼロにならないため、キーワード近傍の影
響だけ調べるにはハニング窓関数が向いていると考えら
れる。しかし、応用の仕方によって関数を適宜変えるこ
とは可能である。なお、ガウス関数でも重み付け範囲W
以外は強制的にゼロとするような設定を行えば使える。

【００６７】図５は上述した計算方法で文書密度を計算
した例である。この文書はある商品についてのレポート
であるが、その商品の評判に関するキーワードを適切に
設定しておくと、文書中で商品の感想、批評の記述に関
する部分の密度が高くなっていることがわかる。

【００６８】この図５は、処理対象文書が商品について
のレポートであって、このレポートに対し、前述の
（１）式を用いてキーワード出現密度を求めることによ
って得られたキーワード出現密度分布を示すものであ
る。図５において、横軸は処理対象文書の文字位置、縦
軸は上述の（１）式で求められたキーワード出現密度ｄ
（ｌ）を示している。

【００６９】なお、横軸の文字位置は、レポートの文書
を１次元文字列に展開し、その文書の先頭から文書末ま
でを文書の先頭からのバイト数で表している。また、縦
軸のキーワード出現密度は、（１）式で求められたキー
ワード出現密度ｄ（ｌ）であるが、その処理対象文書に
ついて求められたキーワード出現密度の中で最大値を1.
0にした正規化を行って表わされている。このように、
処理対象文書ごとに正規化を行うことで、他の処理対象
文書との比較が容易となる。

【００７０】この図５に示される処理対象文書は、具体
的にはあるメーカのディジタルカメラについての評価を
まとめたレポートであり、設定されたキーワードとして
は、たとえば、「評価」、「性能」、「価格」、「使い
勝手」などであるとし、これらのキーワードは、デザイ
ンについて触れた部分や、画質について触れた部分での
キーワード出現密度が特に高く、その他、パノラマ機能
などについてやメモリなどについて触れた部分において
もキーワード出現密度が比較的高いことがわかる。

【００７１】ところで、上述の密度計算を行う際、重み
付け範囲Wの設定の仕方により密度の出方が変わる。一
般には重み付け範囲Wを広くとると、キーワード出現位
置近傍のキーワード出現密度が求められることになり、
逆に重み付け範囲Ｗを広くとると、広い範囲に存在する
キーワードの影響まで計算されることになる。しかし、
重み付け範囲Wが広すぎると重要箇所が不明瞭になり、
狭すぎると単なるキーワード頻度と変わりなくなるの
で、重み付け範囲の設定の仕方は重要である。

【００７２】そこで、それぞれの処理対象文書ごとに１
つの処理対象文書の文書長により適切な重み付け範囲W
を設定する必要がある。図６は重み付け範囲Ｗの取り方
によって、前述の（１）式により求められるキーワード
出現密度ｄ（ｌ）分布曲線がどのようになるかを示した
ものである。図６において、分布曲線Ｕ１は重み付け範
囲Ｗを４０９６バイト、分布曲線Ｕ２は重み付け範囲Ｗ
を２０４８バイト、分布曲線Ｕ３は重み付け範囲Ｗを１
０２４バイトとして、それぞれ（１）式を用いて求めら
れたキーワード出現密度ｄ（ｌ）の分布曲線を示すもの
である。なお、分布曲線Ｕ３は図５の分布曲線とほぼ同
じである。つまり、図５は重み付け範囲Ｗを１０２４バ
イトとした場合であるといえる。

【００７３】この図６からわかるように、重み付け範囲
Ｗを広くとりすぎると、密度の変化に明確性を欠き（範
囲Ｗを２０４８バイトや４０９６バイトとした場合）、
重要箇所が不明瞭となる。この３つの範囲の中では、重
み付け範囲ｗを１０２４バイトとした場合が最も適切で
あるといえる。この場合、ここで用いられた処理対象文
書の文書長が、1.2×１０の４乗バイトの文書長を有す
る場合であるので、おおよそ、１つの処理対象文書の文
書長の１／１０を目安にするのがよいことがわかる。特
に、技術系の文書においてはその傾向が強いことがわか
った。

【００７４】次に、このようにして求められたキーワー
ド出現密度を用いてシステム上で文書を分類する方法に
ついて説明する。

【００７５】前述した説明では、処理対象文書はプレイ
ンテキストであることを前提にしているが、実際に我々
が扱う文書は色々な形式が存在する。したがって、キー
ワード位置検出を行う場合、文書形式によって検出方法
が異なる。一般に前述したキーワード出現位置というの
は、人間が視覚的に見たレイアウト上の位置である。処
理対象文書が蓄積されている文書ファイルの内容自体に
は、文字自身の情報の他に制御に関する情報も多いの
で、これらを適宜排除した上でないと視覚的に見たレイ
アウトに一致するような位置を見つけることは難しい。
たとえば、HTML文書では表示に使うタグが多数あるの
で、このタグは読み飛ばして文字の位置を計算する必要
がある。

【００７６】すなわち、本発明を実施するには、文書を
制御記号などの存在しない文字だけの一次元文字列に変
換して行うが、たとえば、文書中に様々な制御記号など
が入った文書にあっては、それらの制御記号を省いて文
字だけで１次元文字列を構成する必要がある。

【００７７】したがって、処理対象文書を文字だけによ
る１次元文字列に展開し、キーワード位置検出を行う処
理は、処理対象文書ごとに、その文書がどのような形式
の文書であるかを判定し、その判定結果に基づいて、処
理対象文書の文書形式ごとにアルゴリズムを設定して行
う必要がある。しかし、これを実際に行うのは処理負担
が大きく実用的ではない。

【００７８】したがって、ここでは、どのような文書で
も全て一旦プレインテキストに変換し、その上でキーワ
ード出現位置の検出を行ってキーワード出現密度計算を
行う方法をとる。この方法をとれば、文書形式ごとにキ
ーワード位置検出アルゴリズムを開発する必要がない。
また、プレインテキスト変換は殆どの文書作成ソフトで
備えられている機能であるので、システムに組み込むこ
とが容易である。

【００７９】また、全ての文書形式をプレインテキスト
に変換してキーワード位置検出を行う場合は、キーワー
ド位置検出は、単純なキーワードマッチングで可能とな
る。しかし、プレインテキストに変換せず、各文書形式
ごとにキーワード位置を見る場合は、それぞれの文書形
式ごとに、キーワード位置検出アルゴリズムが必要とな
る。具体的には、タグや特殊記号、ヘッダなどの知識
と、それらがどのような場合は何文字飛ばすなどの指示
が必要である。

【００８０】次にこれまで説明した方法により、多数の
文書について図５に示すようなキーワード出現密度分布
が求められたとして、それぞれの文書の中から最も適当
と思われる文書を抽出する処理（文書分類処理）につい
て説明する。

【００８１】この文書分類の仕方としては、まず、図５
に示すように求められたキーワード出現密度の総和を求
めて（積分する）、その中から最も大きい値の文書を出
力したり、あるいは、値の高い順から幾つかの文書を出
力する方法が考えられる。

【００８２】これとは別の方法としてエントロピを計算
して分類する方法もある。この方法は、上述の総和だけ
では判定が微妙となるような場合に有効なものとなる。

【００８３】たとえば、図１に示すような３つの文書Ａ
〜Ｃについて考えると、この３つの文書Ａ〜Ｃは、キー
ワード（×印）の数はどれも１０個で同じであり、ま
た、その密度を積分した値もほぼ同じであるとする。し
かし、これらの文書のキーワード分布はそれぞれ大きく
異なっている。つまり、文書Ａはページのある一部に詳
しい情報がまとまって記載されており、文書Ｂはページ
全体に関連する記事があるが、その内容は薄いと思われ
る。また、文書Ｃは文書Ａと文書Ｂの中間程度の詳しい
情報が２箇所あるというように、それぞれの文書の分布
形態は異なる。

【００８４】これらの点から、抽出されるべき文書が、
文書Ａあるいは文書Ｃであることが望ましいとして、こ
れら文書Ａあるいは文書Ｃを選択するような処理がなさ
れるような処理を行う。これを、キーワード出現密度以
外の値（キーワードのヒット数やキーワードが存在した
場所の数など）で総合的に判定するのは容易ではない。
つまり、キーワード出現密度以外の値で総合的に判定し
ようとすると、判定の条件分岐が複雑になり、微妙な判
定が難しくなる。そこで、エントロピを使う。求めるべ
きエントロピをＥとすると、

【００８５】

【数２】

【００８６】で表される。

【００８７】エントロピＥはそれぞれの処理対象文書に
おけるキーワード出現密度ｄ（ｌ）の分布が平坦である
と小さく、先鋭な部分が多い分布では大きくなる傾向を
もっている。したがって、それぞれの処理対象文書ごと
のキーワード出現密度全体の状況を一意に表現する尺度
として有用だと考えられ、図１に示すようなキーワード
出現密度の総和が似ている場合の微妙な判定に役立つ。

【００８８】図７は処理対象文書として９０個の雑誌
（ある商品の評判が書かれている）の内容を主観評価で
３段階に分類した結果と、文書密度のエントロピＥの相
関をとったグラフである。ここで、主観評価で３段階の
分類というのは、たとえば、Ｈ３は商品の評判について
非常によく書かれている文書群、Ｈ２は商品の評判につ
いて比較的よく書かれている文書群、Ｈ１は商品の評判
について一応書かれている文書群というように、ここで
は主観的な評価を３つの段階Ｈ１，Ｈ２，Ｈ３に分け
て、９０個の雑誌をそれぞれの段階に分類している。

【００８９】このように粗い分類をしたのち、それぞれ
の処理対象文書（それぞれの雑誌）についてエントロピ
を計算する。エントロピは先鋭な部分の多いキーワード
出現密度分布ほど大きな値となるので、エントロピの値
の大きいものほどその内容についてよく書かれているも
のであるといえる。

【００９０】上述したような３つの段階Ｈ１，Ｈ２，Ｈ
３の分類は、かなり粗い分類であるが、それぞれの分類
の中で、内容が濃くなるほどエントロピの値も高いもの
となるので、エントロピを指標にして文書内容の程度を
定量的に評価できる。なお、図７において、それぞれの
文書に対して求められたエントロピを１つ１つの四角形
で表している（たとえば、段階Ｈ１の文書群について
は、求められたエントロピをＥ１１，Ｅ１２，・・・，
Ｅ１ｎで表し、Ｈ２の文書群については、求められた
エントロピをＥ２１．Ｅ２２，・・・，Ｅ２ｎで表し、
Ｈ３の文書群については、求められたエントロピをＥ
３１，Ｅ３２，・・・，Ｅ３ｎで表している）が、それ
ぞれの文書群において求められたエントロピは似た値に
なる場合もあり、その場合は、エントロピの値を示す四
角形が重なるので、四角形は９０個全ては図示されては
いない。

【００９１】このようにして幾つかの文書がユーザの所
望とする文書候補として抽出されるが、これら抽出され
た複数の文書が一定以上存在する場合は、有用度の高い
順から並べて表示する。このような表示を行う際、有用
度の高い順から並べただけでは内容が解りにくいので、
その他の情報も合わせて表示することが好ましい。

【００９２】図８はその表示例を示すものである。図８
（ａ）において、＃１，＃２，＃３，・・・は有用度の
高い順番を示すもので、その順番に対するそれぞれの文
書の重要度ｚ１としてキーワード出現密度、求められた
エントロピ、キーワードヒット数なども表示する。さら
に、文書の概要（見出しや文書の冒頭部分を抽出）ｚ
２、その文書の重要部分（これについては後述する）ｚ
３などの併せて表示する。さらに、図８（ｂ）に示すよ
うに、それぞれの文書ごとに文書全文の特にキーワード
出現密度の高い部分を色やブリンクでの表示を可能とす
る。すなわち、それぞれの文書対応にアイコンのような
マークＭ１，Ｍ２，Ｍ３などを付して、たとえば、マー
クＭ１をクリックすると、＃１の文書全体を表示し、か
つ、その文書の中で特に密度の高い部分ｚ０を他の部分
とは異なった色やブリンクで表示する。

【００９３】本発明は複数の文書を分類することが主な
目的としているが、分類した文書のどのが重要だったか
示すことは、その文書が選ばれた理由を知ったり、分類
された文書の概要を把握する上で有用である。以下にそ
の有用部分の切り出しについて説明する。

【００９４】まず、文書の有用部分を特定する方法を述
べる。基本的には図１のように、局所的にキーワード出
現密度の高い部分（山の部分）を有用部分とし、あるし
きい値を設定して、そのしきい値以上の密度を有する部
分を有用部分として抽出することができる。

【００９５】なお、これまでの説明では、文書分類を主
としているので、キーワード出現密度は文書の全ての文
字位置について計算をするが、有用部分切り出しを主と
し、それとともに文書分類も行いたいというような場合
は、キーワードが出現した位置のみのキーワード出現密
度から文書全体の様子を推定することも可能である。

【００９６】図９はキーワード出現位置のみについて、
キーワード出現密度と全ての文字位置について計算した
例を比較して示すもので、図５で説明した文書と同じ文
書を用いた場合である。この図９からもわかるように、
キーワード出現位置のみにおけるキーワード出現密度の
ピークｐ１，ｐ２，ｐ３，・・・を包絡線でつないで得
られたキーワード出現密度分布曲線Ｌは、文書の全ての
文字位置についてのキーワード出現密度分布曲線（図５
参照）とほぼ同じになる。

【００９７】このように、キーワード出現位置のみにつ
いてキーワード出現密度を求める方法は、計算時間が速
いので、多少精度が悪くても、速くおおよその判定をし
たい場合などに有効である。

【００９８】次に有用部分の表示方法について述べる。
抽出するかしないかの基準は上述したように、適当なし
きい値以上のキーワード出現密度部分を単純に切り出せ
ばよいが、そのまま単純に切り出すと、不具合が生じ、
それに対処する必要がある。

【００９９】これを示したものが図１０である。図１０
（ａ）で示すような元文書（その一部のみが図示されて
いる）が存在したとし、アンダーライン部分が、あるし
きい値以上のキーワード出現密度を有する有用部分とし
て抽出された区間であるとする。

【０１００】しかし、この抽出された区間の内容は、こ
の場合、「い表示を後処理と」であり、これでは、何が
書かれているのか意味がわからないことになる。そこ
で、図１０（ｂ）に示すような形態素解析を行い、語句
の切れ目が自然なものとなる境界を有用部分として抽出
する。つまり、この場合は、形態素解析結果は、「無
理」・「が」・「ない」・「表示」・「を」・「後処
理」・「として」・「行う」・「こと」であり、このよ
うな形態素解析結果において、「表示」・「を」・「後
処理」・「として」を抽出し、図１１（ｃ）に示すよう
に、「表示を後処理として」という内容を抽出する。

【０１０１】この例では、有用部分の先頭に助詞（上述
の例では「い」）が単独で出現する場合はそれを無視
し、語尾の一部（上述の例では「と」）が存在している
ときは語尾として意味をなすような処理を行い、有用部
分が意味のある文章になるようにしている。このよう
に、形態素解析を行ってその結果に基づき、有用部分と
して抽出された部分の文が不自然なものとならないよう
にすることができる。

【０１０２】以上は文書が文字だけのテキストの場合に
ついて述べたが、実際にはHTML文書などのレイアウトや
画像などの複数の要素が組み合わされた文書の場合、密
度の高い場所だけ抽出して表示を行うと不自然なものと
なる。このような場合、次のような方法をとることで、
抽出した有用部分を自然な内容として表示できる。

【０１０３】すなわち、一般文書からテキスト文書に変
換する際に、テキスト文書のどの文字はテキスト変換前
の元の文書のどの位置かを記録しておく。そして、テキ
スト文書状態で有用部分を決定し、その有用部分の文字
の位置に相当する元の文書の位置を特定する。そして、
特定した元文書の位置を中心にレイアウトが不自然でな
い区切りを判定する。たとえば、その領域を含む最低の
かたまり（段落や章）で区切る。ただし、有用部分の中
に段落が存在しているような場合、その段落部分で区切
ると不自然となるので、前後の段落を含めた少し広い範
囲で区切るようにしたり、あるいは、有用部分の中に異
なった章が存在しているような場合、その章の変わるで
区切ると不自然となるので、前後の章を含めた少し広い
範囲で区切るようにしたりする。

【０１０４】このように、文書密度計算のためのテキス
ト変換を行った際に、元文書とテキスト文書の位置の対
応づけを行っておけば、レイアウトに無理がない表示を
後処理として行うことが可能である。

【０１０５】次に本発明を実現する際のシステム構成を
説明する。図１１は、本発明を実現するためのシステム
構成図を示すもので、検索要求入力部１、知識データベ
ース部２、キーワード群決定部３、検索対象文書データ
ベース部４、文書タイプ判定部５、テキスト変換部６、
キーワード出現密度計算部７、有用文書判定部８、表示
部９、有用部分抽出部１０、表示レイアウト生成部１１
などから構成されている。なお、知識データベース部２
とキーワード群決定部３によってキーワード群設定部２
０が構成され、表示部９、有用部分抽出部１０、表示レ
イアウト生成部１１によって文書出力部３０が構成され
る。

【０１０６】検索要求入力部１は、ユーザが何らかの情
報を収集しようとしたとき、ユーザの知りたい内容につ
いて入力可能となっており、これは、自然言語で入力す
るようにしてもよく、あるいは、予め多数の項目を用意
しておき、ユーザがその中から所定の項目を指示するよ
うにしてもよい。

【０１０７】知識データベース部２は、ユーザの入力し
た検索要求内容に基づいてその内容に対してはどのよう
な用語（単語など）がキーワードとして適切であるかを
判断して、ユーザの検索入力内容に対する適切な用語を
複数個選択し、ここで選択された複数の用語はキーワー
ド群決定部３によって、キーワード群として決定され
る。ここで設定されるキーワードは、ユーザの入力した
検索内容によっては、数十あるいは１００個以上という
こともある。

【０１０８】ところで、ユーザの検索要求に対しそれに
適合したキーワードを決定する処理は次のようにして行
われる。

【０１０９】たとえば、検索要求入力部１から、ユーザ
がある製品について知りたい旨を入力すると、知識デー
タベース部２では、そのユーザの入力に対して、「性
能」、「価格」、「評価」、「使い勝手」などその製品
を表す上で必要な用語を選び、これらが、キーワードと
して決定される。つまり、ユーザ検索要求に対して有用
な文書を抽出する際文書の分類が必要となるが、このと
き、分類したい分野によって、その分野に関する一般的
な知識や連想される用語をキーワードとする。また、連
想される用語の類似語や類義語も利用できる。これらは
個人の直感または辞書、国語辞典などの事例などから予
め作成して知識データベース部２に持たせることができ
る。また、分類したい分野に該当する文書を複数収集し
て、これら収集された文書に数多く目にする用語を探し
出し、その頻度が高いものをキーワードとする方法も可
能である。

【０１１０】さらに、１つのキーワードについてそのキ
ーワードに対する類義語や類似語などの関連語も適宜組
み合わせて使用したり、そのキーワードに一緒に使われ
る形容詞、副詞、感嘆詞などを含んだ表現とすること
で、検索精度がより一層向上する。たとえば、前者の場
合、キーワードが「評価」であれば、その類義語や関連
後「批判」、「評判」、「好評」などというように「評
価」から連想される類義語や類似語を適宜組み合わせて
用いる。また、後者の場合は、キーワードが「評価」で
あれば、「素晴らしい」、「品質のよい」、「非常に」
などを適宜組み合わせて用いる。

【０１１１】文書タイプ判定部５は、検索対象文書デー
タベース部４に存在する文書がどのような形式で書かれ
た文書であるかを判定するものである。また、テキスト
変換部６は、文書タイプ判定部５による判定結果に基づ
いて、その文書をテキスト文書に変換する。なお、検索
対象文書データベース４は、たとえば、インターネット
上のサーバ側に存在するデータベースを考えているが、
これに限らず、ユーザ個人のパーソナルコンピュータな
どの情報処理機器に保存されている文書であってもよ
い。

【０１１２】キーワード出現密度計算部７は、キーワー
ド群決定部３で決定された複数のキーワードに基づき、
テキスト変換された文書に対し前述したような方法でキ
ーワード出現密度を計算する。このキーワード出現密度
計算については、すでに詳細に説明したので、ここでは
その説明は省略する。

【０１１３】このキーワード出現密度計算部４によって
それぞれの文書について、キーワード出現密度が計算さ
れると、有用文書判定部８は、それぞれの文書ごとに、
たとえば図５に示すようなキーワード出現密度分布を作
成して、その結果に基づいて、有用度（ユーザの所望と
する文書としての有用度）を判定し、その判定結果を用
いて表示すべき文書を決定する。なお、重要度の判定
は、前述したように、たとえば、図５に示すようなグラ
フを積分してその結果よって判定する。

【０１１４】一方、有用部分抽出部１０は、キーワード
出現密度計算部４によって計算されたそれぞれの文書ご
とに計算されたキーワード出現文書密度を用いて、前述
したような方法により有用部分の抽出を行う。そして表
示レイアウト生成部１１によって、図８に示すような表
示レイアウトを生成し、それを表示部９で表示する。そ
の表示結果の一例が図８である。

【０１１５】以上のような手順によって、ユーザの検索
要求に対し、それに適合した幾つかの文書が表示される
ことになる。

【０１１６】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、前
述の実施の形態では、表示部９での表示例は図８のよう
な表示の仕方であるが、この表示の仕方は種々設定可能
である。

【０１１７】また、以上説明した本発明の文書分類処理
を行う処理プログラムは、フロッピィディスク、光ディ
スク、ハードディスクなどの記録媒体に記録させておく
ことができ、本発明はその記録媒体をも含むものであ
る。また、ネットワークから処理プログラムを得るよう
にしてもよい。

【０１１８】

【発明の効果】本発明によれば、処理対象文書ごとに、
設定されたキーワードが当該処理対象文書内にどのよう
な密度で存在するか（キーワード出現密度）を判断し、
このキーワード出現密度に基づいてユーザの検索要求に
対する文書の有用度について判定するようにしているの
で、膨大な文書の中からユーザの所望とする文書を取り
出す際の前処理としての文書分類を、精度よく効率的
に、しかも、少ない計算量で可能となる。

【０１１９】このように、計算量を少なくできる１つの
例として、本発明では、キーワード出現位置はそれぞれ
のキーワードを構成する文字の中心の文字またはその中
心付近のある１つの文字としていることが挙げられる。
すなわち、ある１つのキーワードを構成する文字数に関
係なく、キーワード出現位置を示すデータは、１つのキ
ーワードについて中心またはその付近の１つの文字に対
応した位置のデータのみを持っていればよいので、キー
ワードを構成する文字全てについてキーワード出現位置
を示すデータを持つ場合に比べて大幅にデータ量を少な
くすることができ、またそれに伴う計算量も大幅に少な
くすることができる。

【０１２０】また、本発明では、処理対象文書を構成す
る全ての文字位置についてキーワード出現密度を計算す
ることによって、より高精度なキーワード出現密度分布
を得ることも可能であるが、それぞれの処理対象文書内
の前記キーワードの出現位置についてのみキーワード出
現密度を計算することも可能であり、これによれば、多
少おおまかなキーワード出現密度分布となるが、計算量
が少なく高速な処理が可能となる。

【０１２１】また、処理対象文書をテキスト変換した後
にキーワード出現密度計算を行うことで、どのような形
式の文書に対してもキーワード出現密度計算以降の処理
を共通化することができる。しかも、テキスト変換を行
う際、テキスト変換前の元文書とテキスト変換後の文書
との位置の対応付けを行って、その対応付けした内容を
保存しておくことで、有用部分を表示する場合、無理の
ない自然なレイアウトでの表示が行える。

【０１２２】また、それぞれの処理対象文書が有用であ
るか否かの判定は、算出されたキーワード出現密度の総
和を求めて、その総和の値によって判断することがで
き、このように、キーワード出現密度の総和によって有
用度を判断する方法は、それぞれの文書ごとにキーワー
ド出現密度の総和を求めるだけでよいので、少ない計算
量で容易に有用度の判定を行うことができる。

【０１２３】また、それぞれの処理対象文書が有用であ
るか否かの判定を行う際、それぞれの処理対象文書にお
いて求められたキーワード出現密度のエントロピを計算
してそのエントロピから判断することもできる。これに
よれば、キーワード出現密度の総和だけでは、判定が微
妙となるような場合でも、高精度な有用度の判定が行え
る。

【０１２４】また、分類された結果の出力は、分類を行
うために求められた有用度の高い文書から順番に出力
し、その出力内容は、有用度やどの部分が有用であるか
を示す有用部分さらにそれぞれの文書の要約など（全て
でなくともよい）を表示可能とするので、ユーザは、出
力された文書内容を即座に把握することができる。

【０１２５】そして、有用部分を表示する場合、有用部
分としては、キーワード出現密度の特に高い部分の区間
を設定しその区間を有用部分として抽出し、少なくとも
その抽出された区間を含む所定範囲を形態素解析して、
その形態素解析結果を用いて意味のある内容として抽出
するようにしたので、有用部分を１つのまとまった内容
の文として出力することができる。

【０１２６】また、上述の出力内容についてさらに詳細
な内容を出力可能としておき、その詳細な文書内容にお
いて、重要部分は色を変えたりブリンクさせるようにす
ることによって、ユーザは自分の知りたい情報を一目で
見ることができる。

【０１２７】また、ユーザの検索要求入力によって、シ
ステム側がその検索要求に基づいて適正な用語をキーワ
ードとして選択するようにしているので、ユーザ自身が
キーワードの設定を行う必要がない。したがって、ユー
ザは何を知りたいかを検索要求として入力するだけでよ
いので、ユーザの行う入力操作をきわめて簡単なものと
することができる。また、キーワードとして設定された
用語に関連する類義語や類似語さらにはキーワードに付
加される形容詞、副詞、感嘆詞などをもキーワードとす
ることができるので、これによって、より一層、検索精
度が向上し、ユーザの所望とする情報を適切に取り出す
ことができるようになる。

【０１２８】このように、本発明は、計算量が少なく高
精度な文書分類が可能となりる。しかも、どこがどの程
度有用なのかを適切に表示することができる。また、本
発明を適用すれば、作成した文書にキーワードやインデ
ックスをつけて分類できるように準備しておく必要がな
く、作成された文書に対し後に行われる分類処理につい
て何等意識する必要がない。つまり、どのような文書で
あっても、キーワードさえ設定されれば適切な分類がな
される。

【図面の簡単な説明】

【図１】本発明の実施の形態を説明するためにキーワー
ド出現密度の概念を説明する図である。

【図２】処理対象文書を１次元文字列に展開してキーワ
ード出現位置を求める例を説明する図である。

【図３】個々のキーワードの出現位置を決定する処理を
説明する図である。

【図４】ハニング窓関数の一例を示す図である。

【図５】処理対象文書の１次元文字列上におけるキーワ
ード出現密度分布を示す図である。

【図６】キーワード出現密度を計算する際にハニング窓
の幅（重み付け範囲）を変えて計算して得られたキーワ
ード出現密度分布を示す図である。

【図７】複数の処理対象文書を３段階の文書群に分けて
それぞれの文書ごとに得られたキーワード出現密度から
エントロピを求めてそのエントロピの分布を示す図であ
る。

【図８】本発明の実施の形態の表示例を示す図であり、
（ａ）は有用度の大きい順に必要な表示項目を併せて表
示する表示例を示す図、（ｂ）はその中から指定された
文書内容を表示する例を示す図である。

【図９】キーワード出現位置のみでキーワード出現密度
を計算した場合の１次元文字列上におけるキーワード出
現密度分布を示す図である。

【図１０】有用部分の抽出処理法法を説明する図であ
る。

【図１１】本発明の実施の形態のシステム構成を示す図
である。

【符号の説明】

１検索要求入力部２知識データベース部３キーワード群決定部４検索対象文書データベース部５文書タイプ検出部６テキスト変換部７キーワード出現密度計算部８有用文書判定部９表示部１０有用部分抽出部１１表示レイアウト生成部２０キーワード設定部３０文書出力部

Claims

【特許請求の範囲】

【請求項１】ユーザの検索要求に基づいて多数の文書
群の文書を分類して、その分類結果を出力する文書分類
方法において、処理対象文書を１次元文字列に展開して、前記ユーザの
検索要求に基づくキーワードの出現位置を前記１次元文
字列上において特定するとともに、その１次元文字列上
で所定の範囲を重み付け範囲として設定し、その重み付
け範囲の中心位置付近におけるキーワードの出現に対し
ては重みを重くし、中心から離れるに従って重みを軽く
するような重み付け関数を用いて前記設定された重み付
け範囲の中心文字位置に対するキーワード出現密度を前
記中心文字位置をずらしながら順次算出することによっ
て、前記１次元文字列上におけるキーワード出現密度分
布を得て、このキーワード出現密度分布から前記ユーザ
の検索要求に対する当該処理対象文書の有用度を求め、
その有用度によって複数の処理対象文書の分類を行うこ
とを特徴とする文書分類方法。
【請求項２】前記重み付け関数は、ハニング窓関数ま
たはガウス関数であり、ガウス関数を用いる場合は、前
記設定された重み付け範囲から外側は前記重みの値をゼ
ロにすることを特徴とする請求項１記載の文書分類方
法。
【請求項３】前記キーワードの出現位置は、検出され
たキーワードを構成する文字列の中心の文字位置とし、
キーワードを構成する文字数が偶数文字である場合は、
その文字数を２で割って得られた値に位置する文字また
はその次に位置する文字とすることを特徴とする請求項
１または２記載の文書分類方法。
【請求項４】前記１次元文字列上におけるキーワード
出現密度分布は、それぞれの処理対象文書ごとに得られ
たキーワード出現密度の最大値を1.0とした正規化を行
ってそれぞれの処理対象文書ごとに求めることを特徴と
する請求項１から３のいずれか１項に記載の文書分類方
法。
【請求項５】前記キーワード出現密度計算を行う際の
前記重み付け範囲は、それぞれの処理対象文書ごとにそ
れぞれの処理対象文書長の1/10程度を目安に設定するこ
とを特徴とする請求項１から４のいずれか１項に記載の
文書分類方法。
【請求項６】前記キーワード出現密度は、それぞれの
処理対象文書ごとにそれぞれの処理対象文書を構成する
全ての文字位置について計算することを特徴とする請求
項１から５のいずれか１項に記載の文書分類方法。
【請求項７】前記キーワード出現密度は、それぞれの
処理対象文書ごとにそれぞれの処理対象文書内の前記キ
ーワードの出現位置について計算し、かつ、計算された
キーワード出現密度のピーク値を包絡線でつないで、当
該処理対象文書を構成する全ての文字位置についてキー
ワード出現密度を計算した場合のキーワード出現密度分
布を推定することを特徴とする請求項１から５のいずれ
か１項に記載の文書分類方法。
【請求項８】前記キーワード出現密度計算は、それぞ
れの処理対象文書ごとにそれぞれの処理対象文書をテキ
スト変換した後に行い、テキスト変換前の元文書とテキ
スト変換後の文書との位置の対応付けを行って、その対
応付け内容を保存しておくことを特徴とする請求項１か
ら７のいずれか１項に記載の文書分類方法。
【請求項９】前記処理対象文書ごとに得られた前記ユ
ーザ検索要求に対する有用度は、当該処理対象文書にお
いて算出されたキーワード出現密度の総和を求めること
によって得ることを特徴とする請求項１から８のいずれ
か１項に記載の文書分類方法。
【請求項１０】前記処理対象文書ごとに得られた前記
ユーザ検索要求に対する有用度は、当該処理対象文書に
おいて算出されたキーワード出現密度に基づき、そのエ
ントロピを計算して求めることを特徴とする請求項１か
ら８のいずれか１項に記載の文書分類方法。
【請求項１１】分類された結果を出力する際、出力さ
れる文書が複数存在する場合、分類を行うために求めら
れた有用度の高い方から順番に出力し、その出力内容
は、それぞれの文書におけるユーザの検索要求に対する
有用度、それぞれの文書におけるユーザの検索要求に対
する有用部分、それぞれの文書の要約を表す部分の少な
くとも１つを表示することを特徴とする請求項１から１
０のいずれか１項に記載の文書分類方法。
【請求項１２】前記有用部分は、キーワード出現密度
の特に高い部分の区間を設定しその区間を抽出すること
で有用部分として抽出し、少なくともその抽出された区
間を含む所定範囲を形態素解析して、その形態素解析結
果を用いて意味のある内容として抽出することを特徴と
する請求項１１に記載の文書分類方法。
【請求項１３】前記出力内容に対する詳細な文書内容
を当該出力内容にリンクして設け、所定部分がユーザに
よって指示されることにより、前記詳細な文書内容を出
力可能とし、その詳細な文書内容において、キーワード
出現密度の特に高い部分については、その部分の表示の
仕方を他の部分と異ならせることを特徴とする請求項１
１または１２に記載の文書分類方法。
【請求項１４】前記キーワードの設定は、ユーザの検
索要求入力によって、システム側がその検索要求に基づ
いて適正な用語を選択することによって行われ、当該選
択された用語に関連する類義語や類似語さらには前記選
択された用語に付加される形容詞、副詞、感嘆詞をもキ
ーワードとして設定可能とすることを特徴とする請求項
１から１３のいずれか１項に記載の文書分類方法。
【請求項１５】ユーザの検索要求に基づいて多数の文
書群の文書を分類して、その分類結果を出力する文書分
類装置において、処理対象文書をそれぞれの処理対象文書ごとに１次元文
字列に展開して、前記ユーザの検索要求に基づくキーワ
ードの出現位置を前記１次元文字列上において特定する
とともに、その１次元文字列上で所定の範囲を重みけ範
囲として設定し、その重み付け範囲の中心文字位置付近
におけるキーワードの出現に対しては重みを重くし中心
から離れるに従って重みを軽くするような重み付け関数
を用いて前記設定された重み付け範囲の中心文字位置に
対するキーワード出現密度を前記中心文字位置をずらし
ながら順次算出するキーワード出現密度計算手段と、このキーワード密度計算手段によって求められたキーワ
ード出現密度に基づいて前記処理対象文書の前記１次元
文字列上におけるキーワード出現密度分布を得て、この
キーワード出現密度分布から前記ユーザ検索要求に対す
る当該文書の有用度を求める有用文書判定手段と、を含むことを特徴とする文書分類装置。
【請求項１６】前記重み付け関数は、ハニング窓関数
またはガウス関数であり、ガウス関数を用いる場合は、
前記設定された重み付け範囲からり外側は前記重みの値
をゼロにすることを特徴とする請求項１５に記載の文書
分類装置。
【請求項１７】前記キーワードの出現位置は、検出さ
れたキーワードを構成する文字列の中心の文字位置と
し、キーワードを構成する文字数が偶数文字である場合
は、その文字数を２で割って得られた値に位置する文字
またはその次に位置する文字とすることを特徴とする請
求項１５または１６に記載の文書分類装置。
【請求項１８】前記１次元文字列上におけるキーワー
ド出現密度分布は、それぞれの処理対象文書ごとに得ら
れたキーワード出現密度の最大値を1.0とした正規化を
行ってそれぞれの処理対象文書ごとに求めることを特徴
とする請求項１５から１７のいずれか１項に記載の文書
分類装置。
【請求項１９】前記キーワード出現密度計算を行う際
の前記重み付け範囲は、それぞれの処理対象文書ごとに
それぞれの処理対象文書長の1/10程度を目安に設定する
ことを特徴とする請求項１５から１８のいずれか１項に
記載の文書分類装置。
【請求項２０】前記キーワード出現密度は、それぞれ
の処理対象文書ごとにそれぞれの処理対象文書を構成す
る全ての文字位置について計算することを特徴とする請
求項１５から１９のいずれか１項に記載の文書分類装
置。
【請求項２１】前記キーワード出現密度は、それぞれ
の処理対象文書ごとにそれぞれの処理対象文書内の前記
キーワードの出現位置について計算し、かつ、計算され
たキーワード出現密度のピーク値を包絡線でつないで、
当該処理対象文書を構成する全ての文字位置についてキ
ーワード出現密度を計算した場合のキーワード出現密度
分布を推定することを特徴とする請求項１５から１９の
いずれか１項に記載の文書分類装置。
【請求項２２】前記キーワード出現密度計算手段の前
段に、前記処理対象文書をテキスト文書に変換するテキ
スト変換手段を設け、前記処理対象文書をテキスト変換
する際、テキスト変換前の元文書とテキスト変換後の文
書との位置の対応付けを行って、その対応付け内容を保
存しておくことを特徴とする請求項１５から２１のいず
れか１項に記載の文書分類装置。
【請求項２３】前記処理対象文書ごとに得られた前記
ユーザ検索要求に対する有用度は、当該処理対象文書に
おいて算出されたキーワード出現密度の総和を求めるこ
とによって得ることを特徴とする請求項１５から２２の
いずれか１項に記載の文書分類装置。
【請求項２４】前記処理対象文書ごとに得られた前記
ユーザ検索要求に対する有用度は、当該処理対象文書に
おいて算出されたキーワード出現密度に基づき、そのエ
ントロピを計算して求めることを特徴とする請求項１５
から２２のいずれか１項に記載の文書分類装置。
【請求項２５】前記キーワード出現密度計算手段の前
段に、ユーザの検索要求を受け付ける検索要求入力手段
と、この検索要求入力手段に入力されたユーザの検索要
求に対してどの用語をキーワードとして選択するかの知
識データベースを有し、当該選択された用語に関連する
類義語や類似語さらには前記選択された用語に付加され
る形容詞、副詞、感嘆詞をもキーワードとして設定可能
とするキーワード設定手段とを設けたことを特徴とする
請求項１５から２２のいずれか１項に記載の文書分類装
置。
【請求項２６】出力すべき文書の表示レイアウトを生
成して文書を出力する文書出力手段を設け、出力される
内容は、それぞれの文書におけるユーザの検索要求に対
する有用度、それぞれの文書におけるユーザの検索要求
に対する有用部分、それぞれの文書の要約を表す部分の
少なくとも１つであり、これらを出力する文書対応に所
定の表示レイアウト設定を行って出力することを特徴と
する請求項１５から２５のいずれか１項に記載の文書分
類装置。
【請求項２７】前記有用部分を抽出する有用部分抽出
手段を設け、この有用部分抽出手段は、キーワード出現
密度の特に高い部分の区間を設定しその区間を抽出する
ことで有用部分として抽出し、少なくともその抽出され
た区間を含む所定範囲を形態素解析して、その形態素解
析結果を用いて意味のある内容として抽出することを特
徴とする請求項２６に記載のの文書分類装置。
【請求項２８】前記出力内容に対する詳細な文書内容
を当該出力内容にリンクして設け、所定部分がユーザに
よって指示されることにより、前記詳細な文書内容を出
力可能とし、その詳細な文書内容において、キーワード
出現密度の特に高い部分については、その部分の表示の
仕方を他の部分と異ならせることを特徴とする請求項２
６または２７に記載の文書分類装置。
【請求項２９】ユーザの検索要求に基づいて多数の文
書群の文書を分類して、その分類結果を出力する文書分
類処理プログラムを記録した記録媒体であって、その文
書分類処理プログラムは、複数の処理対象文書をそれぞれの処理対象文書ごとに１
次元文字列に展開する手順と、前記ユーザの検索要求に基づくキーワードの出現位置を
前記１次元文字列上において特定するとともに、その１
次元文字列上で所定の範囲を重み付け範囲として設定
し、その重み付け範囲の中心文字位置付近におけるキー
ワードの出現に対しては重みを重くし中心から離れるに
従って重みを軽くするような重み付け関数を用いて前記
設定された重み付け範囲の中心文字位置に対するキーワ
ード出現密度を前記中心文字位置をずらしながら順次算
出する手順と、これによって求められたキーワード出現密度に基づいて
前記処理対象文書の前記１次元文字列上におけるキーワ
ード出現密度分布を得て、このキーワード出現密度分布
から前記ユーザ検索要求に対する当該文書の有用度を求
める手順と、を含むことを特徴とする文書分類処理プログラムを記録
した記録媒体。