JP2000112949A

JP2000112949A - 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体

Info

Publication number: JP2000112949A
Application number: JP10276313A
Authority: JP
Inventors: Hiroto Fukushima; 裕人福島; Hiroshi Katsurabayashi; 浩桂林
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1998-09-30
Filing date: 1998-09-30
Publication date: 2000-04-21
Anticipated expiration: 2018-09-30
Also published as: JP3921837B2

Abstract

(57)【要約】【課題】取捨選択の指針として利用できる内容を含め
た情報を提示できるようにする。【解決手段】情報分割手段１は、情報群内の各情報４
を評価単位４ａに分割する。評価基準数値化手段２は、
各評価単位４ａに含まれる語彙に基づいてキーワード群
を生成し、評価単位毎のキーワード群を解析することで
情報群全体の内容における各評価単位の記述内容の特徴
を評価ベクトル４ｂとして数値化する。類似情報分類手
段３は、評価単位同士の特徴を比較することで評価単位
間の類似度を求め、各情報中及び情報間の各評価単位の
類似度に基づいて複数の情報間の類似度を算出し、互い
に類似する情報同士の集合に分類する。分類された情報
を評価単位の類似性と共に提示することで、ユーザによ
る情報の取捨選択の手間を軽減することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は収集した情報を分類
するための情報判別支援装置及び情報判別支援プログラ
ムを記録した記録媒体に関し、特に収集した情報を取捨
選択する行為を支援するための情報判別支援装置及び情
報判別支援プログラムを記録した記録媒体に関する。

【０００２】

【従来の技術】近年、インターネットなどのコンピュー
タネットワークの普及と様々な情報データベースサービ
スにより、情報検索サービスや電子メール、電子新聞、
ネットニュースなどから、多種多様の電子化された情報
を得ることが可能になっている。このため、各種情報サ
ービスから類似した情報、もしくは関連のない情報を含
めて多量の情報が届けられ、各情報の判読に忙殺される
という事態が発生しつつある。このような状況下におい
て、氾濫する情報から各個人に有用な情報のみを選択、
分類、もしくはフィルタリングして、情報の判読にかか
る負荷を軽減させる技術が存在する。

【０００３】このような情報の取捨選択を支援するため
の従来技術としては、例えば、特開平５−２６６０８７
号公報の「全文検索装置」がある。この全文検索装置で
は、検索対象となるテキストを、評価単位と評価単位の
集まった抽出単位とに分け、評価単位をユーザが入力し
たキーワードの出現率で評価する。そして、各評価単位
のキーワードの出現率から抽出単位の評価を行う。これ
により、例えば、キーワードの出現率の高い文章が集ま
っている段落を選択してユーザに提示することで、ユー
ザは文書中の関連ある部分のみを見ることができる。

【０００４】また、特開平９−６７９９号公報の「文書
分類装置及び文書検索装置」では、辞書に登録された単
語の文書中の出現回数をその単語の特徴ベクトルとし、
出現する単語の特徴ベクトルの要素を足して文書の特徴
ベクトルを生成する。この文書の特徴ベクトルを用いて
自動的に文書を分類し、ユーザに提示する。

【０００５】また、特開平９−４４５１４号公報の「関
連情報判定方法及び装置」では、検索結果から部分情報
として、要約やアブストラクト、見出しなどを取り出
し、これら部分情報間において共通の文字または文字列
がどれくらい存在するかを閾値と比較して、検索結果間
の関連性を求め、ユーザに提示する。これにより、検索
結果の理解に関して、ユーザの負担を軽減する。

【０００６】これらの他にも、文書管理ツールや要約作
成ツールにおいて、文書の関連性を評価し、関連ある文
書などを集めて表示すると共に、代表となる文書や要約
文を提示し、その概要を比較させるものが存在する。

【０００７】

【発明が解決しようとする課題】しかし、上記の従来技
術には、以下のような問題点がある。特開平５−２６６
０８７号公報の「全文検索装置」では、ユーザは、装置
が抽出した関連部分のみを見ることができるが、検索結
果は分類されておらず、装置が抽出した個々の検索結果
を全て見ることになる。すると、同じものでも複数回見
なければならず、検索結果間の関係は、関連部分を見な
がらユーザが判断することになる。このように、関連部
分を持つ情報の取捨選択の指針がない。

【０００８】特開平９−６７９９号公報の「文書分類装
置及び文書検索装置」では、文書全体の文書特徴ベクト
ルを用いて分類するので、情報の部分的な特徴が全体の
中に埋もれてしまい、関連する部分はユーザが探し出さ
なければならない。

【０００９】特開平９−４４５１４号公報の「関連情報
判定方法及び装置」では、要約や見出しを用いて部分情
報を比較しているが、要約や見出しに含まれる情報によ
って全て表現されるわけではなく、見出しなどには、注
意を引くための誇張などが含まれ、正確に内容を反映し
ていない場合がある。

【００１０】また、要約や重要文を抽出する記述では、
情報中の代表的な部分のみを抽出するため、一部分に埋
もれた関連情報に関する内容が要約に現れるとは限らな
い。逆に、抽出された部分が類似していたとしても、そ
の情報のうちどれくらいの部分が関連するものなのか判
らない。さらに、その要約や重要文が、文書のどの部分
を示しているか判らないため、要約を見て関連ありと判
断しても、その関連情報を得るためには、関連情報を含
む文書を読まなければならず、文書中から必要な情報を
抽出する作業は、人に委ねられる。

【００１１】このように、検索及び分類の結果、関連度
の高い情報が集められ、もしくは分類されてユーザに提
示されたとしても、それはシステムが判断した結果であ
り、ユーザはその結果をもとに再度情報の中身を判読
し、各情報の必要性の有無を判別し取捨選択を行う必要
がある。ところが、従来技術では、提示された情報のど
の部分を読めば必要性の有無を判断できるのかが判らな
かった。そのため、ユーザは不必要な文書の内容を大量
に読まされることになり、非効率的であった。

【００１２】本発明はこのような点に鑑みなされたもの
であり、情報群の取捨選択の指針となる情報を提示でき
る情報判別支援装置を提供することを目的とする。

【００１３】

【課題を解決するための手段】本発明では上記課題を解
決するために、情報の内容によって複数の情報群を分類
することを支援する情報判別支援装置において、前記情
報群内の各情報を評価単位に分割する情報分割手段と、
各評価単位に含まれる語彙に基づいてキーワード群を生
成し、評価単位毎のキーワード群を解析することで各評
価単位の記述内容の特徴を数値化する評価基準数値化手
段と、評価単位同士の特徴を比較することで評価単位間
の類似度を求め、各情報中及び情報間の各評価単位の類
似度に基づいて複数の情報間の類似度を算出し、互いに
類似する情報同士の集合に分類する類似情報分類手段
と、を有することを特徴とする情報判別支援装置が提供
される。

【００１４】このような情報判別支援装置によれば、情
報群が与えられると、情報分割手段により、各情報が評
価単位に分割される。すると、評価基準数値化手段によ
り、各評価単位に含まれる語彙に基づいてキーワード群
が生成され、評価単位毎のキーワード群を解析すること
で各評価単位の特徴が数値化される。さらに、類似情報
分類手段により、評価単位同士の特徴を比較することで
評価単位間の類似度が求められ、各情報中及び情報間の
各評価単位の類似度に基づいて複数の情報間の類似度が
算出され、互いに類似する情報同士の集合に分類され
る。

【００１５】また、上記課題を解決するために、情報の
内容によって情報群を分類することを支援する情報判別
支援プログラムを記録したコンピュータ読み取り可能な
記録媒体において、前記情報群内の各情報を評価単位に
分割する情報分割手段、各評価単位に含まれる語彙に基
づいてキーワード群を生成し、評価単位毎のキーワード
群を解析することで各評価単位の記述内容の特徴を数値
化する評価基準数値化手段、評価単位同士の特徴を比較
することで評価単位間の類似度を求め、各情報中及び情
報間の各評価単位の類似度に基づいて複数の情報間の類
似度を算出し、互いに類似する情報同士の集合に分類す
る類似情報分類手段、としてコンピュータを機能させる
ことを特徴とする情報判別支援プログラムを記録したコ
ンピュータ読み取り可能な記録媒体が提供される。

【００１６】このような記録媒体に記録された情報判別
支援プログラムをコンピュータに実行させれば、上記本
発明に係る情報判別支援装置に必要な機能がコンピュー
タ上に実現される。

【００１７】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図１は、本発明の原理構成図であ
る。本発明の情報判別支援装置は、情報分割手段１、評
価基準数値化手段２及び類似情報分類手段３からなる。

【００１８】情報分割手段１は、情報群内の各情報４に
形態素解析を行い、評価単位４ａに分割する。評価基準
数値化手段２は、各評価単位４ａに含まれる語彙に基づ
いてキーワード群を生成し、評価単位毎のキーワード群
を解析することで情報群全体の内容における各評価単位
の記述内容の特徴を数値化する。その結果、評価単位毎
の評価ベクトル４ｂが得られる。

【００１９】類似情報分類手段３は、評価単位同士の評
価ベクトル４ｂを比較することで評価単位間の類似度を
求め、さらに各情報中及び情報間の各評価単位の類似度
に基づいて複数の情報間の類似度を算出する。そして、
互いに類似する情報同士の集合に分類する。これによ
り、類似情報同士の集まりである類似情報群５が複数生
成される。

【００２０】このようにして類似情報群５に分類された
情報を、情報中の類似する評価単位を選択して比較提示
することで、ユーザによる情報の類似性・関連性の判断
を容易にし、有用な情報の取捨選択の手間を軽減するこ
とができる。

【００２１】次に、本発明の情報判別支援装置により情
報を分類し、分類結果をユーザに提示するための実施の
形態を説明する。図２は、本発明の実施の形態に係る情
報判別支援装置の構成を示すブロック図である。本実施
の形態に係る情報判別支援装置は、以下の要素で構成さ
れる。

【００２２】情報入力部１０は、類似判別を行うべき情
報、例えば検索結果として得られた情報群を入力する。
情報格納部２０は、入力された情報群や類似度判別を行
った結果を格納する。情報表示部３０は、類似判別結果
などを画面上に表示する。情報分割部４０は、情報を評
価単位に分割する。評価基準数値化部５０は、全情報中
の各評価単位の内容の位置づけを数値化して、評価ベク
トルを生成する。類似情報分類部６０は、各情報中及び
情報間の各評価単位の類似度と、情報中の類似する評価
単位の分布と、情報中の類似する評価単位の含有度を用
いて複数の情報間の類似度を算出し類似する情報を分類
する。

【００２３】このような情報判別支援装置に情報群を与
えると、情報入力部１０により、与えられた情報群が情
報格納部２０に格納される。格納された各情報は、情報
分割部４０により評価単位に分割される。すると、評価
基準数値化部５０により、評価単位毎の評価ベクトルが
求められる。次に、類似情報分類部６０によって、各情
報中及び情報間の各評価単位の類似度と、情報中の類似
する評価単位の分布と、情報中の類似する評価単位の含
有度を用いて複数の情報間の類似度が算出され、類似す
る情報が分類される。情報の分類結果は、情報格納部２
０に格納されると共に、情報表示部３０によって画面上
に表示される。

【００２４】次に、情報判別支援装置の主な構成要素の
詳細について説明する。なお、本装置においては、類似
判別のための情報としてテキストを用いる。ここでテキ
ストとは、コード化された文字情報をいい、報告書、特
許明細書、議事録などの文書、電子メール、電子会議室
に貼り付けられた意見、ホームページなどインターネッ
ト上に流れるテキスト情報など、電子化されたテキスト
情報一般を含む。

【００２５】まず、情報分割部４０の詳細について説明
する。図３は、情報分割部の内部構成を示す図である。
情報分割部４０は、レイアウト判別部４１、タイトル削
除部４２、及び評価単位生成部４３で構成される。レイ
アウト判別部４１は、入力された情報からテキスト部分
を認識する。タイトル削除部４２は、情報中のタイトル
や見出し、著者名、出典などの部分を削除する。評価単
位生成部４３は、抽出されたテキストをテキスト中の区
切りを推定しながら評価単位に分割する。

【００２６】図４は、情報判別支援装置の処理の流れを
示すフローチャートである。この処理は、対象となる情
報群が情報入力部１０によって入力されたときに開始さ
れる。この処理をステップ番号に沿って説明する。［Ｓ１］レイアウト判別部４１が、入力された情報をテ
キスト部分とそれ以外の部分に分割する。［Ｓ２］レイアウト判別部４１が、写真や図の部分を取
り除き、テキスト部分のみを抽出する。そして、抽出し
たテキスト部分をタイトル削除部４２に渡す。［Ｓ３］タイトル削除部４２が、レイアウト情報とテキ
ストのフォントやサイズ、句読点の有無などから、本文
であるか、見出しやタイトルであるかを判断し、タイト
ルや見出しの部分を削除する。このとき、著者名や出
典、リファレンスなどの情報も削除する。［Ｓ４］タイトル削除部４２が、テキスト部分のみにな
った情報を、評価単位生成部４３に送る。［Ｓ５］評価単位生成部４３が、テキスト情報を章や段
落などの区切りを考慮しながら、評価単位に分割する。
例えば、ユーザが指定した評価単位の文字数を２００文
字程度とすると、２００文字前後において、空白行など
レイアウト上の区切りがあればその部分で、なければ、
改行を示すリターンを検出し、それもなければ読点を検
出して情報を分割する。なお、図や表に付随する説明文
などは、それらを一塊にして処理し、文字数が評価単位
文字数より多い場合は分割を行う。［Ｓ６］評価単位生成部４３が、生成された評価単位を
評価基準数値化部５０へ送る。

【００２７】ここで、具体例を用いて、情報分割部４０
の処理内容を説明する。図５は、本装置において処理の
対象となる電子化された文書例を示す図である。図に示
す文書１００には、タイトル１１０と著者名１２０が記
載されている。その下には、左半分に章題１３０と文章
１４０とが記載され、右半分に写真１７０，１８０が添
付されている。その下には、さらに章題１５０と文章１
６０とが記載されている。

【００２８】このような文書が情報分割部４０に入力さ
れると、レイアウト判別部４１においてテキスト部分と
それ以外の部分に分割される。この例では、タイトル１
１０、著者名１２０、章題１３０，１５０及び文章１４
０，１６０がテキスト部分であり、写真１７０，１８０
の部分がテキスト以外の部分である。そこで、レイアウ
ト判別部４１により、テキスト部分が抽出される。抽出
されたテキスト部分は、タイトル削除部４２によって、
レイアウト情報やテキストのフォントやサイズ、句読点
の有無などから、本文以外の記載内容であるタイトル１
１０、著者名１２０、章題１３０，１５０が削除され
る。残った文章１４０，１６０の記載内容であるテキス
ト情報は、評価対象としてタイトル削除部４２によって
評価単位生成部４３に送られる。

【００２９】なお、この実施の形態では、文章として内
容を記述している部分のみを、評価対象の情報としてい
る。これは、タイトルなどは相手の気を引くために、も
しくは相手をごまかすために、内容と異なる表現や誇張
した表現を用いる場合があり、情報の内容を的確に表現
しているとは言えないことが多々あるからである。その
ため、タイトルなどに入っている語彙は、あえて評価対
象から外している。

【００３０】評価単位生成部４３に送られたテキスト情
報は、章や段落などの区切りを考慮しながら、評価単位
に分割される。ここで、生成された評価単位は、評価単
位生成部４３によって評価基準数値化部５０へ送られ
る。

【００３１】このようにして、文書１００中のテキスト
が評価単位に分割され、評価基準数値化部５０に渡され
る。ところで、文書などは章や段落を持つ場合が多い
が、すべての情報がこのように、意味的な区切りを持っ
ているわけではない。本発明では、章や段落など意味的
に区切られていると思われる部分を考慮しつつも、意味
的な区切りが認識できず、テキストが続く情報について
は、文書の認識単位として指定された文字数で情報を区
切り、評価単位を生成する。

【００３２】この方法においては、意味的に同じ部分が
区切られてしまう可能性が考えられるが、同じ内容が続
くならば、それらの情報中に出現する語彙は類似する可
能性が高く、区切られたそれぞれの情報が類似する情報
として提示されるため問題はない。

【００３３】また、区切られることで、出現語彙が分離
され、それぞれの情報の類似度が低下したとすると、そ
れは関連語彙が広範囲に分散しているためであり、情報
の密度が低く類似度は低いと考えられる。よって、連続
する情報の文字数による分割による影響は少い。

【００３４】次に、評価基準数値化部５０の詳細を説明
する。図６は、評価基準数値化部の内部構成を示す図で
ある。図に示す各構成要素の機能を以下に示す。

【００３５】キーワード抽出部５１は、テキストを形態
素解析し特定品詞の語彙のみをキーワードとして抽出す
る。結合キーワード生成部５２は、抽出されたキーワー
ドから特定品詞が連続している部分を抽出し、キーワー
ドを結合して新たな結合キーワードとする。結合キーワ
ード重み付け部５３は、キーワードの結合数に応じて結
合キーワードに重みを付ける。キーワードペア生成部５
４は、あるキーワードと同じ文章中に離れて存在する別
の特定品詞のキーワードとを組み合わせて１つのキーワ
ードペアとする。キーワードペア重み付け部５５は、生
成したしたキーワードペアにキーワード間の距離を考慮
した重みを付ける。評価ベクトル空間生成部５６は、生
成した結合キーワード及びキーワードペアを用い、情報
間で重複する割合の高いもしくは重複のない結合キーワ
ード及びキーワードペアを削除した上で、類似度評価の
ための評価ベクトル空間を生成する。評価ベクトル生成
部５７は、各評価単位毎に情報中に存在する結合キーワ
ード及びキーワードペアを検出し評価ベクトルを生成す
る。

【００３６】このような評価基準数値化部５０における
処理手順を以下に示す。図７は、評価基準数値化部の処
理手順を示すフローチャートの前半である。［Ｓ１１］キーワード抽出部５１が、以下のステップＳ
１２〜ステップＳ１９の処理を行っていない情報を選択
し、その情報から抽出された評価単位群を処理対象とす
る。［Ｓ１２］キーワード抽出部５１が、処理対象とした評
価単位群の未処理の評価単位を１つ選択し、その評価単
位の形態素解析を行い、品詞単位の語彙に分解する。［Ｓ１３］キーワード抽出部５１が、各語彙の中で特定
の品詞以外の語彙を削除する。本実施の形態では、固有
名詞、普通名詞、サ変名詞、動詞を抽出し、他の品詞の
語彙を削除する。［Ｓ１４］キーワード抽出部５１が、品詞分解された評
価単位中の情報を、句点やピリオドで区切られる１文章
単位で情報格納部２０に格納する。さらに連続して存在
する固有名詞、普通名詞には、次の品詞と連続していた
こと示す記号、例えばハイフンを付けて格納する。［Ｓ１５］結合キーワード生成部５２が、連続した固有
名詞、普通名詞を検出し、これらを結合した新たなキー
ワードを生成する。例えば「情報・分類・装置」のよう
に連続した３つの普通名詞の場合、本実施の形態では、
１つ目と２つ目とを結合した「情報分類」と、１つ目、
２つ目、及び３つ目を結合した「情報分類装置」を新た
なキーワードとする。

【００３７】なお、本実施の形態では用いないが、これ
ら意外にも、３つの普通名詞の組み合わせ方は多数存在
し、３つの語彙を２つずつ用いて組み合わせ、語彙の前
後を入れ替えて６つの結合ペアを生成してもよい。［Ｓ１６］結合キーワード重み付け部５３が、結合キー
ワード生成部５２の生成した結合キーワードに対して重
み付けを行う。ここでは、通常の１語彙のキーワードを
重み「１」とし、２つのキーワードを結合した結合キー
ワードには重み「２」を付与し、３つのキーワードを結
合した結合キーワードには重み「３」を付与する。［Ｓ１７］キーワードペア生成部５４が、キーワード抽
出部５１で抽出したキーワード群の中で、離れて存在す
るが特定の関係にある品詞を組み合わせ、キーワードペ
アを生成する。

【００３８】例えば、「情報を分類する」というフレー
ズがあった場合、「情報」という名詞と「分類」という
サ変名詞を組み合わせ、これらのペアを１つのキーワー
ドとして用いる。ただし、この場合「情報」と「分類」
という語彙は、それぞれ様々な場面で用いられることが
予想され、これらをそれぞれキーワードとして用いる
と、「情報の分類」とは無関係なものまで、関連情報と
して抽出される可能性がある。そこで、これら関連の深
い語彙を組み合わせ、共に存在した場合のみ関連性を認
めることで、語彙の意味を限定してキーワードとして用
いることを可能とする。本実施の形態では、１文章中の
普通名詞、固有名詞と、その文章中の動詞の直前に存在
する普通名詞もしくはサ変名詞を組み合わせてキーワー
ドペアとする。

【００３９】なお、本実施の形態では用いないが、形容
詞と名詞や形容詞と動詞など、同時に使われることで意
味を限定するような組み合わせは、同様に用いることが
可能である。［Ｓ１８］キーワードペア重み付け部５５が、キーワー
ドペアに対して重み付けを行う。これは、通常の１語彙
のキーワードを重み「１」とし、１つの語彙のキーワー
ドと組み合わせを行ったキーワードペアには重み「２」
を付与し、２つの語彙を結合した結合キーワードと組み
合わせを行ったキーワードペアには重み「３」を付与す
る。［Ｓ１９］キーワードペア生成部５４は、これらキーワ
ード群の生成処理終了後、キーワード中の動詞と１文字
の語彙からなるキーワードとを削除する。これは、動詞
は「する」や「行う」など、汎用性が高く意味を限定し
難いためであり、１文字の語彙も「今」や「何」といっ
たものが多く含まれるためである。

【００４０】なお、本実施の形態では、重みの決定に際
し語彙の出現回数は考慮しない。これは、汎用性のある
語彙であれば、文章中に複数回出現するのが普通であ
り、かといって、特定の語彙が複数回出現した場合に、
その出現語彙に関する内容の情報であるかというと、そ
うでない場合が多いからである。すなわち、情報の内容
は、特定の語彙のみでは、情報の持つ意味の範囲が広過
ぎて限定できない。通常は、対象と目的や対象と方法な
ど、複数の語彙により情報の内容を限定し、ユーザの目
的に合った情報を取捨選択していると考えられる。よっ
て、本実施の形態では、情報の内容は、特定語彙の出現
回数ではなく、語彙の組み合わせの方がその内容を表現
するのに適していると考え、結合キーワードもしくはキ
ーワードペアとなる語彙の重みのみを考慮する。

【００４１】また、複数の語彙を結合した重みの大きい
キーワード含む文書群は、特にキーワードが示す内容に
関して一致している可能性が高い。例えば、「情報分類
装置」の場合、「情報分類」では、「情報分類機関」や
「情報分類の研究者」など装置と直接関連のないものも
含まれるが、「情報分類装置」であれば、より関連の高
いもののみが選ばれる。また、このような長いキーワー
ドが一致した場合は、そのキーワードを構成する個々の
キーワードも一致するため、一致したキーワードの重み
だけでなく、一致するキーワード数も多くなり、情報の
類似度は飛躍的に高くなる。

【００４２】図８は、評価基準数値化部の処理手順を示
すフローチャートの後半である。［Ｓ２０］キーワードペア生成部５４は、情報中のすべ
ての評価単位の処理が終了したか否かを判断する。情報
中のすべての評価単位の処理が終了したのであればステ
ップＳ２１に進み、そうでなければ次の評価単位の処理
を行うべき旨の指令をキーワード抽出部５１に送信し、
処理をステップＳ１２に進める。［Ｓ２１］キーワードペア生成部５４は、すべての情報
に対する処理が終了したか否かを判断する。情報中のす
べての評価単位の処理が終了したのであればステップＳ
２２に進み、そうでなければ次の情報の処理を行うべき
旨の指令をキーワード抽出部５１に送信し、処理をステ
ップＳ１１に進める。

【００４３】以上の処理により、各情報中の評価単位に
対応するキーワード群が生成される。生成されたキーワ
ード群は、情報格納部２０により記憶装置などに格納さ
れる。全ての情報の評価単位についてキーワード群が生
成された後、ステップＳ２２以降の処理が行われる。［Ｓ２２］評価ベクトル空間生成部５６が、各評価単位
のキーワード群から、一定の割合以上のキーワード群に
存在するキーワードを、各評価単位のキーワード群から
削除する。これは、大多数の評価単位に存在するキーワ
ードがあった場合、そのキーワードは評価単位を分類す
るためには何も寄与しないために行われる処理である。
例えば、全評価単位の７割以上に含まれるキーワードは
削除する。［Ｓ２３］評価ベクトル空間生成部５６が、各評価単位
のキーワード群から、一定の割合以下のキーワード群に
しか存在しないキーワードを削除する。これは、全評価
単位中の少数の評価単位にしか存在しないキーワード
は、評価単位を分類するためには何も寄与しないために
行われる処理である。例えば、全評価単位の１割以下に
しか含まれないキーワードは削除する。

【００４４】なお、ステップＳ２２，Ｓ２３で行った削
除処理の基準となるキーワードが含まれる割合は、情報
の分類の状況やユーザの好みで変更することが可能であ
る。［Ｓ２４］評価ベクトル空間生成部５６が、不必要と思
われるキーワードを削除した全評価単位のキーワード群
（すべての情報の各評価単位のキーワード群すべて）を
用いて、評価ベクトル空間を生成する。評価ベクトル空
間は、全ての評価単位のキーワード群からキーワード、
結合キーワード、キーワードペアを抽出し、全種類のキ
ーワード、結合キーワード、キーワードペアを１つずつ
そろえたものである。評価ベクトル空間生成時には、キ
ーワード群中に重複して存在するものがあったとして
も、その出現回数や個数は考慮されない。また、その出
現回数や個数に関係なく、存在するキーワードは評価ベ
クトル空間に１つだけ含まれる。［Ｓ２５］評価ベクトル生成部５７が、評価ベクトル空
間を用いて、各評価単位の評価ベクトルを生成する。評
価ベクトルを生成するには、まず、その評価単位のキー
ワード群を用い、評価ベクトル空間の要素中にキーワー
ド群中のキーワード、結合キーワード、キーワードペア
があれば、一致した要素にキーワードの持つ重みを与え
る。ここで、キーワード群中に存在しない評価ベクトル
空間の要素は０となる。このように重みの値が付与され
た評価ベクトル空間の要素が、各評価単位の評価ベクト
ルとなる。

【００４５】このようにして、評価単位に分割された情
報に基づいて、部分類似度算出のための、評価ベクトル
が生成される。ここで、評価基準数値化部５０における
処理を、具体例を用いて説明する。

【００４６】図９は、評価単位となる情報の例を示す図
である。これは、処理対象の情報に記載された文章に含
まれる評価単位７１である。評価基準数値化部５０がこ
のような評価単位７１を取得すると、キーワード抽出部
５１が評価単位７１の記載内容を品詞単位の語彙に分解
する。

【００４７】図１０は、品詞分解をした結果を示す図で
ある。品詞分解が行われると、図のような語彙のリスト
７２が生成される。例えば、「マルチメディア時代にネ
ットワークに期待されるサービスは何か。」という文
は、「マルチメディア」（普通名詞）、「メディア」
（普通名詞）、「時代」（普通名詞）、「に」（名詞接
続助詞）、「ネットワーク」（普通名詞）、「に」（名
詞接続助詞）、「期待」（サ変名詞）、「さ」（動
詞）、「れる」（動詞性接尾詞）、「サービス」（サ変
名詞）、「は」（副助詞）、「何」（普通名詞）、
「か」（終助詞）、「。」（句点）という語彙に分解さ
れる。

【００４８】次に、キーワード抽出部５１により、評価
単位の文から得られた複数の語彙の中から、特定の品詞
以外の語彙が削除され、１文章毎に情報格納部２０に格
納される。

【００４９】図１１は、不要な語彙を削除し１文章毎に
格納したキーワード群を示す図である。この例に示した
評価単位７１の文章は、３つの文で構成されるため、３
つのキーワード群７３ａ〜７３ｃが生成されている。例
えば、キーワード群７３ａは、「マルチメディア時代に
ネットワークに期待されるサービスは何か。」という文
から生成されたものである。この文の中で、「に」、
「れる」、「は」、「か」、「。」という語彙は、固有
名詞、普通名詞、サ変名詞、動詞のいずれでもないため
削除されている。また、「マルチ」や「メディア」は、
次の固有名詞もしくは普通名詞と連続していたため
「−」の記号が付加されている。

【００５０】このようにして生成されたキーワード群を
用いて、結合キーワード及びキーワードペアが生成さ
れ、さらに重みが付けられる。図１２は、１文章毎の結
合キーワードとキーワードペアを含んだキーワード群の
例を示す図である。キーワード群７４ａ〜７４ｃ中のハ
イフンで繋がれた語彙のペアは、キーワードペアである
ことを示す。また、各キーワードに付けられている数字
は、１語彙のキーワードの重みを１とした場合の、各キ
ーワードに付けられた重みである。例えば、キーワード
群７４ａでは、「マルチ」や「メディア」は単一の語彙
であるため、重みの値は１である。また、「マルチメデ
ィア時代」は、「マルチ」、「メディア」、「時代」の
３つの語彙で構成されるため、重みの値は３である。

【００５１】この文章毎のキーワード群から、重複する
キーワードを削除し、各種類のキーワードを１つずつ含
んだものが、評価単位のキーワード群となっている。こ
のように文章毎に生成されたキーワード群が統合され、
評価単位に対するキーワード群となる。

【００５２】図１３は、評価単位のキーワード群を示す
図である。このキーワード群７５と同様のキーワード群
が、すべての情報の評価単位毎に生成され、それらのキ
ーワード群から入力された情報群における評価ベクトル
空間が生成される。

【００５３】図１４は、評価ベクトル空間を示す図であ
る。この評価ベクトル空間７６は、簡略化のため、前述
の評価単位とは関連しない評価ベクトル空間を示してい
る。ここで、図１５のようなキーワード群が存在した場
合を考える。

【００５４】図１５は、評価単位のキーワード群の例を
示す図である。このキーワード群７７について、図１４
に示した評価ベクトル空間７６での評価を行うと、図１
６のようになる。

【００５５】図１６は、評価単位の評価ベクトルの生成
状況を示す図である。このように、評価ベクトル７８
は、評価ベクトル空間７６中の各要素に対応する数値の
列で表される。評価ベクトル７８中の値を持つ要素数と
要素の位置が、評価ベクトル空間７６中での評価単位の
方向を表わし、評価ベクトル要素の値の大きさがベクト
ルの大きさを表す。この方向と大きさがその評価単位の
情報の特徴を表し、評価ベクトルが類似した方向を向
き、類似した大きさならば、その評価単位の内容は類似
していると考えられる。

【００５６】このように、情報の分類において、単語や
語彙単位の出現頻度ではなく、関連性のある単語や語彙
を組み合わせて結合キーワードもしくはキーワードペア
として用いることにより、個々の単語や語彙の意味を限
定して類似度を判定することができ、従来より高い精度
での分類を実現することを可能とする。

【００５７】次に、類似情報分類部の詳細を説明する。
類似情報分類部は、評価基準数値化部で得られた評価ベ
クトル空間と評価単位の評価ベクトルを用いて、情報を
分類すると共に、情報間の部分（評価単位）の類似性を
示し、情報の構成の類似性や類似部分の分布、必要な情
報の位置を一瞥できるようにするものである。

【００５８】図１７は、類似情報分類部の内部構成を示
す図である。図に示す各構成要素の機能を以下に示す。
類似部分判別部６１は、情報の評価単位毎の評価ベクト
ルからベクトル間の内積もしくは相対角度とベクトル間
距離を求め、評価単位毎の類似度判定を行いグループ分
けを行う。情報類似度判定部６２は、情報間の類似する
評価単位の含有度及び分布状態から情報間の類似度を判
別する。インデックス情報検出部６３は、類似評価単位
中からそのグループの代表となる評価単位及び評価ベク
トルを検出する。類似部分提示部６４は、複数の類似す
る評価単位を類似度順などで順次比較表示し、内容の類
似度を確認する。類似状況提示部６５は、情報間の類似
度を確認するために、情報中及び情報間の評価単位の類
似部分とその分布が判るように一覧表示する。

【００５９】図１８は、類似情報分類部の処理手順を示
すフローチャートの前半である。［Ｓ３１］類似部分判別部６１が、評価ベクトルを用い
て評価単位間の類似度を算出する。類似度の判別は、２
つの評価単位の評価ベクトルからその内積を求め、内積
の値を類似判定値として、その大きさによって類似性を
判別する。類似判定のための閾値は、情報の分類状況や
ユーザの好みによって変更することが可能である。この
他にも、ベクトル間の角度とベクトルの大きさから、類
似度を判別してもよい。［Ｓ３２］類似部分判別部６１が、類似度判別の結果、
互いに類似している評価単位の双方に対して、類似する
相手の評価単位の識別番号、その類似判定値、及び同じ
分類であることを示す分類番号を付与する。［Ｓ３３］類似部分判別部６１が、すべての評価単位間
の類似度判別が終了したか否かを判断する。類似度判別
が終了したのであればステップＳ３４に進み、そうでな
ければステップＳ３１に進む。なお、評価単位間の類似
度判別は、同一情報内の評価単位同士であるか、異なる
情報内の評価単位同士であるかに関わらず、すべての評
価単位間で行う。［Ｓ３４］情報類似度判定部６２が、比較対象となる２
つの情報を構成する評価単位の中で、互いに類似する評
価単位のそれぞれの情報内における含有度を求める。［Ｓ３５］情報類似度判定部６２が、類似する評価単位
の含有度と、互いに類似する評価単位の類似判定値とか
ら、情報間の類似性を求める。そして、類似性の値が一
定の閾値を超えた情報間は類似性があると判断し、同じ
カテゴリーに分類する。類似性の算出方法としては、例
えば、互いに類似する評価単位の含有度に、類似する評
価単位間の類似判定値を乗算する。

【００６０】なお、この例では、情報間の類似判定は、
大まかな範囲での区分けにとどめる。これは、詳細な判
定値を用いて文書を順位付けしても必ずしもユーザの意
図と一致しないため、まずは大局的な判断での分類を行
い、以後の細かな類似判別はユーザに委ねるためであ
る。［Ｓ３６］情報類似度判定部６２が、同じカテゴリーに
分類された情報に対して、同一のカテゴリーラベルを付
与する。なお、情報間の類似度には特に順位付けは行わ
ないが、結果の表示においては、他の評価単位と類似す
る評価単位の含有度を指針として、含有度の大きいもの
を優先して表示する。［Ｓ３７］情報類似度判定部６２は、すべての情報間の
類似度判別が終了したか否かを判断する。判別が終了し
ていればステップＳ３８に進み、そうでなければステッ
プＳ３４に進む。

【００６１】図１９は、類似情報分類部の処理手順を示
すフローチャートの後半である。［Ｓ３８］インデックス情報検出部６３が、類似判別に
おいて情報間毎に行ったカテゴリー分けが適切かどうか
を分類された情報間で見直し、複数のカテゴリーに分類
された情報については、含有度の高い方を優先し、他方
との関連に関しては、補足情報として情報格納部２０に
格納する。［Ｓ３９］インデックス情報検出部６３が、ステップＳ
３８で行った見直しの処理において、分類したカテゴリ
ー内の情報群の中で最も多く含まれている種類の分類番
号を特定し、その分類番号を持つ評価単位を全て抽出す
る。そして、この同じ分類番号を持つ評価単位の評価ベ
クトルの中で、中心となる評価ベクトルを選び出し、こ
れをこのカテゴリーのインデックス情報として登録す
る。この中心となるベクトルの抽出は、例えば、各評価
ベクトルのうち最大角度を持つ組み合わせを抽出し、そ
れらの中間にあるもの、それぞれの評価ベクトルと同じ
角度を持つものを探し出すことで、カテゴリーの中心と
なる評価ベクトルを選出できる。

【００６２】インデックス情報は、そのインデックス情
報の評価単位が、カテゴリーの情報を表わす代表情報と
して示される。また、その評価単位から抽出されたキー
ワード群は、そのカテゴリーのキーワードとして用いら
れる。さらに、インデックス情報は、新たに入力された
情報を分類する場合における、類似性判定の指針として
も利用する。

【００６３】これら分類された情報は、類似部分提示部
６４と類似状況提示部６５により、その情報間の関係や
内容がユーザに示され、ユーザ自身の手で、必要な情報
を取り出すことが可能となる。［Ｓ４０］類似部分提示部６４が、分類したカテゴリー
毎に、その情報内の評価単位の分類番号の同じ評価単位
を集め、他の評価単位との間の類似順に各評価単位を並
べ、表を作成する。類似順は、分類番号の同じ他の評価
単位との間の類似度の合計値を比較することで求める。
作成した表は、情報格納部２０に格納する。格納された
表の内容は、情報表示部３０によって表示される。

【００６４】なお、類似順に並べられた評価単位には、
他のカテゴリーにある類似評価単位へのリンクが張られ
ている。これによりユーザは、必要とする情報に類似し
た評価単位を選択することで、収集し分類した情報全体
の中で、必要な部分のみを見ることができ、またその評
価単位を含む情報がどのカテゴリーに含まれるかを知る
ことで、新たな関連情報を見つけることができる。［Ｓ４１］類似状況提示部６５が、分類したカテゴリー
内の情報を、類似する評価単位の含有度の大きい順に並
べた表を作成し、情報格納部２０に格納する。情報格納
部２０に格納された表は、情報表示部３０によって表示
される。［Ｓ４２］類似状況提示部６５が、各情報毎にその評価
単位の類似する部分がどこか、どれくらい存在するかを
一瞥でき、且つ他の情報との比較が容易なように、一覧
にして提示するための表を作成し、情報格納部２０に格
納する。情報格納部２０に格納された表は、情報表示部
３０によって表示される。

【００６５】これによりユーザは、任意の評価単位の内
容を理解することで、その評価単位を含む情報の内容を
推定でき、評価単位の分布や情報中に含まれる評価単位
の種類などから、情報が有用であるかどうかの判断を行
うことができる。また、情報間の含まれる評価単位の分
布を比較することで、内容の類似性を確認でき、装置の
分類結果の確認を行うこともできる。

【００６６】図２０は、類似状況提示部による情報間の
類似状況表示の例を示す図である。この図において、同
じ模様の部分は同じ分類番号の評価単位であることを示
す。これから文書などの情報間で、類似部分がどれくら
いある文書なのかが容易に判る。

【００６７】従来は必要な内容が含まれると思われる情
報、例えば文書を収集し、その中から必要な部分情報を
探し出していた。本発明によれば、情報の構成の類似性
や類似部分の分布、必要な情報の位置を一瞥でき、必要
な部分情報を探し出してから、その部分情報が含まれる
文書を取り出すことが可能となる。

【００６８】また本発明によれば、評価ベクトル空間生
成部を用いて生成した評価ベクトル空間を用いて、入力
文書や送られてくる情報をフィルタリングし、指定の類
似度の評価単位を持つ文書のみを選択し、ユーザに提示
するような情報フィルタリング機能を提供することも可
能である。

【００６９】また本発明によれば、評価ベクトル空間生
成部を用いて生成した評価ベクトル空間を用いて、デー
タベースなどを検索し、規定の類似度の評価単位を持つ
情報のみを選択し、ユーザに提示する情報検索装置とし
て用いることも可能である。

【００７０】また、ユーザが求めるものは、必要な情報
を含む文書ではなく、文書中に存在する情報である。こ
れまでの検索や分類は、欲しい情報を含んでいると思わ
れる文書を集めるものであり、欲しい情報そのものを提
示するものではなかった。本発明は、欲しい情報である
と思われる部分が情報全体にどのように分布しているか
を提示することができ、ユーザは、情報間の類似や差異
を確認した上で、情報の有無を判断できる。

【００７１】さらに、本発明は情報を含む媒体の有用性
の判断を促し、また直接的に有用な情報を提示するもの
であり、これまでの情報の検索や分類で行われていたよ
うな、必要な情報の密度を上げるものではなく、情報の
取捨選択を効率化するものである。

【００７２】なお、上記の実施の形態では、情報の分類
数は不定であったが、インデックス情報となる情報数を
指定することで、分類数を指定するようにしてもよい。
また、上記の実施の形態では、インデックス情報をシス
テムが求め出していたが、ユーザが任意にインデックス
情報を指定できるようにしてもよい。この場合、類似情
報分類部はユーザの指定した情報をインデックス情報と
して情報を分類する。

【００７３】また、生成された評価ベクトル空間を用い
て入力文書群を検索し、規定の類似度の評価単位を持つ
文書のみを選択し、ユーザに提示するような情報検索機
能を備えさせることもできる。

【００７４】また、上記の処理機能は、コンピュータに
よって実現することができる。その場合、情報判別支援
装置が有すべき機能の処理内容は、コンピュータで読み
取り可能な記録媒体に記録されたプログラムに記述して
おく。そして、このプログラムをコンピュータで実行す
ることにより、上記処理がコンピュータで実現される。
コンピュータで読み取り可能な記録媒体としては、磁気
記録装置や半導体メモリ等がある。市場に流通させる場
合には、ＣＤ−ＲＯＭ(Compact Disk Read Only Memor
y) やフロッピーディスク等の可搬型記録媒体にプログ
ラムを格納して流通させたり、ネットワークを介して接
続されたコンピュータの記憶装置に格納しておき、ネッ
トワークを通じて他のコンピュータに転送することもで
きる。コンピュータで実行する際には、コンピュータ内
のハードディスク装置等にプログラムを格納しておき、
メインメモリにロードして実行する。

【００７５】

【発明の効果】以上説明したように本発明の情報判別支
援装置では、情報群を互いに類似する情報に分類し、且
つ各情報内の評価単位毎の類似度も求めるようにしたた
め、これらの情報の分類及び評価単位間の類似情報をユ
ーザに提示すれば、ユーザによる情報の類似性・関連性
の判断が容易となり、有用な情報の取捨選択の手間が軽
減される。

【００７６】また、本発明の情報判別支援プログラムを
記録したコンピュータ読み取り可能な記録媒体では、記
録媒体に記録された情報判別支援プログラムをコンピュ
ータに実行させることにより、情報群を互いに類似する
情報に分類し、且つ各情報内の評価単位毎の類似度も求
めるような処理をコンピュータに実行させることができ
る。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の実施の形態に係る情報判別支援装置
の構成を示すブロック図である。

【図３】情報分割部の内部構成を示す図である。

【図４】情報判別支援装置の処理の流れを示すフロー
チャートである。

【図５】本装置において処理の対象となる電子化され
た文書例を示す図である。

【図６】評価基準数値化部の内部構成を示す図であ
る。

【図７】評価基準数値化部の処理手順を示すフローチ
ャートの前半である。

【図８】評価基準数値化部の処理手順を示すフローチ
ャートの後半である。

【図９】評価単位となる情報の例を示す図である。

【図１０】品詞分解をした結果を示す図である。

【図１１】不要な語彙を削除し１文章毎に格納したキ
ーワード群を示す図である。

【図１２】１文章毎の結合キーワードとキーワードペ
アを含んだキーワード群の例を示す図である。

【図１３】評価単位のキーワード群を示す図である。

【図１４】評価ベクトル空間を示す図である。

【図１５】評価単位のキーワード群の例を示す図であ
る。

【図１６】評価単位の評価ベクトルの生成状況を示す
図である。

【図１７】類似情報分類部の内部構成を示す図であ
る。

【図１８】類似情報分類部の処理手順を示すフローチ
ャートの前半である。

【図１９】類似情報分類部の処理手順を示すフローチ
ャートの後半である。

【図２０】類似状況提示部による情報間の類似状況表
示の例を示す図である。

【符号の説明】

１情報分割手段２評価基準数値化手段３類似情報分類手段４情報４ａ評価単位４ｂ評価ベクトル５類似情報群

フロントページの続きＦターム(参考） 5B009 QA03 SA12 VA02 VC01 5B075 KK34 ND03 NK02 NK32 NR02 NR12 PQ02 PQ20 PQ40 PQ46 PQ75 PR06 QM08 UU06 UU40

Claims

【特許請求の範囲】

【請求項１】情報の内容によって複数の情報群を分類
することを支援する情報判別支援装置において、前記情報群内の各情報を評価単位に分割する情報分割手
段と、各評価単位に含まれる語彙に基づいてキーワード群を生
成し、評価単位毎のキーワード群を解析することで各評
価単位の記述内容の特徴を数値化する評価基準数値化手
段と、評価単位同士の特徴を比較することで評価単位間の類似
度を求め、各情報中及び情報間の各評価単位の類似度に
基づいて複数の情報間の類似度を算出し、互いに類似す
る情報同士の集合に分類する類似情報分類手段と、を有することを特徴とする情報判別支援装置。
【請求項２】前記類似情報分類手段の分類した内容を
表示する情報表示手段をさらに有することを特徴とする
請求項１記載の情報判別支援装置。
【請求項３】前記情報表示手段は、類似する評価単位
同士を視覚的に判別できるように表示することを特徴と
する請求項２記載の情報判別支援装置。
【請求項４】前記類似情報分類手段は、同一の集合に
含まれる情報の中で、各情報中及び異なる情報間の評価
単位を類似度に応じた順番に並べることを特徴とする請
求項１記載の情報判別支援装置。
【請求項５】前記評価基準数値化手段は、評価単位に
対して形態素解析を行うことで語彙を抽出し、特定の品
詞の連続する語彙を結合することにより得られる結合キ
ーワードを前記キーワード群に含めることを特徴とする
請求項１記載の情報判別支援装置。
【請求項６】前記評価基準数値化手段は、評価単位に
対して形態素解析を行うことで連続した固有名詞、普通
名詞を検出し、これらを結合することで前記結合キーワ
ードを生成することを特徴とする請求項５記載の情報判
別支援装置。
【請求項７】前記評価基準数値化手段は、生成した結
合キーワードに対して重み付けを行い、重みを反映させ
て、各評価単位の記述内容の特徴を数値化することを特
徴とする請求項５記載の情報判別支援装置。
【請求項８】前記評価基準数値化手段は、評価単位に
対して形態素解析を行うことで語彙を抽出し、離れて存
在する特定品詞の語彙のペアからなるキーワードペアを
前記キーワード群に含めることを特徴とする請求項１記
載の情報判別支援装置。
【請求項９】前記評価基準数値化手段は、１文章中の
普通名詞、固有名詞と、その文章中の動詞の直前に存在
する普通名詞もしくはサ変名詞を組み合わせて前記キー
ワードペアを生成することを特徴とする請求項８記載の
情報判別支援装置。
【請求項１０】前記評価基準数値化手段は、生成した
キーワードペアに対して重み付けを行い、重みを反映さ
せて、各評価単位の記述内容の特徴を数値化することを
特徴とする請求項８記載の情報判別支援装置。
【請求項１１】前記評価基準数値化手段は、すべての
評価単位から生成された前記キーワード群を合成した合
成キーワード群を用いて評価ベクトル空間を生成し、評
価単位毎の前記キーワード群と前記評価ベクトル空間と
を比較することにより、各評価単位の記述内容の特徴を
数値化することを特徴とする請求項１記載の情報判別支
援装置。
【請求項１２】情報の内容によって情報群を分類する
ことを支援する情報判別支援プログラムを記録したコン
ピュータ読み取り可能な記録媒体において、前記情報群内の各情報を評価単位に分割する情報分割手
段、各評価単位に含まれる語彙に基づいてキーワード群を生
成し、評価単位毎のキーワード群を解析することで各評
価単位の記述内容の特徴を数値化する評価基準数値化手
段、評価単位同士の特徴を比較することで評価単位間の類似
度を求め、各情報中及び情報間の各評価単位の類似度に
基づいて複数の情報間の類似度を算出し、互いに類似す
る情報同士の集合に分類する類似情報分類手段、としてコンピュータを機能させることを特徴とする情報
判別支援プログラムを記録したコンピュータ読み取り可
能な記録媒体。