JP2000112949A - 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体 - Google Patents

情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体

Info

Publication number
JP2000112949A
JP2000112949A JP10276313A JP27631398A JP2000112949A JP 2000112949 A JP2000112949 A JP 2000112949A JP 10276313 A JP10276313 A JP 10276313A JP 27631398 A JP27631398 A JP 27631398A JP 2000112949 A JP2000112949 A JP 2000112949A
Authority
JP
Japan
Prior art keywords
information
evaluation
unit
keyword
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10276313A
Other languages
English (en)
Other versions
JP3921837B2 (ja
JP2000112949A5 (ja
Inventor
Hiroto Fukushima
裕人 福島
Hiroshi Katsurabayashi
浩 桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP27631398A priority Critical patent/JP3921837B2/ja
Publication of JP2000112949A publication Critical patent/JP2000112949A/ja
Publication of JP2000112949A5 publication Critical patent/JP2000112949A5/ja
Application granted granted Critical
Publication of JP3921837B2 publication Critical patent/JP3921837B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 取捨選択の指針として利用できる内容を含め
た情報を提示できるようにする。 【解決手段】 情報分割手段1は、情報群内の各情報4
を評価単位4aに分割する。評価基準数値化手段2は、
各評価単位4aに含まれる語彙に基づいてキーワード群
を生成し、評価単位毎のキーワード群を解析することで
情報群全体の内容における各評価単位の記述内容の特徴
を評価ベクトル4bとして数値化する。類似情報分類手
段3は、評価単位同士の特徴を比較することで評価単位
間の類似度を求め、各情報中及び情報間の各評価単位の
類似度に基づいて複数の情報間の類似度を算出し、互い
に類似する情報同士の集合に分類する。分類された情報
を評価単位の類似性と共に提示することで、ユーザによ
る情報の取捨選択の手間を軽減することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は収集した情報を分類
するための情報判別支援装置及び情報判別支援プログラ
ムを記録した記録媒体に関し、特に収集した情報を取捨
選択する行為を支援するための情報判別支援装置及び情
報判別支援プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】近年、インターネットなどのコンピュー
タネットワークの普及と様々な情報データベースサービ
スにより、情報検索サービスや電子メール、電子新聞、
ネットニュースなどから、多種多様の電子化された情報
を得ることが可能になっている。このため、各種情報サ
ービスから類似した情報、もしくは関連のない情報を含
めて多量の情報が届けられ、各情報の判読に忙殺される
という事態が発生しつつある。このような状況下におい
て、氾濫する情報から各個人に有用な情報のみを選択、
分類、もしくはフィルタリングして、情報の判読にかか
る負荷を軽減させる技術が存在する。
【0003】このような情報の取捨選択を支援するため
の従来技術としては、例えば、特開平5−266087
号公報の「全文検索装置」がある。この全文検索装置で
は、検索対象となるテキストを、評価単位と評価単位の
集まった抽出単位とに分け、評価単位をユーザが入力し
たキーワードの出現率で評価する。そして、各評価単位
のキーワードの出現率から抽出単位の評価を行う。これ
により、例えば、キーワードの出現率の高い文章が集ま
っている段落を選択してユーザに提示することで、ユー
ザは文書中の関連ある部分のみを見ることができる。
【0004】また、特開平9−6799号公報の「文書
分類装置及び文書検索装置」では、辞書に登録された単
語の文書中の出現回数をその単語の特徴ベクトルとし、
出現する単語の特徴ベクトルの要素を足して文書の特徴
ベクトルを生成する。この文書の特徴ベクトルを用いて
自動的に文書を分類し、ユーザに提示する。
【0005】また、特開平9−44514号公報の「関
連情報判定方法及び装置」では、検索結果から部分情報
として、要約やアブストラクト、見出しなどを取り出
し、これら部分情報間において共通の文字または文字列
がどれくらい存在するかを閾値と比較して、検索結果間
の関連性を求め、ユーザに提示する。これにより、検索
結果の理解に関して、ユーザの負担を軽減する。
【0006】これらの他にも、文書管理ツールや要約作
成ツールにおいて、文書の関連性を評価し、関連ある文
書などを集めて表示すると共に、代表となる文書や要約
文を提示し、その概要を比較させるものが存在する。
【0007】
【発明が解決しようとする課題】しかし、上記の従来技
術には、以下のような問題点がある。特開平5−266
087号公報の「全文検索装置」では、ユーザは、装置
が抽出した関連部分のみを見ることができるが、検索結
果は分類されておらず、装置が抽出した個々の検索結果
を全て見ることになる。すると、同じものでも複数回見
なければならず、検索結果間の関係は、関連部分を見な
がらユーザが判断することになる。このように、関連部
分を持つ情報の取捨選択の指針がない。
【0008】特開平9−6799号公報の「文書分類装
置及び文書検索装置」では、文書全体の文書特徴ベクト
ルを用いて分類するので、情報の部分的な特徴が全体の
中に埋もれてしまい、関連する部分はユーザが探し出さ
なければならない。
【0009】特開平9−44514号公報の「関連情報
判定方法及び装置」では、要約や見出しを用いて部分情
報を比較しているが、要約や見出しに含まれる情報によ
って全て表現されるわけではなく、見出しなどには、注
意を引くための誇張などが含まれ、正確に内容を反映し
ていない場合がある。
【0010】また、要約や重要文を抽出する記述では、
情報中の代表的な部分のみを抽出するため、一部分に埋
もれた関連情報に関する内容が要約に現れるとは限らな
い。逆に、抽出された部分が類似していたとしても、そ
の情報のうちどれくらいの部分が関連するものなのか判
らない。さらに、その要約や重要文が、文書のどの部分
を示しているか判らないため、要約を見て関連ありと判
断しても、その関連情報を得るためには、関連情報を含
む文書を読まなければならず、文書中から必要な情報を
抽出する作業は、人に委ねられる。
【0011】このように、検索及び分類の結果、関連度
の高い情報が集められ、もしくは分類されてユーザに提
示されたとしても、それはシステムが判断した結果であ
り、ユーザはその結果をもとに再度情報の中身を判読
し、各情報の必要性の有無を判別し取捨選択を行う必要
がある。ところが、従来技術では、提示された情報のど
の部分を読めば必要性の有無を判断できるのかが判らな
かった。そのため、ユーザは不必要な文書の内容を大量
に読まされることになり、非効率的であった。
【0012】本発明はこのような点に鑑みなされたもの
であり、情報群の取捨選択の指針となる情報を提示でき
る情報判別支援装置を提供することを目的とする。
【0013】
【課題を解決するための手段】本発明では上記課題を解
決するために、情報の内容によって複数の情報群を分類
することを支援する情報判別支援装置において、前記情
報群内の各情報を評価単位に分割する情報分割手段と、
各評価単位に含まれる語彙に基づいてキーワード群を生
成し、評価単位毎のキーワード群を解析することで各評
価単位の記述内容の特徴を数値化する評価基準数値化手
段と、評価単位同士の特徴を比較することで評価単位間
の類似度を求め、各情報中及び情報間の各評価単位の類
似度に基づいて複数の情報間の類似度を算出し、互いに
類似する情報同士の集合に分類する類似情報分類手段
と、を有することを特徴とする情報判別支援装置が提供
される。
【0014】このような情報判別支援装置によれば、情
報群が与えられると、情報分割手段により、各情報が評
価単位に分割される。すると、評価基準数値化手段によ
り、各評価単位に含まれる語彙に基づいてキーワード群
が生成され、評価単位毎のキーワード群を解析すること
で各評価単位の特徴が数値化される。さらに、類似情報
分類手段により、評価単位同士の特徴を比較することで
評価単位間の類似度が求められ、各情報中及び情報間の
各評価単位の類似度に基づいて複数の情報間の類似度が
算出され、互いに類似する情報同士の集合に分類され
る。
【0015】また、上記課題を解決するために、情報の
内容によって情報群を分類することを支援する情報判別
支援プログラムを記録したコンピュータ読み取り可能な
記録媒体において、前記情報群内の各情報を評価単位に
分割する情報分割手段、各評価単位に含まれる語彙に基
づいてキーワード群を生成し、評価単位毎のキーワード
群を解析することで各評価単位の記述内容の特徴を数値
化する評価基準数値化手段、評価単位同士の特徴を比較
することで評価単位間の類似度を求め、各情報中及び情
報間の各評価単位の類似度に基づいて複数の情報間の類
似度を算出し、互いに類似する情報同士の集合に分類す
る類似情報分類手段、としてコンピュータを機能させる
ことを特徴とする情報判別支援プログラムを記録したコ
ンピュータ読み取り可能な記録媒体が提供される。
【0016】このような記録媒体に記録された情報判別
支援プログラムをコンピュータに実行させれば、上記本
発明に係る情報判別支援装置に必要な機能がコンピュー
タ上に実現される。
【0017】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、本発明の原理構成図であ
る。本発明の情報判別支援装置は、情報分割手段1、評
価基準数値化手段2及び類似情報分類手段3からなる。
【0018】情報分割手段1は、情報群内の各情報4に
形態素解析を行い、評価単位4aに分割する。評価基準
数値化手段2は、各評価単位4aに含まれる語彙に基づ
いてキーワード群を生成し、評価単位毎のキーワード群
を解析することで情報群全体の内容における各評価単位
の記述内容の特徴を数値化する。その結果、評価単位毎
の評価ベクトル4bが得られる。
【0019】類似情報分類手段3は、評価単位同士の評
価ベクトル4bを比較することで評価単位間の類似度を
求め、さらに各情報中及び情報間の各評価単位の類似度
に基づいて複数の情報間の類似度を算出する。そして、
互いに類似する情報同士の集合に分類する。これによ
り、類似情報同士の集まりである類似情報群5が複数生
成される。
【0020】このようにして類似情報群5に分類された
情報を、情報中の類似する評価単位を選択して比較提示
することで、ユーザによる情報の類似性・関連性の判断
を容易にし、有用な情報の取捨選択の手間を軽減するこ
とができる。
【0021】次に、本発明の情報判別支援装置により情
報を分類し、分類結果をユーザに提示するための実施の
形態を説明する。図2は、本発明の実施の形態に係る情
報判別支援装置の構成を示すブロック図である。本実施
の形態に係る情報判別支援装置は、以下の要素で構成さ
れる。
【0022】情報入力部10は、類似判別を行うべき情
報、例えば検索結果として得られた情報群を入力する。
情報格納部20は、入力された情報群や類似度判別を行
った結果を格納する。情報表示部30は、類似判別結果
などを画面上に表示する。情報分割部40は、情報を評
価単位に分割する。評価基準数値化部50は、全情報中
の各評価単位の内容の位置づけを数値化して、評価ベク
トルを生成する。類似情報分類部60は、各情報中及び
情報間の各評価単位の類似度と、情報中の類似する評価
単位の分布と、情報中の類似する評価単位の含有度を用
いて複数の情報間の類似度を算出し類似する情報を分類
する。
【0023】このような情報判別支援装置に情報群を与
えると、情報入力部10により、与えられた情報群が情
報格納部20に格納される。格納された各情報は、情報
分割部40により評価単位に分割される。すると、評価
基準数値化部50により、評価単位毎の評価ベクトルが
求められる。次に、類似情報分類部60によって、各情
報中及び情報間の各評価単位の類似度と、情報中の類似
する評価単位の分布と、情報中の類似する評価単位の含
有度を用いて複数の情報間の類似度が算出され、類似す
る情報が分類される。情報の分類結果は、情報格納部2
0に格納されると共に、情報表示部30によって画面上
に表示される。
【0024】次に、情報判別支援装置の主な構成要素の
詳細について説明する。なお、本装置においては、類似
判別のための情報としてテキストを用いる。ここでテキ
ストとは、コード化された文字情報をいい、報告書、特
許明細書、議事録などの文書、電子メール、電子会議室
に貼り付けられた意見、ホームページなどインターネッ
ト上に流れるテキスト情報など、電子化されたテキスト
情報一般を含む。
【0025】まず、情報分割部40の詳細について説明
する。図3は、情報分割部の内部構成を示す図である。
情報分割部40は、レイアウト判別部41、タイトル削
除部42、及び評価単位生成部43で構成される。レイ
アウト判別部41は、入力された情報からテキスト部分
を認識する。タイトル削除部42は、情報中のタイトル
や見出し、著者名、出典などの部分を削除する。評価単
位生成部43は、抽出されたテキストをテキスト中の区
切りを推定しながら評価単位に分割する。
【0026】図4は、情報判別支援装置の処理の流れを
示すフローチャートである。この処理は、対象となる情
報群が情報入力部10によって入力されたときに開始さ
れる。この処理をステップ番号に沿って説明する。 [S1]レイアウト判別部41が、入力された情報をテ
キスト部分とそれ以外の部分に分割する。 [S2]レイアウト判別部41が、写真や図の部分を取
り除き、テキスト部分のみを抽出する。そして、抽出し
たテキスト部分をタイトル削除部42に渡す。 [S3]タイトル削除部42が、レイアウト情報とテキ
ストのフォントやサイズ、句読点の有無などから、本文
であるか、見出しやタイトルであるかを判断し、タイト
ルや見出しの部分を削除する。このとき、著者名や出
典、リファレンスなどの情報も削除する。 [S4]タイトル削除部42が、テキスト部分のみにな
った情報を、評価単位生成部43に送る。 [S5]評価単位生成部43が、テキスト情報を章や段
落などの区切りを考慮しながら、評価単位に分割する。
例えば、ユーザが指定した評価単位の文字数を200文
字程度とすると、200文字前後において、空白行など
レイアウト上の区切りがあればその部分で、なければ、
改行を示すリターンを検出し、それもなければ読点を検
出して情報を分割する。なお、図や表に付随する説明文
などは、それらを一塊にして処理し、文字数が評価単位
文字数より多い場合は分割を行う。 [S6]評価単位生成部43が、生成された評価単位を
評価基準数値化部50へ送る。
【0027】ここで、具体例を用いて、情報分割部40
の処理内容を説明する。図5は、本装置において処理の
対象となる電子化された文書例を示す図である。図に示
す文書100には、タイトル110と著者名120が記
載されている。その下には、左半分に章題130と文章
140とが記載され、右半分に写真170,180が添
付されている。その下には、さらに章題150と文章1
60とが記載されている。
【0028】このような文書が情報分割部40に入力さ
れると、レイアウト判別部41においてテキスト部分と
それ以外の部分に分割される。この例では、タイトル1
10、著者名120、章題130,150及び文章14
0,160がテキスト部分であり、写真170,180
の部分がテキスト以外の部分である。そこで、レイアウ
ト判別部41により、テキスト部分が抽出される。抽出
されたテキスト部分は、タイトル削除部42によって、
レイアウト情報やテキストのフォントやサイズ、句読点
の有無などから、本文以外の記載内容であるタイトル1
10、著者名120、章題130,150が削除され
る。残った文章140,160の記載内容であるテキス
ト情報は、評価対象としてタイトル削除部42によって
評価単位生成部43に送られる。
【0029】なお、この実施の形態では、文章として内
容を記述している部分のみを、評価対象の情報としてい
る。これは、タイトルなどは相手の気を引くために、も
しくは相手をごまかすために、内容と異なる表現や誇張
した表現を用いる場合があり、情報の内容を的確に表現
しているとは言えないことが多々あるからである。その
ため、タイトルなどに入っている語彙は、あえて評価対
象から外している。
【0030】評価単位生成部43に送られたテキスト情
報は、章や段落などの区切りを考慮しながら、評価単位
に分割される。ここで、生成された評価単位は、評価単
位生成部43によって評価基準数値化部50へ送られ
る。
【0031】このようにして、文書100中のテキスト
が評価単位に分割され、評価基準数値化部50に渡され
る。ところで、文書などは章や段落を持つ場合が多い
が、すべての情報がこのように、意味的な区切りを持っ
ているわけではない。本発明では、章や段落など意味的
に区切られていると思われる部分を考慮しつつも、意味
的な区切りが認識できず、テキストが続く情報について
は、文書の認識単位として指定された文字数で情報を区
切り、評価単位を生成する。
【0032】この方法においては、意味的に同じ部分が
区切られてしまう可能性が考えられるが、同じ内容が続
くならば、それらの情報中に出現する語彙は類似する可
能性が高く、区切られたそれぞれの情報が類似する情報
として提示されるため問題はない。
【0033】また、区切られることで、出現語彙が分離
され、それぞれの情報の類似度が低下したとすると、そ
れは関連語彙が広範囲に分散しているためであり、情報
の密度が低く類似度は低いと考えられる。よって、連続
する情報の文字数による分割による影響は少い。
【0034】次に、評価基準数値化部50の詳細を説明
する。図6は、評価基準数値化部の内部構成を示す図で
ある。図に示す各構成要素の機能を以下に示す。
【0035】キーワード抽出部51は、テキストを形態
素解析し特定品詞の語彙のみをキーワードとして抽出す
る。結合キーワード生成部52は、抽出されたキーワー
ドから特定品詞が連続している部分を抽出し、キーワー
ドを結合して新たな結合キーワードとする。結合キーワ
ード重み付け部53は、キーワードの結合数に応じて結
合キーワードに重みを付ける。キーワードペア生成部5
4は、あるキーワードと同じ文章中に離れて存在する別
の特定品詞のキーワードとを組み合わせて1つのキーワ
ードペアとする。キーワードペア重み付け部55は、生
成したしたキーワードペアにキーワード間の距離を考慮
した重みを付ける。評価ベクトル空間生成部56は、生
成した結合キーワード及びキーワードペアを用い、情報
間で重複する割合の高いもしくは重複のない結合キーワ
ード及びキーワードペアを削除した上で、類似度評価の
ための評価ベクトル空間を生成する。評価ベクトル生成
部57は、各評価単位毎に情報中に存在する結合キーワ
ード及びキーワードペアを検出し評価ベクトルを生成す
る。
【0036】このような評価基準数値化部50における
処理手順を以下に示す。図7は、評価基準数値化部の処
理手順を示すフローチャートの前半である。 [S11]キーワード抽出部51が、以下のステップS
12〜ステップS19の処理を行っていない情報を選択
し、その情報から抽出された評価単位群を処理対象とす
る。 [S12]キーワード抽出部51が、処理対象とした評
価単位群の未処理の評価単位を1つ選択し、その評価単
位の形態素解析を行い、品詞単位の語彙に分解する。 [S13]キーワード抽出部51が、各語彙の中で特定
の品詞以外の語彙を削除する。本実施の形態では、固有
名詞、普通名詞、サ変名詞、動詞を抽出し、他の品詞の
語彙を削除する。 [S14]キーワード抽出部51が、品詞分解された評
価単位中の情報を、句点やピリオドで区切られる1文章
単位で情報格納部20に格納する。さらに連続して存在
する固有名詞、普通名詞には、次の品詞と連続していた
こと示す記号、例えばハイフンを付けて格納する。 [S15]結合キーワード生成部52が、連続した固有
名詞、普通名詞を検出し、これらを結合した新たなキー
ワードを生成する。例えば「情報・分類・装置」のよう
に連続した3つの普通名詞の場合、本実施の形態では、
1つ目と2つ目とを結合した「情報分類」と、1つ目、
2つ目、及び3つ目を結合した「情報分類装置」を新た
なキーワードとする。
【0037】なお、本実施の形態では用いないが、これ
ら意外にも、3つの普通名詞の組み合わせ方は多数存在
し、3つの語彙を2つずつ用いて組み合わせ、語彙の前
後を入れ替えて6つの結合ペアを生成してもよい。 [S16]結合キーワード重み付け部53が、結合キー
ワード生成部52の生成した結合キーワードに対して重
み付けを行う。ここでは、通常の1語彙のキーワードを
重み「1」とし、2つのキーワードを結合した結合キー
ワードには重み「2」を付与し、3つのキーワードを結
合した結合キーワードには重み「3」を付与する。 [S17]キーワードペア生成部54が、キーワード抽
出部51で抽出したキーワード群の中で、離れて存在す
るが特定の関係にある品詞を組み合わせ、キーワードペ
アを生成する。
【0038】例えば、「情報を分類する」というフレー
ズがあった場合、「情報」という名詞と「分類」という
サ変名詞を組み合わせ、これらのペアを1つのキーワー
ドとして用いる。ただし、この場合「情報」と「分類」
という語彙は、それぞれ様々な場面で用いられることが
予想され、これらをそれぞれキーワードとして用いる
と、「情報の分類」とは無関係なものまで、関連情報と
して抽出される可能性がある。そこで、これら関連の深
い語彙を組み合わせ、共に存在した場合のみ関連性を認
めることで、語彙の意味を限定してキーワードとして用
いることを可能とする。本実施の形態では、1文章中の
普通名詞、固有名詞と、その文章中の動詞の直前に存在
する普通名詞もしくはサ変名詞を組み合わせてキーワー
ドペアとする。
【0039】なお、本実施の形態では用いないが、形容
詞と名詞や形容詞と動詞など、同時に使われることで意
味を限定するような組み合わせは、同様に用いることが
可能である。 [S18]キーワードペア重み付け部55が、キーワー
ドペアに対して重み付けを行う。これは、通常の1語彙
のキーワードを重み「1」とし、1つの語彙のキーワー
ドと組み合わせを行ったキーワードペアには重み「2」
を付与し、2つの語彙を結合した結合キーワードと組み
合わせを行ったキーワードペアには重み「3」を付与す
る。 [S19]キーワードペア生成部54は、これらキーワ
ード群の生成処理終了後、キーワード中の動詞と1文字
の語彙からなるキーワードとを削除する。これは、動詞
は「する」や「行う」など、汎用性が高く意味を限定し
難いためであり、1文字の語彙も「今」や「何」といっ
たものが多く含まれるためである。
【0040】なお、本実施の形態では、重みの決定に際
し語彙の出現回数は考慮しない。これは、汎用性のある
語彙であれば、文章中に複数回出現するのが普通であ
り、かといって、特定の語彙が複数回出現した場合に、
その出現語彙に関する内容の情報であるかというと、そ
うでない場合が多いからである。すなわち、情報の内容
は、特定の語彙のみでは、情報の持つ意味の範囲が広過
ぎて限定できない。通常は、対象と目的や対象と方法な
ど、複数の語彙により情報の内容を限定し、ユーザの目
的に合った情報を取捨選択していると考えられる。よっ
て、本実施の形態では、情報の内容は、特定語彙の出現
回数ではなく、語彙の組み合わせの方がその内容を表現
するのに適していると考え、結合キーワードもしくはキ
ーワードペアとなる語彙の重みのみを考慮する。
【0041】また、複数の語彙を結合した重みの大きい
キーワード含む文書群は、特にキーワードが示す内容に
関して一致している可能性が高い。例えば、「情報分類
装置」の場合、「情報分類」では、「情報分類機関」や
「情報分類の研究者」など装置と直接関連のないものも
含まれるが、「情報分類装置」であれば、より関連の高
いもののみが選ばれる。また、このような長いキーワー
ドが一致した場合は、そのキーワードを構成する個々の
キーワードも一致するため、一致したキーワードの重み
だけでなく、一致するキーワード数も多くなり、情報の
類似度は飛躍的に高くなる。
【0042】図8は、評価基準数値化部の処理手順を示
すフローチャートの後半である。 [S20]キーワードペア生成部54は、情報中のすべ
ての評価単位の処理が終了したか否かを判断する。情報
中のすべての評価単位の処理が終了したのであればステ
ップS21に進み、そうでなければ次の評価単位の処理
を行うべき旨の指令をキーワード抽出部51に送信し、
処理をステップS12に進める。 [S21]キーワードペア生成部54は、すべての情報
に対する処理が終了したか否かを判断する。情報中のす
べての評価単位の処理が終了したのであればステップS
22に進み、そうでなければ次の情報の処理を行うべき
旨の指令をキーワード抽出部51に送信し、処理をステ
ップS11に進める。
【0043】以上の処理により、各情報中の評価単位に
対応するキーワード群が生成される。生成されたキーワ
ード群は、情報格納部20により記憶装置などに格納さ
れる。全ての情報の評価単位についてキーワード群が生
成された後、ステップS22以降の処理が行われる。 [S22]評価ベクトル空間生成部56が、各評価単位
のキーワード群から、一定の割合以上のキーワード群に
存在するキーワードを、各評価単位のキーワード群から
削除する。これは、大多数の評価単位に存在するキーワ
ードがあった場合、そのキーワードは評価単位を分類す
るためには何も寄与しないために行われる処理である。
例えば、全評価単位の7割以上に含まれるキーワードは
削除する。 [S23]評価ベクトル空間生成部56が、各評価単位
のキーワード群から、一定の割合以下のキーワード群に
しか存在しないキーワードを削除する。これは、全評価
単位中の少数の評価単位にしか存在しないキーワード
は、評価単位を分類するためには何も寄与しないために
行われる処理である。例えば、全評価単位の1割以下に
しか含まれないキーワードは削除する。
【0044】なお、ステップS22,S23で行った削
除処理の基準となるキーワードが含まれる割合は、情報
の分類の状況やユーザの好みで変更することが可能であ
る。 [S24]評価ベクトル空間生成部56が、不必要と思
われるキーワードを削除した全評価単位のキーワード群
(すべての情報の各評価単位のキーワード群すべて)を
用いて、評価ベクトル空間を生成する。評価ベクトル空
間は、全ての評価単位のキーワード群からキーワード、
結合キーワード、キーワードペアを抽出し、全種類のキ
ーワード、結合キーワード、キーワードペアを1つずつ
そろえたものである。評価ベクトル空間生成時には、キ
ーワード群中に重複して存在するものがあったとして
も、その出現回数や個数は考慮されない。また、その出
現回数や個数に関係なく、存在するキーワードは評価ベ
クトル空間に1つだけ含まれる。 [S25]評価ベクトル生成部57が、評価ベクトル空
間を用いて、各評価単位の評価ベクトルを生成する。評
価ベクトルを生成するには、まず、その評価単位のキー
ワード群を用い、評価ベクトル空間の要素中にキーワー
ド群中のキーワード、結合キーワード、キーワードペア
があれば、一致した要素にキーワードの持つ重みを与え
る。ここで、キーワード群中に存在しない評価ベクトル
空間の要素は0となる。このように重みの値が付与され
た評価ベクトル空間の要素が、各評価単位の評価ベクト
ルとなる。
【0045】このようにして、評価単位に分割された情
報に基づいて、部分類似度算出のための、評価ベクトル
が生成される。ここで、評価基準数値化部50における
処理を、具体例を用いて説明する。
【0046】図9は、評価単位となる情報の例を示す図
である。これは、処理対象の情報に記載された文章に含
まれる評価単位71である。評価基準数値化部50がこ
のような評価単位71を取得すると、キーワード抽出部
51が評価単位71の記載内容を品詞単位の語彙に分解
する。
【0047】図10は、品詞分解をした結果を示す図で
ある。品詞分解が行われると、図のような語彙のリスト
72が生成される。例えば、「マルチメディア時代にネ
ットワークに期待されるサービスは何か。」という文
は、「マルチメディア」(普通名詞)、「メディア」
(普通名詞)、「時代」(普通名詞)、「に」(名詞接
続助詞)、「ネットワーク」(普通名詞)、「に」(名
詞接続助詞)、「期待」(サ変名詞)、「さ」(動
詞)、「れる」(動詞性接尾詞)、「サービス」(サ変
名詞)、「は」(副助詞)、「何」(普通名詞)、
「か」(終助詞)、「。」(句点)という語彙に分解さ
れる。
【0048】次に、キーワード抽出部51により、評価
単位の文から得られた複数の語彙の中から、特定の品詞
以外の語彙が削除され、1文章毎に情報格納部20に格
納される。
【0049】図11は、不要な語彙を削除し1文章毎に
格納したキーワード群を示す図である。この例に示した
評価単位71の文章は、3つの文で構成されるため、3
つのキーワード群73a〜73cが生成されている。例
えば、キーワード群73aは、「マルチメディア時代に
ネットワークに期待されるサービスは何か。」という文
から生成されたものである。この文の中で、「に」、
「れる」、「は」、「か」、「。」という語彙は、固有
名詞、普通名詞、サ変名詞、動詞のいずれでもないため
削除されている。また、「マルチ」や「メディア」は、
次の固有名詞もしくは普通名詞と連続していたため
「−」の記号が付加されている。
【0050】このようにして生成されたキーワード群を
用いて、結合キーワード及びキーワードペアが生成さ
れ、さらに重みが付けられる。図12は、1文章毎の結
合キーワードとキーワードペアを含んだキーワード群の
例を示す図である。キーワード群74a〜74c中のハ
イフンで繋がれた語彙のペアは、キーワードペアである
ことを示す。また、各キーワードに付けられている数字
は、1語彙のキーワードの重みを1とした場合の、各キ
ーワードに付けられた重みである。例えば、キーワード
群74aでは、「マルチ」や「メディア」は単一の語彙
であるため、重みの値は1である。また、「マルチメデ
ィア時代」は、「マルチ」、「メディア」、「時代」の
3つの語彙で構成されるため、重みの値は3である。
【0051】この文章毎のキーワード群から、重複する
キーワードを削除し、各種類のキーワードを1つずつ含
んだものが、評価単位のキーワード群となっている。こ
のように文章毎に生成されたキーワード群が統合され、
評価単位に対するキーワード群となる。
【0052】図13は、評価単位のキーワード群を示す
図である。このキーワード群75と同様のキーワード群
が、すべての情報の評価単位毎に生成され、それらのキ
ーワード群から入力された情報群における評価ベクトル
空間が生成される。
【0053】図14は、評価ベクトル空間を示す図であ
る。この評価ベクトル空間76は、簡略化のため、前述
の評価単位とは関連しない評価ベクトル空間を示してい
る。ここで、図15のようなキーワード群が存在した場
合を考える。
【0054】図15は、評価単位のキーワード群の例を
示す図である。このキーワード群77について、図14
に示した評価ベクトル空間76での評価を行うと、図1
6のようになる。
【0055】図16は、評価単位の評価ベクトルの生成
状況を示す図である。このように、評価ベクトル78
は、評価ベクトル空間76中の各要素に対応する数値の
列で表される。評価ベクトル78中の値を持つ要素数と
要素の位置が、評価ベクトル空間76中での評価単位の
方向を表わし、評価ベクトル要素の値の大きさがベクト
ルの大きさを表す。この方向と大きさがその評価単位の
情報の特徴を表し、評価ベクトルが類似した方向を向
き、類似した大きさならば、その評価単位の内容は類似
していると考えられる。
【0056】このように、情報の分類において、単語や
語彙単位の出現頻度ではなく、関連性のある単語や語彙
を組み合わせて結合キーワードもしくはキーワードペア
として用いることにより、個々の単語や語彙の意味を限
定して類似度を判定することができ、従来より高い精度
での分類を実現することを可能とする。
【0057】次に、類似情報分類部の詳細を説明する。
類似情報分類部は、評価基準数値化部で得られた評価ベ
クトル空間と評価単位の評価ベクトルを用いて、情報を
分類すると共に、情報間の部分(評価単位)の類似性を
示し、情報の構成の類似性や類似部分の分布、必要な情
報の位置を一瞥できるようにするものである。
【0058】図17は、類似情報分類部の内部構成を示
す図である。図に示す各構成要素の機能を以下に示す。
類似部分判別部61は、情報の評価単位毎の評価ベクト
ルからベクトル間の内積もしくは相対角度とベクトル間
距離を求め、評価単位毎の類似度判定を行いグループ分
けを行う。情報類似度判定部62は、情報間の類似する
評価単位の含有度及び分布状態から情報間の類似度を判
別する。インデックス情報検出部63は、類似評価単位
中からそのグループの代表となる評価単位及び評価ベク
トルを検出する。類似部分提示部64は、複数の類似す
る評価単位を類似度順などで順次比較表示し、内容の類
似度を確認する。類似状況提示部65は、情報間の類似
度を確認するために、情報中及び情報間の評価単位の類
似部分とその分布が判るように一覧表示する。
【0059】図18は、類似情報分類部の処理手順を示
すフローチャートの前半である。 [S31]類似部分判別部61が、評価ベクトルを用い
て評価単位間の類似度を算出する。類似度の判別は、2
つの評価単位の評価ベクトルからその内積を求め、内積
の値を類似判定値として、その大きさによって類似性を
判別する。類似判定のための閾値は、情報の分類状況や
ユーザの好みによって変更することが可能である。この
他にも、ベクトル間の角度とベクトルの大きさから、類
似度を判別してもよい。 [S32]類似部分判別部61が、類似度判別の結果、
互いに類似している評価単位の双方に対して、類似する
相手の評価単位の識別番号、その類似判定値、及び同じ
分類であることを示す分類番号を付与する。 [S33]類似部分判別部61が、すべての評価単位間
の類似度判別が終了したか否かを判断する。類似度判別
が終了したのであればステップS34に進み、そうでな
ければステップS31に進む。なお、評価単位間の類似
度判別は、同一情報内の評価単位同士であるか、異なる
情報内の評価単位同士であるかに関わらず、すべての評
価単位間で行う。 [S34]情報類似度判定部62が、比較対象となる2
つの情報を構成する評価単位の中で、互いに類似する評
価単位のそれぞれの情報内における含有度を求める。 [S35]情報類似度判定部62が、類似する評価単位
の含有度と、互いに類似する評価単位の類似判定値とか
ら、情報間の類似性を求める。そして、類似性の値が一
定の閾値を超えた情報間は類似性があると判断し、同じ
カテゴリーに分類する。類似性の算出方法としては、例
えば、互いに類似する評価単位の含有度に、類似する評
価単位間の類似判定値を乗算する。
【0060】なお、この例では、情報間の類似判定は、
大まかな範囲での区分けにとどめる。これは、詳細な判
定値を用いて文書を順位付けしても必ずしもユーザの意
図と一致しないため、まずは大局的な判断での分類を行
い、以後の細かな類似判別はユーザに委ねるためであ
る。 [S36]情報類似度判定部62が、同じカテゴリーに
分類された情報に対して、同一のカテゴリーラベルを付
与する。なお、情報間の類似度には特に順位付けは行わ
ないが、結果の表示においては、他の評価単位と類似す
る評価単位の含有度を指針として、含有度の大きいもの
を優先して表示する。 [S37]情報類似度判定部62は、すべての情報間の
類似度判別が終了したか否かを判断する。判別が終了し
ていればステップS38に進み、そうでなければステッ
プS34に進む。
【0061】図19は、類似情報分類部の処理手順を示
すフローチャートの後半である。 [S38]インデックス情報検出部63が、類似判別に
おいて情報間毎に行ったカテゴリー分けが適切かどうか
を分類された情報間で見直し、複数のカテゴリーに分類
された情報については、含有度の高い方を優先し、他方
との関連に関しては、補足情報として情報格納部20に
格納する。 [S39]インデックス情報検出部63が、ステップS
38で行った見直しの処理において、分類したカテゴリ
ー内の情報群の中で最も多く含まれている種類の分類番
号を特定し、その分類番号を持つ評価単位を全て抽出す
る。そして、この同じ分類番号を持つ評価単位の評価ベ
クトルの中で、中心となる評価ベクトルを選び出し、こ
れをこのカテゴリーのインデックス情報として登録す
る。この中心となるベクトルの抽出は、例えば、各評価
ベクトルのうち最大角度を持つ組み合わせを抽出し、そ
れらの中間にあるもの、それぞれの評価ベクトルと同じ
角度を持つものを探し出すことで、カテゴリーの中心と
なる評価ベクトルを選出できる。
【0062】インデックス情報は、そのインデックス情
報の評価単位が、カテゴリーの情報を表わす代表情報と
して示される。また、その評価単位から抽出されたキー
ワード群は、そのカテゴリーのキーワードとして用いら
れる。さらに、インデックス情報は、新たに入力された
情報を分類する場合における、類似性判定の指針として
も利用する。
【0063】これら分類された情報は、類似部分提示部
64と類似状況提示部65により、その情報間の関係や
内容がユーザに示され、ユーザ自身の手で、必要な情報
を取り出すことが可能となる。 [S40]類似部分提示部64が、分類したカテゴリー
毎に、その情報内の評価単位の分類番号の同じ評価単位
を集め、他の評価単位との間の類似順に各評価単位を並
べ、表を作成する。類似順は、分類番号の同じ他の評価
単位との間の類似度の合計値を比較することで求める。
作成した表は、情報格納部20に格納する。格納された
表の内容は、情報表示部30によって表示される。
【0064】なお、類似順に並べられた評価単位には、
他のカテゴリーにある類似評価単位へのリンクが張られ
ている。これによりユーザは、必要とする情報に類似し
た評価単位を選択することで、収集し分類した情報全体
の中で、必要な部分のみを見ることができ、またその評
価単位を含む情報がどのカテゴリーに含まれるかを知る
ことで、新たな関連情報を見つけることができる。 [S41]類似状況提示部65が、分類したカテゴリー
内の情報を、類似する評価単位の含有度の大きい順に並
べた表を作成し、情報格納部20に格納する。情報格納
部20に格納された表は、情報表示部30によって表示
される。 [S42]類似状況提示部65が、各情報毎にその評価
単位の類似する部分がどこか、どれくらい存在するかを
一瞥でき、且つ他の情報との比較が容易なように、一覧
にして提示するための表を作成し、情報格納部20に格
納する。情報格納部20に格納された表は、情報表示部
30によって表示される。
【0065】これによりユーザは、任意の評価単位の内
容を理解することで、その評価単位を含む情報の内容を
推定でき、評価単位の分布や情報中に含まれる評価単位
の種類などから、情報が有用であるかどうかの判断を行
うことができる。また、情報間の含まれる評価単位の分
布を比較することで、内容の類似性を確認でき、装置の
分類結果の確認を行うこともできる。
【0066】図20は、類似状況提示部による情報間の
類似状況表示の例を示す図である。この図において、同
じ模様の部分は同じ分類番号の評価単位であることを示
す。これから文書などの情報間で、類似部分がどれくら
いある文書なのかが容易に判る。
【0067】従来は必要な内容が含まれると思われる情
報、例えば文書を収集し、その中から必要な部分情報を
探し出していた。本発明によれば、情報の構成の類似性
や類似部分の分布、必要な情報の位置を一瞥でき、必要
な部分情報を探し出してから、その部分情報が含まれる
文書を取り出すことが可能となる。
【0068】また本発明によれば、評価ベクトル空間生
成部を用いて生成した評価ベクトル空間を用いて、入力
文書や送られてくる情報をフィルタリングし、指定の類
似度の評価単位を持つ文書のみを選択し、ユーザに提示
するような情報フィルタリング機能を提供することも可
能である。
【0069】また本発明によれば、評価ベクトル空間生
成部を用いて生成した評価ベクトル空間を用いて、デー
タベースなどを検索し、規定の類似度の評価単位を持つ
情報のみを選択し、ユーザに提示する情報検索装置とし
て用いることも可能である。
【0070】また、ユーザが求めるものは、必要な情報
を含む文書ではなく、文書中に存在する情報である。こ
れまでの検索や分類は、欲しい情報を含んでいると思わ
れる文書を集めるものであり、欲しい情報そのものを提
示するものではなかった。本発明は、欲しい情報である
と思われる部分が情報全体にどのように分布しているか
を提示することができ、ユーザは、情報間の類似や差異
を確認した上で、情報の有無を判断できる。
【0071】さらに、本発明は情報を含む媒体の有用性
の判断を促し、また直接的に有用な情報を提示するもの
であり、これまでの情報の検索や分類で行われていたよ
うな、必要な情報の密度を上げるものではなく、情報の
取捨選択を効率化するものである。
【0072】なお、上記の実施の形態では、情報の分類
数は不定であったが、インデックス情報となる情報数を
指定することで、分類数を指定するようにしてもよい。
また、上記の実施の形態では、インデックス情報をシス
テムが求め出していたが、ユーザが任意にインデックス
情報を指定できるようにしてもよい。この場合、類似情
報分類部はユーザの指定した情報をインデックス情報と
して情報を分類する。
【0073】また、生成された評価ベクトル空間を用い
て入力文書群を検索し、規定の類似度の評価単位を持つ
文書のみを選択し、ユーザに提示するような情報検索機
能を備えさせることもできる。
【0074】また、上記の処理機能は、コンピュータに
よって実現することができる。その場合、情報判別支援
装置が有すべき機能の処理内容は、コンピュータで読み
取り可能な記録媒体に記録されたプログラムに記述して
おく。そして、このプログラムをコンピュータで実行す
ることにより、上記処理がコンピュータで実現される。
コンピュータで読み取り可能な記録媒体としては、磁気
記録装置や半導体メモリ等がある。市場に流通させる場
合には、CD−ROM(Compact Disk Read Only Memor
y) やフロッピーディスク等の可搬型記録媒体にプログ
ラムを格納して流通させたり、ネットワークを介して接
続されたコンピュータの記憶装置に格納しておき、ネッ
トワークを通じて他のコンピュータに転送することもで
きる。コンピュータで実行する際には、コンピュータ内
のハードディスク装置等にプログラムを格納しておき、
メインメモリにロードして実行する。
【0075】
【発明の効果】以上説明したように本発明の情報判別支
援装置では、情報群を互いに類似する情報に分類し、且
つ各情報内の評価単位毎の類似度も求めるようにしたた
め、これらの情報の分類及び評価単位間の類似情報をユ
ーザに提示すれば、ユーザによる情報の類似性・関連性
の判断が容易となり、有用な情報の取捨選択の手間が軽
減される。
【0076】また、本発明の情報判別支援プログラムを
記録したコンピュータ読み取り可能な記録媒体では、記
録媒体に記録された情報判別支援プログラムをコンピュ
ータに実行させることにより、情報群を互いに類似する
情報に分類し、且つ各情報内の評価単位毎の類似度も求
めるような処理をコンピュータに実行させることができ
る。
【図面の簡単な説明】
【図1】 本発明の原理構成図である。
【図2】 本発明の実施の形態に係る情報判別支援装置
の構成を示すブロック図である。
【図3】 情報分割部の内部構成を示す図である。
【図4】 情報判別支援装置の処理の流れを示すフロー
チャートである。
【図5】 本装置において処理の対象となる電子化され
た文書例を示す図である。
【図6】 評価基準数値化部の内部構成を示す図であ
る。
【図7】 評価基準数値化部の処理手順を示すフローチ
ャートの前半である。
【図8】 評価基準数値化部の処理手順を示すフローチ
ャートの後半である。
【図9】 評価単位となる情報の例を示す図である。
【図10】 品詞分解をした結果を示す図である。
【図11】 不要な語彙を削除し1文章毎に格納したキ
ーワード群を示す図である。
【図12】 1文章毎の結合キーワードとキーワードペ
アを含んだキーワード群の例を示す図である。
【図13】 評価単位のキーワード群を示す図である。
【図14】 評価ベクトル空間を示す図である。
【図15】 評価単位のキーワード群の例を示す図であ
る。
【図16】 評価単位の評価ベクトルの生成状況を示す
図である。
【図17】 類似情報分類部の内部構成を示す図であ
る。
【図18】 類似情報分類部の処理手順を示すフローチ
ャートの前半である。
【図19】 類似情報分類部の処理手順を示すフローチ
ャートの後半である。
【図20】 類似状況提示部による情報間の類似状況表
示の例を示す図である。
【符号の説明】
1 情報分割手段 2 評価基準数値化手段 3 類似情報分類手段 4 情報 4a 評価単位 4b 評価ベクトル 5 類似情報群
フロントページの続き Fターム(参考) 5B009 QA03 SA12 VA02 VC01 5B075 KK34 ND03 NK02 NK32 NR02 NR12 PQ02 PQ20 PQ40 PQ46 PQ75 PR06 QM08 UU06 UU40

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 情報の内容によって複数の情報群を分類
    することを支援する情報判別支援装置において、 前記情報群内の各情報を評価単位に分割する情報分割手
    段と、 各評価単位に含まれる語彙に基づいてキーワード群を生
    成し、評価単位毎のキーワード群を解析することで各評
    価単位の記述内容の特徴を数値化する評価基準数値化手
    段と、 評価単位同士の特徴を比較することで評価単位間の類似
    度を求め、各情報中及び情報間の各評価単位の類似度に
    基づいて複数の情報間の類似度を算出し、互いに類似す
    る情報同士の集合に分類する類似情報分類手段と、 を有することを特徴とする情報判別支援装置。
  2. 【請求項2】 前記類似情報分類手段の分類した内容を
    表示する情報表示手段をさらに有することを特徴とする
    請求項1記載の情報判別支援装置。
  3. 【請求項3】 前記情報表示手段は、類似する評価単位
    同士を視覚的に判別できるように表示することを特徴と
    する請求項2記載の情報判別支援装置。
  4. 【請求項4】 前記類似情報分類手段は、同一の集合に
    含まれる情報の中で、各情報中及び異なる情報間の評価
    単位を類似度に応じた順番に並べることを特徴とする請
    求項1記載の情報判別支援装置。
  5. 【請求項5】 前記評価基準数値化手段は、評価単位に
    対して形態素解析を行うことで語彙を抽出し、特定の品
    詞の連続する語彙を結合することにより得られる結合キ
    ーワードを前記キーワード群に含めることを特徴とする
    請求項1記載の情報判別支援装置。
  6. 【請求項6】 前記評価基準数値化手段は、評価単位に
    対して形態素解析を行うことで連続した固有名詞、普通
    名詞を検出し、これらを結合することで前記結合キーワ
    ードを生成することを特徴とする請求項5記載の情報判
    別支援装置。
  7. 【請求項7】 前記評価基準数値化手段は、生成した結
    合キーワードに対して重み付けを行い、重みを反映させ
    て、各評価単位の記述内容の特徴を数値化することを特
    徴とする請求項5記載の情報判別支援装置。
  8. 【請求項8】 前記評価基準数値化手段は、評価単位に
    対して形態素解析を行うことで語彙を抽出し、離れて存
    在する特定品詞の語彙のペアからなるキーワードペアを
    前記キーワード群に含めることを特徴とする請求項1記
    載の情報判別支援装置。
  9. 【請求項9】 前記評価基準数値化手段は、1文章中の
    普通名詞、固有名詞と、その文章中の動詞の直前に存在
    する普通名詞もしくはサ変名詞を組み合わせて前記キー
    ワードペアを生成することを特徴とする請求項8記載の
    情報判別支援装置。
  10. 【請求項10】 前記評価基準数値化手段は、生成した
    キーワードペアに対して重み付けを行い、重みを反映さ
    せて、各評価単位の記述内容の特徴を数値化することを
    特徴とする請求項8記載の情報判別支援装置。
  11. 【請求項11】 前記評価基準数値化手段は、すべての
    評価単位から生成された前記キーワード群を合成した合
    成キーワード群を用いて評価ベクトル空間を生成し、評
    価単位毎の前記キーワード群と前記評価ベクトル空間と
    を比較することにより、各評価単位の記述内容の特徴を
    数値化することを特徴とする請求項1記載の情報判別支
    援装置。
  12. 【請求項12】 情報の内容によって情報群を分類する
    ことを支援する情報判別支援プログラムを記録したコン
    ピュータ読み取り可能な記録媒体において、 前記情報群内の各情報を評価単位に分割する情報分割手
    段、 各評価単位に含まれる語彙に基づいてキーワード群を生
    成し、評価単位毎のキーワード群を解析することで各評
    価単位の記述内容の特徴を数値化する評価基準数値化手
    段、 評価単位同士の特徴を比較することで評価単位間の類似
    度を求め、各情報中及び情報間の各評価単位の類似度に
    基づいて複数の情報間の類似度を算出し、互いに類似す
    る情報同士の集合に分類する類似情報分類手段、 としてコンピュータを機能させることを特徴とする情報
    判別支援プログラムを記録したコンピュータ読み取り可
    能な記録媒体。
JP27631398A 1998-09-30 1998-09-30 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法 Expired - Fee Related JP3921837B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27631398A JP3921837B2 (ja) 1998-09-30 1998-09-30 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27631398A JP3921837B2 (ja) 1998-09-30 1998-09-30 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法

Publications (3)

Publication Number Publication Date
JP2000112949A true JP2000112949A (ja) 2000-04-21
JP2000112949A5 JP2000112949A5 (ja) 2004-10-21
JP3921837B2 JP3921837B2 (ja) 2007-05-30

Family

ID=17567722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27631398A Expired - Fee Related JP3921837B2 (ja) 1998-09-30 1998-09-30 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法

Country Status (1)

Country Link
JP (1) JP3921837B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100356105B1 (ko) * 2000-05-30 2002-10-19 주식회사 엔아이비소프트 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템
JP2003030237A (ja) * 2001-07-11 2003-01-31 Just Syst Corp ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ
JP2004171215A (ja) * 2002-11-19 2004-06-17 Yamatake Corp 文書管理装置
JP2006293616A (ja) * 2005-04-08 2006-10-26 Nippon Telegr & Teleph Corp <Ntt> 文書集約方法及び装置及びプログラム
JP2006350656A (ja) * 2005-06-15 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2010122823A (ja) * 2008-11-18 2010-06-03 Nec Corp テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム
JP2012524314A (ja) * 2009-04-16 2012-10-11 株式会社東芝 データ検索およびインデクシングの方法および装置
US9262735B2 (en) 2013-08-12 2016-02-16 International Business Machines Corporation Identifying and amalgamating conditional actions in business processes
JP2019101993A (ja) * 2017-12-07 2019-06-24 富士通株式会社 特定プログラム、特定方法および情報処理装置
JP2020181529A (ja) * 2019-04-26 2020-11-05 一般財団法人日本特許情報機構 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム
WO2022130578A1 (ja) * 2020-12-17 2022-06-23 富士通株式会社 類似度判定プログラム、類似度判定装置、及び、類似度判定方法
WO2022130579A1 (ja) * 2020-12-17 2022-06-23 富士通株式会社 類似度判定プログラム、類似度判定装置、及び、類似度判定方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100356105B1 (ko) * 2000-05-30 2002-10-19 주식회사 엔아이비소프트 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템
JP2003030237A (ja) * 2001-07-11 2003-01-31 Just Syst Corp ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ
JP2004171215A (ja) * 2002-11-19 2004-06-17 Yamatake Corp 文書管理装置
JP2006293616A (ja) * 2005-04-08 2006-10-26 Nippon Telegr & Teleph Corp <Ntt> 文書集約方法及び装置及びプログラム
JP4525433B2 (ja) * 2005-04-08 2010-08-18 日本電信電話株式会社 文書集約装置及びプログラム
JP2006350656A (ja) * 2005-06-15 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP4595692B2 (ja) * 2005-06-15 2010-12-08 日本電信電話株式会社 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2010122823A (ja) * 2008-11-18 2010-06-03 Nec Corp テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム
JP2012524314A (ja) * 2009-04-16 2012-10-11 株式会社東芝 データ検索およびインデクシングの方法および装置
US9223850B2 (en) 2009-04-16 2015-12-29 Kabushiki Kaisha Toshiba Data retrieval and indexing method and apparatus
US9262735B2 (en) 2013-08-12 2016-02-16 International Business Machines Corporation Identifying and amalgamating conditional actions in business processes
US9558462B2 (en) 2013-08-12 2017-01-31 International Business Machines Corporation Identifying and amalgamating conditional actions in business processes
JP2019101993A (ja) * 2017-12-07 2019-06-24 富士通株式会社 特定プログラム、特定方法および情報処理装置
JP7024364B2 (ja) 2017-12-07 2022-02-24 富士通株式会社 特定プログラム、特定方法および情報処理装置
JP2020181529A (ja) * 2019-04-26 2020-11-05 一般財団法人日本特許情報機構 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム
JP7348746B2 (ja) 2019-04-26 2023-09-21 一般財団法人日本特許情報機構 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム
WO2022130578A1 (ja) * 2020-12-17 2022-06-23 富士通株式会社 類似度判定プログラム、類似度判定装置、及び、類似度判定方法
WO2022130579A1 (ja) * 2020-12-17 2022-06-23 富士通株式会社 類似度判定プログラム、類似度判定装置、及び、類似度判定方法
JP7487797B2 (ja) 2020-12-17 2024-05-21 富士通株式会社 類似度判定プログラム、類似度判定装置、及び、類似度判定方法

Also Published As

Publication number Publication date
JP3921837B2 (ja) 2007-05-30

Similar Documents

Publication Publication Date Title
KR101078864B1 (ko) 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
CN105224521B (zh) 主题词提取方法及使用其获取相关数字资源的方法及装置
US8108405B2 (en) Refining a search space in response to user input
US20060206483A1 (en) Method for domain identification of documents in a document database
US8140550B2 (en) System and method for bounded analysis of multimedia using multiple correlations
JP4595692B2 (ja) 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
EP1835422A1 (en) Information processing device and method, and program
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
Krishnaveni et al. Automatic text summarization by local scoring and ranking for improving coherence
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JP2014106665A (ja) 文書検索装置、文書検索方法
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
CN105354182B (zh) 获取相关数字资源的方法及使用其生成专题的方法及装置
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
JP2005122510A (ja) 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP4931114B2 (ja) データ表示装置、データ表示方法及びデータ表示プログラム
Torres-Moreno et al. Automatic summarization system coupled with a question-answering system (qaas)
JP2000163437A (ja) 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
JP4525433B2 (ja) 文書集約装置及びプログラム
Murfi et al. A two-level learning hierarchy of concept based keyword extraction for tag recommendations
JP2003208447A (ja) 文書検索装置、文書検索方法、文書検索プログラム及び文書検索プログラムを記録した媒体
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061107

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070212

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110302

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120302

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130302

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130302

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140302

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees