JP2003016106A - 関連度値算出装置 - Google Patents

関連度値算出装置

Info

Publication number
JP2003016106A
JP2003016106A JP2001198278A JP2001198278A JP2003016106A JP 2003016106 A JP2003016106 A JP 2003016106A JP 2001198278 A JP2001198278 A JP 2001198278A JP 2001198278 A JP2001198278 A JP 2001198278A JP 2003016106 A JP2003016106 A JP 2003016106A
Authority
JP
Japan
Prior art keywords
keyword
document
group
value
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001198278A
Other languages
English (en)
Inventor
Katsunori Yoshiji
克典 芳地
Shoichi Tateno
昌一 舘野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2001198278A priority Critical patent/JP2003016106A/ja
Publication of JP2003016106A publication Critical patent/JP2003016106A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 1又は複数のキーワードから構成されるキー
ワード群と1又は複数の文書から構成される文書群に関
する関連度を表す値として、キーワード群に含まれる各
キーワードと文書群に関するキーワード毎の関連度値を
全てのキーワードについて総和した値を算出する関連度
値算出装置で高精度の関連度値を算出する。 【解決手段】 カテゴリ情報記憶手段2が同類の複数の
固有名から構成される1又は複数のカテゴリに関する情
報を記憶し、固有名キーワード特定手段2が設定された
固有名キーワード特定条件に基づいて固有名に相当する
キーワードを特定し、関連度値算出手段3、7が、特定
されたキーワードについてのキーワード毎関連度値を当
該キーワードと同一のカテゴリに含まれる異なるキーワ
ードを含む1又は複数のキーワードの文書群における出
現状況に基づいて算出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、1又は複数のキー
ワードと1又は複数の文書に関する関連度を表す値を算
出する関連度値算出装置などに関し、特に、固有名に相
当するキーワードの関連度を高めて関連度値を算出する
技術に関する。
【0002】
【従来の技術】例えば、ユーザが保持する文書(種文
書)に関連した文書を検索する文書検索装置が検討等さ
れている。一例として、特開平10−260972号公
報に記載された「関連文書検索装置及び関連文書検索プ
ログラムを記録した記録媒体」では、種文書から抽出さ
れた関連度付き関連語で検索対象となる文書を検索し、
検索した文書に含まれる関連語の関連度に基づいてその
文書の関連度を計算して出力することが行われている。
ここで、関連語の関連度を計算する方法としては、種文
書及び検索対象文書に含まれる単語(関連語)の出現頻
度により決定される。
【0003】しかしながら、単語の出現頻度のみに基づ
いて関連度が決定される場合には、例えば出現頻度は低
いがユーザにとっては重要度が高いと思われるような関
連語の関連度が低い値となってしまい、必ずしも適切な
関連度が算出されるとは限らないといった不具合があっ
た。特に、人名や地名や会社名(企業名)などのような
固有名は、通常、文書を特徴付ける単語であって情報量
が高いと考えられるが、出現頻度のみに基づいて関連度
を計算した場合には必ずしも高い関連度が得られるとは
限らなかった。
【0004】また、例えば、文書群の中の各文書間の距
離を計算して当該計算結果に基づいて文書群を分類する
ことを自動的に行う文書群分類装置が検討等されてい
る。なお、文書間の距離が近ければ関連度が高く、文書
間の距離が遠ければ関連度が低いと考えると、文書間の
距離は文書間の関連度に対応すると考えることができ
る。
【0005】このような文書群分類装置では、2つの文
書間の関連度を求める方法として、例えば辞書と照らし
合わせることにより或いは一般に知られているn−gr
am方式を用いることにより各文書中に含まれる単語を
切り出し、切り出した単語の出現頻度を各自で定めた方
式により計数し、各単語について計数した値を2つの文
書間で乗算した値を全ての単語について総和した値を2
つの文書間の関連度とすることが行われている。
【0006】しかしながら、このような方法では、例え
ば特徴の無い単語も、特徴のある単語と同様に、関連度
を算出するための出現頻度を計数する対象となってしま
って、対象となる単語の範囲が広くなるため、文書を分
類する精度が劣化してしまうといった不具合や、関連度
を計算するために要する時間が増大してしまうといった
不具合があった。
【0007】
【発明が解決しようとする課題】上述のように、従来の
文書検索装置などでは、1又は複数のキーワードと1又
は複数の文書に関する関連度を表す値を算出する場合
に、例えばキーワードとなる全ての単語について同等に
出現頻度等を求めて関連度値を算出していたため、精度
の高い関連度値を得ることができないといった不具合が
あった。
【0008】本発明は、このような従来の事情に鑑みな
されたもので、1又は複数のキーワードと1又は複数の
文書に関する関連度を表す値を算出するに際して、固有
名に相当するキーワードの関連度を高めて関連度値を算
出することにより、算出される関連度値の精度を高くす
ることなどを実現する関連度値算出装置などを提供する
ことを目的とする。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、本発明に係る関連度値算出装置では、1又は複数の
キーワードから構成されるキーワード群と1又は複数の
文書から構成される文書群に関する関連度を表す値とし
て、当該キーワード群に含まれる各キーワードと当該文
書群に関するキーワード毎の関連度値(キーワード毎関
連度値)を全てのキーワードについて総和した値を算出
するに際して、次のようにして、関連度値を算出する。
すなわち、カテゴリ情報記憶手段が同類の複数の固有名
から構成される1又は複数のカテゴリに関する情報を記
憶し、固有名キーワード特定手段が設定された固有名キ
ーワード特定条件に基づいて固有名に相当するキーワー
ドを特定し、関連度値算出手段が、カテゴリ情報記憶手
段に記憶されたカテゴリ情報に基づいて、固有名キーワ
ード特定手段により特定されたキーワードについてのキ
ーワード毎関連度値を、当該キーワードと同一のカテゴ
リに含まれる異なるキーワードを含む1又は複数のキー
ワードの文書群における出現状況に基づいて算出して、
キーワード群と文書群に関する関連度値を算出する。
【0010】従って、固有名であると特定されたキーワ
ードについてのキーワード毎関連値が、当該キーワード
とは異なるが同一のカテゴリに含まれるキーワードが文
書群において出現する状況を考慮して算出されるため、
例えば同一のキーワードばかりでなく異なるものではあ
るが関連のあるキーワードに基づいてキーワード群と文
書群に関する関連度値を算出することができ、これによ
り、算出される関連度値の精度を高めることができる。
【0011】このように、本発明では、異なる語句であ
っても、同一のカテゴリに属するものについては関連度
があることを示すものとして関連度値に算入することが
できる。例えば、「リコー」と「キャノン」とは異なる
会社の呼び方(名前)を表す語句であるが、複写機業界
という同一のカテゴリに属している場合には、或る文書
に出現する「リコー」という語句と他の文書に出現する
「キャノン」という語句との間で非ゼロの関連度値を生
じさせることができる。
【0012】また、具体例として、電子データとしてメ
モリに記憶された辞書が「会社名−電気機器−コンピュ
ータ−事務機器−日本電気」という階層構造、「会社名
−電気機器−コンピュータ−事務機器−リコー」という
階層構造、「会社名−電気機器−コンピュータ−事務機
器−キャノン」という階層構造、「会社名−電気機器−
家電・音響・通信機器−日立」という階層構造、「地名
−日本−茨城県−日立」という階層構造を有している場
合に、これらを固有名詞に関して抽出処理すると、「日
本電気 会社名/電気機器/コンピュータ・事務機
器」、「リコー 会社名/電気機器/コンピュータ・事
務機器」、「キャノン 会社名/電気機器/コンピュー
タ・事務機器」、「日立 会社名/電気機器/家電・音
響・通信機器地名/日本/茨城県」という結果が得られ
る。そして、この結果から、「会社名:日本電気、リコ
ー、キャノン、日立」、「電気機器:日本電気、リコ
ー、キャノン、日立」、「コンピュータ・事務機器:日
本電気、リコー、キャノン」、「家電・音響・通信機
器:日立」という各カテゴリ毎の集合が得られる。この
ような階層構造を関連検索やカテゴライズやクラスタリ
ングに応用することができる。つまり、関連度値を計算
する対象を単語単位とするのではなく、上記した階層構
造の分類に基づくカテゴリ単位とすることにより、例え
ば「家電・音響・通信機器」などという項目(カテゴ
リ)の内部の語句の集合を単位として類似度(関連度)
を求めることができ、これにより、各固有名が属するカ
テゴリによる関連検索やカテゴライズやクラスタリング
を行うことができる。
【0013】ここで、キーワード群に含まれるキーワー
ドの数としては、種々な数であってもよく、1であって
もよく、複数(2以上)であってもよい。同様に、文書
群に含まれる文書の数としては、種々な数であってもよ
く、1であってもよく、複数(2以上)であってもよ
い。このように、本明細書では、キーワード群や文書群
などのように「群」という表現を用いた語句について、
当該「群」に含まれるキーワードや文書といった要素が
1つである場合をも包含している。
【0014】また、キーワードとしては、例えば種々な
品詞を有する語句が用いられてもよく、本発明では、特
に、固有名に相当するキーワードの重要度を高く考慮し
て関連度値を算出する。また、文書としては、種々な文
書が用いられてもよい。なお、通常、文書には種々な品
詞を有する複数の語句が含まれる。また、文書として
は、例えばキーワードがインデックスなどとして付加さ
れたような文書を用いることもできる。
【0015】また、キーワード群と文書群に関する関連
度を表す値としては、例えばキーワード群と文書群とが
どれくらい関連があるかの度合いを表すと考えられる値
が用いられる。なお、通常は、関連度値が大きい方が関
連度が高いという設定が用いられると考えられるが、反
対に、関連度値が小さい方が関連度が高いという設定が
用いられてもよい。
【0016】また、キーワード群に含まれる各キーワー
ドと文書群に関するキーワード毎の関連度値としては、
各キーワード毎に算出することが可能なものであり、例
えば各キーワードが文書群の中に出現するか否かをそれ
ぞれ“1”値又は“0”値を用いて表した値や、各キー
ワードが文書群の中に出現する回数を表した値や出現す
る頻度を表した値などを用いることができる。
【0017】また、例えばキーワード群が或る文書群か
ら抽出されるような場合には、当該キーワード群に含ま
れる各キーワードに、当該文書群における出現状況に応
じた値が設定されていてもよい。このように或る文書群
における各キーワードの出現状況に応じた値が各キーワ
ードに設定された場合には、当該値を考慮して当該各キ
ーワードと他の文書群との関連度値を算出することによ
り、当該或る文書群と当該他の文書群とのキーワード毎
の関連度値を算出することができる。
【0018】また、キーワード毎の関連度値を全てのキ
ーワードについて総和した値を算出するとは、キーワー
ド群に複数のキーワードが含まれる場合にこれら複数の
全てのキーワードについてキーワード毎の関連度値を総
和した値を算出することを言っており、キーワード群に
1つのキーワードのみが含まれる場合には当該1つのキ
ーワードについて算出されるキーワード毎の関連度値が
全てのキーワードについて総和した値に相当する。
【0019】また、固有名としては、種々な語句が用い
られてもよく、例えば、人名、地名、会社名、日付、時
間、日時、製品名などを用いることができる。なお、好
ましい態様としては、本発明に言う固有名として、例え
ば一般に固有名詞として分類される語句の集合をそのま
ま用いることや、或いは、当該集合の一部を用いること
ができる。
【0020】また、設定された固有名キーワード特定条
件としては種々な条件が用いられてもよく、固有名キー
ワード特定条件に基づいて固有名に相当するキーワード
を特定する仕方としては種々な仕方が用いられてもよ
い。また、固有名キーワード特定条件としては、例えば
予めメモリに設定されてもよく、例えばメモリに設定さ
れた内容がユーザにより書き換え可能な構成であっても
よく、或いは、例えば関連度値を算出する際にユーザに
より固有名キーワード特定条件が設定されるような態様
が用いられてもよい。
【0021】具体的には、例えば固有名キーワード特定
条件として固有名として検出する語句を電子データの形
でメモリに設定して、当該語句に一致するキーワードを
固有名に相当するものとして特定する仕方や、例えば固
有名キーワード特定条件として固有名に関する情報を有
する辞書を電子データの形でメモリに設定して、当該辞
書の内容に基づいて固有名の語句に一致するキーワード
を固有名に相当するものとして特定する仕方や、例えば
固有名キーワード特定条件として「株式会社」などの語
句を電子データの形でメモリに設定して、当該「株式会
社」などという接尾辞や接頭辞を有する語句に一致する
キーワードを固有名に相当するものとして特定する仕方
や、例えば固有名キーワード特定条件として地名などの
語句を電子データの形でメモリに設定して、当該地名な
どの語句を先頭や後尾に含む語句に一致するキーワード
を固有名に相当するものとして特定する仕方などを用い
ることができる。
【0022】また、文書に含まれる語句の解析は、例え
ば一般に知られている形態素解析などを用いて行うこと
ができる。また、文書と当該文書に含まれる語句との対
応付けは、種々な態様で行われてもよく、一例として、
各語句及び当該各語句の品詞などの属性情報の組に対応
させて当該各語句が含まれる1又は複数の文書の識別情
報を記憶するような態様を用いることができる。
【0023】また、同類の複数の固有名から構成される
カテゴリとしては、種々なカテゴリが用いられてもよ
く、例えば、人名、同種の人名、会社名、同種の会社
名、製品名、同種の製品名、国内の地名、同一地方の地
名、同一国の地名、花の名前、動物の名前などの種々な
カテゴリを用いることができる。なお、同種の人名とし
ては例えば歴史上の人物名、研究者の名前などを用いる
ことができ、同種の会社名としては例えば食品メーカー
の名前、自動車メーカーの名前などを用いることがで
き、また、他についても同様である。
【0024】具体的には、例えば人名という点で同類で
ある複数の異なる人の名前(名称)である「A」、
「B」、「C」、…など(A、B、Cは人物名)を含ん
で成るカテゴリや、例えば複写機メーカーの会社名とい
う点で同類である複数の異なる会社の名前「A社」、
「B社」、「C社」、…など(A社、B社、C社は会社
名)を含んで成るカテゴリや、例えば複写機の製品名と
いう点で同類である複数の異なる複写機製品の名前「A
機」、「B機」、「C機」、…など(A機、B機、C機
は製品名)を含んで成るカテゴリなどを用いることがで
きる。
【0025】また、カテゴリの数としては、種々な数で
あってもよく、1であってもよく、複数(2以上)であ
ってもよい。また、カテゴリに関する情報としては、例
えば各カテゴリに含まれる複数の固有名のそれぞれを特
定する情報や、同一のカテゴリに含まれる固有名が当該
同一のカテゴリに属することを特定する情報などが用い
られる。
【0026】また、カテゴリ情報記憶手段としては、情
報を電子データの形で記憶するメモリなどを用いること
ができる。また、カテゴリ指定受付手段としては、例え
ばユーザからカテゴリの指定を受け付けるような場合に
は、ユーザにより操作されてカテゴリの指定を行うため
の入力をユーザから受け付けるキーボードやマウスなど
を用いることができる。
【0027】また、例えば関連度値の算出に際してユー
ザがキーワードを入力するような場合には、当該キーワ
ードに相当する語句が含まれるカテゴリが指定されたと
してカテゴリ指定受付手段が当該指定を受け付けるよう
な態様を用いることもできる。
【0028】また、固有名キーワード特定手段により特
定されたキーワードについてのキーワード毎関連度値
を、当該キーワードと同一のカテゴリに含まれる異なる
キーワードを含む1又は複数のキーワードの文書群にお
ける出現状況に基づいて算出する仕方としては、種々な
仕方が用いられてもよく、例えば同一のカテゴリに含ま
れる少なくとも1つのキーワードが文書群中に出現する
か否か(つまり、各カテゴリ毎にカテゴリに含まれるい
ずれか1以上のキーワードが文書群中に出現するか否
か)に基づいて算出する仕方や、例えば同一のカテゴリ
に属するキーワードについてはまとめて(つまり、例え
ば同一のキーワードとみなして)計数することとしてキ
ーワードが文書群中に出現する回数や頻度に基づいて算
出する仕方などを用いることができる。
【0029】また、固有名キーワード特定手段により特
定されたキーワードと同一のカテゴリに含まれる異なる
キーワードを含む1又は複数のキーワードとしては、種
々なものであってもよく、例えば固有名キーワード特定
手段により特定されたキーワードと同一のカテゴリに含
まれる異なるキーワードのみから構成されてもよく、例
えば固有名キーワード特定手段により特定されたキーワ
ードと同一のキーワード及び当該キーワードと同一のカ
テゴリに含まれる異なるキーワードから構成されてもよ
く、或いは、他のキーワードが含まれてもよい。また、
同一のカテゴリに異なるキーワードが複数含まれる場合
には、これら全ての異なるキーワードの文書群における
出現状況に基づいて関連度値が算出されてもよく、或い
は、これら複数の異なるキーワードの中の一部のキーワ
ードについての文書群における出現状況に基づいて関連
度値が算出されてもよい。
【0030】具体的には、例えばキーワードが文書群中
に出現するか否かのそれぞれを“1”値と“0”値とで
表して、各キーワード毎にその値を用いて演算した結果
の値をキーワード毎関連度値とする仕方や、例えばキー
ワードが文書群中に出現する回数や頻度の値を用いて演
算した結果の値をキーワード毎関連度値とする仕方など
を用いることができる。
【0031】また、本発明に係る関連度値算出装置で
は、関連度値算出手段は、固有名キーワード特定手段に
より特定されたキーワードについてのキーワード毎の関
連度を高めてキーワード群と文書群に関する関連度値を
算出する。
【0032】従って、固有名に相当すると特定されたキ
ーワードについてのキーワード毎の関連度を高めること
により、例えば文書を特徴付ける単語であって情報量が
高いと考えられる固有名に相当するキーワードについて
のキーワード毎関連度値を関連度が高い値としてキーワ
ード群と文書群に関する関連度値を算出することがで
き、これにより、算出される関連度値の精度を高くする
ことができる。
【0033】また、本発明に係る関連度値算出装置で
は、一例として、関連度値算出手段は、固有名キーワー
ド特定手段により特定されたキーワードについてのキー
ワード毎関連度値をその算出値と比較して関連度が高い
ことを表す値へ補正することで、当該キーワードについ
てのキーワード毎の関連度を高める。
【0034】このような構成では、固有名キーワード特
定手段により特定されたキーワード以外のキーワードに
ついても考慮した関連度値を算出することができ、この
場合に、固有名キーワード特定手段により特定されたキ
ーワードのキーワード毎関連度値をその算出値より関連
度が高いことを表す値へ補正して、算出される関連度値
の精度を高めることができる。
【0035】ここで、固有名キーワード特定手段により
特定されたキーワードについてのキーワード毎関連度値
をその算出値と比較して関連度が高いことを表す値へ補
正するとは、例えばキーワード毎関連度値が大きい方が
関連度が高いことを表す場合には、固有名に相当するも
のと特定されたキーワードについての補正しないときの
キーワード毎関連度値を当該キーワード毎関連度値より
大きい値へ変更することを言う。なお、キーワード毎関
連度値を補正する度合いとしては、種々な度合いが用い
られてもよく、例えばキーワード毎関連度値を補正する
倍率などが予め設定される態様や、或いは、このような
倍率などがユーザにより設定される態様などを用いるこ
とができる。
【0036】また、本発明に係る関連度値算出装置で
は、他の例として、関連度値算出手段は、固有名キーワ
ード特定手段により特定されたキーワードについてのキ
ーワード毎関連度値を非ゼロとする一方、他のキーワー
ド毎関連度値をゼロとすることで、当該キーワードにつ
いてのキーワード毎の関連度を高める。
【0037】このような構成では、キーワード群と文書
群に関する関連度値を算出するに際して、固有名キーワ
ード特定手段により特定されたキーワードについてのキ
ーワード毎関連度値のみが非ゼロ(つまり、ゼロでない
値)となって、このような非ゼロのキーワード毎関連度
値のみを演算する構成となるため、例えばキーワード群
と文書群に関する関連度値の精度を高くして、当該関連
度値の算出に要する演算量や時間を低減させることがで
きる。
【0038】また、本発明に係る関連度値算出装置で
は、カテゴリ指定受付手段がカテゴリの指定を受け付
け、固有名キーワード特定手段が、カテゴリ情報記憶手
段に記憶されたカテゴリ情報に基づいて、カテゴリ指定
受付手段により受け付けられたカテゴリに含まれる固有
名に相当するキーワードを特定する。
【0039】従って、指定されたカテゴリに含まれる固
有名に相当すると特定されたキーワードについてのキー
ワード毎の関連度を高めることにより、例えばユーザの
要求などに応じて指定されたカテゴリに含まれる固有名
に相当するキーワードの関連度を高めて関連度値を算出
することができ、これにより、ユーザの要求などを反映
させて算出される関連度値の精度を高くすることができ
る。
【0040】具体的には、例えば「三井」などのように
人名のカテゴリ及び会社名のカテゴリといった複数のカ
テゴリに含まれるキーワードや、同様に「日立」などの
ように地名のカテゴリ及び会社名のカテゴリといった複
数のカテゴリに含まれるキーワードについては、これら
複数のカテゴリに含まれる同一のキーワードの全ての関
連度が高められてしまうことがあり得るが、上記のよう
にカテゴリの指定がなされる場合には、同一のキーワー
ドであっても、指定されたカテゴリ以外のカテゴリに含
まれるキーワードについては関連度が高められてしまう
ことを防止することができる。
【0041】つまり、例えば「三井」のように人名や会
社名として複数のカテゴリにおいて用いられる同一の語
句であっても、カテゴリ毎に異なる語句として識別する
ことが可能である。なお、このようなカテゴリ識別を支
援するための実施態様例(1)、(2)を示す。実施態
様例(1)では、一度判別された固有名(例えば固有名
詞)と同一の語句が再度出現した場合には、当該同一の
語句のカテゴリを前回と同じカテゴリであるとみなす。
具体例として、「…三井邦利が先日発表した内容による
と、…、三井は独自のプランを打ち出し、…」という文
がある場合には、文の途中に2回目に出現する「三井」
(「三井は独自の…」の「三井」)はこれだけでは人名
なのか会社名なのかが分からないが、例えば最初の「三
井」(「三井邦利…」の「三井」)が人名のカテゴリに
属すると解析されている場合には、このことをメモリに
記憶しておくことにより、2回目の「三井」のカテゴリ
の判断に迷ったときには、前回の解析結果を参照して人
名のカテゴリに属するものとしてカテゴリを特定するこ
とが可能である。実施態様例(2)では、語句の出現パ
ターンにより、カテゴリを特定する。具体例として、
「三井銀行」については「三井」の後ろに「銀行」が付
くので会社名であると判断する。
【0042】なお、同一の語句がいずれのカテゴリに属
するかは、例えば予め各語句に当該各語句が属するカテ
ゴリの情報を付加しておくことや、例えば各語句の意味
などを解析して当該各語句が属するカテゴリを推測する
ことなどにより判定することができる。
【0043】また、本発明に係る関連度値算出装置で
は、一構成例として、カテゴリ指定受付手段は、カテゴ
リの指定を要求する情報をユーザに対して表示出力し、
当該指定をユーザからの入力により受け付ける。ここ
で、カテゴリの指定を要求する情報としては、例えばユ
ーザに対してカテゴリを指定することを促すような情報
が用いられる。また、表示出力としては、例えばディス
プレイ画面などに表示出力する態様が用いられる。
【0044】また、本発明に係る関連度値算出装置で
は、補正度合い指定受付手段がカテゴリ毎のキーワード
毎関連度値を補正する度合いの指定を受け付け、関連度
値算出手段が、カテゴリ情報記憶手段に記憶されたカテ
ゴリ情報に基づいて、固有名キーワード特定手段により
特定されたキーワードについてのキーワード毎関連度値
を、当該キーワードを含むカテゴリについて補正度合い
指定受付手段により受け付けられた補正度合いを用いて
補正する。
【0045】従って、カテゴリ毎に指定された補正度合
いを用いて、各カテゴリに含まれる固有名に相当すると
特定されたキーワードについてのキーワード毎関連度値
をその算出値より関連度が高いことを表す値へ補正する
ことにより、例えばユーザの要求などに応じた補正度合
いで各カテゴリに含まれる固有名に相当するキーワード
の関連度を高めて関連度値を算出することができ、これ
により、ユーザの要求などを反映させて算出される関連
度値の精度を高くすることができる。
【0046】ここで、カテゴリ毎のキーワード毎関連度
値を補正する度合いとしては、例えば、或るカテゴリA
については補正前のキーワード毎関連度値をa倍する補
正を行い、他のカテゴリBについては補正前のキーワー
ド毎関連度値をb倍する補正を行うなどといったような
場合における倍率(a倍、b倍)を用いることができ
る。
【0047】また、補正度合い指定受付手段としては、
例えばユーザから補正度合いの指定を受け付けるような
場合には、ユーザにより操作されて補正度合いの指定を
行うための入力をユーザから受け付けるキーボードやマ
ウスなどを用いることができる。
【0048】また、本発明に係る関連度値算出装置で
は、一構成例として、補正度合い指定受付手段は、カテ
ゴリ毎の補正度合いの指定を要求する情報をユーザに対
して表示出力し、当該指定をユーザからの入力により受
け付ける。ここで、補正度合いの指定を要求する情報と
しては、例えばユーザに対して補正度合いを指定するこ
とを促すような情報が用いられる。また、表示出力とし
ては、例えばディスプレイ画面などに表示出力する態様
が用いられる。
【0049】また、本発明に係る関連度値算出装置で
は、固有名キーワード情報表示出力手段が固有名キーワ
ード特定手段により特定されたキーワードに関する情報
をユーザに対して表示出力する。従って、キーワード毎
の関連度を高めるものとしてキーワード毎関連度値が補
正されたキーワードに関する情報がユーザに対して表示
出力されるため、ユーザはいずれのキーワードの関連度
が高められたかなどを把握することができる。ここで、
表示出力されるキーワードに関する情報としては、例え
ば当該キーワードの語句や、補正の度合いなどを用いる
ことができる。
【0050】また、以上に示したような本発明に係る関
連度値算出装置は、種々な装置に適用することが可能で
あり、例えばキーワード群などに関連する文書を検索す
る関連文書検索装置や、文書を関連するキーワード群に
カテゴライズする文書カテゴライズ装置や、2つの文書
の間の関連度値に基づいて複数の文書をクラスタリング
する文書クラスタリング装置などに適用することができ
る。
【0051】例えば、本発明に係る関連文書検索装置で
は、1又は複数の文書(種文書)から構成される文書群
(種文書群)から1又は複数のキーワードから構成され
るキーワード群を抽出し、抽出したキーワード群に関連
する文書を複数の検索対象となる文書(検索対象文書)
から構成される文書群(検索対象文書群)から検索し、
検索した各文書に関して抽出したキーワード群に含まれ
る各キーワードと文書とのキーワード毎の関連度を表す
値を全てのキーワードについて総和した値を当該キーワ
ード群と当該文書との関連度値として算出し、当該関連
度値が大きい順に検索した各文書に関する情報を出力す
るに際して、次のようにして、キーワード群と文書との
関連度値を算出する。すなわち、カテゴリ情報記憶手段
が同類の複数の固有名から構成される1又は複数のカテ
ゴリに関する情報を記憶し、固有名キーワード特定手段
が設定された固有名キーワード特定条件に基づいて固有
名に相当するキーワードを特定し、関連度値算出手段
が、カテゴリ情報記憶手段に記憶されたカテゴリ情報に
基づいて、固有名キーワード特定手段により特定された
キーワードについてのキーワード毎関連度値を、当該キ
ーワードと同一のカテゴリに含まれる異なるキーワード
を含む1又は複数のキーワードの文書における出現状況
に基づいて算出して、キーワード群と文書との関連度値
を算出する。
【0052】ここで、種文書群からキーワード群を抽出
する仕方としては、種々な仕方が用いられてもよい。ま
た、抽出したキーワード群に関連する文書を検索対象文
書群から検索する仕方としては、種々な仕方が用いられ
てもよい。具体的には、キーワードを用いて当該キーワ
ードに関連する文書を検索する仕方や、1又は複数の文
書からキーワードを抽出して当該キーワードを用いて関
連する文書を検索する仕方や、キーワードを用いて文書
を検索して当該検索した文書に含まれる他のキーワード
を用いて当該他のキーワードに関連する文書を検索する
仕方などを用いることができる。
【0053】また、具体例として、種文書群に含まれる
文書の総数がNであり、検索対象文書群に含まれる文書
の総数がMであり、抽出したキーワード群に含まれる或
るキーワードについて、種文書群中で当該或るキーワー
ド或いは当該或るキーワードと同一のカテゴリに含まれ
る異なるキーワードが出現する文書の数がnであり、検
索対象文書群中で当該或るキーワード或いは当該或るキ
ーワードと同一のカテゴリに含まれる異なるキーワード
が出現する文書の数がmである場合には、第1の割合値
を(n/N)として、第2の割合値を(m/M)とし
て、当該第1の割合値を当該第2の割合値で除算した値
である出現割合値(n/N)/(m/M)を当該或るキ
ーワードのキーワード毎関連度値とすることができる。
【0054】また、具体例として、抽出したキーワード
群に含まれるキーワードの中で検索した或る文書に出現
するキーワードがz(zは1以上の整数)個あり、当該
文書に対するこれらz個のキーワードのそれぞれの出現
割合値がPi(i=1〜z)である場合には、当該キー
ワード群と当該文書との関連度値はΣPiで表される。
なお、Σはi=1からi=zまでの総和を表す。また、
本発明では、このような計算をするに際して、例えば前
記z個のキーワードの中で同一のカテゴリに含まれるも
のが複数ある場合には1つのみを代表させて他のキーワ
ードは除外することも可能であり、つまり、同一のカテ
ゴリに含まれる2以上のキーワードが抽出されるような
場合には当該2以上のキーワードの中の1つを代表的に
抽出するようなことも可能である。
【0055】また、上記した(n/N)/(m/M)と
いう出現割合値を用いた場合には、当該出現割合値が大
きい方が関連度が高いと考えることができる。また、検
索した各文書に関する情報としては、種々な情報が用い
られてもよく、例えば各文書のタイトルの情報などを用
いることができる。また、情報を出力する仕方として
は、種々な仕方が用いられてもよく、例えば情報をディ
スプレイ画面などに表示出力する仕方や、情報をプリン
タにより印刷出力する仕方などを用いることができる。
【0056】また、固有名キーワード特定手段により特
定されたキーワードの出現割合値を所定数倍するのに用
いられる当該所定数倍としては、例えば予めメモリなど
に設定されてもよく、或いは、ユーザにより指定されて
もよい。
【0057】また、本発明に係る文書カテゴライズ装置
では、1又は複数のキーワードから構成される複数のキ
ーワード群と1又は複数の文書から構成される文書群に
関して、各キーワード群毎にキーワード群に含まれる各
キーワードと文書群とのキーワード毎の関連度を表す値
を全てのキーワードについて総和した値を当該キーワー
ド群と当該文書群との関連度値として算出し、算出され
る関連度値が最高の関連度を表す値となるキーワード群
に当該文書群をカテゴライズするに際して、次のように
して、キーワード群と文書群との関連度値を算出する。
すなわち、カテゴリ情報記憶手段が同類の複数の固有名
から構成される1又は複数のカテゴリに関する情報を記
憶し、固有名キーワード特定手段が設定された固有名キ
ーワード特定条件に基づいて固有名に相当するキーワー
ドを特定し、関連度値算出手段が、カテゴリ情報記憶手
段に記憶されたカテゴリ情報に基づいて、固有名キーワ
ード特定手段により特定されたキーワードについてのキ
ーワード毎関連度値を、当該キーワードと同一のカテゴ
リに含まれる異なるキーワードを含む1又は複数のキー
ワードの文書群における出現状況に基づいて算出して、
キーワード群と文書群との関連度値を算出する。
【0058】ここで、一般的なカテゴライズの一例とし
て、或る文書を或るカテゴリに振り分ける処理の手順例
(1)〜(4)を示す。すなわち、手順(1)では、前
準備として、N(Nは複数)個のカテゴリC1〜CNを
用意する。また、各カテゴリC1〜CNを代表する文書
S1〜SNを各カテゴリC1〜CNについて1件ずつ用
意する。また、用意された各文書S1〜SNのそれぞれ
を単語単位に分割して、各文書Si毎に文書を構成する
単語の集合W(Si)を生成する。なお、i=1〜Nを
示す。
【0059】次に、手順(2)では、カテゴリに振り分
けたい文書(つまり、カテゴリ対象となる文書)Dを単
語単位に分割して、当該文書Dを構成する単語の集合W
(D)を生成する。次に、手順(3)では、各カテゴリ
C1〜CNを代表する文書S1〜SNのそれぞれの単語
集合W(S1)〜W(SN)について、前記単語集合W
(D)と重複して現れる単語の数、つまり各単語集合W
(S1)〜W(SN)に現れて且つ前記単語集合W
(D)にも現れる単語の数K(D、S1)〜K(D、S
N)を求める。
【0060】次に、手順(4)では、各文書S1〜SN
について求められた単語数K(D、S1)〜K(D、S
N)の中で最も数が大きい単語数に対応したカテゴリに
文書Dを分類(カテゴライズ)する。つまり、最大の単
語数がK(D、Si)である場合には、文書Dをカテゴ
リCiにカテゴライズする。
【0061】また、固有名に着目したカテゴライズ手法
の具体例として、上記のようなカテゴライズに本発明を
適用した場合の実施態様例(1)〜(4)を示す。実施
態様例(1)では、上記手順(3)において、単語集合
W(D)と各カテゴリC1〜CNを代表する文書S1〜
SNを構成する単語集合W(S1)〜W(SN)とに重
複して現れる単語の数K(D、S1)〜K(D、SN)
を調べるに際して、重複した単語が固有名(例えば固有
名詞)に相当する場合には、当該固有名の数だけ前記単
語数K(D、Si)を増加させる。具体例として、文書
Siについて10個の単語が文書Dと重複していて、こ
れら10個の単語の中の3個の単語が固有名に相当する
場合には、前記単語数K(D、Si)=10+3=13
とする。なお、本発明では、単語集合W(D)と単語集
合W(Si)とに重複して現れる単語の数を検出する場
合に、例えば一方の単語集合に含まれる単語と同一の単
語ではなくても同一のカテゴリに属する異なる単語が他
方の単語集合に含まれていれば当該一方の文書集合に現
れる単語を重複して現れる単語として検出するような態
様を用いることができる。
【0062】実施態様例(2)では、上記手順(1)に
おいて、或るカテゴリCiを表す文書Siは複数の文書
から構成されてもよいとする。実施態様例(3)では、
上記手順(1)において、或るカテゴリCiを表す文書
Siの代わりに、そのカテゴリCiを代表する単語の集
合を用いてもよいとする。
【0063】実施態様例(4)では、上記手順(3)の
後に上記手順(4)において、重複した単語については
その出現頻度などを考慮した重み付けを行ってもよいと
する。具体例として、単語wiが振り分けたい文書Dに
含まれており、且つ、当該単語wiがN件の文書S1〜
SNの中のy件の文書に含まれている場合には、当該単
語wiの特徴度F(wi)=N/yとし、また、単語w
iが固有名に相当する場合には例えば特徴度F(wi)
=10×(N/y)のように算出される特徴度F(w
i)を所定数倍(ここでは、10倍)する。なお、y=
0の場合には、特徴度F(wi)=0とする。そして、
文書Dに含まれる全ての単語wiについて上記した特徴
度F(wi)を求め、文書Dと文書Siとの類似度R
(D、Si)=ΣF(wk)を算出する。なお、Σはk
=1からk=Kまでの総和を示し、w1〜wKは文書D
と文書Siとで重複して出現する単語(上記と同様に、
同一のカテゴリに属していれば重複するとみなすことも
できる)を示す。このようにして、全ての文書Si(i
=1〜N)についての類似度R(D、Si)を求めて、
最も大きい値の類似度が得られた文書のカテゴリに文書
Dを分類(カテゴライズ)する。つまり、類似度R
(D、Sk)の値が最も大きい場合には、カテゴリCk
に文書Dをカテゴライズする。
【0064】また、本発明に係る文書クラスタリング装
置では、複数の文書から構成される文書群に含まれる2
つの文書に関して、1又は複数のキーワードから構成さ
れるキーワード群に含まれる各キーワードについてのこ
れら2つの文書のキーワード毎の関連度を表す値を全て
のキーワードについて総和した値をこれら2つの文書の
関連度値として算出し、当該関連度値に基づいて当該文
書群に含まれる文書をクラスタリングするに際して、次
のようにして、2つの文書の関連度値を算出する。すな
わち、カテゴリ情報記憶手段が同類の複数の固有名から
構成される1又は複数のカテゴリに関する情報を記憶
し、固有名キーワード特定手段が設定された固有名キー
ワード特定条件に基づいて固有名に相当するキーワード
を特定し、関連度値算出手段が、カテゴリ情報記憶手段
に記憶されたカテゴリ情報に基づいて、固有名キーワー
ド特定手段により特定されたキーワードについての2つ
の文書のキーワード毎関連度値を、当該キーワードと同
一のカテゴリに含まれる異なるキーワードを含む1又は
複数のキーワードの文書における出現状況に基づいて算
出して、これら2つの文書の関連度値を算出する。
【0065】なお、文書群に含まれる複数の文書をクラ
スタリングする仕方としては、一例として、これら複数
の文書の中の2つの文書の関連度値を算出することを全
ての文書の組み合わせについて行って、最高の関連度を
表す値が算出された2つの文書をその重心位置で1つに
まとめるといったことを繰り返して実行するような仕方
を用いることができる。
【0066】ここで、一般的なクラスタリングの一例と
して、或る文書を或るカテゴリに振り分ける処理の手順
例(1)〜(4)を示す。すなわち、手順(1)では、
N個の文書D1〜DNから成る文書集合(文書群)のそ
れぞれの文書D1〜DNに関して、各文書D1〜DNに
含まれる単語を要素としたベクトルを生成する。このと
き、各要素の値は、或る単語を含む場合には1とする一
方、含まない場合には0とする。
【0067】具体例として、文書D1のベクトル=
{1、0、1、0、0、0、1、…、0}、文書D2の
ベクトル={0、0、1、0、0、1、0、…、1}、
文書D3のベクトル={1、1、0、0、1、1、0、
…、0}などが得られる。なお、それぞれのベクトルは
M(Mは1又は複数)個の要素の値(1又は0)から構
成されており、各要素の値はM個の単語のそれぞれが各
文書に出現するか否かを表している。
【0068】次に、手順(2)では、1からNまでの値
をとるi及びjについて文書Diのベクトルと文書Dj
のベクトルとの内積(Di、Dj)を算出し、算出した
内積(Di、Dj)の値が最大となるi及びjの組を求
める。但し、内積(Di、Dj)は、互いに異なる値と
なるi及びjの組について算出する。なお、内積(D
i、Dj)としては、例えば一般に知られているよう
に、2つのベクトルの各要素値の積和を用いる。
【0069】次に、手順(3)では、上記した内積(D
i、Dj)を2つの文書Di、Djの間の類似度とみな
して、全ての組合せの文書間の類似度の中で最も大きい
値の類似度(つまり、内積)が算出された2つの文書の
間の重心を求める。つまり、文書Dpと文書Dqとの類
似度(Dp、Dq)が最大であった場合には、当該文書
Dpと当該文書Dqとの間の重心をとる。そして、その
重心を表すベクトルを文書Dpと文書Dqとをクラスタ
リングした文書Dpqのベクトルとする。
【0070】次に、手順(4)では、クラスタリングさ
れた2つの文書(例えば、文書Dpと文書Dq)を文書
全体(文書集合)から取り除き、その代わりに、クラス
タリングされた結果である文書Dpqを文書集合に追加
する。すると、第1回目のクラスタリング手順では文書
集合に含まれる文書の総数が1だけ減少して(N−1)
となり、以上と同様にしてクラスタリング手順を繰り返
して実行することにより、文書集合に含まれる文書の総
数を1ずつ減少させていく。そして、第k回目のクラス
タリング処理が終了して文書集合に含まれる文書の総数
(N−k)が例えば予め指定されたクラスタ数以下とな
った場合には処理を終了し、当該クラスタ数以下となっ
ていない場合には上記手順(2)、(3)、(4)を繰
り返して実行する。
【0071】また、固有名に着目したクラスタリング手
法の具体例として、上記のようなクラスタリングに本発
明を適用した場合の実施態様例(1)〜(3)を示す。
実施態様例(1)では、上記手順(1)において、各文
書のベクトルを構成する各要素の値を個々の単語単位で
はなく、同一のカテゴリに属する単語単位に算出する。
また、上記手順(2)において、1からNまでの値とな
るi及びjについて内積が最大値となるi及びjの組を
求めるに際して、文書Diのベクトルと文書Djのベク
トルの内積として(Di、Dj)’=(Di、Dj)+
kという値を算出する。ここで、kは、これら2つのベ
クトルを構成する要素の値の中で要素が出現すること
(1という要素値)が一致した固有名の個数であり、つ
まり、例えば同一のカテゴリに属する異なる単語につい
ては同一の単語であるとみなした場合において、文書D
iと文書Djとの両方に出現する共通の固有名の個数で
ある。
【0072】実施態様例(2)では、上記手順(1)な
どにおいて、各単語が各文書に含まれているか否かを1
又は0の要素の値で表したベクトルを構成する代わり
に、各単語が各文書中に出現する回数や頻度を要素の値
として表したベクトルを構成する。なお、上述のよう
に、本発明では、同一のカテゴリに属する異なる単語に
ついては同一の単語であるとみなしてベクトルを生成す
ることができる。実施態様例(3)では、実施態様例
(2)を適用した場合において、更に、ベクトル中にお
いて固有名に対応した要素の値については所定数倍する
などして実施態様例(2)で算出される値を増加させ
る。以上のような実施態様例では、例えば同一のカテゴ
リに属する固有名に重みを置いたクラスタリングが可能
となる。
【0073】また、本発明では、以上に示したような関
連度値を算出する方法などを提供する。なお、このよう
な本発明に係る方法は、例えばCPUやメモリ等を備え
たコンピュータなどにおいて実行される。例えば、本発
明に係る関連度値算出方法では、1又は複数のキーワー
ドから構成されるキーワード群と1又は複数の文書から
構成される文書群に関する関連度を表す値として、当該
キーワード群に含まれる各キーワードと当該文書群に関
するキーワード毎の関連度値を全てのキーワードについ
て総和した値を算出するに際して、例えばメモリに設定
された固有名キーワード特定条件に基づいて固有名に相
当するキーワードを特定し、同類の複数の固有名から構
成される1又は複数のカテゴリに関する情報を記憶する
メモリに記憶されたカテゴリ情報に基づいて、特定され
たキーワードについてのキーワード毎関連度値を当該キ
ーワードと同一のカテゴリに含まれる異なるキーワード
を含む1又は複数のキーワードの文書群における出現状
況に基づいて算出して、キーワード群と文書群に関する
関連度値を算出する。
【0074】また、本発明に係る関連文書検索方法で
は、1又は複数の文書から構成される種文書群から1又
は複数のキーワードから構成されるキーワード群を抽出
し、抽出したキーワード群に関連する文書を複数の検索
対象となる文書から構成される検索対象文書群から検索
し、検索した各文書に関して抽出したキーワード群に含
まれる各キーワードと文書とのキーワード毎の関連度を
表す値を全てのキーワードについて総和した値を当該キ
ーワード群と当該文書との関連度値として算出し、当該
関連度値が大きい順に検索した各文書に関する情報を例
えば情報出力装置により出力するに際して、例えばメモ
リに設定された固有名キーワード特定条件に基づいて固
有名に相当するキーワードを特定し、同類の複数の固有
名から構成される1又は複数のカテゴリに関する情報を
記憶するメモリに記憶されたカテゴリ情報に基づいて、
特定されたキーワードについてのキーワード毎関連度値
を当該キーワードと同一のカテゴリに含まれる異なるキ
ーワードを含む1又は複数のキーワードの文書における
出現状況に基づいて算出して、キーワード群と文書との
関連度値を算出する。
【0075】また、本発明に係る文書カテゴライズ方法
では、1又は複数のキーワードから構成される複数のキ
ーワード群と1又は複数の文書から構成される文書群に
関して、各キーワード群毎にキーワード群に含まれる各
キーワードと文書群とのキーワード毎の関連度を表す値
を全てのキーワードについて総和した値を当該キーワー
ド群と当該文書群との関連度値として算出し、算出され
る関連度値が最高の関連度を表す値となるキーワード群
に当該文書群をカテゴライズするに際して、例えばメモ
リに設定された固有名キーワード特定条件に基づいて固
有名に相当するキーワードを特定し、同類の複数の固有
名から構成される1又は複数のカテゴリに関する情報を
記憶するメモリに記憶されたカテゴリ情報に基づいて、
特定されたキーワードについてのキーワード毎関連度値
を当該キーワードと同一のカテゴリに含まれる異なるキ
ーワードを含む1又は複数のキーワードの文書群におけ
る出現状況に基づいて算出して、キーワード群と文書群
との関連度値を算出する。
【0076】また、本発明に係る文書クラスタリング方
法では、複数の文書から構成される文書群に含まれる2
つの文書に関して、1又は複数のキーワードから構成さ
れるキーワード群に含まれる各キーワードについてのこ
れら2つの文書のキーワード毎の関連度を表す値を全て
のキーワードについて総和した値をこれら2つの文書の
関連度値として算出し、当該関連度値に基づいて当該文
書群に含まれる文書をクラスタリングするに際して、例
えばメモリに設定された固有名キーワード特定条件に基
づいて固有名に相当するキーワードを特定し、同類の複
数の固有名から構成される1又は複数のカテゴリに関す
る情報を記憶するメモリに記憶されたカテゴリ情報に基
づいて、特定されたキーワードについての2つの文書の
キーワード毎関連度値を当該キーワードと同一のカテゴ
リに含まれる異なるキーワードを含む1又は複数のキー
ワードの文書における出現状況に基づいて算出して、こ
れら2つの文書の関連度値を算出する。
【0077】また、本発明では、以上に示したような関
連度値を算出する処理を実行させるプログラムなどを提
供する。例えば、本発明に係るプログラムは、1又は複
数のキーワードから構成されるキーワード群と1又は複
数の文書から構成される文書群に関する関連度を表す値
として、当該キーワード群に含まれる各キーワードと当
該文書群に関するキーワード毎の関連度値を全てのキー
ワードについて総和した値を算出する処理をコンピュー
タに実行させるに際して、例えばメモリに設定された固
有名キーワード特定条件に基づいて固有名に相当するキ
ーワードを特定する処理と、同類の複数の固有名から構
成される1又は複数のカテゴリに関する情報を記憶する
メモリに記憶されたカテゴリ情報に基づいて、特定され
たキーワードについてのキーワード毎関連度値を当該キ
ーワードと同一のカテゴリに含まれる異なるキーワード
を含む1又は複数のキーワードの文書群における出現状
況に基づいて算出して、キーワード群と文書群に関する
関連度値を算出する処理とを当該コンピュータに実行さ
せる。
【0078】また、本発明に係るプログラムは、1又は
複数の文書から構成される種文書群から1又は複数のキ
ーワードから構成されるキーワード群を抽出する処理
と、抽出したキーワード群に関連する文書を複数の検索
対象となる文書から構成される検索対象文書群から検索
する処理と、検索した各文書に関して抽出したキーワー
ド群に含まれる各キーワードと文書とのキーワード毎の
関連度を表す値を全てのキーワードについて総和した値
を当該キーワード群と当該文書との関連度値として算出
する処理と、当該関連度値が大きい順に検索した各文書
に関する情報を例えば情報出力機能により出力する処理
とをコンピュータに実行させるに際して、例えばメモリ
に設定された固有名キーワード特定条件に基づいて固有
名に相当するキーワードを特定する処理と、同類の複数
の固有名から構成される1又は複数のカテゴリに関する
情報を記憶するメモリに記憶されたカテゴリ情報に基づ
いて、特定されたキーワードについてのキーワード毎関
連度値を当該キーワードと同一のカテゴリに含まれる異
なるキーワードを含む1又は複数のキーワードの文書に
おける出現状況に基づいて算出して、キーワード群と文
書との関連度値を算出する処理とを当該コンピュータに
実行させる。
【0079】また、本発明に係るプログラムは、1又は
複数のキーワードから構成される複数のキーワード群と
1又は複数の文書から構成される文書群に関して、各キ
ーワード群毎にキーワード群に含まれる各キーワードと
文書群とのキーワード毎の関連度を表す値を全てのキー
ワードについて総和した値を当該キーワード群と当該文
書群との関連度値として算出する処理と、算出される関
連度値が最高の関連度を表す値となるキーワード群に当
該文書群をカテゴライズする処理とをコンピュータに実
行させるに際して、例えばメモリに設定された固有名キ
ーワード特定条件に基づいて固有名に相当するキーワー
ドを特定する処理と、同類の複数の固有名から構成され
る1又は複数のカテゴリに関する情報を記憶するメモリ
に記憶されたカテゴリ情報に基づいて、特定されたキー
ワードについてのキーワード毎関連度値を当該キーワー
ドと同一のカテゴリに含まれる異なるキーワードを含む
1又は複数のキーワードの文書群における出現状況に基
づいて算出して、キーワード群と文書群との関連度値を
算出する処理とを当該コンピュータに実行させる。
【0080】また、本発明に係るプログラムは、複数の
文書から構成される文書群に含まれる2つの文書に関し
て、1又は複数のキーワードから構成されるキーワード
群に含まれる各キーワードについてのこれら2つの文書
のキーワード毎の関連度を表す値を全てのキーワードに
ついて総和した値をこれら2つの文書の関連度値として
算出する処理と、当該関連度値に基づいて当該文書群に
含まれる文書をクラスタリングする処理とをコンピュー
タに実行させるに際して、例えばメモリに設定された固
有名キーワード特定条件に基づいて固有名に相当するキ
ーワードを特定する処理と、同類の複数の固有名から構
成される1又は複数のカテゴリに関する情報を記憶する
メモリに記憶されたカテゴリ情報に基づいて、特定され
たキーワードについての2つの文書のキーワード毎関連
度値を当該キーワードと同一のカテゴリに含まれる異な
るキーワードを含む1又は複数のキーワードの文書にお
ける出現状況に基づいて算出して、これら2つの文書の
関連度値を算出する処理とを当該コンピュータに実行さ
せる。
【0081】
【発明の実施の形態】本発明に係る実施例を図面を参照
して説明する。まず、本発明の第1実施例に係る関連文
書検索装置を説明する。図1には、本発明を適用した関
連文書検索装置の構成例を示してあり、この関連文書検
索装置には、検索要求を受け付ける検索要求受付部1
と、固有名を特定するための情報や固有名が属するカテ
ゴリの情報などをメモリに保持する固有名保持部2と、
各単語の関連度を表す値を計算する関連度計算部3と、
検索対象となる文書における各単語の出現頻度をメモリ
に保持する検索対象文書単語出現頻度保持部4と、検索
対象となる文書をメモリに保持する検索対象データベー
ス(DB)5と、検索対象データベース5に保持される
文書を検索する検索部6と、文書の関連度を表す値を計
算する文書関連度計算部7と、検索結果を提示する検索
結果提示部8とが備えられている。
【0082】本例の関連文書検索装置により行われる動
作の一例を示す。まず、ユーザは、検索のための検索要
求として、種文書集合(種文書群)の文書内容の情報及
び固有名のカテゴリを指定する情報を検索要求受付部1
に入力し、当該検索要求受付部1はこれらの情報を受け
付ける。ここで、本例では、種文書集合は、或る歌手グ
ループのコンサート情報が記載された4件分の文書から
構成されているとする。また、本例では、ユーザは、固
有名のカテゴリとして「人名」のカテゴリを指定したと
する。
【0083】次に、関連度計算部3は、種文書集合から
キーワードとなる単語(キーワード群)及び各単語の出
現頻度を抽出し、種文書集合中における各単語の出現頻
度と、検索対象文書単語出現頻度保持部4に保持された
検索対象文書全体に対する各単語の出現頻度とに基づい
て、各単語の関連度値を算出する。
【0084】ここで、本例では、種文書集合から、「A
BCレコード出版」、「武道館」、「新曲」、「歌手グ
ループDEF」、「4月27日」、「コンサート」とい
う単語が抽出されたとする。また、本例では、「歌手グ
ループDEF」及び「歌手XYZ」は、或る歌手グルー
プの名前であり、「人名」という同一の固有名のカテゴ
リに分類されているとする。
【0085】また、上記したそれぞれの単語は、種文書
集合に含まれるN(=4)件の種文書の中で、次のよう
な数(n)の文書に出現しているとする。「ABCレコ
ード出版」は1件の種文書に出現している(n=1)。
「武道館」は2件の種文書に出現している(n=2)。
「新曲」は3件の種文書に出現している(n=3)。
「歌手グループDEF」は2件の種文書に出現している
(n=2)。「4月27日」は1件の種文書に出現して
いる(n=1)。「コンサート」は3件の種文書に出現
している(n=3)。
【0086】また、本例では、「歌手グループDEF」
と同一のカテゴリに属することが設定されている「歌手
XYZ」という単語が、「歌手グループDEF」という
単語を含まない残りの2件の種文書に出現しているとす
る。この場合、本例では、上記した「歌手グループDE
F」という単語の種文書における出現件数n=2に同一
のカテゴリに属する「歌手XYZ」という単語の残りの
種文書における出現件数2を加算して、「歌手グループ
DEF」という単語の種文書における出現件数が4件
(n=4)であるとみなして以降の処理を行う。つま
り、本例では、同一のカテゴリに属する異なる単語(キ
ーワード)については同一の単語(キーワード)である
とみなしてキーワード毎の関連度値を算出することとし
ている。また、本例では、「歌手XYZ」という単語に
ついては同一のカテゴリ中の異なる「歌手グループDE
F」という単語を代表させて置き換えたと考えることも
でき、当該カテゴリでは当該「歌手グループDEF」と
いう単語を代表させていると考えることができる。
【0087】また、検索対象文書の総数Mが1000件
(M=1000)であるとし、上記した各単語が検索対
象文書集合の中で、次のような数(m)の文書に出現す
るとする。なお、検索対象文書単語出現頻度保持部4に
は、(m/M)の値が保持されている。また、本例で
は、上記と同様に、同一のカテゴリに含まれる「歌手グ
ループDEF」と「歌手XYZ」については少なくとも
いずれか一方が文書中に出現すれば前記mに計数するこ
ととしている。「ABCレコード出版」は10件の検索
対象文書に出現している(m=10)。「武道館」は5
件の検索対象文書に出現している(m=5)。「新曲」
は100件の検索対象文書に出現している(m=10
0)。「歌手グループDEF」又は「歌手XYZ」は2
00件の検索対象文書に出現している(m=200)。
「4月27日」は3件の検索対象文書に出現している
(m=3)。「コンサート」は300件の検索対象文書
に出現している(m=300)。
【0088】そして、各単語の関連度値を(n/N)/
(m/M)として計算すると、上記した各単語の関連度
値は、次のようになる。「ABCレコード出版」の単語
毎の関連度値は25である。「武道館」の単語毎の関連
度値は100である。「新曲」の単語毎の関連度値は
7.5である。「歌手グループDEF」(及び「歌手X
YZ」)の単語毎の関連度値は5である。「4月27
日」の単語毎の関連度値は(約)83である。「コンサ
ート」の単語毎の関連度値は2.5である。
【0089】次に、固有名保持部2は、当該固有名保持
部2に保持された情報に基づいて、上記した各単語がそ
れぞれ指定された「人名」というカテゴリに属するか否
かを判定する。なお、本例では、カテゴリが指定された
場合を示すが、例えばカテゴリの指定が無く検索要求受
付部1によりカテゴリの指定が受け付けられなかった場
合には、固有名に相当する全ての単語について重み付け
をする。本例では、上記した単語の中で「歌手グループ
DEF」という語句(及び「歌手XYZ」という語句)
が「人名」というカテゴリに属する固有名に相当すると
して判定される。
【0090】次に、関連度計算部3は、ユーザが指定し
たカテゴリと一致した固有名である「歌手グループDE
F」という単語(及び「歌手XYZ」という単語)が属
するカテゴリについて関連度値を調整する。本例では、
「人名」というカテゴリに属する固有名であると判定さ
れた「歌手グループDEF」という単語(及び「歌手X
YZ」という単語)が属するカテゴリの関連度値を10
0倍する。すると、上記した各単語の関連度値は次のよ
うな値に調整される。「ABCレコード出版」の単語毎
の関連度値は25である。「武道館」の単語毎の関連度
値は100である。「新曲」の単語毎の関連度値は7.
5である。「歌手グループDEF」(及び「歌手XY
Z」)の単語毎の関連度値は500である。「4月27
日」の単語毎の関連度値は(約)83である。「コンサ
ート」の単語毎の関連度値は2.5である。
【0091】次に、検索部6は、上記した各単語と当該
各単語について得られた関連度値を関連語情報として関
連度計算部3から受け取り、受け取った単語をキーワー
ドとして例えば一般に知られるOR検索を検索対象デー
タベース5に対して行い、これにより、例えば少なくと
も2つのキーワードを含む文書を検索対象データベース
5に保持された複数の文書(検索対象文書群)の中から
検索する。
【0092】本例では、次の4件の文書1〜4が検索さ
れて、それぞれ次のような単語が各文書に含まれるとす
る。文書1には、「武道館」、「新曲」という単語が含
まれる。文書2には、「歌手グループDEF」、「歌手
XYZ」、「コンサート」という単語が含まれる。文書
3には、「ABCレコード出版」、「新曲」という単語
が含まれる。文書4には、「ABCレコード出版」、
「新曲」、「4月27日」という単語が含まれる。
【0093】次に、文書関連度計算部7は、検索された
各文書1〜4に含まれる関連語(単語)の関連度値に基
づいて、各文書1〜4の文書関連度値(キーワード群と
各文書1〜4との関連度値)を計算する。本例では、検
索された各文書1〜4に含まれる各関連語の関連度値を
総和した値を各文書1〜4の文書関連度値とする。する
と、本例では、検索された各文書1〜4の文書関連度値
は、次のようになる。文書1の文書関連度値は、100
+7.5=107.5となる。文書2の文書関連度値
は、500+500+2.5=1002.5となる。文
書3の文書関連度値は、25+7.5=32.5とな
る。文書4の文書関連度値は、25+7.5+83=1
15.5となる。
【0094】ここで、本例では、種文書群から抽出され
た「歌手グループDEF」という単語と同一のカテゴリ
に属する異なる「歌手XYZ」という単語が文書2に出
現していることから、これら2つの単語の分だけ「歌手
グループDEF」について算出された単語毎関連度値5
00を加算することとして、当該異なる単語「歌手XY
Z」の文書2における出現状況に基づく値を「歌手グル
ープDEF」の単語毎関連度値に算入して文書関連度値
を算出することとしている。なお、例えば同一のカテゴ
リに属する異なる単語については同一の単語であるとみ
なすことも可能であり、この場合には、文書2の文書関
連度値は500+2.5=502.5となる。
【0095】次に、検索結果提示部8は、検索された文
書1〜4に関する情報と各文書1〜4について得られた
文書関連度値を文書関連度計算部7から受け取り、受け
取った文書1〜4に関する情報を文書関連度値が高い順
にユーザに対して提示する。本例では、各文書1〜4の
タイトルの情報を文書関連度値が高い方から順に並べて
ディスプレイ画面に表示出力する。なお、本例では、次
のような順序で4件の文書1〜4のタイトル情報が並べ
られる。 (文書関連度値が1番目に高い文書) 文書2 (文書関連度値が2番目に高い文書) 文書4 (文書関連度値が3番目に高い文書) 文書1 (文書関連度値が4番目に高い文書) 文書3
【0096】以上のように、本例の関連文書検索装置で
は、各単語毎の関連度値を計算する際に、指定された
「人名」という同一のカテゴリに属する異なる固有名に
相当する単語間での関連度値も非ゼロとすることや、指
定された「人名」というカテゴリに属する固有名に相当
する単語の関連度値を大きくするような重み付けを行う
補正を実行することにより、例えば当該カテゴリに属す
る「歌手グループDEF」や「歌手XYZ」という単語
が出現する文書2を最も文書関連度値が高い文書として
ユーザに通知することができる。
【0097】なお、本例では、ユーザが種文書集合を入
力する構成としたが、例えばユーザがキーワードを入力
し、関連文書検索装置が当該キーワードに関連する文書
などを種文書集合として検索するような構成を用いるこ
ともできる。
【0098】また、本例では、「人名」というカテゴリ
を指定する場合を示したが、例えばユーザが入力する種
文書が同一であっても、「会社名」や、「場所の名前」
や、「日付」や、「時間」や、「日時」や、「製品名」
などの他のカテゴリを指定することにより、指定したカ
テゴリに含まれる異なるキーワードを同一視した文書関
連度値や、指定したカテゴリに含まれる固有名を重要視
した文書関連度値を算出することができる。また、本例
では、1つのカテゴリを指定する場合を示したが、上述
のようにカテゴリを指定せずに全ての固有名に相当する
単語についての関連度値を大きくする態様や、或いは、
複数のカテゴリを指定する態様を用いることもできる。
また、例えば各カテゴリ毎に補正前の単語毎の関連度値
をどれくらい大きく補正するかといった補正の度合いを
ユーザにより指定するような態様を用いることもでき
る。
【0099】図2には、ユーザによりユーザプロファイ
ルを入力してカテゴリを指定するための画面情報の一例
を示してあり、当該画面情報は例えば検索要求受付部1
によりユーザに対して表示出力される。この画面情報で
は、「企業」、「人名」、「官庁」、「時間」、「場
所」というカテゴリの中でいずれのカテゴリにユーザの
興味があるかつまりいずれのカテゴリに属する固有名に
相当する単語の関連度値を補正するかなどをユーザに対
して尋ねており、同図の例では、「企業」及び「人名」
のカテゴリがユーザにより指定されている。また、この
画面情報では、ユーザにより指定したカテゴリに属する
単語の関連度値をどれくらい大きくするかといった倍率
をユーザに対して尋ねており、同図の例では、「企業」
については2倍が設定され、「人名」については3倍が
設定されている。
【0100】ここで、本例では、検索要求受付部1が例
えば上記図2に示したような画面情報をユーザに対して
表示出力してユーザからの入力によりカテゴリの指定を
受け付ける機能によりカテゴリ指定受付手段が構成され
ており、固有名保持部2が同類の複数の固有名から構成
されるカテゴリに関する情報を記憶する機能によりカテ
ゴリ情報記憶手段が構成されており、固有名保持部2が
設定された固有名キーワード特定条件に基づいて指定さ
れたカテゴリに含まれる固有名に相当するキーワードを
特定する機能により固有名キーワード特定手段が構成さ
れており、関連度計算部3が単語毎の関連度値(キーワ
ード毎関連度値)を当該単語と同一のカテゴリに含まれ
る同一の単語及び異なる単語の検索対象文書群における
出現状況に基づいて算出する機能や、当該単語毎の関連
度値(キーワード毎関連度値)をその算出値と比較して
大きい値(関連度が高いことを表す値)へ補正して文書
関連度計算部7が文書関連度値を算出する機能により関
連度値算出手段が構成されている。
【0101】また、本例では、検索要求受付部1が例え
ば上記図2に示したような画面情報をユーザに対して表
示出力してユーザからの入力によりカテゴリ毎の補正倍
率(補正度合い)の指定を受け付ける機能により補正度
合い指定受付手段が構成されており、検索結果提示部8
が例えば補正が行われたキーワードの語句などの情報を
ユーザに対して表示出力する機能により補正キーワード
情報表示出力手段が構成されている。
【0102】また、本例では、指定されたカテゴリに含
まれる固有名に相当するキーワード以外のキーワード
(単語)と各文書1〜4とのキーワード毎関連度値を非
ゼロとして文書関連度値を算出する場合を示したが、例
えばこのようなキーワード毎関連度値をゼロとして文書
関連度値を算出する構成とすることにより、文書関連度
値を算出するのに要する演算量や時間を低減させること
もできる。
【0103】次に、本発明の第2実施例に係る文書群分
類装置(文書クラスタリング装置)によるクラスタリン
グを説明する。なお、本例では、文書とは、例えば自然
言語で記述された1つ以上の文の集まりであって当該1
つ以上の文の集まりが分類される対象であるようなもの
を言う。具体的には、例えば政治や経済やスポーツなど
に分類される新聞記事などのように分類可能な特定の1
文を包含して有するようなものを文書とみなす。
【0104】図3には、本例の文書群分類装置の構成例
を示してあり、この文書群分類装置には、文書群を入力
する文書群入力部11と、入力されたそれぞれの文書の
内容から成る文書群データを記憶する文書群記憶部12
と、当該文書群データを形態素解析などにより解析して
キーワードを抽出などする文書群解析部13と、当該解
析結果に基づいて文書群を分類する文書群分類部14
と、当該分類結果を記憶する分類結果記憶部15とが備
えられている。
【0105】ここで、文書群記憶部12や分類結果記憶
部15は、例えば情報を記憶するハードディスクや半導
体メモリから構成されている。また、文書群解析部13
や文書群分類部14は、例えばプログラムを記憶するメ
モリや当該プログラムの記述内容に従って動作するCP
U(Central Processing Unit)を有している。なお、
上記したメモリやCPUは複数の処理部で共用すること
も可能である。
【0106】本例の文書群分類装置により行われる動作
の一例を示す。まず、文書群入力部11は、例えばユー
ザによりキーボードなどが操作されることにより或いは
装置内のハードディスクや外部のネットワークから、分
類対象となる文書群の情報を入力する。そして、文書群
入力部11は、入力したそれぞれの文書の内容から成る
文書群データを、個々の文書が識別可能な形式で文書群
記憶部12に記憶する。具体的には、例えば各文書に文
書番号などを付けて文書群記憶部12に記憶し、当該文
書番号により各文書を管理する。
【0107】次に、文書群解析部13は、文書群記憶部
12から文書データを読み出し、それぞれの文書に対応
したそれぞれの文書データに対して自然言語解析を行
い、これにより、それぞれの文書データから単語やその
出現位置やその品詞や単語間の関係などを示す文法情報
を抽出する。そして、文書群解析部13は、例えば固有
名詞の品詞情報を有する単語のみを抽出し、抽出したそ
れぞれの単語毎に、その単語或いは当該単語と同一のカ
テゴリに属する異なる単語が含まれる文書内での出現頻
度を求める。なお、出現頻度の値としては、例えばこれ
らの単語が文書内に出現したか否かを示す“1”或いは
“0”の情報や、例えばこれらの単語が文書内に出現し
た回数や頻度の情報などを用いることができる。このよ
うに、本例では、例えば固有名詞に相当する単語の単語
毎関連度値を算出するに際して、当該単語と同一のカテ
ゴリに属する異なる単語についても同一の単語とみなし
て出現回数などを検出する。
【0108】このようにして各単語の出現頻度情報を全
ての文書について求めると、次に、文書群分類部14
は、例えば任意の1文書を選定して、選定した文書と当
該文書以外の全ての文書との距離を求める。なお、本例
では、以下に示すように、2文書間の距離としてはその
値が大きいほど距離が近いことを表すようなものを用い
ており、これは例えば2文書間の関連度値に相当すると
みなすことができる。
【0109】具体例として、2文書間の距離を求めるた
めの単語がt(tは1以上の数)個あって、文書Drに
おけるi番目の単語の出現頻度の値がar(i)であ
り、文書Dsにおけるi番目の単語の出現頻度の値がa
s(i)であるとすると、文書Drと文書Dsとの2文
書間の距離Sim(Dr、Ds)は例えば式1で示され
る。
【0110】ここで、本例では、t個の単語としてそれ
ぞれ異なるカテゴリに属する単語を選択してあり、同一
のカテゴリに属する単語については同一の単語であるか
或いは異なる単語であるかにかかわらず、各カテゴリを
代表するものとして選択された単語(前記t個の単語)
の数に算入してある。つまり、本例では、固有名詞に相
当する各単語のそれぞれの出現頻度値として、例えば当
該各単語が属するカテゴリ毎に同一のカテゴリに属する
同一又は異なる単語の出現頻度値の和などを用いてい
る。なお、例えばいずれのカテゴリにも属さない単語に
ついては、同一のカテゴリに属するか或いは異なるカテ
ゴリに属するかを判定する際に考慮しなくてもよい。
【0111】
【数1】
【0112】ここで、図4を参照して、上記のような2
文書間の距離に基づいて文書群をクラスタリングする一
例を示す。なお、ここでは、説明の便宜上から、文書群
には4つの文書A、B、C、Dが含まれるとする。例え
ば、全ての文書A〜Dから2つの文書を選択する全ての
組み合わせについて2文書間の距離を求めた結果が、同
図(a)の行列のように表されたとする。そして、この
行列を参照して、距離が近い(本例では、値が大きい)
2文書のところから順に階層木を作成していくことによ
り、クラスタリングを行うことができる。
【0113】まず、同図(a)の例では、文書Aと文書
Dとの距離が最も近いことから、図示のように、文書A
と文書Dとを関連付ける。すると、文書Aと文書Dとを
まとめることにより、上記した行列が同図(b)に示す
ように変更され、同図(b)の例では、文書A、Dのま
とまりと文書Cとの距離が最も近いことから、図示のよ
うに、文書A、Dのまとまりと文書Cとを関連付ける。
すると、上記した行列は同図(c)に示すように変更さ
れ、図示のように、残った文書Bと文書A、C、Dのま
とまりとを関連付ける。そして、同図(c)に示すよう
な階層木をクラスタリング結果として得ることができ
る。
【0114】以上のように、本例の文書群分類装置で
は、同一のカテゴリに属する異なる単語間の関連度値を
非ゼロとすることとして、例えば自然言語解析により文
書に含まれるキーワードの要素を抽出するとともに当該
要素に付随する品詞やカテゴリの情報などを抽出し、要
素に付随する品詞情報に基づいて固有名詞に相当する要
素のみを計数するような状況で、出現頻度を算出する仕
方を規定する計数規則に基づいて要素毎の出現回数など
を計数し、当該計数結果に基づいて2文書間の距離を求
めることにより文書群をクラスタリングすることによ
り、例えば大量の文書群をより少ない計算量で、且つ、
単語自身の有する情報量をその品詞に基づいて考慮した
方法で分類することができる。
【0115】なお、本例では、固有名詞に相当する単語
のみに基づいて2文書間の距離を求めたが、例えば各単
語毎に重み付けを行うことで固有名詞に相当する単語の
重要度を大きくするような構成も可能であり、このよう
な構成では、例えば要素に付随する品詞情報に基づいて
固有名詞に相当する要素には他の品詞に相当する要素と
比較して大きい重みを与えて、2文書間の距離を算出す
るようなことが行われる。
【0116】具体的に、上記式1に対応するものとし
て、例えばi番目の単語に対する重み付けの係数をKi
とすると、式2に示すような演算式により2文書間の距
離を求めることが可能である。
【0117】
【数2】
【0118】なお、例えば、計数する対象となる要素を
固有名詞に相当するものだけとするか、或いは、固有名
詞以外の品詞に相当する要素についても計数する対象と
して固有名詞に対する重みを他の品詞と比べて大きくす
るか、といったことをユーザにより任意に選択可能な構
成とすることもできる。
【0119】また、キーワード(要素)を抽出する仕方
としては、種々な仕方が用いられてもよく、例えば予め
辞書に登録された固有名詞に相当する語句を抽出する仕
方や、例えば「株式会社」などのような語が含まれてい
るといった固有名詞に特有な出現パターンに基づいて固
有名詞とみなされる語句を抽出する仕方などを用いるこ
とができる。また、このような辞書をユーザにより編集
可能にして、当該辞書に対してユーザが任意に新たな単
語を追加することなどが可能な構成とすることもでき
る。
【0120】ここで、本例では、上記式1や上記式2に
より2文書間の距離を算出するために用いられるt個の
要素(キーワード)の群がキーワード群に相当し、これ
ら2文書から文書群が構成され、当該キーワード群と当
該文書群に関する関連度値をこれら2文書間の距離とし
て算出している。更に詳しくは、2つの文書Dr、Ds
から文書群が構成され、前記キーワード群に含まれるキ
ーワードと当該文書群に関するキーワード毎関連度値が
上記式1中の{ar(i)・as(i)}や上記式2中
の{Ki・ar(i)・as(i)}で表される。ま
た、他のとらえ方として、例えば文書Dsを文書群であ
るとみなして、ar(i)についてはi番目のキーワー
ドに付加された文書Drに依存する重み付け情報である
とみなすこともでき、この場合にも、各要素についての
上記式1中の{ar(i)・as(i)}や上記式2中
の{Ki・ar(i)・as(i)}がキーワード毎の
関連度値に相当する。
【0121】また、本例では、文書群解析部13が設定
された固有名詞キーワード特定条件に基づいて固有名詞
に相当するキーワード(要素)を特定する機能により固
有名キーワード特定手段が構成されており、文書群解析
部13や文書群分類部14が、例えば同一のカテゴリに
属する異なる単語間の関連度値を非ゼロとする態様で、
固有名詞に相当すると特定されたキーワードのみについ
ての2つの文書のキーワード毎関連度値を非ゼロの値と
することや或いはこのようなキーワードについての2つ
の文書のキーワード毎関連度値(距離)を重み付けして
その算出値と比較して大きい値(関連度が高いことを表
す値)へ補正することを行って、2つの文書の関連度値
を算出する機能により関連度値算出手段が構成されてい
る。
【0122】次に、本発明の第3実施例に係る文書群分
類装置(文書カテゴライズ装置)により行われるカテゴ
ライズの一例を示す。なお、本例の文書分類装置は、例
えば上記図3に示したものと同様な構成のものを用いる
ことができ、本例では、詳しい説明は省略する。
【0123】図5を参照して、本例の文書分類装置によ
り行われるカテゴライズの一例を示す。同図に示される
ように、例えば種々な内容に関して予め複数のキーワー
ド群が用意されていて、各キーワード群がそれぞれ異な
る分類1、2、3、…に対応付けられているとする。ま
た、カテゴライズ対象となる文書1、2、3…があると
する。
【0124】この場合、例えば文書1を例とすると、ま
ず、固有名に相当するキーワードに重み付けをする方式
を用いて、文書1と各分類1、2、3、…に対応したそ
れぞれのキーワード群との関連度値を算出し、算出され
た関連度値が最大となる分類を検出して、検出した分類
に文書1をカテゴライズする。ここで、本例では、例え
ば固有名に相当するキーワードであって同一のカテゴリ
に属する異なるキーワード間の関連度値を非ゼロとして
各文書1、2、3、…と各分類1、2、3、…との関連
度値を算出する。
【0125】具体的に、同図の例では、文書1と分類1
のキーワード群との関連度値が文書1と他の分類2、
3、…のキーワード群との関連度値と比較して最大であ
った場合を示してあり、この場合、文書1を分類1にカ
テゴライズする。同図の例では、同様にして、文書2が
分類1にカテゴライズされており、文書3が分類2にカ
テゴライズされている。
【0126】以上のように、文書群を複数の分類にカテ
ゴライズする場合においても、例えば上記第1実施例や
上記第2実施例で述べたのと同様に、同一のカテゴリに
属する異なる固有名のキーワードについても同一のもの
とみなしてキーワード毎関連度値を算出することや、固
有名に相当するキーワードに重み付けすることにより、
関連度値の精度を向上させることや、関連度値の算出に
要する演算量や時間を低減させることなどができる。
【0127】ここで、本発明に係る関連度値算出装置な
どの構成としては、必ずしも以上に示したものに限られ
ず、種々な構成が用いられてもよい。また、本発明の適
用分野としては、必ずしも以上に示したものに限られ
ず、本発明は、種々な分野に適用することが可能なもの
である。
【0128】また、本発明に係る関連度値算出装置など
において行われる各種の処理としては、例えばプロセッ
サやメモリ等を備えたハードウエア資源においてプロセ
ッサがROM(Read Only Memory)に格納された制御プ
ログラムを実行することにより制御される構成が用いら
れてもよく、また、例えば当該処理を実行するための各
機能手段が独立したハードウエア回路として構成されて
もよい。また、本発明は上記の制御プログラムを格納し
たフロッピー(登録商標)ディスクやCD(Compact Di
sc)−ROM等のコンピュータにより読み取り可能な記
録媒体や当該プログラム(自体)として把握することも
でき、当該制御プログラムを記録媒体からコンピュータ
に入力してプロセッサに実行させることにより、本発明
に係る処理を遂行させることができる。
【0129】
【発明の効果】以上説明したように、本発明に係る関連
度値算出装置などによると、1又は複数のキーワードか
ら構成されるキーワード群と1又は複数の文書から構成
される文書群に関する関連度を表す値として、当該キー
ワード群に含まれる各キーワードと当該文書群に関する
キーワード毎の関連度値(キーワード毎関連度値)を全
てのキーワードについて総和した値を算出するに際し
て、同類の複数の固有名から構成される1又は複数のカ
テゴリに関する情報を記憶し、設定された固有名キーワ
ード特定条件に基づいて固有名に相当するキーワードを
特定し、特定されたキーワードについてのキーワード毎
関連度値を、当該キーワードと同一のカテゴリに含まれ
る異なるキーワードを含む1又は複数のキーワードの文
書群における出現状況に基づいて算出して、キーワード
群と文書群に関する関連度値を算出するようにしたた
め、算出される関連度値の精度を高めることができる。
【0130】また、本発明に係る関連度値算出装置など
によると、特定されたキーワードについてのキーワード
毎の関連度を高めてキーワード群と文書群に関する関連
度値を算出するようにしたため、算出される関連度値の
精度を高くすることなどができる。また、本発明に係る
関連度値算出装置などによると、カテゴリの指定を受け
付け、記憶されたカテゴリ情報に基づいて、受け付けら
れたカテゴリに含まれる固有名に相当するキーワードを
特定するようにしたため、ユーザの要求などを反映させ
て算出される関連度値の精度を高くすることなどができ
る。
【図面の簡単な説明】
【図1】 本発明の第1実施例に係る関連文書検索装置
の構成例を示す図である。
【図2】 ユーザプロファイルを入力してカテゴリ及び
倍率を指定するための画面表示の一例を示す図である。
【図3】 本発明の第2実施例に係る文書群分類装置の
構成例を示す図である。
【図4】 クラスタリングの一例を説明するための図で
ある。
【図5】 カテゴライズの一例を説明するための図であ
る。
【符号の説明】
1・・検索要求受付部、 2・・固有名保持部、 3・
・関連度計算部、4・・検索対象文書単語出現頻度保持
部、 5・・検索対象データベース、6・・検索部、
7・・文書関連度計算部、 8・・検索結果提示部、1
1・・文書群入力部、 12・・文書群記憶部、 13
・・文書群解析部、14・・文書群分類部、 15・・
分類結果記憶部、

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 1又は複数のキーワードから構成される
    キーワード群と1又は複数の文書から構成される文書群
    に関する関連度を表す値として、当該キーワード群に含
    まれる各キーワードと当該文書群に関するキーワード毎
    の関連度値を全てのキーワードについて総和した値を算
    出する関連度値算出装置であって、 同類の複数の固有名から構成される1又は複数のカテゴ
    リに関する情報を記憶するカテゴリ情報記憶手段と、 設定された固有名キーワード特定条件に基づいて固有名
    に相当するキーワードを特定する固有名キーワード特定
    手段と、 カテゴリ情報記憶手段に記憶されたカテゴリ情報に基づ
    いて、固有名キーワード特定手段により特定されたキー
    ワードについてのキーワード毎関連度値を当該キーワー
    ドと同一のカテゴリに含まれる異なるキーワードを含む
    1又は複数のキーワードの文書群における出現状況に基
    づいて算出して、キーワード群と文書群に関する関連度
    値を算出する関連度値算出手段と、 を備えたことを特徴とする関連度値算出装置。
  2. 【請求項2】 請求項1に記載の関連度値算出装置にお
    いて、 関連度値算出手段は、固有名キーワード特定手段により
    特定されたキーワードについてのキーワード毎の関連度
    を高めてキーワード群と文書群に関する関連度値を算出
    することを特徴とする関連度値算出装置。
  3. 【請求項3】 請求項2に記載の関連度値算出装置にお
    いて、 関連度値算出手段は、固有名キーワード特定手段により
    特定されたキーワードについてのキーワード毎関連度値
    をその算出値と比較して関連度が高いことを表す値へ補
    正することで、当該キーワードについてのキーワード毎
    の関連度を高めることを特徴とする関連度値算出装置。
  4. 【請求項4】 請求項2に記載の関連度値算出装置にお
    いて、 関連度値算出手段は、固有名キーワード特定手段により
    特定されたキーワードについてのキーワード毎関連度値
    を非ゼロとする一方、他のキーワード毎関連度値をゼロ
    とすることで、当該キーワードについてのキーワード毎
    の関連度を高めることを特徴とする関連度値算出装置。
  5. 【請求項5】 請求項1乃至請求項4のいずれか1項に
    記載の関連度値算出装置において、 カテゴリの指定を受け付けるカテゴリ指定受付手段を備
    え、 固有名キーワード特定手段は、カテゴリ情報記憶手段に
    記憶されたカテゴリ情報に基づいて、カテゴリ指定受付
    手段により受け付けられたカテゴリに含まれる固有名に
    相当するキーワードを特定することを特徴とする関連度
    値算出装置。
  6. 【請求項6】 請求項5に記載の関連度値算出装置にお
    いて、 カテゴリ指定受付手段は、カテゴリの指定を要求する情
    報をユーザに対して表示出力し、当該指定をユーザから
    の入力により受け付けることを特徴とする関連度値算出
    装置。
  7. 【請求項7】 請求項3に記載の関連度値算出装置にお
    いて、 カテゴリ毎のキーワード毎関連度値を補正する度合いの
    指定を受け付ける補正度合い指定受付手段を備え、 関連度値算出手段は、カテゴリ情報記憶手段に記憶され
    たカテゴリ情報に基づいて、固有名キーワード特定手段
    により特定されたキーワードについてのキーワード毎関
    連度値を当該キーワードを含むカテゴリについて補正度
    合い指定受付手段により受け付けられた補正度合いを用
    いて補正することを特徴とする関連度値算出装置。
  8. 【請求項8】 請求項7に記載の関連度値算出装置にお
    いて、 補正度合い指定受付手段は、カテゴリ毎の補正度合いの
    指定を要求する情報をユーザに対して表示出力し、当該
    指定をユーザからの入力により受け付けることを特徴と
    する関連度値算出装置。
  9. 【請求項9】 請求項1乃至請求項8のいずれか1項に
    記載の関連度値算出装置において、 固有名キーワード特定手段により特定されたキーワード
    に関する情報をユーザに対して表示出力する固有名キー
    ワード情報表示出力手段を備えたことを特徴とする関連
    度値算出装置。
  10. 【請求項10】 1又は複数の文書から構成される種文
    書群から1又は複数のキーワードから構成されるキーワ
    ード群を抽出し、抽出したキーワード群に関連する文書
    を複数の検索対象となる文書から構成される検索対象文
    書群から検索し、検索した各文書に関して抽出したキー
    ワード群に含まれる各キーワードと文書とのキーワード
    毎の関連度を表す値を全てのキーワードについて総和し
    た値を当該キーワード群と当該文書との関連度値として
    算出し、当該関連度値が大きい順に検索した各文書に関
    する情報を出力する関連文書検索装置であって、 同類の複数の固有名から構成される1又は複数のカテゴ
    リに関する情報を記憶するカテゴリ情報記憶手段と、 設定された固有名キーワード特定条件に基づいて固有名
    に相当するキーワードを特定する固有名キーワード特定
    手段と、 カテゴリ情報記憶手段に記憶されたカテゴリ情報に基づ
    いて、固有名キーワード特定手段により特定されたキー
    ワードについてのキーワード毎関連度値を当該キーワー
    ドと同一のカテゴリに含まれる異なるキーワードを含む
    1又は複数のキーワードの文書における出現状況に基づ
    いて算出して、キーワード群と文書との関連度値を算出
    する関連度値算出手段と、 を備えたことを特徴とする関連文書検索装置。
  11. 【請求項11】 1又は複数のキーワードから構成され
    る複数のキーワード群と1又は複数の文書から構成され
    る文書群に関して、各キーワード群毎にキーワード群に
    含まれる各キーワードと文書群とのキーワード毎の関連
    度を表す値を全てのキーワードについて総和した値を当
    該キーワード群と当該文書群との関連度値として算出
    し、算出される関連度値が最高の関連度を表す値となる
    キーワード群に当該文書群をカテゴライズする文書カテ
    ゴライズ装置であって、 同類の複数の固有名から構成される1又は複数のカテゴ
    リに関する情報を記憶するカテゴリ情報記憶手段と、 設定された固有名キーワード特定条件に基づいて固有名
    に相当するキーワードを特定する固有名キーワード特定
    手段と、 カテゴリ情報記憶手段に記憶されたカテゴリ情報に基づ
    いて、固有名キーワード特定手段により特定されたキー
    ワードについてのキーワード毎関連度値を当該キーワー
    ドと同一のカテゴリに含まれる異なるキーワードを含む
    1又は複数のキーワードの文書群における出現状況に基
    づいて算出して、キーワード群と文書群との関連度値を
    算出する関連度値算出手段と、 を備えたことを特徴とする文書カテゴライズ装置。
  12. 【請求項12】 複数の文書から構成される文書群に含
    まれる2つの文書に関して、1又は複数のキーワードか
    ら構成されるキーワード群に含まれる各キーワードにつ
    いてのこれら2つの文書のキーワード毎の関連度を表す
    値を全てのキーワードについて総和した値をこれら2つ
    の文書の関連度値として算出し、当該関連度値に基づい
    て当該文書群に含まれる文書をクラスタリングする文書
    クラスタリング装置であって、 同類の複数の固有名から構成される1又は複数のカテゴ
    リに関する情報を記憶するカテゴリ情報記憶手段と、 設定された固有名キーワード特定条件に基づいて固有名
    に相当するキーワードを特定する固有名キーワード特定
    手段と、 カテゴリ情報記憶手段に記憶されたカテゴリ情報に基づ
    いて、固有名キーワード特定手段により特定されたキー
    ワードについての2つの文書のキーワード毎関連度値を
    当該キーワードと同一のカテゴリに含まれる異なるキー
    ワードを含む1又は複数のキーワードの文書における出
    現状況に基づいて算出して、これら2つの文書の関連度
    値を算出する関連度値算出手段と、 を備えたことを特徴とする文書クラスタリング装置。
  13. 【請求項13】 1又は複数のキーワードから構成され
    るキーワード群と1又は複数の文書から構成される文書
    群に関する関連度を表す値として、当該キーワード群に
    含まれる各キーワードと当該文書群に関するキーワード
    毎の関連度値を全てのキーワードについて総和した値を
    算出する関連度値算出方法であって、 設定された固有名キーワード特定条件に基づいて固有名
    に相当するキーワードを特定し、同類の複数の固有名か
    ら構成される1又は複数のカテゴリに関する情報を記憶
    するメモリに記憶されたカテゴリ情報に基づいて、特定
    されたキーワードについてのキーワード毎関連度値を当
    該キーワードと同一のカテゴリに含まれる異なるキーワ
    ードを含む1又は複数のキーワードの文書群における出
    現状況に基づいて算出して、キーワード群と文書群に関
    する関連度値を算出する、 ことを特徴とする関連度値算出方法。
  14. 【請求項14】 1又は複数の文書から構成される種文
    書群から1又は複数のキーワードから構成されるキーワ
    ード群を抽出し、抽出したキーワード群に関連する文書
    を複数の検索対象となる文書から構成される検索対象文
    書群から検索し、検索した各文書に関して抽出したキー
    ワード群に含まれる各キーワードと文書とのキーワード
    毎の関連度を表す値を全てのキーワードについて総和し
    た値を当該キーワード群と当該文書との関連度値として
    算出し、当該関連度値が大きい順に検索した各文書に関
    する情報を出力する関連文書検索方法であって、 設定された固有名キーワード特定条件に基づいて固有名
    に相当するキーワードを特定し、同類の複数の固有名か
    ら構成される1又は複数のカテゴリに関する情報を記憶
    するメモリに記憶されたカテゴリ情報に基づいて、特定
    されたキーワードについてのキーワード毎関連度値を当
    該キーワードと同一のカテゴリに含まれる異なるキーワ
    ードを含む1又は複数のキーワードの文書における出現
    状況に基づいて算出して、キーワード群と文書との関連
    度値を算出する、 ことを特徴とする関連文書検索方法。
  15. 【請求項15】 1又は複数のキーワードから構成され
    る複数のキーワード群と1又は複数の文書から構成され
    る文書群に関して、各キーワード群毎にキーワード群に
    含まれる各キーワードと文書群とのキーワード毎の関連
    度を表す値を全てのキーワードについて総和した値を当
    該キーワード群と当該文書群との関連度値として算出
    し、算出される関連度値が最高の関連度を表す値となる
    キーワード群に当該文書群をカテゴライズする文書カテ
    ゴライズ方法であって、 設定された固有名キーワード特定条件に基づいて固有名
    に相当するキーワードを特定し、同類の複数の固有名か
    ら構成される1又は複数のカテゴリに関する情報を記憶
    するメモリに記憶されたカテゴリ情報に基づいて、特定
    されたキーワードについてのキーワード毎関連度値を当
    該キーワードと同一のカテゴリに含まれる異なるキーワ
    ードを含む1又は複数のキーワードの文書群における出
    現状況に基づいて算出して、キーワード群と文書群との
    関連度値を算出する、 ことを特徴とする文書カテゴライズ方法。
  16. 【請求項16】 複数の文書から構成される文書群に含
    まれる2つの文書に関して、1又は複数のキーワードか
    ら構成されるキーワード群に含まれる各キーワードにつ
    いてのこれら2つの文書のキーワード毎の関連度を表す
    値を全てのキーワードについて総和した値をこれら2つ
    の文書の関連度値として算出し、当該関連度値に基づい
    て当該文書群に含まれる文書をクラスタリングする文書
    クラスタリング方法であって、 設定された固有名キーワード特定条件に基づいて固有名
    に相当するキーワードを特定し、同類の複数の固有名か
    ら構成される1又は複数のカテゴリに関する情報を記憶
    するメモリに記憶されたカテゴリ情報に基づいて、特定
    されたキーワードについての2つの文書のキーワード毎
    関連度値を当該キーワードと同一のカテゴリに含まれる
    異なるキーワードを含む1又は複数のキーワードの文書
    における出現状況に基づいて算出して、これら2つの文
    書の関連度値を算出する、 ことを特徴とする文書クラスタリング方法。
  17. 【請求項17】 1又は複数のキーワードから構成され
    るキーワード群と1又は複数の文書から構成される文書
    群に関する関連度を表す値として、当該キーワード群に
    含まれる各キーワードと当該文書群に関するキーワード
    毎の関連度値を全てのキーワードについて総和した値を
    算出する処理をコンピュータに実行させるプログラムで
    あって、 設定された固有名キーワード特定条件に基づいて固有名
    に相当するキーワードを特定する処理と、 同類の複数の固有名から構成される1又は複数のカテゴ
    リに関する情報を記憶するメモリに記憶されたカテゴリ
    情報に基づいて、特定されたキーワードについてのキー
    ワード毎関連度値を当該キーワードと同一のカテゴリに
    含まれる異なるキーワードを含む1又は複数のキーワー
    ドの文書群における出現状況に基づいて算出して、キー
    ワード群と文書群に関する関連度値を算出する処理と、 を当該コンピュータに実行させることを特徴とするプロ
    グラム。
  18. 【請求項18】 1又は複数の文書から構成される種文
    書群から1又は複数のキーワードから構成されるキーワ
    ード群を抽出する処理と、抽出したキーワード群に関連
    する文書を複数の検索対象となる文書から構成される検
    索対象文書群から検索する処理と、検索した各文書に関
    して抽出したキーワード群に含まれる各キーワードと文
    書とのキーワード毎の関連度を表す値を全てのキーワー
    ドについて総和した値を当該キーワード群と当該文書と
    の関連度値として算出する処理と、当該関連度値が大き
    い順に検索した各文書に関する情報を出力する処理とを
    コンピュータに実行させるプログラムであって、 設定された固有名キーワード特定条件に基づいて固有名
    に相当するキーワードを特定する処理と、 同類の複数の固有名から構成される1又は複数のカテゴ
    リに関する情報を記憶するメモリに記憶されたカテゴリ
    情報に基づいて、特定されたキーワードについてのキー
    ワード毎関連度値を当該キーワードと同一のカテゴリに
    含まれる異なるキーワードを含む1又は複数のキーワー
    ドの文書における出現状況に基づいて算出して、キーワ
    ード群と文書との関連度値を算出する処理と、 を当該コンピュータに実行させることを特徴とするプロ
    グラム。
  19. 【請求項19】 1又は複数のキーワードから構成され
    る複数のキーワード群と1又は複数の文書から構成され
    る文書群に関して、各キーワード群毎にキーワード群に
    含まれる各キーワードと文書群とのキーワード毎の関連
    度を表す値を全てのキーワードについて総和した値を当
    該キーワード群と当該文書群との関連度値として算出す
    る処理と、算出される関連度値が最高の関連度を表す値
    となるキーワード群に当該文書群をカテゴライズする処
    理とをコンピュータに実行させるプログラムであって、 設定された固有名キーワード特定条件に基づいて固有名
    に相当するキーワードを特定する処理と、 同類の複数の固有名から構成される1又は複数のカテゴ
    リに関する情報を記憶するメモリに記憶されたカテゴリ
    情報に基づいて、特定されたキーワードについてのキー
    ワード毎関連度値を当該キーワードと同一のカテゴリに
    含まれる異なるキーワードを含む1又は複数のキーワー
    ドの文書群における出現状況に基づいて算出して、キー
    ワード群と文書群との関連度値を算出する処理と、 を当該コンピュータに実行させることを特徴とするプロ
    グラム。
  20. 【請求項20】 複数の文書から構成される文書群に含
    まれる2つの文書に関して、1又は複数のキーワードか
    ら構成されるキーワード群に含まれる各キーワードにつ
    いてのこれら2つの文書のキーワード毎の関連度を表す
    値を全てのキーワードについて総和した値をこれら2つ
    の文書の関連度値として算出する処理と、当該関連度値
    に基づいて当該文書群に含まれる文書をクラスタリング
    する処理とをコンピュータに実行させるプログラムであ
    って、 設定された固有名キーワード特定条件に基づいて固有名
    に相当するキーワードを特定する処理と、 同類の複数の固有名から構成される1又は複数のカテゴ
    リに関する情報を記憶するメモリに記憶されたカテゴリ
    情報に基づいて、特定されたキーワードについての2つ
    の文書のキーワード毎関連度値を当該キーワードと同一
    のカテゴリに含まれる異なるキーワードを含む1又は複
    数のキーワードの文書における出現状況に基づいて算出
    して、これら2つの文書の関連度値を算出する処理と、 を当該コンピュータに実行させることを特徴とするプロ
    グラム。
JP2001198278A 2001-06-29 2001-06-29 関連度値算出装置 Withdrawn JP2003016106A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001198278A JP2003016106A (ja) 2001-06-29 2001-06-29 関連度値算出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001198278A JP2003016106A (ja) 2001-06-29 2001-06-29 関連度値算出装置

Publications (1)

Publication Number Publication Date
JP2003016106A true JP2003016106A (ja) 2003-01-17

Family

ID=19035750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001198278A Withdrawn JP2003016106A (ja) 2001-06-29 2001-06-29 関連度値算出装置

Country Status (1)

Country Link
JP (1) JP2003016106A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092557A (ja) * 2004-09-24 2006-04-06 Microsoft Corp 検索エンジンから返されるページのランキングを制御するシステムおよび方法
JP2008502052A (ja) * 2004-06-02 2008-01-24 ヤフー! インコーポレイテッド ユーザ行動ターゲティング用コンテンツ管理システム
WO2008056651A1 (fr) * 2006-11-06 2008-05-15 Panasonic Corporation Dispositif de recherche d'information
JP2009169689A (ja) * 2008-01-16 2009-07-30 Fujitsu Ltd データ分類方法およびデータ処理装置
WO2013129548A1 (ja) * 2012-02-29 2013-09-06 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
WO2015037498A1 (ja) * 2013-09-10 2015-03-19 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
US9135326B2 (en) 2009-12-10 2015-09-15 Nec Corporation Text mining method, text mining device and text mining program
JP5815911B1 (ja) * 2014-05-13 2015-11-17 株式会社Ubic 文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム
CN114510565A (zh) * 2020-11-16 2022-05-17 威联通科技股份有限公司 短文自动化萃取分类及关键字方法及采用该方法的装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008502052A (ja) * 2004-06-02 2008-01-24 ヤフー! インコーポレイテッド ユーザ行動ターゲティング用コンテンツ管理システム
JP2011040086A (ja) * 2004-06-02 2011-02-24 Yahoo Inc ユーザ行動ターゲティング用コンテンツ管理システム
JP2006092557A (ja) * 2004-09-24 2006-04-06 Microsoft Corp 検索エンジンから返されるページのランキングを制御するシステムおよび方法
WO2008056651A1 (fr) * 2006-11-06 2008-05-15 Panasonic Corporation Dispositif de recherche d'information
US8108407B2 (en) 2006-11-06 2012-01-31 Panasonic Corporation Informationn retrieval apparatus
JP2009169689A (ja) * 2008-01-16 2009-07-30 Fujitsu Ltd データ分類方法およびデータ処理装置
US9135326B2 (en) 2009-12-10 2015-09-15 Nec Corporation Text mining method, text mining device and text mining program
KR20140129212A (ko) * 2012-02-29 2014-11-06 가부시키가이샤 유빅 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
JP2013182338A (ja) * 2012-02-29 2013-09-12 Ubic:Kk 文書分別システム及び文書分別方法並びに文書分別プログラム
WO2013129548A1 (ja) * 2012-02-29 2013-09-06 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
KR101582108B1 (ko) 2012-02-29 2016-01-04 가부시키가이샤 유빅 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
US9552570B2 (en) 2012-02-29 2017-01-24 Ubic, Inc. Document classification system, document classification method, and document classification program
US10445357B2 (en) 2012-02-29 2019-10-15 Fronteo, Inc. Document classification system, document classification method, and document classification program
WO2015037498A1 (ja) * 2013-09-10 2015-03-19 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP5815911B1 (ja) * 2014-05-13 2015-11-17 株式会社Ubic 文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム
WO2015173894A1 (ja) * 2014-05-13 2015-11-19 株式会社Ubic 文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム
CN114510565A (zh) * 2020-11-16 2022-05-17 威联通科技股份有限公司 短文自动化萃取分类及关键字方法及采用该方法的装置

Similar Documents

Publication Publication Date Title
US7720849B2 (en) Information processing device, information processing method, program, and recording medium
CN106202124B (zh) 网页分类方法及装置
US8001152B1 (en) Method and system for semantic affinity search
US20060036640A1 (en) Information processing apparatus, information processing method, and program
US20050165819A1 (en) Document tabulation method and apparatus and medium for storing computer program therefor
US20060036597A1 (en) Information processing apparatus and method, recording medium, and program
JP4179341B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2002169834A (ja) 文書のベクトル解析を行うコンピュータおよび方法
JPH09265478A (ja) 情報フィルタリング方式
US8812504B2 (en) Keyword presentation apparatus and method
JP5477635B2 (ja) 情報処理装置および方法、並びにプログラム
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
JP2011060182A (ja) コンテンツ選択システム
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
CN116738065B (zh) 一种企业搜索方法、装置、设备及存储介质
CN115062135B (zh) 一种专利筛选方法与电子设备
CN104854588B (zh) 用于搜索标记的主要为非文本的项目的系统和方法
WO2023020506A1 (zh) 一种搜索结果多样化均衡化搜索方法及计算机设备
JP2003016106A (ja) 関連度値算出装置
JPH1049543A (ja) 文書検索装置
JPH11110409A (ja) 情報分類方法及び装置
JP2003016105A (ja) 関連度値算出装置
JP3743204B2 (ja) データ分析支援方法および装置
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
KR100952077B1 (ko) 키워드를 이용한 표제어 선정 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040917

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20070828