WO2005033972A1

WO2005033972A1 - 類似率算出装置並びに類似率算出プログラム

Info

Publication number: WO2005033972A1
Application number: PCT/JP2004/004451
Authority: WO
Inventors: Hiroaki Masuyama; Noriaki Yoshino
Original assignee: Intellectual Property Bank Corp.
Priority date: 2003-09-30
Filing date: 2004-03-29
Publication date: 2005-04-14
Also published as: KR20060079792A; RU2006114689A; EP1669889A1; AU2004277629A1; JPWO2005033972A1; BRPI0415148A; CN1856788A; US20060294060A1; RU2344474C2; EP1669889A4; CA2540661A1

Description

明細書

類似率算出装置並びに類似率算出プログラム技術分野

本発明は、技術文献群同士を比較して類似性を判断する類似率算出装置並びに類似率算出プログラムに関する。背景技術

従来のパテントマップでは、特許文献を用いて、同一又は類似の研究開発テーマの内容について、技術比較を行って、全体的な動向、分布を知ることが可能であるとされている。そして経営者がパテントマップ見ることによって、市場動向、技術動向、参入企業及びライバル企業動向、将来性等の経営判断的要素を分析することが可能とされている。またパテントマップでは、 A社に関連した技術文献 A群と B社に関連した技術文献 B群とでマクロ的な比較を行う必要がある場合に、技術文献 A群と技術文献 B群に所属する個々の技術文献どうしをミクロ的に比較し、そこからマクロ的に技術文献群間の比較を導き出していた。図 1 9は、技術文献 A群に含まれる技術文献と、技術文献 B群に含まれる技術文献を個々にミクロ的に比較する、従来の比較状況を示す図である。

図 1 9に示すように、技術文献 A群に記載されている技術に対し、比較対象の技術文献 B群の技術とを比較する場合、従来は、技術文献 A群に含まれる技術文献（特許公報や技報など）と技術文献 B群に含まれる技術文献（特許公報や技報など）を総ての組合せにおいてについて、個々にミクロ的に比較し、これをミクロ的な類似率として数値化し、その平均や分散を求めることにより、 2つの技術文献群間の比較数値としていた（例えば、〃パテントマップガイダンス"、特許庁、平成 1 4年 8月 4 曰検索参照、インターネッ卜く http : //www5. ipdl. jpo. go. jp/pmgsl /pmgsl/prags > , 以下非特許文献 1という。）。特開 2 0 0 0— 3 4 8 0 1 5号公報に記載の知的財産評価装置等には、出願中あるいは登録後の発明等に関す^)—知的財産の財産的価値を評価する知的財産評価装置において、実施利益に関するデータを入力する実施利益入力手段と、各年ごとの複利現価率に関するデータを入力する複利現価率入力手段と、前記実施利-益入力手段により-入力:された备年目ごとの複利現価率に関するデーダと.を乗算して、.各年目ごとの捕償金年額の複利現価率を算出する複利現価算出手段と、前記複利現価算出手段により算出された各年ごとの補償金年額の複利現価各年ごとに合算することにより知的財産価額を算出する知的財産価格算出手段と、前記知的財産価格算出手段により算出された知的財産価額を出力する出力手. 段とを備えた知的財産評価装置、知的財産評価方法等が記載:されて:いる-. 該知的財産評価装置等では、登録され特許と、それに関連する売上高や利益などを減価償却して現在残存している特許の資産的価値を把- 握しょうとするものである。なお _Λ 当該発.明では、各特許の価値の評価: は、自社評価や他社評価などをランク付けして入力したものを寄与度として評価し、具体的な実施権設定が.されていない知的財産の資産価値を算出することが可能であるとされている ₆

特開 2 0 0 1— 7 6 0 4 2号公報に-記載の.システム等では、所定更新間隔を有する第 1のデータと更新間隔が当該第 1のデータより短い第 2のデータとから、経時的に変動しうる評価項目を評価するシス.テム. であって、（ a ) サンプル対象の第 1のデータの入力に応.じて、第 1の評価モデルを作成する手段と、（b ) 前記サンプル対象の第 1のデ^-ダを第 1の評価モデルに適用し、第 1の評価出力を算出す:る手段と、.（c— ) サンプル対象の第 2のデータと第 1の評価出力の入力に-応じて、第 2 の評価モデルを作成する手段と、 ( d ) 評価対象の第 _:1—のデータの^ Λ方に応じて、当該第 1のデータを第 1の評価モデルに適用し、第 2の評価出力を算出する手段と、（e ) 前記評価:対象の第 .2のデータと前記第 2 の評価出力を第 2の評価モデルに適用し、当該評価対象の評価出力を算出する手段とを備えた経時的に変動^うる評価対象の評価項目を評価するためのシステム、方法および:記録媒体が.知られい.る。

該システムでは、 1年単位や四半期単位毎に更新され ¾賃借対照表や— 損益計算書等からの財務データ攀よ: に.、 -更新間隔が比較的長第のデータから算出される格付け一や溯産確率.などの企業評孤を行. うモデル（静的モデル）と、日々: ¾勛る株報や金利: 為養等の 4:う —: 更新間隔が比較的短い第 2のデタとの力に.基づ：き、その後変化, 予測して動的に企業評価を行うモ:デル（動的モデ /レ) の: 2—つの評価モデルについて、評価対象の企業デタを適用するこ:とにお .、 :„適畤、最新' の企業評価を算出することが可能であ：る：と-されて.いる-。

また、特開平 8— 2 8 7 0 8 1 報、特開 i 2 0 0 1- :3 7 9, 9 2. 号公報、特開平 1 0— 7 4 2 0 5号公報、特開平 8— 2 7 8 9 8 2号公. 報、特開平 1 1 - 7 3 4 1 5号公報、及び開 2 0. :0 1:,— .3 .3 1 -5 ,2 7；号公報では、ある文書や文章と類似す内容—の:文書や文章を検索する際に、文書や文章同士の類似度や信憑性が高.く、：高 _精度に類似書.を検索することが可能な類似文書検索装や.類似検索：ステム.等が紹介されている。発明の開示

ところが、非特許文献 1に記載^)ノテ -ン-ト"^ヅプゃ特開-平 8 - :s a 0 8 1号公報、特開 2 0 0 1— 3-3 7 9 9- 2:号公-報、特具平, 1: 0 7. 4 2 0 5号公報、特開平 8— 2 7 8、 9 8 2.号公報、特開平 1 1 -. 7 3 4 1 5号公報、及び特開 2 0 0 1— 3： 3 公報 IE載:^).発明では .; 例えば、 A社に関連した技術文献: A群と： B.社に関連:しこ技術文献. B群との間で、技術文献に記載されている内容を-マ-ク口的に比較する要求が, あつたとしても、従来は技術文献 A—群技術文„.献.：&群に;;所.属する個の技術文献どうしを個々ミク口的 fej ^較 1；、.そ-の旗の演-算結果からマ ' 口的な技術文献群間の比較を導き出でいた ^ 作業効率が暴、. う不具合を生じていた。また、非特許文献 1に記載のパテ十^;ッ : . 較^お辆：同一又は類似の研究開発テーマの ^容、的な魏向;や:分雍赫, ることが可能であるとされているが. 企業;間!において、 Λ 業全体総薛術文献を母集団とした各技術の相対的評每を算出すると-がで^ ¾ ν ため、無形資産の価値評価手法として、定量的:、定性:的な赭¾_;を得ち机-' ず、信託や投資の評価の対象、企業特許戦略決め手と ¾る:技術戰鋒の指標を算出することができないレ不具合,を'生^ で。 -.

また、このミクロ的な類似率を平均 _する計算方法.を用い:るど、 "^えば；図 1 9に示す場合において、技術文献群 A 技術次献 Β群と全—ぐ異-なる場合には、類似率は 0と算出され.？^：また全^の: &合せで求た . 均の類似率も 0となるので問題なレ、-: ： _うえる _;。

ところが、第 1の技術文献群と-第技術文歡群と-が-まつこ：く:同の- 場合であっても、第 1の技術文献群に含まれ:る.技術;文 A1に-対て 2 の技術文献群に含まれる技術文献.献 1, B2, B3, B4 D ..ミ'クロ.、的な—導率を求めると、 2つの技術文献全ぐ.同一の場食（A1=B1など) _: は Atと ' どの類似率は 1と算出されるが、.それ以外の場合には舷に類似率が 1 ；になることはない。更に A1以外の；. Α2、 A3、 Α4などに対する総ての組合せで求めた平均類似率は、 1とそれ以下の数値の平均となるので、やはり類似率が 1と算出されることはないという不具合を生じる。

また、技術文献の総数が数万件:^上: :なる場合 (^よ:うに、:多食技術文献どうしについて類似率を算出する-際 jま、全 (^抉術文献のについて類似率を計算する必要力の: ?、顆似率を算出す ¾:ίこ：おつ：ての計算量が膨大となるために、計範開が多ぐ必と、な：^ 類似率^ 計算結果を素早く表示することができない.:^レ、不具合-を生 !^る - また従来のように類似率を算するに-あた-:り:、 -調査対象.と-母集団の技術文献をキーヮードで切り分け、個.々のキーード含- れ:.

の数量と、技術文献の総数との比を :レ、 dr ^ ^. ^^ - ViC ^ 演算した比率を平均して類似率を募讲 ¾:方法 :は ^ ^⁷ :^?*^ 性に応じた重み付けを行なわなレ、と、箅出きれる類似率と実際の感覚的な類似率との差が大きく開いてしまうとい..う不具合を:生:^で:いる _ό この重み付けをしたキーワードを用いて類似-率を算出.する際に、 .全キ一ワードについてオペレータが重み付けを行なて：ソ' ラス辞書を. 作成し、その重み付けに基づいて類傲率を算する. -と ^"能で Φ ^ これは理論的に可能ではある:が、実際に膨大な量のキ 'ヮ'一 _:ド..のれぞれに重みを付けることは結構大変:な作業 £ ( .難の業）

自動化にはそぐわない。また、個々の技籍文献毎:に類似率が:算出される—- ことには変わりないので、結局は技術文献词-士をミ:ク:. -的に.比較 _じでいるにすぎないという不具合を生じて.いた

また、非特許文献 1に記載のパ ^トマップ^は:、パテ^ :トァ;ッ.プ炸成支援ソフトの価格が、約 1 5万^ 5 :0万円.程度:でおり、そ.の:操作に;は.'

、コンピュータだけでなく特許請求 _の範囲、図;面等 ¾読み'取る等—高.:度な. 技術力と知識力を必要とする。特許調査機関で依頼る ¾^ も :.: 1.件:: あたり 3 0万円以上の費用が必要である 'と;.も.に、約 1；ケ以作時間が必要となる。

従って、資本金や開発費の少ないベンチ-ャ企業等力 S利用する場合.、: . あるいは出願を急ぐ場合には、パテン:ト:マプの利用 .制限されるこ.:とが想定される。

また、従来の知的財産評価装置等では:、製品等の研究開発 i着:^前に: 過去から最近の情報を広く収集して:;、 '：競合他社め技術動向の分析や、技:' 術レベルを把握する技術動向調査等 (^調査を行い <：、:と ·ν、：う,:不具合. を生じていた。

近年、企業価値に占める無形資産 ^タブノレ ' セッ割合が大きくなるにつれ、無形資産の襄 iB¾¾fe業価値を大き.く左右す^ うになつてきた。

従って、信託会社は信託の対象に、、拔資家は投賓の対象に企業^:，知的財産から産出される利益を重視す-ベぐ:特許戦略:の動向-の対象 -、 ¾そぞれ無形財産を指標として用いる義:向 J :ある

しかし従来は、投資の参考にするため:に:.、 '枝術 - 献般を用いて業の保有す.る無形財産を比較するの適切な堉撢. 在してレ、：なかつ, た。

特に、生き残りをかけた企業経営におい；.新規事業参.入や新製^の開発に着手する前段階において開発費を充;てる:価値ある技術分野な: のか、特許出願すベき価値が,ある:の：騵赛査 Jf求-を：すべき力否か: 、権利化の可能性があるのか、ラインス突渉レ:^合 ^利翁率: が高いか否か等の特許戦略を検討す.る」た:めの指標の存在力、 -非常に-重寒となってきている。

そこで本発明は、上記従来の状況 j 鑑み,、：伞.業間に-おレて.、 - .—特.許公報等に限られない広範な技術 ¾献群同を比較..し:、. の. _感覚 A 致する.適当な類似率を算出することによつ',て；量的、：:定性..的.かつ相.対釣な、無形 ■ 資産の価値を評価することが可能な指標.を算出..する^めの類似率算坩：装置、類似率算出プログラム並び類率算 #1方择供す ^ h-^ : 的としている。 - また本発明は、第 1の技術文献群と第: 2_の技術文献群とが全く違ったときだけは類似率が 0と算出される .と.もに、::第 Lの翁辨文献群と第 2·. の技術文献群とが同一のときだけは類似率が 1 算出されうるのであって、大量で時間のかかる計算を.必要とせず、分析者の恣意が混入することによって算出される類似率の値変わ:.る可能性が少な：く:、一第 Πの- 技術文献群と第 2の技術文献群と間でク口的な獰.似性較結果: を算出することが可能な類似率算出装置、斜率算 ^ ^餘^ 類似率算出方法を提供することを.目的と：.レて、る。

また本発明では、比較する技術文献の総翁が魏件^上-とな:る場合で: あつても、比較的短い計算時間で類似率:を算出ると力. s可能.な聚 ί 算出装置、類似率算出プロラム並びに類似算出方法を提供することを目的と-している。

また本発明では、技術文献群同'士マ:クロ—的に比：較る ^可能な類似率算出装置、類似率算出プログラ' ^並:ぴに揮似率算:出法を-提翁することを目的としている。また本発明では、無体財産により '企業価値.'を:見極める要求のある投資家等や一般の実務者にも容易に极:うことが可能な類似率算出装置、類似率算出プログラム並びに類似率算出方法を提供する.こと-を目的としでいる。

―上記課題を解決するために.本発明〖ま、'特許:. ：献又 ίま技報等:の技術'交轉から構成される第 1の技術文献群第 ^; の技翁献群.との技術 -的.な似性を判断するための指標を算出する類似率算;出装:置であて'、 . ヒ較対: 象となる第 1の技術文献群及び第 2-の技術: 献群を入力する技術文献群入力手段と、キーワードや I P C :"どの-.技攀情報を^力す-る技術情報入力手段と、第 1の技術文献群及び第; 2:の技術.文:軟群食ま :れ.る-技:術文献について前記入力した技術情報を含む技術^献を検索.レて該検索だ技術文献をそれぞれの技術情報毎にタ- タニ分解するクラスタ:分解手段と、前記クラスタ分解した結.果得られた全ク:ラ：んタ数-:と.第 1:の技術文献群及び第 2の技術文献群の双方の技術文.献を含む混在クラスタ数との比を類似率として算出する類似率.算出」手揆^、前記算出た類似率を記録手段、表示手段、又は通信手—段に出する出力手段とを.備えたこ- とを特徴とする。

また上記課題を解決するために本発明は、：,ヒ較对象と.なる:第 1の:技 J¾ 文献群及び第 2の技術文献群を入力す」る： '技:術文錄群入」力手段「と:、キ. ードゃ I p cなどの技術情報を ^力:する:技術f報入力手.段と、'第技術文献群及び第 2の技術文献群に含まれる技術文献 Λ、て. tft記力: した技術情報を含む技術文献を検索-し^該検索!^た技術^献をそれぞ」れの技術情報毎にクラスタ分解するクラスタ—分解手段.と,.、-前 1¾クラ,ス：分解した結果得られた全クラスタ.数と第 1 ; 技術: .献群及び第 % J 術文献群の双方の技術文献.を含む浪在ス数を算出'するとともに、各混在クラスタに含まれる技術^:献暈に応じこ値を取る第 1の補正値と各混在—クラスタに含まれる第 1 (^技術文献群の _技術文献ど第 r2の: 技術文献群の技術文献との混ざり袅合! £応値.を取る蒸: 2の擁正値とを乗算したものを各混在クラスタ::につレ、韆和を算- -し、前記算出しだ全クラスタ数で除算して類似率を.算 W る.輯似:率算出:手段と、 -.前記'秦出した類似率を記録手段、表示手、又は通信手段に.出力する-出手—段. と備えたことを特徴とする。

また上記課題を解決するために本発明-は、比較対象となる第 1 ·の技術文献群及び第 2の技術文献群を入力」る: 鬼文献.群 Λ力-手段,と.、'キ: "ヮードゃ I P Cなどの技術情報を入力る.我:術情報入力手— と、第: 1 技: 術文献群及び第 2の技術文献群に食まれる-技術-文献にい: 前記カした技術情報を含む技術文献を搀率レて該検索た技術文献をそれぞ: れの技術情報毎にクラスタ分解するクテ —分解手段と-、.前記クラスタ二 · 分解した結果得られた全クスタ数と.第の:技術文献群及第, _:2 (^技. 術文献群の双方の技術文献を含混在.クラ^タ数を導出する！) ¾ . 個々のクラスタ内の技術文献数の—_α.乘- (,i¾ <¾ -) _に¾例レ補；値を各混在クラスタについて総和を .出し、.全グラスタ,数で!^算：て:類: 似率を算出する類似率算出手段と.、前記：算出-レた類似率記録手殺、表: 示手段、又は通信手段に出力する出力-手 ^と: 備.—ぇこ: と—を徴す δ また上記課題を解決するために.本発明、比: 対象となる第 1の技術文献群及び第 2の技術文献群を入力; ;.る」技：術鬼群入力手段：と、 -キ _ー , ードゃ I P Cなどの技術情報を ,力中^!.焚锻情報 ^力手.段、第ユ ^)技. _: 術文献群及び第 2の技術文献群に含まれる技術^献、て:前記 Λカした技術情報を含む技術文献を検赛 ^該検索た技術: 献をそ ¾ぞ3 れの技術情報毎にクラスタ分解 1：るラ ^分解手與 ir前 |5- rn ^ ^一分解した結果得られだ全クラスタ数 ^箄技術文献群 ²; 挟: 術文献群の双方の技術文献を含む:混在.ク-:ラス: 舉あ算傲す:ると.も: i ：個々—のクラスタ内の技術文献数の（伹し； 0ぐ ) ：を .^ S ^ 内の技術文献数の平均値等の規伥頃子で除算 fe ^補 IE値 ¾各タ . ラスタについて総和を算出し、全汐ス黎で餘算レて類似率を算出す.; る類似率算出手段と、前記算出似率を記録手表示手段翼 ; 通信手段に出力する出力手段とを備た:こ ^特徴どまた上記課題を解決するために.本発明は、'比較対象となる第 1の術:: 文献群及び第 2の技術文献群を入力する：技術文献群入力：手段と.、 ^ワ. 一ドゃ I P Cなどの技術情報を入力す,る技術情報 ¾手.段と；第 1の技術文献群及び第 2の技術文献群に含ま _れる _技術.文献ついて前記入した技術情報を含む技術文献を検索.して—該検索技術文献をそぞれの技術情報毎にクラスタ分解す.るグラスタ'分解手段;: 前記 π タ- 分解した結果得られた全クラスタ数: 第, l 技術文献群: 第術文献群双方の技術文献を含む混在:ク:ラタ数を -算出するととに、：前記クラスタ分解した結果得られた提在クラス:タに含まれる第の技- 術文献群及び第 2の技術文献群の.技,術文献数の滅.率応じて補正す.:る- だめに、第 1の技術文献群の中から. m個第 :2の技 _術文献群:の:中個の技術文献を取り出す確率の乗 (伹し V 0 <： γ )； ; tt例た捕 E値を各混在クラスタについて総和を:算出レ、前記算出し;た全クラ 'タ ' 除算して類似率を算出する類似率算:出芽段と、前記算「出 .した頻似率 ¾ ¾ 録手段、表示手段、又は通信手段に力する出:力手:段 ^:とを.備 φたとを特徴とする。

また上記課題を解決するために本発明は、比較対-象となる第- 1 .の:技文献群及び第 2の技術文献群を入力する技術^:.献群力ま:段とキ ^. ードゃ I P Cなどの技術情報を入办する拔術情報入'カ^^と ^第¾ 技- 術文献群及び第 2の技術文献群含まお:る:技術文献に:つ: ヽ：前 1& 力: した技術情報を含む技術文献を検索で载検索 ^ ^ ^ ^. れの技術情報毎にクラスタ分解するスタ::分解手:段—と:、前記'クラタ分解した結果得られた全クラスタ数と第の茶術.文敝睡及び第 2.- 技術文献群の双方の技術文献を含む^ &: ス;タ数算す:ると:

前記クラスタ分解した結果得られこ'混在クラスタに含まれる第'！ Φ . 術文献群及び第 2の技術文献群の;技術文献数 :確舉じて雄正. I ために、第 1の技術文献群の中から m個; 第 2 '(^技 ί¾；献:群？).中から-- 個の技術文献を取り出す確率の γ乗 (：但 ¾ 0 ¾ .を瑭格化因チで;除 ^: 算した補正値を各混在クラスタに^い :総和-!:.算 -出¾^-前 :!£算出クラスタ数で除算して類似率を算出る慕似率幾出手段と、 Ϊ前記算:出；た類似率を記録手段、表示手段、は'通信殺に力する出手とお備えたことを特徴とする。また本発-明は:、前記'規将化因 .を:；：第 1の技術文献群の中から m個、第 2の技術文-献群の中か n :個^技術文献を取：り出す確率の最大値の γ乗（伹レ J0L を特徴 ' る。

また上記課題を解決するために本発明は、 :比較対.象-となる第 1 ©技術. 文献群及び第 2の技術文献群を入力する技術文献群力.手ど、 :一一ドゃ I P Cなどの技術情報を入力する術情報入力手:段と、:第 1嘛術文献群及び第 2め技術文献群に含:まれ;る技術 .献 . い ^Γ .祯記 ^力 . した技術情報を含む技術文献を検索て、 ¾該検索おた技術文献,をそれ¾ れの技術情報毎にクラスタ分解- るラ解手段と前記グタ; 分解した結果得られた全クラスタ数第 1の技術文献群及び第 ¾技. _ 術文献群の双方の技術文献を含む绲在クラスタ:数を'算出する-とと:も、 7「第 1の技術文献群に含まれる技術文献数と:第の技術飾群：^ま- れる技術文献数 Nとの構成比、と-、記クラスタ分解した結果得られた混在クラスタに含まれる第技術文献群技術文献数 πι，第一 2の技術文献群の技術文献数 nの混 ^^ ぉ ½ ; 摴威比と混在比との比を取ったものの ζ ぐ . : 姚じ¾¾¾ 値を各混在クラスタについ:^総和集出；：前記算出た^:ラ ^数：で除算して類似率を算出する類似条揆と前1¾算^ 類似率を - 記録手段、表示手段、 ¾は通信段1 求出力;手段と ^俊えこ:とを特徵とする。

また上 Is課題を解決するために * ^明;は、比較対象な.る^ 1 技！^ 文献群及び第 2の技術文献群を入 ¾す技術献群力

ードゃ I P Cなどの技術情報を入力る ¾術1$¾人 ^ と第 1 技術文献群及び第 2の技術文献群^含まれる技術 'で前記:; カ^ した技術情報を含む技術文献を検索該檢索:^た文献.をぞれれの技術情報毎にクラスタ分解す:る分解系段と:、 -前記クラ : 分解した結果得られた全クラスタ数と第.1 '抜文献.群及び _第 2_Lの技術文献群の双方の技術文献を含 ¾海牵.ク . 奪を算^するとと ¾»に、第 1の技術文献群と第 2の技術文群:^を ji.食 Ujfe技術文漱群の;！^ ら、第 1の技術文献群の技術文献を取り,:出す確率に、前記: .ラ. .タ:分解- した混在クラスタに含まれ.:る技術文献黎を:乗':箏第¹ 技術^:静群の技術文献を取り出す期待値を算出し、前記期待値と混合クラスタに含まれる第 1の技術文献群の技術文献 ¾と.. .差き期樣値,差と, .て算出し、 . その期待値差を任意定数 (但し、！ < の.負指数: 補正槺各混在クラスタについて総和を算.出 -、:前記箅. した全クラス:.タ教で険算して類似率を算出する類 ig率箏手段と、剪 |E算出:じた菊似轰を記舞手段、表示手段、又は通信手段に m る:出段と:. 備えこ : 徴とする。

また上記課題を解決するため本発.明...は、：, 較象と. 第:1の,技術/ 文献群及び第 2の技術文献群を入力する技術.文献群入力 .段、..^ .- ードゃ I P Cなどの技術情報を入力する _:技情報 Λ力段 .、第 1. :技術文献群及び第 2の技術文献群に含まれ.る ¾.術.'文について前 J&入力した技術情報を含む技術文献を検索し—て V：該検索した技術-文献をそれぞ_ れの技術情報毎にクラスダ分解するクラ .タ分解.手 .と前記ク:^ 分解した結果得られた全クラス擎と第. L 抉辨^: -献群 ¾び第² 技術文献群の双方の技術文献を含むクタ:数を紫出す.る：と,:お、第 1の技術文献群と第 2の技術 ¾献群と氣舍.し fご技 _術文- 群のら、第: 1の技術文献群の技術文轉_を取:り:. (±} 率: 、.前ス :分解した混在クラスタに含まれる技術.文難寧を季算して第 1の技術文献群の技術文献を取り出す期待値を算！ ^し mmm m.t混合クタまれる第 1の技術文献群の術文献数との差を:期待値差と： —て算出、— その期待値差を混在クラスタに含まれ

も..の：を: 任意定数 ί但し、 1くの食の：指舉とた練 ¾Ε{ϋとし r" れ缛在クラスタについて総和を算出し、 ¾ 前! ^算 iij 舍クラ熬除算して類似率を算出する類似率算出手 .と;、 -前 E算出-:した類似.率-を記録手段、表示手段、又は通信手段に出力する出-力手段と;を備えたことを特徴とする。

本発明によれば、特許文献又は技報等の技術文献から構成さ.れる第 1 の技術文献群と第 2の技術文献群と^技術的な類性を判断るめの指標を算出する類似率算出装置で:あ- て；比較対象となる第.1. 技術文献群及び第 2の技術文献群を入力する技術文献群入力手段 :、：キーヮ一ドゃ I P Cなどの技術情報を入'力す'る：技術情報入力手段と .第. の技術文献群及び第 2の技術文献群に含まれる技術文献に' て前記 '入力した技術情報を含む技術文献を検索して該検索した技術:文献をそれぞれの技術情報毎にクラスタ分解ずるクヌタ^^?^段ど、前グラ: ¾ 分解した結果得られた全クラスタ数と第 1の技術文献群;及:び.第-: 2，の技— 術文献群の双方の技術文献を含む混在クラスタ数との比を類似率として算出する類似率算出手段と、前記算出した-類似率を記録手段、表;示手段、又は通信手段に出力する出力手段どを備えたので、その.分解:.した全クラスタ数と混在クラスタ数の比に基づいて、技術文献群に IB載され :; いる技術内容の類似性を示す指標を簡便に算出す.る'こ'とが可能と.な:る。：また本発明によれば、類似率算出ま段に各混在クラスタ：に含まれ:る _技術文献の量に応じた値を取る第 1の補正値各混在 _クラスタ:に含ま：れる第 1の技術文献群の技術文献と第 2の技術文献群の技術文献と混ざり具合に応じた値を取る第 2め補正値;と.を：乗算だの、:各.混在ラスタについて総和を算出して、,^:クラタ数除窠顥似率を算 ¾ する機能を設けたので、補正項 1の存在により混在クラ ^タに含ま .る技術文献の量に応じて重要度が高いこを意味付ける補正が可能..となるとともに、補正項 2の存在により.混在クラタに含まれる技 _術文献の割合が所定の量に近い程、

値を示すように重い重み付けをじて、類似-率の農出'結果を、より人の感覚に合うように補正することが可能:どな。

従って、捕正項 1及び捕正項 2 :を：用-いて類:似率を算:出ると Jこおて、技術文献数量の多い混在クラ ^:スタを重要視.じ類似:率を補する : ともに、.技術-文献の混ざり具合が不. 場合は.、類 ^率を 7』、ざい篩· に補正することが可能となる。

また本発明によれば、類似率算出手段に個.タクラス-タ内 .技銜; ^献数の α乗（但し、 0く α) に比例した捕正値を爷缛在クラスタ.に :い _で，総和を算出し、全クラスタ数で除算て寧率を算 ;する機能.を^け^.. -. ので、クラスタ内の技術文献数が多レ.)_:ほ拿要なク , タ'であとするような類似率を算出することが可能となる。

また本発明によれば、類似率算出手段傾々—のラスタ内の技術 ^献 - 数の α乗（但し、 0く α) を、全クスタ数等 (7)規搔化,因子で晚寧て類似率を算出する機能を備えたの,で、, .≤靜俾率 1 -.-を保するとが可能となる。また、規格化因子と . ^えス .内の .術文献数の _;平 ' 均値を配置したので、全クラスタ内の技術文献数の均镢を碁準技術文献の量の多少を算出するこが可能な

また本発明によれば類似率算出.手段【こ、.第 - の技術文献群の中か: fern . 個、第 2の技術文献群の中かも n個の技術軟_を¾り出す確率の乗-- (- 但し、ひ < γ) に比例した補正値を各混在ク_:ラタについて総和を算出- し、全クラスタ数で除算して類似率を筹出する機能を設けた。すなち; 、類似率算出手段に（Α群の中か ηι個、 Β群の中^ η個の技術文を取り出す組合せの数） Ζ· ( A群と群と.を混^合.おせ:た:中か.ら十' 個の技術文献を取り出す組合せ数)'を翁子に ffigし fこ^算^行なう構能, を備えたので、混在クラスタに含まれる A群及^ 群抹術 ^献数^)偏り（作為性）に応じて、偏り大の場舍きレ:、禅 Ε値に、小 < 場合-: は大きい補正値に類似率を補正す可能 ¾る。：ま.た、..規咚化因:: 子として、第 1の技術文献群の中^^ m個,、 _第 ¾術文献群 φ :^ _: n個の技術文献を取り出す確率の最^値の γ乗： (但し、'.0く )」-を配置したので、類似率の算出範囲としで 0≤類^率 ¾ .¾保証する :と.が— 可能となる。

また本発明によれば類似率算出手舉に、：第- 1'の ^^:献群こ含ま 1る- 技術文献数 Μと第 2の技術文献群-に含まれる技術文献数 Νとの構戒比;' ― N /Mと、クラスタ分解した結果得られラ 'タ ;翁 1 の技術文献群の技術文献数 mと第 2め術、文献群の,拔術：献数 nの混在比、 n / mとについて、更に構成此: 混比:とめ比.を取^た.もの ζ : 乗（但し、 0く ζ ) に比例した補正値混在クテスタにぃて.総称を: 算出し、全クラスタ数で除算しで.類似率算出する機能を備えで、 I, Α群と Β群の技術文献数量の構成-比と：各グラズダ内おる技傷文截同士の混在比が同じであるほど類似 :高:.く算出する _( 1:に近づる）：; ことが可能となる。

また、構成比と混在比との比の指数を' ζ > 1 に設定するこどによって、 Α群と B群の技術文献数量の—比:ど：、 .各ク. 'ラスタ.内に:お:ける！ ¾術文献同士の混在比との比が小さい混 ϊ ^クラ ,タの影響を、：類似率の算 1±1 結果に大きく反映させないようにするが可能どなる。:

また、指数 ζを ζ = 1 に設定す:ることによつて、単純に. AJ と Β 群の技術文献数量の構成比と、各グ': ¾スタ內における-技術文献同士—の:混: 在比との比に応じて類似率を増減させることが可能どなる。:;：

また、分子の指数を 0く ζ く 1 Jこ設定することによ、^群群の技術文献数量の構成比と、各クスダ内における技術文献伺士:の j混在比との比が大きい場合に類似率,の.算出結果に対する影響を少なくることが可能となる。

また本発明によれば類似率算出手段:に:、：第 1:.の技術文献！^と 2. 技- 術文献群とを混合した技術文献群 :中-から第！；. :技術文献歌の技裉文献を取り出す確率に前記クラスタ分解した混在.ク.ラスタこ含まる'技術文献数を乗算して第 1の技術文献群の'技術文献取:り出す期待値：を算出し、前記期待値と混合クラスタ:に含まれる第 :技術文献群の技術文献数との差を期待値差と:.じて算出じ'、¹ ^待値差を任意定数 ii? し、 1 < | ) の食の指数とした補正値を、各混在ク.ラ:スタ. ついて和を算出し、全クラスタ数で除算しで類似率と算出するようにしたので、 aの値の設定に応じて期待値差に対する類似家の.算 ta結果を敏盧応させる補正を行なうことが可能: なるまた本発明によれば類似率算出-手段,に..、第の技術-文献群と.第 2 技■ 術文献群とを混合した技術文献群の'中：おらニ第 ϊの技;術文献群の技術文: 献を取り出す確率に前記クラスタ—分解した混在ク-ラス .に'含まれる-技': ：術文献数を乗算して第 1 の技術文献群の技術文献を.取り .¾!す期餐-値を算出し、前記期待値と混合クス：タに含まれる第-.1の,技術文献群の技お文献数との差を期待値差として算出しその期待値差を混在グスタ Jこ. 含まれる技術文献数で除算したも .を-、 _;任意.定数 . .（但し:、 1.ぐ: ) の': 負の指数と.した補正値とし、これを各混タラ ;タについて総和を算出し、更に全クラスタ数で除算して類似率と算出す.る.ま〕にた:

の値の設定に応じて期待値差に対する類似率算 ¾結果を敏感: ¾ 応, させる補正を行なうことが可能と. -なる。 . 図面の簡単な説明

図 1は、本.発明に係る類似率算出シテムの:全-体第成図である。

図 2は、本発明に係る類似率算出装置のブロジ「ク図ある

図 3は、技術文献 A群と技術文献 B'群に含まれる'技術：文献の構成-を示す.': 図である。

囪 4は、類似率の表示処理を示- 1：フ口チヤートである o

図 5は、類似率算出のための入力画面表示:例:を示す図である。

図 6は、算出した類似率を利用者に通知,する領似,率表示 '画面 Ϊの表示例 ¾ 示す図である。

図 7は、本発明に係る類似率算出装置:を用いて技術文献群をクラスタ: 解した後の各クラスタの構成を示'す,図：ある - .

図 8は、類似率の算出処理を示すフ.ローチヤ. .トであ—る。：

図 9は、類似率の計算に用い 'る設定条件を示す図表でる ^:ό

図 1 0は、混在クラスタ 1には技術文献が多く

図である。

図 1 1は、補正項 1 ( 1 )を採用した.場 i合の類似率算出例の ¾表ある - 図 1 2は、捕正項 2 ( 1 )を採用した場合の—類似率算出例の図表る^ 図 1 3は、補正項 1 ( 1 ) 及び補正 2:.:: (ί'Φ ：.の; ¾方:を採用:し場合？) .. 類似率算出例の図表である。

図 1 4は、補正項 2 ( 2 )を採用た場合の.類似率算出:例図表であるお ' 図 1 5は、補正項 1 ( 1 ) 及び補正項 2 ..(L.2 ) を採甩した場合類似率算出例の図表である。

図 1 6は、（式³ 1 ) に条件 1〜：: 4を.代.入し'た:場合の期铮値差の—算例を示す図表である。

図 1 7は、 ξ = 1 0とした場合においで:、.（式: 3 :2 ) 4こ：条件 1 4 ¾. 入した場合の類似率算出例の図表である:。

図 1 8は、補正項. 1 ( 1 ) 及び補正項 2— (： 3 ) を採用: た場合の類似率算出例の図表である。

図 1 9は、技術文献 Α群に含まれる技術文献と、技術文献 B群に含まれる技術文献を個々にミクロ的に比較する:従来.の状況を示す図である。一発明を実施するための最良の形態：

■ 図 1は、本発明に係る類似率算出シスム ^:の全体構成図である。.

同図に示すように、本発明に係る-類似率算出システムは、技術文献データベース 2 0から通信網 1 0を介して、 :類似率の算出必要な：技術.文献を読み出して、類似率を算出レ表示す ¾羝似率算出.装置 3 o 信網 1 0を介して各社の技報や、出願.済みの特許公報、実用新案^報等' の特許文献を含む技術文献を記録する技術文献データベース 2 0とが設けられている。

通信網 1 0は、インターネッ I等の.通信:網でおつて、.類似率:算. 装：

3 0が通信網 1 0を介して技術文献デー .！^ ス: 2 Qか特許 ¾献等- の技術文献に関する情報を取得することが可能となて 'いる ¾ - 類似率算出装置 3 0は、利用者から比較対象:の技術文献群に.隨申る:情:' 報や、文献どうしの比較条件を入力し、技術文献データベース 2 0から通信網 1 0を介して、類似率の算出に必要な技術文献.を読み出し、 ϋ類、似率を算出して表示することが可能と'なって、る。' 図 2は、本発明に係る類似率算出装置のブロッ 'ク図である。

同図に示すように類似率算出装置.3 -Ό:め情報送受信部には、公衆回線又は通信ネットヮ一ク等の通信網 :3 6 を介して技術文献データ. . ス 2 0等の他の通信機器と情報の送受信を行な-ゔことが可能な送受信」手段 3 6 5 (技術文献群入力—手段技術情報:入力.手段、又は出力手段の機能を含むものであってもよい）：が設-けられている。

送受信手段 3 6 5は、技術文献デニタ：ベス 2 :0から通信網 1 0を介して、類似率の算出に必要な技術文献を取得することが可能となっている。

また類似率算出装置 3 0には、:利用者,から此較対象の技術文献群 (に関— する情報や、文献同士の比較条件を入力す.る:キポド、マウス等の入力手段 3 7 0 (技術情報入力手段の機能を含むのであって: よレ、0 :が. - 設けられている。

また類似率算出装置 3 0には、入力手段 3 7 0を介して入力した各種情報を読み取って後述する情報処理手段 3 8 0に伝達したり、情報処理手段 3 8 0からの指示に基づいて L E D,.等に表示指令を出力する.. 力インターフェース 3 7 1 (技術情報入力手段の機能を含むものであ' て- もよい）と、画像や文字等の情報を表示-する.表示手段: 3 .7.2 . (出力手段の機能を含むものであってもよい：と :情報処理手段.3 8 .0の指令に,基づいて表示手段 3 7 2に対:して表示 '用の画像信号を出力する表示ィ. ターフェース 3 7 3 (出力手段の機能を含むもの:であて:もよい) と . 設けられている。なお、入力手段 3 7 0.は-、 - キボードやマウスに限らず、タブレット等の入力装置を含むの.である。

また類似率算出装置 3 0には、記録媒体 3 7 7を着脱可能に装着する記録媒体装着部 3. 7 8と、記録媒体「3 7 71こ対て各:種精報を記録：したり読み出したりする記録媒体ィンターフエ二ス 3Γ7 9 (技術文難群入力：手段、技術情報入力手段、又は出力手段の機能を含むも ^:のであってもよい）とが設けられている。なお、記録媒体: 3 7 7は :'メ' リ力ド等の半導体や、 M O、磁気ディスグ等に代表され :磁気記録式、 .光記録武等の着脱可能な記録媒体である。

また、類似率算出装置 3 0には、:類似率算出装置.3 Ό 全体の:制御を行う情報処理手段 3 8 0と、情報 ¾¾ 3 8 0·にて寒行される:;ズロズラムや各種定数が記録されている R:OMや情報処理手 3 8 0が処理. を実行する際の作業領域と-なる記錄手;^であ.:る AM:とか'ら構:成さ.れるメモリ 3 8 1とが設けられてレ） §。：

また、情報処理手段 3 8 0 (クラスタ分解手段、又は.類似率算手段). は、利用者から比較対象の技術:?:献群に開する情報や、^^献同比較- 条件を入力し、技術文献データベース 2 0から類似率の算出に必要な技術文献を取得し、記録手段 3 8 4 ^記録:されて1：る類_偶率の_:演算_: 1?グラムや類似率の算出処理プログラムに ¾づいて技術文献同士の類似率を算出する機能を実現すること^可能となつてる o^ *た、 ^:：類似:率募出結果を表示手段 3 7 2に表示する:機能裏現することが可能となつている。

なお、情報処理手段 3 8 0 (クラ ^分解手段は、 r文書内の請求- 項、発明の詳細な説明、図面の簡举な説:明、要約などに含:ま'れる言-葉. ('単:. 語、熟語、名詞、動詞、助動詞、形容詞、-副詞、助詞など) からなる；を分かち書きしたり、 1宇、 2 な.ど機械的切り出て技銜文孫を検索し、該検索した技術文献をそれぞれ S術情報毎:にクラ.'スタ-分:解卞る.:. 機能を実現することが可となてレ

また情報処理手段 3 8 0 (クラス分解手段):は、書誌事項な; 食 · : まれる項目（ I P C等の分類、願、 '出願番号、出願名、 . ¾明者.、 ' 審査請求の有無、補正の有無、国内優先の有無、 -外国出摩. c : i|絶:.' 理由の有無、登録日、登録番号、な )：: 用ク^ス-タ分解す ¾機能: を実現することが可能となっている。- また情報処理手段 3 8 0 (類似率：算^手段）：は、-：:クラスタ分解 'た結果得られた全クラスタ数と、第 tの技術文献群及.び第 ².の技術 ^棘群の-: 双方の技術文献を含む混在クラスタ数との比を算出するなど: υて拔術 Ί 文献群同士の類似率を算出する機能を実現す.ること:が可能とな .てい. る。

これらの全ての処理を情報処理手段': 3 8 :Όが実行 :る; f ねり、.複数の処理装置に分担して実行するよゔにしでお本発明の目的を達减ることが可能である。

また、類似率算出装置 3 0には;」類似率算 K装置 3^ 0 :処理に関る ^: 各種定数ゃネットヮク上の通信機器に通信接続る：際の属性情,報_: y

R L (Uniform Resource Locators)、：ガ—一ト' - ニイ:情報、 D N S (Domain Name System) 等の接続情報、企業の経営に関する情報 .特許.に関する, 情報、特許文献、技報、キーヮー屮 ' 技術情報等の各種情:報を記録する: ことが可能なハードディスク等の記:錄手段: 3: 3 -4、と:; |5録¾；:3 8 記録されている情報を読み出したり.記録-手段 3 8. 4に对して情報-を書き込む処理を行う記録手段ィンタフー:ス 3ϋ- : (技術文献群-入-力:手段、技術情報入力手段、又は出力手段..の機能を:含むも.'の'であて.もよヽ) と、時刻を刻むカレンダ時計 3 9 .0.とが設けられている。

類似率算出装置 3 0内の情報処理手段 3Έ: : 表示.イ^ター.;ヌ^! ス 3 7 3、メモリ 3 8 1、記録手段イン ^ r'フ ^ ： 3 8 :、力 : ？ダ時計 3 9 0等含む各周辺回路はバス 3 9 9 接続.されおり情银処理手段 3 8 0にて実行される処理'プログラ^に基づいて各々:の周.辺回路を制御する機能を実現することが、可能:'とな¾でる。

前記送受信手段 3 6 5、記録媒体:インタフ :ー -3 ·7':9、、記録手段インターフェース 3 8 5等の技術情報入.力..手段は; ί；比較対象とな-る.第の技術文献群及び第 2の技術文献群を入力する^とが可能とないる。

前記送受信手段 3 6 5、入力手段 3 7 0.·; 入办ィ：ンタフヱ,ース :7 1、記録媒体ィンターフェ ^-ス 3 '7: 9 記録手段インタエス^ 8 5等の技術情報入力手段は、キ一ヮドゃ ·Ι Cなどの技術情報;を ζ¾¾ することが可能どなっている。

前記送受信手段 3 6 5、表示イタ ^ェ：" 3: 7 記録 ^:手殺^^ンターフェース 3 8 5、記録媒体イ^ ヱ.ース： 3 7 9、;プリ' 4 ンターフェース等の出力手段は、.類似率算出手段が算出した類似率を、記録手段、表示手段、又は通信手段に出力す.る:ことが可能 .な -て:い-る:。.. 図 1に示したデータベース 2 0·は:、:, |¾録手段.3 : 3 4に記憶され： Γいる：場合や、 C D— R O M、 C D— R:W、- D-^p -、 M O等の記憶媒体 3 7 7 で提供される場合、通信網 3 6 4を：介で典信.機器から、取得する:場' 合も考えられる。

また、上記の類似率算出装置 3. Aは、:パ^- ナレ,コンピュータ、クー - クステーションなど様々なコンビュタを利甩して寒. すること:がで.. きる。さらに、コンピュータをネ'ッ.:ト^ー-ク 'で揆続して機能を分散して：; 実施するようにしても良い。、

本発明に係る類似率算出装置 Mび類似率算出プ π 、ラによつで算出される技術文献の類似率と〖 M 1' 技術文献群 r. (技術文献 A群). と別の第 2の技術文献群（技術文献 &群) とを所定のキヮードや; ί P Cなどに基づいてマク口的に比較した:際 .算出.される数修であって _、技術文献群同士がどの程度技術的に関連があるかを示す:指標:と.するための数値をいう。

そして、第 1の技術文献群（技術文献 Α:群）と第 2"の技術.文献群' (技術文献 Β群）は、何らかの属性：挎っ技術文献の集まり：とする。

本発明では、 Α社が出願した特許報.や Α社が発技報:^'ど:の第】 1の技術文献群（技術文献 A群）に記載.された技術内容^:、 B社が病した特許公報や B社が発行した技.報なの第の技術文献群（技術 ¾献 B群）に記載された技術内容とが-、どれだけ類似しているを定性的評価する指標としての数値を算 titすることによって、技術文献同士を容易に比較することが可能となっている。 .

以下に説明する実施例では、第 1の技術;文献群（'技術文献 A群） .と-第 2の技術文献群（技術文献 B群）に記載ざれた技術内容が類似していほど、類似率は大きい値をとるものと::定義じ: e:v、る。

なお本発明では、類似率を算出する.際異なる:条件設定じた場合であっても、第 1の技術文献群（技術文献 A-群） .と第; 2の技術文献群 (技術文献 B群） —との間で算出した類似率-と；第 3の'技術文献群（技術文献… C群）と第 4の技術文献群（技術文献 D群）：:ど間で算出した類似率と ' を直接比較することが可能であるよう.に、:類似率が-取り得-る範囲と.しで、 0 ^類似率≤ 1となるような演算'を::行なうことにじているが、類似率の- 取り得る範囲はこの範囲に限定ざれ/るも:のでほない。. I

図 3は、技術文献 A群と技術文献. B群に¹^.まれる技術文献の構成を示す図である。

同図に示すように、技術文献 Α·群は -A 1，. A 2；： A 3 , ", ΑΜの M . 個の技術文献から構成されており:'、技術文献: Β群は、 Β 1 ·, Β 2，：Β 3:， …： Β Νの Ν個の技術文献から構成され-て:い:る.。'

図 4は、類似率の表示処理を示すフ >~チ一でおる:。 ,

同図に示すように、利用者が技術文献群:どじを.比較:し:て、技術内容' が類似する度合いを調査する場合'には、 :: s_ Γ 0.：.：「類^ I率算出指示入力」' (以下 S 1 0のように省略して記載する。)：において、：類似率算出指示を類似率算出装置 3 0のキ^ボード、.マウス等の入力手段 3 7 Qを操作して入力し、以降の処理を実施させる— - .

類似率算出装置 3 0が、 S 1 0 0- 「入力画-面読出 '表示.」;にて、：.類似率算出指示に基づいて、類似率算出に'関する各種条件の入力顯面の表示, 情報を記録手段 3 8 4から読み出し-でその表示情報に基た-類似率.:: 算出に必要な条件の入力画面を表示:手段 3 · 7 2に表示す:る。：'

図 5は、類似率算出のための入力:画 ffiの表示例を示図である ό ; 同図に示すように入力画面には、 T比較対象と」なつ：いる'第： Lの技術.文- 献群と第 2の技術文献群の抽出条俯'を指定す;る情報と、キ^^ードゃ I 二 P Cなどの技術情報を指定する旨の情報が表 ¾ざれてレ ίる。.利用者ほ . 表示画面に基づいて諸事項を入力するごとが可能どなでいる。；クラスタ分解の条件を入力する部分では、 Λ特許公報、技報等の対象.文. 献の指定や、全文、請求項部分のみ等の:対象部分の設定や、 I P C、キニーヮード等のクラスタ分解の尺度等の各種条件,を入力す」ことが可:能となっている。更に技術文献群の轴出条件として、 .特許報の出願:日;の :. 期間、業界名称、出典元の企業名、個入名等を入方する.項目が表示されている。利用者は、図 5に示した入力画面に基レ、.て:、'容易に類似.率 . 算出条件を入力したり、予め設け.られてる複数の算出条件の中から所: 望の算出条件を選択することが可能どな.づ..ている.。

また図 5には、混在クラスタ比、を類似率算出用途 :応^て:捕: IE :る：ための、補正方法を入力する部分力設け:られてる。

例えば補正項 1として、各混在グラスタ^に含まれる技術文献の量に応じた値に基づいて、類似率を補正する:お否かの補正条件を、利甩者が入- 力することが可能となっている。

また補正項 2として、各混在クラス.タに含まれる-第 .1, 技術文親群の- 技術文献と第 2の技術 ¾献群の技術-文献との混ざ.り..具合に応じた値に.; 基づいて、類似率を補正するか否かの補: ΪΕ条件-を、. :利用者が:入力:する: : とが可能となっている。

なお本発明では、この技術文献との混ざり具合に応じた補正方法.と:じて、第 1の技術文献群の中から m個、第- 2.の綠術文献群のヰから n個の技術文献を取り出す確率の γ乗（低し.、' . Qく 7 )'に比例. た捕 15怖を:各混在クラスタについて総和を算出し、こ;れを全タ:ラスタ-数で.除算レ:て類: 似率の補正等を行なう、「技術文献数：の.確率」 .1こ応じた捕正方法:を選択することが可能となっている。

また本発明では、第 1の技術^献鮮に含まる技術文献数 Μ.と第- 2の- 技術文献群に含まれる技術文献数と:の構成比 Ν_/ Μと、クラスタ分解:: した結果得られた混在クラスタに含まれる第 1 -の技術文献群..の:技術/文献数 mと第 2の技術文献群の技術文献数 nの壤.在 :、 ή /rn i:に :いて- 更に構成比と混在比との比を取ったものの ζ擎 (但レ '、:〇.< ζ )二に譲した補正値を、各混在クラスタについ翁和:を算出— b、-これを全クラスタ数で除算して類似率の補正等を行なう、.「技術文献.の;混在比：! に応じ.' た補正方法を選択することが可能とって-いる。

また本発明では、第 1の技術文献群と第 2の.' . 術文献群とを混合レ : 技術文献群の中から、第 1の技術文献群の技術.文献を取り出す確津に.、前記クラスタ分解した混在クラスタに含まれ技術 ¾献数'を乗:算じ . 第 1の技術文献群の技術文献を'取：り.出す期待値:を算出:じ、、期待値..と.混合. クラスタに含まれる第 1の技術文献群の技術文献数との.差-を期待値差:. として算出し、その期待値差を任意定教 (-低:.レ . 1ぐ ) -の負指数,., とした補正値を、各混在クラスタにて-総.和を算出:レ、：これを全ク資スタ数で乗算して類似率の補正等:を行なう「技術文献期待値差^; -に-. ^: 応じた補正方法を選択することが可能' な 0いる。

図 4に示す S 1 2 「類似率算出条件入力] にで、利用者'は、表示手紫に表示されている案内に基づいて、特許:文献、技報、 -社報-、技術論文等の技術文献種別や、比較する技術文献群の:指定.、クラスダ.分解を実施す-: る際に技術文献群から技術文献を抽出する条件となる I P C.又は -；ワード等、更に類似率を算出する.際の目的に応た:補情報:を入力手: 段 3 7 0を介して入力する。

S 1 0 2 「技術文献取得」にて、情報処理手段 3. 8 0は、利用者.かお:. 入力した技術文献種別（例えば特許文献），に基づい:て検索するデ： r汐ベ-: ースを特定し、利用者から入力しお技術文献群'（例えば A:社の技術^:献- A群及び B社の技術文献 B群）の指定に基づいた技術文献群 .取得情歡を特定のデータベースに出力する.。

S 1 3 0 「技術文献読出」にて;' 技:術:文献デ^"タベース 2:0は、—類似: 率算出手段 3 0から取得した技術文献種別.ど技術文献群等に基づ: se, データベース内を検索して技術: ίς献を読: して;^：類似率算祖装;置' 3_、oに' - 送信する。

S 1 0 4 「類似率算出処理」にて、類似率.算出装置 3,0.は、デース 2 0から取得した技術文献群. (例えば A社:の技術文献 A群及び B:社の技術文献 B群）の中から、 ·利用者措定の P Cやキーワ— 'ドを共通し: て含む技術文献を選び出して、クラスタ.毎に分解する処理を行-なう。 - クラスタ分解した結果、技術文献. A群に属する.技術文献及び技術丈献 B群に属する技術文献とが混在している:クラスタを混在クスダと定義する。本発明では、全クラスタうち、,混在クラスタが存在す割合: に基づいて類似率を算出する。

また、類似率の用途に応じて、 '混在クラ.スタ:に含ま：.れる:技;術文献の数量や混在確率、混在比率、又はこれちの組合せに-応じた補正.を行なとも可能である。

S 1 0 6 「類似率表示処理」にて.、類似率算:出装置 3 0·は算出した. 類似率を表示手段 3 7 2に表示してく :利用者—に:通知するな:お、. S. 0 6にて類似率を表示手段 3 7 2に.表示す 'る代ね算出^た頻似率—を: 送受信手段 3 6 5と通信網 1 0を介して他の通信機器に送-信出力.する' ようにしてもよいし、記録手段ィ ^ターェス 3- .8.5.をしで記録芋. 段 3 8 4に記録出力するようにしで .よい'レ記録媒体イン:タ:ーフ？ ^ ス 3 7 9を介して記録媒体 3 7 7·に記録-出力す.る.:ようにし ίておよ。:ま' た、算出した類似率を、印刷用のプリタイ^タ (図^せず)二を介して印刷手段に出力するように—し:てもよ、。 - 図 6は、類似率算出装置 3 0が算出した類似.率を利用者に通知する:;: 類似率表示画面の表示例を示す図である'。

同図に示すように、類似率表示福面には:；利用者がカレた技術-文献群を抽出指定する情報と、キーワ^ドゃ I P c 'などの技艇情報をク . タ分解した際の尺度や、補正方法等の入力-情報が確認のために表示されている。

また類似率表示画面にはく捕正項; 3 :と-じて、例えばグ 'ラス'タ分解 - 際の所定の特許分類やキーヮー'ド注目.して恣意的：な重み.付 ^;け. 行 ¾ うための補正条件を、各クラスタ毎に利用者が入力することが可能となつている。同図に示す例では、補正項： 3の数値として:. r i: .: rq 0 ;D J . ¾ 設定している。

また類似率表示画面には、·類似率:の算出:結果、 rそ'の類似率を補 ΊΕ るための、 c 、、 ζ 、等の類似:率算出条件を連:続：的に変更する:スティドバーと、各クラスタの補正項を確認する, め -、 '.分解したクラス;タの内容を表示する部分が設けられてい-る。 - 利用者は、算出された類似率を'見ながら、— -自:由に類似率の算出条件を"; 変更することが可能となっている。.利'用者がスラ -.ド ^:バーを操作した場合には、情報処理手段 3 8 0がカレンダ時計, 3· 9. 0が係数する時間基いて、スライドバーの操作完了:を判避る。; . :ると.、精報処理手段 3 : 8 0が実施する処理は S 1 0 4に.分岐し再度.類似率を算出し、類似率の演算結果を類似率表示画面に表示す:る処理を.行なう _ό：

図 4に示す S 1 4 「終了」、 S H8 ;i「終了及ぴ S ..1.4 O ,「終了.」；: にて、類似率算出処理が終了する。

本発明における技術文献のクラ:スタ分解とは、 '：第.1·.の技術文献群' (Α - 群）と第 2の技術文献群（Β群）をマクロ的に-比較するための. 「類率」 -' を算出する際に、キーヮードゃ KP C等を用、て技術文献-を分類する；とをいう。

本発明を創作するにあたつて比較する 2つの技術.文献群.を鳥瞰してみたとき、 2つの技術文献群が別：々になて.いると、非常に.計算が複雑」になるが、 2つを「混ぜて」しまっ整理整頓すればずつ, 計算が容易になるのではないかと、エイャと「混ぜた-」 .ら.案の定類似.率の算出に磨- した様子が見えてきた。双方の技術文献群を混ぜた後ク,:ラスタ'分解に：:. より分類したところ、一部に両方め技術文献群の構成要素（技術文献)':- を含むクラスタ（混在クラスタ）が存在し；その'分解した-全クラタ霧- に対する混在クラスタの割合が、我々: -の通常の感覚としての類似率に近いことがわかった。

先ず、上記のように第 1の技術文献群と第 2.の技術文献群の双方の技術文献を混ぜてひとつの群にする。： - 混ざった技術文献の群を、何らか—の分:類法に.:よ .、ある技術文献の:小. さな集まり（クラスタという）に'分解す:る。 ·あるクラスタには第 1の技術文献群に属する技術文献が m個と第 2の技術文献群に属す-る技T文-: 献が n個含まれているとする。

技術文献を I P C (国際特許分類）毎や: ^ 技術文献に所定のキーヮ:_— . ドが含まれるか否かによって「グル^ "プ分け-!することを「クラス:タ分:: 解」すると定義する。図 7に、本発明に係る類似率算: ±j.葬置を用.いて技责文献群をクラスタ. 分解した後の各クラスタの構成きす.。， '

例えば図 7に示すように、 I P C 「G 0 6 F 1 3 0.」 -に分類される技術文献として、第 1の技術文献群ま-〖.特許文:献 A 1」が:、-きた第 2の技術文献群には「特許文献 B ^ ^ぞれ存在レ¾場食には： I P C 「G 0 6 F 1 7 Z 3 0」のラ.ス:タ;-に:は「特許^献 A 1、」 .と_：「特許文献 B l」の要素が含まれる。

また例えば、キ一ワードとして「テ:キス:ト処理」. い-う-文言を食技. 術文献が、第 1の技術文献群にゆ. 「垓術献 4 ：^、:また第 -の技術. 文献群には「技術文献 B 2」及び _:「:技術文献 B 3.」が存在した場合には、- キーワード「テキスト処理」のクラ;；スタには「技術文献 A 2」と「技術文献 B 2」、「技術文献 B 3」の要素.がま一れ ¾。：

なお、クラスタ分解の方法には、. ¾ 文鞑群の個タの.技術文献の属性により 2通りの扱いがあり、それ Jま^下通りあ-る。 '- ノ - -：—：.

1 . 外的な基準がある属性（属.性 1· '型と.:定義する）」の場合は、その禺÷ 性それぞれでクラスタを構成できる:。.例えば、 -特許公報等の.技術; ¾¾:e: いえば、出願日め日付や I p cなど、意 :.決まる技術文献で:あ:る.。.: -ί:.. ι·

2 . 内的な関係で属性が決まる値:（属性 2型と身.—する）-.'は'、前処 ¾ として多変量解析（クラスタ分析）など (こクラスタ化が必要で:ある: _ό 例えば特許公報技術文献の:中では要や請求:項/よどの文書に外的な基準をあてほめることが難しいため、^書間..のミ. :.口的:な類似率, ¾Jj 義し、それに基づいて多変量分解 .行转果を..用いて-ク .スダを構成する。なお、文書間のミクロ的な類 .率に、て:は : I D F法など、 -

—般的に広く用いられているもの—.を使 :することに.より」、.分析者—の恣意の混入を防ぐことが可能である。 - 情報処理手段 3 8 0等のクラスタ分解手は:、第 1の _ 術文献群 ¾び- 第 2の技術文献群に含まれる技術文献に.つい„で、:技術情報 Λ力手段を介：して入力した技術情報を含む技術: ί献を検率し、.該検索した技術文献.をそれぞれの技術情報毎にクラスタ分解-し Τレ、 - 本発明の実施例では、混在クラスを.以下のう:'に：定義す:る:。

図 7に示す I P C 「 G 0 6 F 1 7r/ 3 0」クラスタ,には、技術:^: 献 A群に属する「特許文献 A 1」と、技術文献. B:群に属する. Γ特許文献

B 1」とが混在している。このように、技術文献 A群-に属する技術； ¾献、 - 及び技術文献 B群に属する技術 ¾献が揮在してい、.るクラスタを混在ク— ラスタと定義する。

本発明の実施例では、非混在クタ:を以下のよ:うに定義する。

例えば図 7に示すように、 I P C 「 0 1 j に分類される技術文献-として、技術文献 A群には「特許文献 3」.：が存在^ が技術文献 B辨には I P C 「B 0 1」に分類され.る;技術文献力 s弃 a¾な ΐ場合 ίも ί ：，

P C 「B 0 1」のクラスタには「特許文献 A 3 3- -のみが要と.して:^まれる。

また図 Ίに示すように、例えばキーワード-と:レて.「無機化合物う文言を含む技術文献は、技術文歐 A群 iこ. Lま存在し.ないが技術:文献 B群- には「技術文献 B 1」が存在した場合には、 ^" ー.ド .「舞.機化食物」」のクラスタには「技術文献 B 1」が要素;として含'まれる .

このように、技術文献 A群に属する技術文献と、技術文献 B群に属す" る技術文献とが混在していないクラタ.を.非混二ク:ラスタと定義 ΐる :- 図 8は、類似率の算出処理を示すフ口 _ :^ でおる。'

情報処理手段 3 8 0が実施する処理、 .図： ⁴ jこ示— bた S .1 0 4-に進む:と.、情報処理手段 3 8 0が実施する処理ま S-2 0.-0 ,に:分岐.しきて.; S , 2..Ό- 0以降の処理を実施す.る。

頻似率算出装置 3 0の情報処理-手「段 3：8 0は^ S 2 0 0 .「技術文献 A ■ 群と技術文献 B群とを混同する」—に- v S I 0 2 「.技術文献取得」 ^ :: つてデータベースから取得した技術献群 (例えば A社 )第1の技術文献群及び B社の第 2の技術文献群）混合;;し-て:、： 1つの技術文献群にする処理を行なゔ。

S 2 0 2 「クラスタ分解処理」て情報処 g手 3 ⁸ は、キ .ヮ. ドゃ I P C等の技術情報に基づいてクラス.タ-分解処理を行う:。次の S 2 ^ 0 4 「補正項 1の計算式を設定」にて、' 情報理手.段' 3 8.0は、'混察ク: ラスタに含まれる技術文献の数量 1こ応:じ.て類似率:を補正する—旨の指示を利用者から入力している場合には、：' の措示に基づ: た補:正項の数式: を選択する処理を行なう。ここでは、補正内容に応:じて-補正項 1に所定の数式を代入する処理を行なう。

補正項 1は、混在クラスタに含まれ' ¾技_銜、文爾.の量が多い程、重要なクラスタであると考えて類似率が高なる.よ:う重レ、重み付」けをして類似率の補正を行なうための補正項でる..。

混在クラスタに含まれる技術文献の：数氣に応じ-て類似率-を補 JE ない場合には、補正項 1 = （定数)：を代入する.。

S 2 0 6 「補正項 2の計算式を設定」にて情報処理手段 3 8 0'は、 .混在クラスタに含まれる技術文献 A 技術文献 Bとの混ざり具合に応じて類似率を補正する旨の指示を利用者から入-力している場合には.、そ指示に基づいた補正項の数式を選択す.る処瑪行な:う。' では捕正の内容に応じて補正項 2に所定の数式を代入する処理を-行な:う。

補正項 2は、混在クラスタに含まれる技術文献^)割合:が所定の量 -近い程、重要なクラスタであると考えで類似率が高くなるよう-に重い重み付けをして類似率の補正を行なう:†zめ.の細正項である。

混在クラスタに含まれる技術文献の混ざ-り '具合'にじて艇似率を補正しない場合には、補正項 2 = 1 (定:数) を '代入する。

S 2 0 8 「補正項 3の値を設定:]-:に:て:情 _:報処理手段 3ς8 -ί>は、ラス- タ分解した際の所定の特許分類ゃキヮ一ド-に法'目し:て恣意的萆み付けを行なって、類似率を補正する:旨の指示:を:利用者から力.レ.ている場合には、その指示に基づいた補 ¾項:の数式を選択する.処理を行な-う ₉ ここでは、補正の内容に応じて補-正項 3·に所定の値を代入する処理.を行 · なう。クラスタ分解した際の所定の特許分類やキーヮ一ドについて特 : 注目しない場合には、補正項 3 =.1 J(.定数-) ,を代入する。

S 2 1 0 「類似率算出」にて情報処理手-段 3 8.0は、各混在クラス-タについて補正項 1、補正項 2、補. IE項 ;3:の各補正項を乗算「して総和を算出する。更に規格化するために全クラスタ欽で除算 .て類似率を算:出する処理を行なう。

S 2 1 2 「終了」にて、類似率算出-処理の.サブ/レーチン-を；終了::レて、元の処理に戻る。

図 9に、類似率の計算に用.いる設定条件を示す。

図 9は比較対象となる第 1の技術文:献群及び第.2 'の技術文献群と；各：群の技術文献を 4つのクラスタに分解し-た.場合各クラ.スタ 1〜..4.に存在する各技術文献数を示す図表である。同図右端に示す'；期待する-類似率」の値は、技術文献の類似性の判断を行なっている複数の専門家にヒアリングを行なった結果、条件 1〜 .の.場合;に _Λ 算出される ¾を期待する類似率の値を示したものであ-るそして .その期待する類似率 , 値に対して許容され得ると思われる範囲は、同図に示すうに許容範囲. = ±0. 050程度である。

したがって、本発明に係る類似率算出装置を用いて類似率-を算出した結果、図 9に示す許容範囲内で類似率が算 ttT れれば、技術文献周士.の: 比較が最適に行なわれていることを示じている。.'

基本型 1 ：補正項を考慮しない場合の:類似率 f基本型 1·') -の.算出—例. ^ 以下に、補正項を用い-ない基本型の類似率懂本型.1 )の算出例を示す。この類似率（基本型 1 ) の算出例は、 _混在クラスタ抽出法により技術文献の類似率を演算するものである。

第 1の技術文献群に含まれる技術内:容.と'、第？の技術文献群に含まれ: る技術内容とが、どれだけ類似し τいるか ^度合（類.似率の値大き-さ .. は、「混在クラスタの数量」に比例するものと考えられる。 _

また類似率を、 0≤類似率≤ 1の範囲に設定するために、例え ί 「^ 在クラスタ数」を、「混在クラスタ数と非溏在クラスタ数の翁和」. であ- る「全クラスタ数」で除算した混在クラスタを算出.するど、技術.文献群同士の類似率として以下の（式 1.) :が得ちれ.る。

混在クラスタを考慮した類似率算出方法を混在クラスタ抽出法'と定義する。下記に示す（式 1 ) は最も基本的な考え方である。下記の:（式 1 ) では、クラスタ分解した結果得られた全タ'ラスタ数とく第 1_の技術文献群及び第 2の技術文献群の..双技術文献を含む混在クラスタ数との比（以下混在グラスタ比と呼ぶ):::を類似'率:どレて算出す;る例を示している。したがって、全クラス„タ数混在ク.ラスタ数の比の算出のしかたは、下記の（式 1 ) に限定され.るおの^はない。:

1 全クラスタ.数

類似率（基本型 1 ) = . ^— ^

全クフス ¾.ク。¹

= 昆クラスタぱ 1 ) .

全クラスタ数但し、

δ =混在クラスタの場合…… 1

非混在クラスタの場合… 0 先に述べたように、類似率とは第 1 :の拔術文-献群に.記載されてる技術内容と第 2の技術文献群に記載.されて.、る技術内-容:と:.がどれだ.け類' 似しているかを示す数値である。..

また、混在クラスタ数とは、第の技術文餘群: 属する:技術文献及第 2の技術文献群に属する技術：文献が '混在じで..い：るクタの数を示す数値である。

全クラスタ数とは、第 1の技術献.群の技術文献又は第 2の技術文献群の技術文献が存在するクラスタの全象.を示す数値である。

以下に、類似率（基本型 1 ) の計算用レ、た場合の計算結果に. 」て説明する。

第 1の技術文献群と第 2の技術文献群ついで >所定のキーヮ一ドゃ I P C等を用いてクラスタ分解を行な. .た結果、 -全-クラスタ数が 1 個であって、混在クラスタ数が 3個であ-つ：た場合に:は、類似率（基本型 1: ) - = 3 / 1 0 = 0 . 3 と算出される。また、全クラスタ数が 4個であって；混在クラスタ数が： 2個であた; • 場合には、類似率（基本型 1 ) = 2 . 0 :,' 5 と算出される。：

第 1の技術文献群と第 2の技術文献群に含—まれ''る謹文献を、 'キワ ——ドゃ I P C等を用いてクラスタ分解し、その分解した全クラスタ.数;と：混在クラスタ数の比を類似率として算出するこ:とに.よつて、.技術文献群: 同士の類似率の基礎部分となる値を算出することが可能となる。

また、類似率を算出する際に、混在クラスタ数を全クラスタ数で除算

. することによって、算出される類似率の戴を U_類似率≤ 1 の範囲に設定することが可能となる。

以下に、類似率（基本型 1 ) を用いた場合の ^:発¾ ^効いて説明- する。

第の技術文献群と第 2の技術文献群に含まれるキワードや L P C等を用いてクラスタ分解し、その分解した全クラスタ数と混在クラスタ数の比に基づいて類似率を算出する. tによ ¾てく技術文献群同士がどの程度技術的に類似しているかを示す指標を簡便に算出する：とが可能となる。ここで算出される類似率は、おれわれが常識'.的に考えた技術文献群同士の類似の程度と割合^致して.いるとがわかづた。；また本発明では、算出する類似率の値を' . O 類似率≤1 範囲に

- 設定する演算を行なっている'ので、全- ラ^タ数量や混在ク..ラスタの数: 量、また技術文献群に含まれる技術文献ぬ量の多少、に関わちず^'定.の指標を算出することが可能となる。 -' . 更に、より多くの条件下で第 1の技術文献群と第: 2の技術文献群:を:比較した類似率と、第 1の技術文献群と第 ^:3·の技術文献群-とを比較もた類似率とを直接対比することも.可能となる.。.

基本型 2 ：補正項を考慮した場合の類似率：（基本型 2 ) の算出例 - 以下に、補正項を考慮した場合の類似率（基本型 2 ·) の算出例 'を示：^。- この類似率（基本型 2 ) の算出例は；前記類似率： (基本型 1 ) 'の算出例に対して補正項 1〜 3を加味したものと-なつでい'る。

上記の（式 1 ) を用いて類似率を算出すると、混在クラスタ数に比 !j した頻似率が簡単な数式を用いてたいへん素早 <算出できる 'という利カある。

上記の最も基本的な（式 1〉は、：たとば多 <¾技術^:献.を食クラスタと少数の技術文献しか含まないクラ不タが対等の寄与を持つ結となることでもわかるように、個 . <5>クラスタ內の.技術: ¾：献数-の大-小:を _;：考慮していないという欠点があるために.、混在クラタ^ :多-く , φ¾術. 文献が含まれる場合であっても、 2つレか技術文献が含まれ;ない.場合:で. あっても同一の類似率が算出されてし:ま、―、われゎれ.が常識的考えた. 類似の程度と異なってしまう場合が.あると fc、 ¾不具合を.生る可能性がある。

混在グラスタに含まれる技術文献.の量の他にも混在クラスタに含ま- れる第 1の技術'文献群の技術文献 .第 2の：技術: ¾：献群の:技術 5：翁^;混ざり具合（第 1の技術文献群の技術文献と-第 2の技術文献群の技.術文賦: との割合）や、特定の特許分類やキワ . -ド. 注目レたぃ場合の恣意：的: な重み付けなどによって、算出される類似:率値を铺正レたい場合力生じる。

図 1 0は、混在クラスタ 1に技術文献が多く含まれでい.る状況を示す：: 図である。

図 1 0に示す例では、クラスタ :1 . C混ラ ή. -.には、技術:^ 多く含まれているので重要なクラタると考え:.られ.、類微率計:算際に最も寄与が大きくなると良い

別のクラスタ（例えばクラスタタラスタ 3，ク.ラタ :4な ) 含まれている技術文献が少ないので重要なグス.タで ^^、思るので、クラスタ 1の寄与に比べる,ど itつ h小.さ. -¾るの望い。図 1 0の例のような状況にある場合、^ラスタ l:rに:対-しクラ^タ. '2 クラスタ 3,クラスタ 4の影響を軽視すべき.場合あ:る。 'なお、含ま:れ:.る技^文献数量が少ないクラスタの存在を無視し:な^場合には:、算出さ - る類似率の値は 0. 5まで下がって:しまう-。- そこで以下の (式 2 ) に示すよう .（式 ) ·のふニ（グラ ¾タが混在: クラスタである場合には δ = 1と、::それ以外の場合に ¾ δ =' ο -とする）に対して補正項を乗算するこ ;にる。なお、補正によって類似率の範囲が、 0≤頻似率≤ 1 の範困を超えない.よう , するためには適当な規格化因子が必要である。

類似率（基本型 2 ) = . . ^

全クフスタ数

全クラス数、

補正項 1 )x(補正項 2 )x(補正項 3 )X(5} ' . . (式 2 ) クラスタ = ].

但し、

δ =混在クラスタの場合…… 1

非混在クラスタの場合… 0

(式 2 ) に示す補正項 1は、混在クラ^タに」含まれる技術文 .暈に応じて類似率を算出するための補正項である。この補正項 1は、混在クラスタに含まれる技術文献の量が多レ、程、重要 .クテスタ.'であ:ると考え: て類似率が高くなるように重い糞み付はをして類似率の補正を行なう補正項である。

また逆に補正項 1は、混在クラス.タ含まれる技術; ¾：錄;の *が,少なレ -、程、重要なクラスタでないと考え': τ録が.低ぐな _£る.よ,う :軽い尊み付けをして類似率の補正を行なうこも可能な補正項.である '

また補正項 1は、各混在クラス.ダ含まれる術^！^.暈応じた俥; を取る第 1の補正値を算出する；とが可能な他の計.算式を av、た補正項であって.もよい。

(式 2 ) に示す補正項 2は、混在クラ'スタに含まれる技 (術文献 A ¾ 術文献 Bの混ざり具合（技術文献: Α·と:孩;術文献 B 割合）：応じて類似: 率を算出するため-の補正項である:。

補正項 2は、混在クラスタに含まれ::る技術文献の割合が所定の量に近い程、重要なクラスタであると考えて類似垂が高く? ¾¾ように'重い重み: 付けをして類似率の補正を行なゔ補正項である V

また補正項 2は、各混在クラスタ m¾まれる::第技術文献群の液術. 文献と第 2の技術文献群の技術文献：と .混ざり具合 1.こ-応.じた値を取る第 2の補正値を算出することが可能な補正項である。 . .

(式 2 ) に示すように類似率は、補正項 1、補正項 2、又は捕正項 3 を全ての混在クラスタについての総和を算出'' 、 '該総和： -.

で除算する演算を行なっている。

補正項 2を算出する際に用いる技術文献の混 ^: "ざり具合」の意味は、以下のとおりである。

ある混在クラスタに含まれる第 1の技術文献群の技術文献、及び 2 -の技術文献群に含まれる技術文献の混 -り.具合-に注目 ^: て、双方の技術文献がよく混ざっているとき、すなわ:ち双方の技術文献数が偏ってい-ないときに重要なクラスタと考えて重い重みを付け、よく混ざっていない場合、すなわち技術文献数が片方の技術文献群のに偏てる.場合. に、重要ではないクラスタと考えて軽い:重み:付: をす—る:た:めの.補項;目：である。

言い換えると、たとえばある混在.ク:ラ:スタに含まる、'第 1の技術献群の技術文献と第 2の技術文献群技術文献の数量が、第 1の技術文献群と第 2の技術文献群から無作為に抽出^た.とき期待値こ近いも：. のは重く、遠いものは軽くする補.: E項である

補正項 3とは、特定の特許分類や.キ^ワ :ドに:注目い場合：、-恣' 意的な重み付けを行なつて類似率を：算出する:—ため補正項である。'こ- 項は技術文献群同士を比較する者が-個別設定す.る:項であるので、今回-は考慮せずに定数「1」を代入しでお—く。 . . 応用型 1 ：補正項.1 ( 1 ) の算出例 .. 補正項 _{( 1 ) =}^_ラスタ内の ft術文献数)'

(規格化因子）

(クラスダ内の技術文軟数)"

…(式 3〉

∑ (クラスタ内の技術文献数)

全クラスタ数" :

補正項 1 ( 1 ) を考慮した類似率. (式 4 ) の算出例を:以下に示す. c

1 今クラス数

類似率 =ベ ' ∑ ((補正項 )x(補 IE項— 2 <(補正項 3 )x<5}

- Jノハ ISクラスタ = -1 全クラスタ数

S (クラスタ内の技術文献数) ^a

- ∑ -x(補正項 2 )x(補—正項 3—.)Χ(5 ズ式 4)— a '

∑ (クラスタ内の技術 X麟数:

全クラスタ数クラ =，補正項 1 ( 1 ) では、類似率力 ^混在タ:ラスタ.に含まれる技術-文献のに応じて大きな値をとるように捕正するために、「クラスタ内の技術文献数」のひ乗（伹し、 0 <: ct ) を分子に配貴-し..ている。そじで、 '類似率— の算出範囲として 0 ^類似率 d を.保証する.:ために、:補正項.1 ( 1), の式では規格化因子を分母に配置て:い:る.。 '

(式 4 ) に示す補正項 1 ( 1 ) の翁算で ί ：分子に配置.した::タ : 内の技術文献数が多い場合であつても類似率.の修が:. を超えな:いよ-う - にするためと、技術文献の量の多少の. 断.基:準を.設けるため;に、'規格 '.. 因子として、全クラスタ内の技術文献数の：平均値:を配置レて:い-る οなお、規格化因子は、全クラスタ内の技文献:数の '乗の総和を算出- 全クラスタ数で除算した値を配置してもよ: 。この親格化因子は、 .0. 類-似率≤ 1 を保証することが可能な項であればょ、（式 4 ) の数式に限定されるものではない。

更に、含まれる技術文献の量が少ない混在クラスタの影響を、類似率の算出結果に大きぐ反映させたくない場合には、分子の指数 αを

1 に設定する。

また、単純にクラスタ内の技術文献数の量に応じて類似率'^ If減せ: る要望がある場合には、 α = 1 に設定する。

まだ、クラスタに含まれる技術文献の量に応じて類似率を.算出するとともに、技術文献が多量に含まれるクラスタの存在による類似率の算出結果の影響を少なくする必要がある場 ^:に:は、 ^'く. X 1 こ.設定する- とよい。

以下に「応用型 1 :捕正項 1 ( 1)」の計算式の分 ¾と:.分母の構成による作用について説明する。

式 4に説明するように「クラスタ内 ^技術文献数」を補正項 1 (.1 ). の分子に配置したので、クラスタ内の技術文献数に比例した類似率を算出することが可能となる。

また、「規格化因子」を補正項 1 の分母に配置しこので、 0 類似率≤ 1 を保証することが可能となる。そして、補正項 1 (1 ) の規格化因子として、全クラスタ内の技術文献数平均値を'配置:し:.だ: で全クラスタ内の技術文献数の平均値を基準と-して技術文献の量の—多少を算出することが可能となる。

更に、分子の指数 αを α〉 1 に設定する -とによつ:て混在クラ; スタに含まれる技術文献の量が少な'い-混在クスタの影響を、:類似率の. 算出結果に大きく反映させないようす:'ることが可能-と':なる。 .また、 -:.分子の指数を α = 1 に設定することによって、単純にクラ^タ内の技術文献数の量に応じて類似率を增減せるとが可能となる単純含数 ½ 較）。また、分子の指数を 0 < α < 1 ：に設定することによって、.技術文献が多量に含まれるクラスタの存在による類似率の算出:結果の影響を少なくすることが可能となる。

以下に、「応用型 1 ：補正項 1 ( の -計象式- (式こ 4) に；; .図- 9に示した各条件を代入した場合の計算例を示-す。なお算出結果は、図 1 1 に、補正項 1 ( 1 ) を採用した場合の類似率算出例. (補正-項に条件 1〜 4を代入した場合の計算'結果）の：図表''と.して示お補正項 1 ( 1 ) のみを考慮して:他補 JE:項-を考慮しない場合であづで (すなわち補正項 2 = 1、補正項 3_=:1と-する-)、弹純に混合-クラ .タ内に含まれる技術文献数の比較を行:なう場合:（す,なわち α = 1としだと：. き）に、技術文献群同士を比:較する:条件とじで、条件 1：〜 · 4:を設定レた場合の類似率の試算結果を以降にす。

下式 (式 5) に、計算例 4— 1 (式 4:に条件 1を代入:した.場合) h- 算結果について説明する。

条件 1の場合には、各混在クラスタ (本実施例;の場合に::は、 - クラタ

1及びクラスダ 2) に含まれる技術:文献.数は、それぞれ- 3'個である。したがって、クラスタに含まれる技術:文献の量によ-る顔似率の捕-正影響：は少ないことが期待される。

1 全クラス数

類似率（式 4, 条件 1 ) = ∑ί (補正項 1 )x(補正項 _2)x(補正項 3)χδ} 全クラスタ数ケラ全クラスタ数 (クラスタ内の技術文献数)¹ -χΐχΐχδ 全クラスタ数クラスタ =1 ラスタ数 ¹

∑ (クラスタ.内の技術献教)

全クラスタ数クラ

3 3

=0. 5

3 + 3 + 2 + 4)/4 (3 + 3 + 2 + 4)/4

上記（式 5) にて算出した類似率に条件: 1を代た場合-) .？^ 0.5 の値は、（式 1 ) による類似.率の演算結果と r致：お捕 ΪΕ項- 1 (1) を挿入した場合であつで.も、われわれ常識的..に考えた類似率の程度と大きくずれてはいない。おた :クラスタ内の技術文献数量おれぞれ 3、 3、 2、 4程度であるで、全てかち.同じ程度の:寄与があるべきで、ここで類似率 =0.5 と算出された結果は:、われわれが常識的に考えた類似の程度（約 0.30程度) ,から大き: :外.れてはおら. おおよそ要件を満足しているものとなっている。下式（式 6) に、計算例 4— 2 （式, 4·に条 2を代入レぉ場仓);《計算結果について説明する。

条件 2の場合のクラスタ 1に含まれる技術文献： *はクラ'ヌタ :2 - クラスタ 4に含まれる技術文献の量より:-も際、立って:多ので. 類僻率算出する際には、クラスタ 1Γに含まれる技術 ¾歉の量の影響あ重衝類似率を大きく算出するべきなのは明ら：かで'ある:。 ί

類似率（式 4, 条件 2) = .一— {(補正項 1 )x(補正項 2)：?< (補正項 3)x 全クフスタ数ク ₌₁

1 50 3 ^

=0. 962 …（式 6)

4 1 50 + 3 + 2 + 4J/4 50 + 3 + 2 + 4)/4

上記（式 6) にて算出した類似率（式 4に条件 2を代入した場合）. = 0.962の値は、クラスタ 1に含まれる技^:文献の量 .多さ-に引っ張ら'れ;— 類似率 = 0.5 (式 4に条件 1を代入した場合に算出した薄偶:率).. ら二似率 0.962 (式 4に条件 2を代入じた場合に算出した類似率）：に補正された。

以下に式 6 (式 4に条件— 2.を代入した場合）の効果について説明する。式 6の演算処理によって、クラスタに含まれ:る技術文献の.量が他の-ク -: スタに含まれる技術文献の量より.も多い場合に、その技術文献の.量を類: 似率の算出結果に反映させることが可能と _；なる。 . れは、クラスタユカ類似率を算出する際の傾向のほぼ全でを代表している-ので、このク -ラタ 1の性質が類似率を決めるように働いているのが見える。

そしてこの類似率の算出結果は、れわれが常識的に考えた:類似 .程度と、かなり一致していることがわかっ。：

下式（式）に、計算例 4— 3 に条件を 3代入した場合) 計^ ΰ 結果について説明する。

条件 3の場合には、条件 2の場合'と'クラスタに含ま-れる技術文献の量の総和は同じであるが、クラスタ 1に含まれる技術文献の量の.みが際立つて多い状況ではないので、類似算出する際にクラ :タ: Wこ;^れる技術文献の量の影響が条件 2の場合程.ば生..じないことが望ま.し_;ぃ。一

1

類似率（式 4，条件 3 ) = Γ . 補正項— 補正項 2 )x(補正項- 3 ) T5j 全クラスタ数

1 (クラスタ内の技術文献数)¹

全クラスタ数 δ = 全ケラズ:タ《[■ ■ ·— - …

全クラスタ数

4

上記（式 7 ) にて算出した類似率（式 4··に条件: 3 :を代入し:.た:場.合:）

0. 459の値は、クラスタ 1に含まれる技術文献の量の多さが、 - 他のクラ: スタ 3よりも少し少ない程度であ;るこ-と-から、類似率 CD.補正^は.ほとど関与しないように補正される。

以下に、（式 7 ) の計算結果（式.4.に条件 3を代入した場合）の効果について説明する。

補正項 1 ( 1 ) の演算処理を行なうこによクて ·..ク:ラスタに含'ま^ る技術文献の量が多い場合であつでも、他のクラお含まる術^: 献の量と大差が無い場合には、その技術文献の量を類似:率の算出.結果 _ あまり反映させないようにすること '可'能となる。

この（式 7 ). による類似率の算出結果、タラスタ.1とタラスタ- ^の影響が大きく出るように補遺性が働いでいるの ^:で、 -われわれが常識的お考えた類似の程度（約 0. 20程度.）と大きずれて.は:おらずほ祖レ、どおりの値が得られている。下式（式 8) に、計算例 4一 4 ( :⁴に条件を 4:代入した場合）の計算結果について説明する。

条件 4の場合には、条件 3の場とクラスタに含まれる技術文献の:量の総和は同じであるが、クラスタ.1 クラ,ス:タ .2に含まれる第 1の技- 術文献群と第 2の技術文献群とが攞端: ^均等:で;あ合^ある。したがって、混合クラスタに含まれる技術文献数が多いからといつて類似率を大きく算出しないことが望ましい。

ク — ゥ 1 、 - . ―.

I ：.. (式 8 )

(52 + 21 +82 + 4)ノ4 (52 + 21 +82 + 4) 4 上記の（式 8) にて算出—した類 ί 率（式に条件 -を代入し:た場合): ^: =0.459の値は、クラスタ 1及びクラスタ :2に含まれる技術文献量が- 多くても、他のクラスタ 3よりも少し少ない程度: C:あるこ- かち'、類似: 率の補正にはほとんど関与しない-よ；ぅこ補; Eされる:。

以下に、（式 8) の計算結果（式 4に.条件 :を代入 t 場合） Φ効果. について説明する。

(式 8) の演算処理によって、ク. タ jこ含まれる技術 ¾献量が多::: い場合であっても、他のクラスタ：に食ま-れる技辦献の-暈」と大差が無い- 場合には、その技術文献の量を類似率 P算出转果にあま j ,反映ざせない. ようにすることが可能どなるが、条件:⁴ 場食には類似率は数'? セン卜の値になることが感覚上望ましレ、.9

この条件 4の場合には、補正項 ( 1 )_: ^理けでは感 4：—' 致しない部分が生ずる可能性があるた _め . 以降説明する補正-項 2が' 有用となる。但し—、クラスタ 3、 1、 -2め影響が大きくなつているので、補正項 1 (1) の役割は十分に果たしている:といえる _ό· 、捕 Eftl ( 1 ) の処理を行なうことによつて;:.技,術文献数の多いクラスタが存在する場合には、そのクラスタに含まれ''る技.術文献数量の多ざを類棋率」に, 反映することが可能となっている。

図 1 1に、補正項 1 (1) 採用::レた竭合類似率算出例 (補正項 ( 1 ) に条件 1〜 4を代入した場:合の計算結果） .の.図表を:示す。

応用型 2 ：補正項 2 (1) の算出例：

以下に示す補正項 2 (1) の計算式（式 9) は、混在クラスタ内の技術文献の混在確率に応じて補正を行うた構成しの—である。

補正項 2 (1) = ⁽混在確率)

(混在確率の最大値 Γ

(A群の中から m個、 B群の中から n個の.技術文献取り出す確率)⁷ L

(A群の中から^、 B群の中から y個の技術文献を取り出す確率)

( A群の中から m個、 B群の中から n個め技術文献を取り ώす組合せ数一、八群群とを混ぜ合わ ^中から m+n個の技術文献を取り出す^せ

A群の中から; d固、 B群の中から y個の技術文献を取り出す組合せ数

A群と B群とを混ぜ合わせた中から m+n個の技術文献を取り出す組合せ数

M+N^m+n

• (式 9)

但し、

M 第 1の技術文献群（A群）に含ま.れ.る-技術文献数

N 第 2の技術文献群（B群）に含まれ、技術文献.数-.

m 所定のクラスタに含まれる第の技術:文献群 A,m) -,の技術：^餘数 n 所定のクラスタに含まれる第- 2の-技術文献群（ Β·群) の技術文献数 γ ：任意定数 γ〉 0 上記補正項 2 (1) を考慮した類似率 (式.10).' 算出例を以下示す

1 全クラス $数、類似率 = ∑K補正項 ¹ )χ(補正項² ) 補正項³ )χδ}

全クラスタ数クラ

1

- (式 10) 全クラスタ数

(式 1 0) の補正項 2 (1) では、類似袭が、：.混在:ク ¾ .タに:含まあ- る第 1の技術文献群（A群）及

数の確率に応じて大きな値をとるよ: にる: 秦

献群（A群）の中から m個、第 2の技術文献群 B群）め中'から II個め技術文献を取り出す確率の乗（但し、 0；< 7 を分子に配置している。類似率の算出範囲を 0 ^類似—率≤ を保証するために^例えば (式 1 0) に示すように、第 1の技 ¾崎群 j 群）の中から m個、第 2の技術文献群（B群）の中から n個の技術支献を取り出す確率の最大 - 値の γ乗（但し、 0 < γ) を規格化因子として分母に配置している。

規格化因子は、 0≤類似率≤ 1 を保証することが可能な項であればよく、（式 10) に示した規格化因子限 ¾され ξ>Λ>Φで-はなレ、。：以下に、指数 γの設定条件についで謙明す.る。

単純に混在クラスタに含まれ ¾ Α群 ¾び8群の.技術文献数が、 : Α_群及び Β群の技術文献群から無作為に抽出し:た際:の分布に'近-レゝ度'合、」に比例して類似率の値を補正する必要がある:場合には指数 γを 7；= 1 に設定するとよい。

また、混在クラスダに含まれる及 'き技術文餅数が.、ぴ Β群の技術文献群から無作為に抽出した際の分布に近いほど重要視して大きな値に補正する必要がある場合、又は、 Α群及び Β群の技 |f文献群から無作為に抽出した際の分布に遠いほど軽視して小さな値に補. 正する必要がある場合には、指数を ~≤に設定すど']:

また、混在クラスタに含まれる Α群及び Β群の技術文献数が、 A群及ぴ B群の技術文献群から無作為に抽出した際の分布に近くなくて事要視して補正する必要がある場合には、指数 γ.^_ __0く γく 1 に設定するとよい。

以下に、応用型 2 ：補正項 2 ( 1 ) の計算式（式 1:0) に，図 9に ¥ した各条件を代入した場合の計算例を示す。なお、算出結果は、図 1.2-- に、補正項 2 ( 1 ) を採用した場合の類似率算出例（補正項 2 こ条件 1〜4を代入した場合の計算結果）の図表として示す。

補正項 2 ( 1 ) では、（Α群の中から m個.、 B群の中から： n:個の'技術? 文献を取り出す組合せの数） / (A群と群を混ぜ合わせた中ら: : + n個の技術文献を取り出す組合.せ数)，を分チに配置したの ^ 混在クラスタに含まれる A群及び B群の:技術文献数の偏:り ·（作為:性.）に応じ : 偏り大の場合は小さい補正値に、：偏り.小場合は大きい補正値に頻似率' を補正することが可能となる。本実施例では一、.,偏^が^:きい場合」ま補正値を小さくして類似率を小さく算出するこ-と.とし、逆に偏りが小さ: , 場合には補正値を大きくして類似率を大き.く.算-出することとしている。- 規格化因子として分母に (A群中か-ら X：個—、 B群の中か y個？)技術文献を取り出す組合せの数） / ( A群'と:: B群-とを混ぜ合わせた中から: m+ n個の技術文献を取り出す組合せ数):：を配置レたので、： X、 ..yは分母を最大にする数の組合せであるごとから類似率算出範囲として-; 0≤類似率≤ 1 を保証すること力可能.と¾る

— 更に、分子の指数 yを y = 1 _ :こ設定することにょゥて、—単純に:混- 在クラスタに含まれる A群及び B-群の-技術:文撒数が; A群及び B'機技術文献群から無作為に抽出した際の分布に近い度合いに比例して類似率の値を補正することが可能となる—。

また、分子の指数 γを _Ί > 1. ：に設定ずるごどによつ、-混在- ラスタに含まれる A群及び B群の技術文献数 :、 A群及-び B.群の.技術文献群から無作為に抽出した際の分布に近い.ほ重要視して大きな値に補正することが可能となる。また A群及 X^B.群:の技術文献群かお無作為に抽出した際の分布に遠いほど軽視して.かさな値に補正すること: 可能となる。

また、混在クラスタに含まれる：: 群及:び: R群め..技術文献数 1が群及び B群の技術文献群から無作為に抽出した際の分布に近くなくでも-重要視して補正する必要がある場合.に—は; 分子.の,指 γ _を..：.:'.0 < 7 < 1 に設定するとよい。

下式（式 1 1 ) に、計算例 1 0— 1 ^: (式 1 0に条件 i .を代入.し場合 > の計算結果について説明する。

補正項 2 ( 1 ) のみを考慮して他の.補正項の作用を考慮しな-い場合であって（すなわち補正項 1 = 1、.;補¾項3 = 1とする)、 .··単純に混在確率に基づいて比較を行なう場合（すなわち =:.1' じた場—合）に V技術文献群同士を比較する条件を、条件 1：〜 4:に設定:した-とぎの類似'率試算結果は、以下のとおりである。.

下記の（式 1 1 ) に示すよう ί¾ '条^：; (^合には务混在ク.

1に含まれる技術文献の混在確率は 0 .： 4 0 9.と算出される。.，また、同様にクラスタ 2に含まれる技文献の ·,混在率も.、^) . 4 :0. 9 される。

一 6し2 6 C，混在確率（条件 1 , クラスタ 1 )

_{1 2}c₃

1 5x6

= 0. 4 0 9 ：ズ式 1 1 ) 2 2 0 一方、分母の規格化因子は混在クラ:^；タ： 1 混在確率最大値であので、以下のように規格化因子 =0:. 4 算出れるまた、.条件 1の場合には、クラスタ 2の規格化.因.予も ,0...:4:0' .9 と算出される；

規格化因子（条件 1 , クラスタ 1 )

15x6

=0. 409 …(式 12)

220

したがって、（式 1 2) の計算式に:条件.1:を代入た場合におけ補正項 2 ( 1 ) の値は、補正項 2 ( 1 =1 ^算 ¾され^。:」同様に、.'.混在クラスタ 2の補正項 2 ( 1 ) の値.も, 1と-算出さる。

したがって、補正項 2 (1) の値は下.式式 1.:.3) のように.1-と算- 出されるので、特に補正は行なわれず、?類似.率は 0: と -算出される。

類似率 (式 10,条件 1)= ¾補正項 1〉x(補正項 2)x(補正項 3)x<5】

O.409.0.409

=0.5 ： (式 f3)

0.409 0.409

上記の（式 1 3) により算-出される類似率（式 1 0に条件 1を代入した場合） =0.5の値は、補正を考慮しない（式 1 ) による類似率の演算結果と一致している。そして、技術 ^含まれる技献数量がれぞれ 6個と 6個であり、混在クラスタ内に含まれる技術文献数も 2M と 1個であるので、われわれが常識的に考えた類似の程度とほぼ .致ている。したがって、補正項 2 ( 1 ) を挿入した場合であっても許容範囲内の結果を得ることが可能となる。

下式（式 1 4) に、計算例 1 0「 2 (式 Θに条件 2を-伐した場合）：の計算結果について説明する。

条件 2の場合のクラスタ Γ:に含まれる技術文献の混在確率は、第 1の技術文献群（A群）と第 2の技術文献群（B群）の大きさの比率に近いので、類似率を算出する際にはク ^ : を構成す ^:る技'術文献の'缉在率の影響を重視して、類似率を大きく算出するべきな

のは明らかである。

以下の（式 1 4) に、補正項 2 ( 1 ) の分子を構成する混在確率の計算例を示す。

— ί 104^1 O0^X55 "SO 10 ^100^Χ55。50 混在確率（条件 2，クラスタ 1) =

M+N"m+n 104 + 55。100 + 50 159^150

4598126x3478761

0. 13 ズ式 14)

1.42E+14

一方、分母の規格化因子は混在グラヌ 'ダ 1 (D混在確率の:暴大値あ：ので、以下のように規格化因子 = 0. 2 8 0と算出される;^ま，：:条 2の場合には、クラスタ 2の規格化.因 -も—0 2~8 0と-算措さ.れ:る：^ -.-.

規格化因子（条件 2，クラスタ 1)

04^9β^Χ5Β C₅₂ 1.52E + 09 26235

159^1 SO 1.42E*H

=ひ. 280 ··· (式 15)

したがって、条件 2におけるグスタ.1の捕！^ 2' ( 1 )?の値ほ、—'.補正項 2 ( 1 ) =0.404 と算出され:る,。また、：条件 2におけるクラスタ 2. の補正項 2 ( 1 ) の値は、「 1.」と算出されるので-、.下式（式 1 6 ) に示すように、補正項 2 (1 ) に基づぐ類似率は 0.³⁵1 と算出される（図 1 2参照）。

上記の（式 1 6) にて算出した類似率（式 1 0に条件 2を代入した場合） =0.351の値は、クラスタ 1に含まれる技術文献の混在確率に引つ張られ、類似率（式 4に条件 2を代入した場合） =0.962から、類似率 (式 5に条件 2を代入した場合） =0.351に補正された。

下式（式 1 7) 〜 (式 1 9) に、計算例 1 0— 3 (式 1 0に条件 3を代入した場合）の計算結果について説明する。以下の（式 1 7) は、補正項 2 ( 1) の分子を構成する混在確率の計算例である。

1) »"20^ΛΒ5 "60 混在確率（条件 3，クラスタ

1.28E + 21x347.8761

=2.98Ε-19=0. 000 …(式 17)

1.49Ε + 46

一方、分母の規格化因子は混在クラスタ 1の混在確率の最大値であるので、以下のように規格化因子 =0.133 と算出される。.また、条件 3の場合にはミクラスタ 2の規格化因子も 0.448と算出される。規格化因子 (条件 3，クラスタ

一 104 "46 65し 24: 7.96E + 29 2.49E + 15

159^70 1.49E + 46

=0. 133

したがって、条件 3における補正^ 2? ):.— 値は、補正項： ) = 0.000 と算出される。混在クラスタ 2の補正項 2 (1) の値 4ま ^条件 1及び条件 2の場合と同様に 1と复出—き Jl¾

したがって類似率は、下記の計算によって 0·— 2 5と算出される。

1

類似率 (式 10,条件 3〉= 補正項 1 )χ(補 ί項 2)x(補正項 3)x<5} 全クラスタ .クラ^ ，

1 (0.000 , 0.448

=0.25 …(式 19)

0.133 0.448 上記の（式 1 9) にて算出した類似率. （式 1 0に条件 3を代入した場合） =0.25の値は、クラスタ 1に f¾^>¾^:術泡在確率-に引 ^ られ、類似率（式 4に条件 3を代入した場合） =0.459か似率武 1 0に条件 3を代入した場合） =0. 2 5に補正された。

下式（式 20) 〜（式 24-) に、計算:例 1 0 - 4 (式 1 0に条件 4を代入した場合）の計算結果について説明する。―

条件 4の場合には、条件 3の場合とクタ: 含まれる技舰文献の量の総和は同じであるが、クラスタ 1' び:クラスタ 2に含¾^る技術文谳 A群と技術文献 B群との割合が極端に不均等である場合である。 -したがつて、混合クラスタに含まれる技術文献数が多いからといって類似率を大きく算出しないことが望ましい。

補正項 2· (1) の混在クラスタ 1の分子を構成する混在確率レ Λ¾ 算出すると、

混在確率（条件 4, クラスタ 1)

-6:26E-33 = 0. 000 …(式 20)

2.98E + 42 一方、分母の規格化因子は混在クラ: タ' l -の混在確率の-最大値-で:あるので、以下のように規格化因子 =0.141 と算出される。

規格化因子（条件 4，クラスタ 1

=0. 141 …(式 2-1 )

したがって、条件 4における混在クラスタ 1の補正項 2 ( 1 )の値は、補正項 2 (1) =0.000と算出される

一方、 '混在クラスタ 2の補正項 F2 (-1:)——の値は、以吓.の-ように—補 5fe項 2 ( 1 ) =0.00 と算出される。

混在確率（条件 4，クラスタ 2〉

1.28E + 2il 55 i _{Λ ήΛ<}

■ =0.001 …ほ 22 )

8.34Ε + 25. 混在クラスタ 2の分母の規格化因-子は、二混在—ク'ラスタ:. ¾ 混:在確率最大値であるので、条件 4の場合には、' 下の.ように規格化因子 =0.194 と算出される。

wC_mx_N c,

規格化因子（条件 4, クラスタ 2) MAX 04 c， ₄ ^x _5Sc₇)

、 M + N^wm+n J 104 + 55pi 4+ ノ

V xVO ' ^ /¾5E* 16x2； 03E-H.08 1₅₉C₂₁ 8.34E + 25

=0.194 …（式- 2 -3 -)

したがって類似率は、以下のように 0 · ； 0— 0 1 .算_出,される.,

類似率 (式 10.条件 4)= ∑ (補正項 1 )χ(補正項 2)x(補正項 a) <5} 全クラスタ数クラスタ =

上記の（式 2 4) にて算出した類似.率 (式 1 0に条件：を代 Λ ^た:場合） · = 0.001の値は、クラスタ 1及び:ク..ラ 'タ.2 ·に含ま:れる '技術文献の 1 混在確率が、技術文献 A群と技術献群から:無作為取:り出した場合の混在確率の最大値よりもはるかに小さいので、類似率（式 4に条件 4. を代入した場合） =0.459から類似率（式 1 0に条件 4を代入した場合 ) =0.001に補正された。

図 1 -2に、補正項 2 ( 1 ) を採用した場合の類似率算出例（補 : ( 1 ) に条件 1 -〜 4を代入した場合の計算結果）の図表を示す ό 同図に示すように、混合クラスタのうち、技術文献がよく混ざって:いるクラスタ（混在確率が大きい値を示:す条件を'備えたクラスタ:) では、：. 補正項 2 ( 1 ) の値が大きい値を示 J:でい ·δごとがわかる。また、 -技術文献がよく混ざっていないクラスダ（混在確率が小さい値を示す条件を備えたクラスタ）では、補正項 2 (1 ) の値がほぼ「0」と、小さい値を示し、算出される類似率の値も小さい値を示している。

図 1 3に、補正項 1 (1 ) 及び输 ' ( Γの双方 ^揉角^ U» の類似率算出例（補正項 1 (1) 及び補正項 2 (1) に、条件 1〜4_ , 代入した場合の計算結果）の図表を示す。

条件 1の場合に算出された類似率 = 0.5は、われわれが常識的]'こ考える類似の程度とほぼ合っているといえる。

条件 2の場合には、混合クラスタ .に含まる技術文献の数量;はクラスタ 2〜4に含まれる技術文献数量と比べると明らかに多いが、算出される類似率の値は（式 1 )に条件 2を代入した場合の類似率 =0.5- ら、補正項 1 ( 1) 及び補正項 2 ( 1 ) を用いて条件 2を代 :^だ場の類. 似率 = 0.4に補正された。このように補正項 1 ( 1 ) 及び補正 ¾ l) を用いて類似率を算出することによ s :35;;技翁文.献数の多いラ- ：タ- 1-. についてあまり重み付けをしたくないときに有効となる。'

条件 3の場合には、条件 2の場合と比較: て:クラ:.: ¾タ..[¾,に含まれる技術文献数量の総和は同じだが、混在クラスタ 1め技術献数量のみが特に多い訳ではないので、算出される類似率の値は類似率 = 0.019に小さく補正された。このように補正項 1:： ( 1 ) 及ぴ補正項: 2_ C 1 ) を: «いて類似率を算出することによって、.:クラスタ、 1に含:まれる技術文献数量の多さを類似率の算出結果に反映た L レ、場合: 有効-となる。' .:

条件 4の場合には、条件 2の場合 ½較てラスタ内に含ま: る技: 術文.献数暈の総和は同じだが、混在クラ ^ や混在クラスタが特に大きい訳ではなく、技術文献の混ざり具;合がざ極端なとき、類似率- の値は類似率 = 0.0005に補正されている。—こ (^よ:うに補正項 1 (： 1 )及 _ び補正項 2 ( 1) を用いて類似率を算出こと.に:よ :づ'.て'、混在クラスタ内の技術文献数量が多い場合であて.も、.我術文献 ^ざり ^ "具合が不均等である場合には類似率を小さく算出する '方向 .こ-捕正する.こと;^可能となる。

すなわち、補正項 1 ( 1 ) 及び.補 E項 2 .を用いて類似率お算: ftl: することによって、技術文献数氣の务、混在，グラス:タ;を重 «I.し—て類似率を補正するとともに、技術文献.の混ざり.具合が不均^ rな場合に、」類似率を小さい値に補正することが可能となる。

また同図に示すように、補正項 2: ( 1 の _計算式-では、：補正項の j直が：. 技術文献の混ざり具合に敏感に反応する:.傾向がる:の:で、適：の.値-を調節する必要が生ずる場合:もあると.考えられる。:そ^て-、-浪在汐：ラス-タ . 内に含まれる技術文献の数量にづレ:、た補:： &と^ グラスタ:内 _に含まれる技術文献の混ざり具合に基づく補 ¾と,は、:上 ¾ のよにそれぞれ ¾ 接な関係があるので、 ctの値どともに:. γ-の値.を適宜定るこ.とも熏.要で: あると考えられる。

なお、図 1 3は a = l、：y = 'と ¾ 場食の f^ :であが、—例 α = 1のままと ϋて γ =0.25に設定 -して試算:レてる-と、条件の類 ig 率 =0.5→0.5、条件 2の類似率 O 4→.P.7 9、·:.条件 3の類似率 =Q 0,19 →0.019、条件 4の類似率 = 0.0005→0.Ό33 と算出.す-る- とが.^！能とナ：る。

応用型 3 ：補正項 2 (2) の算 m例：

補正項 2 ( 2 ) は、混在クラスタ内に，おけ:る技術文献^ 'ii yi; . て類似率を補正する補正項である。

第 1の技術文献群（ A群）と、第 2 術文献群. ( M) -に：含まれる技術文献の数量の比が大きく異なる.場合には:、-备渴在クラ:スタ.こ含ま ¾ る技術文献の混在比も当然異なるはず:である ^ま-た、両群含まる抜術文献の数量が拮抗しているほど:、「ク-ラスタに; _含ま.れ—る技:術文献の混在比は第 1の技術文献群（ A群）及第 2の.技:術文献 (Έ群) に急まれ: 技術文献数の数量の比（構成比). 近くなると考える: -が.妥 ¾でるそこで本発明では、第 1の技術文献耱：（A群） ¾ぴ第 2-の技術文献群 (B群）に含まれる技術文献数の構成比 '/ .M .多.クラスタ [^における技術文献数の混在比 n /mにつ.い-て、 -更 fc構成比と混在^ を取つたものの乗（但し、 0く ξ) ヒ例:じた補正値を、類似率を算出する際の補正項として設けている。

すなわち、第 1の技術文献群（八:群_:) _: -び第.²_の術文销群^ 群_:)_: に含まれる技術文献数の構成比 Ν 各ク 7.ス .¾に:おけ:る:技術 ¾ 献数の混在比 η mが近いほど類低藥を高設定す . (- 1.に近づ:ける.): ための数式である。

したがって補正項 2 (2) の値: 、第^.の技術文献群 : A:群) び第 2の技術文献群—（B群）に含まれる ί技術^:.献数 p構成 ½ 条タ.ラ .タ. 内における技術文献同士の混在比 ^ な }5ど 1 : ¾小さ直 ¾取: 。

補正項 2 (2) を考慮した類似率算:出例を以 | .. J式 2,6) に示

類似率 ∑i (補正項 1 )x(補正項 2)x(補正項 3)x5}

上記-の (式 2 5 ) 及び (式 2 6 ) に ^:示すよう-に.補正項 2 : ( 2 ) では、技術文献 A群及び技術文献 B群の構成比と各クラスタ內にぉ：ける技:術文献同士の混在比が同じであるほど類似率を高く設定す-る ( 1に近づける）ために、分子には「Ν Ζ·Μ又は Πメ mの小さい方：」を配僵し、—分には「 Nゾ M又は n " mの大きレ、：方」 —を配置：して；ぃる。

この場合に、技術文献の混在比 / さ.: 在クラ.:スタ^影響 _を類率の算出結果に大きく反映させた.ぐない.場合には、補正項の指数 ζを ζ〉1 に設定するとよい。

また、単純にクラスタ内におけ::る技術文献- 混在比に応:じて類似率:を増減させる要望がある場合には、 ^ -,ι— ：：設定- -ると-よい.；

また、混在比が大きい混在グラスタの影響を類似率の算出結果に大きく反映させたくない要求がある場合には、 0く ζ <_ 1 に設定するとよい。

— 以下に、類似率の計算に際して補正項 2 ( 2 ) 參;合 Γの禅用おついて説明する。

補正項 2 ( 2 ) では、分子に Α群と Β群の技：術文献数構成比又は各クラスタ内における技術文献同士の混在比のいれ小：きい方を配置し、分母に A群と B群の技術文献数量の構成 .又は各ク rラスタ内における技術文献同士の混在比のいずれか大きい方を配置するよ-うに'したので、 A群と B-群の技術文献数量の構成比と各クラスタ内における技^ 文献同士の混在比が同じで:あるほど類継率を高く算出する 1に近 . る）ことが可能となる。また、 A群と B群の技術文献数量の構成比と各 - クラスタ内における技術文献同士の混在比が異なるほど類似率小さい値に算出することが可能とな。-.

- また、 A群と B群の技術文献数量の構成比、 '各グラスタ内における技術文献同士の混在比との比を算出していので、類似率の算出範囲. 0≤類似率≤ 1 を保証することが可態^？：!^

更に、指数 ζを ζ >—1 に設定することによって、 Α群と Β群の技術文献数量め比と、各クラスタ内における技術文献同士の混在比との比が小さい混在クラスタの影響を、類魁率の.算出結果大きぐ反映させな- いよう'にすることが可能となる

また、指数 ζを ζ = 1 に設定する: ^:^ で、..単純に群' . 群の技術文献数量の構成比と、备クラ：:スタ：内 -おけ—る技術文献同土の混 - 在比との比に応じて類似率を増減ざせる £ 可能となる- 単純混在比- ；比較）。

また、分子の指数を 0く ζく 1：に設定^ ¾ によって:、 ^:群と: Β: 群の技術文献数量の構成比と、クラスタ內おる技術文献同士の混在比との比が大きい場合に頻似率の.：算出結: に対す.る影：響少な.ぐ i-することが可能となる。

補正項 2 (2) のみを考慮して他 (^補項作甩¾考慮レ」ない場合であって（すなわち補正項 1 = 1、捕 ¾項.3:= 1とす .)^単純混.在比: 較を行なう場合（すなわち ζ =1). に、技術文献群同士を比較する条件として、（式 26) におい Τ条件 1.〜： "4-に設鬼 _した場合の領似率の試算. 結果を以下に示す。なお、算出結果は、..図. ΐ- に、補正項 2 (2) を採用した場合の類似率算出例（補正項 2/ (-2) に条件 1〜 4を代入した場合の計算結果）の図表として示す。： - 下式（式 27) に、計算例 26U ( : 2 . 条件: を代 :レだ場合): の計算結果を示す。

条件 1では、第 1の技術文献群（Α群.): μ 技術文献数量は .6:.:個、第 2: の技術文献群（Β群）の技術文献数-暈:も「:6個—であ _る—ので、：群と群辨; の技術文献数量の構成比は 1対 tである。

—方、条件.1の場合に各混在クラスタ— ク _ラタ :1-及びラスタ' 2 ). _ に含まれる技術文献数は、第 1の技術文献群: ( A群）の技術文献が 2個、第 2の技術文献群（ B群）の技術文献:がおる Jの、混在比は.2対 1である。

したがって、クラスタに含まれる:^術; ¾献混在—玲;による.類似率の補：; 正-の影響は、少なからず存在すると' 待:.される。. 類似率（式

下式（式 28 ) に、計算例 2 6 2· (式 26- 条件 2.を代入した場合). の計算結果を示す。

類似率 3 5} x<5

=-x1. 891 =0. 473.·· (式 28) 下式（式 2 9 ) に、計算例 2 6— 3 (式 2 6に条件 3を代入.した場合) の計算結果を示す。

条件 3の場合には、条件 2の場合とクラスタに含まれ技術文献の量の総和は同じである力 S、混在クラスタ 1に含まる:技一術:文献の混在 ¾^、- 第 1の技術文献群（A群）と第 2の技術:文献群（B群）の構成比と大きく異なる状況である。したがって類似率を算出する際に、 '混在クラ ¾タ 1に含まれる技術文献の混在比率の影響が条件.2 ®場合ぼどほ生じな ^{: :} いことが望ましい。、·■' 類似率（式 2 )χ(補 j∑項 3 ) · :一' x(補正項 3 )χ δ

上記の（式 2 9 )にて算出した類似率（式 2 6に条件 3を代入） = 0.·2 9 の値は、混在クラスタ 1-に含まれる技術献の^在比:が ΰ第 1の窗实 - 献群（Α群）と第 2の技術文献群（Β群）め構成比 ^:と異ご-どから.:、類似率は少なく補正される。

じたがって、補正 2 ( 2 ) の演算処理を行なう'ことによって、混在クラスタに含まれる技術文献の量が多い場合であっても、その技術文献の. 混在比率に応じて類似率を補正する^:と可」能となる。： - . 下式（式 30) に、.計算例 2.—6— 4ズ.式 26に条件 4を代入した場合) め計算結果を示す。

3 x6]

上記の（式 30) にて算出した類似率 (式.2' に条件 4を代入した場合） =0.029の値は、クラスタ 1及ぴクラスタ 2Τ .含まれる技術献ー，混在：比が極端に不均等であるとともに、混在ク. スタ 1 混在クラろタ 2の混在比が第 1の技術文献群（Α群）と第^め技術文献群^_(Β群）の技術文献数量の構成比と大きく異なるので- 類似率が少なく補正される。

図 14に、補正項 2 ( 2 X：を採'用^た#^類似率算例 1& . (2). に条件 1 4を代入した場合:め計算結果-): iの図表を示。:^ 条件 1、条件 2における混在クラス^ 1"¾び混在 , ス 2 並びに条件 3における混在クラスタ 2は、図 .9.' 示すように.技術文.献がよ X：混:ざつている状態であるといえる例 4混在クラタ ;^ る技撒：^献混比が、第 1め技術文献群と、第技術：^献群に食 *れ拔術文爾数: 量の比に近い場合）である。この場合.にゆ、：補正項の藏劐合に大きん算出し、類似率め値を大きくする効果があ。: — - 逆に、条件 3の混在クラタ 1及び条件 4の各混在クラスタは.、技術文献がよく混ざっていない状態であるといえる（混在クラスタにおる技術文献の混在比が、第 1の技術文献群ど、第 2の技術-文锨群 -含まる技術文献の数量の比と大きく異なる學合とえ）ので、補正 '項の値: を小さく算出し、類似率を小さ値 ϊ¾¾ι る- i?mがる。 ^:'

. しこがって（式 4) に示したような、補正項.1 ) と組み合わせて類似率を算出することによって、技術文献群同士が^め程度技術的に関連があるかを示す類似率の算出制度向,上きる H可能となる。' - 図 1 5に、補正項 1 (1) 及び補正項 2.. (2) を採用""した場合の類似率算出例（補正項 1 (1) 及び補正項 2 (2J Jこ条 tU〜4を代した場合の計算結果）の図表を示す ₉

同図に示すように.、補正項 1 ）及ぴ補年'¾2 (—2) 'を甜.ぃ '計算式に条件 1を代入すると、 ^ラスタ内に-含まれる技^ f文献数量と混在比率に応じた類似率を算出するので条伴- を代: た場合の類似率 ^ 0.25の値は、（式 1 ). に条件 1を代入した場合（補正^なしの場合）の類似率 =0.5の値より小さいが、カ^^り期待した値近:く,、. 抉術 :献群' 同士の技術の類似性をよく表して.いると.霞える _ό

また、補正項 1 (1) 及び補¾ ² (²)：用-い. 計.算^;に^ 代入すると、クラスタ内に含まれる嫩¾#量 <混¾ ^率 ¾ :じた類似率 ¾:算出するので、類似率は（ 1) に条件 2 ¾f¾ J fe¾^纖なしの場合) の類似率 = 0.5から補正項 1及び補正項（2)_を甩—いて条件 2を代入した場合の類似率 0 09 iこ補 :さ、カなり，期;待し; ^ 類似率の値に近く、技術文献同士類似性:をよぐ表でいると霧. るこのように補芷項 1及び補正 ¾² _: ( 2 ) ^ ^ζ頻率を算出とによって、技術文献数の多いク-ラス 1につい: 童み {Φϋιをする； , が可能となる。

また、補正項 1 (1) 及び補正項 2 (¾) .を： ¾いた計算式に条件を代入すると、クラスタ内に含まれる技術文献数量と混在比率に応じ ·¾.類似率を算出するので、条件 2の場合と比較てク-ラタ内含まれる技-:. 術文献数量の総和は同じだが、混在.ク.ラスタ' 1の技術文献数量のみが特:. に多いわけではなく、.かつ、クラスタ- 1内の技術文献の混在比率が第.1 ：の技術文献群（A群）と第 2の技術文献群 -..CB群,) の技術文献数量 ^ ;; 率とも異なる場合にば、クラスタ iの存在、を特 1こ重視:,しないようにする - ことが可能となる。 ' , ここで算出される類似率は、（式 1.)-に条件 3を代入,し場合補正. なしの場合）の類似率 =0.5から、:—補-正項 1及-び補正項.2. :( 2·)Γを甩い：:: て条件 3を代入した場合の類似率 ί=0.111に捕正-ざれ.、.かな _り.期特値に近く、技術文献群同士の類似性—を表:している,:ど言.える。 .

また、補正項 1 (1) 及び補正項:.2::.('- 2).:;を—用いた計算式.に.条件 H. 代入すると、クラスタ内に含まれ¾„技術文献数量と混在比率に-応_じた鎮似率を算出するので、条件 2の場合と比較してクラス，タ内に含まれる抉:: 術文献数量の総和は同じだが、混在クラスタ Iや混在タス 2-が特に. 大きいわけではなく、技術文献の混ざり具合が.さち極端な場合で、混- 在クラスタ內における技術.文献の混在比.が.、—. A群と ¾群教術文:.献数の. 比と大きく異なるので、類似率に反映る影響が :さぐな.つているここで算出される類似率は、（式. iy ·ίこ条件, aあ tfc.場合-:.: (補なしの場合）の類似率 = 0.5から、捕正項及-び捕正項 2..(2) 母いて条件 4を代入した場合の類似率 0.0Γ9に,補正- れ-、かなり期待:し : 値に近く、技術文献同士の類似性-を.よ-ぐ表-しで . 、ると.言，える。.:：リ .:：応用型 4 ：補正項 2 (3) の算出例

以下に、混在クラスタ内における技術文献の.期待修差†こ基づぐ:補正ついて説明する。

あるクラスタ内に含まれる第 1の技術文献群: (:A群）： ,技術文献. 数: 量 Mと、第 2の技術文献群（B群）の技術文献 .数量 'と力： A.群と ·Β· 群から無作為に抽出した際の期待値 : (¥ (M+N)) に近いほど、良く混ざっていると考えるのは自然であ ¾ ： (前記（式 9 ) に示しだ確率比、又は（式 2 5) に示した混在比と- ½:ぶ第 3の混ざり:具合の定義である。）

そこで本発明では、第 1の.技術^献群：:. (：群.).と第 2の技術文献群.' (Β' 群）とを混合した技術文献群の中力ら、:第 1'の:技術 ¾献群（Α群) の技. 術文献を取り出す確率（Μノ（Μ Ν)) :に、混在クラ jス:タに含:ま:れる: 技術文献数（m+ n) を乗算しで第 1: 技術文献群：（： A群）:の技術文献を取り出す期待値を算出し、そ (^期特値 'と:混合:クラスタに含まれる第 ¾ の技術文献群（A群 )_ の技術文献数との姜を期待値差： : (式: 3 JL ) - 参照）として算出し、この差が小-さ Λ、ほ (0にいほど. 類似率が高-. くなるように補正する演算を行なう . .

以下の（式 3 1 ) に期待値差の算 ffi例をす。

…（式 31)

Μ + Ν

図 1 6に、上記の（式 3 1 ) に条件 1：〜 · 4を代入-しお場合の期.待値差の算出例を示す。

上記の（式 3 1 ) による計算結果:^;.らも ^. :とお:り、あるク :タ— 内に含まれる A群の技術文献の数量と、 B群の技術文献の数量-と-が、 A 群と B群から無作為に抽出した際の期待: fit ¾いほど、そ. タラ-ス重要視して類似率を補正する場合に.は、:図 1-61こ示す期待値差を負の数にして指数部分に置くとよい。

負の値にした期待値差を指数部分に K置する- とによ όて、.揮在クラ: スタに期待値どおりの技術文献が存在する場合には .期待値差 =ιΘ¾ り、指数 = 0の場合には、補正項値を 1と算出する;ことが可能となるからである。ところが、期待値の'ままだ-と混ざ具合だけ:で-なぐ所定混在クラスタの大きさにも依存してしまうため、期待値差をクラスタに含まれる技術文献数で除算するとよ.い:。 '

このようにして求めた補正項 2 ( 3 Lの—実施例.を-以下に示す。

補正項 2 (3) =

但し、

：任意定数であって、〉 1 .とする。；上記（式 3 2) のように補正項 2を算出することによって、例えば、クラスタの大きさが 1 0 0で期待値差が 1 0の時とクラスタの大きさが 1 0で期待値差が 1の時の補正同. ノょ„¾。.. なお、の値を大きく設定するほど期待値差に対して敏^感 (ピ反応して，類似率を小さく補正することが可能とな "。、

図 1 7に、 0とした場合において Γ t式" 3: に条 .丄 4を代入した場合の類似率算出例を示す。

囪 1 8に、補正項 1 ( 1) 及び補正項 2 (3) を採用した場合の寧率算出例（補正項 1 (1 ) 及び補正項 2: (.3) 条件-:!〜 4.を代レた- 場合の計算結果）の図表を示す。.

同図に示すように、補正項 1 ）：び捕正項 :2 t3) 用:い計算„ 式に条件 1を代入すると、グラスタ内:に含まれ枝術文献数量 idi持値差に応じた類似率を算出する（あるク;:ラ'ヌタ：内に含まれる..第.1. 技術文献群（A群）の技術文献の数量ど; 第 2の技術文献群 ( 群—）技術文. 献の数量とが、 A群と B群から無作為こ:抽出レた際一の期待値に近い程類似率を大きく算出する補正を行なう:： Lので、補正項 ,¾·及^捕正項？. ( 3 )；を用いて条件 l—を代入した場合の類似.率 =:0. 40.:-は、 ·(¾ 1 ').に条件 '： 1を—' 代入した場合（補正なしの場合）の類:似率 = 0: 5. 値:に近く:、期待.した: 値に近い値を算出することが可能とな:づて'レヽる—。：

条件 2の場合には-、混在クラスタ： 1ゆ、クラスタ.一 2: -〜 .4:：と比べと混；在クラスタに含まれる技術文献数大き: 持値差も少なレ、ので混在クラスタ 1に含まれる技術文献櫸成 (^影響を.重視すべきである。補正項 1 ( 1 ) 及び補正項 2 ( 3 ) を用いた計算式に条件 2を代入すると、クラスタ内に含まれる技術文献数量と期待値差に応,じた類似率を算出する（あるクラスタ-内に含あ術 ¾献 i (A群） ^ ¾ 文献の数量と、第 2の技術文献群（B群）の技術文献の数量とが、. · A群と B群から無作為に抽出した際期待値に近い程類似率を大きく算出する補正を行なう）ので、補正項 1.及捕: E項- - (-.3-) .をいて条件を代入した場合の類似率 = 0. 935 は、（式 1 ) に条件 1を代入した場合 (補芷なしの場合) の類似率 = 0. 5の-値よ.り,大きぐ正さ.れ C:おの値は期待した値に近い値となる-。 -- 条件 3の場合には、前記条件 2 場合;と化較:レてクラスタに含る技術文献数量の総和は同じだが、混在ク-ラスタ 1 :けが特:に大き；いではないのでクラスタ 1を特に重視しなレ.、ゆずでる-。ま二た: 混在ク；;ラ— スタ 1に含まれる技術文献は、第 1 .の技«文献群（Α·群と.第 .. .技術文献群（B群）から無作為に抽 mし.た際の：期待値:と大ぎく..異^ gる-ので、. 混在クラスタ 1の期待値 ¾ ^大きさ引張ちれ類似率は小:さ:ぐ:算出: されるはずである。

補正項 1 ( 1 ) 及び補正項 2 ( 3,) を用 ΐ、お計算式に条件 _3を代入すると、クラスタ内に含まれる技術文联黎量と期待値差に応:じた類似率を:. 算出する（あるクラスタ内に含まれる:第 1 術文献群- ( Α群）：の技術: 文献の数量と、第 2の技術文献群— (：技 _:術の数量と力、 A と B群から無作為に抽出した際の期待値近い獰類似率を:大:き...く集出' する補正を行なう）ので、補正項 1及び摘正項 2. (:3丄;を甩いて条件 3 : を代入した場合に、類似率 = 0. 2Q7 .と箅出れるの類似率の値お斯待した値に近い値である。

条件 4の場合には、条件 3と比べてク:ラタ内に含まれる技術文献数 J 量の総和は同じだが、混在クラスタや^ ¾クタ:..2:に含ま; fe¾技術文献数量が特に大きい訳ではなく、：混ざり具合さら. —極端な場合なの ^ で、混在クラスタ 1の重み付けに引づ張ら-れな. こ:ど望まい。 - 補正項 1 ( 1 ) 及び補正項 2 ( .3.) を用いた:計鎖 ^!^:を.代す:; ると、クラスタ内に含まれる技術文歉数量と期待値差に:応た類似率を. 算出する（あるクラスタ内に含まれる第 rの技術文献群：: ( A群) ^の技術: 文献の数量と、第 2の技術文献群（B群) の.技術文献.の数どお A翁: と B群から無作為に抽出した際の期待値 jこ近い ¾^似.率'を大き：く算出：する補正を行なう）ので、補正項 1及ぴ捕正項 2 (:3 ') を用い条件 4'. を代入した場合には、類似率 = 0.14Ό k算出:される。この類锻率.の-値お.、' 期待した値に近い値である。産業上の利用可能性

—本発明によれば、特許文献又は技報等の技術文献から構成-ざれる第 F の技術文献群と第 2の技術文献群との技術的；類似性を.判断: る :めの指標を算出する類似率算出装置であ:つて、比較対象と:なる:第: ι¾ ^技術- - 文献群及び第 2の技術文献群を入.力する技術文献群入:力:手段とキ^ ^: ードゃ I P Cなどの技術情報を入力する.皮術情報入力手段と:、:第 1の術文献群及び第 2の技術文献群含まれる技術文献に^) ^前記^^^ した技術情報を含む技術文献を検索:して該検索-した技術文献をそれぞれの技術情報毎にクラスタ分解する' ラスタ分解手段と.、前記クラスタ. 分解した結果得られた全クラスタ数と第 I—の技術-; ¾献群-及ひ:第.2 (©雜_ 術文献群の双方の技術文献を含..む混在クラス^数欽とのを類綱と: ΐ て算出する類似率算出手段と、前.記算出: た類似率を 1&録¾ ^^表 ; 段、又は通信手段に出力する出力手段とを備えたので、その解し全. クラスタ数と混在クラスタ数の比:に基て、：:技術文献群^記 _:され：いる技術内容の類似性を示す指搽を.簡便算する :とカ可能となる o - また本発明によれば、類似率算出手段.に.各混在クラス―タに含まれる技術文献の量に応じた値を取る第 1の.補正値と、各混在クラスタ.に含まれる第 1の技術文献群の技術文献と第 2.の技術文献群の被術文献と混：ざり具合に応じた値を取る第 2の補正値とを乗算 1?_たものを、各混在ラスタについて総和を算出して、全クラ.;スタ数で徐算して類似率を.算出する機能を設けたので、補正項 1の存在こより混在クラスタに:含まれる技術文献の量に応じて重要度が高ことを意味付ける捕正が可能なるとともに、補正項 2 存在にょ¾:混在クラスタに含まれる技術文蒙の割合が所定の量に近い程、重要なクラスタ; あると-して、 -類似率が髙 ¾ 値を示すように重い重み付けをして、：類似率の算出結果を、.，より：. 感 ' 覚に合うように捕正することが可能':と,な: ¾。；

従って、補正項 1及び補正項 2:を用いで類似率を -算出する:ことに,よ ¾ て、技術文献数量の多い混在クラ:スタ.を重要視—レて類似率..を補正するとともに、技術文献の混ざり具合が不均一な場合には、類似率を小さい値 . に補正することが可能となる.。

また本発明によれば、類似率算出手段に個々のクラタ技術文数の α乗（但し、 0く α ) に比例し;た-補正値を各混在ラタ

総和を算出し、全クラスタ数で除算て類似率を算出する機能を設け:た- ので、クラスタ内の技術文献数が多、ど重要なラスタ^?ある:とする: ような類似率を算出するこが可-能となる。

また本発明によれば、類似率算出.手段に個々のクラ:スタ内の技術^献, 数の α乗（但し、 0く c ) を、全クラタ数等の規格化:因子で除算レ類似率算出する機能を備えたので、 . Q—≤類似率≤ 1— ：を保証する:こ^ が可能となる。また、規格化因子して全クラスタ内の技術文献数 _の平均値を配置したので、全クラスタ内:の.技術文献数の.平均値.を基準:と ^：技術文献の量の多少を算出するこ ϋ可能どなる。

また本発明によれば類似率算出手段に.、第 1の技謝文献群.の.,中から - 個、第 2の技術文献群の中から n個の技術文献-を取り出す確率の:: y乗：:（' 但し、 0く γ ) に比例した補正値备混在クラスタに-つ:い: :総和-を: _算出し、全クラスタ数で除算して類似率を：算出する機能を設けた。」すなおち、類似率算出手段に（A群の中かも m個、 .群の中がら個の技術文献を取り出す組合せの数） / ( A群と： :3.群. を混ぜ金おせた中から Ηΐ ΐ' β 個の技術文献を取り出す組合せ数:）を分:子に配置した演算.を:行なう機能を備えたので、混在クラスタ:に含まれる Α群及び: Β群: 技術文献数の僻り（作為性）に応じて、偏り大の場合は. さい補正値に、偏り小の場合. は大きい補正値に類似率を補正す ¾·こ.とが可能と,なる；また、規格化因子として、第 1の技術文献群の中..から m個.、第 2.·術文献群の中.がら n個の技術文献を取り出す確率の凝大値—の ¾ (但レ、 - Q yj を配置' したので、類似率の算出範囲.とし -p.≤類似率 ¾1 ；;を保証する.こ-と^ 可能となる。

また本発明によれば類似率算出手-段.に、第 : 技術文献群.に:含 _まれ Tる技術文献数 Mと第 2の技術文献群に含ま:れる技術:文献数との構成比、: N /Mと、クラスタ分解した結果-得:られ混在.クスタ.に含まれる第: 1 - の技術文献群の技術文献数 mと第: 2 技術文献群の.技術文献数 nの混在比、 n /mとについて、更に構成比と混在 -と-の比を.取た:も:.の : ζ 乗（但し、 0く ζ ) に比例した補正値を各混在クラスタにつ.いて総和を算出し、全クラスタ数で除算し類似率を算出 tる機能を備えたで、、 A群と B群の技術文献数量の構成と各-クラスタ内おける.技舞文献同士の混在比が同じであるほ；ど類似率,を.高ぐ算出. irる…（ 1 :に近づけ:る） - ことが可能となる。

また、構成比と混在比との比指数を： > 1 に設定するとこよって、 A群と B群の技術文献数彙 tt: 、：务クラ^タ内おける技術文献同士の混在比との比が小さレ、：温クス:タの影.響を、 -瀕率：算出結果に大きく反映させない.おうにす；^ が可能となる：。

'また、指数 ζを- ζ = 1 に |¾定す¾こと .よ; D:て. 単純に Α群と:^ 群の技術文献数量の構成比と、各クラタにおナ,る技術文献,同 -混在比との比に応じて類似率を増減:させ iる..こ ^可なる'。

- また、分子の指数を 0ぐ ζ く :に設定するこ..と J.こよって； Α群.と: Β，群の技術文献数量の構成比と、各久ラタ内における.技術文献：同士の舞' 在比との比が大きい場合に類似率の算出結果に対する影響を少なぐ _. ることが可能となる。

また本発明によれば類似率算手段.に:、第- 1. 技術文献群と第' の技. 術文献群とを混合した技術文献群の:中から第 1..の技術文献群の _:技術文:. 献を取り出す確率に前記クラスタ分解レ£混在クラタに含まれ技' ^; 術文献数を乗算して第 1の技術文献群の技術文献を取り出す期待値を. _ 算出し、前記期待値と混合クラスタに含まれ.る第 1:の技術文献群の技術.. 文献数との差を期待値差として算出し、その期特 ft差を _任意定数. ξ -Ai : し、 1く）の負の指数とした補 JE値を、各提在ク. ス; いて総和こを算出し、全クラスタ数で除算じで親似;率と算出するようにした φで、： ξの値の設定に応じて期待値差に対 tる—類似率の算出:結果—を:敏感に⁵反応させる補正を行なうことが可能: -となる。;：

また本発明によれば類似率算出手段に:、第 1-の技術文献群:と第：.2_ 技.. 術文献群とを混合した技術文献群中から第 1 技術文:献群 (^技術^ - 献を取り出す確率に前記クラスタ分解:した：混在.クラスタに：含まれ術文献数乗算して第 1の技術文献群の技術文献を取-り出,す期-待値を二算出し、前記期待値と混合クラスタに含まれる第- 1の技術.: δ;谳群 . :術；文献数との差を期待値差として算出し、その期値差を混在ク¾スえ^ - 含まれる技術文献数で除算したも.のを-、 t定数 : (低レ < V : 食の指数とした補正値とし、これ: ¾务混在 ¾ スタについて総和を算出し、更に全クラスタ数で除算して類鍵と翁出す 5»^ にしたの , ξ：の値の設定に応じて期待値差に対する類似率算出結 _果を.敏感させる補正を行なうことが可能とな Γな。

Claims

請求の'範囲

1 . 特許文献又は技報等の技術文—献かち構成され ^:る第 1の技術文献群と第 2の技術文献群との、技術的な-類似性 ^:を判断するたの指標を算¾—す- る類似率算出装置であって、

比較対象となる第 1の技術文 m群及び第 2お技術文群 ^入する一' 技術文献群入力手段と、

キーワードや I p Cなどの技術情報を A¾f ¾技 « 入丰段と ^:、第 1の技術文献群及び第 2の技術歃群含まる ¾術文いて、前記入力した技術情報^含む技術文を検索し τ、該検索し —技術文献をそれぞれの技術情報毎に ^テスタ分解るラス歹解 ¥擾 ^: 前記クラスタ分解した結果得られ ^クス ⁷タ数ど、. i ^:技術文献群及び第 2の技術文献群の双方の ^ t献を含む—混在—タス '数— ^:と-め比を類似率として算出する類似率出段 ^:、

前記算出した類似率を記^手段:'、 ¾¾'¥段 ¾ 通信手段 ¾¾す- 出力手段と、

を備えたことを特徴とする類似率 m装

2 . 特許文献又は技^等の技術文献から檎る第 ^:ι -技文群^ 第 2の技術文献群との、技術的窗微& ^判 tf¥るた ¾指^"をする類似率算出装置であって;' '

比較対象となる第 1の技術文献 ^及^第 2あ ¾術献群をずる技術文献群入力手段と、

キーヮードゃ I p Cなどの技術情 ¾ 入力す-る技 If ¾X力羊段^ 第 1の技術文献群及び第 2の技術文鮮に含まれ ¾技術女献ヽて、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分手段と、- 前記クラスタ分解した結果得られた全クラスタ数と、第 1の技術文献群及び第 2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、 - . ..；.,-■ 各混在クラスタに含まれる技術文献の量に応じた値を取る第 1の補正値と、各混在クラスタに—含まれる境 1の^術文鞑群技術^献第 2 の技術文献群の技術文献との混ざり具,食に応：じた値を ¾る ·2の補正 5 値と,を乗算したものを各混在クラタについて総和を算出し、前記算出 . した全クラスタ数で除算して類似率！:.寧出する類似率算手段と、 . V 前記算出した類似率を記録手段、表示手段、—又 ·.は通信手段に出力する出力手段と、

を備えたことを特徴とする類似率算出装置。 _ - 0

3 . 特許文献又は技報等の S術文献か, .構成さ ¾ 第技術: ^葛群-と. 第 2の技術文献群との、技術的な琴 'lま- . 断す ό め—の指:標算出 . る類似率算出装置であって、

比較対象となる第 1の技術文群及び.第 2.の技^文雜群を入 ..する— 技術文献群入力手段と、

5 キーワードや I P Cなど ρ技術情報 ¾入力する技 't f 力手^

第 1の技術文献群及び第 2の技術^献群に含まれる技術文献につ-いて、前記入力した技術情報を含む转術文献を検索 ^て.、該検索した珠術文献をそれぞれの技術情報毎にクラス分解する^ラスタ分解爭殺-と.、前記クラスダ分解した結果得れた,垒クラ^タ尊 t、第 1 .技術;^献 0 群及び第 2の技術文献群の双方: 69技銜^献を貪む混 ¾久ラスタ数を算 -. 出するとともに、

個々のクラスタ内の技術文献舉の _ α犟 . (但し、., 0 < α ) に比例した補正値を各混在クラスタについて総禾 tl . 算 W 前記.算出レた垒クスタ数で除算して類似率を算出する類^率算手—段と、

5 前記算出した類似率を記録手段、表示手段、又通信手段.に出力-する出力手段と、

- を備えたことを特徴とする類似率算出装置。.

4 . 特許文献又は技報等の技術^:献から構成きれる第. の技文献群と. 第 2の技術文献群との、技術的な類似性を判断するための指標を算出する類似率算出装置であって、

比較対象となる第 1の技術文献群 ¾；び第 2 技術文献群を入力する技術文献群入力手段と、 .

キーワードや I p cなどの技術情報を N力する技術情報力段と、. - 第 1の技術文献群及び第 2の g術 ¾献群に含まれ技術^献にい' て、前記入力した技術情報を含む技術文敝を検索して、. 該検索.した技術文献をそれぞれの技術情報毎にクラスタ,分解するクラスタ.分解 .段,と：、. . ― 前記クラスタ分解した結果得ら一れた—全ラスタ数どい第 1の技術文献群及び第 2の技術文献群の双方の技術文:.献を含む混在クラスタ数を：算. 出するとともに、

個々のクラスタ內の技術文献数 (但. ^ ¾ ) 規格化,因子: で除算した補正値を各混在クラスに; 、和算出前記算出 _した全クラスタ数で除算して類似率を算出す;る類似率算出手揆と、 .：し前記算出した類似率を記録手段 s表^;手段.、.又は通信手段に出力す出力手段と、

を備えたことを特徴とする類似率算—出装置。

5 . 請求の範囲 4に記載の類似率算出:装置に-おけ前記規格：化:因子 ί ,、全クラスタ内の技術文献数の平均.値でお-る.こと _を特徴とする類似率算_. 出装置。 .

6 . 特許文献又は技報等の技術文献ら構成さ第 1:の技術文献群.と第 2の技術文献群との、技術的な類似性を判断するための指標を算出する類似率算出装置であって、

比較対象となる第 1の技術文献群及.^第. 2の技術文献群を力す ¾ - 技術文献群入力手段と、

キーワードや I P Cなど -技術情を力する. 術精報入力手段と、，第 1の技術文献群及び第 2の技」術：^献群に含まれる技術文献について、前記入力した技術情報を含む技術 ί文献を検索;.して.、.該検索レた技術文献をそれぞれの技術情報毎にクラスタ分.解すスタ分解:手翁と、前記クラスタ分解した結果得られ：た全ラス::タ数と、条 1.の技術^:献群及び第 2の技術文献群の双方の技術文献:を含む混在クラスタ数を算出するとともに、

前記クラスタ分解した結果得られた.混在クテスタに含まれる第 1の技術爻献群及び第 2の技術文献群の技術文献の.確率に応じて捕:正す. るために、第 1の技術文献群の中から m個第 2.の技術文献群の.中から n個の技術文献を取り出す確率の _Ί乗'（但し、— 0 <· γ ) に例した正: 値を各混在クラスタについて総和を算出し、:前記算出した全クラスダ数で除算して類似率を算出する類似率算 _出手段と、—

前記算出した類似率を記録手段、—表示手段、又は通信段.に出力す.る出力手段と、

を備えたことを特徴とする類似率算出装置。

7 . 特許文献又は技報等の技術文献から構成される第 1の:技術文群と- 第 2の技術文献群との、技術的な類似性-を判断.するための指標を.算する類似率算出装置であって、

比較対象となる第 1 の技術文献群及び第 2の技術文献群を入力する. 技術文献群入力手段と、

キーヮードゃ I P Cなどの技術情報を入力する.技術情報入力手段:と-.、, 第 1の技術文献群及び第 2の技術文献群含まれる技術文献に^いて、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するク-ラスタ.分解手段と、:. 前記クラスタ分解した結果得られた全タラ- タ'数と、第: 1·の.技術实献群及び第 2の技術文献群の双方の技術文献.を含む混在グラスタ数を算出するとともに、

前記クラスタ分解した結果得られた混在.クラスタに含まれる第 1の技術文献群及び第 2の技術文献群の技術文献数の確.率:に応じて補. r ;す. るために、第 1の技術文献群の中から m個、第: 2 :の技術文献群の中-から- n個の技術文献を取り出す確率の γ乗：（但し、 0 < γ ) を.規格化因子で除算した補正値を各混在クラスタにい.て辑和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、ノ ' 前記算出した類似率を記録手段、表示段.、：又は通信:手段に出力する出力手段と、

を備えたことを特徴とする類似率算出装置。，

8 . 請求の範囲 7に記載の類似率算_出装置おける.前記規格化因: 7^ま、. 第 1の技術文献群の中から m個、:第 2の技術^:献群^中から.: n個の技術. 文献を取り出す確率の最大値の γ乗（feし、 0 < )-..であ.るどを特徴とする類似率算出装置。

9 . 特許文献又は技報等の技術文献か:.ら構成され:る:第.： 1:め.技術文献.群: 第 2の技術文献群との、技術的な類似性を判断す..るための指標を算す- る類似率算出装置であって

比較対象となる第 1の技術文献群及び第 2 技術:文献群を入力る: 技術文献群入力丰段と、

キーヮードゃ I p Cなどの技術情報を入力する技術情報入力手 .、第 1の技術文献群及び第 2の技術文献群に.貪:まれる技術文献について、—前記入力した技術情報を含む技術文献を検索して、該.檢寒した技術' 文献をそれぞれの技術情報毎にグラスタ分解するグラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と.、第 1の技術—文献群及び第 2の技術文献'群の双方の技術文献を含.む混在クラ ^タを算: 出するとともに、

·第 1の技術文献群に含まれる技休 f玄献数^と第.？の.技, 玄献群:に含 S. まれる技術文献数 Nとの構成比、 N ZM ^、- 前記.クラスタ分解した結果得られた混在クラスタに含まれる第の技術文献群の技術文献数 mと第, 2の技術 ^献群の技術文献数 nの混在比、 n mとについて、更に構成比と;.混在比との匕を取ったもの. CO.-ζ (但し、 0く ζ ) に比例した補；¾値を各混在.クヲ.スタについて総和.を算出し、前記算出した全クラスタ数で除算-して類似率を算出す.る類似率算出手段と、

前記算出した類似率を記録手段、:：表示:手段スは通信手段に出力.する出力手段と、を備えたことを特徴とする類似率算出-.装-置.。；

1 0 . 特許文献又は技報等の技術文献ち構成される第 1の技術文献群と第 2 (^技術文献群との、技術的な類似性を.判断—するための指標を算出' する類似率算出装置であって、

比較対象となる第 1の技術文献群及 ^第 ²の技術文献群.を入.力する一技術文献群入力手段と、

キーヮードゃ I p Cなどの技術情報を入力する技術情報入力手段と、一第 1の技術文献群及び第 2の技術献群に含ま.れる技術文献つ.レ、て、前記入力した技術情報を含技術:^献を換索し—て、該検索した.技術文献をそれぞれの技術情報毎にク:ラタ:分解す: クラスタ分解手段と、 - 前記クラスタ分解した結果得られク ..スタ mと、第 1の s術 ¾献：

- 群及び第 2の技術文献群の双方^)、技術文献を含む混在クラスタ数-を算- 出するとともに、

第 1の技術文献群と第 2の技術文献群とを混合した技術文献释 Φ から、第 1の技術文献群の技術文献を取:り出す.確率に、—前記.クラス.タ分：解した混在クラスタに含まれる ¾術¾献数を-乗算し τ第 1 技術^:献群の技術文献を取り出す期待値を算 tfc}_レ、

前記期待値と浪合クラスタに含ま.れる第 1 の: S術文:献:群の技術尊数との差を期待値差として算出し.、- その期待値差を任意定数 . . (但し:； 1.ぐ）の負の指数、レ^裤 gE値: を各混在クラスタについて総和募出.し .前 |E算:出した全クラタ数で：除算して類似率を算出する類似率算出.手段-と ·、 . .■ ,

前記算出した類似率を記録手段、表手段、又は通信手.段^出力す I» .

■ 出力手段と、

を備えたことを特徴とする-類似率.算出装置。

1 1 . 特許文献文は技報等の技術文歒から擠成される第 1の技術^献群. と第 2の技—術文献群との、技術的な.類 #性を判断するための指標を算出 . する類似率算出装置であって、

比較対象となる第 1の技術文献群及び第 2の技術文献群を入力する技術文献群入力手段と、

キーワードや I P cなどの技術情報力.する.技術情報入力手段 , 第 1の技術文献群及び第 2の扶術文献含まれ.る技術文献につ . ' ズ、前記入力した技術情報を含む技術文翁検索：じて ^ 該検索した技術 - 文献をそれぞれの技術情報毎にクラ—スタ解する.クラ-.スタ分解手段と、前記クラスタ分解した結果得られた'全ク:ラス-タ数と、第 1の技術文献一群及び第 2の技術文献群の双方の技術文献を含む混在クラスタ数 ¾算.. 出するとともに、 .

第 -1の技術文献群と第 2の技術文献群.とを混-合た技術文数群の中-. . から、第 1の技術文献群の技術文献を取：り出す確率に、前 _記-クラス:タ分. 解した混在クラスタに含まれる技術 ¾献数を乗算して第 τの-技術文献.: 群の技術文献を.取り出す期待値を算出じ、：

前記期待値と混合クラスタに食まれ！)第;! 技術文献群の技術文献 _ 数との差を期待値差として算出し、: --.

その期待値差を混在クラスタに含まれる技術文献：数で'餘算しも-の：- を、任意定数（但し、 1く） .の _負の浪数-とた補正値としれ各混在クラスタについて総和を算出し、更に前記算出-し-た全クラスタ:数. で除算して類似率を算出する類似考篱 m手: ¾と s ；

-前記算出した類似率.を記録手段、」表手—段:、 Hま:通 ji言手に出力する出力手段と、 · .

を備えたことを特徴とする類似率集出装置。

1 2 . 技術文献群を入力する技術：軟群力手段、キー^ー K:など , 技術情報を入力する技術情報入力手^と、.技術情報群を一技術情.報毎ラスタ分解するクラスタ分解手-段と ;^:ラスタ数と混在クラスタ数とを算出して類似率を算出する類似 ¾ 出；手段と、算.出した類根率.あ働力：. する出力手段と、 -前記技術文献群入力手と技術:情報 Λ力手段^:.ダラスタ分解手段と類似率算出手段と出力手段:とを制,御をすることが可能 ¾ 情報処理手段とを備えた類似率算.出—装置の讀報処理手段にて.動作し、技術文献群同士の技術的な類似性を判断するめ指標を算出する頻似，率算出プログラムであって、

前記情報処理手段に、

前記技術文献群入力手段が、 -比較対象となる第 1.の技術文献群ぴ第.. 2の技術文献群を入力する機能と、

前記技術情報入力手段が、キーワードや I P C.などの技術情報を力- する機能と、

前記クラスタ分解手段が、第 1 ·の技術文献群及び第 2の-技術文献群-に：' 含まれる技術文献について、前記 ^:入力-した技術情報を含む技術文献を検索して.、該検索した技術文献をそれぞれ—の技術情報毎にクラスタ:分解する機能と、

前記類似率算出手段が、前記ダラスタ分解した結果得られた全クラ.ス. タ数と第 1の技術文献群及び第 2の技術文献群の双方の技術文献含. む混在クラスタ数を算出するとともに: _、前記クラスタ分解した結果得ら― れた全クラスタ数と第 1の技術文献群及び第 2 技術文献群の双方の技術文献を含む混在クラスタ数との比を類似率と:レて算出する機能と、： - 前記出力手段が、前記算出した類似率記録手段；表示手段、又-は通信手段に出力する機能と、

を実現させることを特徴とする類似率算出プログ:ラム。

1 3 . 技術文献群を入力する技術文献群入力手段 :、.:キ^ワ一な^ : 技術情報を入力する技術情報.入力手段ど、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段、全クラスタ数と.混在クラスタ数お: を算出して類似率を算出する類似率算出手段と- :算出し:た類似率を出力' する出力手段と、前記技術文献群入力手段と技術情報入力手段とク - _ タ分解手段と類似率算出手段と出力手段おを制御をすること-が可能な:: 情報処理手段とを備えた類似率算出装置の情報処理手段にで動作し:、 .抜術文献群同士の技術的な類似性を判断するための指標;を算出する類似率算出プログラムであって、

前記情報処理手段に、

• 前記技術文献群入力手段が、比較対象：となる第.1.の技術文献群及 ¾第 2の技術文献群を入力する機能.と-、

前記技術情報入力手段が、キーワードや. I P Cなどの技術情報を入力する機能と、

前記クラスタ分解手段が、第 1 技術文献群及第 2の技術文献群に含まれる技術文献について、前記入力：した技術情報を含む技術文献:を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する機能と、

- 前記類似率算出'手段が、前記クラスタ.分解した結果得られた全ダラ:スタ数と、第 1の技術文献群及び第- 2の技術文献群の双方の.技術文献含' む混在クラスタ数を算出するとともに:、.各.混在クラスタに含まれる技術文献の量に応じた値を取る第 1の補正値と：、各.混在タラスタに含まれる第 1の技術文献群の技術文献ど第 2 技術文献群の：技術文献と; Q混ざ.，り具合に応じた値を取る第 2の補値とを乗算;し -もを各混在ク.ラスタについて総和を算出し、前記算-出—レた全クラスタ数で除算して類似率を算出する機能と、

― 前記出力手段が、前記算出した類似:率-を記：録手段、表示手段、は通：信手段に出力する機能と、

を実現させることを特徴とする類似率算出プログ.ラ」ム。

1 4 . 技術文献群を入力する技術文献群入力手-段:と—、キーワードな'ど技術情報を入力する技術情報入力手段と.、技術情報群を技術情報毎:にク -」ラスタ分解するクラスタ分解手段と、全クラス:タ数と混在 -ダラスタと— を算出して類似率を算出する類似率算出.手段:と.、算 ffi.した類似率を出力する出力手段と、前記技術文献群入力手段:と技術情報入力手段とグラス:- タ分解手段と類似率算出手段と出力手段とを制御をすること.力可能な：情報処理手段とを備えた類似率算出装置め情報処理芽段にて動作-レ、. -.技 i 術文献群同士の K術的な類似性を判断するための指標を算出する類:似率算出プログラムであって、

" 前記情-報処理丰段に、

前記技術文献群入力手段が、比較対象となる第 1の技術文献群及び第 2の技術文献群を入力する機能と、

前記技術情報入力手段が、 -キーヮ一ドゃ Ί P— Cな :—め技術情報を入力する機能と、

前記クラスタ分解手段が、第 1の技術文献群及び第.²の技術文献群に含まれる技術文献について、前記入力し技術情報を含む術文献検 . 索して、該検索した技術文献をそれぞれの技術情報毎にクダ分解す: ': る機能と、：：

前記類似率算出手段が、前記クラス.ダ分解し::^結果得ちれた全クヲス'；タ数と第 1の技術文献群及び第 2の技術文献群の双方の技術文献を含む混在クラスタ数を算出すると iもに、:,個々のクラ.スタ内の S術文献数の α乗（但し、 0く α ) に比例した補] gjt 各混在:ク.ラスタに.ついて'総：和を算出し、前記算出た全グラ.スタ.数除算--して類似率を算出す:る機能と、

前記出力手段が、前記算出した類似率を記録手、.表示手段、又は通信手段に出力する機能と、

を実現させることを特徴とする類似率算 -mプログラ^。 -;:

1 5 . 技術文献群を入力する技術文献群入力手段とキ一ワードなどの技術情報を入力する技術情報入力手段と、.抉術情報-群を-技術情報毎に..クニラスタ分解するクラスタ分解手段と、全ク: .スタ-幾と混在- .スタ.黎— . を算出して類似率を算出する類似率算出手段と、算レた類似率を出力. する出力手段と、前記技術文献群入力手段と g術情報入力手段と.クラスタ分解手段と類似率算出手段と出力-手段-とを-制御.をする-こと力可能な：情報処理手段とを備えた類似率算出装置の情報処 a手段にて動作レ、技 : 術文献群同士の技術的な類似性を判断すこめ指標を算出丈る類似率算出プログラムであって、、—

前記情報処理手段に、

前記技術文献群入力手段が、比較対象と-なる第 1の技術文献群及び第 2の技術文献群を入力する機能—と、 ——

前記技術情報入力手段が、キーワードや I P Cなどの技術情報を入力する機能と、， .

前記クラスタ分解手段が、第 1の技術文献群及び第 2の技術文献群に含まれる技術文献について、前記入力しこ術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報：毎にクラ：タ分解する機能と、

前記類似率算出手段が、前記クラスタ、分解-し.た結果得られた全:タラ _:スタ数と、第 1の技術文献群及び第 2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに—個々のクラスタ内の技術文献数- の c乗（但し、 0 < α ) を規格化因子除算した補正値を.各混在ラスタについて総和を算出し、類似率一を算出する機能-と

前記出力手段が、前記算出した類似率を Β舞手 _段、 .表示手段、. 又は通,: 信手段に出力する機能と、 ―

を実現させるこどを特徴とする-類.俾率算出プログラム。

1 6 . 請求の範囲 1 5に記載の類似率算出プ;.口,グラムにおいて、 ' .

前記情報処理手段に、

前記類似率算出手段が、前記規格 ^ [·チ: _:として全クスダ-内の.技術- 文献数の平均値を用いる機能を寒現させるこ.と.を徴とする.類似率算' 出プログラム。

1 7 . 技術文献群.を入力する技術文献群力手: と、キーヮーザなの -技術情報を入力する技術情報力と技術情報群を S術情報每にタ. - ラスタ分解するクラスタ分解手段^ ·、全クラスタ数と混在クラタ数と-— を算出して類似率を算出する類似率算出手と、算出した類似率を ω力. する出力手段と、前記技術文献群入力手段-と術情報入力手段とラ : タ分解手段と類似率算出手段ど出力手段と. 制御をするこ.とが可能な情報処理手段とを備えた類 ί 率算 -出装置の情報処理手段にて動作し、技術文献群同士の技術的な類似性を判断—するた ^ の..指標-を算出する類似率算出プログラムであって、

前記情報処理手段に、

前記技術文献群入力手段が、比較対象となる.第 1の技術.文献群及び第 2の技術文献群を入力する機能と、

前記技術情報入力手段が、キーワードや I P Cなどの技術情報を入力する機能と、

前記クラスタ分解手段が、第 1の技術文献群及び第 2の技術文献群に 5 含まれる技術文献について、前記入レた技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクヲ,スタ分解する機能と、

前記類似率算出手段が、前記 ¾ タ.分解レた結果得られた全クラ：スタ数と、第 1の技術文献群及び第 2の:技術文献群の双方の技術文:献を含' 10 む混在クラスタ数を算出するととも:に、前記クラ _スタ分解じた結果得ら一れた混在クラスタに含まれる第 1の g術献群及び第—.2の技—術:文锨群の技術文献数の確率にじて補正す:るため . (こ第— 1-Φ-& .文献群の中から m個、第 2の技術文献群の中から _ n -個の技術文献取り出す確率:. φ. γ. 乗（但し、 0く γ ) に比例した補正値を-各混在-クラスタ rについて:総和を一 .15 算出し、前記算出した全クラスタ数で除算,し: Τ頻似率'を算出する機能

― 前記出力手段が、前記算出した類似率を:記録手段—、表示-手段.、又:は通信手段に出力する機能と、

- を実現させることを特徴とする類似率算出プラ. Αο ·-

20 1 8 . 技術文献群を入力す：る技術献群 Λ.力手段と：、：キー.ヮ Π.ドな :·どの— 技術情報を入力する技術情報入ガ手段と、:技術精報群を-技術精報毎にクラスタ分解するクラスタ分解手段と、· .全クラスタ数—^混在クラスタ数 :: を算出して類似率を算出する類似率算出手段、算出した類似率を.出力- する出力手段と、前記技術文献群入力手段と—技術情:報入力-手段とラ

25 タ分解手段と類似率算出手段と出力手とを制御をするこ,:とが能よ情報処理手段とを備えた類似率算出装置:の情報処理手段に-て動作し、.技術文献群同士の技術的な類似性を判.断するため..の指標を算出する類似率算出プログラムであって、

前記情報処理手段に、 - 前記技術文献群入力手段が、比較対象となる第 1の技術文献群及び第. 2の技術文献群を入力する機能と、 .

前記技術情報入力手段が、キーワード J P Cなどの技術情報を入力する機能と、

前記クラスタ分解手段が、第: の技術文献群及び第 2の技術文献群に... 含まれる技術文献について、前記 ^力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれ技術情報毎にクラスタ分解する機能と、

前記類似率算出手段が、前記クラスタ分解 Lた結果得もれ tこ全ク.ラ. タ数と、第 1の技術文献群及び第 .2 .の技術文献群の方の技術文献 I：含む混在クラスタ数を算出すとと,もに、前記クラスタ分解レ結果得 - れた混在クラスタに含まれる第 1 ..技術文献.群及-び第 2の技術文献群 - の技術文献数の確率に応じて補正する.ために、第.1の技術；文献群の一中-から m個、第 2の技術文献の中から n個の技術文-献を：取り出す確率:の: γ-ノ乗（但し、 0く γ ) を規格化因子で除算レた補正値を各混在クラス .に.: ついて総和を算出し、前記算出レた全クラスタ数で除算して類似率を算出する機能と、 - 前記出力手段が、前記算出した類似率.を |5録手:段、：.表示手段、又は通信手段に出力する機能と、

を実現させることを特徴とする類似率算出プログラ。ノ -

1 9 . 請求の範囲 1 &に記載の類似率.算出プログラムにおいて、 · 前記情報処理手段に、

前記類似率算出手段が、前記規格化因：子として、第 1の技術文献群の— 中から m個、第' 2の技術文献群の中から. n'個の技術文献を取り出す勝率: . の最大値の γ乗（但し、 0ぐ. γ ) を用 Wる機能を実現させる Xと.を特徴. i とする類似率算出プログラム。 '

2 0 . 技術文献群を入力する技術文献群入力手段と、キーヮード¾ ^の技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と-混在クラスタ数とを算出して類似率を算出する類似率算出手段と、-算出した類似率を出力する出力手段と、前記技術文献群入力手段と技術情報入力手段とクラスタ分解手段と類似率算出手段と出力と:を制御.を.することが可能な情報処理手段とを備えた類似率算出装 «の情報処理手段にて動作し、技術文献群同士の技術的な類似性を-判.断す-るための指標を算出する類似率算出プログラムであって、

前記情報処理手段に、

前記技術文献群入力手段が、比較 ¾象となる第 1の技術文献群及び第 2の技術文献群を入力する機能と、

前記技術情報入力手段が.、キーヮ.一ドゃ I P §などの技術情報を入力する機能と、

前記クラスタ分解手段が、第 1の楚術文献群及び:第 2:の技術文献群に- 含まれる技術文献について、前記入力-レた技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にタラスタ分解する機能と、

前記類似率算出手段が、前記グラス:タ:分解レた結果得ら^た全クラスタ数と、第 1の技術文献群及び第 2-の技術.文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、第 I-の技術文献群に含まれ.る技術文献数 Mと第 2の技術文献群含まれる技術 ^献.黎との構成比、 N ZMと、前記クラスタ分解 Lた結得.られ^^在えぇス：タに含まれる.第 1の技術文献群の技術文献数 mと第^の ,術文献.群の技術文献錄 nの？ - 混在比、 n Zmとについて、更に構成 Jtと撣在とを取ったものの ζ乗（但し、 0く ζ ) に比例した補正 j直を各在グラスタについて総和を算出し、前記算出した全クラスタ数で除-算し ·,Τ類似.率を.算出す.る機能と、

前記出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する機能と、

を実現させることを特徴とする類似率算出プログラム。：

2 1 . 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力ま段と、技術情報群.を技術情報.毎：にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と; _;算出た類似率を出力する出力羊段と、前記技術文献群入力手段と：技術情報入力手段と:ク-ラス: タ分解手段と類似率算出手段と出力手段とを制御.をするとが可能な情報処理手段とを備えた類似率算出装置の情報処理手段にて動作し、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出プログラムであって、

前記情報処理手段に、

前記技術文献群入力手段が、比較対:象となる第— 1の技術文献群及び第 2の技術文献群を入力する機能と、

前記技術情報入力手段が、キーヮ一ドや I P Cな-どの：技術情:報:を入.力する機能と、

前記クラスタ分解手段が、第 1の技術文献-群及.び第 2·の技:術文:献群:に含まれる技術文献について、前記; λカレ .技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術:情報毎にクヲスタ分解する機能と、

前記類似率算出手段が、前記ク:ラスタ分解した結果得られた全グラスタ数と、第 1の技術文献群及び第 2.の S術文献群 __の ^方の技術文^衾む混在クラスタ数を算出するととも.に、：

第 1の技術文献群と第 2の技術文献群とを混合.した技術文献群の中から、第 1の技術文献群の技術文献を取り出す確率:に、前記ク.ラスタ解した混在クラスタに含まれる技術文献数を乗算して第 1の技術献群の技術文献を取り出す期待値を箕出レ、.

前記期待値と混合クラスタに含まれる第 1の技術文献群の技術文献数との差を期待値差として算出し、 - .

その期待値差を任意定数（但し、 - 1ぐの:負の—指数と-した補正値を各混在クラスタについて総和を算出し、前記算:出.し: fこ全クラスタ数で除算して類似率を算出する機能と、前記出力手段が、前記算出した類似率を記録手段、表示段'、又は:通信手段に出力する機能と、

を実現させることを特徴とす類似率算出プログ:ラム'。

2 2 . 技術文献群を入力する技術文.献群入手段と、 .キー 17 ドなどの. - 技術情報を入力する技術情報入力手段と技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段-ど、金グラスタ:数と混在グラス:タ数. を算出して類似率を算出する類似率算出段と、算出した類似率を出力する出力手段と、前記技術文献群「入力.手段-と技術情報-入力手段とクラスタ分解手段と類似率算出手段と出力手段とを制御:をすることが可能な情報処理手段とを備えた類似率算出装谭情報処理手段にて動作、..技術文献群同士の技術的な類似性を判断す.るた.め c 指標を算出す A類似率算出プログラムであって、

前記情報処理手段に、

• 前記技術文献群入力手段が—、比較対象と:なる第 1の技術文献群及び第 2の技術文献群を入力する機能とく- 前記技術情報入力手段が、キ .ワード:や I P:Cなどの技術情報:を入力 - する機能と、 - - ― 前記クラスタ.分解手段が、第 1の術^:献群及び第 2の技術文尊群に. 含まれる技術文献について、前記入力.„し技術情報を含む-抉術文献を検索して、該検索した技術文献やれぞれの技術情報毎 1こグラ^タ分解する機能と、

前記類似率算出手段が、前記クラス.ダ分解した結果得られた全ラスタ数と、第 1の技術文献群及び第 2の術^献群の双方の技術^献を含む混在クラスタ数を算出すると &もに、

第 1の技術文献群と第 2の技術文献群と-を混合した技術文献群の中から、第 1の技術文献群の技術文献を取:り出す確率に、前記 .ラスタ分解した混在クラスタに含まれる技術文献数を乗算して第 1の技術文献群の技術文献を取り出す期待値を算出し、 - 前記期待値と混合クラスタに含まれる第- 1の技術文献群の技術文献数との差を期待値差として算出し、 · . ·

その期待値差を混在クラスタに含まれる技術文献:数で除算したものを、任意定数 (但し、 1くの—食の指教と;:しニた補正値と.し、-—これ.を— 各混在クラスタについて総和を算出し、更に前記算出.した全クラスタ-数で除算して類似率を算出する機能と.、：

前記出力手段が、前記算出した類似率を記録手段 -表示手段は通. 信手段に出力する機能と、

を実現させることを.特徴とする類似-率算 -出プログラム。

2 3 . 技術文献群を入力する技術文献群—入力手:段..と—'、….キーヮ : Κなどの: 技術情報を入力する技術情報入力芋段と、技.術情報群.を技術情報きにラスタ分解するクラスタ分解手段と、全ク:ラスタ:数と混在クラスタ-数とを算出して類似率を算出する類似率算出手段と算出した類似率を出力する出力手段とを備えた類似率算出装置.を用½：て技 ^文献群同士の技術的な類似性を判断するための指標'を算出す類似率算出:方法—であ: '. て、

技術文献群入力手段が、比較対象と：なる第 1の皮術文献群及ぴ第 2-の技術文献群を入力する工程と、

技術情報入力手段が、キーワードや I P-Cな.どの技術情報を入力す. : 工程と、

クラスタ分解手段が、第.1の技術文献群及び第 2の技術文献群含まれる技術文献について、前記入力:した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎-に: ラ. タ分解するェ_: 程と、

類似率算出手段が、前記グラスタ分 J?した結果得一ら,.れた全ク.ラ.:スタ数と第 1の技術文献群及び第 2.の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、前記クラス」分解—.した結果得も.れた全クラスタ数と第 1の技術文献群及び第 2の技術文献群の双方.の技術文献を含む混在クラスタ数との比.を類似率として算出する.工程-と、: 出力手段が、前記算出した類似率-を記録手段.:、表示手段、又は通信手段に出力する工程と、

を含むことを特徴とする類似率算出方法

2 4 . 技術文献群を入力する技術文献群^力手段と、 'キーワードなどの.: 技術情報を入力する技術情報入力手段と-、 '技術情報群 _を技術情報每にクラスタ分解するクラスタ分解手段と V全.クラスタ数:と,混在クラスタ数と- を算出して類似率を算出する類似率算出手段:ど.、算出じた類似率を-出力する出力手段とを備えた類似率算出:装置を用いて、技:術文献群同士の技術的な類似性を判断するための指標を算出する類似率：算出方法でおつて、

技術文献群入力手段が、比較対象'ど-な:る第 1の技術文献群,及び第 2の技術文献群を入力する工程と、

技術情報入力手段が、キーワ^: や I P C:なの：技術情報を^カオる工程と、

クラスタ分解手段が、第 Ϊの技術文献'群及び第2.の技術文献群含ま. れる技術文献について、前記—入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎に -ラスタ分解るェ. 程と、

類似率算出手段が、前記クラスタ:分解した結果得ちれた.全クラスタ数ど、第 1の技術文献群及び第 2の.技術-文献群の双方の技術文献を贪む混在クラスタ数を算出するとともに、各 1在グラスタに含まれる技:術文献- の量に応じた値を取る第 1の補正値と'；：各混在クラスタに含まれる第: 1 の技術文献群の技術文献と第 2の技術文.献群の技術文献との混:ざり具合に応じた値を取る第 2の補正修とを乗算したものを各混在クラスタについて総和を算出し、前記算出し-た全クラスタ数で除算して類似率:を: 算出する工程と、

出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手.: 段に出力する工程と、

を含むことを特徴とする類似率算出方法。

2 5 . 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力.手段と'、- :技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ '数とを算出して類似率を算出する類似率算¾手段と、算出した類^率を.出 Λ する出力手段とを備えた類似率算出装置を用いで、技術文献群同,士の技術的な類似性を判断するための指標を算.出す:る類似率算出方法であつて、 - 技術文献群入力手段が、比較対象.となる第 1の技術文献群及び第 .の: 技術文献群を入力する工程と、

技術情報入力手段が、キーワードや I P Cなどの技術情報を入力する工程と、

クラスタ分解手段が、第 1の技術 ¾献:群及::び第 2 技術.文献群に含まれる技術文献について、.前記入力し技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの.技術情報毎にクラスタ分解するェ程と、

類似率算出手段が、前記ク..ラスタ分解し：た結果得られた全グラスタ数と第 1の技術文献群及び第 2の技術文献群方の技術文献を含む混在クラスタ数を算出するとともに.、..個々のクラスタ内の技術文献数の a 乗（但し、 0く c ) に比例した補正値を各混在クラスタ-に:.ついて総和お算出し、前記算出した全クラスタ—数で筒算レて類條率：を算出す—る工程.と出力手段が、前記算出した類似率を _記録手段、.表示手段、又は通信ま段に出力する工程と、

を含むことを特徴とする類似率算:出方法。'

2 6 . 技術.文献群を入力する技術文献群-入力手段..と、キー一ドなどの技術情報を入力する技術情報入力:手段 :、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全グラスタ数と混在クラスタ欽とを算出して類似率を算出する類似率-算出手段と、算出,した類似率を出力する出力手段とを備えた類似率算出装置を用いて、技術文献群同士:の技術的な類似性を判断するための指標を算出する類似率算出方法であつて、

技術文献群入力手段が、比較対象となる:第 1の技術文献群及び第: 2 技術文献群を入力する工程と、 — - 技術情報入力手段が、キーヮードゃ: I P Cなど—の技術情報を入力.す;る-: 工程と、

クラスタ分解手段が、第 1の技術文献群及び第 2の技術文献群に含まれる技術文献について、前記入力しだ技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術-情報毎にクラスタ分解するェ程と、

類似率算出手段が、前記クラスダ分解した結果得られた全クラスタ数と、第 1の技術文献群及び第 2の技術文献群双方の技術.文献を含む混' 在クラスタ数を算出するとともに、個々の:ク::ラスタ内の技術文献-数.の: α 乗（但し、 0 < α ) を規格化因子で除算した捕 Ε値を各混在クラ:スタについて総和を算出し、類似率を算- ¾iする工程と、

出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手 -段出力する工程と、

を含むことを特徴とする類似率算出方法。

2 7 . 請求の範囲 2 6に記載の類似率算出方法において、'：

前記類似率算出手段が、規格化因子じて、全ク.テスタ内の ¾ i文献数の平均値を用いる工程を含むことを特徴とする類似率算 ttj方法。

2 ,8 . 技術文献群を入力する技術文献群入力手段と、キーワードなど:の技術情報を入力する技術情報入力手段:と、技術情報群を技術情報毎にクラスダ分解するクラスタ分解手段と、 -クラタ数と混在クラスタ.数とを算出して類似率を算出する類似率算出手段.ど、算出.した類似率を出力する出力手段とを備えた類似率算出装置を用いて、技術文献群同士技術的な類似性を判断するための指標を算出する類似率算出方法であつて、 ——

技術文献群入力手段が、比較対象となる第 1 技術文献群及び第.2の技術文献群を入力する工程と、技術情報入力手段が、キーヮ一卞や I P Cなど-の技術情報を入力する工程と、 ―

クラスタ分解手段が、第 1の技術文献群及び第 2の技術文献群に含まれる技術文献について、前記入力し-た技術;情報を含む技術文献を検索:レて、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するェ程と、 · 類似率算出手段が、、前記クラスタ分解した結果得られた全クラスタ数と、第 1の技術文献群及び第 2の技術文献群の双方の技術文.献を,含む混在クラスタ数を算出するとともに、前記クラスタ分解した結果得られた混在クラスタに含まれる第 1 の技術文献群及び-第. 2の技術文献群技術文献数の確率に応じて補正するたに第技.術文献群中か'ら m: 個、第 2の技術文献群の中から ή個の _技術文献.を-取出す Jt率の. γ.乗（- 伹し、 0く γ ) に比例した補正値を各混在クラスタについて.総和を算出し、前記算出した全クラスタ数で除算して類倏率を算 ttfするェ -程と:、' ：出力手段が、前記算出した類似率を記録手段：表示手段、又:は通信手段に出力する工程と、

を含むことを特徴とする類似率算出-方法。

2 9 . 技術文献群を入力する技術文献群入力手段と、キワードな.ど技術情報を入力する技術情報入力手段と.、:技術-情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、—全クラスタ数と混在タ :ス：：タ数.とを算出して類似率を算出する類似率算出手段.お、 -算出した類似率を:出^/ する出力手段とを備えた類似率算出装置を.用いて、技術文献群同由の技術的な類似性を判断す-るため .指標を算出する類似率算出方法であつて、

技術文献群入力手段が、比較対象となる-第- 1の技術文献群及び第.— 2 技術文献群を入力する工程と、

技術情報入力手段が、-キーワ^卞ゃ I P Cなどの技術情報を入力する工程と、

クラスタ分解手段が、.第 1の技術文献群及び第 2 -の技術文献群に含まれる技術文献について、前記入力し:.た技術情報を含む技術文献を検索し ■ て、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するェ程と、

類似率算出手段が、前記クラスタ分解:した結果得られた全ダラスタ裁と、第 1の技術文献群及び第 ·2の技術文献群-の双方の技術文献を含む提 . 在クラスタ数を算出するとともに .前記クラスタ分解した結果得られた混在クラスタに含まれる第 1の技術文献群及ぴ第 2の技術文献群の技術文献数の確率.に応じて補正するために、第-.: Lの技術文献群の:中ら L 個、第 2の技術文献群の中から η.個の技術文献.を：取り出す確率の」乗- 但し、 0く γ ) を規格化因子で除算した補正値を各混在クラタについ. . て総和を算出し、前記算出した全クラ:ス；タ数:で除算じて類似率を算出する工程と、

出力手段が、前記算出した類似率を記録手段、表.示手段、又は通信手., 段に出力する工程、

を含むことを特徴とする類似率算出方法。 - 3 0 . 請求の範囲 2 9に記載の類似率算出;:方法において、 ― 前記類似率算出手段が、規格化因子: して、第 1.の技術文献群の:中力、. ら m個、第 2の技術文献群の中かち h個技術文献を取り出す確率の最大値の γ乗（但し、 0く γ ) を用いる: [： -程を含：こ—と _:を特微とする:類似 -—' 率算出方法。

3 1 . 技術文献群を入力する技術： ¾献群入力手段と.、.キー -ワードなの- 技術情報を入力する技術情報入力手:段と、—技術情報群を技術情報毎.にタ r ラスタ分解するクラスタ分解手段と、全クラタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段とを備えた類似率算出装置を用いて、 -技術文献群周.士の技. 術的な類似性を判断するための指標を算出する類似率算出方法であっ- て、

技術文献群入力手段が、比較対象となる第 1の技術文献群及び第 2の技術文献群を入力する工程と、技術情報入力手段が、キーヮード:や.1' :な:ど-の技術情報.を入力す-る工程と、

クラスタ分解手段が、第 1の技術文献群及び第 2の技術文献群に含まれる技術文献について、前記入力し;た.技術情報を含む技術文献を検索て、該検索した技術文献をそれぞれの技術情報毎にク ϊラスタ分解 :るェ程と、 ·

類似率算出手段が、前記クラスタ：分解 ^:した結果得られた全クラタ数と、第 1の技術文献群及び第 2の技術文献群:め双方の技術文献含.む混在クラスタ数を算出するどともに、,第, 1:'の技:術-文献群に含れる.技術文献数 Μと第 2の技術文献群に含まれる技術文献数 Νとの:構成比、- ΙΤ Μ と、前記クラスタ分解した結果得ちれた ϋ在クスタ:に含まれ-る第 1:の技術文献群の技術文献数 mと第— 2の.技術文献群の技術文献数 nの混在比、 n Zmとについて、更に構成比混在扰と ^比を取った- のの: ζ乗 (但し、 0 < ζ ) に比例した補正値-を各混在クラスタについて総和を算出し、前記算出した全グラスタ数で除算して類似率-を:算出す:る工程と.、出力手段が、前記算出した類似率を記録手段表示手段、:又は通信手段に出力する工程と、

を含むことを特徴とする類似率算：出方法。.

3 2 . 技術文献群を入力する技術: ¾献群 ^力殺と、:キーヮド: ¾ の技術情報を入力する技術情報入力手:段と:、.技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、.全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段とを備えた類似率算出装置を.用いて、技術文献群同由.の技術的な類似性を判断するための指標を算出する:類:似—率算出方法で-あて、

技術文献群入力手段が、比較対象となる第 Γ 技術文献群及び第 2 < 技術文献群を入力する工程と、

技術情報入力手段が、キーワードや I Cな'どの.技術情報を入力する工程と、クラスタ分解手段が、'第 1の技術文献群及び第 2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索じて、該検索した技術文献をそれぞれの技術情報'毎に'クラスタ分解するェ程と、

類似率算出手段が、前記クラスタ分解した結果得ちれた全グラスタ数と、第 1の技術文献群及び第 2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、

第 1の技術文献群と第 2の技術文献群と.を混合した技術文献群.の.中から、第 1の技術文献群の技術文献を取り出す確率に、前記クラスダ分- 解した混在クラスタに含まれる技術文献数を乗算じて第 1„の技術文献群の技術文献を取り出す期待値を.算出し:；

期待値と混合クラスタに含まれ-る第: 1 -の技術:文:献群の技術文献数ど' の差を期待値差として算出し、

その期待値差を任意定数 ξ (但し、- 1ぐ ') の負め.指数とした補正値を各混在クラスタについて総和を算出し、前記算出-した全 ^:クラスタ数で除算して類似率を算出する工程と、

出力手段が、前記算出した類似率を記録手段、— 表示手段、又は通信手段に出力する工程と、

を含むことを特徴とする類似率算-出方法 - 3 3 . 技術文献群を入力する技術文献群入'方手段と-; キー¹7 ドなど技術情報を入力する技術情報入力丰段と、技術情報群を技術情報毎にク- ラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段とを備えた類似率算出装置を用いて；技術文献群同 Φの技術的な類似性を判断するた-めの指標を算出する類似率算出方法であつて、

技術文献群入力手段が、比較対象となる第 1の技術文献群及び第 2の技術文献群を入力する工程と、

技術情報入力手段が、キーワードや I P Cな-どの技術情報を入力する工程と、

クラスタ分解手段が、第 1の技術文献群及び第 2の技術文献群に含まれる技術文献について、前記入力した技術情報—を含む技術文献を検索じて、該検索した技術文献をそれぞれ」の技術情報毎にクラスタ分解するェ程と、

類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第 1の技術文献群及び第 2の技術文献群の.双方の技術文献を含む混在クラスタ数を算出するとともに、.:

第 1の技術文献群と第 2の技術文献群-とを:混合じた技術文献群の.中から、第 1の技術文献群の技術文献を取-り出す確率に、前記クラタ分解した混在クラスタに含まれる技術; 5：献数を乗算して第 1 の技術文献群の技術文献を取り出す期待値を算出し、

期待値と混合クラスタに含まれる第 1の技術文献群の技術文献数との差を期待値差として算出し、

その期待値差を混在クラスタに含まれる技術文献数で除募したものを、任意定数 ξ (但し、 1くの負の指数とした補正値とし.、これを各混在クラスタについて総和を算出し、更に前記算出^ Lた全クラスタ数で除算して類似率を算出する工程と:、

出力手段が、—前記算出した類似率を:記録手段—、表示手段.、又.は通信手段に出力する工程と、

を含むことを特徴とする類似率-算出方法。