CN1856788A

CN1856788A - 类似率算出装置和类似率算出程序

Info

Publication number: CN1856788A
Application number: CNA2004800272246A
Authority: CN
Inventors: 增山博昭; 吉野令晃
Original assignee: Intellectual Property Bank Corp
Current assignee: Intellectual Property Bank Corp
Priority date: 2003-09-30
Filing date: 2004-03-29
Publication date: 2006-11-01
Also published as: RU2344474C2; AU2004277629A1; US20060294060A1; WO2005033972A1; KR20060079792A; EP1669889A1; JPWO2005033972A1; EP1669889A4; RU2006114689A; CA2540661A1; BRPI0415148A

Abstract

本发明目的在于提供一种算出用于判断由技术文献构成的技术文献群彼此的技术类似性的指标的类似率算出装置。因此具有：输入成为比较对象的第1技术文献群和第2技术文献群的技术文献群输入装置(365)；输入技术信息的技术信息输入装置(371)；对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇分解的簇分解装置(380)；算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数的比的类似率算出装置(380)；以及输出上述算出了的类似率的输出装置(365)。

Description

类似率算出装置和类似率算出程序

技术领域

本发明涉及比较技术文献群彼此而判断类似性的类似率算出装置和类似率算出程序。

背景技术

以前的专利图(パテントマツプ)是用专利文献对于相同或类似的研究开发题目的内容进行技术比较，可获知整体动向、分布。并且，经营者看着专利图，就可分析市场动向、技术动向、参入企业和竞争对手企业动向、前途等经营判断的要素。

还有，在专利图中，在需要以与A公司关联的技术文献A群和与B公司关联的技术文献B群进行宏观比较的场合，微观地比较从属于技术文献A群和技术文献B群的各个技术文献，从而宏观地导出技术文献群间的比较。

图19是表示一个个微观地比较技术文献A群中包含的技术文献和技术文献B群中包含的技术文献的以前的比较状况的图。

如图19所示，在把技术文献A群中记载的技术与比较对象的技术文献B群的技术进行比较的场合，以前是对于技术文献A群中包含的技术文献(专利公报、技报等)和技术文献B群中包含的技术文献(专利公报、技报等)的组合，一个个微观地进行比较，将其作为微观类似率而数值化，求出其平均、离散，从而作成2个技术文献群间的比较数值(例如，“专利图引导”，专利厅，参照平成14年8月4日检索，互联网<http://www5.ipdl.jpo.go.jp/pmgsl/pmgsl/pmgs>，以下称为非专利文献1)。

在特开2000-348015号公报中记载的知识财产评价装置等中记载了评价与申请中或登记后的发明等有关的知识财产的财产价值的知识财产评价装置，即具有以下装置的知识财产评价装置、知识财产评价方法等：输入与实施利润有关的数据的实施利润输入装置；输入与每年的复利现价率有关的数据的复利现价率输入装置；乘以与由上述实施利润输入装置输入了的每年的复利现价率有关的数据，算出每年的补偿金年额的复利现价率的复利现价算出装置；对于由上述复利现价算出装置算出了的每年的补偿金年额的复利现价，按各年进行合计，从而算出知识财产价额的知识财产价格算出装置；以及输出由上述知识财产价格算出装置算出了的知识财产价额的输出装置。

该知识财产评价装置等是对登记了的专利(特許)和与其关联的销售额、利润等进行减价折旧，以便把握现存的专利的资产价值的东西。另外，在该发明中，各专利的价值的评价是把分等级输入了本公司评价、其它公司评价等所得的东西作为贡献度来进行评价的，可算出未进行具体的实施权设定的知识财产的资产价值。

在特开2001-76042号公报中记载的系统等中，记载了根据具有规定的更新间隔的第1数据和更新间隔比该第1数据短的第2数据来评价会随时间而变动的评价项目的系统，即，具有以下装置的用于评价会随时间而变动的评价对象的评价项目的系统、方法和记录介质：(a)按照取样对象的第1数据的输入，作成第1评价模型的装置；(b)对第1评价模型适用上述取样对象的第1数据，算出第1评价输出的装置；(c)按照取样对象的第2数据和第1评价输出的输入，作成第2评价模型的装置；(d)按照评价对象的第1数据的输入，对第1评价模型适用该第1数据，算出第2评价输出的装置；以及(e)对第2评价模型适用上述评价对象的第2数据和上述第2评价输出，算出该评价对象的评价输出的装置。

在该系统中，可对于像来自每1年单位和季度单位进行更新的租赁对照表、损益计算书等的财务数据等那样，进行根据更新间隔比较长的第1数据来算出的分等级数据、破产概率等企业评价的模型(静态模型)和基于像每天变动的股票价格或利息、汇兑等那样更新间隔比较短的第2数据的输入来预测此后的变化，动态地进行企业评价的模型(动态模型)2个评价模型，适用评价对象的企业数据，算出适时、最新的企业评价。

还有，在特开平8-287081号公报、特开2001-337992号公报、特开平10-74205号公报、特开平8-278982号公报、特开平11-73415号公报和特开2001-331527号公报中，介绍了在检索与某文件或文章类似的内容的文件或文章时，文件或文章彼此的类似度或可信性高，可高精度地检索类似文件的类似文件检索装置或类似检索系统等。

发明内容

然而，在非专利文献1中记载的专利图或特开平8-287081号公报、特开2001-337992号公报、特开平10-74205号公报、特开平8-278982号公报、特开平11-73415号公报和特开2001-331527号公报中记载的发明中，例如，即使要求在与A公司关联的技术文献A群和与B公司关联的技术文献B群之间对技术文献中记载的内容进行宏观比较，以前也是对从属于技术文献A群和技术文献B群的各个技术文献彼此一个个进行微观比较，根据其多个运算结果来导出宏观技术文献群间的比较，因而工作效率差，这是存在的问题。

还有，在非专利文献1中记载的专利图中，可按技术比较中相同或类似的研究开发题目的内容，获知整体动向或分布，不过，不能在企业间算出把企业整体的总技术文献作为母集团的各技术的相对的评价，因而作为无形资产的价值评价手法，不能获得定量、定性的结果，不能算出成为信托或投资的评价的对象、企业的专利战略的决定因素的技术评价的指标，这是存在的问题。

还有，如果采用对该微观类似率进行平均的计算方法的话，例如在图19所示的场合，在技术文献群A和技术文献B群完全不同的场合，类似率算出为0。还有，以全部组合求出的平均的类似率也为0，因而看起来好象没有问题。

然而，即使在第1技术文献群和第2技术文献群完全相同的场合，对于第1技术文献群中包含的技术文献A1，求出第2技术文献群中包含的技术文献B1、B2、B3、B4的微观类似率的话，在2个技术文献完全相同的场合(A1＝B1等)，算出A1和B1的类似率为1，不过，在此外的场合，一般而言类似率不为1。以再对A1以外的A2、A3、A4等的所有组合求出的平均类似率为1及其以下的数值的平均，因而类似率还是不会算出为1，这是存在的问题。

还有，像在技术文献的总数为数万件以上的场合那样，对于大量的技术文献彼此算出类似率时，需要对于所有技术文献的组合计算类似率，因而在算出类似率时的计算量庞大，需要大量计算时间，不能快速地显示类似率的计算结果，这是存在的问题。

还有，在像以前那样算出类似率时，用关键字切分调查对象和母集团的技术文献，运算包含各个关键字的技术文献的数量和技术文献的总数的比率，对于与所有关键字有关而运算出的比率进行平均，算出类似率的方法中，不进行与关键字的重要性对应的加权的话，算出的类似率和实际感觉的类似率的差就会很大，这是存在的问题。

在用该加权了的关键字来算出类似率时，对于全关键字，操作者可进行加权，作成同义词词典，基于其加权而算出类似率。这在理论上是可能的，不过，实际上对庞大的量的关键字分别加权是相当麻烦的工作(极难的工作)，不适于处理的自动化。还有，对于每个技术文献算出类似率这一点没有变化，因而结果仍然是微观地比较技术文献彼此，这是存在的问题。

还有，在非专利文献1中记载的专利图中，专利图作成支援软件的价格是约15万～50万日元的程度，其操作不仅需要计算机，而且需要诸如读取权利要求、附图等的高度技术力和知识力。即使在专利调查机关委托的场合，每1件也需要30万日元以上的费用，并且需要约1个月以上的作成时间。

因此，在资本金或开发费少的风险型企业等利用的场合，或是急于申请的场合，专利图的利用估计会受到制约。

还有，在以前的知识财产评价装置等中，难以在着手产品等的研究开发前，广泛收集从过去到最近的信息，进行其它竞争公司的技术动向的分析、把握技术水平的技术动向调查等调查，这是存在的问题。

近几年，随着无形资产(インタンジブルアセツト)在企业价值中占的比例变大，无形资产的价值能大大左右企业价值。

因此，信托公司对信托的对象，投资家对投资的对象，企业对应该重视从知识财产产生的利润的专利战略的动向的对象，分别都有使用无形财产作为指标的倾向。

可是，以前不存在为了投资参考，用技术文献普遍来比较企业保有的无形财产的恰当指标。

特别是对于幸存下来的企业经营，在着手于新规章事业参入或新产品的开发的前阶段，用于探讨是不是投入开发费的有价值的技术领域，提出专利申请是不是有价值，是不是要提出申请审查的请求，是不是有授权的可能性，进行许可交涉是不是利润率高等专利战略的指标的存在就变得非常重要。

对此，本发明鉴于上述现有状况，目的在于提供一种用于算出在企业间比较不被专利公报等限定的广泛的技术文献群彼此，算出与人的感觉一致的恰当的类似率，从而可评价定量、定性且相对的无形资产的价值的指标的类似率算出装置、类似率算出程序和类似率算出方法。

还有，本发明的目的在于提供一种可只在第1技术文献群和第2技术文献群完全不同时类似率算出为0，并且只在第1技术文献群和第2技术文献群相同时类似率算出为1的装置，即不需要花大量时间进行计算，因参入分析者的意志而算出的类似率的值变化的可能性小，可在第1技术文献群和第2技术文献群之间算出宏观类似性的比较结果的类似率算出装置、类似率算出程序和类似率算出方法。

还有，本发明的目的在于提供一种在进行比较的技术文献的总数为数万件以上的场合，也可以比较短的计算时间算出类似率的类似率算出装置、类似率算出程序和类似率算出方法。

还有，本发明的目的在于提供一种可宏观比较技术文献群彼此的类似率算出装置、类似率算出程序和类似率算出方法。

还有，本发明的目的在于提供一种可使要求根据无形财产来看清企业价值的的投资家等或一般运作者也容易对待的类似率算出装置、类似率算出程序和类似率算出方法。

为了解决上述课题，本发明是算出用于判断由专利文献或技报等技术文献构成的第1技术文献群和第2技术文献群的技术类似性的指标的类似率算出装置，其特征在于具有：输入成为比较对象的第1技术文献群和第2技术文献群的技术文献群输入装置；输入关键字、IPC等技术信息的技术信息输入装置；对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇(クラスタ)分解的簇分解装置；把上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数的比作为类似率而算出的类似率算出装置；以及把上述算出了的类似率向记录装置、显示装置或通信装置输出的输出装置。

还有，为了解决上述课题，本发明的其特征在于具有：输入成为比较对象的第1技术文献群和第2技术文献群的技术文献群输入装置；输入关键字、IPC等技术信息的技术信息输入装置；对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇分解的簇分解装置；算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且把取与各混合簇中包含的技术文献的量对应的值的第1补正值和取与各混合簇中包含的第1技术文献群的技术文献和第2技术文献群的技术文献的掺混情形对应的值的第2补正值相乘所得的东西对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及把上述算出了的类似率向记录装置、显示装置或通信装置输出的输出装置。

还有，为了解决上述课题，本发明的其特征在于具有：输入成为比较对象的第1技术文献群和第2技术文献群的技术文献群输入装置；输入关键字、IPC等技术信息的技术信息输入装置；对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇分解的簇分解装置；算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且把与各个簇内的技术文献数的α次幂(此处，0＜α)成比例的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及把上述算出了的类似率向记录装置、显示装置或通信装置输出的输出装置。

还有，为了解决上述课题，本发明的其特征在于具有：输入成为比较对象的第1技术文献群和第2技术文献群的技术文献群输入装置；输入关键字、IPC等技术信息的技术信息输入装置；对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇分解的簇分解装置；算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且把将各个簇内的技术文献数的α次幂(此处，0＜α)除以全簇内的技术文献数的平均值等归一化因子所得的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及把上述算出了的类似率向记录装置、显示装置或通信装置输出的输出装置。

还有，为了解决上述课题，本发明的其特征在于具有：输入成为比较对象的第1技术文献群和第2技术文献群的技术文献群输入装置；输入关键字、IPC等技术信息的技术信息输入装置；对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇分解的簇分解装置；算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且为了按照上述簇分解的结果所获得的混合簇中包含的第1技术文献群和第2技术文献群的技术文献数的概率进行补正，把与从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的γ次幂(此处，0＜γ成比例的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及把上述算出了的类似率向记录装置、显示装置或通信装置输出的输出装置。

还有，为了解决上述课题，本发明的其特征在于具有：输入成为比较对象的第1技术文献群和第2技术文献群的技术文献群输入装置；输入关键字、IPC等技术信息的技术信息输入装置；对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇分解的簇分解装置；算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且为了按照上述簇分解的结果所获得的混合簇中包含的第1技术文献群和第2技术文献群的技术文献数的概率进行补正，把将从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的γ次幂(此处，0＜γ)除以归一化因子所得的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及把上述算出了的类似率向记录装置、显示装置或通信装置输出的输出装置。还有，本发明的特征在于，上述归一化因子为从第1技术文献群中取出m个，从第2技术文献群中取出n个的技术文献的概率的最大值的γ次幂(此处，0＜γ)。

还有，为了解决上述课题，本发明的其特征在于具有：输入成为比较对象的第1技术文献群和第2技术文献群的技术文献群输入装置；输入关键字、IPC等技术信息的技术信息输入装置；对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇分解的簇分解装置；算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且对于第1技术文献群中包含的技术文献数M和第2技术文献群中包含的技术文献数N的构成比N/M和上述簇分解的结果所获得的混合簇中包含的第1技术文献群的技术文献数m和第2技术文献群的技术文献数n的混合比n/m，再把与取得了构成比和混合比的比的东西的ζ次幂(此处，0＜ζ)成比例的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及把上述算出了的类似率向记录装置、显示装置或通信装置输出的输出装置。

还有，为了解决上述课题，本发明的其特征在于具有：输入成为比较对象的第1技术文献群和第2技术文献群的技术文献群输入装置；输入关键字、IPC等技术信息的技术信息输入装置；对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇分解的簇分解装置；算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且对从混合了第1技术文献群和第2技术文献群的技术文献群中取出第1技术文献群的技术文献的概率乘以上述簇分解了的混合簇中包含的技术文献数，算出取出第1技术文献群的技术文献的期望值，作为期望值差而算出上述期望值和混合簇中包含的第1技术文献群的技术文献数的差，把将该期望值差作为任意常数ξ(此处，1＜ξ)的负的指数所得的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及把上述算出了的类似率向记录装置、显示装置或通信装置输出的输出装置。

还有，为了解决上述课题，本发明的其特征在于具有：输入成为比较对象的第1技术文献群和第2技术文献群的技术文献群输入装置；输入关键字、IPC等技术信息的技术信息输入装置；对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇分解的簇分解装置；算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且对从混合了第1技术文献群和第2技术文献群的技术文献群中取出第1技术文献群的技术文献的概率乘以上述簇分解了的混合簇中包含的技术文献数，算出取出第1技术文献群的技术文献的期望值，作为期望值差而算出上述期望值和混合簇中包含的第1技术文献群的技术文献数的差，把该期望值差除以混合簇中包含的技术文献数，把所得的东西作为任意常数ξ(此处，1＜ξ)的负的指数而得到补正值，将其对于各混合簇算出总和，再除以上述算出了的全簇数，算出类似率的类似率算出装置；以及把上述算出了的类似率向记录装置、显示装置或通信装置输出的输出装置。

根据本发明，它是算出用于判断由专利文献或技报等技术文献构成的第1技术文献群和第2技术文献群的技术类似性的指标的类似率算出装置，具有：输入成为比较对象的第1技术文献群和第2技术文献群的技术文献群输入装置；输入关键字、IPC等技术信息的技术信息输入装置；对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇分解的簇分解装置；把上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数的比作为类似率而算出的类似率算出装置；以及把上述算出了的类似率向记录装置、显示装置或通信装置输出的输出装置，因而可基于该分解了的全簇数和混合簇数的比，简便地算出表示技术文献群中记载的技术内容的类似性的指标。

还有，根据本发明，设置了使类似率算出装置把取与各混合簇中包含的技术文献的量对应的值的第1补正值和取与各混合簇中包含的第1技术文献群的技术文献和第2技术文献群的技术文献的掺混情形对应的值的第2补正值相乘所得的东西对于各混合簇算出总和，除以全簇数，算出类似率的功能，因而由于补正项1的存在，按照混合簇中包含的技术文献的量，具有重要度高的意义的补正就成为可能，并且由于补正项2的存在，混合簇中包含的技术文献的比例越接近规定的量，就越作为重要的簇，可进行重加权而使类似率表示高的值，进行补正而使类似率的算出结果更合乎人的感觉。

因此，用补正项1和补正项2算出类似率，就可重视技术文献数量多的混合簇来补正类似率，并且在技术文献的掺混情形不均匀的场合，把类似率补正为小的值。

还有，根据本发明，设置了使类似率算出装置把与各个簇内的技术文献数的α次幂(此处，0＜α)成比例的补正值对于各混合簇算出总和，除以全簇数，算出类似率的功能，因而可算出簇内的技术文献数越多就越是重要的簇这样的类似率。

还有，根据本发明，设置了使类似率算出装置把将各个簇内的技术文献数的α次幂(此处，0＜α)除以全簇数等归一化因子，算出类似率的功能，因而可保证0≤类似率≤1。还有，作为归一化因子，配置了全簇内的技术文献数的平均值，因而可把全簇内的技术文献数的平均值作为基准而算出技术文献的量的多少。

还有，根据本发明，设置了使类似率算出装置把与从第1技术文献群中取出m个，从第2技术文献群中取出n个的技术文献的概率的γ次幂(此处，0＜γ)成比例的补正值对于各混合簇算出总和，除以全簇数，算出类似率的功能。即，使类似率算出装置具有进行把(从A群中取出m个，从B群中取出n个技术文献的组合的数)/(从混合了A群和B群所得的东西中取出m+n个技术文献的组合数)配置为分子的运算的功能，因而可按照混合簇中包含的A群和B群的技术文献数的偏倾(人为性(作為性))，在偏倾大的场合按小的补正值，在偏倾小的场合按大的补正值来补正类似率。还有，作为归一化因子，配置了从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的最大值的γ次幂(此处，0＜γ)，因而作为类似率的算出范围，可保证0≤类似率≤1。

还有，根据本发明，使类似率算出装置具有对于第1技术文献群中包含的技术文献数M和第2技术文献群中包含的技术文献数N的构成比N/M和上述簇分解的结果所获得的混合簇中包含的第1技术文献群的技术文献数m和第2技术文献群的技术文献数n的混合比n/m，再把与取得了构成比和混合比的比的东西的ζ次幂(此处，0＜ζ)成比例的补正值对于各混合簇算出总和，除以全簇数，算出类似率的功能，因而A群和B群的技术文献数量的构成比和各簇内的技术文献彼此的混合比越是相同，类似率就可算出得越高(接近1)。

还有，把构成比和混合比的比的指数ζ设定为ζ＞1，就可使A群和B群的技术文献数量的构成比和各簇内的技术文献彼此的混合比的比小的混合簇的影响不会很大地反映在类似率的算出结果上。

还有，把指数ζ设定为ζ＝1，就可单纯按照A群和B群的技术文献数量的构成比和各簇内的技术文献彼此的混合比的比而使类似率增减。

还有，把分子的指数设定为0＜ζ＜1，就可在A群和B群的技术文献数量的构成比和各簇内的技术文献彼此的混合比的比大的场合，减小对类似率的算出结果的影响。

还有，根据本发明，使类似率算出装置对从混合了第1技术文献群和第2技术文献群的技术文献群中取出第1技术文献群的技术文献的概率乘以上述簇分解了的混合簇中包含的技术文献数，算出取出第1技术文献群的技术文献的期望值，作为期望值差而算出上述期望值和混合簇中包含的第1技术文献群的技术文献数的差，把将该期望值差作为任意常数ξ(此处，1＜ξ)的负的指数所得的补正值对于各混合簇算出总和，除以全簇数，算出类似率，因而可按照ξ的值的设定，进行使类似率的算出结果对期望值差敏感地反映的补正。

还有，根据本发明，使类似率算出装置对从混合了第1技术文献群和第2技术文献群的技术文献群中取出第1技术文献群的技术文献的概率乘以上述簇分解了的混合簇中包含的技术文献数，算出取出第1技术文献群的技术文献的期望值，作为期望值差而算出上述期望值和混合簇中包含的第1技术文献群的技术文献数的差，把该期望值差除以混合簇中包含的技术文献数，把所得的东西作为任意常数ξ(此处，1＜ξ)的负的指数而得到补正值，将其对于各混合簇算出总和，再除以全簇数，算出类似率，因而可按照ξ的值的设定，进行使类似率的算出结果对期望值差敏感地反映的补正。

附图说明

图1是本发明所涉及的类似率算出系统的整体构成图。

图2是本发明所涉及的类似率算出装置的框图。

图3是表示技术文献A群和技术文献B群中包含的技术文献的构成的图。

图4是表示类似率的显示处理的流程图。

图5是表示用于类似率算出的输入画面的显示例的图。

图6是表示向利用者通知算出了的类似率的类似率显示画面的显示例的图。

图7是表示采用本发明所涉及的类似率算出装置来簇分解技术文献群之后的各簇的构成的图。

图8是表示类似率的算出处理的流程图。

图9是表示类似率的计算中使用的设定条件的图表。

图10是表示混合簇1中包含很多技术文献的状况的图。

图11是在采用了补正项1(1)的场合的类似率算出例的图表。

图12是在采用了补正项2(1)的场合的类似率算出例的图表。

图13是在采用了补正项1(1)和补正项2(1)两者的类似率算出例的图表。

图14是在采用了补正项2(2)的场合的类似率算出例的图表。

图15是在采用了补正项1(1)和补正项2(2)的场合的类似率算出例的图表。

图16是表示在(式31)中代入了条件1～4的场合的期望值差的算出例的图表。

图17是在ξ＝10的场合，在(式32)中代入了条件1～4的场合的类似率算出例的图表。

图18是在采用了补正项1(1)和补正项2(3)的场合的类似率算出例的图表。

图19是表示一个个微观地比较技术文献A群中包含的技术文献和技术文献B群中包含的技术文献的以前的状况的图。

具体实施方式

图1是本发明所涉及的类似率算出系统的整体构成图。

如同图所示，本发明所涉及的类似率算出系统设置了：从技术文献数据库20中，通过通信网10，读出类似率的算出所必要的技术文献，算出、显示类似率的类似率算出装置30；以及通过通信网10来记录包含各公司的技报、申请完毕的专利公报、实用新型公报等专利文献的技术文献的技术文献数据库20。

通信网10是互联网等通信网，类似率算出装置30可通过通信网10从技术文献数据库20中取得与专利文献等技术文献有关的信息。

类似率算出装置30可由利用者输入与比较对象的技术文献群有关的信息、文献彼此的比较条件，从技术文献数据库20中，通过通信网10，读出类似率的算出所必要的技术文献，算出、显示类似率。

图2是本发明所涉及的类似率算出装置的框图。

如同图所示，类似率算出装置30的信息发送接收部中设有通过公共线路或通信网络等通信网364而与技术文献数据库20等其它通信设备进行信息的发送接收的发送接收装置365(可以是包含技术文献群输入装置、技术信息输入装置或输出装置的功能的东西)。

发送接收装置365可从技术文献数据库20中，通过通信网10，取得类似率的算出所必要的技术文献。

还有，类似率算出装置30中可设置由利用者输入与比较对象的技术文献群有关的信息、文献彼此的比较条件的键盘、鼠标等输入装置370(可以是包含技术信息输入装置的功能的东西)。

还有，类似率算出装置30中还设有：读取通过输入装置370而输入了的各种信息，将其传递给后述的信息处理装置380，或者基于来自信息处理装置380的指示，向LED等输出显示指令的输入接口371(可以是包含技术信息输入装置的功能的东西)；显示图像、文字等信息的显示装置372(可以是包含输出装置的功能的东西)；以及基于信息处理装置380的指令，向显示装置372输出显示用的图像信号的显示接口373(可以是包含输出装置的功能的东西)。另外，输入装置370不限于键盘、鼠标，也可以是包括书写板等输入单元的东西。

还有，类似率算出装置30中还设有：可拆装地安装记录介质377的记录介质安装部378；以及对记录介质377记录、读出各种信息的记录介质接口379(可以是包含技术文献群输入装置、技术信息输入装置或输出装置的功能的东西)。另外，记录介质377是存储卡等半导体或MO、磁盘等所代表的磁记录式、光记录式等可拆装的记录介质。

还有，类似率算出装置30中还设有：进行类似率算出装置30的整体的控制的信息处理装置380；以及由记录了信息处理装置380执行的程序、各种常数的ROM、成为信息处理装置380执行处理时的作业区域的记录装置即RAM构成的存储器381。

还有，信息处理装置380(簇分解装置或类似率算出装置)可实现由利用者输入与比较对象的技术文献群有关的信息、文献彼此的比较条件，从技术文献数据库20中取得类似率的算出所必要的技术文献，基于记录装置384中记录的类似率的运算程序、类似率的算出处理程序，算出技术文献彼此的类似率的功能。还有，可实现在显示装置372上显示类似率的算出结果的功能。

另外，信息处理装置380(簇分解装置)可实现把文件内的由权利要求项、发明的详细说明、附图说明、摘要等中包含的词语(单词、复合词、名词、动词、助动词、形容词、副词、助词等)构成的文字分开，按1字、2字等机械地切出而检索技术文献，按各个技术信息来簇分解该检索出的技术文献的功能。

还有，信息处理装置380(簇分解装置)可实现采用书志事项等中包含的项目(IPC等分类、申请日、申请号、申请人名、发明者、审查请求的有无、补正的有无、国内优先的有无、外国申请的有无、拒绝理由的有无、登记日、登记号等等)来进行簇分解的功能。

还有，信息处理装置380(类似率算出装置)可实现算出簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数的比等，算出技术文献群彼此的类似率的功能。

不是使信息处理装置380执行所有这些处理，而是使多个处理装置分担执行，也可达到本发明的目的。

还有，类似率算出装置30中还设有：可记录与类似率算出装置30的处理有关的各种常数及与网络上的通信设备通信连接时的属性信息、URL(Uniform Resource Locators)、网关信息、DNS(Domain NameSystem)等连接信息、与企业的经营有关的信息、与专利有关的信息、专利文献、技报、关键字、技术信息等各种信息的硬盘等记录装置384；进行读出记录装置384中记录的信息，对记录装置384写入信息的处理的记录装置接口385(可以是包含技术文献群输入装置、技术信息输入装置或输出装置的功能的东西)；以及表示时刻的日历钟390。

类似率算出装置30内的信息处理装置380和包括显示接口373、存储器381、记录装置接口385、日历钟390等的各周边电路以总线399连接，可实现基于由信息处理装置380执行的处理程序来控制各个周边电路的功能。

上述发送接收装置365、记录介质接口379、记录装置接口385等技术信息输入装置可输入成为比较对象的第1技术文献群和第2技术文献群。

上述发送接收装置365、输入装置370、输入接口371、记录介质接口379、记录装置接口385等技术信息输入装置可输入关键字、IPC等技术信息。

上述发送接收装置365、显示接口373、记录装置接口385、记录介质接口379、打印机接口等输出装置可向记录装置、显示装置或通信装置输出由类似率算出装置算出了的类似率。

也可以考虑图1所示的数据库20存储在记录装置384中的场合，或者由CD-ROM、CD-RW、DVD、MO等存储介质377提供的场合，或者通过通信网364从其它通信设备取得的场合。

还有，上述类似率算出装置30可以利用个人电脑、工作站等各种计算机来实现。再有，也可以用网络连接计算机，分散功能来实施。

由本发明所涉及的类似率算出装置和类似率算出程序算出的技术文献的类似率是指基于规定的关键字、IPC等而宏观比较了第1技术文献群(技术文献A群)和另外的第2技术文献群(技术文献B群)时所算出的数值，即是指用于表示技术文献群彼此在什么程度上有技术关联的指标的数值。

并且，第1技术文献群(技术文献A群)和第2技术文献群(技术文献B群)是具有某种属性的技术文献的集合。

在本发明中，可算出定性地评价A公司申请了的专利公报、A公司发行了的技报等的第1技术文献群(技术文献A群)中记载了的技术内容和B公司申请了的专利公报、B公司发行了的技报等的第2技术文献群(技术文献B群)中记载了的技术内容如何类似的作为指标的数值，从而容易地比较技术文献彼此。

在以下中说明的实施例中，定义为第1技术文献群(技术文献A群)和第2技术文献群(技术文献B群)中记载了的技术内容越类似，类似率就取越大的值。

另外，在本发明中，使得类似率能取的范围为0≤类似率≤1而进行运算，从而即使在算出类似率时设定了不同条件的场合，也可直接比较在第1技术文献群(技术文献A群)和第2技术文献群(技术文献B群)之间算出了的类似率和在第3技术文献群(技术文献C群)和第4技术文献群(技术文献D群)之间算出了的类似率，不过，类似率能取的范围不限于该范围。

如同图所示，技术文献A群由A1、A2、A3、…AM的M个技术文献构成，技术文献B群由B1、B2、B3、…BN的N个技术文献构成。

图4是表示类似率的显示处理的流程图。

如同图所示，在利用者比较技术文献群彼此，调查技术内容类似的程度的场合，在S10「类似率算出指示输入」(以下像S10那样省略记载)中，操纵类似率算出装置30的键盘、鼠标等输入装置370而输入类似率算出指示，使之实施以后的处理。

类似率算出装置30在S100「输入画面读出·显示」中，基于类似率算出指示，从记录装置384中读出与类似率算出有关的各种条件的输入画面的显示信息，在显示装置372上显示基于该显示信息的类似率算出所必要的条件的输入画面。

图5是表示用于类似率算出的输入画面的显示例的图。

如同图所示，在输入画面上显示指定成为比较对象的第1技术文献群和第2技术文献群的抽取条件的信息和指定关键字、IPC等技术信息的意思的信息。利用者可基于显示画面而输入诸事项。

在输入簇分解的条件的部分，可输入专利公报、技报等对象文献的指定，或仅全文、权利要求项部分等对象部分的设定，或IPC、关键字等簇分解的尺度等各种条件。再有，作为技术文献群的抽取条件，显示输入专利公报的申请日的期间、业界名称、原出处的企业名、个人名等项目。利用者可基于图5所示的输入画面，容易地输入类似率的算出条件，从预先设置的多个算出条件中选择希望的算出条件。

还有，在图5中设置了用于按照类似率的算出用途来补正混合簇比的输入补正方法的部分。

例如作为补正项1，利用者可基于与各混合簇中包含的技术文献的量对应的值，输入是否补正类似率的补正条件。

还有，作为补正项2，利用者可基于与各混合簇中包含的第1技术文献群的技术文献和第2技术文献群的技术文献的掺混情形对应的值，输入是否补正类似率的补正条件。

另外，在本发明中，作为与该技术文献的掺混情形对应的补正方法，可选择对应于把与从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的γ次幂(此处，0＜γ)成比例的补正值对于各混合簇算出总和，将其除以全簇数，进行类似率的补正等的「技术文献数的概率」的补正方法。

还有，在本发明中，可选择对应于对于第1技术文献群中包含的技术文献数M和第2技术文献群中包含的技术文献数N的构成比N/M和上述簇分解的结果所获得的混合簇中包含的第1技术文献群的技术文献数m和第2技术文献群的技术文献数n的混合比n/m，再把与取得了构成比和混合比的比的东西的ζ次幂(此处，0＜ζ)成比例的补正值对于各混合簇算出总和，将其除以全簇数，进行类似率的补正等的「技术文献的混合比」的补正方法。

还有，在本发明中，可选择对应于对从混合了第1技术文献群和第2技术文献群的技术文献群中取出第1技术文献群的技术文献的概率乘以上述簇分解了的混合簇中包含的技术文献数，算出取出第1技术文献群的技术文献的期望值，作为期望值差而算出上述期望值和混合簇中包含的第1技术文献群的技术文献数的差，把将该期望值差作为任意常数ξ(此处，1＜ξ)的负的指数所得的补正值对于各混合簇算出总和，将其除以全簇数，进行类似率的补正等的「技术文献的期望值差」的补正方法。

在图4所示的S12「类似率算出条件输入」中，利用者基于显示装置上显示的向导，在实施专利文献、技报、公司报、技术论文等技术文献类别或进行比较的技术文献群的指定、簇分解时，通过输入装置370而输入成为从技术文献群中抽取技术文献的条件的IPC或关键字等，以及在算出类似率时的与目的对应的补正信息。

在S102「技术文献取得」中，信息处理装置380基于由利用者输入了的技术文献类别(例如专利文献)来给定进行检索的数据库，向给定的数据库输出基于由利用者输入了的技术文献群(例如A公司的技术文献A群和B公司的技术文献B群)的指定的技术文献群的取得信息。

在S130「技术文献读出」中，技术文献数据库20基于从类似率算出装置30取得了的技术文献类别和技术文献群等，检索数据库内，读出技术文献，向类似率算出装置30发送。

在S104 「类似率算出处理」中，类似率算出装置30进行从数据库20中取得了的技术文献群(例如A公司的技术文献A群和B公司的技术文献B群)中，选出共同含有利用者指定的IPC、关键字的技术文献，按簇进行分解的处理。

簇分解的结果，把属于技术文献A群的技术文献和属于技术文献B群的技术文献混合了的簇定义为混合簇。在本发明中，基于全簇中的混合簇存在的比例来算出类似率。

还有，可按照类似率的用途，进行与混合簇中包含的技术文献的数量及混合概率、混合比率或它们的组合对应的补正。

在S106「类似率显示处理」中，类似率算出装置30在显示装置372上显示算出了的类似率，通知利用者。另外，在S106中也可以不在显示装置372上显示类似率，而是把算出了的类似率365通过通信网10向其它通信设备发送输出，也可以通过记录装置接口385在记录装置384上记录输出，也可以通过记录介质接口379在记录介质377上记录输出。还有，也可以通过印刷用的打印机接口(未图示)向印刷装置输出算出了的类似率。

图6是表示向利用者通知类似率算出装置30算出了的类似率的类似率显示画面的显示例的图。

如同图所示，在类似率显示画面上，为了确认而显示抽取指定利用者输入了的技术文献群的信息和在簇分解了关键字、IPC等技术信息时的尺度、补正方法等输入信息。

还有，在类似率显示画面上，作为补正项3，可使利用者关注例如在簇分解了时的规定的专利分类、关键字，按簇输入用于进行恣意加权的补正条件。在同图所示的例子中，作为补正项3的数值，设定为「1.000」。

还有，在类似率显示画面上，设有显示类似率的算出结果，用于补正该类似率的连续变更α、γ、ζ、ξ等类似率算出条件的滑杆(スライドバ一)，以及为了确认各簇的补正项而分解了的簇的内容的部分。

利用者可一边看着算出了的类似率，一边自由变更类似率的算出条件。在利用者操纵了滑杆的场合，信息处理装置380基于日历钟390给出的时间来判断滑杆的操作完成。于是，信息处理装置380实施的处理向S104分歧，再次算出类似率，进行在类似率显示画面上显示类似率的运算结果的处理。

在图4所示的S14「结束」、S108「结束」和S140「结束」时，类似率算出处理即告结束。

本发明中的技术文献的簇分解是指在算出用于宏观比较第1技术文献群(A群)和第2技术文献群(B群)的「类似率」时，用关键字、IPC等对技术文献进行分类。

粗看在创造本发明时比较的2个技术文献群时，2个技术文献群是分开的，计算非常复杂，不过，如果把2个「掺混」起来进行整理整顿的话，计算就变得容易了，于是发现「掺混」方案果然适合类似率的算出。可以看出，掺混了双方的技术文献群之后，在通过簇分解而分类了时，在一部分中有包含双方的技术文献群的构成要素(技术文献)的簇(混合簇)存在，混合簇对该分解了的全簇数的比例接近作为我们通常的感觉的类似率。

首先，像上述那样掺混第1技术文献群和第2技术文献群两者的技术文献，使其成为一个群。

根据某种分类法，把掺混了的技术文献的群分解为某技术文献的小集合(称为簇)。使某簇中包含m个属于第1技术文献群的技术文献和n个属于第2技术文献群的技术文献。

把技术文献按IPC(国际专利分类)，或根据技术文献中是否包含规定的关键字而「分为小组」，这定义为「簇分解」。

图7表示采用本发明所涉及的类似率算出装置来簇分解技术文献群之后的各簇的构成。

例如图7所示，作为分类为IPC「G06F17/30」的技术文献，在第1技术文献群中有「专利文献A1」存在，而且第2技术文献群中有「专利文献B1」存在的场合，IPC「G06F17/30」的簇中就包含「专利文献A1」和「专利文献B1」的要素。

再例如，对于包含作为关键字的「文本处理」的词语的技术文献，在第1技术文献群中有「技术文献A2」存在，而且第2技术文献群中有「技术文献B2」和「技术文献B3」存在的场合，关键字「文本处理」的簇中就包含「技术文献A2」和「技术文献B2」、「技术文献B3」的要素。

另外，簇分解的方法中，根据技术文献群的各个技术文献的属性，有2种处理，如下所述。

1.在有外在的基准的属性(定义为属性1型)的场合，该属性可各自构成簇。例如，对于专利公报等技术文献来说，是由申请日的日期、IPC等唯一决定的技术文献。

2.对于属性由内在的关系决定的值(定义为属性2型)，作为预处理，需要多变量分析(簇分析)等所涉及的簇化。例如在专利公报技术文献中，对于摘要、权利要求项等文件难以套用外在的基准，因而另外定义文件间的微观类似率，采用基于此而进行多变量分解的结果来构成簇。另外，对于文件间的微观类似率，使用TFIDF法等一般广泛使用的东西，就可防止分析者的恣意的混入。

信息处理装置380等簇分解装置，对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含通过技术信息输入装置而输入了的技术信息的技术文献，按技术信息来簇分解该检索出的技术文献。

在本发明的实施例中，混合簇定义如下。

在图7所示的IPC「G06F17/30」的簇中，混合了属于技术文献A群的「专利文献A1」和属于技术文献B群的「专利文献B1」。把这样混合了属于技术文献A群的技术文献和属于技术文献B群的技术文献定义为混合簇。

在本发明的实施例中，非混合簇定义如下。

例如图7所示，作为分类为IPC「B01」的技术文献，在技术文献A群中有「技术文献A3」存在，而技术文献B群中不存在分类为IPC「B01」的技术文献的场合，在IPC「B01」的簇中作为要素只包含「专利文献A3」。

还有，如图7所示，例如作为关键字而包含「无机化合物」的词语的技术文献，在技术文献A群中不存在，而在技术文献B群中有「技术文献B1」存在的场合，关键字「无机化合物」的簇中作为要素而包含「技术文献B1」。

这样，把属于技术文献A群的技术文献和属于技术文献B群的技术文献没混合的簇定义为非混合簇。

图8是表示类似率的算出处理的流程图。

信息处理装置380实施的处理进入图4所示的S104的话，信息处理装置380实施的处理就向S200分歧，实施S200以后的处理。

类似率算出装置30的信息处理装置380在S200「混同技术文献A群和技术文献B群」中，进行混合通过S102「技术文献取得」从数据库取得了的技术文献群(例如A公司的第1技术文献群和B公司的第2技术文献群)，使其成为1个技术文献群的处理。

在S202「簇分解处理」中，信息处理装置380基于关键字、IPC等技术信息进行簇分解处理。在下面的S204 「设定补正项1的计算式」中，信息处理装置380，在由利用者输入了按照混合簇中包含的技术文献的数量来补正类似率的意思的指示的场合，进行选择基于该指示的补正项的算式的处理。在这里，进行按照补正的内容对补正项1代入规定的算式的处理。

补正项1是考虑到混合簇中包含的技术文献的量越多就越是重要的簇，为提高类似率而进行重加权，从而进行类似率的补正的补正项。

在按照混合簇中包含的技术文献的数量而不补正类似率的场合，代入补正项1＝1(常数)。

在S206「设定补正项2的计算式」中，信息处理装置380，在由利用者输入了按照混合簇中包含的技术文献A和技术文献B的掺混情形来补正类似率的意思的指示的场合，进行选择基于该指示的补正项的算式的处理。在这里，进行按照补正的内容对补正项2代入规定的算式的处理。

补正项2是考虑到混合簇中包含的技术文献的比例越接近规定的量就越是重要的簇，为提高类似率而进行重加权，从而进行类似率的补正的补正项。

在按照混合簇中包含的技术文献的掺混情形而不补正类似率的场合，代入补正项2＝1(常数)。

在S208「设定补正项3的值」中，信息处理装置380，在关注簇分解时的规定的专利分类、关键字，进行恣意加权，由利用者输入了补正类似率的意思的指示的场合，进行选择基于该指示的补正项的算式的处理。在这里，进行按照补正的内容对补正项3代入规定的值的处理。在对于簇分解时的规定的专利分类、关键字不特别关注的场合，代入补正项3＝1(常数)。

在S210「类似率算出」中，信息处理装置380对于各混合簇乘以补正项1、补正项2、补正项3的各补正项，算出总和。并且为了归一化而进行除以全簇数，算出类似率的处理。

在S212「结束」中，结束类似率算出处理的子程序，返回原来的处理。

图9表示类似率的计算中使用的设定条件。

图9是表示成为比较对象的第1技术文献群及第2技术文献群和把各群的技术文献分解为4个簇的场合的各簇1～4中存在的各技术文献数的图表。同图右端所示的「期望的类似率」的值是表示向进行了技术文献的类似性的判断的多个专家进行了咨询，结果，在条件1～4场合，期望算出的类似率的值。并且，一般认为对该期望的类似率的值可容许的范围，如同图所示，为容许范围＝±0.050的程度。

因此，如果采用本发明所涉及的类似率算出装置算出了类似率，结果算出类似率在图9所示的容许范围内，就表示最适合进行技术文献彼此的比较。

基本型1：不考虑补正项的场合的类似率(基本型1)的算出例

以下表示不使用补正项的基本型的类似率(基本型1)的算出例。该类似率(基本型1)的算出例是根据混合簇抽取法来运算技术文献的类似率的东西。

可以认为，第1技术文献群中包含的技术内容和第2技术文献群中包含的技术内容类似的程度(类似率的值的大小)是与「混合簇的数量」成比例的东西。

还有，为了按0≤类似率≤1的范围来设定类似率，例如，算出把「混合簇数」除以作为「混合簇数和非混合簇数的总和」的「全簇数」所得的混合簇的话，作为技术文献群彼此的类似率，能得到以下的(式1)。

把考虑了混合簇的类似率算出方法定义为混合簇抽取法。下列所示的(式1)是最基本的想法。下列的(式1)表示把簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数的比(以下称为混合簇比)作为类似率而算出的一例。因此，全簇数和混合簇数的比的算出方法不限于下列的(式1)。

此处，

δ＝混合簇的场合…1

非混合簇的场合…0

像先叙述了那样，类似率表示第1技术文献群中记载的技术内容和第2技术文献群中记载的技术内容如何类似的数值。

还有，混合簇数是表示属于第1技术文献群的技术文献和属于第2技术文献群的技术文献混合起来的簇的数的数值。

全簇数是表示第1技术文献群的技术文献或第2技术文献群的技术文献存在的簇的全数的数值。

以下对于使用了类似率(基本型1)的计算式的场合的计算结果进行说明。

对于第1技术文献群和第2技术文献群，用规定的关键字、IPC等进行了簇分解，结果，在全簇数是10个，混合簇数是3个的场合，算出了类似率(基本型1)＝3/10＝0.3。

还有，在全簇数是4个，混合簇数是2个的场合，算出了类似率(基本型1)＝2/4＝0.5。

用关键字、IPC等来簇分解第1技术文献群和第2技术文献群中包含的技术文献，作为类似率而算出该分解了的全簇数和混合簇数的比，就可算出成为技术文献群彼此的类似率的基础部分的值。

还有，算出类似率时，把混合簇数除以全簇数，从而就可把所算出的类似率的值设定在0≤类似率≤1的范围。

以下，对于使用了类似率(基本型1)的场合的发明的效果进行说明。

用第1技术文献群和第2技术文献群中包含的关键字、IPC等进行簇分解，基于该分解了的全簇数和混合簇数的比来算出类似率，就可简便算出表示技术文献群彼此以什么程度在技术上类似的指标。可以看出，这里所算出的类似率与我们常识性地考虑的技术文献群彼此的类似的程度是比较一致的。

还有，在本发明中，进行了在0≤类似率≤1的范围设定要算出的类似率的值的运算，因而可不涉及全簇数量、混合簇的数量，或技术文献群中包含的技术文献的量的多少而算出一定的指标。

再有，可直接对比在更多的条件下比较了第1技术文献群和第2技术文献群所得的类似率和比较了第1技术文献群和第3技术文献群所得的类似率。

基本型2：考虑了补正项的场合的类似率(基本型2)的算出例

以下表示考虑了补正项的场合的类似率(基本型2)的算出例。该类似率(基本型2)的算出例是对上述类似率(基本型1)的算出例添加了补正项1～3所得的东西。

用上述(式1)算出类似率的话，与混合簇数成比例的类似率就可用简单的算式非常快速地算出，这是其优点。

也可以看出，上述最基本(式1)导致例如包含多的技术文献的簇和只包含少数的技术文献的簇具有对等贡献的这种结果，没考虑各个簇内的技术文献数的大小，这是其缺点，因而不论在混合簇内包含多的技术文献的场合，还是在只包含2个技术文献的场合，都会算出相同的类似率，有时与我们常识性地考虑的类似的程度不同，这是可能存在的问题。

除了混合簇中包含的技术文献的量以外，根据混合簇中包含的第1技术文献群的技术文献和第2技术文献群的技术文献的掺混情形(第1技术文献群的技术文献和第2技术文献群的技术文献的比例)，或者想关注给定的专利分类、关键字的场合的恣意加权等，也有想补正所算出的类似率的值的场合。

图10是表示混合簇1中包含很多技术文献的状况的图。

在图10所示的例子中，簇1(混合簇)中包含很多技术文献，因而可以认为是重要的簇，在类似率计算时应贡献很大。

另外的簇(例如簇2、簇3、簇4等)包含的技术文献少，因而可以认为不是重要的簇，应比簇1贡献小得多。

在处于图10的例子这种状况的场合，相对于簇1，有时可轻视簇2、簇3、簇4的影响。另外，在不无视所包含的技术文献数量少的簇的存在的场合，所算出的类似率的值会下降到0.5。

对此，如以下(式2)所示，要对(式1)的δ(在簇为混合簇的场合，取δ＝1，在此外的场合，取δ＝0)乘以补正项。另外，为了使得通过补正而类似率的范围不超过0≤类似率≤1的范围，需要恰当的归一化因子。

此处，

δ＝混合簇的场合…1

非混合簇的场合…0

(式2)所示的补正项1是用于按照混合簇中包含的技术文献的量来算出类似率的补正项。该补正项1是考虑到混合簇中包含的技术文献的量越多就越是重要的簇，为提高类似率而进行重加权，从而进行类似率的补正的补正项。

还有，反过来补正项1考虑到混合簇中包含的技术文献的量越少就越不是重要的簇，可为降低类似率而进行轻加权，从而进行类似率的补正的补正项。

还有，补正项1也可以是使用了可算出取与各混合簇中包含的技术文献的量对应的值的第1补正值的其它计算式的补正项。

(式2)所示的补正项2是用于按照混合簇中包含的技术文献A和技术文献B的掺混情形(技术文献A和技术文献B的比例)来算出类似率的补正项。

还有，补正项2是可算出取与各混合簇中包含的第1技术文献群的技术文献和第2技术文献群的技术文献的掺混情形对应的值的第2补正值的补正项。

如(式2)所示，类似率是进行把补正项1、补正项2或补正项3算出对于所有混合簇的总和，把该总和除以全簇数的运算。

在算出补正项2时所用的技术文献的「掺混情形」的意义如下。

它是关注某混合簇中包含的第1技术文献群的技术文献和第2技术文献群中包含的技术文献的掺混情形，在双方技术文献很好地掺混时，即双方技术文献数没偏倾时，认为是重要的簇而加重权，在没很好地掺混的场合，即技术文献数向一方技术文献群的东西偏倾了的场合，认为是不重要的簇而进行轻加权的补正项目。

换句话说，它是例如某混合簇中包含的第1技术文献群的技术文献和第2技术文献群的技术文献的数量与从第1技术文献群和第2技术文献群随机抽取了时的期望值接近的东西加重，远离的东西减轻的补正项。

补正项3是指用于在想关注给定的专利分类、关键字的场合，进行恣意加权，算出类似率的补正项。该项是比较技术文献群彼此的人个别设定的项，因而此次不考虑而预先代入常数「1」。

应用型1：补正项1(1)的算出例

以下表示考虑了补正项1(1)的类似率(式4)的算出例。

在补正项1(1)中，为了使类似率按照混合簇中包含的技术文献的量取大的值而进行补正，把「簇内的技术文献数」的α次幂(此处，0＜α)配置在分子上。并且，作为类似率的算出范围，为了保证0≤类似率≤1，在补正项1(1)的式子中在分母上配置了归一化因子。

在(式4)所示的补正项1(1)的运算中，为了使得即使配置在分子上的簇内的技术文献数多的场合，类似率的值也不超过1，并且设置技术文献的量的多少的判断基准，作为归一化因子，配置了全簇内的技术文献数的平均值。另外，归一化因子也可以配置算出全簇内的技术文献数的α次幂的总和，再除以全簇数所得的值。该归一化因子只要能保证0≤类似率≤1的项即可，不限于(式4)的算式。

再有，在不想使所包含的技术文献的量少的混合簇的影响很大地反映在类似率的算出结果上的场合，就按α＞1来设定分子的指数α。

还有，在希望单纯按照簇内的技术文献数的量来增减类似率的场合，就按α＝1设定。

还有，在需要按照簇中包含的技术文献的量来算出类似率，并且减小大量包含技术文献的簇的存在所涉及的类似率的算出结果的影响的场合，可以按0＜α＜1设定。

以下对于「应用型1：补正项1(1)」的计算式的分子和分母的构成所涉及的作用进行说明。

如式4中说明的，在补正项1(1)的分子上配置了「簇内的技术文献数」，因而可算出与簇内的技术文献数成比例的类似率。

还有，在补正项1(1)的分母上配置了「归一化因子」，因而可保证0≤类似率≤1。并且，作为补正项1(1)的归一化因子，配置了全簇内的技术文献数的平均值，因而可把全簇内的技术文献数的平均值作为基准，算出技术文献的量的多少。

再有，按α＞1来设定分子的指数α，就可不使混合簇中包含的技术文献的量少的混合簇的影响很大地反映在类似率的算出结果上。还有，按α＝1来设定分子的指数α，就可单纯按照簇内的技术文献数的量来增减类似率(单纯含数比较)。还有，按0＜α＜1来设定分子的指数α，就可减小大量包含技术文献的簇的存在所涉及的类似率的算出结果的影响。

以下图11表示在采用了补正项1(1)的场合的类似率算出例(补正项1(1)中代入了条件1～4的计算结果)的图表。

以下表示在「应用型1：补正项1(1)」中代入了图9所示的各条件的场合的算出例。另外，算出结果在图11中作为采用了补正项1(1)的场合的类似率算出例(在补正项1(1)中代入了条件1～4的场合的算出结果)的图表来表示。

表示在只考虑补正项1(1)而不考虑其它补正项的场合(即取补正项2＝1，补正项3＝1)，即单纯进行混合簇内包含的技术文献数的比较的场合(即取α＝1时)，作为比较技术文献群彼此的条件，设定了条件1～4的场合的类似率的估算结果。

在下式(式5)中对于计算例4-1(式4中代入了条件1的场合)的计算结果进行说明。

在条件1的场合，各混合簇(在本实施的场合为簇1和簇2)中包含的技术文献数分别是3个。因此，可期望簇中包含的技术文献的量所涉及的类似率的补正的影响小些。

= \frac{1}{4} (\frac{3}{(3 + 3 + 2 + 4) / 4} + \frac{3}{(3 + 3 + 2 + 4) / 4}) = 0.5

……(式5)

由上述(式5)算出了的类似率(式4中代入了条件1的场合)＝0.5的值与(式1)所涉及的类似率的运算结果一致，即使在插入了补正项1(1)的场合，也与我们常识性地考虑的类似率的程度没有很大偏离。还有，簇内的技术文献数量分别是3、3、2、4的程度，因而应该都有相同程度的贡献，在这里算出了类似率＝0.5的结果没有很大地偏离我们常识性地考虑的类似的程度(约0.30的程度)，大致是满足要件的东西。

在下式(式6)中对于计算例4-2(式4中代入了条件2的场合)的计算结果进行说明。

条件2场合的簇1中包含的技术文献的量显然比簇2～簇4中包含的技术文献的量多，因而在算出类似率时，应重视簇1中包含的技术文献的量的影响而算出大的类似率，这是明显的。

= \frac{1}{4} (\frac{150}{(150 + 3 + 2 + 4) / 4} + \frac{3}{(150 + 3 + 2 + 4) / 4}) = 0.962

……(式6)

由上述(式6)算出了的类似率(式4中代入了条件2的场合)＝0.962的值被簇1中包含的技术文献的量的多少所吸引，从类似率＝0.5(式4中代入了条件1的场合算出了的类似率)补正为类似率0.962(式4中代入了条件2的场合算出了的类似率)。

以下对于式6(式4中代入了条件2的场合)的效果进行说明。

通过式6的运算处理，在簇中包含的技术文献的量比其它簇中包含的技术文献的量多的场合，可使类似率的算出结果反映该技术文献的量。这可以看出，簇1代表了算出类似率时的大致所有倾向，该簇1的性质起着决定类似率的作用。

并且可以看出，该类似率的算出结果与我们常识性地考虑的类似的程度相当一致。

在下式(式7)中对于计算例4-3(式4中代入了条件3的场合)的计算结果进行说明。

在条件3的场合，与条件2的场合相比，簇中包含的技术文献的量的总和相同，不过，不是仅簇1中包含的技术文献的量显然多的状况，因而在算出类似率时簇1中包含的技术文献的量的影响不产生条件2的场合的程度，这是优选的。

= \frac{1}{4} (\frac{70}{(70 + 3 + 82 + 4) / 4} + \frac{3}{(70 + 3 + 82 + 4) / 4}) = 0.459

……(式7)

由上述(式7)算出了的类似率(式4中代入了条件3的场合)＝0.459的值，因为簇1中包含的技术文献的量比另外的簇3稍少，所以对类似率的补正是几乎不干预的补正。

以下对于(式7)的计算结果(式4中代入了条件3的场合)的效果进行说明。

通过进行补正项1(1)的运算处理，即使在簇中包含的技术文献的量多的场合，在与其它簇中包含的技术文献的量没有很大差别的场合，也可使得该技术文献的量不太反映在类似率的算出结果上。

该(式7)所涉及的类似率的算出结果是使得簇1和簇3的影响出现得大而起到补遗性的作用，因而与我们常识性地考虑的类似的程度(约0.20的程度)偏离不大，大致得到了预想的值。

在下式(式8)中对于计算例4-4(式4中代入了条件4的场合)的计算结果进行说明。

在条件4的场合时，与条件3的场合相比，簇中包含的技术文献的量的总和相同，不过，是簇1和簇2中包含的第1技术文献群和第2技术文献群的比例极端不均等的场合。因此，虽说混合簇中包含的技术文献数多，但优选的是不算出大的类似率。

= \frac{1}{4} (\frac{52}{(52 + 21 + 82 + 4) / 4} + \frac{21}{(52 + 21 + 82 + 4) / 4}) = 0.459

……(式8)

由上述(式8)算出了的类似率(式4中代入了条件4的场合)＝0.459的值，因为簇1和簇2中包含的技术文献的量虽然多，但也比另外的簇3稍少些，所以对类似率的补正是几乎不干预的补正。

以下，对于(式8)的计算结果(式4中代入了条件4的场合)的效果进行说明。

通过(式8)的运算处理，即使在簇中包含的技术文献的量多的场合，在与其它簇中包含的技术文献的量没有很大差别的场合，也可使得该技术文献的量不太反映在类似率的算出结果上，不过，在条件4的场合，感觉上优选的是类似率为数％的值。

在该条件4的场合，仅进行补正项1(1)的处理的话，可能会产生与人的感觉不一致的部分，因而以后说明的补正项2很有用。但簇3、1、2影响变大了，因而可以说补正项1(1)的作用充分地完成了。还有，通过进行补正项1(1)的处理，在技术文献数多的簇存在的场合，就可使类似率反映该簇中包含的技术文献数量的多少。

图11表示在采用了补正项1(1)的场合的类似率算出例(补正项1(1)中代入了条件1～4的场合的计算结果)的图表。

应用型2：补正项2(1)的算出例

以下所示的补正项2(1)的计算式(式9)是为了按照混合簇内的技术文献的混合概率来进行补正而构成的东西。

= \frac{{(\frac{C_{m}^{M} \times C_{n}^{N}}{C_{m + n}^{M + N}})}^{γ}}{MAX {(\frac{C_{x}^{M} \times C_{y}^{N}}{C_{m + n}^{M + N}})}^{γ}}

……(式9)

此处，

M：第1技术文献群(A群)中包含的技术文献数

N：第2技术文献群(B群)中包含的技术文献数

m：规定的簇中包含的第1技术文献群(A群)的技术文献数

n：规定的簇中包含的第2技术文献群(B群)的技术文献数

γ：任意常数γ＞0

以下表示考虑了上述补正项2(1)的类似率(式10)的算出例。

在(式10)的补正项2(1)中，为了补正类似率，使其按照混合簇中包含第1技术文献群(A群)和第2技术文献群(B群)的技术文献数的概率而取大的值，把从第1技术文献群(A群)中取出m个，从第2技术文献群(B群)中取出n个技术文献的概率的γ次幂(此处，0＜γ)配置在了分子上。

为了保证类似率的算出范围为0≤类似率≤1，例如(式10)所示，把从第1技术文献群(A群)中取出m个，从第2技术文献群(B群)中取出n个技术文献的概率的最大值的γ次幂(此处，0＜γ)作为归一化因子而配置在了分母上。

归一化因子只要是能保证0≤类似率≤1的项即可，不限于(式10)所示的归一化因子。

以下，对于指数γ的设定条件进行说明。

在单纯需要以与混合簇中包含的A群和B群的技术文献数从A群和B群的技术文献群中随机抽取了时的分布接近的程度而成比例地补正类似率的值的场合，按γ＝1来设定指数γ即可。

还有，在混合簇中包含的A群和B群的技术文献数与从A群和B群的技术文献群中随机抽取了时的分布越接近越重视，需要按大的值来补正的场合，或者与从A群和B群的技术文献群中随机抽取了时的分布越远离越轻视，需要按小的值来补正的场合，按γ＞1来设定指数γ即可。

还有，在即使混合簇中包含的A群和B群的技术文献数与从A群和B群的技术文献群中随机抽取了时的分布不接近也重视而需要补正的场合，按0＜γ＜1来设定指数γ即可。

以下表示在应用型2：补正项2(1)的计算式(式10)中代入了图9所示的各条件的计算例。另外，算出结果在图12中作为采用了补正项2(1)的类似率算出例(补正项2(1)中代入了条件1～4的场合的计算结果)的图表来表示。

在补正项2(1)中，把(从A群中取出m个，从B群中取出n个技术文献的组合的数)/(从A群和B群的混合中取出m+n个技术文献的组合数)配置在了分子上，因而可按照混合簇中包含的A群和B群的技术文献数的偏倾(人为性)，在偏倾大的场合按小的补正值，在偏倾小的场合按大的补正值来补正类似率。在本实施例中，在偏倾大的场合减小补正值，算出小的类似率，反过来在偏倾小的场合增大补正值，算出大的类似率。

作为归一化因子，在分母上配置了(从A群中取出x个，从B群中取出y个技术文献的组合的数)/(从A群和B群的混合中取出m+n个技术文献的组合数)，因而x、y是使分母为最大的数的组合，所以作为类似率的算出范围，可保证0≤类似率≤1。

再有，按γ＝1来设定指数γ，就可单纯以混合簇中包含的A群和B群的技术文献数与从A群和B群的技术文献群中随机抽取了时的分布接近的程度而成比例地补正类似率的值。

还有，按γ＞1来设定指数γ，从而混合簇中包含的A群和B群的技术文献数与从A群和B群的技术文献群中随机抽取了时的分布越接近越重视，可按大的值来补正，还有，与从A群和B群的技术文献群中随机抽取了时的分布越远离越轻视，可按小的值来补正。

在下式(式11)中对于计算例10-1(式10中代入了条件1的场合)的计算结果进行说明。

在只考虑补正项2(1)而不考虑其它补正项的作用的场合(即取补正项1＝1，补正项3＝1)，即单纯基于混合概率进行比较的场合(即γ＝1的场合)，把比较技术文献群彼此的条件按条件1～4设定了时的类似率的估算结果如下。

如下列的(式11)所示，在条件1的场合，各混合簇1中包含的技术文献的混合概率算出为0.409。还有，同样簇2中包含的技术文献的混合比率也算出为0.409。

= \frac{15 \times 6}{220} = 0.409

……(式11)

另一方面，分母的归一化因子是混合簇1的混合概率的最大值，因而像以下那样算出为归一化因子＝0.409。还有，在条件1的场合，簇2的归一化因子也算出为0.409。

= \frac{15 \times 6}{220} = 0.409

……(式12)

因此，在(式12)的计算式中代入了条件1的场合的补正项2(1)的值算出为补正项2(1)＝1。同样，混合簇2的补正项2(1)的值也算出为1。

因此，补正项2(1)的值，像下式(式13)那样算出为1，因而不特别进行补正，类似率算出为0.5。

= \frac{1}{4} (\frac{0.409}{0.409} + \frac{0.409}{0.409}) = 0.5

……(式13)

由上述(式13)算出的类似率(在式10中代入了条件1的场合)＝0.5的值与不考虑补正的(式1)所涉及的类似率的运算结果一致。并且，技术文献群中包含的技术文献数量分别是6个和6个，混合簇内包含的技术文献数也是2个和1个，因而与我们常识性地考虑的类似的程度大致一致。因此，即使在插入了补正项2(1)的场合，也可得到容许范围内的结果。

在下式(式14)中对于计算例10-2(式10中代入了条件2的场合)的计算结果进行说明。

可以看出，条件2的场合的簇1中包含的技术文献的混合概率，因为第1技术文献群(A群)和第2技术文献群(B群)的大小的比率接近，所以算出类似率时应重视构成簇1的技术文献的混合比率的影响，算出大的类似率。

以下的(式14)表示构成补正项2(1)的分子的混合概率的计算例。

= \frac{4598126 \times 3478761}{1.42 E + 14} = 0.113

……(式14)

另一方面，分母的归一化因子是混合簇1的混合概率的最大值，因而像以下那样算出为归一化因子＝0.280。还有，在条件2的场合，簇2的归一化因子也算出为0.280。

= \frac{C_{98}^{104} \times C_{52}^{55}}{C_{150}^{159}} = \frac{1.52 E + 09 \times 26235}{1.42 E + 14} = 0.280

……(15)

因此，在条件2下的簇1的补正项2(1)的值算出为补正项2(1)＝0.404。还有，在条件2下的簇2的补正项2(1)的值算出为「1」，因而如下式(式16)所示，基于补正项2(1)的类似率算出为0.351(参照图12)。

= \frac{1}{4} (\frac{0.113}{0.280} + \frac{0.448}{0.448}) = 0.351

……(式16)

由上述(式16)算出了的类似率(式10代入中了条件2的场合)＝0.351的值被簇1中包含的技术文献的混合概率吸引，从类似率(式4中代入了条件2的场合)＝0.962补正为类似率(式5中代入了条件2的场合)＝0.351。

在下式(式17)～(式19)中对于计算例10-3(式10中代入了条件3的场合)的计算结果进行说明。以下的(式17)是构成补正项2(1)的分子的混合概率的计算例。

= \frac{1.28 E + 21 \times 3478761}{1.49 E + 46} = 2.98 E - 19 \approx 0.000

……(式17)

另一方面，分母的归一化因子是混合簇1的混合概率的最大值，因而像以下那样算出为归一化因子＝0.133。还有，在条件3的场合，簇2的归一化因子也算出为0.448。

= \frac{C_{46}^{104} \times C_{24}^{55}}{C_{70}^{159}} = \frac{7.96 E + 29 \times 2.49 E + 15}{1.49 E + 46} = 0.133

……(式18)

因此，在条件3下的簇1的补正项2(1)的值算出为补正项2(1)＝0.000。混合簇2的补正项2(1)的值与条件1和条件2的场合相同，算出为1。

因此类似率通过下列的计算而算出为0.25。

= \frac{1}{4} (\frac{0.000}{0.133} + \frac{0.448}{0.448}) = 0.25

……(式19)

由上述(式19)算出了的类似率(式10代入中了条件3的场合)＝0.25的值被簇1中包含的技术文献的混合概率吸引，从类似率(式4中代入了条件3的场合)＝0.459补正为类似率(式10中代入了条件3的场合)＝0.25。

在下式(式20)～(式24)中对于计算例10-4(式10中代入了条件4的场合)的计算结果进行说明。

在条件4的场合，与条件3的场合相比，簇中包含的技术文献的量的总和相同，不过是簇1和簇2中包含的技术文献A群和技术文献B群的比例极端不均等的场合。因此，虽说混合簇中包含的技术文献数多，但优选的是不算出大的类似率。

算出构成补正项2(1)的混合簇1的分子的混合概率，

= \frac{5356 \times 3478761}{2.98 E + 42} = 6.26 E - 33 \approx 0.000

……(式20)

另一方面，分母的归一化因子是混合簇1的混合概率的最大值，因而像以下那样算出为归一化因子＝0.141。

= \frac{C_{34}^{104} \times C_{18}^{55}}{C_{52}^{159}} = \frac{2.91 E + 27 \times 1.44 E + 14}{2.98 E + 42} = 0.141

……(21)

因此，条件4下的簇1的补正项2(1)的值算出为补正项2(1)＝0.000。

另一方面，混合簇2的补正项2(1)的值像以下那样算出为补正项2(1)＝0.004。

= \frac{1.28 E + 21 \times 55}{8.34 E + 25} = 0.001

……(式22)

混合簇2的分母的归一化因子是混合簇2的混合概率的最大值，因而在条件4的场合像以下那样算出为归一化因子＝0.194。

= \frac{C_{14}^{104} \times C_{7}^{55}}{C_{21}^{159}} = \frac{7.95 E + 16 \times 2.03 E + 08}{8.34 E + 25} = 0.194

……(式23)

因此类似率像以下那样算出为0.001。

= \frac{1}{4} (\frac{0.000}{0.141} + \frac{0.001}{0.194}) = 0.001

……(式24)

由上述(式24)算出了的类似率(式10中代入了条件4的场合)＝0.001的值，因为簇1和簇2中包含的技术文献的混合概率远小于从技术文献A群和技术文献B群中随机取出了的场合的混合概率的最大值，所以从类似率(式4中代入了条件4的场合)＝0.459补正为类似率(式10中代入了条件4的场合)＝0.001。

图12表示采用了补正项2(1)的场合的类似率算出例(补正项2(1)中代入了条件1～4的场合的计算结果)的图表。

如同图所示，可以看出，在混合簇中，对于技术文献很好地掺混了的簇(具备了表示混合概率大的值的条件的簇)，补正项2(1)的值表示出了大的值。还有，对于技术文献没很好地掺混的簇(具备了表示混合概率小的值的条件的簇)，补正项2(1)的值表示出了小的值，大致为「0」，所算出的类似率的值也表示出了小的值。

图13表示采用了补正项1(1)和补正项2(1)两者的场合的类似率算出例(补正项1(1)和补正项2(1)中代入了条件1～4的场合的计算结果)的图表。

可以说在条件1的场合算出了的类似率＝0.5与我们常识性地考虑的类似的程度大致一致。

在条件2的场合，混合簇1中包含的技术文献的数量与簇2～4中包含的技术文献数量相比明显多，而所算出的类似率的值从对(式1)代入了条件2的场合的类似率＝0.5补正为用补正项1(1)和补正项2(1)代入了条件2的场合的类似率＝0.4。这样用补正项1(1)和补正项2(1)来算出类似率，在对于技术文献数多的簇1不太想加权时有效。

在条件3的场合，与条件2的场合相比，簇内包含的技术文献数量的总和相同，不过，因为只有混合簇1的技术文献数量并不是特别多，所以所算出的类似率的值很小地补正为类似率＝0.019。这样用补正项1(1)和补正项2(1)来算出类似率，在不想使类似率的算出结果反映簇1中包含的技术文献数量的多少的场合有效。

在条件4的场合，与条件2的场合相比，簇内包含的技术文献数量的总和相同，不过，在混合簇1、混合簇2并不是特别大，技术文献的掺混情形更加极端时，类似率的值补正为类似率＝0.0005。这样用补正项1(1)和补正项2(1)来算出类似率，即使在混合簇内的技术文献数量多的场合，在技术文献的掺混情形不均等的场合，也可向算出小的类似率的方向补正。

即，用补正项1(1)和补正项2(1)来算出类似率，就可重视技术文献数量多的混合簇来补正类似率，并且在技术文献的掺混情形不均匀的场合，把类似率向小的值补正。

还有，如同图所示，可以看出，在补正项2(1)的计算式中，存在补正项的值对技术文献的掺混情形敏感地作出反应的倾向，因而有时有必要适当地调节γ的值。还可以看出，基于混合簇内包含的技术文献的数量的补正和基于混合簇内包含的技术文献的掺混情形的补正像上述那样都有密切的关系，因而与α的值一起，适当地决定γ的值也很重要。

另外，图13是取α＝1、γ＝1的场合的计算例，不过，例如保持α＝1，按γ＝0.25进行设定来估算的话，就可算出，条件1的类似率＝0.5→0.5，条件2的类似率＝0.4→0.769，条件3的类似率＝0.019→0.019，条件4的类似率＝0.0005→0.033。

应用型3：补正项2(2)的算出例

补正项2(2)是按照混合簇内的技术文献的混合比来补正类似率的补正项。

在第1技术文献群(A群)和第2技术文献群(B群)中包含的技术文献的数量的比有很大不同的场合，各混合簇中包含的技术文献的混合比当然也会不同。还有，两群中包含的技术文献的数量越是相匹敌，簇中包含的技术文献的混合比就越接近第1技术文献群(A群)和第2技术文献群(B群)中包含的技术文献数的数量的比(构成比)，这样考虑是合理的。

对此，在本发明中，对于第1技术文献群(A群)和第2技术文献群(B群)中包含的技术文献数的构成比N/M和各簇内的技术文献数的混合比n/m，再把与取构成比和混合比的比的东西的ξ次幂(此处，0＜ξ)成比例的补正值作为算出类似率时的补正项来设置。

即，它是第1技术文献群(A群)和第2技术文献群(B群)中包含的技术文献数的构成比N/M与各簇内的技术文献数的混合比n/m越接近，就把类似率设定得越高(接近1)的算式。

因此，对于补正项2(2)的值，第1技术文献群(A群)和第2技术文献群(B群)中包含的技术文献数的构成比与各簇内的技术文献彼此的混合比越是不同，就越是取比1小的值。

= {\frac{MIN (\frac{N}{M}, \frac{n}{m})}{MAN (\frac{N}{M}, \frac{n}{m})}}^{ζ}

= MIN {(\frac{N \times m}{M \times n}, \frac{M \times n}{N \times m})}^{ζ}

……(式25)

以下的(式26)表示考虑了补正项2(2)的类似率的算出例。

如上述(式25)和(式26)所示，在补正项2(2)中，为了使得技术文献A群和技术文献B群的构成比和各簇内的技术文献彼此的混合比越是相同，就把类似率设定得越高(接近1)，在分子上配置了「N/M和n/m中小的一方」，在分母上配置了「N/M和n/m中大的一方」。

在该场合，在不想使类似率的算出结果很大地反映技术文献的混合比小的混合簇的影响的场合，按ζ＞1来设定补正项的指数ζ即可。

还有，在希望单纯按照簇内的技术文献的混合比而使类似率增减的场合，按ζ＝1来设定即可。

还有，在希望不要使类似率的算出结果很大地反映混合比大的混合簇的影响的场合，按0＜ζ＜1来设定即可。

以下对于在类似率的计算时使用补正项2(2)的场合的作用进行说明。

在补正项2(2)中，在分子上配置了A群和B群的技术文献数量的构成比和各簇内的技术文献彼此的混合比中小的一方，在分母上配置了分母A群和B群的技术文献数量的构成比和各簇内的技术文献彼此的混合比中大的一方，因而A群和B群的技术文献数量的构成比和各簇内的技术文献彼此的混合比越是相同，越是能算出高的类似率(接近1)。还有，A群和B群的技术文献数量的构成比和各簇内的技术文献彼此的混合比越是不同，越是能按小的值算出类似率。

还有，因为算出了A群和B群的技术文献数量的构成比和各簇内的技术文献彼此的混合比的比，所以能保证类似率的算出范围在0≤类似率≤1。

再有，按ζ＞1来设定指数ζ，就可不使类似率的算出结果很大地反映A群和B群的技术文献数量的比和各簇内的技术文献彼此的混合比的比小的混合簇的影响。

还有，按ζ＝1来设定指数ζ，就可单纯按照A群和B群的技术文献数量的构成比和各簇内的技术文献彼此的混合比的比而使类似率增减(单纯混合比比较)。

还有，按0＜ζ＜1来设定分子的指数，就可在A群和B群的技术文献数量的构成比和各簇内的技术文献彼此的混合比的比大的场合减小对类似率的算出结果的影响。

以下表示在只考虑补正项2(2)而不考虑其它补正项的作用的场合(即取补正项1＝1，补正项3＝1)，即进行单纯混合比比较的场合(即ζ＝1)，作为比较技术文献群彼此的条件，在(式26)中按条件1～4设定了的场合的类似率的估算结果。另外，算出结果在图14中作为采用了补正项2(2)的场合的类似率算出例(补正项2(2)中代入了条件1～4的场合的计算结果)的图表来表示。

下式(式27)表示计算例26-1(式26中代入了条件1的场合)的计算结果。

按条件1，第1技术文献群(A群)的技术文献数量是6个，第2技术文献群(B群)的技术文献数量也是6个，因而A群和群B群的技术文献数量的构成比是1比1。

另一方面，在条件1的场合各混合簇(簇1和簇2)中包含的技术文献数，第1技术文献群(A群)的技术文献是2个，第2技术文献群(B群)的技术文献是1个，因而混合比是2比1。

因此，可以期望，簇中包含的技术文献的混合比所涉及的类似率的补正的影响不小。

= \frac{1}{4} {\frac{MIN (\frac{6}{6}, \frac{1}{2})}{MAN (\frac{6}{6}, \frac{1}{2})} + \frac{MIN (\frac{6}{6}, \frac{1}{2})}{MAN (\frac{6}{6}, \frac{1}{2})}} = \frac{1}{4} {\frac{\frac{1}{2}}{\frac{6}{6}} + \frac{\frac{1}{2}}{\frac{6}{6}}} = 0.25

……(式27)

下式(式28)表示计算例26-2(式26中代入了条件2的场合)的计算结果。

= \frac{1}{4} {\frac{MIN (\frac{55}{104}, \frac{50}{100})}{MAN (\frac{55}{104}, \frac{50}{100})} + \frac{MIN (\frac{55}{104}, \frac{1}{2})}{MAN (\frac{55}{104}, \frac{1}{2})}} = \frac{1}{4} {\frac{\frac{50}{100}}{\frac{55}{104}} + \frac{\frac{1}{2}}{\frac{55}{104}}}

= \frac{1}{4} {\frac{104}{110} + \frac{104}{110}} = \frac{1}{4} \times 1.891 = 0.473

……(式28)

下式(式29)表示计算例26-3(式26中代入了条件3的场合)的计算结果。

条件3的场合，与条件2的场合相比，簇中包含的技术文献的量的总和相同，不过，是混合簇1中包含的技术文献的混合比与第1技术文献群(A群)和第2技术文献群(B群)的构成比有很大不同的状况。

= \frac{1}{4} {\frac{MIN (\frac{55}{104}, \frac{50}{20})}{MAN (\frac{55}{104}, \frac{50}{20})} + \frac{MIN (\frac{55}{104}, \frac{1}{2})}{MAN (\frac{55}{104}, \frac{1}{2})}} = \frac{1}{4} {\frac{\frac{55}{104}}{\frac{50}{20}} + \frac{\frac{1}{2}}{\frac{55}{104}}}

= \frac{1}{4} {\frac{1100}{5200} + \frac{104}{110}} = \frac{1}{4} \times 1.156 = 0.289

……(式29)

因此在算出类似率时，混合簇1中包含的技术文献的混合比率的影响不产生条件2的场合的程度，这是优选的。

由上述(式29)算出了的类似率(式26中代入条件3)＝0.289的值，因为混合簇1中包含的技术文献的混合比与第1技术文献群(A群)和第2技术文献群(B群)的构成比不同，所以类似率补正得少。

因此，通过进行补正2(2)的运算处理，即使在混合簇中包含的技术文献的量多的场合，也可按照该技术文献的混合比率来补正类似率。

下式(式30)表示计算例26-4(式26中代入了条件4的场合)的计算结果。

= \frac{1}{4} {\frac{MIN (\frac{55}{104}, \frac{50}{2})}{MAN (\frac{55}{104}, \frac{50}{2})} + \frac{MIN (\frac{55}{104}, \frac{1}{20})}{MAN (\frac{55}{104}, \frac{1}{20})}} = \frac{1}{4} {\frac{\frac{55}{104}}{\frac{50}{2}} + \frac{\frac{1}{20}}{\frac{55}{104}}}

= \frac{1}{4} {\frac{110}{5200} + \frac{104}{1100}} = \frac{1}{4} \times 0.116 = 0.029

……(式30)

由上述(式30)算出了的类似率(式26中代入了条件4的场合)＝0.029的值，因为簇1和簇2中包含的技术文献的混合比极端不均等，并且混合簇1和混合簇2的混合比与第1技术文献群(A群)和第2技术文献群(B群)的技术文献数量的构成比有很大不同，所以类似率补正得少。

图14表示采用了补正项2(2)的场合的类似率算出例(补正项2(2)中代入了条件1～4的场合的计算结果)的图表。

在条件1、条件2下的混合簇1和混合簇2，以及在条件3下的混合簇2，如图9所示，可以说是技术文献很好地掺混的状态的例子(混合簇中的技术文献的混合比接近第1技术文献群和第2技术文献群中包含的技术文献的数量的比的场合)。在该场合具有按比例算出大的补正项的值，增大类似率的值的效果。

反过来，可以说条件3的混合簇1和条件4各混合簇是技术文献没很好地掺混的状态(可以说是混合簇中的技术文献的混合比与第1技术文献群和第2技术文献群中包含的技术文献的数量的比有很大不同的场合)，因而具有算出小的补正项的值，按小的值来算出类似率的效果。

因此，采用与(式4)所示的补正项1(1)组合而算出类似率方法，就可提高表示技术文献群彼此以什么程度在技术上有关联的类似率的算出制度。

图15表示采用了补正项1(1)和补正项2(2)的场合的类似率算出例(补正项1(1)和补正项2(2)中代入了条件1～4的场合的计算结果)的图表。

如同图所示，在采用了补正项1(1)和补正项2(2)的计算式中代入条件1的话，就算出与簇内包含的技术文献数量和混合比率对应的类似率，因而在代入了条件1的场合的类似率＝0.25的值比在(式1)中代入了条件1的场合(没有补正项的场合)的类似率＝0.5的值小，不过，相当接近期望的值，可以说很好地表示出了技术文献群彼此的技术的类似性。

还有，在采用了补正项1(1)和补正项2(2)的场合的计算式中代入条件2的话，就算出与簇内包含的技术文献数量和混合比率对应的类似率，因而类似率从在(式1)中代入了条件2的场合(没有补正的场合)的类似率＝0.5补正为采用补正项1和补正项2(2)而代入了条件2的场合的类似率＝0.909，相当接近期望的类似率的值，可以说很好地表示出了技术文献群彼此的类似性。

这样采用补正项1和补正项2(2)来算出类似率，就可对于技术文献数多的簇1进行加权。

还有，在采用了补正项1(1)和补正项2(2)的计算式中代入条件3的话，就算出与簇内包含的技术文献数量和混合比率对应的类似率，因而与条件2的场合相比，簇内包含的技术文献数量的总和相同，不过，在仅混合簇1的技术文献数量并不特别多，并且簇1内的技术文献的混合比率与第1技术文献群(A群)和第2技术文献群(B群)的技术文献数量的比率都不相同的场合，可以不特别重视簇1的存在。

这里所算出的类似率，从(式1)中代入了条件3的场合(没有补正的场合)的类似率＝0.5补正为采用补正项1和补正项2(2)而代入了条件3的场合的类似率＝0.111，相当接近期望的值，可以说很好地表示出了技术文献群彼此的类似性。

还有，在采用了补正项1(1)和补正项2(2)的计算式中代入条件4的话，就算出与簇内包含的技术文献数量和混合比率对应的类似率，因而与条件2的场合相比，簇内包含的技术文献数量的总和相同，不过，在混合簇1和混合簇2并不是特别大，技术文献的掺混情形更加极端的场合，混合簇内的技术文献的混合比与A群和B群的技术文献数的比有很大不同，反映在类似率上的影响变小了。

这里所算出的类似率，从(式1)中代入了条件4的场合(没有补正的场合)的类似率＝0.5补正为采用补正项1和补正项2(2)而代入了条件4的场合的类似率＝0.019，相当接近期望的值，可以说很好地表示出了技术文献群彼此的类似性。

应用型4：补正项2(3)的算出例

以下对于基于混合簇内的技术文献的期望值差的补正进行说明。

某簇内包含的第1技术文献群(A群)的技术文献的数量M和第2技术文献群(B群)的技术文献的数量N与从A群和B群中随机抽取了时的期望值(M/(M+N))越接近，就掺混得越好，这是自然的。(是与上述(式9)所示的概率比或(式25)所示的混合比并列的第3掺混情形的定义。)

对此，在本发明中，对从混合了第1技术文献群(A群)和第2技术文献群(B群)的技术文献群中取出第1技术文献群(A群)的技术文献的概率(M/(M+N))乘以混合簇中包含的技术文献数(m+n)，算出取出第1技术文献群(A群)的技术文献的期望值，作为期望值差(参照下(式31))而算出该期望值和混合簇中包含的第1技术文献群(A群)的技术文献数m的差，进行补正，使得该差越小(越接近0)，类似率就越高，依此进行运算。

以下的(式31)表示期望值差的算出例。

= \frac{| mM + nM - mM - mN |}{M + N}

= \frac{| nM - mM |}{M + N}

……(式31)

图16表示上述(式31)中代入了条件1～4的场合的期望值差的算出例。

从上述(式31)所涉及的计算结果也可以看出，在某簇内包含的A群的技术文献的数量和B群的技术文献的数量越接近从A群和B群随机抽取了时的期望值，就越重视该簇而补正类似率的场合，把图16所示的期望值差取为负的数，置于指数部分即可。

把取为负的值的期望值差配置在指数部分，就可在混合簇中存在期望值那样的技术文献的场合，在成为期望值差＝0，指数＝0的场合，算出补正项的值为1。然而，光是期望值的话，因为不仅依赖于掺混情形，而且还依赖于规定的混合簇的大小，所以把期望值差除以簇中包含的技术文献数即可。

以下表示这样求出了的补正项2(3)的实施例。

此处，

ξ：是任意常数，取ξ＞1。

像上述(式32)那样算出补正项2，就可使得例如簇的大小为100，期望值差为10时和簇的大小为10，期望值差为1时的补正值相同。

另外，ξ的值设定得越大，就越能对期望值差敏感地作出反应，把类似率补正得小些。

图17表示在取ξ＝10的场合，(式32)中代入了条件1～4的场合的类似率算出例。

图18表示采用了补正项1(1)和补正项2(3)的场合的类似率算出例(补正项1(1)和补正项2(3)中代入了条件1～4的场合的计算结果)的图表。

如同图所示，在采用了补正项1(1)和补正项2(3)的计算式中代入条件1的话，就算出与簇内包含的技术文献数量和期望值差对应的类似率(某簇内包含的第1技术文献群(A群)的技术文献的数量和第2技术文献群(B群)的技术文献的数量越接近从A群和B群随机抽取了时的期望值，就算出越大的类似率，依此进行补正)，因而在采用补正项1和补正项2(3)，代入了条件1的场合的类似率＝0.340，与(式1)中代入了条件1的场合(没有补正的场合)的类似率＝0.5的值接近，可算出与期望的值接近的值。

在条件2的场合，混合簇1与簇2～4相比，混合簇中包含的技术文献数大，而且期望值差也小，所以应该重视混合簇1中包含的技术文献的构成的影响。

在采用了补正项1(1)和补正项2(3)的计算式中代入条件2的话，就算出与簇内包含的技术文献数量和期望值差对应的类似率(某簇内包含的第1技术文献群(A群)的技术文献的数量和第2技术文献群(B群)的技术文献的数量越接近从A群和B群随机抽取了时的期望值，就算出越大的类似率，依此进行补正)，因而在采用补正项1和补正项2(3)，代入了条件2的场合的类似率＝0.935，比(式1)中代入了条件1的场合(没有补正的场合)的类似率＝0.5的值补正得大了，该值成为与期望的值接近的值。

在条件3的场合，与上述条件2场合相比，簇中包含的技术文献数量的总和相同，不过，仅混合簇1并不是特别大，因而不应特别重视簇1。还有，混合簇1中包含的技术文献与从第1技术文献群(A群)和第2技术文献群(B群)随机抽取了时的期望值有很大不同，因而被混合簇1的期望值差的大小吸引，类似率应算出得小。

在采用了补正项1(1)和补正项2(3)的计算式中代入条件3的话，就算出与簇内包含的技术文献数量和期望值差对应的类似率(某簇内包含的第1技术文献群(A群)的技术文献的数量和第2技术文献群(B群)的技术文献的数量越接近从A群和B群随机抽取了时的期望值，就算出越大的类似率，依此进行补正)，因而在采用补正项1和补正项2(3)，代入了条件3的场合，算出为类似率＝0.207。该值也是与期望的值接近的值。

在条件4的场合，与条件3相比，簇内包含的技术文献数量的总和相同，不过，在混合簇1、混合簇2中包含的技术文献数量并不是特别大，是掺混情形更加极端的场合，因而不被混合簇1的加权吸引，这是优选的。

在采用了补正项1(1)和补正项2(3)的计算式中代入条件4的话，就算出与簇内包含的技术文献数量和期望值差对应的类似率(某簇内包含的第1技术文献群(A群)的技术文献的数量和第2技术文献群(B群)的技术文献的数量越接近从A群和B群随机抽取了时的期望值，就算出越大的类似率，依此进行补正)，因而在采用补正项1和补正项2(3)，代入了条件4的场合，算出为类似率＝0.146。该值也是与期望的值接近的值。

工业实用性

还有，根据本发明，设置了使类似率算出装置把与从第1技术文献群中取出m个，从第2技术文献群中取出n个的技术文献的概率的γ次幂(此处，0＜γ)成比例的补正值对于各混合簇算出总和，除以全簇数，算出类似率的功能。即，使类似率算出装置具有进行把(从A群中取出m个，从B群中取出n个技术文献的组合的数)/(从混合了A群和B群所得的东西中取出m+n个技术文献的组合数)配置为分子的运算的功能，因而可按照混合簇中包含的A群和B群的技术文献数的偏倾(人为性)，在偏倾大的场合按小的补正值，在偏倾小的场合按大的补正值来补正类似率。还有，作为归一化因子，配置了从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的最大值的γ次幂(此处，0＜γ)，因而作为类似率的算出范围，可保证0≤类似率≤1。

Claims

1.一种类似率算出装置，算出用于判断由专利文献或技报等技术文献构成的第1技术文献群和第2技术文献群的技术类似性的指标，其特征在于具有：

输入成为比较对象的第1技术文献群和第2技术文献群的技术文献群输入装置；

输入关键字、IPC等技术信息的技术信息输入装置；

对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇分解的簇分解装置；

把上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数的比作为类似率而算出的类似率算出装置；以及

把上述算出了的类似率向记录装置、显示装置或通信装置输出的输出装置。

2.一种类似率算出装置，算出用于判断由专利文献或技报等技术文献构成的第1技术文献群和第2技术文献群的技术类似性的指标，其特征在于具有：

输入关键字、IPC等技术信息的技术信息输入装置；

算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，

并且把取与各混合簇中包含的技术文献的量对应的值的第1补正值和取与各混合簇中包含的第1技术文献群的技术文献和第2技术文献群的技术文献的掺混情形对应的值的第2补正值相乘所得的东西对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及

3.一种类似率算出装置，算出用于判断由专利文献或技报等技术文献构成的第1技术文献群和第2技术文献群的技术类似性的指标，其特征在于具有：

输入关键字、IPC等技术信息的技术信息输入装置；

并且把与各个簇内的技术文献数的α次幂(此处，0＜α)成比例的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及

4.一种类似率算出装置，算出用于判断由专利文献或技报等技术文献构成的第1技术文献群和第2技术文献群的技术类似性的指标，其特征在于具有：

输入关键字、IPC等技术信息的技术信息输入装置；

并且把将各个簇内的技术文献数的α次幂(此处，0＜α)除以归一化因子所得的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及

5.根据权利要求4所述的类似率算出装置，其特征在于，所述归一化因子是全簇内的技术文献数的平均值。

6.一种类似率算出装置，算出用于判断由专利文献或技报等技术文献构成的第1技术文献群和第2技术文献群的技术类似性的指标，其特征在于具有：

输入关键字、IPC等技术信息的技术信息输入装置；

并且为了按照上述簇分解的结果所获得的混合簇中包含的第1技术文献群和第2技术文献群的技术文献数的概率进行补正，把与从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的γ次幂(此处，0＜γ)成比例的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及

7.一种类似率算出装置，算出用于判断由专利文献或技报等技术文献构成的第1技术文献群和第2技术文献群的技术类似性的指标，其特征在于具有：

输入关键字、IPC等技术信息的技术信息输入装置；

并且为了按照上述簇分解的结果所获得的混合簇中包含的第1技术文献群和第2技术文献群的技术文献数的概率进行补正，把将从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的γ次幂(此处，0＜γ)除以归一化因子所得的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及

8.根据权利要求7所述的类似率算出装置，其特征在于，所述归一化因子是从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的最大值的γ次幂(此处，0＜γ)。

9.一种类似率算出装置，算出用于判断由专利文献或技报等技术文献构成的第1技术文献群和第2技术文献群的技术类似性的指标，其特征在于具有：

输入关键字、IPC等技术信息的技术信息输入装置；

并且对于第1技术文献群中包含的技术文献数M和第2技术文献群中包含的技术文献数N的构成比N/M和上述簇分解的结果所获得的混合簇中包含的第1技术文献群的技术文献数m和第2技术文献群的技术文献数n的混合比n/m，再把与取得了构成比和混合比的比的东西的ζ次幂(此处，0＜ζ)成比例的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及

10.一种类似率算出装置，算出用于判断由专利文献或技报等技术文献构成的第1技术文献群和第2技术文献群的技术类似性的指标，其特征在于具有：

输入关键字、IPC等技术信息的技术信息输入装置；

并且对从混合了第1技术文献群和第2技术文献群的技术文献群中取出第1技术文献群的技术文献的概率乘以上述簇分解了的混合簇中包含的技术文献数，算出取出第1技术文献群的技术文献的期望值，

作为期望值差而算出上述期望值和混合簇中包含的第1技术文献群的技术文献数的差，

把将该期望值差作为任意常数ξ(此处，1＜ξ)的负的指数所得的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的类似率算出装置；以及

11.一种类似率算出装置，算出用于判断由专利文献或技报等技术文献构成的第1技术文献群和第2技术文献群的技术类似性的指标，其特征在于具有：

输入关键字、IPC等技术信息的技术信息输入装置；

把该期望值差除以混合簇中包含的技术文献数，把所得的东西作为任意常数ξ(此处，1＜ξ)的负的指数而得到补正值，将其对于各混合簇算出总和，再除以上述算出了的全簇数，算出类似率的类似率算出装置；以及

12.一种类似率算出程序，借助于类似率算出装置的信息处理装置而工作，算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置、输出算出了的类似率的输出装置以及可控制上述技术文献群输入装置、技术信息输入装置、簇分解装置、类似率算出装置和输出装置的信息处理装置，所述类似率算出程序的特征在于，

所述信息处理装置，

使所述技术文献群输入装置实现输入成为比较对象的第1技术文献群和第2技术文献群的功能；

使所述技术信息输入装置实现输入关键字、IPC等技术信息的功能；

使所述簇分解装置实现对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇分解的功能；

使所述类似率算出装置实现算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且把上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数的比作为类似率而算出的功能；以及

使所述输出装置实现把上述算出了的类似率向记录装置、显示装置或通信装置输出的功能。

13.一种类似率算出程序，借助于类似率算出装置的信息处理装置而工作，算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置、输出算出了的类似率的输出装置以及可控制上述技术文献群输入装置、技术信息输入装置、簇分解装置、类似率算出装置和输出装置的信息处理装置，所述类似率算出程序的特征在于，

所述信息处理装置，

使所述类似率算出装置实现算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且把取与各混合簇中包含的技术文献的量对应的值的第1补正值和取与各混合簇中包含的第1技术文献群的技术文献和第2技术文献群的技术文献的掺混情形对应的值的第2补正值相乘所得的东西对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的功能；以及

14.一种类似率算出程序，借助于类似率算出装置的信息处理装置而工作，算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置、输出算出了的类似率的输出装置以及可控制上述技术文献群输入装置、技术信息输入装置、簇分解装置、类似率算出装置和输出装置的信息处理装置，所述类似率算出程序的特征在于，

所述信息处理装置，

使所述类似率算出装置实现算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且把与各个簇内的技术文献数的α次幂(此处，0＜α)成比例的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的功能；以及

15.一种类似率算出程序，借助于类似率算出装置的信息处理装置而工作，算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置、输出算出了的类似率的输出装置以及可控制上述技术文献群输入装置、技术信息输入装置、簇分解装置、类似率算出装置和输出装置的信息处理装置，所述类似率算出程序的特征在于，

所述信息处理装置，

使所述类似率算出装置实现算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且把将各个簇内的技术文献数的α次幂(此处，0＜α)除以归一化因子所得的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的功能；以及

16.根据权利要求15所述类似率算出程序，其特征在于，使所述类似率算出装置实现用全簇内的技术文献数的平均值作为所述归一化因子的功能。

17.一种类似率算出程序，借助于类似率算出装置的信息处理装置而工作，算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置、输出算出了的类似率的输出装置以及可控制上述技术文献群输入装置、技术信息输入装置、簇分解装置、类似率算出装置和输出装置的信息处理装置，所述类似率算出程序的特征在于，

所述信息处理装置，

使所述类似率算出装置实现算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且为了按照上述簇分解的结果所获得的混合簇中包含的第1技术文献群和第2技术文献群的技术文献数的概率进行补正，把与从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的γ次幂(此处，0＜γ)成比例的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的功能；以及

18.一种类似率算出程序，借助于类似率算出装置的信息处理装置而工作，算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置、输出算出了的类似率的输出装置以及可控制上述技术文献群输入装置、技术信息输入装置、簇分解装置、类似率算出装置和输出装置的信息处理装置，所述类似率算出程序的特征在于，

所述信息处理装置，

使所述类似率算出装置实现算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且为了按照上述簇分解的结果所获得的混合簇中包含的第1技术文献群和第2技术文献群的技术文献数的概率进行补正，把将从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的γ次幂(此处，0＜γ)除以归一化因子所得的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的功能；以及

19.根据权利要求15所述类似率算出程序，其特征在于，使所述类似率算出装置实现用从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的最大值的γ次幂(此处，0＜γ)作为所述归一化因子的功能。

20.一种类似率算出程序，借助于类似率算出装置的信息处理装置而工作，算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置、输出算出了的类似率的输出装置以及可控制上述技术文献群输入装置、技术信息输入装置、簇分解装置、类似率算出装置和输出装置的信息处理装置，所述类似率算出程序的特征在于，

所述信息处理装置，

使所述类似率算出装置实现算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且对于第1技术文献群中包含的技术文献数M和第2技术文献群中包含的技术文献数N的构成比N/M和上述簇分解的结果所获得的混合簇中包含的第1技术文献群的技术文献数m和第2技术文献群的技术文献数n的混合比n/m，再把与取得了构成比和混合比的比的东西的ζ次幂(此处，0＜ζ)成比例的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的功能；以及

21.一种类似率算出程序，借助于类似率算出装置的信息处理装置而工作，算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置、输出算出了的类似率的输出装置以及可控制上述技术文献群输入装置、技术信息输入装置、簇分解装置、类似率算出装置和输出装置的信息处理装置，所述类似率算出程序的特征在于，

所述信息处理装置，

使所述类似率算出装置实现算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，

把将该期望值差作为任意常数ξ(此处，1＜ξ)的负的指数所得的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的功能；以及

22.一种类似率算出程序，借助于类似率算出装置的信息处理装置而工作，算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置、输出算出了的类似率的输出装置以及可控制上述技术文献群输入装置、技术信息输入装置、簇分解装置、类似率算出装置和输出装置的信息处理装置，所述类似率算出程序的特征在于，

所述信息处理装置，

把该期望值差除以混合簇中包含的技术文献数，把所得的东西作为任意常数ξ(此处，1＜ξ)的负的指数而得到补正值，将其对于各混合簇算出总和，再除以上述算出了的全簇数，算出类似率的功能；以及

23.一种类似率算出方法，采用类似率算出装置来算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置和输出算出了的类似率的输出装置，所述类似率算出方法的特征在于包含：

技术文献群输入装置输入成为比较对象的第1技术文献群和第2技术文献群的工序；

技术信息输入装置输入关键字、IPC等技术信息的工序；

簇分解装置对于第1技术文献群和第2技术文献群中包含的技术文献，检索包含上述输入了的技术信息的技术文献，把该检索出的技术文献按各个技术信息进行簇分解的工序；

类似率算出装置算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且把上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数的比作为类似率而算出的工序；以及

输出装置把上述算出了的类似率向记录装置、显示装置或通信装置输出的工序。

24.一种类似率算出方法，采用类似率算出装置来算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置和输出算出了的类似率的输出装置，所述类似率算出方法的特征在于包含：

技术信息输入装置输入关键字、IPC等技术信息的工序；

类似率算出装置算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且把取与各混合簇中包含的技术文献的量对应的值的第1补正值和取与各混合簇中包含的第1技术文献群的技术文献和第2技术文献群的技术文献的掺混情形对应的值的第2补正值相乘所得的东西对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的工序；以及

25.一种类似率算出方法，采用类似率算出装置来算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置和输出算出了的类似率的输出装置，所述类似率算出方法的特征在于包含：

技术信息输入装置输入关键字、IPC等技术信息的工序；

类似率算出装置算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且把与各个簇内的技术文献数的α次幂(此处，0＜α)成比例的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的工序；以及

26.一种类似率算出方法，采用类似率算出装置来算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置和输出算出了的类似率的输出装置，所述类似率算出方法的特征在于包含：

技术信息输入装置输入关键字、IPC等技术信息的工序；

类似率算出装置算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且把将各个簇内的技术文献数的α次幂(此处，0＜α)除以归一化因子所得的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的工序；以及

27.根据权利要求26所述类似率算出方法，其特征在于包含所述类似率算出装置用全簇内的技术文献数的平均值作为归一化因子的工序。

28.一种类似率算出方法，采用类似率算出装置来算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置和输出算出了的类似率的输出装置，所述类似率算出方法的特征在于包含：

技术信息输入装置输入关键字、IPC等技术信息的工序；

类似率算出装置算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且为了按照上述簇分解的结果所获得的混合簇中包含的第1技术文献群和第2技术文献群的技术文献数的概率进行补正，把与从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的γ次幂(此处，0＜γ)成比例的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的工序；以及

29.一种类似率算出方法，采用类似率算出装置来算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置和输出算出了的类似率的输出装置，所述类似率算出方法的特征在于包含：

技术信息输入装置输入关键字、IPC等技术信息的工序；

类似率算出装置算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且为了按照上述簇分解的结果所获得的混合簇中包含的第1技术文献群和第2技术文献群的技术文献数的概率进行补正，把将从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的γ次幂(此处，0＜γ)除以归一化因子所得的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的工序；以及

30.根据权利要求29所述类似率算出方法，其特征在于包含所述类似率算出装置用从第1技术文献群中取出m个，从第2技术文献群中取出n个技术文献的概率的最大值的γ次幂(此处，0＜γ)作为归一化因子的工序。

31.一种类似率算出方法，采用类似率算出装置来算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置和输出算出了的类似率的输出装置，所述类似率算出方法的特征在于包含：

技术信息输入装置输入关键字、IPC等技术信息的工序；

类似率算出装置算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，并且对于第1技术文献群中包含的技术文献数M和第2技术文献群中包含的技术文献数N的构成比N/M和上述簇分解的结果所获得的混合簇中包含的第1技术文献群的技术文献数m和第2技术文献群的技术文献数n的混合比n/m，再把与取得了构成比和混合比的比的东西的ζ次幂(此处，0＜ζ)成比例的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的工序；以及

32.一种类似率算出方法，采用类似率算出装置来算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置和输出算出了的类似率的输出装置，所述类似率算出方法的特征在于包含：

技术信息输入装置输入关键字、IPC等技术信息的工序；

类似率算出装置算出上述簇分解的结果所获得的全簇数和包含第1技术文献群和第2技术文献群两者的技术文献的混合簇数，

把将该期望值差作为任意常数ξ(此处，1＜ξ)的负的指数所得的补正值对于各混合簇算出总和，除以上述算出了的全簇数，算出类似率的工序；以及

33.一种类似率算出方法，采用类似率算出装置来算出用于判断技术文献群彼此的技术类似性的指标，所述类似率算出装置具有输入技术文献群的技术文献群输入装置、输入关键字等技术信息的技术信息输入装置、把技术文献按技术信息进行簇分解的簇分解装置、算出全簇数和混合簇数并算出类似率的类似率算出装置和输出算出了的类似率的输出装置，所述类似率算出方法的特征在于包含：

技术信息输入装置输入关键字、IPC等技术信息的工序；

把该期望值差除以混合簇中包含的技术文献数，把所得的东西作为任意常数ξ(此处，1＜ξ)的负的指数而得到补正值，将其对于各混合簇算出总和，再除以上述算出了的全簇数，算出类似率的工序；以及输出装置把上述算出了的类似率向记录装置、显示装置或通信装置输出的工序。