判断任意两个技术系统相似程度的方法
技术领域
本申请涉及互联网络数据处理领域,尤其涉及判断任意两个技术系统相似程度的方法。
背景技术
通过整体相似技术系统的寻找和研究,有利于发现或规避市场竞争中可能发生的竞争风险,或者发现有利的参考技术,等等。然而,目前还没有一种有效且快速的方法能够帮助人们快速寻找整体上相似的技术系统或体系。
因此,人们经常需要寻找整体上相似的技术系统或体系,以便寻找合作者或进行技术参考或判断市场竞争风险。另外,对于任何一个企业来说,通常会有多个已知或未知的竞争性系统存在,寻找与自有技术系统最接近的其它技术系统,判断其相似性程度或竞争竞争性程度,就成为一种需要解决的现实需求。
通常,人们在寻找整体上相似的技术系统或体系时,会利用论文或专利技术信息,然而,单纯的论文能够提供的信息是极其有限的,无法支撑两个技术系统的技术相似性判断。如果利用专利信息,由于专利申请数量巨大以及专利本身只是一个解决技术问题的方案,由于一个技术系统理论上由无数个解决不同技术问题的方案经过复杂的联系组成,使用个别的专利信息判断两个技术系统的技术相似性,也是管中窥豹,难以实现。另外,专利申请数量的巨大也会导致通过检索快速获知与专利技术最接近的专利本身就具有不确定性,而且还可能产生巨大的数据处理量,而且不利于以自动化的方式实施,更无法给出两个技术系统相似或冲突程度的定量判断。
发明内容
基于上述技术问题,本申请的目的在于提供一种数据处理量较小、有利于以自动化方式实施的判断任意两个技术系统相似程度的方法。
本申请提供的判断任意两个技术系统相似程度的方法采用下述方案:
确定或选择一个具有包括至少两级具有逐级特征的技术分类规则;
分别从两个技术系统A、B中选择技术要点,得到对应的技术要点集合A、B;使用所述技术分类规则对技术要点集合A、B中的技术要点进行技术分类,得到对应的分类号码集合A、B;
在分类号码集合A中,选择M%的分类号码,获取每一个号码指示的每一个级别编码,得到M%的号码中的全部分类号码的每一个级别编码构成的集合X1i及对应的数量Y1i,以及,在分类号码集合B中,选择N%的分类号码,获取每一个号码指示的每一个级别编码,得到N%的号码中的全部分类号码的每一个级别编码集合X2i及对应的数量Y2i;其中,所述集合中的信息是去除重复以后的信息;
根据所述编码集合X1i、X2i,计算X1i、X2i中每一个级别编码重合的数量Ei;
根据Y1i、Y2i和Ei,计算分类号码集合A、B的每一个级别的编码相对重合度Ai、Bi;其中,对于分类号码集合A,Ai=(Ei/Y1i)%;对于分类号码集合B,Bi=(Ei/Y2i)%;
根据所述相对重合度Ai、Bi,计算分类号码集合A技术相关指数FA和分类号码集合B的技术相关指数FA;其中,
FA=∑Ci*Ai;FB=∑Ci*Bi;其中,Ci为经验常数;
根据所述相关指数FA和FB,计算分类号码集合A、B的相似性概率GA、GB;
GA=FA/(∑Ci);GB=FB/(∑Ci);
其中,GA是技术系统A与技术系统B的相似度;GB是技术系统B与技术系统A的相似度;
上述式中,i=1-n,其中n为技术分类规则的编码级别数。
本申请利用具有逐级特征的技术分类规则对技术系统中技术要点对应的方案进行分类,这样使得技术方案的分类号呈现级别或抽象特性,这样就可以结合结束要点的多样性,就可以通过技术要点的分类规则在整体上体现一个技术系统的全面性、层次性、特点突出性等全面、可识别的特征。从绝对角度看,这些特征本身由于难以确定衡量标准而无法量化表达一个系统特性,但是,恰好通过相对的方式,在判断任意两个技术系统相似程度的方法中实现了量化表达。同时,由于利用了技术分类规则,使得可以通过有限的技术要点实现技术系统的全面系统的表达,不但减少了数据处理量,还有利于以软件数据处理的自动化方式实施本申请提供的技术方案,即减少了人为因素的干扰,又提高的方法的事实效率。另外,本申请利用了技术要点在技术系统中分布的不确定性而实现技术系统整体表达的相对确定性,克服了传统思想中,局部难以表达整体的思维障碍。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1给出了本申请的第一个实施例流程图;
图2给出了本申请的第四个实施例流程图。
具体实施方式
由于一个技术系统是多个不同层次、不同内容技术方案的有机集合,这些技术方案可能属于不同的领域或学科,可能有关联,也可能完全没有联系,例如一个发动机系统的技术方案,就会涉及机械类、材料类、电路控制类、软件控制类等方案,从技术方案角度看,它们彼此可能没有任何直接的关系。另外,一个技术方案可能在不同的技术系统中都可以使用,因此,从技术方案本身来看,可能完全无法反映一个技术系统,通常我们不会通过具体的个体技术方案去判断技术系统整体的性质,况且,不能用局部代替整体是公知常识。这就导致了利用技术方案的个体信息判断两个技术系统的相似性或竞争性的程度极其困难,在思想上和操作方法上都存在障碍。
有很多原因会导致一个技术系统理论上有无数种描述,这些描述甚至能够被认为是属于不同的技术系统。但是,两个技术系统的相似性或竞争性的程度还是能够通过一些信息反应出来。例如,两个技术系统整体上的相似性程度越高,越会在较高的抽象层次上有反应,越倾向于局部的相似,越能够在较低的抽象层次上有反应,利用这一点,我们就有机会通过对一个技术系统不同抽象层次的多个概括描述,来判断两个技术系统的相似性或竞争性的程度。
本申请第一个实施例给出了一个通用的方案,它采用的原理是,为了从整体上描述一个技术系统,将一个技术系统的关键技术方案用四个抽象层次(也可以是更多的层次或更少的层次,但是不能少于两个层次,过多的层次会使方法的效率降低,且对判断的准确性提升程度有限)的概括描述去表达,根据两个技术系统关键技术方案每个层次的表达数量的统计和比较,就可以快速判断两个技术系统的相似性或竞争性的程度。参考图1。
在步骤1,确定或选择一个具有包括四级具有逐级特征的技术分类规则。这个技术分类规则可以预先设计出来使用,如果用于查询特定领域的技术系统,例如,化学领域或半导体领域等,有针对性设计的技术分类规则有利于检索和判断的准确性。但是,大部分情况下可以在常用的通用技术分类规则中选择一个使用,这在应用效果上没有太大区别,最常用的就是国际专利分类规则、欧洲或美国专利分类规则等。所述逐级特征就是前述的四个抽象层次,显然,前述的国际专利分类规则等就具有这个特征。如果自己设计这个规则可以参考下表,例如,四个抽象层次的技术分类规则的含义如下,其中,数值越小,抽象程度越高:
表1技术规则设计表
层级 |
一 |
二 |
三 |
四 |
名称 |
技术方向 |
技术领域 |
专业方向 |
专业领域 |
表达 |
A-G |
A-Z |
A-Z+数字0-9 |
A-Z+数字0-9 |
说明 |
1位 |
2位 |
3位 |
4位 |
例如,对于一个技术要点的编码BAFA01A105,其中,B代表该技术要点的技术方向信息,AF代表技术领域信息,A01代表专业方向信息,A105代表专业领域信息。
由于技术分类规则设计和内容定义属于公有技术范畴,此不在赘述。
在步骤2,分别从两个技术系统中选择技术要点。技术要点的选择按照全面、概括、重点兼顾的原则进行。所述全面,是强调技术要点的选择应该覆盖或兼顾技术系统结构的每一个分支,最大限度避免遗漏;所述概括,意在使所选择的技术要点及其描述具有多层次性,使得技术要点集合能体现系统的整体性特征;所述重点,尽可能选择系统中有特点的关键技术方案或创新技术方案,最大限度的提高系统的可识别性。这样,对于从第一个技术系统总结提炼出来的技术要点集合A,和从第二个技术系统总结提炼出来的技术要点集合B,使用前述的技术分类规则对其中的每个技术要点进行技术分类,这样就得到了对应的分类号码集合A、B。其中,所述技术要点集合中的技术要点信息是该技术要点的技术性描述文件,包括文字或图片等信息,例如也可以是专利申请文件的样式;而在分类号码集合中,则是每一个技术要点文件对应的技术分类代码。
在下述步骤,将以分类号码集合A、B为操作对象。
在步骤3,在分类号码集合A中,根据其中的分类号码数量,以任意的方式,例如随机或顺序方式选择80%的号码作为操作对象(在号码数量较少时,通常100%的选择。关于号码选择数量的说明在后文有详述),得到新的分类号码集合A;同样,在分类号码集合B中,根据其中的分类号码数量,选择100%的号码作为操作对象,得到新的分类号码集合B。
针对新的分类号码集合A,对于其中的每一个号码,获取该号码指示的每一个级别编码,去掉其中的重复项,得到全部号码的每一个级别编码集合X11、X12、X13和X14及对应的数量Y11、Y12、Y13和Y14,以及,在新的分类号码集合B中,对于其中的每一个号码,获取该号码指示的每一个级别编码,去掉其中的重复项,得到全部号码的每一个级别编码集合X21、X22、X23和X24及对应的数量Y21、Y22、Y23和Y24。下面说明“去掉其中的重复项”是如何操作的。假设新的分类号码集合A的全部号码的第一级别编码,即代表技术方向的编码集合X11为:
X11={B,A,C,C,B,D,E,F,D,B},其中,B重复2次,C重复1次,D重复1次,去除重复后,X11={B,A,C,D,E,F},这中情况下,对应的编码数量Y11=6。
在步骤4,根据所述编码集合X11、X12、X13和X14,和X21、X22、X23和X24,计算X11、X21编码重合的数量E1,以及X12、X22编码重合的数量E2、X13、X23编码重合的数量E3和X14、X24编码重合的数量E4。
例如,假设X11={B,A,C,D,E,F},X21={B,A,G},则X11、X21编码重合的数量E1=2。
在步骤5,计算分类号码集合A、B的每一个级别的编码相对重合度Ai、Bi;其中,
对于分类号码集合A,Ai=(Ei/Y1i)%;对于分类号码集合B,Bi=(Ei/Y2i)%。
在步骤6和步骤7,根据所述相对重合度Ai、Bi,计算分类号码集合A技术相关指数FA和分类号码集合B技术相关指数FA;其中,FA=∑Ci*Ai;FB=∑Ci*Bi;式中,Ci为经验常数;
根据所述相关指数FA和FB,计算分类号码集合A、B的相似性概率GA、GB;其中,GA=FA/(∑Ci);GB=FB/(∑Ci);
GA作为技术系统A与技术系统B的相似度;同样,GB作为技术系统B与技术系统A的相似度;
上述相关式中,i=1-n,其中n为技术分类规则的编码级别数,本例中,n=4。
在第一个实施例中,两个技术系统之间的相关性以相关指数来表征。相关指数公式形式如下:
F=C1*A1+C2*A2+C3*A3+C4*A4。
式中,F表示相关指数,A1、A2、A3和A4分别表示技术分类编码的一级、二级、三级和四级编码的重合度,C1、C2、C3和C4分别表示技术分类编码的一级、二级、三级和四级编码与系统整体性性质的相关系数,其经验值通过机器学习或统计等方法获得,用于标识该级编码对技术系统整体性性质的影响程度。
而两个技术系统之间的相似性程度或冲突程度由相似概率或冲突概率来表征。相似概率或冲突概率公式形式如下:
T=F/(C1+C2+C3+C4)×100%;
由此,可以得到两个技术系统之间的相似性程度或冲突程度的定量判断数值。
本申请其它实施例给出的判断任意两个技术系统相似性程度或冲突程度的方法,利用了专利分类规则。例如,通过两个技术系统的专利申请信息中记载的国际专利分类号,可以获知其指出的技术领域重合信息,由此就可以从整体上判断两个技术系统的相似性程度或冲突程度。在其它的实施例中,可以利用任意的技术分类规则获得两个技术系统的关键或主要技术点的技术分类,而不限于专利分类,或者说,专利分类只是技术分类的一种形式,只要两个技术系统按照相同的技术分类规则,对系统中的关键或主要技术点进行技术分类,都可以使用本申请提供的方法。例如利用两个技术系统在美国或者在欧洲申请的专利,就可以使用美国或欧洲的专利分类号,按照本申请提供的方法来判断任意两个技术系统的冲突程度。下面以国际专利分类号(IPC)作为技术系统中关键技术点的技术分类规则,说明本申请的其它实施例的具体实现过程。
国际专利分类号,即IPC,采用了功能和应用相结合的分类方式,以功能性为主、应用性为辅的分类原则。使用等级的形式,将技术内容注明为:部—大类—小类—大组—小组五个部分,逐级分类形成完整的分类体系。因此,一个完整的IPC分类号由代表部、大类、小类、大组和小组的符号组合构成。
在第二个实施例中,就是利用这五个部分的信息来判断两个技术系统,或两个企业的技术系统的相似性程度或冲突程度。在第三个实施例中,利用这五个部分信息中的四个,即大类、小类、大组和小组的信息来判断两个技术系统,或两个企业的技术系统的相似性程度或冲突程度。同理,在第四个实施例中,利用这五个部分信息中的三个,即小类、大组和小组的信息来判断两个技术系统,或两个企业的技术系统的相似性程度或冲突程度。在第五个实施例中,利用这五个部分信息中的二个,即大组和小组的信息来判断两个技术系统,或两个企业的技术系统的相似性程度或冲突程度。在第六个实施例中,也利用这五个部分信息中的一个,即小组的信息来判断两个技术系统,或两个企业的技术系统的冲突程度。
显然,在这五个信息中,部的信息概念范围最大,利用该信息的目的在于不遗漏所使用的信息;而小组的信息概念范围最小,利用该信息的目的在于使所使用的信息更精准。因此,还可以有多个利用专利分类信息的实施例,例如只利用部、小类、大组和小组的信息来判断两个技术系统,或两个企业的技术系统的相似性程度或冲突程度。等等。下面以利用这五个部分信息中的三个,即小类、大组和小组的信息来判断两个技术系统相似性程度或冲突程度的第四个实施例,进一步对本申请的技术方案进行说明,该实施例所述方法可以用软件的形式来实施。
第四个实施例参考图2。
本实施例的特点是,利用两个技术系统专利申请作为技术要点,以专利申请的国际专利分类号作为技术分类规则。具体说,国际专利分类号依据企业A及主要竞争对手企业B专利申请的IPC分类的小类、大组和小组分类号进行二个企业技术系统之间的技术相关性分析。
相关性以相关指数来表征,它假设企业A和企业B的技术要点全部作为专利申请且完全转化,即应用于实际产品,并且专利表现均正常,没有或忽略专利无效和诉讼的影响,在此前提下,相关指数代表了企业A和企业B的两个技术系统通过专利申请文件表现出的技术重合程度;由于技术重合程度是引发专利冲突的重要因素,据此就可以预先判断两个企业或两个技术系统之间发生相似性程度或专利冲突(专利侵权风险)的概率。
具体的分析方法为:
(1)建立相关性分析的数学模型;
(2)比较企业A和企业B专利申请之间的小类、大组和小组分类号,得出二者之间的重合程度;
(3)根据数学模型确定二者之间的相关度和冲突概率。
首先在步骤11,获得或取出企业A和企业B的所有专利申请信息中的IPC号码(注,如果一件专利有多个分类号,只使用或取得排序第一的主分类号),形成两个IPC号码集,这两个IPC号码集分别与企业A、B的技术系统对应。
在步骤12,获取第一个号码集或第一个技术系统100%专利量的国际专利分类号指示的小类编码、大组编码和小组编码,去掉每组编码中重复的部分,得到小类编码集合B3(表1的第一列,即企业A的IPC小类)、小类编码的数量b3为19(表1的第一列最后一行,即企业A的IPC小类列的最后一行),大组编码集合B2(表2的第一列,即企业A的IPC大组)、大组编码的数量b2为19(表2的第一列最后一行,即企业A的IPC大组列的最后一行),和,小组编码集合B1(表3的第一列,即企业A的IPC小组)、小组编码的数量b1为13(表3的第一列最后一行,即企业A的IPC小组列的最后一行)。
再获取第二个号码集或获取第二个技术系统100%专利量的国际专利分类号指示的小类编码、大组编码和小组编码,去掉每组编码中重复的部分,得到小类编码集合D3(表2的第二列,即企业B的IPC小类)、小类编码的数量d3为10(表2的第二列最后一行,即企业B的IPC小类列的最后一行),大组编码集合D2(表2的第二列,即企业B的IPC大组)、大组编码的数量d2为10(表3的第二列最后一行,即企业B的IPC大组列的最后一行),和小组编码集合D1(表4的第二列,即企业B的IPC小组)、小组编码的数量d1为5(表4的第二列最后一行,即企业B的IPC小组列的最后一行)。
表2:企业A和企业B的IPC小类比较表
表3:企业A和企业B的IPC大组比较表
表4:企业A和企业B的IPC小组比较表
企业A的IPC小组 |
企业B的IPC小组 |
重合IPC小组 |
A47K3/22 |
E21C35/22 |
|
B60M1/20 |
E21C41/16 |
|
B61C11/02 |
B25B27/14 |
|
B61G3/24 |
E21C35/04 |
|
B61K7/16 |
E21D15/54 |
|
B61K7/18 |
|
|
B65G11/02 |
|
|
B65G21/20 |
|
|
B65G65/10 |
|
|
B66B15/02 |
|
|
B66D1/36 |
|
|
C01B33/113 |
|
|
C09K3/22 |
|
|
合计13项 |
合计5项 |
重复0项 |
需要说明,在步骤2中,分别选择了企业A和企业B的100%专利作为数据分析对象,在其它的实施例中,这两个数值的范围分别可以在50到100之间,例如80,但是优选值是100,以避免遗漏和提高方法执行结果的准确性。另外,这两个值可以相等,也可以不相等,这样做的结果是方法的执行结果有一定的误差,但是不影响整体判断,同时也增强了方法的实用性,任何技术系统都可以判断。另外,设定一个选择范围,可以在效果和效率之间取得更好的平衡,以及方法的使用灵活性。
在步骤13,根据步骤2得到的二个技术系统的小类编码集合B3、D3,大组编码集合B2、D2和小组编码集合B1、D1,计算二个技术系统小类编码重合的数量E3为5(表1的第三列,即重合的IPC小类列的最后一行)、大组编码重合的数量E2为1(表2的第三列,即重合的IPC大组列的最后一行)和小组编码重合的数量E1为0(表3的第三列,即重合的IPC小组列的最后一行)。
在步骤14,根据任意一个技术系统的小类编码数量b3=19、d3=10,大组编码数量b2=19、d2=10,和小组编码数量b1=13、d1=5,以及二个技术系统小类编码重合的数量E3=5、大组编码重合的数量E2=1和小组编码重合的数量E1=0,计算任意一个技术系统的小类编码重合度、大组编码重合度和小组编码重合度;其中,对于第一个技术系统,A3=(E3/b3)%=(5/19)%≈26%,A2=(E2/b2)%=(1/19)%≈5%,A1=(E1/b1)%=(0/13)%=0;
对于第二个技术系统,B3=(E3/d3)%=(5/10)%≈50%,B2=(E2/d2)%=(1/10)%≈10%,B1=(E1/d1)%=(0/5)%=0。
在步骤15,根据所述重合度,计算任意一个技术系统相对另一个技术系统的专利技术相关指数F;其中,对于第一个技术系统,FA=C3*A3+C2*A2+C1*A1,FB=C3*B3+C2*B2+C1*B1,C3、C2、C1为经验常数,本例中,C3、C2、C1分别表示IPC小类、大组和小组的分类与两个系统冲突的相关系数,其经验值分别为1,2,3。
对于第一个技术系统,FA=C3*A3+C2*A2+C1*A1,即,FA=C3*A3+C2*A2+C1*A1=1*26%+2*5%+3*0=36%。
对于第二个技术系统,FB=C3*B3+C2*B2+C1*B1,即,FB=C3*B3+C2*B2+C1*B1=1*50%+2*10%+3*0=60%。
在步骤16,根据所述相关指数F,或计算任意一个技术系统相对另一个技术系统的专利冲突概率G;其中。
GA=FA/(C3+C2+C1)=36%/(1+2+3)=6%。GA作为第一个技术系统与第二个技术系统的相似度。GB=FB/(C3+C2+C1)=60%/(1+2+3)=10%。GB作为第二个技术系统与第一个技术系统的相似度。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。