技术类开放式数字资产的检索方法
技术领域
本申请涉及互联网络数据处理领域,尤其涉及技术类开放式数字资产的检索方法。
背景技术
在数字资产金融交易中心,能够交易的数字资产,即认证后的数字资产会存储在交易中心的数字资产登记平台,由数字资产登记平台管理对这些交易前或交易后的数字资产信息进行管理和使用,例如与其他数据平台实现信息共享、应请求对平台存储的数字资产进行检索或验证等。
数字资产通常是以知识产权等智力成果为核心的数字化形式的资产,主要包括技术类、设计类和表达类的数字资产,技术类的数字资产如专利数字资产,设计类数字资产如版权或外观数字资产,表达类数字资产如商标类数字资产,等等。其中,技术类数字资产,如专利数字资产,可能由多项有竞争关系互补关系的专利及其伴随或依赖的母体资产组成。图1是数字资产登记平台的一个应用场景图。图中,用户通过终端1上安装的客户端11、12或APP等软件,通过互联网实现对数字资产登记平台2的访问。通常,在数字资产登记平台2登记的已认证数字资产形式上是一个数据包,参考图2(图2是认证数字资产数据包结构、内容示例)。该数据包包括两部分,数字资产著录项目21和数字资产实体22,其中,数字资产著录项目21存储在数字资产登记平台2,数字资产实体22以集中或分散的形式存储在本地服务器或第三方服务器3中。如果数字资产登记平台2是区块链网络4的公链节点或专用子链节点,则数字资产实体22也会存储在区块链的专用子链中。进一步,数字资产著录项目21包括数字资产登记项211和数字资产技术描述212。以专利数字资产为例,其中的数字资产登记项211可能包括多项(至少一项),例如包括认证码信息和几百项竞争性专利或互补性专利的著录项目数据。而数字资产技术描述212是对前者的综合技术、法律、市场信息等的综合描述,形式上,该描述包括摘要和详细描述。
实践中,用户经常需要使用客户端软件11、12对数字资产交易平台2存储的数字资产信息进行浏览、检索操作。对于技术类数字资产,检索的目的在于找到目标专利资产包。
通常的数字资产具有开放性,目的是吸纳有价值的其它以知识产权为核心的有价值数字资产加入组成新的数据包。新加入的数字资产与数据包中已有的数字资产相比,二者要么具有竞争性,要么具有互补性,以在技术角度完善数字包代表的技术体系,使其更具有竞争力和价值创造力。因此,对具有开放式需求的特定数字资产数据包的检索成为困扰我们的问题。传统的检索方法,例如基于关键词的检索方法,本质上是相似度检索法,即,在待检索的数据包集合中,找到与自己给出的关键词使用条件相似度最高的数据包。然而,相似度检索法的检索依据只能体现检索者的需求,无法体现待检测数据包的开放式需求,因此,无法对具有开放式需求的特定数字资产数据包进行有效检索。
另外,技术类数字资产,例如专利数字资产,其数据包通常包括多个性质完全不同的专利或专利组合,例如一个关于发动机的专利资产数据包,就可能包括结构、材料、控制、软件甚至化学方面的专利,因此,它的开放式需求也是多样化的,这使得对于具有开放式需求的专利资产数据包更难以实现以内容为基础的整体检索。
发明内容
基于上述技术问题,本申请的目的在于提供一种以专利数字资产数据包整体为检索对象、以及能够以自动化方式有效检索目标专利数字资产数据包的方法。
本申请提供的第一种技术类开放式数字资产的检索方法包括:
在数字资产数据包中设置技术方案需求描述文件,其中包括数字资产数据包所需求的至少一个技术方案;
获取检索请求以及对应的目标数字资产技术描述文件,所述技术描述文件中包括至少一个技术方案,得到目标技术方案集合A;
获取待检测数字资产数据包集合,确定集合中每个数字资产数据包中技术方案需求描述文件对应的技术方案子集合B;
根据目标技术方案集合A和每个技术方案子集合B,计算目标技术方案集合A与每个技术方案子集合B的相似度指数;
根据所述相似度指数将数字资产数据包集合中的数据包排序后输出。
本申请提供的第二种技术类开放式数字资产的检索方法包括:
在数字资产数据包中设置技术方案需求描述文件,其中包括数字资产数据包所需求的至少一个技术方案;
获取检索请求以及对应的目标数字资产技术描述文件,所述技术描述文件中包括至少一个技术方案,得到目标技术方案集合A;
获取待检测数字资产数据包集合,确定集合中每个数字资产数据包中技术方案需求描述文件对应的技术方案子集合B;
确定目标技术方案集合A对应的所有技术方案的专利分类号集合A和每个技术方案子集合B对应的所有技术方案的专利分类号集合B;
根据专利分类号集合A和每个专利分类号集合B,计算目标技术方案集合A与每个技术方案子集合B的相似度指数;
根据所述相似度指数将数字资产数据包集合中的数据包排序后输出。
本申请在数字资产数据包中设置技术方案需求描述文件,再根据检索请求提供的技术描述文件,就能够在待检测数字资产数据包集合中,通过将技术方案的技术分类,以及通过技术分类表达的技术方向、领域等信息,计算两个技术方案之间的相对的相似程度,进一步得到两个技术方案集合之间的相对的相似程度,从而在整体上实现针对技术系统需求的线上检索。本申请技术方案的最大特点,一是利用了技术方案个体之间的相对的或模糊的或不精确的相似度指标,实现了对于技术系统集合,即由多个不同领域技术方案构成的数据包集合中的数据包或技术系统的查询和定量表达,克服了只能以技术方案的关键词为线索的传统查询思维的限制;二是实现了满足被检索数据包需求,即满足他人需求的检索,这与传统的仅满足自身需求的检索形成了巨大反差。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是数字资产登记平台的一个应用场景图;
图2是认证数字资产数据包结构、内容示例图;
图3是本申请实施例给出的第一个技术类开放式数字资产的检索方法流程图;
图4是图3所述流程采用的第一种计算目标技术方案集合A与技术方案子集合B的相似度指数的示例图;
图5是图4所述示例采用的计算目标技术方案集合A与技术方案子集合B的相似度的示例图;
图6是图3所述流程采用的第二种计算目标技术方案集合A与技术方案子集合B的相似度指数的流程图;
图7是本申请实施例给出的第二个技术类数字资产的检索方法流程图;
图8是图7所述流程采用的第一种计算目标技术方案集合A与技术方案子集合B的相似度指数的流程图。
具体实施方式
从经济角度和技术角度看,任何一个技术系统或体系都需要不断积极进化或演变,才可能保持竞争力和价值创造能力,因此,作为交易或投资对象的数字资产数据包代表的技术系统也需要不断完善才能实现积极进化。然而,作为新的技术方案提供方如何才能在众多的数字资产数据包中快速找到最接近的或者对所提供的技术方案需求可能性最大的数据包?
由于一个技术系统是多个不同层次、不同内容技术方案的有机集合,这些技术方案可能属于不同的领域或学科,可能有关联,也可能完全没有联系,例如一个发动机系统的技术方案,就会涉及机械类、材料类、电路控制类、软件控制类等方案,从技术方案角度看,它们彼此可能没有任何直接的关系。另外,一个技术方案可能在不同的技术系统中都可以使用,例如,从一个技术方案本身来看,可能完全无法反映一个技术系统,因此,我们不会通过具体的个体技术方案去判断技术系统整体的性质,况且,不能用局部代替整体是公知常识。由于数据包所需求的技术方案具有多样性和不确定性,使得传统上基于关键词的检索方法和基于技术领域的检索方法都变得无效。
图3是本申请实施例给出的第一个技术类开放式数字资产的检索方法流程图。
按照图3,第一步(步骤31),在数字资产数据包中设置技术方案需求描述文件,这个文件中记载了该数字资产数据包技术进化所需要的技术方案,这些方案可以是竞争性的,也可以是互补性的,还可以是产业链上下游相关的,方案解决的问题可以是技术类问题,也可以是法律类问题,等等。该步骤的实施,通常在数字资产数据包首次形成阶段设置,其内容可以后续,即在交易过程中修改补充完善。
后续步骤,是通过计算程序实现的检索方法。
在步骤32,获得合法客户端发送的检索请求,该检索请求中包括目标数字资产技术描述文件,这个文件中有至少一个或多个技术方案,这些技术方案通常是请求人能够提供的技术方案描述,它们构成了目标技术方案集合A。其中,方案描述可以是任何有利于清楚地描述数字资产数据包的形式,例如、WORD文档,或者PDF文档,等等。另外,检索请求中也可以包含其它限制性条件,以缩小检索范围。
在步骤33,可以在系统平台上或区块链网络中,根据检索条件获取待检测数字资产数据包集合。对于集合中每个数字资产数据包,可以通过其技术描述部分或文档,得到该数字资产数据包的全部技术要点对应的技术方案子集合B。
在步骤34,计算目标技术方案集合A与每个技术方案子集合B的相似度指数。所述相似度指数能够表征待检测数字资产数据包集合中的每个数字资产数据包与检索请求中的目标数字资产技术描述文件中给出的技术方案在整体上的相似程度。最后在步骤35,根据所述相似度指数将待检测数字资产数据包集合中的数据包重新排序后输出,从而实现对技术类数字资产的检索。
其中,步骤34中采用的步骤计算目标技术方案集合A与技术方案子集合B的相似度指数的步骤可以采用下述子步骤。参考图4。图4是步骤13采用的第一种计算目标技术方案集合A与技术方案子集合B的相似度指数的示例图。
按照图4,先确定目标技术方案集合41中的每一个技术方案11、12、13,然后逐个确定待检测数字资产数据包集合42中的每个数字资产数据包421、422、423,进一步可以通过每个数字资产数据包421、422、423中的技术描述部分或文档,确定数字资产数据包421、422、423对应的技术方案子集合中的技术方案。具体说,数据包421的技术方案子集合中有技术方案211、212;数据包422的技术方案子集合中有技术方案221、222、223和224;数据包423的技术方案子集合中有技术方案231、232和233。接着计算目标技术方案集合41中每一个技术方案11、12、13与每个数据包421、422、423的技术方案子集合中的每个技术方案的相似度。即,技术方案11、12、13与数据包421、422和423的技术方案子集合中的每个技术方案的相似度。
具体说,完成下列计算:
(一)方案相似度计算,可采用多种顺序计算,例如如下顺序。
1、计算技术方案11与数据包421技术方案211、212的相似度a11-211和a11-212;技术方案11与技术方案221、222、223、224的相似度a11-221、a11-222、a11-223和a11-224;技术方案11与技术方案231、232、233的相似度a11-231、a11-232、a11-233;参考图4中的数据集合43。
2、计算技术方案12与数据包421技术方案211、212的相似度a12-211和a12-212;技术方案12与技术方案221、222、223、224的相似度a12-221、a12-222、a12-223和a12-224;技术方案12与技术方案231、232、233的相似度a12-231、a12-232、a12-233;参考图4中的数据集合44。
3、计算技术方案13与数据包421技术方案211、212的相似度a13-211和a13-212;技术方案13与技术方案221、222、223、224的相似度a13-221、a13-222、a13-223和a13-224;技术方案13与技术方案231、232、233的相似度a13-231、a13-232、a13-233;参考图4中的数据集合45。
(二)方案最大相似度和技术方案集合之间的相似度指数计算计算。
1、计算目标技术方案集合41的每个技术方案与数据包421的技术方案子集合的方案最大相似度,以及,计算目标技术方案集合41与数据包421的技术方案子集合的相似度指数。
(1)计算技术方案11、12、13与数据包321的技术方案子集合的方案最大相似度A11、A12、A13,其中:
A11=a11-211+a11-212;A12=a12-211+a12-212;A13=a13-211+a13-212;
(2)计算目标技术方案集合41与数据包421的技术方案子集合的相似度指数X11,其中:
X11=A11+A12+A13。
2、计算目标技术方案集合41的每个技术方案与数据包422的技术方案子集合的方案最大相似度,以及,计算目标技术方案集合41与数据包422的技术方案子集合的相似度指数。
(1)计算技术方案11、12、13与数据包422的技术方案子集合的方案最大相似度B11、B12、B13,其中:
B11=a11-221+a11-222+a11-223+a11-224;B12=a12-221+a12-222+a12-223+a12-224;B13=a13-221+a13-222+a13-223+a13-224;
(2)计算目标技术方案集合41与数据包422的技术方案子集合的相似度指数X12,其中:
X12=B11+B12+B13。
3、计算目标技术方案集合41的每个技术方案与数据包423的技术方案子集合的方案最大相似度,以及,计算目标技术方案集合41与数据包423的技术方案子集合的相似度指数。
(1)计算技术方案11、12、13与数据包423的技术方案子集合的方案最大相似度C11、C12、C13,其中:
C11=a11-231+a11-232+a11-233;C12=a12-231+a12-232+a12-233;
C13=a13-231+a13-232+a13-233;
(2)计算目标技术方案集合41与数据包423的技术方案子集合的相似度指数:
X13=C11+C12+C13。
可见,X11、X12和X13就是步骤14数据包重新排序的依据。
上述(一)中技术方案相似度的计算,可以采用基于关键词的计算方法,也可以采用基于语义的计算方法,来计算目标技术方案集合A中每一个技术方案与技术方案子集合B的每个技术方案的相似度。例如,基于关键词的方法,参考图5,图5中还给出了利用所述相似度计算方案最大相似度和技术方案集合之间的相似度指数的示例。
先确定目标技术方案集合51中的每一个技术方案11、12、13,提炼出技术方案11、12、13分别对应的全部关键词及对应的衍生词生成的目标关键词集合H1、H2、H3,所述衍生词包括关键词的同义词、近义词、上位词、下位词等;其中,所述H1、H2、H3是分别去除其中的重复关键词后形成的关键词集合。然后逐个确定待检测数字资产数据包集合52中的每个数字资产数据包521、522、523,进一步可以通过每个数字资产数据包521、522、523中的技术描述部分或文档,确定数字资产数据包521、522、523对应的技术方案子集合中的技术方案。具体说,数据包521的技术方案子集合中有技术方案211、212;数据包522的技术方案子集合中有技术方案221、222、223和224;数据包523的技术方案子集合中有技术方案231、232和233。
接着计算计算目标关键词集合H1、H2、H3中的每个关键词与每个数据包521、522、523中出现的次数。即,H1、H2、H3中的每个关键词在数据包521、522和523的技术方案子集合中的每个技术方案中出现的次数。
如图5所示,集合H1中的关键词在数据包521的技术方案211中出现10次,即相似度数值为10;在技术方案212中出现15次,即相似度数值为15;在数据包522的技术方案221中出现20次,即相似度数值为20;在技术方案222中出现15次,即相似度数值为15;在技术方案223中出现30次,即相似度数值为30;在技术方案224中出现5次,即相似度数值为5;在数据包523的技术方案231中出现0次,即相似度数值为0;在技术方案232中出现5次,即相似度数值为5,在技术方案233中出现2次,即相似度数值为2。
集合H2中的关键词在数据包521的技术方案211中出现5次,即相似度数值为5;在技术方案212中出现15次,即相似度数值为15;在数据包522的技术方案221中出现5次,即相似度数值为5;在技术方案222中出现10次,即相似度数值为10;在技术方案223中出现20次,即相似度数值为20;在技术方案224中出现10次,即相似度数值为10;在数据包523的技术方案231中出现5次,即相似度数值为5;在技术方案232中出现5次,即相似度数值为5,在技术方案233中出现5次,即相似度数值为5。
集合H3中的关键词在数据包521的技术方案211中出现10次,即相似度数值为10;在技术方案212中出现20次;即相似度数值为20;在数据包522的技术方案221中出现25次,即相似度数值为25;在技术方案222中出现15次,即相似度数值为15;在技术方案223中出现5次,即相似度数值为5;在技术方案224中出现5次,即相似度数值为5;在数据包523的技术方案231中出现10次,即相似度数值为10;在技术方案232中出现5次,即相似度数值为5,在技术方案233中出现5次,即相似度数值为5。
将目标关键词集合H1中的每个关键词在技术方案子集合521的技术方案211、212中出现的次数10、15相加,就是目标技术方案51中的技术方案11与待检测数字资产数据包集合52中的数字资产数据包521的方案最大相似度25,本例中,技术方案11与数字资产数据包521的方案最大相似度数值为25,即图5中A11的值为25。
同理,还可以获得目标技术方案51中的技术方案12与待检测数字资产数据包集合52中的数字资产数据包521的方案最大相似度,本例中,技术方案12与数字资产数据包521的方案最大相似度数值为20,即图5中A12的值为20。目标技术方案51中的技术方案13与待检测数字资产数据包集合52中的数字资产数据包521的方案最大相似度A13值为30。
进一步,目标技术方案51与待检测数字资产数据包集合52中的数字资产数据包521的相似度指数X11=A11+A12+A13=25+20+30=75。目标技术方案51与待检测数字资产数据包集合52中的数字资产数据包522的相似度指数X12=B11+B12+B13=70+45+50=165。目标技术方案51与待检测数字资产数据包集合52中的数字资产数据包523的相似度指数X13=C11+C12+C13=7+15+20=42。
在本申请的其它实施例中,采用基于语义的计算方法计算技术方案之间的语义相似度。假设语义相似度函数为LAN(X1,X2),其中,X1为第一个技术文件的描述文档,X2为第二个技术文件的描述文档,因此技术方案11与技术方案211的语义相似度为LAN(技术方案11,技术方案211)。显然,通过语义相似度可以得到数字资产数据包之间的相似度指数,此不再赘述。
图6是图3所述流程采用的第二种计算目标技术方案集合A与技术方案子集合B的相似度指数的流程图。
图6所述流程给出了一个通用的方案,它采用的原理是,为了从整体上描述一个技术系统,将一个技术系统的关键技术方案用四个抽象层次(也可以是更多的层次或更少的层次,但是不能少于两个层次,过多的层次会使方法的效率降低,且对判断的准确性提升程度有限)的概括描述去表达,根据两个技术系统关键技术方案每个层次的表达数量的统计和比较,就可以快速判断两个技术系统的相似性或竞争性的程度。参考图6。
在步骤61,确定或选择一个具有包括四级具有逐级特征的技术分类规则。这个技术分类规则可以预先设计出来使用,如果用于检索特定领域的技术系统,例如,化学领域或半导体领域等,有针对性设计的技术分类规则有利于检索和判断的准确性。但是,大部分情况下可以在常用的通用技术分类规则中选择一个使用,这在应用效果上没有太大区别,最常用的就是国际专利分类规则、欧洲或美国专利分类规则等。所述逐级特征就是前述的四个抽象层次,显然,前述的国际专利分类规则等就具有这个特征。如果自己设计这个规则可以参考下表,例如,四个抽象层次的技术分类规则的含义如下,其中,数值越小,抽象程度越高:
表1技术规则设计表
层级 |
一 |
二 |
三 |
四 |
名称 |
技术方向 |
技术领域 |
专业方向 |
专业领域 |
表达 |
A-G |
A-Z |
A-Z+数字0-9 |
A-Z+数字0-9 |
说明 |
1位 |
2位 |
3位 |
4位 |
例如,对于一个技术要点的编码BAFA01A105,其中,B代表该技术要点的技术方向信息,AF代表技术领域信息,A01代表专业方向信息,A105代表专业领域信息。
由于技术分类规则设计和内容定义属于公有技术范畴,此不在赘述。
步骤62,分别从两个技术系统中选择技术要点。技术要点的选择按照全面、概括、重点兼顾的原则进行。所述全面,是强调技术要点的选择应该覆盖或兼顾技术系统结构的每一个分支,最大限度避免遗漏;所述概括,意在使所选择的技术要点及其描述具有多层次性,使得技术要点集合能体现系统的整体性特征;所述重点,尽可能选择系统中有特点的关键技术方案或创新技术方案,最大限度的提高系统的可识别性。这样,对于从第一个技术系统总结提炼出来的技术要点集合A,和从第二个技术系统总结提炼出来的技术要点集合B,使用前述的技术分类规则对其中的每个技术要点进行技术分类,这样就得到了对应的分类号码集合A、B。其中,所述技术要点集合中的技术要点信息是该技术要点的技术性描述文件,包括文字或图片等信息,例如也可以是专利申请文件的样式;而在分类号码集合中,则是每一个技术要点文件对应的技术分类代码。
在下述步骤,将以分类号码集合A、B为操作对象。
步骤63,在分类号码集合A中,根据其中的分类号码数量,以任意的方式,例如随机或顺序方式选择80%的号码作为操作对象(在号码数量较少时,通常100%的选择。关于号码选择数量的说明在后文有详述),得到新的分类号码集合A;同样,在分类号码集合B中,根据其中的分类号码数量,选择100%的号码作为操作对象,得到新的分类号码集合B。
针对新的分类号码集合A,对于其中的每一个号码,获取该号码指示的每一个级别编码,去掉其中的重复项,得到全部号码的每一个级别编码集合X11、X12、X13和X14及对应的数量Y11、Y12、Y13和Y14,以及,在新的分类号码集合B中,对于其中的每一个号码,获取该号码指示的每一个级别编码,去掉其中的重复项,得到全部号码的每一个级别编码集合X21、X22、X23和X24及对应的数量Y21、Y22、Y23和Y24。下面说明“去掉其中的重复项”是如何操作的。假设新的分类号码集合A的全部号码的第一级别编码,即代表技术方向的编码集合X11为:
X11={B,A,C,C,B,D,E,F,D,B},其中,B重复2次,C重复1次,D重复1次,去除重复后,X11={B,A,C,D,E,F},这中情况下,对应的编码数量Y11=6。
步骤64,根据所述编码集合X11、X12、X13和X14,和X21、X22、X23和X24,计算X11、X21编码重合的数量E1,以及X12、X22编码重合的数量E2、X13、X23编码重合的数量E3和X14、X24编码重合的数量E4。
例如,假设X11={B,A,C,D,E,F},X21={B,A,G},则X11、X21编码重合的数量E1=2。
步骤65,计算分类号码集合A、B的每一个级别的编码相对重合度Ai、Bi;其中,
对于分类号码集合A,Ai=(Ei/Y1i)%;对于分类号码集合B,Bi=(Ei/Y2i)%。
步骤66和67,根据所述相对重合度Ai、Bi,计算分类号码集合A技术相关指数FA和分类号码集合B技术相关指数FA;其中,FA=∑Ci*Ai;FB=∑Ci*Bi;式中,Ci为经验常数;
根据所述相关指数FA和FB,计算分类号码集合A、B的相似性概率GA、GB;其中,GA=FA/(∑Ci);GB=FB/(∑Ci);
将GA作为目标技术方案集合A与技术方案子集合B的相似度指数,GB作为技术方案子集合B与目标技术方案集合A的相似度指数;
上述相关式中,i=1-n,其中n为技术分类规则的编码级别数,本例中,n=4。
前述每个技术要点的技术分类号码可以包括一个或多个分类号码。
图7是本申请实施例给出的第二个技术类数字资产的检索方法流程图。
按照图5,第一步(步骤71),在数字资产数据包中设置技术方案需求描述文件,这个文件中记载了该数字资产数据包技术进化所需要的技术方案,这些方案可以是竞争性的,也可以是互补性的,还可以是产业链上下游相关的,方案解决的问题可以是技术类问题,也可以是法律类问题,等等。
后续步骤,是通过计算程序实现的检索方法。
在步骤72获得合法客户端发送的检索请求,该检索请求中包括目标数字资产技术描述文件,这个文件中包括目标数字资产的全部技术要点对应的至少一个或多个技术方案,这些技术方案构成了目标技术方案集合A。
在步骤73,可以在系统平台上或区块链网络中,根据检索条件获取待检测数字资产数据包集合。对于集合中每个数字资产数据包,可以通过其技术描述部分或文档,得到该数字资产数据包的全部技术要点对应的技术方案子集合B。
在步骤74,确定目标技术方案集合A中所有技术方案对应的专利分类号集合A和每个技术方案子集合B中所有技术方案对应的专利分类号集合B。由于一个技术方案可能会有多个专利分类号,因此,集合A和集合B应当采用一个分类号纳入标准,要么只选择技术方案的主分类号纳入集合,要么将技术方案的所有分类号都纳入集合。前者有利于提高计算效率,但是当数字处理器计算资源充足时,后者则会提高计算精确度。
在步骤75,根据专利分类号集合A和每个专利分类号集合B,计算目标技术方案集合A与每个技术方案子集合B的相似度指数。所述相似度指数能够表征待检测数字资产数据包集合中的每个数字资产数据包与检索请求中的目标数字资产技术描述文件中给出的技术方案在整体上的相似程度。最后在步骤76,根据所述相似度指数将待检测数字资产数据包集合中的数据包重新排序后输出,从而实现对技术类数字资产的检索。
图7所述实施例采用的判断两个技术系统相似度指数的方法,利用了专利分类规则。例如,通过两个技术系统的专利申请信息中记载的国际专利分类号,可以获知其指出的技术领域重合信息,由此就可以从整体上判断两个技术系统的相似性程度。在其它的实施例中,可以利用任意的技术分类规则获得两个技术系统的关键或主要技术点的技术分类,而不限于专利分类,或者说,专利分类只是技术分类的一种形式,只要两个技术系统按照相同的技术分类规则,对系统中的关键或主要技术点进行技术分类,都可以使用本申请提供的方法。例如利用两个技术系统在美国或者在欧洲申请的专利,就可以使用美国或欧洲的专利分类号,按照本申请提供的方法来判断任意两个技术系统的冲突程度。下面以国际专利分类号(IPC)作为技术系统中关键技术点的技术分类规则,说明本申请的其它实施例的具体实现过程。
国际专利分类号,即IPC,采用了功能和应用相结合的分类方式,以功能性为主、应用性为辅的分类原则。使用等级的形式,将技术内容注明为:部—大类—小类—大组—小组五个部分,逐级分类形成完整的分类体系。因此,一个完整的IPC分类号由代表部、大类、小类、大组和小组的符号组合构成。
在一个实施例中,就是利用这五个部分的信息来判断两个技术系统,或两个集合的技术系统的相似性程度或冲突程度。在另一个实施例中,利用这五个部分信息中的四个,即大类、小类、大组和小组的信息来判断两个技术系统,或两个集合的技术系统的相似性程度或冲突程度。同理,也可以利用这五个部分信息中的三个,即小类、大组和小组的信息来判断两个技术系统,或两个集合的技术系统的相似性程度或冲突程度。或者,利用这五个部分信息中的二个,即大组和小组的信息来判断两个技术系统,或两个集合的技术系统的相似性程度或冲突程度。或者,也利用这五个部分信息中的一个,即小组的信息来判断两个技术系统,或两个集合对应的技术系统的冲突程度。
显然,在这五个信息中,部的信息概念范围最大,利用该信息的目的在于不遗漏所使用的信息;而小组的信息概念范围最小,利用该信息的目的在于使所使用的信息更精准。因此,还可以有多个利用专利分类信息的实施例,例如只利用部、小类、大组和小组的信息来判断两个技术系统,或两个集合的技术系统的相似性程度或冲突程度。等等。下面以利用这五个部分信息中的三个,即小类、大组和小组的信息来判断两个技术系统相似性程度或冲突程度的第四个实施例,进一步对本申请的技术方案进行说明,该实施例所述方法可以用软件的形式来实施。
具体说,图7所述流程的步骤74中采用的计算目标技术方案集合A与技术方案子集合B的相似度指数的步骤可以采用下述子步骤。参考图8。图8是所述流程步骤74采用的第一种计算目标技术方案集合A与技术方案子集合B的相似度指数的流程图。
图8所述流程的特点是,利用两个技术系统或技术方案集合的专利申请作为技术要点,以专利申请的国际专利分类号作为技术分类规则。具体说,国际专利分类号依据集合A及集合B专利申请的IPC分类的小类、大组和小组分类号进行二个技术系统之间的技术相关性或相似度分析。
首先在步骤81,获得专利分类号集合A和专利分类号集合B的所有专利申请信息中的IPC号码,形成两个IPC号码集,这两个IPC号码集分别与集合A、B对应。
在步骤82,获取第一个号码集所有的国际专利分类号指示的小类编码、大组编码和小组编码,去掉每组编码中重复的部分,得到小类编码集合B3(表1的第一列,即集合A的IPC小类)、小类编码的数量b3为19(表1的第一列最后一行,即集合A的IPC小类列的最后一行),大组编码集合B2(表2的第一列,即集合A的IPC大组)、大组编码的数量b2为19(表2的第一列最后一行,即集合A的IPC大组列的最后一行),和,小组编码集合B1(表3的第一列,即集合A的IPC小组)、小组编码的数量b1为13(表3的第一列最后一行,即集合A的IPC小组列的最后一行)。
再获取第二个号码集所有的国际专利分类号指示的小类编码、大组编码和小组编码,去掉每组编码中重复的部分,得到小类编码集合D3(表1的第二列,即集合B的IPC小类)、小类编码的数量d3为10(表2的第二列最后一行,即集合B的IPC小类列的最后一行),大组编码集合D2(表3的第二列,即集合B的IPC大组)、大组编码的数量d2为10(表3的第二列最后一行,即集合B的IPC大组列的最后一行),和小组编码集合D1(表4的第二列,即集合B的IPC小组)、小组编码的数量d1为5(表3的第二列最后一行,即集合B的IPC小组列的最后一行)。
表2:集合A和集合B的IPC小类信息比较表
表3:集合A和集合B的IPC大组比较表
集合A的IPC大组 |
集合B的IPC大组 |
重合IPC大组 |
A41D13/00 |
E21C35/00 |
E21D15/00 |
A61F17/00 |
E21C41/00 |
|
A61J9/00 |
E21D15/00 |
|
A62D1/00 |
B23P19/00 |
|
B61K7/00 |
B25B27/00 |
|
B61L11/00 |
E02F9/00 |
|
B61L23/00 |
E21C33/00 |
|
B65G11/00 |
E21D20/00 |
|
B65G21/00 |
E21D23/00 |
|
B65G65/00 |
E21F13/00 |
|
B66B15/00 |
|
|
B66C1/00 |
|
|
B66D1/00 |
|
|
C01B33/00 |
|
|
C02F1/00 |
|
|
C09K3/00 |
|
|
C25C3/00 |
|
|
E21D15/00 |
|
|
E21D19/00 |
|
|
合计19项 |
合计10项 |
重复1项 |
表4:集合A和集合B的IPC小组比较表
需要说明,在步骤82中,分别选择了集合A和集合B的100%专利分类号分析对象,在其它的实施例中,也可只选择其中的一部分。这样做的结果是方法的执行结果有一定的误差,但是不影响整体判断,同时也增强了方法的实用性,任何技术系统在专利分类号确定有误差的情况下也可以判断。另外,设定一个选择范围,可以在效果和效率之间取得更好的平衡,以及方法的使用灵活性。
在步骤83,根据步骤82得到的二个技术系统的小类编码集合B3、D3,大组编码集合B2、D2和小组编码集合B1、D1,计算二个技术系统小类编码重合的数量E3为5(表1的第三列,即重合的IPC小类列的最后一行)、大组编码重合的数量E2为1(表2的第三列,即重合的IPC大组列的最后一行)和小组编码重合的数量E1为0(表3的第三列,即重合的IPC小组列的最后一行)。
在步骤84,根据任意一个技术系统的小类编码数量b3=19、d3=10,大组编码数量b2=19、d2=10,和小组编码数量b1=13、d1=5,以及二个技术系统小类编码重合的数量E3=5、大组编码重合的数量E2=1和小组编码重合的数量E1=0,计算任意一个技术系统的小类编码重合度、大组编码重合度和小组编码重合度;其中,
对于第一个技术系统,A3=(E3/b3)%=(5/19)%≈26%,A2=(E2/b2)%=(1/19)%≈5%,A1=(E1/b1)%=(0/13)%=0;
对于第二个技术系统,B3=(E3/d3)%=(5/10)%≈50%,B2=(E2/d2)%=(1/10)%≈10%,B1=(E1/d1)%=(0/5)%=0。
在步骤85和86,根据所述重合度,计算任意一个技术系统相对另一个技术系统的专利技术相关指数F;其中,
对于第一个技术系统,FA=C3*A3+C2*A2+C1*A1,FB=C3*B3+C2*B2+C1*B1,C3、C2、C1为经验常数,本例中,C3、C2、C1分别表示IPC小类、大组和小组的分类与两个系统冲突的相关系数,其经验值分别为1,2,3。
对于第一个技术系统,FA=C3*A3+C2*A2+C1*A1,即,FA=C3*A3+C2*A2+C1*A1=1*26%+2*5%+3*0=36%。
对于第二个技术系统,FB=C3*B3+C2*B2+C1*B1,即,FB=C3*B3+C2*B2+C1*B1=1*50%+2*10%+3*0=60%。
在步骤16,根据所述相关指数F,或计算任意一个技术系统相对另一个技术系统的专利冲突概率G;其中。GA=FA/(C3+C2+C1)=36%/(1+2+3)=6%。GB=FB/(C3+C2+C1)=60%/(1+2+3)=10%。
其中,GA是目标技术方案集合A与技术方案子集合B的相似度指数,GB是技术方案子集合B与目标技术方案集合A的相似度指数。