CN102279893B

CN102279893B - 文献群组多对多自动分析

Info

Publication number: CN102279893B
Application number: CN201110277690.1A
Authority: CN
Inventors: 裘钢
Original assignee: Suoyi Interactive Beijing Information Technology Co ltd
Current assignee: Suoyi Interactive Beijing Information Technology Co ltd
Priority date: 2011-09-19
Filing date: 2011-09-19
Publication date: 2015-07-22
Anticipated expiration: 2031-09-19
Also published as: US20130073510A1; CN102279893A

Abstract

一种对文献群组多对多自动分析的方法，步骤一、输入第一检索条件，获得第一检索结果；步骤二、输入第二检索条件，获得第二检索结果；步骤三、输入第一检索结果和第二检索结果的匹配关系；步骤四、根据第一检索结果、第二检索结果以及第一检索结果和第二检索结果的匹配关系，获得一个或多个检索结果匹配对，该匹配对包括第一文献和第二文献，该第一文献属于第一检索结果，该第二文献属于第二检索结果；步骤五、对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析，获得分析结果。

Description

文献群组多对多自动分析

技术领域

本发明涉及一种对文献群组多对多自动分析的方法和系统，尤其涉及利用语义检索技术对文献群组进行多对多自动分析的方法和系统。

背景技术

随着智能语义技术的发展，使得文献的自动语义检索成为可能，即只需要输入目标文献，然后根据目标文献与数据库中的文献之间的语义相关，就能自动获得与目标文献语义相关的文献。

但目前现有技术中一般都是对单篇文献的语义检索，而没有对文献群组进行多对多自动处理和深度分析的技术。

而往往一些深度分析是需要对一组文献与另一组文献之间的比较分析才能得出合理的结论。例如，要知道Microsoft(A)与Apple(B)公司专利群组之间的竞争关系，如A、B双方竞争(相关)关系，如双方竞争创新能力、双方竞争技术领域、双方竞争技术的优势与劣势等复杂多对多关系。但现有技术只能对该两组专利进行单方、孤立、片面的分析，如图1。所以，针对现在高度竞争的科学技术的发展和全方位信息获取的需要，特别需要一种技术能多对多自动处理文献群组；自动发现和建立群组间多对多相关(竞争)关系。

发明内容

本发明提供了一种对文献群组多对多自动分析的方法，步骤一、输入第一检索条件，获得第一检索结果；步骤二、输入第二检索条件，获得第二检索结果；步骤三、输入第一检索结果和第二检索结果的匹配关系；步骤四、根据第一检索结果、第二检索结果以及第一检索结果和第二检索结果的匹配关系，获得一个或多个检索结果匹配对，该匹配对包括第一文献和第二文献，该第一文献属于第一检索结果，该第二文献属于第二检索结果；步骤五、对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析，获得分析结果。

本发明还提供了一种对文献群组多对多自动分析的系统，包括：输入第一检索条件，获得第一检索结果的装置；输入第二检索条件，获得第二检索结果的装置；输入第一检索结果和第二检索结果的匹配关系，该匹配关系是第一检索结果与第二检索结果之间的语义相关度下限值，获得第一检索结果和第二检索结果的匹配关系的装置；根据第一检索结果、第二检索结果以及第一检索结果和第二检索结果的匹配关系，获得一个或多个检索结果匹配对的装置，该匹配对包括第一文献和第二文献，该第一文献属于第一检索结果，该第二文献属于第二检索结果；对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析，获得分析结果的装置。

附图说明

图1是现有技术只能对两文献群组进行单方、孤立、片面的传统分析；

图2是根据本发明第一实施例的流程图，包括对文献群组多对多自动分析的基本流程；

图3是根据本发明第二实施例的流程图，包括对文献群组多对多自动分析的优选流程；

图4是根据本发明第三实施例的流程图，包括对文献群组多对多自动分析的另一个优选流程；

图5是根据本发明1-3实施例中第五步骤的优选流程。

图6是根据本发明实施例计算A群组文献中任意一个第一文献与B群组文献中任意一个第二文献的语义相关度的一个具体应用案例；

图7是根据本发明实施例的一个具体应用案例的匹配情况；

图8是根据本发明实施例的一个具体应用案例的匹配结果情况；

图9是根据本发明实施例的一个具体应用的系统输出。

具体描述

文献

文献是用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体，或理解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。现在通常理解为图书、期刊等各种出版物的总和。文献是记录、积累、传播和继承知识的最有效手段，是人类社会活动中获取情报的最基本、最主要的来源，也是交流传播情报的最基本手段。正因为如此，人们把文献称为情报工作的物质基础。

文献除了记录的知识以外，还包括其他属性，主要包括提交人，提交单位，提交时间，公开时间，提交单位地点等内容。

语义检索

语义检索是一种全新的信息检索方式，是在现有的信息检索技术以及模型上发展而来的。语义检索和信息检索的不同，就在于语义检索强调了语义，不会和信息检索一样，只是基于字面的机械匹配，它从文章的语义、概念出发，能够揭示文章的内在含义。做到了语义和概念层次上的标引工作，且语义检索提高了查全率和查准率，降低了用户的负担。

布尔检索

布尔检索是数据库检索最基本的方法，是用逻辑“或”(+、OR)、逻辑″与″(×、AND)、逻辑″非″(-、NOT)等运算符在数据库中对相关文献的定性选择的方法。

(1)逻辑″或″(+、OR)：用来组配相同概念的词，文献中凡含有″A″或者″B″检索词或者同时含有检索词″A″和″B″的文献均为命中文献。组配方式：A+B，表示检索含有″A″词，或含有″B″词，或同时包含″A″、″B″两词的文章。这样的组配可以放宽范围，扩增检索结果，提高查全率。

(2)逻辑″与″(*、AND)：检索时，数据库中同时含有检索词″A″和检索词″B″的文献才是命中文献。组配方式：A×B，表示检索必须同时含有″A″、″B″两词的文章。这样的组配增加了限制条件，即增加检索的专指性，可以缩小范围，减少文献输出量，提高查准率。

(3)逻辑″非″(-、NOT)：数据库中凡含有检索词″A″而不要检索词″B″的文献，为命中文献，是用来检索时排除某些检索词的。组配方式：A-B，表示检索出含有″A″词而不含有″B″词的文章，用于排除不希望出现的检索词，能够缩小命中文献范围，增强检索的准确性。

图2是根据本发明第一实施例的流程图，包括对文献群组多对多自动分析的基本流程。步骤21、输入第一检索条件，获得第一检索结果，该第一检索条件可以是布尔检索条件，也可以是语义检索条件，也可以是布尔检索条件和语义检索条件的组合；步骤22、输入第二检索条件，获得第二检索结果，该第二检索条件可以是布尔检索条件，也可以是语义检索条件，也可以是布尔检索条件和语义检索条件的组合；步骤23、输入第一检索结果和第二检索结果的匹配关系；步骤24、根据第一检索结果、第二检索结果以及第一检索结果和第二检索结果的匹配关系，获得一个或多个检索结果匹配对，该匹配对包括第一文献和第二文献，该第一文献属于第一检索结果，该第二文献属于第二检索结果；步骤25、对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析，获得分析结果。

图3是根据本发明第二实施例的流程图，包括对文献群组多对多自动分析的优选流程。步骤31、输入第一检索条件，获得第一检索结果，该第一检索条件可以是布尔检索条件，也可以是语义检索条件，也可以是布尔检索条件和语义检索条件的组合；步骤32、输入第二检索条件，获得第二检索结果，该第二检索条件可以是布尔检索条件，也可以是语义检索条件，也可以是布尔检索条件和语义检索条件的组合；步骤33、输入第一检索结果和第二检索结果的匹配关系，该匹配关系是第一检索结果与第二检索结果之间的语义相关度下限值；步骤34、计算第一检索结果中任意一个第一文献与第二检索结果中任意一个第二文献的语义相关度，如果相关度大于或等于该相关度下限值则提取该第一文献和第二文献组成一个匹配对；步骤35、对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析，获得分析结果。

图4是根据本发明第三实施例的流程图，包括对文献群组多对多自动分析的另一个优选流程。步骤41、输入第一检索条件，获得第一检索结果，该第一检索条件可以是布尔检索条件，也可以是语义检索条件，也可以是布尔检索条件和语义检索条件的组合；步骤42、输入第二检索条件，获得第二检索结果，该第二检索条件可以是布尔检索条件，也可以是语义检索条件，也可以是布尔检索条件和语义检索条件的组合；步骤43、输入第一检索结果和第二检索结果的匹配关系，该匹配关系是第一检索结果与第二检索结果之间的语义相关度下限值以及第一检索结果与第二检索结果之间的除了语义相关度以外其他属性之间的匹配条件，该匹配条件包括以下条件中的一个或多个：公开时间的先后关系，提交时间的先后关系，文献提交人之间的关系，文献提交地点之间的关系，文献提交人所属单位之间的关系，文献提交人所属单位文献数；步骤44、计算第一检索结果中任意一个第一文献与第二检索结果中任意一个第二文献的语义相关度以及计算其他属性的匹配条件是否满足，如果相关度大于或等于该相关度下限值并且其他匹配条件满足则提取该第一文献和第二文献组成一个匹配对，优选的其他匹配条件是第一检索结果中文献的提交时间要早于第二检索结果中文献的提交时间或者第一检索结果中文献的提交时间要晚于第二检索结果中文献的提交时间；步骤45、对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析，获得分析结果。

图5是根据本发明1-3实施例中第五步骤的优选流程图，包括对匹配对进行分析，获得分析结果：步骤51、根据文献的一个或多个属性进行统计，该属性包括以下内容：提交人、提交单位、提交时间、公开时间、技术领域、提交单位地点、相关文献在匹配对中出现次数等，获得统计值；步骤52、将第一检索结果与第二检索结果中文献之间的语义相关度作为权重参与统计分析，即如果相关度为90％，则统计技术时，计入0.9。

图6是根据本发明实施例的计算A群组文献中任意一个第一文献与B群组文献中任意一个第二文献的语义相关度的一个具体应用案例。A群组文献是由第一检索条件获得第一检索结果，共5个文献。B群组文献是由第二检索条件获得第二检索结果，共4个文献。并分别计算了A群组文献中任意一个第一文献与B群组文献中任意一个第二文献的语义相关度。

图7是根据本发明实施例的一个具体应用案例的匹配结果情况。本具体应用中，将语义相关度下限值设置为90％，所以，相关度大于或等于90％的匹配对保留，其余的则删除。结果可得，

A群组文献为A1、A2、A3、A4、A5，A群组文献数为5；

A群组文献与B群组文献的匹配对为(A1，B1)、(A1，B2)、(A2，B2)、(A2，B4)、(A4，B1)、(A5，B1)、(A5，B4)，表示A1与B1，B2的相关度都是大与等于90％、A2与B2，B4的相关度都是大与等于90％、A4与B1的相关度大与等于90％和A5与B1，B4的相关度都是大与等于90％，以上都是匹配对，同时A3与B1、B2、B3和B4的相关度都是小与90％，不成为匹配对。更进一步，A1在匹配对中出现次数为2，定义为命中数2，同样，A2命中数为2，A4命中数为1，A5命中数为2，显然，A3命中数为0；

A与B竞争文献组为(A1、A2、A4、A5)，A与B竞争文献数为4；

A与B竞争系数为，A与B竞争文献数/A组文献数＝4/5；

B群组文献为B1、B2、B3、B4，B群组文献数为4；

B群组文献与A组文献的匹配对为(B1，A1)、(B1，A4)、(B1，A5)、(B2，A1)、(B2，A2)、(B4，A2)、(B4，A5)，表示B1与A1，A4，A5的相关度都是大与等于90％、B2与A1，A2的相关度都是大与等于90％和B4与A2，A5的相关度大与等于90％，都是匹配对，同时B3与A1、A2、A3、A4和A5的相关度都是小与90％，不成为匹配对。更进一步，B1在匹配对中出现次数为3，命中数为3，同样，B2命中数为2，B4命中数为2，显然，B3命中数为0；；

B与A竞争文献为(B1、B2、B4)，B与A竞争文献数为3；

B与A竞争系数为，B与A竞争文献数/B组文献数＝3/4。

图8是根据本发明实施例的一个具体应用案例的分析结果。根据相关竞争文献间提交时间关系，再将相关竞争文献组各分成两部分。如，在A与B竞争文献组中4个文献为(A1、A2、A4、A5)，A领先B提交的(创新)文献部分为(A1、A2、A4)，文献数为3；则A领先B的创新系数为3/4；同样，在B与A竞争文献组中3个文献为(B1、B2、B4)，B领先A提交的(创新)文献部分为(B1，B4)，文献数为2；则B领先A创新系数为2/3。创新系数＝领先创新文献数/竞争文献数。

图9是根据本发明实施例的一个具体应用的系统输出。输入的多对多匹配关系是，对A中每一个专利A[i]，从B中找出所有在A[i]申请日之后，并且与A[i]相关度大于96的前3位的非A专利。本实例中，A群组是所有海尔中国专利申请3,865件，B群组是所有非海尔中国专利申请共4,101,462件。在本例中，根据本发明实施例的具体应用系统依据上述输入多对多匹配关系，自动发现海尔专利申请公开号CN2602365，标题为“多温区直冷式电冰箱”，申请日为2003/01/07以相关度98％、98％、98％分别与CN2685782、CN2727660、CN2705762相关。而且，该3个专利申请的申请日(2004/04/02、2004/0831、2004/05/19)都在2003/01/07之后。同时，系统自动发现该3个专利申请在匹配对中出现次数，即命中数分别为4、2、3，表示CN2685782除了与CN2602365相关外，还与3个在其申请日之前的其它海尔专利申请相关。从分析角度来看，这是值得关注的。

Claims

1.一种对文献群组多对多自动分析的方法，其特征在于：

步骤一、输入第一检索条件，获得第一检索结果；

步骤二、输入第二检索条件，获得第二检索结果；

步骤三、输入第一检索结果和第二检索结果的匹配关系，其中，输入第一检索结果和第二检索结果的匹配关系包括：输入第一检索结果和和第二检索结果语义相关度下限值；

步骤四、根据第一检索结果、第二检索结果以及第一检索结果与第二检索结果的匹配关系，获得至少一个或多个检索结果匹配对，该匹配对包括第一文献和第二文献，该第一文献属于第一检索结果，该第二文献属于第二检索结果；

步骤五、对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析，获得分析结果。

2.如权利要求1所述的方法，其特征在于：输入第一检索结果和第二检索结果的匹配关系还包括：输入第一检索结果和第二检索结果之间除了语义相关度以外其他属性之间的匹配条件。

3.如权利要求2所述的方法，其特征在于：除了语义相关度以外其他属性之间的匹配条件包括以下条件中的一个或多个：公开时间的先后关系，提交时间的先后关系，文献提交人之间的关系，文献提交地点之间的关系，文献提交人所属单位之间的关系，文献提交人所属单位文献数。

4.如权利要求1-3中任意一个方法，其特征在于：对所述的至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析，获得分析结果，包括：根据文献的一个或多个属性进行统计，该属性包括以下内容：提交人，提交单位，提交时间，公开时间，技术领域，提交单位地点，相关文献在匹配对中出现次数。

5.如权利要求4的方法，其特征在于：所述的对匹配对进行分析，获得分析结果，还包括：第一检索结果与第二检索结果中文献之间的语义相关度作为权重参与统计分析。

6.如权利要求1-3中任意一个方法，其特征在于：所述第一检索条件和第二检索条件是：布尔检索条件、语义检索条件或布尔检索条件与语义检索条件的组合。

7.一种对文献群组多对多自动分析的系统，其特征在于：

输入第一检索条件，获得第一检索结果的装置；

输入第二检索条件，获得第二检索结果的装置；

输入第一检索结果和第二检索结果，获得第一检索结果和第二检索结果的匹配关系的装置，其中，输入第一检索结果和第二检索结果的匹配关系的装置包括：输入第一检索结果和和第二检索结果语义相关度下限值；

根据第一检索结果、第二检索结果以及第一检索结果和第二检索结果的匹配关系，获得一个或多个检索结果匹配对的装置，该匹配对包括第一文献和第二文献，该第一文献属于第一检索结果，该第二文献属于第二检索结果；

对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析，获得分析结果的装置。

8.如权利要求7所述的系统，其特征在于：输入第一检索结果和第二检索结果的匹配关系还包括：输入第一检索结果和第二检索结果之间除了语义相关度以外其他属性之间的匹配条件。

9.如权利要求8所述的系统，其特征在于：除了语义相关度以外其他属性之间的匹配条件包括以下条件中的一个或多个：公开时间的先后关系，提交时间的先后关系，文献提交人之间的关系，文献提交地点之间的关系，文献提交人所属单位之间的关系，文献提交人所属单位文献数。

10.如权利要求7-9中任意一个的系统，其特征在于：对所述的至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析，获得分析结果，包括：根据文献的一个或多个属性进行统计，该属性包括以下内容：提交人，提交单位，提交时间，公开时间，技术领域，提交单位地点，相关文献在匹配对中出现次数。

11.如权利要求10的系统，其特征在于：所述的对匹配对进行统计分析，获得分析结果，还包括：第一检索结果与第二检索结果中文献之间的语义相关度作为权重参与统计分析。

12.如权利要求7-9中任意一个的系统，其特征在于：所述第一检索条件和第二检索条件是：布尔检索条件、语义检索条件或布尔检索条件与语义检索条件的组合。