CN110020034A

CN110020034A - 一种信息引证分析方法和系统

Info

Publication number: CN110020034A
Application number: CN201910273173.3A
Authority: CN
Inventors: 王素云; 程宇镳; 董丽丽; 王立峰
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-06-29
Filing date: 2019-04-04
Publication date: 2019-07-16
Anticipated expiration: 2039-04-04
Also published as: CN110020034B

Abstract

本发明提供了一种信息引证分析方法和系统，包括步骤S1：检索获得第一专利A；S2：构建引证专利文档集合Q；S3：构建引证专利关键词集合W₁，W₂，W₃，…，W_i，…，W_n；S4：设定第一专利A的关键词集合V；S5：依次计算引证专利q_i的关键词集合W_i中每个关键词与第一专利A的关键词集合V中每个关键词的相似度，从引证专利关键词集合W_i中提取相似度最高的关键词，形成第i个专利文档q_i的真关键词集合M_i；S6：依次计算真关键词集合M_i与第一专利A的关键词集合V的相似度ε_i，判断ε_i是否大于K；S7：将集合α中的专利文档推荐给用户，本发明所述的信息引证分析方法和系统具有使用范围广、准确度高、简洁、高效的优点。

Description

一种信息引证分析方法和系统

技术领域

本发明涉及信息分析技术领域，特别涉及一种信息引证分析方法和系统。

背景技术

文献或者信息情报的分析调研，是一种庞杂和高强度的智力劳动。尤其在当今互联网和资讯过载的时代，对繁杂的信息、情报、文献的脉络进行梳理，以获得技术研发、生产制造、战略决策的重要支撑和依据，已成为科学技术研究中的一种重要手段。但在互联网时代，信息以爆炸式的速度增长，寻找自己真正需要的信息变得越来越困难，我们急需一种能够帮助我们组织和理解这些庞大的信息方法。

专利文献作为一种公开的受法律保护的科技文献，最能够体现技术创新能力，同时也最能够代表先进技术的发展成果，尤其对于企业而言，可以体现企业创新能力，巩固领域内技术地位，保护科研成果不受侵犯，其重要性越来越受到重视。根据世界知识产权组织报道，专利文献包含全世界每年90％-95％的最新科研成果，其中有70％左右的发明技术从未在其它非专利文献上发表。

技术的研究和创新，大多会在已有成果的基础上展开。虽然专利需要回避已有技术成果，但在专利文献中还是存在大量的“参考信息”——专利之间的引证。这种关系实际上是一种“引文链”，它可以反映专利情报信息流、技术创新信息流的方向、过程、特点和规律，显示研究专利文献之间的引用规律，从而沿着引用路径能够揭示某一行业、某一技术的发展趋势和动向。

但在专利文献的引证关系分析中，如果将一种核心专利的技术沿革，通过引证分析图来诠释，会产生庞大的“树状结构”图，其中判断和剪枝的分析，都需要逐级判断，工作繁复且低效。

为解决专利文献的引证关系分析中工作繁复且低效的问题，目前已有一系列将被引频次作为测量专利引证指标的主要依据的专利，如公开(告)号为CN101276358A的中国专利提供了一种专利技术关联性分析方法，该专利通过预先设定一检索条件以检索获得数件专利检索资料，各专利检索资料分别揭示有至少一引用文献；次统计各引用文献于不同专利文献的出现次数，用以设定各引用文献的权值数量；最后将各引用文献依权值数量进行排序，进而完成各引用文献与各专利文献的技术关联性分析作业。藉此，以作为产业的未来研发方向或市场评估等决策参考依据。虽然，通常一件专利被引用的次数越多，代表此专利所保护的技术范围可能具有相当的重要性及关键性，但单纯以被引频次作为测量专利引证指标的主要依据，准确度较低，也难以反映出某一技术的发展趋势和动向。

期刊《科技管理研究》在2011年第17期142页至144页中公开的题目为“专利引证类型可视化分析”、作者为侯筱蓉、赵德春和胡虹的科技论文中表明：不同技术领域存在不同类型的专利引证关系，其中具有代表性的专利引证类型为“引文树”型和“引文网络”型。该文章表明：“引文树”型(如图1所示)专利引证关系中出现了一些被引频次非常高的专利，整体呈现一种比较清晰的树状结构，这些被引频次非常高的专利往往即为该领域的标志性技术或转折技术，对该类技术的发展起到非常重大的参照或推动作用。通过对“引文树”型专利引证关系中被引频次非常高的专利进行分析，可以确定研究热点和核心技术，对前沿技术进行跟踪分析；可以揭示行业技术发展轨迹；可以确定竞争对手，衡量竞争对手的技术实力。但“引文网络”型(如图2所示)专利引证关系中，一方面，没有被引频次特别高的核心专利出现，引用情况相对分散；另一方面，专利同被引和专利耦合的情况出现次数较多，关联线之间的交叉和节点也较多，整体呈现一种比较复杂的网状结构。对于“引文网络”型专利引证关系仅通过对引用频次的统计来对专利重要性进行评价是不够的，不能很全面地反映某专利在该类技术领域中的地位，也不能很有效地做到“顺藤摸瓜”，理顺该技术领域的发展轨迹。

为解决以上问题，提供一种能够同时适用于“引文树”型和“引文网络”型信息引证关系的信息引证分析方法和系统，以通过对专利引证关系进行分析，简便、快捷的得到某一行业、某一技术的发展趋势和动向。

发明内容

本发明的目的在于提供一种用于信息引证分析的系统，采用以下方法运行：在文献的相互引证过程中，采用预先设定的词汇和/或短语和/或句子和/或图形和/或代码进行标引，引导呈现文献标引的图或文字。

上述信息引证分析的系统中，所述信息是专利文献或非专利文献。

上述信息引证分析的系统中，所述词汇和/或短语和/或句子和/或图形和/或代码是由检索任务提前设定的。

上述信息引证分析的系统中，所述词汇和/或短语和/或句子和/或图形和/或代码是由检索过程予以修改和补充的。

上述信息引证分析的系统中，所述词汇和/或短语和/或句子和/或图形和/或代码是由检索过程中的语义识别得出的。

上述信息引证分析的系统中，所述引导呈现文献标引的图或文字，还可以同时呈现申请人、发明人、作者、国别、文献类型、研发机构、学科分类、标记词汇、自定义标引中的一种或多种。

上述信息引证分析的系统中，所述引导呈现文献标引的图或文字，还可以同时呈现引证关系。

本发明的另一目的在于提供一种用于信息引证分析的方法，采用以下方法运行：在文献的相互引证过程中，采用预先设定的词汇和/或短语和/或句子和/或图形和/或代码进行标引，引导呈现文献标引的图或文字。

上述信息引证分析的方法中，所述信息是专利文献或非专利文献。

上述信息引证分析的方法中，所述词汇和/或短语和/或句子和/或图形和/或代码是由检索任务提前设定的。

上述信息引证分析的方法中，所述词汇和/或短语和/或句子和/或图形和/或代码是由检索过程予以修改和补充的。

上述信息引证分析的方法中，所述词汇和/或短语和/或句子和/或图形和/或代码是由检索过程中的语义识别得出的。

上述信息引证分析的方法中，所述引导呈现文献标引的图或文字，还可以同时呈现申请人、发明人、作者、国别、文献类型、研发机构、学科分类、标记词汇、自定义标引中的一种或多种。

上述信息引证分析的方法中，所述引导呈现文献标引的图或文字，还可以同时呈现引证关系。

本发明的目的在于提供一种用于信息引证分析的软件，采用以下方法运行：在文献的相互引证过程中，采用预先设定的词汇和/或短语和/或句子和/或图形和/或代码进行标引，引导呈现文献标引的图或文字。

本发明的目的在于提供一种用于信息引证分析的方法，采用以下方法运行：在文献的相互引证过程中，采用预先设定的词汇和/或短语和/或句子和/或图形和/或代码进行标引，引导呈现文献标引的图或文字。

本发明的目的在于提供上述软件和上述方法在电脑、服务器和云计算平台中一种或多种中的应用。

本发明的又一目的在于提出一种信息引证分析方法和系统，以解决现有信息引证分析方法和系统主要依靠被引频次作为测量专利引证指标的主要依据，而无法同时适用于“引文树”型和“引文网络”型专利引证关系的技术问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种信息引证分析方法，包括步骤

S1：通过检索获得第一专利A；

S2：获取第一专利A的引证专利文档，构建引证专利文档集合Q，Q＝{q₁，q₂，q₃，…，q_i，…，q_n}，其中q_i表示第i个专利文档，1≤i≤n；

S3：获取引证专利文档集合Q中各专利文档的关键词，构建引证专利关键词集合W₁，W₂，W₃，…，W_i，…，W_n，其中W_i表示第i个专利文档q_i的关键词所构成的集合，1≤i≤n；

S4：设定第一专利A的关键词集合V，V＝{v₁，v₂，v₃，…，v_k，…，v_g}，其中V_k表示第k个关键词，1≤k≤g；

S5：依次计算引证专利q_i的关键词集合W_i中每个关键词与第一专利A的关键词集合V中每个关键词的相似度，从引证专利关键词集合W_i中提取相似度最高的关键词，存入真关键词集合M_i中，形成第i个专利文档q_i的真关键词集合M_i，其中i＝1～n；

S6：依次计算真关键词集合M_i与第一专利A的关键词集合V的相似度ε_i，依次判断ε_i是否大于K，若ε_i＞K，则将该专利文档汇入集合α；若ε_i≤K，则将该专利文档汇入集合β，其中集合α为高相似度引证专利文档集合，集合β为低相似度引证专利文档集合，其中i＝1～n；

S7：将集合α中的专利文档推荐给用户。

进一步的，所述步骤S3包括步骤

S31：依次对第i个专利文档q_i中相邻的文字进行任意组合，获得待选短语集J_1i，i＝1～n；

S32：依次计算待选短语集J_1i中每个待选短语的粘度p，i＝1～n；

S33：依次根据待选短语的粘度p对第i个专利文档q_i进行分词，得到第i个专利文档q_i的实词集J_2i，i＝1～n；

S34：依次统计实词集J_2i中每个实词的出现频率，i＝1～n；

S35：删除实词集J_2i中出现频率≤2的实词，得到真词集J_3i，i＝1～n；

S36：依次计算真词集J_3i中每个实词的权重，并按权重从大到小的顺序对各个真词集J_3i中的实词进行排序，i＝1～n；

S37：依次从真词集J_3i中按权重从大到小的顺序提取一定比例的实词，得到第i个专利文档q_i的关键词集合W_i，W_i＝{d_i1，d_i2，d_i3，…，d_ij，…，d_im}，1≤j≤m，i＝1～n，且g≤m。

进一步的，所述粘度p＝ρ₁*ρ₂*ρ₃*…*ρ_ψ*…*ρ_ω，其中1≤ψ≤ω，ρ_ψ为某个事件出现的概率。

进一步的，所述步骤S5包括步骤

S51：依次计算引证专利关键词集合W_i中每个关键词与第一专利A的关键词集合V中第一个关键词v₁的相似度ε_i11，ε_i21，ε_i31，…，ε_ij1，…，ε_im1，其中i＝1～n，W_i＝{d_i1，d_i2，d_i3，…，d_ij，…，d_im}，1≤j≤m；

依次计算引证专利关键词集合W_i中每个关键词与第一专利A的关键词集合V中第二个关键词v₁的相似度ε_i12，ε_i22，ε_i32，…，ε_ij2，…，ε_im2，其中i＝1～n，W_i＝{d_i1，d_i2，d_i3，…，d_ij，…，d_im}，1≤j≤m；

…

依次计算引证专利关键词集合W_i中每个关键词与第一专利A的关键词集合V中第g个关键词v_g的相似度ε_i1g，ε_i2g，ε_i3g，…，ε_ijg，…，ε_img，其中i＝1～n，W_i＝{d_i1，d_i2，d_i3，…，d_ij，…，d_im}，1≤j≤m；

S52：依次提取关键词集合W_i中与第一专利A的关键词集合V中第一个关键词v₁的相似度最高的关键词作为d_i1max，其与第一专利A的关键词集合V中第一个关键词v₁的相似度记为ε_i1max，其中i＝1～n；

提取关键词集合W_i中与第一专利A的关键词集合V中第二个关键词v₂的相似度最高的关键词作为d_i2max，其与第一专利A的关键词集合V中第二个关键词v₂的相似度记为ε_i2max，其中i＝1～n；

…，

提取关键词集合W_i中与第一专利A的关键词集合V中第g个关键词v_g的相似度最高的关键词作为d_igmax，其与第一专利A的关键词集合V中第g个关键词v_g的相似度记为ε_igmax；

S53：将d_i1max，d_i2max，…，d_igmax存入真关键词集合M_i中，形成第i个专利文档q_i的真关键词集合M_i，其中i＝1～n。

进一步的，所述步骤S6包括步骤

S61：依次计算真关键词集合M_i与第一专利A的关键词集合V的相似度ε_i，其中ε_i＝ε_i1max+ε_i2max+…+ε_ikmax+…+ε_igmax，其中i＝1～n，k＝1～g；

S62：依次判断ε_i是否大于阈值K，若ε_i＞K，则将该专利文档汇入集合α；若ε_i≤K，则将该专利文档汇入集合β，其中集合α为高相似度引证专利文档集合，集合β为低相似度引证专利文档集合，其中，i＝1～n。

进一步的，所述阈值K与第一专利A的关键词集合V中关键词的总个数g有关，K＝g*0.6～g*0.8。

进一步的，所述步骤S7包括步骤

S71：对集合α中的专利按照申请时间排序，统计每个时间段内的专利申请量；

S72：绘制专利申请量与时间的关系曲线S；

S73：根据波峰和波谷的变换，将曲线S划分为若干段，每段曲线自波谷开始、经过之后的波峰后，至下一个波谷结束，依次称为曲线S₁，S₂，S₃，…，S_t；

S73：将曲线S₁内的专利文档提取至集合X₁，将曲线S₂内的专利文档提取至集合X₂，…，将曲线S_t内的专利文档提取至集合X_t；

S74：依次提取集合X₁X₂，…，X_t内各专利文档的真关键词集合M_i与第一专利A的关键词集合V的相似度ε_i；

S75：计算集合X₁内各专利文档的平均相似度其中平均相似度为集合X₁内各专利文档的真关键词集合M_i与第一专利A的关键词集合V的相似度ε_i的算数平均值；

计算集合X₂内各专利文档的平均相似度其中平均相似度为集合X₂内各专利文档的真关键词集合M_i与第一专利A的关键词集合V的相似度ε_i的算数平均值；

…

计算集合X_t内各专利文档的平均相似度其中平均相似度为集合X_t内各专利文档的真关键词集合M_i与第一专利A的关键词集合V的相似度ε_i的算数平均值；

S76：计算集合X₁内各专利文档的真关键词集合M_i与第一专利A的关键词集合V的相似度ε_i和平均相似度的差值△ε_x1i，其中

计算集合X₂内各专利文档的真关键词集合M_i与第一专利A的关键词集合V的相似度ε_i和平均相似度的差值△ε_x2i，其中

…，

计算集合X_t内各专利文档的真关键词集合M_i与第一专利A的关键词集合V的相似度ε_i和平均相似度的差值△ε_xti，其中

S77：按照集合X₁内各专利文档的△ε_x1i的数值大小对集合X₁内的专利文档进行排序，按照△ε_x1i的数值从大到小的顺序，提取a₁个专利文档推荐给用户，其中a₁为大于等于集合X₁内专利文档的个数*平均相似度的最小正整数；

按照集合X₂内各专利文档的△ε_x2i的数值大小对集合X₂内的专利文档进行排序，按照△ε_x2i的数值从大到小的顺序，提取a₂个专利文档推荐给用户，其中a₂为大于等于集合X₂内专利文档的个数*平均相似度的最小正整数；

…，

按照集合X_t内各专利文档的△ε_xti的数值大小对集合X_t内的专利文档进行排序，按照△ε_xti的数值从大到小的顺序，提取a_t个专利文档推荐给用户，其中a_t为大于等于集合X_t内专利文档的个数*平均相似度的最小正整数。

进一步的，所述步骤S7将集合Q中的所有专利一起以图或文字的形式显示，采用“高亮”等方式对集合α中的专利文档进行区别显示、推荐给用户。

进一步的，所述步骤S7仅将集合α中的专利文档按相似度由大到小的顺序排列推荐给用户。

一种信息引证分析系统，所述专利引证分析系统采用上述的信息引证分析方法向用户推荐专利。

相对于现有技术，本发明所述的信息引证分析方法和系统具有以下优势：

(1)本发明所述的信息引证分析方法和系统能够同时适用于“引文树”型和“引文网络”型专利引证关系的信息引证分析方法和系统，以通过对专利引证关系进行分析，简便、快捷的得到某一行业、某一技术的发展趋势和动向。

(2)本发明所述的信息引证分析方法和系统将集合Q中的所有专利一起以图或文字的形式显示，采用“高亮”等方式对集合α中的专利文档进行区别显示、推荐给用户，这将自然引导检索的人或者系统，对此进行关注和探究，而不会导致由于引证关系的繁复，使得检索的人和系统陷入过于繁复的查阅和判断中。

(3)本发明所述的信息引证分析方法和系统通过引证专利关键词集合W_i和第一专利A的关键词集合V的相似度ε_i对专利文档q_i和第一专利A的相关度进行考量，与传统的以引证频率来对专利重要性进行评价相比，一方面，能够同时适用于“引文树”型和“引文网络”型专利引证关系；另一方面，通过关键词，对两专利的相关度考量更加准确，能够有效筛除与第一专利A关联程度较低的专利文档，避免阅读大量无关文献，浪费用户时间。

(4)本发明所述的信息引证分析方法和系统通过粘度p的计算对文档进行分词，不但准确率高，而且能够对非常见词、新专业术语进行准确识别和提取。

(5)本发明所述的信息引证分析方法和系统通过删除实词集J_2i中出现频率≤2的实词，对实词集J_2i中的词语进行过滤，可以大大缩减真词集J_3i中的词汇量，减少后续统计和运算量。

(6)本发明所述的信息引证分析方法和系统根据不同时期专利申请量的变化，对专利进行分段，通过曲线S上波峰和波谷的变换间接反映技术的改革和创新，并在每个曲线S₁，S₂，S₃，…，S_t上提取相应的最能够代表该阶段技术演进的专利文档，推荐给用户，可以最大程度的减少用户的阅读量，提高用户获得专利情报信息流、技术创新信息流的方向、过程、特点和规律的效率。

(7)本发明所述的信息引证分析方法和系统通过计算每个曲线S₁，S₂，S₃，…，S_t段内的文献与被研究专利第一专利A的相似度的平均值，建立间接衡量这些文献之间相似程度的标准，然后选取与该标准差异较大的文献，推荐给用户，能够通过更少量的文献、更加有效的揭示某一行业、某一技术的发展趋势和动向。

总之，本发明所述信息引证分析方法和系统具有使用范围广、准确度高、简洁、高效的优点。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为“引文树”型专利引证关系示意图；

图2为“引文网络”型专利引证关系示意图；

图3为本发明实施例所述的信息引证分析方法的示意性流程图。

具体实施方式

为了使本发明的技术手段，达到目的与功效易于理解，下面结合具体图示对本发明的实施例进行详细说明。

需要说明，本发明中所有进行方向性和位置性指示的术语，诸如：“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“内”、“外”、“顶”、“低”、“横向”、“纵向”、“中心”等，仅用于解释在某一特定状态下各部件之间的相对位置关系、连接情况等，仅为了便于描述本发明，而不是要求本发明必须以特定的方位构造和操作，因此不能理解为对本发明的限制。另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

下面将参考附图并结合实施例来详细说明本发明。

实施例1

一种信息引证分析方法，包括步骤

S1：通过检索获得第一专利A；

S7：将集合α中的专利文档推荐给用户。

优选的，在步骤S7中，可以仅将集合α中的专利文档按相似度由大到小的顺序排列推荐给用户；也可以将集合Q中的所有专利一起以图或文字的形式显示，采用“高亮”等方式对集合α中的专利文档进行区别显示、推荐给用户，这将自然引导检索的人或者系统，对此进行关注和探究，而不会导致由于引证关系的繁复，使得检索的人和系统陷入过于繁复的查阅和判断中。

更加优选的，所述引导呈现文献标引的图或文字，还可以同时呈现申请人、发明人、作者、国别、文献类型、研发机构、学科分类、标记词汇、自定义标引中的一种或多种。

进一步的，所述引导呈现文献标引的图或文字，还可以同时呈现引证关系。

由于集合α中专利文档的关键词与第一专利A的关键词相似度较高、要素重合较多，因而在洞察技术进步和技术沿革、提供技术抗辩和侵权分析时，通过分析集合α中的专利文档，可以提供更加有力的支持，而不必花费大量的时间，去阅读所有的引证专利。

此外，本发明通过引证专利关键词集合W_i和第一专利A的关键词集合V的相似度ε_i对专利文档q_i和第一专利A的相关度进行考量，与传统的以引证频率来对专利重要性进行评价相比，一方面，能够同时适用于“引文树”型和“引文网络”型专利引证关系；另一方面，通过关键词，对两专利的相关度考量更加准确，能够有效筛除与第一专利A关联程度较低的专利文档，避免阅读大量无关文献，浪费用户时间。

进一步的，在专利的相互引证过程中，采用预先设定的词汇和/或短语和/或句子和/或图形和/或代码进行标引，引导呈现文献标引的图或文字。

进一步的，本发明所述信息引证分析方法同样适用于论文等非专利文献。

作为本发明的一些实施例，所述步骤S3包括步骤

S33：依次根据待选短语的粘度p对第i个专利文档q_i进行分词，得到第i个专利文档q_i的实词集J_2i，i＝1～n。

S34：依次统计实词集J_2i中每个实词的出现频率，i＝1～n；

具体的，首先设定待选短语最大长度，然后将第i个专利文档q_i中所有相邻的字进行组合，逐一列举所有可能的待选短语，获得专利文档q_i的待选短语集J_1i。然后根据公式：粘度p＝ρ₁*ρ₂*ρ₃*…*ρ_ψ*…*ρ_ω，其中1≤ψ≤ω，ρ_ψ为某个事件出现的概率，计算每个待选短语的粘度p。如在一文档中，出现了“机械强度…”、“力学强度…”、“轴向强度”、“力学强度…”4个与强度有关的短语，其中强度这个词附近机械、力学、轴向出现的次数为1、2、1，则强度的粘度p＝1/4*2/4*1/4＝1/32。又如在一文档中，出现了“聚氨酯复合材料…”、“聚氨酯发泡…”、“聚氨酯颗粒…”、“聚氨酯重量份…”4个与聚氨有关的短语，其中聚氨这个词附近“酯”出现了4次，则聚氨的粘度p＝4/4＝1。一般的，一个词附近出现的字越随机，这个词对于其附近的字的粘度p就越小，这个词为一个真正的词的可能性就越大，因为一个真正的词其附近出现的字往往是随机的。反之，一个词附近出现的字越固定，这个词对于其附近的字的粘度p就越大，这个词为一个真正的词的可能性就越小。

最后，根据每个待选短语的粘度p大小对所述专利文档q_i进行分词，从而实现在没有词库的前提下，对文档进行分词，以实现对非常见词、新专业术语进行更好的分词处理。在专利申请文件撰写过程中，为了对某一部分结构或某一种具体的方法进行清楚、准确的阐述，在该部分结构或该种方法尚未统一的技术名称前，经常需根据发明人自身的理解对其进行命名或标记，因此，这些命名或标记常由于专利的不同而不同，这使得专利文献中极易出现非常用词汇，如“第一连接凸起”、“卡合凸齿”、“高分子混合粒子”等，若以现有的词典或人工训练的数据库或模型对文档进行分词，无法对非常见词、新专业术语等进行有效、准确的识别，本实施例提供一种不依据词库的文档分词方法，依靠单个字、词语或短语附近出现的字或词语或短语对其粘度p进行计算，不但准确率高，而且能够对非常见词、新专业术语进行准确识别和提取。在同一专利文档中，为保持命名或标记的前后统一性，某一名称在该专利文档中各处出现时，均保持不变，因此，依靠单个字、词语或短语附近出现的字或词语或短语对其粘度p进行计算时，能够达到准确、有效的分词的目的。

在所述步骤S35中，通过删除实词集J_2i中出现频率≤2的实词，对实词集J_2i中的词语进行过滤，一般地，在专利文档中，设计发明方案主要内容的部分会分别在权利要求书、发明内容和说明书中进行描述，设计发明方案主要内容的词语在专利文档中出现的概率一般会≥3次，因此，在此直接删除实词集J_2i中出现频率≤2的词语，可以大大缩减真词集J_3i中的词汇量，减少后续统计和运算量。

在所述步骤S37中：从真词集J_3i中可以按一定的百分比提取权重较大的实词，得到第i个专利文档q_i的文本关键词集合W_i，W_i＝{d_i1，d_i2，d_i3，…，d_ij，…，d_im}，1≤j≤m，i＝1～n；也可以对实词的权重设置阈值，权重超过预设阈值的实词将被提取至文本关键词集合W_i中。

其中，所述步骤S4中关键词集合V可以为用户设定的词汇、短语、句子中的一种或几种的集合。

进一步的，所述步骤S4中关键词集合V也可以由检索任务提前设定。

优选的，所述步骤S4中关键词集合V是由检索过程中的语义识别得出的。

更进一步的，所述步骤S4中关键词集合V在检索过程予能够予以修改和补充，对关键词集合V修改和补充后，重新执行步骤S1。

作为本发明的一些实施例，所述步骤S5包括步骤

…

…，

通过步骤S5，在关键词集合W_i中提取相似度最高的关键词作为专利文档q_i的真关键词集合M_i，并进一步通过步骤S6对真关键词集合M_i与第一专利A的关键词集合V的相似度ε_i进行计算和对比，一方面，确保了真关键词集合M_i中的关键词为与第一专利A的关键词集合V中关键词相似度最高的关键词，另一方面，使得真关键词集合M_i中的关键词的个数与第一专利A的关键词集合V中关键词的个数相等，为后续步骤提供基础。

作为本发明的一些实施例，所述步骤S6包括步骤

S62：依次判断ε_i是否大于阈值K，若ε_i＞K，则将该专利文档汇入集合α；若ε_i≤K，则将该专利文档汇入集合β，其中集合α为高相似度引证专利文档集合，集合β为低相似度引证专利文档集合；其中，i＝1～n，K与第一专利A的关键词集合V中关键词的总个数g有关，优选的，K＝g*0.6～g*0.8。

进一步的，所述关键词集合W_i中关键词与第一专利A的关键词集合V中的关键词的相似度的计算方法现有技术中已有多种计算两个词汇相似度的方法，在此不再赘述。按照现有方法对相似度进行计算后，本申请对两个词汇相似度的计算结果进行归一化处理，具体的，将完全相同的两关键词的相似度记为1；对不完全相同的两关键词的相似度按比例调整，确保两关键词的相似度介于0到1之间。

作为本申请的一些实施例，所述步骤S7包括步骤

S72：绘制专利申请量与时间的关系曲线S；

…

…，

通过上述步骤S7，根据专利申请量的变化，对专利进行分段，通常，伴随每个关键技术改进的产生、发展和被替代，在专利申请量上也会产生相应的增大和减少，因此，曲线S上波峰和波谷的变换能够间接反映技术的改革和创新，通过根据波峰和波谷的变换，将曲线S划分为若干段，实质上是多技术改进的阶段进行了划分。之后，在每个曲线S₁，S₂，S₃，…，S_t上提取相应的最能够代表该阶段技术演进的专利文档，并将其推荐给用户，可以最大程度的减少用户的阅读量，提高用户获得专利情报信息流、技术创新信息流的方向、过程、特点和规律的效率，能够清楚显示引证专利文献之间的发展规律，从而揭示某一行业、某一技术的发展趋势和动向。

进一步的，在一个关键技术改进的产生、发展和被替代过程中，将会产生一系列文献，这些文献之间相互关联，这些文献之间联系越紧密、说明相互之间差异越小、创新程度越小，用户进行多篇阅读的必要性就越低；反之，这些文献之间联系越小、说明相互之间差异越大、创新程度越高，用户通过阅读这些文献，就越能够发现技术的发展趋势和动向。因此，本申请通过计算这些文献与被研究专利第一专利A的相似度的平均值，建立间接衡量这些文献之间相似程度的标准，然后选取与该标准差异较大的文献，推荐给用户，能够通过更少量的文献、更加有效的揭示某一行业、某一技术的发展趋势和动向。

本发明还提供一种专利引证分析系统，所述系统采用上述信息引证分析方法向用户推荐引证专利，所述系统能够在电脑、服务器和云计算平台中一种或多种中进行应用。

本发明还提供一种专利引证分析软件，所述软件采用上述信息引证分析方法向用户推荐引证专利。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息引证分析方法，其特征在于，包括步骤

S1：通过检索获得第一专利A；

S7：将集合α中的专利文档推荐给用户。

2.根据权利要求1所述的信息引证分析方法，其特征在于，所述步骤S3包括步骤

S34：依次统计实词集J_2i中每个实词的出现频率，i＝1～n；

3.根据权利要求2所述的信息引证分析方法，其特征在于，所述粘度p＝ρ₁*ρ₂*ρ₃*…*ρ_ψ*…*ρ_ω，其中1≤ψ≤ω，ρ_ψ为某个事件出现的概率。

4.根据权利要求1所述的信息引证分析方法，其特征在于，所述步骤S5包括步骤

…

…，

5.根据权利要求1所述的信息引证分析方法，其特征在于，所述步骤S6包括步骤

6.根据权利要求5所述的信息引证分析方法，其特征在于，所述阈值K与第一专利A的关键词集合V中关键词的总个数g有关，K＝g*0.6～g*0.8。

7.根据权利要求1所述的信息引证分析方法，其特征在于，所述步骤S7包括步骤

S72：绘制专利申请量与时间的关系曲线S；

S74：依次提取集合X₁ X₂，…，X_t内各专利文档的真关键词集合M_i与第一专利A的关键词集合V的相似度ε_i；

…

…，

8.根据权利要求1所述的信息引证分析方法，其特征在于，所述步骤S7将集合Q中的所有专利一起以图或文字的形式显示，采用“高亮”等方式对集合α中的专利文档进行区别显示、推荐给用户。

9.根据权利要求1所述的信息引证分析方法，其特征在于，所述步骤S7仅将集合α中的专利文档按相似度由大到小的顺序排列推荐给用户。

10.一种信息引证分析系统，其特征在于，所述信息引证分析系统采用上述权利要求1～9所述的信息引证分析方法向用户推荐专利。