CN114756650A

CN114756650A - 一种超大规模数据自动化比对分析处理方法及系统

Info

Publication number: CN114756650A
Application number: CN202210330148.6A
Authority: CN
Inventors: 李庆利; 曹广学; 阴玉敏; 雷怀兴; 韩金水
Original assignee: Realistic Science And Technology Group Co ltd
Current assignee: Realistic Science And Technology Group Co ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-15

Abstract

本发明涉及数据比对分析技术领域，提出了一种超大规模数据自动化比对分析处理方法及系统，包括输入目标文献，对目标文献进行分类，得到目标文献库，获取目标文献库的目标虚拟向量值；计算目标文献和目标文献库中每个文献的向量；计算所述目标向量到所述目标虚拟向量值的向量差D₁，计算所述目标文献库中每个文献的向量到所述目标虚拟向量值的向量差D₂；选择向量差D₂接近所述向量差D₁的文献作为所述目标文献的第一近似文献。使用向量式索引的方式进行了数据索引，其索引速度较传统文本索引的速度有数量级的提升，且检索结果更利于使用统计学公式进行后续数据挖掘。

Description

一种超大规模数据自动化比对分析处理方法及系统

技术领域

本发明涉及比对分析技术领域，具体的，涉及一种超大规模数据自动化比对分析处理方法及系统。

背景技术

专利是知识产权的一部分，在专利申请的过程中，每个专利审核员都需要对现存的所有专利和历史已发表过的重要文献进行查询，并比较这些已经发布过的内容中，是否有和专利申请人所申请的专利冲突之处。这个过程对专利审核人员的困扰很大。专利审核人员不可能逐字逐句去阅读各种专业文献和历史专利内容。并且很多专利晦涩难懂，人为的阅读具有理解上的极大主观性。除此之外，更大的困难在于历史数据的数量级。现存的专利可以比对的文献数据量级在兆亿级别，属于超大规模数据。要完成这种数量级的数据比对，即使专利审核人员具备自身过硬的专业知识，也没有能力对大量的查询结果进行逐句阅读。

现有的系统不仅需要专利审核人员花费大量的时间比对文献，还容易造成遗漏和误解。目前的系统对专利的查询主要基于传统的文本关键字组合索引技术，结合句法分析和语义理解技术等数据挖掘算法。在面对专利或特定学科的专业性较强的文本语义理解上，各类应用数量依旧匮乏且在技术上存在着缺陷。另外，现在自然语言理解成果和新兴的人工智能技术受限于数据规模和算法复杂度的制约，并没有在大型的专利查询系统中得以应用。

因此，迫切需要一种快速查询、比对专利的技术，能在超大规模数据的场景下使用前沿的人工智能技术，并迅速完成专利检索，以便让专利审核员做出专业、快速的判断，从而提高专利审核和管理的效率。

发明内容

本发明提出一种超大规模数据自动化比对分析处理方法及系统，对数据挖掘算法进行了创新，并尝试以此为基础设计一种适用超大规模数据场景的系统架构，能够高速处理专利的比对和审核工作。

本发明的技术方案如下：

第一方面，一种超大规模数据自动化比对分析处理方法，包括如下步骤，

获得多个文献库，计算每个文献库的虚拟向量值；

输入目标文献，对目标文献进行分类，得到目标文献对应的文献库，作为目标文献库；所述目标文献库的虚拟向量值作为目标虚拟向量值；

计算目标文献库中每个文献的向量，所述目标文献库包括目标文献和比对文献组，所述比对文献组为目标文献库中除目标文献之外的文献；

计算所述目标文献的向量到所述目标虚拟向量值的向量差D₁，计算所述比对文献组中每个文献的向量到所述目标虚拟向量值的向量差D₂；

计算向量差D₂与向量差D₁之间的距离，选择距离小于设定阈值的向量差D₂对应的文献作为所述目标文献的第一近似文献；

将所述第一近似文献输入分子筛模型，设定粗颗粒筛选条件a；

输出可能数据集合R₁和不可能数据集合R₂；

将所述可能数据集合R₁中的第一近似文献输入分子筛模型，设定细颗粒筛选条件b；

输出可能数据集合更新R₁和不可能数据集合R₃；

合并不可能数据集合R₂和不可能数据集合R₃作为备用数据集合R₄，并将更新后的可能数据集合R₁作为结果集合R；

对所述结果集合R进行数据分析，找到类似文献则结束任务，未找到类似文献则在备用数据集合R4中继续查找，直到找到类似文献。

第二方面，一种超大规模数据自动化比对分析处理系统，包括，

第一计算模块，用于获得多个文献库，计算每个文献库的虚拟向量值；

第一处理模块，用于输入目标文献，对目标文献进行分类，得到目标文献对应的文献库，作为目标文献库，所述目标文献库的虚拟向量值作为目标虚拟向量值；

第二计算模块，用于计算目标文献库中每个文献的向量，所述目标文献库包括目标文献和比对文献组，所述比对文献组为目标文献库中除目标文献之外的文献；

第三计算模块，用于计算所述目标文献的向量到所述目标虚拟向量值的向量差D₁，计算所述比对文献组中每个文献的向量到所述目标虚拟向量值的向量差D₂；

第一选择模块，用于计算向量差D₂与向量差D₁之间的距离，选择距离小于设定阈值的向量差D₂对应的文献作为所述目标文献的第一近似文献。

第三方面，一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现一种超大规模数据自动化比对分析处理方法的步骤。

本发明的工作原理及有益效果为：

1、本发明通过计算文献库的虚拟向量值，根据文献库中的文献向量到虚拟向量值的距离，来求得与目标文献最为接近的文献。使用向量式索引的方式进行了数据索引，其索引速度较传统文本索引的速度有数量级的提升，且检索结果更利于使用统计学公式进行后续数据挖掘。

2、本发明在向量式索引技术的基础上，使用分子筛技术，进一步根据候选数据的质量再次分类过滤，从而使得数据质量高的数据有限计算，提高命中率，使专利比对效率提升。

下面结合具体实施方式对本发明作进一步详细的说明。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都涉及本发明保护的范围。

实施例1

本实施例提出了一种超大规模数据自动比对分析处理方法，包括，

1、将所有文献进行分类，得到多个文献库，计算每个文献库的虚拟向量值。

2、输入目标文献，对目标文献进行分类，得到目标文献库，获取目标文献库的目标虚拟向量值。

①分词

分词技术是语义识别的基础。所谓分词，指的是把一句话按核心词汇和单字进行“断句”后按顺序排列，以便计算机对句子的含义进行进一步的分析。

常见的分词工具有Jieba、SnowNLP、THULAC、NLPIR等。

对比Jieba分词，SnowNLP的分析效率较低，运行缓慢。THULAC是源自清华的分词工具，具有分词和词性标注的功能。在性能上接近Jieba，但是在分词的准确率上比Jieba要差。 NLPIR的分析效率较高，安装上也比Jieba要简单一些。但Jieba的分词方法上的支持种类更为广泛。

因此，经过对多种分词模型的比较和筛选后，本发明的系统实现最终采用Jieba进行分词。

Jieba分词的原理是使用一个前缀词典对整个词图进行扫描，由此生成一个句子的所有可能生成词所构成的有向无环图(DAG)。对全部的可能生成次进行动态规划，查找该无向图的最大概率路径，就可以找出基于词频的最大切分组合。对未收录的词汇，Jieba采用基于汉字成词能力的隐马尔科夫(HMM)模型进行检测和学习。

②词向量计算

Word2Vec也是一个支持Python的第三方类库的名称。使用该类库，可以对自然语言分词形成的语料库进行训练，从而得到一个多维的词向量模型。使用该模型就可以对自然语言进行向量化处理。由于Word2Vec需要用多维向量的形式模拟词向量来描述和定义每个词汇，所以通常需要把维度为词典大小的高维空间嵌入到一个更低维的连续向量空间，从而把词汇映射为实数域上的向量

由于Word2Vec运行起来并不快，在进行专利分析任务时，我们也可以基于词向量的思路自己设计一个词汇的概率神经网络，并将专业性较强的词汇引入模型，而将非专业词汇作为停用词，这种方法会使系统运行的速度快得多。

③计算该文献库所有文献的向量中心点均值sum(M_i)/i，作为该文献库的虚拟向量值。

有了特定分类中心点的特征向量后，我们就可以选这个特征向量为参照点，对所有文献要进行向量式索引了。之所以将这种特征向量称呼其为虚拟向量，是因为并不存在一篇特定的文献的向量值对应该向量。该向量只是这个分类中所有文献的向量的一个平均值。

有了分类虚拟向量，我们可以存储所有文献的向量到该虚拟向量的向量差D到数据库，作为一个数值索引，也就是我们要使用的向量式索引。这种索引的存储完全是数字，因此在存储空间的占用大小上，要远远小于文本索引。这也意味着，其查找性能将远高于文本索引。

所谓向量式索引，就是要计算某个文献的向量与所有分类中心向量的向量差D。它代表了文献向量在不同维度上，距离该分类向量的距离。

3、计算目标文献和目标文献库中每个文献的向量。

①进行分词，将非专业词汇作为停用词，

②选择概率和权重较高的多个词汇进行词向量计算，

③通过词向量计算多个所述词汇到原点的欧式距离之和，作为目标文献目标向量和所述目标文献库中每个文献的向量。

4、计算目标向量到目标虚拟向量的向量差D1，计算目标文献库中每个文献的向量到目标虚拟向量值的向量差D2，选择向量差D2接近所述向量差D1的文献作为所述目标文献的第一近似文献。

在以上的算法中，我们没有引入词频权重。引入词频权重需要更复杂的算法设计和更高的计算性能。实践检验发现，引入词频权重后在检索的结果准确率上，提升并不明显。

对于大数据或超大规模数据的检索场景，目前最有效的方式是使用基于索引的分布式检索。然而，如果直接使用词向量技术对数据集进行检索，检索结果精度较高，能较大程度满足分类和查询、比较的需要。但这种查询方法不仅耗时惊人，而且需要的系统资源更是庞大到不可想象。分布式检索在多词汇的组合检索中，性能会急剧下降。当面对文档相似度的检索时，更是因为查询的复杂多过高而显得捉襟见肘。另外，这种检索的查询结果准确性也非常低，在专利检索这种专业性要求极高的场景并不完全适用。显然使用这种技术进行查询更加不适用于大数据场景。

处理大数据和超大规模数据的一种很有效的思路是先将数据进行粗略的初选。所以，为了解决大数据造成的性能问题，结合相似度计算和索引技术，我们提出一种文本的快速泛检索模型用于解决大数据和超大规模数据的预筛选。

本发明先通过“向量式索引”对超大规模数据进行预筛选，与单纯的词向量不同，本实施例中的向量值不但表示文献中出现的词汇，还包含词汇出现的概率。

分子筛模型是一种数据结果集的快速过滤模型，它是两组二元弱分类器的组合而形成的一个快速分类器，适用于大数据场景。在需要计算验证的数据量较大时，我们对数据集的验证或者说过滤往往不会一步到位，而是先进行粗选，选出质量较高的数据，再进行下一步的精选。分子筛模型是基于这种思想提出的一种模型。

分子筛模型的命名借鉴了材料科学领域的概念。所谓分子筛，是通过吸附的优先顺序和尺寸大小来区分不同物质的分子，称为“分子筛”。

5、将所述第一近似文献输入分子筛模型，设定粗颗粒筛选条件a，输出可能数据集合R₁和不可能数据集合R₂；

6、将所述可能数据集合R₁中的第一近似文献输入分子筛模型，设定细颗粒筛选条件b，输出可能数据集合更新R₁和不可能数据集合R₃；

7、合并不可能数据集合R₂和不可能数据集合R₃作为备用数据集合R₄，并将更新后的可能数据集合R₁作为结果集合R；

8、对所述结果集合R进行精确验证，找到类似文献则结束任务，未找到类似文献则在备用数据集合R4中继续查找，直到找到类似文件。

针对文本进行查找分析时，我们往往需要对不同类型的验证数据集采取不同的数据分析策略和算法设计。比如验证数据集中的多数结果集为正确集，其算法可以设计得较为复杂。但若验证数据集中含有的正确结果集较少，则我们的算法会以性能优先。

分子筛模型的意义在于，可以把数据集分类。针对不同的筛选结果，可以适配不同复杂度的算法进行数据分析，从而进一步提高系统整体的计算性能。

实施例2

本实施例还提出了一种超大规模数据自动比对分析处理系统，包括，

第一选择模块，用于计算向量差D₂与向量差D₁之间的距离，选择距离小于设定阈值的向量差D₂对应的文献作为所述目标文献的第一近似文献；

第一输入模块，用于将所述第一近似文献输入分子筛模型，设定粗颗粒筛选条件a；

第一输出模块，用于输出可能数据集合R₁和不可能数据集合R₂；

第二输入模块，用于将所述可能数据集合R₁中的第一近似文献输入分子筛模型，设定细颗粒筛选条件b；

第二输出模块，用于输出可能数据集合更新R₁和不可能数据集合R₃；

第三处理模块，用于合并不可能数据集合R₂和不可能数据集合R₃作为备用数据集合R₄，并将更新后的可能数据集合R₁作为结果集合R；

第一查找模块，用于对所述结果集合R进行数据分析，找到类似文献则结束任务，未找到类似文献则在备用数据集合R4中继续查找，直到找到类似文献。

进一步，所述第一计算模块包括，

第一处理模块，用于对任一文献库，将该文献库内每一文献进行分词，并计算每一词汇在该文献出现的频率；

第四计算模块，用于计算每一文献内频率高于设定阈值的多个词汇的词向量，并计算词向量的均值，得到向量中心点Mi，i∈(1,2,3,……)；

第五计算模块，用于计算该文献库所有文献的向量中心点均值sum(Mi)/i，作为该文献库的虚拟向量值。

进一步，所述第二计算模块包括，

第二处理模块，用于对任一文献进行分词，将非专业词汇作为停用词；

第二选择模块，用于选择概率和权重高于设定阈值的多个词汇进行词向量计算，得到多个词汇的词向量；

第六计算模块，用于计算所述多个词汇的词向量到原点的欧式距离之和，作为所述目标文献库中每个文献的向量。

实施例3

本实施例还提出了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述的一种超大规模数据自动化比对分析处理方法的步骤。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种超大规模数据自动化比对分析处理方法，其特征在于，包括如下步骤，

获得多个文献库，计算每个文献库的虚拟向量值；

计算向量差D₂与向量差D₁之间的距离，选择距离小于设定阈值的向量差D₂对应的文献作为所述目标文献的第一近似文献。

2.根据权利要求1所述的一种超大规模数据自动化比对分析处理方法，其特征在于，所述计算每个文献库的虚拟向量值，包括：

对任一文献库，将该文献库内每一文献进行分词，并计算每一词汇在该文献出现的频率；

计算每一文献内频率高于设定阈值的多个词汇的词向量，并计算词向量的均值，得到向量中心点Mi，i∈(1,2,3,……)；

计算该文献库所有文献的向量中心点均值sum(Mi)/i，作为该文献库的虚拟向量值。

3.根据权利要求1所述的一种超大规模数据自动化比对分析处理方法及系统，其特征在于，所述计算目标文献库中每个文献的向量，包括：

对任一文献进行分词，将非专业词汇作为停用词；

选择概率和权重高于设定阈值的多个词汇进行词向量计算，得到多个词汇的词向量；

计算所述多个词汇的词向量到原点的欧式距离之和，作为所述目标文献库中每个文献的向量。

4.根据权利要求1所述的一种超大规模数据自动化比对分析处理方法，其特征在于，还包括如下步骤：

输出可能数据集合R₁和不可能数据集合R₂；

输出可能数据集合更新R₁和不可能数据集合R₃；

5.一种超大规模数据自动化比对分析处理系统，其特征在于，包括，

6.根据权利要求5所述的一种超大规模数据自动化比对分析处理系统，其特征在于，所述第一计算模块包括，

7.根据权利要求5所述的一种超大规模数据自动化比对分析处理系统，其特征在于，所述第二计算模块包括，

8.根据权利要求5所述的一种超大规模数据自动化比对分析处理系统，其特征在于，还包括，

9.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的一种超大规模数据自动化比对分析处理方法的步骤。