CN112380838A

CN112380838A - 一种基于大数据的专利文件智能标引方法及装置

Info

Publication number: CN112380838A
Application number: CN202011180870.3A
Authority: CN
Inventors: 程艳
Original assignee: Wuhan Chanlue Technology Co ltd
Current assignee: Wuhan Chanlue Technology Co ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-02-19

Abstract

本发明提出了一种基于大数据的专利文件智能标引方法及装置。包括：获取检索分析指令，根据该检索分析指令对专利数据库进行检索，并提取对应的专利文本；设定主题分类词，根据该主题分类词从同领域专利文本中标记出对应的词语作为技术主题词；建立TF‑IDF算法，根据TF‑IDF算法计算出每个技术主题词在对应的专利文本中所占比重作为该技术主题词的词频；根据技术主题词的词频确定该专利文本对应的技术主题并进行标引。本发明通过利用检索分析词获取二级词语作为技术主题词，然后加上TF‑IDF算法能够精确计算出每篇专利文件中的技术主题词对应的词频，以此来自动确定每篇专利文本的技术主题，全程通过系统自动实现，极大程度节省了人力和时间。

Description

一种基于大数据的专利文件智能标引方法及装置

技术领域

本发明涉及计算机软件技术领域，尤其涉及一种基于大数据的专利文件智能标引方法及装置。

背景技术

随着时间的发展，专利信息的增长尤为迅速，专利信息的快速增长带来的是信息超载，而对于用户来说，要从海量的专利信息数据中对专利的技术主题进行分析标引无疑是一件相当费时费力的事情。

现有的专利分析标引的步骤如下，首先根据检索词汇从专利数据库中检索同领域的专利数据，然后人为通过阅读大量专利文献来确定每个专利的技术主题，并进行标引，这种方法需要耗费大量时间和人力，所以亟需对现有的专利分析标引方法进行改进。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

有鉴于此，本发明提出了一种基于大数据的专利文件智能标引方法及装置，旨在解决现有技术无法实现自动对检索出的专利文件进行主题技术标引的技术问题。

本发明的技术方案是这样实现的：

一方面，本发明提供了一种基于大数据的专利文件智能标引方法，所述基于大数据的专利文件智能标引方法包括以下步骤：

S1，获取检索分析指令，根据该检索分析指令对专利数据库进行检索，并提取对应的专利文本；

S2，设定主题分类词，根据该主题分类词从同领域专利文本中标记出对应的词语作为技术主题词；

S3，建立TF-IDF算法，根据TF-IDF算法计算出每个技术主题词在对应的专利文本中所占比重作为该技术主题词的词频；

S4，根据技术主题词的词频确定该专利文本对应的技术主题并进行标引。

在以上技术方案的基础上，优选的，步骤S1中，获取检索分析指令，根据该检索分析指令对专利数据库进行检索，并提取对应的专利文本，还包括以下步骤，获取检索分析指令，从该获取检索分析指令中提取检索分析词，根据该检索分析词对专利数据库进行检索，获取对应的专利文本。

在以上技术方案的基础上，优选的，步骤S2中，设定主题分类词，根据该主题分类词从同领域专利文本中标记出对应的词语作为技术主题词，还包括以下步骤，根据检索分析词获取与该检索分析词同类别的二级词语作为主题分类词，根据该主题分类词对专利文本进行遍历，并标记出专利文本中对应的主题分类词。

在以上技术方案的基础上，优选的，根据检索分析词获取与该检索分析词同类别的二级词语作为主题分类词，根据该主题分类词对专利文本进行遍历，并标记出专利文本中对应的主题分类词之后，还包括以下步骤，设定检索连词，所述检索连词包括：包括以及含有，根据该检索连词对标记有主题分类词对应的语句进行检索，当该语句存在检索连词时，提取出该检索连词对应的语句中的所有词语，并对所有词语进行筛选，将筛选出的词语作为辅助分类词。

在以上技术方案的基础上，优选的，步骤S3中，建立TF-IDF算法，根据 TF-IDF算法计算出每个技术主题词在对应的专利文本中所占比重作为该技术主题词的词频，还包括以下步骤，建立TF-IDF算法，通过TF-IDF算法统计出专利文本中每个主题分类词的数量以及辅助分类词的数量，并计算出每个主题分类词在对应专利文本中的词频以及每个辅助分类词在对应专利文本中的词频。

在以上技术方案的基础上，优选的，步骤S4中，根据技术主题词的词频确定该专利文本对应的技术主题并进行标引，还包括以下步骤，记录每个主题分类词的词频数值，并叠加每个主题分类词对应的辅助分类词的词频数值，获取每个主题分类词的总词频数值，将每个主题分类词的总词频数值两两进行比较，将总词频数值最大的主体分类词作为该专利文本对应的技术主题并进行标引。

在以上技术方案的基础上，优选的，步骤S4中，根据第一关键词和第二关键词确定最终关键词作为待计算文本的索引关键词，并对该待计算文本进行标记之后，还包括以下步骤，设定特殊分类词，所述特殊分类词包括：背景技术以及有益效果，根据该特殊分类词在专利文本中查找对应文本，并从该文本中提取词语作为待筛选词语，对该待筛选词语进行筛选，将筛选后的词语作为特殊分类词对该专利文本进行标引。

更进一步优选的，所述基于大数据的专利文件智能标引装置包括：

获取模块，用于获取检索分析指令，根据该检索分析指令对专利数据库进行检索，并提取对应的专利文本；

技术主题词确立模块，用于设定主题分类词，根据该主题分类词从同领域专利文本中标记出对应的词语作为技术主题词；

计算模块，用于建立TF-IDF算法，根据TF-IDF算法计算出每个技术主题词在对应的专利文本中所占比重作为该技术主题词的词频；

标引模块，用于根据技术主题词的词频确定该专利文本对应的技术主题并进行标引。

第二方面，所述基于大数据的专利文件智能标引方法还包括一种设备，所述设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于大数据的专利文件智能标引方法程序，所述基于大数据的专利文件智能标引方法程序配置为实现如上文所述的基于大数据的专利文件智能标引方法的步骤。

第三方面，所述基于大数据的专利文件智能标引方法还包括一种介质，所述介质为计算机介质，所述计算机介质上存储有基于大数据的专利文件智能标引方法程序，所述基于大数据的专利文件智能标引方法程序被处理器执行时实现如上文所述的基于大数据的专利文件智能标引方法的步骤。

本发明的一种基于大数据的专利文件智能标引方法相对于现有技术具有以下有益效果：

(1)通过将检索分析词同类别的二级词语作为主题分类词，系统可以通过主题分类词直接对检索到的专利文本进行标记，不仅节省了人力成本，而且是将检索分析词同类别的二级词语直接作为主题分类词，也提高了系统标引的精确度。

(2)通过设定检索连词，对检索出来的专利文本进行二次检索，不仅可以检索出主题分类词下的三级词语作为辅助分类词，同时也可以利用辅助分类词对主题分类词进行辅助标引，提高了系统标引的精确度。

(3)通过建立TF-IDF算法，利用TF-IDF算法对每个主题分类词以及辅助分类词在对应专利文本中的词频，能够很精确的计算出每个专利文本的主体技术，并进行对应标引。

(4)通过设定特殊分类词，如：背景技术以及有益效果，能够增加系统对检索出的专利标引的类别，提高系统进行专利标引的宽度，提升了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例方案涉及的硬件运行环境的设备的结构示意图；

图2为本发明基于大数据的专利文件智能标引方法第一实施例的流程示意图；

图3为本发明基于大数据的专利文件智能标引方法第一实施例的功能模块示意图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，该设备可以包括：处理器1001，例如中央处理器(Central ProcessingUnit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口 1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random AccessMemory， RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory， NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001 的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对设备的限定，在实际应用中设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于大数据的专利文件智能标引方法程序。

在图1所示的设备中，网络接口1004主要用于建立设备与存储基于大数据的专利文件智能标引方法系统中所需的所有数据的服务器的通信连接；用户接口1003主要用于与用户进行数据交互；本发明基于大数据的专利文件智能标引方法设备中的处理器1001、存储器1005可以设置在基于大数据的专利文件智能标引方法设备中，所述基于大数据的专利文件智能标引方法设备通过处理器 1001调用存储器1005中存储的基于大数据的专利文件智能标引方法程序，并执行本发明实施提供的基于大数据的专利文件智能标引方法。

结合图2，图2为本发明基于大数据的专利文件智能标引方法第一实施例的流程示意图。

本实施例中，所述基于大数据的专利文件智能标引方法包括以下步骤：

S10：获取检索分析指令，根据该检索分析指令对专利数据库进行检索，并提取对应的专利文本。

应当理解的是，本实施会获取用户输入的检索分析指令，然后从检索分析指令中提取对应的检索分析词，检索分析词一般是代表某一类的上位概念词，比如：电池、算法、机械手臂以及新能源等词语，然后系统会根据检索分析词对专利数据库进行检索，找到带有检索分析词的专利文本并导出，这一步能够自动对专利文本进行检索，因为选取的检索词一般都是上位概念词，所以在进行标引时，可以设定多个主题分类词进行标引，增加了标引的范围。

应当理解的是，因为是对专利进行智能标引，系统自动检索专利的过程可能已经被标引人员做过了，所以系统这一步也可以直接从标引人员做好的检索报告中直接提取检索分析词对应的专利文本，这样可以直接进入智能标引的过程。

S20：设定主题分类词，根据该主题分类词从同领域专利文本中标记出对应的词语作为技术主题词。

应当理解的是，在得到需要进行标引的专利之后，系统会根据检索分析词获取与该检索分析词同类别的二级词语作为主题分类词，比如：电池作为检索分析词，那么系统根据电池得到的二级词语包括：干电池、锂电池以及铅蓄电池等多种电池，又比如：将新能源作为检索分析词，那么系统根据新能源得到的二级词语包括：太阳能、风能、地热能以及海洋能等。通过这样的方式设定主题分类词，不仅能够很直观展现每篇专利对应的专利主题，而且每个主题分类词还可能存在更下位概念词，能够对专利标引的精度和范围进行加强。

应当理解的是，在得到系统的主题分类词之后，系统会根据主题分类词对专利文本的所有文字内容进行遍历，并标记出专利文本中含有主题分类词的位置，此处的标记并不是标引，此处只是对文本中的主题分类词做个简单记号，方便后续进行计算。

应当理解的是，为了增强主题分类词作为专利文本技术主题的精确度和可靠性，系统会引入辅助分类词，用于对主题分类词进行辅助，辅助分类词即上述实施例提到的每个主题分类词的更下位概念词。

应当理解的是，为了得到辅助分类词，系统会设定检索连词，所述检索连词包括：包括以及含有等这类有包括意思的词语，系统会根据检索连词对标记有主题分类词对应的语句进行检索，当该语句存在检索连词时，提取出该检索连词对应的语句中的所有词语，并对所有词语进行筛选，将筛选出的词语作为辅助分类词，具体实现方法如：干电池包括：锰、石墨棒、锌片、NH₄Cl、ZnCl₂及淀粉糊状物，那么此时系统会检索到包括这个词语，然后将整句话提取出来，并提取出这句话中的每个词语，筛选出一些连词以及常用词之后，得到的最终词语就是：干电池、锰、石墨棒、锌片、NH₄Cl、ZnCl₂、淀粉糊状物，此时系统会通过主题分类词确定干电池为主题分类词，将锰、石墨棒、锌片、NH₄Cl、 ZnCl₂、淀粉糊状物这些词语作为辅助分类词，用于提高专利标引的精确度。

S30：建立TF-IDF算法，根据TF-IDF算法计算出每个技术主题词在对应的专利文本中所占比重作为该技术主题词的词频。

应当理解的是，之后系统会建立TF-IDF算法，TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

应当理解的是，系统会通过TF-IDF算法统计出专利文本中每个主题分类词的数量以及辅助分类词的数量，并计算出每个主题分类词在对应专利文本中的词频以及每个辅助分类词在对应专利文本中的词频。通过TF-IDF算法能够很精确直观看出主题分类词与辅助分类词在每个专利文本中的占比情况即词频，根据词频，系统可以精确判断出每个专利文本对应的主题技术。

S40：根据技术主题词的词频确定该专利文本对应的技术主题并进行标引。

应当理解的是，为了确定每个专利文本的技术主题并进行标引，系统会统计记录每个主题分类词的词频数值，然后记录每个主题分类词对应的辅助分类词的词频数值，并将主题分类词的词频数值与其对应的辅助分类词的词频数值进行叠加，得到一个总词频数值，将得到的总词频数值两两进行比较，比较出数值最大的主题分类词，这个主题分类词即为当前专利文本的技术主题，并根据这个主题分类词对当前专利进行标引，将当前专利归类到对应的区域。

应当理解的是，在确定了专利文本的技术主题之后，系统还可以对专利文本的有益效果和技术问题进行标引，以此来增加系统智能标引的覆盖范围，具体步骤如下：设定特殊分类词，所述特殊分类词包括：背景技术以及有益效果，由于大多数专利格式相同，所以设定背景技术以及有益效果的特殊分类词可以快速找到专利文本中的技术问题以及有益效果，但是有些专利并不会写明有益效果，所以此时特殊分类词会增加：附图说明，通过对附图说明上一段文字进行提取，来得到专利文件的有益效果。

应当理解的是，系统在专利文本中找到对应的特殊分类词之后，会提取对应的文本，并从该文本中提取词语作为待筛选词语，对该待筛选词语进行筛选，去掉一些常用词语以及连词等，得到最后的词语即可以作为特殊分类词对该专利文本进行标引。

需要说明的是，以上仅为举例说明，并不对本申请的技术方案构成任何限定。

通过上述描述不难发现，本实施例通过获取检索分析指令，根据该检索分析指令对专利数据库进行检索，并提取对应的专利文本；设定主题分类词，根据该主题分类词从同领域专利文本中标记出对应的词语作为技术主题词；建立 TF-IDF算法，根据TF-IDF算法计算出每个技术主题词在对应的专利文本中所占比重作为该技术主题词的词频；根据技术主题词的词频确定该专利文本对应的技术主题并进行标引。本实施例通过利用检索分析词获取二级词语作为技术主题词，然后加上TF-IDF算法能够精确计算出每篇专利文件中的技术主题词对应的词频，以此来自动确定每篇专利文本的技术主题，全程通过系统自动实现，极大程度节省了人力和时间。

此外，本发明实施例还提出一种基于大数据的专利文件智能标引装置。如图3所示，该基于大数据的专利文件智能标引装置包括：获取模块10、技术主题词确立模块20、计算模块30以及标引模块40。

此外，需要说明的是，以上所描述的装置实施例仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的基于大数据的专利文件智能标引方法，此处不再赘述。

此外，本发明实施例还提出一种介质，所述介质为计算机介质，所述计算机介质上存储有基于大数据的专利文件智能标引方法程序，所述基于大数据的专利文件智能标引方法程序被处理器执行时实现如下操作：

进一步地，所述基于大数据的专利文件智能标引方法程序被处理器执行时还实现如下操作：

获取检索分析指令，从该获取检索分析指令中提取检索分析词，根据该检索分析词对专利数据库进行检索，获取对应的专利文本。

根据检索分析词获取与该检索分析词同类别的二级词语作为主题分类词，根据该主题分类词对专利文本进行遍历，并标记出专利文本中对应的主题分类词。

设定检索连词，所述检索连词包括：包括以及含有，根据该检索连词对标记有主题分类词对应的语句进行检索，当该语句存在检索连词时，提取出该检索连词对应的语句中的所有词语，并对所有词语进行筛选，将筛选出的词语作为辅助分类词。

建立TF-IDF算法，通过TF-IDF算法统计出专利文本中每个主题分类词的数量以及辅助分类词的数量，并计算出每个主题分类词在对应专利文本中的词频以及每个辅助分类词在对应专利文本中的词频。

记录每个主题分类词的词频数值，并叠加每个主题分类词对应的辅助分类词的词频数值，获取每个主题分类词的总词频数值，将每个主题分类词的总词频数值两两进行比较，将总词频数值最大的主体分类词作为该专利文本对应的技术主题并进行标引。

设定特殊分类词，所述特殊分类词包括：背景技术以及有益效果，根据该特殊分类词在专利文本中查找对应文本，并从该文本中提取词语作为待筛选词语，对该待筛选词语进行筛选，将筛选后的词语作为特殊分类词对该专利文本进行标引。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的专利文件智能标引方法，其特征在于：包括以下步骤；

2.如权利要求1所述的基于大数据的专利文件智能标引方法，其特征在于：步骤S1中，获取检索分析指令，根据该检索分析指令对专利数据库进行检索，并提取对应的专利文本，还包括以下步骤，获取检索分析指令，从该获取检索分析指令中提取检索分析词，根据该检索分析词对专利数据库进行检索，获取对应的专利文本。

3.如权利要求2所述的基于大数据的专利文件智能标引方法，其特征在于：步骤S2中，设定主题分类词，根据该主题分类词从同领域专利文本中标记出对应的词语作为技术主题词，还包括以下步骤，根据检索分析词获取与该检索分析词同类别的二级词语作为主题分类词，根据该主题分类词对专利文本进行遍历，并标记出专利文本中对应的主题分类词。

4.如权利要求3所述的基于大数据的专利文件智能标引方法，其特征在于：根据检索分析词获取与该检索分析词同类别的二级词语作为主题分类词，根据该主题分类词对专利文本进行遍历，并标记出专利文本中对应的主题分类词之后，还包括以下步骤，设定检索连词，所述检索连词包括：包括以及含有，根据该检索连词对标记有主题分类词对应的语句进行检索，当该语句存在检索连词时，提取出该检索连词对应的语句中的所有词语，并对所有词语进行筛选，将筛选出的词语作为辅助分类词。

5.如权利要求4所述的基于大数据的专利文件智能标引方法，其特征在于：步骤S3中，建立TF-IDF算法，根据TF-IDF算法计算出每个技术主题词在对应的专利文本中所占比重作为该技术主题词的词频，还包括以下步骤，建立TF-IDF算法，通过TF-IDF算法统计出专利文本中每个主题分类词的数量以及辅助分类词的数量，并计算出每个主题分类词在对应专利文本中的词频以及每个辅助分类词在对应专利文本中的词频。

6.如权利要求5所述的基于大数据的专利文件智能标引方法，其特征在于：步骤S4中，根据技术主题词的词频确定该专利文本对应的技术主题并进行标引，还包括以下步骤，记录每个主题分类词的词频数值，并叠加每个主题分类词对应的辅助分类词的词频数值，获取每个主题分类词的总词频数值，将每个主题分类词的总词频数值两两进行比较，将总词频数值最大的主体分类词作为该专利文本对应的技术主题并进行标引。

7.如权利要求6所述的基于大数据的专利文件智能标引方法，其特征在于：步骤S4中，根据第一关键词和第二关键词确定最终关键词作为待计算文本的索引关键词，并对该待计算文本进行标记之后，还包括以下步骤，设定特殊分类词，所述特殊分类词包括：背景技术以及有益效果，根据该特殊分类词在专利文本中查找对应文本，并从该文本中提取词语作为待筛选词语，对该待筛选词语进行筛选，将筛选后的词语作为特殊分类词对该专利文本进行标引。

8.一种基于大数据的专利文件智能标引装置，其特征在于，所述基于大数据的专利文件智能标引装置包括：

9.一种设备，其特征在于，所述设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于大数据的专利文件智能标引方法程序，所述基于大数据的专利文件智能标引方法程序配置为实现如权利要求1至7任一项所述的基于大数据的专利文件智能标引方法的步骤。

10.一种介质，其特征在于，所述介质为计算机介质，所述计算机介质上存储有基于大数据的专利文件智能标引方法程序，所述基于大数据的专利文件智能标引方法程序被处理器执行时实现如权利要求1至7任一项所述的基于大数据的专利文件智能标引方法的步骤。