CN113129180A

CN113129180A - 一种搭建知识产权数据分析系统的方法

Info

Publication number: CN113129180A
Application number: CN202110521952.8A
Authority: CN
Inventors: 陈国国; 杨胜凡; 钱辰光; 罗丽美; 周良标; 王德华
Original assignee: Guiyang Yeqin Sme Promotion Center Co ltd
Current assignee: Guiyang Yeqin Sme Promotion Center Co ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-07-16

Abstract

本发明涉及知识产权技术领域，特别涉及一种搭建知识产权数据分析系统的方法；包括以下步骤：步骤1：采集知识产权数据；步骤2：将采集到的知识产权数据进行预处理；步骤3：对非结构化的知识产权数据进行处理，基于TF‑IDF算法识别知识产权数据的关键词并完成知识产权数据的结构化；步骤4：整合非结构化知识产权数据的处理后的知识产权数据集，结合结构化的知识产权数据形成全维度的知识产权数据数据库，构建出知识产权数据系统。本发明通过专利文本分析和关键词提取，整合非结构化知识产权数据和结构化知识产权数据两种数据源，最终构建以专利关键词分析为目的的通用知识产权数据系统。

Description

一种搭建知识产权数据分析系统的方法

技术领域

本发明涉及知识产权技术领域，特别涉及一种搭建知识产权数据分析系统的方法。

背景技术

知识产权是权利人对其智力劳动所创作的成果和经营活动中的标记、信誉所依法享有的专有权利，包括专利权、商标权等。近年来，知识产权保护力度不断加大，知识产权运营交易多措并举，知识产权金融创新成效明显，知识产权合作交流逐步深化，促进了知识产权行业整体大环境的蓬勃发展。但是现有的知识产权数据经常以不同的格式存储或分布在不同的位置，从而需要多个不同的系统来管理或访问分析知识产权数据，缺乏对非结构化知识产权数据的高效处理和解析的方法，不能满足知识产权数据分析系统的需求。

为此，提出一种搭建知识产权数据分析系统的方法。

发明内容

本发明的目的在于提供一种搭建知识产权数据分析系统的方法，通过专利文本分析和关键词提取，整合非结构化知识产权数据和结构化知识产权数据两种数据源，最终构建以专利关键词分析为目的的通用知识产权数据系统。

为了实现上述目的，本发明的技术方案如下：

一种搭建知识产权数据分析系统的方法，包括以下步骤：

步骤1：采集知识产权数据，所述知识产权数据分为结构化的知识产权数据和非结构化的知识产权数据；

步骤2：将采集到的知识产权数据进行预处理；

步骤3：对非结构化的知识产权数据进行处理，基于TF-IDF算法识别知识产权数据的关键词并完成知识产权数据的结构化；

步骤4：整合非结构化知识产权数据的处理后的知识产权数据集，结合结构化的知识产权数据形成全维度的知识产权数据数据库，构建出知识产权数据系统。

具体的，所述步骤1中采集的知识产权数据包括专利分类号、专利案号、专利名称、申请人姓名、专利文本、专利图像信息、专利流程以及专利负责人联系方式，采集手段为通过访问国家知识产权局获取或者通过访问其他专利系统获取。

具体的，所述步骤2中预处理是对采集的知识产权数据转换后得到多个类别的数据块，建立和多个类别数据块数量相同的数据处理线程，每条数据处理线程对应一个初始数据集处理任务，预设字符转换规则、异常处理规则和专业领域词汇库，对数据块进行同一格式转换，并且去除专利文本中多余的包括空白符、空格、水平制表符、回车符、换行符、垂直制表符、分页符在内的符号，对异常处理后的数据块进行专业领域词汇转换，获得统一格式的数据块。

具体的，所述步骤3中对预处理后的非结构化的知识产权数据进行TF-IDF算法处理，提取技术关键词形成结构化的知识产权数据集。

具体的，所述步骤4中知识产权数据数据库包括结构化的知识产权数据、专利数据库、专业领域词汇库、关键词库、专利搜索引擎和专利分析平台。

具体的，还包括步骤5：在知识产权数据系统的基础上进行WEB前端开发与应用，WEB前端开发与应用包括知识产权数据检索、知识产权数据授权分析模块、竞争对手分析模块和企业研发方向分析模块，用于挖掘、分析专利技术以及竞争对手的分析。

本发明的有益效果为：本发明通过专利文本分析和关键词提取，整合非结构化知识产权数据和结构化知识产权数据两种数据源，最终构建以专利关键词分析为目的的通用知识产权数据系统，为知识产权数据的回顾性和前瞻性研究提供服务支持，实现新型的知识产权数据分析服务型知识库体系，面向知识产权数据的技术领域分析和竞争对手分析，从而使文本类型的知识产权数据源建立语义的互操作性，可根据实际需求和技术状况开展专利技术的构建和布局思考。

附图说明

图1为本发明实施例搭建知识产权数据分析系统的方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考附图1，一种搭建知识产权数据分析系统的方法，包括以下步骤：

步骤2：将采集到的知识产权数据进行预处理；

进一步的，本发明涉及的其他专利系统包括但不限于智慧芽专利检索系统、SooPAT专利检索系统和专利汇专利检索系统。

进一步的，本发明涉及的字符转换规则包括但不限于将全角英文字符和全角数字字符转换为半角英文和数字字符或者将半角英文字符和数字字符转换为全角英文和全角数字字符或者将全角英文字符和数字字符转换为半角英文和全角数字字符或者将半角英文字符和全角数字字符转换为全角英文和数字字符。

进一步的，本发明涉及的异常处理规则包括空白符(“”)、空格(‘’)、水平制表符(\t)、回车符(\r)、换行符(\n)、垂直制表符(\v)、分页符(\f)。

进一步的，本发明涉及的专业领域词汇库根据IPC分类号进行技术领域分类，建立每个技术领域内的专业术语库。

进一步的，本发明涉及的步骤3是对步骤2经过非结构化的知识产权数据中的专利文本进行处理。

进一步的，本发明涉及的TF-IDF处理具体步骤：对非结构化的知识产权数据中的专利文本进行分词处理，对分词结果计算TF-IDF值，抽取TF-IDF值较高的前M个词语作为关键词，定位关键词所在的句子作为关键句，并将关键句中关键词最大的权值作为关键句的权值，得到每个文本的关键句集合，并将关键句集合形成结构化的知识产权数据集。

进一步的，本发明涉及的分词处理包括但不限于采用Rwordseg包或者jiebaR包来进行。

进一步的，本发明涉及的TF-IDF＝词频(TF)×逆向文件频率(IDF)，其中，

TF-IDF值的大小代表该词能够反映该专利文本的特性的程度，TF-IDF值越高，代表该词越反应该专利文本的特性的程度越高；TF-IDF值越低，代表该词反映该专利文本的特性的程度越低。

进一步的，本发明涉及的语料集为通过访问国家知识产权局获取或者通过访问其他专利系统采集和预处理后，生成统一格式的数据块，生成专利训练语料集。

进一步的，本发明优化了知识产权数据分析系统的构建流程，利用预处理和处理过程，将非结构化的知识产权数据转化为结构化的知识产权数据，最终构建以专利关键词分析为目的的通用知识产权数据系统，为知识产权数据的回顾性和前瞻性研究提供服务支持，实现新型的知识产权数据分析服务型知识库体系，面向知识产权数据的技术领域分析和竞争对手分析，从而使文本类型的知识产权数据源建立语义的互操作性，可根据实际需求和技术状况开展专利技术的构建和布局思考。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种搭建知识产权数据分析系统的方法，其特征在于，包括以下步骤：

步骤2：将采集到的知识产权数据进行预处理；

2.根据权利要求1所述的一种搭建知识产权数据分析系统的方法，其特征在于，所述步骤1中采集的知识产权数据包括专利分类号、专利案号、专利名称、申请人姓名、专利文本、专利图像信息、专利流程以及专利负责人联系方式，采集手段为通过访问国家知识产权局获取或者通过访问其他专利系统获取。

3.根据权利要求1所述的一种搭建知识产权数据分析系统的方法，其特征在于，所述步骤2中预处理是对采集的知识产权数据转换后得到多个类别的数据块，建立和多个类别数据块数量相同的数据处理线程，每条数据处理线程对应一个初始数据集处理任务，预设字符转换规则、异常处理规则和专业领域词汇库，对数据块进行同一格式转换，并且去除专利文本中多余的包括空白符、空格、水平制表符、回车符、换行符、垂直制表符、分页符在内的符号，对异常处理后的数据块进行专业领域词汇转换，获得统一格式的数据块。

4.根据权利要求1所述的一种搭建知识产权数据分析系统的方法，其特征在于，所述步骤3中对预处理后的非结构化的知识产权数据进行TF-IDF算法处理，提取技术关键词形成结构化的知识产权数据集。

5.根据权利要求1所述的一种搭建知识产权数据分析系统的方法，其特征在于，所述步骤4中知识产权数据数据库包括结构化的知识产权数据、专利数据库、专业领域词汇库、关键词库、专利搜索引擎和专利分析平台。

6.根据权利要求1所述的一种搭建知识产权数据分析系统的方法，其特征在于，还包括步骤5：在知识产权数据系统的基础上进行WEB前端开发与应用，WEB前端开发与应用包括知识产权数据检索、知识产权数据授权分析模块、竞争对手分析模块和企业研发方向分析模块，用于挖掘、分析专利技术以及竞争对手的分析。