CN113129180A - 一种搭建知识产权数据分析系统的方法 - Google Patents
一种搭建知识产权数据分析系统的方法 Download PDFInfo
- Publication number
- CN113129180A CN113129180A CN202110521952.8A CN202110521952A CN113129180A CN 113129180 A CN113129180 A CN 113129180A CN 202110521952 A CN202110521952 A CN 202110521952A CN 113129180 A CN113129180 A CN 113129180A
- Authority
- CN
- China
- Prior art keywords
- intellectual property
- property data
- data
- building
- unstructured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000007405 data analysis Methods 0.000 title claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 claims description 4
- 238000013475 authorization Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000012827 research and development Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000010276 construction Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Technology Law (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及知识产权技术领域,特别涉及一种搭建知识产权数据分析系统的方法;包括以下步骤:步骤1:采集知识产权数据;步骤2:将采集到的知识产权数据进行预处理;步骤3:对非结构化的知识产权数据进行处理,基于TF‑IDF算法识别知识产权数据的关键词并完成知识产权数据的结构化;步骤4:整合非结构化知识产权数据的处理后的知识产权数据集,结合结构化的知识产权数据形成全维度的知识产权数据数据库,构建出知识产权数据系统。本发明通过专利文本分析和关键词提取,整合非结构化知识产权数据和结构化知识产权数据两种数据源,最终构建以专利关键词分析为目的的通用知识产权数据系统。
Description
技术领域
本发明涉及知识产权技术领域,特别涉及一种搭建知识产权数据分析系统的方法。
背景技术
知识产权是权利人对其智力劳动所创作的成果和经营活动中的标记、信誉所依法享有的专有权利,包括专利权、商标权等。近年来,知识产权保护力度不断加大,知识产权运营交易多措并举,知识产权金融创新成效明显,知识产权合作交流逐步深化,促进了知识产权行业整体大环境的蓬勃发展。但是现有的知识产权数据经常以不同的格式存储或分布在不同的位置,从而需要多个不同的系统来管理或访问分析知识产权数据,缺乏对非结构化知识产权数据的高效处理和解析的方法,不能满足知识产权数据分析系统的需求。
为此,提出一种搭建知识产权数据分析系统的方法。
发明内容
本发明的目的在于提供一种搭建知识产权数据分析系统的方法,通过专利文本分析和关键词提取,整合非结构化知识产权数据和结构化知识产权数据两种数据源,最终构建以专利关键词分析为目的的通用知识产权数据系统。
为了实现上述目的,本发明的技术方案如下:
一种搭建知识产权数据分析系统的方法,包括以下步骤:
步骤1:采集知识产权数据,所述知识产权数据分为结构化的知识产权数据和非结构化的知识产权数据;
步骤2:将采集到的知识产权数据进行预处理;
步骤3:对非结构化的知识产权数据进行处理,基于TF-IDF算法识别知识产权数据的关键词并完成知识产权数据的结构化;
步骤4:整合非结构化知识产权数据的处理后的知识产权数据集,结合结构化的知识产权数据形成全维度的知识产权数据数据库,构建出知识产权数据系统。
具体的,所述步骤1中采集的知识产权数据包括专利分类号、专利案号、专利名称、申请人姓名、专利文本、专利图像信息、专利流程以及专利负责人联系方式,采集手段为通过访问国家知识产权局获取或者通过访问其他专利系统获取。
具体的,所述步骤2中预处理是对采集的知识产权数据转换后得到多个类别的数据块,建立和多个类别数据块数量相同的数据处理线程,每条数据处理线程对应一个初始数据集处理任务,预设字符转换规则、异常处理规则和专业领域词汇库,对数据块进行同一格式转换,并且去除专利文本中多余的包括空白符、空格、水平制表符、回车符、换行符、垂直制表符、分页符在内的符号,对异常处理后的数据块进行专业领域词汇转换,获得统一格式的数据块。
具体的,所述步骤3中对预处理后的非结构化的知识产权数据进行TF-IDF算法处理,提取技术关键词形成结构化的知识产权数据集。
具体的,所述步骤4中知识产权数据数据库包括结构化的知识产权数据、专利数据库、专业领域词汇库、关键词库、专利搜索引擎和专利分析平台。
具体的,还包括步骤5:在知识产权数据系统的基础上进行WEB前端开发与应用,WEB前端开发与应用包括知识产权数据检索、知识产权数据授权分析模块、竞争对手分析模块和企业研发方向分析模块,用于挖掘、分析专利技术以及竞争对手的分析。
本发明的有益效果为:本发明通过专利文本分析和关键词提取,整合非结构化知识产权数据和结构化知识产权数据两种数据源,最终构建以专利关键词分析为目的的通用知识产权数据系统,为知识产权数据的回顾性和前瞻性研究提供服务支持,实现新型的知识产权数据分析服务型知识库体系,面向知识产权数据的技术领域分析和竞争对手分析,从而使文本类型的知识产权数据源建立语义的互操作性,可根据实际需求和技术状况开展专利技术的构建和布局思考。
附图说明
图1为本发明实施例搭建知识产权数据分析系统的方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考附图1,一种搭建知识产权数据分析系统的方法,包括以下步骤:
步骤1:采集知识产权数据,所述知识产权数据分为结构化的知识产权数据和非结构化的知识产权数据;
步骤2:将采集到的知识产权数据进行预处理;
步骤3:对非结构化的知识产权数据进行处理,基于TF-IDF算法识别知识产权数据的关键词并完成知识产权数据的结构化;
步骤4:整合非结构化知识产权数据的处理后的知识产权数据集,结合结构化的知识产权数据形成全维度的知识产权数据数据库,构建出知识产权数据系统。
具体的,所述步骤1中采集的知识产权数据包括专利分类号、专利案号、专利名称、申请人姓名、专利文本、专利图像信息、专利流程以及专利负责人联系方式,采集手段为通过访问国家知识产权局获取或者通过访问其他专利系统获取。
进一步的,本发明涉及的其他专利系统包括但不限于智慧芽专利检索系统、SooPAT专利检索系统和专利汇专利检索系统。
具体的,所述步骤2中预处理是对采集的知识产权数据转换后得到多个类别的数据块,建立和多个类别数据块数量相同的数据处理线程,每条数据处理线程对应一个初始数据集处理任务,预设字符转换规则、异常处理规则和专业领域词汇库,对数据块进行同一格式转换,并且去除专利文本中多余的包括空白符、空格、水平制表符、回车符、换行符、垂直制表符、分页符在内的符号,对异常处理后的数据块进行专业领域词汇转换,获得统一格式的数据块。
进一步的,本发明涉及的字符转换规则包括但不限于将全角英文字符和全角数字字符转换为半角英文和数字字符或者将半角英文字符和数字字符转换为全角英文和全角数字字符或者将全角英文字符和数字字符转换为半角英文和全角数字字符或者将半角英文字符和全角数字字符转换为全角英文和数字字符。
进一步的,本发明涉及的异常处理规则包括空白符(“”)、空格(‘’)、水平制表符(\t)、回车符(\r)、换行符(\n)、垂直制表符(\v)、分页符(\f)。
进一步的,本发明涉及的专业领域词汇库根据IPC分类号进行技术领域分类,建立每个技术领域内的专业术语库。
具体的,所述步骤3中对预处理后的非结构化的知识产权数据进行TF-IDF算法处理,提取技术关键词形成结构化的知识产权数据集。
进一步的,本发明涉及的步骤3是对步骤2经过非结构化的知识产权数据中的专利文本进行处理。
进一步的,本发明涉及的TF-IDF处理具体步骤:对非结构化的知识产权数据中的专利文本进行分词处理,对分词结果计算TF-IDF值,抽取TF-IDF值较高的前M个词语作为关键词,定位关键词所在的句子作为关键句,并将关键句中关键词最大的权值作为关键句的权值,得到每个文本的关键句集合,并将关键句集合形成结构化的知识产权数据集。
进一步的,本发明涉及的分词处理包括但不限于采用Rwordseg包或者jiebaR包来进行。
进一步的,本发明涉及的TF-IDF=词频(TF)×逆向文件频率(IDF),其中, TF-IDF值的大小代表该词能够反映该专利文本的特性的程度,TF-IDF值越高,代表该词越反应该专利文本的特性的程度越高;TF-IDF值越低,代表该词反映该专利文本的特性的程度越低。
进一步的,本发明涉及的语料集为通过访问国家知识产权局获取或者通过访问其他专利系统采集和预处理后,生成统一格式的数据块,生成专利训练语料集。
具体的,所述步骤4中知识产权数据数据库包括结构化的知识产权数据、专利数据库、专业领域词汇库、关键词库、专利搜索引擎和专利分析平台。
具体的,还包括步骤5:在知识产权数据系统的基础上进行WEB前端开发与应用,WEB前端开发与应用包括知识产权数据检索、知识产权数据授权分析模块、竞争对手分析模块和企业研发方向分析模块,用于挖掘、分析专利技术以及竞争对手的分析。
进一步的,本发明优化了知识产权数据分析系统的构建流程,利用预处理和处理过程,将非结构化的知识产权数据转化为结构化的知识产权数据,最终构建以专利关键词分析为目的的通用知识产权数据系统,为知识产权数据的回顾性和前瞻性研究提供服务支持,实现新型的知识产权数据分析服务型知识库体系,面向知识产权数据的技术领域分析和竞争对手分析,从而使文本类型的知识产权数据源建立语义的互操作性,可根据实际需求和技术状况开展专利技术的构建和布局思考。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种搭建知识产权数据分析系统的方法,其特征在于,包括以下步骤:
步骤1:采集知识产权数据,所述知识产权数据分为结构化的知识产权数据和非结构化的知识产权数据;
步骤2:将采集到的知识产权数据进行预处理;
步骤3:对非结构化的知识产权数据进行处理,基于TF-IDF算法识别知识产权数据的关键词并完成知识产权数据的结构化;
步骤4:整合非结构化知识产权数据的处理后的知识产权数据集,结合结构化的知识产权数据形成全维度的知识产权数据数据库,构建出知识产权数据系统。
2.根据权利要求1所述的一种搭建知识产权数据分析系统的方法,其特征在于,所述步骤1中采集的知识产权数据包括专利分类号、专利案号、专利名称、申请人姓名、专利文本、专利图像信息、专利流程以及专利负责人联系方式,采集手段为通过访问国家知识产权局获取或者通过访问其他专利系统获取。
3.根据权利要求1所述的一种搭建知识产权数据分析系统的方法,其特征在于,所述步骤2中预处理是对采集的知识产权数据转换后得到多个类别的数据块,建立和多个类别数据块数量相同的数据处理线程,每条数据处理线程对应一个初始数据集处理任务,预设字符转换规则、异常处理规则和专业领域词汇库,对数据块进行同一格式转换,并且去除专利文本中多余的包括空白符、空格、水平制表符、回车符、换行符、垂直制表符、分页符在内的符号,对异常处理后的数据块进行专业领域词汇转换,获得统一格式的数据块。
4.根据权利要求1所述的一种搭建知识产权数据分析系统的方法,其特征在于,所述步骤3中对预处理后的非结构化的知识产权数据进行TF-IDF算法处理,提取技术关键词形成结构化的知识产权数据集。
5.根据权利要求1所述的一种搭建知识产权数据分析系统的方法,其特征在于,所述步骤4中知识产权数据数据库包括结构化的知识产权数据、专利数据库、专业领域词汇库、关键词库、专利搜索引擎和专利分析平台。
6.根据权利要求1所述的一种搭建知识产权数据分析系统的方法,其特征在于,还包括步骤5:在知识产权数据系统的基础上进行WEB前端开发与应用,WEB前端开发与应用包括知识产权数据检索、知识产权数据授权分析模块、竞争对手分析模块和企业研发方向分析模块,用于挖掘、分析专利技术以及竞争对手的分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110521952.8A CN113129180A (zh) | 2021-05-13 | 2021-05-13 | 一种搭建知识产权数据分析系统的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110521952.8A CN113129180A (zh) | 2021-05-13 | 2021-05-13 | 一种搭建知识产权数据分析系统的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113129180A true CN113129180A (zh) | 2021-07-16 |
Family
ID=76781739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110521952.8A Pending CN113129180A (zh) | 2021-05-13 | 2021-05-13 | 一种搭建知识产权数据分析系统的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113129180A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114331766A (zh) * | 2022-01-05 | 2022-04-12 | 中国科学技术信息研究所 | 专利技术核心度的确定方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108538395A (zh) * | 2018-04-02 | 2018-09-14 | 上海市儿童医院 | 一种通用的医疗专病数据系统的构建方法 |
CN110334926A (zh) * | 2019-06-24 | 2019-10-15 | 广州艾帝西信息科技有限公司 | 一种智能场景大数据分析系统 |
CN111626694A (zh) * | 2020-05-06 | 2020-09-04 | 扬州云创科技信息有限公司 | 一种知识产权大数据信息服务平台 |
CN111737477A (zh) * | 2020-08-07 | 2020-10-02 | 杭州六棱镜知识产权科技有限公司 | 一种基于知识产权大数据的情报调查方法、系统和存储介质 |
CN112559668A (zh) * | 2020-08-23 | 2021-03-26 | 同济大学 | 一种基于聚类的专利地图制作与表示方法 |
-
2021
- 2021-05-13 CN CN202110521952.8A patent/CN113129180A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108538395A (zh) * | 2018-04-02 | 2018-09-14 | 上海市儿童医院 | 一种通用的医疗专病数据系统的构建方法 |
CN110334926A (zh) * | 2019-06-24 | 2019-10-15 | 广州艾帝西信息科技有限公司 | 一种智能场景大数据分析系统 |
CN111626694A (zh) * | 2020-05-06 | 2020-09-04 | 扬州云创科技信息有限公司 | 一种知识产权大数据信息服务平台 |
CN111737477A (zh) * | 2020-08-07 | 2020-10-02 | 杭州六棱镜知识产权科技有限公司 | 一种基于知识产权大数据的情报调查方法、系统和存储介质 |
CN112559668A (zh) * | 2020-08-23 | 2021-03-26 | 同济大学 | 一种基于聚类的专利地图制作与表示方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114331766A (zh) * | 2022-01-05 | 2022-04-12 | 中国科学技术信息研究所 | 专利技术核心度的确定方法、装置、电子设备及存储介质 |
CN114331766B (zh) * | 2022-01-05 | 2022-07-08 | 中国科学技术信息研究所 | 专利技术核心度的确定方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Taj et al. | Sentiment analysis of news articles: a lexicon based approach | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
Pillay et al. | Authorship attribution of web forum posts | |
CN110457676B (zh) | 评价信息的提取方法及装置、存储介质、计算机设备 | |
Curtotti et al. | Corpus based classification of text in Australian contracts | |
CN113221559B (zh) | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 | |
Samuels et al. | News sentiment analysis | |
EP4124988A1 (en) | System and method for automatically tagging documents | |
CN112149387A (zh) | 财务数据的可视化方法、装置、计算机设备及存储介质 | |
Graovac et al. | NgramSPD: Exploring optimal n-gram model for sentiment polarity detection in different languages | |
CN115759071A (zh) | 基于大数据的政务敏感信息识别系统和方法 | |
Singhal et al. | Analyzing scientific publications using domain-specific word embedding and topic modelling | |
CN113129180A (zh) | 一种搭建知识产权数据分析系统的方法 | |
Rybka et al. | Morpho-syntactic parsing based on neural networks and corpus data | |
Ye et al. | Syntactic word embedding based on dependency syntax and polysemous analysis | |
Nwet et al. | Machine learning algorithms for Myanmar news classification | |
Wong et al. | Ontology learning and knowledge discovery using the web: challenges and recent advances | |
Hashmi et al. | Insights to the state-of-the-art PDF Extraction Techniques | |
Sofean | Automatic segmentation of big data of patent texts | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
Goel | A study of text mining techniques: Applications and Issues | |
Lazemi et al. | Persian plagirisim detection using CNN s | |
Hayat et al. | Self learning of news category using ai techniques | |
Paul et al. | Semantic Topic Extraction from Bangla News Corpus Using LDA and BERT-LDA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |