CN107622122A - 一种专利关键词自动提取方法 - Google Patents
一种专利关键词自动提取方法 Download PDFInfo
- Publication number
- CN107622122A CN107622122A CN201710891269.7A CN201710891269A CN107622122A CN 107622122 A CN107622122 A CN 107622122A CN 201710891269 A CN201710891269 A CN 201710891269A CN 107622122 A CN107622122 A CN 107622122A
- Authority
- CN
- China
- Prior art keywords
- document
- words
- contrast
- retrieval
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种专利关键词自动提取方法,属于文字检索技术领域。包括以下步骤,电子文档导入检索查询、题目分析、正文分析和关键词的导出,以及正文分析中文档生成、字词识别、字词检索、字词检索、字词对比、字词获取、字词显示、字词保存。本发明通过对专利正文中的关键字进行提取,进而更加容易的对专利完成检索查询。
Description
技术领域
本发明属于文字检索技术领域,特别是涉及一种专利关键词自动提取方法。
背景技术
目前,随着专利文献的迅速增长,专利文献专业和社会化查询日益普遍,实现专利文献数据的查全率和查准率为专利文献信息的检索的难点和重点,长期以来,用袁术专利数据来完成专利信息的检索,往往使得查全率和查准率相互冲突,在专利的撰写提交过程中往往引用大量的相关技术资料和引用技术,使得在检索的过程中查出大量的相关度不足的专利,需要一一进行查看排除,浪费了大量的时间。
发明内容
本发明的目的在于提供一种专利关键词自动提取方法,通过对专利文献进行关键字的提取,以关键字进行专利检索,提高专利检索的准确性的全面性,解决了现有的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种专利关键词自动提取方法,包括如下步骤:SS01电子文档导入检索查询,电子文档导入检索查询时自动生成主文档、子文档和对比文档,并对主文档、子文档和对比文档进行保存;SS02题目分析,题目分析时自动检索文库中相似文档,并保存在对比文档中;SS03正文分析,题目分析时自动检索文库中相似文档,并保存在对比文档中;SS04关键词的导出,在查询对比之后进行锁定复制,进行最终的字词导出并保存。
进一步地,SS03正文分析,进行对正文的分析对比包括以下子步骤:SS03a文档生成,用于在电子文档导入时自动生成主文档、子文档和对比文档;SS03b字词识别,用于对专利文献中各个板块进行识别划分;SS03c字词检索,所述字词检索包括限定字跟随判定模块和重复字筛选模块,用于对正文和题目进行分析;SS03d字词对比,所述字词对比包括对比文档和对比词库,对比词库和对比文库用于与所筛选词组进行对比筛选;SS03e字词获取;用于获取最终判定的关键词组;SS03f字词显示,用于将字词获取判定的词组进行显示;SS03g字词保存,用于对主文档、子文档和对比文档进行保存。
进一步地,所述SS03c中限定字跟随判定模块用于对专业用词语句中名词的判定提取识别。
进一步地,所述SS03d中重复字筛选模块用于对专利文献中多次重复使用的词句进行筛选。
本发明具有以下有益效果:
本发明包含有限定字跟随判定模块,根据撰写专利时所使用的专业定性词汇进行跟随指引查询,进而使得检索的范围更加的具体,可节省大量的关键字检索时间,并且还划分了字词识别对专利每一板块进行区分,防止大量引用技术中的关键字进行引诱判定,防止其增加系统检索的负荷进而延长关键字提取的时间。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的关键字提取流程图;
图2为本发明的步骤SS03中子流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-2所示,本发明为一种专利关键词自动提取方法,包括如下步骤;
SS01电子文档导入检索查询,电子文档导入检索查询时自动生成主文档、子文档和对比文档,并对主文档、子文档和对比文档进行保存;
SS02题目分析,题目分析时自动检索文库中相似文档,并保存在对比文档中;
SS03正文分析,题目分析时自动检索文库中相似文档,并保存在对比文档中;
SS04关键词的导出,在查询对比之后进行锁定复制,进行最终的字词导出并保存。
其中,SS03正文分析,进行对正文的分析对比包括以下子步骤;
SS03a文档生成,用于在电子文档导入时自动生成主文档、子文档和对比文档;
SS03b字词识别,用于对专利文献中各个板块进行识别划分;
SS03c字词检索,所述字词检索包括限定字跟随判定模块和重复字筛选模块,用于对正文和题目进行分析;
SS03d字词对比,所述字词对比包括对比文档和对比词库,对比词库和对比文库用于与所筛选词组进行对比筛选;
SS03e字词获取;用于获取最终判定的关键词组;
SS03f字词显示,用于将字词获取判定的词组进行显示;
SS03g字词保存,用于对主文档、子文档和对比文档进行保存。
其中,SS03c中限定字跟随判定模块用于对专业用词语句中名词的判定提取识别。
其中,SS03d中重复字筛选模块用于对专利文献中多次重复使用的词句进行筛选。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (4)
1.一种专利关键词自动提取方法,其特征在于,包括如下步骤;
SS01电子文档导入检索查询,电子文档导入检索查询时自动生成主文档、子文档和对比文档,并对主文档、子文档和对比文档进行保存;
SS02题目分析,题目分析时自动检索文库中相似文档,并保存在对比文档中;
SS03正文分析,题目分析时自动检索文库中相似文档,并保存在对比文档中;
SS04关键词的导出,在查询对比之后进行锁定复制,进行最终的字词导出并保存。
2.根据权利要求1所述的一种专利关键词自动提取方法,其特征在于:根据所述SS03正文分析,进行对正文的分析对比包括以下子步骤;
SS03a文档生成,用于在电子文档导入时自动生成主文档、子文档和对比文档;
SS03b字词识别,用于对专利文献中各个板块进行识别划分;
SS03c字词检索,所述字词检索包括限定字跟随判定模块和重复字筛选模块,用于对正文和题目进行分析;
SS03d字词对比,所述字词对比包括对比文档和对比词库,对比词库和对比文库用于与所筛选词组进行对比筛选;
SS03e字词获取;用于获取最终判定的关键词组;
SS03f字词显示,用于将字词获取判定的词组进行显示;
SS03g字词保存,用于对主文档、子文档和对比文档进行保存。
3.根据权利要求2所述的一种专利关键词自动提取方法,其特征在于,所述SS03c中限定字跟随判定模块用于对专业用词语句中名词的判定提取识别。
4.根据权利要求2所述的一种专利关键词自动提取方法,其特征在于,所述SS03d中字词对比中重复字筛选模块用于对专利文献中多次重复使用的词句进行筛选。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710891269.7A CN107622122A (zh) | 2017-09-27 | 2017-09-27 | 一种专利关键词自动提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710891269.7A CN107622122A (zh) | 2017-09-27 | 2017-09-27 | 一种专利关键词自动提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107622122A true CN107622122A (zh) | 2018-01-23 |
Family
ID=61091076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710891269.7A Pending CN107622122A (zh) | 2017-09-27 | 2017-09-27 | 一种专利关键词自动提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107622122A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046168A (zh) * | 2019-12-19 | 2020-04-21 | 智慧芽信息科技(苏州)有限公司 | 用于生成专利概述信息的方法、装置、电子设备和介质 |
US11714787B2 (en) | 2018-05-25 | 2023-08-01 | ZFusion Technology Co., Ltd. Xiamen | Construction method, device, computing device, and storage medium for constructing patent knowledge database |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101276341A (zh) * | 2007-03-29 | 2008-10-01 | 上海汉光知识产权数据科技有限公司 | 专利数据检索系统 |
CN101692240A (zh) * | 2009-08-14 | 2010-04-07 | 北京中献电子技术开发中心 | 一种基于规则的专利摘要自动抽取和关键词标引方法 |
CN103885934A (zh) * | 2014-02-19 | 2014-06-25 | 中国专利信息中心 | 一种专利文献关键短语自动提取方法 |
-
2017
- 2017-09-27 CN CN201710891269.7A patent/CN107622122A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101276341A (zh) * | 2007-03-29 | 2008-10-01 | 上海汉光知识产权数据科技有限公司 | 专利数据检索系统 |
CN101692240A (zh) * | 2009-08-14 | 2010-04-07 | 北京中献电子技术开发中心 | 一种基于规则的专利摘要自动抽取和关键词标引方法 |
CN103885934A (zh) * | 2014-02-19 | 2014-06-25 | 中国专利信息中心 | 一种专利文献关键短语自动提取方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11714787B2 (en) | 2018-05-25 | 2023-08-01 | ZFusion Technology Co., Ltd. Xiamen | Construction method, device, computing device, and storage medium for constructing patent knowledge database |
CN111046168A (zh) * | 2019-12-19 | 2020-04-21 | 智慧芽信息科技(苏州)有限公司 | 用于生成专利概述信息的方法、装置、电子设备和介质 |
CN111046168B (zh) * | 2019-12-19 | 2023-12-01 | 智慧芽信息科技(苏州)有限公司 | 用于生成专利概述信息的方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046656B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
US10579739B2 (en) | Method and system for identifying places of interest in a natural language input | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN106528535B (zh) | 一种基于编码和机器学习的多语种识别方法 | |
CN104408078A (zh) | 一种基于关键词的中英双语平行语料库构建方法 | |
CN103077164A (zh) | 文本分析方法及文本分析器 | |
CN111259160B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN113158653A (zh) | 预训练语言模型的训练方法、应用方法、装置及设备 | |
CN104699785A (zh) | 一种论文相似度检测方法 | |
WO2012159558A1 (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
CN111159389A (zh) | 基于专利要素的关键词提取方法、终端、可读存储介质 | |
CN111078839A (zh) | 一种用于裁判文书的结构化处理方法及处理装置 | |
CN105426379A (zh) | 基于词语位置的关键字权值计算方法 | |
CN108108346A (zh) | 文档的主题特征词抽取方法及装置 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN107622122A (zh) | 一种专利关键词自动提取方法 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN113761137B (zh) | 一种提取地址信息的方法及装置 | |
CN113642327A (zh) | 一种标准知识库的构建方法及装置 | |
CN111553155B (zh) | 基于语义结构的口令分词系统及方法 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN107480128A (zh) | 中文文本的分词方法及装置 | |
CN104572628B (zh) | 一种基于句法特征的学术定义自动抽取系统及方法 | |
CN112488593B (zh) | 一种用于招标的辅助评标系统及方法 | |
CN107491440B (zh) | 自然语言分词构造方法及系统、自然语言分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180123 |
|
RJ01 | Rejection of invention patent application after publication |