CN106445916A - 专利检索用语义分析方法 - Google Patents

专利检索用语义分析方法 Download PDF

Info

Publication number
CN106445916A
CN106445916A CN201610832719.0A CN201610832719A CN106445916A CN 106445916 A CN106445916 A CN 106445916A CN 201610832719 A CN201610832719 A CN 201610832719A CN 106445916 A CN106445916 A CN 106445916A
Authority
CN
China
Prior art keywords
technical
retrieval
key word
technology
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610832719.0A
Other languages
English (en)
Inventor
冯晓辉
孔兴
夏方
康玉
武振
赵文曼
徐宁宁
梁瑞欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Mdt Infotech Ltd
Original Assignee
Hefei Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Mdt Infotech Ltd filed Critical Hefei Mdt Infotech Ltd
Priority to CN201610832719.0A priority Critical patent/CN106445916A/zh
Publication of CN106445916A publication Critical patent/CN106445916A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种专利检索用语义分析方法,其包括以下步骤:获取排在前若干位的技术词汇作为关键词;将所述获取到的关键词归纳为多个类别;分别在所述各个类别中选取一个关键词进行组合,并作为检索所需要的关键词组合,得到多组不同的关键词组合;将所述获取到的技术关键词组合输入到专利数据库中进行检索,分别得到若干个专利文献;将所述各技术关键词组合得到的专利文献进行比对,按照不同组合下的专利文献的重合频次进行排序。本发明提供的专利检索用语义分析方法根据关键词组合得到不同的专利文献组合,并且对专利文献的技术关联度进行评估并排序,得到的检索结果使用起来更为便捷。

Description

专利检索用语义分析方法
技术领域
本发明属于专利数据处理技术领域,特别是一种专利检索用语义分析方法。
背景技术
现有技术提供的专利检索方法都是通过输入关键词进行检索,并且通过人工来改变关键词的种类与数量进行不同的组合检索,检索效率低,且获取到的文献繁多不方便使用。
发明内容
为解决上述技术问题,本发明提供了专利检索用语义分析方法,其包括以下步骤:
S1:将中文技术文档以词汇为单位进行拆分,将该技术文档中出现的技术词汇按照频次进行排序,获取排在前若干位的技术词汇作为关键词;
S2:将获取的关键词进行归类,具有重合文字的部分归为一类,将所述获取到的关键词归纳为多个类别;
S3:分别在所述各个类别中选取一个关键词进行组合,并作为检索所需要的关键词组合,得到多组不同的关键词组合;
S4:将所述获取到的技术关键词组合输入到专利数据库中进行检索,分别得到若干个专利文献;
S5:将所述各技术关键词组合得到的专利文献进行比对,按照不同组合下的专利文献的重合频次进行排序,出现频率越高的专利文献其技术关联度越高,出现频率越低的专利文献其技术关联度越低。
较佳地,所述技术词汇为预存在词汇库中的技术用词,所述词汇库定期进行更新。
较佳地,所述技术文档的拆分方式为:
将技术词汇从技术文档中筛选出来,并将除技术词汇之外的其他词汇删除。
本发明具有以下有益效果:
本发明提供的专利检索用语义分析方法根据关键词组合得到不同的专利文献组合,并且对专利文献的技术关联度进行评估并排序,得到的检索结果使用起来更为便捷。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
具体实施方式
下面将结合本发明实施例对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供了专利检索用语义分析方法,其包括以下步骤:
S1:将中文技术文档以词汇为单位进行拆分,将该技术文档中出现的技术词汇按照频次进行排序,获取排在前若干位的技术词汇作为关键词;
S2:将获取的关键词进行归类,具有重合文字的部分归为一类,将所述获取到的关键词归纳为多个类别;
S3:分别在所述各个类别中选取一个关键词进行组合,并作为检索所需要的关键词组合,得到多组不同的关键词组合;
S4:将所述获取到的技术关键词组合输入到专利数据库中进行检索,分别得到若干个专利文献;
S5:将所述各技术关键词组合得到的专利文献进行比对,按照不同组合下的专利文献的重合频次进行排序,出现频率越高的专利文献其技术关联度越高,出现频率越低的专利文献其技术关联度越低。
其中所述技术词汇为预存在词汇库中的技术用词,所述词汇库定期进行更新。
所述技术文档的拆分方式为:
将技术词汇从技术文档中筛选出来,并将除技术词汇之外的其他词汇删除。
本发明提供的专利检索用语义分析方法根据关键词组合得到不同的专利文献组合,并且对专利文献的技术关联度进行评估并排序,得到的检索结果使用起来更为便捷。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (3)

1.专利检索用语义分析方法,其特征在于,包括以下步骤:
S1:将中文技术文档以词汇为单位进行拆分,将该技术文档中出现的技术词汇按照频次进行排序,获取排在前若干位的技术词汇作为关键词;
S2:将获取的关键词进行归类,具有重合文字的部分归为一类,将所述获取到的关键词归纳为多个类别;
S3:分别在所述各个类别中选取一个关键词进行组合,并作为检索所需要的关键词组合,得到多组不同的关键词组合;
S4:将所述获取到的技术关键词组合输入到专利数据库中进行检索,分别得到若干个专利文献;
S5:将所述各技术关键词组合得到的专利文献进行比对,按照不同组合下的专利文献的重合频次进行排序,出现频率越高的专利文献其技术关联度越高,出现频率越低的专利文献其技术关联度越低。
2.如权利要求1所述的专利检索用语义分析方法,其特征在于,所述技术词汇为预存在词汇库中的技术用词,所述词汇库定期进行更新。
3.如权利要求2所述的专利检索用语义分析方法,其特征在于,所述技术文档的拆分方式为:
将技术词汇从技术文档中筛选出来,并将除技术词汇之外的其他词汇删除。
CN201610832719.0A 2016-09-19 2016-09-19 专利检索用语义分析方法 Pending CN106445916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610832719.0A CN106445916A (zh) 2016-09-19 2016-09-19 专利检索用语义分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610832719.0A CN106445916A (zh) 2016-09-19 2016-09-19 专利检索用语义分析方法

Publications (1)

Publication Number Publication Date
CN106445916A true CN106445916A (zh) 2017-02-22

Family

ID=58166358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610832719.0A Pending CN106445916A (zh) 2016-09-19 2016-09-19 专利检索用语义分析方法

Country Status (1)

Country Link
CN (1) CN106445916A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992586A (zh) * 2017-12-08 2018-05-04 成都谷问信息技术有限公司 基于智能语意的检索方法
CN108170744A (zh) * 2017-12-19 2018-06-15 山东浪潮云服务信息科技有限公司 一种数据采集方法及装置
CN110209779A (zh) * 2018-02-05 2019-09-06 索意互动(北京)信息技术有限公司 一种客户端、服务器、检索方法及其系统
CN113435866A (zh) * 2021-08-25 2021-09-24 北京新河科技有限公司 一种数据处理系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539916A (zh) * 2008-03-17 2009-09-23 亿维讯软件(北京)有限公司 初次专利检索装置、二次专利检索装置和专利检索系统
CN103377226A (zh) * 2012-04-25 2013-10-30 中国移动通信集团公司 一种智能检索方法及其系统
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法
CN104778201A (zh) * 2015-01-23 2015-07-15 湖南科技大学 一种基于多查询结果合并的在先技术检索方法
CN105653546A (zh) * 2014-11-11 2016-06-08 北大方正集团有限公司 一种目标主题的检索方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539916A (zh) * 2008-03-17 2009-09-23 亿维讯软件(北京)有限公司 初次专利检索装置、二次专利检索装置和专利检索系统
CN103377226A (zh) * 2012-04-25 2013-10-30 中国移动通信集团公司 一种智能检索方法及其系统
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法
CN105653546A (zh) * 2014-11-11 2016-06-08 北大方正集团有限公司 一种目标主题的检索方法和系统
CN104778201A (zh) * 2015-01-23 2015-07-15 湖南科技大学 一种基于多查询结果合并的在先技术检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨林: "基于文本的关键词提取方法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992586A (zh) * 2017-12-08 2018-05-04 成都谷问信息技术有限公司 基于智能语意的检索方法
CN108170744A (zh) * 2017-12-19 2018-06-15 山东浪潮云服务信息科技有限公司 一种数据采集方法及装置
CN110209779A (zh) * 2018-02-05 2019-09-06 索意互动(北京)信息技术有限公司 一种客户端、服务器、检索方法及其系统
CN113435866A (zh) * 2021-08-25 2021-09-24 北京新河科技有限公司 一种数据处理系统及方法

Similar Documents

Publication Publication Date Title
CN106445916A (zh) 专利检索用语义分析方法
Purandare et al. Word sense discrimination by clustering contexts in vector and similarity spaces
Mishra et al. Analysis of tf-idf model and its variant for document retrieval
CA2899854C (en) Systems and methods for indentifying documents based on citation history
CN104809108B (zh) 信息监测分析系统
JP2016532173A (ja) 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
CN107180093A (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN103049548B (zh) 电子渠道应用上的faq识别系统及方法
CN106897290B (zh) 一种建立关键词模型的方法及装置
CN105930362A (zh) 搜索目标识别方法、装置及终端
US20070168346A1 (en) Method and system for implementing two-phased searching
CN102542061A (zh) 一种产品的智能分类方法
CN106407394A (zh) 一种专利数据库管理分析方法
CN105745642B (zh) 查询数据的处理方法和装置
CN102651013A (zh) 一种从企业名称数据中提取区域信息的方法及系统
CN109299235A (zh) 知识库搜索方法、装置及计算机可读存储介质
CN106484788A (zh) 基于行业关键词的专利检索系统
CN103984700B (zh) 一种用于科技信息垂直搜索的异构数据分析方法
CN110688572A (zh) 冷启动状态下搜索意图的识别方法
CN102314464A (zh) 歌词搜索方法及搜索引擎
US10353927B2 (en) Categorizing columns in a data table
CN111104476A (zh) 档案数据生成方法、档案数据生成装置和可读存储介质
CN103530019B (zh) 一种切换窗口的方法和装置
Kang et al. A term cluster query expansion model based on classification information in natural language information retrieval
CN105159936A (zh) 文件分类装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222

RJ01 Rejection of invention patent application after publication