CN101692228A - 专利文献的准确快速自动标引方法 - Google Patents
专利文献的准确快速自动标引方法 Download PDFInfo
- Publication number
- CN101692228A CN101692228A CN200910052267A CN200910052267A CN101692228A CN 101692228 A CN101692228 A CN 101692228A CN 200910052267 A CN200910052267 A CN 200910052267A CN 200910052267 A CN200910052267 A CN 200910052267A CN 101692228 A CN101692228 A CN 101692228A
- Authority
- CN
- China
- Prior art keywords
- index
- applicant
- patent documentation
- technical
- indexing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种专利文献的准确快速自动标引方法,首先建立一与预设技术主题相关联的的技术分类和关键词的分类词表、以及按照重要程度确定与所述技术主题相关联的申请人排序表,然后根据所述技术主题在各国的专利文献数据库中进行检索,以形成一与所述技术主题相关的专题数据库,再根据所述申请人排序表在所述专题数据库中再次进行筛选以筛选出预设数目个申请人的专利数据,然后根据确定的标引方式、标引比例、以及所述分类词表按照技术分类和关键词对所筛选出的专利数据予以相应标引。本发明在提高专利标引准确性的同时可以提高专利文献阅读和标引的速度,特别在专利文献数量较大时,其有益效果非常明显。
Description
技术领域
本发明涉及一种资料标引方法,特别涉及一种专利文献的准确快速自动标引方法。
背景技术
专利文献的检索和标引是大多数科技企业的重要工作,利用各个国家的专利局或各种知识产权组织提供的专利文献检索窗口和平台,可以方便的查询所需的专利文献。同时,对这些专利文献进行阅读、处理和标引,一方面方便技术人员的查找和使用,另一方面也是进行专利分析等各项工作的重要基础。
但由于专利文献数量十分巨大,通常一个技术主题下,就可能存在上千甚至上万篇相关技术专利。若对于一个行业或者一个技术领域进行技术战略分析,那么可能找到的专利文献将是数万或者数十万篇。
传统的方法一般是对数据进行手工标引,对所有文献进行阅读,手工标引进行技术分类并填写关键词,以及其他相关专利信息。这种方法十分耗费人力物力,同时数据处理的效率很低;
另一种方式是利用机器进行检索,将含有相关关键词的都自动标引。这种方法虽然效率相对较高,但其准确性较低。很容易造成误检误标,并且其关键词的确定值得商榷。
因此,如何提高标引的准确性,并在提高准确性的同时提高标引的效率,是本发明要解决的技术问题。
发明内容
本发明的目的在于,提供一种能准确实现专利文献标引,并提高标引效率的方法。为了达到上述目的,本发明采用如下技术方案:
本发明的专利文献的准确快速自动标引方法至少包括步骤:1)建立一与预设技术主题相关联的的技术分类和关键词的分类词表、以及按照重要程度确定与所述技术主题相关联的申请人排序表;2)根据所述技术主题在各国的专利文献数据库中进行检索,以形成一与所述技术主题相关的专题数据库;3)根据所述申请人排序表在所述专题数据库中再次进行筛选以筛选出预设数目个申请人的专利数据;4)确定随机标引的方式和标引的比例;5)根据所确定的标引方式、标引比例、以及所述分类词表按照技术分类和关键词对所筛选出的专利数据予以相应标引。
采用本发明技术方案,由于关键词和技术分类是通过阅读重点申请人的专利得到的,所以在做标引时可以很好的把握住专题的重点,从而提高检索标引的准确性;特别是在申请人比较集中的技术主题中,其技术分类相对比较集中,采用本发明技术方案,可以加快专利文献标引速度,减少此方面工作人力和物力的投入,另外是在需要阅读和标引的专利文献巨大时,其有益效果非常明显,以下结合附图和实施例进一步说明本发明。
附图说明
图1本发明的专利文献的准确快速自动标引方法的流程图。
具体实施方式
以下将以汽车底盘这一技术主题为例来详细说明本发明的专利文献的准确快速自动标引方法。
请参见图1,本发明的专利文献的准确快速自动标引方法至少包括以下步骤:
第一步:建立一与预设技术主题(即汽车底盘)相关联的的技术分类和关键词的分类词表、以及按照重要程度确定与所述技术主题相关联的申请人排序表。其中,技术分类是根据专利文献通常包括的内容进行划分,可以包括技术手段、技术功效、技术特点、应用领域等;其中技术手段又可以分为转向系统、悬架系统、制动系统等,技术分类所对应的关键词是根据技术分类的具体特点提取的词,例如制动系统技术分类所对应的关键词有:刹车、脚刹、手刹、真空助力器、脚踏板、制动总泵等,由此形成分类词表。而在汽车底盘方面申请专利的申请人,可根据知名程度或申请的数量形成一申请人排序表,例如:丰田、本田、日产、马自达、三菱、福特、通用汽车、铃木、五十铃、现代等,国内的排名靠前的申请人主要有:奇瑞、上汽、一汽、长安汽车、比亚迪、重汽、清华大学、浙江大学等。
第二步:根据所述技术主题在各国的专利文献数据库中进行检索,以形成一与所述技术主题相关的专题数据库。通常在中国、美国、日本、英国、法国、德国、瑞士、欧洲专利局、世界知识产权组织等提供的专利文献库中进行汽车底盘的检索,由此可形成汽车底盘的专题数据库。由于各专利文献库的地址都为本领域技术人员所熟悉,在此不再一一说明。当然,也可将各专利文献库的数据都下载至本地形成本地的专利数据库后,再在本地专利数据库内进行汽车底盘的检索,由此形成汽车底盘的专题数据库。
第三步:根据所述申请人排序表在所述专题数据库中再次进行筛选以筛选出预设数目个申请人的专利数据。由于对专利数据进行分析时,客户常常关注的只是少数知名公司,例如筛选出排名前5位的申请人(即丰田、本田、日产、马自达、三菱)的专利数据。
第四步:确定随机标引的方式和标引的比例。例如,可采用按照时间顺序进行的标引方式,相应标引比例可根据所有筛选出的专利数据而确定,如确定为15%等。也可采用按照每一申请人进行的标引方式,相应标引比例是根据所筛选出每一申请人的专利数据数量来确定,例如为每一申请人申请量的一半等。在本实施例中,由于汽车底盘的技术较为复杂,发展历史较长,从1964年开始就已经有此方面的专利申请,历时40多年;所以可根据专利申请时间抽取各个申请人起步靠前、中间和最近的各3%、7%和5%左右的专利进行人工标引,即选择1976年-1979、1994-2000年和2005-2008年一定数量的专利来标引。
第五步:根据所确定的标引方式、标引比例、以及所述分类词表按照技术分类和关键词对所筛选出的专利数据予以相应标引。例如采用技术手段中的刹车、脚刹、手刹、真空助力器、脚踏板、制动总泵等关键词来标引。
此外,考虑到标引的过程常需要修正,例如,关于汽车转向柱吸能的机构有一个专门的IPC分类为B62D001/19,属于这个分类的专利比较容易标引,可以直接标到转向系统中转向柱的吸能结构中;但对于技术分类比较精确,但专利文献的IPC分类划分并不是很准确,如直接IPC分类是B62D001/00之类的专利就比较难标引,这时就需要相关关键词定位比较准确了,先从部分重点申请人的专利文献开始着手;丰田有一篇公开号为:US7455320的专利,其发明名称为:“shock absorbing steering apparatus”的专利,同时发现其摘要中出现“steering column”关键词,就可断定其同样属于转向柱吸能结构领域;这时修正技术分类转向柱吸能所对应的关键词,对其进行填充;通过阅读重点申请人专利得到的主关键词准确性比较高。
再者,在修正或所筛选出的专利数据中已有部分被标引过时,在自动标引时就需要对待标引的专利数据进行判断,以确定其是否已被标引,若否则对其进行相应标引,否则就无需对其进行标引了。
综上所述,本发明的专利文献的准确快速自动标引方法通过根据客户的需求及综合客观需标引的专利数据的数量筛选出符合条件的专利数据对其进行标引,可提高标引的速度,同时也能提高标引的准确性。
上述实施例仅列示性说明本发明的原理及功效,而非用于限制本发明。任何熟悉此项技术的人员均可在不违背本发明的精神及范围下,对上述实施例进行修改。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (5)
1.一种专利文献的准确快速自动标引方法,其特征在于包括以下步骤:
1)建立一与预设技术主题相关联的的技术分类和关键词的分类词表、以及按照重要程度确定与所述技术主题相关联的申请人排序表;
2)根据所述技术主题在各国的专利文献数据库中进行检索,以形成一与所述技术主题相关的专题数据库;
3)根据所述申请人排序表在所述专题数据库中再次进行筛选以筛选出预设数目个申请人的专利数据;
4)确定随机标引的方式和标引的比例;
5)根据所确定的标引方式、标引比例、以及所述分类词表按照技术分类和关键词对所筛选出的专利数据予以相应标引。
2.根据权利要求1所述的专利文献的准确快速自动标引方法,其特征在于:所述步骤4)所述的随机标引方式按照时间顺序进行,标引比例是根据所有筛选出的专利数据而确定。
3.根据权利要求2所述的专利文献的准确快速自动标引方法,其特征在于:所述时间顺序是指升序顺序、降序顺序、及预设时间段中的一种。
4.根据权利要求1所述的专利文献的准确快速自动标引方法,其特征在于:所述步骤4)所述的随机标引方式按照每一申请人进行的,标引比例是根据所筛选出每一申请人的专利数据数量来确定。
5.根据权利要求1所述的专利文献的准确快速自动标引方法,其特征在于:在所述步骤5)还包括判断待标引的专利数据是否已被标引的判断步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910052267A CN101692228A (zh) | 2009-05-31 | 2009-05-31 | 专利文献的准确快速自动标引方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910052267A CN101692228A (zh) | 2009-05-31 | 2009-05-31 | 专利文献的准确快速自动标引方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101692228A true CN101692228A (zh) | 2010-04-07 |
Family
ID=42080916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910052267A Pending CN101692228A (zh) | 2009-05-31 | 2009-05-31 | 专利文献的准确快速自动标引方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101692228A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104221009A (zh) * | 2012-03-07 | 2014-12-17 | 瓦欧尼斯系统公司 | 企业级数据管理 |
CN106547927A (zh) * | 2016-12-15 | 2017-03-29 | 北京科华万象科技有限公司 | 一种专利文件处理方法和装置 |
CN106777103A (zh) * | 2016-12-15 | 2017-05-31 | 北京科华万象科技有限公司 | 一种专利文件标引方法和装置 |
US9904685B2 (en) | 2009-09-09 | 2018-02-27 | Varonis Systems, Inc. | Enterprise level data management |
-
2009
- 2009-05-31 CN CN200910052267A patent/CN101692228A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9904685B2 (en) | 2009-09-09 | 2018-02-27 | Varonis Systems, Inc. | Enterprise level data management |
US10176185B2 (en) | 2009-09-09 | 2019-01-08 | Varonis Systems, Inc. | Enterprise level data management |
US10229191B2 (en) | 2009-09-09 | 2019-03-12 | Varonis Systems Ltd. | Enterprise level data management |
CN104221009A (zh) * | 2012-03-07 | 2014-12-17 | 瓦欧尼斯系统公司 | 企业级数据管理 |
CN106547927A (zh) * | 2016-12-15 | 2017-03-29 | 北京科华万象科技有限公司 | 一种专利文件处理方法和装置 |
CN106777103A (zh) * | 2016-12-15 | 2017-05-31 | 北京科华万象科技有限公司 | 一种专利文件标引方法和装置 |
CN106777103B (zh) * | 2016-12-15 | 2020-07-07 | 北京科华万象科技有限公司 | 一种专利文件标引方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1240011C (zh) | 应用于操作系统的文件分类管理系统及方法 | |
CN1310175C (zh) | 搜索引擎管理系统和方法 | |
CN101246499B (zh) | 网络信息搜索方法及系统 | |
CN101692228A (zh) | 专利文献的准确快速自动标引方法 | |
CN102915299A (zh) | 一种分词方法及装置 | |
CN102073740A (zh) | 基于基数排序的字符串后缀数组构造方法 | |
CN1858737A (zh) | 一种数据搜索的方法和系统 | |
US20150294005A1 (en) | Method and device for acquiring information | |
CN104636502A (zh) | 一种查询系统的数据加速查询方法 | |
CN103226609A (zh) | 一种web聚焦搜索系统的搜索方法 | |
CN101751434A (zh) | 一种元搜索引擎的排名方法及元搜索引擎 | |
CN103294820B (zh) | 基于语义扩展的web页面归类方法和系统 | |
CN110765233A (zh) | 基于深度挖掘和知识管理技术的智能信息检索服务系统 | |
CN103714149A (zh) | 一种自适应增量式的深层网络数据源发现方法 | |
Patra | Google Scholar-based citation analysis of Indian library and information science journals | |
CN103064841A (zh) | 检索装置和检索方法 | |
CN101957860A (zh) | 一种发布、搜索信息的方法及装置 | |
CN106547892A (zh) | 一种基于互联网数据采集的数据资源管理平台 | |
CN103198146B (zh) | 面向网络流式数据的事件实时过滤方法和系统 | |
CN1342942A (zh) | 中文姓名的计算机识别及检索方法 | |
CN102799686A (zh) | 基于云平台的水利信息垂直搜索方法 | |
CN112183100A (zh) | 一种多源同名专家消歧方法 | |
CN1790346A (zh) | 一种城市雨水管道的设计方法 | |
CN101685463A (zh) | 专利文献的分类标引方法 | |
Klencsár et al. | Further development of the database of the Mössbauer Effect Data Center |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20100407 |