CN1619531A - 专利分类系统及方法 - Google Patents

专利分类系统及方法 Download PDF

Info

Publication number
CN1619531A
CN1619531A CNA2003101123388A CN200310112338A CN1619531A CN 1619531 A CN1619531 A CN 1619531A CN A2003101123388 A CNA2003101123388 A CN A2003101123388A CN 200310112338 A CN200310112338 A CN 200310112338A CN 1619531 A CN1619531 A CN 1619531A
Authority
CN
China
Prior art keywords
speech
weight
specification digest
module
patent classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2003101123388A
Other languages
English (en)
Inventor
李忠一
叶建发
黄通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CNA2003101123388A priority Critical patent/CN1619531A/zh
Publication of CN1619531A publication Critical patent/CN1619531A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种专利分类系统及方法,其利用数据库存储的专利的说明书摘要将专利进行分类。该系统包括一应用服务器、多个客户端计算机及一数据库。应用服务器用于将专利进行分类。该应用服务器包括一专利获取模块,用于获取专利的说明书摘要;一专利断词模块,用于将说明书摘要进行断词处理;一无关词过滤模块,用于过滤说明书摘要内与主题无关的词;一词干正常化模块,用于将词进行词干正常化处理;一权重计算模块,用于计算各词的权重;一专利分类模块,用于将专利进行分类;一专利展示模块,用于展示专利分类结果。利用本发明,可自动完成专利的分类,并可展示专利分类结果。

Description

专利分类系统及方法
【技术领域】
本发明涉及一种资料分类系统及方法,特别是涉及一种专利分类系统及方法。
【背景技术】
随着科学技术的发展与商业活动的频繁,知识产权的保护越来越为人们所重视,而专利就是知识产权中最重要的手段之一。由于大多数新技术起步时都是以专利的形式出现,因而在专利数据库中存储了大量的技术资料。利用这些专利数据库可以了解各行业的最新技术,避免重复开发和侵权行为的发生,可以分析竞争对手的技术开发状况与策略,还可以分析整个行业的发展等。如今,世界许多国家和地区都已开放其专利数据库,如美国专利商标局(UnitedStates Patent and Trademark Office)专利数据库,欧洲专利局(European Patent Office)专利数据库,中国国家知识产权局(StateIntellectual Property Office of P.R.China)专利数据库等。
然而,专利研究是一项费时又费力的工作,因为并不是所有的专利都有研究价值。如何从众多庞杂的专利中获取对公司有用的专利信息,如何对查找到的专利信息作进一步的统计及技术分析,是专利研究中的一大难题。
美国第6,300,957号名称为“以任意节点为中心的节点数据结构的图形生成系统”(Mapping a Node-link Structure to a Rendering SpaceBeginning From any Node)的专利,该专利提供了将节点数据结构以星状双曲树的形式展示的技术。该技术虽然可以直观的表现大量信息及信息间的关系,但并不方便了解各个分类的情况,且没有提供一种根据专利内容进行专利分类的技术。
所以需要提供一种专利分类系统及方法,其利用专利内容将专利自动分类,并可展示专利分类结果。
【发明内容】
本发明的主要目的在于提供一种专利分类系统及方法,其可自动完成专利的分类。
本发明提供一种专利分类系统,其利用数据库存储的专利的说明书摘要将专利进行分类,并展示专利分类结果。该系统包括一应用服务器、多个客户端计算机及一数据库。应用服务器用于将专利进行分类。该应用服务器包括一专利获取模块、一专利断词模块、一无关词过滤模块、一词干正常化模块、一权重计算模块、一专利判断模块、一专利分类模块及一专利展示模块。其中,专利获取模块用于获取一篇专利的说明书摘要。专利断词模块用于将上述获取的说明书摘要进行断词处理,即根据空格或标点符号将句子分割成词。无关词过滤模块用于过滤上述说明书摘要内与主题无关的词,比如“the,a,an,in,with”等。词干正常化模块用于将上述过滤后的词进行词干正常化处理,即将同一个词的不同形态正常化为同一形态。权重计算模块用于根据每个词在该说明书摘要中出现的频率,计算该词在该专利中的权重,权重指特征的重要性。专利判断模块用于判断是否已经完成专案内所有专利的说明书摘要的处理,该处理指断词、过滤无关的词、词干正常化及权重计算。专利分类模块用于根据上述计算的每个词的权重,将专利进行分类。专利展示模块用于展示专利分类结果。客户端计算机用于展示专利分类结果。数据库用于存储专利信息及专利分类结果。上述专利信息指已经公开或公告的专利的全部信息,包括权利要求书,说明书,说明书附图,说明书摘要,摘要附图,申请人,申请日,专利权人等。
本发明还提供一种专利分类方法,该方法包括以下步骤:(a)获取一篇专利的说明书摘要;(b)将上述说明书摘要进行断词处理;(c)将上述说明书摘要内与主题无关的词过滤;(d)将过滤后的词进行词干正常化处理;(e)计算各词的权重;(f)将上述专利分类;(g)展示专利分类结果。
利用本发明,可自动完成专利的分类,并展示专利分类结果。
【附图说明】
图1是本发明专利分类系统的硬件架构图。
图2是本发明专利分类系统的应用服务器的功能模块图。
图3是本发明专利分类方法的作业流程图。
图4是本发明专利分类方法的专利分类作业流程图。
【实施方式】
如图1所示,是本发明专利分类系统的硬件架构图。该系统包括一应用服务器1、一网络2、多个客户端计算机3、一连接4及一数据库5。其中多个客户端计算机3利用网络2与应用服务器1相连,网络2可以是一企业内部网(Intranet),也可以是互联网(Internet)或其它类型通讯网路。应用服务器1利用连接4与数据库5相连,连接4是一种数据库连接,如开放式数据库连接(Open DatabaseConnectivity,ODBC),或者Java数据库连接(Java DatabaseConnectivity,JDBC)。
应用服务器1用于将专利进行分类。本实施例的专利指一专案内的专利,本实施例的专案指具有某一共同特征的专利集合,如同属于某一技术领域的专利,同一专利权人的专利等。客户端计算机3用于展示专利分类结果。数据库5用于存储专利信息及专利分类结果。上述专利信息指已经公开或公告的专利的全部信息,包括权利要求书,说明书,说明书附图,说明书摘要,摘要附图,申请人,申请日,专利权人等。
如图2所示,是本发明专利分类系统的应用服务器1的功能模块图。应用服务器1利用数据库5存储的专利的说明书摘要将专利进行分类,其包括一专利获取模块10、一专利断词模块11、一无关词过滤模块12、一词干正常化模块13、一权重计算模块14、一专利判断模块15、一专利分类模块16及一专利展示模块17。其中,专利获取模块10用于获取一篇专利的说明书摘要。专利断词模块11用于将专利获取模块10获取的说明书摘要进行断词处理,即根据空格或标点符号将句子分割成词,如句子“A method and system for determining anoptimal material movement path within a computer based manufacturingsystem is disclosed”经过专利断词模块11进行断词处理后为“A/method/and/system/tor/determining/an/optimal/material/movement/path/within/a/computer/based/manufacturing/system/is/disclosed”,在本实施例中,用符号“/”表示分割线。无关词过滤模块12用于过滤上述说明书摘要内与主题无关的词,上述句子经过过滤无关的词后为“determining/optimal/material/movement/path/computer/based/manufacturing/system/disclosed”。词干正常化模块13用于将上述过滤后的词进行词干正常化处理,即将同一个词的不同形态正常化为同一形态,上述句子经过词干正常化处理后为“determine/optimal/material/movement/path/computer/base/manufacture/system/disclose”。权重计算模块14用于根据每个词在该说明书摘要中出现的频率,计算该词在该专利中的权重,权重指特征的重要性。专利判断模块15用于判断是否已经完成专案内所有专利的说明书摘要的处理,该处理指断词、过滤无关的词、词干正常化及权重计算。专利分类模块16用于根据权重计算模块14计算的每个词的权重,将上述专利进行分类。专利展示模块17用于展示专利分类结果。
如图3所示,是本发明专利分类方法的作业流程图。首先,专利获取模块10从一专案内获取一篇专利的说明书摘要(步骤S30)。专利断词模块11将专利获取模块10获取的说明书摘要进行断词处理,即根据空格或标点符号将句子分割成词(步骤S31)。然后,无关词过滤模块12过滤上述说明书摘要内与主题无关的词,比如“the,a,an,in,with”等(步骤S32)。词干正常化模块13将上述过滤后的词进行词干正常化处理,即将同一个词的不同形态正常化为同一形态(步骤S33)。然后,权重计算模块14根据各词在该说明书摘要中出现的频率,计算该词在该专利中的权重(步骤S34)。专利判断模块15判断是否已经对上述专案内所有专利的说明书摘要进行了上述处理(步骤S35)。如果没有处理完上述专案内所有专利的说明书摘要,则返回步骤S30,继续获取另一篇专利的说明书摘要;如果已经完成上述专案内所有专利的说明书摘要的处理,则进入步骤S36,专利分类模块16根据权重计算模块14计算的各专利中各词的权重,将上述专案内所有专利进行分类,详细描述见图4。最后,专利展示模块17展示上述专案内的专利分类结果(步骤S37)。
如图4所示,是本发明专利分类方法的专利分类作业流程图。专利分类模块16获取权重计算模块14计算的上述专案内各专利的说明书摘要中各词的权重(步骤S40),并判断上述专案内各说明书摘要中权重最重的词是否相同(步骤S41)。如果各说明书摘要中权重最重的词相同,则去掉该词,并返回步骤S41(步骤S42);如果各说明书摘要中权重最重的词不同,则将各专利归属到其权重最重的词的一类(步骤S43)。

Claims (10)

1.一种专利分类系统,其可自动完成专利的分类,其包括一应用服务器、多个客户端计算机及一数据库,其特征在于:
应用服务器用于将专利进行分类,该应用服务器包括:
一专利获取模块,用于获取一篇专利的说明书摘要;
一专利断词模块,用于将上述获取的说明书摘要进行断词处理;
一无关词过滤模块,用于过滤上述说明书摘要内与主题无关的词;
一词干正常化模块,用于将上述过滤后的词进行词干正常化处理;
一权重计算模块,用于计算各词在该专利中的权重;
一专利分类模块,用于根据上述计算的各词的权重,将上述专利进行分类;
一专利展示模块,用于展示专利分类结果;
客户端计算机用于展示专利分类结果;及
数据库用于存储专利信息及专利分类结果。
2.如权利要求1所述的专利分类系统,其特征在于,所述应用服务器还包括一专利判断模块,用于判断是否已经完成专案内所有专利的说明书摘要的处理,该处理指断词、过滤无关的词、词干正常化及权重计算。
3.如权利要求1所述的专利分类系统,其特征在于,所述专利分类模块,还用于判断专案内各说明书摘要的权重最重的词是否相同。
4.如权利要求3所述的专利分类系统,其特征在于,所述专利分类模块的功能还包括,如果各说明书摘要中权重最重的词相同,则去掉该词,重新判断专案内各说明书摘要的权重最重的词是否相同。
5.如权利要求3所述的专利分类系统,其特征在于,所述专利分类模块的功能还包括,如果各说明书摘要中权重最重的词不同,则将各专利归属到其权重最重的词的一类。
6.一种专利分类方法,其可自动完成专利的分类,其特征在于,该方法包括以下步骤:
获取一篇专利的说明书摘要;
将上述说明书摘要进行断词处理;
将上述说明书摘要内与主题无关的词过滤;
将过滤后的词进行词干正常化处理;
计算各词在该专利中的权重;
根据各词的权重将上述专利分类;及
展现专利分类结果。
7.如权利要求6所述的专利分类方法,其特征在于,还包括一步骤:判断是否已经完成专案内所有专利的说明书摘要的处理,该处理指断词、过滤无关的词、词干正常化及权重计算。
8.如权利要求6所述的专利分类方法,其特征在于,根据各词的权重将上述专利分类还包括一步骤:
判断专案内各说明书摘要的权重最重的词是否相同。
9.如权利要求8所述的专利分类方法,其特征在于,判断专案内各说明书摘要的权重最重的词是否相同还包括一步骤:
如果各说明书摘要中权重最重的词相同,则去掉该词,重新判断专案内各说明书摘要的权重最重的词是否相同。
10.如权利要求8所述的专利分类方法,其特征在于,判断专案内各说明书摘要的权重最重的词是否相同还包括一步骤:
如果各说明书摘要中权重最重的词不同,则将各专利归属到其权重最重的词的一类。
CNA2003101123388A 2003-11-22 2003-11-22 专利分类系统及方法 Pending CN1619531A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2003101123388A CN1619531A (zh) 2003-11-22 2003-11-22 专利分类系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2003101123388A CN1619531A (zh) 2003-11-22 2003-11-22 专利分类系统及方法

Publications (1)

Publication Number Publication Date
CN1619531A true CN1619531A (zh) 2005-05-25

Family

ID=34759720

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2003101123388A Pending CN1619531A (zh) 2003-11-22 2003-11-22 专利分类系统及方法

Country Status (1)

Country Link
CN (1) CN1619531A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008128445A1 (fr) * 2007-04-23 2008-10-30 Huawei Technologies Co., Ltd. Procédé et système destinés à la classification de contenu

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008128445A1 (fr) * 2007-04-23 2008-10-30 Huawei Technologies Co., Ltd. Procédé et système destinés à la classification de contenu
CN101296155B (zh) * 2007-04-23 2011-02-16 华为技术有限公司 对内容分类的方法及系统
US8286240B2 (en) 2007-04-23 2012-10-09 Huawei Technologies Co., Ltd. Method and system for content categorization
US8510832B2 (en) 2007-04-23 2013-08-13 Huawei Technologies Co., Ltd. Method and system for content categorization

Similar Documents

Publication Publication Date Title
CN1192321C (zh) 通过结构化查询语言输入提供对分层数据存储器的访问的方法和装置
US8165993B2 (en) Business intelligence system with interface that provides for immediate user action
CN100462974C (zh) 用于监控和调试查询执行对象的装置和方法
US20090006318A1 (en) Multi-source data visualization system
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
WO2005119500A2 (en) System and method for displaying price modeling data
CN113242159B (zh) 应用访问关系确定方法及装置
EP2166496A1 (en) Method, system, and computer for analytical reporting and archiving of data
CN102346901A (zh) 一种互联网药品交易主体信用评估系统及其方法
CN100370458C (zh) 资料整合与分析系统及方法
CN112001539B (zh) 一种高精度的客运预测方法及客运预测系统
CN113553360A (zh) 多企业关系分析方法、装置、电子设备、存储介质和计算机程序
CN1619531A (zh) 专利分类系统及方法
CN111143180A (zh) 一种大数据分析的性能评估系统及方法
CN114312930B (zh) 基于日志数据的列车运行异常诊断方法和装置
CN1741011A (zh) 模具图档结构化管理系统
CN116049254A (zh) 一种基于数据库的数据资产统计方法
CN1828579A (zh) 专利分析系统
CN114579660A (zh) 数据可视化展示方法以及相关设备
KR20060012572A (ko) 분산 설계 체인관리를 위한 장치 및 방법
US7640198B1 (en) System and method for generating and displaying indexed price modeling data
CN113393169A (zh) 基于大数据技术的金融行业交易系统性能指标分析方法
CN101000603A (zh) 一种专利分类方法
CN112084575A (zh) 一种直升机振动数据的处理分析软件平台架构
CN116961241B (zh) 一种基于电网业务的统一应用监测平台

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20050525