CN101593192A

CN101593192A - 一种汉化的世界专利数据库系统及数据处理方法

Info

Publication number: CN101593192A
Application number: CNA2008101129955A
Authority: CN
Inventors: 刘玉纯; 张冉; 严荟煌
Original assignee: BEIJING SRIHARVEST TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: BEIJING SRIHARVEST TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2008-05-27
Filing date: 2008-05-27
Publication date: 2009-12-02

Abstract

本发明提供一种汉化的世界专利数据库系统，该系统包括：数据处理服务器、数据库服务器、各国专利数据库和相关信息数据库，它们通过网络互相联通。应用服务器包括采集模块、聚类处理模块、标记模块、删除模块、翻译模块、标准化模块、提取模块和关联模块。数据库服务器包括：存储着各国专利数据的原始信息库，存储着专利族数据的聚类数据库，和存储着相关信息的关联数据库。本发明将各个国家、地区的专利信息资源整合在一起，并将其全部汉化，可以克服国内使用者使用国外专利信息时遇到的语言障碍，从而让国内使用者能够充分利用以及挖掘国外专利信息，同时提高国内专利信息资源实用性，最终达到充分开发利用中国专利信息的目的。

Description

一种汉化的世界专利数据库系统及数据处理方法

技术领域

本发明涉及一种数据库系统及数据处理方法，特别是一种汉化的世界专利数据库系统及其方法。

背景技术

人类的科学技术活动是离不开知识的借鉴，知识的传承。目前一些科技资源数据库包括国内和国外的科技信息，这些资源对科技人员的科技活动起到了很大的帮助作用。科技资源数据库中的国外信息居多都是外文(英文)的，很少被翻译成中文。虽然我国大部分科技人员或多或少的受到过英语教育，但是能流利的阅读英文的人并不多。而且一般人都习惯用母语交流、阅读，因此大多数科技人员在科研活动中希望能用中文信息。这样国外科技信息若不汉化就会给使用者带来语言障碍，使许多有价值的外国科技信息得不到有效利用。因此汉化的科技信息数据库是市场上非常需要的。

发明内容

为了解决上述现有技术中的问题，本发明提供一种汉化的世界专利数据库系统，该系统包括：数据处理服务器、数据库服务器、各国专利数据库和相关信息数据库，它们通过网络互相联通。各国专利数据库和相关信息数据库可以是本地的，也可以是网络的。

应用服务器包括采集模块、聚类处理模块、标记模块、删除模块、翻译模块、标准化模块、提取模块和关联模块。

采集模块，用于采集各国专利数据，以及与各国专利相关的信息；聚类处理模块，用于将各国专利的数据处理成专利族数据；标记模块用于标记基本专利和英文专利；删除模块，用于删除专利族记录中无标记专利的部分内容；翻译模块，用于将非中文的基本专利数据翻译为中文；标准化模块用于将非简体中文的基本专利数据转换为中文；提取模块用于提取基本专利中的公司或申请人名；关联模块用于按照公司或申请人名，关联聚类数据库与关联数据库中的信息。

数据库服务器至少包含三个数据库，一个是存储着各国专利数据的原始信息库，一个是存储着专利族数据的聚类数据库，再一个是存储着相关信息的关联数据库。

本发明还提供一种汉化数据处理方法，该方法包括以下步骤：

1.根据需要从各国专利数据库中采集多个国家的专利数据，然后将它们存入各国专利数据库。

2.按照优先权信息，将各国专利数据中拥有相同优先权的数据，聚类处理成专利族数据，然后将它们存入聚类数据库。

3.根据事先确定的优先顺序，在每个专利族中，选择基本专利，并将每个基本专利打上标记。该优先顺序为：中国、台湾地区、香港地区、美国、英国、欧洲、国际、日本、德国、法国、俄国。

4.根据事先确定的优先顺序，将每个专利族中的一件英文数据打上标记，标记英文数据的优先顺序为：欧洲(国际)、美国、英国、澳大利亚、加拿大、南非。

5.将既不是基本专利又不是英文专利的专利族成员的申请信息、公布信息和国别信息保留，其余信息删除。

6.从基本专利中筛选出非中文数据进行翻译，并人工校对。

7.从基本专利中筛选出非简体中文的数据进行简体中文的转换。

8.将基本专利中的公司或申请人名提取出来，并按照这些公司或申请人名在相关信息数据库中下载相关信息，存入关联数据库。

9.将聚类数据库中的信息与关联数据库中的信息，按照公司或申请人名关联起来。

本发明将各个国家、地区的专利信息资源整合在一起，并将其全部汉化，可以克服国内使用者使用国外专利信息时遇到的语言障碍，从而让国内使用者终达到充分开发利用中国专利信息的目的。

附图说明

图1为本发明的系统硬件结构图

图2为本发明的应用服务器的功能模块图

图3为本发明的数据处理方法的工作流程图

具体实施方式

如图1、2所示，本发明的系统包括数据处理服务器11，数据库服务器12，各国专利数据库13和相关信息数据库14，它们通过网络15连接起来。

由于汉化的各国专利数据库应该包括中国、美国、日本、欧洲、国际等的专利信息，而且应该将这些多种文字的专利信息全部中文化，因此，数据处理服务器11包括采集模块111、聚类处理模块112、标记模块113、删除模块114、翻译模块115、标准化模块116、提取模块117和关联模块118，它们用于处理各种专利信息和相关信息。

数据库服务器包括三个数据库：原始信息库，用于存储采集的各国专利数据；聚类数据库，存储着经过聚类处理的、以特定国家专利为基本专利的专利族数据，这些数据最后全部被处理成为简体中文文字的数据；关联数据库，用于存储从相关信息数据库14提取出的、与聚类数据库中的公司或个体申请人对应的相关信息。

参加图2、3，本发明的数据处理方法的较佳实施例包括以下步骤：

步骤S100，采集模块111从各个国家或国际组织的专利数据库中，将它们的专利数据下载下来，这些国家或国际组织的范围包括美国、日本、欧洲、国际、英、法、德、俄等。这些国家或组织的专利数据库可以是本地的，也可以是互联网上的；下载完成后将这些专利数据存入原始专利数据库。

步骤S110，聚类处理模块112按照各个国家或国际组织专利数据中的优先权信息，即优先申请号、优先申请国别和优先申请日期，对各个国家或国际组织专利数据进行聚类处理，将各国专利数据中拥有相同优先权的专利数据聚在一起，组成专利族数据。在这些数据中，每个专利族数据为一条记录，因此一条记录中包含多个不同国家的专利信息。聚类处理完成后，将这些专利族数据存入聚类数据库。

步骤S120，由于每条专利族数据记录中包含的多个不同国家的专利信息是相同的内容，因此要在其中选择一件专利作为基本专利，然后给它打上标记，这样按照基本信息检索，可以减少数据库中的冗余信息。基本专利的选择是按照不同国家或组织的优先顺序进行的，优先顺序为：中国、台湾地区、香港地区、美国、英国、欧洲、国际、日本、德国、法国、俄国。例如在一个专利族记录中，有若干国家的专利数据，先判断是否有中文的，若有，将此专利数据作上标记；若无，再判断是否有关国的，若有，将此专利数据做上标记，以此类推。

步骤S130，为了进行中英文对照浏览专利信息，在每个专利族记录中，选择一件英文专利，然后为它作个标记。标记英文专利也要有优先顺序，该优先顺序为：EP(WO)、US、GB、AU、CA、ZA。如果基本专利是英文的，则无需选择其他英文数据。

步骤S140，为了消除冗余信息，对于专利族中既没有基本专利标记又没有英文专利标记的数据，只保留申请信息，公布信息和国别信息，其余内容全部删除。这样，每条专利族记录中仅包括一个中文专利数据，或/和一个英文专利，以及其他专利的申请，公布和国别信息。

步骤S150，由于基本专利是多种文字的，例如英文、日文、德文等，因此要汉化非中文基本专利；通过翻译模块115从基本专利中选择出非中文的数据，并将其通过软件自动翻译为中文。由于翻译软件的智能化程度无法与人脑相比，因此由软件翻译的数据还要经过人工校对的程序校对。非中文数据在进行语言翻译时，只针对其题目文摘等文字内容进行翻译，其余内容均不变化。

步骤S160，在中文的基本专利数据中，包括一些非简体中文的数据如台湾、香港地区的专利数据，因此要通过标准化模块116将非简体中文的基本专利数据选择出来，并将它们转换为简体中文。

步骤S170，提取模块117从聚类数据库中提取基本专利中的公司或申请人名，然后采集模块111按照公司或申请人名从相关信息数据库中下载所有相关信息，并去除重复内容后，存入关联数据库。从相关信息数据库中采集的数据包括各种类型的科技、经济等信息，例如：科技期刊中的、科技图书中的、标准中的、海关数据库中的信息等，而且这些信息只限于中文的。

步骤S180，最后关联模块118按照公司或申请人名，将聚类数据库中的信息和相关信息数据库中的信息关联起来，成为包括一些科技、经济信息的汉化世界专利数据库。该库中的信息即可通过计算机提供用户使用。

Claims

1.一种汉化的世界专利数据库系统，其特征在于它包括：数据处理服务器、数据库服务器、各国专利数据库和相关信息数据库，它们通过通讯网络连接；

应用服务器包括：

采集模块，用于采集各国专利数据，以及与各国专利相关的信息；

聚类处理模块，用于将各国专利的数据处理成专利族数据；

标记模块用于标记基本专利和英文专利；

删除模块，用于删除专利族记录中无标记专利的部分内容；

翻译模块，用于将非中文的基本专利数据翻译为中文；

标准化模块用于将非简体中文的基本专利数据转换为中文；

提取模块用于提取基本专利中的公司或申请人名；

关联模块用于按照公司或申请人名，关联聚类数据库与关联数据库中的信息；

2.一种汉化数据处理方法，该方法包括以下步骤：

1)根据需要从各国专利数据库中采集多个国家的专利数据，然后将它们存入各国专利数据库；

2)按照优先权信息，将各国专利数据中拥有相同优先权的数据，聚类处理成专利族数据，然后将它们存入聚类数据库；

3)根据事先确定的优先顺序，在每个专利族中，选择基本专利，并将每个基本专利打上标记；

4)根据事先确定的优先顺序，将每个专利族中的一件英文数据打上标记；

5)将既不是基本专利又不是英文专利的专利族成员的申请信息、公布信息和国别信息保留，其余信息删除；

6)从基本专利中筛选出非中文数据进行翻译，并人工校对；

7)从基本专利中筛选出非简体中文的数据进行简体中文的转换；

8)将基本专利中的公司或申请人名提取出来，并按照这些公司或申请人名在相关信息数据库中下载相关信息，存入关联数据库；

9)将聚类数据库中的信息与关联数据库中的信息，按照公司或申请人名关联起来。

3.根据权利要求2所述的方法，其特征在于标记基本专利的优先顺序为：中国、台湾地区、香港地区、美国、英国、欧洲、国际、日本、德国、法国、俄国。

4.根据权利要求2所述的方法，其特征在于标记英文数据的优先顺序为：欧洲(国际)、美国、英国、澳大利亚、加拿大、南非。