CN113806618A - 一种商标大数据治理方法、系统和计算机设备 - Google Patents

一种商标大数据治理方法、系统和计算机设备 Download PDF

Info

Publication number
CN113806618A
CN113806618A CN202111105504.6A CN202111105504A CN113806618A CN 113806618 A CN113806618 A CN 113806618A CN 202111105504 A CN202111105504 A CN 202111105504A CN 113806618 A CN113806618 A CN 113806618A
Authority
CN
China
Prior art keywords
trademark
data
layer
detail
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111105504.6A
Other languages
English (en)
Inventor
范凯波
余朝阳
胥辛雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hantang Xintong Beijing Consulting Co ltd
Original Assignee
Hantang Xintong Beijing Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hantang Xintong Beijing Consulting Co ltd filed Critical Hantang Xintong Beijing Consulting Co ltd
Priority to CN202111105504.6A priority Critical patent/CN113806618A/zh
Publication of CN113806618A publication Critical patent/CN113806618A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种商标大数据治理方法、系统和计算机设备,基于采集的初始商标数据构建商标基础数据,从商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据,将商标明细数据进行汇总,构建汇总数据层,根据各类业务需求,从汇总数据层中抽取各类业务需求所需的各类商标明细数据,建立各类业务需求对应的业务分析数据库,构建数据集市层,以数据集市层的各类商标明细数据为基础搭建搜索引擎,对外提供API接口平台和数据可视化服务,使得注册商标难度降低,普通大众也可以自己通过搜索引擎进行商标检索,增加了潜在商标申请的通过率,智能化治理商标大数据。

Description

一种商标大数据治理方法、系统和计算机设备
技术领域
本申请涉及大数据技术领域,特别是涉及一种商标大数据治理方法、系统和计算机设备。
背景技术
随着社会经济的发展,人们对于商标的接触越来越多,也具有较强的商标申请的意识。商标在商业活动中广泛应用于对产品和服务起区分作用的标识,然而一枚好商标的价值绝不仅限于区分商品或服务的功能,更重要的是其品牌效应和影响力,表达的是质量、信誉和唯一性。商家为了获得商标权,首先需要向商标局进行申请注册。目前,普通大众的商标申请、商标续展等等,只能委托专业的知识产权事务所代为向官方提出申请,知识产权代理人会根据客户待注册的商标图样以及从事商业活动的领域,代为查询要注册的商标尼斯分类,并依据行业经验,准备申请文件向商标局官方提出申请。因需要查询的项目繁多,普通人因不熟悉商标制度以及申请文件的填写格式,通常不容易自己完成并向官方提出申请。另外,委托一般事务所代办商标事宜,需人工处理加之信息往返,至少数个工作日才能完成,在递交官方申请文件后,还需等待事务所回复,才能确认完成商标的申请信息。
此外,商标的申请量逐年激增,总的商标申请量已经突破5600万件,特别是近两年来,商标申请量突飞猛涨,受疫情的影响,2020年的申请量仍然超过了950万件,同比增长18.25%,导致后续注册商标难度越来越大,因此,在商标注册时迫切希望对商标数据进行全方位的检索,以确定待申请的商标想方案是否能够通过商标局审核。
因此,现有技术中存在着商标的申请量逐年激增,导致注册商标难度越来越大,以及,普通大众的商标申请等只能委托专业的知识产权事务所代为向官方提出申请,缺乏智能化注册等技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种商标大数据治理方法、系统和计算机设备。
第一方面,提供一种商标大数据治理方法,所述方法包括:
采集初始商标数据,基于所述初始商标数据构建商标基础数据;
从所述商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据;
将不同来源的商标明细数据进行汇总,构建汇总数据层;
根据各类业务需求,从所述汇总数据层中抽取各类业务需求所需的各类商标明细数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层;
以所述数据集市层的各类商标明细数据为基础,搭建搜索引擎,对外提供API接口平台和数据可视化服务。
在其中一个实施例中,所述初始商标数据包括:商标公告数据、商标尼斯分类数据以及商标流程数据;所述商标公告数据包括商标周公告数据和商标月公告数据;
所述商标公告数据包括:商标公告期号、商标公告时间、商标公告类型、商标公告详情、商标注册号、商标商品服务项目、商标名称、商标所在页码、商标图样、商标图样URL、商标申请人、商标类型、商标形式,商标有效期、商标初审公告时间、商标注册公告时间中的至少之一;所述商标尼斯分类数据包括:商标尼斯分类号和商标尼斯分类字典表中的至少之一;所述商标流程数据包括:商标流程状态。
在其中一个实施例中,所述商标公告详情包括商标公告详情图片;所述商标公告详情图片和所述商标图样存储于分布式文件系统中,并记录存储的URL地址;所述商标图样在预设时段还同步至GPU服务器中。
在其中一个实施例中,对不同来源的商标明细数据或者初始商标数据进行编解码,并融入容错机制处理后,导入至少一个数据库表;所述至少一个数据库表和不同来源的商标明细数据一一对应,或者,所述至少一个数据库表和不同来源的初始商标数据一一对应。
在其中一个实施例中,所述构建汇总数据层,包括:
抽取周更新数据和月更新数据中的数据,根据抽取的数据交叉更新历史数据;
将经过更新后的历史数据导入所述汇总数据层中;
根据所述周更新数据、所述月更新数据和所述不同来源的商标明细数据,构建所述汇总数据层。
在其中一个实施例中,所述根据抽取的数据交叉更新历史数据包括:
采用Kettle插入更新机制,更新历史数据。
在其中一个实施例中,所述方法还包括:
采用深度网络模型,提取所述商标图样的特征;
通过所述商标图样的特征,构建图像描述特征索引。
第二方面,提供一种商标大数据治理系统,所述系统包括:数据准备层、数据明细层、数据汇总层、数据集市层和数据应用层;所述数据准备层与所述数据明细层连接,所述数据明细层与所述数据汇总层连接,所述数据汇总层与所述数据集市层连接,所述数据集市层与所述数据应用层连接;
所述数据准备层,用于采集初始商标数据,基于所述初始商标数据构建商标基础数据;
所述数据明细层,用于从所述商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据;
所述汇总数据层,用于将不同来源的商标明细数据进行汇总,构建汇总数据层;
所述数据集市层,用于根据各类业务需求,从所述汇总数据层中抽取各类业务需求所需的各类商标明细数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层;
所述数据应用层,用于以所述数据集市层的各类商标明细数据为基础,搭建搜索引擎,对外提供API接口平台和数据可视化服务。
在其中一个实施例中,所述系统还包括:数据备份集群、数据监控系统、Kettle集群和ElasticSearch群集;
所述数据明细层与所述Kettle集群连接,所述Kettle集群与所述数据汇总层连接,所述数据集市层与所述ElasticSearch群集连接,所述ElasticSearch群集与所述数据应用层连接;
所述数据应用层包括搜索引擎服务、API接口平台、商标查询、商标监测、商标报告和商标统计;所述搜索引擎服务与所述API接口服务连接,所述API接口平台与所述商标查询连接,所述API接口平台与所述商标监测连接,所述API接口平台与所述商标报告连接,所述API接口平台与所述商标统计连接。
第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
采集初始商标数据,基于所述初始商标数据构建商标基础数据;
从所述商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据;
将不同来源的商标明细数据进行汇总,构建汇总数据层;
根据各类业务需求,从所述汇总数据层中抽取各类业务需求所需的各类商标明细数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层;
以所述数据集市层的各类商标明细数据为基础,搭建搜索引擎,对外提供API接口平台和数据可视化服务。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
采集初始商标数据,基于所述初始商标数据构建商标基础数据;
从所述商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据;
将不同来源的商标明细数据进行汇总,构建汇总数据层;
根据各类业务需求,从所述汇总数据层中抽取各类业务需求所需的各类商标明细数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层;
以所述数据集市层的各类商标明细数据为基础,搭建搜索引擎,对外提供API接口平台和数据可视化服务。
上述商标大数据治理方法、系统、计算机设备和存储介质,所述方法包括:采集初始商标数据,基于所述初始商标数据构建商标基础数据;从所述商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据;将不同来源的商标明细数据进行汇总,构建汇总数据层;根据各类业务需求,从所述汇总数据层中抽取各类业务需求所需的各类商标明细数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层;以所述数据集市层的各类商标明细数据为基础,搭建搜索引擎,对外提供API接口平台和数据可视化服务。使得注册商标难度降低,此外,普通大众也可以自己通过搜索引擎进行商标检索,增加了潜在商标申请的通过率,智能化治理商标大数据。
附图说明
图1为一个实施例中商标大数据治理方法的流程示意图;
图2为一个实施例中商标大数据治理系统的结构框图;
图3为一个实施例中商标大数据治理系统的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种商标大数据治理方法,包括以下步骤:
步骤101,采集初始商标数据,基于所述初始商标数据构建商标基础数据;
其中,所述初始商标数据包括:商标公告数据、商标尼斯分类数据以及商标流程数据;所述商标公告数据包括商标周公告数据和商标月公告数据。基于商标公告数据、商标尼斯分类数据以及商标流程数据,构建商标基础数据。
所述商标公告数据包括:商标公告期号、商标公告时间、商标公告类型、商标公告详情、商标注册号、商标商品服务项目、商标名称、商标所在页码、商标图样、商标图样URL、商标申请人、商标类型、商标形式,商标有效期、商标初审公告时间、商标注册公告时间中的至少之一;所述商标尼斯分类数据包括:商标尼斯分类号和商标尼斯分类字典表中的至少之一;所述商标流程数据包括:商标流程状态。
其中,商标周公告数据、商标月公告数据主要从商标局官网获得。商标尼斯分类数据从尼斯分类表获得,尼斯分类表是根据《商标注册用商品和服务国际分类尼斯协定》制定的商标类目分类表。商标流程数据主要由第三方数据服务定期通过FTP服务器进行交付。
其中,商标周公告数据从商标局远程服务器下载到本地服务器,商标月公告数据从商标局远程服务器下载到指定文件目录,商标流程数据从第三方数据服务预设时段通过FTP服务器进行交付,商标图样预设时段同步至GPU服务器中。
其中,所述商标公告详情包括商标公告详情图片;所述商标公告详情图片和所述商标图样存储于分布式文件系统中,并记录存储的URL地址;所述商标图样在预设时段还同步至GPU服务器中。
在本发明实施例中,图片数据均存储于高可用的分布式文件系统FastDFS中,并详细记录图片数据存储的URL地址。将记录FastDFS存储商标图样数据的URL地址更新到历史数据中商标公告对应的FastDFS字段。不同数据源不同类型的数据经过编码和解码,融入容错机制处理后,导入对应MySQL数据库的表中。
其中,根据官网公告数据的频次,分别建周更新数据库和月更新数据库两部分,具体涉及商标公告期号、公告时间、商标公告类型、商标公告详情、商标注册号、商标尼斯分类号、商标商品服务项目、商标名称、商标所在页码、商标图样、商标图样url、商标申请人、商标类型、商标形式、商标有效期、商标初审公告时间、商标注册公告时间、商标尼斯分类字典表、商标流程状态等。
其中,爬取商标局官网每周发布的公告数据,并将数据汇入周更新数据库,对周更新数据库内涉及的商标公告期号、商标尼斯分类代码、商标公告详情、商标公告图片URL、商标类型等数据字段,根据业务需求进行标准化处理,最终生成商标周公告详情结果表、商标周公告数据尼斯分类表、商标周公告数据注册号表。对于商标流程数据,通过监测FTP服务器指定目录内的数据文件,是否有增量数据及时将TXT格式的文件下载,并导入MySQL数据中。
商标流程数据主要由第三方数据服务定期通过FTP服务器进行交付。对于商标流程数据则是监控FTP服务器中的文件变动,将增量的流程数据文件自动下载至商标大数据处理平台。
其中,爬取商标局官网每月发布的公告数据,并将数据汇入月更新数据库,对月更新数据库内涉及的国际注册基本信息、商标代理人信息、商标注册人信息、注册商标共有人信息、注册商标基本信息、注册商标商品服务信息、注册商标优先权信息、商标图样数据,根据业务需求进行标准化处理,生成商标图样数据、商标基本信息数据和商标商品服务信息数据。
其中,汇集原始数据均位hadoop集群的某一节点的MySQL数据库中,并按数据更新频次分别建立了周更新数据库(tm_week)、周更新历史数据库(tm_week_all)、月更新数据库(tm_month)、月更新历史数据库(tm_month_all)、历史数据库(tm_history)、商标图样和商标公告详情为图片数据,存储于FastDFS分布式文件系统中。采购的商标流程数据位于周更新数据库。
其中,监测数据下载的完成状态、日志、发送处理任务的起止消息和邮件通知,并根据状态标记清理已处理的数据,以释放服务器的硬盘资源,并释放之前先将原始数据备份至指定服务器。
其中,商标图样数据位于FastDFS文件系统中,因FastDFS文件系统中设有数据副本,不需在再单独进行数据备份。
步骤102,从所述商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据;
可选地,对不同来源的商标明细数据或者初始商标数据进行编解码,并融入容错机制处理后,导入至少一个数据库表;所述至少一个数据库表和不同来源的商标明细数据一一对应,或者,所述至少一个数据库表和不同来源的初始商标数据一一对应。
在进行数据处理时,Spark集群直接将对应MySQL数据库中的数据读入内存,并建弹性分布式数据集(RDD),按商标检索业务系统的要求进行标准化处理,Spark处理的最终结果直接写入对应的周更新数据库和月更新数据库中。
步骤103,将不同来源的商标明细数据进行汇总,构建汇总数据层;
可选地,所述构建汇总数据层,包括:抽取周更新数据和月更新数据中的数据,根据抽取的数据交叉更新历史数据;将经过更新后的历史数据导入所述汇总数据层中;根据所述周更新数据、所述月更新数据和所述不同来源的商标明细数据,构建所述汇总数据层。
可选地,对周更新数据和月更新数据,按商标公告期号交叉增量更新商标基本信息、商标公告信息的对应表字段,月更新数据还作为商标服务项目信息的主要来源。此外,商标流程信息的唯一来源则是位于FTP服务器中的TXT数据文件。
可选地,从周更新数据中分别抽取补充数据,补充数据用于补充历史数据中缺失的商标尼斯分类信息,还用于更新商标基本信息表的初审公告、注册公告、状态信息对应的字段。
其中,补充数据包括:申请号—国际分类、初审公告信息、注册公告信息、续展公告信息、商标有效期至时间、无效公告信息,其中,无效公告信息表明商标的状态信息为无效。
将月更新数据中的商标基本信息数据和商标商品服务信息数据分别补充历史数据中商标基本信息数据缺失的商品服务项目的群组代码、群组名称及项目代码。
可选地,采用Kettle插入更新机制,更新历史数据。周更新数据、月更新数据、商标流程数据以及汇总数据层之间的数据迁移和数据合并,采用ETL工具Kettle进行增量更新。
在本发明实施例中,为了保证数据记录的唯一性,采用Kettle集群的流式去重和插入更新机制对周更新数据库、月更新数据库以及汇总数据层之间的数据进行迁移与合并,然后通过hadoop集群的sqoop工具导入Hive数据仓库,便可获得所述汇总数据层。
Kettle的流式去重机制主要是为了解决在迁移过程中,存在重复数据的问题,首先对抽取的数据按指定的一个或者多个字段进行排序,然后再指定某个字段作为数据记录去重的依据,数据在迁移的过程中便可去除重记录。此外,kettle的插入更新机制主要是为了解决,历史记录中数据更新的问题,一般可以依据数据记录的唯一标识,如主键,作为判断条件;若数据记录已经存在,则依据记录唯一标识对该记录的其它字段信息进行更新操作;若该数据记录根本不存在在历史记录中,则直接将其插入历史记录。
步骤104,根据各类业务需求,从所述汇总数据层中抽取各类业务需求所需的各类商标明细数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层;
步骤105,以所述数据集市层的各类商标明细数据为基础,搭建搜索引擎,对外提供API接口平台和数据可视化服务。
所述方法还包括:采用深度网络模型,提取所述商标图样的特征;通过所述商标图样的特征,构建图像描述特征索引。
其中,采用VGG16深度网络模型,提取商标图样的图像细节特征,利用SPTAG-BKT算法构建图像描述特征索引,实现以图搜图的功能。
根据各业务需求设计ElasticSearch集群的索引结构以及各索引与业务数据库的数据同步方式。Elasticsearch集群既可作为汇总数据层,也可以配合API接口平台作为数据应用层的一份部分。基于API接口平台提供的数据,可以构建商标查询、商标监测、商标报告以及商标大数据统计等服务。
在本发明实施例中,各业务分析所需数据由API接口平台提供数据接口服务,以API接口平台为纽带支撑商标检索、商标统计、商标自动报告、商标监测等应用层的业务建立数据应用层。根据商标查询业务需求,设计ElasticSearch集群的索引结构与各业务数据库的数据同步方式。基于上述索引数据开发各类数据接口服务,并统一由API接口平台进行管控。各业务分析所需数据由API接口平台提供数据接口服务,同时支持按业务需求进行商标大数据统计分析,统计结果可视化展示,商标状态监测以及商标查询报告;所述数据可视化服务还包括全国省市两级行政区划以及重点区域企业的商标数量、商标类型量、商标图像检索、商标一级分类、以及商标二级分类等统计数据。
上述商标大数据治理方法采集初始商标数据,基于所述初始商标数据构建商标基础数据;从所述商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据;将不同来源的商标明细数据进行汇总,构建汇总数据层;根据各类业务需求,从所述汇总数据层中抽取各类业务需求所需的各类商标明细数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层;以所述数据集市层的各类商标明细数据为基础,搭建搜索引擎,对外提供API接口平台和数据可视化服务。使得注册商标难度降低,此外,普通大众也可以自己通过搜索引擎进行商标检索,增加了潜在商标申请的通过率,智能化治理商标大数据。
本发明能够自动有效地收集初始商标数据,对收集的初始商标数据进行标准化处理,并且能够以周和月为周期进行商标数据更新,及时补充当前已注册的商标数据,通过以图搜图功能的实现,提高了商标数据查询维度和时效性,增加了潜在商标申请的通过率,在一定程度上务服客户的体验,该方法达到了快速准确利用海量多模态商标数据的目的,大大降低了商标数据处理的时间成本和维运成本。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种商标大数据治理系统,所述系统包括:
数据准备层1,用于采集初始商标数据,基于所述初始商标数据构建商标基础数据;
数据明细层2,用于从所述商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据;
汇总数据层3,用于将不同来源的商标明细数据进行汇总,构建汇总数据层;
数据集市层4,用于根据各类业务需求,从所述汇总数据层中抽取各类业务需求所需的各类商标明细数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层;
数据应用层5,用于以所述数据集市层的各类商标明细数据为基础,搭建搜索引擎,对外提供API接口平台和数据可视化服务。
在可选地一个实施例中,所述初始商标数据包括:商标公告数据、商标尼斯分类数据以及商标流程数据;所述商标公告数据包括商标周公告数据和商标月公告数据;
所述商标公告数据包括:商标公告期号、商标公告时间、商标公告类型、商标公告详情、商标注册号、商标商品服务项目、商标名称、商标所在页码、商标图样、商标图样URL、商标申请人、商标类型、商标形式,商标有效期、商标初审公告时间、商标注册公告时间中的至少之一;所述商标尼斯分类数据包括:商标尼斯分类号和商标尼斯分类字典表中的至少之一;所述商标流程数据包括:商标流程状态。
在可选地一个实施例中,所述商标公告详情包括商标公告详情图片;所述商标公告详情图片和所述商标图样存储于分布式文件系统中,并记录存储的URL地址;所述商标图样在预设时段还同步至GPU服务器中。
在可选地一个实施例中,对不同来源的商标明细数据或者初始商标数据进行编解码,并融入容错机制处理后,导入至少一个数据库表;所述至少一个数据库表和不同来源的商标明细数据一一对应,或者,所述至少一个数据库表和不同来源的初始商标数据一一对应。
在可选地一个实施例中,所述汇总数据层,还用于抽取周更新数据和月更新数据中的数据,根据抽取的数据交叉更新历史数据;
将经过更新后的历史数据导入所述汇总数据层中;
根据所述周更新数据、所述月更新数据和所述不同来源的商标明细数据,构建所述汇总数据层。
在可选地一个实施例中,所述汇总数据层,还用于采用Kettle插入更新机制,更新历史数据。
在可选地一个实施例中,所述系统还包括特征提取层和索构建引层;
特征提取层,用于采用深度网络模型,提取所述商标图样的特征;
索构建引层,用于通过所述商标图样的特征,构建图像描述特征索引。
在一个实施例中,如图3所示,提供了一种商标大数据治理系统,所述系统包括:
数据准备层1、数据明细层2、数据汇总层3、数据集市层4、数据应用层5、数据备份集群6、数据监控系统7、Kettle集群8和ElasticSearch群集9;
所述数据准备层1与所述数据明细层2连接,所述数据明细层2与所述数据汇总层3连接,所述数据汇总层3与所述数据集市层4连接,所述数据集市层4连接与所述数据应用层5连接,所述数据明细层2与所述Kettle集群8连接,所述Kettle集群8与所述数据汇总层3连接,所述数据集市层4与所述ElasticSearch群集9连接,所述ElasticSearch群集9与所述数据应用层5连接;
所述数据应用层5包括搜索引擎服务51、API接口平台52、商标查询53、商标监测54、商标报告55和商标统计56;所述搜索引擎服务51与所述API接口服务52连接,所述API接口平台52与所述商标查询53连接,所述API接口平台52与所述商标监测54连接,所述API接口平台52与所述商标报告55连接,所述API接口平台52与所述商标统计56连接。
在本发明实施例中,采集初始商标数据,基于所述初始商标数据构建商标基础数据,即构建数据准备层1。
从所述商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据,构建数据明细层2。
通过hadoop集群的sqoop工具,将不同来源的商标明细数据导入Hive数据仓库,获得汇总数据层3。
根据汇总数据层3为基础数据源,按业务系统的要求,从汇总数据层3中抽取所需的各类商标明细数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层。
以数据集市层4的各类商标明细数据为基础搭建搜索引擎、对外提供API接口平台和数据可视化服务,建立数据应用层5。
所述数据明细层2包括月更新数据库21和周更新数据库22;所述月更新数据库21和周更新数据库22与所述数据汇总层3连接,所述周更新数据22与所述Kettle集群8连接,所述月更新数据库21与数据监控系统7连接。
其中,将数据准备层1、数据明细层2、数据汇总层3、数据集市层4和数据应用层5的数据定期备份至数据备份集群6的各数据库中,以完成各类数据库的数据备份。
其中,将数据准备层1、数据明细层2、数据汇总层3、数据集市层4和数据应用层5的运行状态数据发送至数据监控系统7,由数据监控系统7进行统一监控和异常报警。数据监控系统7所需的状态数据,需在各模块中单独安装状态数据采集器。
在本发明实施例中,数据监控和备份的减少了人员干预,降低了故障发生率,保证了商标处理数据的可靠性和稳定性。
其中,根据搜索业务需求,设计ElasticSearch集群的索引结构与各业务数据库的数据同步方式,基于上述索引数据开发flask和Node.js数据接口,提供API接口平台52。
其中,所述数据备份集群为布署的备份所需各类数据的数据库;所述数据库包括结构化、半结构化和非结构化的数据库。在每台服务器中布署MySQL、Hbase和MongoDB至少一个数据库。
关于商标大数据治理系统的具体限定可以参见上文中对于商标大数据治理方法的限定,在此不再赘述。上述商标大数据治理系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种商标大数据治理方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
采集初始商标数据,基于所述初始商标数据构建商标基础数据;
从所述商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据;
将不同来源的商标明细数据进行汇总,构建汇总数据层;
根据各类业务需求,从所述汇总数据层中抽取各类业务需求所需的各类商标明细数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层;
以所述数据集市层的各类商标明细数据为基础,搭建搜索引擎,对外提供API接口平台和数据可视化服务。
在一个实施例中,所述初始商标数据包括:商标公告数据、商标尼斯分类数据以及商标流程数据;所述商标公告数据包括商标周公告数据和商标月公告数据;
所述商标公告数据包括:商标公告期号、商标公告时间、商标公告类型、商标公告详情、商标注册号、商标商品服务项目、商标名称、商标所在页码、商标图样、商标图样URL、商标申请人、商标类型、商标形式,商标有效期、商标初审公告时间、商标注册公告时间中的至少之一;所述商标尼斯分类数据包括:商标尼斯分类号和商标尼斯分类字典表中的至少之一;所述商标流程数据包括:商标流程状态。
在一个实施例中,所述商标公告详情包括商标公告详情图片;所述商标公告详情图片和所述商标图样存储于分布式文件系统中,并记录存储的URL地址;所述商标图样在预设时段还同步至GPU服务器中。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对不同来源的商标明细数据或者初始商标数据进行编解码,并融入容错机制处理后,导入至少一个数据库表;所述至少一个数据库表和不同来源的商标明细数据一一对应,或者,所述至少一个数据库表和不同来源的初始商标数据一一对应。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
抽取周更新数据和月更新数据中的数据,根据抽取的数据交叉更新历史数据;
将经过更新后的历史数据导入所述汇总数据层中;
根据所述周更新数据、所述月更新数据和所述不同来源的商标明细数据,构建所述汇总数据层。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
采用Kettle插入更新机制,更新历史数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
采用深度网络模型,提取所述商标图样的特征;
通过所述商标图样的特征,构建图像描述特征索引。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
采集初始商标数据,基于所述初始商标数据构建商标基础数据;
从所述商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据;
将不同来源的商标明细数据进行汇总,构建汇总数据层;
根据各类业务需求,从所述汇总数据层中抽取各类业务需求所需的各类商标明细数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层;
以所述数据集市层的各类商标明细数据为基础,搭建搜索引擎,对外提供API接口平台和数据可视化服务。
在一个实施例中,所述初始商标数据包括:商标公告数据、商标尼斯分类数据以及商标流程数据;所述商标公告数据包括商标周公告数据和商标月公告数据;
所述商标公告数据包括:商标公告期号、商标公告时间、商标公告类型、商标公告详情、商标注册号、商标商品服务项目、商标名称、商标所在页码、商标图样、商标图样URL、商标申请人、商标类型、商标形式,商标有效期、商标初审公告时间、商标注册公告时间中的至少之一;所述商标尼斯分类数据包括:商标尼斯分类号和商标尼斯分类字典表中的至少之一;所述商标流程数据包括:商标流程状态。
在一个实施例中,所述商标公告详情包括商标公告详情图片;所述商标公告详情图片和所述商标图样存储于分布式文件系统中,并记录存储的URL地址;所述商标图样在预设时段还同步至GPU服务器中。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对不同来源的商标明细数据或者初始商标数据进行编解码,并融入容错机制处理后,导入至少一个数据库表;所述至少一个数据库表和不同来源的商标明细数据一一对应,或者,所述至少一个数据库表和不同来源的初始商标数据一一对应。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
抽取周更新数据和月更新数据中的数据,根据抽取的数据交叉更新历史数据;
将经过更新后的历史数据导入所述汇总数据层中;
根据所述周更新数据、所述月更新数据和所述不同来源的商标明细数据,构建所述汇总数据层。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
采用Kettle插入更新机制,更新历史数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
采用深度网络模型,提取所述商标图样的特征;
通过所述商标图样的特征,构建图像描述特征索引。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种商标大数据治理方法,其特征在于,所述方法包括:
采集初始商标数据,基于所述初始商标数据构建商标基础数据;
从所述商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据;
将不同来源的商标明细数据进行汇总,构建汇总数据层;
根据各类业务需求,从所述汇总数据层中抽取各类业务需求所需的各类商标明细数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层;
以所述数据集市层的各类商标明细数据为基础,搭建搜索引擎,对外提供API接口平台和数据可视化服务。
2.根据权利要求1所述的商标大数据治理方法,其特征在于,所述初始商标数据包括:商标公告数据、商标尼斯分类数据以及商标流程数据;所述商标公告数据包括商标周公告数据和商标月公告数据;
所述商标公告数据包括:商标公告期号、商标公告时间、商标公告类型、商标公告详情、商标注册号、商标商品服务项目、商标名称、商标所在页码、商标图样、商标图样URL、商标申请人、商标类型、商标形式,商标有效期、商标初审公告时间、商标注册公告时间中的至少之一;所述商标尼斯分类数据包括:商标尼斯分类号和商标尼斯分类字典表中的至少之一;所述商标流程数据包括:商标流程状态。
3.根据权利要求2所述的商标大数据治理方法,其特征在于,所述商标公告详情包括商标公告详情图片;所述商标公告详情图片和所述商标图样存储于分布式文件系统中,并记录存储的URL地址;所述商标图样在预设时段还同步至GPU服务器中。
4.根据权利要求1所述的商标大数据治理方法,其特征在于,对不同来源的商标明细数据或者初始商标数据进行编解码,并融入容错机制处理后,导入至少一个数据库表;所述至少一个数据库表和不同来源的商标明细数据一一对应,或者,所述至少一个数据库表和不同来源的初始商标数据一一对应。
5.根据权利要求1所述的商标大数据治理方法,其特征在于,所述构建汇总数据层,包括:
抽取周更新数据和月更新数据中的数据,根据抽取的数据交叉更新历史数据;
将经过更新后的历史数据导入所述汇总数据层中;
根据所述周更新数据、所述月更新数据和所述不同来源的商标明细数据,构建所述汇总数据层。
6.根据权利要求5所述的商标大数据治理方法,其特征在于,所述根据抽取的数据交叉更新历史数据包括:
采用Kettle插入更新机制,更新历史数据。
7.根据权利要求2或3所述的商标大数据治理方法,其特征在于,所述方法还包括:
采用深度网络模型,提取所述商标图样的特征;
通过所述商标图样的特征,构建图像描述特征索引。
8.一种商标大数据治理系统,其特征在于,所述系统包括:数据准备层、数据明细层、数据汇总层、数据集市层和数据应用层;所述数据准备层与所述数据明细层连接,所述数据明细层与所述数据汇总层连接,所述数据汇总层与所述数据集市层连接,所述数据集市层与所述数据应用层连接;
所述数据准备层,用于采集初始商标数据,基于所述初始商标数据构建商标基础数据;
所述数据明细层,用于从所述商标基础数据中提取商标基本信息、商标公告信息、商标服务项目信息、商标流程信息以及商标图样信息,得到不同来源的商标明细数据;
所述汇总数据层,用于将不同来源的商标明细数据进行汇总,构建汇总数据层;
所述数据集市层,用于根据各类业务需求,从所述汇总数据层中抽取各类业务需求所需的各类商标明细数据,分别建立各类业务需求对应的业务分析数据库,构建数据集市层;
所述数据应用层,用于以所述数据集市层的各类商标明细数据为基础,搭建搜索引擎,对外提供API接口平台和数据可视化服务。
9.根据权利要求8所述的商标大数据治理系统,其特征在于,所述系统还包括:数据备份集群、数据监控系统、Kettle集群和ElasticSearch群集;
所述数据明细层与所述Kettle集群连接,所述Kettle集群与所述数据汇总层连接,所述数据集市层与所述ElasticSearch群集连接,所述ElasticSearch群集与所述数据应用层连接;
所述数据应用层包括搜索引擎服务、API接口平台、商标查询、商标监测、商标报告和商标统计;所述搜索引擎服务与所述API接口服务连接,所述API接口平台与所述商标查询连接,所述API接口平台与所述商标监测连接,所述API接口平台与所述商标报告连接,所述API接口平台与所述商标统计连接。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
CN202111105504.6A 2021-09-22 2021-09-22 一种商标大数据治理方法、系统和计算机设备 Pending CN113806618A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111105504.6A CN113806618A (zh) 2021-09-22 2021-09-22 一种商标大数据治理方法、系统和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111105504.6A CN113806618A (zh) 2021-09-22 2021-09-22 一种商标大数据治理方法、系统和计算机设备

Publications (1)

Publication Number Publication Date
CN113806618A true CN113806618A (zh) 2021-12-17

Family

ID=78939940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111105504.6A Pending CN113806618A (zh) 2021-09-22 2021-09-22 一种商标大数据治理方法、系统和计算机设备

Country Status (1)

Country Link
CN (1) CN113806618A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117520636A (zh) * 2023-12-12 2024-02-06 广州标天下信息科技有限公司 一种基于大数据的商标预警方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002099694A1 (fr) * 2001-05-30 2002-12-12 Kabushiki Kaisha A And D Systeme de recherche d'une marque de commerce et systeme de support d'application d'une marque de commerce
CN110288264A (zh) * 2019-07-03 2019-09-27 深圳智高点知识产权运营有限公司 一种企业商标监控分析系统和方法
CN111460045A (zh) * 2020-03-02 2020-07-28 心医国际数字医疗系统(大连)有限公司 数据仓库建设的建模方法、模型、计算机设备和存储介质
CN112181940A (zh) * 2020-08-25 2021-01-05 天津农学院 全国工商大数据处理系统的构建方法
CN112732680A (zh) * 2021-01-22 2021-04-30 浪潮卓数大数据产业发展有限公司 一种数据仓库设计方法
CN112783977A (zh) * 2021-01-26 2021-05-11 浪潮卓数大数据产业发展有限公司 一种基于大数据的海量数据搜索的实现方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002099694A1 (fr) * 2001-05-30 2002-12-12 Kabushiki Kaisha A And D Systeme de recherche d'une marque de commerce et systeme de support d'application d'une marque de commerce
CN110288264A (zh) * 2019-07-03 2019-09-27 深圳智高点知识产权运营有限公司 一种企业商标监控分析系统和方法
CN111460045A (zh) * 2020-03-02 2020-07-28 心医国际数字医疗系统(大连)有限公司 数据仓库建设的建模方法、模型、计算机设备和存储介质
CN112181940A (zh) * 2020-08-25 2021-01-05 天津农学院 全国工商大数据处理系统的构建方法
CN112732680A (zh) * 2021-01-22 2021-04-30 浪潮卓数大数据产业发展有限公司 一种数据仓库设计方法
CN112783977A (zh) * 2021-01-26 2021-05-11 浪潮卓数大数据产业发展有限公司 一种基于大数据的海量数据搜索的实现方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117520636A (zh) * 2023-12-12 2024-02-06 广州标天下信息科技有限公司 一种基于大数据的商标预警方法和系统

Similar Documents

Publication Publication Date Title
US7912932B2 (en) Service request common object
US7457807B2 (en) Data migration and analysis
US9507946B2 (en) Program vulnerability identification
CN111507709B (zh) 一种数据溯源系统
US20170223003A1 (en) Integrated data extraction and retrieval system
CN101421725A (zh) 用于关联企业实体的方法与系统
JP5947266B2 (ja) マルチシステムランドスケープにおけるデータプライバシーおよびデータ破棄のためのシステムおよび方法
CN108595563A (zh) 一种数据质量管理方法及装置
CN108701154B (zh) 数据源系统不可知的事实类别分区信息存储库以及用于使用信息存储库插入和检索数据的方法
US11954123B2 (en) Data processing method and device for data integration, computing device and medium
US11561939B2 (en) Iterative data processing
CN105320722A (zh) 确保分布式存储系统中导出数据的一致性
CN111881252A (zh) 工作报告处理方法、装置、计算机设备及存储介质
US20240095256A1 (en) Method and system for persisting data
CN112181940A (zh) 全国工商大数据处理系统的构建方法
US9177010B2 (en) Non-destructive data storage
US11797527B2 (en) Real time fault tolerant stateful featurization
CN116719799A (zh) 环保数据治理方法、装置、计算机设备和存储介质
CN113806618A (zh) 一种商标大数据治理方法、系统和计算机设备
CN110337648B (zh) 用于高效地分发提醒消息的系统和方法
WO2024148440A1 (en) Method and system for processing file metadata
CN111427936B (zh) 报表生成方法、装置、计算机设备和存储介质
CN114356945A (zh) 数据处理方法、装置、计算机设备和存储介质
US12086282B1 (en) Graph-based data privacy compliance solution
CN117573687B (zh) 一种基于ClickHouse数据库的业务表单反写/读取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211217

RJ01 Rejection of invention patent application after publication