CN108376140B - 基于模糊匹配的政务数据梳理方法及装置 - Google Patents

基于模糊匹配的政务数据梳理方法及装置 Download PDF

Info

Publication number
CN108376140B
CN108376140B CN201710521720.6A CN201710521720A CN108376140B CN 108376140 B CN108376140 B CN 108376140B CN 201710521720 A CN201710521720 A CN 201710521720A CN 108376140 B CN108376140 B CN 108376140B
Authority
CN
China
Prior art keywords
data
carding
government affair
government
affair data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710521720.6A
Other languages
English (en)
Other versions
CN108376140A (zh
Inventor
廖昕
朱胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinawiserv Technologies Inc
Original Assignee
Chinawiserv Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinawiserv Technologies Inc filed Critical Chinawiserv Technologies Inc
Priority to CN201710521720.6A priority Critical patent/CN108376140B/zh
Publication of CN108376140A publication Critical patent/CN108376140A/zh
Application granted granted Critical
Publication of CN108376140B publication Critical patent/CN108376140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及政务数据处理领域,尤其是涉及基于模糊匹配的政务数据梳理方法及装置。本发明针对现有技术存在的问题,提供一种基于模糊匹配的政务数据梳理方法及装置。对某一的政务数据抽取关键词标签,建立标签模板;本发明对需要匹配的政务数据进行梳理后,抽取关键词标签;根据相似度计算方法计算需要匹配的政务数据的关键词标签与标签模板的标签的相似度;计算出的相似度与阈值进行比较来判断该业务数据是否与梳理后的业务数据相匹配。

Description

基于模糊匹配的政务数据梳理方法及装置
技术领域
本发明涉及政务数据处理领域,尤其是涉及基于模糊匹配的政务数据梳理方法及装置。
背景技术
政府部门在业务开展过程中,产生若干数据资源。为了提高政府服务能力,需要其他部门提供相关数据支持。政府部门之间客观存在供需关系。在政务信息资源梳理过程中,政府部门对有些可以提高业务能力的数据的来源并不清楚。同时,政府部门对自身数据有哪些能支撑其他部门提高业务能力也并不清楚。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种基于模糊匹配的政务数据梳理方法及装置。
本发明采用的技术方案如下:
基于模糊匹配的政务数据梳理方法包括:
对某一政务数据抽取关键词标签,建立标签模板;
对需要匹配的政务数据进行梳理后,抽取关键词标签;
根据相似度计算方法计算需要匹配的政务数据的关键词标签与标签模板的标签的相似度;计算出的相似度与阈值进行比较来判断上述某一政务数据是否与梳理后的政务数据相匹配。
进一步的,政务数据指的是政务数据中业务层、信息资源、数据项中抽取符合该业务特点的标签。
进一步的,阈值范围是70%及以上。
进一步的,相似度计算方法是编辑距离算法、向量空间模型的余弦定理算法。
基于模糊匹配的政务数据梳理装置包括:
标签提取装置,用于对某一政务数据抽取关键词标签;同时对需要匹配的政务数据进行梳理后,抽取关键词标签;
匹配标签判断模块,根据相似度计算方法计算这两个政务数据的相似度;计算出的相似度与阈值进行比较来判断上述某一政务数据是否与梳理后的政务数据相匹配。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
根据本发明的匹配结果为用户提供匹配数据是否为有用数据提供依据。
通过抽取标签,并通过模糊匹配方法对标签进行匹配,让政府部门对自身数据有个更加清楚的了解。为后续做决策或者数据处理做准备。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
1、相关介绍:
基于模糊匹配的政务数据梳理方法是基于数据信息资源共享系统的;而数据信息资源共享系统包括数据梳理系统、服务封装系统、门户子系统。数据信息资源共享系统架构设计为:从整体的信息流通框架出发,按照分块实施、互通互联、资源共享、不同侧重的原则设计信息化的平台架构,以支撑各场景组成架构的各级业务。
数据梳理系统用于对获取的信息资源的关系从业务层和技术层分别进行梳理分析,根据应用场景自动或手动生成各级业务关系和各级数据信息关系,并建立信息资源、业务关系、数据信息三者之间的关联。
服务封装系统用于对一套信息资源目录和信息资源进行封装,生成封装协议的数据包,也可以生成WEB服务形式的信息资源访问方式。梳理系统产生的信息资源目录和信息资源描述信息,可以作为服务封装系统提供WEB服务的输入信息。
2、基于模糊匹配的政务数据梳理方法包括:
步骤1:对某一政务数据抽取关键词标签,建立标签模板;
步骤2:对需要匹配的政务数据进行梳理后,抽取关键词标签;
步骤3:根据相似度计算方法计算需要匹配的政务数据的关键词标签与标签模板的标签的相似度;
步骤4:计算出的相似度与阈值进行比较来判断上述某一政务数据是否与梳理后的政务数据相匹配。让政府部门对自身数据有个更加清楚的了解。为后续做决策或者数据处理做准备。
其中,数据梳理系统对政务信息资源从业务层进行梳理,依次从部门、部门职责、职责相关的信息资源、信息资源相关的数据项逐层全面梳理。
数据梳理系统对政务信息资源从技术层进行梳理,依次从部门系统、部门系统数据库、数据库中包含的表、表包含的字段逐层全面梳理。
政务数据梳理系统包括组织梳理,业务梳理,信息资源梳理,需求梳理,应用系统梳理,关联关系梳理,数据元梳理。
组织梳理:组织梳理对组织部门、部门上级、部门类别进行梳理并对组织的下设机构、下设机构类别及其职能等进行梳理,生成组织基本信息;
在组织梳理之后,从业务线层面出发:
业务梳理:针对每个组织各个下设机构开展业务梳理,包括下设机构开展的业务事项名称、业务服务对象、业务所需材料、业务产生材料、支撑信息系统等;
信息资源梳理:在业务梳理之后,对每项业务事项进行信息资源进行梳理,并明确到数据项,包括数据的开放情况、共享情况、存储情况等;
需求梳理:在进行信息资源梳理的同时进行需求梳理,需求梳理是对部门办理业务过程所需要其他部门提供的信息资源进行梳理;
在组织梳理之后,从技术层面出发:(业务层面和技术层面可同时进行梳理)
应用系统梳理:针对每个组织各个下设机构开展应用系统的梳理,包括应用系统名称和系统数据库中的表,表字段(表字段可形成数据项)等;
关联关系梳理:将业务层面的数据资源和数据资源项与技术层面信息系统数据库表中的数据资源和表字段中的数据资源项做对应;
数据元梳理:建立统一的数据资源项的库,对不同部门,不同系统中相同的信息资源项进行关联以及管理。

Claims (6)

1.基于模糊匹配的政务数据梳理方法,其特征在于包括:
对某一政务数据抽取关键词标签,建立标签模板;
对需要匹配的政务数据进行梳理后,抽取关键词标签;
其中,政务数据通过数据梳理系统进行梳理,具体的:
数据梳理系统对政务信息资源从业务层进行梳理,依次从部门、部门职责、职责相关的信息资源、信息资源相关的数据项逐层全面梳理;
数据梳理系统对政务信息资源从技术层进行梳理,依次从部门系统、部门系统数据库、数据库中包含的表、表包含的字段逐层全面梳理;
根据相似度计算方法计算需要匹配的政务数据的关键词标签与标签模板的标签的相似度;
计算出的相似度与阈值进行比较来判断上述某一政务数据是否与梳理后的政务数据相匹配。
2.根据权利要求1所述的基于模糊匹配的政务数据梳理方法,其特征在于政务数据指的是通过数据梳理系统梳理政务数据后,抽取符合该业务特点的标签。
3.根据权利要求1所述的基于模糊匹配的政务数据梳理方法,其特征在于标签模板是某一政务数据具有特点的标签集合。
4.根据权利要求1所述的基于模糊匹配的政务数据梳理方法,其特征在于阈值范围是70%及以上。
5.根据权利要求1所述的基于模糊匹配的政务数据梳理方法,其特征在于相似度计算方法指的是编辑距离算法、向量空间模型的余弦定理算法。
6.基于模糊匹配的政务数据梳理装置,其特征在于包括:
标签提取装置,用于对某一政务数据抽取关键词标签;同时对需要匹配的政务数据进行梳理后,抽取关键词标签;
其中,政务数据通过数据梳理系统进行梳理,具体的:
数据梳理系统对政务信息资源从业务层进行梳理,依次从部门、部门职责、职责相关的信息资源、信息资源相关的数据项逐层全面梳理;
数据梳理系统对政务信息资源从技术层进行梳理,依次从部门系统、部门系统数据库、数据库中包含的表、表包含的字段逐层全面梳理;
匹配标签判断模块,根据相似度计算方法计算这两个政务数据的相似度;计算出的相似度与阈值进行比较来判断上述某一政务数据是否与梳理后的政务数据相匹配。
CN201710521720.6A 2017-06-30 2017-06-30 基于模糊匹配的政务数据梳理方法及装置 Active CN108376140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710521720.6A CN108376140B (zh) 2017-06-30 2017-06-30 基于模糊匹配的政务数据梳理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710521720.6A CN108376140B (zh) 2017-06-30 2017-06-30 基于模糊匹配的政务数据梳理方法及装置

Publications (2)

Publication Number Publication Date
CN108376140A CN108376140A (zh) 2018-08-07
CN108376140B true CN108376140B (zh) 2023-05-02

Family

ID=63016296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710521720.6A Active CN108376140B (zh) 2017-06-30 2017-06-30 基于模糊匹配的政务数据梳理方法及装置

Country Status (1)

Country Link
CN (1) CN108376140B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832945B (zh) * 2020-07-15 2023-05-23 长三角信息智能创新研究院 政务大数据应用成熟度评价方法
CN113610605A (zh) * 2021-08-10 2021-11-05 深圳新动信息技术有限公司 反向针对用户推荐感兴趣的反向被动搜索的方法及系统
CN115563069B (zh) * 2022-09-27 2024-01-16 北京燕华科技发展有限公司 基于人工智能的数据共享处理方法、系统及云平台

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW556101B (en) * 2000-07-21 2003-10-01 Viagold Direct Network Ltd Searching system and method for searching website homepage

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9402104B2 (en) * 2010-07-30 2016-07-26 Avaya Inc. System and method for subscribing to events based on tag words
CN102637163A (zh) * 2011-01-09 2012-08-15 华东师范大学 一种基于语义的多层次本体匹配的控制方法及系统
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法
CN103500219B (zh) * 2013-10-12 2017-08-15 翔傲信息科技(上海)有限公司 一种标签自适应精准匹配的控制方法
CN106156082B (zh) * 2015-03-31 2019-09-20 华为技术有限公司 一种本体对齐方法及装置
US20170024657A1 (en) * 2015-07-21 2017-01-26 Yp Llc Fuzzy autosuggestion for query processing services
CN105138511B (zh) * 2015-08-10 2017-12-12 北京思特奇信息技术股份有限公司 一种对搜索关键词进行语义分析的方法和系统
CN105787647A (zh) * 2016-02-19 2016-07-20 浪潮软件股份有限公司 一种基于政府业务数据梳理的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW556101B (en) * 2000-07-21 2003-10-01 Viagold Direct Network Ltd Searching system and method for searching website homepage

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘峰.基于模糊决策的多策略模式匹配研究.《中国优秀硕士学位论文全文数据库》.2010,全文. *

Also Published As

Publication number Publication date
CN108376140A (zh) 2018-08-07

Similar Documents

Publication Publication Date Title
CN106649378B (zh) 一种数据同步方法及装置
CN108376140B (zh) 基于模糊匹配的政务数据梳理方法及装置
CN106844372B (zh) 一种物流信息查询方法和装置
CN110109908B (zh) 基于社会基础信息挖掘人物潜在关系的分析系统及方法
CN107451266A (zh) 用于处理数据方法及其设备
CN110929893B (zh) 一种回收业务管理的方法及装置
CN106326243A (zh) 一种数据处理方法及装置
CN111047387B (zh) 一种回收管理的方法及装置
CN110555138B (zh) 一种云计算架构下的混合云存储方法
CN113672692B (zh) 数据处理方法、装置、计算机设备和存储介质
CN105677745B (zh) 一种通用高效自助数据查询系统及实现方法
CN111105137A (zh) 工单派发方法、装置、介质及电子设备
CN112288614A (zh) 一种基于数据资源平台的数据处理方法和装置
CN118113753A (zh) 基于模糊匹配的政务数据梳理方法及装置
CN110019237B (zh) 一种基于地图分析罪犯行踪的系统及方法
Unger et al. Requirements Engineering Approaches to derive Enterprise Information Systems from Business Process Management: a Systematic Literature Review.
CN111291045A (zh) 服务隔离数据传输方法、装置、计算机设备及存储介质
CN109544430A (zh) 一种客户资料真实性的系统稽核方案
CN112258009B (zh) 一种智慧政务请求处理方法
CN105426431A (zh) 一种面向分布式资源站点的搜索系统及其实现方法
US11457192B2 (en) Digital evidence management method and digital evidence management system
CN110597899B (zh) 项目经费管理方法及系统
CN114240677A (zh) 医疗数据风险识别方法、装置、电子设备及存储介质
JP5790661B2 (ja) 順序判定装置、順序判定方法および順序判定プログラム
CN111984947A (zh) 一种基于智慧法制平台的综合管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant