CN108073694A - 一种基于双基准的企业属性标准化系统及其实现方法 - Google Patents
一种基于双基准的企业属性标准化系统及其实现方法 Download PDFInfo
- Publication number
- CN108073694A CN108073694A CN201711292469.7A CN201711292469A CN108073694A CN 108073694 A CN108073694 A CN 108073694A CN 201711292469 A CN201711292469 A CN 201711292469A CN 108073694 A CN108073694 A CN 108073694A
- Authority
- CN
- China
- Prior art keywords
- attribute
- benchmark
- enterprise
- attributes
- acquiescence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于双基准的企业属性标准化系统及其实现方法。本发明系统包括带版本信息的历史基准、默认基准和标准化模块组成,外接企业数据库。历史基准根据企业属性的历史标准化记录,自动对属性进行修正;默认基准作为属性的标准化默认选项,是属性进行修正的依据。标准化模块负责对企业属性的提取、解析和修正。当提取的企业属性不符合历史基准时,将通过默认基准进行核对,如果均不符合,则执行解析步骤,对属性进行相似度匹配并进行归类;匹配成功则按基准修正属性值,并将该过程加入历史基准,否则生成属性异常清单;当提取的企业属性符合默认基准或者历史基准时,直接进行属性标准化。本发明可以针对性地对企业属性标准化并生成统一标准的企业数据,可有效地应用于多种电子政务系统中。
Description
技术领域
本发明涉及计算机应用技术领域,特别涉及一种基于双基准的企业属性标准化系统及其实现方法。
背景技术
随着国家信息化建设不断推进,多个地区已开展数据资源共享和整合的工作。以商务局使用的系统为例,企业信息是多个系统的核心内容。同时企业数据库内容非常丰富,商务系统涉及到企业的内容包括企业的基础信息、管理信息和投资信息等数十种分类,每种分类下又包括多个企业属性。虽然各个系统间可能存在一对一或者多对多的数据交互,有些企业属性例如资金来源地或者投资币种有着统一标准的属性名称和代号,但是仍然存在很多数据标准不统一的情况。例如,东莞的镇区“松山湖”,在不同的系统体现的方式可能是“东莞松山湖”、“东莞市松山湖”和“松山湖”这几种情况,公司的类型也可能存在将“有限公司”录入成“有线公司”,而且各系统在数据交互过程中存在以属性的中文名称进行交互的情况。这样导致的后果是,当整合多个系统的数据时,需要人工进行属性解析和修正才能对数据进行下一步处理,当数据量和数据属性多时,无论从人工分析还是后续的数据处理来考虑,都需要很大的开销。这时候就需要一种灵活度高和适用范围广的方法,可以更方便高效地对数据进行解析和修正。
发明内容
本发明解决的技术问题之一在于针对商务企业数据存在数据量和数据属性多,数据标准不统一,人工无法全面有效地进行属性解析和修正的问题,提供一种基于双基准的企业属性标准化系统。
本发明解决的技术问题之二在于提供一种基于双基准的企业属性标准化系统的实现方法;通过将企业属性进行基准配置,对基准核对流程标准化,扩大企业属性核对的可操作范围,提高属性值修正精准度。针对不同业务系统还可以选择合适的属性基准配置,保障企业属性标准化场景的多样性。
本发明解决上述技术问题之一的技术方案是:
所述的系统由属性基准和标准化模块组成,并提供相应的开发和集成接口;
所述的属性基准,包括历史基准和默认基准;
所述的历史基准,指带版本信息的企业属性修正记录信息;当使用该基准时,根据企业属性的历史标准化记录,用最新版本的属性信息自动对属性进行修正;
所述的默认基准,指企业属性默认的参照清单,包括一系列按企业属性来源标识划分的属性配置;包括属性定义、属性的标准化中文名称、数字或字母形式的属性代号以及该企业属性来源标志四个因素;
所述的标准化模块,负责对企业属性的提取、解析和修正;当提取的企业属性不符合历史基准时,通过默认基准进行核对;如果均不符合,则执行解析步骤对属性进行相似度匹配并进行归类;匹配成功则按基准修正属性值,并将该过程加入历史基准;否则生成属性异常清单;当提取的企业属性符合默认基准或者历史基准时,直接按照基准进行属性标准化,无需进行解析和修正动作。
所述的属性基准提供CRUD访问接口,用于查询和维护默认标准的参照清单;
所述的标准化模块提供CRUD访问接口,用于接入企业数据和维护属性异常清单。
所述的属性异常清单,指不符合标准或未加入默认标准的属性清单,可用于记录、问题跟踪或者后续的标准补充。
本发明解决上述技术问题之二的技术方案是:
所述的方法包括对属性基准的默认基准进行配置和由标准化模块对企业属性进行提取、解析和修正;
所述默认基准配置流程是:
第一步,新建默认基准;
第二步,查询企业数据库可用属性来源,并根据来源名称生成唯一的来源标识;
第三步,根据来源标识选择企业属性,并填写属性的标准化中文名称以及数字或字母形式的属性代号;
第四步,日志记录,完成;
所述的标准化模块的提取、解析和修正具体是:
第一步,接入企业数据库;
第二步,提取属性值和属性定义,并添加来源名称作为核对信息;
第三步,检查企业的历史基准信息,判断是否有相同属性值的标准化记录,有则按照历史基准进行修正,企业版本不累加;否则核对默认基准;
第四步,根据来源名称找到默认基准的来源清单,并依据属性定义找到属性标准值;
第五步,进行属性解析,对属性进行相似度匹配并进行归类;当属性符合默认基准时,按照基准修正属性值,并将该标准化记录登记到历史基准,企业版本累加;否则,输出至属性异常清单;
第六步,结束处理流程;
第七步,日志记录,完成。
本发明针对涉及企业数据的商务政务系统,按照基础和历史双重基准的理念,通过企业属性信息版本管理,对企业属性进行提取、解析和修正。各个模块紧密结合,将企业属性标准化形成一套可维护、高效和自动化的流程,保证了系统的灵活性和扩展性。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明的总体结构图;
图2是本发明标准化模块处理的序列图;
图3是本发明基准配置流程图。
具体实施方式
图1是本发明的总体结构图,由属性基准和标准化模块组成,并提供相应的开发和集成接口;
属性基准,包括历史基准和默认基准;历史基准,指带版本信息的企业属性修正记录信息;修正记录的存放格式为{企业唯一标识:{企业属性定义,历史中文名称,修正中文名称,属性代号,属性来源标识,修正时间戳,版本号}},通过企业唯一标识可定位到多个版本的修正记录,当使用该基准时,根据最新版本号获取修正记录,用最新版本的属性信息自动对属性进行修正.
默认基准,指企业属性默认的参照清单,包括一系列按企业属性来源标识划分的属性配置,包括属性定义、属性的标准化中文名称、数字或字母形式的属性代号以及该企业属性来源标志四个因素。
标准化模块,负责对企业属性的提取、解析和修正;当提取的企业属性不符合历史基准时,将通过默认基准进行核对,如果均不符合,则执行解析步骤,对属性进行相似度匹配并进行归类;匹配成功则按基准修正属性值,并将该过程加入历史基准,否则生成属性异常清单;当提取的企业属性符合默认基准或者历史基准时,直接按照基准进行属性标准化,无需进行解析和修正动作。解析步骤,相似度匹配和归类的情况包括:例如企业属性“所属街镇”,存在存储值为“松山湖”和标准值“东莞市松山湖”,这时候存储值为标准值的子集,符合规则;例如企业属性“公司类型”,存在存储值为“股份有线公司”和标准值“股份有限公司”,这时候存储值3个关键词有2个归属标准值,并且拼音一致,符合规则;属性异常清单,指不符合标准或未加入默认标准的属性清单,可用于记录、问题跟踪或者后续的标准补充。
此外,属性基准提供CRUD访问接口,用于查询和维护默认标准的参照清单;标准化模块提供CRUD访问接口,用于接入企业数据和维护属性异常清单;
图2是发明标准化模块处理的序列图,图3是基准配置流程的活动图,有关的实现步骤分别如下。
标准化模块处理流程具体是:
第一步,接入企业数据库;
第二步,提取属性值和属性定义,并添加来源名称作为核对信息;
第三步,检查企业的历史基准信息,判断是否有相同属性值的标准化记录,有则按照历史基准进行修正,企业版本不累加;否则核对默认基准;
第四步,根据来源名称找到默认基准的来源清单,并依据属性定义找到属性标准值;
第五步,进行属性解析,对属性进行相似度匹配并进行归类;当属性符合默认基准时,按照基准修正属性值,并将该标准化记录登记到历史基准,企业版本累加;否则,输出至属性异常清单;
第六步,结束处理流程;
第七步,日志记录,完成。
默认基准配置流程是:
第一步,新建默认基准;
第二步,查询企业数据库可用属性来源,并根据来源名称生成唯一的来源标识;
第三步,根据来源标识选择企业属性,并填写属性的标准化中文名称以及数字或字母形式的属性代号;
第四步,日志记录,完成。
本发明针对商务企业数据存在数据量和数据属性多,数据标准不统一,人工无法全面有效地进行属性解析和修正的问题,提供一种基于双基准的企业属性标准化系统。通过将企业属性进行基准配置,对基准核对流程标准化,扩大企业属性核对的可操作范围,提高了属性值修正精准度。针对不同业务系统还可以选择合适的属性基准,保障了企业属性标准化场景的多样性。本发明具有扩展性好、适用范围广等特点,可有效地应用于多种商务政务系统中。
Claims (5)
1.一种基于双基准的企业属性标准化系统,其特征在于:所述的系统由属性基准和标准化模块组成,并提供相应的开发和集成接口;
所述的属性基准,包括历史基准和默认基准;
所述的历史基准,指带版本信息的企业属性修正记录信息;当使用该基准时,根据企业属性的历史标准化记录,用最新版本的属性信息自动对属性进行修正;
所述的默认基准,指企业属性默认的参照清单,包括一系列按企业属性来源标识划分的属性配置;包括属性定义、属性的标准化中文名称、数字或字母形式的属性代号以及该企业属性来源标志四个因素;
所述的标准化模块,负责对企业属性的提取、解析和修正;当提取的企业属性不符合历史基准时,通过默认基准进行核对;如果均不符合,则执行解析步骤对属性进行相似度匹配并进行归类;匹配成功则按基准修正属性值,并将该过程加入历史基准;否则生成属性异常清单;当提取的企业属性符合默认基准或者历史基准时,直接按照基准进行属性标准化,无需进行解析和修正动作。
2.根据权利要求1所述的企业属性标准化系统,其特征在于:
所述的属性基准提供CRUD访问接口,用于查询和维护默认标准的参照清单;
所述的标准化模块提供CRUD访问接口,用于接入企业数据和维护属性异常清单。
3.根据权利要求1所述的企业属性标准化系统,其特征在于:
所述的属性异常清单,指不符合标准或未加入默认标准的属性清单,可用于记录、问题跟踪或者后续的标准补充。
4.根据权利要求2所述的企业属性标准化系统,其特征在于:
所述的属性异常清单,指不符合标准或未加入默认标准的属性清单,可用于记录、问题跟踪或者后续的标准补充。
5.一种权利要求1至4任一项所述的企业属性标准化系统的实现方法,其特征在于:所述的方法包括对属性基准的默认基准进行配置和由标准化模块对企业属性进行提取、解析和修正;
所述默认基准配置流程是:
第一步,新建默认基准;
第二步,查询企业数据库可用属性来源,并根据来源名称生成唯一的来源标识;
第三步,根据来源标识选择企业属性,并填写属性的标准化中文名称以及数字或字母形式的属性代号;
第四步,日志记录,完成;
所述的标准化模块的提取、解析和修正具体是:
第一步,接入企业数据库;
第二步,提取属性值和属性定义,并添加来源名称作为核对信息;
第三步,检查企业的历史基准信息,判断是否有相同属性值的标准化记录,有则按照历史基准进行修正,企业版本不累加;否则核对默认基准;
第四步,根据来源名称找到默认基准的来源清单,并依据属性定义找到属性标准值;
第五步,进行属性解析,对属性进行相似度匹配并进行归类;当属性符合默认基准时,按照基准修正属性值,并将该标准化记录登记到历史基准,企业版本累加;否则,输出至属性异常清单;
第六步,结束处理流程;
第七步,日志记录,完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711292469.7A CN108073694A (zh) | 2017-12-08 | 2017-12-08 | 一种基于双基准的企业属性标准化系统及其实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711292469.7A CN108073694A (zh) | 2017-12-08 | 2017-12-08 | 一种基于双基准的企业属性标准化系统及其实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108073694A true CN108073694A (zh) | 2018-05-25 |
Family
ID=62158089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711292469.7A Pending CN108073694A (zh) | 2017-12-08 | 2017-12-08 | 一种基于双基准的企业属性标准化系统及其实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108073694A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753525A (zh) * | 2018-12-28 | 2019-05-14 | 国云科技股份有限公司 | 一种基于可配属性的企业查询系统及其实现方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7203929B1 (en) * | 2002-08-19 | 2007-04-10 | Sprint Communications Company L.P. | Design data validation tool for use in enterprise architecture modeling |
CN104462604A (zh) * | 2014-12-31 | 2015-03-25 | 成都市卓睿科技有限公司 | 数据加工方法及系统 |
CN104732311A (zh) * | 2013-12-23 | 2015-06-24 | 北京索为高科系统技术有限公司 | 基于统一数据模型的企业数据管理系统 |
CN105740257A (zh) * | 2014-12-09 | 2016-07-06 | 朗新科技股份有限公司 | 标准地名地址库建立方法及系统 |
CN106095837A (zh) * | 2016-06-01 | 2016-11-09 | 杭州中奥科技有限公司 | 适用于工商各类业务的数据系统和数据处理方法 |
-
2017
- 2017-12-08 CN CN201711292469.7A patent/CN108073694A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7203929B1 (en) * | 2002-08-19 | 2007-04-10 | Sprint Communications Company L.P. | Design data validation tool for use in enterprise architecture modeling |
CN104732311A (zh) * | 2013-12-23 | 2015-06-24 | 北京索为高科系统技术有限公司 | 基于统一数据模型的企业数据管理系统 |
CN105740257A (zh) * | 2014-12-09 | 2016-07-06 | 朗新科技股份有限公司 | 标准地名地址库建立方法及系统 |
CN104462604A (zh) * | 2014-12-31 | 2015-03-25 | 成都市卓睿科技有限公司 | 数据加工方法及系统 |
CN106095837A (zh) * | 2016-06-01 | 2016-11-09 | 杭州中奥科技有限公司 | 适用于工商各类业务的数据系统和数据处理方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753525A (zh) * | 2018-12-28 | 2019-05-14 | 国云科技股份有限公司 | 一种基于可配属性的企业查询系统及其实现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291049A (zh) | 一种创建表的方法、装置、设备和存储介质 | |
CN109165209B (zh) | 数据库中对象类型的数据校验方法、装置、设备及介质 | |
US11537785B1 (en) | Spreadsheet flat data extractor | |
CN110955714B (zh) | 一种将非结构化文本转化为结构化文本的方法及装置 | |
CN112651218A (zh) | 一种标书自动生成方法、管理方法、介质以及计算机 | |
CN110990403A (zh) | 业务数据的存储方法、系统、计算机设备及存储介质 | |
CN110765750A (zh) | 报表数据录入方法及终端设备 | |
CA3202971A1 (en) | System and method for parsing regulatory and other documents for machine scoring | |
CN114706915A (zh) | 一种eda软件向plm系统中构建bom信息的方法 | |
CN107562949B (zh) | 实现合并报表Excel模板写入数据库的方法 | |
CN105589900A (zh) | 基于多维分析的数据挖掘方法 | |
CN103440272A (zh) | 一种数据库维护方法及装置 | |
US20070282804A1 (en) | Apparatus and method for extracting database information from a report | |
CN108073694A (zh) | 一种基于双基准的企业属性标准化系统及其实现方法 | |
CN105550220A (zh) | 一种异构系统的取数的方法及装置 | |
CN112668292A (zh) | 一种从系统配置规则中自动提取追踪矩阵的方法及其应用 | |
CN116303404B (zh) | 基于数据归类同级比对防止数据冗余的大数据存储系统 | |
CN105224319B (zh) | 基于dom4j实现XBRL实例文档预览的方法 | |
WO2016119508A1 (zh) | 基于Spark系统的大规模对象识别方法 | |
CN101272222A (zh) | 一种约束校验方法及装置 | |
CN106354864A (zh) | 表单保存方法及系统 | |
CN109815297A (zh) | 一种不依赖关系数据库的树状结构存取运算系统 | |
CN113642291B (zh) | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 | |
CN112395292B (zh) | 一种数据特征提取、匹配方法及装置 | |
CN114140232A (zh) | 一种会计数据转换方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 19 / F, Cloud Computing Center, Chinese Academy of Sciences, No.1 Kehui Road, Songshanhu high tech Industrial Development Zone, Dongguan City, Guangdong Province, 523000 Applicant after: G-CLOUD TECHNOLOGY Co.,Ltd. Address before: 523808 No. 14 Building, Songke Garden, Songshan Lake Science and Technology Industrial Park, Dongguan City, Guangdong Province Applicant before: G-CLOUD TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180525 |
|
RJ01 | Rejection of invention patent application after publication |