CN113535938A - 基于内容识别的标准数据构建方法、系统、设备及介质 - Google Patents
基于内容识别的标准数据构建方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN113535938A CN113535938A CN202110829959.6A CN202110829959A CN113535938A CN 113535938 A CN113535938 A CN 113535938A CN 202110829959 A CN202110829959 A CN 202110829959A CN 113535938 A CN113535938 A CN 113535938A
- Authority
- CN
- China
- Prior art keywords
- data
- standard data
- matching index
- standard
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 11
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000000034 method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000009960 carding Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于内容识别的标准数据构建方法、系统、设备及介质,标准数据构建方法包括:数据源预处理步骤:对数据源的元数据及数据内容进行预处理获得数据的数据特征;匹配指数获得步骤:根据数据的数据特征、元数据及/或字典码表通过数据标准化元模型算法进行关联获得标准数据,并计算标准数据的元数据与数据特征的匹配指数;标准数据推荐步骤:根据匹配指数选择至少一所述标准数据后,对标准数据进行验证后输出标准化程度评估结果,根据标准化程度评估结果推荐标准数据。通过本发明实现了数据元、元数据、数据内容、字典码表的自动标准化,结合人机互操作,构建标准数据层,提高数据质量和治理效率。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于内容识别的标准数据构建方法、系统、设备及介质。
背景技术
通过对在线文档进行标签提取,可以更加有效的支撑知识库的文档检索,推荐等智能化服务。文档标签的提取是通过nlp等技术从文档中抽取一条或几条文档的重要信息,这些信息是用户真正关注的内容,包括实体、关键短语等。利用这些标签可以使文档的查询,推荐等服务更加智能,更加准确,从而提升效率。信息时代数据作为重要的生产要素,在各行各业特别重视数据资产,数据治理再IT建设和企业治理过程中越来越重要。由于IT系统建设历史原因及个性化数据加工生产需求,存在数据源繁杂且标准不统一,数据质量参差不齐的情况。尽管在国家、行业层面定义各类数据的数据元、数据项、字典及接口标准来引导标准化建设工作,仍缺乏高效的工具支撑及标准和指导规范覆盖不到方方面面的业务情况。
现有技术中,以数据治理流程约束的人工对照国家/行业标准,在数据准备阶段,引入关键词匹配规则实现数据项的自动标准化工作。一般的实现方式为:在数据元管理时将别名、关键词定义,且不断维护更新数据元的定义。对于将要标准化的数据项,通过关键词匹配规则,自动映射对应的数据元,实现数据项的自动标准化。但是基于关键词匹配规则实现,存在大量的规则维护工作且自动化效果较差情况,还需要大量的人工梳理工作。而字典码表、数据内容未做标准化处理,导致数据的表里不一,数据标准无法贯彻执行。
由此可见,现有技术的数据标准化工作主要由人工对照规范或者基于关键词规则自动标准化数据项,对字典码表、数据内容未做自动标准化,且缺乏数据质量的保证。
因此亟需开发一种克服上述缺陷的基于内容识别的标准数据构建方法、系统、设备及介质。
发明内容
针对上述问题,本申请实施例提供了一种基于内容识别的标准数据构建方法、系统、设备及介质,以至少解决提升数据质量的问题。
本发明提供一种基于内容识别的标准数据构建方法,其中,包括:
数据源预处理步骤:对数据源的元数据及数据内容进行预处理获得数据的数据特征;
匹配指数获得步骤:根据所述数据的数据特征、元数据及/或字典码表通过数据标准化元模型算法进行关联获得标准数据,并计算所述标准数据的元数据与数据特征的匹配指数;
标准数据推荐步骤:根据所述匹配指数选择至少一所述标准数据后,对所述标准数据进行验证后输出标准化程度评估结果,根据所述标准化程度评估结果推荐所述标准数据。
上述的标准数据构建方法,其中,所述匹配指数获得步骤包括:
标准数据获取步骤:根据所述数据的数据特征及所述元数据通过所述数据标准化元模型算法进行关联获得所述标准数据;
初始匹配指数获得步骤:通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数;
第一匹配指数获得步骤:根据多个所述初始匹配指数通过加权计算获得第一匹配指数;
其中,所述标准数据推荐步骤中根据所述第一匹配指数选择至少一所述标准数据。
上述的标准数据构建方法,其中,所述匹配指数获得步骤包括:
标准数据获取步骤:根据所述数据的数据特征、所述元数据及字典码表通过数据标准化元模型算法进行关联获得所述标准数据及字典码表标识;
初始匹配指数获得步骤:通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数;
第一匹配指数获得步骤:根据多个所述初始匹配指数通过加权计算获得第一匹配指数;
字典码表标识判断步骤:对每一所述标准数据的所述字典码表标识进行判断;
第二匹配指数获得步骤:当所述字典码表标识为1时,所述标准数据通过字典码表匹配度算法获得第二匹配指数;
其中,所述标准数据推荐步骤中根据所述第二匹配指数选择至少一所述标准数据。
上述的标准数据构建方法,其中,还包括:
新增推荐步骤:将所述标准数据推荐步骤中未匹配的数据特征及/或字典码表标识推荐到前端,进行新增数据元及/或字典码表的操作。
本发明还提供一种基于内容识别的标准数据构建系统,其中,包括:
数据源预处理单元,对数据源的元数据及数据内容进行预处理获得数据的数据特征;
匹配指数获得单元,根据所述数据的数据特征、元数据及/或字典码表通过数据标准化元模型算法进行关联获得标准数据,并计算所述标准数据的元数据与数据特征的匹配指数;
标准数据推荐单元,根据所述匹配指数选择至少一所述标准数据后,对所述标准数据进行验证后输出标准化程度评估结果,根据所述标准化程度评估结果推荐所述标准数据。
上述的标准数据构建系统,其中,所述匹配指数获得单元包括:
标准数据获取模块,根据所述数据的数据特征及所述元数据通过所述数据标准化元模型算法进行关联获得所述标准数据;
初始匹配指数获得模块,通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数;
第一匹配指数获得模块,根据多个所述初始匹配指数通过加权计算获得第一匹配指数;
其中,所述标准数据推荐单元根据所述第一匹配指数选择至少一所述标准数据。
上述的标准数据构建系统,其中,所述匹配指数获得单元包括:
标准数据获取模块,根据所述数据的数据特征、所述元数据及字典码表通过数据标准化元模型算法进行关联获得所述标准数据及字典码表标识;
初始匹配指数获得模块,通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数;
第一匹配指数获得模块,根据多个所述初始匹配指数通过加权计算获得第一匹配指数;
字典码表标识判断模块,对每一所述标准数据的所述字典码表标识进行判断;
第二匹配指数获得模块,当所述字典码表标识为1时,所述标准数据通过字典码表匹配度算法获得第二匹配指数;
其中,所述标准数据推荐单元根据所述第二匹配指数选择至少一所述标准数据。
上述的标准数据构建系统,其中,还包括:
新增推荐单元,将所述标准数据推荐步骤中未匹配的数据特征及/或字典码表标识推荐到前端,进行新增数据元及/或字典码表的操作。
本发明还提供一种设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上述中任一项所述的标准数据构建方法。
本发明还提供一种介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述中任一项所述的标准数据构建方法。
本发明结合内容识别技术,实现数据元、元数据、数据内容、字典码表的自动标准化,结合人机互操作,构建标准数据层,提高数据质量和治理效率,进而提升数据能力,尤其是数据组织存储能力。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的标准数据构建方法的流程图;
图2为图1中步骤S2第一实施例的分步骤流程图;
图3为图1中步骤S2第二实施例的分步骤流程图;
图4为本发明的标准数据构建系统的结构示意图;
图5为本发明的设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、“S1”、“S2”、…等,并非特别指称次序或顺位的意思,也非用以限定本发明,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的方向用语,例如:上、下、左、右、前或后等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本创作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的“多组”包括“两组”及“两组以上”。
关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以微变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言,此类用语所修饰的微变化或误差的范围在部分实施例中可为20%,在部分实施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员应当了解,前述提及的数值可依实际需求而调整,并不以此为限。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。
数据标准化:对数据定义、组织、监督和保护进行标准化的过程,通过对数据元、数据项、字典的标准化管理和数据内容标准化处理,提供统一的标准数据层。
数据元:也称为数据元素,是用一组属性描述其定义、标识、表示和允许值的数据单元,在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。
数据项:数据元素可由若干个数据项(data item)组成,数据项是数据的不可分割的最小单位。
字典:也称码表,对于数据内容枚举值的描述。
元模型:元模型定义了描述某一模型的规范,具体来说就是组成模型的元素和元素之间的关系。在此文中为描述元数据之间关系的模型。
本发明基于数据源的元数据及数据内容,不断训练数据标准化元模型,实现新增数据元/字典码表推荐、数据项自动匹配、字典码表自动匹配、数据内容标准化验证后推荐输出以下结合附图对本发明进行具体说明如下。
请参照图1,图1为本发明的标准数据构建方法的流程图。如图1所示,本发明的基于内容识别的标准数据构建方法包括:
数据源预处理步骤S1:对数据源的元数据及数据内容进行预处理获得数据的数据特征。
具体来说,在本步骤中,将数据源的元数据及数据内容根据模型需要的内容进行计算预处理,输出数据源的数据特征,即表1。数据特征主要包括:每个字段的最小长度、平均长度、最大长度、取值范围、抽样数据、空值比例等。
表1:
匹配指数获得步骤S2:根据所述数据的数据特征、元数据及/或字典码表通过数据标准化元模型算法进行关联获得标准数据,并计算所述标准数据的元数据与数据特征的匹配指数。
标准数据推荐步骤S3:根据所述匹配指数选择至少一所述标准数据后,对所述标准数据进行验证后输出标准化程度评估结果,根据所述标准化程度评估结果推荐所述标准数据。
具体地说,基于前述步骤数据元标准化映射及数据处理已完成,在本步骤中需要根据数据源内容的抽样计算,输出数据内容的标准化程度评估结果,将元模型验证标准化程度较低的具体数据项及样例数据输出,可进行人工二次确认。
具体来说,数据标准化元模型,基于预处理数据,即主要为数据资源名称、数据字段名称、数据字段注释、样例数据,与元数据、字典码表,对数据源的字段名称进行语义相似度算法计算,得出每个数据源字段所对应的匹配指数,本发明的语义相似度算法支持算法包配置,且支持多个算法包使用及指数综合计算
需要说明的是,其中数据字段名称一般为英文简写、英文全写、拼音首字母简写、拼音全写等情况,算法包需要实现这4类情况的计算处理。数据字段注释一般为中文,算法先处理中文的计算处理。
其中,在本实施例中以数据字段名称和元数据名称进行匹配为例,但本发明并不以此为限。
请参照图2,图2为图1中步骤S2第一实施例的分步骤流程图。如图2所示,所述匹配指数获得步骤S2包括:
标准数据获取步骤S21:根据所述数据的数据特征及所述元数据通过所述数据标准化元模型算法进行关联获得所述标准数据;
初始匹配指数获得步骤S22:通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数;
第一匹配指数获得步骤S23:根据多个所述初始匹配指数通过加权计算获得第一匹配指数。
具体地说,参见表2,举例来说数据字段名称:cardno与元数据名称:librarycardno经过计算获得三个初始匹配指数0.8、0.9、0.92,将三个初始匹配指数0.8、0.9、0.92通过设置对应的权重,即0.8*20%+0.9*40%+0.92*40%,计算获得第一匹配指数0.888,所有计算完成后,将数据元与元数据综合匹配度最高的第一匹配指数对应的标准数据,经过人工确认后,作为正样本或负样本进行输出,其中在本实施例中,可以通过设置阈值的方式选择至少一标准数据输出。
表2:
其中,在本实施例中,所述标准数据推荐步骤S3中根据所述第一匹配指数选择至少一所述标准数据。
由此本发明将人工数据标准梳理流程自动化,提高数据梳理、数据准备工作效率;通过人机交互操作,人工确认数据将作为反馈数据,提高元模型准确率;元模型约束元数据的更新机制,保证元数据的一致性;通过元模型固化及数据内容标准化验证方式,减少人工操作导致的错误和遗漏。
请参照图3,图3为图1中步骤S2第二实施例的分步骤流程图。如图3所示,在本实施例中,所述匹配指数获得步骤S2包括:
标准数据获取步骤S21’:根据所述数据的数据特征、所述元数据及字典码表通过数据标准化元模型算法进行关联获得所述标准数据及字典码表标识;
初始匹配指数获得步骤S22’:通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数;
第一匹配指数获得步骤S23’:根据多个所述初始匹配指数通过加权计算获得第一匹配指数;
字典码表标识判断步骤S24’:对每一所述标准数据的所述字典码表标识进行判断;
第二匹配指数获得步骤S25’:当所述字典码表标识为1时,所述标准数据通过字典码表匹配度算法获得第二匹配指数。
其中,所述标准数据推荐步骤S3中根据所述第二匹配指数选择至少一所述标准数据。具体地说,若匹配的元数据为枚举类型数据,则计算结果标识为字典码表,如果字典码表标识为1,则进入字典码表匹配度算法模型。基于第一匹配指数,当第一匹配指数满足某个阈值的映射关系,计算数据项所有枚举值与字典码表数据获得第二匹配指数,将第二匹配指数最高的1个或多个标准数据进行推荐。
更进一步地,所述标准数据构建方法还包括:
新增推荐步骤S4:将所述标准数据推荐步骤中未匹配的数据特征及/或字典码表标识推荐到前端,进行新增数据元及/或字典码表的操作。
请参照图4,图4为本发明的标准数据构建系统的结构示意图。如图4所示,本发明的基于内容识别的标准数据构建系统包括:
数据源预处理单元11,对数据源的元数据及数据内容进行预处理获得数据的数据特征;
匹配指数获得单元12,根据所述数据的数据特征、元数据及/或字典码表通过数据标准化元模型算法进行关联获得标准数据,并计算所述标准数据的元数据与数据特征的匹配指数;
标准数据推荐单元13,根据所述匹配指数选择至少一所述标准数据后,对所述标准数据进行验证后输出标准化程度评估结果,根据所述标准化程度评估结果推荐所述标准数据;
新增推荐单元14,将所述标准数据推荐步骤中未匹配的数据特征及/或字典码表标识推荐到前端,进行新增数据元及/或字典码表的操作。
在本发明的一实施例中,所述匹配指数获得单元S12包括:
标准数据获取模块,根据所述数据的数据特征及所述元数据通过所述数据标准化元模型算法进行关联获得所述标准数据;
初始匹配指数获得模块,通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数;
第一匹配指数获得模块,根据多个所述初始匹配指数通过加权计算获得第一匹配指数;
其中,所述标准数据推荐单元根据所述第一匹配指数选择至少一所述标准数据。
在本发明的另一实施例中,所述匹配指数获得单元S12包括:
标准数据获取模块,根据所述数据的数据特征、所述元数据及字典码表通过数据标准化元模型算法进行关联获得所述标准数据及字典码表标识;
初始匹配指数获得模块,通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数;
第一匹配指数获得模块,根据多个所述初始匹配指数通过加权计算获得第一匹配指数;
字典码表标识判断模块,对每一所述标准数据的所述字典码表标识进行判断;
第二匹配指数获得模块,当所述字典码表标识为1时,所述标准数据通过字典码表匹配度算法获得第二匹配指数;
其中,所述标准数据推荐单元根据所述第二匹配指数选择至少一所述标准数据。
请参照图5,图5为本发明的设备的结构示意图。如图5所示,本实施例揭示了一种设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种标准数据构建方法。
在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中,如图5所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中处理方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种标准数据构建方法。
综上所述,本发明基于内容识别技术,不断训练元模型算法具有以下有益效果:
1、随着处理数据类型增多,元模型算法不断积累和增强;
2、实现数据元的自定义及更新;
3、实现数据项的自动标准化及修正;
4、实现数据内容的标准化验证及修正;
5、实现字典码表的标准化验证及修正。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于内容识别的标准数据构建方法,其特征在于,包括:
数据源预处理步骤:对数据源的元数据及数据内容进行预处理获得数据的数据特征;
匹配指数获得步骤:根据所述数据的数据特征、元数据及/或字典码表通过数据标准化元模型算法进行关联获得标准数据,并计算所述标准数据的元数据与数据特征的匹配指数;
标准数据推荐步骤:根据所述匹配指数选择至少一所述标准数据后,对所述标准数据进行验证后输出标准化程度评估结果,根据所述标准化程度评估结果推荐所述标准数据。
2.如权利要求1所述的标准数据构建方法,其特征在于,所述匹配指数获得步骤包括:
标准数据获取步骤:根据所述数据的数据特征及所述元数据通过所述数据标准化元模型算法进行关联获得所述标准数据;
初始匹配指数获得步骤:通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数;
第一匹配指数获得步骤:根据多个所述初始匹配指数通过加权计算获得第一匹配指数;
其中,所述标准数据推荐步骤中根据所述第一匹配指数选择至少一所述标准数据。
3.如权利要求1所述的标准数据构建方法,其特征在于,所述匹配指数获得步骤包括:
标准数据获取步骤:根据所述数据的数据特征、所述元数据及字典码表通过数据标准化元模型算法进行关联获得所述标准数据及字典码表标识;
初始匹配指数获得步骤:通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数;
第一匹配指数获得步骤:根据多个所述初始匹配指数通过加权计算获得第一匹配指数;
字典码表标识判断步骤:对每一所述标准数据的所述字典码表标识进行判断;
第二匹配指数获得步骤:当所述字典码表标识为1时,所述标准数据通过字典码表匹配度算法获得第二匹配指数;
其中,所述标准数据推荐步骤中根据所述第二匹配指数选择至少一所述标准数据。
4.如权利要求3所述的标准数据构建方法,其特征在于,还包括:
新增推荐步骤:将所述标准数据推荐步骤中未匹配的数据特征及/或字典码表标识推荐到前端,进行新增数据元及/或字典码表的操作。
5.一种基于内容识别的标准数据构建系统,其特征在于,包括:
数据源预处理单元,对数据源的元数据及数据内容进行预处理获得数据的数据特征;
匹配指数获得单元,根据所述数据的数据特征、元数据及/或字典码表通过数据标准化元模型算法进行关联获得标准数据,并计算所述标准数据的元数据与数据特征的匹配指数;
标准数据推荐单元,根据所述匹配指数选择至少一所述标准数据后,对所述标准数据进行验证后输出标准化程度评估结果,根据所述标准化程度评估结果推荐所述标准数据。
6.如权利要求5所述的标准数据构建系统,其特征在于,所述匹配指数获得单元包括:
标准数据获取模块,根据所述数据的数据特征及所述元数据通过所述数据标准化元模型算法进行关联获得所述标准数据;
初始匹配指数获得模块,通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数;
第一匹配指数获得模块,根据多个所述初始匹配指数通过加权计算获得第一匹配指数;
其中,所述标准数据推荐单元根据所述第一匹配指数选择至少一所述标准数据。
7.如权利要求5所述的标准数据构建系统,其特征在于,所述匹配指数获得单元包括:
标准数据获取模块,根据所述数据的数据特征、所述元数据及字典码表通过数据标准化元模型算法进行关联获得所述标准数据及字典码表标识;
初始匹配指数获得模块,通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数;
第一匹配指数获得模块,根据多个所述初始匹配指数通过加权计算获得第一匹配指数;
字典码表标识判断模块,对每一所述标准数据的所述字典码表标识进行判断;
第二匹配指数获得模块,当所述字典码表标识为1时,所述标准数据通过字典码表匹配度算法获得第二匹配指数;
其中,所述标准数据推荐单元根据所述第二匹配指数选择至少一所述标准数据。
8.如权利要求7所述的标准数据构建系统,其特征在于,还包括:
新增推荐单元,将所述标准数据推荐步骤中未匹配的数据特征及/或字典码表标识推荐到前端,进行新增数据元及/或字典码表的操作。
9.一种设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的标准数据构建方法。
10.一种介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的标准数据构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110829959.6A CN113535938A (zh) | 2021-07-22 | 2021-07-22 | 基于内容识别的标准数据构建方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110829959.6A CN113535938A (zh) | 2021-07-22 | 2021-07-22 | 基于内容识别的标准数据构建方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113535938A true CN113535938A (zh) | 2021-10-22 |
Family
ID=78120480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110829959.6A Pending CN113535938A (zh) | 2021-07-22 | 2021-07-22 | 基于内容识别的标准数据构建方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535938A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116644151A (zh) * | 2023-05-15 | 2023-08-25 | 绵阳市商业银行股份有限公司 | 一种应用nlp和ml于数据标准对标的智能化系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015511A (ja) * | 2007-07-03 | 2009-01-22 | Toshiba Corp | メタデータ管理装置、プログラムおよびメタデータ管理方法 |
CN110377697A (zh) * | 2019-06-19 | 2019-10-25 | 平安国际智慧城市科技股份有限公司 | 元数据标准的更新方法、装置、设备及存储介质 |
CN110941601A (zh) * | 2019-11-12 | 2020-03-31 | 北京三快在线科技有限公司 | 确定指标标准口径的方法、装置、电子设备及存储介质 |
CN111190881A (zh) * | 2019-11-13 | 2020-05-22 | 深圳市华傲数据技术有限公司 | 一种数据治理方法和系统 |
CN112445875A (zh) * | 2020-12-14 | 2021-03-05 | 招商局金融科技有限公司 | 数据关联及检验方法、装置、电子设备及存储介质 |
CN112732703A (zh) * | 2021-03-23 | 2021-04-30 | 中国信息通信研究院 | 元数据处理方法、元数据处理装置及可读存储介质 |
-
2021
- 2021-07-22 CN CN202110829959.6A patent/CN113535938A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015511A (ja) * | 2007-07-03 | 2009-01-22 | Toshiba Corp | メタデータ管理装置、プログラムおよびメタデータ管理方法 |
CN110377697A (zh) * | 2019-06-19 | 2019-10-25 | 平安国际智慧城市科技股份有限公司 | 元数据标准的更新方法、装置、设备及存储介质 |
CN110941601A (zh) * | 2019-11-12 | 2020-03-31 | 北京三快在线科技有限公司 | 确定指标标准口径的方法、装置、电子设备及存储介质 |
CN111190881A (zh) * | 2019-11-13 | 2020-05-22 | 深圳市华傲数据技术有限公司 | 一种数据治理方法和系统 |
CN112445875A (zh) * | 2020-12-14 | 2021-03-05 | 招商局金融科技有限公司 | 数据关联及检验方法、装置、电子设备及存储介质 |
CN112732703A (zh) * | 2021-03-23 | 2021-04-30 | 中国信息通信研究院 | 元数据处理方法、元数据处理装置及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
周艳会;曾荣仁: "基于元数据的数据质量管理研究", 《信息技术与信息化》, no. 7, pages 26 - 29 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116644151A (zh) * | 2023-05-15 | 2023-08-25 | 绵阳市商业银行股份有限公司 | 一种应用nlp和ml于数据标准对标的智能化系统 |
CN116644151B (zh) * | 2023-05-15 | 2024-03-22 | 绵阳市商业银行股份有限公司 | 一种应用nlp和ml于数据标准对标的智能化系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200081899A1 (en) | Automated database schema matching | |
CN111898366B (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
CN109726298B (zh) | 适用于科技文献的知识图谱构建方法、系统、终端及介质 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
US20080208566A1 (en) | Automated word-form transformation and part of speech tag assignment | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112347758B (zh) | 文本摘要的生成方法、装置、终端设备及存储介质 | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
CN110263127A (zh) | 基于用户查询词进行文本搜索方法及装置 | |
CN112149387A (zh) | 财务数据的可视化方法、装置、计算机设备及存储介质 | |
CN111506595B (zh) | 一种数据查询方法、系统及相关设备 | |
US8862586B2 (en) | Document analysis system | |
CN106933824A (zh) | 在多个文档中确定与目标文档相似的文档集合的方法和装置 | |
CN111325033A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN113535938A (zh) | 基于内容识别的标准数据构建方法、系统、设备及介质 | |
CN112163409A (zh) | 一种相似文档检测方法、系统、终端设备及计算机可读存储介质 | |
CN113420564B (zh) | 一种基于混合匹配的电力铭牌语义结构化方法及系统 | |
CN110866406A (zh) | 用于翻译集成服务优化方法、电子装置及储存介质 | |
CN112597208A (zh) | 企业名称检索方法、企业名称检索装置及终端设备 | |
CN117390170B (zh) | 数据标准的对标方法、装置、电子设备和可读存储介质 | |
CN113205384B (zh) | 文本处理方法、装置、设备以及存储介质 | |
CN110471901B (zh) | 数据导入方法及终端设备 | |
WO2021056740A1 (zh) | 语言模型构建方法、系统、计算机设备及可读存储介质 | |
CN114153944A (zh) | 一种表示词识别方法、装置、设备及介质 | |
CN114169335A (zh) | 智能客服的信息处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |