CN116644151A - 一种应用nlp和ml于数据标准对标的智能化系统 - Google Patents

一种应用nlp和ml于数据标准对标的智能化系统 Download PDF

Info

Publication number
CN116644151A
CN116644151A CN202310543140.2A CN202310543140A CN116644151A CN 116644151 A CN116644151 A CN 116644151A CN 202310543140 A CN202310543140 A CN 202310543140A CN 116644151 A CN116644151 A CN 116644151A
Authority
CN
China
Prior art keywords
data
standard
matching
file
standard data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310543140.2A
Other languages
English (en)
Other versions
CN116644151B (zh
Inventor
李海军
弋秋燕
邓翌男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mianyang Commercial Bank Co ltd
Original Assignee
Mianyang Commercial Bank Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mianyang Commercial Bank Co ltd filed Critical Mianyang Commercial Bank Co ltd
Priority to CN202310543140.2A priority Critical patent/CN116644151B/zh
Publication of CN116644151A publication Critical patent/CN116644151A/zh
Application granted granted Critical
Publication of CN116644151B publication Critical patent/CN116644151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种应用NLP和ML于数据标准对标的智能化系统,包括数据层、处理层和可视化展示层;根据配置规则检测标统数据模型数据项的备注注释是否合规,合规后利用NLP等技术联动标准数据信息文件和标准数据字典文件匹配标统数据项与标准数据信息文件中的信息项的映射关系,并根据映射关系检测与标准数据项英文名称、数据定义、引用数据字典代码等的一致性。分别从提升采集质量、增加匹配类型算法、明确标准一致性检测规则、提供对标报告等方面,综合提升自动对标效率和大幅提高其准确性,使得降低了人工参与度、难度,最终降低了人工工作量。

Description

一种应用NLP和ML于数据标准对标的智能化系统
技术领域
本发明涉及数据处理领域,尤其涉及在用于银行业各业务系统建设过程中数据标准对标的智能化系统。
背景技术
数据治理在公司治理层面占比越来越重,在银行业尤为突出,特别是随着各种监管机构对银行业各项数据完整性、准确性、真实性的不断提升且日益标准化、明细化、严苛化等要求下,数据标准贯标质量落地成效变得愈发关键,而数据对标工作是其最重要的一环。然而,该项工作长期以来存在着工作量巨大、无法有效自动管控、维护繁琐、可操作性低的问题,同时随着银行系统持续建设和银行业务的不断拓展以及大多数情况仍采购的是现有系统,综上致使数据标准贯标工作存在严重的阻碍。因此,一直以来人工对标方式仍是银行业内主要应对手段。虽出现了利用人工智能或者深度学习方案的专利方案,但少有实质性的落地切实可行的技术解决方案和系统,可被有效应用于行业内的数据治理工作中。
发明内容
本发明的目的在于提供一种应用NLP和ML于数据标准对标的智能化系统,该系统解决了现有技术在银行数据标准贯标场景中数据对标人工复杂度、难度及工作量大的问题。
为实现上述目的,本发明采用如下技术方案:
一种应用NLP和ML于数据标准对标的智能化系统,包括数据层、处理层和可视化展示层;
所述数据层用于存放标准数据和标统数据,且存放的数据就能被处理层调用;
其中,所述标准数据包括标准数据项文件和标准数据字典;标准数据项文件是存放数据标准的标准数据信息项的文件信息,并创建标准数据项文件表,它包含的数据信息有标准编号、标准主题、一级分类、二级分类、三级分类、中文名称、英文名称、数据项同义词、业务定义、适用类型、适用条件、制定依据、数据项定义、引用标准字典类型编号、校验规则、管理部门、发布状态和发布时间;所述标准数据字典是存放数据标准的标准数据字典信息,并创建标准数据字典文件表,它包含标准编号、标准主题、准名、编码值、编码说明、编码含义、编码序号、上级编码、编码级别、管理部门、发布状态、发布时间;
所述标统数据包括标统数据模型文件和标统数据字典,标统数据项文件用于存储标统的数据模型文件和解析字段,并创建标统数据模型文件表,并根据配置规则对标统数据模型文件中的数据模型及数据项的备注信息是否合规进行检测并回显失范码;标统数据字典用于存储标统数据模型引用的数据字典文件信息,并创建标统数据字典文件,根据配置规则检测标统数据模型及数据项的依赖数据字典信息是否合规并回显失范码;
所述处理层用于存储标统数据模型文件与标准数据文件及标统字典文件与标准数据字典文件对标后的结果信息,并创建对标结果明细表;对标包括标准数据文件数据项同义词识别、标统数据项匹配标准数据项、匹配结果确认和标准一致性检测;
其中,标准数据文件数据项同义词识别是根据配置规则运用机器学习识别标准数据项的同义词,并将识别后的成果更新到自动对标系统中的数据标准数据项同义词数据项;
标统数据项匹配标准数据项是将已采集入库的标统数据模型中的数据项使用已解析出的参标数据项列名通过匹配方法建立与标准数据项列名的关系并回显匹配类型;匹配方法包括:完全匹配、同义词匹配、余弦相似度匹配和推荐算法匹配,完全匹配是将标统数据模型数据项完全匹配数据标准数据项,根据数据项备注主体内容与数据标准项判断是否完全相等;同义词匹配式根据数据项备注主体内容与数据标准项的同义词进行完全匹配;余弦相似度匹配是根据数据项备注主体内容使用NLP的余弦相似度算法匹配第一匹配度的数据标准数据项或者同义词;推荐算法匹配是根据数据项备注主体内容使用NLP的智能推荐算法匹配第一匹配度的数据标准数据项或者同义词;
匹配结果确认是将匹配结果依据返回的匹配类型按照不同方式分别对结果进行确认;
标准一致性检测是根据已确认的匹配结果将标统数据项的数据类型、长度、约束、数据字典等分别按照已配置规则与标准数据项的数据类型、长度、约束、数据字典一一进行一致性检测;
所述可视化展示层是将自动对标的结果显示并通过excel格式下载结果,还可根据结果中的差错明细进行差错处理。
进一步地,所述配置该规则采用配置规则表存储,配置规则表存储采集、标统数据模型数据项备注注释合规性、标准一致性合规性检测的规则表。
进一步地,匹配类型可以根据各种可实现的匹配算法实现后纳入配置拓展,可根据方法、算法顺序或者综合指定评分依据分数高低进行选择使用。
本发明将标统配置信息采集入库到自动对标系统,建立对应数据库连接,将标统中的数据模型、指定数据项、依赖的数据字典表,采集入库到自动对标系统,通过配置函数和算法规则与导入的数据标准数据项进行逐一匹配,根据匹配类型和规则确认结果后,进行标准一致性检测等数据对标操作,数据对标完成后,提供对应的对标报告。
本发明有效减少数据对标工作的人工复杂度、难度及工作量,将该项工作标准化、流程化,提供可持续监测和核查的手段,强制统一新建系统的数据模型、数据字典等数据对象的执行标准规范。为后续应用系统建设、自主把控、运维、共享、数据分析、监管报送等方面,奠定良好数据基础。
附图说明
图1为本发明的结构示意图。
图2为本发明标准数据项文件的数据示意图。
图3为本发明标准数据字典的数据示意图。
图4为本发明标统数据模型文件的数据示意图。
图5为本发明标统数据字典的数据示意图。
图6为本发明对标明细结果数据示意图。
具体实施方式
如图1所示,本实施例提供的一种应用NLP和ML于数据标准对标的智能化系统包括数据层、处理层和可视化展示层,处理层调用数据层的数据并对数据进行处理后输出可展示数据。
所述数据层用于存放标准数据和标统数据,且存放的数据就能被处理层调用。
其中,所述标准数据包括标准数据项文件和标准数据字典;标准数据项文件是存放数据标准的标准数据信息项的文件信息,并创建标准数据项文件表,如图2所示,它包含的数据信息有标准编号、标准主题、一级分类、二级分类、三级分类、中文名称、英文名称、数据项同义词、业务定义、适用类型、适用条件、制定依据、数据项定义、引用标准字典类型编号、校验规则、管理部门、发布状态和发布时间;所述标准数据字典是存放数据标准的标准数据字典信息,并创建标准数据字典文件表,如图3所示,它包含标准编号、标准主题、准名、编码值、编码说明、编码含义、编码序号、上级编码、编码级别、管理部门、发布状态、发布时间。
所述标统数据包括标统数据模型文件和标统数据字典,标统数据项文件用于存储标统的数据模型文件和解析字段,并创建标统数据模型文件表,如图4所示,它包括字段名、字段类型和备注,并根据根据配置规则对标统数据模型文件中的数据模型及数据项的备注信息是否合规进行检测并回显失范码。标统数据字典用于存储标统数据模型引用的数据字典文件信息,并创建标统数据字典文件,如图5所示,它包含字段名、字段类型和备注;根据配置规则检测已入库标统数据模型及数据项的依赖数据字典信息是否合规并回显失范码。所述配置该规则采用配置规则表存储,配置规则表存储采集、标统数据模型数据项备注注释合规性、标准一致性合规性检测的规则表。
所述处理层用于存储标统数据模型文件与标准数据文件及标统字典文件与标准数据字典文件对标后的结果信息,并创建有对标结果明细表,如图6所示;对标包括标准数据文件数据项同义词识别、标统数据项匹配标准数据项、匹配结果确认和标准一致性检测。
其中,标准数据文件数据项同义词识别是根据配置规则运用机器学习识别标准数据项的同义词,并将识别后的成果更新到自动对标系统中的数据标准数据项同义词数据项。
标统数据项匹配标准数据项是将已采集入库的标统数据模型中的数据项使用已解析出的参标数据项列名通过匹配方法建立与标准数据项列名的关系并回显匹配类型。
匹配方法包括:完全匹配、同义词匹配、余弦相似度匹配和推荐算法匹配,完全匹配是将标统数据模型数据项完全匹配数据标准数据项,根据数据项备注主体内容与数据标准项判断是否完全相等;同义词匹配式根据数据项备注主体内容与数据标准项的同义词进行完全匹配;余弦相似度匹配是根据数据项备注主体内容使用NLP的余弦相似度算法匹配第一匹配度的数据标准数据项或者同义词;推荐算法匹配是根据数据项备注主体内容使用NLP的智能推荐算法匹配第一匹配度的数据标准数据项或者同义词。
匹配类型可以根据各种可实现的匹配算法实现后纳入配置拓展,可根据方法、算法顺序或者综合指定评分依据分数高低进行选择使用。
将匹配的结果中完全匹配和同义词匹配的自动确认,将余弦相似度和智能推荐算法计算出的第一匹配结果进行人工确认。将确认后的匹配结果,使用已配置的标准一致性检查规则进行检测并返回失范码。
匹配结果确认是将匹配结果依据返回的匹配类型按照不同方式分别对结果进行确认。
标准一致性检测是根据已确认的匹配结果将标统数据项的数据类型、长度、约束、数据字典等分别按照已配置规则与标准数据项的数据类型、长度、约束、数据字典一一进行一致性检测。
所述可视化展示层是将自动对标的结果显示并通过excel格式下载结果,还可根据结果中的差错明细进行差错处理。
本实施例提供的系统实现将复杂、人工工作量大、持续监控难的人工数据对标场景拆解拆分,通过系统功能实现了将银行数据对标工作标准化、流程化、可持续检测和核查的目标。
以上所述仅是本发明优选的实施方式,但本发明的保护范围并不局限于此,任何基于本发明所提供的技术方案和发明构思进行的改造和替换都应涵盖在本发明的保护范围内。

Claims (3)

1.一种应用NLP和ML于数据标准对标的智能化系统,其特征在于:包括数据层、处理层和可视化展示层;
所述数据层用于存放标准数据和标统数据,且存放的数据就能被处理层调用;
其中,所述标准数据包括标准数据项文件和标准数据字典;标准数据项文件是存放数据标准的标准数据信息项的文件信息,并创建标准数据项文件表,它包含的数据信息有标准编号、标准主题、一级分类、二级分类、三级分类、中文名称、英文名称、数据项同义词、业务定义、适用类型、适用条件、制定依据、数据项定义、引用标准字典类型编号、校验规则、管理部门、发布状态和发布时间;所述标准数据字典是存放数据标准的标准数据字典信息,并创建标准数据字典文件表,它包含标准编号、标准主题、准名、编码值、编码说明、编码含义、编码序号、上级编码、编码级别、管理部门、发布状态、发布时间;
所述标统数据包括标统数据模型文件和标统数据字典,标统数据项文件用于存储标统的数据模型文件和解析字段,并创建标统数据模型文件表,并根据配置规则对标统数据模型文件中的数据模型及数据项的备注信息是否合规进行检测并回显失范码;标统数据字典用于存储标统数据模型引用的数据字典文件信息,并创建标统数据字典文件,根据配置规则检测标统数据模型及数据项的依赖数据字典信息是否合规并回显失范码;
所述处理层用于存储标统数据模型文件与标准数据文件及标统字典文件与标准数据字典文件对标后的结果信息,并创建对标结果明细表;对标包括标准数据文件数据项同义词识别、标统数据项匹配标准数据项、匹配结果确认和标准一致性检测;
其中,标准数据文件数据项同义词识别是根据配置规则运用机器学习识别标准数据项的同义词,并将识别后的成果更新到自动对标系统中的数据标准数据项同义词数据项;
标统数据项匹配标准数据项是将已采集入库的标统数据模型中的数据项使用已解析出的参标数据项列名通过匹配方法建立与标准数据项列名的关系并回显匹配类型;匹配方法包括:完全匹配、同义词匹配、余弦相似度匹配和推荐算法匹配,完全匹配是将标统数据模型数据项完全匹配数据标准数据项,根据数据项备注主体内容与数据标准项判断是否完全相等;同义词匹配式根据数据项备注主体内容与数据标准项的同义词进行完全匹配;余弦相似度匹配是根据数据项备注主体内容使用NLP的余弦相似度算法匹配第一匹配度的数据标准数据项或者同义词;推荐算法匹配是根据数据项备注主体内容使用NLP的智能推荐算法匹配第一匹配度的数据标准数据项或者同义词;
匹配结果确认是将匹配结果依据返回的匹配类型按照不同方式分别对结果进行确认;
标准一致性检测是根据已确认的匹配结果将标统数据项的数据类型、长度、约束、数据字典等分别按照已配置规则与标准数据项的数据类型、长度、约束、数据字典一一进行一致性检测;
所述可视化展示层是将自动对标的结果显示并通过excel格式下载结果,还可根据结果中的差错明细进行差错处理。
2.根据权利要求1所述的一种应用NLP和ML于数据标准对标的智能化系统,其特征在于:所述配置该规则采用配置规则表存储,配置规则表存储采集、标统数据模型数据项备注注释合规性、标准一致性合规性检测的规则表。
3.根据权利要求1所述的一种应用NLP和ML于数据标准对标的智能化系统,其特征在于:匹配类型可以根据各种可实现的匹配算法实现后纳入配置拓展,可根据方法、算法顺序或者综合指定评分依据分数高低进行选择使用。
CN202310543140.2A 2023-05-15 2023-05-15 一种应用nlp和ml于数据标准对标的智能化系统 Active CN116644151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310543140.2A CN116644151B (zh) 2023-05-15 2023-05-15 一种应用nlp和ml于数据标准对标的智能化系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310543140.2A CN116644151B (zh) 2023-05-15 2023-05-15 一种应用nlp和ml于数据标准对标的智能化系统

Publications (2)

Publication Number Publication Date
CN116644151A true CN116644151A (zh) 2023-08-25
CN116644151B CN116644151B (zh) 2024-03-22

Family

ID=87619523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310543140.2A Active CN116644151B (zh) 2023-05-15 2023-05-15 一种应用nlp和ml于数据标准对标的智能化系统

Country Status (1)

Country Link
CN (1) CN116644151B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100169361A1 (en) * 2008-12-31 2010-07-01 Ebay Inc. Methods and apparatus for generating a data dictionary
CN110196834A (zh) * 2019-05-21 2019-09-03 厦门市美亚柏科信息股份有限公司 一种用于数据项、文件、数据库的对标方法和系统
CN111324602A (zh) * 2020-02-21 2020-06-23 上海软中信息技术有限公司 一种实现面向金融大数据分析可视化方法
CN111680029A (zh) * 2020-06-12 2020-09-18 普元信息技术股份有限公司 基于数据标准系统落标的优化管理方法
CN113535938A (zh) * 2021-07-22 2021-10-22 北京明略软件系统有限公司 基于内容识别的标准数据构建方法、系统、设备及介质
CN114238263A (zh) * 2021-10-20 2022-03-25 北银金融科技有限责任公司 一种基于数据字典的数据库建模系统
CN114648010A (zh) * 2022-03-29 2022-06-21 浙江大华技术股份有限公司 数据表标准化方法、装置、设备及计算机存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100169361A1 (en) * 2008-12-31 2010-07-01 Ebay Inc. Methods and apparatus for generating a data dictionary
CN110196834A (zh) * 2019-05-21 2019-09-03 厦门市美亚柏科信息股份有限公司 一种用于数据项、文件、数据库的对标方法和系统
CN111324602A (zh) * 2020-02-21 2020-06-23 上海软中信息技术有限公司 一种实现面向金融大数据分析可视化方法
CN111680029A (zh) * 2020-06-12 2020-09-18 普元信息技术股份有限公司 基于数据标准系统落标的优化管理方法
CN113535938A (zh) * 2021-07-22 2021-10-22 北京明略软件系统有限公司 基于内容识别的标准数据构建方法、系统、设备及介质
CN114238263A (zh) * 2021-10-20 2022-03-25 北银金融科技有限责任公司 一种基于数据字典的数据库建模系统
CN114648010A (zh) * 2022-03-29 2022-06-21 浙江大华技术股份有限公司 数据表标准化方法、装置、设备及计算机存储介质

Also Published As

Publication number Publication date
CN116644151B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN104699611B (zh) 一种基于开源软件缺陷代码修改模式的缺陷信息提取方法
CN114168716B (zh) 基于深度学习的工程造价自动抽取和分析方法及装置
CN114417015B (zh) 一种高速列车可维修性知识图谱构建方法
CN104281525A (zh) 一种缺陷数据分析方法及利用其缩减软件测试项目的方法
CN115794803B (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN115312183A (zh) 医学检验报告智能解读方法及系统
CN115357906A (zh) 面向网络安全等级保护2.0的智能辅助测评方法及系统
CN116644151B (zh) 一种应用nlp和ml于数据标准对标的智能化系统
CN114625406A (zh) 应用开发管控方法、计算机设备、存储介质
CN117635846A (zh) 一种工程对象的数字孪生方法、系统及存储介质
CN117708102A (zh) 一种数据标准智能匹配与检查的方法
CN109960707B (zh) 一种基于人工智能的高校招生数据采集方法及系统
CN111210147B (zh) 基于时序特征提取的烧结过程运行性能评价方法及系统
CN114510994A (zh) 城市地下燃气泄漏识别模型的训练方法及装置
CN113377962A (zh) 一种基于图像识别和自然语言处理的智能过程模拟方法
CN116245108B (zh) 验证匹配导向方法、验证匹配导向器、设备及存储介质
Zhou et al. Ontology-based, multi-label text classification for enhanced information retrieval for supporting automated environmental compliance checking
JP2001101340A (ja) 文字読取装置および文字認識方法
CN117435777B (zh) 一种产业链图谱自动构建方法与系统
CN113449118B (zh) 一种基于标准知识图谱的标准文档冲突检测方法及系统
CN112307090B (zh) 基于隧道安全数据的检测方法及系统
CN113011726B (zh) 一种拖拉机制造过程质量数据智能分析处理系统
Hu et al. The application of integrated diagnosis database technology in safety management of oil pipeline and transferring pump units
CN117768220A (zh) 基于人工智能的网络安全等级保护测评方法、系统及装置
CN118245441A (zh) 一种可自动归类的工商数字档案管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant