CN115186650B - 数据检测方法及相关装置 - Google Patents

数据检测方法及相关装置 Download PDF

Info

Publication number
CN115186650B
CN115186650B CN202211091002.7A CN202211091002A CN115186650B CN 115186650 B CN115186650 B CN 115186650B CN 202211091002 A CN202211091002 A CN 202211091002A CN 115186650 B CN115186650 B CN 115186650B
Authority
CN
China
Prior art keywords
word
data
target
detected
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211091002.7A
Other languages
English (en)
Other versions
CN115186650A (zh
Inventor
李家耀
司东华
宋鹏程
胡冬伟
刘奥
黄康乔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Cicc Wealth Securities Co ltd
Original Assignee
China Cicc Wealth Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Cicc Wealth Securities Co ltd filed Critical China Cicc Wealth Securities Co ltd
Priority to CN202211091002.7A priority Critical patent/CN115186650B/zh
Publication of CN115186650A publication Critical patent/CN115186650A/zh
Application granted granted Critical
Publication of CN115186650B publication Critical patent/CN115186650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种数据检测方法及相关装置,所述方法包括:获取所述数据采集服务器中的至少一个待检测数据;对每一待检测数据进行解析,得到所述每一待检测数据的解析结果;根据预设的检测规则对所述解析结果进行检测,得到第一检测结果;使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果;在所述第一检测结果和/或所述第二检测结果指示所述待检测数据存在错误的情况下,生成对应的告警信息;向第二用户发送所述对应的告警信息。采用本申请实施例有助于确保待检测数据的规范和统一。

Description

数据检测方法及相关装置
技术领域
本申请涉及信息处理技术领域,具体涉及一种数据检测方法及相关装置。
背景技术
金融数据涉及金融领域的股票数据、期权数据、期货数据和客户信息等多个方面,随着经济发展,金融数据的数据量日益增加。对于证券公司而言,对如此庞大体量的数据进行管理和维护,必然不是单个人能够承接的,需要系统与流程支持数据治理工作的开展。而在多个人或多个团队对大量数据进行操作的场景中,由于每个人或每个团队对金融数据进行管理所使用的工具和标准不同,缺乏统一的数据标准,难以保证制定的数据标准可以切实落地在金融系统中,在对大量金融数据进行统一处理时容易出现错误,影响数据处理效率。
发明内容
本申请实施例提供了一种数据检测方法及相关装置,有助于确保待检测数据的规范和统一,并有助于提高后续处理过程中对金融数据的处理效率。
第一方面,本申请实施例提供一种数据检测方法,应用于证券公司综合服务系统中的数据整合服务器,所述证券公司综合服务系统包括数据采集服务器和所述数据整合服务器,所述数据采集服务器和所述数据整合服务器通信连接;所述方法包括:
获取所述数据采集服务器中的至少一个待检测数据,待检测数据用于指示第一用户提交和/或指定的金融数据脚本,所述待检测数据包括目标字段,所述目标字段用于表征所述第一用户对所述待检测数据在所述金融数据脚本中的定义信息;
对每一待检测数据进行解析,得到所述每一待检测数据的解析结果;
根据预设的检测规则对所述解析结果进行检测,得到第一检测结果;
使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果;
在所述第一检测结果和/或所述第二检测结果指示所述待检测数据存在错误的情况下,生成对应的告警信息;
向第二用户发送所述对应的告警信息。
第二方面,本申请实施例提供一种数据检测装置,应用于证券公司综合服务系统中的数据整合服务器,所述证券公司综合服务系统包括数据采集服务器和所述数据整合服务器,所述数据采集服务器和所述数据整合服务器通信连接;所述装置包括:获取单元、解析单元、检测单元、告警单元和发送单元,其中,
所述获取单元,用于获取所述数据采集服务器中的至少一个待检测数据,待检测数据用于指示第一用户提交和/或指定的金融数据脚本,所述待检测数据包括目标字段,所述目标字段用于表征所述第一用户对所述待检测数据在所述金融数据脚本中的定义信息;
所述解析单元,用于对每一待检测数据进行解析,得到所述每一待检测数据的解析结果;
所述检测单元,用于根据预设的检测规则对所述解析结果进行检测,得到第一检测结果;
所述检测单元,还用于使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果;
所述告警单元,用于在所述第一检测结果和/或所述第二检测结果指示所述待检测数据存在错误的情况下,生成对应的告警信息;
所述发送单元,用于向第二用户发送所述对应的告警信息。
第三方面,本申请实施例提供了一种服务器,包括处理器、存储器及存储在所述存储器上的计算机程序或指令,所述处理器执行所述计算机程序或指令以实现本申请实施例第一方面中的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤的指令。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括计算机程序,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
实施本申请实施例,具备如下有益效果:
可以看出,本申请实施例中所描述的数据检测方法及相关装置,可对至少一个待检测数据进行解析,得到每一待检测数据的解析结果,并根据预设的检测规则对解析结果进行检测,得到第一检测结果,使用预设的数据标准库对解析结果中的目标字段进行检测,得到第二检测结果,在第一检测结果和/或第二检测结果指示待检测数据存在错误的情况下,生成对应的告警信息并向第二用户发送,如此,通过对解析结果的二次检测,有助于确保待检测数据的规范和统一,并有助于提高后续处理过程中对金融数据的处理效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是本申请实施例提供的一种证券公司综合服务系统的架构示意图;
图1B是本申请实施例提供的一种服务器的结构示意图;
图1C是本申请实施例提供的一种数据检测方法的流程示意图;
图1D是本申请实施例提供的一种抽象语法树的结构示意图;
图1E是本申请实施例提供的一种DAG分词示意图;
图2是本申请实施例提供的另一种服务器的结构示意图;
图3A是本申请实施例提供的一种数据检测装置的功能单元组成框图;
图3B是本申请实施例提供的另一种数据检测装置的功能单元组成框图。
具体实施方式
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。术语“多个”可指两个或两个以上,后续不再赘述。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及到的关键概念和术语包括但不限于以下:
(1)证券公司综合服务系统,包括数据采集服务器和数据整合服务器,其中,数据采集服务器可以用于采集用户(或称研发人员)提交和/或指定的金融数据脚本,数据整合服务器用于从金融数据脚本中确定待检测数据,并对待检测数据进行整合,在待检测数据中存在错误的情况下向用户发送告警信息,以提示用户对错误数据进行修改。
(2)金融数据脚本,可以是指实现金融领域的数据整合功能的程序,可用SQL、shell、python或perl等编程语言进行编写。
(3)服务器可以是手机、平板电脑等便携式电子设备。便携式电子设备的示例性实施例包括但不限于搭载IOS系统、Android系统、Microsoft系统或者其它操作系统的便携式电子设备。上述便携式电子设备也可以是其它便携式电子设备,诸如膝上型计算机(Laptop)等。还应当理解的是,在其他一些实施例中,上述服务器也可以不是便携式电子设备,而是台式计算机。
金融数据涉及金融领域的股票数据、期权数据、期货数据和客户信息等多个方面,随着经济发展,金融数据的数据量日益增加。对于证券公司而言,对如此庞大体量的数据进行管理和维护,必然不是单个人能够承接的,需要系统与流程支持数据治理工作的开展。而在多个人或多个团队对大量数据进行操作的场景中,由于每个人或每个团队对金融数据进行管理所使用的工具和标准不同,缺乏统一的数据标准,难以保证制定的数据标准可以切实落地在金融系统中,在对大量金融数据进行统一处理时容易出现错误,影响数据处理效率。
基于上述问题,本申请提供一种数据检测方法及相关装置,下面结合附图进行详细说明。
图1A为本申请实施例提供的一种证券公司综合服务系统的架构示意图。证券公司综合服务系统包括数据采集服务器10和数据整合服务器20。其中,数据采集服务器10和数据整合服务器20之间保持通信连接。
示例性的,数据采集服务器10可以对用户提交和/或指定的金融数据脚本进行采集,然后数据整合服务器20可以从数据采集服务器10发送的金融数据脚本中确定待检测数据,或是数据采集服务器10不向数据整合服务器20发送金融数据脚本,而是数据整合服务器20向数据采集服务器10获取金融数据脚本,并确定待检测数据。数据整合服务器20对每一待检测数据进行解析,得到每一待检测数据的解析结果,并根据预设的检测规则对解析结果进行检测,得到第一检测结果,使用预设的数据标准库对解析结果中的目标字段进行检测,得到第二检测结果,在第一检测结果和/或第二检测结果指示待检测数据存在错误的情况下,生成对应的告警信息并向第二用户发送。如此,通过对解析结果的二次检测,有助于确保待检测数据的规范和统一,并有助于提高后续处理过程中对金融数据的处理效率。
请参阅图1B,图1B是本申请实施例提供的一种服务器的结构示意图。该服务器包括处理器和存储器等等。其中,存储器与处理器连接。处理器是服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控,处理器可以为中央处理器(Central Processing Unit /Processor,CPU)、图形处理器(Graphics Processing Unit,GPU)或者网络处理器(Neural-network Processing Unit,NPU)。
进一步地,处理器可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
其中,存储器用于存储软件程序和/或模块,处理器通过运行存储在存储器的软件程序和/或模块,从而执行服务器的各种功能应用。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的软件程序等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
请参阅图1C,图1C是本申请实施例提供的一种数据检测方法的流程示意图,如图所示,应用于如图1B所示的服务器,所述服务器可以是证券公司综合服务系统中的数据整合服务器,所述证券公司综合服务系统包括数据采集服务器和所述数据整合服务器,所述数据采集服务器和所述数据整合服务器通信连接;本数据检测方法包括:
步骤101、获取所述数据采集服务器中的至少一个待检测数据。
其中,待检测数据用于指示第一用户提交和/或指定的金融数据脚本,所述待检测数据包括目标字段,所述目标字段用于表征所述第一用户对所述待检测数据在所述金融数据脚本中的定义信息。目标字段可以在涉及数据创建和数据更改的金融数据脚本中出现。
步骤102、对每一待检测数据进行解析,得到所述每一待检测数据的解析结果。
其中,可以通过解析模块对待检测数据进行解析。由于待检测数据对应的数据库类型可能有多种,例如ORACLE、MYSQL、HIVE等类型,因此,可以使用对应数据库类型的解析模块对待检测数据进行解析。
例如,用户提交的金融数据脚本为一段执行代码,执行代码中包括金融数据的中文名称、定义信息、英文名称、数据长度。对该段执行代码进行解析,得到如下解析结果:中文名称:“香港客户风险偏好”,定义信息:“依据香港证监会监管要求及公司内部规定,投资者在接受风险能力调查阶段,自主选择的年化收益预期偏好。仅针对香港业务客户”,英文名称:“Hong Kong Customer Risk Preference”,数据长度为10。
在上述例子中,待检测数据为包括以上内容的脚本数据,目标字段为定义信息中的字段。
可以理解地,目标字段是用户对金融数据脚本中的数据的定义。不同人对同一数据的定义不会一字不差地完全相同,同一个人在不同时期对同一数据的定义亦然,因此,同一数据的目标字段呈现为多样化。
步骤103、根据预设的检测规则对所述解析结果进行检测,得到第一检测结果。
其中,上述预设的检测规则可以预先存储于服务器中,也可以由服务器向其他服务器或本地设备获取,在此不做限定。预设的检测规则可以根据金融行业的数据特点和公司内部章程确定,在此不做限定。例如,检测规则可以包括如下内容:数据表对应的定义信息不得为空;数据表内的字段对应的定义信息不得为空;数据表的英文名和数据表内的字段的英文名中不得仅包括保留字,其中,保留字可以由用户自定义,例如Key、Keyword等字;数据表的英文名和数据表内的字段的英文名中不得包括中文。
步骤104、使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果。
其中,上述预设的数据标准库可以预先存储于服务器中,也可以由服务器向其他服务器或本地设备获取,在此不做限定。预设的数据标准库可以根据金融行业的数据特点和公司内部章程确定,在此不做限定。例如,数据标准库可以包括如下文表一所示的内容。数据标准库中的每一行(首行除外)为一个标准字词对应的信息,例如,标准字词“个人客户姓名”对应的定义字段为“描述该个人客户开户证件上所记录姓名”。
表一一种数据标准库的示例
中文名称 英文名称 英文简写 定义字段 数据长度 数据类型
个人客户姓名 PERSONAL CUSTOMERNAME cust_name 描述该个人客户开户证件上所记录姓名 10 TEXT
产品编码 Product Code Prod_code 按照统一编码规则赋予全公司每一个银行产品的唯一编码,是产品的唯一识别码 10 VARchar
香港特区客户风险偏好 Hong Kong CustomerRisk Preference hk_cust_risk_pref 依据香港证监会监管要求及公司内部规定,投资者在接受风险能力调查阶段,自主选择的年化收益预期偏好。仅针对香港业务客户 10 VARchar
客户性别 customer gender Cust_gender 描述个人客户性别信息 2 BINARY
步骤105、在所述第一检测结果和/或所述第二检测结果指示所述待检测数据存在错误的情况下,生成对应的告警信息。
步骤106、向第二用户发送所述对应的告警信息。
其中,上述第二用户与第一用户可以相同,例如二者为同一人或同一团队,第二用户也可以与第一用户不同,在此不做限定。
具体实现中,数据整合服务器可获取数据采集服务器中的至少一个待检测数据,并对每一待检测数据进行解析,得到每一待检测数据的解析结果,并根据检测规则对解析结果进行检测,以及根据数据标准库对解析结果中的目标字段进行检测,根据两次检测分别得到的第一检测结果和第二检测结果生成告警信息,并向第二用户发送。
例如,数据整合服务器对待检测数据进行解析,得到如下解析结果:中文名称:“香港客户风险偏好”,定义信息:“依据香港证监会监管要求及公司内部规定,投资者在接受风险能力调查阶段,自主选择的年化收益预期偏好。仅针对香港业务客户”,英文名称:“HongKong Customer Risk Preference”,数据长度为10。
根据预设的检测规则对解析结果进行检测,可知待检测数据中的字段对应的定义信息不为空,字段的英文名中未包括保留字和中文,也即是说,第一检测结果指示待检测数据无错误。
使用预设的数据标准库对解析结果中的目标字段进行检测,也即是使用数据标准库对“依据香港证监会监管要求及公司内部规定,投资者在接受风险能力调查阶段,自主选择的年化收益预期偏好。仅针对香港业务客户”进行检测,得到第二检测结果。若第二检测结果指示待检测数据存在错误,则可向第二用户发送对应的告警信息。
可以看出,本申请实施方式中,服务器可对至少一个待检测数据进行解析,得到每一待检测数据的解析结果,并根据预设的检测规则对解析结果进行检测,得到第一检测结果,使用预设的数据标准库对解析结果中的目标字段进行检测,得到第二检测结果,在第一检测结果和/或第二检测结果指示待检测数据存在错误的情况下,生成对应的告警信息并向第二用户发送,如此,通过对解析结果的二次检测,有助于确保待检测数据的规范和统一,并有助于提高后续处理过程中对金融数据的处理效率。
在一个可能的示例中,上述步骤103,根据预设的检测规则对所述解析结果进行检测,得到第一检测结果,可以包括如下步骤:
步骤1031、对所述每一待检测数据进行词法解析,得到所述每一待检测数据对应的至少一个字符以及每一字符对应的属性,所述每一字符对应的属性包括字符类别、字符值和字符所在位置中的至少一个;
步骤1032、对所述至少一个字符进行语法解析,得到所述语法解析结果;
步骤1033、根据所述语法解析结果和所述每一字符对应的属性,生成解析结果,所述解析结果包括字符操作对象、对象属性和字符具体值中的至少一个。
其中,词法解析将待检测数据中的每一个字符解析出来,并进一步解析出各个字符对应的属性,以便通过语法解析各个字符的含义。语法解析可以根据抽象语法树(Abstract Syntax Tree,AST)进行,将词法解析结果输入AST,可以得到各个字符的实际含义。
例如,待检测数据为:“Create table ‘cust_info’ (hk_cust_risk_prefvarchar(10) ‘香港客户风险偏好’ Primary Key) ;”,通过词法解析,可以得到下文表二所示的字符和各个字符对应的属性。
表二一种词法解析的示例
字符 字符类别 字符值 字符结束位置
Create Keyword Create 6
Table Keyword Table 12
symbol Quote 14
cust_info literals IDENTIFIER 23
symbol Quote 24
( symbol Leftparenthesis 26
hk_cust_risk_pref literals IDENTIFIER 33
varchar Keyword varchar 41
( symbol LeftParenthesis 42
10 literals IDENTIFIER 44
) symbol RightParenthesis 45
symbol Quote 47
香港客户风险偏好 literals IDENTIFIER 51
symbol Quote 52
primary Keyword primary 60
key Keyword key 64
) symbol RightParenthesis 65
; symbol semicolon 66
将上述词法解析结果输入AST,如图1D所示,语法解析结果包括语句类型、操作对象、列类型、列属性等。剔除符号和保留字等信息后,可以得出如表三所示的解析结果。
表三一种解析结果的示例
语句类型 操作对象 对象属性 字符具体值
Create Table name cust_info
Create Column Name hk_cust_risk_pref
Create Column Comment 香港客户风险偏好
Create Column Type varchar
Create Column Length 10
Create Column Primary key Y
可以看出,本申请实施例中,通过词法解析和语法解析,有助于在待检测数据中剔除不必要字符,并有助于确定重要字符的实际含义,从而有助于提高后续检测过程中的检测效率和查错准确率。
在一个可能的示例中,上述步骤104,使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果,可以包括如下步骤:
步骤1041、对所述目标字段进行分词,得到所述目标字段对应的至少一种分词结果,每一种分词结果中包括至少一个字词;
步骤1042、对所述每一种分词结果执行如下步骤A-B,得到至少一个分词准确率,每一种分词结果对应一个分词准确率:
步骤A:确定当前处理的分词结果中的每一个字词在预设的文本库中出现的频率,所述当前处理的分词结果中的每一个字词在预设的文本库中出现的频率为第一词频,所述第一词频为至少一个;
步骤B:对至少一个第一词频进行计算,得到所述当前处理的分词结果的分词准确率;
步骤1043、确定所述至少一个分词准确率中的最高值,以及所述至少一个分词准确率中的最高值对应的分词结果,所述至少一个分词准确率中的最高值对应的分词结果为目标分词结果;
步骤1044、使用预设的数据标准库对所述目标分词结果进行检测,得到第二检测结果。
其中,上述预设的文本库可以预先存储于数据整合服务器中,也可以是数据整合服务器向其他服务器或电子设备获取的,在此不做限定。预设的文本库可以是用户通过训练文本字典并生成单词查找树(Trie树)得到。文本字典可以通过获取金融领域中的常用字词得到,根据文本字典中的字词生成的Trie树即可作为预设的文本库。
其中,可以使用正则表达式获取连续的中文字符和英文字符,切分成多个短语,对每个短语通过有向无环图(Directed Acyclic Graph,DAG)和动态规划(DynamicProgramming,DP)确定其最大概率路径。
其中,第一词频可以通过如下方式确定:对于当前处理的字词A,确定字词A在预设的文本库中出现的次数N,并确定预设的文本库中的总词数M,第一词频为N/M。
例如,请参阅图1E,目标字段为:“债券发行人”,对目标字段使用进行分词,可以拆解成两个DAG:{0:[1],2:[3,4,5]}。0:[1]代表位置0到位置1组成“债券”,2:[3,4,5]是第二个DAG,代表从位置2开始,到3、4、5的位置都是某个词结束的位置,也即是说2~3(对应的分词结果为:发、行人),2~4(对应的分词结果为:发行、人),2~5(对应的分词结果为:发行人)这三个位置范围之间的字符,在文本字典中都是词语。
对上述三种分词结果(“债券、发、行人”、“债券、发行、人”、“债券、发行人”)执行步骤A。例如,在分词结果“债券、发、行人”中,“债券”的第一词频为a,“发”的第一词频为b1,“行人”的第一词频为c1。在分词结果“债券、发行、人”中,“债券”的第一词频为a,“发行”的第一词频为b2,“人”的第一词频为c2。在分词结果“债券、发行人”中,“债券”的第一词频为a,“发行人”的第一词频为b3。
对第一词频a、b、c进行计算时,可以是将a、b、c简单相加,也可以是对a、b、c设置对应的权重进行加权计算、再将加权计算的结果进行相加,在此不做限定。其中,权重的设置可以根据分词结果中的字词长度确定,例如对“发行人”(字词长度为6)设置的权重比“债券”(字词长度为4)设置的权重高;字词长度相同的,对应的权重也相同。例如通过设置权重的方式计算分词结果“债券、发、行人”的分词准确率:a*x+b1*y+c1*x,其中x>y。通过设置权重的方式计算分词结果“债券、发行、人”的分词准确率:a*x+b2*x+c2*y,其中x>y。通过设置权重的方式计算分词结果“债券、发行人”的分词准确率:a*x+b3*z,其中z>x。
确定上述三种分词准确率中的最高值,以及分词准确率的最高值对应的分词结果。假设分词准确率最高值为a*x+b3*z,则目标分词结果为“债券、发行人”。
得到目标分词结果后,使用预设的数据标准库对目标分词结果进行检测,可以得到第二检测结果。
可以看出,本申请实施例中,通过对目标字段进行分词并通过预设的文本库确定分词准确率最高的分词结果,由于预设的文本库是通过金融领域内的常用字词构建的,通过文本库得到第一词频、并确定分词准确率最高的分词结果,能够在较大程度上确保目标分词结果的可靠性,从而有助于确保在使用预设的数据标准库对目标分词结果进行检测的过程中的数据检测可靠性。
此外,若存在两个或者两个以上的目标分词结果,也即是说,多个分词结果的分词准确率同为最高值,则可以任意选择其中一个,也可以向第一用户和/或第二用户发送分词确认信息,以获取第一用户和/或第二用户的分词确认结果。在向用户获取分词确认结果的情况下,可以对用户确认的分词结果的词频进行更新。如此,有助于提高分词的灵活性。
在一个可能的示例中,若所述预设的文本库中不存在所述当前处理的分词结果中的字词,所述步骤A,确定当前处理的分词结果中的每一个字词在预设的文本库中出现的频率,可以包括如下步骤:
步骤A1:将第一字词对应的词频确定为第二词频,所述第一字词为所述预设的文本库中不存在的字词。
其中,上述第二词频可以是0,也可以是预设的文本库中的最低词频,在此不做限定。
如此,对第一字词进行赋值,有助于顺利计算第一字词所在的分词结果的分词准确率。
在一个可能的示例中,在所述步骤A1,将第一字词对应的词频确定为第二词频之后,所述方法还可以包括如下步骤:
步骤A2、通过隐马尔科夫模型对所述第一字词进行处理,得到再分词结果,所述再分词结果中包括至少一个字词;
步骤A3、将所述再分词结果中的所述至少一个字词收录于所述预设的文本库中;
步骤A4、更新所述再分词结果中的所述至少一个字词的词频。
其中,上述再分词结果可以与第一字词相同,也可以是第一字词的进一步细分,在此不做限定。
具体实现中,隐马尔科夫模型(Hidden Markov Model,HMM)的五元组为:状态值集合、观察值集合、转移概率、发射概率和初始状态。其中,状态值集合为(B,E,M,S),B、E、M、S分别表示字符在词语中的位置,B表示开始(begin)位置,E表示结束(end)位置,M表示中间(middle)位置,S表示(single)单字成词。观察值集合为第一字词中所有字符的集合。转移概率和发射概率可以通过训练得到。具体可以通过Viterbi算法求解概率最大的状态值集合,也即是得到可靠性最大的再分词结果,再使用词语生成器(例如可以使用yield语法生成)逐词返回再分词结果。将再分词结果中包含的至少一个字词收录于文本库中,并更新再分词结果中的至少一个字词的词频。
例如,预设的文本库中不存在“词频”(第一字词),且再分词结果仍为“词频”,则将“词频”一词收录于预设的文本库中,并更新“词频”一词对应的词频。
如此,对预设的文本库进行更新,有助于确保数据检测方法的灵活性,进一步提升数据检测的可靠性。
在一个可能的示例中,上述步骤1044,使用预设的数据标准库对所述目标分词结果进行检测,得到第二检测结果,可以包括如下步骤:
步骤10441、在所述目标分词结果对应的字词中选取至少一个目标字词,所述至少一个目标字词用于表征所述定义信息中的关键信息;
步骤10442、对每一目标字词执行如下步骤C-D:
步骤C:确定当前处理的目标字词在所述目标字段中的TF-IDF值,所述当前处理的目标字词在所述目标字段中的TF-IDF值为第一TF-IDF值,所述第一TF-IDF值构成第一向量;
步骤D:确定所述当前处理的目标字词在所述每一标准字词的定义字段中的TF-IDF值,所述当前处理的目标字词在所述每一标准字词的定义字段中的TF-IDF值为第二TF-IDF值,一个标准字词的定义字段对应的第二TF-IDF值构成一个第二向量,所述第二向量为至少一个;
步骤10443、确定所述第一向量和每一第二向量的余弦相似度,得到至少一个余弦相似度;
步骤10444、确定所述至少一个余弦相似度中的最高值,以及所述至少一个余弦相似度中的最高值对应的标准字词,所述至少一个余弦相似度中的最高值对应的标准字词为目标标准字词;
步骤10445、将所述目标标准字词和所述目标字词进行匹配,得到第二检测结果。
其中,上述TF-IDF值可以通过如下方式确定:TF-IDF值等于TF值与IDF值的乘积。其中,TF值为词频(Term Frequency,TF),IDF值为逆向文件频率(Inverse DocumentFrequency,IDF)。
对于步骤C,举例来说,若目标字段为:“依据香港证监会监管要求及公司内部规定,投资者在接受风险能力调查阶段,自主选择的年化收益预期偏好。仅针对香港业务客户”,目标分词结果为:“依据、香港、证监会、监管、要求、及、公司、内部、规定、投资者、在、接受、风险、能力、调查、阶段、自主、选择、的、年化收益、预期、偏好、仅、针对、香港、业务、客户”,在目标分词结果中选取的目标字词为:“香港、客户、风险、偏好、证监会、监管、要求、内部、投资者”。对选取的每一个目标字词,计算其在目标字段“依据香港证监会监管要求及公司内部规定,投资者在接受风险能力调查阶段,自主选择的年化收益预期偏好。仅针对香港业务客户”中的TF-IDF值,例如目标字词“香港”对应的第一TF-IDF值为a0,目标字词“客户”对应的第一TF-IDF值为b0……以此类推,第一向量为(a0,b0,c0,d0,e0,f0,g0,h0,i0)。
对于步骤D,接上述例子,确定目标字词“香港、客户、风险、偏好、证监会、监管、要求、内部、投资者”中的每一个字词在数据标准库中的各个定义字段中对应的TF-IDF值,例如,以表一所示的数据标准库为例,目标字词“香港、客户、风险、偏好、证监会、监管、要求、内部、投资者”在定义字段“描述该个人客户开户证件上所记录姓名”中的TF-IDF值构成的第二向量为(a1,b1,c1,d1,e1,f1,g1,h1,i1),在定义字段“按照统一编码规则赋予全公司每一个银行产品的唯一编码,是产品的唯一识别码”中的TF-IDF值构成的第二向量为(a2,b2,c2,d2,e2,f2,g2,h2,i2)……以此类推。可知,第二向量的数量与数据标准库中的定义字段的数量对应,也即是与标准字词的数量对应。
计算每一个第二向量与第一向量的余弦相似度,在得到的一个或多个余弦相似度中,确定最高值,以及最高值对应的标准字词(目标标准字词)。如前文所述,尽管不同人对于不同数据的定义存在差异,但对于特定的数据而言,其实际定义只有一个,只是表达实际定义的用词因人而异,因此,通过在数据标准库中遍历目标字词在定义字段中的TF-IDF值并确定余弦相似度的最高值,最终得到的目标标准字词在某种意义上来说是最有可能表达与目标字词相同含义的字词。如此,有助于提高检测结果的准确度。
在一个可能的示例中,上述步骤10441中,在所述目标分词结果对应的字词中选取至少一个目标字词,可以包括如下步骤:
步骤104411、确定所述目标分词结果中的每一个字词的TF-IDF值,得到至少一个第一TF-IDF值;
步骤104412、根据所述至少一个第一TF-IDF值选取至少一个目标字词。
需要说明地,第一TF-IDF值中的TF值为目标分词结果中的字词在目标分词结果中的词频,IDF值为目标分词结果中的字词在数据标准库中出现的频率。例如,对于上述示例中目标分词结果中的“香港”一词,其在目标分词结果中出现2次,目标分词结果中共有27个字词,则“香港”的TF值为2/27。假设数据标准库中共有N个标准字词(N大于1),其中有k个标准字词的定义字段中出现“香港”,则“香港”的IDF值为
Figure 305000DEST_PATH_IMAGE001
。“香港”的TF-IDF值为TF值和IDF值的乘积。其余字词的TF-IDF值计算方式以此类推,此处不再赘述。
进一步地,为了避免IDF值中出现分母为0的情况,可以使用
Figure 22420DEST_PATH_IMAGE002
来计算IDF值。
此外,可以根据如下方式确定目标字词的个数:目标分词结果中的字词数(一个词语计数为1)在区间(0,10)内的,选取3个目标字词;字词数不足3的,取全部字词。字词数在区间[10,20)内的,选取6个目标字词。字词数在区间[20,35)内的,选取10个目标字词。字词数在区间[35,50)内的,选取12个目标字词。字词数在区间[50,80)内的,选取16个目标字词。字词数在80以上的,选取20个目标字词。
确定目标字词的个数H,并根据目标字词的个数H,选取目标分词结果中的前H位较高的TF-IDF值对应的字词,即可得到目标字词。
可以理解地,TF-IDF值可用于过滤常见的字词(例如“的”、“地”等词),保留能够代表字段关键信息的字词。如此,通过TF-IDF值,从目标分词结果中选取TF-IDF值较高的目标字词,有助于在确保数据检测的准确度的同时减少目标字词的个数,优化检测架构。
在一个可能的示例中,上述步骤10445,将所述目标标准字词和所述目标字词进行匹配,得到第二检测结果,可以包括如下步骤:
步骤104451、获取所述目标标准字词和所述目标字词的属性信息,所述属性信息包括中文名称、英文名称、数据类型和数据长度中的至少一个,所述目标标准字词的属性信息为第一属性信息,所述目标字词的属性信息为第二属性信息;
步骤104452、确定所述第一属性信息指示的至少一个要求;
步骤104453、若所述第二属性信息满足所述第一属性信息指示的全部要求,则将所述第二检测结果确定为所述待检测数据无错误;
步骤104454、若所述第二属性信息不满足所述第一属性信息指示的任意一项要求,或所述第二属性信息不满足所述第一属性信息中的多项要求,则将所述第二检测结果确定为所述待检测数据存在错误。
可以理解地,数据标准库中的目标标准字词,其包括的第一属性信息是较为齐全和全面的信息,而待检测数据对应的目标字词的第二属性信息通常不比第一属性信息多。
确定第一属性信息指示的要求,例如,以表一所示的数据标准库为例,目标标准字词“香港特区客户风险偏好”对应的数据类型为“VARCHAR”,数据长度为10。若目标字词“香港客户风险偏好”的数据类型为“TEXT”,数据长度为8,则可确定第二属性信息不满足第一属性信息中的数据类型要求,将第二检测结果确定为待检测数据存在错误。
可以看出,本申请实施例中,通过获取目标标准字词和目标字词的属性信息,并确定目标标准字词的属性信息(第一属性信息)指示的至少一个要求,在目标字词的属性信息(第二属性信息)不满足第一属性信息的情况下,将第二检测结果确定为待检测数据存在错误,如此,通过对第一属性信息和第二属性信息的比较,有助于确保待检测数据的规范和统一,并有助于提高后续处理过程中对金融数据的处理效率。
在一个可能的示例中,所述告警信息包括高风险告警信息、中风险告警信息和低风险告警信息,上述步骤105中,所述生成对应的告警信息,可以包括如下步骤:
步骤1051、在所述第一检测结果和所述第二检测结果均指示所述待检测数据存在错误的情况下,生成所述高风险告警信息;
步骤1052、在所述第一检测结果或所述第二检测结果指示所述待检测数据存在错误,且错误存续时长大于或等于预设的时长阈值的情况下,生成所述中风险告警信息;
步骤1053、在所述第一检测结果或所述第二检测结果指示所述待检测数据存在错误,且错误存续时长小于所述预设的时长阈值的情况下,生成所述低风险告警信息。
其中,上述预设的时长阈值可以由用户自行设定,也可以通过计算用户处理错误的平均时长确定,在此不做限定。
可以看出,本申请实施例中,将错误存续时长作为设定告警信息风险等级的参考因素之一,有助于减少金融数据脚本中积累较多错误长时间不处理的情况,有助于提醒用户及时处理错误数据。
与上述实施例一致地,请参阅图2,图2是本申请实施例提供的另一种服务器的结构示意图,服务器可以是证券公司综合服务系统中的数据整合服务器,所述证券公司综合服务系统包括数据采集服务器和所述数据整合服务器,所述数据采集服务器和所述数据整合服务器通信连接。如图所示,该服务器包括处理器、存储器及存储在所述存储器上的计算机程序或指令,其中,上述计算机程序或指令被存储在上述存储器中,并且被配置为由上述处理器执行。服务器还可以包括通信接口。本申请实施例中,上述程序包括用于执行以下步骤的指令:
获取所述数据采集服务器中的至少一个待检测数据,待检测数据用于指示第一用户提交和/或指定的金融数据脚本,所述待检测数据包括目标字段,所述目标字段用于表征所述第一用户对所述待检测数据在所述金融数据脚本中的定义信息;
对每一待检测数据进行解析,得到所述每一待检测数据的解析结果;
根据预设的检测规则对所述解析结果进行检测,得到第一检测结果;
使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果;
在所述第一检测结果和/或所述第二检测结果指示所述待检测数据存在错误的情况下,生成对应的告警信息;
向第二用户发送所述对应的告警信息。
可以看出,本申请实施例中所描述的服务器,可对至少一个待检测数据进行解析,得到每一待检测数据的解析结果,并根据预设的检测规则对解析结果进行检测,得到第一检测结果,使用预设的数据标准库对解析结果中的目标字段进行检测,得到第二检测结果,在第一检测结果和/或第二检测结果指示待检测数据存在错误的情况下,生成对应的告警信息并向第二用户发送,如此,通过对解析结果的二次检测,有助于确保待检测数据的规范和统一,并有助于提高后续处理过程中对金融数据的处理效率。
在一个可能的示例中,在所述使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果方面,上述程序包括用于执行以下步骤的指令:
对所述目标字段进行分词,得到所述目标字段对应的至少一种分词结果,每一种分词结果中包括至少一个字词;
对所述每一种分词结果执行如下步骤A-B,得到至少一个分词准确率,每一种分词结果对应一个分词准确率:
步骤A:确定当前处理的分词结果中的每一个字词在预设的文本库中出现的频率,所述当前处理的分词结果中的每一个字词在预设的文本库中出现的频率为第一词频,所述第一词频为至少一个;
步骤B:对至少一个第一词频进行计算,得到所述当前处理的分词结果的分词准确率;
确定所述至少一个分词准确率中的最高值,以及所述至少一个分词准确率中的最高值对应的分词结果,所述至少一个分词准确率中的最高值对应的分词结果为目标分词结果;
使用预设的数据标准库对所述目标分词结果进行检测,得到第二检测结果。
在一个可能的示例中,若所述预设的文本库中不存在所述当前处理的分词结果中的字词,在所述确定当前处理的分词结果中的每一个字词在预设的文本库中出现的频率方面,上述程序包括用于执行以下步骤的指令:
将第一字词对应的词频确定为第二词频,所述第一字词为所述预设的文本库中不存在的字词。
在一个可能的示例中,在将第一字词对应的词频确定为第二词频之后,上述程序还包括用于执行以下步骤的指令:
通过隐马尔科夫模型对所述第一字词进行处理,得到再分词结果,所述再分词结果中包括至少一个字词;
将所述再分词结果中的所述至少一个字词收录于所述预设的文本库中;
更新所述再分词结果中的所述至少一个字词的词频。
在一个可能的示例中,所述预设的数据标准库中包括至少一个标准字词,每一标准字词对应一个定义字段,在所述使用预设的数据标准库对所述目标分词结果进行检测,得到第二检测结果方面,上述程序包括用于执行以下步骤的指令:
在所述目标分词结果对应的字词中选取至少一个目标字词,所述至少一个目标字词用于表征所述定义信息中的关键信息;
对每一目标字词执行如下步骤C-D:
步骤C:确定当前处理的目标字词在所述目标字段中的TF-IDF值,所述当前处理的目标字词在所述目标字段中的TF-IDF值为第一TF-IDF值,所述第一TF-IDF值构成第一向量;
步骤D:确定所述当前处理的目标字词在所述每一标准字词的定义字段中的TF-IDF值,所述当前处理的目标字词在所述每一标准字词的定义字段中的TF-IDF值为第二TF-IDF值,一个标准字词的定义字段对应的第二TF-IDF值构成一个第二向量,所述第二向量为至少一个;
确定所述第一向量和每一第二向量的余弦相似度,得到至少一个余弦相似度;
确定所述至少一个余弦相似度中的最高值,以及所述至少一个余弦相似度中的最高值对应的标准字词,所述至少一个余弦相似度中的最高值对应的标准字词为目标标准字词;
将所述目标标准字词和所述目标字词进行匹配,得到第二检测结果。
在一个可能的示例中,在所述将所述目标标准字词和所述目标字词进行匹配,得到第二检测结果方面,上述程序包括用于执行以下步骤的指令:
获取所述目标标准字词和所述目标字词的属性信息,所述属性信息包括中文名称、英文名称、数据类型和数据长度中的至少一个,所述目标标准字词的属性信息为第一属性信息,所述目标字词的属性信息为第二属性信息;
确定所述第一属性信息指示的至少一个要求;
若所述第二属性信息满足所述第一属性信息指示的全部要求,则将所述第二检测结果确定为所述待检测数据无错误;
若所述第二属性信息不满足所述第一属性信息指示的任意一项要求,或所述第二属性信息不满足所述第一属性信息中的多项要求,则将所述第二检测结果确定为所述待检测数据存在错误。
在一个可能的示例中,所述告警信息包括高风险告警信息、中风险告警信息和低风险告警信息,在所述生成对应的告警信息方面,上述程序包括用于执行以下步骤的指令:
在所述第一检测结果和所述第二检测结果均指示所述待检测数据存在错误的情况下,生成所述高风险告警信息;
在所述第一检测结果或所述第二检测结果指示所述待检测数据存在错误,且错误存续时长大于或等于预设的时长阈值的情况下,生成所述中风险告警信息;
在所述第一检测结果或所述第二检测结果指示所述待检测数据存在错误,且错误存续时长小于所述预设的时长阈值的情况下,生成所述低风险告警信息。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
请参阅图3A,图3A是本申请实施例提供的一种数据检测装置的功能单元组成框图,所述装置应用于证券公司综合服务系统中的数据整合服务器,所述证券公司综合服务系统包括数据采集服务器和所述数据整合服务器,所述数据采集服务器和所述数据整合服务器通信连接;所述装置300包括:获取单元301、解析单元302、检测单元303、告警单元304和发送单元305,其中,
所述获取单元301,用于获取所述数据采集服务器中的至少一个待检测数据,待检测数据用于指示用户提交和/或指定的金融数据脚本,所述待检测数据包括目标字段,所述目标字段用于表征所述用户对所述待检测数据在所述金融数据脚本中的定义信息;
所述解析单元302,用于对每一待检测数据进行解析,得到所述每一待检测数据的解析结果;
所述检测单元303,用于根据预设的检测规则对所述解析结果进行检测,得到第一检测结果;
所述检测单元303,还用于使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果;
所述告警单元304,用于在所述第一检测结果和/或所述第二检测结果指示所述待检测数据存在错误的情况下,生成对应的告警信息;
所述发送单元305,用于向所述用户发送所述对应的告警信息。
可以看出,本申请实施例中所描述的数据检测装置,可对至少一个待检测数据进行解析,得到每一待检测数据的解析结果,并根据预设的检测规则对解析结果进行检测,得到第一检测结果,使用预设的数据标准库对解析结果中的目标字段进行检测,得到第二检测结果,在第一检测结果和/或第二检测结果指示待检测数据存在错误的情况下,生成对应的告警信息并向第二用户发送,如此,通过对解析结果的二次检测,有助于确保待检测数据的规范和统一,并有助于提高后续处理过程中对金融数据的处理效率。
在一个可能的示例中,在所述使用预设的数据标准库对所述解析结果中的所述目标字段进行检测,得到第二检测结果方面,所述检测单元303具体用于:
对所述目标字段进行分词,得到所述目标字段对应的至少一种分词结果,每一种分词结果中包括至少一个字词;
对所述每一种分词结果执行如下步骤A-B,得到至少一个分词准确率,每一种分词结果对应一个分词准确率:
步骤A:确定当前处理的分词结果中的每一个字词在预设的文本库中出现的频率,所述当前处理的分词结果中的每一个字词在预设的文本库中出现的频率为第一词频,所述第一词频为至少一个;
步骤B:对至少一个第一词频进行计算,得到所述当前处理的分词结果的分词准确率;
确定所述至少一个分词准确率中的最高值,以及所述至少一个分词准确率中的最高值对应的分词结果,所述至少一个分词准确率中的最高值对应的分词结果为目标分词结果;
使用预设的数据标准库对所述目标分词结果进行检测,得到第二检测结果。
在一个可能的示例中,若所述预设的文本库中不存在所述当前处理的分词结果中的字词,在所述确定当前处理的分词结果中的每一个字词在预设的文本库中出现的频率方面,所述检测单元303具体用于:
将第一字词对应的词频确定为第二词频,所述第一字词为所述预设的文本库中不存在的字词。
在一个可能的示例中,如图3B所示,与上述图3A相比较,装置300还可包括:再分词单元306、收录单元307和更新单元308,其中,
所述再分词单元306,用于通过隐马尔科夫模型对所述第一字词进行处理,得到再分词结果,所述再分词结果中包括至少一个字词;
所述收录单元307,用于将所述再分词结果中的所述至少一个字词收录于所述预设的文本库中;
所述更新单元308,用于更新所述再分词结果中的所述至少一个字词的词频。
在一个可能的示例中,所述预设的数据标准库中包括至少一个标准字词,每一标准字词对应一个定义字段,在所述使用预设的数据标准库对所述目标分词结果进行检测,得到第二检测结果方面,所述检测单元303具体用于:
在所述目标分词结果对应的字词中选取至少一个目标字词,所述至少一个目标字词用于表征所述定义信息中的关键信息;
对每一目标字词执行如下步骤C-D:
步骤C:确定当前处理的目标字词在所述目标字段中的TF-IDF值,所述当前处理的目标字词在所述目标字段中的TF-IDF值为第一TF-IDF值,所述第一TF-IDF值构成第一向量;
步骤D:确定所述当前处理的目标字词在所述每一标准字词的定义字段中的TF-IDF值,所述当前处理的目标字词在所述每一标准字词的定义字段中的TF-IDF值为第二TF-IDF值,一个标准字词的定义字段对应的第二TF-IDF值构成一个第二向量,所述第二向量为至少一个;
确定所述第一向量和每一第二向量的余弦相似度,得到至少一个余弦相似度;
确定所述至少一个余弦相似度中的最高值,以及所述至少一个余弦相似度中的最高值对应的标准字词,所述至少一个余弦相似度中的最高值对应的标准字词为目标标准字词;
将所述目标标准字词和所述目标字词进行匹配,得到第二检测结果。
在一个可能的示例中,在将所述目标标准字词和所述目标字词进行匹配,得到第二检测结果方面,所述检测单元303具体用于:
获取所述目标标准字词和所述目标字词的属性信息,所述属性信息包括中文名称、英文名称、数据类型和数据长度中的至少一个,所述目标标准字词的属性信息为第一属性信息,所述目标字词的属性信息为第二属性信息;
确定所述第一属性信息指示的至少一个要求;
若所述第二属性信息满足所述第一属性信息指示的全部要求,则将所述第二检测结果确定为所述待检测数据无错误;
若所述第二属性信息不满足所述第一属性信息指示的任意一项要求,或所述第二属性信息不满足所述第一属性信息中的多项要求,则将所述第二检测结果确定为所述待检测数据存在错误。
在一个可能的示例中,所述告警信息包括高风险告警信息、中风险告警信息和低风险告警信息,在所述生成对应的告警信息方面,所述告警单元304具体用于:
在所述第一检测结果和所述第二检测结果均指示所述待检测数据存在错误的情况下,生成所述高风险告警信息;
在所述第一检测结果或所述第二检测结果指示所述待检测数据存在错误,且错误存续时长大于或等于预设的时长阈值的情况下,生成所述中风险告警信息;
在所述第一检测结果或所述第二检测结果指示所述待检测数据存在错误,且错误存续时长小于所述预设的时长阈值的情况下,生成所述低风险告警信息。
可以理解的是,本实施例的数据检测装置的各程序模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。计算机程序产品应当理解为主要通过计算机程序实现其解决方案的软件产品。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory ,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (6)

1.一种数据检测方法,其特征在于,应用于证券公司综合服务系统中的数据整合服务器,所述证券公司综合服务系统包括数据采集服务器和所述数据整合服务器,所述数据采集服务器和所述数据整合服务器通信连接;所述方法包括:
获取所述数据采集服务器中的至少一个待检测数据,待检测数据用于指示第一用户提交和/或指定的金融数据脚本,所述待检测数据包括目标字段,所述目标字段用于表征所述第一用户对所述待检测数据在所述金融数据脚本中的定义信息;
对每一待检测数据进行解析,得到所述每一待检测数据的解析结果;
根据预设的检测规则对所述解析结果进行检测,得到第一检测结果;
对所述目标字段进行分词,得到所述目标字段对应的至少一种分词结果,每一种分词结果中包括至少一个字词;
对所述每一种分词结果执行如下步骤A-B,得到至少一个分词准确率,每一种分词结果对应一个分词准确率:
步骤A:确定当前处理的分词结果中的每一个字词在预设的文本库中出现的频率,所述当前处理的分词结果中的每一个字词在预设的文本库中出现的频率为第一词频,所述第一词频为至少一个;
步骤B:对至少一个第一词频进行计算,得到所述当前处理的分词结果的分词准确率;
确定所述至少一个分词准确率中的最高值,以及所述至少一个分词准确率中的最高值对应的分词结果,所述至少一个分词准确率中的最高值对应的分词结果为目标分词结果;
在所述目标分词结果对应的字词中选取至少一个目标字词,所述至少一个目标字词用于表征所述定义信息中的关键信息;
对每一目标字词执行如下步骤C-D:
步骤C:确定当前处理的目标字词在所述目标字段中的TF-IDF值,所述当前处理的目标字词在所述目标字段中的TF-IDF值为第一TF-IDF值,所述第一TF-IDF值构成第一向量;
步骤D:确定所述当前处理的目标字词在每一标准字词的定义字段中的TF-IDF值,所述当前处理的目标字词在每一标准字词的定义字段中的TF-IDF值为第二TF-IDF值,所述每一标准字词对应一个定义字段,一个标准字词的定义字段对应的第二TF-IDF值构成一个第二向量,所述第二向量为至少一个;
确定所述第一向量和每一第二向量的余弦相似度,得到至少一个余弦相似度;
确定所述至少一个余弦相似度中的最高值,以及所述至少一个余弦相似度中的最高值对应的标准字词,所述至少一个余弦相似度中的最高值对应的标准字词为目标标准字词;
获取所述目标标准字词和所述目标字词的属性信息,所述属性信息包括中文名称、英文名称、数据类型和数据长度中的至少一个,所述目标标准字词的属性信息为第一属性信息,所述目标字词的属性信息为第二属性信息;
确定所述第一属性信息指示的至少一个要求;
若所述第二属性信息满足所述第一属性信息指示的全部要求,则将第二检测结果确定为所述待检测数据无错误;
若所述第二属性信息不满足所述第一属性信息指示的任意一项要求,或所述第二属性信息不满足所述第一属性信息中的多项要求,则将所述第二检测结果确定为所述待检测数据存在错误;
在所述第一检测结果和所述第二检测结果均指示所述待检测数据存在错误的情况下,生成高风险告警信息;
在所述第一检测结果或所述第二检测结果指示所述待检测数据存在错误,且错误存续时长大于或等于预设的时长阈值的情况下,生成中风险告警信息;
在所述第一检测结果或所述第二检测结果指示所述待检测数据存在错误,且错误存续时长小于所述预设的时长阈值的情况下,生成低风险告警信息;
向第二用户发送所述高风险告警信息、所述中风险告警信息或所述低风险告警信息。
2.根据权利要求1所述的方法,其特征在于,若所述预设的文本库中不存在所述当前处理的分词结果中的字词,所述确定当前处理的分词结果中的每一个字词在预设的文本库中出现的频率,包括:
将第一字词对应的词频确定为第二词频,所述第一字词为所述预设的文本库中不存在的字词。
3.根据权利要求2所述的方法,其特征在于,在将第一字词对应的词频确定为第二词频之后,所述方法还包括:
通过隐马尔科夫模型对所述第一字词进行处理,得到再分词结果,所述再分词结果中包括至少一个字词;
将所述再分词结果中的至少一个字词收录于所述预设的文本库中;
更新所述再分词结果中的至少一个字词的词频。
4.一种数据检测装置,其特征在于,应用于证券公司综合服务系统中的数据整合服务器,所述证券公司综合服务系统包括数据采集服务器和所述数据整合服务器,所述数据采集服务器和所述数据整合服务器通信连接;所述装置包括:获取单元、解析单元、检测单元、告警单元和发送单元,其中,
所述获取单元,用于获取所述数据采集服务器中的至少一个待检测数据,待检测数据用于指示第一用户提交和/或指定的金融数据脚本,所述待检测数据包括目标字段,所述目标字段用于表征所述第一用户对所述待检测数据在所述金融数据脚本中的定义信息;
所述解析单元,用于对每一待检测数据进行解析,得到所述每一待检测数据的解析结果;
所述检测单元,用于根据预设的检测规则对所述解析结果进行检测,得到第一检测结果;
所述检测单元,还用于执行如下步骤:
对所述目标字段进行分词,得到所述目标字段对应的至少一种分词结果,每一种分词结果中包括至少一个字词;
对所述每一种分词结果执行如下步骤A-B,得到至少一个分词准确率,每一种分词结果对应一个分词准确率:
步骤A:确定当前处理的分词结果中的每一个字词在预设的文本库中出现的频率,所述当前处理的分词结果中的每一个字词在预设的文本库中出现的频率为第一词频,所述第一词频为至少一个;
步骤B:对至少一个第一词频进行计算,得到所述当前处理的分词结果的分词准确率;
确定所述至少一个分词准确率中的最高值,以及所述至少一个分词准确率中的最高值对应的分词结果,所述至少一个分词准确率中的最高值对应的分词结果为目标分词结果;
在所述目标分词结果对应的字词中选取至少一个目标字词,所述至少一个目标字词用于表征所述定义信息中的关键信息;
对每一目标字词执行如下步骤C-D:
步骤C:确定当前处理的目标字词在所述目标字段中的TF-IDF值,所述当前处理的目标字词在所述目标字段中的TF-IDF值为第一TF-IDF值,所述第一TF-IDF值构成第一向量;
步骤D:确定所述当前处理的目标字词在每一标准字词的定义字段中的TF-IDF值,所述当前处理的目标字词在每一标准字词的定义字段中的TF-IDF值为第二TF-IDF值,所述每一标准字词对应一个定义字段,一个标准字词的定义字段对应的第二TF-IDF值构成一个第二向量,所述第二向量为至少一个;
确定所述第一向量和每一第二向量的余弦相似度,得到至少一个余弦相似度;
确定所述至少一个余弦相似度中的最高值,以及所述至少一个余弦相似度中的最高值对应的标准字词,所述至少一个余弦相似度中的最高值对应的标准字词为目标标准字词;
获取所述目标标准字词和所述目标字词的属性信息,所述属性信息包括中文名称、英文名称、数据类型和数据长度中的至少一个,所述目标标准字词的属性信息为第一属性信息,所述目标字词的属性信息为第二属性信息;
确定所述第一属性信息指示的至少一个要求;
若所述第二属性信息满足所述第一属性信息指示的全部要求,则将第二检测结果确定为所述待检测数据无错误;
若所述第二属性信息不满足所述第一属性信息指示的任意一项要求,或所述第二属性信息不满足所述第一属性信息中的多项要求,则将所述第二检测结果确定为所述待检测数据存在错误;
所述告警单元,用于执行如下步骤:
在所述第一检测结果和所述第二检测结果均指示所述待检测数据存在错误的情况下,生成高风险告警信息;
在所述第一检测结果或所述第二检测结果指示所述待检测数据存在错误,且错误存续时长大于或等于预设的时长阈值的情况下,生成中风险告警信息;
在所述第一检测结果或所述第二检测结果指示所述待检测数据存在错误,且错误存续时长小于所述预设的时长阈值的情况下,生成低风险告警信息;
所述发送单元,用于向第二用户发送所述高风险告警信息、所述中风险告警信息或所述低风险告警信息。
5.一种服务器,包括处理器、存储器及存储在所述存储器上的计算机程序或指令,其特征在于,所述处理器执行所述计算机程序或指令以实现权利要求1-3任一项所述方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序或指令,所述计算机程序或指令被处理器执行时实现权利要求1-3任一项所述方法的步骤。
CN202211091002.7A 2022-09-07 2022-09-07 数据检测方法及相关装置 Active CN115186650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211091002.7A CN115186650B (zh) 2022-09-07 2022-09-07 数据检测方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211091002.7A CN115186650B (zh) 2022-09-07 2022-09-07 数据检测方法及相关装置

Publications (2)

Publication Number Publication Date
CN115186650A CN115186650A (zh) 2022-10-14
CN115186650B true CN115186650B (zh) 2022-12-09

Family

ID=83523169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211091002.7A Active CN115186650B (zh) 2022-09-07 2022-09-07 数据检测方法及相关装置

Country Status (1)

Country Link
CN (1) CN115186650B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523659B (zh) * 2023-03-13 2023-10-24 武汉凌禹信息科技有限公司 一种具备实时提醒的金融数据风险监控平台

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844560A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN108256074A (zh) * 2018-01-17 2018-07-06 链家网(北京)科技有限公司 校验处理的方法、装置、电子设备和存储介质
CN111104481A (zh) * 2019-12-17 2020-05-05 东软集团股份有限公司 一种识别匹配字段的方法、装置及设备
CN111159016A (zh) * 2019-12-16 2020-05-15 深圳前海微众银行股份有限公司 一种规范检测方法及装置
CN112507658A (zh) * 2020-12-04 2021-03-16 东软集团股份有限公司 一种预测模型生成、检测数据归一化的方法、装置及设备
CN113821646A (zh) * 2021-11-19 2021-12-21 达而观科技(北京)有限公司 基于语义检索的智能化专利相似度搜索方法及装置
CN114896466A (zh) * 2022-04-06 2022-08-12 北京月新时代科技股份有限公司 有字段名的井文件字段名自动匹配方法、系统、介质和计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3915015A4 (en) * 2019-01-21 2022-08-24 Bayestree Intelligence PVT Ltd. RECOMMENDATIONS AND RECOMMENDATION SYSTEM FOR ADMINISTRATION OF ENTERPRISE SERVICES

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844560A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN108256074A (zh) * 2018-01-17 2018-07-06 链家网(北京)科技有限公司 校验处理的方法、装置、电子设备和存储介质
CN111159016A (zh) * 2019-12-16 2020-05-15 深圳前海微众银行股份有限公司 一种规范检测方法及装置
CN111104481A (zh) * 2019-12-17 2020-05-05 东软集团股份有限公司 一种识别匹配字段的方法、装置及设备
CN112507658A (zh) * 2020-12-04 2021-03-16 东软集团股份有限公司 一种预测模型生成、检测数据归一化的方法、装置及设备
CN113821646A (zh) * 2021-11-19 2021-12-21 达而观科技(北京)有限公司 基于语义检索的智能化专利相似度搜索方法及装置
CN114896466A (zh) * 2022-04-06 2022-08-12 北京月新时代科技股份有限公司 有字段名的井文件字段名自动匹配方法、系统、介质和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Large Scale Financial Filing Analysis on HPCC System;Matthias Murray 等;《2020 IEEE International Conference on Big Data》;20210319;4429-4436 *
交通数据中文名称与标准术语对应方法研究与实现;李男男;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140515;I138-3121 *

Also Published As

Publication number Publication date
CN115186650A (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
US20200081899A1 (en) Automated database schema matching
CN110597964B (zh) 一种双录质检语义分析方法、装置及双录质检系统
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
US20120221508A1 (en) Systems and methods for efficient development of a rule-based system using crowd-sourcing
WO2014028860A2 (en) System and method for matching data using probabilistic modeling techniques
CN110929525B (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN110909540B (zh) 短信垃圾新词识别方法、装置及电子设备
CN110222192A (zh) 语料库建立方法及装置
CN116361815B (zh) 基于机器学习的代码敏感信息及硬编码检测方法及装置
CN115168345B (zh) 数据库分级分类方法、系统、装置及存储介质
CN115186650B (zh) 数据检测方法及相关装置
US11604923B2 (en) High volume message classification and distribution
US20220245377A1 (en) Automated text information extraction from electronic documents
CN112199480A (zh) 一种基于bert模型的在线对话日志违规检测方法及系统
CN112612810A (zh) 慢sql语句识别方法及系统
US11481389B2 (en) Generating an executable code based on a document
CN116578700A (zh) 日志分类方法、日志分类装置、设备及介质
CN113569578B (zh) 一种用户意图识别方法、装置和计算机设备
CN115952800A (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
CN115640378A (zh) 工单检索方法、服务器、介质及产品
CN111400413B (zh) 一种确定知识库中知识点类目的方法及系统
CN111199170B (zh) 配方文件识别方法及装置、电子设备、存储介质
CN113761875A (zh) 事件抽取方法、装置、电子设备及存储介质
CN111859896A (zh) 配方文档检测方法、装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant