CN109344394A

CN109344394A - 一种文本类数据质量监控方法与系统

Info

Publication number: CN109344394A
Application number: CN201810999320.0A
Authority: CN
Inventors: 覃剑钊; 陈海雯; 杜瑞罡; 蒋荣; 谢军
Original assignee: Gf Securities Co ltd
Current assignee: Gf Securities Co ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-02-15
Anticipated expiration: 2038-08-30
Also published as: CN109344394B

Abstract

本发明公开了一种文本类数据质量监控方法，其包括如下步骤：1)对待监控文本的读取设置；2)读取待监控文本，并约定标准格式；3)设置监控模型超参数；4)对监控规则进行自学习，和自动更新监控规则；5)人工对自生成的文本监控规则进行修改和调整；6)计算，并判断该新增数据是否触发数据异常报警；7)推送监控报警信息；8)接收反馈信息；其还公开了一种文本类数据质量监控系统；本发明提供的方法提高数据质量监控的质量、效率及覆盖面；系统支持人工设定监控规则，还能利用机器学习技术从文本中提取特征，利用待监控历史文本数据进行建模，人工可以接受自学习的默认规则也可以修改参数、添加手动规则，人机结合提供规则的可靠性。

Description

一种文本类数据质量监控方法与系统

技术领域

本发明涉及金融数据质量监控领域，尤其是涉及一种文本类数据质量监控方法与系统。

背景技术

文本数据是金融数据的重要组成部分，这些数据包括投资标的资讯、投资标的公告、产品说明、以及金融公司内部的文本交互等。这些文本数据是金融公司提供客户服务的重要基础，也是公司正常运行的重要基础。如果文本数据的完整性、正确性出现问题，轻则导致客户对公司的忠诚度下降，重则影响到客户的投资决策。如果公司内部的文本数据出现错误，会影响公司内部的日常运营，及时对文本数据的异常进行报警有利于发现公司内部文本流转过程中出现的合规风险。

本发明提出一种针对金融文本类数据质量监控方法及系统实现方案。该方法将人工设定的文本质量监控规则与机器自学习的文本质量监控规则相结合，以提高数据质量监控的质量、效率及覆盖面。系统即支持人工设定监控规则，还能利用机器学习技术从文本中提取特征，利用待监控历史文本数据进行建模，从而自动生成文本数据监控规则，人工可以接受自学习的默认规则也可以在自学习规则的基础上修改参数、添加手动规则，人机结合提供规则的可靠性。

发明内容

针对现在技术存在的上述不足，本发明的目的在于提供一种文本类数据质量监控方法，其包括如下步骤：

(1)对待监控文本的读取设置；

(2)根据步骤(1)的读取配置，从数据库中读取待监控数据，并把数据标准化成约定的格式；

(3)对智能监控规则模型，或自定义的文本监控模型超参数进行设置；

(4)根据智能监控规则模型和步骤(3)设置的自定义模型以及步骤(2)提取的历史文本特征对监控规则进行自学习，和根据待监控文本的更新特征对监控规则进行自动更新来适应文本特征的动态变化；

(5)人工对自生成的文本监控规则进行修改和调整，完善监控规则，或者由人工自主定义新的监控规则；

(6)根据步骤(4)自生成的数据监控规则综合步骤(5)人工自定义规则对新增待监控数据进行计算，并判断该新增数据是否触发数据异常报警；

(7)将输出的监控报警信息，包括触发报警的数据基本信息及报警级别等，利用消息推送系统，通过微信、短信、应用App等渠道推送给客户；

(8)接收运维人员对监控报警的反馈信息，并将该反馈信息反馈给数据监控规则更新模块根据人工反馈对监控规则进行调整和优化。

进一步地，所述步骤(2)包括如下步骤：

(2.1)根据数据读取配置从待监控数据池或数据API中读取数据；

(2.2)对步骤(2.1)中提取的数据文本进行数据向量化处理；

(2.2.1)分词与词向量模型建立与更新；

(2.2.1.1)金融类文本词汇收集与词库扩充；

(2.2.1.2)分词与词向量模型建立；

(2.2.1.3)定期更新词库与模型；

(2.2.2)利用步骤(2.2.1)得到的分词模型，词向量模型将对输入的文本进行向量化；

(2.2.2.1)分词；

(2.2.2.2)词向量化；

(2.2.2.3)文本向量化。

进一步地，所述步骤(4)还包括如下步骤：

(4.1)判断待监控文本对应的数据字段是否为新；

(4.2)如果步骤(4.1)判断为新的数据字段，则根据步骤(3)得到的监控模型及参数进行监控模型参数估计；

(4.3)如果不是新的待监控文本数据字段，则判断当前时间是否为待监控文本的更新时间点。如果到达更新时间点，则对监控规则的模型参数进行更新调整。否则结束当前步骤。

进一步地，本发明还提供一种文本类金融数据质量监控系统，包括待监控文本读取配置模块、文本特征提取模块、监控模型配置模块、文本监控规则自生成与更新模块、文本监控规则人工配置模块、调度模块、文本监控计算模块、消息推送模块、反馈模块；

待监控文本读取配置模块：该模块主要进行待监控文本的读取设置，同时也支持用户直接输入数据读取源代码脚本，所述待监控文本读取配置模块与文本特征提取模块电连接；

文本特征提取模块：该模块主要根据待监控文本读取配置模块的文本读取配置，从数据库或前端API接口中读取待监控文本，并从文本中提取特征，所述文本特征提取模块分别与文本监控规则自生成与更新模块、文本监控规则人工配置模块、文本监控计算模块电连接；

监控模型配置模块：该模块主要对智能监控规则模型，或自定义的文本监控模型超参数进行配置，所述监控模型配置模块与文本监控规则自生成与更新模块电连接；

文本监控规则自生成与更新模块：该模块根据智能监控规则模型和监控模型配置模块设置的自定义模型，以及文本特征提取模块提取的历史文本特征对监控规则进行自学习，或者根据待监控文本的更新特征对监控规则进行自动更新来适应文本特征的动态变化，所述文本监控规则自生成与更新模块分别与监控模型配置模块、反馈模块电连接；

文本监控规则人工配置模块：该模块支持人工对文本监控规则自生成与更新模块自生成的模型参数进行修改和调整，完善监控规则，或者由人工自主定义新的监控规则，所述文本监控规则人工配置模块与文本特征提取模块电连接；

调度模块：该模块主要完成系统中各个功能模块的统一调度和执行，所述调度模块分别与监控模型配置模块、消息推送模块电连接；

文本监控计算模块：该模块根据文本监控规则自生成与更新模块自生成的文本监控规则综合文本监控规则人工配置模块的人工自定义规则对新增待监控数据进行计算，并判断该新增数据是否触发数据异常报警，所述文本监控计算模块与消息推送模块电连接；

消息推送模块：该模块根据文本监控计算模块的计算结果向数据运维人员发出相关报警，所述消息推送模块与反馈模块电连接；

反馈模块：该模块主要接收数据运维人员对监控报警的反馈信息，并将该反馈信息反馈给文本监控规则更新模块根据人工反馈对模型进行调整和优化，所述反馈模块与文本监控规则自生成与更新模块电连接。

进一步地，所述文本特征提取模块包括待监控文本读取模块和文本数据向量化模块，所述的待监控文本读取模块根据待监控文本读取配置模块所设置好的文本读取方式对待监控文本和文本的历史正常数据进行读取；所述的文本数据向量化模块将待监控文本读取模块读取的文本数据映射到向量空间。

进一步地，所述待监控文本读取模块一般通过计算服务单元来完成，所述的计算服务单元采用分布式计算引擎实现。

本发明提供了一种文本类数据质量监控方法与系统实现，该方法将人工设定的文本质量监控规则与机器自学习的文本质量监控规则相结合，以提高数据质量监控的质量、效率及覆盖面。系统即支持人工设定监控规则，还能利用机器学习技术从文本中提取特征，利用待监控历史文本数据进行建模，从而自动生成文本数据监控规则，人工可以接受自学习的默认规则也可以在自学习规则的基础上修改参数、添加手动规则，人机结合提供规则的可靠性。

附图说明

图1：本发明的文本类数据质量监控方法具体步骤流程图；

图2：本发明的文本类数据质量监控方法步骤2具体流程图；

图3：本发明的文本类数据质量监控方法步骤2.2具体流程图；

图4：本发明的文本类数据质量监控方法步骤4具体流程图；

图5：本发明的文本类数据质量监控系统的模块结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1-5，本发明实施例提供一种文本类数据质量监控方法，其包括如下步骤：

(1)对待监控文本的读取设置；

(2)根据步骤(1)的文本读取设置，从数据库或前端API接口中读取待监控文本，并从文本中提取特征；

所述步骤(2)包括如下步骤：

(2.2)对步骤(2.1)中提取的数据文本进行数据向量化处理；

(2.2.1)分词与词向量模型建立与更新；

(2.2.1.1)金融类文本词汇收集与词库扩充，由于金融类文本里包含了大量金融专业术语和独特的金融产品名称。如果使用通用的分词模型容易导致文本分词结果错误，所以首先需要通过人工或新词发现的方法扩充分词模型的备选词库；

(2.2.1.2)分词与词向量模型建立，该步骤利用更新后的词库训练分词模型，常用的分词模型有隐马科夫模型(HMM)，条件随机场(CRF)等模型。接着，通过采集wiki、金融资讯、金融公告等文本数据进行分词后，通过word2vec方法建立词向量模型，或者Facebook提出的Fasttext算法来建立。Fasttext中的词向量训练与word2vec相似，主要有两种方法，一种是通过中心词w_t来预测周边词w_t-2，w_t-1，w_t+1，w_t+2，称为Skip-gram模型；另一种是通过周边词w_t-2，w_t-1，w_t+1，w_t+2来预测中心词w_t，称为CBOW(Continuous Bag-Of-Words)，即连续的词袋模型。二者都是通过计算单词之间的共现关系来实现训练的。即把相关词汇映射到词向量空间的模型；

(2.2.1.3)定期更新词库与模型，在一定的时间周期内(比如：5天)重复执行步骤(2.2.1.1)，步骤(2.2.1.2)进行词库的持续扩充与分词、词向量模型的更新；

(2.2.2.1)分词，利用步骤(2.2.1)得到的分词模型对文本数据字段的历史文本数据进行分词；

(2.2.2.2)词向量化，利用(2.2.1)得到的词向量模型将步骤(2.2.2.1)的分词映射到词向量空间；

(2.2.2.3)文本向量化，计算每个文本数据样本词向量的分布(也可以采用词向量的逆向文本分布对词向量分布进行加权)用来形成每个文本数据的数值向量表达。

所述步骤(4)还包括如下步骤：

(4.1)判断待监控文本对应的数据字段是否为新；

本发明实施例还提供一种文本类金融数据质量监控系统，包括待监控文本读取配置模块1、文本特征提取模块2、监控模型配置模块3、文本监控规则自生成与更新模块4、文本监控规则人工配置模块5、调度模块6、文本监控计算模块7、消息推送模块8、反馈模块9。

待监控文本读取配置模块1，允许用户通过用户界面(基于Web等用户界面)，对待监控文本的数据源(包括：数据库类型、IP地址、用户、密码、待监控文本所在的数据表及字段名等)、或者待监控文本前端读取接口进行配置；同时也支持用户输入符合系统设计标准的文本读取源代码模块(例如：用python或SQL编写的数据读取函数)。当用户在界面设置完成后，设置的内容将通过应用服务器(可采用微服务的方式实现)将设置内容写入应用数据库(可采用mysql，postgresql，mongo等数据库)；

文本特征提取模块2，包含待监控文本读取模块和文本数据向量化模块。待监控文本读取模块根据模块1所设置好的文本读取方式对待监控文本和文本的历史正常数据进行读取。该模块通过计算服务单元来完成。面对海量的待监控数据，通常该计算服务单元可采用Apache Spark或可弹性扩展的容器化微服务等分布式计算引擎来实现。文本读取模块根据用户输入的数据库类型、IP地址、用户、密码、待监控文本所在的数据表及表中的字段名等参数调用对应的数据库读取代码对数据进行读取。如果用户配置了待监控文本的前端读取接口，则该模块根据配置的文本读取地址和参数进行数据获取。为了支持更丰富的文本读取方式，该模块也支持用户输入符合预订规范的文本读取代码模块供计算服务单元调用获取数据。文本数据向量化模块将待监控文本读取模块读取的文本数据映射到向量空间，映射过程通过步骤(2.2.1)、步骤(2.2.2)实现。

监控模型配置模块3，主要对自生成数据监控模型超参数进行配置来控制自生成模型对异常数据的敏感度等特性。

文本监控规则自生成与更新模块4，根据系统自生成监控模型和模块3设置的参数，以及模块2提取的文本数据特征向量对监控规则进行自学习，规则学习完成后则存入规则数据库。我们可以设置如下常用模型(但不限于)。

(1)高斯模型

如果我们认为待监控的文本数据特征向量服从高斯分布，则可以采用高斯模型进行规则建模。要进行高斯模型建模，需要计算历史文本数据特征向量的均值和协方差矩阵，μ，δ，从而得到文本数据的高斯检测模型，

(2)混合高斯模型

混合高斯模型也是常用的数值型数据建模工具之一。当待监控文本数据特征向量无法用高斯模型准确建模时，可以采用混合高斯模型对数据进行建模。混合高斯模型把数据取值的概率表示为多个高斯模型的线性加和，其中K为高斯模型的数目，ω_i为i个高斯模型的权重，μ_i，σ_i，n为第i个高斯模型的均值，协方差矩阵及向量的维数。该模型的超参数(多个高斯模型的均值、协方差矩阵、线性加和的权重)可以采用EM(Expectation Maximization)算法在历史正常数据的基础上进行估计。

(3)One-class SVM模型

当待监控文本特征向量分布无法用上述模型简单表示。我们可以采用one-classSVM(单类支持向量机)对待监控数据进行建模。One-class SVM模型在异常事件检测中被广泛使用。该方法通过构造正常历史数据的支撑超平面，来检测待监控数据是否为正常数据。

由于不断会有新的数据更新到数据库中，该模块同时还需要根据新的数据对监控规则进行更新，更新方法可以采用全量历史数据对监控规则(模型参数)进行重新计算，也可以根据最近一段时间的正常历史数据对监控规则(模型参数)进行重新计算。

数据监控规则自生成与更新模块4可以实现步骤(4.1)、步骤(4.2)、步骤(4.3)。

模块4的所有计算均可以采用Apache Spark(图5(S4))或Apache Flink等分布式计算引擎实现。

这里就文本监控规则自生成与更新模块4中阐述的几种常用自动监控规则模型，获得新的待监控文本并进行模块2的特征提取后的检测计算方法进行介绍：(1)高斯模型检测

当待检测文本特征向量输入时，采用建立好的高斯模型估计出现该数值的概率p，其中μ，δ分别为模块4计算出来的均值和标准差。如果模块5中参数有人工修正，则计算以人工修正的参数为准。当计算的概率p低于设定的数值时(由模块4和模块5进行配置)，则发出不同级别的报警信号；

(2)混合高斯模型检测

采用模块4建立好的高斯模型估计出现该数值x的概率，其中K为高斯模型的数目，ω_i为i个高斯模型的权重，μ_i，σ_i为第i个高斯模型的均值和标准差。当输入数值的概率低于设定的数值时(由模块4进行配置)，则发出不同级别的报警信号；

(3)one-class SVM模型检测

当输入待检测数据x，利用模块4建立的one-class SVM模型，计算模型的输出值，其中α_i，ρ为模块4根据历史正常数据训练得到的模型参数。

上述的文本检测计算可以通过Apache Spark(图5(S4))计算引擎实现。对实时性要求较高的可通过Spark Streaming，Apache Flink来完成计算。

文本监控规则人工配置模块5，该模块支持人工对模块4自生成的文本监控规则进行修改和调整，完善监控规则，或者由人工自主定义新的监控规则。

采用机器学习产生的数据监控规则，在历史正常数据较少的情况，容易出现监控规则不够完善的情况，模块5支持人工对自动生成的监控规则进行修改和添加新的规则。让自动生成规则与人工规则相配合，提高系统的灵活性及适应性。

调度模块6，该模块主要完成系统中各个功能模块的统一调度和执行。

文本监控计算模块7，该模块根据模块4自生成的数据监控规则综合模块5的人工自定义规则对新增待监控数据进行计算，并判断该新增数据是否触发数据异常报警。

消息推送模块8，该模块将模块7输出的监控报警信息，包括触发报警的数据基本信息及报警级别等，利用消息推送系统，通过微信、短信、应用App等渠道推送给客户。例如：App推送可通过MQTT、XMPP等协议实现，也可以调用华为推送、阿里云移动推送、腾讯信鸽推送等第三方平台实现。

反馈模块9，该模块主要接收运维人员对监控报警的反馈信息，并将该反馈信息反馈给数据监控规则更新模块(模块4)根据人工反馈对监控规则进行调整和优化。如果人工反馈发出报警的信号为假信号，则需要反馈给模块4根据当前输入数值及时进行监控规则调整。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本类数据质量监控方法，其特征在于，其包括如下步骤：

(1)对待监控文本的读取设置；

(3)对智能监控规则模型及超参数，或自定义的文本监控模型超参数进行设置；

(5)人工对自生成的文本监控规则进行修改和调整，完善监控规则，或

者由人工自主定义新的监控规则；

(7)将输出的监控报警信息，包括触发报警的数据基本信息及报警级别等，利用消息推送系统推送给客户；

2.根据权利要求1所述的一种文本类数据质量监控方法，其特征在于：所述步骤(2)包括如下步骤：

(2.1)根据数据读取配置从待监控数据池或数据AP I中读取数据；

(2.2)对步骤(2.1)中提取的数据文本进行数据向量化处理；

(2.2.1)分词与词向量模型建立与更新；

(2.2.1.1)金融类文本词汇收集与词库扩充；

(2.2.1.2)分词与词向量模型建立；

(2.2.1.3)定期更新词库与模型；

(2.2.2.1)分词；

(2.2.2.2)词向量化；

(2.2.2.3)文本向量化。

3.根据权利要求1所述的一种文本类数据质量监控方法，其特征在于：所述步骤(4)还包括如下步骤：

(4.1)判断待监控文本对应的数据字段是否为新；

4.一种文本类金融数据质量监控系统，包括待监控文本读取配置模块、文本特征提取模块、监控模型配置模块、文本监控规则自生成与更新模块、文本监控规则人工配置模块、调度模块、文本监控计算模块、消息推送模块、反馈模块，其特征在于：

文本特征提取模块：该模块主要根据待监控文本读取配置模块的文本读取配置，从数据库或前端AP I接口中读取待监控文本，并从文本中提取特征，所述文本特征提取模块分别与文本监控规则自生成与更新模块、文本监控规则人工配置模块、文本监控计算模块电连接；

5.根据权利要求4所述的一种文本类数据质量监控系统，其特征在于：所述文本特征提取模块包括待监控文本读取模块和文本数据向量化模块，所述的待监控文本读取模块根据待监控文本读取配置模块所设置好的文本读取方式对待监控文本和文本的历史正常数据进行读取；所述的文本数据向量化模块将待监控文本读取模块读取的文本数据映射到向量空间。

6.根据权利要求5所述的一种文本类数据质量监控系统，其特征在于：所述待监控文本读取模块一般通过计算服务单元来完成，所述的计算服务单元采用分布式计算引擎实现。