CN109344394A - 一种文本类数据质量监控方法与系统 - Google Patents

一种文本类数据质量监控方法与系统 Download PDF

Info

Publication number
CN109344394A
CN109344394A CN201810999320.0A CN201810999320A CN109344394A CN 109344394 A CN109344394 A CN 109344394A CN 201810999320 A CN201810999320 A CN 201810999320A CN 109344394 A CN109344394 A CN 109344394A
Authority
CN
China
Prior art keywords
text
module
monitoring
data
monitored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810999320.0A
Other languages
English (en)
Other versions
CN109344394B (zh
Inventor
覃剑钊
陈海雯
杜瑞罡
蒋荣
谢军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gf Securities Co ltd
Original Assignee
Gf Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gf Securities Co ltd filed Critical Gf Securities Co ltd
Priority to CN201810999320.0A priority Critical patent/CN109344394B/zh
Publication of CN109344394A publication Critical patent/CN109344394A/zh
Application granted granted Critical
Publication of CN109344394B publication Critical patent/CN109344394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种文本类数据质量监控方法,其包括如下步骤:1)对待监控文本的读取设置;2)读取待监控文本,并约定标准格式;3)设置监控模型超参数;4)对监控规则进行自学习,和自动更新监控规则;5)人工对自生成的文本监控规则进行修改和调整;6)计算,并判断该新增数据是否触发数据异常报警;7)推送监控报警信息;8)接收反馈信息;其还公开了一种文本类数据质量监控系统;本发明提供的方法提高数据质量监控的质量、效率及覆盖面;系统支持人工设定监控规则,还能利用机器学习技术从文本中提取特征,利用待监控历史文本数据进行建模,人工可以接受自学习的默认规则也可以修改参数、添加手动规则,人机结合提供规则的可靠性。

Description

一种文本类数据质量监控方法与系统
技术领域
本发明涉及金融数据质量监控领域,尤其是涉及一种文本类数据质量监控方法与系统。
背景技术
文本数据是金融数据的重要组成部分,这些数据包括投资标的资讯、投资标的公告、产品说明、以及金融公司内部的文本交互等。这些文本数据是金融公司提供客户服务的重要基础,也是公司正常运行的重要基础。如果文本数据的完整性、正确性出现问题,轻则导致客户对公司的忠诚度下降,重则影响到客户的投资决策。如果公司内部的文本数据出现错误,会影响公司内部的日常运营,及时对文本数据的异常进行报警有利于发现公司内部文本流转过程中出现的合规风险。
本发明提出一种针对金融文本类数据质量监控方法及系统实现方案。该方法将人工设定的文本质量监控规则与机器自学习的文本质量监控规则相结合,以提高数据质量监控的质量、效率及覆盖面。系统即支持人工设定监控规则,还能利用机器学习技术从文本中提取特征,利用待监控历史文本数据进行建模,从而自动生成文本数据监控规则,人工可以接受自学习的默认规则也可以在自学习规则的基础上修改参数、添加手动规则,人机结合提供规则的可靠性。
发明内容
针对现在技术存在的上述不足,本发明的目的在于提供一种文本类数据质量监控方法,其包括如下步骤:
(1)对待监控文本的读取设置;
(2)根据步骤(1)的读取配置,从数据库中读取待监控数据,并把数据标准化成约定的格式;
(3)对智能监控规则模型,或自定义的文本监控模型超参数进行设置;
(4)根据智能监控规则模型和步骤(3)设置的自定义模型以及步骤(2)提取的历史文本特征对监控规则进行自学习,和根据待监控文本的更新特征对监控规则进行自动更新来适应文本特征的动态变化;
(5)人工对自生成的文本监控规则进行修改和调整,完善监控规则,或者由人工自主定义新的监控规则;
(6)根据步骤(4)自生成的数据监控规则综合步骤(5)人工自定义规则对新增待监控数据进行计算,并判断该新增数据是否触发数据异常报警;
(7)将输出的监控报警信息,包括触发报警的数据基本信息及报警级别等,利用消息推送系统,通过微信、短信、应用App等渠道推送给客户;
(8)接收运维人员对监控报警的反馈信息,并将该反馈信息反馈给数据监控规则更新模块根据人工反馈对监控规则进行调整和优化。
进一步地,所述步骤(2)包括如下步骤:
(2.1)根据数据读取配置从待监控数据池或数据API中读取数据;
(2.2)对步骤(2.1)中提取的数据文本进行数据向量化处理;
(2.2.1)分词与词向量模型建立与更新;
(2.2.1.1)金融类文本词汇收集与词库扩充;
(2.2.1.2)分词与词向量模型建立;
(2.2.1.3)定期更新词库与模型;
(2.2.2)利用步骤(2.2.1)得到的分词模型,词向量模型将对输入的文本进行向量化;
(2.2.2.1)分词;
(2.2.2.2)词向量化;
(2.2.2.3)文本向量化。
进一步地,所述步骤(4)还包括如下步骤:
(4.1)判断待监控文本对应的数据字段是否为新;
(4.2)如果步骤(4.1)判断为新的数据字段,则根据步骤(3)得到的监控模型及参数进行监控模型参数估计;
(4.3)如果不是新的待监控文本数据字段,则判断当前时间是否为待监控文本的更新时间点。如果到达更新时间点,则对监控规则的模型参数进行更新调整。否则结束当前步骤。
进一步地,本发明还提供一种文本类金融数据质量监控系统,包括待监控文本读取配置模块、文本特征提取模块、监控模型配置模块、文本监控规则自生成与更新模块、文本监控规则人工配置模块、调度模块、文本监控计算模块、消息推送模块、反馈模块;
待监控文本读取配置模块:该模块主要进行待监控文本的读取设置,同时也支持用户直接输入数据读取源代码脚本,所述待监控文本读取配置模块与文本特征提取模块电连接;
文本特征提取模块:该模块主要根据待监控文本读取配置模块的文本读取配置,从数据库或前端API接口中读取待监控文本,并从文本中提取特征,所述文本特征提取模块分别与文本监控规则自生成与更新模块、文本监控规则人工配置模块、文本监控计算模块电连接;
监控模型配置模块:该模块主要对智能监控规则模型,或自定义的文本监控模型超参数进行配置,所述监控模型配置模块与文本监控规则自生成与更新模块电连接;
文本监控规则自生成与更新模块:该模块根据智能监控规则模型和监控模型配置模块设置的自定义模型,以及文本特征提取模块提取的历史文本特征对监控规则进行自学习,或者根据待监控文本的更新特征对监控规则进行自动更新来适应文本特征的动态变化,所述文本监控规则自生成与更新模块分别与监控模型配置模块、反馈模块电连接;
文本监控规则人工配置模块:该模块支持人工对文本监控规则自生成与更新模块自生成的模型参数进行修改和调整,完善监控规则,或者由人工自主定义新的监控规则,所述文本监控规则人工配置模块与文本特征提取模块电连接;
调度模块:该模块主要完成系统中各个功能模块的统一调度和执行,所述调度模块分别与监控模型配置模块、消息推送模块电连接;
文本监控计算模块:该模块根据文本监控规则自生成与更新模块自生成的文本监控规则综合文本监控规则人工配置模块的人工自定义规则对新增待监控数据进行计算,并判断该新增数据是否触发数据异常报警,所述文本监控计算模块与消息推送模块电连接;
消息推送模块:该模块根据文本监控计算模块的计算结果向数据运维人员发出相关报警,所述消息推送模块与反馈模块电连接;
反馈模块:该模块主要接收数据运维人员对监控报警的反馈信息,并将该反馈信息反馈给文本监控规则更新模块根据人工反馈对模型进行调整和优化,所述反馈模块与文本监控规则自生成与更新模块电连接。
进一步地,所述文本特征提取模块包括待监控文本读取模块和文本数据向量化模块,所述的待监控文本读取模块根据待监控文本读取配置模块所设置好的文本读取方式对待监控文本和文本的历史正常数据进行读取;所述的文本数据向量化模块将待监控文本读取模块读取的文本数据映射到向量空间。
进一步地,所述待监控文本读取模块一般通过计算服务单元来完成,所述的计算服务单元采用分布式计算引擎实现。
本发明提供了一种文本类数据质量监控方法与系统实现,该方法将人工设定的文本质量监控规则与机器自学习的文本质量监控规则相结合,以提高数据质量监控的质量、效率及覆盖面。系统即支持人工设定监控规则,还能利用机器学习技术从文本中提取特征,利用待监控历史文本数据进行建模,从而自动生成文本数据监控规则,人工可以接受自学习的默认规则也可以在自学习规则的基础上修改参数、添加手动规则,人机结合提供规则的可靠性。
附图说明
图1:本发明的文本类数据质量监控方法具体步骤流程图;
图2:本发明的文本类数据质量监控方法步骤2具体流程图;
图3:本发明的文本类数据质量监控方法步骤2.2具体流程图;
图4:本发明的文本类数据质量监控方法步骤4具体流程图;
图5:本发明的文本类数据质量监控系统的模块结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1-5,本发明实施例提供一种文本类数据质量监控方法,其包括如下步骤:
(1)对待监控文本的读取设置;
(2)根据步骤(1)的文本读取设置,从数据库或前端API接口中读取待监控文本,并从文本中提取特征;
(3)对智能监控规则模型,或自定义的文本监控模型超参数进行设置;
(4)根据智能监控规则模型和步骤(3)设置的自定义模型以及步骤(2)提取的历史文本特征对监控规则进行自学习,和根据待监控文本的更新特征对监控规则进行自动更新来适应文本特征的动态变化;
(5)人工对自生成的文本监控规则进行修改和调整,完善监控规则,或者由人工自主定义新的监控规则;
(6)根据步骤(4)自生成的数据监控规则综合步骤(5)人工自定义规则对新增待监控数据进行计算,并判断该新增数据是否触发数据异常报警;
(7)将输出的监控报警信息,包括触发报警的数据基本信息及报警级别等,利用消息推送系统,通过微信、短信、应用App等渠道推送给客户;
(8)接收运维人员对监控报警的反馈信息,并将该反馈信息反馈给数据监控规则更新模块根据人工反馈对监控规则进行调整和优化。
所述步骤(2)包括如下步骤:
(2.1)根据数据读取配置从待监控数据池或数据API中读取数据;
(2.2)对步骤(2.1)中提取的数据文本进行数据向量化处理;
(2.2.1)分词与词向量模型建立与更新;
(2.2.1.1)金融类文本词汇收集与词库扩充,由于金融类文本里包含了大量金融专业术语和独特的金融产品名称。如果使用通用的分词模型容易导致文本分词结果错误,所以首先需要通过人工或新词发现的方法扩充分词模型的备选词库;
(2.2.1.2)分词与词向量模型建立,该步骤利用更新后的词库训练分词模型,常用的分词模型有隐马科夫模型(HMM),条件随机场(CRF)等模型。接着,通过采集wiki、金融资讯、金融公告等文本数据进行分词后,通过word2vec方法建立词向量模型,或者Facebook提出的Fasttext算法来建立。Fasttext中的词向量训练与word2vec相似,主要有两种方法,一种是通过中心词wt来预测周边词wt-2,wt-1,wt+1,wt+2,称为Skip-gram模型;另一种是通过周边词wt-2,wt-1,wt+1,wt+2来预测中心词wt,称为CBOW(Continuous Bag-Of-Words),即连续的词袋模型。二者都是通过计算单词之间的共现关系来实现训练的。即把相关词汇映射到词向量空间的模型;
(2.2.1.3)定期更新词库与模型,在一定的时间周期内(比如:5天)重复执行步骤(2.2.1.1),步骤(2.2.1.2)进行词库的持续扩充与分词、词向量模型的更新;
(2.2.2)利用步骤(2.2.1)得到的分词模型,词向量模型将对输入的文本进行向量化;
(2.2.2.1)分词,利用步骤(2.2.1)得到的分词模型对文本数据字段的历史文本数据进行分词;
(2.2.2.2)词向量化,利用(2.2.1)得到的词向量模型将步骤(2.2.2.1)的分词映射到词向量空间;
(2.2.2.3)文本向量化,计算每个文本数据样本词向量的分布(也可以采用词向量的逆向文本分布对词向量分布进行加权)用来形成每个文本数据的数值向量表达。
所述步骤(4)还包括如下步骤:
(4.1)判断待监控文本对应的数据字段是否为新;
(4.2)如果步骤(4.1)判断为新的数据字段,则根据步骤(3)得到的监控模型及参数进行监控模型参数估计;
(4.3)如果不是新的待监控文本数据字段,则判断当前时间是否为待监控文本的更新时间点。如果到达更新时间点,则对监控规则的模型参数进行更新调整。否则结束当前步骤。
本发明实施例还提供一种文本类金融数据质量监控系统,包括待监控文本读取配置模块1、文本特征提取模块2、监控模型配置模块3、文本监控规则自生成与更新模块4、文本监控规则人工配置模块5、调度模块6、文本监控计算模块7、消息推送模块8、反馈模块9。
待监控文本读取配置模块1,允许用户通过用户界面(基于Web等用户界面),对待监控文本的数据源(包括:数据库类型、IP地址、用户、密码、待监控文本所在的数据表及字段名等)、或者待监控文本前端读取接口进行配置;同时也支持用户输入符合系统设计标准的文本读取源代码模块(例如:用python或SQL编写的数据读取函数)。当用户在界面设置完成后,设置的内容将通过应用服务器(可采用微服务的方式实现)将设置内容写入应用数据库(可采用mysql,postgresql,mongo等数据库);
文本特征提取模块2,包含待监控文本读取模块和文本数据向量化模块。待监控文本读取模块根据模块1所设置好的文本读取方式对待监控文本和文本的历史正常数据进行读取。该模块通过计算服务单元来完成。面对海量的待监控数据,通常该计算服务单元可采用Apache Spark或可弹性扩展的容器化微服务等分布式计算引擎来实现。文本读取模块根据用户输入的数据库类型、IP地址、用户、密码、待监控文本所在的数据表及表中的字段名等参数调用对应的数据库读取代码对数据进行读取。如果用户配置了待监控文本的前端读取接口,则该模块根据配置的文本读取地址和参数进行数据获取。为了支持更丰富的文本读取方式,该模块也支持用户输入符合预订规范的文本读取代码模块供计算服务单元调用获取数据。文本数据向量化模块将待监控文本读取模块读取的文本数据映射到向量空间,映射过程通过步骤(2.2.1)、步骤(2.2.2)实现。
监控模型配置模块3,主要对自生成数据监控模型超参数进行配置来控制自生成模型对异常数据的敏感度等特性。
文本监控规则自生成与更新模块4,根据系统自生成监控模型和模块3设置的参数,以及模块2提取的文本数据特征向量对监控规则进行自学习,规则学习完成后则存入规则数据库。我们可以设置如下常用模型(但不限于)。
(1)高斯模型
如果我们认为待监控的文本数据特征向量服从高斯分布,则可以采用高斯模型进行规则建模。要进行高斯模型建模,需要计算历史文本数据特征向量的均值和协方差矩阵,μ,δ,从而得到文本数据的高斯检测模型,
(2)混合高斯模型
混合高斯模型也是常用的数值型数据建模工具之一。当待监控文本数据特征向量无法用高斯模型准确建模时,可以采用混合高斯模型对数据进行建模。混合高斯模型把数据取值的概率表示为多个高斯模型的线性加和,其中K为高斯模型的数目,ωi为i个高斯模型的权重,μi,σi,n为第i个高斯模型的均值,协方差矩阵及向量的维数。该模型的超参数(多个高斯模型的均值、协方差矩阵、线性加和的权重)可以采用EM(Expectation Maximization)算法在历史正常数据的基础上进行估计。
(3)One-class SVM模型
当待监控文本特征向量分布无法用上述模型简单表示。我们可以采用one-classSVM(单类支持向量机)对待监控数据进行建模。One-class SVM模型在异常事件检测中被广泛使用。该方法通过构造正常历史数据的支撑超平面,来检测待监控数据是否为正常数据。
由于不断会有新的数据更新到数据库中,该模块同时还需要根据新的数据对监控规则进行更新,更新方法可以采用全量历史数据对监控规则(模型参数)进行重新计算,也可以根据最近一段时间的正常历史数据对监控规则(模型参数)进行重新计算。
数据监控规则自生成与更新模块4可以实现步骤(4.1)、步骤(4.2)、步骤(4.3)。
模块4的所有计算均可以采用Apache Spark(图5(S4))或Apache Flink等分布式计算引擎实现。
这里就文本监控规则自生成与更新模块4中阐述的几种常用自动监控规则模型,获得新的待监控文本并进行模块2的特征提取后的检测计算方法进行介绍:(1)高斯模型检测
当待检测文本特征向量输入时,采用建立好的高斯模型估计出现该数值的概率p,其中μ,δ分别为模块4计算出来的均值和标准差。如果模块5中参数有人工修正,则计算以人工修正的参数为准。当计算的概率p低于设定的数值时(由模块4和模块5进行配置),则发出不同级别的报警信号;
(2)混合高斯模型检测
采用模块4建立好的高斯模型估计出现该数值x的概率,其中K为高斯模型的数目,ωi为i个高斯模型的权重,μi,σi为第i个高斯模型的均值和标准差。当输入数值的概率低于设定的数值时(由模块4进行配置),则发出不同级别的报警信号;
(3)one-class SVM模型检测
当输入待检测数据x,利用模块4建立的one-class SVM模型,计算模型的输出值,其中αi,ρ为模块4根据历史正常数据训练得到的模型参数。
上述的文本检测计算可以通过Apache Spark(图5(S4))计算引擎实现。对实时性要求较高的可通过Spark Streaming,Apache Flink来完成计算。
文本监控规则人工配置模块5,该模块支持人工对模块4自生成的文本监控规则进行修改和调整,完善监控规则,或者由人工自主定义新的监控规则。
采用机器学习产生的数据监控规则,在历史正常数据较少的情况,容易出现监控规则不够完善的情况,模块5支持人工对自动生成的监控规则进行修改和添加新的规则。让自动生成规则与人工规则相配合,提高系统的灵活性及适应性。
调度模块6,该模块主要完成系统中各个功能模块的统一调度和执行。
文本监控计算模块7,该模块根据模块4自生成的数据监控规则综合模块5的人工自定义规则对新增待监控数据进行计算,并判断该新增数据是否触发数据异常报警。
消息推送模块8,该模块将模块7输出的监控报警信息,包括触发报警的数据基本信息及报警级别等,利用消息推送系统,通过微信、短信、应用App等渠道推送给客户。例如:App推送可通过MQTT、XMPP等协议实现,也可以调用华为推送、阿里云移动推送、腾讯信鸽推送等第三方平台实现。
反馈模块9,该模块主要接收运维人员对监控报警的反馈信息,并将该反馈信息反馈给数据监控规则更新模块(模块4)根据人工反馈对监控规则进行调整和优化。如果人工反馈发出报警的信号为假信号,则需要反馈给模块4根据当前输入数值及时进行监控规则调整。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种文本类数据质量监控方法,其特征在于,其包括如下步骤:
(1)对待监控文本的读取设置;
(2)根据步骤(1)的读取配置,从数据库中读取待监控数据,并把数据标准化成约定的格式;
(3)对智能监控规则模型及超参数,或自定义的文本监控模型超参数进行设置;
(4)根据智能监控规则模型和步骤(3)设置的自定义模型以及步骤(2)提取的历史文本特征对监控规则进行自学习,和根据待监控文本的更新特征对监控规则进行自动更新来适应文本特征的动态变化;
(5)人工对自生成的文本监控规则进行修改和调整,完善监控规则,或
者由人工自主定义新的监控规则;
(6)根据步骤(4)自生成的数据监控规则综合步骤(5)人工自定义规则对新增待监控数据进行计算,并判断该新增数据是否触发数据异常报警;
(7)将输出的监控报警信息,包括触发报警的数据基本信息及报警级别等,利用消息推送系统推送给客户;
(8)接收运维人员对监控报警的反馈信息,并将该反馈信息反馈给数据监控规则更新模块根据人工反馈对监控规则进行调整和优化。
2.根据权利要求1所述的一种文本类数据质量监控方法,其特征在于:所述步骤(2)包括如下步骤:
(2.1)根据数据读取配置从待监控数据池或数据AP I中读取数据;
(2.2)对步骤(2.1)中提取的数据文本进行数据向量化处理;
(2.2.1)分词与词向量模型建立与更新;
(2.2.1.1)金融类文本词汇收集与词库扩充;
(2.2.1.2)分词与词向量模型建立;
(2.2.1.3)定期更新词库与模型;
(2.2.2)利用步骤(2.2.1)得到的分词模型,词向量模型将对输入的文本进行向量化;
(2.2.2.1)分词;
(2.2.2.2)词向量化;
(2.2.2.3)文本向量化。
3.根据权利要求1所述的一种文本类数据质量监控方法,其特征在于:所述步骤(4)还包括如下步骤:
(4.1)判断待监控文本对应的数据字段是否为新;
(4.2)如果步骤(4.1)判断为新的数据字段,则根据步骤(3)得到的监控模型及参数进行监控模型参数估计;
(4.3)如果不是新的待监控文本数据字段,则判断当前时间是否为待监控文本的更新时间点。如果到达更新时间点,则对监控规则的模型参数进行更新调整。否则结束当前步骤。
4.一种文本类金融数据质量监控系统,包括待监控文本读取配置模块、文本特征提取模块、监控模型配置模块、文本监控规则自生成与更新模块、文本监控规则人工配置模块、调度模块、文本监控计算模块、消息推送模块、反馈模块,其特征在于:
待监控文本读取配置模块:该模块主要进行待监控文本的读取设置,同时也支持用户直接输入数据读取源代码脚本,所述待监控文本读取配置模块与文本特征提取模块电连接;
文本特征提取模块:该模块主要根据待监控文本读取配置模块的文本读取配置,从数据库或前端AP I接口中读取待监控文本,并从文本中提取特征,所述文本特征提取模块分别与文本监控规则自生成与更新模块、文本监控规则人工配置模块、文本监控计算模块电连接;
监控模型配置模块:该模块主要对智能监控规则模型,或自定义的文本监控模型超参数进行配置,所述监控模型配置模块与文本监控规则自生成与更新模块电连接;
文本监控规则自生成与更新模块:该模块根据智能监控规则模型和监控模型配置模块设置的自定义模型,以及文本特征提取模块提取的历史文本特征对监控规则进行自学习,或者根据待监控文本的更新特征对监控规则进行自动更新来适应文本特征的动态变化,所述文本监控规则自生成与更新模块分别与监控模型配置模块、反馈模块电连接;
文本监控规则人工配置模块:该模块支持人工对文本监控规则自生成与更新模块自生成的模型参数进行修改和调整,完善监控规则,或者由人工自主定义新的监控规则,所述文本监控规则人工配置模块与文本特征提取模块电连接;
调度模块:该模块主要完成系统中各个功能模块的统一调度和执行,所述调度模块分别与监控模型配置模块、消息推送模块电连接;
文本监控计算模块:该模块根据文本监控规则自生成与更新模块自生成的文本监控规则综合文本监控规则人工配置模块的人工自定义规则对新增待监控数据进行计算,并判断该新增数据是否触发数据异常报警,所述文本监控计算模块与消息推送模块电连接;
消息推送模块:该模块根据文本监控计算模块的计算结果向数据运维人员发出相关报警,所述消息推送模块与反馈模块电连接;
反馈模块:该模块主要接收数据运维人员对监控报警的反馈信息,并将该反馈信息反馈给文本监控规则更新模块根据人工反馈对模型进行调整和优化,所述反馈模块与文本监控规则自生成与更新模块电连接。
5.根据权利要求4所述的一种文本类数据质量监控系统,其特征在于:所述文本特征提取模块包括待监控文本读取模块和文本数据向量化模块,所述的待监控文本读取模块根据待监控文本读取配置模块所设置好的文本读取方式对待监控文本和文本的历史正常数据进行读取;所述的文本数据向量化模块将待监控文本读取模块读取的文本数据映射到向量空间。
6.根据权利要求5所述的一种文本类数据质量监控系统,其特征在于:所述待监控文本读取模块一般通过计算服务单元来完成,所述的计算服务单元采用分布式计算引擎实现。
CN201810999320.0A 2018-08-30 2018-08-30 一种文本类数据质量监控系统 Active CN109344394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810999320.0A CN109344394B (zh) 2018-08-30 2018-08-30 一种文本类数据质量监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810999320.0A CN109344394B (zh) 2018-08-30 2018-08-30 一种文本类数据质量监控系统

Publications (2)

Publication Number Publication Date
CN109344394A true CN109344394A (zh) 2019-02-15
CN109344394B CN109344394B (zh) 2023-06-06

Family

ID=65292149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810999320.0A Active CN109344394B (zh) 2018-08-30 2018-08-30 一种文本类数据质量监控系统

Country Status (1)

Country Link
CN (1) CN109344394B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110035117A (zh) * 2019-03-15 2019-07-19 启迪云计算有限公司 一种基于可配置监控脚本监控系统及监控方法
CN110297742A (zh) * 2019-07-04 2019-10-01 北京百佑科技有限公司 数据监控系统、方法及服务器
CN111813837A (zh) * 2020-09-11 2020-10-23 成都寻道科技有限公司 一种智能检测数据质量的方法
CN113010508A (zh) * 2021-03-23 2021-06-22 内蒙古电力(集团)有限责任公司内蒙古电力科学研究院分公司 一种电力计量数据质量监控方法、装置及大数据计算平台
CN113157937A (zh) * 2021-03-04 2021-07-23 浙报融媒体科技(浙江)有限责任公司 基于流计算模型的机器实时自动写稿系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682067A (zh) * 2016-11-08 2017-05-17 浙江邦盛科技有限公司 一种基于交易数据的机器学习反欺诈监测系统
US20170147682A1 (en) * 2015-11-19 2017-05-25 King Abdulaziz City For Science And Technology Automated text-evaluation of user generated text
CN107220301A (zh) * 2017-05-10 2017-09-29 北京小度信息科技有限公司 一种可配置化的数据监控方法及装置
CN107741955A (zh) * 2017-09-15 2018-02-27 平安科技(深圳)有限公司 业务数据监控方法、装置、终端设备及存储介质
CN107909480A (zh) * 2017-12-26 2018-04-13 广发证券股份有限公司 一种生成定期投资执行策略的方法及装置
US20180204135A1 (en) * 2017-01-18 2018-07-19 Wipro Limited Systems and methods for improving accuracy of classification-based text data processing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147682A1 (en) * 2015-11-19 2017-05-25 King Abdulaziz City For Science And Technology Automated text-evaluation of user generated text
CN106682067A (zh) * 2016-11-08 2017-05-17 浙江邦盛科技有限公司 一种基于交易数据的机器学习反欺诈监测系统
US20180204135A1 (en) * 2017-01-18 2018-07-19 Wipro Limited Systems and methods for improving accuracy of classification-based text data processing
CN107220301A (zh) * 2017-05-10 2017-09-29 北京小度信息科技有限公司 一种可配置化的数据监控方法及装置
CN107741955A (zh) * 2017-09-15 2018-02-27 平安科技(深圳)有限公司 业务数据监控方法、装置、终端设备及存储介质
CN107909480A (zh) * 2017-12-26 2018-04-13 广发证券股份有限公司 一种生成定期投资执行策略的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵星: "监管科技在金融领域的应用与思考" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110035117A (zh) * 2019-03-15 2019-07-19 启迪云计算有限公司 一种基于可配置监控脚本监控系统及监控方法
CN110297742A (zh) * 2019-07-04 2019-10-01 北京百佑科技有限公司 数据监控系统、方法及服务器
CN110297742B (zh) * 2019-07-04 2023-12-19 北京百佑科技有限公司 数据监控系统、方法及服务器
CN111813837A (zh) * 2020-09-11 2020-10-23 成都寻道科技有限公司 一种智能检测数据质量的方法
CN113157937A (zh) * 2021-03-04 2021-07-23 浙报融媒体科技(浙江)有限责任公司 基于流计算模型的机器实时自动写稿系统及方法
CN113157937B (zh) * 2021-03-04 2023-06-06 浙报融媒体科技(浙江)股份有限公司 基于流计算模型的机器实时自动写稿系统及方法
CN113010508A (zh) * 2021-03-23 2021-06-22 内蒙古电力(集团)有限责任公司内蒙古电力科学研究院分公司 一种电力计量数据质量监控方法、装置及大数据计算平台

Also Published As

Publication number Publication date
CN109344394B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN109344394A (zh) 一种文本类数据质量监控方法与系统
CN109871401B (zh) 一种时间序列异常检测方法及装置
US20240086788A1 (en) Method and system for determining pressure regulation scheme at intelligent gas gate station based on internet of things
CN103929759B (zh) 一种基于病历的移动网网络优化方法及网络优化系统
US20230379604A1 (en) Method and internet of things system for gas usage monitoring and warning based on smart gas
CN104966227A (zh) 一种基于多种经营数据的企业风险评估系统
CN113627566A (zh) 一种网络诈骗的预警方法、装置和计算机设备
CN107239499A (zh) 基于多维异构数据源集成与整合模型的分析方法及系统
CN112348337A (zh) 一种基于人工智能的物资需求计划编制系统和方法
CN107918629A (zh) 一种告警故障的关联方法和装置
CN110298741A (zh) 一种财务欺诈风险识别系统
CN113780329A (zh) 用于识别数据异常的方法、装置、服务器和介质
CN111881961A (zh) 基于数据挖掘的配电网故障风险等级预测方法
CN111159429B (zh) 基于知识图谱的数据分析方法及装置、设备、存储介质
CN104021180A (zh) 一种组合式软件缺陷报告分类方法
CN113837545A (zh) 一种具有实时监控服务质量的电力客服系统
CN113485993A (zh) 数据识别方法以及装置
CN109102080B (zh) 一种数值型金融数据质量监控系统及方法
CN116304811B (zh) 一种基于焦点损失函数动态样本权重调整方法及系统
CN116562852B (zh) 基于知识图谱的配网停电信息管理系统
CN103841595A (zh) 一种基站信息监管系统
US20220231504A1 (en) Method, device and storage medium for training power system scheduling model
CN113946464B (zh) 一种结合模型及经验的预训练和并行推演的告警降噪方法
CN109669403A (zh) 一种基于dbn-softmax的涉危农业投入品智能监测系统
CN109657907A (zh) 地理国情监测数据的质量控制方法、装置和终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant