CN109710413B

CN109710413B - 一种半结构化文本数据的规则引擎系统的整体计算方法

Info

Publication number: CN109710413B
Application number: CN201811634362.0A
Authority: CN
Inventors: 刘德彬; 陈玮; 孙世通; 严开
Original assignee: Chongqing Socialcredits Big Data Technology Co ltd
Current assignee: Chongqing Yucun Technology Co ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2020-09-08
Anticipated expiration: 2038-12-29
Also published as: CN109710413A

Abstract

一种半结构化文本数据的规则引擎系统的整体计算方法，包括以下步骤：S1、枚举企业基础信息与文本抽取信息的数据类型组合；S2、定义底层量化模块的运算体系；S3、定义指标依赖的字段及字段类型，S4、将字段配置在脚本代码头部并将指标上传至数据接入模块中；S5、通过解析脚本代码中指标依赖的字段读取外部数据库；S6、得到筛选后的统一格式的新数据并传入指标运算层；S7、在总服务器上配置Spark集群；S8、设置指标脚本驱动模块；S9、将新数据带入规则中形成整体的指标运算任务；S10、将任务指派给Spark集群中的Cluster管理器；S11、Cluster管理器将任务进行拆解；S12、将拆解的指标运算任务挂载相对闲置的其他服务器。本方法能对多来源数据接入并快速得到想要的数据。

Description

一种半结构化文本数据的规则引擎系统的整体计算方法

技术领域

本发明涉及计算机科学软件信息技术领域，特别是涉及一种半结构化文本数据的规则引擎系统的整体计算方法。

背景技术

规则引擎近年来被广泛应用于泛金融及反欺诈领域，帮助监控和发现目标客户群体中的异常、风险、商机等。在数据层面，支撑传统规则引擎的，大多为用户行为(如登录、注册、浏览、收藏、消费等)数据、企业财务数据等，这类数据大多有着结构化、可度量的特性。例如用户行为数据就离不开次数、频率、价格、时间等概念。然而在面对处理互联网上爬取的大量非结构化、半结构化数据时，传统的规则引擎面临难以量化文本信息的挑战。因为传统的规则引擎，其底层存储通常是结构化的数据表，指标或规则的配置则依赖于这些字段。然而，在非结构化或者半结构化数据领域中，数据存在多源、多类型、异构特质，由此给传统规则引擎带来的问题有以下3点：

1.在配置不同应用场景的指标、规则时，很难做到在字段层面从各数据源无冗余地获取所需数据；

2.不同来源的字段存在精度不同、字段类型不兼容的情况，基于JSON格式的数据有着较复杂的数据结构，使得与关系型数据库数据的字段联合使用时，存在格式一致性转换的难点。

3.在非结构化、或者半结构化文本数据领域，不能灵活实现量化规则配置。

发明内容

针对上述现有技术的不足，本发明提供了一种半结构化文本数据的规则引擎系统的整体计算方法，对多来源数据接入后，快速得到想要的数据。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种半结构化文本数据的规则引擎系统的整体计算方法，包括数据融合层、数据处理层和指标运算层，该方法包括以下步骤：

S1、枚举企业基础信息与文本抽取信息的数据类型组合，定义各数据类型之间的计算方式，所述企业基础信息与文本抽取信息的数据类型为底层量化模块；

S2、根据底层量化模块的类型，定义底层量化模块的运算体系；

S3、在所述指标运算层的指标配置模块中定义指标依赖的字段及字段类型，根据不同的场景所涉及的内容，将各个指标依赖的字段通过S2定义的运算体系配置成指标；并将所述指标通过逻辑运算得到指标组，所述指标组通过逻辑运算得到规则；

S4、将所述指标依赖的字段以约定的规范配置在脚本代码头部并将指标上传至数据接入模块中；

S5、所述数据接入模块通过解析脚本代码中所述指标依赖的字段读取与所述数据接入模块连接的外部数据库；用以认证外部数据库的host,port,database信息；

S6、所述数据接入模块读取外部数据库的数据通过所述数据处理层进行数据的处理，得到筛选后的统一格式的新数据并传入所述指标运算层；所述指标运算层设置在多个服务器上，所述多个服务器分为包括总服务器和若干分服务器；

S7、在所述总服务器上配置Spark集群，将除总服务器以外的所有分服务器的IP地址设置到所述总服务器的Spark集群中；

S8、在所述总服务器上设置指标脚本驱动模块，在设置脚本驱动模块时设置逻辑控制参数和SparkContext，所述逻辑控制参数通过所述SparkContext传输给Spark集群的Cluster管理器；

S9、将新数据带入所述规则中形成整体的指标运算任务；

S10、所述脚本驱动模块将整体的指标运算任务指派给所述Spark集群中的Cluster管理器；

S11、通过MapReduce机制，所述Cluster管理器将整体的指标运算任务进行拆解；

S12、所述Cluster管理器将拆解后的指标运算任务依据分服务器的“繁忙程度”，挂载到相对闲置的分服务器上；

S13、每台分服务器在执行完指标运算任务后，将执行结果传输至缓存模块进行存储并返回至所述总服务器。

作为优化，所述数据处理层包括M个基于自选条件的数据筛选器和数据标准化模块，通过设置N个条件的“与/或”逻辑来配置数据筛选器；其中，M、N均为不小于1的正整数。

作为优化，所述数据标准化模块为基于GraphQL的模块。

作为优化，步骤S2中的运算体系包括四则运算、函数运算、逻辑运算、集合运算。

作为优化，所述步骤S12中，判断分服务器的“繁忙程度”是根据Nginx负载均衡进行判断的。

作为优化，所述Nginx实现负载均衡的策略为轮询分配法，每个指标运算任务按时间顺序逐一分配到分服务器，如果某一服务器宕掉，自动剔除，剩下的继续轮询。

作为优化，所述Nginx实现负载均衡的策略为权重分配法，通过监控分服务器的CPU的占用率来配置访问服务器的权重，指定访问服务器的几率，所述权重和访问几率成正比。

作为优化，所述外部数据库的类型包括关系型数据库、非关系型数据库、Elasticsearch、数据仓库、文本文件。

本发明的有益效果是：

本方法可以在配置不同应用场景的指标、规则时，做到在字段层面从各数据源无冗余地获取所需数据；对不同来源的字段可以统一格式，在非结构化、或者半结构化文本数据领域，能灵活实现量化规则配置。

附图说明

图1为本发明一种半结构化文本数据的规则引擎系统的整体计算方法的方法流程图。

图2为本发明一种半结构化文本数据的规则引擎系统的结构图。

图3为指标的群集运算的局部系统架构图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

如图1-2所示，一种半结构化文本数据的规则引擎系统的整体计算方法，包括数据融合层、数据处理层和指标运算层，该方法包括以下步骤：

S1、枚举企业基础信息与文本抽取信息的数据类型组合，定义各数据类型之间的计算方式，企业基础信息与文本抽取信息的数据类型为底层量化模块。通过统计，底层量化模块分为5类：字符串类(string)、数值类(numeric)、时间类(datetime)、地址类(string，继承字符串类，含经纬度属性)、布尔类(boolean)。

S2、根据底层量化模块的类型，定义底层量化模块的运算体系。本实施例中，运算体系包括四则运算、函数运算、逻辑运算、集合运算。

四则运算包括+(加)、-(减)、*(乘)、/(除)；函数运算包括len、sum、avg、max、min、log、sqrt(平方根)、square(平方)、ceil、floor、power(指数幂)、mod(取余数)；逻辑运算包括not、and,or、

(包含)、startswith、endswith；集合运算包括∩(交集)、∪(并集)、diff(差集)。

其中，四则运算，左变量类型为numeric，右变量类型为numeric，结果类型为numeric；

函数运算，对于符号len，左变量类型为List(string)、List(numeric)时，右变量类型可以为任意类型，结果类型为numeric；

函数运算，对于符号sum、avg、max、min，左变量类型为List(numeric)时，右变量类型可以为任意类型，结果类型为numeric；

函数运算，对于符号log、sqrt(平方根)、square(平方)、ceil、floor，左变量类型为numeric时，右变量类型可以为任意类型，结果类型为numeric；

函数运算，对于符号og、sqrt(平方根)、square(平方)、ceil、floor，左变量类型为List(numeric)时，右变量类型可以为任意类型，结果类型为List(numeric)；

函数运算，对于符号power(指数幂)、mod(取余数)，左变量类型为numeric时，右变量类型为numeric，结果类型为numeric；

函数运算，对于符号power(指数幂)、mod(取余数)，左变量类型为List(numeric)时，右变量类型为numeric，结果类型为List(numeric)；

逻辑运算，对于符号not，左变量类型为boolean时，右变量类型可以为任意类型，结果类型为boolean；

逻辑运算，对于符号and,or，左变量类型为boolean时，右变量类型为boolean，结果类型为boolean；

逻辑运算，对于符号

(包含)，左变量类型为List(string)、string时，右变量类型为string，结果类型为boolean；

逻辑运算，对于符号

(包含)，左变量类型为List(numeric)时，右变量类型为numeric，结果类型为boolean；

逻辑运算，对于符号startswith、endswith，左变量类型为string，右变量类型为string，结果类型为boolean；

集合运算，对于符号∩(交集),∪(并集),diff(差集)，左变量类型为List(numeric)时，右变量类型为List(numeric)，结果类型为List(numeric)；

集合运算，对于符号∩(交集),∪(并集),diff(差集)，左变量类型为List(string)时，右变量类型为List(string)，结果类型为List(numeric)。

其中，List(numeric)，表示以数值类型填充的列表数据，List(string)，表示以字符串类型填充的列表数据。

在逻辑运算中：

对于

(包含)：字符串可以包含特定子串、字符串列表包含特定短语。例如，假定【指标A

指标B】；或者【指标A

input】。这里指标B以及规则配置者输入的input字符串就是包含运算中的特定子串，特定子串用来判断与左变量的包含关系是否成立。例如，假定指标A为123，指标B为12，指标A

指标B结果值为真。

startswith:字符串以特定文本作为开始；

endswith:字符串以特定文本作为结束。

startswith和endswith是函数，需要入参。比如：

“book”.startswith(“bo”)→True,指book这个字符串以bo开头。

这里”bo”作为入参，就是一个由规则配置者决定的特定文本。

执行本申请的方法的规则引擎需要能够支持数值列表之间的交、并、差集运算、字符串列表之间的交、并、差集运算。

S3、在指标运算层的指标配置模块中定义指标依赖的字段及字段类型，根据不同的场景所涉及的内容，将各个指标依赖的字段通过S2定义的运算体系配置成指标；并将指标通过逻辑运算得到指标组，指标组通过逻辑运算得到规则。

例如f1(Int),f2(ListofInt),f3(String),f4(ListofInt)为4个指标依赖的字段，通过自定义的串接形式得到的指标可能为：(f1+max(f2∩f4))/length(f3)。具体根据人为的设定条件进行设定串接方式。

而某规则的表现形式可以抽象为：

RULE＝INDEX_SET_AandINDEX_SET_BorINDEX_SET_C

INDEX_SET_A＝(INDEX_A1orINDEX_A2)andINDEX_A3

INDEX_SET_B＝INDEX_B1orINDEX_B2

INDEX_SET_C＝INDEX_C1

其中，INDEX_A1、INDEX_A2、INDEX_A3、INDEX_B1、INDEX_B2、INDEX_C1是指标，INDEX_SET_A、INDEX_SET_B、INDEX_SET_C是指标组，RULE是规则。其中，指标组和指标为1对多关系；规则和指标组为1对多关系，指标组、规则均为布尔类型。

S4、将指标依赖的字段以约定的规范配置在脚本代码头部并将指标上传至数据接入模块中。

例如，【指标A】：“判决文书中，1年内主体累计涉及的金额”时，依赖的字段有：

·Litigant.name，当事人名称

·Lawsuit.amount，涉案金额

·trialDate，判决时间

·将指标依赖的字段以约定的规范配置在脚本代码头部，配置如下：

·src：search-law-xxxxxxxx.amazonaws.com.cn

·-Litigant.name

·-Lawsuit.amount

·-trialDate

·-type

·src：jdbc:mysql://ip:port/db

·-companyName

·-frName

这里的约定的规范是根据指标的实现所依赖的计算机语言的编码特性，在系统开发方和系统使用方(在业务场景中为配置规则的一方)之间约定的规范，用以让系统运行指标时能够明白，从哪些数据源获取依赖的数据字段。不同的计算机语言环境有不同的约定规范。本实施例的语言环境是Java的计算机语言环境，所以运用的是Java的规范。

S5、数据接入模块通过解析脚本代码中指标依赖的字段读取与数据接入模块连接的外部数据库；用以认证外部数据库的host,port,database信息。

将指标依赖的字段上传至数据接入模块中：

其中，name、amount为指标A依赖的字段，litigant、Lawsuit为指标，judgedocList为数据接入模块代码。当指标被上传时，被上传的指标获得一个唯一的指标ID，并且每一次编辑指标会更新指标的版本号。对指标的编辑是在用户页面上进行的，版本号可以通过系统内置的版本号命名，也可以根据用户的习惯进行命名，根据用户习惯命名指标版本号是在用户界面上进行。

数据接入模块通过解析脚本代码中指标依赖的字段读取与数据接入模块连接的外部数据源的相关字段集合。

例如有S1,S2,S3这3个数据源，F11、F12、F13、F14为相关字段集合，F11、F12属于S1，F13属于S2，F14属于S3，数据接入模块的脚本代码配置有F11、F12、F14的字段，所以，数据接入模块读取S1、S3的数据。

S6、数据接入模块读取外部数据库的数据通过数据处理层进行数据的处理，得到筛选后的统一格式的新数据并传入指标运算层；指标运算层设置在多个服务器上，多个服务器分为包括总服务器和若干分服务器。

本实施例中，数据处理层包括M个基于自选条件的数据筛选器和数据标准化模块，通过设置N个条件的“与/或”逻辑来配置数据筛选器；其中，M、N均为不小于1的正整数。数据筛选器是通过筛选数据融合层读取的数据的字段和字段值域区间进行精简的。例如，规则A只对数据融合层读取的数据的部分值域起作用，这时就需要一个数据筛选器来筛选符合值域需求的那部分记录，亦或需要一个数据筛选器逻辑组合来达成筛选目标。例如，有三个条件，分别为F1＜10、“失信”inF2以及F3＜F4，通过设置(F1＜10)and(“失信”inF2)or(F3＜F4)来配置数据筛选器，数据融合层读取的数据通过配置的数据筛选器得到筛选后的数据。例如，数据融合层读取的数据有10个，其中，有8个数据的字段长度大于5，数据筛选器的条件是选择字段长度不大于5的数据，则，得到的筛选后的数据为字段不大于5的2个数据。

本实施例中，数据标准化模块为基于GraphQL的模块。GraphQL是一种标准化的语言，本实施例中，将筛选后的数据的数据类型通过GraphQL标准化工具将数据格式转化为JSON格式，由于JSON格式的数据有着较复杂的数据结构，使得与关系型数据库数据的字段联合使用时，存在格式一致性转换的难点，因此将所有数据通过GraphQL标准化工具解决了后续数据运算存在格式难转换的问题。GraphQL标准化工具是已经现有的技术，这里就不在赘述了。

GraphQL定义了以下几种类型的数据：

·标量类型，囊括了以下几种基础数据类型的规范化：

οInt：有符号32位整数

οFloat：有符号双精度浮点值

οString：UTF-8字符序列

οBoolean：布尔值

οID：唯一标识符

如图3所示，S7、在总服务器上配置Spark集群，将除总服务器以外的所有分服务器的IP地址设置到总服务器的Spark集群中。

例如：

Spark1：192.168.156.101

Spark2：192.168.156.102

Spark3：192.168.156.103

Spark4：192.168.156.104

其中，192.168.156.101、192.168.156.102、192.168.156.103、192.168.156.104是服务器的IP地址。

S8、在总服务器上设置指标脚本驱动模块，在设置脚本驱动模块时设置逻辑控制参数和SparkContext，逻辑控制参数通过SparkContext传输给Spark集群的Cluster管理器；

S9、将新数据带入规则中形成整体的指标运算任务；

S10、脚本驱动模块将整体的指标运算任务指派给Spark集群中的Cluster管理器；

S11、通过MapReduce机制，Cluster管理器将整体的指标运算任务进行拆解。

MapReduce是一种分布式计算模型，由两个阶段组成：Map和Reduce。Map的应用在于我们需要数据一对一的元素的映射转换，比如说进行截取，进行过滤，或者任何的转换操作，这些一对一的元素转换就称作是Map；Reduce主要就是元素的聚合，就是多个元素对一个元素的聚合，比如求Sum等，这就是Reduce。

S12、Cluster管理器将拆解后的指标运算任务依据分服务器的“繁忙程度”，挂载到相对闲置的分服务器上。

具体步骤为：

1.Map读取整体指标运算任务，以指标为最小单位将整体指标任务解析成<key,vaule>，每一个<key,vaule>调用一次map函数，例如整体指标任务中包含10个指标，则整体指标可以解析成<1,A1>、<2,A2>、<3,A1>、<4,A3>、<5,A2>、<6,A1>、<7,A2>、<8,A2>、<9,A3>、<10,A1>；

2.覆盖map()，接收1产生的<key,vaule>，转换为新的<key,vaule>输出：

<A1,1>、<A1,1>、<A1,1>、<A1,1>；<A2,1>、<A2,1>、<A2,1>、<A2,1>；<A3,1>、<A3,1>；

3.对2输出的<key,vaule>进行分组。

4.按照不同的key值对数据进行分组，相同的key的value放到一个集合中。分组后为：<A1,{1,1,1,1}>、<A2,{1,1,1,1}>、<A3,{1,1}>。

5.Cluster管理器判断分服务器的“繁忙程度”将多个map任务按照不同的分组，通过网络copy到分服务器进行处理。

6.分服务器最终输出<A1,{4}>、<A2,{4}>、<A3,{2}>。

实施例一，Cluster管理器判断分服务器的“繁忙程度”的nginx负载均衡的策略为轮询分配法，每个指标运算任务按时间顺序逐一分配到分服务器，如果某一服务器宕掉，自动剔除，剩下的继续轮询。

实施例二，Cluster管理器判断分服务器的“繁忙程度”的nginx负载均衡的策略为权重分配法，通过监控分服务器的CPU的占用率来配置访问服务器的权重，指定访问服务器的几率，权重和访问几率成正比。

实施例二为在实施例一的基础上的升级方法，通过在upstream参数中添加的应用服务器IP后添加指定参数即可实现，如：

通过以上配置，所有指标运算任务都会先通过nginx反向代理服务器，在总服务器将请求转发给分服务器时，读取upstream为tomcatsever1的地址，读取分发策略，配置tomcat1权重为3，所以nginx会将大部分请求发送给49服务器上的tomcat1，也就是8080端口；较少部分给tomcat2来实现有条件的负载均衡。

S13、每台分服务器在执行完指标运算任务后，将执行结果传输至缓存模块进行存储并返回至总服务器。

本实施例中，缓存模块是cache，即高速缓冲存储器。

最后应说明的是：本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等统计数的范围之内，则本发明也意图包含这些改动和变型。

Claims

1.一种半结构化文本数据的规则引擎系统的整体计算方法，其特征在于，包括数据融合层、数据处理层和指标运算层，该方法包括以下步骤：

S2、根据底层量化模块的类型，定义底层量化模块的运算体系；底层量化模块分为5类：字符串类、数值类、时间类、地址类、布尔类

S9、将新数据带入所述规则中形成整体的指标运算任务；

S12、所述Cluster管理器将拆解后的指标运算任务依据分服务器的“繁忙程度”，挂载到相对闲置的分服务器上；Cluster管理器判断分服务器的“繁忙程度”将多个map任务按照不同的分组，通过网络copy到分服务器进行处理；

S13、每台分服务器在执行完指标运算任务后，将执行结果传输至总服务器的缓存模块进行存储并返回至所述总服务器。

2.根据权利要求1所述的一种半结构化文本数据的规则引擎系统的整体计算方法，其特征在于，所述数据处理层包括M个基于自选条件的数据筛选器和数据标准化模块，通过设置N个条件的“与/或”逻辑来配置数据筛选器；其中，M、N均为不小于1的正整数。

3.根据权利要求2所述的一种半结构化文本数据的规则引擎系统的整体计算方法，其特征在于，所述数据标准化模块为基于GraphQL的模块。

4.根据权利要求1所述的一种半结构化文本数据的规则引擎系统的整体计算方法，其特征在于，步骤S2中的运算体系包括四则运算、函数运算、逻辑运算、集合运算。

5.根据权利要求1所述的一种半结构化文本数据的规则引擎系统的整体计算方法，其特征在于，所述步骤S12中，判断分服务器的“繁忙程度”是根据Nginx负载均衡进行判断的。

6.根据权利要求5所述的一种半结构化文本数据的规则引擎系统的整体计算方法，其特征在于，所述Nginx实现负载均衡的策略为轮询分配法，每个指标运算任务按时间顺序逐一分配到分服务器，如果某一服务器宕掉，自动剔除，剩下的继续轮询。

7.根据权利要求5所述的一种半结构化文本数据的规则引擎系统的整体计算方法，其特征在于，所述Nginx实现负载均衡的策略为权重分配法，通过监控分服务器的CPU的占用率来配置访问服务器的权重，指定访问服务器的几率，所述权重和访问几率成正比。

8.根据权利要求1所述的一种半结构化文本数据的规则引擎系统的整体计算方法，其特征在于，所述外部数据库的类型包括关系型数据库、非关系型数据库、数据仓库。