CN109685375B - 一种基于半结构化文本数据的企业风险规则引擎运算方法 - Google Patents
一种基于半结构化文本数据的企业风险规则引擎运算方法 Download PDFInfo
- Publication number
- CN109685375B CN109685375B CN201811604918.1A CN201811604918A CN109685375B CN 109685375 B CN109685375 B CN 109685375B CN 201811604918 A CN201811604918 A CN 201811604918A CN 109685375 B CN109685375 B CN 109685375B
- Authority
- CN
- China
- Prior art keywords
- data
- index
- module
- indexes
- fields
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013139 quantization Methods 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 241001593730 Acacia salicina Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于半结构化文本数据的企业风险规则引擎整体运算方法,包括以下步骤:S1、定义数据类型之间的计算方式;S2、定义底层量化模块的运算体系;S3、根据指标需求制定指标依赖的字段,并通过S2定义的运算体系将字段串接得到符合用户业务需求的指标;S4、数据接入模块根据指标配置模块设置的指标读取数据库的数据并将数据传输至数据筛选层;S5、所述数据接入模块读取外部数据库的数据通过所述M个条件筛选器进行筛选;S6、筛选后的数据通过数据标准化模块得到格式统一的数据并传输至指标运算模块;S7、指标运算模块根据指标配置模块配置的规则对数据进行运算。本发明可以使规则引擎能够在半结构化文本数据中得到量化指标。
Description
技术领域
本发明涉及计算机科学软件信息技术领域,特别是涉及一种基于半结构化文本数据的企业风险规则引擎运算方法。
背景技术
规则引擎近年来被广泛应用于金融及反欺诈领域,帮助监控和发现目标客户群体中的异常、风险、商机等。大多规则引擎在整体设计上大致可划分为两个大块,其一为规则体系的构建,其二为数据流的运算体系构建。目前,业内对于被规则引擎使用的数据而言,主要包含了用户行为(如登录、注册、浏览、收藏、消费等)数据、企业财务数据等;这类数据大多有着结构化、可度量的特性。例如用户行为数据就离不开次数、频率、价格、时间等概念。然而在面对处理互联网上爬取的大量非结构化、半结构化数据时,传统的规则引擎面临难以量化文本信息的挑战。
传统的规则引擎,其底层存储通常是结构化的数值型数据表。认知上,某条规则的触发,是由计算的指标数值与阈值比较的结果决定的。我们把这一类运算划分为4个角色:左变量、运算符、右变量、结果值。通常这类数值与数值之间的运算体系,可能涉及到的变量类型包括整形、浮点型、布尔值等。字段之间的运算方式则包括四则运算、函数运算、逻辑运算等。然而在非结构化、或者半结构化文本数据领域,“可计算”却变得不那么容易实现,规则配置的灵活性受到极大地挑战。例如一篇新闻提及某企业的法人代表时,会对该企业产生怎样的影响?如果人来观察,会有一个感性的认知,但机器却无法在未定义某一目标时,给出一个可能的量化指标。因此更谈不上规则的配置与触发了。
发明内容
针对上述现有技术的不足,本发明提供了一种基于半结构化文本数据的企业风险规则引擎运算方法,使规则引擎能够在半结构化文本数据中得到量化指标。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种基于半结构化文本数据的企业风险规则引擎运算方法,所述企业风险规则引擎包括数据融合层、数据筛选层、数据标准化层以及指标运算层,所述指标运算层包括指标配置模块和指标运算模块,所述数据融合层包括数据接入模块,所述数据筛选层包括M个条件筛选器,M为不小于1的正整数,所述数据标准化层包括数据标准化模块;所述企业风险规则引擎运算方法包括以下步骤:
S1、构建底层量化模块:枚举企业基础信息与文本抽取信息的数据类型组合,定义各数据类型之间的计算方式,所述企业基础信息与文本抽取信息的数据类型为底层量化模块;
S2、根据底层量化模块的类型,定义底层量化模块的运算体系;
S3、根据指标需求制定指标依赖的字段,并通过S2定义的运算体系将字段串接得到符合用户业务需求的指标,所述用户业务需求的指标通过逻辑运算得到指标组,所述指标组通过逻辑运算得到规则;
S4、数据接入模块根据指标配置模块设置的指标读取外部数据库的数据并传输至数据筛选层;
S5、所述数据接入模块读取外部数据库的数据通过所述M个条件筛选器进行筛选;
S6、筛选后的数据通过数据标准化模块得到格式统一的数据并传输至指标运算模块;
S7、指标运算模块根据指标配置模块配置的规则对所述格式统一后的数据进行运算,得到数据量化指标。
作为优化,步骤S4的具体步骤如下:
S4.1、在所述指标配置模块中定义指标依赖的字段及字段类型;
S4.2、将所述指标依赖的字段以约定的规范配置在脚本代码头部并将指标上传至所述数据接入模块中;
S4.3、所述数据接入模块通过解析脚本代码中所述指标依赖的字段读取与所述数据接入模块连接的数据源、接口的相应字段的集合。
作为优化,S7中,指标运算模块对数据的运算为以脚本驱动的指标集群运算,具体步骤如下:
S7.1、将所有指标和数据进行匹配;
S7.2、设置指标脚本驱动模块,通过执行脚本驱动模块传入逻辑控制参数;
S7.3、脚本驱动模块将指标运算任务指派给Spark集群,通过MapReduce模型将整体的指标运算任务拆解;
S7.4、Spark集群将拆解后的指标运算任务依据运算器的“繁忙程度”,挂载到相对闲置的运算器;
S7.5、每个运算器通过运算后将结果合并返回。
作为优化,步骤S2中的运算体系包括四则运算、函数运算、逻辑运算、集合运算。
作为优化,每个运算器的运算结果在特定的时间区间内被存入至缓存模块。
作为优化,在所述脚本驱动模块内设有SparkContext,用于连接脚本驱动模块和Spark集群中的Cluster管理器。
本发明的有益效果是:
本发明使规则引擎能够在半结构化文本数据中得到量化指标。同时,本发明还一定程度上克服了与既有系统对接困难,部署复杂等问题。本发明只需要实施人员熟悉相关业务,能够根据脚本实现风险点的计算逻辑,即可把整个对接、分发、计算、归并的规则引擎数据流程走完。最终在客户端,其呈现的是场景可选的、逻辑可配的规则集配置问题。
附图说明
图1为本发明所述的一种基于半结构化文本数据的企业风险规则引擎运算方法的流程图。
图2为指标的集群运算的系统结构图。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
图1是本申请提供的一种基于半结构化文本数据的企业风险规则引擎运算方法的流程图。该实施例的方法一旦被用户触发,则该实施例中的流程通过终端自动运行,其中,各个步骤在运行的时候可以是按照如流程图中的顺序先后进行,也可以是根据实际情况多个步骤同时进行,在此并不做限定。
运行本申请的运算方法的企业风险规则引擎包括数据融合层、数据筛选层、数据标准化层以及指标运算层,指标运算层包括指标配置模块和指标运算模块,数据融合层包括数据接入模块,数据筛选层包括M个条件筛选器,M为不小于1的正整数,数据标准化层包括数据标准化模块;企业风险规则引擎运算方法方法包括以下步骤:
S1、构建底层量化模块:枚举企业基础信息与文本抽取信息的数据类型组合,定义各数据类型之间的计算方式,企业基础信息与文本抽取信息的数据类型为底层量化模块。通过统计,底层量化模块分为5类:字符串类(string)、数值类(numeric)、时间类(datetime)、地址类(string,继承字符串类,含经纬度属性)、布尔类(boolean)。
S2、根据底层量化模块的类型,定义底层量化模块的运算体系。本实施例中,运算体系包括四则运算、函数运算、逻辑运算、集合运算。
四则运算包括+(加)、-(减)、*(乘)、/(除);函数运算包括len、sum、avg、max、min、log、sqrt(平方根)、square(平方)、ceil、floor、power(指数幂)、mod(取余数);逻辑运算包括not、and,or、(包含)、startswith、endswith;集合运算包括∩(交集)、∪(并集)、diff(差集)。
其中,四则运算,左变量类型为numeric,右变量类型为numeric,结果类型为numeric;
函数运算,对于符号len,左变量类型为List(string)、List(numeric)时,右变量类型可以为任意类型,结果类型为numeric;
函数运算,对于符号sum、avg、max、min,左变量类型为List(numeric)时,右变量类型可以为任意类型,结果类型为numeric;
函数运算,对于符号log、sqrt(平方根)、square(平方)、ceil、floor,左变量类型为numeric时,右变量类型可以为任意类型,结果类型为numeric;
函数运算,对于符号og、sqrt(平方根)、square(平方)、ceil、floor,左变量类型为List(numeric)时,右变量类型可以为任意类型,结果类型为List(numeric);
函数运算,对于符号power(指数幂)、mod(取余数),左变量类型为numeric时,右变量类型为numeric,结果类型为numeric;
函数运算,对于符号power(指数幂)、mod(取余数),左变量类型为List(numeric)时,右变量类型为numeric,结果类型为List(numeric);
逻辑运算,对于符号not,左变量类型为boolean时,右变量类型可以为任意类型,结果类型为boolean;
逻辑运算,对于符号and,or,左变量类型为boolean时,右变量类型为boolean,结果类型为boolean;
逻辑运算,对于符号startswith、endswith,左变量类型为string,右变量类型为string,结果类型为boolean;
集合运算,对于符号∩(交集),∪(并集),diff(差集),左变量类型为List(numeric)时,右变量类型为List(numeric),结果类型为List(numeric);
集合运算,对于符号∩(交集),∪(并集),diff(差集),左变量类型为List(string)时,右变量类型为List(string),结果类型为List(numeric)。
其中,List(numeric),表示以数值类型填充的列表数据,List(string),表示以字符串类型填充的列表数据。
在逻辑运算中:
对于(包含):字符串可以包含特定子串、字符串列表包含特定短语。例如,假定【指标A指标B】;或者【指标Ainput】。这里指标B以及规则配置者输入的input字符串就是包含运算中的特定子串,特定子串用来判断与左变量的包含关系是否成立。例如,假定指标A为123,指标B为12,指标A指标B结果值为真。
startswith:字符串以特定文本作为开始;
endswith:字符串以特定文本作为结束。
startswith和endswith是函数,需要入参。比如:
“book”.startswith(“bo”)→True,指book这个字符串以bo开头。
这里”bo”作为入参,就是一个由规则配置者决定的特定文本。
执行本申请的方法的规则引擎需要能够支持数值列表之间的交、并、差集运算、字符串列表之间的交、并、差集运算。
S3、根据指标需求制定指标依赖的字段,并通过S2定义的运算体系将字段串接得到符合用户业务需求的指标,用户业务需求的指标通过逻辑运算得到指标组,指标组通过逻辑运算得到规则。指标配置模块为用户使用端,用户可以通过指标配置模块对指标进行配置。
例如f1(Int),f2(List of Int),f3(String),f4(List of Int)为4个字段,通过自定义的串接形式得到的指标可能为:(f1+max(f2∩f4))/length(f3)。具体根据人为的设定条件进行设定串接方式。
而某规则的表现形式可以抽象为:
RULE=INDEX_SET_A and INDEX_SET_B or INDEX_SET_C
INDEX_SET_A=(INDEX_A1 or INDEX_A2)and INDEX_A3
INDEX_SET_B=INDEX_B1 or INDEX_B2
INDEX_SET_C=INDEX_C1
其中,INDEX_A1、INDEX_A2、INDEX_A3、INDEX_B1、INDEX_B2、INDEX_C1是指标,INDEX_SET_A、INDEX_SET_B、INDEX_SET_C是指标组,RULE是规则。其中,指标组和指标为1对多关系;规则和指标组为1对多关系,指标组、规则均为布尔类型。
S4、数据接入模块根据指标配置模块设置的指标读取外部数据库的数据并传输至数据筛选层。具体步骤为:
在指标配置模块中定义指标依赖的字段及字段类型;
例如,需要某企业的判决文书(Judgedoc)进行判断,
其中,Litigant描述了判决文书中涉案当事人的相关信息、涉案类别以及判决结果;Lawsuit则描述了判决文书涉及的相关金额和判决金额信息,Judgedoc则描述了包含了Litigant、Lawsuit及判决文书的时间信息。符号”!”表示该字段必须非空,符号”[]”则表示返回的结果为列表类型。
【指标A】:“判决文书中,1年内主体累计涉及的金额”时,依赖的字段有:
·Litigant.name,当事人名称
·Lawsuit.amount,涉案金额
·trialDate,判决时间
将指标依赖的字段以约定的规范配置在脚本代码头部,配置如下:
src:search-law-xxxxxxxx.amazonaws.com.cn
-Litigant.name
-Lawsuit.amount
-trialDate
-type
src:jdbc:mysql://ip:port/db
-companyName
-frName
这里的约定的规范是根据指标的实现所依赖的计算机语言的编码特性,在系统开发方和系统使用方(在业务场景中为配置规则的一方)之间约定的规范,用以让系统运行指标时能够明白,从哪些数据源获取依赖的数据字段。不同的计算机语言环境有不同的约定规范。本实施例的语言环境是Java的计算机语言环境,所以运用的是Java的规范。
将指标上传至数据接入模块中:
其中,name、amount为指标A依赖的字段,litigant、Lawsuit为指标,judgedocList为数据接入模块代码。当指标被上传时,被上传的指标获得一个唯一的指标ID,并且每一次编辑指标会更新指标的版本号。对指标的编辑是在用户页面上进行的,版本号可以通过系统内置的版本号命名,也可以根据用户的习惯进行命名,根据用户习惯命名指标版本号是在用户界面上进行。
数据接入模块通过解析脚本代码中指标依赖的字段读取与数据接入模块连接的数据源、接口的相应字段的集合。
例如有S1,S2,S3这3个数据源,F11、F12、F13、F14为相关字段集合,F11、F12属于S1,F13属于S2,F14属于S3,数据接入模块的脚本代码配置有F11、F12、F14的字段,所以,数据接入模块读取S1、S3的数据。
S5、数据接入模块读取外部数据库的数据通过M个条件筛选器进行筛选。
数据筛选层包括M个基于自选条件的数据筛选器,用于对数据融合层读取的数据做进一步筛选,通过设置N个条件的与或逻辑来配置数据筛选器;其中,M、N均为不小于1的正整数。
数据筛选层对数据接入模块读取的数据做进一步筛选:
例如【指标A】有关的数据中,“trialDate”的数据可能会有:“2010/04/30”、“2012-11-30T00:00:00”、“2016.09.30”、“2018-10-31T00:00:00”。
在数据筛选层设置数据筛选器,例如数据筛选器的条件为trialDate>2015.12.31,则经过筛选的“trialDate”为“2016.09.30”、“2018-10-31T00:00:00”。
S6、筛选后的数据通过数据标准化模块得到格式统一的数据并传输至指标运算模块。
在数据标准化层对“trialDate”进行标准化,“2016.09.30”转化为“2016-09-30T00:00:00”。
本实施例中,数据标准化模块为基于GraphQL的模块。
GraphQL是一种标准化的语言,本实施例中,将筛选后的数据的数据类型通过GraphQL标准化工具将数据格式转化为JSON格式,由于JSON格式的数据有着较复杂的数据结构,使得与关系型数据库数据的字段联合使用时,存在格式一致性转换的难点,因此将所有数据通过GraphQL标准化工具解决了后续数据运算存在格式难转换的问题。GraphQL标准化工具是已经现有的技术,这里就不在赘述了。
GraphQL定义了以下几种类型的数据:
·标量类型,囊括了以下几种基础数据类型的规范化:
о Int:有符号32位整数
о Float:有符号双精度浮点值
о String:UTF-8字符序列
о Boolean:布尔值
о ID:唯一标识符
图2为指标的集群运算的结构图。指标运算模块对格式统一后的数据进行运算,得到数据量化指标。具体运算为以脚本驱动的指标集群运算,具体步骤为:
S7.1、将所有指标和数据进行匹配。
数据是根据指标所依赖的字段进行读取的,所以数据可以通过字段与指标对号入座,一一匹配。
S7.2、设置指标脚本驱动模块,通过执行脚本驱动模块传入逻辑控制参数;根据不同的场景不同的规则可以设置不同的逻辑控制参数。
S7.3、脚本驱动模块将指标运算任务指派给Spark集群,通过MapReduce模型将整体的指标运算任务拆解,在脚本驱动模块内设有SparkContext,用于连接脚本驱动模块和Spark集群中的Cluster管理器。
Spark集群是专为大规模数据处理而设计的快速通用的计算引擎。
SparkContext是连接脚本驱动模块和Cluster管理器的API接口。
MapReduce是一种分布式计算模型,主要用于搜索领域,解决海量数据的计算问题。MapReduce由两个阶段组成:Map和Reduce。Map的应用在于我们需要数据一对一的元素的映射转换,比如说进行截取,进行过滤,或者任何的转换操作,这些一对一的元素转换就称作是Map;Reduce主要就是元素的聚合,就是多个元素对一个元素的聚合,比如求Sum等,这就是Reduce。
S7.4、Spark集群将拆解后的指标运算任务依据运算器的“繁忙程度”,挂载到相对闲置的运算器。实际上就是Spark集群中的Cluster管理器将拆解后的指标运算任务依据运算器的“繁忙程度”,挂载到相对闲置的运算器,运算器也就是MapReduce中的Map。
本实施例中,判断运算器的“繁忙程度”是根据nginx负载均衡进行判断的。Cluster管理器会监控运算器的响应速度,这里的运算器是指服务器,也就是电脑,Cluster管理器监控电脑的CPU的占用率,将指标运算任务分配至CPU占用率低的电脑上进行运算。若其中有一个运算器宕掉,Cluster管理器会判断并将其自动剔除,并将指标运算任务分配到下一个运算器中。
S7.5、每个运算器通过运算后将结果合并返回,也就是说运算后将结果在Reduce合并,每个运算器的运算结果在特定的时间区间内被存入至缓存模块。
举例说明:若有多个指标运算任务,分别为(A1:1+1)、(A2:2+2)、(A3:3+3)、(A4:name1∩name2)、(A5:date1∩date2);其中,A1、A2、A3、A4、A5为指标,五个指标运算任务分别放到了map中进行运算,得到五个结果值:(A1:2)、(A2:4)、(A3:6)、(A4:name1∩name2)、(A5:date1∩date2),MapReduce模型在Map将指标运算任务处理完成之后,将指标对应的结果值进行分类并缓存到存储模块中,本实施例是根据指标运算所依赖的字段进行分类的,依赖同一个字段的结果值分到同一组,相同的组放到一个Reduce中进行运算。例如,A1、A2都是依赖同一个字段,那么,在Reduce中最终运算的结果值是(A1+A2:6)、(A3:6)、(A4:name1∩name2)、(A5:date1∩date2),最后将结果值返回至客户端。本实施例中的缓存模块是cache,即高速缓冲存储器。
最后应说明的是:本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等统计数的范围之内,则本发明也意图包含这些改动和变型。
Claims (4)
1.一种基于半结构化文本数据的企业风险规则引擎运算方法,其特征在于,所述企业风险规则引擎包括数据融合层、数据筛选层、数据标准化层以及指标运算层,所述指标运算层包括指标配置模块和指标运算模块,所述数据融合层包括数据接入模块,所述数据筛选层包括M个条件筛选器,M为不小于1的正整数,所述数据标准化层包括数据标准化模块;所述企业风险规则引擎运算方法包括以下步骤:
S1、构建底层量化模块:枚举企业基础信息与文本抽取信息的数据类型组合,定义各数据类型之间的计算方式,所述企业基础信息与文本抽取信息的数据类型为底层量化模块;
S2、根据底层量化模块的类型,定义底层量化模块的运算体系;
S3、根据指标需求制定指标依赖的字段,并通过S2定义的运算体系将字段串接得到符合用户业务需求的指标,所述用户业务需求的指标通过逻辑运算得到指标组,所述指标组通过逻辑运算得到规则;
S4、数据接入模块根据指标配置模块设置的指标读取外部数据库的数据并传输至数据筛选层;
S5、所述数据接入模块读取外部数据库的数据通过所述M个条件筛选器进行筛选;
S6、筛选后的数据通过数据标准化模块得到格式统一的数据并传输至指标运算模块;
S7、指标运算模块根据指标配置模块配置的规则对所述格式统一后的数据进行运算,得到数据量化指标;
所述S4的具体步骤如下:
S4.1、在所述指标配置模块中定义指标依赖的字段及字段类型;
S4.2、将所述指标依赖的字段以约定的规范配置在脚本代码头部并将指标上传至所述数据接入模块中;
S4.3、所述数据接入模块通过解析脚本代码中所述指标依赖的字段读取与所述数据接入模块连接的数据源、接口的相应字段的集合;
S7中,指标运算模块对数据的运算为以脚本驱动的指标集群运算,具体步骤如下:
S7.1、将所有指标和数据进行匹配;
S7.2、设置指标脚本驱动模块,通过执行脚本驱动模块传入逻辑控制参数;
S7.3、脚本驱动模块将指标运算任务指派给Spark集群,通过MapReduce模型将整体的指标运算任务拆解;
S7.4、Spark集群将拆解后的指标运算任务依据运算器的“繁忙程度”,挂载到相对闲置的运算器;
S7.5、每个运算器通过运算后将结果合并返回。
2.根据权利要求1所述的一种基于半结构化文本数据的企业风险规则引擎运算方法,其特征在于,S2中的运算体系包括四则运算、函数运算、逻辑运算、集合运算。
3.根据权利要求1所述的一种基于半结构化文本数据的企业风险规则引擎运算方法,其特征在于,每个运算器的运算结果在特定的时间区间内被存入至缓存模块。
4.根据权利要求1所述的一种基于半结构化文本数据的企业风险规则引擎运算方法,其特征在于,在所述脚本驱动模块内设有SparkContext,用于连接脚本驱动模块和Spark集群中的Cluster管理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811604918.1A CN109685375B (zh) | 2018-12-26 | 2018-12-26 | 一种基于半结构化文本数据的企业风险规则引擎运算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811604918.1A CN109685375B (zh) | 2018-12-26 | 2018-12-26 | 一种基于半结构化文本数据的企业风险规则引擎运算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109685375A CN109685375A (zh) | 2019-04-26 |
CN109685375B true CN109685375B (zh) | 2020-10-30 |
Family
ID=66189862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811604918.1A Active CN109685375B (zh) | 2018-12-26 | 2018-12-26 | 一种基于半结构化文本数据的企业风险规则引擎运算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109685375B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112230887B (zh) * | 2020-09-11 | 2023-11-14 | 重庆誉存大数据科技有限公司 | 一种应用于决策引擎中的指标的脚本配置系统 |
CN112379872A (zh) * | 2020-11-05 | 2021-02-19 | 上海汇付数据服务有限公司 | 一种规则引擎系统 |
CN113609283A (zh) * | 2021-07-28 | 2021-11-05 | 浙江惠瀜网络科技有限公司 | 数据获取方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007115501A1 (en) * | 2006-04-12 | 2007-10-18 | Lonsou (Beijing) Technologies Co., Ltd. | Method and system for facilitating rule-based document content mining |
CN105930523A (zh) * | 2016-05-25 | 2016-09-07 | 中国科学院新疆理化技术研究所 | 大数据背景下基于动态可配置规则的数据清洗框架 |
CN106021285A (zh) * | 2016-04-29 | 2016-10-12 | 武汉佰钧成技术有限责任公司 | 一种基于Hadoop平台的海量数据增量抽取与分析方法 |
CN106030573A (zh) * | 2014-02-19 | 2016-10-12 | 斯诺弗雷克计算公司 | 半结构化数据作为第一等级数据库元素的实现 |
CN107704265A (zh) * | 2017-09-30 | 2018-02-16 | 电子科技大学 | 一种面向业务流可配置的规则生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446092A (zh) * | 2016-09-12 | 2017-02-22 | 浪潮软件股份有限公司 | 一种基于Flume的解析半结构化文本文件的数据的方法 |
-
2018
- 2018-12-26 CN CN201811604918.1A patent/CN109685375B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007115501A1 (en) * | 2006-04-12 | 2007-10-18 | Lonsou (Beijing) Technologies Co., Ltd. | Method and system for facilitating rule-based document content mining |
CN101361063A (zh) * | 2006-04-12 | 2009-02-04 | 龙搜(北京)科技有限公司 | 支持基于规则的文档内容挖掘的系统与方法 |
CN106030573A (zh) * | 2014-02-19 | 2016-10-12 | 斯诺弗雷克计算公司 | 半结构化数据作为第一等级数据库元素的实现 |
CN106021285A (zh) * | 2016-04-29 | 2016-10-12 | 武汉佰钧成技术有限责任公司 | 一种基于Hadoop平台的海量数据增量抽取与分析方法 |
CN105930523A (zh) * | 2016-05-25 | 2016-09-07 | 中国科学院新疆理化技术研究所 | 大数据背景下基于动态可配置规则的数据清洗框架 |
CN107704265A (zh) * | 2017-09-30 | 2018-02-16 | 电子科技大学 | 一种面向业务流可配置的规则生成方法 |
Non-Patent Citations (2)
Title |
---|
基于动态可配置规则的数据清洗方法;朱会娟 等;《计算机应用》;20170410;第37卷(第04期);第1017-1020页 * |
基于规则引擎的XML数据操作研究;陈娇娇;《中国优秀硕士学位论文全文数据库信息科技辑》;20110515(第05期);第37-44页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109685375A (zh) | 2019-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11500880B2 (en) | Adaptive recommendations | |
US11163527B2 (en) | Techniques for dataset similarity discovery | |
CN109710413B (zh) | 一种半结构化文本数据的规则引擎系统的整体计算方法 | |
EP3038002B1 (en) | Interactive user interfaces | |
US11055270B2 (en) | Trash daemon | |
JP2021527878A (ja) | 正規表現コード上で最長共通サブシーケンスアルゴリズムを用いた正規表現生成 | |
CN109685375B (zh) | 一种基于半结构化文本数据的企业风险规则引擎运算方法 | |
US20170116318A1 (en) | Automated Data Analysis | |
US11170306B2 (en) | Rich entities for knowledge bases | |
US11403460B2 (en) | Transformation in tabular data cleaning tool | |
US20210349803A1 (en) | Audit logging database system and user interface | |
US11442930B2 (en) | Method, apparatus, device and storage medium for data aggregation | |
US20200250587A1 (en) | Framework for multi-tenant data science experiments at-scale | |
CN108140022B (zh) | 数据查询方法和数据库系统 | |
WO2018053889A1 (zh) | 分布式计算框架和分布式计算方法 | |
EP3062245A1 (en) | Dynamic modular ontology | |
US20220035800A1 (en) | Minimizing group generation in computer systems with limited computing resources | |
CN111639161A (zh) | 制度信息处理方法、装置、计算机系统和介质 | |
US11210352B2 (en) | Automatic check of search configuration changes | |
JP2021056921A (ja) | データベース管理システム、および、データベース処理方法 | |
CN115563310A (zh) | 一种关键业务节点的确定方法、装置、设备及介质 | |
US20120259847A1 (en) | Collaborative Data Appliance | |
US11755626B1 (en) | Systems and methods for classifying data objects | |
CN113312410B (zh) | 数据图谱的构建方法、数据查询方法及终端设备 | |
US11698912B2 (en) | Universal report engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 401121 Chongqing Yubei District Huangshan Avenue No. 53 with No. 2 Kirin C Block 9 Floor Patentee after: Chongqing Yucun Technology Co.,Ltd. Country or region after: China Address before: 401121 Chongqing Yubei District Huangshan Avenue No. 53 with No. 2 Kirin C Block 9 Floor Patentee before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD. Country or region before: China |
|
CP03 | Change of name, title or address |