CN109710674A - 一种半结构化文本数据的规则引擎系统及前置接入方法 - Google Patents
一种半结构化文本数据的规则引擎系统及前置接入方法 Download PDFInfo
- Publication number
- CN109710674A CN109710674A CN201811603213.8A CN201811603213A CN109710674A CN 109710674 A CN109710674 A CN 109710674A CN 201811603213 A CN201811603213 A CN 201811603213A CN 109710674 A CN109710674 A CN 109710674A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- relevant field
- database
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种半结构化文本数据的规则引擎系统及前置接入方法,包括数据融合层、数据筛选层、数据标准化层以及指标运算层;所述数据融合层从数据库读取的数据通过所述数据筛选层和数据标准化层流入所述指标运算层进行执行。本系统及前置接入方法可以根据不同的场景设置不同的指标,并根据指标设置相关字段集合,读取不同数据库的信息,兼容精度、类型不同的字段。
Description
技术领域
本发明涉及计算机科学软件信息技术领域,特别是涉及一种半结构化文本数据的规则引擎系统及前置接入方法。
背景技术
规则引擎近年来被广泛应用于泛金融及反欺诈领域,帮助监控和发现目标客户群体中的异常、风险、商机等。在数据层面,支撑传统规则引擎的,大多为用户行为(如登录、注册、浏览、收藏、消费等)数据、企业财务数据等,这类数据大多有着结构化、可度量的特性。例如用户行为数据就离不开次数、频率、价格、时间等概念。然而在面对处理互联网上爬取的大量非结构化、半结构化数据时,传统的规则引擎面临难以量化文本信息的挑战。因为传统的规则引擎,其底层存储通常是结构化的数据表,指标或规则的配置则依赖于这些字段。然而,在非结构化或者半结构化数据领域中,数据存在多源、多类型、异构特质,由此给传统规则引擎带来的问题有以下2点:
1.不同来源的字段存在精度不同、字段类型不兼容的情况:比如企业注册资本字段,A数据源采用万元做单位、取小数点后4位;B数据源用元做单位,取小数点后2位;
2.基于JSON格式的数据有着较复杂的数据结构,使得与关系型数据库数据的字段联合使用时,存在格式一致性转换的难点。
发明内容
针对上述现有技术的不足,本发明提供了一种半结构化文本数据的规则引擎系统及前置接入方法,对多来源数据接入后,进行多元易购。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种半结构化文本数据的规则引擎系统,包括数据融合层、数据筛选层、数据标准化层以及指标运算层;
所述指标运算层包括指标配置模块和指标运算模块,所述数据融合层包括数据接入模块;所述指标配置模块用于定义指标所需要引用的相关字段对象,包括指标的条件及规则的设定;所述数据接入模块与外部数据库地址连接,用以认证外部数据库的host,port,database信息,所述数据接入模块根据指标配置模块设置的相关字段对象读取外部数据库的数据;
所述数据筛选层包括M个基于自选条件的数据筛选器,用于对数据融合层读取的数据进行筛选,通过设置N个条件的“与/或”逻辑来配置数据筛选器;其中,M、N均为不小于1的正整数;
所述数据标准化层包括数据标准化模块,用于将筛选后的数据的数据类型标准化为指标运算层所需要的类型;
所述指标运算层的指标运算模块用于规则引擎执行规则,将标准化后的数据根据指标配置模块设定的规则进行运算。
作为优化,所述数据接入模块采用与数据库直连的方式与外部数据库地址连接。
作为优化,所述外部数据库的类型包括关系型数据库、非关系型数据库,Elasticsearch、数据仓库、本文文件。
作为优化,所述数据筛选器的条件包括筛选字段和字段值域区间。
作为优化,所述数据标准化模块为基于GraphQL的模块。
一种半结构化文本数据的规则引擎系统的前置接入方法,在所述数据融合层进行,包括以下步骤:
S1、定义逻辑块:在指标配置模块中定义逻辑块的对象类型,并用相关字段描述逻辑块的对象特征;
S2、配置指标所需的相关字段集合:根据不同的场景所需指标涉及的内容,将各个逻辑块中与涉及的内容有关的相关字段配置成相关字段集合;
S3、读取数据库信息:将数据接入模块与外部数据库地址连接,用以认证外部数据库的host,port,database信息;
S4、确认相关字段涉及的数据库并读取与相关字段匹配的数据:根据指标配置模块所配置的指标所需的相关字段集合与数据接入模块连接的外部数据库的相关字段进行匹配,确定相关字段涉及的数据库,读取数据库中与相关字段匹配的数据。
作为优化,还包括以下步骤:S5、确定最小相关字段集合:将涉及的数据库中的相关字段集合求并集,即可得到每个数据库需要抽取的最小相关字段集合。
作为优化,所述逻辑块可以包含其他已定义的逻辑块。
本发明的有益效果是:
本系统可以根据不同的场景在指标配置模块中设置不同的指标,并根据指标设置相关字段集合,读取不同数据库的信息,兼容精度、类型不同的字段。
附图说明
图1为本发明一种半结构化文本数据的规则引擎系统的系统结构图。
图2为本发明一种半结构化文本数据的规则引擎系统的前置接入方法的方法流程图。
图3为数据筛选层进行数据筛选的方法示意图。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
一种半结构化文本数据的规则引擎系统,包括数据融合层、数据筛选层、数据标准化层以及指标运算层;指标运算层包括指标配置模块和指标运算模块,数据融合层包括数据接入模块;指标配置模块用于定义指标所需要引用的相关字段对象,包括指标的条件及规则的设定;数据接入模块与外部数据库地址连接,用以认证外部数据库的host,port,database信息,数据接入模块根据指标配置模块设置的相关字段对象读取数据库的数据。数据接入模块根据指标配置模块配置的指标的条件读取外部数据库的数据。其中,数据接入模块的配置是独立于指标配置模块之外的,在数据融合层内可以作为单独的模块被灵活调用。本实施例中,数据接入模块采用与外部数据库直连的方式与数据库地址连接。外部数据库的类型包括关系型数据库、非关系型数据库,Elasticsearch、数据仓库、本文文件。
数据筛选层包括M个基于自选条件的数据筛选器,用于对数据融合层读取的数据进行筛选,通过设置N个条件的“与/或”逻辑来配置数据筛选器;其中,M、N均为不小于1的正整数。本实施例中,数据筛选器是通过筛选数据融合层读取的数据的字段和字段值域区间对初步数据进行精简的。例如,规则A只对数据融合层读取的数据的部分值域起作用,这时就需要一个数据筛选器来筛选符合值域需求的那部分记录,亦或需要一个数据筛选器逻辑组合来达成筛选目标。如图3所示,有三个条件,分别为F1<10、“失信”in F2以及F3<F4,通过设置(F1<10)and(“失信”in F2)or(F3<F4)来配置数据筛选器,数据融合层读取的数据通过配置的数据筛选器得到筛选后的数据。例如,数据融合层读取的数据有10个,其中,有8个数据的字段长度大于5,数据筛选器的条件是选择字段长度不大于5的数据,则,得到的筛选后的数据为字段不大于5的2个数据。
数据标准化层包括数据标准化模块,用于将筛选后的数据的数据类型标准化为指标运算层所需要的类型。本实施例中,数据标准化模块为基于GraphQL的模块。
GraphQL是一种标准化的语言,本实施例中,将筛选后的数据的数据类型通过GraphQL标准化工具将数据格式转化为JSON格式,由于JSON格式的数据有着较复杂的数据结构,使得与关系型数据库数据的字段联合使用时,存在格式一致性转换的难点,因此将所有数据通过GraphQL标准化工具解决了后续数据运算存在格式难转换的问题。GraphQL标准化工具是已经现有的技术,这里就不在赘述了。
GraphQL定义了以下几种类型的数据:
·标量类型,囊括了以下几种基础数据类型的规范化:
Int:有符号32位整数
Float:有符号双精度浮点值
String:UTF-8字符序列
Boolean:布尔值
ID:唯一标识符
指标运算层的指标运算模块用于规则引擎执行规则,将标准化后的数据根据指标配置模块设定的规则进行运算。
规则引擎系统的前置数据具体接入方法包括以下步骤,在数据融合层进行:
S1、定义逻辑块:在指标配置模块中定义逻辑块的类型,并用相关字段描述逻辑块的特征,其中,逻辑块可以包含其他已经定义的逻辑块。例如,需要某企业的判决文书(Judgedoc)进行判断,定义逻辑块:
其中,Litigant描述了判决文书中涉案当事人的相关信息、涉案类别以及判决结果;Lawsuit则描述了判决文书涉及的相关金额和判决金额信息,Judgedoc则描述了包含了Litigant、Lawsuit及判决文书的时间信息。符号”!”表示该字段必须非空,符号”[]”则表示返回的结果为列表类型。Judgedoc逻辑块包含了litigant逻辑块与lawsuit逻辑块。
S2、配置指标所需的相关字段集合:根据不同的场景所需指标涉及的内容,将各个逻辑块中与涉及的内容有关的相关字段配置成相关字段集合。
例如,配置【指标A】:“判决文书中,1年内主体累计涉及的金额”时,判断可能会用到的字段有:
·Litigant.name,当事人名称
·Lawsuit.amount,涉案金额
·trialDate,判决时间
则定义该指标所需相关字段集合为:
S3、读取数据库信息:将数据接入模块与外部数据库地址连接,用以认证外部数据库的host,port,database信息。本实施例中,数据接入模块采用与外部数据库直连的方式与数据库地址连接。
S4、确认相关字段涉及的数据库并读取与相关字段匹配的数据:根据指标配置模块所配置的指标所需的相关字段集合与数据接入模块连接的外部数据库的相关字段进行匹配,确定相关字段涉及的数据库,读取数据库中与相关字段匹配的数据。
此时数据接入模块读取的数据有多个。
例如【指标A】有关的数据中,“trialDate”的数据可能会有:“2010/04/30”、“2012-11-30T00:00:00”、“2016.09.30”、“2018-10-31T00:00:00”。
在数据筛选层设置数据筛选器,例如数据筛选器的条件为trialDate>2015.12.31,则经过筛选的“trialDate”为“2016.09.30”、“2018-10-31T00:00:00”。
在数据标准化层对“trialDate”进行标准化,“2016.09.30”转化为“2016-09-30T00:00:00”。最后在指标运算层的指标运算模块中进行运算,最后得到与【指标A】有关的数据如下:
本实施例中,还包括以下步骤:S5、确定最小相关字段集合:将涉及的数据库中的相关字段集合求并集,即可得到每个数据库需要抽取的最小相关字段集合。例如有S1,S2,S3这3个数据源,F11、F12、F13为相关字段集合,F11、F12属于S1,F13属于S3,则,F11、F12、F13组成的并集就是最小相关字段集合。最小相关字段可以为下次引用同样的指标时做准备,减少搜寻外部数据库的时间。
最后应说明的是:本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等统计数的范围之内,则本发明也意图包含这些改动和变型。
Claims (8)
1.一种半结构化文本数据的规则引擎系统,其特征在于,包括数据融合层、数据筛选层、数据标准化层以及指标运算层;
所述指标运算层包括指标配置模块和指标运算模块,所述数据融合层包括数据接入模块;所述指标配置模块用于定义指标所需要引用的相关字段对象,包括指标的条件及规则的设定;所述数据接入模块与外部数据库地址连接,用以认证外部数据库的host,port,database信息,所述数据接入模块根据指标配置模块设置的相关字段对象读取外部数据库的数据;
所述数据筛选层包括M个基于自选条件的数据筛选器,用于对数据融合层读取的数据进行筛选,通过设置N个条件的“与/或”逻辑来配置数据筛选器;其中,M、N均为不小于1的正整数;
所述数据标准化层包括数据标准化模块,用于将筛选后的数据的数据类型标准化为指标运算层所需要的类型;
所述指标运算层的指标运算模块用于规则引擎执行规则,将标准化后的数据根据指标配置模块设定的规则进行运算。
2.根据权利要求1所述的一种半结构化文本数据的规则引擎系统,其特征在于,所述数据接入模块采用与数据库直连的方式与外部数据库地址连接。
3.根据权利要求1或2所述的一种半结构化文本数据的规则引擎系统,其特征在于,所述外部数据库的类型包括关系型数据库、非关系型数据库、Elasticsearch、数据仓库、文本文件。
4.根据权利要求1所述的一种半结构化文本数据的规则引擎系统,其特征在于,所述数据筛选器的条件包括筛选字段和字段值域区间。
5.根据权利要求1所述的一种半结构化文本数据的规则引擎系统,其特征在于,所述数据标准化模块为基于GraphQL的模块。
6.一种半结构化文本数据的规则引擎系统的前置接入方法,其特征在于,在所述数据融合层进行,包括以下步骤:
S1、定义逻辑块:在指标配置模块中定义逻辑块的对象类型,并用相关字段描述逻辑块的对象特征;
S2、配置指标所需的相关字段集合:根据不同的场景所需指标涉及的内容,将各个逻辑块中与涉及的内容有关的相关字段配置成相关字段集合;
S3、读取数据库信息:将数据接入模块与外部数据库地址连接,用以认证数据库的host,port,database信息;
S4、确认相关字段涉及的数据库并读取与相关字段匹配的数据:根据指标配置模块所配置的指标所需的相关字段集合与数据接入模块连接的外部数据库的相关字段进行匹配,确定相关字段涉及的数据库,读取数据库中与相关字段匹配的数据。
7.根据权利要求6所述的一种半结构化文本数据的规则引擎系统的前置接入方法,其特征在于,还包括以下步骤:
S5、确定最小相关字段集合:将涉及的数据库中的相关字段集合求并集,即可得到每个数据库需要抽取的最小相关字段集合。
8.根据权利要求6所述的一种半结构化文本数据的规则引擎系统的前置接入方法,其特征在于,所述逻辑块可以包含其他已定义的逻辑块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811603213.8A CN109710674A (zh) | 2018-12-26 | 2018-12-26 | 一种半结构化文本数据的规则引擎系统及前置接入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811603213.8A CN109710674A (zh) | 2018-12-26 | 2018-12-26 | 一种半结构化文本数据的规则引擎系统及前置接入方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109710674A true CN109710674A (zh) | 2019-05-03 |
Family
ID=66258428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811603213.8A Pending CN109710674A (zh) | 2018-12-26 | 2018-12-26 | 一种半结构化文本数据的规则引擎系统及前置接入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710674A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580091A (zh) * | 2020-11-04 | 2021-03-30 | 京信数据科技有限公司 | 一种细粒度数据访问控制方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402515A (zh) * | 2010-09-10 | 2012-04-04 | 深圳市鹏海运电子数据交换有限公司 | 通用自定义查询系统及方法 |
CN103729448A (zh) * | 2013-12-31 | 2014-04-16 | 深圳市科漫达智能管理科技有限公司 | 一种数据查询方法及装置 |
CN103942228A (zh) * | 2013-01-23 | 2014-07-23 | 纽海信息技术(上海)有限公司 | 规则引擎、计算方法、业务系统及调用方法 |
CN104572122A (zh) * | 2015-01-28 | 2015-04-29 | 中国工商银行股份有限公司 | 一种软件应用数据的生成装置及方法 |
CN107145587A (zh) * | 2017-05-11 | 2017-09-08 | 成都四方伟业软件股份有限公司 | 一种基于大数据挖掘的医保反欺诈系统 |
CN107943912A (zh) * | 2017-11-17 | 2018-04-20 | 江苏中威科技软件系统有限公司 | 一种响应式资源目录数据可视化管理方法、终端及装置 |
-
2018
- 2018-12-26 CN CN201811603213.8A patent/CN109710674A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402515A (zh) * | 2010-09-10 | 2012-04-04 | 深圳市鹏海运电子数据交换有限公司 | 通用自定义查询系统及方法 |
CN103942228A (zh) * | 2013-01-23 | 2014-07-23 | 纽海信息技术(上海)有限公司 | 规则引擎、计算方法、业务系统及调用方法 |
CN103729448A (zh) * | 2013-12-31 | 2014-04-16 | 深圳市科漫达智能管理科技有限公司 | 一种数据查询方法及装置 |
CN104572122A (zh) * | 2015-01-28 | 2015-04-29 | 中国工商银行股份有限公司 | 一种软件应用数据的生成装置及方法 |
CN107145587A (zh) * | 2017-05-11 | 2017-09-08 | 成都四方伟业软件股份有限公司 | 一种基于大数据挖掘的医保反欺诈系统 |
CN107943912A (zh) * | 2017-11-17 | 2018-04-20 | 江苏中威科技软件系统有限公司 | 一种响应式资源目录数据可视化管理方法、终端及装置 |
Non-Patent Citations (1)
Title |
---|
胡志华: ""基于Web服务的多数据库集中查询系统的研究与应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580091A (zh) * | 2020-11-04 | 2021-03-30 | 京信数据科技有限公司 | 一种细粒度数据访问控制方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Incrests: Towards real-time incremental short text summarization on comment streams from social network services | |
CN109508879B (zh) | 一种风险的识别方法、装置及设备 | |
van Altena et al. | Understanding big data themes from scientific biomedical literature through topic modeling | |
WO2021047373A1 (zh) | 基于大数据的列数据处理方法、设备及介质 | |
CN110503459A (zh) | 基于大数据的用户信用度评估方法、装置及存储介质 | |
CN110765101B (zh) | 标签的生成方法、装置、计算机可读存储介质及服务器 | |
Rahnama | Distributed real-time sentiment analysis for big data social streams | |
AU2018101524A4 (en) | Stock prediction research based on finiancial news by svm | |
CN105786961A (zh) | 一种基于金融资讯的数据分类处理方法 | |
CN112765150A (zh) | 大数据异构融合提取方法及装置 | |
CN112256684A (zh) | 一种报表生成方法、终端设备及存储介质 | |
CN115827862A (zh) | 一种多元费用凭证数据关联采集方法 | |
CN109685375B (zh) | 一种基于半结构化文本数据的企业风险规则引擎运算方法 | |
CN107729330B (zh) | 获取数据集的方法和装置 | |
CN114444465A (zh) | 信息抽取方法、装置、设备及存储介质 | |
CN109710674A (zh) | 一种半结构化文本数据的规则引擎系统及前置接入方法 | |
Altuncu et al. | Graph-based topic extraction from vector embeddings of text documents: Application to a corpus of news articles | |
CN110874366A (zh) | 数据处理、查询方法和装置 | |
WO2020199482A1 (zh) | 大样本研报信息提取方法、装置、设备及存储介质 | |
CN112183037A (zh) | 一种平行企业财税SaaS系统中数据分类汇总方法及系统 | |
CN116860856A (zh) | 一种财务数据处理方法、装置、计算机设备及存储介质 | |
US10877998B2 (en) | Highly atomized segmented and interrogatable data systems (HASIDS) | |
CN116050359A (zh) | 一种保单托管录入方法、系统、终端设备及存储介质 | |
CN116089417A (zh) | 信息获取方法、装置、存储介质及计算机设备 | |
CN115827994A (zh) | 一种数据处理方法、装置、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190503 |