CN113191137A - 一种操作风险获取方法、系统、电子设备及存储介质 - Google Patents
一种操作风险获取方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113191137A CN113191137A CN202110587891.5A CN202110587891A CN113191137A CN 113191137 A CN113191137 A CN 113191137A CN 202110587891 A CN202110587891 A CN 202110587891A CN 113191137 A CN113191137 A CN 113191137A
- Authority
- CN
- China
- Prior art keywords
- metadata
- data
- information
- risk
- tuple data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000008451 emotion Effects 0.000 claims abstract description 61
- 238000003062 neural network model Methods 0.000 claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000002996 emotional effect Effects 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000002265 prevention Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013522 software testing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种操作风险获取方法,可用于金融领域或其他领域,包括:获取操作系统的日志信息;将日志信息转换为多条元组数据;针对每条元组数据,根据该元组数据中的至少一元数据进行语义分析,得到该元组数据的情感信息;将多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息。本公开还提供了一种操作风险获取系统、电子设备及计算机可读存储介质。
Description
技术领域
本公开涉及金融机构操作风险防控管理领域,具体涉及一种操作风险获取方法、系统、电子设备及存储介质。
背景技术
近年来,金融界的重量级案件频发,一系列由操作风险而引发的案例给商业银行造成了巨大损失。当前操作风险防控方式主要为事后防控。要想降低因操作风险带来的损失,就须在损失发生前和发生中进行有效布控和拦截,而事前布控和拦截关键在于对操作风险进行准确识别。因此,如何完整、准确的获取操作事件内部的风险信息,成为了一个亟需解决的问题。
发明内容
为解决现有技术中存在的问题,本公开实施例提供的一种操作风险获取方法、系统、电子设备及存储介质,旨在准确地识别出存在的操作风险,在识别出后对操作人员进行预警,能够有效降低因操作风险导致的经济损失。
本公开的第一个方面提供了一种操作风险获取方法,包括:获取操作系统的日志信息;将日志信息转换为多条元组数据;针对每条元组数据,根据该元组数据中的至少一元数据进行语义分析,得到该元组数据的情感信息;将该多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息。
进一步地,针对每条元组数据,根据该元组数据中的至少一元数据进行语义分析,得到该元组数据的情感信息,包括:采用情感词典,根据该元组数据中的至少一元数据进行语义分析,确定所述每条元组数据中带有情感的文本,得到该元组数据的情感信息。
进一步地,将该多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息,包括:将该多条元组数据及其携带的情感信息进行预处理,得到该多条元组数据的向量矩阵集;将向量矩阵集输入至所述神经网络模型的分类器进行分类训练,得到每条元组数据的风险信息。
进一步地,将日志信息转换为多条元组数据,包括:对所述日志信息进行分词及格式化处理,得到多条元组数据,其中,每条元组数据包括6元组数据,该6元组数据为用户操作事件的时间、相关用户编号、事件信息、事件代价、事件发生概率及事件等级。
进一步地,将该多条元组数据及其携带的情感信息输入至神经网络模型之前,包括:获取训练数据集,其中,训练数据集为已标注的数据集;利用已标注的数据集训练所述神经网络模型,得到已训练的所述神经网络模型。
进一步地,多条元组数据的风险信息至少包括:每条元组数据的风险评分值、所述多条元组数据中的正负样本数量及正负样本的比率。
进一步地,分类器为Naive Bayesian分类器或逻辑回归分类器或SVM三类分类器。
本公开的第二个方面提供了一种操作风险获取系统,包括:日志信息获取模块,用于获取操作系统的日志信息;数据转换模块,用于将日志信息转换为多条元组数据;数据语义分析模块,用于针对每条元组数据,根据该元组数据中的至少一元数据进行语义分析,得到该元组数据的情感信息;风险信息获取模块,用于将多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息。
进一步地,数据语义分析模块用于针对每条元组数据,根据该元组数据中的至少一元数据进行语义分析,得到该元组数据的情感信息,包括:采用情感词典,根据该元组数据中的至少一元数据进行语义分析,确定所述每条元组数据中带有情感的文本,得到该元组数据的情感信息。
进一步地,风险信息获取模块用于将所述多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息,包括:将所述多条元组数据及其携带的情感信息进行预处理,得到该多条元组数据的向量矩阵集;将向量矩阵集输入至该神经网络模型的分类器进行分类训练,得到每条元组数据的风险信息。
进一步地,数据转换模块用于将日志信息转换为多条元组数据,包括:对该日志信息进行分词及格式化处理,得到多条元组数据,其中,每条元组数据包括6元组数据,该6元组数据为用户操作事件的时间、相关用户编号、事件信息、事件代价、事件发生概率及事件等级。
进一步地,多条元组数据的风险信息至少包括:每条元组数据的风险评分值、所述多条元组数据中的正负样本数量及正负样本的比率。
本公开的第三个方面提供了一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现本公开的第一个方面提供的操作风险获取方法。
本公开的第四个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本公开的第一个方面提供的操作风险获取方法。
本公开提供的一种操作风险获取方法、系统、电子设备及存储介质,通过数据挖掘找出操作中的风险记录,为后续风险提前识别提供基础。本公开提供的方法从大量日志记录中挖掘数据,样本更多样,以使识别结果更趋近真实,识别更准确,实现了对操作风险的智能化识别,节约了人力成本。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开一实施例的操作风险获取方法的应用场景图;
图2示意性示出了根据本公开一实施例的操作风险获取方法的流程图;
图3示意性示出了根据本公开一实施例的得到每条元组数据的风险信息的流程图;
图4示意性示出了根据本公开一实施例的登录系统的方框图;
图5示意性示出了根据本公开一实施例的风险信息获取模块的方框图;
图6示意性示出了根据本公开一实施例的适于实现上文描述的方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。
本公开实施例提供一种操作风险获取方法,包括:获取操作系统的日志信息;将该日志信息转换为多条元组数据;针对每条元组数据,根据该元组数据中的至少一元数据进行语义分析,得到该元组数据的情感信息;将所述多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息。
根据本公开的实施例,通过对大量日志记录中挖掘出操作中的风险记录,对用户操作行为中存在的操作风险进行标记及生成相应的风险信息,为后续风险提前识别提供数据依据,可起到在损失发生前和发生中进行有效布控和拦截的作用。
图1示意性示出了根据本公开实施例的可以应用于操作风险获取方法的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如各软件编程系统、软件测试系统、网页浏览器应用、手机银行应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所按照的应用系统提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等进行分析处理,并将处理结果(例如操作风险分析结果等)反馈给终端设备。
需要说明的是,本公开实施例所提供的操作风险获取方法可以由服务器105执行。相应地,本公开实施例所提供的操作风险获取系统可以部署于服务器105中。本公开实施例所提供的操作风险获取方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的用于操作风险获取系统也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。当然,在一些实施例中,本公开实施例所提供的操作风险获取系统还可以部署在用户终端设备中,即该操作风险获取还可以由用户终端设备执行。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的操作风险获取方法的流程图。如图2所示,该方法包括:步骤S201~S204。
在操作S201,获取操作系统的日志信息。
根据本公开的实施例,该操作风险获取可以应用于电子设备,该电子设备可以包括但不限于服务器105、服务器集群等。该服务器中可以安装各应用系统,例如:手机银行系统、金融系统等等,且该服务器上存储有用户对各应用系统进行操作时生成的日志文件,该日志文件中记录有用户操作行为的信息。
本公开的实施例中,日志文件可以以.txt、.log等文件格式存储在服务器上,日志文件中的每条日志信息均为用户进行一个操作行为时的相应的信息,其包括但不仅限于用户编号信息、操作时间、事件内容、该时间的分类等级等,其中,用户进行的一笔交易因为涉及到多个操作行为,其会产生相应的多条日志信息并存储。本公开的实施例中,将同一笔交易涉及到的相关人员信息整合为一条元数据,例如每条元数据可以为{″code″:″00001″,″data″:″[{″2021-04-06″,[″000111A″,″000112A″,″000113A″],“转账对手风险”,“00001”,”00001”,”A”}]”,”msg″:″″},该示例性的元数据中的相关对象为“000111A”、“000112A”、“000113A”,代表该笔交易涉及到的相关交易对象有三位,该笔交易的时间为“2021-04-06”,其中,关于该笔交易的信息均存储在“转账对手风险”的备注信息中。
需说明的是,本公开实施例中的根据日志文件中的多条日志信息生成的一笔交易的元数据仅为示例性的说明,其并不构成本公开实施例的限定。
在操作S202,将该日志信息转换为多条元组数据。
本公开的实施例中,根据获取的日志信息,通过预置的规则将该日志信息转换为多条元组数据。其中,该预置的规则包括但不仅限于分词及格式化处理规则。具体地,对该日志信息进行分词及格式化处理,得到多条元组数据,其中,每条元组数据包括6元组数据,该6元组数据为用户操作事件的时间(T)、相关用户编号(W)、事件信息(C)、事件代价(P)、事件发生概率(R)及事件等级(G),该用户操作事件的时间T指风险事件发生的时间点;相关用户编号W指的是风险相关人,包括客户编号和员工编号,该员工指的是针对该笔交易进行处理为通过或不通过的工作人员;事件信息C指操作事件的内容,包括事件发生的过程及情况等信息;事件代价P代表该事件产生的代价,即造成的损失或影响,其可以量化为具体数值的资金损失或处罚等;事件发生概率R表示一定时间内该类事件发生的频次,其通过计算获得;事件等级G为该事件对应的风险事件等级,其为行内评定等级。
沿用上述实施例,如将上述元数据中经过格式化处理后,其对应的用户操作事件的时间转换为″time″:″2021-04-06″,相关用户编号转换为″who″:[″000111A″,″000112A″,″000113A″],事件信息转换为″content″:″转账对手风险-高危账户″,事件代价转换为″price″:″00001″,事件发生概率转换为″rate″:″00001″,事件等级转换为″grade″:″A″,即该根据该元数据生成的6元组数据为{″time″:″2021-04-06″,″who″:[″000111A″,″000112A″,″000113A″],″content″:″转账对手风险-高危账户″,″price″:″00001″,″rate″:″00001″,″grade″:″A″}。
需说明的是,事件等级G可以通过字母A、B、C...等级进行分类识别,其等级严重顺序可以从高至低排列,也可以增序排列,其中,等级较高的用户帐户是后续进行着重防控的对象,本公开的实施例对6元组数据中的各元组设置参数方式不做限定。
在操作S203,针对每条元组数据,根据该元组数据中的至少一元数据进行语义分析,得到该元组数据的情感信息。
本公开的实施例中,每条元组数据中至少包括6元组数据,其中,事件信息C中包括有该事件的多个备注信息,每个备注信息包括带有不同感情的文本,根据该元组数据中的事件信息C、事件代价P及事件发生概率R等进行语义分析,可以得到该元组数据的情感信息。
具体地,采用情感词典,根据该元组数据中的至少一元数据进行语义分析,确定每条元组数据中带有情感的文本,得到该元组数据的情感信息。
本公开的实施例中,采用HowNet提供的Emotion Dictionary作为基础情感词典,根据实际使用情况删去一些不带感情色彩的文本,对文本进行分词和停用词处理等预处理,再利用先构建好的情感词典,对文本进行字符串匹配,从而挖掘正面和负面信息,其中,情感词典包含正面词语词典、负面词语词典、否定词语词典、程度副词词典等四部分。将中文词语的情感倾向(SO)定义为积极和消极两种态度,并主要使用极性Polarity(Po)和强度Intensity(I)两个指标进行情感计算,极性Po的取值在本公开实施例中仅涉及:积极、消极、中性(不相关)三种,强度I是对极性划分的一种扩展,代表着极性倾向性的强弱程度。词语的情感极性定义如下:
S(word)=(Po,)Po={-1,0,1}/={0,0.5,}
其中,Po取值“-1”代表着消极,取值“0”代表着中性或不相关,取值“1”代表着积极,对于/:数字越大代表着强度越大,其中,当P=0时,S(word)不存在I值。本公开的实施例中,沿用上述实施例,上述实施例举例的该条元组数据的事件信息C、事件代价P及事件发生概率R等信息进行情感分析的结果为负面样本。
在操作S204,将该多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息。
本公开的实施例中,由于文本没有可参考的绝对真实数据,所以需要先进行人工标注,假设需标注1万条数据的倾向,示例数据如下表1所示:
表1操作行为与评分映射关系表
操作 | 评分 |
转账账户(高危) | -1 |
源账户(高危) | -1 |
正常转账 | 0 |
其中,设对1万条数据中的20%数据,即2000条的数据作为训练数据集进行人工标注,然后将该已标注的数据集输入至待训练的神经网络模型进行模型训练。具体地,将该多条元组数据及其携带的情感信息输入至神经网络模型之前,包括:获取训练数据集,其中,该训练数据集为已标注的数据集,并利用已标注的数据集训练该神经网络模型,得到已训练的神经网络模型。
根据本公开的实施例,如图3所示,将多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息,具体包括:
在操作S301,将该多条元组数据及其携带的情感信息进行预处理,得到该多条元组数据的向量矩阵集。
在操作S302,将向量矩阵集输入至神经网络模型的分类器进行分类训练,得到每条元组数据的风险信息。
本公开的实施例中,该神经网络模型网络采用卷积神经网络(CNN),其结构主要包括五层,第一层是嵌入层(输入层),输入Word2vec词向量,第二层是卷积层,卷积层拥有多个卷积核和特征图,第三层是池化层,最后全连接层,结果用softmax层或者dropout输出。该卷积层中有不同大小的卷积核,因此,卷积后会生成不同形状的张量,需将结果合并。此外,卷积操作采用的是窄卷积,并对卷积输出结果进行max-pooling处理后选取得分最大的那个值作为输出结果。
具体地,该神经网络模型的分类器可以采用Naive Bayesian分类器或逻辑回归分类器或SVM三类分类器或其他分类器,通过分类器处理后的多条元组数据的风险信息至少包括:每条元组数据的风险评分值、多条元组数据中的正负样本数量、正负样本的比率,以及风险分类精度、评价指标等信息,其中,该多条元组数据中的正负样本数量是指正向样本及负向样本的数量,例如8000条样本数据中,根据风险信息获得的正向样本数量为5600条,负向样本为1600条,则其正负样本的比率分别为20%和70%。需说明的是,该样本数据数值、正负向样本数量仅为示例性说明,其并不构成本公开实施例的限定。
根据每条元组数据的风险评分值可以知道其对应的用户操作的风险数值,进而可判断该用户进行相关操作时产生的风险有多大,其发生的概率为多少,以及根据一定时间内的条元组数据中的正负样本数量、正负样本的比率可预判一些类的风险行为发生的概率及较为集中的时间段等信息,对后续相关用户操作的监控与风险防控起到数据依据作用。另外,将本公开提供的方法部署在应用系统的相应接口处,可以实时对用户操作行为的风险信息获取,然后根据该风险值进行操作时间拦截,减少非必要的意外损失。
需说明的是,上述实施例中,各数据参数设置及数值大小仅为示例性的说明,并不代表在其他实施例中其不可以为其他参数设定及大小,本公开对此不做限定。
图4示意性示出了根据本公开实施例的操作风险获取系统的方框图。
如图4所示,该操作风险获取系统400包括:日志信息获取模块410、数据转换模块420、数据语义分析模块430及风险信息获取模块440。该系统400可以用于实现参考图2所描述的操作风险获取方法。
日志信息获取模块410,用于获取操作系统的日志信息。根据本公开的实施例,该日志信息获取模块410例如可以用于执行上文参考图2所描述的S201步骤,在此不再赘述。
数据转换模块420,用于将所述日志信息转换为多条元组数据。根据本公开的实施例,该数据转换模块420例如可以用于执行上文参考图2所描述的S202步骤,在此不再赘述。
数据语义分析模块430,用于针对每条元组数据,根据该元组数据中的至少一元数据进行语义分析,得到该元组数据的情感信息。根据本公开的实施例,该数据语义分析模块430例如可以用于执行上文参考图2所描述的S203步骤,在此不再赘述。
风险信息获取模块440,用于将所述多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息。根据本公开的实施例,该风险信息获取模块440例如可以用于执行上文参考图2所描述的S204步骤,在此不再赘述。
本公开的实施例中,数据转换模块420用于将所述日志信息转换为多条元组数据,包括:对所述日志信息进行分词及格式化处理,得到多条元组数据,其中,每条元组数据包括6元组数据,该6元组数据为用户操作事件的时间、相关用户编号、事件信息、事件代价、事件发生概率及事件等级。
本公开的实施例中,该数据语义分析模块430用于针对每条元组数据,根据该元组数据中的至少一元数据进行语义分析,得到该元组数据的情感信息,包括:采用情感词典,根据该元组数据中的至少一元数据进行语义分析,确定每条元组数据中带有情感的文本,得到该元组数据的情感信息。
如图5所示,该风险信息获取模块440用于将该多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息,具体包括:
向量矩阵生成模块4401,用于将多条元组数据及其携带的情感信息进行预处理,得到该多条元组数据的向量矩阵集。根据本公开的实施例,该向量矩阵生成模块4401例如可以用于执行上文参考图3所描述的S301步骤,在此不再赘述。
数据训练模块4402,用于将该向量矩阵集输入至神经网络模型的分类器进行分类训练,得到每条元组数据的风险信息。根据本公开的实施例,该数据训练模块4402例如可以用于执行上文参考图3所描述的S302步骤,在此不再赘述。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,日志信息获取模块410、数据转换模块420、数据语义分析模块430及风险信息获取模块440中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,日志信息获取模块410、数据转换模块420、数据语义分析模块430及风险信息获取模块440中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,日志信息获取模块410、数据转换模块420、数据语义分析模块430及风险信息获取模块440中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
本公开提供的一种操作风险获取方法及系统,可用于金融领域或其他领域,需说明的是,本公开提供的一种操作风险获取方法及系统可用于金融领域,例如金融领域中各业务系统的登录,也可用于除金融领域之外其他领域,本公开提供的一种操作风险获取方法及系统的应用领域不作限定。
图6示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的方框图。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,本实施例中所描述的电子设备600,包括:处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分808加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有系统600操作所需的各种程序和数据。处理器601、ROM 602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。系统800还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的操作风险获取方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。
需要说明的是,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。
Claims (14)
1.一种操作风险获取方法,其特征在于,包括:
获取操作系统的日志信息;
将所述日志信息转换为多条元组数据;
针对每条元组数据,根据该元组数据中的至少一元数据进行语义分析,得到该元组数据的情感信息;
将所述多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息。
2.根据权利要求1所述的操作风险获取方法,其特征在于,所述针对每条元组数据,根据该元组数据中的至少一元数据进行语义分析,得到该元组数据的情感信息,包括:
采用情感词典,根据该元组数据中的至少一元数据进行语义分析,确定所述每条元组数据中带有情感的文本,得到该元组数据的情感信息。
3.根据权利要求1所述的操作风险获取方法,其特征在于,所述将所述多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息,包括:
将所述多条元组数据及其携带的情感信息进行预处理,得到所述多条元组数据的向量矩阵集;
将所述向量矩阵集输入至所述神经网络模型的分类器进行分类训练,得到每条元组数据的风险信息。
4.根据权利要求1所述的操作风险获取方法,其特征在于,所述将所述日志信息转换为多条元组数据,包括:
对所述日志信息进行分词及格式化处理,得到多条元组数据,其中,每条元组数据包括6元组数据,该6元组数据为用户操作事件的时间、相关用户编号、事件信息、事件代价、事件发生概率及事件等级。
5.根据权利要求1所述的操作风险获取方法,其特征在于,所述将所述多条元组数据及其携带的情感信息输入至神经网络模型之前,包括:
获取训练数据集,其中,所述训练数据集为已标注的数据集;
利用所述已标注的数据集训练所述神经网络模型,得到已训练的所述神经网络模型。
6.根据权利要求1所述的操作风险获取方法,其特征在于,所述多条元组数据的风险信息至少包括:每条元组数据的风险评分值、所述多条元组数据中的正负样本数量及正负样本的比率。
7.根据权利要求3所述的操作风险获取方法,其特征在于,所述分类器为NaiveBayesian分类器或逻辑回归分类器或SVM三类分类器。
8.一种操作风险获取系统,其特征在于,包括:
日志信息获取模块,用于获取操作系统的日志信息;
数据转换模块,用于将所述日志信息转换为多条元组数据;
数据语义分析模块,用于针对每条元组数据,根据该元组数据中的至少一元数据进行语义分析,得到该元组数据的情感信息;
风险信息获取模块,用于将所述多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息。
9.根据权利要求8所述的操作风险获取系统,其特征在于,所述数据语义分析模块用于针对每条元组数据,根据该元组数据中的至少一元数据进行语义分析,得到该元组数据的情感信息,包括:
采用情感词典,根据该元组数据中的至少一元数据进行语义分析,确定所述每条元组数据中带有情感的文本,得到该元组数据的情感信息。
10.根据权利要求8所述的操作风险获取系统,其特征在于,所述风险信息获取模块用于将所述多条元组数据及其携带的情感信息输入至神经网络模型,得到每条元组数据的风险信息,包括:
将所述多条元组数据及其携带的情感信息进行预处理,得到所述多条元组数据的向量矩阵集;
将所述向量矩阵集输入至所述神经网络模型的分类器进行分类训练,得到每条元组数据的风险信息。
11.根据权利要求8所述的操作风险获取系统,其特征在于,所述数据转换模块用于将所述日志信息转换为多条元组数据,包括:
对所述日志信息进行分词及格式化处理,得到多条元组数据,其中,每条元组数据包括6元组数据,该6元组数据为用户操作事件的时间、相关用户编号、事件信息、事件代价、事件发生概率及事件等级。
12.根据权利要求8所述的操作风险获取系统,其特征在于,所述多条元组数据的风险信息至少包括:每条元组数据的风险评分值、所述多条元组数据中的正负样本数量及正负样本的比率。
13.一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至7中任一项所述的操作风险获取方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的操作风险获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110587891.5A CN113191137A (zh) | 2021-05-27 | 2021-05-27 | 一种操作风险获取方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110587891.5A CN113191137A (zh) | 2021-05-27 | 2021-05-27 | 一种操作风险获取方法、系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113191137A true CN113191137A (zh) | 2021-07-30 |
Family
ID=76985528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110587891.5A Pending CN113191137A (zh) | 2021-05-27 | 2021-05-27 | 一种操作风险获取方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113191137A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023105384A1 (en) * | 2021-12-07 | 2023-06-15 | International Business Machines Corporation | Blockchain clock for storing event data |
US12019653B2 (en) | 2021-12-07 | 2024-06-25 | International Business Machines Corporation | Blockchain clock for storing event data |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3109782A1 (en) * | 2015-06-08 | 2016-12-28 | Fujitsu Limited | A risk determining apparatus and risk determining method |
CN107729403A (zh) * | 2017-09-25 | 2018-02-23 | 中国工商银行股份有限公司 | 互联网信息风险提示方法及系统 |
CN108683686A (zh) * | 2018-06-21 | 2018-10-19 | 中国科学院信息工程研究所 | 一种随机子域名DDoS攻击检测方法 |
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN111125042A (zh) * | 2019-11-13 | 2020-05-08 | 中国建设银行股份有限公司 | 一种确定风险操作事件的方法和装置 |
CN111552609A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 一种异常状态检测方法、系统、存储介质、程序、服务器 |
CN111798047A (zh) * | 2020-06-30 | 2020-10-20 | 平安普惠企业管理有限公司 | 风控预测方法、装置、电子设备及存储介质 |
CN111858242A (zh) * | 2020-07-10 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种系统日志异常检测方法、装置及电子设备和存储介质 |
CN112637108A (zh) * | 2019-09-24 | 2021-04-09 | 中国科学院国家空间科学中心 | 一种基于异常检测和情感分析的内部威胁分析方法及系统 |
-
2021
- 2021-05-27 CN CN202110587891.5A patent/CN113191137A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3109782A1 (en) * | 2015-06-08 | 2016-12-28 | Fujitsu Limited | A risk determining apparatus and risk determining method |
CN107729403A (zh) * | 2017-09-25 | 2018-02-23 | 中国工商银行股份有限公司 | 互联网信息风险提示方法及系统 |
CN108683686A (zh) * | 2018-06-21 | 2018-10-19 | 中国科学院信息工程研究所 | 一种随机子域名DDoS攻击检测方法 |
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN112637108A (zh) * | 2019-09-24 | 2021-04-09 | 中国科学院国家空间科学中心 | 一种基于异常检测和情感分析的内部威胁分析方法及系统 |
CN111125042A (zh) * | 2019-11-13 | 2020-05-08 | 中国建设银行股份有限公司 | 一种确定风险操作事件的方法和装置 |
CN111552609A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 一种异常状态检测方法、系统、存储介质、程序、服务器 |
CN111798047A (zh) * | 2020-06-30 | 2020-10-20 | 平安普惠企业管理有限公司 | 风控预测方法、装置、电子设备及存储介质 |
CN111858242A (zh) * | 2020-07-10 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种系统日志异常检测方法、装置及电子设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023105384A1 (en) * | 2021-12-07 | 2023-06-15 | International Business Machines Corporation | Blockchain clock for storing event data |
US12019653B2 (en) | 2021-12-07 | 2024-06-25 | International Business Machines Corporation | Blockchain clock for storing event data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113326764A (zh) | 训练图像识别模型和图像识别的方法和装置 | |
CN107193974B (zh) | 基于人工智能的地域性信息确定方法和装置 | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN109739989B (zh) | 文本分类方法和计算机设备 | |
CN112995414B (zh) | 基于语音通话的行为质检方法、装置、设备及存储介质 | |
US11640420B2 (en) | System and method for automatic summarization of content with event based analysis | |
CN112507702A (zh) | 文本信息的抽取方法、装置、电子设备及存储介质 | |
CN115619364A (zh) | 基于人工智能的招聘信息发布方法、装置及系统 | |
CN112926308A (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN114090601B (zh) | 一种数据筛选方法、装置、设备以及存储介质 | |
CN114970540A (zh) | 训练文本审核模型的方法和装置 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN114398466A (zh) | 基于语义识别的投诉分析方法、装置、计算机设备及介质 | |
CN113191137A (zh) | 一种操作风险获取方法、系统、电子设备及存储介质 | |
US20230206007A1 (en) | Method for mining conversation content and method for generating conversation content evaluation model | |
CN116383382A (zh) | 敏感信息的识别方法、装置、电子设备及存储介质 | |
CN116048463A (zh) | 基于标签管理的需求项内容智能推荐方法及装置 | |
CN115759100A (zh) | 数据处理方法、装置、设备及介质 | |
CN112115212B (zh) | 参数识别方法、装置和电子设备 | |
CN110059180B (zh) | 文章作者身份识别及评估模型训练方法、装置及存储介质 | |
CN114254028A (zh) | 事件属性抽取方法、装置、电子设备和存储介质 | |
CN113392215A (zh) | 生产问题分类模型的训练方法、生产问题分类方法及装置 | |
CN117172632B (zh) | 一种企业异常行为检测方法、装置、设备及存储介质 | |
CN113505229B (zh) | 实体关系抽取模型训练方法及装置 | |
CN110891010B (zh) | 用于发送信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |