CN112905789B - 一种基于自然语言处理的非结构化数据处理方法及系统 - Google Patents
一种基于自然语言处理的非结构化数据处理方法及系统 Download PDFInfo
- Publication number
- CN112905789B CN112905789B CN202110141597.1A CN202110141597A CN112905789B CN 112905789 B CN112905789 B CN 112905789B CN 202110141597 A CN202110141597 A CN 202110141597A CN 112905789 B CN112905789 B CN 112905789B
- Authority
- CN
- China
- Prior art keywords
- information
- data
- data information
- obtaining
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/389—Keeping log of transactions for guaranteeing non-repudiation of a transaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于自然语言处理的非结构化数据处理方法及系统,通过获得第一数据信息;获得第一标识信息及第一分割指令;获得第一分割信息和第二分割信息;根据第一分割信息、第二分割信息,获得第一数据信息中的第二数据信息;获得第一拆分指令;根据第一拆分指令、第一标识信息,获得第一拆分数据信息;将第一拆分数据信息作为样本训练数据集;获得目标模型;将样本训练数据集输入至目标模型中,通过样本训练数据集对目标模型进行训练;将第二数据信息作为第一输入信息;将第一输入信息输入至训练完成后的目标模型中,获得目标模型的第一输出结果,达到了减少人工标注投入,进而提高识别准确性的技术效果。
Description
技术领域
本发明涉及数字处理技术领域,尤其涉及一种基于自然语言处理的非结构化数据处理方法及系统。
背景技术
根据《法人金融机构洗钱和恐怖融资风险管理指引(试行)》(银反洗发[2018]19号)的要求,“在名单调整时,法人金融机构应当立即对存量客户以及上溯三年内的交易开展回溯性调查,并按规定提交可疑交易报告。法人金融机构在洗钱风险管理工作中发现的其他需要监测关注的组织或人员名单,可以根据洗钱风险管理需要自主决定是否开展实时监测和回溯性调查。”
但本发明申请人发现现有技术至少存在如下技术问题:
现有技术中的在金融机构之间进行外汇清算、国际结算时,通常是使用环球同业金融网络系统swifit电文进行交互,由于受swift电文的格式影响,比如MT103汇款报文59tag受益人信息可录入名称地址非结构化信息录入,导致金融机构在进行清算交易时很难按标准化结构化数据进行存储;另一方面不同的业务操作人员信息录入习惯的差异,进一步加大录入文本信息的复杂性。
发明内容
本发明实施例提供了一种基于自然语言处理的非结构化数据处理方法及系统,解决了现有技术中金融机构在进行清算交易时很难按标准化结构化数据进行存储,同时由于不同的业务操作人员信息录入习惯的差异,加大录入文本信息的复杂性的技术问题,达到了通过数据预处理环节,减少人工标注投入,进而提高识别准确性,降低应用程序的开发和可扩展性成本的技术效果。
鉴于上述问题,提出了本申请实施例以便提供一种基于自然语言处理的非结构化数据处理方法及系统。
第一方面,本发明提供了一种基于自然语言处理的非结构化数据处理方法,所述方法应用于一金融网络系统,其中,所述方法包括:获得第一数据信息;获得第一标识信息及第一分割指令;根据所述第一分割指令,按照所述第一标识信息,对所述第一数据信息进行分割处理之后,获得第一分割信息和第二分割信息;根据所述第一分割信息、所述第二分割信息,获得所述第一数据信息中的第二数据信息;获得第一拆分指令;根据所述第一拆分指令、所述第一标识信息,获得第一拆分数据信息;将所述第一拆分数据信息作为样本训练数据集;获得目标模型;将所述样本训练数据集输入至所述目标模型中,通过所述样本训练数据集对所述目标模型进行训练;将所述第二数据信息作为第一输入信息;将所述第一输入信息输入至所述训练完成后的所述目标模型中,获得所述目标模型的第一输出结果,其中,所述第一输出结果包括第三数据信息。
第二方面,本发明提供了一种基于自然语言处理的非结构化数据处理系统,所述系统包括:
第一获得单元,所述第一获得单元用于获得第一数据信息;
第二获得单元,所述第二获得单元用于获得第一标识信息及第一分割指令;
第三获得单元,所述第三获得单元用于根据所述第一分割指令,按照所述第一标识信息,对所述第一数据信息进行分割处理之后,获得第一分割信息和第二分割信息;
第四获得单元,所述第四获得单元用于根据所述第一分割信息、所述第二分割信息,获得所述第一数据信息中的第二数据信息;
第五获得单元,所述第五获得单元用于获得第一拆分指令;
第六获得单元,所述第六获得单元用于根据所述第一拆分指令、所述第一标识信息,获得第一拆分数据信息;
第一执行单元,所述第一执行单元用于将所述第一拆分数据信息作为样本训练数据集;
第七获得单元,所述第七获得单元用于获得目标模型;
第二执行单元,所述第二执行单元用于将所述样本训练数据集输入至所述目标模型中,通过所述样本训练数据集对所述目标模型进行训练;
第三执行单元,所述第三执行单元用于将所述第二数据信息作为第一输入信息;
第八获得单元,所述第八获得单元用于将所述第一输入信息输入至所述训练完成后的所述目标模型中,获得所述目标模型的第一输出结果,其中,所述第一输出结果包括第三数据信息。
第三方面,本发明提供了一种基于自然语言处理的非结构化数据处理系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述第一方面的方法的步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明实施例提供的一种基于自然语言处理的非结构化数据处理方法及系统,所述方法应用于一金融网络系统,其中,所述方法包括:获得第一数据信息;获得第一标识信息及第一分割指令;根据所述第一分割指令,按照所述第一标识信息,对所述第一数据信息进行分割处理之后,获得第一分割信息和第二分割信息;根据所述第一分割信息、所述第二分割信息,获得所述第一数据信息中的第二数据信息;获得第一拆分指令;根据所述第一拆分指令、所述第一标识信息,获得第一拆分数据信息;将所述第一拆分数据信息作为样本训练数据集;获得目标模型;将所述样本训练数据集输入至所述目标模型中,通过所述样本训练数据集对所述目标模型进行训练;将所述第二数据信息作为第一输入信息;将所述第一输入信息输入至所述训练完成后的所述目标模型中,获得所述目标模型的第一输出结果,其中,所述第一输出结果包括第三数据信息,从而解决了现有技术中金融机构在进行清算交易时很难按标准化结构化数据进行存储,同时由于不同的业务操作人员信息录入习惯的差异,加大录入文本信息的复杂性的技术问题,达到了通过数据预处理环节,减少人工标注投入,进而提高识别准确性,降低应用程序的开发和可扩展性成本的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明实施例中一种基于自然语言处理的非结构化数据处理方法的流程示意图;
图2为本发明实施例中一种基于自然语言处理的非结构化数据处理系统的结构示意图;
图3为本发明实施例中另一种示例性电子设备的结构示意图。
附图标记说明:第一获得单元11,第二获得单元12,第三获得单元13,第四获得单元14,第五获得单元15,第六获得单元16,第一执行单元17,第七获得单元18,第二执行单元19,第三执行单元20,第八获得单元21,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本发明实施例提供了一种基于自然语言处理的非结构化数据处理方法及系统,用于解决现有技术中金融机构在进行清算交易时很难按标准化结构化数据进行存储,同时由于不同的业务操作人员信息录入习惯的差异,加大录入文本信息的复杂性的技术问题,达到了通过数据预处理环节,减少人工标注投入,进而提高识别准确性,降低应用程序的开发和可扩展性成本的技术效果。
下面,将参考附图详细的描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
根据《法人金融机构洗钱和恐怖融资风险管理指引(试行)》(银反洗发[2018]19号)的要求,“在名单调整时,法人金融机构应当立即对存量客户以及上溯三年内的交易开展回溯性调查,并按规定提交可疑交易报告。法人金融机构在洗钱风险管理工作中发现的其他需要监测关注的组织或人员名单,可以根据洗钱风险管理需要自主决定是否开展实时监测和回溯性调查。”
针对上述技术问题,本发明提供的技术方案总体思路如下:
本申请实施例提供了一种基于自然语言处理的非结构化数据处理方法,所述方法应用于一金融网络系统,其中,所述方法包括:获得第一数据信息;获得第一标识信息及第一分割指令;根据所述第一分割指令,按照所述第一标识信息,对所述第一数据信息进行分割处理之后,获得第一分割信息和第二分割信息;根据所述第一分割信息、所述第二分割信息,获得所述第一数据信息中的第二数据信息;获得第一拆分指令;根据所述第一拆分指令、所述第一标识信息,获得第一拆分数据信息;将所述第一拆分数据信息作为样本训练数据集;获得目标模型;将所述样本训练数据集输入至所述目标模型中,通过所述样本训练数据集对所述目标模型进行训练;将所述第二数据信息作为第一输入信息;将所述第一输入信息输入至所述训练完成后的所述目标模型中,获得所述目标模型的第一输出结果,其中,所述第一输出结果包括第三数据信息。
在介绍了本申请基本原理后,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
实施例一
图1为本发明实施例中一种基于自然语言处理的非结构化数据处理方法的流程示意图。如图1所示,本发明实施例提供了一种基于自然语言处理的非结构化数据处理方法,所述方法应用于一金融网络系统,其中,所述方法包括:
步骤100:获得第一数据信息;
进一步的,为了达到对第一数据信息进行判断分析,以便于后续更有针对性的进行数据处理的效果,本实施例中步骤100还包括:
步骤110:判断所述第一数据信息是否满足第一预设条件;
步骤120:如果不满足所述第一预设条件,则获得所述第一标识信息及所述第一分割指令。
具体而言,本实施例中的基于自然语言处理的非结构化数据处理方法主要应用于金融网络系统,通过该金融网络系统可以对数据进行交互、存储和处理等操作。进一步的,本实施例中的基于自然语言处理的非结构化数据处理方法在实际应用时,首先需要获得第一数据信息,进而需要对第一数据信息进行判断和分析,即判断第一数据信息是否满足第一预设条件,第一预设条件即为预先设定的判断规则,本实施例中的第一预设条件为第一数据信息是否为结构化数据,也就是判断第一数据信息是否满足结构化数据的要求,如果不满足,则说明第一数据信息为非结构化数据信息,需要对第一数据信息进行相应的加工处理,因此,需要生成第一标识信息及第一分割指令。
步骤200:获得第一标识信息及第一分割指令;
步骤300:根据所述第一分割指令,按照所述第一标识信息,对所述第一数据信息进行分割处理之后,获得第一分割信息和第二分割信息;
进一步的,所述第一分割信息和所述第二分割信息均为结构化数据信息。
进一步的,所述第一分割信息为名称实体信息。
进一步的,所述第二分割信息为地址信息。
具体而言,在生成第一标识信息及第一分割指令之后,接着即可按照第一标识信息及第一分割指令对第一数据信息进行处理,此时的第一分割指令为对第一数据信息进行分割的指令,第一标识信息即为对第一数据信息进行处理时的分割标志,也就是按照第一标识信息可对第一数据信息进行分割。进而根据第一分割指令,按照第一标识信息,即可对第一数据信息进行分割,并且在分割处理完成之后,由此可以获得第一分割信息和第二分割信息,此时的第一分割信息和第二分割信息即为将第一数据信息按照第一标识信息进行分割之后所得到的不同的数据信息,并且第一分割信息和第二分割信息均为结构化数据信息。同时本实施例中以第一分割信息为名称实体信息,第二分割信息为地址信息作为优选,从而达到便于后续进行实体识别的目的。
步骤400:根据所述第一分割信息、所述第二分割信息,获得所述第一数据信息中的第二数据信息;
进一步的,所述第二数据信息为非结构化数据信息。
进一步的,为了达到获得第二数据信息的效果,本实施例中步骤400还包括:
步骤410:获得第一比对指令;
步骤420:根据所述第一比对指令,将所述第一分割信息、所述第二分割信息、所述第一标识信息与所述第一数据信息进行比对,获得第一比对结果;
步骤430:根据所述第一比对结果,获得所述第二数据信息,其中,所述第二数据信息为所述第一数据信息中除所述第一分割信息、所述第二分割信息、所述第一标识信息之外的信息。
具体而言,在得到第一分割信息和第二分割信息之后,接着可按照预设需求对第一数据信息进行相应的处理,从而获得第一数据信息中的第二数据信息。具体的获得方式为:首先,需要生成第一比对指令,然后在第一比对指令的指令下,将第一分割信息、第二分割信息、第一标识信息与第一数据信息进行比对,获得第一比对结果,从而可以根据第一比对结果,获得第二数据信息,其中,第二数据信息为第一数据信息中除第一分割信息、第二分割信息、第一标识信息之外的信息。也就是说,在第一数据信息中,由于第一分割信息和第二分割信息均为结构化数据信息,经过比对,可以得到第二数据信息,此时的第二数据信息为非结构化数据信息。
步骤500:获得第一拆分指令;
步骤600:根据所述第一拆分指令、所述第一标识信息,获得第一拆分数据信息;
步骤700:将所述第一拆分数据信息作为样本训练数据集;
具体而言,第一拆分指令为对第一数据信息进行拆分处理的指令,进而根据第一拆分指令和第一标识信息,可以对第一数据信息进行拆分,从而得到第一拆分数据信息,此时的第一拆分数据信息即可作为后续用于模型训练的训练数据,举例而言,在标准swift电文录入中,名称加地址栏位的非结构化数据存在一定可区分实体与地址格式信息数据,这部分数据以“ADD.”进行分割,前一部分为名称实体信息,后半部分为地址信息。样例数据如下:ACL ITHALAT IHRACAT ADD.19 HALESFIELDNL/TF7 4Q TELFORD、Ahmet BAYALTUNADD..16262 SW 96TH TERRACEMIAMI FL 331965940 US,对于此类数据可对其进行拆分,进而产生非结构化样本标注数据,拆分后的样本数据如下:“ACL ITHALAT IHR ACAT 19HALESFIELDNL/TF7 4Q TELFORD”、“ACL ITHALAT IHR ACAT”、“19 HALESFIELDNL/TF7 4QTELFORD”、“Ahmet BAYALTUN.16262 SW 96TH TERRACEMIAMI FL 331965940 US”、“AhmetBAYALTUN”、“.16262 SW 96TH TERRACEMIAMI FL 331965940 US”。此部分样本数据可用于模型训练,从而避免人工标注打标的人力投入。通过样本数据的不间断更新迭代,以保证模型实体识别的有效性。
步骤800:获得目标模型;
进一步的,目标模型为随机场模型。
进一步的,所述随机场模型为CRF模型。
具体而言,目标模型为本实施例中用于非结构化数据信息的实体识别的模型,本实施例中以目标模型为CRF随机场模型作为优选。CRF即条件随机场(Conditional RandomFields),是在给定一组输入随机变量条件下另外一组输出随机变量的条件概率分布模型,它是一种判别式的概率无向图模型,既然是判别式,那就是对条件概率分布建模。CRF较多用在自然语言处理和图像处理领域,在NLP中,它是用于标注和划分序列数据的概率化模型,根据CRF的定义,相对序列就是给定观测序列X和输出序列Y,然后通过定义条件概率P(Y|X)来描述模型。CRF的输出随机变量假设是一个无向图模型或者马尔科夫随机场,而输入随机变量作为条件不假设为马尔科夫随机场,CRF的图模型结构理论上可以任意给定,但我们常见的是定义在线性链上的特殊的条件随机场,称为线性链条件随机场。条件随机场CRF解决命名实体识别(NER)流程是:训练阶段:确定特征模板,不同场景(人名,地名等)所使用的特征模板不同,对现有语料进行分词,在分词结果基础上进行词性标注(投入大量人力进行手工标注),NER对应的标注问题是基于词的,然后训练CRF模型,得到对应权值参数值。识别过程:将待识别文档分词,然后送入CRF模型进行识别计算(维特比算法),得到标注序列,然后根据标注划分出命名实体现有技术的技术方案。
步骤900:将所述样本训练数据集输入至所述目标模型中,通过所述样本训练数据集对所述目标模型进行训练;
具体而言,在得到目标模型之后,接着可将样本训练数据集输入至目标模型中,然后通过样本训练数据集对目标模型进行训练,在本实施例中,即为将第一拆分数据信息输入至CRF训练模型中,对该CRF模型进行训练。
步骤1000:将所述第二数据信息作为第一输入信息;
步骤1100:将所述第一输入信息输入至所述训练完成后的所述目标模型中,获得所述目标模型的第一输出结果,其中,所述第一输出结果包括第三数据信息。
进一步的,所述第三数据信息为结构化数据信息。
具体而言,第二数据信息即为可以输入至模型的样本数据,进而可将第二数据信息作为第一输入信息,输入至训练完成后的CRF目标模型中,获得该CRF目标模型的第一输出结果,此时的第一输出结果包括第三数据信息,并且此时的第三数据信息为结构化数据信息,也就是说,通过该CRF模型,可以将非结构化的第二数据信息进行实体命名识别之后,进而输出结构化的第三数据信息,从而达到在自然语言处理技术的基础上,增加数据预处理环节,减少人工标注投入,进而达到提高识别效率和准确性的目的。
因此,本实施例中的基于自然语言处理的非结构化数据处理方法,可以适应不断变化的业务需求,解析表格信息中复杂的展示规则,降低应用程序的开发和可扩展性成本,从而达到可以自动化的更新标注数据样本,保证名称地址文本命名实体识别的准确性,并且通过自动化词性标注,减少人工标注成本的技术效果。
进一步的,本实施例中步骤1100还包括:
步骤1110:获得第一合并指令;
步骤1120:根据所述第一合并指令,将所述第一分割信息、所述第二分割信息、第三数据信息进行合并之后,获得目标识别信息。
具体而言,在得到模型的第一输出结果即第三数据信息之后,接着可生成第一合并指令,然后在第一合并指令的指令下,将第一分割信息、第二分割信息、第三数据信息进行合并,最终得到目标识别信息,此时的目标识别信息为对第一数据信息进行实体识别所得到的最终的实体识别结果。
进一步的,为了达到对目标识别信息进行相应的判断分析的效果,本实施例中步骤1120还包括:
步骤1121:获得第一发送指令;
步骤1122:根据所述第一发送指令,将所述目标识别信息发送给风险管理模块,以使所述风险管理模块通过所述目标识别信息识别对手风险信息。
具体而言,在得到目标识别信息之后,接着可以生成第一发送指令,然后按照第一发送指令,将目标识别信息发送给风险管理模块,进而通过该风险管理模块对目标识别信息进行识别,判断目标识别信息中是否包含对手风险信息。也就是说,基于金融机构跨境清算电文的特性,经过对第一数据信息进行数据预处理之后,再运用自然语言处理技术进行个人或者公司实体动态标记,在历史交易回溯调查时在非结构化文本信息上识别出交易对手信息,防范洗钱风险。
进一步的,所述将所述第一输入信息输入至所述训练完成后的所述目标模型中之后,本实施例中步骤1100还包括:
步骤1130:基于所述目标模型,对所述第一输入信息进行解码和标注,获得第一识别实体,其中,所述第一识别实体包括所述第一输入信息中每个单独数据的位置标记组成的序列;
步骤1140:根据所述第一识别实体,获得所述第一输出结果。
具体而言,在对第一输入信息进行具体的解析从而得到第一输出结果时,具体的:首先,基于CRF目标模型,可以对第一输入信息即就是第二数据信息进行解码和标注,从而获得第一识别实体,此时的第一识别实体包括第一输入信息中每个单独数据的位置标记组成的序列,也就是对第二数据信息进行实体标记并且得到实体标记序列,进而根据第一识别实体,可以确定模型的第一输出结果。
实施例二
基于与前述实施例中一种基于自然语言处理的非结构化数据处理方法同样的发明构思,本发明还提供一种基于自然语言处理的非结构化数据处理系统,如图2所示,所述系统包括:
第一获得单元11,所述第一获得单元11用于获得第一数据信息;
第二获得单元13,所述第二获得单元13用于获得第一标识信息及第一分割指令;
第三获得单元13,所述第三获得单元13用于根据所述第一分割指令,按照所述第一标识信息,对所述第一数据信息进行分割处理之后,获得第一分割信息和第二分割信息;
第四获得单元14,所述第四获得单元14用于根据所述第一分割信息、所述第二分割信息,获得所述第一数据信息中的第二数据信息;
第五获得单元15,所述第五获得单元15用于获得第一拆分指令;
第六获得单元16,所述第六获得单元16用于根据所述第一拆分指令、所述第一标识信息,获得第一拆分数据信息;
第一执行单元17,所述第一执行单元17用于将所述第一拆分数据信息作为样本训练数据集;
第七获得单元18,所述第七获得单元18用于获得目标模型;
第二执行单元19,所述第二执行单元19用于将所述样本训练数据集输入至所述目标模型中,通过所述样本训练数据集对所述目标模型进行训练;
第三执行单元20,所述第三执行单元20用于将所述第二数据信息作为第一输入信息;
第八获得单元21,所述第八获得单元21用于将所述第一输入信息输入至所述训练完成后的所述目标模型中,获得所述目标模型的第一输出结果,其中,所述第一输出结果包括第三数据信息。
进一步的,所述系统还包括:所述第一分割信息和所述第二分割信息均为结构化数据信息。
进一步的,所述系统还包括:所述第一分割信息为名称实体信息。
进一步的,所述系统还包括:所述第二分割信息为地址信息。
进一步的,所述系统还包括:所述第二数据信息为非结构化数据信息。
进一步的,所述系统还包括:
第九获得单元,所述第九获得单元用于获得第一比对指令;
第十获得单元,所述第十获得单元用于根据所述第一比对指令,将所述第一分割信息、所述第二分割信息、所述第一标识信息与所述第一数据信息进行比对,获得第一比对结果;
第十一获得单元,所述第十一获得单元用于根据所述第一比对结果,获得所述第二数据信息,其中,所述第二数据信息为所述第一数据信息中除所述第一分割信息、所述第二分割信息、所述第一标识信息之外的信息。
进一步的,所述系统还包括:所述第三数据信息为结构化数据信息。
进一步的,所述系统还包括:
第十二获得单元,所述第十二获得单元用于获得第一合并指令;
第十三获得单元,所述第十三获得单元用于根据所述第一合并指令,将所述第一分割信息、所述第二分割信息、第三数据信息进行合并之后,获得目标识别信息。
进一步的,所述系统还包括:所述目标模型为随机场模型。
进一步的,所述系统还包括:所述随机场模型为CRF模型。
进一步的,所述系统还包括:
第十四获得单元,所述第十四获得单元用于获得第一发送指令;
第十五获得单元,所述第十五获得单元用于根据所述第一发送指令,将所述目标识别信息发送给风险管理模块,以使所述风险管理模块通过所述目标识别信息识别对手风险信息。
进一步的,所述系统还包括:
第一判断单元,所述第一判断单元用于判断所述第一数据信息是否满足第一预设条件;
第十六获得单元,所述第十六获得单元用于如果不满足所述第一预设条件,则获得所述第一标识信息及所述第一分割指令。
进一步的,所述系统还包括:
第十七获得单元,所述第十七获得单元用于基于所述目标模型,对所述第一输入信息进行解码和标注,获得第一识别实体,其中,所述第一识别实体包括所述第一输入信息中每个单独数据的位置标记组成的序列;
第十八获得单元,所述第十八获得单元用于根据所述第一识别实体,获得所述第一输出结果。
前述图1实施例一中的一种基于自然语言处理的非结构化数据处理方法的各种变化方式和具体实例同样适用于本实施例的一种基于自然语言处理的非结构化数据处理系统,通过前述对一种基于自然语言处理的非结构化数据处理方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于自然语言处理的非结构化数据处理系统的实施方法,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例中一种基于自然语言处理的非结构化数据处理方法同样的发明构思,本发明还提供一种示例性电子设备,如图3所示,包括存储器304、处理器302及存储在存储器304上并可在处理器302上运行的计算机程序,所述处理器302执行所述程序时实现前文所述一种基于自然语言处理的非结构化数据处理方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明实施例提供的一种基于自然语言处理的非结构化数据处理方法及系统,所述方法应用于一金融网络系统,其中,所述方法包括:获得第一数据信息;获得第一标识信息及第一分割指令;根据所述第一分割指令,按照所述第一标识信息,对所述第一数据信息进行分割处理之后,获得第一分割信息和第二分割信息;根据所述第一分割信息、所述第二分割信息,获得所述第一数据信息中的第二数据信息;获得第一拆分指令;根据所述第一拆分指令、所述第一标识信息,获得第一拆分数据信息;将所述第一拆分数据信息作为样本训练数据集;获得目标模型;将所述样本训练数据集输入至所述目标模型中,通过所述样本训练数据集对所述目标模型进行训练;将所述第二数据信息作为第一输入信息;将所述第一输入信息输入至所述训练完成后的所述目标模型中,获得所述目标模型的第一输出结果,其中,所述第一输出结果包括第三数据信息,从而解决了现有技术中金融机构在进行清算交易时很难按标准化结构化数据进行存储,同时由于不同的业务操作人员信息录入习惯的差异,加大录入文本信息的复杂性的技术问题,达到了通过数据预处理环节,减少人工标注投入,进而提高识别准确性,降低应用程序的开发和可扩展性成本的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (12)
1.一种基于自然语言处理的非结构化数据处理方法,所述方法应用于一金融网络系统,其中,所述方法包括:
获得第一数据信息;
获得第一标识信息及第一分割指令;
根据所述第一分割指令,按照所述第一标识信息,对所述第一数据信息进行分割处理之后,获得第一分割信息和第二分割信息;
所述第一分割信息和所述第二分割信息均为结构化数据信息;
根据所述第一分割信息、所述第二分割信息,获得所述第一数据信息中的第二数据信息;
所述第二数据信息为非结构化数据信息;
获得第一拆分指令;
根据所述第一拆分指令、所述第一标识信息,获得第一拆分数据信息;
将所述第一拆分数据信息作为样本训练数据集;
获得目标模型;
将所述样本训练数据集输入至所述目标模型中,通过所述样本训练数据集对所述目标模型进行训练;
将所述第二数据信息作为第一输入信息;
将所述第一输入信息输入至所述训练完成后的所述目标模型中,获得所述目标模型的第一输出结果,其中,所述第一输出结果包括第三数据信息;
所述第三数据信息为结构化数据信息。
2.如权利要求1所述的方法,其中,所述第一分割信息为名称实体信息。
3.如权利要求1所述的方法,其中,所述第二分割信息为地址信息。
4.如权利要求1所述的方法,其中,所述根据所述第一分割信息、所述第二分割信息,获得所述第一数据信息中的第二数据信息,包括:
获得第一比对指令;
根据所述第一比对指令,将所述第一分割信息、所述第二分割信息、所述第一标识信息与所述第一数据信息进行比对,获得第一比对结果;
根据所述第一比对结果,获得所述第二数据信息,其中,所述第二数据信息为所述第一数据信息中除所述第一分割信息、所述第二分割信息、所述第一标识信息之外的信息。
5.如权利要求1所述的方法,其中,所述将所述第一输入信息输入至所述训练完成后的所述目标模型中,获得所述目标模型的第一输出结果之后,所述方法还包括:
获得第一合并指令;
根据所述第一合并指令,将所述第一分割信息、所述第二分割信息、第三数据信息进行合并之后,获得目标识别信息。
6.如权利要求1所述的方法,其中,所述目标模型为随机场模型。
7.如权利要求6所述的方法,其中,所述随机场模型为CRF模型。
8.如权利要求5所述的方法,其中,所述获得目标识别信息之后,所述方法还包括:
获得第一发送指令;
根据所述第一发送指令,将所述目标识别信息发送给风险管理模块,以使所述风险管理模块通过所述目标识别信息识别对手风险信息。
9.如权利要求1所述的方法,其中,所述获得第一数据信息之后,所述方法还包括:
判断所述第一数据信息是否满足第一预设条件;
如果不满足所述第一预设条件,则获得所述第一标识信息及所述第一分割指令。
10.如权利要求1所述的方法,其中,所述将所述第一输入信息输入至所述训练完成后的所述目标模型中之后,所述方法还包括:
基于所述目标模型,对所述第一输入信息进行解码和标注,获得第一识别实体,其中,所述第一识别实体包括所述第一输入信息中每个单独数据的位置标记组成的序列;
根据所述第一识别实体,获得所述第一输出结果。
11.一种基于自然语言处理的非结构化数据处理系统,其特征在于,所述系统包括:
第一获得单元,所述第一获得单元用于获得第一数据信息;
第二获得单元,所述第二获得单元用于获得第一标识信息及第一分割指令;
第三获得单元,所述第三获得单元用于根据所述第一分割指令,按照所述第一标识信息,对所述第一数据信息进行分割处理之后,获得第一分割信息和第二分割信息;
所述第一分割信息和所述第二分割信息均为结构化数据信息;
第四获得单元,所述第四获得单元用于根据所述第一分割信息、所述第二分割信息,获得所述第一数据信息中的第二数据信息;
所述第二数据信息为非结构化数据信息;
第五获得单元,所述第五获得单元用于获得第一拆分指令;
第六获得单元,所述第六获得单元用于根据所述第一拆分指令、所述第一标识信息,获得第一拆分数据信息;
第一执行单元,所述第一执行单元用于将所述第一拆分数据信息作为样本训练数据集;
第七获得单元,所述第七获得单元用于获得目标模型;
第二执行单元,所述第二执行单元用于将所述样本训练数据集输入至所述目标模型中,通过所述样本训练数据集对所述目标模型进行训练;
第三执行单元,所述第三执行单元用于将所述第二数据信息作为第一输入信息;
第八获得单元,所述第八获得单元用于将所述第一输入信息输入至所述训练完成后的所述目标模型中,获得所述目标模型的第一输出结果,其中,所述第一输出结果包括第三数据信息;所述第三数据信息为结构化数据信息。
12.一种基于自然语言处理的非结构化数据处理系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-10任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110141597.1A CN112905789B (zh) | 2021-02-02 | 2021-02-02 | 一种基于自然语言处理的非结构化数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110141597.1A CN112905789B (zh) | 2021-02-02 | 2021-02-02 | 一种基于自然语言处理的非结构化数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905789A CN112905789A (zh) | 2021-06-04 |
CN112905789B true CN112905789B (zh) | 2023-02-28 |
Family
ID=76121267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110141597.1A Active CN112905789B (zh) | 2021-02-02 | 2021-02-02 | 一种基于自然语言处理的非结构化数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905789B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443236A (zh) * | 2019-08-06 | 2019-11-12 | 中国工商银行股份有限公司 | 贷后文本要点信息提取方法及装置 |
CN111104482A (zh) * | 2019-12-18 | 2020-05-05 | 北京百度网讯科技有限公司 | 数据处理方法和装置 |
CN111339759A (zh) * | 2020-02-21 | 2020-06-26 | 北京百度网讯科技有限公司 | 领域要素识别模型训练方法、装置及电子设备 |
CN111967437A (zh) * | 2020-09-03 | 2020-11-20 | 平安国际智慧城市科技股份有限公司 | 文本识别方法、装置、设备及存储介质 |
-
2021
- 2021-02-02 CN CN202110141597.1A patent/CN112905789B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443236A (zh) * | 2019-08-06 | 2019-11-12 | 中国工商银行股份有限公司 | 贷后文本要点信息提取方法及装置 |
CN111104482A (zh) * | 2019-12-18 | 2020-05-05 | 北京百度网讯科技有限公司 | 数据处理方法和装置 |
CN111339759A (zh) * | 2020-02-21 | 2020-06-26 | 北京百度网讯科技有限公司 | 领域要素识别模型训练方法、装置及电子设备 |
CN111967437A (zh) * | 2020-09-03 | 2020-11-20 | 平安国际智慧城市科技股份有限公司 | 文本识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112905789A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun | Applying deep learning to audit procedures: An illustrative framework | |
CN110799981B (zh) | 用于与领域无关的方面级别情绪检测的系统和方法 | |
CN109859052B (zh) | 一种投资策略的智能推荐方法、装置、存储介质和服务器 | |
CN112967144B (zh) | 一种金融信用风险事件抽取方法、可读存储介质及设备 | |
CN107844558A (zh) | 一种分类信息的确定方法以及相关装置 | |
JP2018198045A (ja) | 自然言語処理イベントの生成のための装置および方法 | |
CN112348662B (zh) | 基于用户职业预测的风险评估方法、装置和电子设备 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN112347759A (zh) | 一种实体关系的抽取方法、装置、设备及存储介质 | |
CN113656805A (zh) | 一种面向多源漏洞信息的事件图谱自动构建方法及系统 | |
CN111581945A (zh) | 一种基于舆情分析的数据分析方法、装置和系统 | |
CN113435859A (zh) | 信访件处理方法、装置、电子设备和计算机可读介质 | |
CN113450075A (zh) | 基于自然语言技术的工单处理方法及装置 | |
US10922633B2 (en) | Utilizing econometric and machine learning models to maximize total returns for an entity | |
Laylo | The Impact of AI and Information Technologies on Islamic Charity (Zakat): Modern Solutions for Efficient Distribution | |
CN113724057A (zh) | 基于大数据的财政预算填报方法、系统、设备及介质 | |
CN112905789B (zh) | 一种基于自然语言处理的非结构化数据处理方法及系统 | |
CN112989050A (zh) | 一种表格分类方法、装置、设备及存储介质 | |
CN116186257A (zh) | 一种基于混合特征对短文本进行分类的方法及系统 | |
CN115952862A (zh) | 一种知识图谱数据融合方法和系统 | |
CN115393034A (zh) | 基于自然语言处理技术对企业账户进行风险识别的方法 | |
CN114238740A (zh) | 一种确定代理主体代理品牌的方法及装置 | |
CN104616151A (zh) | 基于bpmn的语言的商业模式描述及分析方法 | |
Zaqeeba et al. | The impact of using types of artificial intelligence technology in monitoring tax payments | |
CN117574159B (zh) | 一种预训练模型的训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |