CN117574880A - 模型处理方法及装置 - Google Patents
模型处理方法及装置 Download PDFInfo
- Publication number
- CN117574880A CN117574880A CN202311631559.XA CN202311631559A CN117574880A CN 117574880 A CN117574880 A CN 117574880A CN 202311631559 A CN202311631559 A CN 202311631559A CN 117574880 A CN117574880 A CN 117574880A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- error
- words
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 18
- 238000012549 training Methods 0.000 claims abstract description 154
- 238000000034 method Methods 0.000 claims abstract description 94
- 238000001514 detection method Methods 0.000 claims abstract description 87
- 238000012545 processing Methods 0.000 claims abstract description 64
- 238000010276 construction Methods 0.000 claims abstract description 50
- 230000011218 segmentation Effects 0.000 claims abstract description 34
- 238000001914 filtration Methods 0.000 claims description 10
- 238000012954 risk control Methods 0.000 claims description 2
- 239000012634 fragment Substances 0.000 description 26
- 230000008569 process Effects 0.000 description 20
- 238000012360 testing method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 238000003860 storage Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000006872 improvement Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000001105 regulatory effect Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 229910000510 noble metal Inorganic materials 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本说明书一个或多个实施例公开了一种模型处理方法及装置。所述方法包括:获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,对每一个词语的编码数据进行错误编码处理,得到错误编码数据;基于词语和该词语的错误编码数据,确定与词语的错误编码数据对应的构造词语,将构造词语替换训练文本中的词语,以生成第一错误文本;选取一个或多个分词处理后得到的词语,分别插入训练文本中该词语的相邻位置,选取一个或多个标点,分别插入训练文本中该标点的相邻位置,以生成第二错误文本;基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练,得到训练后的文本检错模型。
Description
技术领域
本说明书涉及计算机技术领域,尤其涉及一种模型处理方法及装置。
背景技术
当前,随着金融监管机构加大了对金融机构和特定非金融机构的交易数据的检查力度,随之而来的是巨量的交易报告和信息报告的生成以及上报提交,中间各个节点的疏忽都会影响报文质量,而高质量的报文对于金融监管机构的检查工作至关重要。
相关技术中,按照预定义的错字规则完成对报文的检错方法,如按照同音字规则、近音字规则等对报文文本进行匹配检查,找到报文文本中的错误片段。这类方法规则无法及时对新词进行规则覆盖,因此灵活性差。目前亟需提供更准确的报文检错方案。
发明内容
一方面,本说明书一个或多个实施例提供一种模型处理方法,包括:获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据。基于每一个与关键词库中的关键词匹配的词语和所述词语的错误编码数据,确定与所述词语的错误编码数据对应的构造词语,将所述构造词语替换金融交易报告训练文本中的生成所述构造词语的错误编码数据对应的词语,以生成第一错误文本。选取对金融交易报告训练文本进行分词处理后得到的词语构成的词语集合中的一个或多个词语,将选取的每一个词语分别插入金融交易报告训练文本中该词语的相邻位置,选取金融交易报告训练文本中的一个或多个标点,将选取的每一个标点分别插入金融交易报告训练文本中该标点的相邻位置,以生成第二错误文本。基于所述第一错误文本、所述第二错误文本和所述金融交易报告训练文本对文本检错模型进行模型训练,得到训练后的文本检错模型,所述文本检错模型用于对金融交易报告的文本进行错误识别并输出正确的文本内容。
再一方面,本说明书一个或多个实施例提供一种模型处理装置,包括:错误编码数据构造模块,获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据。第一错误文本生成模块,基于每一个与关键词库中的关键词匹配的词语和所述词语的错误编码数据,确定与所述词语的错误编码数据对应的构造词语,将所述构造词语替换金融交易报告训练文本中的生成所述构造词语的错误编码数据对应的词语,以生成第一错误文本。第二错误文本生成模块,选取对金融交易报告训练文本进行分词处理后得到的词语构成的词语集合中的一个或多个词语,将选取的每一个词语分别插入金融交易报告训练文本中该词语的相邻位置,选取金融交易报告训练文本中的一个或多个标点,将选取的每一个标点分别插入金融交易报告训练文本中该标点的相邻位置,以生成第二错误文本。模型训练模块,基于所述第一错误文本、所述第二错误文本和所述金融交易报告训练文本对文本检错模型进行模型训练,得到训练后的文本检错模型,所述文本检错模型用于对金融交易报告的文本进行错误识别并输出正确的文本内容。
再一方面,本说明书一个或多个实施例提供一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,在所述可执行指令被执行时,能够使得所述处理器:获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据。基于每一个与关键词库中的关键词匹配的词语和所述词语的错误编码数据,确定与所述词语的错误编码数据对应的构造词语,将所述构造词语替换金融交易报告训练文本中的生成所述构造词语的错误编码数据对应的词语,以生成第一错误文本。选取对金融交易报告训练文本进行分词处理后得到的词语构成的词语集合中的一个或多个词语,将选取的每一个词语分别插入金融交易报告训练文本中该词语的相邻位置,选取金融交易报告训练文本中的一个或多个标点,将选取的每一个标点分别插入金融交易报告训练文本中该标点的相邻位置,以生成第二错误文本。基于所述第一错误文本、所述第二错误文本和所述金融交易报告训练文本对文本检错模型进行模型训练,得到训练后的文本检错模型,所述文本检错模型用于对金融交易报告的文本进行错误识别并输出正确的文本内容。
再一方面,本说明书实施例提供一种存储介质,用于存储计算机程序,所述计算机程序能够被处理器执行以实现以下流程:获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据。基于每一个与关键词库中的关键词匹配的词语和所述词语的错误编码数据,确定与所述词语的错误编码数据对应的构造词语,将所述构造词语替换金融交易报告训练文本中的生成所述构造词语的错误编码数据对应的词语,以生成第一错误文本。选取对金融交易报告训练文本进行分词处理后得到的词语构成的词语集合中的一个或多个词语,将选取的每一个词语分别插入金融交易报告训练文本中该词语的相邻位置,选取金融交易报告训练文本中的一个或多个标点,将选取的每一个标点分别插入金融交易报告训练文本中该标点的相邻位置,以生成第二错误文本。基于所述第一错误文本、所述第二错误文本和所述金融交易报告训练文本对文本检错模型进行模型训练,得到训练后的文本检错模型,所述文本检错模型用于对金融交易报告的文本进行错误识别并输出正确的文本内容。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本说明书一实施例的一种模型处理方法的示意性流程图;
图2是根据本说明书另一实施例的一种模型处理方法的示意性流程图;
图3是根据本说明书另一实施例的一种模型处理方法的示意性流程图;
图4是根据本说明书另一实施例的一种模型处理方法的示意性流程图;
图5是根据本说明书另一实施例的一种模型处理方法的示意性流程图;
图6是根据本说明书另一实施例的一种模型处理方法的示意性流程图;
图7是根据本说明书另一实施例的一种模型处理方法的示意性流程图;
图8是根据本说明书另一实施例的一种模型处理方法的示意性流程图;
图9是根据本说明书一实施例的一种模型处理装置的示意性框图;
图10是根据本说明书一实施例的一种电子设备的示意性框图。
具体实施方式
本说明书一个或多个实施例提供一种模型处理方法及装置,以解决目前通过预定义的错字规则查找报文中的错误片段无法覆盖各种新生词语,导致报文检错的准确度和灵活度较低的问题。
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书一个或多个实施例保护的范围。
目前,根据国家金融监管的要求,金融机构(如各类银行、证券期货经纪公司、基金管理公司、保险公司、保险资产管理公司、信托投资公司、金融资产管理公司、财务公司等)和特定的非金融机构(如会计师事务所、律师事务所、珠宝贵金属行业、房地产行业等)对于超过规定金额以上的交易和有其他金融风险的可疑交易需要上报金融监管机构。这需要在规定时限内将上述具有风险的交易形成符合要求的大额交易报告和可疑交易报告。大额交易报告指金融机构按照规定的标准、范围及程序,将达到规定金额的交易信息上报。大额交易报告包括交易主体以及交易对手身份、涉及交易的账户信息、包括交易金额、交易时间、交易币种和交易方向在内的交易具体特征、交易性质等内容。可疑交易报告指金融机构将符合可疑交易报告标准、或经分析有资金不符合规定动作的金融交易信息(包括客户信息),如金额、频率、流向、性质等存在异常,或与客户身份不符,或与经营性质不符的信息上报。可疑交易报告包括交易主体的身份信息、交易明细信息、交易特征描述等内容。可疑交易标准可以参照有关规章列出的可疑交易报告标准。
随着金融监管机构加大了对金融机构和特定非金融机构的交易数据的检查力度,随之而来的是巨量的交易报告和信息报告的生成以及上报提交,中间各个节点的疏忽都会影响报文质量,而高质量的报文对于金融监管机构的检查工作至关重要。其中影响报文通顺度的主要原因是错字和多字,实际工作中多采用包括拼音输入法等输入法进行文字输入,拼音输入法容易造成拼音片段丢失、重复、混淆等情形,进而造成文字输入中出现同音字、近音字等错字的情况。而文字输入中的多字情形则主要是在文本的复制粘贴中多选中的文本片段造成的。对于金融交易报告的文本检错方法,第一种实现方式是按照预定义的错字规则完成对报文的检错方法,如按照同音字规则、近音字规则等对报文文本进行匹配检查,找到报文文本中的错误片段。这类方法规则无法及时对新词进行规则覆盖,因此灵活性差。第二种实现方式是利用大量手工标注数据训练统计模型或深度学习模型等来识别金融交易报告的文本错误。这类方法不仅需要大量高质量的训练数据并且需要长时间的模型训练,模型训练成本较高。第三种实现方式是先识别文本中的错误片段,再根据错误类型纠正识别出的错误,例如,先使用规则匹配算法识别出文本错误,然后再通过查词典等方法修改错误;或者先使用序列标注模型识别出文本错误类型,然后再使用统计机器翻译等方法翻译成正确文本。这类方法结构过于复杂,需要优化多个模块,并且后续纠正模块的效果依赖于错误识别的准确率。为此,本说明书实施例提供一种模型处理方法及装置,文本检错模型基于金融交易报告测试文本、第一错误文本和第二错误文本训练得到;第一错误文本基于金融交易报告测试文本中与关键词词库匹配的词语的编码数据进行错误编码处理获得,第二错误文本基于金融交易报告测试文本进行分词处理后得到的词语以及金融交易报告文本中标点进行插入操作获得。避免了人工标注数据无法适应新词的问题,同时简化了模型结构,下面进行详细说明。
图1是根据本说明书一实施例的一种模型处理方法的示意性流程图,如图1所示,该方法可以包括:
S102,获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据。
金融交易报告训练文本包括大额交易报告、可疑交易报告等类型的报告,对金融交易报告训练文本经过分词操作后得到的词语进行词频统计,将词频统计得到的部分高频出现词语以及根据行业经验的常用词语汇总得到关键词库。获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,编码数据为不同输入法规则下将词语输入至计算机或其他设备终端的编码组合。常见的拼音输入法下词语的编码数据即为词语对应的拼音数据,五笔输入法下词语的编码数据即为词语的形码输入数据。无论是拼音输入法还是五笔输入法,词语对应的编码数据皆使用常见的26字母键盘。
对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,以常见的拼音输入法为例,拼音输入法下词语对应的拼音数据在输入时会有多余的字母输入、错误的字母输入以及字母的缺失等类型错误,基于上述缺陷对每一个与关键词库中关键词匹配的词语进行对应的拼音数据进行错误拼音生成操作,得到每一个与关键词库中的关键词匹配的词语的错误拼音数据。
S104,基于每一个与关键词库中的关键词匹配的词语和词语的错误编码数据,确定与词语的错误编码数据对应的构造词语,将构造词语替换金融交易报告训练文本中的生成构造词语的错误编码数据对应的词语,以生成第一错误文本。
基于每一个与关键词库中的关键词匹配的词语和词语的错误编码数据,确定与词语的错误编码数据对应的构造词语,以拼音输入法为例,基于某个词语对应的拼音数据生成了该词语对应的错误拼音数据,该词语对应的错误拼音数据对应的词汇为构造词语。将构造词语替换金融交易报告训练文本中的生成构造词语的错误编码数据对应的词语,以生成第一错误文本。
S106,选取对金融交易报告训练文本进行分词处理后得到的词语构成的词语集合中的一个或多个词语,将选取的每一个词语分别插入金融交易报告训练文本中该词语的相邻位置,选取金融交易报告训练文本中的一个或多个标点,将选取的每一个标点分别插入金融交易报告训练文本中该标点的相邻位置,以生成第二错误文本。
文字输入中的多字情形则主要是在文本的复制粘贴中多选中的文本片段造成的。在模型训练时,通过基于部分词语进行词语插入和基于部分标点进行标点插入来模拟这一常见的文本错误类型。在实际应用中,出现因为复制粘贴多选中文本片段造成的多字情形在全部文本输入中只占一个较小的比例,基于此,在模型训练时选取对金融交易报告训练文本进行分词处理后得到的词语构成的词语集合中的一个或多个词语,将选取的每一个词语分别插入金融交易报告训练文本中该词语的相邻位置形成词语的重复,来模拟文字输入中的多字情形。在文本输入中,除了出现词语的重复,还会出现标点的重复,基于同样的思路,选取金融交易报告训练文本中的一个或多个标点,将选取的每一个标点分别插入金融交易报告训练文本中该标点的相邻位置。通过前面的词语的重复处理和标点的重复处理生成第二错误文本。
S108,基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练,得到训练后的文本检错模型,文本检错模型用于对金融交易报告的文本进行错误识别并输出正确的文本内容。
基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练。将第一错误文本和第二错误文本作为文本检错模型的输入数据,分别得到第一错误文本和第二错误文本的输出数据,分别计算第一错误文本和第二错误文本的输出数据与金融交易报告测试文本的误差,通过调整文本检错模型的关键参数控制输出数据与金融交易报告测试文本的误差在设定范围内完成对文本检错模型的训练。训练完成的文本检错模型用于对金融交易报告的文本进行错误识别并输出正确的文本内容。
采用本说明书一个或多个实施例的技术方案,针对不同输入法容易造成编码数据片段丢失、重复、混淆等情形以及文本复制粘贴时多选中的文本片段造成的多字情形,对金融交易报告测试文本进行错误文本的自动生成。基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练。该技术方案简化了方法结构和调优难度。整体方案不需要人工标注数据和中间步骤,实现了金融交易报告文本的自动检错,大幅降低了人工成本,提高了报文质量。该技术方案采用自动生成的大规模数据集进行模型训练,避免了人工标注数据难以覆盖全部情况和预定义的错字规则难以适应新词的问题。此外,该技术方案采用端到端生成模型,训练完成后的文本检错模型对待检错的金融交易报告进行错误识别并输出正确的文本内容,不需要进行中间错误识别步骤,该技术方案不仅简化了方法结构,同时降低了错误累积的风险,获得了更优的效果。
在一个实施例中,如图2所示,获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据(即S102),可以执行为如下S1022-S1028:
S1022,对金融交易报告训练文本进行分词处理,并对得到的分词进行停用词过滤处理,将过滤处理后得到的词语存储至中间词语集合。
分词算法就是将句子按照每个词的意义进行分割,对于英文文本,由于英文文本天然按照空格进行分割,因此不存在分词的相关操作。但对于中文文本,因为词与词在书写的过程中不具备天然的分隔符,如果对中文文本的语义进行分析,需要对中文文本中的词语进行拆分。中文分词器是机器学习的一部分,把语句分割单词可以做人工智能方面的分析。常见的分词模型包括基于词典的机械分词模型和基于统计模型的序列标准模型。常见的分词工具包括word分词器,Ansj分词器,Standford分词器,FudanNLP分词器等。
在处理自然语言之前通常被过滤掉的单词称为停用词。这些词实际上是任何语言中最常见的词(如冠词、介词、代词、连词等),不会给文本增加太多信息。自然语言处理(NLP)是人工智能的一个分支,它允许机器解释人类语言。但是,机器不能直接使用,需要先对其进行预处理。文本预处理是准备文本数据的过程,机器可以使用这些数据来执行分析、预测等任务。文本预处理中,停用词过滤是非常关键的一步。停用词视具体的任务不同而不同。一个停用词过滤实现思路包括:加载中止词;使用分词工具进行分词;从分词结果中去除中止词。
S1024,对中间词语集合中的词语进行词语出现次数统计,按照词语出现次数对中间词语集合中的词语进行排序,得到排序词语集合。
对中间词语集合中的词语进行词频统计,一个现有的词频统计工具CountVectorizer可以完成对词语出现次数的统计工作。按照词语出现次数对中间词语集合中的词语进行排序,得到排序词语集合。排序词语集合中为中间词语集合中的词语按照升序或降序进行排列的词语统计集合。
S1026,基于设定的词语截取规则,从排序词语集合中选取部分词语,并将选取的部分词语存储至关键词库。
排序词语集合中的词语已经按照词语出现次数进行排序,根据设定的词语截取规则选取排序词语集合中的部分词汇,词语截取规则可以设定为选取排序词语集合中的top50或其他选取数量,或者结合行业经验进行人工选取干预获得。
S1028,获取关键词库中的每一个词语对应的编码数据。
采用本说明书一个或多个实施例的技术方案,针对不同输入法容易造成编码数据片段丢失、重复、混淆等情形以及文本复制粘贴时多选中的文本片段造成的多字情形,对金融交易报告测试文本进行错误文本的自动生成。基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练。该技术方案简化了方法结构和调优难度。整体方案不需要人工标注数据和中间步骤,实现了金融交易报告文本的自动检错,大幅降低了人工成本,提高了报文质量。该技术方案采用自动生成的大规模数据集进行模型训练,避免了人工标注数据难以覆盖全部情况和预定义的错字规则难以适应新词的问题。此外,该技术方案采用端到端生成模型,训练完成后的文本检错模型对待检错的金融交易报告进行错误识别并输出正确的文本内容,不需要进行中间错误识别步骤,该技术方案不仅简化了方法结构,同时降低了错误累积的风险,获得了更优的效果。
在一个实施例里,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据,包括:
选取与关键词库中的关键词匹配的词语的拼音数据中的一个或多个字母,将选取的字母替换为该字母在预设输入键盘上相邻的一个字母,得到每一个与关键词库中的关键词匹配的词语的字母混淆拼音文本,将字母混淆拼音文本作为错误编码数据。
举例说明,字母“s”容易和“adwqezx”中的任意一个混淆。对于其他字母,与该字母直接相邻的字母都可以认为是与该字母易混淆的字母。可以依照该设定完成对所有字母的易混淆字母的统计。选取与关键词库中的关键词匹配的词语的拼音数据中的一个或多个字母,可以随机选定该字母,也可以通过设定规则选取该字母。将选取的字母替换为该字母在预设输入键盘上相邻的一个字母,得到该词语的字母混淆文本,将字母混淆拼音文本作为错误编码数据。
在一个实施例中,如图3所示,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据(S102)可以执行为如下S1122-S1124:
S1122,确定每一个与关键词库中的关键词匹配的词语中包含的单音节词语和双音节词语。
对中文文本进行分词操作得到的词语,可以划分为单音节词语和双音节词语,单音节词语如“我”,双音节词语如“拼音”。在文本输入中,双音节词语的第二个字对应的拼音容易出现丢失除首字母以外的其余字母,例如,pinyin->piny。为了在模型训练中模拟这一情形,需要对双音节词语的拼音数据进行重组构造。
S1124,获取每一个双音节词语的拼音数据,将每一个双音节词语中的第二个字符的拼音数据中除首字母以外的字母删除,将每一个双音节词语中的第一个字符的拼音数据与同一双音节词语中的第二个字符的首字母组合得到每一个双音节词语的字母缩写拼音文本,将字母缩写拼音文本作为错误编码数据。
采用本说明书一个或多个实施例的技术方案,针对不同输入法容易造成编码数据片段丢失、重复、混淆等情形以及文本复制粘贴时多选中的文本片段造成的多字情形,对金融交易报告测试文本进行错误文本的自动生成。基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练。该技术方案简化了方法结构和调优难度。整体方案不需要人工标注数据和中间步骤,实现了金融交易报告文本的自动检错,大幅降低了人工成本,提高了报文质量。该技术方案采用自动生成的大规模数据集进行模型训练,避免了人工标注数据难以覆盖全部情况和预定义的错字规则难以适应新词的问题。此外,该技术方案采用端到端生成模型,训练完成后的文本检错模型对待检错的金融交易报告进行错误识别并输出正确的文本内容,不需要进行中间错误识别步骤,该技术方案不仅简化了方法结构,同时降低了错误累积的风险,获得了更优的效果。
在一个实施例里,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据,包括:
选取与关键词库中的关键词匹配的词语的拼音数据中的一个或多个字母,将选取的字母删除,得到每一个与关键词库中的关键词匹配的词语的字母删除拼音文本,将字母删除拼音文本作为错误编码数据。
在使用拼音输入法进行中文文本输入时,拼音数据序列长度大于一时,容易出现某个字母的丢失,为了在文本检错模型训练时模拟该情形,需要对与关键词库中的关键词匹配的词语的拼音数据选取一个或多个字母进行删除,可以对拼音数据随机选取,也可以根据设定规则选取某一个或多个字母。对拼音数据中的字母删除后得到字母删除拼音文本,将字母删除拼音文本作为错误编码数据。
在一个实施例里,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据,包括:
选取与关键词库中的关键词匹配的词语的拼音数据中的一个或多个字母,将选取字母在预设输入键盘上相邻的一个字母插入至与关键词库中的关键词匹配的词语的拼音数据中选取字母的相邻位置,得到每一个与关键词库中的关键词匹配的词语的字母冗余拼音文本,将字母冗余拼音文本作为错误编码数据。
在使用拼音输入法进行中文文本输入时,某一个字母由于在键盘上和相邻字母距离近,在输入时极有可能选择该字母的同时选择了相邻字母同时输入。为了在文本检错模型训练时模拟该情形,需要选取拼音数据中的一个或多个字母,可以随机选择拼音数据中的某一个或多个字母,也可以根据设定规则选择某一个或多个字母。将选取字母在预设输入键盘上相邻的一个字母插入至与关键词库中的关键词匹配的词语的拼音数据中选取的字母的相邻位置,得到每一个与关键词库中的关键词匹配的词语的字母冗余拼音文本,将字母冗余拼音文本作为错误编码数据。
采用本说明书一个或多个实施例的技术方案,针对不同输入法容易造成编码数据片段丢失、重复、混淆等情形以及文本复制粘贴时多选中的文本片段造成的多字情形,对金融交易报告测试文本进行错误文本的自动生成。基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练。该技术方案简化了方法结构和调优难度。整体方案不需要人工标注数据和中间步骤,实现了金融交易报告文本的自动检错,大幅降低了人工成本,提高了报文质量。该技术方案采用自动生成的大规模数据集进行模型训练,避免了人工标注数据难以覆盖全部情况和预定义的错字规则难以适应新词的问题。此外,该技术方案采用端到端生成模型,训练完成后的文本检错模型对待检错的金融交易报告进行错误识别并输出正确的文本内容,不需要进行中间错误识别步骤,该技术方案不仅简化了方法结构,同时降低了错误累积的风险,获得了更优的效果。
在一个实施例里,如图4所示,基于每一个与关键词库中的关键词匹配的词语和词语的错误编码数据,确定与词语的错误编码数据对应的构造词语,将构造词语替换金融交易报告训练文本中的生成构造词语的错误编码数据对应的词语,以生成第一错误文本(S104)可以执行为如下:S1042-S1046:
S1042,从与关键词库中的关键词匹配的词语中选取预设数量的词语,并将选取的预设数量的词语存储至错误词语集合中。
S1044,从每一个错误词语集合中的词语对应的错误拼音数据中选取预设数量的错误拼音数据。
针对每一个错误词语集合中的词语,分别构造字母混淆拼音文本、字母缩写拼音文本、字母删除拼音文本、字母冗余拼音文本。在实际中文文本输入中,每一个词语只会对应某种错误类型的文本输入,因此,可以设定错误拼音数量选取规则选择一个词语对应的错误拼音文本类型。
S1046,获取每一个错误词语集合中的词语对应的错误拼音数据对应的构造词语,使用构造词语替换金融交易报告训练文本中的生成构造词语的错误拼音数据对应的词语,以生成第一错误文本。
采用本说明书一个或多个实施例的技术方案,针对不同输入法容易造成编码数据片段丢失、重复、混淆等情形以及文本复制粘贴时多选中的文本片段造成的多字情形,对金融交易报告测试文本进行错误文本的自动生成。基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练。该技术方案简化了方法结构和调优难度。整体方案不需要人工标注数据和中间步骤,实现了金融交易报告文本的自动检错,大幅降低了人工成本,提高了报文质量。该技术方案采用自动生成的大规模数据集进行模型训练,避免了人工标注数据难以覆盖全部情况和预定义的错字规则难以适应新词的问题。此外,该技术方案采用端到端生成模型,训练完成后的文本检错模型对待检错的金融交易报告进行错误识别并输出正确的文本内容,不需要进行中间错误识别步骤,该技术方案不仅简化了方法结构,同时降低了错误累积的风险,获得了更优的效果。
在一个实施例里,如图5所示,对金融交易报告无标签训练文本首先进行分词处理,对分词处理后得到的词语再进行停用词过滤处理,将停用词过滤处理后得到的词语再进行词频统计,基于设定的词语截取规则选取部分词语,构成关键词库。
对与关键词中的关键词匹配的词语的拼音数据进行多种类型的错误拼音数据构造,以词语“拼音”举例说明,词语“拼音”对应的拼音数据为“pinyin”,如前所述,错误拼音数据包括词语对应的拼音数据中的一个或多个字母与该字母在键盘上相邻的字母混淆生成的错误拼音数据(如pinyin->pinyim)、双音节词语中第二个字符对应的拼音数据除首字母外删除其余字母生成的错误拼音数据(如:pinyin->piny)、词语对应的拼音数据中的一个或多个字母删除后生成的错误拼音数据(如:pinyin->piyin)、词语对应的拼音数据中的一个或多个字母在键盘上相邻的字母插入该字母在拼音数据中的相邻位置生成的错误拼音数据(如pinyin->pionyin)。
从与关键词库中的关键词匹配的词语中选取预设数量的词语,获取每一个选取的词语的错误拼音数据,从多种类型的错误拼音数据中选择预设数量的错误拼音数据,获取每一个词语对应的错误拼音数据对应的构造词语,使用构造词语替换金融交易报告无标签训练文本中的生成构造词语的错误拼音数据对应的词语,以生成错误文本,将生成的错误文本记为第一错误文本。
采用本说明书一个或多个实施例的技术方案,针对不同输入法容易造成编码数据片段丢失、重复、混淆等情形以及文本复制粘贴时多选中的文本片段造成的多字情形,对金融交易报告测试文本进行错误文本的自动生成。基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练。该技术方案简化了方法结构和调优难度。整体方案不需要人工标注数据和中间步骤,实现了金融交易报告文本的自动检错,大幅降低了人工成本,提高了报文质量。该技术方案采用自动生成的大规模数据集进行模型训练,避免了人工标注数据难以覆盖全部情况和预定义的错字规则难以适应新词的问题。此外,该技术方案采用端到端生成模型,训练完成后的文本检错模型对待检错的金融交易报告进行错误识别并输出正确的文本内容,不需要进行中间错误识别步骤,该技术方案不仅简化了方法结构,同时降低了错误累积的风险,获得了更优的效果。
在一个实施例里,如图6所示,选取对金融交易报告无标签训练文本进行分词处理后得到的词语构成的词语集合中的一个或多个词语,将选取的每一个词语分别插入金融交易报告训练文本中该词语的相邻位置,选取金融交易报告训练文本中的一个或多个标点,将选取的每一个标点分别插入金融交易报告训练文本中该标点的相邻位置,以生成错误文本,将生成的错误文本记为第二错误文本。
采用本说明书一个或多个实施例的技术方案,针对不同输入法容易造成编码数据片段丢失、重复、混淆等情形以及文本复制粘贴时多选中的文本片段造成的多字情形,对金融交易报告测试文本进行错误文本的自动生成。基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练。该技术方案简化了方法结构和调优难度。整体方案不需要人工标注数据和中间步骤,实现了金融交易报告文本的自动检错,大幅降低了人工成本,提高了报文质量。该技术方案采用自动生成的大规模数据集进行模型训练,避免了人工标注数据难以覆盖全部情况和预定义的错字规则难以适应新词的问题。此外,该技术方案采用端到端生成模型,训练完成后的文本检错模型对待检错的金融交易报告进行错误识别并输出正确的文本内容,不需要进行中间错误识别步骤,该技术方案不仅简化了方法结构,同时降低了错误累积的风险,获得了更优的效果。
在一个实施例里,如图7所示,基于金融交易报告无标签训练文本结合前述的错误类型特点生成第一错误文本和第二错误文本。基于第一错误文本、第二错误文本和金融交易报告无标签训练文本对文本检错模型进行模型训练。将第一错误文本和第二错误文本作为文本检错模型的输入数据,分别得到第一错误文本和第二错误文本的输出数据,分别计算第一错误文本和第二错误文本的输出数据与金融交易报告测试文本的误差,通过调整文本检错模型的关键参数控制输出数据与金融交易报告测试文本的误差在设定范围内完成对文本检错模型的训练。采用seq2seq架构的神经网络作为文本检错模型,编码器将输入文本编码为向量,解码器基于此生成正确的目标报文,简化了方法结构和调优难度,训练完成的文本检错模型用于对金融交易报告的文本进行错误识别并输出正确的文本内容。
采用本说明书一个或多个实施例的技术方案,针对不同输入法容易造成编码数据片段丢失、重复、混淆等情形以及文本复制粘贴时多选中的文本片段造成的多字情形,对金融交易报告测试文本进行错误文本的自动生成。基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练。该技术方案简化了方法结构和调优难度。整体方案不需要人工标注数据和中间步骤,实现了金融交易报告文本的自动检错,大幅降低了人工成本,提高了报文质量。该技术方案采用自动生成的大规模数据集进行模型训练,避免了人工标注数据难以覆盖全部情况和预定义的错字规则难以适应新词的问题。此外,该技术方案采用端到端生成模型,训练完成后的文本检错模型对待检错的金融交易报告进行错误识别并输出正确的文本内容,不需要进行中间错误识别步骤,该技术方案不仅简化了方法结构,同时降低了错误累积的风险,获得了更优的效果。
在一个实施例里,如图8所示,模型处理方法,还可以包括:
S1082,获取待处理的金融交易报告报文数据。
S1084,将金融交易报告报文数据输入至文本检错模型,得到金融交易报告报文对应的正确报文数据。
S1086,基于正确报文数据,对金融交易报告报文数据进行风险控制处理。
采用本说明书一个或多个实施例的技术方案,针对不同输入法容易造成编码数据片段丢失、重复、混淆等情形以及文本复制粘贴时多选中的文本片段造成的多字情形,对金融交易报告测试文本进行错误文本的自动生成。基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练。该技术方案简化了方法结构和调优难度。整体方案不需要人工标注数据和中间步骤,实现了金融交易报告文本的自动检错,大幅降低了人工成本,提高了报文质量。该技术方案采用自动生成的大规模数据集进行模型训练,避免了人工标注数据难以覆盖全部情况和预定义的错字规则难以适应新词的问题。此外,该技术方案采用端到端生成模型,训练完成后的文本检错模型对待检错的金融交易报告进行错误识别并输出正确的文本内容,不需要进行中间错误识别步骤,该技术方案不仅简化了方法结构,同时降低了错误累积的风险,获得了更优的效果。
综上,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
以上为本说明书一个或多个实施例提供的模型处理方法,基于同样的思路,本说明书一个或多个实施例还提供一种模型处理装置。
图9是根据本说明书一实施例的一种模型处理装置的示意性框图。请参考图9,模型处理装置可以包括:
错误编码数据构造模块910,获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据。
第一错误文本生成模块912,基于每一个与关键词库中的关键词匹配的词语和词语的错误编码数据,确定与词语的错误编码数据对应的构造词语,将构造词语替换金融交易报告训练文本中的生成构造词语的错误编码数据对应的词语,以生成第一错误文本。
第二错误文本生成模块914,选取对金融交易报告训练文本进行分词处理后得到的词语构成的词语集合中的一个或多个词语,将选取的每一个词语分别插入金融交易报告训练文本中该词语的相邻位置,选取金融交易报告训练文本中的一个或多个标点,将选取的每一个标点分别插入金融交易报告训练文本中该标点的相邻位置,以生成第二错误文本。
模型训练模块916,基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练,得到训练后的文本检错模型,文本检错模型用于对金融交易报告的文本进行错误识别并输出正确的文本内容。
在一个实施例中,错误编码数据构造模块910包括:
中间词语集合获取单元,对金融交易报告训练文本进行分词处理,并对得到的分词进行停用词过滤处理,将过滤处理后得到的词语存储至中间词语集合。
排序词语集合获取单元,对中间词语集合中的词语进行词语出现次数统计,按照词语出现次数对中间词语集合中的词语进行排序,得到排序词语集合。
关键词库获取单元,基于设定的词语截取规则,从排序词语集合中选取部分词语,并将选取的部分词语存储至关键词库。
编码数据获取单元,获取关键词库中的每一个词语对应的编码数据。
在一个实施例中,错误编码数据构造模块910包括:
字母混淆拼音文本获取单元,选取与关键词库中的关键词匹配的词语的拼音数据中的一个或多个字母,将选取的字母替换为该字母在预设输入键盘上相邻的一个字母,得到每一个与关键词库中的关键词匹配的词语的字母混淆拼音文本,将字母混淆拼音文本作为错误编码数据。
在一个实施例中,错误编码数据构造模块910包括:
双音节词语确定单元,确定每一个与关键词库中的关键词匹配的词语中包含的单音节词语和双音节词语。
字母缩写拼音文本获取单元,获取每一个双音节词语的拼音数据,将每一个双音节词语中的第二个字符的拼音数据中除首字母以外的字母删除,将每一个双音节词语中的第一个字符的拼音数据与同一双音节词语中的第二个字符的首字母组合得到每一个双音节词语的字母缩写拼音文本,将字母缩写拼音文本作为错误编码数据。
在一个实施例中,错误编码数据构造模块910包括:
字母删除拼音文本获取单元,选取与关键词库中的关键词匹配的词语的拼音数据中的一个或多个字母,将选取的字母删除,得到每一个与关键词库中的关键词匹配的词语的字母删除拼音文本,将字母删除拼音文本作为错误编码数据。
在一个实施例中,错误编码数据构造模块910包括:
字母冗余拼音文本获取单元,选取与关键词库中的关键词匹配的词语的拼音数据中的一个或多个字母,将选取字母在预设输入键盘上相邻的一个字母插入至与关键词库中的关键词匹配的词语的拼音数据中选取字母的相邻位置,得到每一个与关键词库中的关键词匹配的词语的字母冗余拼音文本,将字母冗余拼音文本作为错误编码数据。
在一个实施例中,第一错误文本生成模块912包括:
错误词语集合获取单元,从与关键词库中的关键词匹配的词语中选取预设数量的词语,并将选取的预设数量的词语存储至错误词语集合中。
错误拼音数据获取单元,从每一个错误词语集合中的词语对应的错误拼音数据中选取预设数量的错误拼音数据。
第一错误文本获取单元,获取每一个错误词语集合中的词语对应的错误拼音数据对应的构造词语,使用构造词语替换金融交易报告训练文本中的生成构造词语的错误拼音数据对应的词语,以生成第一错误文本。
采用本说明书一个或多个实施例的技术方案,针对不同输入法容易造成编码数据片段丢失、重复、混淆等情形以及文本复制粘贴时多选中的文本片段造成的多字情形,对金融交易报告测试文本进行错误文本的自动生成。基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练。该技术方案简化了方法结构和调优难度。整体方案不需要人工标注数据和中间步骤,实现了金融交易报告文本的自动检错,大幅降低了人工成本,提高了报文质量。该技术方案采用自动生成的大规模数据集进行模型训练,避免了人工标注数据难以覆盖全部情况和预定义的错字规则难以适应新词的问题。此外,该技术方案采用端到端生成模型,训练完成后的文本检错模型对待检错的金融交易报告进行错误识别并输出正确的文本内容,不需要进行中间错误识别步骤,该技术方案不仅简化了方法结构,同时降低了错误累积的风险,获得了更优的效果。
本领域的技术人员应可理解,上述模型处理装置能够用来实现前文的模型处理方法,其中的细节描述应与前文方法部分描述类似,为避免繁琐,此处不另赘述。
基于同样的思路,本说明书一个或多个实施例还提供一种电子设备,如图10所示。电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器1001和存储器1002,存储器1002中可以存储有一个或一个以上存储应用程序或数据。其中,存储器1002可以是短暂存储或持久存储。存储在存储器1002的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地,处理器1001可以设置为与存储器1002通信,在电子设备上执行存储器1002中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源1003,一个或一个以上有线或无线网络接口1004,一个或一个以上输入输出接口1005,一个或一个以上键盘1006。
具体在本实施例中,电子设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对电子设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据。
基于每一个与关键词库中的关键词匹配的词语和词语的错误编码数据,确定与词语的错误编码数据对应的构造词语,将构造词语替换金融交易报告训练文本中的生成构造词语的错误编码数据对应的词语,以生成第一错误文本。
选取对金融交易报告训练文本进行分词处理后得到的词语构成的词语集合中的一个或多个词语,将选取的每一个词语分别插入金融交易报告训练文本中该词语的相邻位置,选取金融交易报告训练文本中的一个或多个标点,将选取的每一个标点分别插入金融交易报告训练文本中该标点的相邻位置,以生成第二错误文本。
基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练,得到训练后的文本检错模型,文本检错模型用于对金融交易报告的文本进行错误识别并输出正确的文本内容。
本说明书一个或多个实施例还提出了一种存储介质,该存储介质存储一个或多个计算机程序,该一个或多个计算机程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行上述模型处理方法实施例的各个过程,并具体用于执行:
获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据。
基于每一个与关键词库中的关键词匹配的词语和词语的错误编码数据,确定与词语的错误编码数据对应的构造词语,将构造词语替换金融交易报告训练文本中的生成构造词语的错误编码数据对应的词语,以生成第一错误文本。
选取对金融交易报告训练文本进行分词处理后得到的词语构成的词语集合中的一个或多个词语,将选取的每一个词语分别插入金融交易报告训练文本中该词语的相邻位置,选取金融交易报告训练文本中的一个或多个标点,将选取的每一个标点分别插入金融交易报告训练文本中该标点的相邻位置,以生成第二错误文本。
基于第一错误文本、第二错误文本和金融交易报告训练文本对文本检错模型进行模型训练,得到训练后的文本检错模型,文本检错模型用于对金融交易报告的文本进行错误识别并输出正确的文本内容。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于上述一种各方法实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本说明书一个或多个实施例而已,并不用于限制本申请。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的权利要求范围之内。
Claims (10)
1.一种模型处理方法,包括:
获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据;
基于每一个与关键词库中的关键词匹配的词语和所述词语的错误编码数据,确定与所述词语的错误编码数据对应的构造词语,将所述构造词语替换金融交易报告训练文本中的生成所述构造词语的错误编码数据对应的词语,以生成第一错误文本;
选取对金融交易报告训练文本进行分词处理后得到的词语构成的词语集合中的一个或多个词语,将选取的每一个词语分别插入金融交易报告训练文本中该词语的相邻位置,选取金融交易报告训练文本中的一个或多个标点,将选取的每一个标点分别插入金融交易报告训练文本中该标点的相邻位置,以生成第二错误文本;
基于所述第一错误文本、所述第二错误文本和所述金融交易报告训练文本对文本检错模型进行模型训练,得到训练后的文本检错模型,所述文本检错模型用于对金融交易报告的文本进行错误识别并输出正确的文本内容。
2.根据权利要求1所述的方法,所述获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,包括:
对金融交易报告训练文本进行分词处理,并对得到的分词进行停用词过滤处理,将过滤处理后得到的词语存储至中间词语集合;
对中间词语集合中的词语进行词语出现次数统计,按照词语出现次数对中间词语集合中的词语进行排序,得到排序词语集合;
基于设定的词语截取规则,从排序词语集合中选取部分词语,并将选取的部分词语存储至关键词库;
获取所述关键词库中的每一个词语对应的编码数据。
3.根据权利要求2所述的方法,所述对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据,包括:
选取与关键词库中的关键词匹配的词语的拼音数据中的一个或多个字母,将选取的字母替换为所述字母在预设输入键盘上相邻的一个字母,得到每一个与关键词库中的关键词匹配的词语的字母混淆拼音文本,将所述字母混淆拼音文本作为所述错误编码数据。
4.根据权利要求2所述的方法,所述对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据,包括:
确定每一个与关键词库中的关键词匹配的词语中包含的单音节词语和双音节词语;
获取每一个双音节词语的拼音数据,将每一个双音节词语中的第二个字符的拼音数据中除首字母以外的字母删除,将每一个双音节词语中的第一个字符的拼音数据与同一双音节词语中的第二个字符的首字母组合得到每一个双音节词语的字母缩写拼音文本,将所述字母缩写拼音文本作为所述错误编码数据。
5.根据权利要求2所述的方法,所述对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据,包括:
选取与关键词库中的关键词匹配的词语的拼音数据中的一个或多个字母,将选取的字母删除,得到每一个与关键词库中的关键词匹配的词语的字母删除拼音文本,将所述字母删除拼音文本作为所述错误编码数据。
6.根据权利要求2所述的方法,所述对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据,包括:
选取与关键词库中的关键词匹配的词语的拼音数据中的一个或多个字母,将选取字母在预设输入键盘上相邻的一个字母插入至与关键词库中的关键词匹配的词语的拼音数据中选取字母的相邻位置,得到每一个与关键词库中的关键词匹配的词语的字母冗余拼音文本,将所述字母冗余拼音文本作为所述错误编码数据。
7.根据权利要求1至6任一项权利要求所述的方法,所述基于每一个与关键词库中的关键词匹配的词语和所述词语的错误编码数据,确定与所述词语的错误编码数据对应的构造词语,将所述构造词语替换金融交易报告训练文本中的生成所述构造词语的错误编码数据对应的词语,以生成第一错误文本,包括:
从与关键词库中的关键词匹配的词语中选取预设数量的词语,并将选取的预设数量的词语存储至错误词语集合中;
从每一个错误词语集合中的词语对应的错误拼音数据中选取预设数量的错误拼音数据;
获取每一个错误词语集合中的词语对应的错误拼音数据对应的构造词语,使用所述构造词语替换金融交易报告训练文本中的生成所述构造词语的错误拼音数据对应的词语,以生成第一错误文本。
8.根据权利要求1至6任一项权利要求所述的方法,所述方法还包括:
获取待处理的金融交易报告报文数据;
将所述金融交易报告报文数据输入至文本检错模型,得到所述金融交易报告报文对应的正确报文数据;
基于所述正确报文数据,对所述金融交易报告报文数据进行风险控制处理。
9.一种模型处理装置,包括:
错误编码数据构造模块,获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据;
第一错误文本生成模块,基于每一个与关键词库中的关键词匹配的词语和所述词语的错误编码数据,确定与所述词语的错误编码数据对应的构造词语,将所述构造词语替换金融交易报告训练文本中的生成所述构造词语的错误编码数据对应的词语,以生成第一错误文本;
第二错误文本生成模块,选取对金融交易报告训练文本进行分词处理后得到的词语构成的词语集合中的一个或多个词语,将选取的每一个词语分别插入金融交易报告训练文本中该词语的相邻位置,选取金融交易报告训练文本中的一个或多个标点,将选取的每一个标点分别插入金融交易报告训练文本中该标点的相邻位置,以生成第二错误文本;
模型训练模块,基于所述第一错误文本、所述第二错误文本和所述金融交易报告训练文本对文本检错模型进行模型训练,得到训练后的文本检错模型,所述文本检错模型用于对金融交易报告的文本进行错误识别并输出正确的文本内容。
10.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,在所述可执行指令被执行时,能够使得所述处理器:
获取金融交易报告训练文本中与关键词库中的关键词匹配的词语的编码数据,对每一个与关键词库中的关键词匹配的词语的编码数据进行错误编码处理,得到每一个与关键词库中的关键词匹配的词语的错误编码数据;
基于每一个与关键词库中的关键词匹配的词语和所述词语的错误编码数据,确定与所述词语的错误编码数据对应的构造词语,将所述构造词语替换金融交易报告训练文本中的生成所述构造词语的错误编码数据对应的词语,以生成第一错误文本;
选取对金融交易报告训练文本进行分词处理后得到的词语构成的词语集合中的一个或多个词语,将选取的每一个词语分别插入金融交易报告训练文本中该词语的相邻位置,选取金融交易报告训练文本中的一个或多个标点,将选取的每一个标点分别插入金融交易报告训练文本中该标点的相邻位置,以生成第二错误文本;
基于所述第一错误文本、所述第二错误文本和所述金融交易报告训练文本对文本检错模型进行模型训练,得到训练后的文本检错模型,所述文本检错模型用于对金融交易报告的文本进行错误识别并输出正确的文本内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311631559.XA CN117574880A (zh) | 2023-11-30 | 2023-11-30 | 模型处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311631559.XA CN117574880A (zh) | 2023-11-30 | 2023-11-30 | 模型处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117574880A true CN117574880A (zh) | 2024-02-20 |
Family
ID=89889889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311631559.XA Pending CN117574880A (zh) | 2023-11-30 | 2023-11-30 | 模型处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117574880A (zh) |
-
2023
- 2023-11-30 CN CN202311631559.XA patent/CN117574880A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jacobi et al. | Quantitative analysis of large amounts of journalistic texts using topic modelling | |
Jung | Semantic vector learning for natural language understanding | |
CN111967242B (zh) | 一种文本信息的抽取方法、装置及设备 | |
WO2021135444A1 (zh) | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 | |
CN112036162B (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
Schmaltz et al. | Adapting sequence models for sentence correction | |
Zayats et al. | Disfluencies and human speech transcription errors | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
WO2022121251A1 (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
Aksenov et al. | Abstractive text summarization based on language model conditioning and locality modeling | |
CN112527970B (zh) | 数据字典标准化处理方法、装置、设备及存储介质 | |
CN111651978A (zh) | 基于实体的词法检查方法与装置和计算机设备及存储介质 | |
CN112417093B (zh) | 一种模型训练的方法及装置 | |
CN110348007A (zh) | 一种文本相似度确定方法及装置 | |
CN110489559A (zh) | 一种文本分类方法、装置及存储介质 | |
CN110489762B (zh) | 基于神经网络机器翻译的术语翻译方法、存储介质和装置 | |
US20220366144A1 (en) | Cascade pooling for natural language processing | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN111339910B (zh) | 文本的处理、文本分类模型的训练方法及装置 | |
CN117454220A (zh) | 数据分级分类方法、装置、设备及存储介质 | |
Paikens | Deep neural learning approaches for Latvian morphological tagging | |
Yasin et al. | Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text | |
CN117574880A (zh) | 模型处理方法及装置 | |
US20220164705A1 (en) | Method and apparatus for providing information based on machine learning | |
CN114548113A (zh) | 基于事件的指代消解系统、方法、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |