CN110852098A - 一种数据修正方法及电子设备和存储介质 - Google Patents
一种数据修正方法及电子设备和存储介质 Download PDFInfo
- Publication number
- CN110852098A CN110852098A CN201911018160.8A CN201911018160A CN110852098A CN 110852098 A CN110852098 A CN 110852098A CN 201911018160 A CN201911018160 A CN 201911018160A CN 110852098 A CN110852098 A CN 110852098A
- Authority
- CN
- China
- Prior art keywords
- data
- corrected
- type
- sequence
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Retry When Errors Occur (AREA)
- Stored Programmes (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种数据修正方法及一种电子设备和计算机可读存储介质,该方法包括:获取待修正数据,并确定所述待修正数据的异常类型;其中,所述异常类型包括逻辑类型、结构类型和文本类型;利用所述异常类型对应的修正策略对所述待修正数据进行修正。本申请提供的数据修正方法,为不同异常类型设置不同的修正策略,可以对逻辑类型、结构类型和文本类型的异常进行自动修复,不仅在节约人力审核资源时间,提高效率,还可以在数据结构化中缩短数据处理流水线作业时间。
Description
技术领域
本申请涉及数据处理技术领域,更具体地说,涉及一种数据修正方法及一种电子设备和一种计算机可读存储介质。
背景技术
在实际数据的撰写和录入过程中,会出现一些人为错误,例如错别字、逻辑指向错误、排版录入错误等。在相关技术中,一般对其进行人工校对并修复,效率较低。
因此,如何提高数据修正效率是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种数据修正方法及一种电子设备和一种计算机可读存储介质,提高了数据修正效率。
为实现上述目的,本申请提供了一种数据修正方法,包括:
获取待修正数据,并确定所述待修正数据的异常类型;其中,所述异常类型包括逻辑类型、结构类型和文本类型;
利用所述异常类型对应的修正策略对所述待修正数据进行修正。
其中,所述利用所述异常类型对应的修正策略对所述待修正数据进行修正,包括:
若所述异常类型为所述逻辑类型,则确定所述待修正数据对应的目标文本,并建立所述待修正数据与所述目标文本的对应关系;
若所述异常类型为所述结构类型,则提取所述待修正数据的字段信息,并将所述字段信息填充至标准数据结构中;
若所述异常类型为所述文本类型,则生成所述待修正数据对应的词序列。
其中,所述确定所述待修正数据的异常类型,包括:
根据所述待修正数据产生的系统流位置确定所述待修正数据的异常类型。
其中,所述根据所述待修正数据产生的系统流位置确定所述待修正数据的异常类型,包括:
若所述待修正数据为执行数据过滤操作时产生,则将所述待修正数据的异常类型确定为所述文本类型;
若所述待修正数据为执行数据结构化操作时产生,则将所述待修正数据的异常类型确定为所述逻辑类型或所述结构类型;
若所述待修正数据为执行数据关联操作时产生,则将所述待修正数据的异常类型确定为所述逻辑类型。
其中,所述确定所述待修正数据对应的目标文本,包括:
提取所述待修正数据的指纹序列,并基于所述指纹序列确定待测位码序列;其中,所述指纹序列中每个指纹与所述待测位码序列中每个待测位码之间的海明距离小于预设值;
确定每个所述待测位码对应的文本,并根据每个所述文本的指纹序列确定所述待修正数据对应的目标文本。
其中,所述根据每个所述文本的指纹序列确定所述待修正数据对应的目标文本,包括:
利用第一预设公式确定所述待修正数据对应的目标文本;其中,所述第一预设公式具体为:
其中,所述生成所述待修正数据对应的词序列,包括:
对所述待修正数据进行分词操作得到候选词序列,并生成所述候选词序列对应的主题序列;
利用所述主题序列在所述候选词序列中确定待替换词和每个所述待替换词对应的替换词;
将所述候选词序列中每个所述待替换词替换为对应的所述替换词,得到所述待修正数据对应的词序列。
其中,所述利用所述主题序列在所述候选词序列中确定待替换词和每个所述待替换词对应的替换词,包括:
将所述候选词序列中满足第二预设公式的词确定为所述待替换词;其中,所述第二预设公式具体为:
fb(wi,Si)≤ε;
其中,wi为所述候选词序列中的第i个词,Si为所述主题序列中的第i个主题,ε∈(0,1),fb(wi,Si)为在主题Si时词wi出现的条件概率;
基于第三预设公式生成所述待替换词对应的替换词;其中,所述第三预设公式具体为:
wi=max(fa(Si-1,wi-1)·fb(wi,Si));
其中,Sj=fb(wi,Si)为在词wi时主题Si转移至主题Sj的概率。
其中,所述待修正数据包括待修正汽修资料。
为实现上述目的,本申请提供了一种数据修正装置,包括:
获取模块,用于获取待修正数据,并确定所述待修正数据的异常类型;其中,所述异常类型包括逻辑类型、结构类型和文本类型;
修正模块,用于利用所述异常类型对应的修正策略对所述待修正数据进行修正。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述数据修正方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述数据修正方法的步骤。
通过以上方案可知,本申请提供的一种数据修正方法,包括:获取待修正数据,并确定所述待修正数据的异常类型;其中,所述异常类型包括逻辑类型、结构类型和文本类型;利用所述异常类型对应的修正策略对所述待修正数据进行修正。
本申请提供的数据修正方法,为不同异常类型设置不同的修正策略,可以对逻辑类型、结构类型和文本类型的异常进行自动修复,不仅在节约人力审核资源时间,提高效率,还可以在数据结构化中缩短数据处理流水线作业时间。本申请还公开了一种数据修正装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为根据一示例性实施例示出的一种数据修正方法的流程图;
图2为确定所述待修正数据对应的目标文本的流程图;
图3为指纹序列的生成示意图;
图4为生成所述待修正数据对应的词序列的流程图;
图5为一种汽修资料处理系统的流程图;
图6为根据一示例性实施例示出的一种数据修正装置的结构图;
图7为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种数据修正方法,提高了数据修正效率。
参见图1,根据一示例性实施例示出的一种数据修正方法的流程图,如图1所示,包括:
S101:获取待修正数据,并确定所述待修正数据的异常类型;其中,所述异常类型包括逻辑类型、结构类型和文本类型;
本实施例可以应用于流水线类型的数据处理系统,在具体实施中,首先将所述数据划分为多个文件块,并对其进行编码得到[A1,A2,...,AM],M为所有数据块的数量。对数据块执行的操作可以包括资料检测、资料修复、数据过滤、数据结构化、数据n关联和数据标准化等。具体的,本步骤中的待修正数据可以具体为待修正汽修资料,数据处理系统可以具体为汽修资料处理系统。
对于逻辑类型的待修正数据,例如当前故障码为P0010,对应的维修引导为网络通信系统维修流程。但是,由于P开头的故障码是发动机系统下的错误,因此该数据为异常数据。如果网络通信系统维修流程已经有别的故障码指向,发动机下某维修流程没有故障码指向,那么P0010需要重新指向发动机下某维修流程。如果发动机下所有的流程都已经都有指向了,且网络通信系统维修流程没有指向,那么P0010可能人为打错,对比已处理过的数据里,该流程通常是C0011这个故障码,因此需要将P0010修复为C0011。结构类型的待修复数据为文本排版错误、知识结构错误等。文本类型的待修复数据为错别字、同音字、乱码、异常字符等错误。
优选的,所述确定所述待修正数据的异常类型,包括:根据所述待修正数据产生的系统流位置确定所述待修正数据的异常类型。具体的,若所述待修正数据为执行数据过滤操作时产生,则将所述待修正数据的异常类型确定为所述文本类型;若所述待修正数据为执行数据结构化操作时产生,则将所述待修正数据的异常类型确定为所述逻辑类型或所述结构类型;若所述待修正数据为执行数据关联操作时产生,则将所述待修正数据的异常类型确定为所述逻辑类型。
在具体实施中,执行数据过滤操作的过程中,对已确定文件类型的文件块进行预处理,去掉一定不需要的内容,提取一定需要的内容,因此此处产生的待修正数据的异常类型为文本类型。执行数据结构化的过程中,将数据块处理为预设的数据结构,此处产生的待修正数据的异常类型为逻辑类型或结构类型。执行数据n关联操作的过程中,对结构化后的数据进行编码,并确定各文件块之间的关联关系,此处产生的待修正数据的异常类型为逻辑类型。
S102:利用所述异常类型对应的修正策略对所述待修正数据进行修正。
在本步骤中,为不同异常类型设置不同的修正策略,可以对逻辑类型、结构类型和文本类型的异常进行自动修复。
具体的,若所述异常类型为所述逻辑类型,则确定所述待修正数据对应的目标文本,并建立所述待修正数据与所述目标文本的对应关系。在具体实施中,由于待修复数据的异常类型为逻辑异常,因此需要确定该数据对应的正常的目标文本,并确定逻辑正常的对应关系,即数据与目标文本的正确的逻辑关系,将该逻辑关系作为入库的数据。
若所述异常类型为所述结构类型,则提取所述待修正数据的字段信息,并将所述字段信息填充至标准数据结构中。在具体实施中,由于待修复数据的异常类型为结构类型,因此利用标准数据结构对该数据进行修复。首先利用实体识别技术提取标准数据结构的字段信息,并将其填充至标准数据结构中,将填充完成的标准数据结构作为入库的数据。
若所述异常类型为所述文本类型,则生成所述待修正数据对应的词序列。在具体实施中,由于待修复数据的异常类型为文本类型,可以提取该数据的词序列作为入库的数据,已完成数据的修复。
可以理解的是,若待修复数据的异常类型为除上述异常类型之外的其他类型,可以人工处理相关问题,并记录问题留底。
本申请实施例提供的数据修正方法,可以对逻辑类型、结构类型和文本类型的异常进行自动修复。对于逻辑错误的数据,需要确定其对应的正常的目标文本,并确定逻辑正常的对应关系,即数据与目标文本的正确的逻辑关系。对于结构错误的数据,按照标准数据结构对其进行修正。对于文本错误的数据,提取该数据的词序列,直接将其作为入库的数据,完成修复。由此可见,本申请实施例提供的数据修正方法,可以自动对各异常类型的数据进行修复,不仅在节约人力审核资源时间,提高效率,还可以在数据结构化中缩短数据处理流水线作业时间。
下面介绍一种具体的修正逻辑异常的方法,具体的,如图2所示,所述确定所述待修正数据对应的目标文本的步骤可以包括:
S21:提取所述待修正数据的指纹序列,并基于所述指纹序列确定待测位码序列;其中,所述指纹序列中每个指纹与所述待测位码序列中每个待测位码之间的海明距离小于预设值;
在本步骤中,如图3所示,首先对待修正数据(即图中的新文本)进行编码,生成由0、1组成的二进制块密文,待修正数据可以分解表达成有序的二进制数据块序列,由于二进制数据块的数量有限,因此可以生成二进制数据块的对照表,记录哪些文本包含哪些二进制数据块,本步骤中的指纹序列{α1,α2,...,αn}记录了该数据中包含了哪些二进制数据块。
S22:确定每个所述待测位码对应的文本,并根据每个所述文本的指纹序列确定所述待修正数据对应的目标文本。
在本步骤中,由采用K-V形式或者倒排查找检索相关文档系列{B1,B2,...,Bm}。K-V形式的计算实例如下:
其中,key为定长位码,位码个数满足2的幂次方。
根据上述相关文档系列可以确定待修正数据对应的目标文本,优选的,所述根据每个所述文本的指纹序列确定所述待修正数据对应的目标文本的步骤包括:利用第一预设公式确定所述待修正数据对应的目标文本;其中,所述第一预设公式具体为:
下面介绍一种具体的生成词序列的方法,具体的,如图4所示,所述生成所述待修正数据对应的词序列的步骤可以包括:
S41:对所述待修正数据进行分词操作得到候选词序列,并生成所述候选词序列对应的主题序列;
在本步骤中,对待修正数据进行分词操作得到候选词序列{w1,w2,...,wq},并利用词-主题混合模型生成每个候选词对应的主题组成主题序列{S1,S2,...,Sq}。
S42:利用所述主题序列在所述候选词序列中确定待替换词和每个所述待替换词对应的替换词;
在本步骤中,利用主题序列更新候选词序列。优选的,所述利用所述主题序列在所述候选词序列中确定待替换词和每个所述待替换词对应的替换词的步骤包括:将所述候选词序列中满足第二预设公式的词确定为所述待替换词;基于第三预设公式生成所述待替换词对应的替换词;
其中,所述第二预设公式具体为:
fb(wi,Si)≤ε;
其中,wi为所述候选词序列中的第i个词,Si为所述主题序列中的第i个主题,ε∈(0,1),fb(wi,Si)为在主题Si时词wi出现的条件概率;
所述第三预设公式具体为:
wi=max(fa(Si-1,wi-1)·fb(wi,Si));
其中,Sj=fb(wi,Si)为在词wi时主题Si转移至主题Sj的概率。
上述fa()和fb(i)为基本的条件概率函数,其中的参数可以根据实际情况训练得到。
S43:将所述候选词序列中每个所述待替换词替换为对应的所述替换词,得到所述待修正数据对应的词序列。
下面介绍本申请的一种应用实施例,对待修正汽修资料进行处理,首先将数据划分为多个文件块,并对其进行编码得到[A1,A2,...,AM],M为所有数据块的数量。汽修资料处理系统对数据块执行的操作如图5所示,可以包括资料检测、资料修复、数据过滤、数据结构化、数据n关联和数据标准化等。根据待修正汽修资料产生的系统流位置确定待修正数据的异常类型。具体的,若待修正汽修资料为执行数据过滤操作时产生,则异常类型为文本类型;若汽修资料为执行数据结构化操作时产生,则异常类型为逻辑类型或结构类型;若汽修资料为执行数据关联操作时产生,则异常类型为逻辑类型。
对于逻辑类型,首先对待修正汽修资料进行编码,生成由0、1组成的二进制块密文,进而得到待修正汽修资料是指纹序列{α1,α2,...,αn},根据指纹序列按以下遍历距离生成待测位码序列其中,sim has(hαi,βji)<,d simhash(αi,βji)为αi与βji之间的海明距离,d∈(1,2c),c为二级制数据块的数量。由采用K-V形式或者倒排查找检索相关文档系列{B1,B2,...,Bm}。利用下述公式确定待修正汽修资料对应的目标文本;
对于结构类型,首先利用实体识别技术提取标准数据结构的字段信息,并将其填充至标准数据结构中,将填充完成的标准数据结构作为入库的数据。
对于文本类型,对待修正汽修资料进行分词操作得到候选词序列{w1,w2,...,wq},并利用词-主题混合模型生成每个候选词对应的主题组成主题序列{S1,S2,...,Sq}。将候选词序列中满足fb(wi,Si)≤ε的词确定为待替换词,其中,wi为候选词序列中的第i个词,Si为主题序列中的第i个主题,ε∈(0,1),fb(wi,Si)为在主题Si时词wi出现的条件概率。基于wi=max(fa(Si-1,wi-1)·fb(wi,Si))生成待替换词对应的替换词,其中,Sj=fb(wi,Si)为在词wi时主题Si转移至主题Sj的概率。将候选词序列中每个待替换词替换为对应的替换词,得到待修正汽修资料对应的词序列。
下面对本申请实施例提供的一种数据修正装置进行介绍,下文描述的一种数据修正装置与上文描述的一种数据修正方法可以相互参照。
参见图6,根据一示例性实施例示出的一种数据修正装置的结构图,如图6所示,包括:
获取模块601,用于获取待修正数据,并确定所述待修正数据的异常类型;其中,所述异常类型包括逻辑类型、结构类型和文本类型;
修正模块602,用于利用所述异常类型对应的修正策略对所述待修正数据进行修正。
本申请实施例提供的数据修正装置,为不同异常类型设置不同的修正策略,可以对逻辑类型、结构类型和文本类型的异常进行自动修复,不仅在节约人力审核资源时间,提高效率,还可以在数据结构化中缩短数据处理流水线作业时间。
在上述实施例的基础上,作为一种优选实施方式,所述修正模块602包括:
建立单元,用于若所述异常类型为所述逻辑类型,则确定所述待修正数据对应的目标文本,并建立所述待修正数据与所述目标文本的对应关系;
提取单元,用于若所述异常类型为所述结构类型,则提取所述待修正数据的字段信息,并将所述字段信息填充至标准数据结构中;
生成单元,用于若所述异常类型为所述文本类型,则生成所述待修正数据对应的词序列。
在上述实施例的基础上,作为一种优选实施方式,所述获取模块601包括:
获取单元,用于获取待修正数据;
第一确定单元,用于根据所述待修正数据产生的系统流位置确定所述待修正数据的异常类型。
在上述实施例的基础上,作为一种优选实施方式,所述第一确定单元包括:
第一确定子单元,用于若所述待修正数据为执行数据过滤操作时产生,则将所述待修正数据的异常类型确定为所述文本类型;
第二确定子单元,用于若所述待修正数据为执行数据结构化操作时产生,则将所述待修正数据的异常类型确定为所述逻辑类型或所述结构类型;
第三确定子单元,用于若所述待修正数据为执行数据关联操作时产生,则将所述待修正数据的异常类型确定为所述逻辑类型。
在上述实施例的基础上,作为一种优选实施方式,所述建立单元包括:
提取子单元,用于提取所述待修正数据的指纹序列,并基于所述指纹序列确定待测位码序列;其中,所述指纹序列中每个指纹与所述待测位码序列中每个待测位码之间的海明距离小于预设值;
第四确定子单元,用于确定每个所述待测位码对应的文本,并根据每个所述文本的指纹序列确定所述待修正数据对应的目标文本;
建立子单元,用于建立所述待修正数据与所述目标文本的对应关系。
在上述实施例的基础上,作为一种优选实施方式,所述第四确定子单元具体为确定每个所述待测位码对应的文本,并利用第一预设公式确定所述待修正数据对应的目标文本的子单元;其中,所述第一预设公式具体为:
在上述实施例的基础上,作为一种优选实施方式,所述生成单元包括:
分词子单元,用于对所述待修正数据进行分词操作得到候选词序列,并生成所述候选词序列对应的主题序列;
第五确定子单元,用于利用所述主题序列在所述候选词序列中确定待替换词和每个所述待替换词对应的替换词;
替换子单元,用于将所述候选词序列中每个所述待替换词替换为对应的所述替换词,得到所述待修正数据对应的词序列。
在上述实施例的基础上,作为一种优选实施方式,所述第五确定子单元具体为将所述候选词序列中满足第二预设公式的词确定为所述待替换词,基于第三预设公式生成所述待替换词对应的替换词的子单元;
其中,所述第二预设公式具体为:
fb(wi,Si)≤ε;
其中,wi为所述候选词序列中的第i个词,Si为所述主题序列中的第i个主题,ε∈(0,1),fb(wi,Si)为在主题Si时词wi出现的条件概率;
其中,所述第三预设公式具体为:
wi=max(fa(Si-1,wi-1)·fb(wi,Si));
其中,Sj=fb(wi,Si)为在词wi时主题Si转移至主题Sj的概率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请还提供了一种电子设备,参见图7,本申请实施例提供的一种电子设备700的结构图,如图7所示,可以包括处理器11和存储器12。该电子设备700还可以包括多媒体组件13,输入/输出(I/O)接口14,以及通信组件15中的一者或多者。
其中,处理器11用于控制该电子设备700的整体操作,以完成上述的数据修正方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口14为处理器11和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件15可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的数据修正方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述数据修正方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器12,上述程序指令可由电子设备700的处理器11执行以完成上述的数据修正方法。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种数据修正方法,其特征在于,包括:
获取待修正数据,并确定所述待修正数据的异常类型;其中,所述异常类型包括逻辑类型、结构类型和文本类型;
利用所述异常类型对应的修正策略对所述待修正数据进行修正。
2.根据权利要求1所述数据修正方法,其特征在于,所述利用所述异常类型对应的修正策略对所述待修正数据进行修正,包括:
若所述异常类型为所述逻辑类型,则确定所述待修正数据对应的目标文本,并建立所述待修正数据与所述目标文本的对应关系;
若所述异常类型为所述结构类型,则提取所述待修正数据的字段信息,并将所述字段信息填充至标准数据结构中;
若所述异常类型为所述文本类型,则生成所述待修正数据对应的词序列。
3.根据权利要求1所述数据修正方法,其特征在于,所述确定所述待修正数据的异常类型,包括:
根据所述待修正数据产生的系统流位置确定所述待修正数据的异常类型。
4.根据权利要求3所述数据修正方法,其特征在于,所述根据所述待修正数据产生的系统流位置确定所述待修正数据的异常类型,包括:
若所述待修正数据为执行数据过滤操作时产生,则将所述待修正数据的异常类型确定为所述文本类型;
若所述待修正数据为执行数据结构化操作时产生,则将所述待修正数据的异常类型确定为所述逻辑类型或所述结构类型;
若所述待修正数据为执行数据关联操作时产生,则将所述待修正数据的异常类型确定为所述逻辑类型。
5.根据权利要求2所述数据修正方法,其特征在于,所述确定所述待修正数据对应的目标文本,包括:
提取所述待修正数据的指纹序列,并基于所述指纹序列确定待测位码序列;其中,所述指纹序列中每个指纹与所述待测位码序列中每个待测位码之间的海明距离小于预设值;
确定每个所述待测位码对应的文本,并根据每个所述文本的指纹序列确定所述待修正数据对应的目标文本。
7.根据权利要求2所述数据修正方法,其特征在于,所述生成所述待修正数据对应的词序列,包括:
对所述待修正数据进行分词操作得到候选词序列,并生成所述候选词序列对应的主题序列;
利用所述主题序列在所述候选词序列中确定待替换词和每个所述待替换词对应的替换词;
将所述候选词序列中每个所述待替换词替换为对应的所述替换词,得到所述待修正数据对应的词序列。
8.根据权利要求7所述数据修正方法,其特征在于,所述利用所述主题序列在所述候选词序列中确定待替换词和每个所述待替换词对应的替换词,包括:
将所述候选词序列中满足第二预设公式的词确定为所述待替换词;其中,所述第二预设公式具体为:
fb(wi,Si)≤ε;
其中,wi为所述候选词序列中的第i个词,Si为所述主题序列中的第i个主题,ε∈(0,1),fb(wi,Si)为在主题Si时词wi出现的条件概率;
基于第三预设公式生成所述待替换词对应的替换词;其中,所述第三预设公式具体为:
wi=max(fa(Si-1,wi-1)·fb(wi,Si));
其中,Sj=fb(wi,Si)为在词wi时主题Si转移至主题Sj的概率。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述数据修正方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述数据修正方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911018160.8A CN110852098B (zh) | 2019-10-24 | 2019-10-24 | 一种数据修正方法及电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911018160.8A CN110852098B (zh) | 2019-10-24 | 2019-10-24 | 一种数据修正方法及电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852098A true CN110852098A (zh) | 2020-02-28 |
CN110852098B CN110852098B (zh) | 2023-05-30 |
Family
ID=69596949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911018160.8A Active CN110852098B (zh) | 2019-10-24 | 2019-10-24 | 一种数据修正方法及电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852098B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765231A (zh) * | 2021-01-04 | 2021-05-07 | 珠海格力电器股份有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
CN113626234A (zh) * | 2021-06-30 | 2021-11-09 | 济南浪潮数据技术有限公司 | 一种异常处理方法、装置、电子设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102124527A (zh) * | 2008-05-16 | 2011-07-13 | 弗森-艾奥公司 | 用于检测和替代失效的数据存储器的装置、系统和方法 |
CN104093037A (zh) * | 2014-06-10 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 字幕校正方法和装置 |
CN104424168A (zh) * | 2013-09-11 | 2015-03-18 | 华为技术有限公司 | 一种文本编辑方法、装置及服务器 |
US20170243134A1 (en) * | 2016-02-10 | 2017-08-24 | RapportBoost.ai | Optimization System and Method for Chat-Based Conversations |
-
2019
- 2019-10-24 CN CN201911018160.8A patent/CN110852098B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102124527A (zh) * | 2008-05-16 | 2011-07-13 | 弗森-艾奥公司 | 用于检测和替代失效的数据存储器的装置、系统和方法 |
CN104424168A (zh) * | 2013-09-11 | 2015-03-18 | 华为技术有限公司 | 一种文本编辑方法、装置及服务器 |
CN104093037A (zh) * | 2014-06-10 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 字幕校正方法和装置 |
US20170243134A1 (en) * | 2016-02-10 | 2017-08-24 | RapportBoost.ai | Optimization System and Method for Chat-Based Conversations |
Non-Patent Citations (1)
Title |
---|
孔希希 等: "基于不同分词模式的文本分类研究", 《数学的实践与认识》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765231A (zh) * | 2021-01-04 | 2021-05-07 | 珠海格力电器股份有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
CN113626234A (zh) * | 2021-06-30 | 2021-11-09 | 济南浪潮数据技术有限公司 | 一种异常处理方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110852098B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108766437A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN110635807B (zh) | 一种数据编码方法及译码方法 | |
CN110929094A (zh) | 一种视频标题处理方法和装置 | |
CN111859916B (zh) | 古诗关键词提取、诗句生成方法、装置、设备及介质 | |
CN110852098A (zh) | 一种数据修正方法及电子设备和存储介质 | |
US20230252139A1 (en) | Efficient transformer for content-aware anomaly detection in event sequences | |
CN114528394B (zh) | 一种基于掩码语言模型的文本三元组提取方法及装置 | |
CN116822464A (zh) | 一种文本纠错方法、系统、设备及存储介质 | |
CN113850081A (zh) | 基于人工智能的文本处理方法、装置、设备及介质 | |
CN111126059B (zh) | 一种短文文本的生成方法、生成装置及可读存储介质 | |
CN116909435A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN111178049A (zh) | 一种文本修正方法、装置、可读介质及电子设备 | |
CN116013307A (zh) | 一种标点预测方法、装置、设备以及计算机存储介质 | |
CN111400670B (zh) | 一种水印添加方法、装置、设备及存储介质 | |
CN115099359A (zh) | 基于人工智能的地址识别方法、装置、设备及存储介质 | |
CN109657210B (zh) | 基于语义解析的文本准确率计算方法、装置、计算机设备 | |
CN112445461A (zh) | 一种业务规则生成方法、装置、电子设备和可读存储介质 | |
CN112507059A (zh) | 金融领域舆情监控中的事件抽取方法、装置和计算机设备 | |
CN113688625A (zh) | 一种语种识别方法及装置 | |
CN114780924B (zh) | 电子文本的溯源方法及装置 | |
CN113434652B (zh) | 智能问答方法、智能问答装置、设备及存储介质 | |
CN113239152B (zh) | 适用于多轮对话的对话修复方法、装置、设备及存储介质 | |
CN117312833B (zh) | 一种应用于数字资产环境中的数据识别方法及系统 | |
CN112580619B (zh) | 对识别结果进行辅助修改的方法和装置 | |
CN109710904B (zh) | 基于语义解析的文本准确率计算方法、装置、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |