CN112347142B - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN112347142B
CN112347142B CN202011286143.5A CN202011286143A CN112347142B CN 112347142 B CN112347142 B CN 112347142B CN 202011286143 A CN202011286143 A CN 202011286143A CN 112347142 B CN112347142 B CN 112347142B
Authority
CN
China
Prior art keywords
field
text
target
replacement
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011286143.5A
Other languages
English (en)
Other versions
CN112347142A (zh
Inventor
谢明敏
赵茂兰
牛福振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hode Information Technology Co Ltd
Original Assignee
Shanghai Hode Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hode Information Technology Co Ltd filed Critical Shanghai Hode Information Technology Co Ltd
Priority to CN202011286143.5A priority Critical patent/CN112347142B/zh
Publication of CN112347142A publication Critical patent/CN112347142A/zh
Application granted granted Critical
Publication of CN112347142B publication Critical patent/CN112347142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6009Methods for processing data by generating or executing the game program for importing or creating game content, e.g. authoring tools during game development, adapting content to different platforms, use of a scripting language to create content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供数据处理方法及装置,其中所述数据处理方法包括:遍历待处理文本,获取所述待处理文本中的目标字段以及所述目标字段的位置信息;获取所述目标字段对应的替换字段;根据所述待处理文本的存储路径、所述目标字段、所述目标字段的位置信息和所述目标字段对应的替换字段,生成替换对照表;根据所述替换对照表,查询所述待处理文本中的所述位置信息处的待替换字段,利用所述替换字段对所述待替换字段进行替换。如此,可以基于获取到的目标字段的相关信息自定义一个替换对照表,之后直接根据替换对照表中的位置信息,找到待处理文本中的相应位置,一一自动替换待替换字段,数据替换效率高,且替换准确率高。

Description

数据处理方法及装置
技术领域
本说明书涉及计算机技术领域,特别涉及数据处理方法及装置。
背景技术
随着计算机技术的快速发展,越来越多的游戏应运而生,已经成为大多数人必不可少的生活娱乐。游戏在不同地区推行时,游戏中的文案提取和替换是一个非常频繁的需求。
现有技术中,往往是依靠人工打开游戏项目中的每个代码文本,通过肉眼的方式查找出代码中的文案,然后复制到Excel表格中,翻译好后再通过人工粘贴的方式把新的文案替换到代码中。
然而,随着游戏项目越来越多,且每个游戏中都存在大量的文案(一般普通游戏可能含有几千个代码文本、几百万的文字),通过人工的方式去完成文案的提取和替换,常常需要耗费大量的人力和漫长的周期去完成替换工作,明显影响游戏项目的开发进度和计划,也会耗费巨大的人力成本和时间成本,且替换后的错误率也较高。进而需要更简单更准确的方法进行数据替换的操作或者处理。
发明内容
有鉴于此,本说明书实施例提供了一种数据处理方法。本说明书同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的文案替换效率和正确率低的缺陷。
根据本说明书实施例的第一方面,提供了一种数据处理方法,包括:
遍历待处理文本,获取所述待处理文本中的目标字段以及所述目标字段的位置信息;
获取所述目标字段对应的替换字段;
根据所述待处理文本的存储路径、所述目标字段、所述目标字段的位置信息和所述目标字段对应的替换字段,生成替换对照表;
根据所述替换对照表,查询所述待处理文本中的所述位置信息处的待替换字段,利用所述替换字段对所述待替换字段进行替换。
根据本说明书实施例的第二方面,提供了一种数据处理装置,包括:
第一遍历模块,被配置为遍历待处理文本,获取所述待处理文本中的目标字段以及所述目标字段的位置信息;
第一获取模块,被配置为获取所述目标字段对应的替换字段;
生成模块,被配置为根据所述待处理文本的存储路径、所述目标字段、所述目标字段的位置信息和所述目标字段对应的替换字段,生成替换对照表;
替换模块,被配置为根据所述替换对照表,查询所述待处理文本中的所述位置信息处的待替换字段,利用所述替换字段对所述待替换字段进行替换。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
遍历待处理文本,获取所述待处理文本中的目标字段以及所述目标字段的位置信息;
获取所述目标字段对应的替换字段;
根据所述待处理文本的存储路径、所述目标字段、所述目标字段的位置信息和所述目标字段对应的替换字段,生成替换对照表;
根据所述替换对照表,查询所述待处理文本中的所述位置信息处的待替换字段,利用所述替换字段对所述待替换字段进行替换。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述数据处理方法的步骤。
本说明书提供的数据处理方法,可以遍历待处理文本,获取待处理文本中的目标字段以及目标字段的位置信息;然后获取目标字段对应的替换字段,并根据待处理文本的存储路径、目标字段、目标字段的位置信息和目标字段对应的替换字段,生成替换对照表;之后,根据替换对照表,查询待处理文本中的该位置信息处的待替换字段,利用替换字段对待替换字段进行替换。这种情况下,在遍历待处理文本查找到包括的目标字段后,可以基于获取到的目标字段的相关信息自定义一个替换对照表,之后直接根据替换对照表中的位置信息,找到待处理文本中的相应位置,一一自动替换待替换字段,可以自动完成待处理文本中所有目标字段的提取与替换工作,数据替换效率高,且避免了漏掉某个待替换字段,替换准确率高,从而有效的节省巨大的人力成本和时间成本,提高数据替换的效率,解放生产力,并有效的避免人工提取和替换时的误操作,提高数据替换的准确率。
附图说明
图1是本说明书一实施例提供的一种数据处理方法的流程图;
图2是本说明书一实施例提供的一种待处理文本示意图;
图3是本说明书一实施例提供的一种目标字段的数据结构示意图;
图4是本说明书一实施例提供的一种替换字符队列示意图;
图5是本说明书一实施例提供的一种替换对照表示意图;
图6是本说明书一实施例提供的一种替换对照表的数据结构示意图;
图7是本说明书一实施例提供的一种应用于游戏文案替换场景的数据处理方法的处理流程图;
图8是本说明书一实施例提供的一种数据处理装置的结构示意图;
图9是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
Python:是一种跨平台的计算机程序设计语言,一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。
正则表达式:又称规则表达式(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串,因而正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本,许多程序设计语言都支持利用正则表达式进行字符串操作。
队列(Queue):一种特殊的线性表,一种先进先出(FIFO)的数据结构,特殊之处在于它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作,队列是一种操作受限制的线性表,进行插入操作的端称为队尾,进行删除操作的端称为队头,队列中没有元素时,称为空队列。
在本说明书中,提供了一种数据处理方法,本说明书同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例提供的一种数据处理方法的流程图,具体包括以下步骤:
步骤102:遍历待处理文本,获取待处理文本中的目标字段以及目标字段的位置信息。
实际应用中,游戏在不同地区推行时,游戏中的文案提取和替换是一个非常频繁的需求。随着游戏项目越来越多,且每个游戏中都存在大量的文案,按照传统人工的方式,常常需要耗费大量的人力和漫长的周期去完成替换工作,明显影响游戏项目的开发进度和计划,也会耗费巨大的人力成本和时间成本,且替换后的错误率也较高。
因而,为了提高提取和替换文案工作时的效率和准确率,本说明书提供了一种数据处理方法,可以通过遍历待处理文本,自动获取到待处理文本中需要进行替换的目标字段,然后自动获取该目标字段对应的替换字段,之后就可以自动基于该替换字段,对目标字段的位置信息处的待替换字段进行替换,从而自动完成待处理文本中所有目标字段的提取与替换工作,有效的节省巨大的人力成本和时间成本,并有效的避免人工提取和替换时的误操作。
具体的,待处理文本是指存在需要被替换的字段的文本,如该待处理文本可以是游戏项目中的代码文件包括的代码;目标字段是指需要被替换的字段,该目标字段可以为文字也可以为符号;目标字段的位置信息是指目标字段在待处理文本中所处的位置,具体可以包括目标字段在待处理文本中所处行的行位置,以及在该行中的起始位置和结束位置。
示例的,图2是一种待处理文本示意图,如图2所示,目标字段为“WarningMessage”、“Confirmation”和目标字段“Warning Message”的位置信息为:位于第3行,起始位置8,结束位置22;目标字段“Confirmation”的位置信息为:位于第3行,起始位置30,结束位置41;目标字段/>的位置信息为:位于第8行,起始位置13,结束位置13。另外,图3是目标字段的数据结构示意图,目标字段中包括的字符如图3所示逐一排列。
本实施例一个可选的实施方式中,可以通过预设的筛选规则对待处理文本进行筛选,从而匹配出目标字段,并记录目标字段的位置信息,也即遍历待处理文本,获取待处理文本中的目标字段以及目标字段的位置信息,具体实现过程可以如下:
通过第一筛选规则,对待处理文本中的字符进行逐一筛选;
将待处理文本中与第一筛选规则匹配的字符确定为目标字符,将目标字符和目标字符在待处理文本中所处的位置插入替换字符队列中,其中,对于包含至少两个目标字符的替换字符队列,该至少两个目标字符在待处理文本中是连续的;
对替换字符队列进行出队列和拼接操作,获得目标字段;
根据替换字符队列的队头和队尾,确定目标字段的位置信息。
具体的,第一筛选规则是针对待处理文本中待替换内容的类型预先设置的筛选规则,该筛选规则可以是根据待替换内容生成的正则表达式,用于筛选出待处理文本中需要替换的内容。本说明中可以预先设置各种类型的待替换内容对应的筛选规则,在目标字段为文字的情况下,可以根据目标字段的语言类型(如日文、英文、韩文等),设置对应的筛选规则,以从待处理文本中筛选出目标语言类型的目标字段;在目标字段为符号的情况下,可以根据目标字段的符号类型(表情符号、标点符号、特殊符号),设置对应的筛选规则,以从待处理文本中筛选出目标符号类型的目标字段。
需要说明的是,可以根据待替换内容的类型,采用对应的第一筛选规则从待处理文本中包括的第一行的首个字符开始依次筛选,然后将待处理文本中与第一筛选规则匹配的字符确定为目标字符,并将目标字符和目标字符在待处理文本中所处的位置插入替换字符队列中。筛选完一行后,继续筛选下一行,直至筛选至待处理文本的文末。
其中,将目标字符和目标字符在待处理文本中所处的位置插入替换字符队列中,具体实现过程可以如下:
在待处理文本中的第i个字符为目标字符的情况下,将该第i个字符和第i个字符在待处理文本中所处的位置插入第m个替换字符队列中;
若待处理文本中的第i+1个字符为目标字符,则将该第i+1个字符和第i+1个字符在待处理文本中所处的位置插入该第m个替换字符队列中;
若待处理文本中的第i+2个字符为非目标字符,则跳过该第i+2个字符,也即,不将第i+2个字符和第i+2个字符在待处理文本中所处的位置插入该第m个替换字符队列中;
在待处理文本中的第j个字符为目标字符的情况下,将第j个字符和第j个字符在待处理文本中所处的位置插入第n个替换字符队列中;
其中,j>i+2,n和m不同,i、j、m、n均为非0的自然数。
具体的,i、j代表字符在待处理文本中所处行中的具体位置,m、n代表创建的替换字符队列的个数。
需要说明的是,一行文本中可能会存在多个目标字段,所以可以分片段的筛选出该行文本中的目标字段,实际上可以采用对应的第一筛选规则从待处理文本中该行包括的首个字符开始依次筛选,在匹配到符合第一筛选规则的目标字符时可以把该目标字符和该目标字符的位置信息插入一个替换字符队列中,直至该连续性被打破(连续性被打破是指该目标字段的字符已结束,需要跳过接下来的非目标字符)。然后,另起一个新的替换字符队列继续按照该方式往下查找至行尾,筛选完毕后,可以获得每一行待处理文本中包括的各个目标字段。也就是说,对于包含至少两个目标字符的替换字符队列,该至少两个目标字符在待处理文本中是连续的,而不同的替换字符队列包括的目标字符之间是不连续的。
示例的,假设待处理文本中的第3个字符为目标字符,则将该第3个字符和其位置插入第2个替换字符队列中;如果待处理文本中的第4个字符也为目标字符,则将该第4个字符和其位置也插入该替换字符队列(即第2个替换字符队列)中;如果待处理文本中的第5个字符为非目标字符,则说明该目标字段的连续性被破坏,该第5个字符不需要插入替换字符队列中;如果待处理文本中的第6个字符为目标字符,由于该目标字符已经不和第4个字符连续,因而将该第6个字符和其位置插入一个新的替换字符队列(即第3个替换字符队列)中。
另外,根据替换字符队列的队头和队尾,确定目标字段的位置信息,具体实现过程可以如下:
将替换字符队列中位于队头的目标字符在待处理文本中所处的位置确定为目标字段的起始位置;
将替换字符队列中位于队尾的目标字符在待处理文本中所处的位置确定为目标字段的结束位置。
需要说明的是,一个替换字符队列中包括的是一个目标字段的目标字符和每个目标字符在所处行的位置,替换字符队列中位于队头的目标字符就是目标字段的第一个字符,替换字符队列中位于队尾的目标字符就是目标字段的最后一个字符,因而根据替换字符队列中队头和队尾的目标字符的位置就可以确定出目标字段的起始位置和结束位置。
另外,替换对照表中存储目标字段的位置信息时可以将文本行和字符位置同时记录(即某行某个字符),也可以先记录需要进行替换的文本行,然后再单独记录目标字段在该文本行中的字符位置。
示例的,图4是一种替换字符队列示意图,如图4所示,替换字符队列1是目标字段1对应的替换字符队列,该替换字符队列1中依次包括目标字符W、a、r、n、i、n、g、(空格)、M、e、s、s、a、g、e,其中,位于队头的目标字符“W”在待处理文本中所处的位置为第3行第8个字符,此时确定目标字段1的起始位置为第3行第8个字符;位于队尾的目标字符“e”在待处理文本中所处的位置为第3行第22个字符,此时确定目标字段1的结束位置为第3行第22个字符,因而确定出目标字段1的位置信息为:第3行,起始位置8,结束位置22。基于相同的方法,确定出目标字段2“Confirmation”的位置信息为:第3行,起始位置30,结束位置41;确定出目标字段3的位置信息为:第8行,起始位置13,结束位置13。
本说明书中每查找到一个符合第一筛选规则的目标字符,就将该目标字符插入替换字符队列中,由于替换字符队列中的目标字符是连续的,因而对替换字符队列进行出队列和拼接操作即可获取到目标字段,并可以根据替换字符队列的队头和队尾确定目标字段的位置信息,利用队列先进先出的特性,可以简单方便的获取到待处理文本中需要替换的目标字段以及其位置信息。
本实施例一个可选的实施方式中,除了针对待处理文本的每一行都进行筛选,确定目标字段之外,还可以设置跳过待处理文本中的某些特定行,具体的,通过第一筛选规则,对待处理文本中的字符进行逐一筛选之前,还包括:
通过第二筛选规则,对待处理文本中的字符进行逐行筛选;
若在目标行匹配到符合第二筛选规则的预设字符,则跳过目标行,继续通过第二筛选规则,对目标行的下一行进行筛选;
若在目标行未匹配到符合第二筛选规则的预设字符,则通过第一筛选规则,对目标行的字符进行逐一筛选。
具体的,第二筛选规则是针对待处理文本中某些特定行(即特定内容,不包括待替换内容的行)预先设置的筛选规则,该筛选规则可以是根据特定行的属性生成的正则表达式,用于判断待处理文本中某一行是否为需要跳过的特定行。
需要说明的是,可以逐行读取待处理文本,对于目标行,通过第二筛选规则对该目标行的字符进行逐个筛选,若在目标行匹配到符合第二筛选规则的预设字符,则说明该目标行属于特定行,不包括待替换内容,因而可以直接跳过该目标行,继续通过第二筛选规则,对目标行的下一行进行筛选,判断目标行的下一行是否可能会包括待替换内容;若在目标行未匹配到符合第二筛选规则的预设字符,则说明该目标行不属于特定行,可能会包括有待替换内容,因而需要再通过第一筛选规则,对目标行的字符进行逐一筛选,以确定待替换内容(即目标字段)。
沿用上例,如图2所示,待处理文本是代码,该代码的第2行是注释行,第二筛选规则是根据注释行会包括注释符号“//”生成的正则表达式,先读取待处理文本的第1行代码,使用第二筛选规则对第1行代码包括的字符进行逐一筛选,在第1行代码中未匹配到符合第二筛选规则的预设字符,然后再通过第一筛选规则,对第1行的字符进行逐一筛选;使用第二筛选规则对第2行代码包括的字符进行逐一筛选,匹配到第2行的第5个字符符合第二筛选规则,则说明第2行是注释行,不包括目标字段,因而直接跳过第2行,继续通过第二筛选规则,对第3行进行筛选,确定第3行是否存在与第二筛选规则匹配的预设字符。
本说明书中在筛选待处理文本中的某一行是否包括需要替换的目标字段之前,还可以先通过第二筛选规则确定该行是否属于特定的不包括目标字段的行,若该行属于特定的不包括目标字段的行,则可以直接跳过,无需再逐一筛选待替换的目标字段,从而无需对待处理文本的每一行都通过第一筛选规则逐一筛选,节省确定目标字段的时间和资源消耗,提高确定目标字段的效率,进而提高数据替换的效率。
本实施例一个可选的实施方式中,在对待处理文本进行筛选之前,还可以先从待处理文本集合中筛选出需要进行数据替换的待处理文本,具体实现过程可以如下:
获取待处理文本集合;
遍历待处理文本集合,将待处理文本集合中符合预设文本规则的文本确定为待处理文本。
具体的,待处理文本集合是指存储有多个文本的集合,该多个文本中包括需要进行数据替换的待处理文本;预设文本规则是根据待处理文本的属性设置的规则,用于从待处理文本集合包括的多个文本中筛选出待处理文本。在文件系统中,该待处理文本集合可以是存储项目文件的文件夹,此时预设文本规则可以是需要进行数据替换的文件的文件类型,当然实际应用中,待处理文本集合还可以以其他形式存储,如缓存形式,本说明书对此不进行限制。
示例的,待处理文本集合是指游戏项目的文件夹,预先设置游戏项目的路径,然后根据该游戏项目的路径找到游戏项目的文件夹,遍历该游戏项目的文件夹,将其中文件类型为代码类型(如.cs,.java,.h,.php,.go等)的文件包括的文本确定为待处理文本。
本说明书中可以根据相应的地址或路径,自动遍历待处理文本集合,通过预设文本规则筛选出待处理文本集合中的待处理文本,简单方便的自动确定出一个项目中有哪些文本需要进行数据替换,便于后续进一步确定出需要替换的目标字段。
本实施例一个可选的实施方式中,将待处理文本集合中符合预设文本规则的文本确定为待处理文本之后,还包括:
根据待处理文本和待处理文本的存储路径,生成替换文本队列。
需要说明的是,在确定出待处理文本之后,可以依次把确定出的各个待处理文本的存储路径放入替换文本队列中,后续依次对替换文本队列进行出队列操作即可依次获取所有的待处理文本的存储地址,一一进行替换,避免漏掉某个待处理文本,从而导致数据替换不完全,保证了数据替换的准确率。
步骤104:获取目标字段对应的替换字段。
具体的,在遍历待处理文本,获取待处理文本中的目标字段以及目标字段的位置信息之后,进一步的,将获取目标字段对应的替换字段。
沿用上例,如图2所示,确定出的目标字段为“Warning Message”、“Confirmation”和获取到目标字段“Warning Message”对应的替换字段为:“警告信息”,目标字段“Confirmation”对应的替换字段为:“确认信息”,目标字段/>对应的替换字段为:
步骤106:根据待处理文本的存储路径、目标字段、目标字段的位置信息和目标字段对应的替换字段,生成替换对照表。
具体的,在获取目标字段对应的替换字段的基础上,进一步的,将根据待处理文本的存储路径、目标字段、目标字段的位置信息和目标字段对应的替换字段,生成替换对照表。
实际应用中,遍历待处理文本,每查找到一个目标字段并获取对应的替换字段之后,就可以将相关信息记录在替换对照表中,便于后续直接基于替换对照表中记录的相关信息直接进行替换。另外,替换对照表中存储目标字段的位置信息时可以将文本行和字符位置同时记录(即某行某个字符),也可以先记录需要进行替换的文本行,然后再单独记录目标字段在该文本行中的字符位置。
示例的,待处理文本1的存储路径为A/B/C/D,目标字段为“Warning Message”、“Confirmation”和目标字段“Warning Message”的位置信息为:第3行,第8至22个字符,目标字段“Confirmation”的位置信息为:第3行,第30至41个字符,目标字段/>的位置信息为:第8行,第13个字符。待处理文本2的存储路径为E/F/G/H,目标字段为“WarningMessage”和“Confirmation”,目标字段“Warning Message”的位置信息为:第3行第8至22个字符,目标字段“Confirmation”的位置信息为:第3行第30至41个字符。基于上述目标字段,获取到“Warning Message”对应的替换字段为“警告信息”、“Confirmation”对应的替换字段为“确认信息”、/>对应的替换字段为/>基于上述目标字段以及其相关信息,生成如图5所示的替换对照表。
需要说明的是,替换对照表中包括的数据信息以树形结构存储,图6是替换对照表的数据结构示意图,如图6所示,数据结构的第一行是待处理文本的存储路径,第二行是目标字段所处行,第三行依次是目标字段开始位置、目标字段结束位置、目标字段、替换字段、第二字符个数。其中,第二字符个数是目标字段的字符个数,用于后续计算相似度,相关内容后续进行描述。
另外,在根据替换对照表,查询待处理文本中的位置信息处的待替换字段时,是按照替换对照表的树形结构读取相关位置信息,具体的,先找到第一行的待处理文本的存储路径,打开该存储路径对应的待处理文本,然后自动跳过不相关的文本行,找到目标字段所处行对应的文本行。找到对应的文本行之后,继续按照以上树形结构的数据读取该行下面的孩子节点,通过读取孩子节点即可获取到该行中需要替换的目标字段的起始位置、结束位置、替换文本及相关信息。
本说明书中可以遍历待处理文本,每查找到其中包括的一个目标字段,就可以基于该目标字段的相关信息生成替换对照表,生成的替换对照表包括待处理文本中全部的目标字段以及目标字段的相关信息,便于后续直接根据替换对照表中的位置信息,找到相应位置,一一自动替换,替换效率高,且避免了漏掉某个目标字段,替换准确率高。
需要说明的是,另一种可能的实现方式中,遍历待处理文本,每查找到一个目标字段,并获取到该目标字段对应的替换字段之后,也可以直接对该目标字段的位置信息处的待替换字段进行替换,也即查找到一个目标字段就替换一个。
示例的,如图2所示,遍历待处理文本,获取到目标字段“Warning Message”,该目标字段的位置信息为:第3行第8至22个字符,其对应的替换字段为“警告信息”,此时直接利用“警告信息”对待处理文本第3行第8至22个字符之间的数据进行替换。替换完成后,继续遍历待处理文本,获取到目标字段“Confirmation”,该目标字段的位置信息为:第3行第30至41个字符,其对应的替换字段为“确认信息”,此时直接利用“确认信息”对待处理文本第3行第30至41个字符之间的数据进行替换。替换完成后,继续遍历待处理文本,获取到目标字段该目标字段的位置信息为:第8行第13个字符,其对应的替换字段为/>此时直接利用/>对待处理文本第3行第13个字符进行替换。
另外,为了方便后续计算待替换字段和目标字段之间的字符相似度,还可以确定目标字段的第二字符个数,并添加至替换对照表中,也即根据待处理文本的存储路径、目标字段、目标字段的位置信息和目标字段对应的替换字段,生成替换对照表,具体实现过程还可以为:
统计目标字段的第二字符个数;
根据待处理文本的存储路径、目标字段、目标字段的位置信息、目标字段的第二字符个数和目标字段对应的替换字段,生成替换对照表。
其中,可以通过替换字符队列的队头和队尾,统计目标字段的第二字符个数,例如,替换字符队列的队头为第3行的第8个字符,队尾为第3行的第22个字符,此时可以确定该替换字符队列对应的目标字段包括的第二字符个数为15个。
本说明书中替换对照表中可以包括有目标字段的第二字符个数,后续在需要计算待替换字段和目标字段的相似度时,可以直接从替换对照表中获取该第二字符个数无需再次统计,操作简单方便。
步骤108:根据替换对照表,查询待处理文本中的该位置信息处的待替换字段,利用替换字段对待替换字段进行替换。
具体的,在根据待处理文本的存储路径、目标字段、目标字段的位置信息和目标字段对应的替换字段,生成替换对照表的基础上,进一步的,将根据替换对照表,查询待处理文本中的该位置信息处的待替换字段,利用替换字段对待替换字段进行替换。
实际实现时,替换对照表中存储有待处理文本包括的各个目标字段,以及目标字段所处的位置信息,可以直接根据该位置信息,找到待处理文本的相应位置处,使用替换对照表中存储的目标字段对应的替换字段对该位置信息处的待替换字段进行替换,实现自动对待处理文本中包括的目标字段一一替换。
本实施例一个可选的实施方式中,在基于替换对照表中的位置信息,对相应位置处的目标字段进行替换之前,还需要打开对应的待处理文本,因而根据替换对照表,查询待处理文本中的位置信息处的待替换字段之前,还包括:
对替换文本队列进行出队列操作,获取待处理文本的存储路径;
打开存储路径对应的待处理文本。
需要说明的是,在从待处理文本集合中确定出待处理文本之后,根据待处理文本的存储路径生成了替换文本队列,也就是说,替换文本队列中存储有各个待处理文本的路径,因而对替换文本队列进行出队列操作,就可以依次获取到各个待处理文本的存储路径,然后就可以自动根据存储路径,打开相应的待处理文本,实现了自动查找并打开待处理文本,从而实现后续自动替换目标字段。
本实施例一个可选的实施方式中,无论根据替换对照表对待替换字段进行替换,还是在待处理文本中查找到一个目标字段就替换一个目标字段,均可以在基于替换字段对目标字段的位置信息处的待替换字段进行替换之前,先判断目标字段的位置信息处的待替换字段和之前获取到的目标字段是否相同,在相同的情况下再进行替换,因而,查询待处理文本中的位置信息处的待替换字段之后,还包括:
对待替换字段和目标字段进行比较;
在待替换字段和目标字段相同的情况下,执行利用替换字段对待替换字段进行替换的操作步骤;
在待替换字段和目标字段不相同的情况下,确定待替换字段和目标字段之间的字符相似度;在字符相似度大于预设阈值的情况下,执行利用替换字段对待替换字段进行替换的操作步骤。
具体的,预设阈值可以预先进行设置,用于判断待替换字段和目标字段之间的相似程度,从而确定能否对待替换字段进行替换。如,预设阈值可以为95。
需要说明的是,可以先对待替换字段和目标字段进行整体比较,确定待替换字段和目标字段是否相同,如果相同,则说明待替换字段和之前获取到的目标字段一样,可以进行替换;如果不相同,则可以进一步将待替换字段和目标字段拆分为单个字符级别,计算待替换字段和目标字段之间的字符相似度,如果该字符相似度大于预设阈值,则说明待替换字段和之前获取到的目标字段较为相似,可以进行替换,如果该字符相似度不大于预设阈值,则说明待替换字段和之前获取到的目标字段相差较大,不能进行替换,此时可以进一步生成替换失败的提示信息,并提示替换失败原因。
本说明书中查询待处理文本中的位置信息处的待替换字段之后,且利用替换字段对待替换字段进行替换之前,还可以对目标字段的位置信息处的待替换字段和目标字段进行对比,在确定待替换字段和之前获取到的目标字段相同或相似的情况下,再进行替换,保证替换的准确率。
本实施例一个可选的实施方式中,确定待替换字段和目标字段之间的字符相似度,具体实现过程可以如下:
确定待替换字段和目标字段之间的字符匹配度;
确定待替换字段的第一字符个数,以及目标字段的第二字符个数;
根据第一字符个数和第二字符个数,确定待替换字段的字符个数校验值;
根据字符匹配度和字符个数校验值,确定待替换字段和目标字段之间的字符相似度。
具体的,可以通过统计待替换字段拆分出的单个字符的个数获得第一字符个数,然后直接从替换对照表中获取目标字段的第二字符个数。
本说明书中可以直接结合字符匹配度和字符个数校验值,共同确定待替换字段和目标字段之间的字符相似度,确定字符相似度的方式简单易行,能够快速确定待替换字段和目标字段是否相似。另外,在确定待替换字段和目标字段是否相似的过程中,无需再次统计目标字段的第二字符个数,直接从替换对照表中获取即可。
其中,确定待替换字段和目标字段之间的字符匹配度,具体实现过程可以如下:
确定待替换字段和目标字段中相同字符的个数;
计算相同字符的个数与第二字符个数之间的比值;
将该比值确定为待替换字段和目标字段之间的字符匹配度。
需要说明的是,待替换字段和目标字段中都可能包括有空格,因而在将待替换字段和目标字段拆分为单个字符级别进行相似度比较时,可以去除待替换字段和目标字段中的空格,再进行比较。另外,计算出相同字符的个数与目标字段的字符个数之间的比值之后,可以直接将该比值确定为待替换字段和目标字段之间的字符匹配度,也可以将该比值转换为百分比形式,然后将该百分比确定为待替换字段和目标字段之间的字符匹配度。
示例的,去除空格后待替换字段X包括8个字符,目标字段Y包括10个字符,待替换字段X和目标字段Y中有6个字符相同,计算得到6与10之间的比值为0.6,也即待替换字段和目标字段之间的字符匹配度为0.75。
另外,根据第一字符个数和第二字符个数,确定待替换字段的字符个数校验值,具体实现过程可以如下:
确定第一字符个数和第二字符个数的字符个数差;
在字符个数差大于第二字符个数的情况下,确定待替换字段的字符个数校验值为预设值;
在字符个数差小于第二字符个数的情况下,计算字符个数差与第二字符个数之间的字符个数比,用总分值减去该字符个数比,得到待替换字段的字符个数校验值。
具体的,预设值可以为预先设置的较低的分值,如预设值可以为数值0。如果字符个数差大于第二字符个数,则代表待替换字段和目标字段之间的字符数差异已经超过目标字段的字符总数了,因而待替换字段和目标字段可能相差较远,完全不相似,此时可以直接将字符个数校验值确定为0。而如果字符个数差不大于第二字符个数,则代表待替换字段和目标字段之间的字符数差异未超过目标字段的字符总数,因而待替换字段和目标字段可能较为相近,可以通过字符个数进一步计算字符个数校验值。
沿用上例,待替换字段X的字符个数为8,目标字段Y的字符个数为10,字符个数差为2,由于2小于10,因而进一步计算2与10之间的比值为0.2,假设总分值为1,则用1减去0.2,得到待替换字段的字符个数校验值为0.8。
再者,根据字符匹配度和字符个数校验值,确定待替换字段和目标字段之间的字符相似度,具体实现过程可以如下:
将字符匹配度乘以第一权重得到加权字符匹配度;
将字符个数校验值乘以第二权重得到加权字符个数校验值;
将加权字符匹配度和加权字符个数校验值相加,得到待替换字段和目标字段之间的字符相似度。
需要说明的是,第一权重代表字符匹配度在字符相似度中所占比重,第二权重代表字符个数校验值在字符相似度中所占比重,均可以预先进行设置。
沿用上例,待替换字段和目标字段之间的字符匹配度为0.75,待替换字段的字符个数校验值为0.8,假设第一权重为0.9,第二权重为0.1,此时待替换字段和目标字段之间的字符相似度为0.75*0.9+0.8*0.1=0.755。
进一步的,在对待替换字段进行替换之后,还可以自动生成一个替换记录表,以记录相关信息,也即查询待处理文本中的位置信息处的待替换字段,利用替换字段对待替换字段进行替换之后,还包括:
根据替换信息,生成替换记录表,替换信息包括替换时间、替换结果、替换成功率、替换失败率、替换失败的数据和替换失败的原因中的至少一项。
需要说明的是,待替换字段替换完成之后,可以自动生成一份替换记录表,用于记录替换的结果,替换记录表中可以包括替换时间、替换结果、替换成功率、替换失败率、替换失败的数据和替换失败的原因中的至少一项,方便操作者直观的掌握数据替换的结果以及替换后的数据可靠性。
本说明书提供的数据处理方法,可以遍历待处理文本,获取待处理文本中的目标字段以及目标字段的位置信息;然后获取目标字段对应的替换字段,并根据待处理文本的存储路径、目标字段、目标字段的位置信息和目标字段对应的替换字段,生成替换对照表;之后,根据替换对照表,查询待处理文本中的该位置信息处的待替换字段,利用替换字段对待替换字段进行替换。这种情况下,在遍历待处理文本查找到包括的目标字段后,可以基于获取到的目标字段的相关信息自定义一个替换对照表,之后直接根据替换对照表中的位置信息,找到待处理文本中的相应位置,一一自动替换待替换字段,可以自动完成待处理文本中所有目标字段的提取与替换工作,数据替换效率高,且避免了漏掉某个待替换字段,替换准确率高,从而有效的节省巨大的人力成本和时间成本,解放生产力,并有效的避免人工提取和替换时的误操作,提高数据替换的准确率。
下述结合附图7,以本说明书提供的数据处理方法在游戏文案替换场景的应用为例,对所述数据处理方法进行进一步说明。其中,图7示出了本说明书一实施例提供的一种应用于游戏文案替换场景的数据处理方法的处理流程图,具体包括以下步骤:
步骤702:根据目标游戏项目的路径,遍历目标游戏项目的文件夹,获取待替换代码文本,并根据待替换代码文本以及待替换代码文本的存储路径生成替换文本队列。
具体的,目标游戏项目是指需要进行文案替换的游戏项目,目标游戏项目的文件夹中包括该目标游戏运行所需的全部文件,如各种文本文件以及代码文件等。本说明书中会预先设置好目标游戏项目的路径,然后就可以通过该路径遍历目标游戏项目的文件夹,查找出需要替换文案的待替换代码文本。
接下来,根据获得的替换文本队列,针对各个待替换代码文本,均执行下述步骤704-步骤708的操作步骤,以确定出需要进行替换的目标文案。
步骤704:根据待替换文案的语言类型,确定对应的第一正则表达式;通过第二正则表达式对待替换代码文本中的字符进行逐行筛选,在目标行未匹配到符合第二正则表达式的预设字符的情况下,通过第一正则表达式,对目标行的字符进行逐一筛选。
其中,第一正则表达式是针对待替换代码文本中待替换文案的语言类型预先设置的筛选规则;第二正则表达式是根据代码中注释行会包括注释符号“//”生成的正则表达式,用于筛选待替换代码文本中的注释行。
步骤706:将待替换代码文本中与第一正则表达式匹配的文字确定为目标文字,将目标文字和目标文字在待替换代码文本中所处的位置插入替换文字队列中,其中,对于包含至少两个目标文字的替换文字队列,该至少两个目标文字在待替换代码文本中是连续的。
需要说明的是,一行代码中可能会存在多个目标文案,所以可以分片段的筛选出该行代码中的目标文案,实际上可以采用对应的第一正则表达式从待替换代码文本中该行包括的首个字符开始依次筛选,在匹配到符合第一正则表达式的目标文字时可以把该目标文字和该目标文字的位置信息插入一个替换文字队列中,直至该连续性被打破,然后另起一个新的替换文字队列继续按照该方式往下查找至行尾,筛选完毕后,可以获得每一行代码中包括的各个目标文案。
步骤708:对替换文字队列进行出队列和拼接操作,获得目标文案,根据替换文字队列的队头和队尾,确定目标文案的位置信息。
步骤710:获取目标文案对应的翻译文案。
步骤712:根据待替换代码文本的存储路径、目标文案、目标文案的位置信息和目标文案对应的翻译文案,生成替换对照表。
步骤714:对替换文本队列进行出队列操作,获取待替换代码文本的存储路径,打开该存储路径对应的待替换代码文本。
步骤716:根据替换对照表,查询该待替换代码文本中的位置信息处的待替换文案,对待替换文案和目标文案进行比较。
步骤718:在待替换文案和目标文案相同的情况下,利用翻译文案对待替换文案进行替换。
步骤720:在待替换文案和目标文案不相同的情况下,确定待替换文案和目标文案之间的字符相似度。
步骤722:在字符相似度大于预设阈值的情况下,利用翻译文案对待替换文案进行替换;在字符相似度不大于预设阈值的情况下,返回替换失败提醒消息。
步骤724:根据替换信息,生成替换记录表,替换信息包括替换时间、替换结果、替换成功率、替换失败率、替换失败的文案和替换失败的原因中的至少一项。
需要说明的是,上述步骤702-步骤724的实现过程均可以通过Python脚本实现。
本说明书提供的数据处理方法,通过遍历待替换代码文本,自动获取到待替换代码文本中需要进行替换的目标文案,然后自动获取该目标文案对应的翻译文案,并根据待替换代码文本的存储路径、目标文案、目标文案的位置信息和目标文案对应的翻译文案,生成替换对照表;之后,根据替换对照表,查询待替换代码文本中的该位置信息处的待翻译文案,利用翻译文案对待翻译文案进行文案替换。如此,在遍历待替换代码文本查找到包括的目标文案后,可以基于获取到的目标文案的相关信息自定义一个替换对照表,之后直接根据替换对照表中的位置信息,找到待替换代码文本中的相应位置,一一自动替换待翻译文案,可以自动完成待替换代码文本中所有目标文案的提取与翻译工作,文案替换效率高,且避免了漏掉某个待翻译文案,替换准确率高,从而有效的节省巨大的人力成本和时间成本,解放生产力,并有效的避免人工提取和替换时的误操作,提高文案替换的准确率。
上述为本实施例的一种数据处理方法在游戏文案替换场景中的应用的示意性方案。需要说明的是,该数据处理方法的技术方案与上述的图1所示的数据处理方法的技术方案属于同一构思,图7所示的数据处理方法的技术方案未详细描述的细节内容,均可以参见上述图1所示的数据处理方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了数据处理装置实施例,图8示出了本说明书一实施例提供的一种数据处理装置的结构示意图。如图8所示,该装置包括:
第一遍历模块802,被配置为遍历待处理文本,获取所述待处理文本中的目标字段以及所述目标字段的位置信息;
第一获取模块804,被配置为获取所述目标字段对应的替换字段;
生成模块806,被配置为根据所述待处理文本的存储路径、所述目标字段、所述目标字段的位置信息和所述目标字段对应的替换字段,生成替换对照表;
替换模块808,被配置为根据所述替换对照表,查询所述待处理文本中的所述位置信息处的待替换字段,利用所述替换字段对所述待替换字段进行替换。
可选的,所述装置还包括:
第二获取模块,被配置为获取待处理文本集合;
第二遍历模块,被配置为遍历所述待处理文本集合,将所述待处理文本集合中符合预设文本规则的文本确定为所述待处理文本。
可选的,所述装置还包括:
第一生成模块,被配置为根据所述待处理文本和所述待处理文本的存储路径,生成替换文本队列。
可选的,第一遍历模块802进一步被配置为:
通过第一筛选规则,对所述待处理文本中的字符进行逐一筛选;
将所述待处理文本中与所述第一筛选规则匹配的字符确定为目标字符,将所述目标字符和所述目标字符在所述待处理文本中所处的位置插入替换字符队列中,其中,对于包含至少两个所述目标字符的替换字符队列,所述至少两个目标字符在所述待处理文本中是连续的;
对所述替换字符队列进行出队列和拼接操作,获得所述目标字段;
根据所述替换字符队列的队头和队尾,确定所述目标字段的位置信息。
可选的,第一遍历模块802进一步被配置为:
将所述替换字符队列中位于队头的目标字符在所述待处理文本中所处的位置确定为所述目标字段的起始位置;
将所述替换字符队列中位于队尾的目标字符在所述待处理文本中所处的位置确定为所述目标字段的结束位置。
可选的,第一遍历模块802进一步被配置为:
通过第二筛选规则,对所述待处理文本中的字符进行逐行筛选;
若在目标行匹配到符合所述第二筛选规则的预设字符,则跳过所述目标行,继续通过所述第二筛选规则,对所述目标行的下一行进行筛选;
若在目标行未匹配到符合所述第二筛选规则的预设字符,则通过所述第一筛选规则,对所述目标行的字符进行逐一筛选。
可选的,所述装置还包括:
第三获取模块,被配置为对所述替换文本队列进行出队列操作,获取所述待处理文本的存储路径;
打开模块,被配置为打开所述存储路径对应的待处理文本。
可选的,替换模块808进一步被配置为:
对所述待替换字段和所述目标字段进行比较;
在所述待替换字段和所述目标字段相同的情况下,执行所述利用所述替换字段对所述待替换字段进行替换的操作步骤;
在所述待替换字段和所述目标字段不相同的情况下,确定所述待替换字段和所述目标字段之间的字符相似度;在所述字符相似度大于预设阈值的情况下,执行所述利用所述替换字段对所述待替换字段进行替换的操作步骤。
可选的,替换模块808进一步被配置为:
确定所述待替换字段和所述目标字段之间的字符匹配度;
确定所述待替换字段的第一字符个数,以及所述目标字段的第二字符个数;
根据所述第一字符个数和所述第二字符个数,确定所述待替换字段的字符个数校验值;
根据所述字符匹配度和所述字符个数校验值,确定所述待替换字段和所述目标字段之间的字符相似度。
可选的,替换模块808进一步被配置为:
确定所述待替换字段和所述目标字段中相同字符的个数;
计算所述相同字符的个数与所述第二字符个数之间的比值;
将所述比值确定为所述待替换字段和所述目标字段之间的字符匹配度。
可选的,替换模块808进一步被配置为:
确定所述第一字符个数和所述第二字符个数的字符个数差;
在所述字符个数差大于所述第二字符个数的情况下,确定所述待替换字段的字符个数校验值为预设值;
在所述字符个数差小于所述第二字符个数的情况下,计算所述字符个数差与所述第二字符个数之间的字符个数比,用总分值减去所述字符个数比,得到所述待替换字段的字符个数校验值。
可选的,替换模块808进一步被配置为:
将所述字符匹配度乘以第一权重得到加权字符匹配度;
将所述字符个数校验值乘以第二权重得到加权字符个数校验值;
将所述加权字符匹配度和所述加权字符个数校验值相加,得到所述待替换字段和所述目标字段之间的字符相似度。
可选的,替换模块808进一步被配置为:
统计所述目标字段的第二字符个数;
根据所述待处理文本的存储路径、所述目标字段、所述目标字段的位置信息、所述目标字段的第二字符个数和所述目标字段对应的替换字段,生成替换对照表;
从所述替换对照表中获取所述目标字段的第二字符个数。
可选的,所述装置还包括:
第二生成模块,被配置为根据替换信息,生成替换记录表,所述替换信息包括替换时间、替换结果、替换成功率、替换失败率、替换失败的数据和替换失败的原因中的至少一项。
本说明书提供的数据处理装置,可以遍历待处理文本,获取待处理文本中的目标字段以及目标字段的位置信息;然后获取目标字段对应的替换字段,并根据待处理文本的存储路径、目标字段、目标字段的位置信息和目标字段对应的替换字段,生成替换对照表;之后,根据替换对照表,查询待处理文本中的该位置信息处的待替换字段,利用替换字段对待替换字段进行替换。这种情况下,在遍历待处理文本查找到包括的目标字段后,可以基于获取到的目标字段的相关信息自定义一个替换对照表,之后直接根据替换对照表中的位置信息,找到待处理文本中的相应位置,一一自动替换待替换字段,可以自动完成待处理文本中所有目标字段的提取与替换工作,数据替换效率高,且避免了漏掉某个待替换字段,替换准确率高,从而有效的节省巨大的人力成本和时间成本,提高数据替换的效率,解放生产力,并有效的避免人工提取和替换时的误操作,提高数据替换的准确率。
上述为本实施例的一种数据处理装置的示意性方案。需要说明的是,该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思,数据处理装置的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
图9示出了根据本说明书一实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
其中,处理器920用于执行如下计算机可执行指令,以实现下述方法:
遍历待处理文本,获取所述待处理文本中的目标字段以及所述目标字段的位置信息;
获取所述目标字段对应的替换字段;
根据所述待处理文本的存储路径、所述目标字段、所述目标字段的位置信息和所述目标字段对应的替换字段,生成替换对照表;
根据所述替换对照表,查询所述待处理文本中的所述位置信息处的待替换字段,利用所述替换字段对所述待替换字段进行替换。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于实现上述数据处理方法的操作步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (12)

1.一种数据处理方法,其特征在于,包括:
通过第一筛选规则,对待处理文本中的字符进行逐一筛选;将所述待处理文本中与所述第一筛选规则匹配的字符确定为目标字符,将所述目标字符和所述目标字符在所述待处理文本中所处的位置插入替换字符队列中,其中,对于包含至少两个所述目标字符的替换字符队列,所述至少两个目标字符在所述待处理文本中是连续的;
对所述替换字符队列进行出队列和拼接操作,获得目标字段;根据所述替换字符队列的队头和队尾,确定所述目标字段的位置信息;
获取所述目标字段对应的替换字段;
根据所述待处理文本的存储路径、所述目标字段、所述目标字段的位置信息和所述目标字段对应的替换字段,生成替换对照表;
根据所述替换对照表,查询所述待处理文本中的所述位置信息处的待替换字段,利用所述替换字段对所述待替换字段进行替换。
2.根据权利要求1所述的数据处理方法,其特征在于,所述通过第一筛选规则,对待处理文本中的字符进行逐一筛选之前,还包括:
获取待处理文本集合;
遍历所述待处理文本集合,将所述待处理文本集合中符合预设文本规则的文本确定为所述待处理文本。
3.根据权利要求2所述的数据处理方法,其特征在于,所述将所述待处理文本集合中符合预设文本规则的文本确定为所述待处理文本之后,还包括:
根据所述待处理文本和所述待处理文本的存储路径,生成替换文本队列。
4.根据权利要求1所述的数据处理方法,其特征在于,所述通过第一筛选规则,对所述待处理文本中的字符进行逐一筛选之前,还包括:
通过第二筛选规则,对所述待处理文本中的字符进行逐行筛选;
若在目标行匹配到符合所述第二筛选规则的预设字符,则跳过所述目标行,继续通过所述第二筛选规则,对所述目标行的下一行进行筛选;
若在目标行未匹配到符合所述第二筛选规则的预设字符,则通过所述第一筛选规则,对所述目标行的字符进行逐一筛选。
5.根据权利要求3所述的数据处理方法,其特征在于,所述根据所述替换对照表,查询所述待处理文本中的所述位置信息处的待替换字段之前,还包括:
对所述替换文本队列进行出队列操作,获取所述待处理文本的存储路径;
打开所述存储路径对应的待处理文本。
6.根据权利要求1-3任一所述的数据处理方法,其特征在于,所述查询所述待处理文本中的所述位置信息处的待替换字段之后,还包括:
对所述待替换字段和所述目标字段进行比较;
在所述待替换字段和所述目标字段相同的情况下,执行所述利用所述替换字段对所述待替换字段进行替换的操作步骤;
在所述待替换字段和所述目标字段不相同的情况下,确定所述待替换字段和所述目标字段之间的字符相似度;在所述字符相似度大于预设阈值的情况下,执行所述利用所述替换字段对所述待替换字段进行替换的操作步骤。
7.根据权利要求6所述的数据处理方法,其特征在于,所述确定所述待替换字段和所述目标字段之间的字符相似度,包括:
确定所述待替换字段和所述目标字段之间的字符匹配度;
确定所述待替换字段的第一字符个数,以及所述目标字段的第二字符个数;
根据所述第一字符个数和所述第二字符个数,确定所述待替换字段的字符个数校验值;
根据所述字符匹配度和所述字符个数校验值,确定所述待替换字段和所述目标字段之间的字符相似度。
8.根据权利要求7所述的数据处理方法,其特征在于,所述根据所述字符匹配度和所述字符个数校验值,确定所述待替换字段和所述目标字段之间的字符相似度,包括:
将所述字符匹配度乘以第一权重得到加权字符匹配度;
将所述字符个数校验值乘以第二权重得到加权字符个数校验值;
将所述加权字符匹配度和所述加权字符个数校验值相加,得到所述待替换字段和所述目标字段之间的字符相似度。
9.根据权利要求7所述的数据处理方法,其特征在于,所述根据所述待处理文本的存储路径、所述目标字段、所述目标字段的位置信息和所述目标字段对应的替换字段,生成替换对照表,包括:
统计所述目标字段的第二字符个数;
根据所述待处理文本的存储路径、所述目标字段、所述目标字段的位置信息、所述目标字段的第二字符个数和所述目标字段对应的替换字段,生成替换对照表;
相应的,所述确定所述目标字段的第二字符个数,包括:
从所述替换对照表中获取所述目标字段的第二字符个数。
10.一种数据处理装置,其特征在于,包括:
第一遍历模块,被配置为通过第一筛选规则,对待处理文本中的字符进行逐一筛选;将所述待处理文本中与所述第一筛选规则匹配的字符确定为目标字符,将所述目标字符和所述目标字符在所述待处理文本中所处的位置插入替换字符队列中,其中,对于包含至少两个所述目标字符的替换字符队列,所述至少两个目标字符在所述待处理文本中是连续的;对所述替换字符队列进行出队列和拼接操作,获得目标字段;根据所述替换字符队列的队头和队尾,确定所述目标字段的位置信息;
第一获取模块,被配置为获取所述目标字段对应的替换字段;
生成模块,被配置为根据所述待处理文本的存储路径、所述目标字段、所述目标字段的位置信息和所述目标字段对应的替换字段,生成替换对照表;
替换模块,被配置为根据所述替换对照表,查询所述待处理文本中的所述位置信息处的待替换字段,利用所述替换字段对所述待替换字段进行替换。
11.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
通过第一筛选规则,对待处理文本中的字符进行逐一筛选;将所述待处理文本中与所述第一筛选规则匹配的字符确定为目标字符,将所述目标字符和所述目标字符在所述待处理文本中所处的位置插入替换字符队列中,其中,对于包含至少两个所述目标字符的替换字符队列,所述至少两个目标字符在所述待处理文本中是连续的;
对所述替换字符队列进行出队列和拼接操作,获得目标字段;根据所述替换字符队列的队头和队尾,确定所述目标字段的位置信息;
获取所述目标字段对应的替换字段;
根据所述待处理文本的存储路径、所述目标字段、所述目标字段的位置信息和所述目标字段对应的替换字段,生成替换对照表;
根据所述替换对照表,查询所述待处理文本中的所述位置信息处的待替换字段,利用所述替换字段对所述待替换字段进行替换。
12.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至9任意一项所述数据处理方法的步骤。
CN202011286143.5A 2020-11-17 2020-11-17 数据处理方法及装置 Active CN112347142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011286143.5A CN112347142B (zh) 2020-11-17 2020-11-17 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011286143.5A CN112347142B (zh) 2020-11-17 2020-11-17 数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN112347142A CN112347142A (zh) 2021-02-09
CN112347142B true CN112347142B (zh) 2024-03-01

Family

ID=74362977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011286143.5A Active CN112347142B (zh) 2020-11-17 2020-11-17 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN112347142B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949254A (zh) * 2021-02-25 2021-06-11 郎丽华 专利申请文件附图标记处理系统及其处理方法
CN112883703B (zh) * 2021-03-19 2023-10-20 腾讯科技(深圳)有限公司 一种识别关联文本的方法、装置、电子设备及存储介质
CN113065326A (zh) * 2021-03-31 2021-07-02 北京达佳互联信息技术有限公司 一种文本比对方法、装置、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877164A (ja) * 1994-09-02 1996-03-22 Pfu Ltd 文書処理装置
WO2000060899A1 (en) * 1999-04-03 2000-10-12 Top Layer Networks, Inc. Switching systems and process for automatic detection of and quality of service for multimedia applications
CN101276272A (zh) * 2007-03-28 2008-10-01 凌阳科技股份有限公司 支持多语用户界面的系统及其方法
CN101719124A (zh) * 2008-10-09 2010-06-02 李晶心 基于正则匹配的无限层次多路径采集系统
CN104899010A (zh) * 2014-03-04 2015-09-09 北京金山云网络技术有限公司 源代码的多语言化方法及系统
CN107577669A (zh) * 2017-09-15 2018-01-12 南京大学 一种计算机中自动生成英文论文标题缩写词的方法
CN109032616A (zh) * 2018-06-08 2018-12-18 重庆洋逸乐科技有限公司 一种字库烧写方法、电子设备和存储介质
CN109032664A (zh) * 2018-07-04 2018-12-18 中国人民解放军国防科技大学 实时追踪微体系结构级队列队满状态的方法及系统
CN109656384A (zh) * 2018-12-24 2019-04-19 北京字节跳动网络技术有限公司 字符串输入方法和装置
CN109657209A (zh) * 2018-10-16 2019-04-19 深圳壹账通智能科技有限公司 文本内容的替换方法、装置、设备及计算机存储介质
WO2019148720A1 (zh) * 2018-02-01 2019-08-08 平安科技(深圳)有限公司 电子装置、数据存储方法及存储介质
CN110263130A (zh) * 2019-06-27 2019-09-20 深圳前海微众银行股份有限公司 页面信息处理方法、装置及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877164A (ja) * 1994-09-02 1996-03-22 Pfu Ltd 文書処理装置
WO2000060899A1 (en) * 1999-04-03 2000-10-12 Top Layer Networks, Inc. Switching systems and process for automatic detection of and quality of service for multimedia applications
CN101276272A (zh) * 2007-03-28 2008-10-01 凌阳科技股份有限公司 支持多语用户界面的系统及其方法
CN101719124A (zh) * 2008-10-09 2010-06-02 李晶心 基于正则匹配的无限层次多路径采集系统
CN104899010A (zh) * 2014-03-04 2015-09-09 北京金山云网络技术有限公司 源代码的多语言化方法及系统
CN107577669A (zh) * 2017-09-15 2018-01-12 南京大学 一种计算机中自动生成英文论文标题缩写词的方法
WO2019148720A1 (zh) * 2018-02-01 2019-08-08 平安科技(深圳)有限公司 电子装置、数据存储方法及存储介质
CN109032616A (zh) * 2018-06-08 2018-12-18 重庆洋逸乐科技有限公司 一种字库烧写方法、电子设备和存储介质
CN109032664A (zh) * 2018-07-04 2018-12-18 中国人民解放军国防科技大学 实时追踪微体系结构级队列队满状态的方法及系统
CN109657209A (zh) * 2018-10-16 2019-04-19 深圳壹账通智能科技有限公司 文本内容的替换方法、装置、设备及计算机存储介质
CN109656384A (zh) * 2018-12-24 2019-04-19 北京字节跳动网络技术有限公司 字符串输入方法和装置
CN110263130A (zh) * 2019-06-27 2019-09-20 深圳前海微众银行股份有限公司 页面信息处理方法、装置及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Regular expression matching with multi-strings and intervals;Bille P 等;Proceedings of the Twenty-First Annual ACM-SIAM Symposium on Discrete Algorithms. Society for Industrial and Applied Mathematics;1297-1308 *
为Word增加自动替换字体功能;龚建华;;办公自动化(10);47-48 *
利用正则表达式进行查找/替换;翟自洋;林昌东;;中国科技期刊研究(01);126-130 *
基于代理服务器的分布式拒绝服务攻击系统设计与实现;王硕;赵荣彩;颜峻;单征;;信息工程大学学报(03);113-117 *
编码与同义词替换结合的可逆文本水印算法;林新建 等;中文信息学报;第29卷(第4期);151-158+198 *

Also Published As

Publication number Publication date
CN112347142A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112347142B (zh) 数据处理方法及装置
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN107729526B (zh) 一种文本结构化的方法
CN108304378A (zh) 文本相似度计算方法、装置、计算机设备和存储介质
CN108388635B (zh) 数据搜索方法、装置、介质和计算设备
CN107193843B (zh) 一种基于ac自动机和后缀表达式的字符串筛选方法及装置
CN107885501B (zh) 获取Android中组件相互引用关系的方法及装置
CN110046637B (zh) 一种合同段落标注模型的训练方法、装置及设备
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN107145538B (zh) 表格数据查询方法、装置与系统
CN110716739A (zh) 一种代码变更信息统计方法、系统和可读存储介质
CN111611788B (zh) 一种数据处理的方法及装置、电子设备、存储介质
CN115796146A (zh) 一种文件对比方法及装置
CN115577147A (zh) 可视化情报图谱检索方法、装置、电子设备及存储介质
CN112732743B (zh) 一种基于中文自然语言的数据分析方法及装置
US20180101580A1 (en) Non-transitory computer-readable recording medium, encoded data searching method, and encoded data searching apparatus
CN111460141B (zh) 一种文本处理方法、装置及电子设备
CN111401005B (zh) 文本转换方法、装置及可读存储介质
CN112417819A (zh) 一种Word文档信息提取方法、装置、电子设备及介质
CN113688615A (zh) 一种字段注释生成、字符串理解方法、设备及存储介质
CN109933799A (zh) 语句拼接方法以及装置
CN110955687B (zh) 数据修改方法及装置
CN109710844A (zh) 基于搜索引擎的快速准确定位文件的方法和设备
CN113505570B (zh) 参考文献参见落空的审校方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant