CN114077826A

CN114077826A - 一种数据处理的方法、装置及计算机可读介质

Info

Publication number: CN114077826A
Application number: CN202111254739.1A
Authority: CN
Inventors: 张冠南; 白路远
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-02-22

Abstract

本发明实施例公开一种数据处理方法、装置及计算机可读介质，该方法首先获取目标区域文本对应的文本模式；所述目标区域包括至少两个子区域，每个所述子区域具有对应的文本；并基于所述文本模式确定目标区域的基准文本模式；之后确定任一子区域的文本是否符合所述基准文本模式；若不符合，则确定该子区域的文本为非标准文本。由此，通过确定目标区域的基准文本模式，并利用基准文本模式判断子区域的文本是否为非标准文本，从而能够对目标区域的文本内容进行自动检测，进而提高目标区域文本检测的效率和准确率；解决了现有技术中由于采用手工编程对文档中数据内容进行核查所导致的耗时耗力的问题。

Description

一种数据处理的方法、装置及计算机可读介质

技术领域

本发明涉及文档编辑技术领域，尤其涉及一种数据处理的方法、装置及计算机可读介质。

背景技术

在数据表格领域，传统的电子表格工具(例如Excel、WPS office等)能够针对目标列或目标行自动生成筛选器；然而该筛选器的筛选结果仅仅是对目标列或目标行中相同字符串进行简单归类和排序。在实际应用中，通常会面临更复杂的场景，例如当目标列中某一单元格的内容填写错误时，就无法通过上述的筛选器自动识别和定位，需要进行人工排错。

为了确定目标列或目标行中每个单元格的内容是否正确，目前行业内普遍的做法是对某一列或某一行进行编程确定判断规则，之后基于判断规则进行判断；但是该方法存在如下缺点：对使用者的专业技能要求极高，需要学会编程；而且当电子表格数据巨大时，例如有成百上千列的数据，若通过手工编程规则就会产生巨大的工作量，从而影响文档编辑效率。为此，急需要提供一种数据处理方法，以对数据表格中的数据内容进行自动检查，提高文档编辑效率。

发明内容

为了解决上述现有技术存在的问题，本发明实施例提供一种数据处理的方法、装置及计算机可读介质，能够对文档中目标区域的文本内容进行自动检测，提高了文档编辑的效率，解决了现有技术中由于采用手工编程对文档中数据内容进行核查所导致的耗时耗力的问题。

为实现上述目的，根据本发明实施例第一方面，提供一种数据处理方法，所述方法包括：获取目标区域中文本对应的文本模式；所述目标区域包括至少两个子区域，所述子区域具有对应的文本；基于所述文本模式确定目标区域的基准文本模式；确定任一子区域的文本是否符合所述基准文本模式；若不符合，则确定该子区域的文本为非标准文本。

可选的，所述基于所述文本模式确定目标区域的基准文本模式，包括：将若干所述文本模式进行分类聚合，得到不同种类的文本模式；确定每个种类的文本模式对应的权重；将权重最大的文本模式确定为目标区域的基准文本模式。

可选的，所述获取目标区域中文本对应的文本模式，包括：基于子区域的文本，生成正则表达式；遍历目标区域中所有子区域的文本，生成多个正则表达式。

可选的，该方法还包括：确定所述非标准文本为可校正文本；基于所述基准文本模式对所述可校正文本进行校正，得到校正文本。

可选的，所述确定所述非标准文本为可校正文本，包括：确定非标准文本对应的文本模式与所述基准文本模式的相似度；判断所述相似度是否满足预设条件；若判断结果表征所述相似度满足预设条件，则确定所述非标准文本为可校正文本。

可选的，所述确定所述非标准文本为可校正文本，还包括：若判断结果表征所述相似度不满足预设条件，则确定所述非标准文本不是可校正文本，并对所述非标准文本进行手动校正。

可选的，所述基于所述基准文本模式对所述可校正文本进行校正，得到校正文本，包括：判断所述可校正文本是否包含预设字符；若判断结果表征所述可校正文本包含预设字符，则基于所述基准文本模式，从所述可校正文本中移除所述预设字符，得到校正文本。

为实现上述目的，根据本发明实施例第二方面，还提供一种数据处理装置，包括：获取模块，用于获取目标区域文本对应的文本模式；所述目标区域包括至少两个子区域，每个所述子区域具有对应的文本；第一确定模块，用于基于所述文本模式确定目标区域的基准文本模式；第二确定模块，用于确定任一子区域的文本是否符合所述基准文本模式；若不符合，则确定该子区域的文本为非标准文本。

可选的，所述第一确定模块包括：聚合单元，用于将若干所述文本模式进行分类聚合，得到不同种类的文本模式；第一确定单元，用于确定每个种类的文本模式对应的权重；第二确定单元，用于将权重最大的文本模式确定为目标区域的基准文本模式。

为实现上述目的，根据本发明实施例第三方面，还提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面所述的数据处理方法。

与现有技术相比，本发明实施例提供的一种数据处理方法、装置及计算机可读介质，该方法首先获取目标区域中文本对应的文本模式，目标区域包括至少两个子区域，每个子区域具有对应的文本；其次基于文本模式确定目标区域的基准文本模式；之后确定任一子区域的文本是否符合基准文本模式；若不符合，则确定该子区域的文本为非标准文本。由此，通过确定目标区域的基准文本模式，并利用基准文本模式判断子区域的文本是否为非标准文本，从而能够对目标区域的文本内容进行自动检测，进而提高目标区域文本检测的效率和准确率；解决了现有技术中由于采用手工编程对文档中数据内容进行核查所导致的耗时耗力的问题。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明一实施例数据处理方法的示意性流程图；

图2为本发明另一实施例数据处理方法的示意性流程图；

图3为本发明又一实施例数据处理方法的示意性流程图；

图4为本发明一实施例中确定非标准文本为可校正文本的示意性流程图；

图5为本发明实施例数据表格及数据表格处理过程示意图；

图6本发明一实施例数据处理装置的示意性框图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本发明一实施例数据处理方法的示意性流程图。一种数据处理方法，该方法至少包括如下操作流程：S101，获取目标区域文本对应的文本模式；目标区域包括至少两个子区域，每个子区域具有对应的文本；S102，基于文本模式确定目标区域的基准文本模式；S103，确定任一子区域的文本是否符合基准文本模式；若不符合，则确定该子区域的文本为非标准文本。

在S101中，每个子区域具有对应的文本，每个文本具有对应的文本模式。

在这里，对于文本模式的具体形式以及获取方式不作任何限定。文本模式可以是正则表达式，还可以是其他形式的表达式。例如，当文本模式是正则表达式时，可以利用改造的遗传算法计算每个子区域文本对应的正则表达式。

在S102中，基于所有子区域文本对应的文本模式，确定目标区域的基准文本模式。在这里，基准文本模式用于指示目标区域中所有子区域的统一文本模式。可以是从若干文本模式中选取符合预设条件的文本模式作为基准文本模式，也可以是先对若干文本模式进行聚合处理，之后将聚合后的文本模式按照权重进行排序，最后将排序结果中位于第一位的文本模式确定为基准文本模式。

在S103中，将基准文本模式作为判断规则；针对任一子区域的文本：通过判断文本是否与判断规则相匹配来确定子区域的文本是否符合基准文本模式；若文本与判断规则相匹配，则确定该子区域的文本符合基准文本模式，进一步确定该子区域的文本为标准文本；若文本与判断规则不匹配，则确定该子区域的文本不符合基准文本模式，进一步确定该子区域的文本为非标准文本。

本实施例基于目标区域中所有文本对应的文本模式，确定目标区域的基准文本模式；之后针对任一子区域：利用基准文本模式对子区域的文本进行匹配，若匹配不通过，则确定该子区域的文本为非标准文本。由此，能够对目标区域的文本内容进行自动化检测，避免了手工编程判断规则导致的耗时耗力的问题，提高了目标区域检测的效率和准确率。

应理解，在本发明的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在的逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

如图2所示，本发明另一实施例数据处理方法的示意性流程图。本实施例是在前述实施例的基础上进一步优化得到的。一种数据处理方法，该方法至少包括如下操作流程：S201，获取目标区域文本对应的文本模式；目标区域包括至少两个子区域，每个子区域具有对应的文本；S202，将若干文本模式进行分类聚合，得到不同种类的文本模式；S203，确定每个种类的文本模式对应的权重；S204，将权重最大的文本模式确定为目标区域的基准文本模式；S205，确定任一子区域的文本是否符合基准文本模式；若不符合，则确定该子区域的文本为非标准文本。

其中，S201和S205的具体实现过程与图1所示实施例中S101以及S103的具体实现过程相类似，这里不再赘述。

在S202至S205中，统计文本模式的种类以及每种文本模式所对应子区域的数量；针对任意一种文本模式：基于该文本模式所对应子区域的数量和目标区域所有子区域的数量，确定该文本模式对应的权重；将文本模式按照权重从大到小排序，将排序结果中位于第一位的文本模式确定为目标区域的基准文本模式。

本实施例通过聚合分类的方式将目标区域的文本模式划分成不同种类的文本模式，并计算每种文本模式对应的权重，之后将权重最大的文本模式确定为目标区域的基准文本模式；由此自动确定目标区域的基准文本，从而有利于子区域文本内容的检测，进而对目标区域文本内容检测实现了智能化，提高了目标区域文本内容检测的准确率和效率。

如图3所示，本发明又一实施例数据处理方法的示意性流程图。本实施例是在前述实施例的基础上进一步优化得到的。一种数据处理方法，该方法至少包括如下操作流程：S301，获取目标区域文本对应的文本模式；目标区域包括至少两个子区域，每个子区域具有对应的文本；S302，将若干文本模式进行分类聚合，得到不同种类的文本模式；S303，确定每个种类的文本模式对应的权重；S304，将权重最大的文本模式确定为目标区域的基准文本模式；基于文本模式确定目标区域的基准文本模式；S305，确定任一子区域的文本是否符合基准文本模式；若不符合，则确定该子区域的文本为非标准文本；S306，确定非标准文本为可校正文本；S307，基于基准文本模式对可校正文本进行校正，得到校正文本。

其中，S301、S302、S303、S304和S305的具体实现过程与S201、S202、S203、S204和S205的具体实现过程相类似，这里不再赘述。

在S306和S307中，通过计算非标准文本对应的文本模式与基准文本模式的相似度来判断非标准文本是否为可校正文本。或者通过判断非标准文本的长度是否符合预设长度来判断非标准文本是否为可校正文本。例如：获取非标准文本的文本长度；判断文本长度是否大于预设阈值；若是，则确定非标准文本为可校正文本；若否，则确定非标准文本不是可校正文本，并对非标准文本进行手动校正。在这里，预设阈值用于指示标准文本的长度。

判断可校正文本是否包含预设字符；若判断结果表征可校正文本包含预设字符，则基于基准文本模式，从可校正文本中移除预设字符，得到校正文本；若判断结果表征可校正文本不包含预设字符，则基于基准文本模式，对可校正文本逐字进行内容校正，得到校正文本。例如，目标区域的文本内容是关于电话号码；电话号码中的空格就属于预设字符；判断可校正文本对应的文本模式中是否包含空格对应的字符符号，若存在，则根据基准文本模式，从可校正文本中移除空格，得到校正文本。

本实施例通过非标准文本的长度是否满足预设长度来判断非标准文本为可校正文本；之后基于标准文本模式对可校正文本进行校正，由此，能够基于基准文本模式判断非标准文本是否为可校正文本，并对可校正文本进行有效校正，从而实现了对可校正文本进行自动校正，提高文本校正的准确率。

如图4所示，本发明一实施例中确定非标准文本为可校正文本的示意性流程图。本实施例是在前述实施例的基础上进一步优化得到的。确定非标准文本为可校正文本，该方法至少包括如下操作流程：S401，确定非标准文本对应的文本模式与基准文本模式的相似度；S402，判断相似度是否满足预设条件；

S403，若判断结果表征相似度满足预设条件，则确定非标准文本为可校正文本；

S404，若判断结果表征相似度不满足预设条件，则确定非标准文本不是可校正文本，并对非标准文本进行手动校正。

对非标准文本进行手动校正，例如，基于标准文本模式对非标准文本进行手动校正。

由此，本实施例能够基于非标准文本对应的文本模式与基准文本模式的相识度，确定非标准文本为可校正文本，从而提高了可校正文本判断的准确率。

下面结合应用场景对上述实施例进行详细说明。

数据表格中目标区域C列主要呈现Emall；然而根据C列内容可知，部分单元格误填成姓名、日期或者项目名。采用现有工具对数据表格中C列内容进行自动识别，生成过滤选项，过滤选项仅是对C列中所有单元格的内容进行归类，而未能确定错误的单元格，并对错误单元格进行定位。

如图5所示，本发明实施例数据表格及数据表格处理过程示意图。针对数据表格中C列的所有单元格，获取每个单元格中文本对应的文本模式，生成若干正则表达式，如图5a所示。统计正则表达式的种类以及每种正则表达式所对应单元格的数量；计算每种正则表达式的权重，并将正则表达式按照权重从大到小排序，将排序结果中位于第一位的正则表达式确定为C列的基准文本模式，之后针对任一单元格：将基准文本模式作为判断规则，判断单元格中文本是否符合基准文本模式，若不符合，则确定该单元格的文本为非标准文本，若符合，则确定该单元格的文本为标准文本；如图5b所示；依次类推，确定C列中非标准文本对应的单元格；由此能够对单元格中文本内容进行自动化检测，从而有效获取非标准文本对应单元格的位置信息。

当在实际使用中，对于成百上千列的宽数据表而言，无法实现每一列手工编程判断规则，因为工作量巨大；采用本实施例的方法可以应用于大数据处理中，能够有效提高文档编辑的效率和准确率。

如图6所示，为本发明一实施例数据处理装置的示意性框图。一种数据处理装置，该装置600包括：获取模块601，用于获取目标区域文本对应的文本模式；所述目标区域包括至少两个子区域，每个所述子区域具有对应的文本；第一确定模块602，用于基于所述文本模式确定目标区域的基准文本模式；第二确定模块603，用于确定任一子区域的文本是否符合所述基准文本模式；若不符合，则确定该子区域的文本为非标准文本。

在可选的实施例中，所述第一确定模块602包括：聚合单元，用于将若干所述文本模式进行分类聚合，得到不同种类的文本模式；第一确定单元，用于确定每个种类的文本模式对应的权重；第二确定单元，用于将权重最大的文本模式确定为目标区域的基准文本模式。

在可选的实施例中，所述获取模块601包括：第一生成单元，用于基于子区域的文本，生成正则表达式；第二生成单元，用于遍历目标区域中所有子区域的文本，生成多个正则表达式。

在可选的实施例中，该装置还包括：第三确定模块，用于确定所述非标准文本为可校正文本；校正模块，用于基于所述基准文本模式对所述可校正文本进行校正，得到校正文本。

在可选的实施例中，第三确定模块包括：第一确定单元，用于定非标准文本对应的文本模式与所述基准文本模式的相似度；判断单元，用于判断所述相似度是否满足预设条件；第二确定单元，用于若判断结果表征所述相似度满足预设条件，则确定所述非标准文本为可校正文本。

在可选的实施例中，第三确定模块还包括：第三确定单元，用于若判断结果表征所述相似度不满足预设条件，则确定所述非标准文本不是可校正文本，并对所述非标准文本进行手动校正。

在可选的实施例中，校正模块包括：判断单元，用于判断所述可校正文本是否包含预设字符；校正单元，用于若判断结果表征所述可校正文本包含预设字符，则基于所述基准文本模式，从所述可校正文本中移除所述预设字符，得到校正文本。

上述装置可执行本发明一实施例所提供的数据处理方法，具备执行数据处理方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的数据处理方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以利用硬件的形式实现，也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储介质、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括：移动存储介质、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据处理方法，包括：

获取目标区域文本对应的文本模式；所述目标区域包括至少两个子区域，每个所述子区域具有对应的文本；

基于所述文本模式确定目标区域的基准文本模式；

确定任一子区域的文本是否符合所述基准文本模式；若不符合，则确定该子区域的文本为非标准文本。

2.根据权利要求1所述的方法，所述基于所述文本模式确定目标区域的基准文本模式，包括：

将若干所述文本模式进行分类聚合，得到不同种类的文本模式；

确定每个种类的文本模式对应的权重；

将权重最大的文本模式确定为目标区域的基准文本模式。

3.根据权利要求1所述的方法，所述获取目标区域中文本对应的文本模式，包括：

基于子区域的文本，生成正则表达式；

遍历目标区域中所有子区域的文本，生成多个正则表达式。

4.根据权利要求1所述的方法，还包括：

确定所述非标准文本为可校正文本；

基于所述基准文本模式对所述可校正文本进行校正，得到校正文本。

5.根据权利要求4所述的方法，所述确定所述非标准文本为可校正文本，包括：

确定非标准文本对应的文本模式与所述基准文本模式的相似度；

判断所述相似度是否满足预设条件；若判断结果表征所述相似度满足预设条件，则确定所述非标准文本为可校正文本。

6.根据权利要求5所述的方法，还包括：

若判断结果表征所述相似度不满足预设条件，则确定所述非标准文本不是可校正文本，并对所述非标准文本进行手动校正。

7.根据权利要求4所述的方法，所述基于所述基准文本模式对所述可校正文本进行校正，得到校正文本，包括：

判断所述可校正文本是否包含预设字符；

若判断结果表征所述可校正文本包含预设字符，则基于所述基准文本模式，从所述可校正文本中移除所述预设字符，得到校正文本。

8.一种数据处理装置，包括：

获取模块，用于获取目标区域文本对应的文本模式；所述目标区域包括至少两个子区域，每个所述子区域具有对应的文本；

第一确定模块，用于基于所述文本模式确定目标区域的基准文本模式；

第二确定模块，用于确定任一子区域的文本是否符合所述基准文本模式；若不符合，则确定该子区域的文本为非标准文本。

9.根据权利要求8所述的装置，所述第一确定模块包括：

聚合单元，用于将若干所述文本模式进行分类聚合，得到不同种类的文本模式；

第一确定单元，用于确定每个种类的文本模式对应的权重；

第二确定单元，用于将权重最大的文本模式确定为目标区域的基准文本模式。

10.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。