CN103902440B

CN103902440B - 应用程序中的文字检测方法和装置

Info

Publication number: CN103902440B
Application number: CN201210572578.5A
Authority: CN
Inventors: 丁如敏; 霍举振; 高苡新
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-12-25
Filing date: 2012-12-25
Publication date: 2018-07-20
Anticipated expiration: 2032-12-25
Also published as: US20170364501A1; US20150293898A1; WO2014101504A1; US9767090B2; CN103902440A; US10713437B2

Abstract

本发明实施例提供了一种应用程序中的文字检测方法和装置。所述方法包括：从多语言应用程序安装包中提取资源文件，并将所述资源文件转换为文本文件；按照语言版本对文本文件进行拆分得到对应的语言文本文件；根据语言版本调用语言检测工具；通过语言检测工具检测语言文本文件得到可疑字符信息。所述装置包括：文件处理模块，用于从多语言应用程序安装包中提取资源文件，并将所述资源文件转换为文本文件；拆分模块，用于按照语言版本对文本文件进行拆分得到对应的语言文本文件；工具调用模块，用于根据语言版本调用语言检测工具；文本检测模块，用于通过语言检测工具检测语言文本文件得到可疑字符信息。采用本发明能提高应用程序中文字检测的效率。

Description

应用程序中的文字检测方法和装置

技术领域

本发明涉及软件调试技术，特别是涉及一种应用程序中的文字检测方法和装置。

背景技术

随着各种应用程序的普遍使用，每一应用程序所面向的用户类型也越来越多，应用程序用户使用的语言并不仅限于单一种类的语言文字，例如中文，而是越来越多的用户使用英文、马来西亚文等各种不同的语言文字，因此，为适应各种不同用户的需求，多语言应用程序根据用户的选择提供了各种不同语言版本。

相应的，在应用程序中的文字检测中也应当对交互界面的语言文字进行检测，应用程序中的文字检测方式包括切换不同的语言版本进行检测和提取多语言应用程序的资源文件进行人工检测。其中，在切换不同的语言版本进行检测的过程中，首先将多语言应用程序安装于终端设备，并运行，切换各种不同的语言版本，检查该语言版本下所有交互界面的语言文字，但是，这一检测方式难以确保遍历检查到每一语言版本下所有的交互界面，并且在检测过程中还需配合多语言应用程序的操作进行，效率较低。

而提取资源文件进行人工检测的方式需要交由不同语言的专业人士负责，例如，英文版本的应用程序需由英语专业人员进行检测，印度语版本的应用程序需由印度语专业人员进行检测，效率更为低下。

发明内容

基于此，有必要针对检测效率低的问题，提供一种能提高效率的应用程序中的文字检测方法。

此外，还有必要提供一种能提高效率的应用程序中的文字检测装置。

一种应用程序中的文字检测方法，包括如下步骤：

从多语言应用程序安装包中提取资源文件，并将所述资源文件转换为文本文件；

按照语言版本对所述文本文件进行拆分得到对应的语言文本文件；

根据所述语言版本调用语言检测工具；

通过所述语言检测工具检测所述语言文本文件得到可疑字符信息。

一种应用程序中的文字检测装置，包括：

文件处理模块，用于从多语言应用程序安装包中提取资源文件，并将所述资源文件转换为文本文件；

拆分模块，用于按照语言版本对所述文本文件进行拆分得到对应的语言文本文件；

工具调用模块，用于根据所述语言版本调用语言检测工具；

文本检测模块，用于通过所述语言检测工具检测所述语言文本文件得到可疑字符信息。上述应用程序中的文字检测方法和装置，提取资源文件，并自动将提取的资源文件转换为适于进行检测的文本文件，进而根据不同的语言版本将文本文件拆分为相应的语言文本文件，逐一对每一语言版本所对应的语言文本文件进行正确性检测，不需要配合多语言应用程序的操作以及专业人员的人工检测即可完成，大大地提高了效率。

附图说明

图1为一个实施例中应用程序中的文字检测方法的流程图；

图2为图1中按照语言版本对文本文件进行拆分得到对应的语言文本文件的方法流程图；

图3为另一个实施例中应用程序中的文字检测方法的流程图；

图4为另一个实施例中应用程序中的文字检测方法的流程图；

图5为另一个实施例中检测语言文本文件的方法流程图；

图6为一个实施例中应用程序中的文字检测装置的结构示意图；

图7为图7中拆分模块的结构示意图；

图8为另一个实施例中应用程序中的文字检测装置的结构示意图；

图9为另一个实施例中检测模块的结构示意图。

具体实施方式

如图1所示，在一个实施例中，一种应用程序中的文字检测方法，包括如下步骤：

步骤S110，从多语言应用程序安装包中提取资源文件，并将资源文件转换为文本文件。

本实施例中，资源文件用于在应用程序中不需要重新编辑代码即可为用户提供各种交互界面以及交互界面中的文字、图像。资源文件包括了交互界面所对应的位图、字符以及其它数据，每一应用程序对应了一个资源文件，并根据提供的语言版本在资源文件中存储了相应语言版本的字符。

从应用程序的多语言应用程序安装包中提取资源文件，将提取到的资源文件转换为文本格式，得到该资源文件对应的文本文件，以适用于资源文件中字符的检测。

具体的，应用程序的多语言应用程序安装包为运行于终端设备，并安装应用程序的可执行文件，例如，在移动终端的Android操作系统中，应用程序的多语言应用程序安装包是后缀名为.apk的文件。

步骤S130，按照语言版本对文本文件进行拆分得到对应的语言文本文件。

本实施例中，资源文件为运行于终端设备中的应用程序提供了至少一个语言版本的交互界面，并且资源文件的文本文件中，字符是根据相应的语言版本进行有序存储的，例如，文本文件的每一列对应了一个语言版本。按照语言版本对文本文件进行拆分得到每一语言版本对应的语言文本文件，将包含了多语言字符的文本文件分成多个单语言字符的文本文件，即每一语言版本所对应的语言文本文件。

如图2所示，在一个实施例中，上述步骤S130的具体过程为：

步骤S131，根据语言版本从文本文件中提取对应的字符。

本实施例中，根据语言版本逐一在文本文件中提取该语言版本所对应的字符。

步骤S133，将字符保存为语言文本文件，并根据语言版本命名保存的语言文本文件。

本实施例中，将根据语言版本提取到的字符保存为文本格式得到该语言版本所对应的语言文本文件，并将该语言版本对应的语言名称使用语言文本文件的文件名。

步骤S150，根据语言版本调用语言检测工具。

本实施例中，为测试应用程序交互界面中文字是否正确，需逐一对每一语言版本的语言文本文件中的字符进行检测，以判断语言文本文件中用于形成交互界面文字的字符正确性。

语言检测工具用于进行文字检测，不同的语言检测工具对应了不同的语言版本，并对文本格式的文件进行检测。根据语言版本得到语言文本文件的语种，进而调用该语种所对应的语言检测工具。语言检测工具所进行的文字检测包括拼写检测以及语法检测，但并不仅限于此。

步骤S170，通过语言检测工具检测语言文本文件得到可疑字符信息。

本实施例中，应用语言检测工具对语言文本文件中的字符进行检测得到可疑字符信息，可疑字符信息包括了可疑字符、所在位置以及修改建议等信息，语言文本文件中得到的可疑字符信息形成列表的形式显示。

如图3所示，在另一个实施例中，上述应用程序中的文字检测方法还包括如下步骤：

步骤S210，从可疑字符信息中提取出误判的可疑字符信息。

本实施例中，由语言检测工具进行检测得到的可疑字符信息可能包含了实质为正确的可疑字符信息，即误判的字符信息，因此还需对得到的可疑字符信息进行筛选以提取出误判的可疑字符信息。

如图4所示，在另一个实施例中，上述步骤S210之前还包括如下步骤：

步骤S310，判断可疑字符信息中是否存在误判的可疑字符信息，若是，则进入上述步骤S210，若否，则进入步骤S330。

本实施例中，获取人工筛选得到的误判的可疑字符信息，并以此为依据判断语言检测工具检测得到的可疑字符信息是否被误判，若是，则提取误判的可疑字符信息，若否，则直接输出语言检测工具检测得到的可疑字符信息，以方便修正语言文本文件中的字符。

步骤S330，输出可疑字符信息。

步骤S230，记录误判的可疑字符信息。

本实施例中，将误判的可疑字符信息记录到字典，字典为语言检测工具所附带的词库，记录了正确的字符，在语言文本文件和字典的比对中若语言文本文件的字符与字典记录的字符相一致，则判定语言文本文件的字符为正确的，若不相一致，则判定语言文本文件的字符为可疑字符。

在一个实施例中，上述应用程序中的文字检测方法还包括：根据记录的误判的可疑字符信息去除检测得到的可疑字符信息中误判的可疑字符信息的步骤。

本实施例中，在对语言文本文件进行检测，并记录了语言文本文件中误判的可疑字符信息之后，还将根据记录的误判的可疑字符再次进行检测，去除可疑字符信息中误判的可疑字符信息，重新得到更为准确的文字检测结果。

如图5所示，在另一个实施例中，上述应用程序中的文字检测方法还包括：

步骤S410，获取终端设备的分辨率信息。

本实施例中，获取运行应用程序的终端设备屏幕的分辨率信息。分辨率信息用于通过水平和垂直像素来衡量终端设备屏幕每一行或列中显示文字的数量。

步骤S430，判断语言文本文件中字符的断行是否与分辨率信息相匹配，若否，则进入步骤S450，若是，则结束。

本实施例中，上述判断语言文本文件中字符的断行是否与分辨率信息相匹配的具体过程为：根据语言文本文件得到对应的语种并获取应用程序交互界面显示的字号，根据语种和显示的字号计算得到字符所占据的宽度，该宽度是通过像素表示的，根据分辨率信息计算终端设备屏幕得到每行所包含的像素点数量，进而将每行所包含的像素点数量和宽相除得到每行容纳字数，根据每行容纳字数判断语言文本文件中字符的断行是否正确，若不正确，则生成相应的可疑字符信息，以通过可疑字符信息标识断行错误的字符。

此外，上述步骤S430也可通过判断语言文本文件中同一行的字符长度所占据的像素值是否与屏幕中每行所包含的像素点数量相匹配来识别断行错误的字符，判断到同一行的字符长度所占据的像素值超出了屏幕中每行所包含的像素点数量，则说明出现了断行错误。

步骤S450，生成字符对应的可疑字符信息。

本实施例中，该可疑字符信息包括了断行出错的字符、所处位置以及修改建议等信息。

如图6所示，在一个实施例中，一种应用程序中的文字检测装置，包括文件处理模块110、拆分模块130、工具调用模块150和文本检测模块170。

文件处理模块110，用于从多语言应用程序安装包中提取资源文件，并将资源文件转换为文本文件。

文件处理模块110从应用程序的多语言应用程序安装包中提取资源文件，将提取到的资源文件转换为文本格式，得到该资源文件对应的文本文件，以适用于资源文件中字符的检测。

拆分模块130，用于按照语言版本对文本文件进行拆分得到对应的语言文本文件。

本实施例中，资源文件为运行于终端设备中的应用程序提供了至少一个语言版本的交互界面，并且资源文件的文本文件中，字符是根据相应的语言版本进行有序存储的，例如，文本文件的每一列对应了一个语言版本。拆分模块130按照语言版本对文本文件进行拆分得到每一语言版本对应的语言文本文件，将包含了多语言字符的文本文件分成多个单语言字符的文本文件，即每一语言版本所对应的语言文本文件。

如图7所示，在一个实施例中，拆分模块130包括字符提取单元131以及存储单元133。

字符提取单元131，用于根据语言版本从文本文件中提取对应的字符。

本实施例中，字符提取单元131根据语言版本逐一在文本文件中提取该语言版本所对应的字符。

存储单元133，用于将字符保存为语言文本文件，并根据语言版本命名保存的语言文本文件。

本实施例中，存储单元133将根据语言版本提取到的字符保存为文本格式得到该语言版本所对应的语言文本文件，并将该语言版本对应的语言名称使用语言文本文件的文件名。

工具调用模块150，用于根据语言版本调用语言检测工具。

语言检测工具用于进行文字检测，不同的语言检测工具对应了不同的语言版本，并对文本格式的文件进行检测。工具调用模块150根据语言版本得到语言文本文件的语种，进而调用该语种所对应的语言检测工具。语言检测工具所进行的文字检测包括拼写检测以及语法检测，但并不仅限于此。

文本检测模块170，用于通过语言检测工具检测语言文本文件得到可疑字符信息。

本实施例中，文本检测模块170应用语言检测工具对语言文本文件中的字符进行检测得到可疑字符信息，可疑字符信息包括了可疑字符、所在位置以及修改建议等信息，语言文本文件中得到的可疑字符信息形成列表的形式显示。

如图8所示，在另一个实施例中，上述应用程序中的文字检测装置还包括误判信息提取模块210以及记录模块230。

误判信息提取模块210，用于从可疑字符信息提取出误判的可疑字符信息。

本实施例中，由语言检测工具进行检测得到的可疑字符信息可能包含了实质为正确的可疑字符信息，即误判的字符信息，因此还需误判信息提取模块210对得到的可疑字符信息进行筛选以提取出误判的可疑字符信息。

在另一个实施使你中，上述应用程序中文字检测装置还包括误判信息识别模块，该误判信息识别模块用于判断可疑字符信息中是否存在误判的可疑字符信息，若是，则通知上述误判信息提取模块210，若否，则输出可疑字符信息。

本实施例中，误判信息识别模块获取人工筛选得到的误判的可疑字符信息，并以此为依据判断语言检测工具检测得到的可疑字符信息是否被误判，若是，则提取误判的可疑字符信息，若否，则直接输出语言检测工具检测得到的可疑字符信息，以方便修正语言文本文件中的字符。

记录模块230，用于记录误判的可疑字符信息。

本实施例中，记录模块230将误判的可疑字符信息记录到字典，字典为语言检测工具所附带的词库，记录了正确的字符，在语言文本文件和字典的比对中若语言文本文件的字符与字典记录的字符相一致，则判定语言文本文件的字符为正确的，若不相一致，则判定语言文本文件的字符为可疑字符。

上述文本检测模块170还用于根据记录的误判的可疑字符信息去除检测得到的可疑字符信息中误判的可疑字符信息。

本实施例中，在对语言文本文件进行检测，并记录了语言文本文件中误判的可疑字符信息之后，文本检测模块170还将根据记录的误判的可疑字符再次进行检测，去除可疑字符信息中误判的可疑字符信息，重新得到更为准确的文字检测结果。

如图9所示，在另一个实施例中，上述应用程序中的文字检测装置还包括获取模块310以及断行检测模块330。

获取模块310，用于获取终端设备的分辨率信息。

本实施例中，获取模块310获取运行应用程序的终端设备屏幕的分辨率信息。分辨率信息用于通过水平和垂直像素来衡量终端设备屏幕每一行或列中显示文字的数量。

断行检测模块330，用于判断语言文本文件中字符的断行是否与分辨率信息相匹配，若否，则生成该字符对应的可疑字符信息，若是，则停止执行。

本实施例中，断行检测模块330根据语言文本文件得到对应的语种并获取应用程序交互界面显示的字号，根据语种和显示的字号计算得到字符所占据的宽度，该宽度是通过像素表示的，根据分辨率信息计算终端设备屏幕得到每行所包含的像素点数量，进而将每行所包含的像素点数量和宽相除得到每行容纳字数，根据每行容纳字数判断语言文本文件中字符的断行是否正确，若不正确，则生成相应的可疑字符信息，以通过可疑字符信息标识断行错误的字符。

此外，断行检测模块330也可通过判断语言文本文件中同一行的字符长度所占据的像素值是否与屏幕中每行所包含的像素点数量相匹配来识别断行错误的字符，判断到同一行的字符长度所占据的像素值超出了屏幕中每行所包含的像素点数量，则说明出现了断行错误。可疑字符信息包括了断行出错的字符、所处位置以及修改建议等信息。

上述应用程序中的文字检测方法和装置，提取资源文件，并自动将提取的资源文件转换为适于进行检测的文本文件，进而根据不同的语言版本将文本文件拆分为相应的语言文本文件，逐一对每一语言版本所对应的语言文本文件进行正确性检测，不需要配合多语言应用程序的操作以及专业人员的人工检测即可完成，大大地提高了效率。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种应用程序中的文字检测方法，包括如下步骤：

从应用程序的多语言应用程序安装包中提取资源文件，并将所述资源文件转换为文本文件，其中所述资源文件用于为用户提供各种交互界面以及交互界面中的文字、图像；

根据所述语言版本得到所述语言文本文件的语种，并调用所述语种所对应的语言检测工具；

通过所述语言检测工具检测所述语言文本文件得到可疑字符信息，所述可疑字符信息包括可疑字符、所在位置以及修改建议；

获取终端设备的分辨率信息；

判断所述语言文本文件中字符的断行是否与所述分辨率信息相匹配，若否，则生成所述字符对应的可疑字符信息，所述字符对应的可疑字符信息包括了断行出错的字符、所处位置以及修改建议。

2.根据权利要求1所述的应用程序中的文字检测方法，其特征在于，所述按照语言版本对所述文本文件进行拆分得到对应的语言文本文件的步骤为：

根据语言版本从所述文本文件中提取对应的字符；

将所述字符保存为语言文本文件，并根据所述语言版本命名所述保存的语言文本文件。

3.根据权利要求1所述的应用程序中的文字检测方法，其特征在于，还包括：

从所述可疑字符信息提取出误判的可疑字符信息；

记录所述误判的可疑字符信息；

根据所述记录的误判的可疑字符信息去除所述检测得到的可疑字符信息中误判的可疑字符信息。

4.根据权利要求3所述的应用程序中的文字检测方法，其特征在于，所述从所述可疑字符信息提取出误判的可疑字符信息的步骤之前还包括：

判断所述可疑字符信息中是否存在误判的可疑字符信息，若是，则进入所述从所述可疑字符信息提取出误判的可疑字符信息的步骤；

若否，则输出所述可疑字符信息。

5.一种应用程序中的文字检测装置，其特征在于，包括：

文件处理模块，用于从应用程序的多语言应用程序安装包中提取资源文件，并将所述资源文件转换为文本文件，其中所述资源文件用于为用户提供各种交互界面以及交互界面中的文字、图像；

工具调用模块，用于根据所述语言版本得到所述语言文本文件的语种，并调用所述语种所对应的语言检测工具；

文本检测模块，用于通过所述语言检测工具检测所述语言文本文件得到可疑字符信息，所述可疑字符信息包括可疑字符、所在位置以及修改建议；

获取模块，用于获取终端设备的分辨率信息；

断行检测模块，用于判断所述语言文本文件中字符的断行是否与所述分辨率信息相匹配，若否，则生成所述字符对应的可疑字符信息，所述字符对应的可疑字符信息包括了断行出错的字符、所处位置以及修改建议。

6.根据权利要求5所述的应用程序中的文字检测装置，其特征在于，所述拆分模块包括：

字符提取单元，用于根据语言版本从所述文本文件中提取对应的字符；

存储单元，用于将所述字符保存为语言文本文件，并根据所述语言版本命名所述保存的语言文本文件。

7.根据权利要求5所述的应用程序中的文字检测装置，其特征在于，还包括：

误判信息提取模块，用于从所述可疑字符信息提取出误判的可疑字符信息；

记录模块，用于记录所述误判的可疑字符信息；

所述文本检测模块还用于根据所述记录的误判的可疑字符信息去除所述检测得到的可疑字符信息中误判的可疑字符信息。

8.根据权利要求7所述的应用程序中的文字检测装置，其特征在于，还包括：

误判信息识别模块，用于判断所述可疑字符信息中是否存在误判的可疑字符信息，若是，则通知所述误判信息提取模块，若否，则输出所述可疑字符信息。