CN113052179A

CN113052179A - 多音字处理方法、装置、电子设备及存储介质

Info

Publication number: CN113052179A
Application number: CN202110254598.7A
Authority: CN
Inventors: 王田; 王晓斐; 高群
Original assignee: Anhui Toycloud Technology Co Ltd
Current assignee: Anhui Toycloud Technology Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-29

Abstract

本申请公开了一种多音字处理方法、装置、电子设备及存储介质，该方法包括：获取扫描图像，对所述扫描图像进行切行，得到目标图像，对所述目标图像进行识别，得到所述至少一个注音和所述多个文字，基于所述至少一个注音，从所述多个文字中确定所述每个注音对应的多音字。本申请通过扫描和识别文本中的注音来确定文本中的多音字，能够解决无法识别文本中的多音字注音的问题，提高文本的识别效果。

Description

多音字处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种多音字处理方法、装置、电子设备及存储介质。

背景技术

随着电子技术的发展，电子设备的种类也越来越丰富。扫描笔又名微型扫描仪或手刮式扫描笔，是一种手持式的电子设备。将扫描笔的笔尖扫过书刊、报纸上的文字时，通过内置的光学字符识别(Optical Character Recognition，OCR)模块能够对书刊、报纸上的文字进行识别、存储、编辑等操作。对于识别到的文字，扫描笔通过内置的发音(Text ToSpeech，TTS)模块和翻译模块，能够将文字读出来并进行翻译。多音字，是指一个字有两个或两个以上的读音，不同的读音表义不同，用法不同，词性也往往不同。读音有区别词性和词义的作用；根据使用情况不同，读音也不同，读音有区别用法的作用。

在学生的课本和学习资料中，会存在大量标有注音的多音字，但是现有的扫描笔技术方案中，仅支持文字的扫描与识别，无法识别出待扫描文本中对多音字的注音。因而在这种情形中，扫描笔无法准确的实现语音的合成，无法正确理解语义，无法基于此进行准确的翻译。

发明内容

本申请实施例提出了一种多音字处理方法装置、电子设备及存储介质，能够支持注音的扫描和识别，从而提高文本的识别效果。

第一方面，本申请实施例提供一种多音字处理方法，所述方法包括：

获取扫描图像；

对所述扫描图像进行切行，得到目标图像；

对所述目标图像进行识别，得到所述至少一个注音和所述多个文字；

基于所述至少一个注音，从所述多个文字中确定所述每个注音对应的多音字。

第二方面，本申请实施例提供一种多音字处理装置，所述装置包括：

获取单元，用于获取扫描图像；

切行单元，用于对所述扫描图像进行切行，得到目标图像，所述目标图像中包括至少一个注音和多个文字；

识别单元，用于对所述目标图像进行识别，得到所述至少一个注音和所述多个文字；

确定单元，基于所述至少一个注音，从所述多个文字中确定所述每个注音对应的多音字

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面的任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面的任一方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面的任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

本申请实施例提供的多音字处理方法，获取扫描图像，对所述扫描图像进行切行，得到目标图像，对所述目标图像进行识别，得到所述至少一个注音和所述多个文字，基于所述至少一个注音，从所述多个文字中确定所述每个注音对应的多音字。本申请通过扫描和识别文本中的注音来确定文本中的多音字，能够解决无法识别文本中的多音字注音的问题，提高文本的识别效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本识别系统的结构架构图；

图2是本申请实施例提供的一种多音字处理方法的流程示意图；

图3a是本申请实施例提供的一种扫描图像的示意图；

图3b是本申请实施例提供的另一种扫描图像的示意图；

图4a是本申请实施例提供的一种中间图像的示意图；

图4b是本申请实施例提供的一种目标图像的示意图；

图4c是本申请实施例提供的另一种目标图像的示意图；

图5是本申请实施例提供的一种多音字处理装置的功能单元组成框图；

图6是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图，对本申请实施例进行详细说明。

应理解，本申请实施例中涉及的“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

以及，除非有相反的说明，本申请实施例提及“第一”、“第二”等序数词是用于对多个对象进行区分，不用于限定多个对象的顺序、时序、优先级或者重要程度。例如，第一信息和第二信息，只是为了区分不同的信息，而并不是表示这两种信息的内容、优先级、发送顺序或者重要程度等的不同。

应理解，本申请提供的多音字处理方法可以应用于电子设备中包含文本识别功能的系统，例如，电子扫描笔、点读笔、翻译笔等。具体地，文本识别系统可以运行与如图1所示的结构示意图中，如图1所示，如图1所示，该系统包括光学字符识别(Optical CharacterRecognition，ORC)模块、标注模块、发音(Text To Speech，TTS)模块和翻译模块。其中，ORC用于识别出电子设备采集的扫描图像中的文字和注音；标注模块用于将识别出的注音标注成识别出来的多音字的拼音；TTS模块用于将识别出来的包括标注了多音字拼音的文字转换成语音数据并播放；翻译模块用于将识别出来的包括标注了多音字拼音的文字进行语义理解并翻译。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图2，图2为本申请实施例提供的一种多音字处理方法的流程示意图。如图2所示，该多音字处理方法包括以下步骤。

S210、获取扫描图像。

其中，扫描图像可以是通过扫描设备(例如扫描仪、扫描笔、摄像头等电子设备)采集包括对多音字进行注音的文本内容的图像(例如学生课本、学习资料)；也可以是存储的包括对多音字进行注音的文本内容的图片或图片格式的文档，本申请实施例对此不做限定。

示例性地，也可以从本地、其他电子设备或服务器中获取该扫描图像；对扫描图像进行文本识别，识别出扫描图像中的文字和注音。进一步地，电子设备通过与服务器进行数据通信，从服务器所具有的数据库中获取多音字信息，例如从服务器所具有的拼音数据库中获取文字的所有拼音。

S220、对所述扫描图像进行切行，得到目标图像。

在具体实现中，在对扫描图像进行切行前，可以先对扫描图像进行预处理，以减少扫描图像中的无用信息，以便方便后面的处理。对扫描图像进行预处理，可以进行二值化、降噪、归一化等处理操作，经过二值化后可以将扫描图像的灰度图像转换为二值图像，对图像上的像素点的灰度值设置为0或255；降噪可以根据噪声的特征对扫描图像执行去噪处理。如果文字行倾斜的话往往还要进行倾斜校正。归一化则是将单个的文字图像规整到同样的尺寸，使得所有的文字图像在同一个规格下应用统一的算法。

可选的，在所述至少一个注音与所述多个文字分别位于相邻行时；所述对所述扫描图像进行切行，得到目标图像，包括：对所述扫描图像进行切行，得到至少一个中间图像，每个中间图像包括文字行和注音行；对每个所述中间图像进行切行，得到至少一个目标图像，所述目标图像包括文字图像和注音图像。

多音字是汉语中的一个独特现象，同样的文字，如果对其中多音字选择不同的读音，将呈现完全不同的意思，例如，“单于只会骑马，不会骑单车”语句中的“单”是个多音字，其中第一个“单”读音为“chǎn”，表示匈奴族首领；第二个“单”读音为“dān”，表示一种骑行工具，这两种读音会导致句子的意思完全不同。在学生的课本和学习资料中，对于多音字的注音，主要有两种形式，一种为多音字与注音分行排列，如图3a所示，注音和文字分别位于两行，且注音在对应的多音字位置的上一行的位置；另一种为多音字与注音同行混排，如图3b所示，注音与文字同行排列，且注音使用小括号括起来位于多音字后面的位置。

其中，扫描设备扫描的宽度要比文字高度大，故通过扫描设备得到的扫描图像中，除了目标行的图像以外，还不可避免的含有其他图像数据，例如上一行的一部分图像、下一行的一部分图像，空白图像等。因此，进行文字识别需要先将扫描图像进行切行，以切掉无效的图像(如不完整的行的图像、空白图像等)，得到一行行的仅含文字行和注音行的图像。

具体地，当注音与文字分别位于相邻行时，具体为注音位于多音字的上一行，或者注音位于多音字的下一行，将扫描图像分割成多张中间图像，每张中间图像均包括一行文字和对应的一行注音，例如，图3a所示的扫描图像可分割成如图4a所示的中间图像。

进一步地，在切分得到中间图像后，还需要对中间图像进一步进行切分，具体为将每个中间图像分割成一行文字和一行注音，如图4b所示。

可以理解的是，当扫描图像中文字的排列方式是行排列时，本申请实施例中的操作都是以行来进行处理和描述；当扫描图像中文字的排列方式是列排列时，本申请实施例中的操作都是以列来进行处理和描述。

在一种可能的示例中，当注音与文字位于同行时，具体为注音位于多音字的后面，或者注音位于多音字的前面，将扫描图像分割成至少一张目标图像，每张中间图像均包括一整行的文字和/或注音，例如，图3b所示的扫描图像可分割成如图4c所示的目标图像。

示例性地，由于印刷体文字图像行列间距、字间距大致相等，且几乎不存在粘连现象，所以可以采用投影法对扫描图像和/或中间图像进行切分，得到每行在横坐标轴上的像素值投影曲线是一个不平滑的曲线，通过高斯平滑后的曲线在每个波谷位置间的区域即为要的一行。

需要说明的是，切行算法在经过大量的数据训练之后，能够对分行排列的注音和文字进行切行。如果算法能够对第一次切行后的图像进行再次切行，说明这一行是多音字与注音分行排列的方式，切行后的图像如图4b所示。如果不能够对第一次切行后的图像进行再次切行，说明这一行是多音字与注音混排的形式，切行后的图像如图4c所示。

S230、对所述目标图像进行识别，得到所述至少一个注音和所述多个文字。

其中，对扫描图像进行切分后，可对目标图像进行文字识别和注音识别，以分别得到目标图像中的文字和注音。

可选的，所述对所述目标图像进行识别，得到所述至少一个注音和所述多个文字，包括：使用拼音识别模型对所述注音图像进行识别，得到所述注音图像中的多个拼音字母；将所述拼音字母之间的距离小于或等于阈值的连续相邻的至少一个拼音字母划分为一个注音，得到所述至少一个注音，并记录每个注音的所述起止坐标；使用文字识别模型对所述文字图像进行识别，得到所述多个文字，并记录每个所述文字的所述起止坐标。

具体地，对于注音与多音字位于相邻行时，可依次对第二次切行切出来的目标图像进行识别。若第一行为注音行，则通过拼音识别模型依次识别出每个拼音字母，并以空格将这些拼音字母切分成注音，记录下每个注音的相对于注音图像左边沿的横向起止坐标。第二行为文字行，通过文字识别模型依次识别出每个文字，并记录下每个文字相对于文字图像左边沿的横向起止坐标。例如，如图4b中的注音，通过拼音识别模型对第一行注音进行识别，可识别出“z”、“h”、“ǎ”、“n”、“g”这5个拼音字母，然后根据每个拼音字母相对于注音图像左边沿的横向起止坐标，计算出拼音字母之间的距离。若相邻拼音字母的距离小于或等于阈值，则将该相邻的拼音字母划分为一个注音，直至最后一个拼音字母，从而将其组合成“zhǎng”这个注音，并且记录下这个注音的在图像中的横向起止坐标，即该注音中的第一个拼音字母“z”的起止坐标和最后一个拼音字母“g”的起止坐标。通过文字识别模型对第二行进行识别，可识别出“南”、“京”、“市”、“长”、“江”、“大”、“桥”这7个文字，并分别记录每个文字在文字图像中的横向起止坐标。

可选的，在所述至少一个注音与所述多个文字位于同一行时；所述对所述目标图像进行识别，得到所述至少一个注音和所述多个文字，包括：使用文字识别模型对所述目标图像从左到右进行识别，当在文字识别模型下识别出第一符号时，使用拼音识别模型进行识别，当在拼音识别模型下识别出第二符号时，使用文字识别模型进行识别，得到所述多个文字和多个拼音字母；将所述多个拼音字母中的拼音字母距离小于或等于预设阈值，且连续相邻的至少一个拼音字母划分为一个注音，得到所述至少一个注音，并记录每个注音和每个文字的所述起止坐标。

其中，在学生的课本和学习资料中，当注音与多音字位于同一行时，一般使用小括号将注音标注为多音字的读音。因此，所述第一符号可以为“(”，所述第二符号可以为“)”。示例性地，当使用中括号将注音标注为多音字的读音时，第一符号可以为“[”，第二符号可以为“]”；当使用大括号将注音标注为多音字的读音时，第一符号可以为“{”，第二符号可以为“}”。当然，本申请实施例也不限制使用其他符号将注音标注为多音字的读音。

具体地，对于注音与多音字位于同一行时，可直接对第一次切行，得到的目标图像，从左到右进行识别。如果没有识别出第一符号，则使用文字识别模型识别目标图像，得到目标图像中的文字，如果识别出了第一符号，则使用拼音识别模型对第一符号后的拼音进行识别，得到目标图像中的拼音字母，直到识别出第二字符，再转换成文字识别模型对第二符号后的文字进行识别，依照该方法直至最后一个文字或拼音。然后根据每个拼音字母相对于注音图像左边沿的横向起止坐标，计算出拼音字母之间的距离。若相邻拼音字母的距离小于或等于阈值，则将该相邻的拼音字母划分为一个注音，直至最后一个拼音字母，从而将字母组合成注音。例如，对于如图4c中所述的目标图像，可依次识别“南”、“京”、“市”、“长”、“zhǎng”、“江”、“大”、“桥”。并分别记录每个文字和拼音在目标图像中的横向起止坐标。

S240、基于所述至少一个注音，从所述多个文字中确定所述每个注音对应的多音字。

其中，由于多音字与对应注音的长度(起止坐标)不一样，或者不同中注音相对于多音字的位置不同，因此还需要根据注音的起止坐标进一步确定每个注音对应的多音字。

可选的，所述基于所述至少一个注音，从所述多个文字中确定所述每个注音对应的多音字，包括：基于所述每个注音的起止坐标和所述每个文字的起止坐标，从所述多个文字中确定每个注音对应的至少一个候选文字；从所述每个注音对应的至少一个候选文字中确定每个注音对应的多音字。

在一种可能的示例中，所述注音的起止坐标与所述候选文字的起止坐标全部或部分重叠。

其中，当注音与多音字位于相邻行时，注音可位于对应多音字位置的上一行或下一行的位置。由于注音的长度与多音字的长度可能不同，一个注音的起止坐标可能与多个文字的起止坐标在纵坐标上重叠或部分重叠。与注音的起止坐标全部或部分重叠的多个文字中的某一个文字是该注音对应的多音字。因此可将与注音的起止坐标全部或部分重叠的多个文字作为该注音的候选文字，然后从该多个候选文字中确定出该注音对应的多音字。示例性地，若只有一个文字的起止坐标与注音的起止坐标部分或全部重叠，则直接将该文字确定为该注音对应的多音字。

在另一种可能的示例中，所述注音的起止坐标与所述候选文字的起止坐标相邻或间隔N，所述N为起止坐标连续相邻的注音数量。

其中，当注音与多音字位于同一行时，注音可位于对应多音字位置的前面或后面。因此，根据注音的起止坐标，可将位于该注音的前面和后面的文字作为该注音的候选文字，然后从该两个候选文字中确定出该注音对应的多音字。示例性地，若注音只有前面或后面的文字，则直接将前面或后面的文字确定为该注音对应的多音字。

可选的，所述从所述每个注音对应的至少一个候选文字中确定每个注音对应的多音字，包括：获取每个候选文字的所有拼音，将所述每个候选文字的所有拼音分别与对应的注音进行匹配；将与每个注音匹配上的候选文字确定为所述多音字。

具体地，遍历这些候选文字，从存储文字拼音的数据库中搜索出每个候选文字的所有读音的拼音，并依次将这些拼音与注音进行比较，如果有拼音与注音相同，则将该拼音对应的文字确定为该注音对应的多音字。

例如，对于如图4b所示的目标图像，将识别出的注音“zhǎng”的起止坐标分别与识别出的文字“南”、“京”、“市”、“长”、“江”、“大”、“桥”的起止坐标分别进行比较，可得到“市”、“长”、“江”三个汉字的起止坐标和注音的起止坐标有重叠。因此在数据库中搜索这三个汉字的所有读音，发现“长”有“zhǎng”这个读音，从而将“长”确定为该注音对应的多音字。

可选的，所述方法还包括：将所述每个注音标注为对应的所述多音字的拼音；将所述多个文字和所述多音字的拼音输入翻译模块和/或发音模块。

其中，在确定了每个注音对应的多音字后，可将该注音标注为该多音字读音的拼音，即将注音记录到该多音字的数据结构。然后将标注过多音字读音的语句分别送入TTS模块和翻译模块，通过TTS模块的神经网络算法，即可根据注其读音，合成语句的音频数据，并朗读出来；以及通过翻译模块的神经网络算法，可根据其读音识别出语句的正确语义，然后将其翻译成目标语言。

可以看出，本申请实施例提出的多音字处理方法，获取扫描图像，对所述扫描图像进行切行，得到目标图像，对所述目标图像进行识别，得到所述至少一个注音和所述多个文字，基于所述至少一个注音，从所述多个文字中确定所述每个注音对应的多音字。本申请通过扫描和识别文本中的注音来确定文本中的多音字，能够解决无法识别文本中的多音字注音的问题，提高文本的识别效果。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，终端设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对终端设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

请参阅图5，图5是本申请实施例提供的一种多音字处理装置的功能单元组成框图，所述装置500包括：获取单元510、切行单元520、识别单元530和确定单元540，其中，

获取单元510，用于获取扫描图像；

切行单元520，用于对所述扫描图像进行切行，得到目标图像，所述目标图像中包括至少一个注音和多个文字；

识别单元530，用于对所述目标图像进行识别，得到所述至少一个注音和所述多个文字；

确定单元540，用于基于所述至少一个注音，从所述多个文字中确定所述每个注音对应的多音字。

可选的，在所述至少一个注音与所述多个文字分别位于相邻行时；所述切行单元520具体包括：

对所述扫描图像进行切行，得到至少一个中间图像，每个中间图像包括文字行和注音行；对每个所述中间图像进行切行，得到至少一个目标图像，所述目标图像包括文字图像和注音图像。

可选的，所述确定单元540具体用于：基于所述每个注音的起止坐标和所述每个文字的起止坐标，从所述多个文字中确定每个注音对应的至少一个候选文字；从所述每个注音对应的至少一个候选文字中确定每个注音对应的多音字。

可选的，所述识别单元530具体用于：使用拼音识别模型对所述注音图像进行识别，得到所述注音图像中的多个拼音字母；将所述拼音字母之间的距离小于或等于阈值的连续相邻的至少一个拼音字母划分为一个注音，得到所述至少一个注音，并记录每个注音的所述起止坐标；使用文字识别模型对所述文字图像进行识别，得到所述多个文字，并记录每个所述文字的所述起止坐标。

可选的，所述注音的起止坐标与所述候选文字的起止坐标全部或部分重叠。

可选的，在所述至少一个注音与所述多个文字位于同一行时；所述识别单元530具体用于：使用文字识别模型对所述目标图像从左到右进行识别，当在文字识别模型下识别出第一符号时，使用拼音识别模型进行识别，当在拼音识别模型下识别出第二符号时，使用文字识别模型进行识别，得到所述多个文字和多个拼音字母；将所述多个拼音字母中的拼音字母距离小于或等于预设阈值，且连续相邻的至少一个拼音字母划分为一个注音，得到所述至少一个注音，并记录每个注音和每个文字的所述起止坐标。

可选的，所述注音的起止坐标与所述候选文字的起止坐标相邻或间隔N，所述N为起止坐标连续相邻的注音数量。

可选的，在从所述每个注音对应的至少一个候选文字中确定每个注音对应的多音字，所述确定单元540具体包括：获取每个候选文字的所有拼音，将所述每个候选文字的所有拼音分别与对应的注音进行匹配；将与每个注音匹配上的候选文字确定为所述多音字。

可选的，所述装置500还包括标注单元550，所述标注单元550，用于将所述每个注音标注为对应的所述多音字的拼音；

所述识别单元530，还用于将所述多个文字和所述多音字的拼音输入翻译模块和/或发音模块。

可以理解的是，本申请实施例的多音字处理装置的各程序模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

请参阅图6，图6是本申请实施例提供的一种终端设备，该终端设备包括：处理器、存储器、收发器，以及一个或多个程序。所述处理器、存储器和收发器通过通信总线相互连接。

处理器可以是一个或多个中央处理器(central processing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行；所述程序包括用于执行以下步骤的指令：

获取扫描图像；

对所述扫描图像进行切行，得到目标图像；

需要说明的是，本申请实施例的具体实现过程可参见上述方法实施例所述的具体实现过程，在此不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种多音字处理方法，其特征在于，所述方法包括：

获取扫描图像；

对所述扫描图像进行切行，得到目标图像；

2.根据权利要求1所述的方法，其特征在于，在所述至少一个注音与所述多个文字分别位于相邻行时；

所述对所述扫描图像进行切行，得到目标图像，包括：

对所述扫描图像进行切行，得到至少一个中间图像，每个中间图像包括文字行和注音行；

对每个所述中间图像进行切行，得到至少一个目标图像，所述目标图像包括文字图像和注音图像。

3.根据权利要求2所述的方法，其特征在于，所述基于所述至少一个注音，从所述多个文字中确定所述每个注音对应的多音字，包括：

基于所述每个注音的起止坐标和所述每个文字的起止坐标，从所述多个文字中确定每个注音对应的至少一个候选文字；

从所述每个注音对应的至少一个候选文字中确定每个注音对应的多音字。

4.根据权利要求3所述的方法，其特征在于，所述对所述目标图像进行识别，得到所述至少一个注音和所述多个文字，包括：

使用拼音识别模型对所述注音图像进行识别，得到所述注音图像中的多个拼音字母；

将所述拼音字母之间的距离小于或等于阈值的连续相邻的至少一个拼音字母划分为一个注音，得到所述至少一个注音，并记录每个注音的所述起止坐标；

使用文字识别模型对所述文字图像进行识别，得到所述多个文字，并记录每个所述文字的所述起止坐标。

5.根据权利要求3或4所述的方法，其特征在于，所述注音的起止坐标与所述候选文字的起止坐标全部或部分重叠。

6.根据权利要求1所述的方法，其特征在于，在所述至少一个注音与所述多个文字位于同一行时；

所述对所述目标图像进行识别，得到所述至少一个注音和所述多个文字，包括：

使用文字识别模型对所述目标图像从左到右进行识别，当在文字识别模型下识别出第一符号时，使用拼音识别模型进行识别，当在拼音识别模型下识别出第二符号时，使用文字识别模型进行识别，得到所述多个文字和多个拼音字母；

将所述多个拼音字母中的拼音字母距离小于或等于预设阈值，且连续相邻的至少一个拼音字母划分为一个注音，得到所述至少一个注音，并记录每个注音和每个文字的所述起止坐标。

7.根据权利要求6所述的方法，其特征在于，所述注音的起止坐标与所述候选文字的起止坐标相邻或间隔N，所述N为起止坐标连续相邻的注音数量。

8.根据权利要求5或7所述的方法，其特征在于，所述从所述每个注音对应的至少一个候选文字中确定每个注音对应的多音字，包括：

获取每个候选文字的所有拼音，将所述每个候选文字的所有拼音分别与对应的注音进行匹配；

将与每个注音匹配上的候选文字确定为所述多音字。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

将所述每个注音标注为对应的所述多音字的拼音；

将所述多个文字和所述多音字的拼音输入翻译模块和/或发音模块。

10.一种多音字处理装置，其特征在于，所述装置包括：

获取单元，用于获取扫描图像；

确定单元，用于基于所述至少一个注音，从所述多个文字中确定所述每个注音对应的多音字。

11.一种电子设备，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-9任一项所述的方法中的步骤的指令。

12.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-9任一项所述的方法。