CN112949381A

CN112949381A - 一种图像内容识别方法及系统

Info

Publication number: CN112949381A
Application number: CN202110077669.0A
Authority: CN
Inventors: 涂益浪
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-06-11

Abstract

本发明提出了一种图像内容识别方法及系统，涉及教育技术领域。一种图像内容识别方法，包括：获取字符卡片的图像内容信息；从图像内容信息中提取出待识别内容，并对待识别内容进行文本分割，以获得若干个待识别单元；将若干个待识别单元依次输入预设翻译模型，并统计预设翻译模型输出文本的次数；根据文本出现次数最多的文本在预设的索引表中查找对应的字符，并判断字符与对应的预设字符模型的匹配程度。其能够通过具象化不同的字符卡片的体验式学习方式，提高英语学习者对音标或单词的理解认知度和熟练度。此外本发明还提出了一种图像内容识别系统，包括：获取模块、分割模块、输入输出模块、判断模块以及确定模块。

Description

一种图像内容识别方法及系统

技术领域

本发明涉及教育技术领域，具体而言，涉及一种图像内容识别方法及系统。

背景技术

英文音标是学习英语的重要工具，然而纯音标的学习是抽象的、枯燥的，面对刚刚学习音标，特别是活泼好动、注意力难以持久的小朋友来说，学习音标的过程绝对是一个挑战；其次，对于初学者来说，元音与辅音的区别以及搭配读音也是一大难点。如何利用增强现实技术实现对单一音节的拼读，同时也能实现对两个音节的组合拼读，是值得我们研究的课题。

目前，英语学习者学习英文单词的方法，一般是通过字母认读。不过由于英文的入门者，突然接触到48个英语国际音标和26个英文字母及音标字母的认读时，在脑中只能形成抽象的形象，后期通过多次的反复记忆才可最终达到认读音标或单词的效果。这种学习方式的整个过程都枯燥无味，学生的学习效率相对低下。可见一款能让英语学习者更容易接受且更好理解的具象化体验式学习音标或单词的产品才是英语学习者真正迫切需要的。

发明内容

本发明的目的在于提供一种图像内容识别方法，其能够通过具象化不同的字符卡片的体验式学习方式，提高英语学习者对音标或单词的理解认知度和熟练度。

本发明的另一目的在于提供一种图像内容识别系统，其能够运行一种图像内容识别方法。

本发明的实施例是这样实现的：

第一方面，本申请实施例提供一种图像内容识别方法，其包括获取字符卡片的图像内容信息；从图像内容信息中提取出待识别内容，并对待识别内容进行文本分割，以获得若干个待识别单元；将若干个待识别单元依次输入预设翻译模型，并统计预设翻译模型输出文本的次数；根据文本出现次数最多的文本在预设的索引表中查找对应的字符，并判断字符与对应的预设字符模型的匹配程度；根据匹配程度确定与字符卡片的图像内容信息对应的文字模板。

在本发明的一些实施例中，获取字符卡片的图像内容信息包括：获取印有音标元音或辅音图像的字符卡片，每张卡片都印有具备唯一识别特征的音标图案。

在本发明的一些实施例中，包括元音图案和辅音图案独立印制，且每一张字符卡片印制有音标字母的图案和与该音标发音相似或字形相似的形象化图案，在字符卡片图案处理中，字母图案和形象化图案同时作为识别依据。

在本发明的一些实施例中，从图像内容信息中提取出待识别内容，并对待识别内容进行文本分割，以获得若干个待识别单元包括：将待识别内容与预设的文本模板库中的各文本模板分别计算相似度；将相似度最高的文本模板确定为与待识别内容匹配的文本模板。

在本发明的一些实施例中，还包括对字符卡片的图像进行图像处理，得到中间图像，根据中间图像进行图像边缘查找，得到边缘查找结果。

在本发明的一些实施例中，包括对边缘查找结果进行像素邻域计算，得到多个像素连通区域，根据多个像素连通区域中提取待识别文字。

在本发明的一些实施例中，将若干个待识别单元依次输入预设翻译模型，并统计预设翻译模型输出文本的次数包括：判断若干个待识别单元中是否存在包含图像组合的目标单元，若否，将若干个待识别单元依次输入预设翻译模型；若是，将若干个待识别单元中除去目标单元的其他单元依次输入预设翻译模型。

在本发明的一些实施例中，包括：获取待识别内容对应的正确答案，根据正确答案，对待识别内容进行判定；若目标图像组合有误，确定目标图像组合对应的音标，并获得音标对应的目标文字，将目标文字标记为注音错误类，并输出目标文字的正确信息。

第二方面，本申请实施例提供一种图像内容识别系统，其包括获取模块，用于获取字符卡片的图像内容信息；分割模块，用于从图像内容信息中提取出待识别内容，并对待识别内容进行文本分割，以获得若干个待识别单元；输入输出模块，用于将若干个待识别单元依次输入预设翻译模型，并统计预设翻译模型输出文本的次数；判断模块，用于根据文本出现次数最多的文本在预设的索引表中查找对应的字符，并判断字符与对应的预设字符模型的匹配程度；确定模块，用于根据匹配程度确定与字符卡片的图像内容信息对应的文字模板。

在本发明的一些实施例中，包括：用于存储计算机指令的至少一个存储器；与上述存储器通讯的至少一个处理器，其中当上述至少一个处理器执行上述计算机指令时，上述至少一个处理器使上述系统执行：获取模块、分割模块、输入输出模块、判断模块以及确定模块。

相对于现有技术，本发明的实施例至少具有如下优点或有益效果：

通过从字符卡片的图像中提取出待识别内容，并对待识别内容进行文本分割，获得若干个待识别单元，其中，待识别单元为英文或者音标；之后，将若干个待识别单元输入预设翻译模型，从而基于预设翻译模型用于将字符卡片的图像翻译为文本的特性，通过统计预设翻译模型输出文本的次数，以获得被识别为字符卡片的图像的待识别单元的个数；并且，当被识别为多个图像的待识别单元在上述若干个待识别单元中所占比值大于或者等于预设比值时，将待识别内容标记为单个字母，否则将待识别内容标记多个字母，能够解决单个字符识别的局限性，从而分辨出待识别内容在当前学习环境下所代表的含义，提高内容识别的准确率，进而提升后续对答案内容进行批改的准确率，改善用户的学习体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种图像内容识别方法步骤示意图；

图2为本发明实施例提供的一种图像内容识别方法详细步骤示意图；

图3为本发明实施例提供的一种图像内容识别系统模块示意图。

图标：10-获取模块；20-分割模块；30-输入输出模块；40-判断模块；50-确定模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1，图1为本发明实施例提供的一种图像内容识别方法步骤示意图，其如下所示：

步骤S100，获取字符卡片的图像内容信息；

在一些实施方式中，在通过预设滑动操作使应用界面进行切换时，向服务端接口发送信息获取请求，通过信息获取请求从服务器获取字符卡片中所有功能区块的名称、简介和内容，此时字符卡片只渲染了首屏露出的部分，未露出的部分未渲染。

预设滑动操作可以指用户的手指在应用界面滑动，以使字符卡片跟随手指滑动而展示未渲染的字符卡片的操作，示例性的，可以指通过手指的慢速滑动(如滑动速度<10cm/s)，使应用界面跟随手指慢速滑动，此时，应用界面中的功能区块由右侧向左侧展现，从而逐渐获取字符卡片的图像内容信息，直至获取到完整的图像内容信息。

步骤S110，从图像内容信息中提取出待识别内容，并对待识别内容进行文本分割，以获得若干个待识别单元；

具体的，待识别内容为需要翻译的内容。

在一些实施方式中，电子设备可以通过OCR(Optical Character Recognition，光学字符识别)技术将图像转为文本信息，以获得待识别内容。电子设备以空格符号以及预设标点符号(比如逗号、句号、省略号等)为分割符，将待识别内容分割为若干个待识别单元，其中，待识别单元可以为单个字母或者词语。

举例来说，若待识别内容为“Nice to meetyou”，则电子设备对该待识别内容进行文本分割后获得4个待识别单元，包括：“Nice”、“to”、“meet”以及“you”；若待识别内容为“ni hao”，则电子设备对该待识别内容进行文本分割后获得5个待识别单元，包括：“n”、“i”、“h”、“a”以及“o”；若待识别内容为“zao”，则电子设备对该待识别内容进行文本分割后获得3个待识别单元，包括：“z”、“a”以及“o”。

步骤S120，将若干个待识别单元依次输入预设翻译模型，并统计预设翻译模型输出文本的次数；

在一些实施方式中，预设翻译模型可以是pix2pix模型、pix2pixHD模型、vid2vid模型，先将输入图像“翻译”成相应的输出图像，比如：一个图像场景可以以RGB图像、梯度场、边缘映射、语义标签映射等形式呈现。再将翻译后的图像输入进Attention模型，将有限的注意力集中在重点信息上，从而节省资源，快速获得最有效的信息。

在一些实施方式自，预设翻译模型用于将英文译为中文，若电子设备将任一待识别单元输入预设翻译模型之后，预设翻译模型输出中文，则该待识别单元可被识别为英文。比如，假设电子设备将5个待识别单元“Nice”、“to”、“meet”、“you”依次输入预设翻译模型，预设翻译模型分别输出翻译结果：“美好的”、“到”、“遇见”、“你”，可见，预设翻译模型输出5次中文，故可知5个待识别单元均为英文。

步骤S130，根据文本出现次数最多的文本在预设的索引表中查找对应的字符，并判断字符与对应的预设字符模型的匹配程度；

在一些实施方式中，获得输入的图像不同的字符卡片的图像信息，根据图像信息在预设的索引表中查找对应的字符并判断预设字符模型对应的预设字符模型的匹配程度；提示设备根据匹配程度发出相对应的预设提示信息。其中，图像信息包括图像信息和方向信息，索引表包括图像、音标索引表、图像词索引表；字符卡片包括字母卡，预设字符方向模型包括预设音标方向模型和预设单词方向模型。

步骤S140，根据匹配程度确定与字符卡片的图像内容信息对应的文字模板。

在一些实施方式中，通过对英语学习者具象化摆放的图像不同的字符卡片的图像信息的采集，识别出字符卡片对应的图像信息和方向信息，以便实时获得音标或单词对应的汉语音标读音和英文单词读音，达到了体验式学习的目的，提高了英语学习者对音标或单词的理解认知度和熟练度。整个过程只需采集和识别字符卡片的图像信息和方向信息，对图像采集设备的像素要求低，识别算法相对简单，可见该字符的识别方法和识别设备成本低廉且响应快速。

实施例2

请参阅图2，图2为本发明实施例提供的一种图像内容识别方法详细步骤示意图，其如下所示：

步骤S200，获取印有音标元音或辅音图像的字符卡片，每张卡片都印有具备唯一识别特征的音标图案；

步骤S210，元音图案和辅音图案独立印制，且每一张字符卡片印制有音标字母图案和与该音标发音相似或字形相似的形象化图案，在字符卡片图案处理中，字母图案和形象化图案同时作为识别依据；

步骤S220，将待识别内容与预设的文本模板库中的各文本模板分别计算相似度；

步骤S230，将相似度最高的文本模板确定为与待识别内容匹配的文本模板；

步骤S240，对字符卡片的图像进行图像处理，得到中间图像，根据中间图像进行图像边缘查找，得到边缘查找结果；

步骤S250，对边缘查找结果进行像素邻域计算，得到多个像素连通区域，根据多个像素连通区域中提取待识别文字；

步骤S260，判断若干个待识别单元中是否存在包含图像组合的目标单元，若否，将若干个待识别单元依次输入预设翻译模型；若是，将若干个待识别单元中除去目标单元的其他单元依次输入预设翻译模型；

步骤S270，获取待识别内容对应的正确答案，根据正确答案，对待识别内容进行判定；

步骤S280，若目标图像组合有误，确定目标图像组合对应的音标，并获得音标对应的目标文字，将目标文字标记为注音错误类，并输出目标文字的正确信息。

在一些实施方式中，当获得的字符卡片的颜色信息在预设的颜色、音标索引表中能查找到对应的音标，同时方向信息和音标对应的预设音标方向模型相匹配，则发出音标语音信息，也可以同步播放音标语音信息对应的视频短片。

例如：英语学习者摆放字母卡片b，o和声调卡片后，立即拼读出音标语音信息“bo，b-o，bo”，并同步播放音标语音信息对应的视频短片，如语音播放“从前有个小朋友，他叫bobo，他喜欢吃bo萝……，向bo璃外看去，bobo……”，显示屏播放对应的视频画面“一个小朋友正在吃菠萝……”。

若选择为汉语音标识别模式，当获得的字符卡片的颜色信息在预设的颜色，音标索引表中能查找到对应的音标，但方向信息和音标对应的预设音标方向模型不相匹配，则发出报错语音信息。

在一些实施方式中，目标比值为预设翻译模型输出中文的次数与待识别单元的总数之间的比值。举例来说，假设预设比值为0.6，若电子设备将5个待识别单元“Chinese”、“character”、“shou”、“means”以及“longevity”依次输入预设翻译模型，则预设翻译模型可输出“Chinese(中国的)”、“character(字符)”、“means(意思是)”以及“longevity(长寿)”的中文，而无法翻译音标“shou(寿)”，故统计得到预设翻译模型输出4次中文。此时，目标比值＝预设翻译模型输出中文的次数÷待识别单元的总数＝4÷5＝0.8。由于目标比值0.8大于预设比值0.6，则电子设备将待识别内容标记为英文。

在一些实施方式中，获取的图像信息是“图像对应的英语国际音标符号：元音/3:/代表三哥”，则经过翻译模型输出的文本为“故事对应的发音类似于汉字“哥”的韵母的声音。这是故事的主人公，大家都叫他“三哥”，他的额头上有个“三”，代表数字“3”，同时也代表三哥。音标/3:/的形状就和数字“3”的形状相似”；

获取的图像信息是“图像对应的英语国际音标符号：元音/Λ/代表锯齿”，则经过翻译模型输出的文本为“故事对应的发音类似于被锯齿割到时发出的“啊”的短音。这是一把锯子，故事内容是：三哥在上山砍柴时不小心被野草的细齿割伤，而后发明了锯齿。锯齿的形状和音标符号/Λ/的形状非常相似。当不小心被锯齿割到的时候就会发出短促的“啊”的一声”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/s/代表毒蛇”，则经过翻译模型输出的文本为“故事对应的发音类似于蛇与地面摩擦发出的“嘶”的声音。这是一条毒蛇。故事内容是：这是山中的一种猛兽，这条蛇的形状类似于S形，蛇与地面摩擦发出的声音类似于“嘶……”，而且恰好和汉语拼音符号s的形状和发音也非常相似”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/z/代表狮子打盹”，则经过翻译模型输出的文本为“故事对应的发音类似于打盹时发出的“嗞”的声音。这是一头沉睡的狮子。故事内容是：这是山中的另一种猛兽，这只狮子正在打盹，打盹的时候发出“嗞……”的声音，图像中打盹的标志和音标符号/z/的形状相似”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/∫/狮子(尾巴)”，则经过翻译模型输出的文本为“故事对应的发音类似于见到狮子提醒保持安静的“嘘”的声音。这是一头出来觅食的狮子。故事内容是：这只狮子出来觅食了，狮子尾巴翘起来了，这只狮子的尾巴的形状和音标符号/∫/相似。当你远远的看到狮子翘起的尾巴的时候，就要十分当心，保持安静，提醒大家保持安静的时候就会发出类似于“嘘”的声音”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/ts/他遇到毒蛇”，则经过翻译模型输出的文本为“故事对应的发音类似于刺溜一下就跑了的“刺”的轻声。这是三哥他遇到了毒蛇。故事内容是：有一次三哥上山砍柴，遇到了山中的那条毒蛇，他一看见就刺溜一下跑了。左边的t代表他，也就是故事的主人公三哥，右边的s代表毒蛇，ts代表他遇到毒蛇，“刺”溜一下就跑了”；

获取的图像信息是“故事对应的发音类似遇到狮子后喊哎呀我去的“去”的轻声。这是三哥他遇到了出来觅食的狮子。故事内容是：这一次三哥上山砍柴，不巧撞见了正出来觅食的狮子，三哥喊了一声“哎呀，我去！”。左边的t代表他，也就是故事的主人公三哥，右边的∫代表狮子尾巴，也就代表狮子，t∫代表他遇到狮子，喊了一声哎呀，我去！”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/h/人靠着树喘气休息”，则经过翻译模型输出的文本为“故事对应的发音类似于大口喘气时“呵”的轻声。这是三哥靠着树大口喘气。故事内容是：三哥不幸遇到狮子，差点被狮子吃掉，三哥舍命逃跑，跑了一路，累的不行了，只好靠着一棵树喘气休息一下。h的形状就是三哥靠着树大口喘气休息组成的形状。它代表的声音就是大口喘气呵……呵……的声音“呵””；

获取的图像信息是“图像对应的英语国际音标符号：元音/a:/”，则经过翻译模型输出的文本为“故事对应的发音类似于失足掉下山洞时大喊一声“啊”的声音。这是三哥失足掉下山洞大喊一声“啊”。故事内容是：三哥被狮子穷追不舍，刚喘口气休息又被狮子追上，于是三哥慌不择路，不慎掉下一个山洞，大喊了一声“啊”。音标符号/a:/和汉语拼音a一样，声音也类似于“啊”的声音”；

获取的图像信息是“图像对应的英语国际音标符号：元音/u:/u形的山洞”，则经过翻译模型输出的文本为“故事对应的发音类似于乌黑的山洞中“乌”的声音。这是三哥发现这是一个一片乌黑的U形山洞。故事内容是：三哥掉入山洞后，环顾四周，发现这是一个很深的U形的山洞，而且土都是乌黑乌黑的，估计这是一个废弃已久的煤矿井。/u:/的声音类似于乌黑的乌”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/θ/大舌头”，则经过翻译模型输出的文本为“故事对应的发音类似于伸出舌头发出的咬舌的“嘶”的声音。这是三哥摔成了大舌头。故事内容是：三哥掉入山洞，虽然暂时躲过了狮子，但是发现自己无法逃出这个一片乌黑的山洞，就想喊人来救命，刚一开口，发现自己被摔成了大舌头，喊不出声，只能发出轻轻咬舌的“嘶”的声音。/θ/的形状就像伸出来的大舌头，中间的横线代表一排牙齿，表示舌头伸出来超过牙齿，牙齿轻轻抵住舌头”；

获取的图像信息是“图像对应的英语国际音标符号：元音

猫头鹰的外形”，则经过翻译模型输出的文本为“故事对应的发音类似于猫头鹰短促的叫声“呜”这是三哥得到一只猫头鹰的指引。故事内容是：三哥在山洞里待了很久，天色也渐渐晚了，这时洞口的树枝上飞来了一只猫头鹰，三哥听到了洞口传来的猫头鹰发出的“呜呜”的叫声，然后他就听到了一个声音说“这个洞里有两件宝物可以帮助你”，随后三哥就听到猫头鹰扑腾着翅膀飞走了。音标符号

的形状和猫头鹰的外形相似，它的发音类似于猫头鹰短促的“呜”的叫声”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/

/哨子的外形”，则经过翻译模型输出的文本为“故事对应的发音类似于“哨子”中咬舌的“子(zh)”的声音这是三哥在山洞里找到的哨子。故事内容是：三哥在猫头鹰的指引下开始在洞里摸索，果真找到了一个东西，细看原来是一个哨子，于是三哥拿起哨子要吹，看是否有人在附近，可是由于三哥的大舌头还没有恢复，他根本没法吹响这个哨子。音标符号

类似于哨子的外形，符号上的那一短横同样代表一排牙齿，意思是牙齿碰着舌头，没法吹响哨子，它的发音类似于“哨子”中咬舌的“子(zh)”的声音”；

获取的图像信息是“图像对应的英语国际音标符号：元音/i:/一根蜡烛滴下蜡油”，则经过翻译模型输出的文本为“故事对应的发音类似于一二三四的“一”的声音这是三哥找到了有一根蜡烛的神灯。故事内容是：三哥发现哨子没法吹响，就把哨子扔在一边，这时它突然听到了哨子撞到什么东西的响声，于是它想起了刚才洞口猫头鹰的声音，洞里有两件宝物可以帮助自己，于是他赶紧挖了起来，果真挖出来一盏灯，灯上有一根蜡烛，三哥用衣服擦了擦灯上的泥土，结果这盏灯亮了起来，没一会儿蜡烛滴下了两滴蜡油，然后就出现了一个精灵，三哥听到了一个声音“主人，这是一盏神灯，我是住在这盏神灯里的灯神，现在您就是我的主人。您每次只要在这盏灯上擦两下，就可以点亮这根蜡烛，当蜡烛滴下两滴蜡油的时候，我就会现身，而且可以帮助您实现您的一个愿望。”。音标符号/i：/的形状就像这盏神灯上点亮的蜡烛，那两点就是两滴蜡油。因为这盏神灯上只有一根蜡烛，所以它的发音类似于“一”，而且口型是微笑的口型，表示的是三哥每次看到蜡烛滴下两滴蜡油的时候都会开心的微笑起来，因为又可以对灯神许愿了”；

获取的图像信息是“图像对应的英语国际音标符号：元音

1根熄灭的蜡烛”，则经过翻译模型输出的文本为“故事对应的发音类似于士兵走正步时喊121的“1”的短音这是神灯上的蜡烛熄灭了。故事内容是：三哥自从得到神灯之后，实现了很多愿望(得到神灯之后的故事留在后面讲)，他也从此不再劳动了，而灯神只愿意帮助勤劳善良的人，于是灯神决定惩罚他，从此这盏神灯再也无法擦亮了，神灯上的蜡烛也无法点亮了，也看不到蜡油滴下来了，这盏神灯在三哥的手里就变成了1根普通的蜡烛。音标符号

的形状就像1根熄灭的没有火苗的蜡烛，它的发音类似于部队里士兵跑操时喊的口号“121”中短促的“1”的声音”；

获取的图像信息是“图像对应的英语国际音标符号：元音

苹果”，则经过翻译模型输出的文本为“故事对应的发音苹果英文单词apple的第一个音

这是一个苹果。故事内容是：三哥得到神灯之后，他许愿得到了一颗苹果树，这不是普通的苹果树，这棵树上结的苹果吃了可以永葆青春，三哥摘下了一个苹果咬了两大口。音标符号

就像被咬了两大口的苹果，它的发音就是苹果的英文单词apple的第一个音(首音)

而且大口咬苹果代表这个发音的口型比较大”；

获取的图像信息是“图像对应的英语国际音标符号：元音

手握橘子”，则经过翻译模型输出的文本为“故事对应的发音橘子英文单词orange的第一个音

这是一个橘子。故事内容是：三哥向神灯许愿得到了一棵橘子树，这可不是普通的橘子树，这棵橘子树结的橘子吃了可以永葆健康。三哥摘下一个橘子握在手里，立刻就有橘子汁流出来，美味极了。音标符号

的形状就像手握橘子的形状，那两滴橘子汁就代表符号中的两点。它的发音就是橘子的英文单词orange的第一个音(首音)

”；

获取的图像信息是“图像对应的英语国际音标符号：元音

两手握橘子”，则经过翻译模型输出的文本为“故事对应的发音橘子英文单词orange的第一个音的短音

故事内容是：音标符号

的形状就像右手握橘子，左手贴着右手。它的发音就是橘子orangge的第一个音的短音

”；

获取的图像信息是“图像对应的英语国际音标符号：元音

回头鹅”，则经过翻译模型输出的文本为“故事对应的发音这只鹅下蛋后总是发出轻声的“饿”的声音这是一只回头鹅，故事内容是：三哥向神灯许愿得到了一只鹅，但这只鹅下的蛋不是普通的蛋，而是金蛋，每次下蛋都会耗费它很大的体力，所以每次下蛋后它都会回头看着自己下的蛋并发出微弱的“饿饿饿”的声音。音标符号

的形状就像这只回头鹅的外形轮廓”；

获取的图像信息是“图像对应的英语国际音标符号：元音/e/大象蛋”，则经过翻译模型输出的文本为“故事对应的发音蛋egg和大象elephant的第一个音/e/这是一个大象蛋，故事内容是：那只鹅下的金蛋神奇的孵出了一只大象。音标符号/e/的形状和蛋的外形相似，它的发音就是蛋的英文单词egg和大象elephant的第一个音/e/”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/η/大象的长鼻子”，则经过翻译模型输出的文本为“故事对应的发音类似于大象的象的拼音中的最后一个后鼻音这是一头大象，故事内容是：这就是那只鹅下的金蛋孵出的大象，音标符号/η/的形状和大象的前腿和鼻子组合的外形相似，它的发音类似于大象的“像”的汉语拼音中的最后一个音：后鼻音”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/n/一扇门的形状”，则经过翻译模型输出的文本为“故事对应的发音类似于看到一所大房子点头称赞“嗯”的声音这是一间大房子，故事内容是：三哥得到神灯之后想改善一下住房，于是向灯神许愿得到了一间又大又漂亮的房子，这个房子有一个拱形的大门，三哥很满意，连连点头称赞，“嗯……不错不错”。音标符号/n/的形状和一扇门的外形相似，在故事中代表漂亮的大房子，它的发音类似于点头称赞发出的“嗯”的声音，相当于汉语拼音中的前鼻音n”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/m/一奶牛的鼻子”，则经过翻译模型输出的文本为“故事对应的发音类似闭上嘴巴发出的奶牛的叫声“哞”的声音这是一头奶牛，故事内容是：三哥有了大房子后，想改善一下营养，就许愿得到了一头奶牛，这头奶牛产的奶就叫特仑苏。音标符号/m/的形状和这头奶牛鼻子的外形相似，它的发音类似于闭嘴时发出的“哞”的鼻音”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/w/一公鸡鸡冠的外形”，则经过翻译模型输出的文本为“故事对应的发音类似公鸡喔喔叫的“喔”的轻声这是一只公鸡，故事内容是：三哥发现这个神灯果然神奇，于是他突发奇想，要了一只能下蛋的大公鸡，这只大公鸡下蛋后总会“喔喔”的叫，有一种风靡一时的奶糖叫“喔喔奶糖”。音标符号/w/的形状和公鸡鸡冠的轮廓的外形相似，它的发音类似于公鸡喔喔叫的“喔”的轻声”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/l/一乐事薯条”，则经过翻译模型输出的文本为“故事对应的发音类似乐事“乐”的轻声这是乐事薯条，故事内容是：三哥从此过上了无忧无虑，乐不思蜀的日子，每天吃着乐事薯条，快乐极了。音标符号/l/的形状和乐事薯条的形状相似，也是乐事的英文单词lays的第一个字母，它的发音类似于乐事的“乐”的轻声”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/v/摩托车V形风挡”，则经过翻译模型输出的文本为“故事对应的发音类似于咬唇发出的模拟摩托车发动机的声音。这是一辆摩托车，故事内容是：三哥在村里待腻了，想去外面逛逛，于是许愿得到了一辆摩托车。音标符号/v/的形状和这两摩托车前面的风挡的形状相似，它的发音类似于咬唇(上排牙齿轻轻咬住下嘴唇)发出的模拟摩托车发动机的声音”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/f/一根拐杖”，则经过翻译模型输出的文本为“故事对应的发音类似于扶着拐杖的“扶”的轻声。这是一根拐杖，故事内容是：三哥骑着摩托车在外面到处乱逛，结果乐极生悲，不小心从车上摔了下来，后来只能扶着拐杖走路，过了很长时间才恢复。音标符号/f/的形状和这根拐杖的形状相似，它的发音类似于扶着拐杖的“扶”的轻声”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/r/—兔子头部和前腿组合”，则经过翻译模型输出的文本为“故事对应的发音类似于兔子很弱小的“弱”的轻声。这是一只兔子，故事内容是：三哥因为贪图享乐，失去了灯神的帮助，也失去了神灯所赋予的一切。三哥不得不重新回到田里干活。可是因为长时间没有劳动，三哥已经不愿意干活了。就在回到田间的第一天，三哥就幸运的遇到一只弱小的兔子撞到了田边的一棵树桩上，倒在了地上。音标符号/r/的形状和这只兔子耳朵，头部和前腿的组合的形状相似，它的发音类似于兔子很弱小的“弱”的轻声，同时r也是兔子的英文单词rabbit的第一个字母”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/t/—代表他，即三哥”，则经过翻译模型输出的文本为“故事对应的发音类似于汉字“他”的轻声”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/tr/—他用手戳兔子”，则经过翻译模型输出的文本为“故事对应的发音类似于汉字戳兔子“戳”的轻声。这是三哥他在用手戳兔子，故事内容是：三哥看到撞到树桩上然后倒在地上的兔子后，蹲下来，捡起了那只兔子并戳了戳，发现这只兔子真的死了。t代表他，r代表兔子，组合起来表示他戳兔子。它的发音类似于他戳兔子“戳”的轻声”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/d/—代表他坐在树桩旁等”，则经过翻译模型输出的文本为“故事对应的发音类似于汉字“等”的轻声。这是三哥坐在树桩旁等，故事内容是：三哥看到撞到树桩上然后倒地的兔子，就想着要是每天都能碰到这样的好事，那该多好啊，于是他索性啥也不做，就坐在那棵树桩旁等。音标符号/d/的形状和三哥坐在树桩旁的形状相似，它的发音类似于汉字“等”的轻声”；

获取的图像信息是“图像对应的英语国际音标符号：辅音/dr/—代表等着捉兔子”，则经过翻译模型输出的文本为“故事对应的发音类似于汉字捉兔子的“捉”的轻声。

这是三哥坐在树桩旁等着捉兔子，故事内容是：三哥从此就坐在树桩旁等着，等什么呢，等着捉自己撞到树桩上的兔子。d代表坐在树桩旁等，r代表兔子。组合起来表示坐在树桩旁等着捉兔子”；

获取的图像信息是“图像对应的英语国际音标符号：辅音

—代表太阳”，则经过翻译模型输出的文本为“故事对应的发音类似于汉字“日”的轻声。这是太阳，故事内容是：三哥在等的时候在树桩上立着一根针，他想通过太阳照射针的影子的移动来判断时间，这就是我国古代的日晷。音标符号

的形状就是汉字太阳的“阳”字左边的一部分，“阳”字再简化就是“日”，日就代表太阳，它的发音类似于“日”的轻声”；

获取的图像信息是“图像对应的国际音标符号：辅音/k/—代表用锯齿在树桩上刻”，则经过翻译模型输出的文本为“故事对应的发音类似于汉字刻记号的“刻”的轻声。这是三哥用锯子在树桩上刻上记号，故事内容是：三哥想知道自己多久能等到兔子，于是就借助日晷并用锯子在树桩上刻一道线，代表一个小时，音标符号/k/的左边的一竖就代表树桩，右边符号就代表锯齿，锯齿在故事开头就提到过/Λ/，组合表示用锯子在树桩上刻记号”；

获取的图像信息是“图像对应的国际音标符号：辅音/dz/—代表等着等着睡着了”，则经过翻译模型输出的文本为“故事对应的发音类似于睡着了的拟声的“嗞”的轻声。这是三哥等着等着睡着了，故事内容是：三哥等了很久都没有等到兔子出现，等着等着就睡着了。音标符号/dz/中d代表三哥坐在树桩旁边等，z代表睡着打呼噜的符号，组合起来表示三哥等着等着睡着了。它的发音类似于睡着后轻轻的呼噜声“嗞””；

获取的图像信息是“图像对应的国际音标符号：辅音/g/—代表9个小时”，则经过翻译模型输出的文本为“故事对应的发音类似于9个小时中的“个”的轻声。这是9个小时，故事内容是：三哥从早上九点等到了下午6点，一共等了9个小时。音标符号/g/的形状和数字9的形状相似，同时代表三哥等了9个小时，它的发音类似于“9个小时”中“个”的轻声”；

获取的图像信息是“图像对应的国际音标符号：辅音

—代表等到日落”，则经过翻译模型输出的文本为“故事对应的发音类似于汉字知道的“知”的轻声。这是三哥等到日落，故事内容是：三哥等到了下午6点，太阳都落山了，还是没有等到兔子，这下三哥终于知道了，守株待兔是不会有收获的。音标符号

中左边的d代表等，右边的

代表日，即太阳，组合起来表示等到日落，它的发音类似于终于知道了的“知”的轻声”；

获取的图像信息是“图像对应的国际音标符号：辅音/j/—因为饥饿吃的太急噎着了”，则经过翻译模型输出的文本为“故事对应的发音类似于噎着的“噎”的轻声。这是三哥噎着了，故事内容是：三哥等了一整天都没有吃饭，实在饥饿了，回到家，就吃了一碗大米饭，结果因为饥饿而吃的太急了，结果噎着了。音标符号/j/的形状像三哥的身体，上面的一点代表三哥头上的发髻。同时j也是汉语拼音，在故事中表示饥饿，吃的急，它的发音类似于吃饭太急噎着了的“噎”的轻声”；

获取的图像信息是“图像对应的国际音标符号：辅音/b/—田螺姑娘怀着宝宝”，则经过翻译模型输出的文本为“故事对应的发音类似于宝宝的第二个“宝”的轻声。这是田螺姑娘，故事内容是：三哥明白了只有付出才会有收获，于是每日勤勤恳恳的干活，日子也慢慢好起来了。有一天，他在田里干活的时候发现了一个特别大的田螺，于是就把它带回了家里，放在了家里的水缸里……后来的故事大家都知道了，这个田螺就是仙女的化身，来帮助勤劳的三哥的。后来田螺姑娘留在了人间，嫁给了勤劳的三哥，并怀上了一个宝宝。音标符号/b/的形状和挺着大肚子怀了宝宝的田螺姑娘的形状相似，它的发音类似于宝宝的第二个“宝”的轻声”；

获取的图像信息是“图像对应的国际音标符号：辅音/p/—小女孩吹泡泡”，则经过翻译模型输出的文本为“故事对应的发音类似于吹泡泡的第二个“泡”的轻声。这是三哥的女儿，故事内容是：田螺姑娘为三哥生下了一个可爱的女儿，校内女孩最喜欢的就是吹泡泡了。音标符号/p/的形状和小女孩吹泡泡的形象相似。它的发音类似于吹泡泡的第二个“泡”的轻声”；

获取的图像信息是“图像对应的音标符号：双元音

大象蛋和蜡烛的组合”，则经过翻译模型输出的文本为“符号对应的发音/e/和

发音的组合”；

获取的图像信息是“图像对应的音标符号：双元音

掉下山洞和蜡烛的组合”，则经过翻译模型输出的文本为“符号对应的发音/a/和

发音的组合”；

获取的图像信息是“图像对应的音标符号：双元音

手握橘子和蜡烛的组合”，则经过翻译模型输出的文本为“符号对应的发音

和

发音的组合”；

获取的图像信息是“图像对应的音标符号：双元音

蜡烛和回头鹅的组合”，则经过翻译模型输出的文本为“符号对应的发音

和

发音的组合”；

获取的图像信息是“图像对应的音标符号：双元音

大象蛋和回头鹅的组合”，则经过翻译模型输出的文本为“符号对应的发音/e/和

发音的组合”；

获取的图像信息是“图像对应的音标符号：双元音

猫头鹰和回头鹅的组合”，则经过翻译模型输出的文本为“符号对应的发音

和

发音的组合”；

获取的图像信息是“图像对应的音标符号：双元音

猫头鹰和回头鹅的组合”，则经过翻译模型输出的文本为“符号对应的发音/a/和

发音的组合”；

获取的图像信息是“图像对应的音标符号：双元音

回头鹅和猫头鹰的组合”，则经过翻译模型输出的文本为“符号对应的发音

和

发音的组合”；

实施例3

请参阅图3，图3为本发明实施例提供的一种图像内容识别系统模块示意图，其如下所示：

获取模块10，用于获取字符卡片的图像内容信息；

分割模块20，用于从图像内容信息中提取出待识别内容，并对待识别内容进行文本分割，以获得若干个待识别单元；

输入输出模块30，用于将若干个待识别单元依次输入预设翻译模型，并统计预设翻译模型输出文本的次数；

判断模块40，用于根据文本出现次数最多的文本在预设的索引表中查找对应的字符，并判断字符与对应的预设字符模型的匹配程度；

确定模块50，用于根据匹配程度确定与字符卡片的图像内容信息对应的文字模板。

还包括存储器、处理器和通信接口，该存储器、处理器和通信接口相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器可用于存储软件程序及模块，处理器通过执行存储在存储器内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口可用于与其他节点设备进行信令或数据的通信。

其中，存储器可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图3所示的结构仅为示意还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种图像内容识别方法及系统，通过从字符卡片的图像中提取出待识别内容，并对待识别内容进行文本分割，获得若干个待识别单元，其中，待识别单元为英文或者音标；之后，将若干个待识别单元输入预设翻译模型，从而基于预设翻译模型用于将字符卡片的图像翻译为文本的特性，通过统计预设翻译模型输出文本的次数，以获得被识别为字符卡片的图像的待识别单元的个数；并且，当被识别为多个图像的待识别单元在上述若干个待识别单元中所占比值大于或者等于预设比值时，将待识别内容标记为单个字母，否则将待识别内容标记多个字母，能够解决单个字符识别的局限性，从而分辨出待识别内容在当前学习环境下所代表的含义，提高内容识别的准确率，进而提升后续对答案内容进行批改的准确率，改善用户的学习体验。

Claims

1.一种图像内容识别方法，其特征在于，包括：

获取字符卡片的图像内容信息；

从图像内容信息中提取出待识别内容，并对待识别内容进行文本分割，以获得若干个待识别单元；

将若干个待识别单元依次输入预设翻译模型，并统计预设翻译模型输出文本的次数；

根据文本出现次数最多的文本在预设的索引表中查找对应的字符，并判断字符与对应的预设字符模型的匹配程度；

根据匹配程度确定与字符卡片的图像内容信息对应的文字模板。

2.如权利要求1所述的一种图像内容识别方法，其特征在于，所述获取字符卡片的图像内容信息包括：

获取印有音标元音或辅音图像的字符卡片，每张卡片都印有具备唯一识别特征的音标图案。

3.如权利要求2所述的一种图像内容识别方法，其特征在于，还包括：

元音图案和辅音图案独立印制，且每一张字符卡片印制有音标字母的图案和与该音标发音相似或字形相似的形象化图案，在字符卡片图案处理中，字母图案和形象化图案同时作为识别依据。

4.如权利要求1所述的一种图像内容识别方法，其特征在于，所述从图像内容信息中提取出待识别内容，并对待识别内容进行文本分割，以获得若干个待识别单元包括：

将待识别内容与预设的文本模板库中的各文本模板分别计算相似度；

将相似度最高的文本模板确定为与待识别内容匹配的文本模板。

5.如权利要求4所述的一种图像内容识别方法，其特征在于，还包括：

对字符卡片的图像进行图像处理，得到中间图像，根据中间图像进行图像边缘查找，得到边缘查找结果。

6.如权利要求5所述的一种图像内容识别方法，其特征在于，还包括：

对边缘查找结果进行像素邻域计算，得到多个像素连通区域，根据多个像素连通区域中提取待识别文字。

7.如权利要求1所述的一种图像内容识别方法，其特征在于，所述将若干个待识别单元依次输入预设翻译模型，并统计预设翻译模型输出文本的次数包括：

判断若干个待识别单元中是否存在包含图像组合的目标单元，若否，将若干个待识别单元依次输入预设翻译模型；若是，将若干个待识别单元中除去目标单元的其他单元依次输入预设翻译模型。

8.如权利要求7所述的一种图像内容识别方法，其特征在于，还包括：

获取待识别内容对应的正确答案，根据正确答案，对待识别内容进行判定；

若目标图像组合有误，确定目标图像组合对应的音标，并获得音标对应的目标文字，将目标文字标记为注音错误类，并输出目标文字的正确信息。

9.一种图像内容识别系统，其特征在于，包括：

获取模块，用于获取字符卡片的图像内容信息；

分割模块，用于从图像内容信息中提取出待识别内容，并对待识别内容进行文本分割，以获得若干个待识别单元；

输入输出模块，用于将若干个待识别单元依次输入预设翻译模型，并统计预设翻译模型输出文本的次数；

判断模块，用于根据文本出现次数最多的文本在预设的索引表中查找对应的字符，并判断字符与对应的预设字符模型的匹配程度；

确定模块，用于根据匹配程度确定与字符卡片的图像内容信息对应的文字模板。

10.如权利要求9所述的一种图像内容识别系统，其特征在于，包括：

用于存储计算机指令的至少一个存储器；

与所述存储器通讯的至少一个处理器，其中当所述至少一个处理器执行所述计算机指令时，所述至少一个处理器使所述系统执行：获取模块、分割模块、输入输出模块、判断模块以及确定模块。