CN111539408A

CN111539408A - 基于拍照识物的智能点读方案

Info

Publication number: CN111539408A
Application number: CN202010268840.1A
Authority: CN
Inventors: 王鹏
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2020-08-14

Abstract

本发明公开了基于拍照识物的智能点读方案，包括信号采集器、信号处理器、语音合成单元、人机交互端口，其特征在于：信号采集器是进行图片采集，且信号采集器基于若干类型的设备设计软件，信号处理器是完成图像信号的分析处理，包括图片定位、分割、识别，以及文本句子的生成，语音合成单元是将文本内容转换为语音信号，人机交互端口包括用户触发界面或者开关以及音频信号的输出。本发明的基于拍照识物的智能点读方案通过手持移动设备对目标区域进行拍照，对照片中的物体和文字进行定位、分割和识别，并生成特定语言的文字描述，具有很好的灵活性的特点。该专利技术的实施无需复杂的定制设备，用户操作方便，简捷易用。

Description

基于拍照识物的智能点读方案

技术领域

本发明涉及神经网络以及AI识别技术，具体是指基于拍照识物的智能点读方案。

背景技术

随着AI技术的沉淀和5G的来临，目前AI已经在很多领域得到广泛的应用，比如在线教育和远程医疗等场景，目前，基于深度神经网络技术的图像定位和识别已经比较成熟，其准确率可以达到99％以上，比如基于人脸识别的安检系统已经达到实用水平，以及刷脸支付开始流行，因此基于图像定位和识别的AI技术可以确保的稳健和高效，但是目前市场上的点读设备都是结合绘本定制的，灵活性很差。

发明内容

本发明要解决的技术问题是，针对以上问题提供基于拍照识物的智能点读方案。

为解决上述技术问题，本发明提供的技术方案为：基于拍照识物的智能点读方案，包括信号采集器、信号处理器、语音合成单元、人机交互端口，其特征在于：所述的信号采集器是进行图片采集，且信号采集器基于若干类型的设备设计软件，所述的信号处理器是完成图像信号的分析处理，包括图片定位、分割、识别，以及文本句子的生成，所述的信号采集器、信号处理器组成图片内容编辑和生成前端系统，所述的语音合成单元是将文本内容转换为语音信号，所述的人机交互端口包括用户触发界面或者开关以及音频信号的输出，且人机交互端口内设有基于位置触发的内容拼读。

本发明与现有技术相比的优点在于：本发明的基于拍照识物的智能点读方案通过手持移动设备对目标区域进行拍照，对照片中的物体和文字进行定位、分割和识别，并生成特定语言的文字描述。用户通过触摸屏点击照片中的相应物体，即可自动使用特定的语言对所述的文字描述内容进行拼读。此外，还可获得相应的解释、语义延伸、内容测试和童话搜索，以及基于联想的图片内容编辑和生成，提供了一种创新性的信息交互模式，适合帮助用户对无法识别的物体和文字进行拼读辅导和信息获取，具有很好的灵活性的特点。该专利技术的实施无需复杂的定制设备，用户操作方便，简捷易用。

作为改进，所述的信号采集器基于若干类型的设备设计软件，例如手持移动设备(比如智能手机，平板电脑，摄像机，录像笔等)或者其他可穿戴设备(比如智能眼镜)对目标区域进行拍照。

作为改进，所述的采集图像的场景可以包括对真实的物体进行图片采集，对书籍、文案内容进行图片采集，以及虚拟现实中的图片采集等。

作为改进，所述的信号处理器是完成图像信号的分析处理，对所述采集到的图片进行分析，包括对图片中物体或者文字的定位、分割和识别等，

作为改进，所采用的技术实现算法包括但不限于通过训练的深度神经网络模型，比如RCNN，Faster-RCNN等对图像内容进行End-to-End的分析。

作为改进，所述文本句子的生成通过已经得到图片中物体的标签和文字内容，依此为关键信息生成句子级别的文本描述，常用的模型有Attention-based model，GAN和Reinforcement Learning等。

作为改进，所述的基于位置触发的内容拼读对图片中的物体和文字内容都完成了区域定位和识别理解，当用户对相应位置点击触发时，即可按照预设的语言(比如英文)进行智能拼读。该步骤基于语音合成技术(Text-to-Speech,TTS)进行实现,还可以订制不同类型的声色。

作为改进，所述的触发方式又分为离线触发和在线触发。其中，离线触发是指设备对图片采集和分析处理后，等待用户对相应位置区域进行触发唤醒后，并只对该区域的内容和用户进行信息交互；在线触发是指设备对图片进行采集和分析处理完，已经同步获得用户的触发意向，并对图片整体内容和用户进行全面的信息交互，比如基于录像笔的文字采集和基于智能眼镜的视障用户辅助场景等。

作为改进，所述的图像编辑和生成是基于联想的图片内容编辑和生成，用户通过手写或语音输入要求指令(比如关键词)，基于预训练模型(比如GAN)生成新的图片或者自动修改图片的样式和内容。

附图说明

图1是基于拍照识物的智能点读方案的目标定位流程图。

图2是基于拍照识物的智能点读方案的物体分割流程图。

图3是基于拍照识物的智能点读方案的物体识别流程图。

图4是基于拍照识物的智能点读方案的文字识别流程图。

图5是基于拍照识物的智能点读方案的句子生成模块效果输出图。

图6是基于拍照识物的智能点读方案的信息检索和推荐模块效果输出图。

图7是基于拍照识物的智能点读方案的技术方案流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明。

本发明在具体实施时，基于拍照识物的智能点读方案，包括信号采集器、信号处理器、语音合成单元、人机交互端口，其特征在于：所述的信号采集器是对目标区域进行图片采集，且信号采集器内设有图像定位模块，所述的信号处理器是完成图像信号的分析处理，包括图片定位、分割、识别，以及文本句子的生成，且信号处理器构建成识别和生成模块，所述的语音合成单元是将文本内容转换为语音信号，语音合成单元组成语音合成和识别模块，且语音合成和识别模块设有句子生成模块以及基于位置触发的内容拼读模块，所述的人机交互端口包括用户触发界面或者开关以及音频信号的输出，且信息检索和推荐模块设于人机交互端口内。

所述的信号采集器基于若干类型的设备设计软件，例如手持移动设备(比如智能手机，平板电脑，摄像机，录像笔等)或者其他可穿戴设备(比如智能眼镜)对目标区域进行拍照。

所述的采集图像的场景可以包括对真实的物体进行图片采集，对书籍、文案内容进行图片采集，以及虚拟现实中的图片采集等。

所述的信号处理器是完成图像信号的分析处理，对所述采集到的图片进行分析，包括对图片中物体或者文字的定位、分割和识别等，所采用的技术实现算法包括但不限于通过训练的深度神经网络模型，比如RCNN，Faster-RCNN等对图像内容进行End-to-End的分析。

所述的文字的定位、分割和识别包括以下细节：

目标的定位，对图像中的物体或者文字位置进行识别，并标出目标边框的左上角坐标(x,y)和边框的宽w、高h，如附图1，通过对目标的定位检测，可以区分出物体和文字；

物体的分割，对于上述定位出的物体进行语义分割，在像素级别上再区分出物体和背景的边缘，如附图2；

物体的识别，对上述分割出的物体进行识别，并输出相应的关键词标签，如附图3；

文字的识别，对于所述目标的定位中定位出的文字进行处理。如附图4所示，搭建卷积神经网络进行识别。

所述文本句子的生成通过已经得到图片中物体的标签和文字内容，依此为关键信息生成句子级别的文本描述，常用的模型有Attention-based model，GAN和ReinforcementLearning等，效果如图5所示。

所述的基于位置触发的内容拼读对图片中的物体和文字内容都完成了区域定位和识别理解，当用户对相应位置点击触发时，即可按照预设的语言(比如英文)进行智能拼读。该步骤基于语音合成技术(Text-to-Speech,TTS)进行实现,还可以订制不同类型的声色。

所述的触发方式又分为离线触发和在线触发。其中，离线触发是指设备对图片采集和分析处理后，等待用户对相应位置区域进行触发唤醒后，并只对该区域的内容和用户进行信息交互；在线触发是指设备对图片进行采集和分析处理完，已经同步获得用户的触发意向，并对图片整体内容和用户进行全面的信息交互，比如基于录像笔的文字采集和基于智能眼镜的视障用户辅助场景等。

所述的图像编辑和生成是基于联想的图片内容编辑和生成，用户通过手写或语音输入要求指令(比如关键词)，基于预训练模型(比如GAN)生成新的图片或者自动修改图片的样式和内容，效果如图6。

本发明的工作原理：该发明的专利技术涉及图像、语音和自然语言处理等三大方向，目前，基于深度神经网络技术的图像定位和识别已经比较成熟，其准确率可以达到99％以上，比如基于人脸识别的安检系统已经达到实用水平，以及刷脸支付开始流行，因此基于图像定位和识别的AI技术可以确保该专利的稳健和高效。

语音处理领域也有很大的突破，近场拾音或者比较安静场景下的语音识别也做到了97％，此外语音合成技术已经可以生成各种音色的声音。

比较重要的是自然语言处理技术，通过图像识别出的图片中存在的关键元素作为关键词，以生成句子表达内容。基于BERT、XLNet等模型的自然语言处理任务，比如语义分类，阅读理解等已经超过人的认知水平。

本发明的基于拍照识物的智能点读技术，通过手持移动设备(比如智能手机，平板电脑，摄像机，录像笔等)或者其他可穿戴设备(比如智能眼镜)对目标区域进行拍照，将自动对照片中的物体和文字进行定位、分割和识别，并生成特定语言(根据设置的语言种类，比如中文，英文等)的文字描述，即所述专利技术会根据采集到的图片内容生成自然语言文本，以描述图片中的物体和场景内容。当用户通过触摸屏点击照片中的相应物体或者其他触发方式进行触发时，即可自动使用特定的语言对所述的文字描述内容进行拼读。此外，还可获得相应的解释、语义延伸、基于内容的问答和童话搜索，以及基于联想的图片内容编辑和生成。

本发明的基于拍照识物的智能点读方案可以用于教育场景，比如用户无法用英文表达物体的名字，通过手持设备进行拍照即可进行点读，还可以对用户进行知识辅导；读书时，通过录像笔可以对书本上有疑问的地方随时点读，无需铺码，方便快捷；穿戴携有该专利技术的智能眼镜，可以对视野内的物体和场景进行识别和解释，为具有视力障碍的用户带来新的光明。

该技术方案提供了一种创新性的信息获取模式，方便信息的有效获取和利用，很好的服务于在线教育和视障用户。

该技术方案的部分代码如下：

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具本的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”，“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.基于拍照识物的智能点读方案，包括信号采集器、信号处理器、语音合成单元、人机交互端口，其特征在于：所述的信号采集器是进行图片采集，且信号采集器基于若干类型的设备设计软件，所述的信号处理器是完成图像信号的分析处理，包括图片定位、分割、识别，以及文本句子的生成，所述的信号采集器、信号处理器组成图片内容编辑和生成前端系统，所述的语音合成单元是将文本内容转换为语音信号，所述的人机交互端口包括用户触发界面或者开关以及音频信号的输出，且人机交互端口内设有基于位置触发的内容拼读。

2.根据权利要求1所述的基于拍照识物的智能点读方案，其特征在于：所述的信号采集器基于若干类型的设备设计软件，例如手持移动设备(比如智能手机，平板电脑，摄像机，录像笔等)或者其他可穿戴设备(比如智能眼镜)对目标区域进行拍照。

3.根据权利要求1或2所述的信号采集器，其特征在于：所述的采集图像的场景可以包括对真实的物体进行图片采集，对书籍、文案内容进行图片采集，以及虚拟现实中的图片采集等。

4.根据权利要求1所述的基于拍照识物的智能点读方案，其特征在于：所述的信号处理器是完成图像信号的分析处理，对所述采集到的图片进行分析，包括对图片中物体或者文字的定位、分割和识别等，所采用的技术实现算法包括但不限于通过训练的深度神经网络模型，比如RCNN，Faster-RCNN等对图像内容进行End-to-End的分析。

5.根据权利要求1所述的基于拍照识物的智能点读方案，其特征在于：所述文本句子的生成通过已经得到图片中物体的标签和文字内容，依此为关键信息生成句子级别的文本描述，常用的模型有Attention-based model，GAN和Reinforcement Learning等。

6.根据权利要求1所述的基于拍照识物的智能点读方案，其特征在于：所述的基于位置触发的内容拼读对图片中的物体和文字内容都完成了区域定位和识别理解，当用户对相应位置点击触发时，即可按照预设的语言(比如英文)进行智能拼读。该步骤基于语音合成技术(Text-to-Speech,TTS)进行实现,还可以订制不同类型的声色。

7.根据权利要求6所述的基于位置触发的内容拼读，其特征在于：所述的触发方式又分为离线触发和在线触发。其中，离线触发是指设备对图片采集和分析处理后，等待用户对相应位置区域进行触发唤醒后，并只对该区域的内容和用户进行信息交互；在线触发是指设备对图片进行采集和分析处理完，已经同步获得用户的触发意向，并对图片整体内容和用户进行全面的信息交互，比如基于录像笔的文字采集和基于智能眼镜的视障用户辅助场景等。

8.根据权利要求1所述的基于拍照识物的智能点读方案，其特征在于：所述的图像编辑和生成是基于联想的图片内容编辑和生成，用户通过手写或语音输入要求指令(比如关键词)，基于预训练模型(比如GAN)生成新的图片或者自动修改图片的样式和内容。