CN111428569A

CN111428569A - 基于人工智能的绘本或教材的视觉识别方法及装置

Info

Publication number: CN111428569A
Application number: CN202010120108.XA
Authority: CN
Inventors: 俞晓君; 贾志强
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-07-17
Anticipated expiration: 2040-02-26
Also published as: CN111428569B

Abstract

本发明提供的基于人工智能的绘本或教材的视觉识别方法，其包含：步骤一：采集待识别内容物图像，对内页图像数据进行图像识别；步骤二：结合内页图像数据的清晰程度，判断得到当前待识别内容物的类型，并进入对应的算法识别模式，其中，算法识别模式包含光学字符识别模式以及图像特征识别模式；步骤三：在对应的算法识别模式下，向用户反馈多模态识别结果数据。本发明能够根据不同的待识别内容物，采用不同的识别模式进行内容识别，适应的书籍范围广泛；并且，本申请还能够通过用户的指读指令，展开指读识别过程，方便用户的阅读，进一步提升了阅读体验。

Description

基于人工智能的绘本或教材的视觉识别方法及装置

技术领域

本发明涉及人工智能领域，具体地说，涉及一种基于人工智能的绘本或教材的视觉识别方法及装置。

背景技术

图书是人类用来记录一切成就的主要工具，也是人类交融感情、取得知识、传承经验的重要媒介，对人类文明的开展贡献至钜。图书是以传播文化为目的，用文字或其它信息符号记录于一定形式的材料之上的著作物。现有技术中，在视觉识别领域，对于不同的图书，并没有进行识别方式的区分，这就带来了效率低下，识别率低，错误率高的问题。

针对现有技术的现状，急需在实际的识别和阅读中，对图书进行区分，针对不同的图书内容，采用不同的视觉算法做识别，以及识别正确之后提供的服务不同的技术服务。

因此，本发明提供了一种基于人工智能的绘本或教材的视觉识别方法及装置。

发明内容

为解决上述问题，本发明提供了一种基于人工智能的绘本或教材的视觉识别方法，所述方法包含以下步骤：

步骤一：采集待识别内容物图像，对内页图像数据进行图像识别；

步骤二：结合所述内页图像数据的清晰程度，判断得到当前待识别内容物的类型，并进入对应的算法识别模式，其中，所述算法识别模式包含光学字符识别模式以及图像特征识别模式；

步骤三：在对应的算法识别模式下，向用户反馈多模态识别结果数据。

根据本发明的一个实施例，所述步骤一中还包含以下步骤：若未能检测到当前图像数据包含内页图像数据，则对当前图像进行封面识别。

根据本发明的一个实施例，所述步骤二中还包含以下步骤：确定所述内页图像数据的分辨率信息，与阈值信息进行比较，当所述分辨率信息低于所述阈值信息时，确定所述待识别内容物为绘本图书，当所述分辨率信息高于所述阈值信息时，确定所述待识别内容物为教材图书。

根据本发明的一个实施例，所述步骤二之后还包含以下步骤：接收用户输出的所述语音交互数据，对所述语音交互数据进行语义理解处理，得到用户的交互意图。

根据本发明的一个实施例，所述步骤二之后还包含以下步骤：当检测到手型轮廓时，进入指读识别模式，基于所述手形轮廓指向位置的内容信息，结合所述交互意图得到所述多模态识别结果数据。

根据本发明的一个实施例，所述方法还包括：

获取当前用户的身份特征信息，对当前用户的用户属性进行判断，确定当前用户的类别，其中，用户的类别包含：儿童用户

根据本发明的另一个方面，还提供了一种程序产品，其包含用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种基于人工智能的绘本或教材的视觉识别装置，所述装置包含：

第一模块，其用于采集待识别内容物图像，对内页图像数据进行图像识别；

第二模块，其用于结合所述内页图像数据的清晰程度，判断得到当前待识别内容物的类型，并进入对应的算法识别模式，其中，所述算法识别模式包含光学字符识别模式以及图像特征识别模式；

第三模块，其用于在对应的算法识别模式下，向用户反馈多模态识别结果数据。

根据本发明的另一个方面，还提供了一种儿童专用智能设备，用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种基于人工智能的绘本或教材的视觉识别系统，所述系统包含：

如上所述的儿童专用智能设备；

待识别内容物；

云端服务器，其具备语义理解、视觉识别、认知计算以及情感计算，以决策所述儿童专用智能设备输出多模态数据。

本发明提供的基于人工智能的绘本或教材的视觉识别方法及装置能够根据不同的待识别内容物，采用不同的识别模式进行内容识别，适应的书籍范围广泛，书籍范围覆盖包含文字内容居多的教材图书以及图片居多的绘本图书；并且，本申请还能够通过用户的指读指令，展开指读识别过程，方便用户的阅读，进一步提升了阅读体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例的基于人工智能的绘本或教材的视觉识别方法流程图；

图2显示了根据本发明的一个实施例的区分不同类型内容物的流程图；

图3显示了根据本发明的一个实施例的指读过程流程图；

图4显示了根据本发明的一个实施例的基于人工智能的绘本或教材的视觉识别装置结构框图；

图5显示了根据本发明的一个实施例的儿童专用智能设备结构框图；

图6显示了根据本发明的一个实施例的用户、儿童专用智能设备以及云端的三方通信示意图；以及

图7显示了根据本发明的另一个实施例的基于人工智能的绘本或教材的视觉识别方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

为表述清晰，需要在实施例前进行如下说明：

本发明提到的儿童专用智能设备支持多模态人机交互，具备自然语言理解、视觉感知、语言语音输出、情感表情动作输出等AI能力；可配置社会属性、人格属性、人物技能等，使用户享受智能化及个性化流畅体验。在具体的实施例中，儿童专用智能设备特指伴读智能设备，可以是智能台灯、伴读机器人、智能平板、伴读手表以及具备视觉识别功能的故事机等。

儿童专用智能设备获取用户的多模态数据(包含图书内容识别指令)，在云端的能力支持下，对多模态数据进行语义理解、视觉识别、认知计算、情感计算，以完成决策输出的过程。儿童专用智能设备可以具备安卓，ios，linux，windows平台的app。

所提到的云端为提供所述儿童专用智能设备对用户的交互需求(包含图书识别意愿)进行语义理解(图像识别、语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以决策所述儿童专用智能设备输出多模态数据(包含识别结果数据)。

下面结合附图对本发明的各个实施例进行详细描述。

图1显示了根据本发明的一个实施例的基于人工智能的绘本或教材的视觉识别方法流程图。

如图1，在步骤S101中，采集待识别内容物图像，对内页图像数据进行图像识别。在一个实施例中，待识别内容物可以是绘本图书以及教材图书。

具体来说，通过具备图像采集能力的设备对待识别内容物进行图像采集，可以通过儿童专用智能设备上设置的摄像头对待识别内容物进行图像采集，也可以通过未设置在儿童专用智能设备上的摄像头对待识别内容物进行图像采集，之后将采集到的图像数据传输至儿童专用智能设备。

在一个实施例中，在步骤S101中，若未能检测到当前图像数据包含内页图像数据，则对当前图像进行封面识别。

一般来说，需要识别当前待识别内容物的封面包含的信息，可以根据待识别内容物的名字以及其他特征确定当前待识别内容物的编码。在一个实施例中，此处指的编码可以是：在中国注册的出版社所出版的每一种图书的每一个版本都有一个世界性的惟一标识代码，一般来说，一个中国标准书号由一个国际标准书号(International Standard BookNumber，缩写为ISBN)和一个图书分类及种次号组成，其中国际标准书号(ISBN)是中国标准书号的主体，可以独立使用。

如图1，在步骤S102中，结合内页图像数据的清晰程度，判断得到当前待识别内容物的类型，并进入对应的算法识别模式，其中，算法识别模式包含光学字符识别模式以及图像特征识别模式。

具体来说，不同的待识别内容物需要采用不同点的算法识别模式，算法识别模式包含光学字符识别以及图像特征识别模式，其中光学字符识别(Optical CharacterRecognition，简称OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。在一个实施例中采用光学字符识别模式的待识别内容可以为教材图书。

具体来说，图像特征识别模式一般采用基于图像特征的深度学习算法进行识别，在一个实施例中，图像特征识别模式用于识别绘本图书。

在一个实施例中，步骤S102还包含：确定内页图像数据的分辨率信息，与阈值信息进行比较，当分辨率信息低于阈值信息时，确定待识别内容物为绘本图书，当分辨率信息高于阈值信息时，确定待识别内容物为教材图书。

在一个实施例中，步骤S102之后还包含：接收用户输出的语音交互数据，对语音交互数据进行语义理解处理，得到用户的交互意图。

具体来说，在进行待识别内容物的识别过程中，还可以接受用户输出的语音交互数据，确定用户的交互意图，根据用户的交互意图，改变或停止当前的识别过程。即在整个识别过程中，用户的意图具备一定的执行优先级。

在一个实施例中，步骤S102之后还包含：当检测到手型轮廓时，进入指读识别模式，基于手形轮廓指向位置的内容信息，结合交互意图得到多模态识别结果数据。

具体来说，在检测范围内检测到手型轮廓时，认为用户具备一定的交互意图，这种交互意图可以是用户通过手指指示出待识别内容物中的某一区域，此时，需要确定手型轮廓指向位置的内容，结合用户的语音或其他多模态输入数据中包含的交互意图，来向用户反馈多模态识别结果数据。例如：当用户指向待识别内容物中的某个区域时，通过音频数据播放区域内包含的文字信息。

如图1，在步骤S103中，在对应的算法识别模式下，向用户反馈多模态识别结果数据。

根据本发明的一个实施例，获取当前用户的身份特征信息，对当前用户的用户属性进行判断，确定当前用户的类别，其中，用户的类别包含：儿童用户。本发明面向的用户群主要是儿童用户，因此需要确定用户的身份属性。判断用户身份的方式有很多种，一般来说，可以通过面部识别功能或者指纹识别方式来辨别用户的身份。其他能够判断用户身份的方式也可以运用到本发明中来，本发明不对此做出限制。

图2显示了根据本发明的一个实施例的区分不同类型内容物的流程图。

由于台灯天然的具有学习的属性，搭载带有增强学习功能的台灯，会使得学习的效果事半功倍。本发明中的智能台灯方案搭载摄像头，得益于台灯补光功能，使得图像识别在此种场景下识别的效果有更好的优化，本发明使用端+云的方案，将图像预处理方案放在本地，将图像的识别放在云端，通过发挥各自的优势，可以平衡产品的成本和产品最终的体验效果。

通过智能台灯来实现区分不同类型内容物的实施例如下：

在步骤S201中，拍照成功并上传，在实际应用中，智能台灯可以搭载摄像头，通过摄像头对待识别内容物进行拍照，在本地进行预处理后，上传至云端进行进一步的识别与处理。本地预处理包含去重处理，可以对重复的图片进行删除。

然后，在步骤S202中，判断是否有BookID，即判断上传到云端的图片中是否包含有BookID，可以包含自建的图书数据库中的专属ID，也可以包含书籍序列号，出版信息等可以确定图书主题的BookID。

在步骤S203中，在内页识别中，在步骤S204中，查验图片分辨率，根据分辨率，在步骤S205中，判断是否OCR识别，在一个实施例中，确定内页图像数据的分辨率信息，与阈值信息进行比较。

如未检测到内页图像信息，则进入封面识别，则认定当前图像为图书的封面，进行封面内容识别，识别封面上包含的文字内容。

当分辨率信息低于阈值信息时，确定待识别内容物为绘本图书，在步骤S206中，进入图像特征识别模式，对绘本图书进行内页识别。

当分辨率信息高于阈值信息时，确定待识别内容物为教材图书，在步骤S207中进行光学字符识别(OCR)识别。如果进入OCR识别，则通过OCR识别方式，对教材内页进行识别。

最后，在步骤S208中，向用户返回指读识别结果。

图3显示了根据本发明的一个实施例的指读过程流程图。

步骤S301-S304与步骤S201-S204的内容一致，在此不再赘述。

如图3所示，在步骤S305中，判断是否指读，即检测视野范围内是否出现手型轮廓。

如果没有出现手型轮廓，接着，在步骤S306中，进入光学字符识别或图像特征识别，对内页中的内容进行识别。

如果出现手型轮廓，则在步骤S307中，进入指读识别，基于手形轮廓指向位置的内容信息，结合交互意图得到多模态识别结果数据。

最后，在步骤S308中，返回识别结果。

图4显示了根据本发明的一个实施例的基于人工智能的绘本或教材的视觉识别装置结构框图。

如图4所示，装置包含第一模块401、第二模块402以及第三模块403。其中，第一模块401包含采集单元4011以及预处理单元4012。第二模块402包含清晰度单元4021以及判断单元4022。第三模块403包含算法单元4031以及输出单元4032。

第一模块401用于采集待识别内容物图像，对内页图像数据进行图像识别。其中，采集单元4011用于采集得到待识别内容物的图像数据。预处理单元4012用于对采集得到的图像数据进行预处理处理，得到预处理后的图像数据，其中，预处理包含去重处理等处理过程。

第二模块402用于结合内页图像数据的清晰程度，判断得到当前待识别内容物的类型，并进入对应的算法识别模式，其中，算法识别模式包含光学字符识别模式以及图像特征识别模式。其中，清晰度单元4021用于确定内页图像数据的分辨率信息。判断单元4022用于依据不同的分辨率信息，确定当前待识别内容物的类别，进而进入相应的算法识别模式。具体来说，待识别内容物的类别包含绘本图书以及教材图书。

第三模块403用于在对应的算法识别模式下，向用户反馈多模态识别结果数据。其中，算法单元4031在待识别内容物对应的算法下进行内容识别。输出单元4032用于向用户输出多模态识别结果数据。

图5显示了根据本发明的一个实施例的儿童专用智能设备结构框图。如图5，儿童专用智能设备500包含信号采集器件501、通信模组502、信号输出器件503以及中央处理器504。

儿童专用智能设备500包括支持视觉、感知、控制等输入输出模块的智能设备，可接入互联网，例如智能台灯、图书机器人、智能平板、伴读手表以及可识别图书的故事机等，具备图书内容识别交互功能，能够接收用户输入的图书内容识别指令，在儿童专用智能设备上输出内容识别数据。

儿童专用智能设备500中可以包含专用于基于人工智能的绘本或教材的视觉识别交互过程的客户端，客户端可以装载在安卓系统环境下，儿童专用智能设备可以是具备4G、甚至5G通信能力的安卓系统儿童手表等。

信号采集器件501用于获取图像信息以及用户的指令。信号采集器件501的例子包括用于语音操作的麦克风、扫描仪、摄像头、感控设备，如采用可见或不可见波长射线、信号、环境数据等等。可以通过以上提到的输入设备来获取多模态的数据(包含图像信息以及用户的指令)。多模态的数据可以包含文本、音频、视觉以及感知数据中的一种，也可以包含多种，本发明不对此作出限制。

通信模组502可以完成儿童专用智能设备与云端之间的通信。具体来说，可以采用联网的WiFi模块。

信号输出器件503用于输出音频数据。信号输出器件503可以是功放和喇叭等能够输出音频数据的设备。信号输出器件503也可以是支持其他类型数据的器件，本发明不对此作出限制。

中央处理器504用于处理进行交互过程中产生的数据。所用的处理器可以为数据处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是终端的控制中心，利用各种接口和线路连接整个终端的各个部分。

儿童专用智能设备500中包含存储器，存储器主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据儿童专用智能设备400的使用所创建的数据(比如音频数据、浏览记录等)，也可以存储点读印刷物对应的点读数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

此外，本发明提供的用于基于人工智能的绘本或教材的视觉识别系统还可以配合一种程序产品，其包含用于执行完成基于人工智能的绘本或教材的视觉识别方法步骤的一系列指令。程序产品能够运行计算机指令，计算机指令包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

程序产品可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，程序产品包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，程序产品不包括电载波信号和电信信号。

图6显示了根据本发明的一个实施例的用户、儿童专用智能设备以及云端的三方通信示意图。

为了实现儿童专用智能设备500支持用户601进行基于人工智能的绘本或教材的视觉识别，需要用户601、儿童专用智能设备500以及云端602之间建立起通信连接。这种通信连接应该是实时的、通畅的，能够保证交互不受影响的。

为了完成交互，需要具备一些条件或是前提。这些条件或是前提包含，儿童专用智能设备500中具备视觉、感知以及控制功能的硬件设施。

完成前期准备后，儿童专用智能设备500开始与用户601展开交互，首先，儿童专用智能设备500接收用户601输入的图书内容识别指令。

图书内容识别指令可以是语音数据、视觉数据、触觉数据，还可以是用户按下物理按键。儿童专用智能设备500中配置有接收图书内容识别指令的相应设备，用来接收用户601发送的图书内容识别指令。此时，展开通信的两方是儿童专用智能设备500与用户601，数据传递的方向是从用户601传向儿童专用智能设备500。

然后，儿童专用智能设备500对待识别内容物进行图像采集，采集得到图像数据，在经过去重等预处理后，上传至云端602。此时，展开数据传递的两方是儿童专用智能设备500以及云端602，数据传递方向是从儿童专用智能设备500传向云端602。

在云端602会对内页图像数据进行图像识别，结合内页图像数据的清晰程度，判断得到当前待识别内容物的类型，并进入对应的算法识别模式，其中，算法识别模式包含光学字符识别模式以及图像特征识别模式，之后生成多模态识别结果数据。

接着，云端602向儿童专用智能设备500返回识别结果数据。云端602跟据儿童专用智能设备500的请求返回对应的识别结果数据。此时，展开通信的两方是云端602以及儿童专用智能设备500，数据传递的方向是从云端602传向儿童专用智能设备501。

然后，儿童专用智能设备500将识别结果数据返回至用户601，一般来说，儿童专用智能设备500可以通过喇叭播放语音数据，通过显示设备播放视频数据。

如图7所示，在步骤S701中，儿童专用智能设备500向云端602发出请求。之后，在步骤S702中，儿童专用智能设备500一直处于等待云端602回复的状态。在等待的过程中，儿童专用智能设备500会对返回数据所花费的时间进行计时操作。

在步骤S703中，如果长时间未得到返回的应答数据，比如，超过了预定的时间长度5S，则儿童专用智能设备500会选择进行本地回复，生成本地常用应答数据。然后，在步骤S704中，输出本地常用应答，并调用语音播放设备进行语音播放。

综上，本发明提供的基于人工智能的绘本或教材的视觉识别方法及装置能够根据不同的待识别内容物，采用不同的识别模式进行内容识别，适应的书籍范围广泛，书籍范围覆盖包含文字内容居多的教材图书以及图片居多的绘本图书；并且，本申请还能够通过用户的指读指令，展开指读识别过程，方便用户的阅读，进一步提升了阅读体验。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于人工智能的绘本或教材的视觉识别方法，其特征在于，所述方法包含以下步骤：

2.如权利要求1所述的方法，其特征在于，所述步骤一中还包含以下步骤：若未能检测到当前图像数据包含内页图像数据，则对当前图像进行封面识别。

3.如权利要求1所述的方法，其特征在于，所述步骤二中还包含以下步骤：确定所述内页图像数据的分辨率信息，与阈值信息进行比较，当所述分辨率信息低于所述阈值信息时，确定所述待识别内容物为绘本图书，当所述分辨率信息高于所述阈值信息时，确定所述待识别内容物为教材图书。

4.如权利要求1所述的方法，其特征在于，所述步骤二之后还包含以下步骤：接收用户输出的所述语音交互数据，对所述语音交互数据进行语义理解处理，得到用户的交互意图。

5.如权利要求4所述的方法，其特征在于，所述步骤二之后还包含以下步骤：当检测到手型轮廓时，进入指读识别模式，基于所述手形轮廓指向位置的内容信息，结合所述交互意图得到所述多模态识别结果数据。

6.如权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

获取当前用户的身份特征信息，对当前用户的用户属性进行判断，确定当前用户的类别，其中，用户的类别包含：儿童用户。

7.一种程序产品，其包含用于执行如权利要求1-6中任一项所述的方法步骤的一系列指令。

8.一种基于人工智能的绘本或教材的视觉识别装置，其特征在于，所述装置包含：

9.一种儿童专用智能设备，其特征在于，用于执行如权利要求1-6中任一项所述的方法步骤的一系列指令。

10.一种基于人工智能的绘本或教材的视觉识别系统，其特征在于，所述系统包含：

如权利要求9所述的儿童专用智能设备；

待识别内容物；