CN113010699A

CN113010699A - 一种点读终端的音频播放方法、装置、点读终端及介质

Info

Publication number: CN113010699A
Application number: CN201911323090.7A
Authority: CN
Inventors: 王玥; 顾景; 李扬; 程骏; 庞建新; 熊友军
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2021-06-22

Abstract

本申请适用于点读终端技术领域，提供了一种点读终端的音频播放方法、装置、点读终端及介质，其中，一种点读终端的音频播放方法，通过构建内页图像和参考图像之间的单应矩阵，利用已训练好的位置预估模型对目标图像进行位置预估，得到相应的预估位置信息，由于目标图像是从内页图像中选取得到，且内页图像中的内容与参考图像中的内容能够基于单应矩阵实现相互映射，因此能够基于预估位置信息与单应矩阵在参考图像中确定出目标位置信息，进而根据该目标位置信息从目标音频集合中确定出目标音频文件进行播放，不仅降低了点读终端的实现成本，还扩宽了点读终端的适用范围。

Description

一种点读终端的音频播放方法、装置、点读终端及介质

技术领域

本申请属于点读终端技术领域，尤其涉及一种点读终端的音频播放方法、装置、点读终端及计算机可读存储介质。

背景技术

随着智能终端的普及程度越来越高，越来越多的智能产品也深受消费者们追捧，例如，智能早教机器人、点读终端等。

现有的点读终端，如点读笔，其实现点读功能的方案是通过在笔尖处设置有光电识别器，借由该光电识别器识别书籍中的识别码，进而由点读笔根据该识别码播放相应的音频文件，实现点读功能。但是，上述方案对书籍的印刷有较为严格的要求，必须采用识别码和反射红外光涂料印刷的书籍，不仅提高了点读功能的实现成本，而且未采用识别码和反射红外光涂料印刷的书籍则无法被点读终端识别。由此可见，现有的点读终端在实现方案时存在实现成本较高且适用范围较小的问题。

发明内容

有鉴于此，本申请实施例提供了一种点读终端的音频播放方法、装置、点读终端及计算机可读存储介质，以解决现有的点读终端在实现方案时存在实现成本较高且适用范围较小的问题。

本申请实施例的第一方面提供了一种点读终端的音频播放方法，包括：

获取目标书籍的内页图像，并根据所述内页图像从本地数据库中确定出相应的参考图像和目标音频集合；

基于所述内页图像和所述参考图像构建单应矩阵；

将从所述内页图像中选取的目标图像输入已训练好的位置预估模型，得到预估位置信息，并基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息；

根据所述目标位置信息从所述目标音频集合中确定出目标音频文件；

播放所述目标音频文件。

进一步的，所述基于所述内页图像和所述参考图像构建单应矩阵，包括：

在所述内页图像中和所述参考图像中分别构建相同的坐标系；

基于所述坐标系，分别从所述内页图像和所述参考图像中确定出匹配的点对信息；

根据所述点对信息构建3×3的齐次矩阵H，并将所述齐次矩阵H识别为单应矩阵H。

进一步的，所述将从所述内页图像中选取的目标图像输入已训练好的位置预估模型，得到预估位置信息，并基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息的步骤之前，还包括：

获取样本书籍的内页样本图像，并基于所述内页样本图像构建样本图像集合；其中，所述样本图像集合中的每张样本图像中均包含所述点读终端的笔尖位置；

利用所述样本图像集合训练预先构建的位置预估模型，得到已训练好的位置预估模型。

进一步的，所述目标图像中包含所述点读终端的当前笔尖位置；

所述将从所述内页图像中选取的目标图像输入已训练好的位置预估模型，得到预估位置信息，并基于所述预估位置信息与所述单应矩阵确定目标位置信息，包括：

获取从所述内页图像中选取的目标图像；

将所述目标图像输入已训练好的位置预估模型，通过所述已训练好的位置预估模型根据所述目标图像中所述点读终端的当前笔尖位置得到预估位置信息；

基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息。

进一步的，所述基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息，包括：

通过以下公式测算得到目标位置信息；

其中，H为所述单应矩阵，(u1，v1，1)为所述预估位置信息，(u2，v2，1)为所述目标位置信息。

进一步的，所述获取目标书籍的内页图像的步骤之前，还包括：

采集目标书籍的封面图像；

将所述封面图像发送至服务器，并接收所述服务器根据所述封面图像返回的目标书籍标识；

根据所述目标书籍标识从所述服务器中下载相应的目标文件集合；

将所述目标文件集合关联存储至本地数据库中。

进一步的，所述采集目标书籍的封面图像，包括：

当检测到用于执行点读功能的预设指令时，调用点读终端的图像采集组件实时采集图像数据，得到图像集合；

基于预设的第一图像确定策略从所述图像集合中确定出封面图像；

所述获取目标书籍的内页图像，包括：

基于预设的第二图像确定策略从所述图像集合中确定出所述目标书籍的内页图像。

本申请实施例的第二方面提供了一种点读终端的音频播放装置，包括：

第一获取单元，用于获取目标书籍的内页图像，并根据所述内页图像从本地数据库中确定出相应的参考图像和目标音频集合；

矩阵构建单元，用于基于所述内页图像和所述参考图像构建单应矩阵；

第一执行单元，用于将从所述内页图像中选取的目标图像输入已训练好的位置预估模型，得到预估位置信息，并基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息；

第二执行单元，用于根据所述目标位置信息从所述目标音频集合中确定出目标音频文件；

播放单元，用于播放所述目标音频文件。

进一步的，矩阵构建单元具体用于，在所述内页图像中和所述参考图像中分别构建相同的坐标系；基于所述坐标系，分别从所述内页图像和所述参考图像中确定出匹配的点对信息；根据所述点对信息构建3×3的齐次矩阵H，并将所述齐次矩阵H识别为单应矩阵H。

进一步的，所述点读终端的音频播放装置还包括：

第二获取单元，用于获取样本书籍的内页样本图像，并基于所述内页样本图像构建样本图像集合；其中，所述样本图像集合中的每张样本图像中均包含所述点读终端的笔尖位置；

训练单元，用于利用所述样本图像集合训练预先构建的位置预估模型，得到已训练好的位置预估模型。

所述第一执行单元具体用于，获取从所述内页图像中选取的目标图像；将所述目标图像输入已训练好的位置预估模型，通过所述已训练好的位置预估模型根据所述目标图像中所述点读终端的当前笔尖位置得到预估位置信息；基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息。

进一步的，所述第一执行单元具体还用于，通过以下公式测算得到目标位置信息；

进一步的，所述点读终端的音频播放装置，还包括：

采集单元，用于采集目标书籍的封面图像；

发送单元，用于将所述封面图像发送至服务器，并接收所述服务器根据所述封面图像返回的目标书籍标识；

下载单元，用于根据所述目标书籍标识从所述服务器中下载相应的目标文件集合；

存储单元，用于将所述目标文件集合关联存储至本地数据库中。

进一步的，所述采集单元具体用于，当检测到用于执行点读功能的预设指令时，调用点读终端的图像采集组件实时采集图像数据，得到图像集合；基于预设的第一图像确定策略从所述图像集合中确定出封面图像；

所述第一获取单元具体用于，基于预设的第二图像确定策略从所述图像集合中确定出所述目标书籍的内页图像。

本申请实施例的第三方面提供了一种点读终端，包括存储器、处理器以及存储在所述存储器中并可在所述点读终端上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方案提供的点读终端的音频播放方法的各步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方案提供的点读终端的音频播放方法的各步骤。

实施本申请实施例提供的一种点读终端的音频播放方法、装置、点读终端及计算机可读存储介质具有以下有益效果：

本申请实施例提供的一种点读终端的音频播放方法，根据获取到的目标书籍的内页图像从本地数据库中确定出相应的参考图像和目标音频集合，再通过构建内页图像和参考图像之间的单应矩阵，利用已训练好的位置预估模型对目标图像进行位置预估，得到相应的预估位置信息，由于目标图像是从内页图像中选取得到，且内页图像中的内容与参考图像中的内容能够基于单应矩阵实现相互映射，因此能够基于预估位置信息与单应矩阵在参考图像中确定出目标位置信息，进而根据该目标位置信息从目标音频集合中确定出目标音频文件进行播放，使得在实现点读终端的点读功能时，只要将书籍内容对应的音频集合置到数据库中，即可实现对该书籍的点读操作，无需采用识别码和反射红外光涂料印刷被点读的书籍，不仅降低了点读终端的实现成本，还扩宽了点读终端的适用范围。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种点读终端的音频播放方法的实现流程图；

图2是本申请另一实施例提供的一种点读终端的音频播放方法的实现流程图；

图3是本申请再一实施例提供的一种点读终端的音频播放方法的实现流程图；

图4是本申请实施例提供的一种点读终端的音频播放装置的结构框图；

图5是本申请另一实施例提供的一种点读终端的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请的所有实施例中，点读终端的音频播放方法的执行主体为点读终端，例如，点读机器人、点读笔等。

需要说明的是，在使用点读终端进行点读操作时，点读终端上必然配置有提供音频播放的硬件结构，如，音频功放、耳机插孔或者无线传输单元等。由于本方案不涉及对点读终端硬件上的改进，且在点读终端上配置提供音频播放的硬件结构的具体实现方案已是现有技术，故此处不再赘述。

请参阅图1，图1是本申请实施例提供的一种点读终端的音频播放方法的实现流程图。

如图1所示的点读终端的音频播放方法包括以下步骤：

S11：获取目标书籍的内页图像，并根据所述内页图像从本地数据库中确定出相应的参考图像和目标音频集合。

在S11中，目标书籍为利用点读终端进行点读操作的对象。内页图像是由点读终端采集到的将要被点读终端进行点读操作的目标书籍的内页内容，可以是目标书籍中除封面以外的任一内页的图像。本地数据库是点读终端上构建的数据库，本地数据库中的数据用于表征目标书籍封面、内页图像集合、参考图像以及目标音频集合之间的对应关系。

在本申请的所有实施例中，目标书籍可以包含多张内页，存储在本地数据库中的参考图像为目标书籍的每张内页对应的规范化标准图像，该参考图像是对目标书籍的所有内页进行扫描得到的图像。目标音频集合为参考图像所表征的内容对应的音频文件集合。例如，参考图像中包括多个英文单词，则目标音频集合由每个英文单词的对应的音频文件所组成。

需要说明的是，由于书籍的每张内页均不相同，因此在对书籍内页进行识别时，可以将获取到的内页图像与本地数据库中的所有参考图像进行比较，即可确定出相似度最高的参考图像为内页图像对应的参考图像。在使用点读终端对目标书籍进行点读操作时，由点读终端采集目标书籍的内页图像，具体可以是通过设置在点读终端上的图像采集组件如摄像头，对目标书籍的内页进行图像采集得到。由于在使用点读终端对目标书籍的内页进行点读时，是通过点读终端上的图像采集组件采集到的内页图像并非规则图像或标准图像，因此为了提高点读终端的点读准确程度，将获取到的内页图像与本地数据库中的所有参考图像进行比较，即可确定出相似度最高的参考图像，实现内页图像与参考图像之间的映射，进而能够准确地识别出将被点读终端点读的内容是目标书籍的哪张内页内容。

可以理解的是，将获取到的内页图像与本地数据库中的所有参考图像进行比较，具体可以是提取内页图像中的特征描述子，判断该特征描述子与参考图像的特征描述子是否匹配，进而确定出与内页图像对应的参考图像。

S12：基于所述内页图像和所述参考图像构建单应矩阵。

在S12中，单应矩阵用于约束内页图像中的内容在参考图像中的映射范围，也即在把内页图像中的像点映射到参考图像上时，约束该点映射在参考图像上的范围。

需要说明的是，由于内页图像是通过点读终端对目标书籍内页进行图像采集得到的图像，也即该内页图像并非角度垂直拍摄或者对正成像得到的图像，因此要实现内页图像与参考图像之间的映射，需要进行单应性变化。单应性变换用来描述实体环境中坐标系和像素坐标系之间的位置映射关系，相应地，实现单应性变换的矩阵则为单应性矩阵。

在本申请的所有实施例中，内页图像为点读终端对目标书籍进行内页图像采集得到的图像，虽然内页图像能够表征目标书籍内页的内容，但采集内页图像时，受点读终端与目标书籍位置关系的影响，采集到的内页图像存在成像角度偏移、图像内容扭曲形变等现象，增加了图像内容的识别难度。通过构建内页图像与参考图像之间的映射关系，使得内页图像中的内容与参考图像中的内容能够关联对应，也即将不规范化的图像内容与规范化的图像内容进行映射，进而在降低点读终端对图像识别难度的同时，还提高点读终端的识别效率。

在本实施例中，基于内页图像和参考图像构建单应矩阵，具体可以是通过调用预先配置好的单应矩阵构建工具，如OpenCV基于内页图像和参考图像构建两者之间的单应矩阵。

在实际应用中，由于单应矩阵构建工具OpenCV中配置有多种单应矩阵的创建方案，通过调用工具OpenCV中的函数即可预估内页图像和参考图像之间的单应矩阵，也即构建内页图像和参考图像之间的单应矩阵。

作为本实施例一种可能实现的方式，S12具体包括：

在所述内页图像中和所述参考图像中分别构建相同的坐标系；基于所述坐标系，分别从所述内页图像和所述参考图像中确定出匹配的点对信息；根据所述点对信息构建3×3的齐次矩阵H，并将所述齐次矩阵H识别为单应矩阵H。

在本实施例中，内页图像和参考图像中确定出匹配的点对信息包括：内页图像中的第一点坐标信息P₁(x₁，y₁)和参考图像中的第二点坐标信息P₂(x₂，y₂)，以单应矩阵为H进行坐标归一化，则有：

通过最小二乘法对上述算式进行推导变换，即可测算出3×3的齐次矩阵H的表达式，也即单应矩阵H的表达式。

在实际应用中，在构建单应矩阵时，可以通过调用现有的不同的矩阵构建工具实现，虽然不同的矩阵构建工具的使用方式和执行脚本语言存在差别，但构建单应矩阵的逻辑大致相同，且如何使用矩阵构建工具构建单应矩阵属于本领域的公知常识，故此处不再赘述。

S13：将从所述内页图像中选取的目标图像输入已训练好的位置预估模型，得到预估位置信息，并基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息。

在S13中，目标图像是从内页图像中选取得到的图像内容，也即目标图像为内页图像中的部分内容。预估位置信息用于描述点读终端在内页图像中的指向位置。目标位置信息用于表征预估位置信息对应在参考图像中的位置范围，也即表征点读终端的笔尖在内页图像中的指向位置，映射在参考图像中的位置范围。

在本实施例中，在使用点读终端对目标数据的内页进行内容点读时，可以利用点读终端指向内页图像中的某一部分内容，进而从内页图像中选取得到目标图像，将该目标图像输入已训练好的位置预估模型进行位置预估。

需要说明的是，已训练好的位置预估模型用于预估点读终端在内页图像中所指内容的范围，也即预估点读终端所指内容的位置。将目标图像输入已训练好的位置预估模型，得到预估位置信息，该预估位置信息用于描述点读终端在内页图像中的指向位置。

为了确保点读终端在目标书籍内容中所指的内容能够被准确地识别到，通过已训练好的位置预估模型，根据目标图像预估点读终端在内页图像中所指的位置，得到预估位置信息，再通过单应矩阵约束内页图像中的内容在参考图像中映射范围，实现在内页图像中选取目标图像后，可以基于预估位置信息与单应矩阵，从参考图像中确定出目标位置信息。也即将用户使用点读终端在内页图像中实际操作时指向的内容位置，映射到参考图像中，提高了点读终端对点读位置的识别准确程度。

S14：根据所述目标位置信息从所述目标音频集合中确定出目标音频文件。

在S14中，目标位置信息用于在参考图像中确定点读终端的指向内容。目标音频集合为参考图像所表征的内容对应的音频文件集合。目标音频文件是目标位置信息所表征的是点读终端所指向的内容对应的音频文件。

在本申请的所有实施例中，内页图像和目标图像均为点读终端对目标书籍进行内页图像采集得到的图像，虽然内页图像和目标图像均能够表征目标数据内页的图像内容，但采集内页图像和目标图像时，受点读终端与目标书籍位置关系的影响，采集到的内页图像和目标图像均存在成像角度偏移、图像内容扭曲等现象，不利于进行图像内容识别。为了提高点读终端对点读位置的识别准确度，通过已训练好的位置预估模型预估点读终端在内页图像中的指向位置，得到预估位置信息，再基于该预估位置信息与单应矩阵，从参考图像中确定出目标位置信息，实现了不规范图像与规范图像之间的映射关系，也即在内页图像与参考图像之间的映射环境下，通过预估点读终端在内页图像中的指向位置，即可基于该映射环境在参考图像中确定出目标位置信息，也即将该目标位置信息对应的内容识别为点读终端所指向的内容，不仅降低了图像识别难度，还提高了对点读终端指向位置的识别效率。

S15：播放所述目标音频文件。

在S15中，点读终端中可以预先配置有播放目标音频文件的播放器，调用该播放器对目标音频文件进行播放。

需要说明的是，在播放目标音频文件时，还可以通过外界音频输出设备对目标音频文件的内容进行输出。

例如，点读终端上可以配置有音频外放，在调用播放器播放目标音频文件时，由该音频外放输出目标音频文件的具体音频数据。

再例如，点读终端上可以配置有耳机插孔或者音频传输组件，通过耳机插孔连接耳机，在调用播放器播放目标音频文件时，由该耳机插孔向耳机输出目标音频文件的具体音频数据。

再例如，点读终端上可以配置音频传输组件，通过音频传输组件连接无线外放设备，如蓝牙耳机、蓝牙音箱等，在调用播放器播放目标音频文件时，由该音频传输组件向无线外放设备输出目标音频文件的具体音频数据。

以上可以看出，本实施例提供的一种点读终端的音频播放方法，根据获取到的目标书籍的内页图像从本地数据库中确定出相应的参考图像和目标音频集合，再通过构建内页图像和参考图像之间的单应矩阵，利用已训练好的位置预估模型对目标图像进行位置预估，得到相应的预估位置信息，由于目标图像是从内页图像中选取得到，且内页图像中的内容与参考图像中的内容能够基于单应矩阵实现相互映射，因此能够基于预估位置信息与单应矩阵在参考图像中确定出目标位置信息，进而根据该目标位置信息从目标音频集合中确定出目标音频文件进行播放，使得在实现点读终端的点读功能时，只要将书籍内容对应的音频集合置到数据库中，即可实现对该书籍的点读操作，无需采用识别码和反射红外光涂料印刷被点读的书籍，不仅降低了点读终端的实现成本，还扩宽了点读终端的适用范围。

请参阅图2，图2是本申请另一实施例提供的一种点读终端的音频播放方法的实现流程图。相对于图1对应的实施例，本实施例提供的点读终端的音频播放方法在S13之前还包括S21和S22。详述如下：

S21：获取样本书籍的内页样本图像，并基于所述内页样本图像构建样本图像集合；其中，所述样本图像集合中的每张样本图像中均包含所述点读终端的笔尖位置。

在S21中，样本书籍的内页样本图像为预先构建的位置预估模型的训练样本。基于内页样本图像构建的样本图像集合，该样本图像集合中的信息用于描述每张内页样本图像与点读终端的笔尖位置之间的对应关系，其中，点读终端的笔尖占内页样本图像的部分像素点，点读终端的笔尖位置为该部分像素点的坐标范围。

在本实施例中，基于内页样本图像构建样本图像集合，具体包括：

从样本书籍的每张内页样本图像中确定出目标像素点集合，并获取目标像素点集合中的每个目标像素点在内页样本图像中的坐标值；基于每张内页样本图像与其对于的每个目标像素点的坐标值，构建得到样本图像集合。

需要说明的是，从内页样本图像中确定出的目标像素点集合，组成点读终端的笔尖位置，也即目标像素点集合为点读终端的笔尖在内页样本图像中的像素点。由于每张样本图像中均包含点读终端的笔尖位置，因此在构建样本图像集合时，需要确定每张样本图像中点读终端的笔尖位置，也即确定每张样本图像对应的目标像素点集合。具体可以是通过图像识别模型对每张样本图像进行特征子识别，进而从每张样本图像中确定出与其对应的目标像素点集合。

S22：利用所述样本图像集合训练预先构建的位置预估模型，得到已训练好的位置预估模型。

在S22中，预先构建的位置预估模型，为预先基于已有的卷积神经网络Mobilenet-SSD构建的特征识别模型。

在本实施例中，由于样本图像集合中的每张样本图像中均包含点读终端的笔尖位置，且样本图像集合中的信息用于描述每张内页样本图像与点读终端的笔尖位置之间的对应关系，因此通过利用样本图像集合训练预先构建的位置预估模型，得到的已训练好的位置预估模型能够准确地从任意包含有点读终端的笔尖的图像中识别出点读终端的笔尖位置，也即确定出用于表征点读终端的笔尖位置的目标像素点集合。

需要说明的是，本实施例中的S21至S22，与S11至S12之间无关联，且顺序不分先后，S21至S22，与S11至S12可以同时执行，也可以先执行S21至S22再执行S11至S12，或者先执行S11至S12再执行S21至S22，此处不做限定。

如图2所示，S21至S22以及S11至S12均执行完毕后，则执行S13至S15。

作为本实施例一种可能实现的方式，目标图像中包含所述点读终端的当前笔尖位置，S13包括：

获取从所述内页图像中选取的目标图像；将所述目标图像输入已训练好的位置预估模型，通过所述已训练好的位置预估模型根据所述目标图像中所述点读终端的当前笔尖位置得到预估位置信息；基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息。

在本实施例中，预估位置信息是通过已训练好的位置预估模型根据目标图像识别得到的坐标信息，该坐标信息用于描述目标图像中点读终端的当前笔尖位置。

需要说明的是，由于目标图像是从内页图像中选取得到，也即目标图像是从内页图像中在部分图像，且内页图像与参考图像之间可以通过单应矩阵描述两者间像素点的映射关系，因此基于预估位置信息与单应矩阵，能够从参考图像中确定出目标位置信息，且该目标位置信息用于描述点读终端所指向的内容位置或者位置范围。

作为本实施例一种可能实现的方式，步骤基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息，可以包括：

通过以下公式测算得到目标位置信息；

在本实施例中，目标位置信息用于表征预估位置信息对应在参考图像中的位置范围，也即表征点读终端的笔尖在内页图像中的指向位置，映射在参考图像中的位置范围。

在实际应用中，内页图像与目标图像均由点读终端上配置的图像采集组件进行图像采集得到。使用点读终端对目标书籍的内页内容进行点读操作时，通过点读终端的图像采集组件对内页进行图像采集，即可得到内页图像与目标图像。

例如，点读终端调用图像采集组件实时采集图像，当点读终端位于目标书籍内页的上方且停留一段预设时长时，将采集到的内页成像识别为内页图像。当点读终端的笔尖指向内页时，将采集到的近景图像识别为目标图像。

作为本实施例一种可能实现的方式，为了提高点读终端对内页图像和目标图像的采集清晰度以及识别效率，图像采集组件的成像镜头的设置方向趋向于点读终端的笔尖。

例如，假设目标书籍水平放置，相应的目标书籍的内页同为水平放置，当点读终端的笔尖指向内页时，点读终端的笔尖指向的延长线与内页之间存在夹角θ，也即点读终端的笔尖指向的延长线与水平面之间的夹角为θ，其中，0°<θ<90°。由于图像采集组件的成像镜头的设置方向趋向于点读终端的笔尖，因此当点读终端的笔尖指向内页时，图像采集组件的成像镜头的图像采集方向与水平面之间的夹角β大于θ且小于或等于90°。

请参阅图3，图3是本申请再一实施例提供的一种点读终端的音频播放方法的实现流程图。相对于图1或图2对应的实施例，本实施例提供的点读终端的音频播放方法在S11之前还包括S31～S34。详述如下：

S31：采集目标书籍的封面图像。

S32：将所述封面图像发送至服务器，并接收所述服务器根据所述封面图像返回的目标书籍标识。

S33：根据所述目标书籍标识从所述服务器中下载相应的目标文件集合。

S34：将所述目标文件集合关联存储至本地数据库中。

在本实施例中，封面图像是通过点读终端上设置的图像采集组件对目标书籍的封面进行图像采集得到。服务器中的信息用于描述封面图像、目标书籍标识以及目标文件集合之间的对应关系。目标书籍标识用于区分出目标书籍与非目标书籍。目标文件集合包括目标书籍的每张内页对应的参考图像、目标音频集合以及参考图像中的部分内容与目标音频集合中目标音频文件之间的对应关系。

作为本实施例一种可能实现的方式，S31具体包括：

当检测到用于执行点读功能的预设指令时，调用点读终端的图像采集组件实时采集图像数据，得到图像集合；基于预设的第一图像确定策略从所述图像集合中确定出封面图像。

在本实施例中，点读终端在检测到用于执行点读功能的预设指令时，调用点读终端的图像采集组件实时采集图像数据，得到图像集合，也即得到实时的视频数据，当持续预设时长检测到视频数据中存在书籍封面的图像时，则从视频数据中确定出封面图像。

需要说明的是，在首次使用点读终端对目标书籍中的内容进行点读操作时，需要向服务器获取目标书籍对应的点读资源，也即目标文件集合。在服务器中预先构建有资源标识数据库，目标书籍的封面图像、目标书籍标识以及目标文件集合对应存储在该资源标识数据库中。

在实际应用中，书籍是由封面和内页构成，也即无论是用户使用点读终端对书籍进行点读操作，还是直接阅读书籍，最先接触到的是书籍的封面。而且书籍的封面还能用于区分书籍的内容。

在本实施例中，服务器中预先配置有用于粗识别的第一搜索树和用于精确识别的第二搜索树。具体地，对所有要收录的书籍的封面的扫描图进行SIFT特征描述子提取，得到所有书籍封面图像在不同感受野下的第一特征子集合和第二特征子集合；基于第一特征子集合建立第一搜索树，基于第二特征子集合建立第二搜索树，第一搜索树和第二搜索树的类型均可以为kdTree或ballTree。

作为本实施例一种可能实现的方式，在S32中，服务器用于从封面图像提取与第一特征子集合相同感受野下的第一目标特征，以及与第二特征子集合相同感受野下的第二目标特征，若将第一目标特征与第一特征子集合中的第一特征子进行比较，得到相似特征集合，则从第二特征子集合中查询出与相似特征集合对应的待比较特征子集合，若将第二目标特征与待比较特征子集合中的第二特征子进行比较，得到目标特征子，则将目标特征子对应的书籍标识识别为目标书籍标识。

在本实施例中，点读终端在接收到服务器返回的目标书籍标识后，根据目标书籍标识从服务器中下载相应的目标文件集合，具体可以是根据该目标书籍标识生成携带有目标书籍标识的下载请求，并将该下载请求发送至服务器，由服务器向点读终端返回目标书籍标识对于的目标文件集合，点读终端从服务器中下载目标文件集合并将该目标文件集合关联存储至本地数据库中。

可以理解的是，将目标文件集合关联存储至本地数据库，也可以是基于目标文件集合构建本地数据库中的搜索树。例如，目标文件集合中包括了数据的内页扫描图像，也即参考图像，通过对该内页扫描图提取SIFT特征，得到特征子，并将特征子与目标音频文件关联存储。由于受点读终端计算数据能力的限制，因此可以考虑对内页扫描图进行分批建立搜索树。例如，将书籍中的奇数页的特征和偶数页的特征分开建立两个搜索树。再例如，将书籍的内页数量多拆分为多个集合的搜索树。

作为本实施例一种可能实现的方式，与点读终端确定封面图像相似地，在获取目标书籍的内页图像时，可以基于预设的第二图像确定策略从所述图像集合中确定出所述目标书籍的内页图像。

在本实施例中，点读终端在检测到用于执行点读功能的预设指令时，调用点读终端的图像采集组件实时采集图像数据，得到图像集合，也即得到实时的视频数据，当持续第一预设时长检测到视频数据中存在书籍封面的图像时，则从视频数据中确定出封面图像。点读终端将封面图像发送至服务器，并接收服务器根据封面图像返回的目标书籍标识后，根据该目标书籍标识从服务器中下载相应的目标文件集合，再将目标文件集合关联存储至本地数据库中。与此同时，点读终端的图像采集组件仍然在持续且实时地采集图像数据，当持续第二预设时长检测到视频数据中存在目标书籍的内页图像时，则从视频数据中确定出内页图像。

可以理解的是，在使用点读终端对目标书籍进行点读操作时，当已经确定了目标书籍的封面后即可确定目标书籍的目标文件集合，当检测到内页图像时，即可确定该内页图像为待进行点读操作的内容，因此为了提高对目标书籍的内页图像的识别速度，本实施例中确定内页图像的第二预设时长小于确定封面图像的所持续的第一预设时长。

在本申请的所有实施例中，当第一次使用点读终端对目标书籍进行点读操作或者需要更新点读终端本地数据库时，才执行S31至S34，当执行完S31至S34即可执行S11至S15。当本地数据库中已经包含有目标书籍以及目标音频文件时，可以在执行S31至S34的前提下，直接执行S11至S15。

此外，通过采集目标书籍的封面图像，接收服务器根据封面图像返回的目标书籍标识，进而根据该目标书籍标识从服务器中下载相应的目标文件集合关联存储至本地数据库中，使得在首次对目标书籍进行点读后，目标书籍的点读资源被保存在点读终端的本地数据库中，无需再进行点读资源的下载操作，实现了点读终端可对同一目标书籍内容的重复点读操作，提高了点读终端的点读效率。

请参阅图4，图4是本申请实施例提供的一种点读终端的音频播放装置的结构框图。本实施例中该装置包括的各单元用于执行图1至图3对应的实施例中的各步骤。具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图4，一种点读终端的音频播放装置400包括：第一获取单元401、矩阵构建单元402、第一执行单元403、第二执行单元404以及播放单元405。其中：

第一获取单元401，用于获取目标书籍的内页图像，并根据所述内页图像从本地数据库中确定出相应的参考图像和目标音频集合；

矩阵构建单元402，用于基于所述内页图像和所述参考图像构建单应矩阵；

第一执行单元403，用于将从所述内页图像中选取的目标图像输入已训练好的位置预估模型，得到预估位置信息，并基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息；

第二执行单元404，用于根据所述目标位置信息从所述目标音频集合中确定出目标音频文件；

播放单元405，用于播放所述目标音频文件。

作为本申请一实施例，矩阵构建单元42具体用于，在所述内页图像中和所述参考图像中分别构建相同的坐标系；基于所述坐标系，分别从所述内页图像和所述参考图像中确定出匹配的点对信息；根据所述点对信息构建3×3的齐次矩阵H，并将所述齐次矩阵H识别为单应矩阵H。

作为本申请一实施例，所述点读终端的音频播放装置还包括：

第二获取单元406，用于获取样本书籍的内页样本图像，并基于所述内页样本图像构建样本图像集合；其中，所述样本图像集合中的每张样本图像中均包含所述点读终端的笔尖位置；

训练单元407，用于利用所述样本图像集合训练预先构建的位置预估模型，得到已训练好的位置预估模型。

作为本申请一实施例，所述目标图像中包含所述点读终端的当前笔尖位置；

所述第一执行单元403具体用于，获取从所述内页图像中选取的目标图像；将所述目标图像输入已训练好的位置预估模型，通过所述已训练好的位置预估模型根据所述目标图像中所述点读终端的当前笔尖位置得到预估位置信息；基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息。

作为本申请一实施例，所述第一执行单元43具体还用于，通过以下公式测算得到目标位置信息；

作为本申请一实施例，所述点读终端的音频播放装置，还包括：

采集单元408，用于采集目标书籍的封面图像；

发送单元409，用于将所述封面图像发送至服务器，并接收所述服务器根据所述封面图像返回的目标书籍标识；

下载单元410，用于根据所述目标书籍标识从所述服务器中下载相应的目标文件集合；

存储单元411，用于将所述目标文件集合关联存储至本地数据库中。

作为本申请一实施例，所述采集单元408具体用于，当检测到用于执行点读功能的预设指令时，调用点读终端的图像采集组件实时采集图像数据，得到图像集合；基于预设的第一图像确定策略从所述图像集合中确定出封面图像；

所述第一获取单元401具体用于，基于预设的第二图像确定策略从所述图像集合中确定出所述目标书籍的内页图像。

以上可以看出，本实施例提供的方案，根据获取到的目标书籍的内页图像从本地数据库中确定出相应的参考图像和目标音频集合，再通过构建内页图像和参考图像之间的单应矩阵，利用已训练好的位置预估模型对目标图像进行位置预估，得到相应的预估位置信息，由于目标图像是从内页图像中选取得到，且内页图像中的内容与参考图像中的内容能够基于单应矩阵实现相互映射，因此能够基于预估位置信息与单应矩阵在参考图像中确定出目标位置信息，进而根据该目标位置信息从目标音频集合中确定出目标音频文件进行播放，使得在实现点读终端的点读功能时，只要将书籍内容对应的音频集合置到数据库中，即可实现对该书籍的点读操作，无需采用识别码和反射红外光涂料印刷被点读的书籍，不仅降低了点读终端的实现成本，还扩宽了点读终端的适用范围。

图5是本申请另一实施例提供的一种点读终端的结构框图。如图5所示，该实施例的点读终端5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52，例如点读终端的音频播放方法的程序。处理器50执行所述计算机程序52时实现上述各个点读终端的音频播放方法各实施例中的步骤，例如图1所示的S11至S15。或者，所述处理器50执行所述计算机程序52时实现上述图4对应的实施例中各单元的功能，例如，图4所示的单元401至411的功能，具体请参阅图5对应的实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序52可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器51中，并由所述处理器50执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序52在所述点读终端5中的执行过程。例如，所述计算机程序52可以被分割成第一获取单元、矩阵构建单元、第一执行单元、第二执行单元以及播放单元，各单元具体功能如上所述。

所述点读终端可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是点读终端5的示例，并不构成对点读终端5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述点读终端还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述点读终端5的内部存储单元，例如点读终端5的硬盘或内存。所述存储器51也可以是所述点读终端5的外部存储设备，例如所述点读终端5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述点读终端5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述点读终端所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种点读终端的音频播放方法，其特征在于，包括：

基于所述内页图像和所述参考图像构建单应矩阵；

播放所述目标音频文件。

2.根据权利要求1所述点读终端的音频播放方法，其特征在于，所述基于所述内页图像和所述参考图像构建单应矩阵，包括：

3.根据权利要求2所述点读终端的音频播放方法，其特征在于，所述将从所述内页图像中选取的目标图像输入已训练好的位置预估模型，得到预估位置信息，并基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息，的步骤之前，还包括：

4.根据权利要求3所述点读终端的音频播放方法，其特征在于，所述目标图像中包含所述点读终端的当前笔尖位置；

所述将从所述内页图像中选取的目标图像输入已训练好的位置预估模型，得到预估位置信息，并基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息，包括：

获取从所述内页图像中选取的目标图像；

5.根据权利要求4所述点读终端的音频播放方法，其特征在于，所述基于所述预估位置信息与所述单应矩阵，从所述参考图像中确定出目标位置信息，包括：

通过以下公式测算得到目标位置信息；

6.根据权利要求1至5任一项所述点读终端的音频播放方法，其特征在于，所述获取目标书籍的内页图像的步骤之前，还包括：

采集目标书籍的封面图像；

将所述目标文件集合关联存储至本地数据库中。

7.根据权利要求6所述点读终端的音频播放方法，其特征在于，所述采集目标书籍的封面图像，包括：

所述获取目标书籍的内页图像，包括：

8.一种点读终端的音频播放装置，其特征在于，包括：

播放单元，用于播放所述目标音频文件。

9.一种点读终端，其特征在于，所述点读终端包括存储器、处理器以及存储在所述存储器中并可在所述点读终端上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。