CN108563702B

CN108563702B - 基于展品图像识别的语音讲解数据处理方法及装置

Info

Publication number: CN108563702B
Application number: CN201810246573.0A
Authority: CN
Inventors: 卢振业
Original assignee: Go With Tommy Beijing Technology Co ltd
Current assignee: Go With Tommy Beijing Technology Co ltd
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2022-02-25
Anticipated expiration: 2038-03-23
Also published as: CN108563702A

Abstract

本申请公开了一种基于展品图像识别的语音讲解数据处理方法及装置，其中方法包括：获取景点区域的展品图像；对所述展品图像进行分类，得到与所述展品图像对应的类别；根据所述类别对应的特征模型提取图像特征；查询景点图像数据库，获取与所述图像特征对应的展品对象，得到展品对象列表；根据所述展品对象列表获取用户选择的展品对象；调取所述用户选择的展品对象对应的描述信息并进行语音播放。本申请采用图像识别的方式，通过所述景点图像数据库的智能学习，达到完善所述景点图像数据库的目的，以便提高对景点区域内展品图像进行识别的精确度，为语音讲解起到辅助作用，最终解决了通过图像识别实现智能语音导游的目的。

Description

基于展品图像识别的语音讲解数据处理方法及装置

技术领域

本申请涉及图像识别技术领域，具体而言，涉及一种基于展品图像识别的语音讲解数据处理方法及装置。

背景技术

随着旅游行业的发展，为了详细了解各个景点，游客一般是通过专业的导游进行介绍来了解的。因专业导游的费用较高，因此直接提高了游客旅游的费用。

为了解决这种问题，手机语音导游行业随着产生。手机语音导游系统目前主要应用在风景名胜区，内容包括景区内各种游览线路、沿途各景点的语音介绍，景区内各种服务设施所处的位置及文字介绍。游客可以在进入景区开始，选择感兴趣的游览线路，沿途可以随时通过手机定位，通过地图找到自己所处的景点位置，聆听所处的景点介绍。

然而这种方式对室内游览并不适应，如博物馆(尤其是国外博物馆)等场所。因为是室内定位对定位手机定位对室内区域的定位的精确度有很高要求，因此在手机信号弱的区域、信号盲区或室内(如室内博物馆)等区域并不能精确地确定当前位置，进而直接影响了游客对当前景点的了解。

发明内容

本申请的主要目的在于提供一种基于展品图像识别的语音讲解数据处理方法，以解决针对室内的景点区域内展品进行识别，提高图像识别效率及识别准确率，最终解决智能语音导游精确度低的技术问题。

为了实现上述目的，根据本申请的一个方面，提供了一种基于展品图像识别的语音讲解数据处理方法。

根据本申请的基于展品图像识别的语音讲解数据处理方法包括：

获取景点区域的展品图像；

对所述展品图像进行分类，得到与所述展品图像对应的类别；

根据所述类别对应的特征模型提取图像特征；

查询景点图像数据库，获取与所述图像特征对应的展品对象，得到展品对象列表，所述景点图像数据库存储有展品对象和图像特征、描述信息的关联关系；

根据所述展品对象列表获取用户选择的展品对象；

调取所述用户选择的展品对象对应的描述信息并进行语音播放。

进一步，所述对所述展品图像进行分类，包括：

获取所述展品图像中展品区域；

判断所述展品区域是否为矩形；

如果为矩形，则确定所述展品图像为第一类别，否则为第二类别，其中，所述第一类别为具有相框的展品，所述第二类别为不具有相框的展品。

进一步，所述方法还包括：

在对所述展品图像进行分类前，判断所述展品图像是否为通过扫描方式得到；

如果所述展品图像是通过扫描方式得到，则判断所述展品图像中展品是否落入图像采集区域的预设框内；

如果所述展品图像未落入所述预设框内，则重新扫描。

进一步，所述方法还包括：

如果所述展品图像是通过非扫描方式得到，则按照预设类别将所述展品图像进行分类。

进一步，所述方法还包括：

在获取景点区域展品图像前，确定所述景点区域的位置。

进一步，所述确定用户的当前位置，包括：

利用GPS定位技术获取用户的当前位置；和/或

获取用户根据预设区域选择的当前景点所处的位置。

进一步，所述方法还包括：

在查询景点图像数据库前，根据所述景点数据库中的展品对象及其馆藏地点确定目标展品对象；

获取所述目标展品对象的展品图像；

将所述目标展品对象的展品图像与所述目标展品对象的展品图像进行匹配，判断是否一致；

如果不一致，则将所述目标展品对象的展品图像存储至所述景点数据库。

为了实现上述目的，根据本申请的另一方面，提供了一种基于展品图像识别的语音讲解数据处理装置。

根据本申请的基于展品图像识别的语音讲解数据处理装置包括：

图像获取单元，用于获取景点区域展品图像；

图像分类单元，用于对所述展品图像进行分类，得到所述展品图像对应的类别；

特征提取单元，用于根据所述类别对应的特征模型提取图像特征；具体地，所述特征提取单元设置不同的特征模型提取模块，以便提取不同类别的图像特征。具体地，所述特征模块可以是基于深度学习的模型，如CNN模型。

结果筛选单元，用于查询景点图像数据库，获取与所述图像特征对应的展品对象，得到展品对象列表，所述景点图像数据库存储有展品对象和图像特征、描述信息的关联关系；

对象选择单元，用于根据所述展品对象列表获取用户选择的展品对象；

语音播报单元，用于调取所述用户选择的展品对象对应的描述信息并进行语音播放。

进一步，所述图像分类单元包括：

区域获取模块，用于获取所述展品图像中展品区域；

矩形判断模块，用于判断所述展品区域是否为矩形；

类别划分模块，用于如果为矩形，则确定所述展品图像为第一类别，否则为第二类别，其中，所述第一类别为具有相框的展品，所述第二类别为不具有相框的展品。

进一步，所述装置还包括：

扫描判断单元，用于在获取景点区域展品图像前，判断所述展品图像是否为通过扫描方式得到；

第一处理单元，用于如果所述展品图像是通过扫描方式得到，则判断所述展品图像中展品是否落入图像采集区域的预设框内；

再扫描处理单元，用于如果所述展品图像未落入所述预设框内，则重新扫描。

进一步，所述装置还包括：

第二处理单元，用于如果所述展品图像是通过非扫描方式得到，则按照预设类别将所述展品图像进行分类。

进一步，所述装置还包括：

景点定位单元，用于在获取景点区域展品图像前，确定所述景点区域的位置。

进一步，所述景点定位单元包括：

GPS定位模块，用于利用GPS定位技术获取用户的当前位置；和/或

自定义定位模块，用于获取用户根据预设区域选择的当前景点所处的位置。

进一步，所述装置还包括：

目标确定单元，用于在查询景点图像数据库前，根据所述景点数据库中的展品对象及其馆藏地点确定目标展品对象；

图像再获取单元，用于获取所述目标展品对象的展品图像；

更新判断单元，用于将所述目标展品对象的展品图像与所述目标展品对象的展品图像进行匹配，判断是否一致；

更新处理单元，用于如果不一致，则将所述目标展品对象的展品图像存储至所述景点数据库。

在本申请实施例中，采用图像识别的方式，通过所述景点图像数据库的智能学习，以达到完善所述景点图像数据库的目的，以便提高对景点区域内展品图像进行识别的精确度，为语音讲解起到辅助作用，最终解决了通过图像识别实现智能语音导游的目的。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请所述基于展品图像识别的语音讲解数据处理方法的流程示意图；

图2为本申请对所述展品图像进行分类一个实施例的流程示意图；

图3为本申请对所述展品图像进行分类另一个实施例的流程示意图；

图4为本申请所述景点图像数据库一个实施例的工作流程示意图；

图5为本申请所述基于展品图像识别的语音讲解数据处理装置的框图结构示意图；以及

图6为应用本申请所述基于展品图像识别的语音讲解数据处理装置的一个实施例的架构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S101至步骤S106：

S101、获取景点区域的展品图像。具体地，所述景点区域的展品图像可以利用手机、pad等内置摄像头的移动终端进行采集。

该步骤还包括：在获取景点区域展品图像前，确定所述景点区域的位置。本申请通过景点区域位置的确定，缩小对展品进行识别的范围，从而加快了对展品进行识别的速度，进而保证了语音导游的用户体验性。更进一步，所述确定用户的当前位置，包括：利用GPS定位技术获取用户的当前位置；和/或，获取用户根据预设区域选择的当前景点所处的位置。具体地，预设区域可以按照国家-省-市-区-街道等进行划分，如用户利用手机选择中国-北京-海淀区-XX路-XX大厦。

S102、对所述展品图像进行分类，得到与所述展品图像对应的类别。

S103、根据所述类别对应的特征模型提取图像特征。具体地，不同的类别对应不同的模型，如，油画类特征模型，雕塑类特征模型等。

S104、查询景点图像数据库，获取与所述图像特征对应的展品对象，得到展品对象列表，所述景点图像数据库存储有展品对象和图像特征、描述信息的关联关系。

S105、根据所述展品对象列表获取用户选择的展品对象。

S106、调取所述用户选择的展品对象对应的描述信息并进行语音播放。

本申请所述的方法可以应用于移动端，如手机(下面以手机为例进行说明)、pad、笔记本等移送设备。本申请所述方法的目的在于对展品图像进行图像识别，并将识别采集的体现特征与景点图像数据库进行比对，通过图像特征的精确匹配，提高识别精度，保证智能语音导目的的实现。

本申请所述的方法首先对所述展品图像进行分类，判断所述展品图像对应的展品的类别，如判断展品是油画，还是雕塑等艺术品。相比较于传统的图像识别方法，本申请所述方法通过类别的划分，提高了对所述展品图像特征提取的速度，加快了运行速度，从而保证了利用手机进行导游时的用户体验性。

本申请所述的方法应用于对室内(如博物馆等场所)展品进行识别的技术领域。室内展品一般包括油画、雕塑等。而不论是油画还是雕塑，展品的内容可能包括人物、花草、建筑等，因此，为了加快对所述展品图像进行识别的速度，本申请所述的方法通过同类别(如油画类)的不同特征模型对所述展品图像进行特征提取，从而保证了特征提取的精确性。

图2为本申请对所述展品图像进行分类一个实施例的流程示意图。

所述方法包括S201～S203。

S201、获取所述展品图像中展品区域。

S202、判断所述展品区域是否为矩形。

S203、如果为矩形，则确定所述展品图像为第一类别，否则为第二类别，其中，所述第一类别为具有相框的展品，所述第二类别为不具有相框的展品。

具体地，具有边框的展品一般为油画，而不具有相框的展品一般为雕塑。本申请所述方法通过对展品区域的获取判断展品是否具有相框，从而实现对展品的类别判断。

图3为本申请对所述展品图像进行分类另一个实施例的流程示意图。

所述方法包括S301～S303。

S301、在对所述展品图像进行分类前，判断所述展品图像是否为通过扫描方式得到。具体地，所述展品图像的获取方式包括多种，可以能是通过扫描方式获取，也可能本地获取。本实施例中，将所述展品图像的获取方式设为了扫描获取(即，利用摄像头进行拍照获取)。

S302、如果所述展品图像是通过扫描方式得到，则判断所述展品图像中展品是否落入图像采集区域的预设框内。

S303、如果所述展品图像是通过非扫描方式得到，则按照预设类别将所述展品图像进行分类。

S304、如果所述展品图像未落入所述预设框内，则重新扫描。

本申请通过图像采集区域及其预设框的设置防止采集展品图像时，未能拍摄到整个展品图像，同时将该展品周围的背景进行获取，从而防止不符合条件的图像影响识别结果。

本实施例中，所述展品图像是利用手机上相机对展品进行扫描获取的，具体可以通过在手机端设置相机调取接口，具体可以通过预设的按钮实现，通过该按钮开启拍照功能。

在一些实施例中开启拍照功能后，可以是直接拍摄获取，即获取静态图像，同时拍摄获取的图像存储至本地；在一些实施例中，可以是通过图像采集框对当前展品进行扫描，但本地并不显示静态图像；在一些实施例中，所述展品图像可以是通过本地获取。

需要说明的是，所述展品图像的获取方式包括但不限于上述方式，任何能够获取展品的图像方式都是本申请的保护范围。

图4为本申请所述景点图像数据库一个实施例的工作流程示意图。

所述方法S401～S403。

S401、在查询景点图像数据库前，根据所述景点数据库中的展品对象及其馆藏地点确定目标展品对象。所述景点数据库中存储有不同的展品对象，具体地，所述展品对象按照馆藏地址进行分类，如卢浮宫(藏品：XXX)。

S402、获取所述目标展品对象的展品图像。具体地，所述目标展品对象的展品图像可以是人工录入的，也可以是利用网络爬虫技术获取的，本申请通过这两种方式不断进行图像搜集，达到所述景点图像数据库智能学习目的，完善所述景点图像数据库，为提高自动识别展品精确度的提供数据源。具体地，所述目标展品对象的展品图像可以是用户通过社交平台发布，也可以是馆藏地(即博物馆)官网发布的，还可以是旅游网站发布的。

需要说明的是，本申请对目标展品对象的展品图像的来源并不进行限定，任何能能够获取目标展品对象的展品图像的渠道都是本申请的保护范围。

S403、将所述目标展品对象的展品图像与所述目标展品对象的展品图像进行匹配，判断是否一致。实践中，虽然所述景点图像数据库中已经存储有对不同展品对象的展品图像，但是所述展品图像可能因拍摄角度等原因产生一定的区别，直接影响后期识别的精确度，为了提高对展品的识别精度，本申请通过所述目标展品对象的展品图像与所述景点数据库中展品对象的所有展品图像进行匹配，从而解决收录对同一展品对象的不同图像。

S404、如果不一致，则将所述目标展品对象的展品图像存储至所述景点数据库。

本申请通过获取目标展品对象的展品图像，并将其与所述景点数据库中展品图像进行判断，起到所述景点图像数据库的智能学习的目的，不断完善并不断优化所述景点数据库，以便取得更高效准确的查询结果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述基于展品图像识别的语音讲解数据处理方法的装置，如图5所示，该装置包括：

图像获取单元10，用于获取景点区域展品图像；

图像分类单元20，用于对所述展品图像进行分类，得到所述展品图像对应的类别；

特征提取单元30，用于根据所述类别对应的特征模型提取图像特征；

结果筛选单元40，用于查询景点图像数据库，获取与所述图像特征对应的展品对象，得到展品对象列表，所述景点图像数据库存储有展品对象和图像特征、描述信息的关联关系；

对象选择单元50，用于根据所述展品对象列表获取用户选择的展品对象；

语音播报单元60，用于调取所述用户选择的展品对象对应的描述信息并进行语音播放。

进一步，所述图像分类单元包括：

区域获取模块，用于获取所述展品图像中展品区域；

矩形判断模块，用于判断所述展品区域是否为矩形；

进一步，所述装置还包括：

第二处理单元，用于如果所述展品图像是通过非扫描方式得到，则获取所述展品图像中背景区域；

单通道判断单元，用于判断所述背景区域是否为单通道图像；

类别确定单元，用于如果为非单通道图像，则确定所述展品图像为第一类别，否则为第二类别，其中，所述第一类别为具有相框的展品，所述第二类别为不具有相框的展品。

进一步，所述装置还包括：

进一步，所述景点定位单元包括：

自定义定位模块，用于获取用户根据预设区域选择的当前景点所处的位置。本实施例中，所述景点定位单元同时包括GPS定位模块和所述自定义定位模块，通过二者的设置，以便确定用户当前位置。

进一步，所述装置还包括：

图像再获取单元，用于获取所述目标展品对象的展品图像；

本实施例中，手机100与云端200无线通信。用户利用手机100获取所述展品图像，而对所述展品图像的分类后，对所述展品图像的图像特征的提取可以云端200完成，云端根据图像特征进行比对后，将结果(可以是一个结果，也可以是多个)返回至手机上。当用户在返回的结果中进行选择后，手机利用语音播放技术将用户选的展品的详细信息进行播放。具体地，云端返回的结果可以仅仅是展品的图像，也可以是包括描述信息的图像，如果返回的结果仅包括图像，那么在用户完成选择后，云端再将该图像对应的详细信息进行反馈。

需要说明的是，图像特征的提取步骤是在云端完成的，具体实施时，也可以在手机端完成，获取对所述展品图像的所有步骤全部在手机端完成，云端的目的仅在于实时更新手机本地的景点数据库内容。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于展品图像识别的语音讲解数据处理方法，其特征在于，包括：

获取景点区域的展品图像；

根据所述类别对应的特征模型提取图像特征；

查询景点图像数据库，获取与所述图像特征对应的展品对象，得到展品对象列表，所述景点图像数据库存储有展品对象和图像特征、描述信息的关联关系，包括：

获取所述目标展品对象的展品图像；

将所述目标展品对象的展品图像与所述景点数据库中展品对象的所有展品图像进行匹配，判断是否一致；

如果不一致，则将所述目标展品对象的展品图像存储至所述景点数据库，作为同一展品对象的不同图像收录，完善并不断优化所述景点数据库；

根据所述展品对象列表获取用户选择的展品对象；

2.根据权利要求1所述的方法，其特征在于，所述对所述展品图像进行分类，包括：

获取所述展品图像中展品区域；

判断所述展品区域是否为矩形；

3.根据权利要求2所述的方法，其特征在于，所述方法包括：

如果所述展品图像未落入所述预设框内，则重新扫描。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在获取景点区域展品图像前，确定所述景点区域的位置。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

确定用户的当前位置，包括：

利用GPS定位技术获取用户的当前位置；和/或

获取用户根据预设区域选择的当前景点所处的位置。

7.一种基于展品图像识别的语音讲解数据处理的装置，其特征在于，包括：

图像获取单元，用于获取景点区域展品图像；

特征提取单元，用于根据所述类别对应的特征模型提取图像特征；

结果筛选单元，用于查询景点图像数据库，获取与所述图像特征对应的展品对象，得到展品对象列表，所述景点图像数据库存储有展品对象和图像特征、描述信息的关联关系，包括：

获取所述目标展品对象的展品图像；

8.根据权利要求7所述的装置，其特征在于，所述图像分类单元包括：

区域获取模块，用于获取所述展品图像中展品区域；

矩形判断模块，用于判断所述展品区域是否为矩形；

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

扫描判断单元，用于在对所述展品图像进行分类前，判断所述展品图像是否为通过扫描方式得到；