CN109427343A

CN109427343A - 导盲语音处理方法、装置及系统

Info

Publication number: CN109427343A
Application number: CN201710784546.4A
Authority: CN
Inventors: 彭冲
Original assignee: BYD Co Ltd
Current assignee: BYD Co Ltd
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2019-03-05
Anticipated expiration: 2037-09-04
Also published as: CN109427343B

Abstract

本申请提出一种导盲语音处理方法、装置及系统，其中，该方法包括：根据当前采集的图像，确定当前环境中包括的物体信息；基于预先训练的神经网络模型，根据所述当前环境中包括的物体信息，确定当前环境对应的第一提示消息及第一优先级；在确定当前正在播放的第二提示消息的第二优先级，低于所述第一优先级时，中断所述第二提示消息，并启动播放所述第一提示消息。由此，通过利用神经网络模型，确定与当前的环境对应的提示消息及消息的优先级，进而优先播放优先级较高的提示消息，从而提高了导盲语音消息的准确性和及时性，提高了导盲系统的可靠性和安全性，改善了用户体验。

Description

导盲语音处理方法、装置及系统

技术领域

本申请涉及语音导盲技术领域，尤其涉及一种导盲语音处理方法、装置及系统。

背景技术

由于视力障碍，出行安全一直是困扰盲人或者视障人士的重要问题之一。如何提供一种有效的导盲方法或系统，为盲人的出行提供精确、具体的指引，一直是社会关注和研究的重点。

目前，导盲系统的实现方式是，由人工制动导盲语音的播放策略，之后导盲系统利用传感器监测盲人当前所处的环境，并在当前的环境条件满足某条导盲语音的触发条件时，触发播放该条导盲语音。

但是，申请人发现，上述导盲语音播放策略，仅能适用于简单环境下的导盲处理，当环境复杂、且变化较快时，采用上述导盲语音播放方式，无法及时准确的为盲人提供道路指引，导盲系统的可靠性低。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请第一方面实施例提出了一种导盲语音处理方法，包括：根据当前采集的图像，确定当前环境中包括的物体信息；基于预先训练的神经网络模型，根据所述当前环境中包括的物体信息，确定当前环境对应的第一提示消息及第一优先级；在确定当前正在播放的第二提示消息的第二优先级，低于所述第一优先级时，中断所述第二提示消息，并启动播放所述第一提示消息。

本申请实施例的导盲语音处理方法，首先根据当前采集的图像，确定当前环境中包括的物体信息，进而基于预先训练的神经网络模型，根据当前环境中包括的物体信息，确定当前环境对应的第一提示消息及第一优先级，进而在确定当前正在播放的第二提示消息的第二优先级低于第一优先级时，中断第二提示消息，先播放第一提示消息。由此，通过利用神经网络模型，确定与当前的环境对应的提示消息及消息的优先级，进而优先播放优先级较高的提示消息，从而提高了导盲语音消息的准确性和及时性，提高了导盲系统的可靠性和安全性，改善了用户体验。

本申请第二方面实施例提出了一种导盲语音处理装置，包括：

第一确定模块，用于根据当前采集的图像，确定当前环境中包括的物体信息；

第二确定模块，用于基于预先训练的神经网络模型，根据所述当前环境中包括的物体信息，确定当前环境对应的第一提示消息及第一优先级；

处理模块，用于在确定当前正在播放的第二提示消息的第二优先级，低于所述第一优先级时，中断所述第二提示消息，并启动播放所述第一提示消息。

本申请实施例的导盲语音处理装置，首先根据当前采集的图像，确定当前环境中包括的物体信息，进而基于预先训练的神经网络模型，根据当前环境中包括的物体信息，确定当前环境对应的第一提示消息及第一优先级，进而在确定当前正在播放的第二提示消息的第二优先级低于第一优先级时，中断第二提示消息，先播放第一提示消息。由此，通过利用神经网络模型，确定与当前的环境对应的提示消息及消息的优先级，进而优先播放优先级较高的提示消息，从而提高了导盲语音消息的准确性和及时性，提高了导盲系统的可靠性和安全性，改善了用户体验。

本申请第三方面实施例提出了一种导盲系统，包括：存储器及处理器；

所述存储器用于存储可执行的计算机程序；

所述处理器，用于调用并执行所述存储器中存储的计算机程序，以实现如上第一方面所述的导盲语音处理方法。

本申请第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的导盲语音处理方法。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例的导盲语音处理方法的流程示意图；

图2是本申请另一个实施例的导盲语音处理方法的流程示意图；

图3为本申请一个实施例的导盲语音处理装置的结构示意图；

图4为本申请另一个实施例的导盲语音处理装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请各实施例主要针对现有技术中，导盲系统的导盲语音播放方式，在复杂、多变的环境下，无法及时准确的为盲人提供道路指引，导盲系统的可靠性低的问题，提出一种导盲语音处理方法。

本申请实施例提供的导盲语音处理方法，首先根据当前采集的图像，确定当前环境中包括的物体信息，进而基于预先训练的神经网络模型，根据当前环境包括的物体信息，确定当前环境对应的第一提示消息及第一优先级，然后在确定当前正在播放的第二提示消息的第二优先级，低于第一优先级时，则中断第二提示消息，启动播放第一提示消息。由此，通过利用神经网络模型，确定各种物体信息对应的提示消息及优先级，进而优先播放优先级较高的提示消息，从而使得盲人可以及时准确的获取到当前环境下的关键信息，进而提高了导盲系统的可靠性。

下面参考附图描述本申请实施例的导盲语音处理方法、装置及系统。

图1是本申请一个实施例的导盲语音处理方法的流程示意图。

如图1所示，该导盲语音处理方法包括：

步骤101，根据当前采集的图像，确定当前环境中包括的物体信息。

本实施例提供的导盲语音处理方法，可以被配置在本申请实施例提供的导盲语音处理装置中，该装置可以被设置在导盲系统中，以对导盲系统的导盲语音播放方式进行控制。

具体实现时，导盲系统可以通过多种方式进行图像采集，比如采用双目相机，或者采用结构光红外相机等等，本实施例对此不做限定。

举例来说，若采用双目相近进行图像采集，那么上述步骤101，具体包括：

对当前双目相机采集的图像进行物体识别，确定当前图像中包括的物体种类及在图像中的坐标；

利用双目测距算法，计算所述当前图像中各物体的物理坐标及实际尺寸。

具体的，导盲系统可以采用任意图像识别方法，对双目相机采集的图像进行物体识别。比如，采用统计决策方法、结构模式识别方法、模糊模式识别方法、人工神经网络模式识别等等，本实施例对此不做限定。

当导盲语音处理装置识别出当前图像中包括的物体后，即可根据预先存储的各类物体的特征，判断当前图像中包括的物体的种类，及各物体在图像中的坐标。

其中，物体的种类，指物体区别于其它物体的类别，比如可以包括：人、狗、汽车、石头、台阶等等。物体在图像中的坐标，指各物体在图像中与固定参考点间的位置关系。

进一步的，导盲语音处理装置，在确定了当前图像中包括的物体种类及在图像中的坐标后，即可利用双目测距算法，计算各个物体的物理坐标及实际尺寸。

其中，各个物体的物理坐标，用于反映各个物体在当前环境中与导盲语音处理装置间的实际距离。

步骤102，基于预先训练的神经网络模型，根据所述当前环境中包括的物体信息，确定当前环境对应的第一提示消息及第一优先级。

其中，预先训练的神经网络模型，是通过对大量的盲人出行视频进行神经网络训练得到的。

具体的，神经网络模型以物体的种类、物理坐标及实际尺寸为输入，以提示消息及优先级为输出。从而当导盲语音处理装置，在确定了各个物体的种类、物理坐标和实际尺寸后，即可将当前的场景中包括的物体信息输入到预先训练的神经网络模型中，进而根据神经网络模型的输出，即可确定当前的第一提示消息及第一优先级。

需要说明的是，由于当前场景中可能包括多种物体，相应的，上述神经网络模型输出的第一提示消息中也可能包括多条提示消息，及各条提示消息分别对应的优先级。

步骤103，在确定当前正在播放的第二提示消息的第二优先级，低于所述第一优先级时，中断所述第二提示消息，并启动播放所述第一提示消息。

具体的，由于提示消息的播放有持续性，因此当导盲语音处理装置在确定了当前环境对应的第一提示消息时，可能上一环境对应的第二提示消息并未播放完毕，因此，导盲语音处理装置，可判断当前正在播放的第二提示消息对应的第二优先级是否低于第一优先级，若低于，则可以优先播放第一提示消息，之后再继续播放第二提示消息；若高于，则可以继续播放第二提示消息。

举例来说，若当前导盲系统正在播报的第二提示消息为，提醒用户前方100米处有台阶，且该条提示消息的优先级为“中”；导盲语音处理装置根据当前采集的图像，确定前方2米处突然跑来一条狗，即当前环境对应的第一提示消息为“前方2米处有条狗”，且该条提示消息的优先级为“高”。那么导盲语音处理装置，即可中断上述第二提示消息，先播放第一提示消息，从而使用户可以根据环境的变化，及时获取到相应的提示消息，提高了导盲系统的可靠性和安全性。

可以理解的是，若第一提示消息中包括多条待播放的消息，且各个消息分别对应不同的优先级，那么导盲语音处理装置，即可根据各个消息的优先级及正在播放的第二提示消息的优先级，按照优先级的先后，依次播放各提示消息。

相应的，若第一提示消息的第一优先级低于或等于第二优先级，且待播放的消息队列中仍包还有多条待播放的提示消息，那么导盲语音处理装置，即可根据第一优先级的大小，将第一提示消息插入待播放消息队列中。

即在上述步骤103之后，还包括：

在确定所述第一优先级低于或等于所述第二优先级时，根据所述第一优先级的大小，将所述第一提示消息插入待播放消息队列中。

举例来说，若待播放的消息队列中包括3条待播放的提示消息，且第一条提示消息的优先级为较优先、第二条提示消息的优先级为中等、第三条提示消息的优先级为最低，而导盲语音处理装置刚确定的第一提示消息的优先级为中等，那么即可将第一提示消息放在第三条提示消息之前。

需要说明的是，对于优先级相同的提示消息，导盲语音处理装置，可以根据该提示消息生成的先后顺序进行播放，也可以优先播放新生成的提示消息，本实施例对此不做限定。

本申请实施例提供的导盲语音处理方法，首先根据当前采集的图像，确定当前环境中包括的物体信息，进而基于预先训练的神经网络模型，根据当前环境中包括的物体信息，确定当前环境对应的第一提示消息及第一优先级，进而在确定当前正在播放的第二提示消息的第二优先级低于第一优先级时，中断第二提示消息，先播放第一提示消息。由此，通过利用神经网络模型，确定与当前的环境对应的提示消息及消息的优先级，进而优先播放优先级较高的提示消息，从而提高了导盲语音消息的准确性和及时性，提高了导盲系统的可靠性和安全性，改善了用户体验。

通过上述分析可知，可以通过对大量的盲人出行视频数据进行训练，生成神经网络模型，进而利用生成的网络模型，确定各环境下的提示消息及对应的优先级。下面结合图2对上述生成网络模型的过程进行详细说明。

图2是本申请另一个实施例的导盲语音处理方法的流程示意图。

如图2所示，该导盲语音处理方法包括：

步骤201，对盲人出行视频库中的视频数据进行解析，获取大量物体信息与提示消息及优先级的对应关系数据。

具体的，导盲语音处理装置，在获取到盲人出行视频数据后，可以首先通过人工标注，或者自动标注的形式，对视频数据中的物体信息，比如物体的种类、距离、尺寸等进行标准，并且结合每帧图像对应的提示消息及盲人的反映，确定各物体信息与提示消息及优先级的对应关系数据。

步骤202，利用所述大量物体信息与提示消息的对应关系数据，对神经网络进行训练，生成所述神经网络模型。

具体的，为保证训练的神经网络模型的准确性和可靠性，可以对获取到的物体信息与提示消息及优先级的对应关系数据，按一定比例进行分割，以得到训练数据集、验证数据集及测试数据集。

进而将物体信息作为神经网络的输入，将对应的提示消息及优先级作为神经网络的输出，对神经网络进行训练。在训练过程中，当输出的提示消息与实际的提示消息相符时，则给网络增加一个正向激励，不符合时，则根据不符合的程度，给一个权重惩罚。每个数据更新一次权重系数，循环迭代多次后，在训练数据集输出正确的比例超过一定阈值时，即可停止训练，并保存网络结构和权重文件。

进而再利用验证集，对训练好的网络结构和权重文件进行测试，如果正确的结果超过预先设定的阈值，则认为神经网络已经训练完成，可以使用。如果正确的结果低于阈值，则重复上述训练过程后再在验证集上进行测试，直到在验证集上的精度达到要求。

然后再利用确定的神经网络在测试集上进行测试，测试结果即为该神经网络的预估的真实精度。

步骤203，根据当前采集的图像，确定当前环境中包括的物体信息。

步骤204，基于预先训练的神经网络模型，根据所述当前环境中包括的物体信息，确定当前环境对应的第一提示消息及第一优先级。

在本申请一种较优的实现形式中，为了进一步提高提示消息的及时性，还可以为不同的提示消息设置不同的播放语速，比如在提示消息比较紧急时，可以在保证用户可听清的情况下，以尽量快的语速进行播放，从而使用户以尽量短的时间获取到提示消息；或者，在待播放的语音消息数量较多时，也可以提高各条提示消息的播放语速，从而避免各提示消息由于播放滞后而影响用户的安全等等。本实施例对此不做限定。

相应的，在上述步骤204之后，还包括：

步骤205，确定所述第一提示消息对应的播放语速。

需要说明的是，该第一提示消息对应的播放语速，可以通过利用训练得到的神经网络模型确定的，也可以根据确定的第一提示消息的优先级确定的，还可以是根据第一提示消息中是否包含特殊字段确定的，本实施例对此不做限定。

步骤206，判断所述第一优先级是否高于当前播放的第二提示消息的第二优先级，若是，则执行步骤207，否则，执行步骤208。

步骤207，中断所述第二提示消息，以所述播放语速播放所述第一提示消息。

步骤208，根据所述第一优先级的大小，将所述第一提示消息插入待播放消息队列中。

可以理解的是，本申请中，不需要人工制定策略，只有准备好训练数据后，即可通过机器增强学习训练出最优的语音导盲策略，该导盲策略输出的内容可以包括当前环境下盲人最关心的物体信息、距离、播报语速等，从而可以在任意场景下，及时、准确的为用户提供最需要的消息，提高了导盲系统的可靠性和安全性，且训练的数据都是基于盲人出行的视频数据得到的，从而使得提示消息更符合盲人需求，使盲人可快速的对周围的环境建立起形象的认知，内心更有安全感。另外，还可以根据需要，通过针对性扩充训练集，可以进一步训练神经网络，更新网络参数从而更新策略，获得更好的效果。

本申请实施例提供的导盲语音处理方法，首先对盲人出行视频库中的视频数据进行解析，获取大量物体信息与提示消息及优先级的对应关系数据，然后利用大量的物体信息与提示消息的对应关系数据，对神经网络进行训练，生成所述神经网络模型，进而在确定当前环境对应的物体信息后，即可利用神经网络模型，确定当前环境对应的提示消息、优先级及播放语速，进而即可以确定的播放语速，优先播放优先级较高的提示消息。由此，通过利用神经网络模型，确定与当前的环境对应的提示消息及消息的优先级和播放语速，进而以确定的播放语速，优先播放优先级较高的提示消息，从而提高了导盲语音消息的准确性和及时性，提高了导盲系统的可靠性和安全性，改善了用户体验。

基于上述导盲语音处理方法，本申请还提出一种导盲语音处理装置。

图3是本申请一个实施例的导盲语音处理装置的结构示意图。

如图3所示，该导盲语音处理装置包括：

第一确定模块31，用于根据当前采集的图像，确定当前环境中包括的物体信息；

第二确定模块32，用于基于预先训练的神经网络模型，根据所述当前环境中包括的物体信息，确定当前环境对应的第一提示消息及第一优先级；

处理模块33，用于在确定当前正在播放的第二提示消息的第二优先级低于所述第一优先级时，中断所述第二提示消息，并启动播放所述第一提示消息。

具体的，本申请实施例提供的导盲语音处理装置，可以执行本申请实施例提供的导盲语音处理方法，该装置可以被配置在任何导盲系统中，以实现对导盲系统的导盲语音进行控制。

在本申请一种可能的实现形式中，上述第一确定模块31，具体用于：

需要说明的是，前述对导盲语音处理方法实施例的解释说明，也适用于该实施例的导盲语音处理装置，此处不再赘述。

图4是本申请另一个实施例的导盲语音处理装置的结构示意图。

如图4所示，在图3所示的基础上，该导盲语音处理装置，还包括：

获取模块41，用于对盲人出行视频库中的视频数据进行解析，获取大量物体信息与提示消息及优先级的对应关系数据；

训练模块42，用于利用所述大量物体信息与提示消息的对应关系数据，对神经网络进行训练，生成所述神经网络模型。

在本实施例一种较优的实现形式中，该导盲语音处理装置，还包括：

第三确定模块43，用于确定所述第一提示消息对应的播放语速；

相应的，上述处理模块33，具体用于：以所述播放语速播放所述第一提示消息。

进一步的，该导盲语音处理装置，还包括：

插入模块44，用于在确定所述第一优先级低于或等于所述第二优先级时，根据所述第一优先级的大小，将所述第一提示消息插入待播放消息队列中。

需要说明的是，前述导盲语音处理方法实施例的解释说明，也适用于该实施例的导盲语音处理装置，此处不再赘述。

本申请实施例的导盲语音处理装置，首先对盲人出行视频库中的视频数据进行解析，获取大量物体信息与提示消息及优先级的对应关系数据，然后利用大量的物体信息与提示消息的对应关系数据，对神经网络进行训练，生成所述神经网络模型，进而在确定当前环境对应的物体信息后，即可利用神经网络模型，确定当前环境对应的提示消息、优先级及播放语速，进而即可以确定的播放语速，优先播放优先级较高的提示消息。由此，通过利用神经网络模型，确定与当前的环境对应的提示消息及消息的优先级和播放语速，进而以确定的播放语速，优先播放优先级较高的提示消息，从而提高了导盲语音消息的准确性和及时性，提高了导盲系统的可靠性和安全性，改善了用户体验。

另外，本申请实施例还提出一种导盲系统，包括：存储器及处理器；

所述存储器用于存储可执行的计算机程序；

所述处理器，用于调用并执行所述存储器中存储的计算机程序，以实现如上述实施例所述的导盲语音处理方法。

进一步的，本申请实施例还提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所述的导盲语音处理方法。

为达上述目的，本申请实施例还提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如上述实施例中所示的导盲语音处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个第一处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种导盲语音处理方法，其特征在于，包括：

根据当前采集的图像，确定当前环境中包括的物体信息；

基于预先训练的神经网络模型，根据所述当前环境中包括的物体信息，确定当前环境对应的第一提示消息及第一优先级；

在确定当前正在播放的第二提示消息的第二优先级，低于所述第一优先级时，中断所述第二提示消息，并启动播放所述第一提示消息。

2.如权利要求1所述的方法，其特征在于，所述根据当前采集的图像，确定当前环境中包括的物体信息，包括：

3.如权利要求1所述的方法，其特征在于，所述确定当前环境对应的第一提示消息及对应的第一优先级之前，还包括：

对盲人出行视频库中的视频数据进行解析，获取大量物体信息与提示消息及优先级的对应关系数据；

利用所述大量物体信息与提示消息的对应关系数据，对神经网络进行训练，生成所述神经网络模型。

4.如权利要求1-3任一所述的方法，其特征在于，所述确定当前环境对应的第一提示消息及对应的第一优先级之后，还包括：

确定所述第一提示消息对应的播放语速；

所述播放所述第一提示消息，包括：

以所述播放语速播放所述第一提示消息。

5.如权利要求1-3任一所述的方法，其特征在于，所述确定当前环境对应的第一提示消息及对应的第一优先级之后，还包括：

6.一种导盲语音处理装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述第一确定模块，具体用于：

8.如权利要求6所述的装置，其特征在于，还包括：

获取模块，用于对盲人出行视频库中的视频数据进行解析，获取大量物体信息与提示消息及优先级的对应关系数据；

训练模块，用于利用所述大量物体信息与提示消息的对应关系数据，对神经网络进行训练，生成所述神经网络模型。

9.如权利要求6-8任一所述的装置，其特征在于，还包括：

第三确定模块，用于确定所述第一提示消息对应的播放语速；

所述处理模块，具体用于：

以所述播放语速播放所述第一提示消息。

10.如权利要求6-8任一所述的装置，其特征在于，还包括：

插入模块，用于在确定所述第一优先级低于或等于所述第二优先级时，根据所述第一优先级的大小，将所述第一提示消息插入待播放消息队列中。

11.一种导盲系统，其特征在于，包括存储器及处理器；

所述存储器用于存储可执行的计算机程序；

所述处理器，用于调用并执行所述存储器中存储的计算机程序，以实现如上述权利要求1-5任一所述的导盲语音处理方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的导盲语音处理方法。