CN107702706B

CN107702706B - 路径确定方法、装置、存储介质及移动终端

Info

Publication number: CN107702706B
Application number: CN201710850689.0A
Authority: CN
Inventors: 梁昆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2020-08-21
Anticipated expiration: 2037-09-20
Also published as: CN107702706A

Abstract

本申请实施例公开了一种路径确定方法、装置、存储介质及移动终端。所述方法包括：获取用户位置；在检测到语音输入指示时，获取用户图像和语音数据；识别所述语音数据，提取所述语音数据包含的目标信息；将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析，所述路径规划模型的输出结果包括与所述用户位置及目标信息对应的推荐路线；获取所述推荐路线，并向用户展示所述推荐路线。采用上述技术方案，可以得到贴近用户真实需求的个性化推荐路线，可以有效地减少消费者花费在寻找商品上的时间。

Description

路径确定方法、装置、存储介质及移动终端

技术领域

本申请实施例涉及导航技术，尤其涉及一种路径确定方法、装置、存储介质及移动终端。

背景技术

目前，商场、超市等购物场所中的商品或商家数量繁多，所处位置也不统一，消费者很难知道自己想要购买的商品的摆放位置，或者很难寻找到指定商家、ATM或卫生间等目标对象。从而，其导致消费者需要花费大量的时间来寻找商品或商家等。

相关技术提供的室内导航方案虽然可以为用户提供前往指定目标地点的路线，但在确定推荐路线时，仅考虑到将用户位置作为起点，指定目标地点作为终点进行路径规划，智能程度不高。

发明内容

本申请实施例提供一种路径确定方法、装置、存储介质及移动终端，可以根据用户特征提供个性化的推荐路线，提高路线规划的智能度。

第一方面，本申请实施例提供了一种路径确定方法，包括：

获取用户位置；

在检测到语音输入指示时，获取用户图像和语音数据；

识别所述语音数据，提取所述语音数据包含的目标信息，其中，所述目标信息包括目标位置和/或目标商品；

将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析，所述路径规划模型的输出结果包括与所述用户位置及目标信息对应的推荐路线，其中，所述路径规划模型以购物场所内消费者的用户特征、购买记录及购买路径作为训练样本，采用机器学习的方式构建；

获取所述推荐路线，并向用户展示所述推荐路线。

第二方面，本申请实施例还提供了一种路径确定装置，该装置包括：

位置获取模块，用于获取用户位置；

数据获取模块，用于在检测到语音输入指示时，获取用户图像和语音数据；

语音识别模块，用于识别所述语音数据，提取所述语音数据包含的目标信息，其中，所述目标信息包括目标位置和/或目标商品；

路径确定模块，用于将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析，所述路径规划模型的输出结果包括与所述用户位置、及目标信息对应的推荐路线，其中，所述路径规划模型以购物场所内消费者的用户特征、购买记录及购买路径作为训练样本，采用机器学习的方式构建；

路径展示模块，用于获取所述推荐路线，并向用户展示所述推荐路线。

第三方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的路径确定方法。

第四方面，本申请实施例还提供了一种移动终端，包括用于采集语音数据的语音采集器、摄像头、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例所述的路径确定方法。

本申请实施例提供一种路径确定方案，通过获取用户位置；在检测到语音输入指示时，获取用户图像和语音数据；识别语音数据，提取其包含的目标信息；将用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析，所述路径规划模型的输出结果包括与所述用户位置及目标信息对应的推荐路线；获取推荐路线，并向用户展示所述推荐路线。采用上述技术方案，将用户特征、购买记录及购买路径作为构建路径规划模型的训练样本，从而，在将用户图像输入路径规划模型后，可以得到贴近用户真实需求的个性化推荐路线，可以有效地避免因消费者不知道欲购买的商品的位置而花费大量时间进行寻找的情况发生，还可以避免在寻找欲购买的多种商品时，发生部分路线重合的情况，有效地减少消费者花费在寻找商品上的时间。

附图说明

图1是本申请实施例提供的一种路径确定方法的流程图；

图2是本申请实施例提供的一种路径规划界面示意图；

图3是本申请实施例提供的单个神经元的基本结构示意图；

图4是本申请实施例提供的另一种路径确定方法的流程图；

图5是本申请实施例提供的又一种路径确定方法的流程图；

图6是本申请实施例提供的一种路径确定装置的结构示意图；

图7是本申请实施例提供的一种移动终端的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1为本申请实施例提供的一种路径确定方法的流程图，该方法可以由路径确定装置来执行，其中，该装置可由软件和/或硬件实现，一般可集成在移动终端中。如图1所示，该方法包括：

步骤110、获取用户位置。

其中，用户位置为移动终端的位置。例如，消费者携带移动终端进入A超市，移动终端可以与A超市的监控视频服务器通信，获取消费者在A超市内的用户位置。可以理解的是，上述方案中列举出的移动终端获取消费者在A超市内的用户位置的方式仅为示例，并非限定。例如，移动终端还可以通过接入的商铺的WIFI热点的位置确定建筑物内的用户位置。

步骤120、在检测到语音输入指示时，获取用户图像和语音数据。

在检测到用户开启路线规划功能时，显示路径规划界面。图2是本申请实施例提供的一种路径规划界面示意图。如图2所示，移动终端的触摸屏210上显示语音输入按钮220。若检测到语音输入按钮220被触摸，则生成语音输入指示。其中，触摸屏210是具有触控功能的显示屏。可以理解的是，上述通过作用于语音输入按钮上的触摸操作触发生成语音输入指示的方式仅是举例，并不作为对语音输入指示的生成方式的限定。

在检测到语音输入指示时，控制摄像头开启，并控制摄像头拍摄当前用户的用户图像。其中，当前用户可以为触摸操作的执行者。可选的，在控制摄像头拍摄当前用户图像之前，通过接近传感器检测人脸与触摸屏的第一距离，若第一距离小于设定拍摄阈值，则提示用户将移动终端移至远离人脸的位置，以便摄像头拍到的用户图像包含足够确认用户年龄、性别、妆容或衣着的像素信息。

通过语音采集器可以获取语音数据。其中，语音采集器包括送话器，以及蓝牙耳机、红外耳机等无线耳机。例如，可以是在检测到用户按住语音输入按钮时，通过送话器采集语音数据。又如，还可以是在检测到用户触摸蓝牙耳机上的语音输入按钮时，通过蓝牙耳机采集语音数据，并将采集到的语音数据通过蓝牙模块发送至移动终端。可以理解的是，上述获取语音数据的方式是示例而非限定。

可选的，在检测到用户按住语音输入按钮时，显示提示信息，所述提示信息用于提醒用户输入目标位置、目标商品中的至少一种。如图2所示，在触摸屏210上显示“请输入目标位置/目标商品！”

步骤130、识别所述语音数据，提取所述语音数据包含的目标信息。

其中，目标信息包括目标位置和/或目标商品。例如，若输入“去A超市X店购买L牌调和油”的语音数据，需要提取的目标位置即为A超市X店，目标商品为L牌调和油。

由于语音数据只在较短的时间内呈现平稳性，因此需要将语音数据划分为一个一个的短时段，即声音帧。

采用预设的窗函数，按照设定的帧移处理语音数据得到至少两个声音帧。其中，窗函数的窗长为设定的帧长。其中，窗函数可以是矩阵窗、三角窗、汉宁窗、海明窗或高斯窗等。

针对每个声音帧，通过快速傅立叶变换(Fast Fourier Transform，FFT)得到各个声音帧对应的频谱图。通过一系列梅尔滤波器对各个声音帧的频谱图进行滤波处理，得到梅尔频谱；对所述梅尔频谱进行倒谱分析，得到梅尔频率倒谱系数，将所述梅尔频率倒谱系数作为语音识别的动态特征向量，即声音帧对应的语音特征矢量序列。采用动态时间规整算法(dynamic time warping，简称DTW)处理所述语音特征矢量序列，得到所述语音数据的识别结果。其中，DTW算法是一种衡量两个时间序列之间的相似度的方法，主要应用在语音识别领域来识别两段语音是否表示同一个单词。

示例性地，若该语音特征矢量序列与预设的参考模板的长度不同，则可以通过DTW算法计算语音特征矢量序列与参考模板的帧匹配距离矩阵，在帧匹配距离矩阵中找出一条最佳路径，该最佳路径为最小匹配距离对应的路径。确定作为最小帧匹配距离对应的端点的参考模板内的语音及语音特征矢量序列，将该参考模板内的语音作为该语音特征矢量序列对应的声音帧的发音。根据所述发音确定声音帧对应的文字，可以通过查询预设的字典的方式，确定发音对应的文字。从而，将各个声音帧对应的文字作为语音数据的识别结果。

对作为识别结果的文字组成的句子进行分词处理，确定所述句子的句子成分，从中提取满足预设规则的词汇作为目标信息。其中，预设规则可以是规定提取语音数据对应的文字中的宾语和补语。预设规则还可以是提取包含指定词语的词组。例如，预设规则是提取包含“超市”的词组。

步骤140、将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析，所述路径规划模型的输出结果包括与所述用户位置及目标信息对应的推荐路线。

其中，所述路径规划模型以购物场所内消费者的用户特征、购买记录及购买路径作为训练样本，采用机器学习的方式构建。由于路径规划模型通过学习购买场所内部的监控视频中的消费者的用户特征、购买记录及购买路径，具备了分析、确定某一特征的消费者在超市或商场中的可能购买路径的能力。

示例性地，以路径规划模型为循环神经网络模型为例，路径规划模型的训练过程包括：

模型初始化，包括设置隐藏层的数目以及输入层、隐藏层和输出层各层的节点数，各层之间的连接权重，以及初始化隐藏层和输出层的阈值等，初步得到循环神经网络模型的框架。

路径学习，以监控视频中消费者的用户特征、购买记录及购买路径作为训练样本，根据循环神经网络模型包括的公式计算隐藏层的输出参数和输出层的输出参数，根据上一层的计算结果、两层之间的连接权重和自身节点的外部偏置值，计算循环神经网络模型的输出。

误差计算，获取消费者选择的推荐路线的标识信息，采用无监督学习方式对模型参数进行调整。其中，模型参数包括循环神经网络模型中神经元的连接权重和外部偏置值。图3示出本申请实施例提供的单个神经元的基本结构示意图，图3中ω_i1为神经元i与其所在层的上一层中神经元之间的连接权重，也可以理解为输入x₁的权重；θ_i为该神经元的外部偏置。根据网络预测误差，神经网络中误差反向传递修改各个神经元的连接权重和外部偏置值。判断算法迭代是否结束，若是，则完成循环神经网络模型的构建。

可以理解的是，上述模型训练过程可以在服务器中进行，还可以在移动终端中进行。为了减少移动终端的计算量，可以在移动终端中构建缺少模型参数的路径规划模型的框架，不进行模型训练，将模型训练过程在服务器中进行，并将训练好的路径规划模型的模型参数以配置文件的形式下发至移动终端。从而，根据配置文件配置移动终端内预先构建的路径规划模型的框架，使其可以对用户位置、用户图像及目标信息进行分析，输出推荐路线。可选的，配置文件中的模型参数按照不同的购物场所进行存储。例如，超市A的模型参数为第一模型参数集合；商场B的模型参数为第二模型参数集合。在用户开启路线规划功能时，移动终端根据用户位置选择与用户位置对应的模型参数，将所述模型参数添加至预先构建的模型框架得到路径规划模型。

路径规划模型构建完成后并不是一成不变的，服务器会根据新获取的训练样本自动优化路径规划模型，包括调整模型参数。服务器根据调整后的模型参数生成新的配置文件。

移动终端中的路径规划模型的更新操作可以是由预设的模型更新条件触发，在满足模型更新条件时，从服务器获取所述路径规划模型的配置文件，其中，所述更新条件包括接收到服务器发送的模型更新消息，或者，系统时间达到预设更新时间。根据所述配置文件对所述路径规划模型的模型参数进行更新。

将用户图像输入构建好的路径规划模型，可以通过分析用户图像确定用户的年龄、性别、妆容及衣着。从而，基于所述年龄、性别、妆容、衣着中的一种或几种的组合确定用户特征。例如，通过检测用户图像中眼角及额头等易出现皱纹的部位判断用户的年龄区间。可选的，还可以通过检测皮肤的松弛程度确定用户的年龄区间。可以通过识别用户图像确定用户性别。可以通过提取用户图像的面部信息，根据面部信息中的肤色信息确定用户是否化妆。

通过年龄、性别、妆容、衣着中的一种或几种的组合分析出用户特征，将用户特征作为用户分类的依据。再基于输入路径规划模型的用户位置及目标信息，确定该类用户在历史购物行为中与所述与用户位置及目标信息关联的路径，分析上述路径为该用户推荐路线。示例性地，若消费者开启路线规划功能，则路径规划模型在分析出消费者的用户特征后，可以预测消费者购买商品或寻找某一目标位置时可能采用的参考路径。以超市入口作为起点为例，根据一类用户的购买记录及购买路径确定该用户由超市入口到目标位置或目标商品对应的位置的参考路径。所述路径规划模型将所述参考路径作为推荐路线进行输出。例如，年轻女性更偏好于最新品牌商品分布的购买路径。中年女性更偏好于折扣商品多的购买路径。男性更倾向于选择距离最短的购买路径。可选的，将商品品牌、商品的打折信息和路线距离数字化，品牌越新数值越小，折扣越低数值越小，路线越短数值越小，构建邻接矩阵,用迪克斯特拉算法(Dijkstra's Algorithm，简称Dijkstra)计算“最优”路径。

步骤150、获取所述推荐路线，并向用户展示所述推荐路线。

获取路径规划模型输出的推荐路线，其中，推荐路线至少为一条，在路径规划界面展示推荐路线供用户选择。在获取到用户的选择操作后，根据所述选择操作对应的路径将消费者引导至目标位置或目标商品对应的位置。

可选的，将用户的选择操作对应的推荐路线的标识信息，将所述标识信息发送至服务器，所述标识信息用于指示所述服务器更新路径规划模型。

本申请实施例的技术方案，通过获取用户位置；在检测到语音输入指示时，获取用户图像和语音数据；识别语音数据，提取其包含的目标信息；将用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析，所述路径规划模型的输出结果包括所述目标信息对应的推荐路线；获取推荐路线，并向用户展示所述推荐路线。采用上述技术方案，将用户特征及购买记录作为构建路径规划模型的训练样本，从而，在将用户图像输入路径规划模型后，可以得到贴近用户真实需求的个性化推荐路线，可以有效地避免因消费者不知道欲购买的商品的位置而花费大量时间进行寻找的情况发生，还可以避免在寻找欲购买的多种商品时，发生部分路线重合的情况，有效地减少消费者花费在寻找商品上的时间。

图4是本申请实施例提供的另一种路径确定方法的流程图。如图4所示，所述方法包括：

步骤401、获取用户位置。

步骤402、在检测到作用于语音输入按钮上的触摸操作时，控制摄像头拍摄用户的第一图像。

示例性地，若用户按住如图2所示的路径规划界面中的语音输入按钮220，预输入语音数据，则用户通常执行的动作是按住语音输入按钮220，并将移动终端靠近人脸，以使移动终端可以更好的接收用户输入的语言数据。基于上述过程，可以在检测到作用于语音输入按钮上的触摸操作时，开启摄像头，通过摄像头拍摄至少一帧用户的第一图像。可以只拍摄一帧用户的第一图像，将第一图像输入路径规划模型。可选的，为了提高第一图像的分辨率，可以连续拍摄2帧或2帧以上的第一图像，通过图像融合将多帧第一图像融合成一帧图像质量最好的第一图像，以使处理后的第一图像包含尽量多的体现用户特征的像素。

步骤403、按照设定的周期检测所述触摸操作是否消失。

其中，设定的周期可以是系统默认周期，也可以由用户自行设定。

通过检测作用于语音输入按钮上的触摸操作是否出现抬起动作(即检测到触摸屏上报的ACTION_UP事件)，若是，则确定该触摸操作消失。

步骤404、若所述触摸操作未消失，则获取语音数据。

若检测到用于语音输入按钮上的触摸操作持续存在，则确定语音获取操作未结束，则获取由语音采集器采集的语音数据。

步骤405、在检测到所述触摸操作消失时，保存所述语音数据。

若检测到用于语音输入按钮上的触摸操作消失，则确定语音获取操作结束，停止从语音采集器获取语音数据，同时在设定的存储区域保存已获取的语音数据。其中，预设的存储区域可以是移动终端的缓存。

步骤406、检测人脸与触摸屏的距离。

通过接近传感器检测人脸与触摸屏的接近值，可以将该接近值作为人脸与触摸屏的距离。可以理解的是，上述由接近值代表人脸与触摸屏的距离的方案仅是示例，并非限定。例如，还可以通过拍摄用户图像的方式确定人脸与触摸屏的距离。

步骤407、判断所述距离是否超过设定阈值，若是，则执行步骤409，否则，执行步骤408。

其中，设定阈值可以是系统根据移动终端中的摄像头拍摄用户图像的拍摄效果确定；可选的，还可以是用户指定某一拍摄图像为最佳图像，则将该最佳图像对应的人脸与触摸屏的距离作为设定阈值。

步骤408、显示提示信息，以提示用户调整移动终端与人脸的距离。

在人脸与触摸屏的距离小于设定阈值时，显示提示信息。其中，提示信息包括以对话框的形式在触摸屏上显示提示信息。例如，在检测到人脸与触摸屏的距离小于设定阈值时，弹出对话框，在对话框中显示“当前距离触摸屏太近，请远离！”。可选的，提示信息还可以是语音提示等。

步骤409、控制所述摄像头拍摄用户的第二图像。

在实际使用中，可能出现如下情况：用户A和B结伴去M超市，若用户A开启移动终端中的路线规划功能，并按住语音输入按钮，但是语音数据是由用户B输入的，那么就会出现错误采集用户A的用户图像，用于为用户B推进路径的分析过程，从而影响推荐推进的准确性。为了避免发生上述问题，在人脸与触摸屏的距离超过设定阈值时，控制摄像头拍摄用户的第二图像。通过该方式验证按住语音输入按钮的用户与输入语音数据的用户是否为同一用户，避免用户图像的误采集。

步骤410、判断所述第一图像与第二图像是否对应同一用户，若是，则执行步骤411，否则，执行步骤412

提取第一图像和第二图像中包含的人脸信息，通过人脸比对的方式确定第一图像和第二图像是否对应同一用户，若是，则执行步骤411，否则执行步骤412。

步骤411、将第一图像或第二图像作为用户图像。

若第一图像和第二图像对应同一用户，则可以选择第一图像或第二图像中的任意一幅作为用户图像。

步骤412、提示用户选择所述第一图像或第二图像作为用户图像，或者，提示用户重新拍摄第三图像作为用户图像。

若第一图像和第二图像对应不同用户，则可以显示对话框，在对话框中显示“请指定下述两幅图像中的衣服为用户图像！”的语句、第一图像和第二图像。可选的，若第一图像和第二图像对应不同用户，还可以是语音提示用户选择第一图像或第二图像作为用户图像，并获取用户输入的选择结果。例如，用户可以通过语音输入“选择第二图像为用户图像”。可选的，还可以是显示对话框，对话框中显示“请重新拍摄用户图像！”，若用户点击确定，则触发摄像头开启，重新拍摄用户的第三图像作为用户图像。可选的，还可以是语音提示用户重新拍摄用户图像。若检测到用户语音输入拍照，则触发摄像头开启，重新拍摄用户的第三图像作为用户图像。可以理解的是，上述确定用户图像的方案仅为示例，并未限定。

步骤413、识别所述语音数据，提取所述语音数据包含的目标信息。

步骤414、将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析，所述路径规划模型的输出结果包括与所述用户位置及目标信息对应的推荐路线。

步骤415、获取所述推荐路线，并向用户展示所述推荐路线。

本申请实施例的技术方案，通过在检测到作用于语音输入按钮上的触摸操作时，控制摄像头拍摄用户的第一图像；以及，在保持语音数据后，拍摄用户的第二图像；判断第一图像和第二图像是否对应同一用户，根据判断结果确定用户图像；然后，将用户图像输入预先构建的路径规划模型，进行分析、计算，从而确定推荐路线。采用上述技术方案，可以在向预先构建的路径规划模型中输入用户图像前，验证该用户图像是否为输入语音数据的用户对应的图像，从而，可以有效地避免用户图像误采集的情况发生，提高了推荐路线的准确性。

图5是本申请实施例提供的又一种路径确定方法的流程图。如图5所示，所述方法包括：

步骤501、获取用户位置。

步骤502、在检测到语音输入指示时，获取用户图像和语音数据。

其中，语音输入指示可以由作用于语音输入按钮上的触摸操作触发。

在检测到语音输入指示时，通过摄像头获取用户图像。若语音输入指示未消失，则通过语音采集器获取语音数据。

示例性地，在检测到作用于语音输入按钮上的触摸操作时，控制摄像头拍摄用户的第一图像，即为用户图像。按照设定的周期检测所述触摸操作是否消失；若所述触摸操作未消失，则获取语音数据。

可选的，在将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型之前，还可以包括以下步骤(可以根据实际需要选用)：检测人脸与触摸屏的距离；在所述距离超过设定阈值时，控制所述摄像头拍摄用户的第二图像；判断所述第一图像与第二图像是否对应同一用户；若是，则将第一图像或第二图像作为用户图像；否则，提示用户选择所述第一图像或第二图像作为用户图像，或者，提示用户重新拍摄第三图像作为用户图像。

步骤503、根据所述用户图像判断用户是否为注册用户。

通过对用户图像进行图像处理，图像识别，确定用户图像对应的用户是否为注册用户。示例性地，在用户注册时，获取用户图像，作为匹配模板。用户图像与匹配模板进行匹配，从而，可以确定用户图像对应的用户是否为注册用户。

步骤504、根据判断结果确定对应的分帧策略，根据所述分帧策略对所述语音数据进行分帧，得到至少两个声音帧。

若该用户是注册用户，则获取该注册用户的历史语音数据。其中，历史语音数据包括用户的历史通话数据、历史语音控制数据以及历史语音消息等。通过分析历史语音数据可以确定各个注册用户的平均语速及平均停顿间隔。其中，平均语速及平均停顿间隔均为加权计算得到。还可以进一步确定各个注册用户分别在不同场景下的语速及停顿间隔。

根据上述步骤确定的语速及停顿间隔查询分帧策略集合中存储的语速区间及停顿间隔区间，获取语速及停顿间隔对应的区间，将该区间对应的窗函数、帧长及帧移作为注册用户输入的当前语音数据的分帧策略。其中，分帧策略包括窗函数的选择、帧长的取值和帧移的取值，且所述分帧策略与不同用户的语言习惯相关联。分帧策略集合是分帧策略的集合，其中存储语速区间及停顿间隔区间与窗函数、帧长及帧移的对应关系。

采用上述步骤中确定的分帧策略包括的窗函数，按照分帧策略包括的帧移处理语音数据得到至少两个声音帧。其中，窗函数的窗长等于该分帧策略的帧长。由于语音数据的划分与注册用户的语速和停顿间隔相关，因此，分帧后得到的声音帧的帧长随注册用户的语速和停顿间隔而变化，帧长并非固定不变，可以减少将具有实际意义的语音与不具有实际意义的语音划分在同一声音帧内，从而，通过对该用户的历史语音数据的统计、分析，筛选出该用户常用的无实际意义的语音。确定各个声音帧内包含的无实际含义的语音在该声音帧频谱中的占比，若占比超过设定阈值，则不对该声音帧进行识别，可以有效的提高语音识别的效率。

若该用户是不是注册用户，则可以采用默认的窗函数，按照默认的帧移处理语音数据得到至少两个声音帧。其中，窗函数的窗长为默认帧长。

步骤505、提取所述声音帧对应的语音特征矢量序列。

其中，语音特征矢量序列包括梅尔频谱倒谱系数(Mel Frequency CepstralCoefficents，简称MFCC)特征。

步骤506、判断所述语音特征矢量序列与预设的参考模板的长度是否相等，若是，则执行步骤509，否则，执行步骤507。

获取语音特征矢量序列的长度，将其与预设的参考模板的长度进行比较。若长度相等，则执行步骤509。若长度不相等，执行步骤507。

步骤507、采用动态时间规整算法计算所述语音特征矢量序列与参考模板的帧匹配距离。

示例性地，若语音特征矢量序列与预设的参考模板的长度不同，则可以通过DTW算法计算语音特征矢量序列与参考模板的帧匹配距离矩阵，在帧匹配距离矩阵中找出一条最佳路径，该最佳路径为最小匹配距离对应的路径。

步骤508、确定最小帧匹配距离对应的发音，根据所述发音确定语音数据匹配的文字，然后，执行步骤510。

确定作为最小帧匹配距离对应的端点的参考模板内的语音及语音特征矢量序列，将该参考模板内的语音作为该语音特征矢量序列的发音。

步骤509、直接匹配语音特征矢量序列与参考模板，确定所述声音帧对应的发音，根据所述发音确定语音数据匹配的文字。

步骤510、对所述文字进行分词处理，提取目标信息。

步骤511、将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析，所述路径规划模型的输出结果包括与所述用户位置及目标信息对应的推荐路线。

示例性地，将用户位置、用户图像及目标信息作为路径规划模型的输入参数，通过该路径规划模型对用户图像、用户位置及目标信息进行分析，确定与用户位置及目标信息对应的符合该用户路径规划习惯的推荐路线。

可选的，可以在移动终端中构建缺少模型参数的模型框架，根据用户位置确定当前场景下路径规划模型对应的模型参数，将该模型参数添加至该模型框架得到适用于当前场景的路径规划模型。

可选的，在满足模型更新条件时，从服务器获取所述路径规划模型的配置文件，其中，所述更新条件包括接收到服务器发送的模型更新消息，或者，系统时间达到预设更新时间；根据所述配置文件对所述路径规划模型的模型参数进行更新。

步骤512、获取所述推荐路线，并向用户展示所述推荐路线。

本申请实施例的技术方案，通过用户图像判断用户是否为注册用户；对于注册用户，基于其历史语音数据分析得到语速及停顿间隔，从而根据语速及停顿间隔确定对应的个性化的分帧策略；根据分帧策略对语音数据进行分帧；提取各个声音帧对应的语音特征矢量序列，识别语音特征矢量序列得到声音帧的发音；根据所述发音确定语音数据匹配的文字，对文字进行分词处理，提取目标信息；然后，将用户位置、用户图像及目标信息输入预先构建的路径规划模型，进行分析、计算，从而确定推荐路线。采用上述技术方案，可以实现个性化的分帧操作，有效的减少将具有实际含义的语音特征与不具有实际含义的语音特征划分在一帧中的声音帧的数量。此外，还基于无实际含义的语音在该声音帧频谱中的占比，确定是否识别该声音帧，可以有效的提高语音识别的效率。

图6是本申请实施例提供的一种路径确定装置的结构示意图。该装置可有软件和/或硬件实现，一般集成在移动终端中。如图6所示，该装置可以包括：

位置获取模块610，用于获取用户位置；

数据获取模块620，用于在检测到语音输入指示时，获取用户图像和语音数据；

语音识别模块630，用于识别所述语音数据，提取所述语音数据包含的目标信息，其中，所述目标信息包括目标位置和/或目标商品；

路径确定模块640，用于将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析，所述路径规划模型的输出结果包括与所述用户位置及目标信息对应的推荐路线，其中，所述路径规划模型以购物场所内消费者的用户特征、购买记录及购买路径作为训练样本，采用机器学习的方式构建；

路径展示模块650，用于获取所述推荐路线，并向用户展示所述推荐路线。

本申请实施例提供一种路径确定装置，将用户特征及购买记录作为构建路径规划模型的训练样本，从而，在将用户图像输入路径规划模型后，可以得到贴近用户真实需求的个性化推荐路线，可以有效地避免因消费者不知道欲购买的商品的位置而花费大量时间进行寻找的情况发生，还可以避免在寻找欲购买的多种商品时，发生部分路线重合的情况，有效地减少消费者花费在寻找商品上的时间。

可选的，数据获取模块620具体用于：

在检测到作用于语音输入按钮上的触摸操作时，控制摄像头拍摄用户的第一图像；

按照设定的周期检测所述触摸操作是否消失；

若所述触摸操作未消失，则获取语音数据；

在检测到所述触摸操作消失时，保存所述语音数据。

可选的，还包括用户验证模块，用于：

在将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型之前，检测人脸与触摸屏的距离；

在所述距离超过设定阈值时，控制所述摄像头拍摄用户的第二图像；

判断所述第一图像与第二图像是否对应同一用户；

若是，则将第一图像或第二图像作为用户图像；

否则，提示用户选择所述第一图像或第二图像作为用户图像，或者，提示用户重新拍摄第三图像作为用户图像。

可选的，还包括分帧模块，用于：

在识别所述语音数据之前，根据所述用户图像判断用户是否为注册用户；

根据判断结果确定对应的分帧策略，根据所述分帧策略对所述语音数据进行分帧，得到至少两个声音帧；

其中，所述分帧策略包括窗函数的选择、帧长的取值和帧移的取值，且所述分帧策略与不同用户的语言习惯相关联。

可选的，语音识别模块630具体用于：

提取所述声音帧对应的语音特征矢量序列；

判断所述语音特征矢量序列与预设的参考模板的长度是否相等；

在不相等时，采用动态时间规整算法计算所述语音特征矢量序列与参考模板的帧匹配距离；

确定最小帧匹配距离对应的发音，根据所述发音确定语音数据匹配的文字；

对所述文字进行分词处理，提取目标信息。

可选的，还包括：参数获取模块用于：

在将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析之前，获取与所述用户位置对应的模型参数，将所述模型参数添加至预先构建的模型框架得到路径规划模型。

可选的，路径确定模块640具体用于：

将所述用户位置、用户图像及目标信息输入所述路径规划模型；

通过所述路径规划模型分析所述用户图像，确定用户的年龄、性别、妆容及衣着；

通过所述路径规划模型基于所述年龄、性别、妆容、衣着中的一种或几种的组合确定用户特征，根据具有所述用户特征的用户的购买记录及购买路径确定与所述用户位置及目标信息对应的推荐路线。

可选的，还包括模型更新模块，用于：

在满足模型更新条件时，从服务器获取所述路径规划模型的配置文件，其中，所述更新条件包括接收到服务器发送的模型更新消息，或者，系统时间达到预设更新时间；

根据所述配置文件对所述路径规划模型的模型参数进行更新。

可选的，还包括信息发送模块，用于：

在向用户展示所述推荐路线之后，获取用户选择的所述推荐路线的标识信息，将所述标识信息发送至服务器，所述标识信息用于指示所述服务器更新路径规划模型。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种路径确定方法，该方法包括：

获取用户位置；

在检测到语音输入指示时，获取用户图像和语音数据；

获取所述推荐路线，并向用户展示所述推荐路线。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的路径确定操作，还可以执行本申请任意实施例所提供的路径确定方法中的相关操作。

本申请实施例提供了一种移动终端，该移动终端中可集成本申请实施例提供的终端使用时间的控制装置。其中，移动终端包括智能手机、平板电脑、掌上游戏机、笔记本电脑及智能手表等。图7为本申请实施例提供的一种移动终端的结构示意图。如图7所示，该移动终端可以包括：存储器701、中央处理器(Central Processing Unit，CPU)702(又称处理器，以下简称CPU)、语音采集器706及摄像头711及触摸屏712。所述摄像头711，用于拍摄用户图像；所述语音采集器706，用于采集语音数据；所述存储器701，用于存储计算机程序；所述CPU702读取并执行所述存储器701中存储的计算机程序。所述CPU702在执行所述计算机程序时实现以下步骤：获取用户位置；在检测到语音输入指示时，获取用户图像和语音数据；识别所述语音数据，提取所述语音数据包含的目标信息，其中，所述目标信息包括目标位置和/或目标商品；将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析，所述路径规划模型的输出结果包括与所述用户位置及目标信息对应的推荐路线，其中，所述路径规划模型以购物场所内消费者的用户特征、购买记录及购买路径作为训练样本，采用机器学习的方式构建；获取所述推荐路线，并向用户展示所述推荐路线。

所述移动终端还包括：外设接口703、RF(Radio Frequency，射频)电路705、电源管理芯片708、输入/输出(I/O)子系统709、其他输入/控制设备710以及外部端口704，这些部件通过一个或多个通信总线或信号线707来通信。

应该理解的是，图示智能手机700仅仅是移动终端的一个范例，并且智能手机700可以具有比图中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

下面就本实施例提供的集成有路径确定装置的移动终端进行详细的描述，该移动终端以手机为例。

存储器701，所述存储器701可以被CPU702、外设接口703等访问，所述存储器701可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

外设接口703，所述外设接口703可以将设备的输入和输出外设连接到CPU702和存储器701。

I/O子系统709，所述I/O子系统709可以将设备上的输入输出外设，例如触摸屏712和其他输入/控制设备710，连接到外设接口703。I/O子系统709可以包括显示控制器7091和用于控制其他输入/控制设备710的一个或多个输入控制器7092。其中，一个或多个输入控制器7092从其他输入/控制设备710接收电信号或者向其他输入/控制设备710发送电信号，其他输入/控制设备710可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是，输入控制器7092可以与以下任一个连接：键盘、红外端口、USB接口以及诸如鼠标的指示设备。

触摸屏712，所述触摸屏712是用户终端与用户之间的输入接口和输出接口，将可视输出显示给用户，可视输出可以包括图形、文本、图标、视频等。

I/O子系统709中的显示控制器7091从触摸屏712接收电信号或者向触摸屏712发送电信号。触摸屏712检测触摸屏上的接触，显示控制器7091将检测到的接触转换为与显示在触摸屏712上的用户界面对象的交互，即实现人机交互，显示在触摸屏712上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是，设备还可以包括光鼠，光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸。

RF电路705，主要用于建立手机与无线网络(即网络侧)的通信，实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地，RF电路705接收并发送RF信号，RF信号也称为电磁信号，RF电路705将电信号转换为电磁信号或将电磁信号转换为电信号，并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路705可以包括用于执行这些功能的已知电路，其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC(COder-DECoder，编译码器)芯片组、用户标识模块(Subscriber Identity Module，SIM)等等。

语音采集器606，包括送话器，以及蓝牙耳机、红外耳机等无线耳机，主要用于接收音频数据，将该音频数据转换为电信号。

电源管理芯片708，用于为CPU702、I/O子系统及外设接口所连接的硬件进行供电及电源管理。

本申请实施例提供的移动终端，可以有效地控制移动终端的使用时长。

上述实施例中提供的路径确定装置、存储介质及移动终端可执行本申请任意实施例所提供的路径确定方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的路径确定方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种路径确定方法，其特征在于，包括：

获取用户位置；

在检测到语音输入指示时，获取用户图像和语音数据；

根据所述用户图像判断用户是否为注册用户；

根据判断结果确定对应的分帧策略，根据所述分帧策略对所述语音数据进行分帧，得到至少两个声音帧，确定各个所述声音帧内包含的无实际含义的语音在该声音帧频谱中的占比，若占比超过设定阈值，则不对该声音帧进行识别；

其中，所述分帧策略包括窗函数的选择、帧长的取值和帧移的取值，且所述分帧策略与不同用户的语言习惯相关联；

提取所述声音帧对应的语音特征矢量序列；

识别语音特征矢量序列得到声音帧的发音，根据所述发音确定语音数据匹配的文字；

对所述文字进行分词处理，提取目标信息，其中，所述目标信息包括目标位置和/或目标商品；

获取所述推荐路线，并向用户展示所述推荐路线。

2.根据权利要求1所述的方法，其特征在于，在检测到语音输入指示时，获取用户图像和语音数据，包括：

按照设定的周期检测所述触摸操作是否消失；

若所述触摸操作未消失，则获取语音数据；

在检测到所述触摸操作消失时，保存所述语音数据。

3.根据权利要求2所述的方法，其特征在于，在将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型之前，还包括：

检测人脸与触摸屏的距离；

判断所述第一图像与第二图像是否对应同一用户；

若是，则将第一图像或第二图像作为用户图像；

4.根据权利要求1所述的方法，其特征在于，识别语音特征矢量序列得到声音帧的发音，根据所述发音确定语音数据匹配的文字，包括：

确定最小帧匹配距离对应的发音，根据所述发音确定语音数据匹配的文字。

5.根据权利要求1所述的方法，其特征在于，在将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析之前，还包括：

获取与所述用户位置对应的模型参数，将所述模型参数添加至预先构建的模型框架得到路径规划模型。

6.根据权利要求5所述的方法，其特征在于，将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析，包括：

7.根据权利要求1所述的方法，其特征在于，还包括：

8.根据权利要求1至7中任一所述的方法，其特征在于，在向用户展示所述推荐路线之后，还包括：

获取用户选择的所述推荐路线的标识信息，将所述标识信息发送至服务器，所述标识信息用于指示所述服务器更新路径规划模型。

9.一种路径确定装置，其特征在于，包括：

位置获取模块，用于获取用户位置；

语音识别模块，用于根据所述用户图像判断用户是否为注册用户；

提取所述声音帧对应的语音特征矢量序列；

提取所述声音帧对应的语音特征矢量序列，识别语音特征矢量序列得到声音帧的发音；

根据所述发音确定语音数据匹配的文字；对所述文字进行分词处理，提取目标信息，其中，所述目标信息包括目标位置和/或目标商品；

路径确定模块，用于将所述用户位置、用户图像及目标信息输入预先构建的路径规划模型进行分析，所述路径规划模型的输出结果包括与所述用户位置及目标信息对应的推荐路线，其中，所述路径规划模型以购物场所内消费者的用户特征、购买记录及购买路径作为训练样本，采用机器学习的方式构建；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一所述的路径确定方法。

11.一种移动终端，包括用于采集语音数据的语音采集器、摄像头、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一所述的路径确定方法。