CN107329730A

CN107329730A - 语音提示信息生成方法及装置

Info

Publication number: CN107329730A
Application number: CN201710533680.7A
Authority: CN
Inventors: 王兴宝; 庄纪军; 李深安; 马军涛
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2017-11-07
Anticipated expiration: 2037-07-03
Also published as: CN107329730B

Abstract

本申请实公开了语音提示信息生成方法及装置。所述方法包括：接收用户的交互指令；基于所述交互指令获得最佳POI点；确定与所述最佳POI点相匹配的选定语音信息生成模板；将所述最佳POI点所包含的信息填充至所述选定语音信息生成模板中，从而生成与交互指令相对应的语音提示信息。采用本申请所提供的语音提示信息生成方法及装置等，可以在检索到的POI点复杂的情况下，获得最佳POI点并使用与最佳POI点相匹配的选定语音信息生成模板生成语音提示信息，从而可以在检索到的POI点复杂多样的情况下，也能够使用语音信息呈现交互结果，减少用户在使用人机交互系统使用过程中出现视线脱离驾驶视野情况，从而减少驾驶的危险性。

Description

语音提示信息生成方法及装置

技术领域

本申请涉及数据处理领域，尤其涉及语音提示信息生成方法及装置。

背景技术

目前汽车导航中的人机交互系统，可以将根据用户通过语音或触控等方式输入的交互指令进行兴趣点(point of interest，POI)搜索，然后将POI点通过语音、图像等方式呈现给用户，从而使用户可以快速便捷的与人机交互系统完成交互。

但是由于不同用户的语言习惯和操作习惯可能各不相同，因而会导致用户输入的交互指令具有复杂性和多样性。由于在交互指令不同的情况下，会相应生成不同的交互结果，因此在交互指令复杂多样的情况下，交互结果中包含的备选POI点也会复杂多样。因此就需要人机交互系统能够对复杂多样的POI点进行呈现。

为在POI点复杂多样的情况下更好对POI点进行呈现，目前通常的做法是采用多种呈现方式相结合的方式来呈现POI点。通常情况下，人机交互系统可以采用语音信息和图像信息相结合的方式呈现POI点，其中，语音信息通常用来呈现不同POI点中共同的部分，而图像信息则用来呈现不同POI点中相异的部分。

但是采用语音信息和图像信息相结合的方式呈现POI点，通常需要用户根据图像信息进一步输入交互指令，导致用户在使用人机交互系统过程中出现视线脱离驾驶视野情况，从而增加驾驶的危险性。

发明内容

本申请提供了语音提示信息生成方法及装置，以减少用户在使用人机交互系统使用过程中出现视线脱离驾驶视野情况。

第一方面，本申请提供了一种语音提示信息生成方法，该方法包括：接收用户的交互指令；基于所述交互指令获得最佳POI点；确定与所述最佳POI点相匹配的选定语音信息生成模板；将所述最佳POI点所包含的信息填充至所述选定语音信息生成模板中，从而生成与交互指令相对应的语音提示信息。

结合第一方面，在第一方面第一种可能的实现方式中，基于所述交互指令获得最佳POI点，包括：根据所述交互指令进行POI搜索获得备选POI点；对所述备选POI点进行聚类，获得聚类中心点；根据对所述聚类中心点进行拆分的结果对各个聚类中心点进行校正，得到各个聚类中心点所对应的最佳POI点。

结合第一方面第一种可能的实现方式，在第一方面第二种可能的实现方式中，获得聚类中心点，包括：对去除无关POI点和重复POI点后剩余的备选POI点进行聚类，得到至少一个备选大类；其中，每一个所述备选大类包含至少一个备选小类，每一个所述备选小类包含至少一个备选POI点；获取所述备选大类或所述备选小类的中心POI点，作为所述聚类中心点。

结合第一方面第二种可能的实现方式，在第一方面第三种可能的实现方式中，获取所述备选大类或所述备选小类的中心POI点，作为所述聚类中心点，包括：如果所述备选大类的数量为1，则将所述备选大类中所包含的每一个备选小类的中心POI点作为所述聚类中心点；或者，如果所述备选大类的数量大于1，则分别将每一个所述备选大类的中心POI点作为所述聚类中心点。

结合第一方面或第一方面第一至三种可能的实现方式中任意一种，在第一方面第四种可能的实现方式中，确定与所述最佳POI点相匹配的选定语音信息生成模板，包括：分别计算每一个候选模板与所述最佳POI点之间的匹配度；选择匹配度最高的一个候选模板作为所述选定语音信息生成模板。

结合第一方面第四种可能的实现方式，在第一方面第五种可能的实现方式中，计算候选模板与所述最佳POI点之间的匹配度，包括：获取语音模板筛选模型；获取输入向量，所述输入向量包括：与所述候选模板对应的输入向量，以及与所述最佳POI点对应的输入向量；使用语音模板筛选模型计算出所述输入向量对应的匹配度。

结合第一方面第五种可能的实现方式，在第一方面第六种可能的实现方式中，所述输入向量还包括：与所述交互指令对应的输入向量，和/或与历史状态相对应的输入向量。

结合第一方面或第一方面第一至三种可能的实现方式中任意一种，在第一方面第七种可能的实现方式中，所述方法还包括：如果不存在最佳POI点，则将预设语音提示信息作为与交互指令相对应的语音提示信息。

第二方面，本申请还提供了一种语音提示信息生成装置，所述装置包括用于执行第一方面各种实现方式中方法步骤的单元模块。所述单元模块可以包括：接收单元，用于接收用户的交互指令；获取单元，用于基于所述交互指令获得最佳POI点；确定单元，用于确定与所述最佳POI点相匹配的选定语音信息生成模板；生成单元，用于将所述最佳POI点所包含的信息填充至所述选定语音信息生成模板中，从而生成与交互指令相对应的语音提示信息。第三方面，本申请还提供了一种处理设备，包括：处理器及存储器；所述处理器可以执行所述存储器中所存储的程序、指令或代码，从而实现以第一方面或第一方面各种实现方式所述的语音提示信息生成方法。

第三方面，本申请还提供一种处理设备，所述处理设备可以包括处理器、存储器及通信接口。其中，所述存储器中可以存储有指令、程序或代码；所述处理用于执行所述指令、程序或代码以实现接收用户的交互指令；基于所述交互指令获得最佳POI点；确定与所述最佳POI点相匹配的选定语音信息生成模板；将所述最佳POI点所包含的信息填充至所述选定语音信息生成模板中，从而生成与交互指令相对应的语音提示信息。

第四方面，本申请还提供了一种存储介质，该计算机存储介质可存储有程序，该程序执行时可实现包括本申请提供的语音提示信息生成方法各实施例中的部分或全部步骤。

采用本申请所提供的语音提示信息生成方法及装置等，可以在检索到的POI点复杂的情况下，获得最佳POI点并使用与最佳POI点相匹配的选定语音信息生成模板生成语音提示信息，从而可以在检索到的POI点复杂多样的情况下，也能够使用语音信息呈现交互结果，减少用户在使用人机交互系统使用过程中出现视线脱离驾驶视野情况，从而减少驾驶的危险性。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请语音提示信息生成方法一个实施例的流程图；

图2为本申请语音提示信息生成方法另一个实施例的流程图；

图3为本申请语音提示信息生成装置一个实施例的结构示意图；

图4为本申请处理设备一个实施例的结构示意图。

具体实施方式

在本申请各个实施中所述的方法可以由处理设备执行。所述处理设备可以是智能终端，也可以是云服务器。其中，所述智能终端可以包括手机、平板电脑、车载电脑、导航仪等；通常情况下，所述智能终端可以具有语音输入输出接口。所述云服务器则可以用于为多个终端设备提供语音提示信息，或用于生成语音提示信息的相关信息。本申请不对所述处理设备的具体形式进行限定。

参见图1，为本申请语音提示信息生成方法一个实施例的流程示意图。下面结合图1对本申请语音提示信息生成方法进行说明。

步骤101，接收用户的交互指令。

处理设备首先接收用户的交互指令，所述交互指令可以是用户直接输入给所述处理设备的指令，也可以是用户通过其他设备输入给所述处理设备的指令。

步骤102，基于所述交互指令获得最佳POI点。

在获取到所述交互指令后，处理设备可以首先根据所述交互指令进行POI搜索，从而得到至少一个备选POI点；然后对所述备选POI点进行聚类，获得聚类中心点；再根据对所述聚类中心点进行拆分的结果对各个聚类中心点进行校正，得到各个聚类中心点所对应的最佳POI点。其中，所述备选大类的生成方式有多种，在实际使用中可以根据需要选择。

在一种实现方式中，处理设备可以对所有的备选POI点进行聚类，从而得到至少一个初始大类，其中，每一个所述初始大类包含至少一个初始小类，每一个所述初始小类包含至少一个备选POI点。在初始大类生成后，处理设备可以去除各个初始大类中的噪声点，从而生成备选大类。其中，每个所述备选大类可以包含至少一个备选小类，每一个所述备选小类则可以包含至少一个备选POI点。所述噪声点则可以包括重复或无关的备选POI点或不符合预设条件的备选POI点等。采用此方式，可以准确识别噪声点，从而避免因为噪声点去除不准确导致最终省的语音提醒信息不准确。

在另一种实现方式中，处理设备也可以首先去除所述备选POI点中所包含的噪声点，然后再对去除无关POI点和重复POI点后剩余的备选POI点进行聚类，从而得到至少一个备选大类。同样的，每一个所述备选大类可以包含至少一个备选小类，每一个所述备选小类则可以包含至少一个备选POI点。先去除无关POI点和重复POI点等噪声点，可以减少聚类过程的数据处理量，提高聚类过程的处理效率。

在备选大类和备选小类都生成后，处理设备可以从中获取聚类中心点。根据备选大类的数量不同，聚类中心点的获取方式也各不相同。如果所述备选大类的数量为1，则将所述备选大类中所包含的每一个备选小类的中心POI点作为所述聚类中心点；如果所述备选大类的数量大于1，则可以分别将每一个所述备选大类的中心POI点作为所述聚类中心点。

在此需要说明的是，处理设备也可以生成不包含备选小类的备选大类，然后将每一个所述备选大类的中心POI点作为所述聚类中心点，具体过程在此就不再赘述。

步骤103，确定与所述最佳POI点相匹配的选定语音信息生成模板。

在所述最佳POI点确定之后，处理设备可以分别计算每一个候选模板与所述最佳POI点之间的匹配度，得出每个候选模板对应的匹配度；然后选择匹配度最高的一个候选模板作为所述选定语音信息生成模板。其中，所述候选模板可以由预设模板按照预定筛选条件筛选得到，而所述匹配度则可以通过语音模板筛选模型计算得出。

在此需要说明的是，候选模板对应的匹配度可以是候选模板与由各个最佳POI点所构成的信息组合之间的匹配度，也可以是候选模板与由各个最佳POI点及交互指令构成的信息组合之间的匹配度，或者也可以是候选模板与由各个最佳POI点及其他信息构成的信息组合之间的匹配度。所述匹配度则可以处理设备使用语音模板筛选模型根据所述信息组合计算得出。

步骤104，将所述最佳POI点所包含的信息填充至所述选定语音信息生成模板中，从而生成与交互指令相对应的语音提示信息。

在所述选定语音信息生成模板被确定之后，处理设备可以从各个最佳POI点提取需要对应生成语音的信息，然后将所述信息填充至所述选定语音信息生成模板中，从而生成与交互指令相对应的语音提示信息。

采用本申请所提供的语音提示信息生成方法可以在检索到的POI点复杂的情况下，获得最佳POI点并使用与最佳POI点相匹配的选定语音信息生成模板生成语音提示信息，从而可以在检索到的POI点复杂多样的情况下，也能够使用语音信息呈现交互结果，减少用户在使用人机交互系统使用过程中出现视线脱离驾驶视野情况，从而减少驾驶的危险性。

参见图2，为本申请语音提示信息生成方法另一个实施例的流程图。下面结合该实施例对本申请语音提示信息生成方法进行进一步说明。

步骤201，接收用户的交互指令。

处理设备首先接收用户的交互指令，该交互指令可以语音指令、触控指令或者也可以是多种输入形式相结合的指令，例如：语音与触控操作相结合的指令，触控与手势相结合的操作等。其中所述触控操作可以是基于实体按键或触摸屏的操作，也可以是基于虚拟按键或触摸屏的操作。本申请不对交互指令的具体形式或具体内容进行限制。

所述交互指令由用户直接对所述处理设备进行操作生成，也可以由用户对其他设备进行操作生成，然后有其他设备发送给所述处理设备。

步骤202，根据所述交互指令进行POI搜索，从而得到至少一个备选POI点。

处理设备获取备选POI点的方式有多种。例如，所述处理设备可以在获取到所述交互指令后，首先从所述交互指令中提取出交互信息，然后基于所述交互信息进行POI检索，从而得到备选POI。或者，所述处理设备也可以首先从所述交互指令中提取出交互信息，然后从所述交互输入信息中提取出关键词，再基于所述关键词进行POI检索，从而得到备选POI。其中，所述POI检索可以通过地图软件所提供的应用程序编程接口(applicationprogramming interface,API)实现。

例如：如果所述交互指令为语音指令，那么处理设备可以首先进行语音识别，识别出所述语音指令中包含的交互信息。如果所述交互信息“搜索”“首都国际机场”，那么所述处理设备可以通过地图软件的API接口搜索“首都国际机场”，从而得到备选POI点，而所述备选POI点则可能包括：“北京首都国际机场1号航站楼”，“北京首都国际机场1号航站楼停车场”，“北京首都国际机场2号航站楼”，“北京首都国际机场2号航站楼公交车站”，“北京首都国际机场3号航站楼公交车站”，“北京首都国际机场3号航站楼地铁站”等。

步骤203，去除所述备选POI点中的噪声点。

在获取到所述备选POI点之后，处理设备可以首先除去所述备选POI点中的噪声点，所述噪声点可以包括无关POI点、重复POI点或其他不符合预定规则的备选POI点。噪声点的具体去除方式可以根据需要进行设置，在此就不再赘述。所述噪声点的判断准则可以包括：该点与其他备选POI点的相似度低于预设值；该点和交互指令的相似度低于预设值；该与另一个备选POI点的相似度高于预设值等。

步骤204，对去除噪声点之后剩余的备选POI点进行粗聚类，得到至少一个备选大类。

在进行粗聚类时，处理设备可以以地理位置关系作为聚类标准进粗聚类，将地理位置相近的备选POI点划入同一个备选大类。若备选大类的数量P>1，则说明备选POI点之间的空间间距比较远，若备选大类的数量P＝1，则说明备选POI点之间的空间间距比较近。

以所述备选POI点包括A1至Am共m个POI点为例，粗聚类可以采用如下方式：处理设备可以首先以用户所在点为参考点计算各个备选POI点之间的距离；在计算出每一个备选POI点与所述参考点之间的距离后，将与参考点距离相近的备选POI点放在一起形成一个备选大类，从而得到K个类，即。其中，所述参考点可以是所述用户所在的位置，或者也可以是用户同所述交互指令输入的位置。其中，K和m均为不小于1的整数。

由于仅按照备选POI点与参考点之间的距离对备选POI点进行聚类，可能会存在将距离相近，但不同方向的备选POI点聚为同一类，因此在生成所述K个类之后，还可以针对所述K个类进一步进行处理。

具体来说，处理设备可以循环遍历所述K个类中的每个类，并计算每一个类中任两个备选POI点之间的距离distance<A,B>；然后将两个备选POI点之间的距离符合预定条件的备选POI点保留在所述第Ki个类中，并将距离不符合预定条件的备选POI点放入新增加的类中；然后再采用上述方式遍历新增加的类别，止到无新类别产生为止，从而得到各个备选大类。采用该方式生成备选大类，可以使得同一个备选大类中所包含的备选POI点与参考点之间的距离都近似，并且同一个备选大类中各个备选POI点之间的距离也都近似。

其中，任两个备选POI点之间的距离可以通过两个POI点的经纬度计算得出，如果采用distance(A,B)表示所述备选POI点和所述参考点中的任意两个点A与B之间的距离，MlatA表示A点的纬度，MlatB表示B点的维度，MlonA表示A点的经度，MlonB表示B点的经度，那么A与B之间的距离distance(A,B)＝R*Arccos(C)*π/180，其中，C＝sin(MlatA)*sin(MlatB)*cos(MlonA-MlonB)+cos(MlatA)*cos(MlatB)。

例如，当备选POI点包括：“北京首都国际机场1号航站楼”，“北京首都国际机场1号航站楼停车场”，“北京首都国际机场2号航站楼”，“北京首都国际机场2号航站楼公交车站”，“北京首都国际机场3号航站楼公交车站”，“北京首都国际机场3号航站楼地铁站”时，可以同粗聚类生成一个备选大类，而该备选大类可以包括全部前述6个备选POI点。

步骤205，对每一个所述备选大类进行细聚类，使得每一个备选大类包含至少一个备选小类。

为使最终生成的语音提示信息更加准确，处理设备还可以对每一个备选大类进行细聚类，将每一个备选大类中包含的备选POI点聚类成为至少一个备选小类。

在对备选大类中的备选POI点进行细聚类时，可以首先对该备选大类中的各个备选POI点进行POI点拆分，从而获取到各个备选POI点的特征；然后根据所述备选POI点的特征计算各个备选POI点之间的特征相似度；再根据所述特征相似度对该备选大类中的备选POI点进行细聚类，从而得到备选小类。

处理设备可以通过对POI点进行序列标注，来获取各个备选POI点的特征。实现序列标注的方式可以包括条件随机场(conditional random field algorithm，CRF)，循环神经网络(recurrent neural network，RNN)等方式，具体过程在此就不在赘述。

以所述交互指令是语音导航指令为例，标注标签集合可以如表1所示。

表1

语义字段	说明	备注/示例
			PROVINCE	省(含直辖市、港澳台)
CITY	市
			AREA	区(县)
ROAD	路、街
			ROAD_CROSS	路、街交口
ROAD_NUM	门牌号
			STATION	车站、机场
POI_DISTRICT	POI行政区限定词	合肥工业大学，“合肥”
			POI_CORE	POI核心词	科大讯飞股份有限公司，“科大讯飞”
POI_MAJOR	POI修饰词	科大讯飞股份有限公司，“股份有限”
			POI_TYPE	POI类型	科大讯飞股份有限公司，“公司”

处理设备可以采用“特征+分类器”计算备选POI点之间的相似度时。由于每一个备选大类中所包含的备选POI点数量通常不大(一般会小于20个)，因此可以使用逻辑回归模型作为分类器，而不需要使用更复杂的模型。所述特征则可以包括：文本相似度(编辑距离)：目前只使用文本层面；语义相似度(编辑距离)：这里插入、删除和替换代价离线训练(使用语言模型方法)；原始文本；文本句向量(词向量求均值)等。

处理设备可以采用自底向上的聚类算法进行细聚类，即，处理设备可以将每一个文本作为叶子节点，从叶子节点开始聚类，针对每个类寻找另一个与其相似度最高的簇，两两合并聚成一个大簇，至达到预期的簇数目或者其他终止条件。其中，所述终止条件可以包括实际生产的簇数目小于等于预期的最大簇数目，以及两个簇的平均距离大于截止距离(cut-off distance)。截止距离的选择比较鲁棒，推荐值是使得平均每个点的邻居数为样本总数的1％-2％。

细聚类的具体步骤如下：首先找到两个最近的点(类)，并将其合并；重复上述操作，直至所有的点聚为一个类；然后衡量两个簇的平均聚类等于两个簇内所有点的距离的平均值，计算公式如下：由于自底向上的层次聚类不存在质心，因此这里将每个聚类簇的中心取这个簇中局部密度最大的点。局部密度是指某个点有多少个其他的点截止距离内(包括其自己)。

例如，当备选大类包括：“北京首都国际机场1号航站楼”，“北京首都国际机场1号航站楼停车场”，“北京首都国际机场2号航站楼”，“北京首都国际机场2号航站楼公交车站”，“北京首都国际机场3号航站楼公交车站”，“北京首都国际机场3号航站楼地铁站”共6个备选POI点时，经过细聚类可以得到Q1，Q2与Q3共三个小类。其中，Q1包括：“北京首都国际机场1号航站楼”与“北京首都国际机场1号航站楼停车场”两个备选POI点；Q2包括“北京首都国际机场2号航站楼”与“北京首都国际机场2号航站楼公交车站”两个备选POI点；Q3包括“北京首都国际机场3号航站楼公交车站”与“北京首都国际机场3号航站楼地铁站”两个备选POI点。

在另一种实现方式中，处理设备也可以在步骤202执行完成后，直接对所有的备选POI点进行粗聚类，从而得到至少一个初始大类；然后再分别去除各个初始大类中包含的噪声点，从而生成备选大类。在备选大类生成后，再对每一个所述备选大类进行细聚类，使得每一个备选大类包含至少一个备选小类。对所有备选POI点进行粗聚类的具体过程可以参见前述，在此就不再赘述。

在再一种实现方式中，处理设备也可以在步骤202执行完成后，直接对所有的备选POI点进行聚类，从而得到至少一个初始大类；然后再分别对各个初始大类或分别去除噪声点后的初始大类进行细聚类，使得每一个初始大类包含至少一个初始小类，并使得每一个所述初始小类则包含至少一个备选POI点。

其中，在初始小类生成后，处理设备可以去除各个初始小类中的噪声点，从而得到备选小类。所述噪声点的判断准则可以为：该点与其所属初始小类中其它点相似度低；该点和用户输入相似度低；该点所属初始小类中存在与该点相同的点。在此需要说明的是，如果在去除噪声点后某个初始小类为空(即该初始小类不包含任何一个备选POI点)，那么处理设备可以删除该初始小类；如果在删除为空的初始小类之后，某个初始大类为空(即该初始大类不包含任何一个初始小类)，那么处理设备可以删除该初始大类。在删除不包含任何一个备选POI点的初始小类，并删除不包含任何一个初始小类的初始大类后，剩余的初始大类即为备选大类，而每一个备选大类包含的初始小类即为备选小类。

步骤206，获取所述备选大类或所述备选小类的中心POI点，作为所述聚类中心点。

在备选大类和备选小类都生成后，可以获取聚类中心点，根据备选大类的数量不同，聚类中心点的获取方式也各不相同。如果所述备选大类的数量为1，则将所述备选大类中所包含的每一个备选小类的中心POI点作为所述聚类中心点；如果所述备选大类的数量大于1，则分别将每一个所述备选大类的中心POI点作为所述聚类中心点。

例如，如果备选大类的数量为1，且备选大类包括Q1，Q2与Q3共三个备选小类，3个备选小类聚类中心点可以分别为：“北京首都国际机场1号航站楼”，“北京首都国际机场2号航站楼”，“北京首都国际机场3号航站楼地铁站”。那么，所述聚类中心点可以包括“北京首都国际机场1号航站楼”，“北京首都国际机场2号航站楼”，“北京首都国际机场3号航站楼地铁站”3个POI点。

又如，如果备选大类包括P1，P2与P3,而P1，P2与P3各仅包含一个备选小类，P1包括的备选POI点为：“合肥工业大学屯溪路校区”，“合肥工业大学公交站”，“合肥工业大学食堂”，“合肥工业大学管理学院”，“合肥工业大学外国语学院”，“合肥工业大学附属中学”，P2包括的备选POI点为：“合肥工业大学六安路校区”，“合肥工业大学北区东门”，“合肥工业大学北区东南门”，P3包括的备选POI点为：“合肥工业大学新区”，“合肥工业大学翡翠湖校区”，“合肥工业大学新区北门”，“合肥工业大学新区西门”。那么，所述聚类中心点可以包括：“合肥工业大学屯溪路校区”(P1的聚类中心点)，“合肥工业大学六安路校区”(P2的聚类中心点)，“合肥工业大学新区”(P3的聚类中心点)。

在此需要说明的是，处理设备在生成备选大类后，也可以将各个备选大类的中心POI点，作为所述聚类中心点，而不再进行细聚类。或者，处理设备可以将每一个初始大类的中心点作为聚类中心点，而不再进行细聚类及噪声点去除。对聚类中心的去除方式本申请不做限定。

步骤207，根据对所述聚类中心点进行拆分的结果对各个聚类中心点进行校正，得到各个聚类中心点所对应的最佳POI点。

处理设备可对各个聚类中心进行POI点拆分；然后根据拆分结果对对各个聚类中心点进行校正，从而得到各个聚类中心点所对应的最佳POI点。其中，对聚类中心点进行校正，包括对聚类中心点进行语音字段修正或重新确定新的聚类中心点。

例如，当所述聚类中心点包括“北京首都国际机场1号航站楼”，“北京首都国际机场2号航站楼”，“北京首都国际机场3号航站楼地铁站”3个POI点时，对3个聚类中心点进行POI点拆分的结果如下：

“北京/CITY/,首都国际机场/POI_CORE/,1号/POI_MAJOR/,航站楼/STATION/”，

“北京/CITY/,首都国际机场/POI_CORE/,2号/POI_MAJOR/,航站楼/STATION/”，

“北京/CITY/,首都国际机场/POI_CORE/,3号/POI_MAJOR/,航站楼/STATION/,地铁站/STATION/”。

经过POI点进行拆分之后发现类别Q3的聚类中心点与Q1及Q2的聚类中心点拆分的类型不一样，因此可以对从Q3聚类中心点进行语言字段校正，即去除其中的“地铁站”，最终得到Q3的聚类中心点对应的最佳POI点“北京首都国际机场3号航站楼”。

又如，当所述聚类中心点可以包括：“合肥工业大学屯溪路校区”，“合肥工业大学六安路校区”，“合肥工业大学新区”3个POI点时，对3个聚类中心点进行POI点拆分的结果如下：

“合肥/POI_DISTRICT/,工业/POI_CORE/,大学/POI_TYPE/,屯溪路/POI_DISTRICT/,校区/POI_TYPE/”，

“合肥/POI_DISTRICT/,工业/POI_CORE/,大学/POI_TYPE/,六安路/POI_DISTRICT/,校区/POI_TYPE/”，

“合肥/POI_DISTRICT/,工业/POI_CORE/,大学/POI_TYPE/,新区/POI_TYPE/”。

经过POI点拆分发现“合肥工业大学新区”的拆分类型缺少POI_DISTRICT，所以该中心点不满足需求，此时可以遍历P3,从P3所包含的备选POI点中，选取一个包含POI_DISTRICT，POI_CORE，POI_TYPE，POI_DISTRICT，POI_TYPE的备选POI点，例如“合肥工业大学翡翠湖校区”，作为与P3的聚类中心点对应的最佳POI点。

步骤208，分别计算每一个候选模板与所述最佳POI点之间的匹配度。

由于在实际使用中，处理设备可能会根据应用场景需求，预先设置多个候选模板，因此处理设备可以分别计算每一个候选模板与所述最佳POI点之间的匹配度，从而从中选出一个作为所述选定语音信息生成模板。每个所述候选模板与所述最佳POI点之间的匹配度，均可以通过模板筛选模型计算得出。所述模板筛选模型可以是采用训练数据对LTR、SVM、RNN或CNN模型进行训练所得的模型。

具体来说，处理设备可以获取语音模板筛选模型以及输入向量，然后使用所述语音模板筛选模型计算出所述输入向量对应的匹配度。其中，所述输入向量可以包括：与所述候选模板对应的输入向量，以及与所述最佳POI点对应的输入向量；除此之外，所述输入向量还可以包括：与所述交互指令对应的输入向量，和/或与历史状态相对应的输入向量。所述输入向量具体包含哪些具体向量，可以由所述语音模板筛选模型决定。所述语音模板筛选模型不同，所述输入向量具体包含的具体向量也可以各不相同。

在此需要说明的是，各个候选模板具体包含的组成元素可以根据实际业务需要来制定，不同的候选模板所包含的组成元素可以各不相同。以导航业务为例，候选模板可以包含以下几种元素：语义(semantic)，POI点数据(data)，POI点数据数量(data_num)，历史语义(history_semantic)，POI点属性(data_property)，辅助词(assist_word)。所述候选模板则可以由技术人员预先设定，也可以由处理设备根据所述候选模板所需包含的组成元素自动生成。例如：所述候选模板可以为：“为你找到{data_num}{semantic},你是去{data.A}还是{data.B}？”，对应可以生成的语音提示信息的内容则可以为：“为你找到2个万达广场，你是去万达广场天鹅湖店还是万达广场马鞍山路店？”

以所述模板筛选模型CNN模型经过训练所得的模型为例，所述输入向量可以包括：候选模板的词向量、原始输入文本的词向量、最佳POI点的词向量以及历史状态向量；模型的输出为即为候选模板与所述最佳POI点之间的匹配度。

其中，所述候选模板的词向量可以采用如下方式获取：首先基于WordEmbedding模型(如Google的word2vec方案)得到候选模板中每个词的词向量(如50维)，再得到候选模板所有词的词向量，这里我们将候选模板的词长度规整为N1(如15)，则候选模板词向量特征为N1*50维。

所述原始输入文本的词向量可以采用如下方式获取：先得到原始输入文本中每个词的词向量，再得到整个输入文本的词向量，如N2*50维。

所述最佳POI点的词向量可以采用如下方式获取：先得到每个最佳POI点拆分后每个词的词向量(如50维)，每个最佳POI点规整长度为N3，最佳POI点的个数规整为N4，则该特征为N4*N3*50维。因为针对不同的语音交互内容，会得到不同个数的最佳POI点，且每个最佳POI点也会不同(即最佳POI的长度也会不同)，为了使“原始输入文本的词向量”这个特征维数相同、可比，因此需要做规整。

所述历史状态向量则可以为上一轮搜索涉及的输入文本语义、最佳POI点数据、最佳POI点数量、每个最佳POI点属性的向量等。

在此需要说明的是，所述候选模板可以是所述处理设备实时的模板，可以是所述处理设备从预先生成的模板中按照一定的筛选条件筛选出来的模板，对此本申请不进行限定。

步骤209，选择匹配度最高的一个候选模板作为所述选定语音信息生成模板。

在每一个候选模板对应的匹配度都计算完成后，处理设备可以择匹配度最高的一个候选模板作为所述选定语音信息生成模板。

步骤210，将所述最佳POI点所包含的信息填充至所述选定语音信息生成模板中，从而生成与交互指令相对应的语音提示信息。

在最佳POI点与选定语音信息生成模板都被确定之后，处理设备可以将所述最佳POI点所包含的信息填充至所述选定语音信息生成模板中，从而生成与交互指令相对应的语音提示信息。具体的填充过程在此就不再赘述。

采用本申请所提供的语音提示信息生成方法可以在POI点复杂的情况下，获得最佳POI点并使用与最佳POI点相匹配的选定语音信息生成模板生成语音提示信息，从而可以使用语音信息这样单一形式呈现交互结果，减少用户在使用人机交互系统使用过程中出现视线脱离驾驶视野情况，从而减少驾驶的危险性。

参见图3，为本申请语音提示生成装置一个实施例的结构示意图。所述装置可以设置在前述实施例中的处理设备上，或者为前述实施例中的处理设备本身，用于执行图1或图2所示的语音提示生成方法。

如图3所示，该装置可以包括：接收单元301，获取单元302，确定单元303及生成单元303。

其中，接收单元301，用于接收用户的交互指令；获取单元302，用于基于所述交互指令获得最佳POI点；确定单元303，用于确定与所述最佳POI点相匹配的选定语音信息生成模板；生成单元303，用于将所述最佳POI点所包含的信息填充至所述选定语音信息生成模板中，从而生成与交互指令相对应的语音提示信息。

可选的，所述获取单元302包括：搜索子单元，用于根据所述交互指令进行POI搜索获得备选POI点；获得子单元，用于对所述备选POI点进行聚类，获得聚类中心点；校正子单元，用于根据对所述聚类中心点进行拆分的结果对各个聚类中心点进行校正，得到各个聚类中心点所对应的最佳POI点。

可选的，所述获得子单元，包括：聚类子单元，用于对去除无关POI点和重复POI点后剩余的备选POI点进行聚类，得到至少一个备选大类；其中，每一个所述备选大类包含至少一个备选小类，每一个所述备选小类包含至少一个备选POI点；第一获取子单元，用于获取所述备选大类或所述备选小类的中心POI点，作为所述聚类中心点。

可选的，所述第一获取子单元，具体用于如果所述备选大类的数量为1，则将所述备选大类中所包含的每一个备选小类的中心POI点作为所述聚类中心点；或者，具体用于如果所述备选大类的数量大于1，则分别将每一个所述备选大类的中心POI点作为所述聚类中心点。

可选的，所述确定单元303，包括：匹配子单元，用于分别计算每一个候选模板与所述最佳POI点之间的匹配度；选择子单元，用于选择匹配度最高的一个候选模板作为所述选定语音信息生成模板。

可选的，所述匹配子单元，包括：第二获取子单元，用于获取语音模板筛选模型及输入向量，所述输入向量包括：与所述候选模板对应的输入向量，以及与所述最佳POI点对应的输入向量；计算子单元，用于使用语音模板筛选模型计算出所述输入向量对应的匹配度。

可选的，所述输入向量还包括：与所述交互指令对应的输入向量，和/或与历史状态相对应的输入向量。

可选的，所述生成单元303，还用于如果不存在最佳POI点，则将预设语音提示信息作为与交互指令相对应的语音提示信息。

参见图4，本申请还提供了处理设备，用于执行前述实施例中的语音提示信息生成方法，或实现前述实施中各个单元模块要实现的功能。如图4所示，所述处理设备可以包括：处理器401、存储器402及通信模块403。

所述存储器402可以包括易失性存储器(volatile memory)，例如随机存取内存(random access memory，简称RAM)；还可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，简称HDD)或固态硬盘(solid-state drive，简称SSD)；存储器还可以包括上述种类的存储器的组合。所述存储器中可以存储有指令、程序或代码，设备中的处理器通过执行所述程序或代码可以实现所述设备的语音提示信息生成功能。

所述处理器401为设备的控制中心，利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行设备的各种功能和/或处理数据。所述处理器可以是中央处理器(centralprocessing unit，简称CPU)，网络处理器(network processor，简称NP)或者CPU和NP的组合。处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，简称ASIC)，可编程逻辑器件(programmable logicdevice，简称PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmablelogic device，简称CPLD)，现场可编程逻辑门阵列(field-programmable gate array，简称FPGA)，通用阵列逻辑(generic array logic,简称GAL)或其任意组合。

所述处理器401可以执行所述存储器中存储的程序、代码或指令，以实现接收用户的交互指令；基于所述交互指令获得最佳POI点；确定与所述最佳POI点相匹配的选定语音信息生成模板；将所述最佳POI点所包含的信息填充至所述选定语音信息生成模板中，从而生成与交互指令相对应的语音提示信息。

具体实现中，本申请还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本申请提供的语音提示信息生成方法各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于……实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种语音提示信息生成方法，其特征在于，包括：

接收用户的交互指令；

基于所述交互指令获得最佳POI点；

确定与所述最佳POI点相匹配的选定语音信息生成模板；

将所述最佳POI点所包含的信息填充至所述选定语音信息生成模板中，从而生成与交互指令相对应的语音提示信息。

2.如权利要求1所述的方法，其特征在于，基于所述交互指令获得最佳POI点，包括：

根据所述交互指令进行POI搜索获得备选POI点；

对所述备选POI点进行聚类，获得聚类中心点；

根据对所述聚类中心点进行拆分的结果对各个聚类中心点进行校正，得到各个聚类中心点所对应的最佳POI点。

3.如权利要求2所述的方法，其特征在于，对所述备选POI点进行聚类，获得聚类中心点，包括：

对去除无关POI点和重复POI点后剩余的备选POI点进行聚类，得到至少一个备选大类；其中，每一个所述备选大类包含至少一个备选小类，每一个所述备选小类包含至少一个备选POI点；

获取所述备选大类或所述备选小类的中心POI点，作为所述聚类中心点。

4.如权利要求3所述的方法，其特征在于，获取所述备选大类或所述备选小类的中心POI点，作为所述聚类中心点，包括：

如果所述备选大类的数量为1，则将所述备选大类中所包含的每一个备选小类的中心POI点作为所述聚类中心点；或者，

如果所述备选大类的数量大于1，则分别将每一个所述备选大类的中心POI点作为所述聚类中心点。

5.如权利要求1至4任一项所述的方法，其特征在于，确定与所述最佳POI点相匹配的选定语音信息生成模板，包括：

分别计算每一个候选模板与所述最佳POI点之间的匹配度；

选择匹配度最高的一个候选模板作为所述选定语音信息生成模板。

6.如权利要求5所述的方法，其特征在于，计算候选模板与所述最佳POI点之间的匹配度，包括：

获取语音模板筛选模型；

获取输入向量，所述输入向量包括：与所述候选模板对应的输入向量，以及与所述最佳POI点对应的输入向量；

使用语音模板筛选模型计算出所述输入向量对应的匹配度。

7.如权利要6所述的方法，其特征在于，所述输入向量还包括：与所述交互指令对应的输入向量，和/或与历史状态相对应的输入向量。

8.如权利要求1至4任一项所述的方法，其特征在于，还包括：

如果不存在最佳POI点，则将预设语音提示信息作为与交互指令相对应的语音提示信息。

9.一种语音提示生成装置，其特征在于，包括：

接收单元，用于接收用户的交互指令；

获取单元，用于基于所述交互指令获得最佳POI点；

确定单元，用于确定与所述最佳POI点相匹配的选定语音信息生成模板；

生成单元，用于将所述最佳POI点所包含的信息填充至所述选定语音信息生成模板中，从而生成与交互指令相对应的语音提示信息。

10.如权利要求9所述的装置，其特征在于，所述获取单元包括：

搜索子单元，用于根据所述交互指令进行POI搜索获得备选POI点；

获得子单元，用于对所述备选POI点进行聚类，获得聚类中心点；

校正子单元，用于根据对所述聚类中心点进行拆分的结果对各个聚类中心点进行校正，得到各个聚类中心点所对应的最佳POI点。

11.如权利要求10所述的装置，其特征在于，所述获得子单元，包括：

聚类子单元，用于对去除无关POI点和重复POI点后剩余的备选POI点进行聚类，得到至少一个备选大类；其中，每一个所述备选大类包含至少一个备选小类，每一个所述备选小类包含至少一个备选POI点；

第一获取子单元，用于获取所述备选大类或所述备选小类的中心POI点，作为所述聚类中心点。

12.如权利要求11所述的装置，其特征在于，

所述第一获取子单元，具体用于如果所述备选大类的数量为1，则将所述备选大类中所包含的每一个备选小类的中心POI点作为所述聚类中心点；或者，具体用于如果所述备选大类的数量大于1，则分别将每一个所述备选大类的中心POI点作为所述聚类中心点。

13.如权利要求9所述的装置，其特征在于，所述确定单元，包括：

匹配子单元，用于分别计算每一个候选模板与所述最佳POI点之间的匹配度；

选择子单元，用于选择匹配度最高的一个候选模板作为所述选定语音信息生成模板。

14.如权利要求13所述的装置，其特征在于，所述匹配子单元，包括：

第二获取子单元，用于获取语音模板筛选模型及输入向量，所述输入向量包括：与所述候选模板对应的输入向量，以及与所述最佳POI点对应的输入向量；

计算子单元，用于使用语音模板筛选模型计算出所述输入向量对应的匹配度。

15.如权利要求14所述的装置，其特征在于，所述输入向量还包括：与所述交互指令对应的输入向量，和/或与历史状态相对应的输入向量。

16.如权利要求9至13任一项所述的装置，其特征在于，

所述生成单元，还用于如果不存在最佳POI点，则将预设语音提示信息作为与交互指令相对应的语音提示信息。