CN109325097A

CN109325097A - 一种语音引导方法及装置、电子设备、存储介质

Info

Publication number: CN109325097A
Application number: CN201810772400.2A
Authority: CN
Inventors: 李霞; 杨香斌; 马宏
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2019-02-12
Anticipated expiration: 2038-07-13
Also published as: CN109325097B

Abstract

本发明揭示了一种语音引导方法及装置、电子设备、计算机可读存储介质，该方案包括：获取用户输入的语音信号；对语音信号进行语音识别，获得相应的文本信息；对文本信息进行自然语言理解，定位文本信息所属的业务领域；获取为业务领域配置的业务知识库以及查询维度；根据业务知识库中与文本信息相关的业务词，生成查询维度下包含业务词的引导语。本发明可以根据用户输入，理解用户意图并结合支持的查询维度，实时生成引导语，从而引导用户使用语音交互功能，由于把支持的查询范围主动呈现给用户，降低了用户的学习成本，实现了语音交互功能的充分利用。

Description

一种语音引导方法及装置、电子设备、存储介质

技术领域

本发明涉及智能交互技术领域，特别涉及一种语音引导方法及装置、电子设备、存储介质。

背景技术

随着人工智能的不断发展，使得语音交互应用越来越普及。目前语音交互已经覆盖很多领域，并实现了深层次的场景挖掘：用户行为分析，多轮上下文交互等。传统的交互方法如下：首先，用户通过收音设备(如：语音遥控器)进行语音输入；然后语音交互系统将用户输入的语音信息转化成文本；并对该文本进行词法、句法和语义分析等技术理解用户意图并且将查询结果返回客户端进行显示。

但是，实际中用户常常出现不知如何进行语音交互，不知道产品具有哪些语音功能。即使用户经常使用的功能，也不明确该业务支持的深层次的场景查询。统计用户历史数据发现有些业务的使用率非常低，而场景深层次的查询更少了。比如，用户了解的查询“某某的电影”，而实际语音交互系统支持更复杂的查询，如：“某某老公的前女友演过什么电影”。

由此可见，虽然现有的语音交互系统支持更深层次更复杂的查询，但是实际使用中，用户并不了解语音交互系统支持的查询范围，由此浪费了语音交互系统的多功能设计，无法满足用户的搜索需求。

发明内容

为了解决相关技术中存在的由于用户并不了解语音交互系统支持的查询范围，由此浪费了语音交互系统的多功能设计，无法满足用户的搜索需求问题，本发明提供了一种语音引导方法。

一方面，本发明提供了一种语音引导方法，所述方法包括：

获取用户输入的语音信号；

对所述语音信号进行语音识别，获得相应的文本信息；

对所述文本信息进行自然语言理解，定位所述文本信息所属的业务领域；

获取为所述业务领域配置的业务知识库以及查询维度；

根据所述业务知识库中与所述文本信息相关的业务词，生成所述查询维度下包含所述业务词的引导语；其中，所述引导语用于指导用户输入下一轮语音信号。

在一种示例性实施例中，所述对所述文本信息进行自然语言理解，定位所述文本信息所属的业务领域，包括：

对所述文本信息进行分词和属性标注，确定所述文本信息中的目标词；

根据预定义文法知识库中所述目标词在不同业务属性下与所述文本信息中其他词汇之间的预设依存阈值，计算所述目标词与其他词汇之间的依存度；

根据所述目标词在不同业务属性下与其他词汇之间的依存度，定位所述文本信息所属的业务领域。

在一种示例性实施例中，所述对所述文本信息进行分词和属性标注，确定所述文本信息中目标词，包括：

根据预先为不同业务领域配置的目标词，将所述文本信息中的各个词汇与不同业务领域下的目标词进行匹配，确定所述文本信息中的各个词汇是否属于目标词。

在一种示例性实施例中，所述获取为所述业务领域配置的业务知识库以及查询维度，包括：

获取为所述业务领域预先配置的业务知识库和业务语义模板；

在所述业务语义模板中进行所述文本信息的语义槽值填充；

根据所述业务语义模板中的可替换语义槽和可填充语义槽，得到所述业务领域支持的查询维度。

在一种示例性实施例中，所述根据所述业务知识库中与所述文本信息相关的业务词，生成所述查询维度下包含所述业务词的引导语包括：

根据所述业务知识库中实体词之间的连接关系，获得与所述文本信息相关的业务词；业务词是业务数据库中与文本信息相关联的词汇；

根据所述业务词的语义，在所述可替换语义槽进行所述业务词的槽值替换或者在所述可填充语义槽进行所述业务词的槽值填充，生成包含所述业务词的引导语。

在一种示例性实施例中，上述方法还包括：

根据所述文本信息的查询结果，生成用于指示用户对所述查询结果进行语音操控的引导语。

在一种示例性实施例中，上述方法还包括：

在所述文本信息的查询结果显示界面中，进行所述引导语的展示。

另一方面，本发明还提供了一种语音引导装置，所述装置包括：

语音获取模块，用于获取用户输入的语音信号；

语音识别模块，用于对所述语音信号进行语音识别，获得相应的文本信息；

语义识别模块，用于对所述文本信息进行自然语言理解，定位所述文本信息所属的业务领域；

信息获取模块，用于获取为所述业务领域配置的业务知识库以及查询维度；

引导语生成模块，用于根据所述业务知识库中与所述文本信息相关的业务词，生成所述查询维度下包含所述业务词的引导语。

此外，本发明还提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述、语音引导方法。

进一步的，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可由处理器执行完成上述语音引导方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明提供的技术方案，通过对用户输入的语音信号进行语音识别获得文本信息，并对文本信息进行自然语言理解定位所属业务领域，进而根据为业务领域配置的知识库和查询维度，生成每个查询维度下与文本信息相关的引导语。本发明可以根据用户输入，理解用户意图并结合支持的查询维度，实时生成引导语，从而引导用户使用语音交互功能，由于把支持的查询范围主动呈现给用户，降低了用户的学习成本，实现了语音交互功能的充分利用。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种智能设备110的框图；

图3是根据一示例性实施例示出的一种语音引导方法的流程图；

图4是根据另一示例性实施例示出的天气业务的查询维度示意图；

图5为影视业务场景下的引导语显示界面图；

图6为天气业务场景下的引导语显示界面图；

图7是图3对应实施例中步骤330的细节流程图；

图8是图3对应实施例中步骤340的细节流程图；

图9是图3对应实施例中步骤350的细节流程图；

图10为知识图谱的一种示例性表示；

图11为一示例性实施例示出的语音引导方法的流程示意图；

图12是根据一示例性实施例示出的一种语音引导装置的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本发明所涉及的实施环境的示意图。该实施环境包括：智能设备110。智能设备110可以采用本发明实施例提供语音引导方法，从而引导用户使用语音交互功能。当用户语音输入进行查询时，智能设备110不但可以根据用户的意图进行搜索和结果的显示；同时还可以根据当前的输入，结合自身支持的业务场景，给出相关性提示信息，从而引导用户使用语音交互产品。

根据需要，该实施环境还可以包括服务器120。在一种实施例中，智能设备110用于采集用户输入，将用户输入传输至服务器120，由服务器120采用本发明实施例提供语音引导方法，将引导语下发至智能设备110。进而智能设备110可以进行引导语的显示，引导用户使用语音交互功能。当然，服务器120还可以根据用户意图进行搜索，将搜索结果一并发送至智能设备110，从而使智能设备110在进行搜索结果的显示时，可以进行引导语的展示，提示用户还可以进行哪些内容的搜索，降低用户的学习成本。

图2是根据一示例性实施例示出的一种智能设备110的框图。例如，智能设备110可以是移动终端或智能家居设备。移动终端比如可以是智能手机、平板电脑。智能家居设备比如可以是智能电视、智能电视机顶盒、智能空调、智能摄像头、智能音响等。

参照图2，智能设备110可以包括以下一个或多个组件：处理组件202，存储器204，电源组件206，多媒体组件208，音频组件210，传感器组件214以及通信组件216。

处理组件202通常控制智能设备110的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件202可以包括一个或多个处理器218来执行指令，以完成下述的方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在智能设备110的操作。这些数据的示例包括用于在智能设备110上操作的任何应用程序或方法的指令。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器204中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器218执行，以完成下述图3、图7-图9任一所示方法中的全部或者部分步骤。

电源组件206为智能设备110的各种组件提供电力。电源组件206可以包括电源管理系统，一个或多个电源，及其他与为智能设备110生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述智能设备110和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称LCD)和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display，简称OLED)。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(Microphone，简称MIC)，当智能设备110处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

传感器组件214包括一个或多个传感器，用于为智能设备110提供各个方面的状态评估。例如，传感器组件214可以检测到智能设备110的打开/关闭状态，组件的相对定位，传感器组件214还可以检测智能设备110或智能设备110某个组件的位置改变以及智能设备110的温度变化。在一些实施例中，该传感器组件214还可以包括磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于智能设备110和其他设备之间有线或无线方式的通信。智能设备110可以接入基于通信标准的无线网络，如WiFi(WIreless-Fidelity，无线保真)。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信(NearField Communication，简称NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(Radio Frequency Identification，简称RFID)技术，红外数据协会(Infrared DataAssociation，简称IrDA)技术，超宽带(Ultra Wideband，简称UWB)技术，蓝牙技术和其他技术来实现。

在示例性实施例中，智能设备110可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法。

图3是根据一示例性实施例示出的一种语音引导方法的流程图。该语音引导方法的适用范围和执行主体，例如，该方法用于图1所示实施环境的智能设备110。如图3所示，该语音引导方法可以由智能设备110执行，可以包括以下步骤。

在步骤310中，获取用户输入的语音信号；

其中，语音交互功能是基于语音输入的新一代交互模式，用户通过说话就可以得到反馈结果。例如智能设备110可以通过蓝牙遥控器或远场麦克风采集用户输入的语音信号。具体的，以智能设备110是智能电视为例，智能电视的语音采集设备(远场麦克风)采集到指定语句(如“你好，小新”)，则开启语音交互功能，等待采集用户输入的语音信号。智能电视也可以通过与蓝牙遥控器建立连接，获取蓝牙遥控器采集的语音信号。智能电视在语音交互功能采集状态下，采集用户输入的语音信号。在一种实施例中，可以由智能电视执行步骤310-350生成引导语，在另一种实施例中，智能电视可以将采集的语音信号传递给服务器120，由服务器120执行步骤310-350生成引导语。本发明以智能设备110执行语音引导方法为例说明步骤310-350的详细过程，当执行主体为服务器120时，可以参照智能设备110的执行过程。

在步骤320中，对所述语音信号进行语音识别，获得相应的文本信息；

具体的，智能设备110对语音信号进行语音识别，获得文本信息。在一种实施例中，在获得文本信息的同时还可以获得声纹信息。声纹信息用于表征用户的年龄和性别。例如智能电视通过语音采集设备采集到用户输入“我想看电影”，获得产生的文本信息是“我想看电影”，声纹信息是青年女性。在一种实施例中，也可以根据语音信号的声纹信息，生成与声纹信息匹配的引导语。例如，声纹信息是青年女时，引导语可以是符合青年女性身份特点的引导语。举例来说，当用户查询天气预报时，如果用户是青年女性，引导语优先可以是“适合穿什么衣服”。在一种实施例中，还可以根据声纹信息判断是否属于“主人”，进而决定是否开启语音交互功能。

在步骤330中，对所述文本信息进行自然语言理解，定位所述文本信息所属的业务领域；

其中，自然语言理解是指理解文本信息中各个词组的意义，明确用户意图，进而可以确定文本信息对应的业务领域。由于同一词组在不同业务领域知识库中的意义不同。在一种实施例中，定位文本信息所属的业务领域可以是根据文本信息中各个词组在不同业务领域知识库中的距离，找出使各个词组之间距离最小的业务领域知识库，由此确定了文本信息所属的业务领域。

举例来说，文本信息中包含词组A、B，词组A和B在影视业务领域知识库中的距离是x，词组A和B在天气业务领域知识库中的距离是y，词组A和B在音乐业务领域知识库中的距离是z，如果y<x<z，也就是说文本信息中词组在天气业务领域知识库中的距离最小，由此可以认为文本信息涉及的业务领域是天气业务领域。

在步骤340中，获取为所述业务领域配置的业务知识库以及查询维度；

举例来说，智能家电产品中支持的业务场景可以包括影视、音乐、天气、购物、股票、电视控制等众多的业务领域。智能设备110可以提前为每种业务领域配置业务知识库。其中，业务知识库包含当前业务领域所涉及的所有词组，以及这些词组之间的关联关系。例如影视业务知识库中，AA与BB之间是夫妻关系，CC属于BB的电影作品等均属于词组之间的关联关系。

其中，查询维度是指支持的查询范围、查询方向。以业务领域是天气业务为例，如图4所示，天气业务的查询维度包括：时间、地点、天气现象、空气质量和天气指数。时间包括：相对时间，指今天、明天、下周四等，绝对时间，指3月8号、春节等；地点：具体的地点信息，如：青岛、日照、衡水等；天气现象：晴天、阴天、下雨、温度等；空气质量：空气质量优、良、差、PM2.5等；天气指数：穿衣指数、运动指数、洗车指数等。

同理，影视业务领域的查询维度包括：影视名称、影视分类(指电影、电视剧、综艺等)、演员、导演、地区、时间、影视类型(恐怖、惊悚、动作、战争等)、评分、语言等。

在步骤350中，根据所述业务知识库中与所述文本信息相关的业务词，生成所述查询维度下包含所述业务词的引导语；其中，所述引导语用于指导用户输入下一轮语音信号。

其中，引导语是指提示用户还可以说的语句。例如用户输入青岛天气，引导语可以是“是否需要带伞”，提示用户智能设备110还具备可以回答“是否需要带伞”的功能，以引导用户接触使用率较少的功能。

具体的，业务知识库中包含各个词组以及关联关系，业务知识库中与文本信息相关的词组，可以在支持的查询维度下生成包含该词组的引导语。假设文本信息是“青岛的空气质量”，在天气业务知识库中，与青岛相关的词组是日照，与空气质量相关的词组是天气，则生成的引导语可以是日照的空气质量、青岛的天气。根据需要可以生成多个引导语并按照与文本信息之间的相关性进行排序，并优先展示相关度较高的前若干个引导语。

现有技术中为了提示用户可以进行更深层次的查询，通常根据用户输入的关键词，然后从数据库中查找提前存储的，与关键词对应配置的提示语。由此数据库中需要提前存储大量的提示语，占用较大的存储空间，对于没有提前配置提示语的关键词，则无法向用户进行提示。

在一种示例性实施例中，在上述步骤350之后，本发明提供的语音引导方法还包括：

在一种实施例中，服务器120在生成引导语之后，将引导语下发至智能设备110，由智能设备110进行引导语的显示。在另一实施例中，智能设备110生成引导语并进行显示。图5为影视业务场景下的引导语显示界面图。如图5所示，用户输入“刘某某”，智能设备110或服务器120采用本发明提供的方法生成引导语，并在“刘某某”相关影视的显示界面中，进行引导语的展示。例如生成的引导语可以是“刘某某的动作片”、“刘某某的新少林寺”、“刘某某和关某某演过的电影”、“播放第二行第二个”。

图6为天气业务场景下的引导语显示界面图。如图6所示，用户输入“青岛天气”，在青岛天气查询结果的显示界面中，还可以进行引导语的显示，引导语可以是“天气预报、青岛今天需要带伞吗、后天的天气、明天的呢”。从而提示用户在得到查询结果后还可以说这些引导语，进行更深层次的查询。这样，用户在主动进行语音交互查询时，智能设备110不但把用户的查询结果显示给用户，同时对用户进行引导，让用户更了解智能设备110所涉及的业务场景和产品功能。

在一种示例性实施例中，如图7所示，上述步骤330具体包括：

在步骤331中，对所述文本信息进行分词和属性标注，确定所述文本信息中的目标词；

其中，分词是指将文本信息拆分为多个词汇。例如，文本信息“我想听小苹果”分解为“我”、“想”、“听”、“小苹果”4个分词。具体的，当智能设备110获取出文本信息的多个词汇后，根据各词汇查询提前配置的知识库，若该词汇与该知识库中的目标词匹配，则将该词汇作为该文本信息的目标词。例如，词汇“小苹果”是知识库中的目标词，词汇“我”、“想”、“听”不是知识库中的目标词，则将“小苹果”作为文本信息“我想听小苹果”的目标词。属性标注是指标注各个分词的词性。例如将“我”标注为人称代词，“听”标注为动词，“想”标注为意图词。

在一种实施例中，上述步骤331具体包括：根据预先为不同业务领域配置的目标词，将所述文本信息中的各个词汇与不同业务领域下的目标词进行匹配，确定所述文本信息中的各个词汇是否属于目标词。

需要说明的是，该智能设备110支持多种业务领域，例如，影视业务、音乐业务、天气业务等，可以提前配置各业务领域支持的目标词存入知识库中。将文本信息的各个词汇与各个业务领域支持的目标词进行匹配，如果某个词汇与知识库中某些领域的目标词一致，可以认为该词汇属于目标词。如果该词汇不属于知识库中的目标词，可以认为该词汇不属于目标词。

例如，影视业务包括《琅琊榜》、《小苹果》等影视节目，音乐业务包括《忘情水》、《小苹果》等音乐歌曲，小说业务包括《琅琊榜》、《完美世界》等小说，则“琅琊榜”和“小苹果”是影视业务支持的目标词，“忘情水”和“小苹果”是音乐业务支持的目标词，“琅琊榜”和“完美世界”是小说业务支持的目标词。该知识库中存储有同一个目标词的不同业务属性，例如，“小苹果”既对应有影视属性，也对应有音乐属性，“琅琊榜”既对应有影视属性，也对应有小说属性。

在步骤332中，根据预定义文法知识库中所述目标词在不同业务属性下与所述文本信息中其他词汇之间的预设依存阈值，计算所述目标词与其他词汇之间的依存度；

其中，业务属性包括影视属性、音乐属性、小说属性、天气属性等。在该知识库中，对应同一目标词的各业务属性存储有关联词，该关联词包括修饰词、动词、量词、疑问词、意图词、人称代词等，例如，对于目标词“小苹果”，该知识库中存储有其影视属性对应的关联词，以及音乐属性对应的关联词，该影视属性对应的关联词和该音乐属性对应的关联词可以不同。

例如，对于“小苹果”的音乐属性，通过该知识库确定出“我”是“小苹果”的人称代词，“我”和“小苹果”之间的关联关系是人称代词关系；非目标词“想”是“小苹果”的意图词，“想”和“小苹果”之间的关联关系是意图词关系；非目标词“听”是“小苹果”的动词，“听”和“小苹果”之间的关联关系是动词关系。

对于“小苹果”的影视属性，“我”是“小苹果”的人称代词，“我”和“小苹果”之间的关联关系是人称代词关系；“想”是“小苹果”的意图词，“想”和“小苹果”之间的关联关系是意图词关系；“听”和“小苹果”之间没有关联关系。

其中，在预定义文法知识库中预设文法规则：不同业务领域下，目标词与其搭配词之间的依存规则。依存规则包括目标词与其搭配词之间的预设依存阈值。依存规则根据业务场景设定，比如：音乐场景，设定音乐名、音乐关键词为目标词，比如：“小苹果”“歌曲”，“听、搜索、播放”为音乐名的动词，与目标词构成动宾关系，依存阈值较高可以为10，比如“播放小苹果、我想听小苹果”。歌手、歌曲类型，为音乐名、音乐关键词的修饰词，与目标词构成定语关系，依存阈值较高可以为10，“刘德华的小苹果、摇滚歌曲”；“首、个”为音乐关键词的量词，依存阈值较高可以为10，例：“播放一首小苹果”等等。知识库中存储所有业务领域的依存规则。

例如，小苹果属于音乐属性时，“我”和“小苹果”之间的依存关系是人称代词关系，预设依存阈值可以是1分，“想”和“小苹果”之间的依存关系是意图词关系，预设依存阈值可以是2分，“听”和“小苹果”之间的依存关系是动词关系，预设依存阈值可以是5分，所以在音乐业务领域下，目标词“小苹果”与其他词汇之间的依存度可以认为是8分。而在影视业务下，“听”和“小苹果”之间没有依存关系，所以在影视业务领域下，目标词“小苹果”与其他词汇之间的依存度可以认为是3分。

具体分析流程：当用户输入一句话后，会针对每个词的每个属性标注，寻找目标词，针对以该属性为目标词，计算其他词与该目标词的关联度，最后得到定位业务领域的分值。依次循环寻找下一个目标词，计算业务领域的分值。最后对所有的分值进行降序排序。从中选取阈值最高并且大于可定位业务阈值，作为最终的业务定位结果。当然系统还设定了业务优先级，即：当定位分值相同时，选择优先级较高的业务，比如：电视场景，音频业务优先，所以设定视频业务优先级大于音乐大于电视控制等。另：系统未提高用户体验设定业务跳转，比如：优先级最高的业务搜索无结果时，会跳转到第二业务进行搜索。

比如：用户输入：“我想看湖南卫视的天天向上”，如果用户查询的时间点，电视台正在播放该节目，那么优先进入到直播业务，无结果时会进入到视频业务搜索。

在步骤333中，根据所述目标词在不同业务属性下与其他词汇之间的依存度，定位所述文本信息所属的业务领域。

假设，某个目标词同具有音乐属性和影视属性。但是在音乐属性下，目标词与其他词汇的依存度是8分，而在影视属性下，目标词与其他词汇的依存度只有3分，可以认为该目标词属于音乐业务，即文本信息属于音乐业务，定位得到文本信息所属的业务领域。

在一种实施例中，如图8所示，上述步骤340具体包括：

在步骤341中，获取为所述业务领域预先配置的业务知识库和业务语义模板；

其中，智能设备110为每个业务领域配置了业务语义模板和业务知识库。业务语义模板也就是业务维度信息，又可以叫语义槽。业务语义模板是根据不同业务场景特点提前定义好的。

举例来说，天气业务的业务语义模板如下：业务分类、业务目标属性、时间、地点、天气关键词、天气现象词、空气质量、天气指数。业务目标属性可以看出是一个语义槽，时间也可以看成是一个语义槽，后续每个维度均可看成是一个语义槽。

在步骤342中，在所述业务语义模板中进行所述文本信息的语义槽值填充；

在对文本信息进行自然语言理解后可以知道每个词组的语义，从而可以在上述业务语义模板中进行语义槽值的填充。语义槽值填充是指根据文本信息中各词组的语义，将相应的词组填入业务语义模板中的语义槽。假设用户输入：“青岛的天气预报”，经自然语言理解可以在“业务目标属性”这一栏填充“天气”、在“地点”这一栏填充“青岛”，在“天气关键词”这一栏填充“天气预报”。需要解释的是，槽值就是指某个维度下填充的内容，例如“地点”维度下填充的槽值是“青岛”。

在步骤343中，根据所述业务语义模板中的可替换语义槽和可填充语义槽，得到所述业务领域支持的查询维度。

以文本信息是“青岛的天气预报”为例，“地点”这一栏已被填充，由此“地点”可以作为可调换语义槽，由于“时间”“空气质量”“天气指数”等还未被填充，可以作为可填充语义槽。业务领域支持的查询维度，可以是地点、时间、天气现象、空气质量、天气指数。

在一种实施例中，如图9所示，上述步骤350具体包括：

在步骤351中，根据所述业务知识库中实体词之间的连接关系，获得与所述文本信息相关的业务词；业务词是业务数据库中与文本信息相关联的词汇；

图10为业务知识库的一种示例性表示，如图10所示，AA、BB、CC……分别代表一个实体词，实体词可以是一个人物、一首歌曲、一个影视作品等。实体词之间的连线代表存在某种关系，包括人物之间的朋友、夫妻、亲子关系，包括人物与作品之间的关系，例如忘情水是刘某某的歌曲等。对于文本信息(例如刘某某)，可以在业务知识库中找到与文本信息连接的实体词，进而找到与文本信息相关度较高的实体词作为业务词。根据需要，还可以结合用户的声纹信息、历史行为等，查找与声纹信息、历史行为、文本信息等相关度较高的业务词。

在步骤352中，根据所述业务词的语义，在所述可替换语义槽进行所述业务词的槽值替换或者在所述可填充语义槽进行所述业务词的槽值填充，生成包含所述业务词的引导语。

具体的，由于文本信息(青岛的天气预报)包括“天气预报”，由此直接定位到天气业务，得到天气业务的业务语义模板，在该业务语义模板中进行文本信息的填充，即在地点、天气关键词这两个语义槽进行文本信息的槽值填充。其中，时间、天气现象、空气质量、天气指数这些语义槽未被填充，由此，可以在这些维度下进行槽值的填充生成引导语，而“地点”这个语义槽可以进行槽值的替换生成引导语。对于未填充的语义槽和可替换语义槽，均可生成相应维度下的引导语。

查询维度包括可替换语义槽和可填充语义槽。假设文本信息是“青岛的天气预报”在生成引导语时，对于可替换语义槽“地点”，可以替换“青岛”这个槽值为与其关联的“日照”、“衡水”，生成引导语“日照的天气预报”、“衡水的天气预报”。对于可填充语义槽(例如时间)，可以分别填充与时间相关的槽值(例如明天)，生成引导语“明天的天气预报”。

以上述天气业务为例，为天气业务的业务语义模板配置的查询维度包括：date(时间)、area(地点)、weathercondition(天气现象)、airquality(空气质量)、weatherindex(天气指数)，则可以分别生成时间维度下与文本信息(青岛的天气预报)相关的引导语(如明天的天气预报)，地点维度下与文本信息(青岛的天气预报)相关的引导语(如衡水的天气预报)，天气现象维度下与文本信息(青岛的天气预报)相关的引导语(如会下雨吗)，空气质量维度下与文本信息(青岛的天气预报)相关的引导语(如PM2.5指数多少)、天气指数维度下与文本信息(青岛的天气预报)相关的引导语(如适合穿什么衣服)，形成包含多个引导语的列表。根据需要，最终可以显示与文本信息相关度较高的前若干个引导语。

以影视业务为例，为影视业务配置的查询维度是影视名称、影视分量、演员、导演、地区、时间、影视类型、评分、语言等。与刘某某相关的业务词可能是新少林寺、关之琳、动作片，则生成的引导语可以是刘某某的新少林寺(影视名称维度)、刘某某与关某某演过的电影(演员维度)、刘某某的动作片(影视类型维度)等。

举例来说，当用户输入“XXX”时，根据业务知识库中的人物关系，确定“XXX”的老婆是“YYY”，两人都属于艺人，因此生成的引导语可以是“XXX与YYY主演的电影”。

需要说明的是，对于智能设备110涉及的业务场景可以提前进行配置，例如影视业务、天气业务、音乐业务、百科业务等。当用户输入“刘某某”时可能涉及影视业务、音乐业务和百科业务，由此根据智能设备110的主要功效可以为智能设备110配置特定的业务，例如智能设备110属于智能电视，则可以配置影视业务的业务语义模板和业务知识库。根据需要，还可以设置不同业务场景所属业务语义模板的优先级，例如智能电视优先匹配到影视业务的业务语义模板。

在一种示例性实施例中，本发明提供的方法还可以包括：

举例来说，文本信息是“刘某某”时，文本信息的查询结果可能是刘某某的多个影视作品，由此根据影视作品的数量，用户的喜好等，可以生成指示播放某个影视作品的引导语，例如引导语可以是“播放第二行第三个”。参照图5所示，可以在影视作品的显示界面进行引导语的展示。假设查询结果中只存在三个影视作品，只占了第一行，此时可以提示用户“播放第二个”，避免用户说了提示的内容而设备无法响应，影响用户体验。根据需要，在音乐或者视频播放过程中，还可以显示对音乐或视频的播放进度进行控制的引导语，例如：快进、播放、暂停、快进十分钟等。

图11为一示例性实施例示出的语音引导方法的流程示意图。如图11所示，采集用户输入的语音信号，对语音信号进行语音识别生成文本信息(即用户文本)。将文本信息经过语义理解系统定位到具体的业务领域。引导语生成模块获取该业务领域的知识库和业务语义模板，在业务语义模板中进行文本信息的语义槽填充，进而根据知识库中与文本信息相关的词组，在可填充语义槽和可替换语义槽进行槽值的填充和替换，生成相应的引导语，并最后在智能设备110进行引导语的展示。

下述为本发明装置实施例，可以用于执行本发明上述智能设备110执行的语音引导方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明语音引导方法实施例。

图12是根据一示例性实施例示出的一种语音引导装置的框图，该语音引导装置可以用于图1所示实施环境的智能设备110中，执行图3、图7-图9任一所示的语音引导方法的全部或者部分步骤。如图12所示，该装置包括但不限于：语音获取模块1210、语音识别模块1220、语义识别模块1230、信息获取模块1240以及引导语生成模块1250。

语音获取模块1210，用于获取用户输入的语音信号；

语音识别模块1220，用于对所述语音信号进行语音识别，获得相应的文本信息；

语义识别模块1230，用于对所述文本信息进行自然语言理解，定位所述文本信息所属的业务领域；

信息获取模块1240，用于获取为所述业务领域配置的业务知识库以及查询维度；

引导语生成模块1250，用于根据所述业务知识库中与所述文本信息相关的业务词，生成所述查询维度下包含所述业务词的引导语；其中，所述引导语用于指导用户输入下一轮语音信号。

上述装置中各个模块的功能和作用的实现过程具体详见上述语音引导方法中对应步骤的实现过程，在此不再赘述。

语音获取模块910比如可以是图2中的某一个物理结构音频组件210。

语音识别模块1220、语义识别模块1230、信息获取模块1240以及引导语生成模块1250也可以是功能模块，用于执行上述语音引导方法中的对应步骤。可以理解，这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时，这些模块可以实施为一个或多个硬件模块，例如一个或多个专用集成电路。当以软件方式实现时，这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序，例如图2的处理器218所执行的存储在存储器204中的程序。

在一种示例性实施例中，上述语义识别模块1230包括：

目标词确定单元，用对所述文本信息进行分词和属性标注，确定所述文本信息中的目标词；

关联度计算单元，用于根据预定义文法知识库中所述目标词在不同业务属性下与所述文本信息中其他词汇之间的预设依存阈值，计算所述目标词与其他词汇之间的依存度；

领域定位单元，用于根据所述目标词在不同业务属性下与其他词汇之间的依存度，定位所述文本信息所属的业务领域。

其中，所述目标词确定单元包括：

目标词匹配子单元，用于根据预先为不同业务领域配置的目标词，将所述文本信息中的各个词汇与不同业务领域下的目标词进行匹配，确定所述文本信息中的各个词汇是否属于目标词。

在一种示例性实施例中，上述信息获取模块1240包括：

模板获取单元，用于获取为所述业务领域预先配置的业务知识库和业务语义模板；

槽值填充单元，用于在所述业务语义模板中进行所述文本信息的语义槽值填充；

维度确定单元，用于根据所述业务语义模板中的可替换语义槽和可填充语义槽，得到所述业务领域支持的查询维度。

在一种示例性实施例中，上述引导语生成模块1250包括：

业务词确定单元，用于根据所述业务知识库中实体词之间的连接关系，获得与所述文本信息相关的业务词；业务词是业务数据库中与文本信息相关联的词汇；

引导语生成单元，用于根据所述业务词的语义，在所述可替换语义槽进行所述业务词的槽值替换或者在所述可填充语义槽进行所述业务词的槽值填充，生成包含所述业务词的引导语。

在一种示例性实施例中，上述语音引导装置还包括：

操控语生成模块，用于根据所述文本信息的查询结果，生成用于指示用户对所述查询结果进行语音操控的引导语。

在一种示例性实施例中，上述语音引导装置还包括：

引导语展示模块，用于在所述文本信息的查询结果显示界面中，进行所述引导语的展示。

可选的，本发明还提供一种电子设备，该电子设备可以用于图1所示实施环境的智能设备110中，执行图3、图7-图9任一所示的语音引导方法的全部或者部分步骤。所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述示例性实施例所述的语音引导方法。

该实施例中的装置的处理器执行操作的具体方式已经在有关该语音引导方法的实施例中执行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质存储有计算机程序，所述计算机程序可由智能设备110的处理器218执行以完成上述语音引导方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音引导方法，其特征在于，所述方法包括：

获取用户输入的语音信号；

对所述语音信号进行语音识别，获得相应的文本信息；

获取为所述业务领域配置的业务知识库以及查询维度；

2.根据权利要求1所述的方法，其特征在于，所述对所述文本信息进行自然语言理解，定位所述文本信息所属的业务领域，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述文本信息进行分词和属性标注，确定所述文本信息中目标词，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取为所述业务领域配置的业务知识库以及查询维度，包括：

在所述业务语义模板中进行所述文本信息的语义槽值填充；

5.根据权利要求4所述的方法，其特征在于，所述根据所述业务知识库中与所述文本信息相关的业务词，生成所述查询维度下包含所述业务词的引导语包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求1所述的方法，其特征在于，还包括：

8.一种语音引导装置，其特征在于，所述装置包括：

语音获取模块，用于获取用户输入的语音信号；

引导语生成模块，用于根据所述业务知识库中与所述文本信息相关的业务词，生成所述查询维度下包含所述业务词的引导语；其中，所述引导语用于指导用户输入下一轮语音信号。

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的语音引导方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序可由处理器执行完成权利要求1-7任意一项所述的语音引导方法。