CN110827827A

CN110827827A - 一种语音播报方法及电子设备

Info

Publication number: CN110827827A
Application number: CN201911180965.2A
Authority: CN
Inventors: 孙为坤
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-02-21

Abstract

本发明实施例公开了一种语音播报方法及电子设备。该语音播报方法包括：获取用户语音信息；对用户语音信息进行识别，得到用户语音信息对应的拼音、拼音声调，以及信息的文本内容；对文本内容进行语义分析，并根据语义分析结果、拼音和拼音声调生成语音播报信息；播报语音播报信息。利用本发明实施例能够实现准确播报多音字。

Description

一种语音播报方法及电子设备

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音播报方法及电子设备。

背景技术

目前，在电子设备用户使用语音助手过程中，当用户需要呼叫联系人时，一般用户会说“打电话给某某某”，然后语音助手会先进行语音识别和语义分析，之后执行语义分析的相关意图动作，执行成功会语音播报“好的，正在打电话给某某某”。

但是，现有的语音播报往往不能准确播报多音字，经常会出现读错的情况。例如，用户说“打电话给单[shan4]乐[yue4]”，语音助手在进行语音识别和语义分析之后拨打电话，在拨打电话成功之后通过语音助手进行播放为“好的，正在打电话给单[dan1]乐[le4]”。因此，亟需一种能够准确播报多音字的方案。

发明内容

本发明实施例提供一种语音播报方法及电子设备，以解决电子设备不能准确播报多音字的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例还提供了一种语音播报方法，该语音播报方法包括：

获取用户语音信息；

对用户语音信息进行识别，得到用户语音信息对应的拼音、拼音声调，以及信息的文本内容；

对文本内容进行语义分析，并根据语义分析结果、拼音和拼音声调生成语音播报信息；

播报语音播报信息。

第二方面，本发明实施例提供了一种电子设备，电子设备包括：

获取模块，用于获取用户语音信息；

识别模块，用于对用户语音信息进行识别，得到用户语音信息对应的拼音、拼音声调，以及信息的文本内容；

语义分析模块，用于对文本内容进行语义分析，并根据语义分析结果、拼音和拼音声调生成语音播报信息；

播报模块，用于播报语音播报信息。

第三方面，本发明实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的语音播报方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述的语音播报方法的步骤。

在本发明实施例中，通过对获取的用户语音信息进行语音识别，得到用户语音信息对应的拼音、拼音声调以及信息的文本内容；然后进行语义分析，并根据语音理解结果、拼音和拼音声调生成语音播报信息，并对该语音播报信息进行播报，进而能够实现准确播报多音字，提高了用户体验。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中，相同或相似的附图标记表示相同或相似的特征。

图1为本发明实施例提供了一种语音播报方法的流程图；

图2为本发明实施例提供的一种电子设备的示意图；

图3为本发明实施例提供的另一种电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供了一种语音播报方法的流程图。如图1所示，该语音播报方法包括：

步骤101：获取用户语音信息。

步骤102：对用户语音信息进行识别，得到用户语音信息对应的拼音、拼音声调，以及信息的文本内容。

步骤103：对文本内容进行语义分析，并根据语义分析结果、拼音和拼音声调生成语音播报信息。

步骤104：播报语音播报信息。

在本发明实施例中，步骤101所述的获取用户语音信息，包括：

通过电子设备的语音助手采集用户语音信息。

在本发明实施例中，在步骤102所述的得到用户语音信息对应的拼音、拼音声调，以及信息的文本内容之后，该语音播报方法还包括：

建立拼音和拼音声调与文本内容的映射关系。

保存映射关系。

具体地，在将用户语音信息进行自动语音识别(Acceleration Slip Regulation，ASR)时，先将用户语音信息的信号转换为拼音以及拼音的拼音声调；接着再将拼音和拼音声调转换为对应的信息文本；然后再建立拼音和拼音声调与文本内容之间的映射关系；最后保存映射关系。

在一个示例中，将用户语音信息的信息转换为拼音和拼音声调，包括：

将用户语音信息输入声学模型，得到用户语音信息对应的拼音和拼音声调；以及

将拼音和拼音声调输入语音模型，得到信息的文本内容。其中，只要能将用户语音信息转换为拼音和拼音声调的声学模型都可以纳入本发明实施例的范围；同理，只要能将拼音和拼音声调转换为文本内容的语音模块都可以纳入本发明实施例的范围。

在一个示例中，拼音声调是指普通话中的声调，通常叫四声，即阴平(第一声)，用"ˉ"表示；阳平第二声，用"ˊ"表示；上声(第三声)，用"ˇ"表示；去声(第四声)，用"ˋ"表示。

在一个示例中，本文内容是指用户语音信息的信息对应的内容；例如，用户语音信息为“请打电话给***”，此时文本内容为“请打电话给***”。

在本发明实施例中，步骤102所述的对文本内容进行语义分析，并根据语义分析结果、拼音和拼音声调生成语音播报信息，包括：

对文本内容进行语义分析，得到联系人槽位和意图。

确定联系人槽位是否为多音字。

在确定联系人槽位为多音字的情况下，根据联系人槽位、映射关系生成播报信息。

在本发明实施例中，自然语义理解(Natural Language Understanding，NLU)，即语音理解，需要识别出本文内容的联系人槽位和意图；其中，意图是指电子设备的语音助手执行用户某一命令，例如“拨打电话”；在NLU中，意图可以由槽位来表达，槽位就是意图的参数信息。槽位可指从句子中抽取出的特定概念，槽位填充为了让用户意图转化为用户明确的指令而补全信息的过程。

例如，用户语音信息为“给***打电话”，意图就是“打电话”。联系人操作为“***”。

在一个示例中，确定联系人槽位是否为多音字，包括：

通过查询该联系人槽位对应的拼音是否为多个，如果拼音为多个，则确定该联系人槽位为多音字。

在一个示例中，在确定联系人槽位为多音字的情况下，根据联系人槽位、映射关系生成播报信息，包括：

根据联系人槽位、即“***”，映射关系、即，“***”对应的拼音和拼音声调，生成播报信息。

在一个示例中，播报信息包括：播报文本；在播报信息为播报文本，且在识别电子设备的语音助手执行意图(即拨打电话)之后，将所述播报文本转成播报语音转成播报语音，然后再由电子设备的语音助手进行播报。其中，播报文本为话术，话术为“好的，给***打电话”，话术为语音助手回应用户的回答语句。

本发明实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备(wearable device，WD)、计算设备或连接到无线调制解调器的其它处理设备，以及各种形式的用户设备(user equipment，UE)，移动台(mobile station，MS)，终端(terminal)等等。

在一个示例中，对语音播报方法进行描述，具体如下：

第一步骤：用户使用语音助手说“打电话给单(shan4)乐(yue4)”。

第二步骤：电子设备的ASR引擎收到用户语音信号，开始进行ASR；ASR分为两个过程，首先声学模型会将用户语音信号转换为拼音和拼音声调，然后语言模型会将拼音和拼音声调转换成对应的文字；电子设备会保存拼音和文字的关系，并且同时返回文字给电子设备显示。

第三步骤：电子设备紧接着做NLU，生成相关意图信息，其中，在生成NLG话术信息时，会通过NLU判断是否识别到联系人槽位，当联系人槽位的结果是多音字时，会把第二步骤中的映射关系一起生成NLG话术，如“好的，正在打电话给单[＝shan4]乐[＝yue4]”。

其中，“[＝shan4]”和“[＝yue4]”可以不在界面上显示的，可以以其他的方式进行呈现，例如“单4乐4”。

第四步骤：电子设备执行拨打电话，如果电子设备上的播报开关是打开的，此时会发送TTS请求；请求的结果是“好的，正在打电话给单[＝shan4]乐[＝yue4]”，而不是“好的，正在打电话给单(dan1)乐(le4)”。

第五步骤：电子设备将第四步骤中的话术，进行相应的文字转语音，并发送至电子设备的语音助手。

其中，在文字转语音过程中，如果话术中没有标注“即单[＝shan4]乐[＝yue4]”，就会按照默认方法进行，如“好的，正在打电话给单(dan1)乐(le4)”；此时，电子设备就会按默认结果为“好的，正在打电话给单(dan1)乐(le4)”，如果在话术中有标注，就可以对多音字进行纠错，起到准确播报多音字的目的。

第六步骤：电子设备的语音助手进行语音播报，此时，语音播报的内容为“好的，正在打电话给单(shan4)乐(yue4)”，而不是“好的，正在打电话给单(dan1)乐(le4)”了。

本发明实例能够实现通过语音识别多音字，能够更好地提升电子设备语音助手播报的准确性，提高用户体验。

需要说明的是，在本发明实施例中仅以拨打电话“这个意图”进行描述，但是本发明实施例中的意图并不局限于打电话，还可以发短信，听音乐等需要语音助手协助的操作，都可以纳入本发明实施例中意图的范畴内。

图2为本发明实施例提供的一种电子设备的示意图。如图2所示，该电子设备200包括：

获取模块201，用于获取用户语音信息；

识别模块202，用于对用户语音信息进行识别，得到用户语音信息对应的拼音、拼音声调，以及信息的文本内容；

语义分析模块203，用于对文本内容进行语义分析，并根据语义分析结果、拼音和拼音声调生成语音播报信息；

播放模块204，用于播报语音播报信息。

可选的，该电子设备还包括：

建立模块，用于建立拼音和拼音声调与文本内容的映射关系；

保存模块，用于保存映射关系。

可选的，语义分析模块203，还用于：

对文本内容进行语义分析，得到联系人槽位和意图；

确定联系人槽位是否为多音字；

在确定联系人槽位为多音字的情况下，根据联系人槽位和映射关系生成播报信息。

可选的，识别模块202，还用于：

通过声学模型，得到用户语音信息对应的拼音和拼音声调；

通过语言模型，得到信息的文本内容。

另外，结合图2描述的本发明实施例的语音播报方法可以由电子设备来实现。图3示出了本发明实施例提供的另一种电子设备的硬件结构示意图。

电子设备可以包括处理器301以及存储器302。

具体地，上述处理器301可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器302可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器302可在数据处理装置的内部或外部。在特定实施例中，存储器302是非易失性固态存储器。在特定实施例中，存储器302包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

在一个示例中，电子设备还可包括通信接口303和总线310。其中，如图3所示，处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。

处理器301，用于获取用户语音信息；对所述用户语音信息进行识别，得到所述用户语音信息对应的拼音、拼音声调，以及所述用户语音信息的文本内容；对所述文本内容进行语义分析，并根据语义分析结果、所述拼音和所述拼音声调生成语音播报信息；播报所述语音播报信息。

通信接口303，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线310包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线310可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

优选的，本发明实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述语音播报方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

另外，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述语音播报方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种语音播报方法，其特征在于，包括：

获取用户语音信息；

对所述用户语音信息进行识别，得到所述用户语音信息对应的拼音、拼音声调，以及所述用户语音信息的文本内容；

对所述文本内容进行语义分析，并根据语义分析结果、所述拼音和所述拼音声调生成语音播报信息；

播报所述语音播报信息。

2.根据权利要求1所述的方法，其特征在于，在所述得到所述用户语音信息对应的拼音、拼音声调，以及所述用户语音信息的文本内容之后，所述方法还包括：

建立所述拼音和所述拼音声调与所述文本内容之间的映射关系；

保存所述映射关系。

3.根据权利要求2所述的方法，其特征在于，所述对所述文本内容进行语义分析，并根据语义分析结果、所述拼音和所述拼音声调生成语音播报信息，包括：

对所述文本内容进行语义分析，得到联系人槽位；

确定所述联系人槽位是否为多音字；

在确定所述联系人槽位为多音字的情况下，根据所述联系人槽位和所述映射关系生成所述语音播报信息。

4.根据权利要求1所述的方法，其特征在于，所述得到所述用户语音信息对应的拼音、拼音声调，以及所述用户语音信息的文本内容，包括：

通过声学模型，得到所述用户语音信息对应的拼音和拼音声调；

通过语言模型，得到所述用户语音信息的文本内容。

5.一种电子设备，其特征在于，包括：

获取模块，用于获取用户语音信息；

识别模块，用于对所述用户语音信息进行识别，得到所述用户语音信息对应的拼音、拼音声调，以及所述信息的文本内容；

语义分析模块，用于对所述文本内容进行语义分析，并根据语义分析结果、所述拼音和所述拼音声调生成语音播报信息；

播报模块，用于播报所述语音播报信息。

6.根据权利要求5所述的电子设备，其特征在于，所述电子设备还包括：

建立模块，用于建立所述拼音和所述拼音声调与所述文本内容的映射关系；

保存模块，用于保存所述映射关系。

7.根据权利要求6所述的电子设备，其特征在于，所述语义分析模块，还用于：

对所述文本内容进行语义分析，得到联系人槽位和意图；

确定所述联系人槽位是否为多音字；

在确定所述联系人槽位为多音字的情况下，根据所述联系人槽位和所述映射关系生成播报信息。

8.根据权利要求5所述的电子设备，其特征在于，所述识别模块，还用于：

通过语言模型，得到所述信息的文本内容。

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的语音播报方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的语音播报方法的步骤。