CN112259092B

CN112259092B - 一种语音播报方法、装置及语音交互设备

Info

Publication number: CN112259092B
Application number: CN202011104955.3A
Authority: CN
Inventors: 毛尧生; 杨德文; 龙丁奋; 皮碧虹
Original assignee: Shenzhen Tongxingzhe Technology Co ltd
Current assignee: Shenzhen Tongxingzhe Technology Co ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2023-09-01
Anticipated expiration: 2040-10-15
Also published as: CN112259092A

Abstract

本发明适用于语音交互技术领域，提供了一种语音播报方法、装置及语音交互设备，应用于语音交互设备，语音交互设备中已经构建包括多音字数据和特殊字符数据的匹配数据库；方法包括：将分解后的用户语音文本和匹配数据库进行匹配，获取包括多音字数据和/或特殊字符数据的第一特征词组；获取到第一特征词组时，提取与第一特征词组相关的第一读音数据，以及对应的第二读音数据，同时构建矫正数据库；利用匹配数据库标注反馈语音文本的读音，并在反馈语音文本中包括第一特征词组时，利用矫正数据库重新标注第一特征词组的读音，生成语音播报信息，以使语音交互设备输出语音播报信息。通过本发明能提高语音播报的准确率和语音播报效率。

Description

一种语音播报方法、装置及语音交互设备

技术领域

本发明涉及语音交互技术领域，尤其涉及一种语音播报方法、装置及语音交互设备。

背景技术

人工智能发展迅猛，语音交互技术是人工智能的重要研发方向，且已经加速在智能家居、手机、车载、智能穿戴、语音交互设备人等行业渗透和落地，而随着语音交互技术逐渐优化，人与语音交互设备的交流更趋向人类自然对话体验。

在语音交互的过程中，用户向语音交互设备发出的语音信息或指令中通常包含有多音字，如果语音交互设备在语音播报过程中，对于多音字的发音不准确，将直接影响对话体验。

目前，人与语音交互设备进行语音交互时，语音交互设备在语音播报前，会对多音字进行预测，提高对话体验，但所使用的多音字预测方式通常只针对语音交互设备的回复语音进行预测，使得多音字搜索范围大，预测效率较低，使得语音播报的准确率及效率较低。

发明内容

本发明的主要目的在于提出一种语音播报方法、装置及语音交互设备，以解决现有技术中语音交互设备所使用的多音字预测方式，只针对语音交互设备的回复语音进行预测，搜索范围大，预测效率较低，使得语音播报的准确率及效率较低的问题。

为实现上述目的，本发明实施例第一方面提供一种语音播报方法，应用于语音交互设备，所述语音交互设备中已经构建匹配数据库，所述匹配数据库包括多音字数据和特殊字符数据；

方法包括：

分析用户语音信息，生成用户语音文本，并获取反馈语音文本；

分解所述用户语音文本，将分解后的用户语音文本和所述匹配数据库进行匹配，获取包括所述多音字数据和/或特殊字符数据的第一特征词组；

获取到所述第一特征词组时，在所述匹配数据库中提取与所述第一特征词组相关的第一读音数据，在所述用户语音信息中提取与所述第一特征词组对应的第二读音数据；

通过所述第一读音数据和所述第二读音数据构建矫正数据库；

利用所述匹配数据库标注所述反馈语音文本的读音，并在所述反馈语音文本中包括所述第一特征词组时，利用所述矫正数据库重新标注所述第一特征词组的读音，生成语音播报信息，以使所述语音交互设备输出所述语音播报信息。

结合本发明第一方面，本发明第一实施方式中，所述分析用户语音信息，生成用户语音文本，并获取反馈语音文本，包括：

获取所述用户语音信息；

将所述用户语音信息转换为文本信息，作为所述用户语音文本；

获取所述语音交互设备输出的反馈信息，将所述反馈信息中的文本信息，作为所述反馈语音文本；所述语音交互设备根据所述用户语音文本输出反馈信息，所述反馈信息包括文本信息和语音信息。

结合本发明第一方面，本发明第二实施方式中，分解所述用户语音文本，将分解后的用户语音文本和所述匹配数据库进行匹配，获取第一特征词组，包括：

通过语义分割方法将所述用户语音文本分解为词组集；

将所述词组集中的词组与所述匹配数据库进行匹配，若当前匹配词组为多音字数据和/或特殊字符数据，将当前匹配词组作为所述第一特征词组。

结合本发明第一方面第二实施方式，本发明第三实施方式中，所述在所述匹配数据库中提取与所述第一特征词组相关的第一读音数据之前，包括：

继续拆分所述第一特征词组，获得特征关键词；

基于所述匹配数据库扩展所述特征关键词，生成第二特征词组。

结合本发明第一方面第三实施方式，本发明第四实施方式中，所述在所述匹配数据库中提取与所述第一特征词组相关的第一读音数据，包括：

在所述第二特征词组中提取与所述第一特征词组相关的第一读音数据。

结合本发明第一方面，本发明第五实施方式中，在所述用户语音信息中提取与所述第一特征词组对应的第二读音数据，包括：

根据所述第一特征词组的位置，在所述用户语音信息中截取位置相同的读音数据，作为所述第二读音数据。

结合本发明第一方面，本发明第六实施方式中，所述特殊字符数据包括数字文本和基于所述数字文本的读音、标签文本和基于所述标签文本的读音。

本发明第二方面提供一种语音播报装置，应用于语音交互设备，所述语音交互设备中已经构建匹配数据库，所述匹配数据库包括多音字数据和特殊字符数据；

装置包括：

语音处理模块，用于分析用户语音信息，生成用户语音文本，并获取反馈语音文本；

文本处理匹配模块，用于分解所述用户语音文本，将分解后的用户语音文本和所述匹配数据库进行匹配，获取包括所述多音字数据和/或特殊字符数据的第一特征词组；

读音数据获取模块，用于获取到所述第一特征词组时，在所述匹配数据库中提取与所述第一特征词组相关的第一读音数据，在所述用户语音信息中提取与所述第一特征词组对应的第二读音数据；

矫正数据库构建模块，用于通过所述第一读音数据和所述第二读音数据构建矫正数据库；

语音播报模块，用于利用所述匹配数据库标注所述反馈语音文本的读音，并在所述反馈语音文本中包括所述第一特征词组时，利用所述矫正数据库重新标注所述第一特征词组的读音，生成语音播报信息，以使所述语音交互设备输出所述语音播报信息。

本发明实施例的第三方面提供了一种语音交互设备，包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上第一方面所提供的方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上第一方面所提供的方法的步骤。

本发明实施例提出一种语音播报方法，应用于语音交互设备，语音交互设备中已经构建匹配数据库，匹配数据库包括多音字数据和特殊字符数据。首先由用户语音信息生成用户语音文本，同时根据用户语音信息获取反馈语音文本。通过分解用户语音文本，将分解后的用户语音文本和所匹配数据库进行匹配，可以得到包括多音字数据和/或特殊字符数据的第一特征词组。而得到第一特征词组时，说明用户语音文本中包括多音字或特殊字符，此时在匹配数据库中提取与第一特征词组相关的第一读音数据，还在用户语音信息中提取与第一特征词组对应的第二读音数据，然后通过第一读音数据和第二读音数据构建矫正数据库，利用矫正数据库可以矫正语音交互设备的反馈语音文本的读音，提高语音播报准确率，同时提高多音字的搜索效率，以提高语音播报的效率。

附图说明

图1为本发明实施例提供的语音播报方法的实现流程示意图；

图2为本发明实施例提供的语音播报方法的应用流程示意图；

图3为本发明实施例提供的语音播报装置的组成结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，在本文中，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本文中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

如图1所示，本发明实施例提供一种语音播报方法，应用于语音交互设备，旨在提高语音交互设备的多音字播报准确率。在本发明实施例中，语音交互设备中已经构建匹配数据库，匹配数据库包括多音字数据和特殊字符数据。在具体应用中，多音字数据包括多音字的文本和读音，如{行,hang/xing}，特殊字符数据包括特殊字符的文本和读音，如{101,yilingyi}，{360,sanliuling}。

语音播报方法包括但不限于如下步骤：

S101、分析用户语音信息，生成用户语音文本，并获取反馈语音文本；

在上述步骤S101中，用户语音文本由用户语音信息直接生成，反馈语音文本需要从语音交互设备中获取。

在一个实施例中，上述步骤S101的一种实现方式可以为：

获取所述用户语音信息；

在具体应用中，语音交互设备中设有如聊天语料库、语料匹配引擎的语音交互应用，其通过互联网的数据进行分析，借助分布式计算平台分析有效数据，形成新的语料库，扩展语音交互设备的后端服务。因此，能够接收相同的用户语音文本，并根据用户语音文本输出反馈信息。

S102、分解所述用户语音文本，将分解后的用户语音文本和所述匹配数据库进行匹配，获取包括所述多音字数据和/或特殊字符数据的第一特征词组。

上述步骤S102实现了用户语音文本中多音字的搜索，通过分解用户语音文本，而不是将用户语音文本中的每个字与匹配数据库进行匹配，减少了多音字的搜索范围，提高搜索效率。

在一个实施例中，上述步骤S102的一种实现方式可以为：

通过语义分割方法将所述用户语音文本分解为词组集；

S103、获取到所述第一特征词组时，在所述匹配数据库中提取与所述第一特征词组相关的第一读音数据，在所述用户语音信息中提取与所述第一特征词组对应的第二读音数据。

需要说明的是，上述步骤S103中，若没有获取到第一特征词组，则用户语音信息中不包括多音字或特殊字符，可直接利用匹配数据库标注反馈语音文本的读音，生成语音播报信息，使语音交互设备输出语音播报信息。

在具体应用中，由于语音交互设备根据用户语音文本回复的反馈语音文本不同，但关联性较高，本发明实施例中，还可以根据用户语音文本预测反馈语音文本中可能出现的多音字和/或特殊字符，以在语音交互设备根据反馈语音文本输出语音播报信息时提供相关的读音数据，降低匹配范围，从而提高语音播报效率。

因此，在一个实施例中，上述步骤S103的所述在所述匹配数据库中提取与所述第一特征词组相关的第一读音数据之前，包括：

继续拆分所述第一特征词组，获得特征关键词；

其中，特征关键词可以为第一特征词组中具有多音特征的词或字。通过根据具有多音特征的词或字扩展获得第二特征词组，以预测反馈语音文本中可能出现的多音词或字。

则上述步骤S103的实现方式可以为：

需要说明的是，与第一特征词组相关程度的判断，可以通过第二特征词组和第一特征词组的相似度进行计算。例如第一特征词组为[同行者]，第二特征词组为[同行]、[行者]、[行业]、[行家]等，则按照上述的相关程度判断，第一读音数据应为基于词组[同行]、[行者]的读音数据。

在一个实施例中，匹配数据库中可能没有保存用户语音文本中的多音字读音或特殊字符读音，因此，上述步骤S103的在所述用户语音信息中提取与所述第一特征词组对应的第二读音数据，包括：

在本发明实施例中，所述特殊字符数据包括数字文本和基于所述数字文本的读音、标签文本和基于所述标签文本的读音。

需要说明的是，标签文本为具有预先设置的标签的文本，在本发明实施例中，标签文本可以为包括“公司”“街道”“地址”的文本，其中，“公司”“街道”“地址”即预先设置的标签，在具体应用中，预先设置的标签还可以为任意的能够表示特殊字符数据的标签，如建筑名称等。

在具体应用中，如果第一特征词组仅包括多音字数据，则第二读音数据与第一读音数据可能相同，表现为匹配数据库中所提取的与第一特征词组相关的读音数据，与在用户语音信息中所提取的与第一特征词组对应的读音数据相同。则在一个实施例中，上述的在用户语音信息中提取与第一特征词组对应的第二读音数据之前，还可以检测第一特征词组中是否有特殊字符，即数字文本和标签文本，以判断是否需要执行提取第二读音数据的步骤。

S104、通过所述第一读音数据和所述第二读音数据构建矫正数据库。

S105、利用所述匹配数据库标注所述反馈语音文本的读音，并在所述反馈语音文本中包括所述第一特征词组时，利用所述矫正数据库重新标注所述第一特征词组的读音，生成语音播报信息，以使所述语音交互设备输出所述语音播报信息。

需要说明的是，上述步骤S105中，若反馈语音文本中不包括第一特征词组，则反馈语音文本中并不包括多音字和/或特殊字符，此时直接利用匹配数据库标注反馈语音文本的读音，生成语音播报信息，使语音交互设备输出语音播报信息。

结合上述步骤S101至步骤S103，本发明实施例以语音交互设备的实际语音播报过程，说明上述步骤S104和步骤S105的实现：

假设用户语音信息为[导航到同行者科技有限公司]，则用户语音文本为[导航到同行者科技有限公司]，再假设反馈语音文本为[为您导航至798街区附近，同行者科技有限公司]。

通过语义分割方法分解用户语音文本后，可以获得的词组集为[导航，到，同行者，科技有限公司]，将词组集中的词组与匹配数据库进行匹配后，可以得出，[同行者]为包括多音字数据的第一特征词组，[科技有限公司]由于包括标签“公司”，因此为包括特殊字符数据的第一特征词组。而在匹配数据库中提取与第一特征词组[同行者]、[科技有限公司]相关的第一读音数据之前，对第一特征词组继续拆分，获得第一特征词组中具体包括多音字或特殊字符的特征关键词[行]，扩展后可以获得第二特征词组[同行]、[行者]、[行业]、[行家]等，则在第二特征词组中提取与第一特征词组相关的第一读音数据时，可以获得的第一读音数据为{同行,tongxing/tonghang},{行者,xingzhe}。在用户语音信息中提取与第一特征词组对应的第二读音数据时，由于第一特征词组包括[科技有限公司]，而标签“公司”表示第一特征词组包括特殊字符数据，因此，此时根据第一特征词组的位置，在用户语音信息中截取位置相同的读音数据，作为第二读音数据，第二读音数据为{同行者,tongxingzhe}{科技有限公司,kejiyouxiangongsi}。

则本次构建的矫正数据库包括：{同行,tongxing/tonghang}、{行者,xingzhe}、{同行者,tongxingzhe}、{科技有限公司,kejiyouxiangongsi}。由于反馈语音文本为[为您导航至798街区附近，同行者科技有限公司]，因此，利用匹配数据库标注反馈语音文本的读音时，会根据特殊字符数据对[798]进行反馈语音文本的标注，且由于反馈语音文本中包括第一特征词组[同行者]、[科技有限公司]，因此，还利用矫正数据库重新标注第一特征词组的读音，以避免将[同行者]的读音数据标为{同行者，tonghangzhe}。

最终生成的语音播报信息则为:{为您导航至798街区附近，同行者科技有限公司,weinindaohangzhiqijiubajiequfujintongxingzhekejiyouxiangongsi}

本发明实施例提供的语音播报方法，在匹配数据库和用户语音信息的基础上构建了矫正数据库。利用所述匹配数据库标注反馈语音文本的读音时，还利用矫正数据库重新标注第一特征词组的读音，生成语音播报信息，以使用户语音文本中包括多音字和/或特殊字符时，提供与第一特征词组相关的读音数据，即第一读音数据，从而提高多音字的搜索效率；反馈语音文本中包括第一特征词组时，则通过矫正数据库重新标注第一特征词组的读音，以提高播报准确率及语音播报效率

如图2所示，本发明实施例还基于上述步骤S101至步骤S105，及其详细实现步骤，通过应用流程图表示语音播报方法的实现原理。由于语音播报方法应用于语音交互设备，因此，图2示出了语音交互设备的语音交互流程，以及本发明实施例提供的语音播报方法的语音播报流程。

图2中，语音交互设备的语音交互流程为：语音交互设备获取用户语音信息、根据用户语音信息输出反馈语音文本、根据反馈语音文本生成语音播报信息并输出语音播报信息。

本发明实施例提供的语音播报流程中，在语音交互设备输出语音播报信息之前，在语音交互设备构建匹配数据库以待调用，然后截取用户语音信息，使用上述步骤S101处理用户语音信息，并使用上述步骤S102判断用户语音信息是否包括多音字和/或特殊字符，若上述步骤S102中匹配失败，即获取不到第一特征词组、用户语音信息不包括多音字和/或特殊字符时，则直接利用匹配数据库标注反馈语音文本的读音，纠正反馈语音文本中的多音字读音和/或特殊字符读音，输出语音播报信息。

若上述步骤S102中匹配成功，即获取到第一特征词组、用户语音信息包括多音字时，根据第一特征词组中的多音字扩展第二特征词组，在第二特征词组中筛选与第一特征词组相关的词组，获取第一读音数据；同时在用户语音信息中提取与第一特征词组对应的第二读音数据；根据第一读音数据和第二读音数据，构建矫正数据库，矫正数据库随第一特征词组的不同而变化，因此，矫正数据库为动态数据库。

在上述步骤S102中匹配成功的基础上，即获取到第一特征词组、用户语音信息包括多音字的基础上，还获取语音交互设备输出的反馈语音文本，并通过相同的匹配方法，对反馈语音文本中是否包括第一特征词组进行判断。

如果反馈语音文本中不包括第一特征词组，则说明语音交互设备的回复语中不包括用户所使用的多音字数据或特殊字符数据，此时仍直接利用匹配数据库标注反馈语音文本的读音，纠正反馈语音文本中的多音字读音和/或特殊字符读音，输出语音播报信息。

如果反馈语音文本中包括第一特征词组，则说明语音交互设备的回复语中包括用户所使用的多音字数据或特殊字符数据，为了避免匹配数据库无法对第一特征词组进行纠正，也为了缩小基于反馈语音文本的多音字的搜索范围，因此还利用矫正数据库矫正反馈语音文本中的多音字读音或特殊字符读音，输出语音播报信息，从而提高多音字的搜索效率，以提高语音播报准确率及语音播报效率。

如图3所示，本发明实施例还提供了一种语音播报装置30，应用于语音交互设备，所述语音交互设备中已经构建匹配数据库，所述匹配数据库包括多音字数据和特殊字符数据；

装置包括：

语音处理模块31，用于分析用户语音信息，生成用户语音文本，并获取反馈语音文本；

文本处理匹配模块32，用于分解所述用户语音文本，将分解后的用户语音文本和所述匹配数据库进行匹配，获取包括所述多音字数据和/或特殊字符数据的第一特征词组；

读音数据获取模块33，用于获取到所述第一特征词组时，在所述匹配数据库中提取与所述第一特征词组相关的第一读音数据，在所述用户语音信息中提取与所述第一特征词组对应的第二读音数据；

矫正数据库构建模块34，用于通过所述第一读音数据和所述第二读音数据构建矫正数据库；

语音播报模块35，用于利用所述匹配数据库标注所述反馈语音文本的读音，并在所述反馈语音文本中包括所述第一特征词组时，利用所述矫正数据库重新标注所述第一特征词组的读音，生成语音播报信息，以使所述语音交互设备输出所述语音播报信息。

本发明实施例还提供一种语音播报设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例中的语音播报方法中的各个步骤。

本发明实施例还提供一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述实施例中的各个步骤。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音播报方法，其特征在于，应用于语音交互设备，所述语音交互设备中已经构建匹配数据库，所述匹配数据库包括多音字数据和特殊字符数据；

方法包括：

2.如权利要求1所述的语音播报方法，其特征在于，所述分析用户语音信息，生成用户语音文本，并获取反馈语音文本，包括：

获取所述用户语音信息；

3.如权利要求1所述的语音播报方法，其特征在于，分解所述用户语音文本，将分解后的用户语音文本和所述匹配数据库进行匹配，获取第一特征词组，包括：

通过语义分割方法将所述用户语音文本分解为词组集；

4.如权利要求3所述的语音播报方法，其特征在于，所述在所述匹配数据库中提取与所述第一特征词组相关的第一读音数据之前，包括：

继续拆分所述第一特征词组，获得特征关键词；

5.如权利要求4所述的语音播报方法，其特征在于，所述在所述匹配数据库中提取与所述第一特征词组相关的第一读音数据，包括：

6.如权利要求1所述的语音播报方法，其特征在于，在所述用户语音信息中提取与所述第一特征词组对应的第二读音数据，包括：

7.如权利要求1所述的语音播报方法，其特征在于，所述特殊字符数据包括数字文本和基于所述数字文本的读音、标签文本和基于所述标签文本的读音。

8.一种语音播报装置，其特征在于，应用于语音交互设备，所述语音交互设备中已经构建匹配数据库，所述匹配数据库包括多音字数据和特殊字符数据；

装置包括：

9.一种语音交互设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1至7任一项所述的语音播放方法中的各个步骤。

10.一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至7任一项所述的语音播放方法中的各个步骤。