CN114898733A

CN114898733A - Ai语音数据的分析处理方法及系统

Info

Publication number: CN114898733A
Application number: CN202210485688.1A
Authority: CN
Inventors: 冯甜甜
Original assignee: Shenzhen Miaoyue Technology Co ltd
Current assignee: Shenzhen Miaoyue Technology Co ltd
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-08-12

Abstract

本申请提供一种AI语音数据的分析处理方法系统，该方法包括：数据中心接收终端发送的待合成的第一文本信息，将该第一文本信息通过n种语音合成模型合成得到n个语音数据；数据中心将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果，将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果；数据中心将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音，将该合成语音发送至终端播放。本申请提供的技术方案具有用户体验度高的优点。

Description

AI语音数据的分析处理方法及系统

技术领域

本发明涉及电子设备领域，具体涉及一种AI语音数据的分析处理方法及系统。

背景技术

语音数据通常指的就是通过语音来记录的数据以及通过语音来传输的数据，也正是我们常说的声音文件，例如MP3文件等等。随着AI(人工智能)行业的发展，语音数据的处理数量越来越大，例如，小说阅读网站，儿童故事讲课网站，随着AI技术的发展，现有的小说阅读网站均由AI语音合成方式来提供语音数据，但是此种方式的准确率较低，影响用户的体验度。

发明内容

本发明实施例提供了一种AI语音数据的分析处理方法及系统，可以提高语音的准确率，提高用户体验度的优点。

第一方面，本发明实施例提供一种AI语音数据的分析处理方法，所述方法包括如下步骤：

数据中心接收终端发送的待合成的第一文本信息，将该第一文本信息通过n种语音合成模型合成得到n个语音数据；

数据中心将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果，将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果；

数据中心将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音，将该合成语音发送至终端播放。

第二方面，提供一种AI语音数据的分析处理系统，所述系统包括：

接收单元，用于接收终端发送的待合成的第一文本信息；

处理单元，用于将该第一文本信息通过n种语音合成模型合成得到n个语音数据；将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果，将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果；将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音，将该合成语音发送至终端播放。

第三方面，提供一种计算机可读存储介质，其存储用于电子数据交换的程序，其中，所述程序使得终端执行第一方面提供的方法。

实施本发明实施例，具有如下有益效果：

可以看出，本申请提供的技术方案，本申请提供的技术方案数据中心接收终端发送的待合成的第一文本信息，将该第一文本信息通过n种语音合成模型合成得到n个语音数据；数据中心将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果，将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果；数据中心将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音，将该合成语音发送至终端播放。这样在播放语音数据之前，可以通过多种合成方式来选择最优的合成方式的语音数据作为播放的语音数据，进而提高语音播放的准确度，提高用户体验度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种终端的结构示意图

图2是一种AI语音数据的分析处理方法的流程示意图；

图2A是本申请提供的字符串比对示意图；

图3是一种AI语音数据的分析处理系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1提供了一种终端，该终端可以为IOS、安卓等系统的终端，当然也可以为其他系统的终端，例如鸿蒙等等，本申请并不限制上述具体的系统，如图1所示，上述终端设备具体可以包括：处理器、存储器、显示屏、通信电路和音频组件(可选的)，上述部件可以通过总线连接，也可以通过其他方式连接，本申请并不限制上述连接的具体方式。

上述连接也可以通过通信系统连接。通信系统可以是：全球移动通讯(GlobalSystem of Mobile communication，GSM)系统、码分多址(Code Division MultipleAccess，CDMA)系统、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)系统、通用分组无线业务(General Packet Radio Service，GPRS)、长期演进(Long TermEvolution，LTE)系统、先进的长期演进(Advanced long term evolution，LTE-A)系统、新空口(New Radio，NR)系统、NR系统的演进系统、免授权频谱上的LTE系统(LTE-basedaccess to unlicensed spectrum，LTE-U)、免授权频谱上的NR系统(NR-based accesstounlicensed spectrum，NR-U)、通用移动通信系统(Universal MobileTelecommunication System，UMTS)、下一代通信系统或其他通信系统等。

小说是一种传统的阅读材料，随着电子产品的兴起，例如手机、平板电脑、阅读器等等设备的兴起，小说电子化，无纸化也成为一种趋势，用户已经完全适应从书本到电子书本的转变，随着AI语音数据处理能力的加强，有声读物也越来越多，有些用户在一些特定的场景下，例如开车、坐车时会采用有声读物的方式来实现对小说的阅读，对于小说的有声文件来说，由于小说的数据量大，依靠人工翻读是不切实际的，因此通过AI语音合成方式来实现对小说阅读成为大家的选择，但是现有的AI语音合成后就将对应的有声小说播放，这样可能导致语音播放的准确率低，由于没有增加响应的校验的方式，导致小说的阅读准确率低。

对于小说阅读，由于小说的文字部分是固定的，仅仅是语音部分可能出现错误，因此可以将文字部分作为样本来进行校对，进而从多种AI合成模型中选择准确率最高的语音数据进行播放，进而提高小说阅读的准确率。

参阅图2，图2提供了一种AI语音数据的分析处理方法，该方法如图2所示，该方法可以在终端与数据中心完成，该终端与数据中心可以通过网络设备连接，该连接方式可以为无线连接方式，该无线方式具体可以为上述无线通信系统提供的连接方式，本申请实施例并不限制上述连接的具体形式。上述方法如图2所示，具体可以包括：

步骤S201、数据中心接收终端发送的待合成的第一文本信息，将该第一文本信息通过n种语音合成模型合成得到n个语音数据；

上述n为大于等于2的整数，上述语音合成模型可以为现有的语音合成模型，例如，科大讯飞的语音合成模型、百度语音合成模型等等。

步骤S202、数据中心将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果，将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果；

上述m为大于等于2的整数，可以为n相等，也可以与n不同，上述语音识别模型可以为多种，例如小爱同学、siri、天猫精灵等等。

步骤S203、数据中心将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音，将该合成语音发送至终端播放。

本申请提供的技术方案数据中心接收终端发送的待合成的第一文本信息，将该第一文本信息通过n种语音合成模型合成得到n个语音数据；数据中心将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果，将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果；数据中心将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音，将该合成语音发送至终端播放。这样在播放语音数据之前，可以通过多种合成方式来选择最优的合成方式的语音数据作为播放的语音数据，进而提高语音播放的准确度，提高用户体验度。

示意的，上述方法在接收到第一文本信息之后，还可以包括：

数据中心将第一文本信息执行分段处理得到多个分段，将每个分段作为一个文本信息执行语音合成操作以及语音识别操作，查找每个分段的相似度最高的文本识别结果，将所有分段的相似度最高的文本识别结果对应的所有分段的语音数据拼接得到拼接语音数据，将该拼接语音数据作为合成语音发送至终端播放。

示例的，上述分段可以采用通用的分段方式，上述段可以为文本信息的自然段，当然也可以为一句话等等。

示例的，上述将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果具体可以包括：

将n*m个文本识别结果中的一个文本识别结果与第一文本信息进行逐字比对获取与第一文本信息相同的字数量x1，确定相似度＝x1/X；其中X为第一文本信息的总字数。

示例的，上述将n*m个文本识别结果中的一个文本识别结果与第一文本信息进行逐字比对获取与第一文本信息相同的字数量x1具体可以包括：

将一个文本识别结果按标点符号作为分隔符，将相邻两个分隔符之间的字符作为一个字符串A1，将第一文本信息按标点符号作为分隔符，将相邻两个分隔符之间的字符作为一个字符串B1，将字符串A1和字符串B1按分隔符前后对齐后，逐字比对确定字符串A1的相同字的数量x_n，遍历所有分隔符中的字符串得到所有字符串的相同字的数量，将所有字符串的相同字的数量相加得到的和即为数量x1。

如图2A所示，字符串A为一个文本识别结果(可以为一段的结果，因为篇幅的问题，这里以一个分段为例)，将标点符号之间的字符均作为一个字符串，这样得到如图2A所示的2个字符串，然后将2个字符串的标点符号对齐，然后逐字比对确定字符串A1的相同字的数量，例如图2A相同字的数量为x_n＝3。

示例的，上述逐字比对确定字符串A1的相同字的数量具体可以包括：

以字符串A1的前符号为起点，按顺序比对确定第一个出现不相同的字的位置w1，将位置w1之前的字均确定为相同的字x_n1，若位置w1不是字符串的最后一个字，则以字符串A1的后符号为起点，按倒序比对确定第一个出现不相同的字的位置w2，将位置w2之后的字确定为相同的字x_n2；其中，x_n＝x_n1+x_n2。

参阅图3，图3提供一种AI语音数据的分析处理系统的结构示意图，所述系统包括：

接收单元，用于接收终端发送的待合成的第一文本信息；

示例的，

所述处理单元，具体用于将第一文本信息执行分段处理得到多个分段，将每个分段作为一个文本信息执行语音合成操作以及语音识别操作，查找每个分段的相似度最高的文本识别结果，将所有分段的相似度最高的文本识别结果对应的所有分段的语音数据拼接得到拼接语音数据，将该拼接语音数据作为合成语音发送至终端播放。

示例的，

所述处理单元，具体用于将n*m个文本识别结果中的一个文本识别结果与第一文本信息进行逐字比对获取与第一文本信息相同的字数量x1，确定相似度＝x1/X；其中X为第一文本信息的总字数。

示例的，

所述处理单元，具体用于将一个文本识别结果按标点符号作为分隔符，将相邻两个分隔符之间的字符作为一个字符串A1，将第一文本信息按标点符号作为分隔符，将相邻两个分隔符之间的字符作为一个字符串B1，将字符串A1和字符串B1按分隔符前后对齐后，逐字比对确定字符串A1的相同字的数量x_n，遍历所有分隔符中的字符串得到所有字符串的相同字的数量，将所有字符串的相同字的数量相加得到的和即为数量x1。

示例的，本申请实施例中的处理单元还可以用于执行如图2所示实施例的细化方案、可选方案等，这里不再赘述。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种AI语音数据的分析处理方法的部分或全部步骤。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种AI语音数据的分析处理方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以接收其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种AI语音数据的分析处理方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述方法在接收到第一文本信息之后，还包括：

3.根据权利要求1所述的方法，其特征在于，将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果具体包括：

4.根据权利要求3所述的方法，其特征在于，所述将n*m个文本识别结果中的一个文本识别结果与第一文本信息进行逐字比对获取与第一文本信息相同的字数量x1具体包括：

5.一种AI语音数据的分析处理系统，其特征在于，所述系统包括：

接收单元，用于接收终端发送的待合成的第一文本信息；

6.根据权利要求5所述的系统，其特征在于，

7.根据权利要求5所述的系统，其特征在于，

8.根据权利要求7所述的系统，其特征在于，

9.一种计算机可读存储介质，其存储用于电子数据交换的程序，其中，所述程序使得终端执行如权利要求1-4任意一项提供的方法。