CN111179904B

CN111179904B - 混合文语转换方法及装置、终端和计算机可读存储介质

Info

Publication number: CN111179904B
Application number: CN201911421451.1A
Authority: CN
Inventors: 林凤绿; 雷欣; 李志飞
Original assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2022-12-09
Anticipated expiration: 2039-12-31
Also published as: CN111179904A

Abstract

本发明公开了一种混合文语转换方法及装置、终端和计算机可读存储介质，该方法包括：获取混合语言文本信息；对所述混合语言文本信息进行分词，得到多种语言类型的语言分词；对于每种语言类型的所述语言分词，通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息。通过本发明的技术方案，实现了对混合语言文本信息的快捷文语转换，提升了对混合语言文本信息进行文语转换的准确性和效率。

Description

混合文语转换方法及装置、终端和计算机可读存储介质

技术领域

本发明涉及文语转换技术领域，尤其涉及一种混合文语转换方法及装置、终端和计算机可读存储介质。

背景技术

语音合成技术，又称文语转换技术，能将任意文字信息实时转化为标准流畅的语音朗读出来。相关技术中为不同类型的语言(如中文、英文等)分别设置了对应的文语转换系统，以实现文字信息在各种口语下的实时转换。

然而，由于文字信息的多样性，在实际的文语转换过程中往往需要将混合有多种类型语言的混合文字信息转换为语音信息，使用单一语言类型的文语转换系统只能转换混合文字信息中的一种语言类型的文字信息，而无法将全部混合文字信息进行准确转换，从而造成得到的语音信息有误。

因此，如何满足准确转换混合文字信息的需求，成为目前亟待解决的技术问题。

发明内容

本发明提供一种混合文语转换方法及装置、终端和计算机可读存储介质，解决相关技术中单一语言类型的文语转换系统难以准确转换混合语言信息的技术问题。

本发明第一方面提供一种混合文语转换方法，包括：获取混合语言文本信息；对所述混合语言文本信息进行分词，得到多种语言类型的语言分词；对于每种语言类型的所述语言分词，通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息。

在本发明上述实施例中，可选地，在所述获取混合语言文本信息的步骤之前，还包括：为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库；则所述对于每种语言类型的所述语言分词，通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息的步骤，包括：对于每种语言类型的所述语言分词，在所述语言类型的所述音标映射方式对应的音标映射数据库中为所述语言分词查询对应的音标信息；将所述混合语言文本信息中每个所述语言分词对应的所述音标信息顺序播放为所述语音信息。

在本发明上述实施例中，可选地，所述为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库的步骤，包括：对于每种所述语言类型，获取样本文本信息；按照指定分词方式对所述样本文本信息进行分词，得到第一样本分词集合；对所述第一样本分词集合进行去重，得到第二样本分词集合；通过标注任务发放平台将所述第二样本分词集合分配至多个第一标注主体；获取所述多个第一标注主体对所述第二样本分词集合中任一样本分词的第一标注结果；在所述多个第一标注主体对所述任一样本分词的第一标注结果完全一致的情况下，将所述任一样本分词和所述第一标注结果关联存储至所述语言类型对应的音标映射数据库中。

在本发明上述实施例中，可选地，所述为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库的步骤，还包括：在所述多个第一标注主体对所述任一样本分词的第一标注结果未完全一致的情况下，通过所述标注任务发放平台将所述任一样本分词分配至第二标注主体；获取所述第二标注主体对所述任一样本分词的第二标注结果；将所述任一样本分词和所述第二标注结果关联存储至所述语言类型对应的所述音标映射数据库中。

本发明第二方面提供一种混合文语转换装置，包括：混合语言文本信息获取单元，用于获取混合语言文本信息；混合语言文本信息分词单元，用于对所述混合语言文本信息进行分词，得到多种语言类型的语言分词；文语转换单元，用于对于每种语言类型的所述语言分词，通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息。

在本发明上述实施例中，可选地，还包括：数据库设置单元，用于在所述混合语言文本信息获取单元获取所述混合语言文本信息之前，为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库；则所述文语转换单元用于：对于每种语言类型的所述语言分词，在所述语言类型的所述音标映射方式对应的音标映射数据库中为所述语言分词查询对应的音标信息；将所述混合语言文本信息中每个所述语言分词对应的所述音标信息顺序播放为所述语音信息。

在本发明上述实施例中，可选地，所述数据库设置单元包括：样本文本信息获取单元，用于对于每种所述语言类型，获取样本文本信息；分词处理单元，用于按照指定分词方式对所述样本文本信息进行分词，得到第一样本分词集合；去重处理单元，用于对所述第一样本分词集合进行去重，得到第二样本分词集合；标注任务分配单元，用于通过标注任务发放平台将所述第二样本分词集合分配至多个第一标注主体；第一标注结果获取单元，用于获取所述多个第一标注主体对所述第二样本分词集合中任一样本分词的第一标注结果；关联存储单元，用于在所述多个第一标注主体对所述任一样本分词的第一标注结果完全一致的情况下，将所述任一样本分词和所述第一标注结果关联存储至所述语言类型对应的音标映射数据库中。

在本发明上述实施例中，可选地，所述标注任务分配单元还用于：在所述多个第一标注主体对所述任一样本分词的第一标注结果未完全一致的情况下，通过所述标注任务发放平台将所述任一样本分词分配至第二标注主体；则所述数据库设置单元还包括：第二标注结果获取单元，用于获取所述第二标注主体对所述任一样本分词的第二标注结果；所述关联存储单元还用于：将所述任一样本分词和所述第二标注结果关联存储至所述语言类型对应的所述音标映射数据库中。

本发明第三方面提供一种终端，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述第一方面中任一项所述的方法。

本发明第四方面提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述第一方面中任一项所述的方法流程。

本发明的技术方案，针对相关技术中单一语言类型的文语转换系统难以准确转换混合语言信息的技术问题，可将具有多种语言类型的混合语言信息分词后，将每组语言类型的分词通过每组语言类型对应的音标映射方式将其转换为语音信息。

具体来说，首先，检测文本信息中是否具有多种语言类型，当检测结果为是时，确定该文本信息为混合语言文本信息。

接着，对所述混合语言文本信息进行分词，从而将不同语言类型的内容分割开来，最终得到多种语言类型下的多个语言分词集合。对于每个语言分词集合，可使用其对应的语言类型所对应的音标映射方式获得其音标。

最终，将已确定的音标按照其对应的语言分词在混合语言文本信息中的顺序进行播放，即为最终的语音信息。

以上技术方案，可将多种语言类型对应的音标映射方式兼容至终端，以统一接口提供，终端通过访问该统一接口即可调用语言类型对应的音标映射方式对该语言类型下的语言分词进行音标标注，从而实现了对混合语言文本信息的快捷文语转换，提升了对混合语言文本信息进行文语转换的准确性和效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据本发明的一个实施例的混合文语转换方法的流程图；

图2示出了根据本发明的一个实施例的设置音标映射数据库的流程图；

图3示出了根据本发明的另一个实施例的混合文语转换装置的框图；

图4示出了根据本发明的一个实施例的终端的框图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了根据本发明的一个实施例的混合文语转换方法的流程图。

如图1所示，根据本发明的一个实施例的混合文语转换方法的流程包括：

步骤102，获取混合语言文本信息。

首先，检测文本信息中是否具有多种语言类型，当检测结果为是时，确定该文本信息为混合语言文本信息。

步骤104，对所述混合语言文本信息进行分词，得到多种语言类型的语言分词。

步骤106，对于每种语言类型的所述语言分词，通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息。

在本发明的一种实现方式中，在步骤102之前，还包括：为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库；则步骤106具体包括：对于每种语言类型的所述语言分词，在所述语言类型的所述音标映射方式对应的音标映射数据库中为所述语言分词查询对应的音标信息；将所述混合语言文本信息中每个所述语言分词对应的所述音标信息顺序播放为所述语音信息。

每种所述语言类型的所述音标映射方式设置有对应的音标映射数据库，因此，对于任一语言类型下的语言分词，可通过统一接口访问其音标映射方式对应的音标映射数据库，其音标映射数据库中存储有大量样本分词和样本分词对应的音标。因此，对于每个语言分词，可查询与其相同的样本分词，从而将样本分词对应的音标确定为该语言分词的音标。

下面通过图2对设置音标映射数据库的具体方式进行描述。

如图2所示，设置音标映射数据库的具体方式包括：

步骤202，对于每种语言类型，获取样本文本信息。

每种语言类型可从网页、文献、词典等指定位置进行抓取，以获得大量样本文本信息。

步骤204，按照指定分词方式对样本文本信息进行分词，得到第一样本分词集合。

可通过BiLSTM(Bi-directional Long Short-Term Memory)、BERT或其他任何符合实际需求的指定分词方式对样本文本信息进行分词，得到具有大量样本分词的第一样本分词集合。其中，BiLSTM由前向LSTM(Long Short-Term Memory)与后向LSTM组合而成，用于建模上下文信息，而BERT则可充分描述字符级、词级、句子级甚至句间关系特征，两者均可将样本文本信息快速准确地分为样本分词。

步骤206，对第一样本分词集合进行去重，得到第二样本分词集合。

由于网页、文献、词典等多种多样，则同一样本分词出现的次数很多，为简化样本量，以及避免重复的样本分词影响后续的文语转换结果，可对第一样本分词集合进行去重，得到第二样本分词集合。

步骤208，通过标注任务发放平台将第二样本分词集合分配至多个第一标注主体。

在标注任务发放平台将第二样本分词集合分配至多个第一标注主体，其中，多个第一标注主体为外部设备，第一标注主体对分配到的第二样本分词集合中的样本分词进行标注，这一标注可由外部设备自动进行，也可由外部设备的用户在外部设备上人工进行。

步骤210，获取多个第一标注主体对第二样本分词集合中任一样本分词的第一标注结果。

对于每个样本分词，均通过多个第一标注主体审核，得到多个第一标注结果，并通过比较多个第一标注结果是否一致来进一步提升音标标注的准确性。

步骤212，在多个第一标注主体对任一样本分词的第一标注结果完全一致的情况下，将任一样本分词和第一标注结果关联存储至语言类型对应的音标映射数据库中。

若多个第一标注主体对任一样本分词的第一标注结果完全一致，则认定第一标注结果正确，将样本分词和对应的第一标注结果关联存储至语言类型对应的音标映射数据库中，以供进行文语转换时查询。

步骤214，在多个第一标注主体对任一样本分词的第一标注结果未完全一致的情况下，通过标注任务发放平台将任一样本分词分配至第二标注主体。

步骤216，获取第二标注主体对任一样本分词的第二标注结果。

步骤218，将任一样本分词和第二标注结果关联存储至语言类型对应的音标映射数据库中。

若多个第一标注主体对任一样本分词的第一标注结果未完全一致，则通过标注任务发放平台将任一样本分词分配至第二标注主体，进行二次标注。第二标注主体的权限高于第一标注主体，或者说，第二标注主体的第二标注结果的权重高于任一第一标注结果的权重，因此，可将表单第二标注结果直接作为样本分词的音标，关联存储至样本分词所属语言类型对应的音标映射数据库中。

通过以上技术方案，可为包括中文、英文、日文等任何语言建立对应的音标映射数据库，在需要对混合语言文本信息进行文语转换时，将混合语言文本信息分为多种语言类型的分词，并为每种语言类型的分词在其语言类型对应的音标映射数据库中查询对应的音标，由此实现了混合语言文本信息的高效准确的文语转换。

图3示出了根据本发明的另一个实施例的混合文语转换装置的框图。

如图3所示，根据本发明的另一个实施例的混合文语转换装置300包括：混合语言文本信息获取单元302，用于获取混合语言文本信息；混合语言文本信息分词单元304，用于对所述混合语言文本信息进行分词，得到多种语言类型的语言分词；文语转换单元306，用于对于每种语言类型的所述语言分词，通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息。

在本发明上述实施例中，可选地，还包括：数据库设置单元，用于在所述混合语言文本信息获取单元302获取所述混合语言文本信息之前，为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库；则所述文语转换单元306用于：对于每种语言类型的所述语言分词，在所述语言类型的所述音标映射方式对应的音标映射数据库中为所述语言分词查询对应的音标信息；将所述混合语言文本信息中每个所述语言分词对应的所述音标信息顺序播放为所述语音信息。

该混合文语转换装置300使用图1和图2示出的实施例中任一项所述的方案，因此，具有上述所有技术效果，在此不再赘述。

图4示出了根据本发明的一个实施例的终端的框图。

如图4所示，本发明的一个实施例的终端400，包括至少一个存储器402；以及，与所述至少一个存储器402通信连接的处理器404；其中，所述存储器存储有可被所述至少一个处理器404执行的指令，所述指令被设置为用于执行上述图1和图2实施例中任一项所述的方案。因此，该终端400具有与图1和图2实施例中任一项相同的技术效果，在此不再赘述。

本发明实施例的终端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

另外，本发明实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述图1和图2实施例中任一项所述的方法流程。

以上结合附图详细说明了本发明的技术方案，通过本发明的技术方案，可将多种语言类型对应的音标映射方式兼容至终端，以统一接口提供，终端通过访问该统一接口即可调用语言类型对应的音标映射方式对该语言类型下的语言分词进行音标标注，从而实现了对混合语言文本信息的快捷文语转换，提升了对混合语言文本信息进行文语转换的准确性和效率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种混合文语转换方法，其特征在于，包括：

获取混合语言文本信息；

对所述混合语言文本信息进行分词，得到多种语言类型的语言分词；

对于每种语言类型的所述语言分词，通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息；

在所述获取混合语言文本信息的步骤之前，还包括：

为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库，包括：

对于每种所述语言类型，获取样本文本信息；

按照指定分词方式对所述样本文本信息进行分词，得到第一样本分词集合；

对所述第一样本分词集合进行去重，得到第二样本分词集合；

通过标注任务发放平台将所述第二样本分词集合分配至多个第一标注主体；

获取所述多个第一标注主体对所述第二样本分词集合中任一样本分词的第一标注结果；

在所述多个第一标注主体对所述任一样本分词的第一标注结果完全一致的情况下，将所述任一样本分词和所述第一标注结果关联存储至所述语言类型对应的音标映射数据库中；

在所述多个第一标注主体对所述任一样本分词的第一标注结果未完全一致的情况下，通过所述标注任务发放平台将所述任一样本分词分配至第二标注主体；

获取所述第二标注主体对所述任一样本分词的第二标注结果；

所述第二标注主体的第二标注结果的权重高于任一第一标注结果的权重；

将所述任一样本分词和所述第二标注结果关联存储至所述语言类型对应的所述音标映射数据库中。

2.根据权利要求1所述的混合文语转换方法，其特征在于，所述对于每种语言类型的所述语言分词，通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息的步骤，包括：

对于每种语言类型的所述语言分词，在所述语言类型的所述音标映射方式对应的音标映射数据库中为所述语言分词查询对应的音标信息；

将所述混合语言文本信息中每个所述语言分词对应的所述音标信息顺序播放为所述语音信息。

3.一种混合文语转换装置，其特征在于，包括：

混合语言文本信息获取单元，用于获取混合语言文本信息；

混合语言文本信息分词单元，用于对所述混合语言文本信息进行分词，得到多种语言类型的语言分词；

文语转换单元，用于对于每种语言类型的所述语言分词，通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息；

数据库设置单元，用于在所述混合语言文本信息获取单元获取所述混合语言文本信息之前，为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库；

所述数据库设置单元包括：

样本文本信息获取单元，用于对于每种所述语言类型，获取样本文本信息；

分词处理单元，用于按照指定分词方式对所述样本文本信息进行分词，得到第一样本分词集合；

去重处理单元，用于对所述第一样本分词集合进行去重，得到第二样本分词集合；

标注任务分配单元，用于通过标注任务发放平台将所述第二样本分词集合分配至多个第一标注主体；

第一标注结果获取单元，用于获取所述多个第一标注主体对所述第二样本分词集合中任一样本分词的第一标注结果；

关联存储单元，用于在所述多个第一标注主体对所述任一样本分词的第一标注结果完全一致的情况下，将所述任一样本分词和所述第一标注结果关联存储至所述语言类型对应的音标映射数据库中；

所述标注任务分配单元还用于：

则所述数据库设置单元还包括：

第二标注结果获取单元，用于获取所述第二标注主体对所述任一样本分词的第二标注结果；所述第二标注主体的第二标注结果的权重高于任一第一标注结果的权重；

所述关联存储单元还用于：

4.根据权利要求3所述的混合文语转换装置，其特征在于，还包括：

所述文语转换单元用于：

对于每种语言类型的所述语言分词，在所述语言类型的所述音标映射方式对应的音标映射数据库中为所述语言分词查询对应的音标信息；将所述混合语言文本信息中每个所述语言分词对应的所述音标信息顺序播放为所述语音信息。

5.一种终端，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述权利要求1至2中任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至2中任一项所述的方法流程。