文语转换方法及装置、终端和计算机可读存储介质
技术领域
本发明涉及语音合成技术领域,尤其涉及一种文语转换方法及装置、终端和计算机可读存储介质。
背景技术
语音合成技术,又称文语转换技术,能将任意文字信息实时转化为标准流畅的语音朗读出来。相关技术中为不同口语语种分别设置了对应的文语转换系统,以实现文字信息在各种口语下的实时转换。
然而,由于地域和文化的多样性,口语的种类复杂繁多,单一语种下的文语转换系统无法满足多种地域用户的文语转换需求。而如果将多种文语转换系统均安装至用户设备,则会占用大量系统资源,造成成本消耗,并且,当用户具有多种口语转换需求时,需要在多种文语转换系统间切换,操作不便。以上均造成用户体验低下。
因此,如何尽可能便捷地实现用户的文语转换需求,成为目前亟待解决的技术问题。
发明内容
本发明提供一种文语转换方法及装置、终端和计算机可读存储介质,针对相关技术中文语转换难以满足用户实际文语转换需求的技术问题,可为多种口语语种下的音标映射信息设置统一的访问接口,只要选择所需的音标映射方式,即可通过统一的访问接口获取对应的口语语种下的音标映射信息。
本发明第一方面提供一种文语转换方法,包括:获取针对文字信息的音标映射方式选择信息;在多种预设音标映射方式中,选择所述音标映射方式选择信息对应的目标音标映射方式;以所述目标音标映射方式将所述文字信息转换为语音信息。
在本发明上述实施例中,可选地,所述获取针对文字信息的音标映射方式选择信息的步骤,包括:基于实时接收到的当前用户操作信息,获取对应的所述音标映射方式选择信息;或者基于当前用户的地域信息,生成与所述地域信息对应的所述音标映射方式选择信息。
在本发明上述实施例中,可选地,在所述获取针对文字信息的音标映射方式选择信息的步骤之前,还包括:为每种所述预设音标映射方式设置对应的音标映射数据库;则所述以所述目标音标映射方式将所述文字信息转换为语音信息的步骤,包括:在所述目标音标映射方式对应的目标音标映射数据库中为所述文字信息中的每个分词查询对应的音标,生成与所述文字信息对应的音标信息;将所述音标信息播放为所述语音信息。
在本发明上述实施例中,可选地,所述为每种所述预设音标映射方式设置对应的音标映射数据库的步骤,包括:对于每种所述预设音标映射方式,获取对应的文字-音标映射信息,所述文字-音标映射信息包括样本分词集合和所述样本分词集合中每个样本分词对应的音标;通过标注任务发放平台将所述文字-音标映射信息分配至多个第一校对主体;获取所述多个第一校对主体对所述文字-音标映射信息的第一校对结果;在所述多个第一校对主体对所述文字-音标映射信息的第一校对结果完全一致的情况下,将所述第一校对结果对应的文字-音标映射信息存储至所述预设音标映射方式对应的音标映射数据库中;在所述多个第一校对主体对所述文字-音标映射信息的第一校对结果未完全一致的情况下,通过所述标注任务发放平台将所述文字-音标映射信息分配至第二校对主体;获取所述第二校对主体对所述文字-音标映射信息的第二校对结果;将所述第二校对结果对应的文字-音标映射信息存储至所述预设音标映射方式对应的所述音标映射数据库中。
在本发明上述实施例中,可选地,在所述通过标注任务发放平台将所述文字-音标映射信息分配至多个第一校对主体的步骤之前,还包括:对所述文字-音标映射信息进行预处理,其中,所述预处理的方式包括:去重、去空格、去不可识别内容、去错误内容以及对齐所述去重、所述去空格、所述去不可识别内容和所述去错误内容之后的所述文字-音标映射信息。
本发明第二方面提供一种文语转换装置,包括:选择信息获取单元,用于获取针对文字信息的音标映射方式选择信息;映射方式选择单元,用于在多种预设音标映射方式中,选择所述音标映射方式选择信息对应的目标音标映射方式;文语转换单元,用于以所述目标音标映射方式将所述文字信息转换为语音信息。
在本发明上述实施例中,可选地,所述选择信息获取单元用于:基于实时接收到的当前用户操作信息,获取对应的所述音标映射方式选择信息;或者基于当前用户的地域信息,生成与所述地域信息对应的所述音标映射方式选择信息。
在本发明上述实施例中,可选地,还包括:数据库设置单元,用于在所述选择信息获取单元所述音标映射方式选择信息之前,为每种所述预设音标映射方式设置对应的音标映射数据库;则所述文语转换单元用于:在所述目标音标映射方式对应的目标音标映射数据库中为所述文字信息中的每个分词查询对应的音标,生成与所述文字信息对应的音标信息,以及将所述音标信息播放为所述语音信息。
在本发明上述实施例中,可选地,所述数据库设置单元包括:映射信息获取单元,用于对于每种所述预设音标映射方式,获取对应的文字-音标映射信息,所述文字-音标映射信息包括样本分词集合和所述样本分词集合中每个样本分词对应的音标;第一任务发放单元,用于通过标注任务发放平台将所述文字-音标映射信息分配至多个第一校对主体;第一校对结果获取单元,用于获取所述多个第一校对主体对所述文字-音标映射信息的第一校对结果;映射信息入库单元,用于在所述多个第一校对主体对所述文字-音标映射信息的第一校对结果完全一致的情况下,将所述第一校对结果对应的文字-音标映射信息存储至所述预设音标映射方式对应的音标映射数据库中;第二任务发放单元,用于在所述多个第一校对主体对所述文字-音标映射信息的第一校对结果未完全一致的情况下,通过所述标注任务发放平台将所述文字-音标映射信息分配至第二校对主体;第二校对结果获取单元,用于获取所述第二校对主体对所述文字-音标映射信息的第二校对结果;所述映射信息入库单元还用于:将所述第二校对结果对应的文字-音标映射信息存储至所述预设音标映射方式对应的所述音标映射数据库中。
在本发明上述实施例中,可选地,还包括:预处理单元,用于在所述第一任务发放单元将所述文字-音标映射信息分配至所述多个第一校对主体之前,对所述文字-音标映射信息进行预处理,其中,所述预处理的方式包括:去重、去空格、去不可识别内容、去错误内容以及对齐所述去重、所述去空格、所述去不可识别内容和所述去错误内容之后的所述文字-音标映射信息。
本发明第三方面提供一种终端,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述第一方面中任一项所述的方法。
本发明第四方面提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述第一方面中任一项所述的方法流程。
本发明的技术方案,针对相关技术中文语转换难以满足用户实际文语转换需求的技术问题,设置了多种预设音标映射方式,每种预设音标映射方式具有对应的音标映射数据库。
首先,用户在终端中选定需要进行文语转换的文字信息,终端再根据用户的选择或用户信息确定针对该文字信息的音标映射方式选择信息。
音标映射方式选择信息中指明了多种预设音标映射方式中的一种目标音标映射方式,因此,终端即可通过目标音标映射方式将所述文字信息转换为语音信息,具体来说,终端可在目标音标映射方式对应的音标映射数据库中获得所述文字信息中的分词对应的音标,而将所有分词对应的音标播放出来,即完成了语音信息的转换。
通过以上技术方案,可在同一文语转换系统中实现对多种口语的转换,提升了文语转换系统的兼容性,为多地域用户提供了文语转换便利,从而提升了用户体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了根据本发明的一个实施例的文语转换方法的流程图;
图2示出了根据本发明的一个实施例的音标标注方法的流程图;
图3示出了根据本发明的一个实施例的音标标注装置的框图;
图4示出了根据本发明的一个实施例的终端的框图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了根据本发明的一个实施例的文语转换方法的流程图。
如图1所示,根据本发明的一个实施例的文语转换方法的流程包括:
步骤102,获取针对文字信息的音标映射方式选择信息。
首先,用户在终端中选定需要进行文语转换的文字信息,终端再根据用户的选择或用户信息确定针对该文字信息的音标映射方式选择信息。该文字信息可提取于网页、文档以及任何用户指定的位置。
在本发明的一种实现方式中,步骤102包括:基于实时接收到的当前用户操作信息,获取对应的所述音标映射方式选择信息。
也就是说,用户可在终端进行手动操作,生成用户操作信息,用户操作信息指示了用户手动操作所提供的音标映射方式选择信息。比如,可在终端的操作界面上将多种预设音标映射方式供用户手动选择。
步骤104,在多种预设音标映射方式中,选择所述音标映射方式选择信息对应的目标音标映射方式。
多种预设音标映射方式对应多种口语类型,比如,对于台湾方言文语转换系统,多种预设音标映射方式对应的语种包括教会罗马字、托鲁巴TLPA和通用拼音三种,而三种语种分布使用在台湾省的不同地域。结合此处可知,在本发明的另一种实现方式中,步骤102包括:基于当前用户的地域信息,生成与所述地域信息对应的所述音标映射方式选择信息。
为简化用户操作,可获取用户个人信息中的地域信息,该地域信息可为用户当前所处的地域,也为用户户籍所在地域,还可为用户预设的指定地域。这样,在用户选定文字信息后,无需用户进一步操作,指定即可根据其地域信息直接确定对应的音标映射方式选择信息,也就是直接选定地域信息对应的音标映射方式。
当然,终端的文语转换系统所能够支持的口语类型不限于台湾省方言,还可以是任意语种下的任意口语类型,终端可将任意语种下的任意口语类型均作为一种预设音标映射方式供一种音标映射方式选择信息选择。
步骤106,以所述目标音标映射方式将所述文字信息转换为语音信息。
音标映射方式选择信息中指明了多种预设音标映射方式中的一种目标音标映射方式,因此,终端即可通过目标音标映射方式将所述文字信息转换为语音信息,具体来说,终端可在目标音标映射方式对应的音标映射数据库中获得所述文字信息中的分词对应的音标,而将所有分词对应的音标播放出来,即完成了语音信息的转换。
在本发明的一种实现方式中,为每种所述预设音标映射方式设置对应的音标映射数据库,音标映射数据库中包括了大量样本分词和样本分词对应的音标。则步骤106具体包括:在所述目标音标映射方式对应的目标音标映射数据库中为所述文字信息中的每个分词查询对应的音标,生成与所述文字信息对应的音标信息;将所述音标信息播放为所述语音信息。
也就是说,可在目标音标映射数据库中查询文字信息中的每个分词查询对应的音标,而将查询到的所有音标按照文字信息的顺序播放出来,即得到语音信息。
本发明的技术方案,针对相关技术中文语转换难以满足用户实际文语转换需求的技术问题,设置了多种预设音标映射方式,每种预设音标映射方式具有对应的音标映射数据库。通过以上技术方案,可在同一文语转换系统中实现对多种口语的转换,提升了文语转换系统的兼容性,为多地域用户提供了文语转换便利,从而提升了用户体验。
图2示出了根据本发明的一个实施例的音标标注方法的流程图。
如图2所示,根据本发明的一个实施例的音标标注方法的流程包括:
步骤202,对于每种预设音标映射方式,获取对应的文字-音标映射信息,文字-音标映射信息包括样本分词集合和样本分词集合中每个样本分词对应的音标。
这里获取的初始的文字-音标映射信息可从网页、文献等指定位置进行抓取,以获得大量样本信息。
在步骤202后,还可对所述文字-音标映射信息进行预处理,以提升所述文字-音标映射信息的准确性。其中,所述预处理的方式包括但不限于:去重、去空格、去不可识别内容、去错误内容以及对齐所述去重、所述去空格、所述去不可识别内容和所述去错误内容之后的所述文字-音标映射信息。
步骤204,通过标注任务发放平台将文字-音标映射信息分配至多个第一校对主体。
为进一步提升文字-音标映射信息的准确性,可对文字-音标映射信息进行正确性检测,具体来说,在标注任务发放平台将文字-音标映射信息分配至多个第一校对主体,其中,多个第一校对主体为外部设备,第一校对主体对文字-音标映射信息的审核可由外部设备自动进行,也可由外部设备的用户在外部设备上人工进行。
步骤206,获取多个第一校对主体对文字-音标映射信息的第一校对结果。
对于每个分词的文字-音标映射信息,均通过多个第一校对主体审核,得到多个第一校对结果,并通过比较多个第一校对结果是否一致来进一步提升文字-音标映射信息的准确性。
步骤208,在多个第一校对主体对文字-音标映射信息的第一校对结果完全一致的情况下,将第一校对结果对应的文字-音标映射信息存储至预设音标映射方式对应的音标映射数据库中。
若多个第一校对主体对文字-音标映射信息的第一校对结果完全一致,确定文字-音标映射信息正确有效,故可直接将其存储至预设音标映射方式对应的音标映射数据库中。其中,每种预设音标映射方式具有对应的大量文字-音标映射信息,也具有对应的音标映射数据库,当其对应的文字-音标映射信息通过审核后,即可将该文字-音标映射信息存储至其对应的音标映射数据库中。
步骤210,在多个第一校对主体对文字-音标映射信息的第一校对结果未完全一致的情况下,通过标注任务发放平台将文字-音标映射信息分配至第二校对主体。
步骤212,获取第二校对主体对文字-音标映射信息的第二校对结果。
步骤214,将第二校对结果对应的文字-音标映射信息存储至预设音标映射方式对应的音标映射数据库中。
若多个第一校对主体对文字-音标映射信息的第一校对结果不完全一致,则进入二次审核步骤,将文字-音标映射信息分配至第二校对主体。其中,第二校对主体的权限高于第一校对主体,或者说,第二校对主体的第二校对结果的权重高于任一第一校对结果的权重。
因此,可将第二校对主体的第二校对结果直接作为准确的文字-音标映射信息存储至预设音标映射方式对应的音标映射数据库中,完成对该文字-音标映射信息的最终校对。
由此,可建立具有高度准确性的多个音标映射数据库,终端通过音标映射方式选择信息确定需要访问的目标音标映射数据库,并通过统一接口对目标音标映射数据库进行访问,完成所需口语类型的文语转换。
图3示出了根据本发明的一个实施例的音标标注装置的框图。
如图3所示,根据本发明的一个实施例的音标标注装置300包括:选择信息获取单元302,用于获取针对文字信息的音标映射方式选择信息;映射方式选择单元304,用于在多种预设音标映射方式中,选择所述音标映射方式选择信息对应的目标音标映射方式;文语转换单元306,用于以所述目标音标映射方式将所述文字信息转换为语音信息。
在本发明上述实施例中,可选地,所述选择信息获取单元302用于:基于实时接收到的当前用户操作信息,获取对应的所述音标映射方式选择信息;或者基于当前用户的地域信息,生成与所述地域信息对应的所述音标映射方式选择信息。
在本发明上述实施例中,可选地,还包括:数据库设置单元,用于在所述选择信息获取单元302所述音标映射方式选择信息之前,为每种所述预设音标映射方式设置对应的音标映射数据库;则所述文语转换单元306用于:在所述目标音标映射方式对应的目标音标映射数据库中为所述文字信息中的每个分词查询对应的音标,生成与所述文字信息对应的音标信息,以及将所述音标信息播放为所述语音信息。
在本发明上述实施例中,可选地,所述数据库设置单元包括:映射信息获取单元,用于对于每种所述预设音标映射方式,获取对应的文字-音标映射信息,所述文字-音标映射信息包括样本分词集合和所述样本分词集合中每个样本分词对应的音标;第一任务发放单元,用于通过标注任务发放平台将所述文字-音标映射信息分配至多个第一校对主体;第一校对结果获取单元,用于获取所述多个第一校对主体对所述文字-音标映射信息的第一校对结果;映射信息入库单元,用于在所述多个第一校对主体对所述文字-音标映射信息的第一校对结果完全一致的情况下,将所述第一校对结果对应的文字-音标映射信息存储至所述预设音标映射方式对应的音标映射数据库中;第二任务发放单元,用于在所述多个第一校对主体对所述文字-音标映射信息的第一校对结果未完全一致的情况下,通过所述标注任务发放平台将所述文字-音标映射信息分配至第二校对主体;第二校对结果获取单元,用于获取所述第二校对主体对所述文字-音标映射信息的第二校对结果;所述映射信息入库单元还用于:将所述第二校对结果对应的文字-音标映射信息存储至所述预设音标映射方式对应的所述音标映射数据库中。
在本发明上述实施例中,可选地,还包括:预处理单元,用于在所述第一任务发放单元将所述文字-音标映射信息分配至所述多个第一校对主体之前,对所述文字-音标映射信息进行预处理,其中,所述预处理的方式包括:去重、去空格、去不可识别内容、去错误内容以及对齐所述去重、所述去空格、所述去不可识别内容和所述去错误内容之后的所述文字-音标映射信息。
该文语转换装置300使用图1和图2示出的实施例中任一项所述的方案,因此,具有上述所有技术效果,在此不再赘述。
图4示出了根据本发明的一个实施例的终端的框图。
如图4所示,本发明的一个实施例的终端400,包括至少一个存储器402;以及,与所述至少一个存储器402通信连接的处理器404;其中,所述存储器存储有可被所述至少一个处理器404执行的指令,所述指令被设置为用于执行上述图1和图2实施例中任一项所述的方案。因此,该终端400具有与图1和图2实施例中任一项相同的技术效果,在此不再赘述。
本发明实施例的终端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
另外,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述图1和图2实施例中任一项所述的方法流程。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,可在同一文语转换系统中实现对多种口语的转换,提升了文语转换系统的兼容性,为多地域用户提供了文语转换便利,从而提升了用户体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。