CN111179904B - 混合文语转换方法及装置、终端和计算机可读存储介质 - Google Patents

混合文语转换方法及装置、终端和计算机可读存储介质 Download PDF

Info

Publication number
CN111179904B
CN111179904B CN201911421451.1A CN201911421451A CN111179904B CN 111179904 B CN111179904 B CN 111179904B CN 201911421451 A CN201911421451 A CN 201911421451A CN 111179904 B CN111179904 B CN 111179904B
Authority
CN
China
Prior art keywords
language
labeling
sample
word segmentation
phonetic symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911421451.1A
Other languages
English (en)
Other versions
CN111179904A (zh
Inventor
林凤绿
雷欣
李志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen China Investment Co Ltd
Mobvoi Innovation Technology Co Ltd
Original Assignee
Volkswagen China Investment Co Ltd
Mobvoi Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen China Investment Co Ltd, Mobvoi Innovation Technology Co Ltd filed Critical Volkswagen China Investment Co Ltd
Priority to CN201911421451.1A priority Critical patent/CN111179904B/zh
Publication of CN111179904A publication Critical patent/CN111179904A/zh
Application granted granted Critical
Publication of CN111179904B publication Critical patent/CN111179904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种混合文语转换方法及装置、终端和计算机可读存储介质,该方法包括:获取混合语言文本信息;对所述混合语言文本信息进行分词,得到多种语言类型的语言分词;对于每种语言类型的所述语言分词,通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息。通过本发明的技术方案,实现了对混合语言文本信息的快捷文语转换,提升了对混合语言文本信息进行文语转换的准确性和效率。

Description

混合文语转换方法及装置、终端和计算机可读存储介质
技术领域
本发明涉及文语转换技术领域,尤其涉及一种混合文语转换方法及装置、终端和计算机可读存储介质。
背景技术
语音合成技术,又称文语转换技术,能将任意文字信息实时转化为标准流畅的语音朗读出来。相关技术中为不同类型的语言(如中文、英文等)分别设置了对应的文语转换系统,以实现文字信息在各种口语下的实时转换。
然而,由于文字信息的多样性,在实际的文语转换过程中往往需要将混合有多种类型语言的混合文字信息转换为语音信息,使用单一语言类型的文语转换系统只能转换混合文字信息中的一种语言类型的文字信息,而无法将全部混合文字信息进行准确转换,从而造成得到的语音信息有误。
因此,如何满足准确转换混合文字信息的需求,成为目前亟待解决的技术问题。
发明内容
本发明提供一种混合文语转换方法及装置、终端和计算机可读存储介质,解决相关技术中单一语言类型的文语转换系统难以准确转换混合语言信息的技术问题。
本发明第一方面提供一种混合文语转换方法,包括:获取混合语言文本信息;对所述混合语言文本信息进行分词,得到多种语言类型的语言分词;对于每种语言类型的所述语言分词,通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息。
在本发明上述实施例中,可选地,在所述获取混合语言文本信息的步骤之前,还包括:为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库;则所述对于每种语言类型的所述语言分词,通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息的步骤,包括:对于每种语言类型的所述语言分词,在所述语言类型的所述音标映射方式对应的音标映射数据库中为所述语言分词查询对应的音标信息;将所述混合语言文本信息中每个所述语言分词对应的所述音标信息顺序播放为所述语音信息。
在本发明上述实施例中,可选地,所述为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库的步骤,包括:对于每种所述语言类型,获取样本文本信息;按照指定分词方式对所述样本文本信息进行分词,得到第一样本分词集合;对所述第一样本分词集合进行去重,得到第二样本分词集合;通过标注任务发放平台将所述第二样本分词集合分配至多个第一标注主体;获取所述多个第一标注主体对所述第二样本分词集合中任一样本分词的第一标注结果;在所述多个第一标注主体对所述任一样本分词的第一标注结果完全一致的情况下,将所述任一样本分词和所述第一标注结果关联存储至所述语言类型对应的音标映射数据库中。
在本发明上述实施例中,可选地,所述为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库的步骤,还包括:在所述多个第一标注主体对所述任一样本分词的第一标注结果未完全一致的情况下,通过所述标注任务发放平台将所述任一样本分词分配至第二标注主体;获取所述第二标注主体对所述任一样本分词的第二标注结果;将所述任一样本分词和所述第二标注结果关联存储至所述语言类型对应的所述音标映射数据库中。
本发明第二方面提供一种混合文语转换装置,包括:混合语言文本信息获取单元,用于获取混合语言文本信息;混合语言文本信息分词单元,用于对所述混合语言文本信息进行分词,得到多种语言类型的语言分词;文语转换单元,用于对于每种语言类型的所述语言分词,通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息。
在本发明上述实施例中,可选地,还包括:数据库设置单元,用于在所述混合语言文本信息获取单元获取所述混合语言文本信息之前,为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库;则所述文语转换单元用于:对于每种语言类型的所述语言分词,在所述语言类型的所述音标映射方式对应的音标映射数据库中为所述语言分词查询对应的音标信息;将所述混合语言文本信息中每个所述语言分词对应的所述音标信息顺序播放为所述语音信息。
在本发明上述实施例中,可选地,所述数据库设置单元包括:样本文本信息获取单元,用于对于每种所述语言类型,获取样本文本信息;分词处理单元,用于按照指定分词方式对所述样本文本信息进行分词,得到第一样本分词集合;去重处理单元,用于对所述第一样本分词集合进行去重,得到第二样本分词集合;标注任务分配单元,用于通过标注任务发放平台将所述第二样本分词集合分配至多个第一标注主体;第一标注结果获取单元,用于获取所述多个第一标注主体对所述第二样本分词集合中任一样本分词的第一标注结果;关联存储单元,用于在所述多个第一标注主体对所述任一样本分词的第一标注结果完全一致的情况下,将所述任一样本分词和所述第一标注结果关联存储至所述语言类型对应的音标映射数据库中。
在本发明上述实施例中,可选地,所述标注任务分配单元还用于:在所述多个第一标注主体对所述任一样本分词的第一标注结果未完全一致的情况下,通过所述标注任务发放平台将所述任一样本分词分配至第二标注主体;则所述数据库设置单元还包括:第二标注结果获取单元,用于获取所述第二标注主体对所述任一样本分词的第二标注结果;所述关联存储单元还用于:将所述任一样本分词和所述第二标注结果关联存储至所述语言类型对应的所述音标映射数据库中。
本发明第三方面提供一种终端,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述第一方面中任一项所述的方法。
本发明第四方面提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述第一方面中任一项所述的方法流程。
本发明的技术方案,针对相关技术中单一语言类型的文语转换系统难以准确转换混合语言信息的技术问题,可将具有多种语言类型的混合语言信息分词后,将每组语言类型的分词通过每组语言类型对应的音标映射方式将其转换为语音信息。
具体来说,首先,检测文本信息中是否具有多种语言类型,当检测结果为是时,确定该文本信息为混合语言文本信息。
接着,对所述混合语言文本信息进行分词,从而将不同语言类型的内容分割开来,最终得到多种语言类型下的多个语言分词集合。对于每个语言分词集合,可使用其对应的语言类型所对应的音标映射方式获得其音标。
最终,将已确定的音标按照其对应的语言分词在混合语言文本信息中的顺序进行播放,即为最终的语音信息。
以上技术方案,可将多种语言类型对应的音标映射方式兼容至终端,以统一接口提供,终端通过访问该统一接口即可调用语言类型对应的音标映射方式对该语言类型下的语言分词进行音标标注,从而实现了对混合语言文本信息的快捷文语转换,提升了对混合语言文本信息进行文语转换的准确性和效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了根据本发明的一个实施例的混合文语转换方法的流程图;
图2示出了根据本发明的一个实施例的设置音标映射数据库的流程图;
图3示出了根据本发明的另一个实施例的混合文语转换装置的框图;
图4示出了根据本发明的一个实施例的终端的框图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了根据本发明的一个实施例的混合文语转换方法的流程图。
如图1所示,根据本发明的一个实施例的混合文语转换方法的流程包括:
步骤102,获取混合语言文本信息。
首先,检测文本信息中是否具有多种语言类型,当检测结果为是时,确定该文本信息为混合语言文本信息。
步骤104,对所述混合语言文本信息进行分词,得到多种语言类型的语言分词。
接着,对所述混合语言文本信息进行分词,从而将不同语言类型的内容分割开来,最终得到多种语言类型下的多个语言分词集合。对于每个语言分词集合,可使用其对应的语言类型所对应的音标映射方式获得其音标。
步骤106,对于每种语言类型的所述语言分词,通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息。
最终,将已确定的音标按照其对应的语言分词在混合语言文本信息中的顺序进行播放,即为最终的语音信息。
在本发明的一种实现方式中,在步骤102之前,还包括:为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库;则步骤106具体包括:对于每种语言类型的所述语言分词,在所述语言类型的所述音标映射方式对应的音标映射数据库中为所述语言分词查询对应的音标信息;将所述混合语言文本信息中每个所述语言分词对应的所述音标信息顺序播放为所述语音信息。
每种所述语言类型的所述音标映射方式设置有对应的音标映射数据库,因此,对于任一语言类型下的语言分词,可通过统一接口访问其音标映射方式对应的音标映射数据库,其音标映射数据库中存储有大量样本分词和样本分词对应的音标。因此,对于每个语言分词,可查询与其相同的样本分词,从而将样本分词对应的音标确定为该语言分词的音标。
本发明的技术方案,针对相关技术中单一语言类型的文语转换系统难以准确转换混合语言信息的技术问题,可将具有多种语言类型的混合语言信息分词后,将每组语言类型的分词通过每组语言类型对应的音标映射方式将其转换为语音信息。
以上技术方案,可将多种语言类型对应的音标映射方式兼容至终端,以统一接口提供,终端通过访问该统一接口即可调用语言类型对应的音标映射方式对该语言类型下的语言分词进行音标标注,从而实现了对混合语言文本信息的快捷文语转换,提升了对混合语言文本信息进行文语转换的准确性和效率。
下面通过图2对设置音标映射数据库的具体方式进行描述。
如图2所示,设置音标映射数据库的具体方式包括:
步骤202,对于每种语言类型,获取样本文本信息。
每种语言类型可从网页、文献、词典等指定位置进行抓取,以获得大量样本文本信息。
步骤204,按照指定分词方式对样本文本信息进行分词,得到第一样本分词集合。
可通过BiLSTM(Bi-directional Long Short-Term Memory)、BERT或其他任何符合实际需求的指定分词方式对样本文本信息进行分词,得到具有大量样本分词的第一样本分词集合。其中,BiLSTM由前向LSTM(Long Short-Term Memory)与后向LSTM组合而成,用于建模上下文信息,而BERT则可充分描述字符级、词级、句子级甚至句间关系特征,两者均可将样本文本信息快速准确地分为样本分词。
步骤206,对第一样本分词集合进行去重,得到第二样本分词集合。
由于网页、文献、词典等多种多样,则同一样本分词出现的次数很多,为简化样本量,以及避免重复的样本分词影响后续的文语转换结果,可对第一样本分词集合进行去重,得到第二样本分词集合。
步骤208,通过标注任务发放平台将第二样本分词集合分配至多个第一标注主体。
在标注任务发放平台将第二样本分词集合分配至多个第一标注主体,其中,多个第一标注主体为外部设备,第一标注主体对分配到的第二样本分词集合中的样本分词进行标注,这一标注可由外部设备自动进行,也可由外部设备的用户在外部设备上人工进行。
步骤210,获取多个第一标注主体对第二样本分词集合中任一样本分词的第一标注结果。
对于每个样本分词,均通过多个第一标注主体审核,得到多个第一标注结果,并通过比较多个第一标注结果是否一致来进一步提升音标标注的准确性。
步骤212,在多个第一标注主体对任一样本分词的第一标注结果完全一致的情况下,将任一样本分词和第一标注结果关联存储至语言类型对应的音标映射数据库中。
若多个第一标注主体对任一样本分词的第一标注结果完全一致,则认定第一标注结果正确,将样本分词和对应的第一标注结果关联存储至语言类型对应的音标映射数据库中,以供进行文语转换时查询。
步骤214,在多个第一标注主体对任一样本分词的第一标注结果未完全一致的情况下,通过标注任务发放平台将任一样本分词分配至第二标注主体。
步骤216,获取第二标注主体对任一样本分词的第二标注结果。
步骤218,将任一样本分词和第二标注结果关联存储至语言类型对应的音标映射数据库中。
若多个第一标注主体对任一样本分词的第一标注结果未完全一致,则通过标注任务发放平台将任一样本分词分配至第二标注主体,进行二次标注。第二标注主体的权限高于第一标注主体,或者说,第二标注主体的第二标注结果的权重高于任一第一标注结果的权重,因此,可将表单第二标注结果直接作为样本分词的音标,关联存储至样本分词所属语言类型对应的音标映射数据库中。
通过以上技术方案,可为包括中文、英文、日文等任何语言建立对应的音标映射数据库,在需要对混合语言文本信息进行文语转换时,将混合语言文本信息分为多种语言类型的分词,并为每种语言类型的分词在其语言类型对应的音标映射数据库中查询对应的音标,由此实现了混合语言文本信息的高效准确的文语转换。
图3示出了根据本发明的另一个实施例的混合文语转换装置的框图。
如图3所示,根据本发明的另一个实施例的混合文语转换装置300包括:混合语言文本信息获取单元302,用于获取混合语言文本信息;混合语言文本信息分词单元304,用于对所述混合语言文本信息进行分词,得到多种语言类型的语言分词;文语转换单元306,用于对于每种语言类型的所述语言分词,通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息。
在本发明上述实施例中,可选地,还包括:数据库设置单元,用于在所述混合语言文本信息获取单元302获取所述混合语言文本信息之前,为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库;则所述文语转换单元306用于:对于每种语言类型的所述语言分词,在所述语言类型的所述音标映射方式对应的音标映射数据库中为所述语言分词查询对应的音标信息;将所述混合语言文本信息中每个所述语言分词对应的所述音标信息顺序播放为所述语音信息。
在本发明上述实施例中,可选地,所述数据库设置单元包括:样本文本信息获取单元,用于对于每种所述语言类型,获取样本文本信息;分词处理单元,用于按照指定分词方式对所述样本文本信息进行分词,得到第一样本分词集合;去重处理单元,用于对所述第一样本分词集合进行去重,得到第二样本分词集合;标注任务分配单元,用于通过标注任务发放平台将所述第二样本分词集合分配至多个第一标注主体;第一标注结果获取单元,用于获取所述多个第一标注主体对所述第二样本分词集合中任一样本分词的第一标注结果;关联存储单元,用于在所述多个第一标注主体对所述任一样本分词的第一标注结果完全一致的情况下,将所述任一样本分词和所述第一标注结果关联存储至所述语言类型对应的音标映射数据库中。
在本发明上述实施例中,可选地,所述标注任务分配单元还用于:在所述多个第一标注主体对所述任一样本分词的第一标注结果未完全一致的情况下,通过所述标注任务发放平台将所述任一样本分词分配至第二标注主体;则所述数据库设置单元还包括:第二标注结果获取单元,用于获取所述第二标注主体对所述任一样本分词的第二标注结果;所述关联存储单元还用于:将所述任一样本分词和所述第二标注结果关联存储至所述语言类型对应的所述音标映射数据库中。
该混合文语转换装置300使用图1和图2示出的实施例中任一项所述的方案,因此,具有上述所有技术效果,在此不再赘述。
图4示出了根据本发明的一个实施例的终端的框图。
如图4所示,本发明的一个实施例的终端400,包括至少一个存储器402;以及,与所述至少一个存储器402通信连接的处理器404;其中,所述存储器存储有可被所述至少一个处理器404执行的指令,所述指令被设置为用于执行上述图1和图2实施例中任一项所述的方案。因此,该终端400具有与图1和图2实施例中任一项相同的技术效果,在此不再赘述。
本发明实施例的终端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
另外,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述图1和图2实施例中任一项所述的方法流程。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,可将多种语言类型对应的音标映射方式兼容至终端,以统一接口提供,终端通过访问该统一接口即可调用语言类型对应的音标映射方式对该语言类型下的语言分词进行音标标注,从而实现了对混合语言文本信息的快捷文语转换,提升了对混合语言文本信息进行文语转换的准确性和效率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种混合文语转换方法,其特征在于,包括:
获取混合语言文本信息;
对所述混合语言文本信息进行分词,得到多种语言类型的语言分词;
对于每种语言类型的所述语言分词,通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息;
在所述获取混合语言文本信息的步骤之前,还包括:
为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库,包括:
对于每种所述语言类型,获取样本文本信息;
按照指定分词方式对所述样本文本信息进行分词,得到第一样本分词集合;
对所述第一样本分词集合进行去重,得到第二样本分词集合;
通过标注任务发放平台将所述第二样本分词集合分配至多个第一标注主体;
获取所述多个第一标注主体对所述第二样本分词集合中任一样本分词的第一标注结果;
在所述多个第一标注主体对所述任一样本分词的第一标注结果完全一致的情况下,将所述任一样本分词和所述第一标注结果关联存储至所述语言类型对应的音标映射数据库中;
在所述多个第一标注主体对所述任一样本分词的第一标注结果未完全一致的情况下,通过所述标注任务发放平台将所述任一样本分词分配至第二标注主体;
获取所述第二标注主体对所述任一样本分词的第二标注结果;
所述第二标注主体的第二标注结果的权重高于任一第一标注结果的权重;
将所述任一样本分词和所述第二标注结果关联存储至所述语言类型对应的所述音标映射数据库中。
2.根据权利要求1所述的混合文语转换方法,其特征在于,所述对于每种语言类型的所述语言分词,通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息的步骤,包括:
对于每种语言类型的所述语言分词,在所述语言类型的所述音标映射方式对应的音标映射数据库中为所述语言分词查询对应的音标信息;
将所述混合语言文本信息中每个所述语言分词对应的所述音标信息顺序播放为所述语音信息。
3.一种混合文语转换装置,其特征在于,包括:
混合语言文本信息获取单元,用于获取混合语言文本信息;
混合语言文本信息分词单元,用于对所述混合语言文本信息进行分词,得到多种语言类型的语言分词;
文语转换单元,用于对于每种语言类型的所述语言分词,通过所述语言分词所属的所述语言类型对应的音标映射方式将所述语言分词转换为语音信息;
数据库设置单元,用于在所述混合语言文本信息获取单元获取所述混合语言文本信息之前,为每种所述语言类型的所述音标映射方式设置对应的音标映射数据库;
所述数据库设置单元包括:
样本文本信息获取单元,用于对于每种所述语言类型,获取样本文本信息;
分词处理单元,用于按照指定分词方式对所述样本文本信息进行分词,得到第一样本分词集合;
去重处理单元,用于对所述第一样本分词集合进行去重,得到第二样本分词集合;
标注任务分配单元,用于通过标注任务发放平台将所述第二样本分词集合分配至多个第一标注主体;
第一标注结果获取单元,用于获取所述多个第一标注主体对所述第二样本分词集合中任一样本分词的第一标注结果;
关联存储单元,用于在所述多个第一标注主体对所述任一样本分词的第一标注结果完全一致的情况下,将所述任一样本分词和所述第一标注结果关联存储至所述语言类型对应的音标映射数据库中;
所述标注任务分配单元还用于:
在所述多个第一标注主体对所述任一样本分词的第一标注结果未完全一致的情况下,通过所述标注任务发放平台将所述任一样本分词分配至第二标注主体;
则所述数据库设置单元还包括:
第二标注结果获取单元,用于获取所述第二标注主体对所述任一样本分词的第二标注结果;所述第二标注主体的第二标注结果的权重高于任一第一标注结果的权重;
所述关联存储单元还用于:
将所述任一样本分词和所述第二标注结果关联存储至所述语言类型对应的所述音标映射数据库中。
4.根据权利要求3所述的混合文语转换装置,其特征在于,还包括:
所述文语转换单元用于:
对于每种语言类型的所述语言分词,在所述语言类型的所述音标映射方式对应的音标映射数据库中为所述语言分词查询对应的音标信息;将所述混合语言文本信息中每个所述语言分词对应的所述音标信息顺序播放为所述语音信息。
5.一种终端,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1至2中任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至2中任一项所述的方法流程。
CN201911421451.1A 2019-12-31 2019-12-31 混合文语转换方法及装置、终端和计算机可读存储介质 Active CN111179904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911421451.1A CN111179904B (zh) 2019-12-31 2019-12-31 混合文语转换方法及装置、终端和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911421451.1A CN111179904B (zh) 2019-12-31 2019-12-31 混合文语转换方法及装置、终端和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111179904A CN111179904A (zh) 2020-05-19
CN111179904B true CN111179904B (zh) 2022-12-09

Family

ID=70655952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911421451.1A Active CN111179904B (zh) 2019-12-31 2019-12-31 混合文语转换方法及装置、终端和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111179904B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270917B (zh) * 2020-10-20 2024-06-04 网易(杭州)网络有限公司 一种语音合成方法、装置、电子设备及可读存储介质
CN112530406A (zh) * 2020-11-30 2021-03-19 深圳市优必选科技股份有限公司 一种语音合成方法、语音合成装置及智能设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
WO2005059895A1 (en) * 2003-12-16 2005-06-30 Loquendo S.P.A. Text-to-speech method and system, computer program product therefor
CN1731510B (zh) * 2004-08-05 2010-12-08 纽安斯通信有限公司 混合语言文语转换
EP2595143B1 (en) * 2011-11-17 2019-04-24 Svox AG Text to speech synthesis for texts with foreign language inclusions
CN106297764B (zh) * 2015-05-27 2019-07-30 科大讯飞股份有限公司 一种多语种混语文本处理方法及系统
CN106228972B (zh) * 2016-07-08 2019-09-27 北京光年无限科技有限公司 面向智能机器人系统的多语言文本混合朗读方法及系统
CN110209764B (zh) * 2018-09-10 2023-04-07 腾讯科技(北京)有限公司 语料标注集的生成方法及装置、电子设备、存储介质
CN109545183A (zh) * 2018-11-23 2019-03-29 北京羽扇智信息科技有限公司 文本处理方法、装置、电子设备及存储介质
CN109830226A (zh) * 2018-12-26 2019-05-31 出门问问信息科技有限公司 一种语音合成方法、装置、存储介质和电子设备
CN109800428B (zh) * 2018-12-28 2023-01-13 东软集团股份有限公司 一种为语料标注分词结果的方法、装置、设备及存储介质
CN109767755A (zh) * 2019-03-01 2019-05-17 广州多益网络股份有限公司 一种语音合成方法和系统
CN110211562B (zh) * 2019-06-05 2022-03-29 达闼机器人有限公司 一种语音合成的方法、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN111179904A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
CN107220232B (zh) 基于人工智能的关键词提取方法及装置、设备与可读介质
CN111090628B (zh) 一种数据处理方法、装置、存储介质及电子设备
CN109697291B (zh) 文本的语义段落识别方法和装置
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN103430232A (zh) 利用设备停靠情境的语音识别
CN110276023A (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN111178056A (zh) 基于深度学习的文案生成方法、装置及电子设备
CN111460131A (zh) 公文摘要提取方法、装置、设备及计算机可读存储介质
KR101595479B1 (ko) 저널을 생성하는 방법 및 장치
CN111179904B (zh) 混合文语转换方法及装置、终端和计算机可读存储介质
CN109325108A (zh) 查询处理方法、装置、服务器及存储介质
CN112214576B (zh) 舆情分析方法、装置、终端设备及计算机可读存储介质
CN109656385B (zh) 基于知识图谱的输入预测方法、装置和电子设备
CN109344396A (zh) 文本识别方法、装置、及计算机设备
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN110941951A (zh) 文本相似度计算方法、装置、介质及电子设备
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN110008807B (zh) 一种合同内容识别模型的训练方法、装置及设备
CN109033082B (zh) 语义模型的学习训练方法、装置及计算机可读存储介质
CN108052686B (zh) 一种摘要提取方法及相关设备
CN111198936A (zh) 一种语音搜索方法、装置、电子设备及存储介质
CN109508390B (zh) 基于知识图谱的输入预测方法、装置和电子设备
CN114818665B (zh) 一种基于bert+bilstm+crf与xgboost模型的多意图识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211130

Address after: 210000 8th floor, building D11, Hongfeng science and Technology Park, Nanjing Economic and Technological Development Zone, Jiangsu Province

Applicant after: New Technology Co.,Ltd.

Applicant after: VOLKSWAGEN (CHINA) INVESTMENT Co.,Ltd.

Address before: 100044 1001, 10th floor, office building a, 19 Zhongguancun Street, Haidian District, Beijing

Applicant before: MOBVOI INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant