CN111402859B

CN111402859B - 一种语音词典生成方法、设备及计算机可读存储介质

Info

Publication number: CN111402859B
Application number: CN202010136474.4A
Authority: CN
Inventors: 林凤绿; 康魏; 雷欣; 李志飞
Original assignee: Wenwen Intelligent Information Technology Co ltd
Current assignee: Wenwen Intelligent Information Technology Co ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2023-10-27
Anticipated expiration: 2040-03-02
Also published as: CN111402859A

Abstract

本发明公开了一种语音词典生成方法、设备及计算机可读存储介质，所述方法包括：获得语音词典，所述语音词典包含若干语音词条，所述语音词条对应有发音信息；根据分类规则对所述若干语音词条进行分类，获得若干分类词典，每一个所述分类词典包含同一分类的语音词条。应用本发明实施例提供的词典生成方法，能够获得具有领域针对性的语音词典，解决了语音词典缺少领域细分和针对性差的问题。

Description

一种语音词典生成方法、设备及计算机可读存储介质

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音词典生成方法、设备及计算机可读存储介质。

背景技术

语音合成技术是指通过机械的、电子的方法产生人造语音的技术。文语转换(TextTo Speech，TTS)技术隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为语音信息的技术。语音词典包含了从单词到音素之间的映射，作用是用来连接声学模型和语言模型的。语音词典包含TTS引擎所能处理的单词的集合，并标明了其发音。通过语音词典得到声学模型的建模单元和语言模型建模单元间的映射关系，从而把声学模型和语言模型连接起来，以进行语音合成，语音词典的单词集合与语音合成相关性较高。但是目前语音词典缺少领域的细分和针对性优化。

发明内容

本发明实施例提供了一种语音词典生成方法、设备及计算机可读存储介质，能够生成具有领域针对性的分类词典。

本发明一方面提供一种语音词典生成方法，所述方法包括：获得语音词典，所述语音词典包含若干语音词条，所述语音词条对应有发音信息；根据分类规则对所述若干语音词条进行分类，获得若干分类词典，每一个所述分类词典包含同一分类的语音词条。

在一可实施方式中，所述获得语音词典，所述语音词典包含若干语音词条，所述语音词条对应有发音信息，包括：所述获得语音词典，所述语音词典包含若干语音词条，所述语音词条对应有发音信息，包括：获得指定词典，所述指定词典包含若干指定词条；对所述指定词条进行发音预测，获得对应所述指定词条的发音信息；根据所述指定词条和对应所述指定词条的发音信息确定所述语音词条。

在一可实施方式中，在所述获得若干分类词典之后，所述方法还包括：获得指定文本，基于指定文本确定推荐分类词典列表；获得控制指令，所述控制指令用于指示在推荐分类词典列表中确定目标词典；基于所述目标词典对所述指定文本进行语音合成处理，得到对应所述指定文本的目标语音。

在一可实施方式中，在所述得到对应所述指定文本的目标语音之后，所述方法还包括：获得修改指令，所述修改指令包含修改信息；基于所述修改信息对目标语音进行修改，获得修改语音；将所述修改语音确定为目标语音。

在一可实施方式中，在所述获得修改指令之后，所述方法还包括：采集所述修改信息；基于筛选规则对所述修改信息进行筛选，获得所述筛选信息；将所述筛选信息加入训练集，所述训练集用于训练语音合成模型；所述语音合成模型用于基于确定的分类词典对所述指定文本进行语音合成处理。

本发明另一方面提供一种语音词典生成设备，所述设备包括：获得模块，用于获得语音词典，所述语音词典包含若干语音词条，所述语音词条对应有发音信息；分类模块，用于根据分类规则对所述若干语音词条进行分类，获得若干分类词典，每一个所述分类词典包含同一分类的语音词条。

在一可实施方式中，所述获得模块，包括：获得子模块，用于获得指定词典，所述指定词典包含若干指定词条；预测子模块，用于对所述指定词条进行发音预测，获得对应所述指定词条的发音信息；确定子模块，用于根据所述指定词条和对应所述指定词条的发音信息确定所述语音词条。

在一可实施方式中，所述获得模块，还用于获得指定文本，基于指定文本确定推荐分类词典列表；所述获得模块，还用于获得控制指令，所述控制指令用于指示在推荐分类词典列表中确定目标词典；所述设备还包括：合成模块，用于基于所述目标词典对所述指定文本进行语音合成处理，得到对应所述指定文本的目标语音。

在一可实施方式中，所述获得模块，还用于获得修改指令，所述修改指令包含修改信息；所述设备还包括：修改模块，用于基于确定的修改信息对目标语音进行修改，获得修改语音；确定模块，用于将所述修改语音确定为目标语音。

在一可实施方式中，所述设备还包括：采集模块，用于采集所述修改信息；筛选模块，用于基于筛选规则对所述修改信息进行筛选，获得所述筛选信息；加入模块，用于将所述筛选信息加入训练集，所述训练集用于训练语音合成模型；所述语音合成模型用于进行语音合成处理。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任一项所述的词典生成方法。

本发明实施例提供的词典生成方法、设备及计算机可读存储介质用于获得具有领域针对性的语音词典，解决了语音词典缺少领域细分和针对性差的问题。在获得具有领域针对性的语音词典后，在进行词典使用的时候，可以选择具有领域针对性的分类词典对指定文本进行语音合成，从而可以提高语音合成结果的准确性。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种语音词典生成方法的实现流程示意图；

图2为本发明实施例一种语音词典生成方法确定语音词条的实现流程示意图；

图3为本发明实施例一种语音词典生成方法语音合成的实现流程示意图；

图4为本发明实施例一种语音词典生成方法语音修改的实现流程示意图；

图5为本发明实施例一种语音词典生成方法模型训练的实现流程示意图；

图6为本发明实施例一种语音合成设备的应用场景示意图；

图7为本发明实施例一种语音词典生成设备的模块示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种语音词典生成方法的实现流程示意图。

参见图1，本发明实施例一方面提供一种语音词典生成方法，方法包括：步骤101，获得语音词典，语音词典包含若干语音词条，语音词条对应有发音信息；步骤102，根据分类规则对若干语音词条进行分类，获得若干分类词典，每一个分类词典包含同一分类的语音词条。

本发明实施例提供的语音词典生成方法用于获得具有领域针对性的语音词典，解决了语音词典缺少领域细分和针对性差的问题。在获得具有领域针对性的语音词典后，在进行词典使用的时候，可以选择具有领域针对性的分类词典对指定文本进行语音合成，从而可以提高语音合成结果的准确性。同时，在进行语言合成时，可以只需选择具有领域针对性的分类词典，而无需使用所有语音词典，从而节约成本，减少资源浪费。其中，领域可以是行业领域、语言领域或依据其他条件进行划分的领域。

本方法包括：获得语音词典，语音词典包含若干语音词条，语音词条对应有发音信息。语音词典指代用于在对文本进行语音合成处理获得语音合成结果时进行使用的词典，包含了从单词到音素之间的映射，能够用于连接声学模型和语音模型。发音信息可以通过音素进行表示。语音词条用于实现从词条到发音之间的转换，在一种情况下，将词条作为输入，通过语音词典得到词条到音素的映射，从而确定词条对应的发音信息。可以理解的，语音词典中包含有各领域的发音词条。本方法不对语音词典的获得方式进行限定，语音词典可以通过间接或直接的方式获得。在一种情况下，可以是从外部导入无发音信息的词典后，通过预测将无发音信息的词典转换为语音词典；在另一种情况下，可以是从数据库中有偿或无偿导入以获得语音词典。数据库可以是网络数据库，也可以是设备存储端预设的数据库，如词典商店。

由于部分词条在不同领域的发音不同，即相同的词条可能对应两种或两种以上的发音信息。为使语音词典具有针对性，本方法还包括：根据分类规则对若干语音词条进行分类，获得若干分类词典，每一个分类词典包含同一分类的语音词条。根据分类规则可以使不同领域的语音词条相互隔离，互不影响，从而使分类词典能够分别对应在专一的领域上，进而使分类词典具有针对性，分类词典用于对应分类下的语音合成时，能够提高语音合成结果的准确性。分类规则可以预先设置，例如用于表征行业分类的分类规则、用于表征语言分类的分类规则或其他分类规则。本方法以用于表征行业分类的分类规则进行具体解释。用于表征行业分类的分类规则中，可以包括用于表征通用行业的第一分类词典、用于表征互联网行业的第二分类词典、用于表征银行行业的第三分类词典、用于表征机械行业的第四分类词典、用于表征医疗行业的第五分类词典等等，需要理解的是，在分类规则中，还包括用于表征其他行业的其他分类词典，如第五分类词典、第六分类词典、第七分类词典…以下不做赘述。在预设行业分类规则后，对获得的发音词典中的每一个词条进行分类，以确定该词条对应的分类词典。在一种情况下，在大多数行业都能使用到的词条被归入为第一分类词典，如：用于表征问候的词条等；在互联网行业被使用到的词条被归入为第二分类词典，如：用于表征算法的词条等；在银行行业被使用到的词条被归入为第三分类词典，如：用于表征理财的词条等；在机械行业被使用到的词条被归入到第四分类词典，如：用于表征机械设备的词条等；在医疗行业被使用到的词条被归入到第五分类词典，如用于表征医疗工具的词条等。以下不做赘述。每一个分类词典之间互相隔离，以使后期对每一个分类词典进行修改或完善时，不会影响到其他分类词典。将每一个分类词典确定为分类词典，从而获得若干分类词典，进而使每一个分类词典中包括的词条都能针对性地对应到同一个领域上。按照分类规则隔离管理词条，能够实现同词条在不同行业进行语音合成时输出不同发音的目的，达到行业化、个性化定制发音的功能。在针对某一领域分类词典进行完善和/或修改处理时，不会影响到其他领域的分类词典，进而可以降低对语音词典进行修改处理时可能会带来的错误风险。

图2为本发明实施例一种语音词典生成方法确定语音词条的实现流程示意图。

参见图2，在本发明实施例中，步骤101，获得语音词典，语音词典包含若干语音词条，语音词条对应有发音信息，包括：步骤1011，获得指定词典，指定词典包含若干指定词条；步骤1012，对指定词条进行发音预测，获得对应指定词条的发音信息；步骤1013，根据指定词条和对应指定词条的发音信息确定语音词条。

基于本方法语音词典具有多种来源，当来源获得的指定词典为无发音词典时，本方法需要对无发音词典进行发音预测，以获得词条与音素之间的映射关系。具体的，本方法包括获得指定词典，指定词典包含若干指定词条。其中，指定词典指代包括有词条但不包括发音的词典，指定词典的来源可以为网络数据库、用户共享等。对指定词条进行发音预测，获得对应指定词条的发音信息。具体的，可以运用TTS引擎的语音合成模型的发音预测算法辅助生成对应指定词条的发音信息，得到词条与音素之间的映射，从而可以根据指定词条和对应指定词条的发音信息确定语音词条。

图3为本发明实施例一种语音词典生成方法语音合成的实现流程示意图。

参见图3，在本发明实施例中，在获得若干分类词典之后，方法还包括：步骤301，获得指定文本，基于指定文本确定推荐分类词典列表；步骤302，获得控制指令，控制指令用于指示在推荐分类词典列表中确定目标词典；步骤303，基于目标词典对指定文本进行语音合成处理，得到对应指定文本的目标语音。

本方法构建多个分类词典的目的是用于获得针对指定文本进行更具有领域针对性的目标词典，以进行语音合成处理。在获得若干分类词典后，本方法还包括，获得指定文本，指定文本的来源可以是用户输入，也可以是互联网获取，同样，指定文本可以是以非文本格式输入，也可以是以文本格式输入。当指定文本以非文本格式输入时，可以是图片格式，通过图像处理技术对图片进行分析识别，以从图片中获取指定文本，从而进行后续操作。在具体操作中，可以在设备页面上显示输入框，用户通过输入框输入任意格式的内容，设备将输入框中的内容确定为指定文本，并对指定文本的格式进行判断，当判断为指定文本为非文本格式时，对指定文本进行文本化处理，获得文本内容。当获得文本内容后，设备对文本内容进行内容分析，根据内容分析结果进行分类词典的推荐，即根据内容分析结果确定推荐分类词典列表，推荐分类词典列表中包括多个与指定文本具有关联性的分类词典，当用户基于推荐分类词典列表确定分类词典时，设备获得控制指令，根据控制指令确定目标词典，即，将用户选择的分类词典确定为目标词典，此处目标词典的数量可以唯一也可以不唯一，设备利用确定的目标词典对指定文本进行语音合成处理，得到对应指定文本的目标语音。需要说明的是，推荐分类词典列表中的分类词典数量为多个，确定的目标词典数量同样可以为多个。在一种场景下，设备采集到输入框中具有输入内容，将输入内容确定为指定文本，对指定文本进行分析处理，获得内容分析结果，根据内容分析结果，确定对应指定文本的推荐分类词典列表，推荐分类词典列表中包括多个分类词典，分类词典可以以其对应的分类内容进行命名，如用于对应通用领域的通用分类词典，用于对应银行领域的银行分类词典，用于对应医药领域的医药分类词典等等。列表中的每个分类词典具有对应的触发按钮，设备通过确定触发按钮是否被触发以确定对应的控制指令，例如，当用户需要通用分类词典和银行分类词典时，触发对应通用分类词典的触发按钮和对应银行分类词典的触发按钮，以获得对应指示确定通用分类词典和银行分类词典进行语音合成的控制指令。设备根据通用分类词典和银行分类词典对指定文本进行语音合成处理，得到对应指定文本的目标语音。TTS引擎在语音合成时应用目标词典合成相应的个性化发音，实现文章级别的个性化朗读体验。

图4为本发明实施例一种语音词典生成方法语音修改的实现流程示意图。

在本发明实施例中，在得到对应所述指定文本的目标语音之后，方法还包括：步骤401，获得修改指令，修改指令包含修改信息；步骤402，基于修改信息对目标语音进行修改，获得修改语音；步骤403，将修改语音确定为目标语音。

本方法还可以通过修改指令对目标语音进行修改，以进一步提高目标语音的准确性。具体的，在得到目标语音之后，设备可以对目标语音进行播放，使用户能够确定目标语音中需要修改的内容，设备根据修改指令对目标语音进行修改，以提高目标语音的准确性。其中，修改指令包括修改信息，修改信息包括但不限于，用于表征对单字读音进行修改的第一修改信息、用于表征对句子读音进行修改的第二修改信息、用于表征对句子停顿进行修改的第三修改信息、用于表征对字符读音进行修改的第四修改信息。将修改后的修改语音确定为目标语音以用于进行下一次播放或其他对应目标语音的应用。

图5为本发明实施例一种语音词典生成方法模型训练的实现流程示意图。

参见图5，在本发明实施例中，在获得修改指令之后，方法还包括：步骤501，采集修改信息；步骤502，基于筛选规则对修改信息进行筛选，获得筛选信息；步骤503，将筛选信息加入训练集，训练集用于训练语音合成模型；语音合成模型用于进行语音合成处理。

在本方法中，通过修改信息对用于进行语音合成的语音合成模型进行训练，以提高语音合成模型合成目标语音的准确率。具体的，本方法包括采集修改信息，修改信息来自修改指令。通过筛选规则对多个修改信息进行筛选，去掉不合适的修改信息，从而获得筛选信息。其中，筛选规则可以选为用于表征修改信息频次的筛选规则，具体的，预设频次要求值，当修改信息的出现频次满足频次要求值时，将该修改信息确定为筛选信息。将筛选信息加入训练集中以用于对语音合成模型进行训练，从而获得更新后的语音合成模型，更新后的语音合成模型用于进行下一次的语音合成。需要补充的是，为增加修改信息的数量，可以对应用该方法的设备进行链接，从而使每个设备的修改信息均能够得到共享。需要说明的是，此处训练处理用于对原始模型进行更新，而原始模型为现有的语音合成模型，此处不进行赘述。

图6为本发明实施例一种语音合成设备的应用场景示意图。

参见图6，为方便上述实施例的理解，以下提供一种具体实施场景。在该场景中，本发明实施例所提供的语音词典生成方法应用于语音合成设备，语音合成设备包括前端应用模块601、TTS引擎602、数据管理模块603和行业词典商店模块604。其中，前端应用模块包括显示屏，显示屏用于显示输入框等其他信息。TTS引擎602用于进行语音合成处理。

数据管理模块603用于进行具有行业针对性的语音词典的生成和管理，是具有行业针对性的语音词典生成的管理平台。数据管理模块603包括词典生成子模块6031，用于就进行具有行业针对性的行业词典的生成，即用于生成分类词典。在进行词典生成过程中，首先，设备从互联网数据库有偿或无偿获得一定数量的词典，由此获得的词典中包括语音词典和无语音词典。在本实施场景中，设备可以通过行业词典商店模块604有偿或无偿获得语音词典和无语音词典。然后，设备判断获得的词典类型；当判断为词典类型为无语音词典时，设备通过TTS引擎的发音预测算法辅助生成无语音词典中每一个词条的发音信息，建立词条与发音信息之间的映射，使无语音词典携带语音信息，此时可以将携带由语音信息的无语音词典确定为语音词典。

数据管理模块603还包括行业分类管理子模块6032，用于对通过分类规则对语音词典进行分类，具体的，设备将所获得的语音词典中的语音词条按照分类规则进行分类，分类规则可以是行业分类规则，使针对不同行业的语音词条分类到不同的分类词典中，即使不同的分类词典对应不同的行业，在完成上述处理后，可以获得若干针对不同行业的行业词典并对其进行管理，可以理解的是，在分类规则以行业进行分类时，所获得的行业词典即本方法所指代的分类词典。

数据管理模块603还包括标签管理子模块6033，为方便行业词典的后期使用，通过标签管理子模块可以对每个行业词典以其对应的行业进行命名，从而获得对应行业词典的标签并对标签进行管理。

数据管理模块603还包括多语言管理子模块6034，用于对基于多语言分类规则所对应生成的语言词典进行管理。

数据管理模块603还包括词典发布子模块6035，用于对设备对词典在网络上进行共享。

数据管理模块603还包括数据聚合与迭代子模块6036，用于收集前端应用模块在使用过程中采集到的与分类词典和/或语言词典有关的修改信息，并对修改信息进行聚合，其中，聚合后的修改信息可以用于该修改信息对应的分类词典的迭代和更新，也可以用于TTS引擎的训练。

行业词典商店模块604用于提供各类型的词典。

当用户需要对文本进行语音合成时，首先将文本导入输入框中以确定指定文本，其中，文本导入方式可以通过键盘输入以确定指定文本，也可以直接导入文本格式的内容以确定指定文本，还可以导入非文本格式的内容，并对非文本格式的内容进行分析以确定指定文本。例如，当用户需要对报纸中的一篇财经文章进行语音合成时，可以在输入框中导入对应该文章的文本或其他形式的文件，设备根据导入的内容确定指定文本。

设备对指定文本进行分析，从而获得分析结果，根据分析结果，设备获得推荐指令，推荐指令用于指示设备确定对应指定文本的推荐分类词典列表，推荐分类词典列表中，包括多个与指定文本关联性较高的分类词典，且每个分类词典均对应有选择按钮，例如对应财经文章，推荐分类词典列表中可能包括，会计分类词典、通用分类词典、银行分类词典、通讯分类词典等。用户确定对应指定文本的通用分类词典和银行分类词典后，触发对应的选择按钮，设备获得控制指令，设备根据控制指令确定用户选择的分类词典，然后根据用户选择的分类词典对指定文本进行语音合成，从而获得对应指定文本的目标语音。

在获得目标语音后，设备生成播放按钮，当播放按钮被触发时，设备对目标语音进行播放，根据设备播放的目标语音，用户可以确定目标语音是否具有错误的地方，当目标语音具有错误时，用户可以通过修改指令对目标语音进行修改。具体的，用户可以通过确定指定文本对应位置从而确定目标语音的对应修改处，例如，当指定文本中包含“单于”，经过语音合成处理的目标发音wei“d、a、n1、y、u2”，此时，用户可以点击指定文本中的“单”，修改其拼音为“c、h、a、n2”设备根据用户的修改信息对目标语音进行修改，以获得发音为“c、h、a、n2、y、u2”的修改语音，将该修改语音确定为目标语音。用户可以根据需要，对修改后的目标语音进行播放、导出或其他操作。

图7为本发明实施例一种语音词典生成设备的模块示意图。

参见图7，本发明实施例另一方面提供一种语音词典生成设备，设备包括：获得模块701，用于获得语音词典，语音词典包含若干语音词条，语音词条对应有发音信息；分类模块702，用于根据分类规则对若干语音词条进行分类，获得若干分类词典，每一个分类词典包含同一分类的语音词条。

在本发明实施例中，获得模块701，包括：获得子模块7011，用于获得指定词典，指定词典包含若干指定词条；预测子模块7012，用于对指定词条进行发音预测，获得对应指定词条的发音信息；确定子模块7013，用于根据指定词条和对应指定词条的发音信息确定语音词条。

在本发明实施例中，获得模块701，还用于获得指定文本，基于指定文本确定推荐分类词典列表；获得模块701，还用于获得控制指令，控制指令用于指示在推荐分类词典列表中确定目标词典；设备还包括：合成模块703，用于基于目标词典对所述指定文本进行语音合成处理，得到对应指定文本的目标语音。

在本发明实施例中，获得模块701，还用于获得修改指令，修改指令包含修改信息；设备还包括：修改模块704，用于基于修改信息对目标语音进行修改，获得修改语音；确定模块705，用于将修改语音确定为目标语音。

在本发明实施例中，设备还包括：采集模块706，用于采集修改信息；筛选模块707，用于基于筛选规则对修改信息进行筛选，获得筛选信息；加入模块708，用于将筛选信息加入训练集，训练集用于训练语音合成模型；语音合成模型用于进行语音合成处理。

本发明实施例另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的语音词典生成方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音词典生成方法，其特征在于，所述方法包括：

获得语音词典，所述语音词典包含若干语音词条，所述语音词条对应有发音信息；

根据分类规则对所述若干语音词条进行分类，获得若干分类词典，每一个所述分类词典包含同一分类的语音词条；

获得若干分类词典之后，获得指定文本，基于指定文本确定推荐分类词典列表；获得控制指令，所述控制指令用于指示在推荐分类词典列表中确定目标词典；基于所述目标词典对所述指定文本进行语音合成处理，得到对应所述指定文本的目标语音；

得到对应所述指定文本的目标语音后，获得修改指令，所述修改指令包含修改信息；基于所述修改信息对目标语音进行修改，获得修改语音；将所述修改语音确定为目标语音；

获取修改指令之后，采集所述修改信息；基于筛选规则对所述修改信息进行筛选，获得筛选信息；将所述筛选信息加入训练集，所述训练集用于训练语音合成模型；所述语音合成模型用于进行语音合成处理；

所述修改信息包括：用于表征对单字读音进行修改的第一修改信息、用于表征对句子读音进行修改的第二修改信息、用于表征对句子停顿进行修改的第三修改信息、用于表征对字符读音进行修改的第四修改信息。

2.根据权利要求1所述的方法，其特征在于，所述获得语音词典，所述语音词典包含若干语音词条，所述语音词条对应有发音信息，包括：

获得指定词典，所述指定词典包含若干指定词条；

对所述指定词条进行发音预测，获得对应所述指定词条的发音信息；

根据所述指定词条和对应所述指定词条的发音信息确定所述语音词条。

3.一种语音词典生成设备，其特征在于，所述设备包括：

获得模块，用于获得语音词典，所述语音词典包含若干语音词条，所述语音词条对应有发音信息；

分类模块，用于根据分类规则对所述若干语音词条进行分类，获得若干分类词典，每一个所述分类词典包含同一分类的语音词条；

所述获得模块，还用于获得指定文本，基于指定文本确定推荐分类词典列表；还用于获得控制指令，所述控制指令用于指示在推荐分类词典列表中确定目标词典；

所述设备还包括：合成模块，用于基于所述目标词典对所述指定文本进行语音合成处理，得到对应所述指定文本的目标语音；

所述获得模块，还用于获得修改指令，所述修改指令包含修改信息；

所述设备还包括：修改模块，用于基于所述修改信息对目标语音进行修改，获得修改语音；确定模块，用于将所述修改语音确定为目标语音；

4.根据权利要求3所述的设备，其特征在于，所述获得模块，包括：

获得子模块，用于获得指定词典，所述指定词典包含若干指定词条；

预测子模块，用于对所述指定词条进行发音预测，获得对应所述指定词条的发音信息；

确定子模块，用于根据所述指定词条和对应所述指定词条的发音信息确定所述语音词条。

5.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-2任一项所述的语音词典生成方法。