CN112037756A

CN112037756A - 语音处理方法、装置和介质

Info

Publication number: CN112037756A
Application number: CN202010763575.4A
Authority: CN
Inventors: 叶一川
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-12-04

Abstract

本发明实施例提供了一种语音处理方法和装置、一种用于语音处理的装置，其中的方法具体包括：展示文本中多音字当前的读音信息；所述文本用于语音合成处理；所述当前的读音信息为依据所述多音字及其上下文得到；依据用户针对所述当前的读音信息的纠正操作，展示所述多音字对应的读音输入接口，以供用户输入修正后的读音信息；依据修正后的读音信息，对所述文本进行语音合成。本发明实施例能够提高读音纠错的效率。

Description

语音处理方法、装置和介质

技术领域

本发明涉及通信技术领域，特别是涉及一种语音处理方法和装置、一种机器可读介质。

背景技术

随着通信技术的发展，蓝牙耳机、智能音箱等音频设备的普及，音频内容消费在近年持续增长，包括无线电台、网络播客、有声读物、知识节目等。随时随地以“听”的方式获取声音陪伴成为了更多用户的选择，在驾驶、通勤、睡前等场景中能够轻松获得沉浸式的新闻、学习、娱乐、音乐等有声体验。

目前，可以将用户指定的文本，转换为音频内容，并支持音频内容的试听。在音频内容的试听过程中，若用户发现读音的错误，可以支持用户提供正确的读音，以依据正确的读音对音频内容进行修正。

发明人在实施本发明实施例的过程中发现，用户需要通过试听的方式完成读音纠错，使得语音纠错花费较多的时间成本，进而使得语音纠错的效率较低。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音处理方法、语音处理装置及用于语音处理的装置，本发明实施例可以提高读音纠错的效率。

为了解决上述问题，本发明公开了一种语音处理方法，包括：

展示文本中多音字当前的读音信息；所述文本用于语音合成处理；所述当前的读音信息为依据所述多音字及其上下文得到；

依据用户针对所述当前的读音信息的纠正操作，展示所述多音字对应的读音输入接口，以供用户输入修正后的读音信息；

依据修正后的读音信息，对所述文本进行语音合成。

另一方面，本发明实施例公开了一种语音处理装置，包括：

第一展示模块，用于展示文本中多音字当前的读音信息；所述文本用于语音合成处理；所述当前的读音信息为依据所述多音字及其上下文得到；

第二展示模块，用于依据用户针对所述当前的读音信息的纠正操作，展示所述多音字对应的读音输入接口，以供用户输入修正后的读音信息；

第一语音合成模块，用于依据修正后的读音信息，对所述文本进行语音合成。

再一方面，本发明实施例公开了一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

依据修正后的读音信息，对所述文本进行语音合成。

本发明实施例还公开了一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的方法。

本发明实施例包括以下优点：

本发明实施例依据文本中多音字及其上下文，得到多音字当前的读音信息。多音字及其上下文可以对应词、或短语、或句子、或段落等语言单元，由于在确定当前的读音信息的过程中采用了更为语言单元表征的更为丰富的语言信息，因此能够提高当前的读音信息的准确度。

并且，本发明实施例一旦确定当前的读音信息，即可展示文本中多音字当前的读音信息，而可以不受到试听等条件的限制。由于本发明实施例可以在不试听文本对应的音频内容的情况下，向用户提供当前的读音信息，以供用户进行读音纠错；因此本发明实施例可以节省试听所花费的时间成本，进而能够提高语音纠错的效率。

附图说明

图1是本发明的一种语音处理方法实施例一的步骤流程图；

图2是本发明的一种语音处理方法实施例二的步骤流程图；

图3是本发明的一种语音处理装置的结构框图；

图4是本发明的一种用于语音处理的装置1300的框图；及

图5是本发明的一种服务端的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例可以应用于基于文本的语音处理场景，如基于文本的语音合成场景等。在语音合成场景下，可以将用户指定的文本，转换为音频内容，可以应用于新闻播报、读物收听、教学、医疗、客服、法律场景等领域。

针对传统技术中语音纠错的效率较低的技术问题，本发明实施例提供了一种语音处理方案，该方案具体包括：展示文本中多音字当前的读音信息；所述文本用于语音处理；所述当前的读音信息可以为依据所述多音字及其上下文得到；以及，依据用户针对所述当前的读音信息的纠正操作，展示所述多音字对应的读音输入接口，以供用户输入修正后的读音信息。

本发明实施例中，读音信息表征多音字的读法。以汉字为例，读音信息可以包括：拼音和声调。

多音字，是指一个字有两个或两个以上的读音信息，不同的读音信息表义不同，用法不同，词性也往往不同。读音信息有区别词性和词义的作用；根据使用情况不同，读音信息也不同，读音信息有区别用法的作用。

本发明实施例提供的语音处理方法可应用于客户端与服务端对应的应用环境中，客户端与服务端位于有线或无线网络中，通过该有线或无线网络，客户端与服务端进行数据交互。

可选地，客户端可以运行在终端上，上述终端具体包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

客户端可以对应于网站、或者APP(应用程序，Application)。例如，客户端可以对应有语音处理APP等应用程序。

方法实施例一

参照图1，示出了本发明的一种语音处理方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101、展示文本中多音字当前的读音信息；上述文本用于语音合成处理；上述当前的读音信息可以为依据上述多音字及其上下文得到；

步骤102、依据用户针对上述当前的读音信息的纠正操作，展示上述多音字对应的读音输入接口，以供用户输入修正后的读音信息；

步骤103、依据修正后的读音信息，对上述文本进行语音合成。

图1所示方法实施例一可由客户端和/或服务端执行，可以理解，本发明实施例对于方法实施例的具体执行主体不加以限制。

步骤101中，文本可以表征用于语音处理的文本，也即等待进行语音处理的文本。

在实际应用中，可以通过文档上传、文本输入等方式，获取文本。在获取文本后，可以对文本进行加载和展示。例如，可以在窗口中展示文本，在文本较多以至于窗口无法显示完整文本的情况下，可以支持对窗口中的文本进行切换。

本发明实施例一旦确定当前的读音信息，即可展示文本中多音字当前的读音信息，而可以不受到试听等条件的限制。

根据一种实施例，可以在对所述文本进行语音合成之前，展示文本中多音字当前的读音信息，以供用户对当前的读音信息进行修正。当然，可以在对文本进行语音合成的过程中，展示文本中多音字当前的读音信息；或者，可以在对文本进行语音合成后，展示文本中多音字当前的读音信息。但是，本发明实施例展示文本中多音字当前的读音信息，并不以语音合成结果(也即音频内容)的试听为前提条件。

语音合成技术是通过机械的、电子的方法产生人造语音的技术。TTS(文语转换技术，Text To Speech)隶属于语音合成技术，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

本发明实施例中，可选的是，可以在文本区域展示文本，并在文本中多音字的周围区域展示当前的读音信息。例如，可以在多音字的上方区域展示当前的读音信息。例如，文本中包括“为了”，其中“为”为多音字，故可以在“为”的上方展示当前的读音信息“wei4”，“4”代表声调为四声。

本发明实施例的上下文可以包括：上文、和/或、下文。可选地，该上文通常为多音字之前的部分，该下文通常为多音字之后的部分。

多音字及其上下文可以对应词、或短语、或句子、或段落等语言单元，由于在确定当前的读音信息的过程中采用了更为语言单元表征的更为丰富的语言信息，因此能够提高当前的读音信息的准确度。

在本发明的一种可选实施例中，上述方法还可以包括：依据所述多音字及其上下文、以及包含多音字的标注语料，确定所述文本中多音字当前的读音信息。标注语料可以表征对多音字的读音信息进行标注的语料。标注语料可以对应词、或短语、或句子、或段落等语言单元。

本发明实施例中，可选的是，可以依据多音字集合，检测文本中的多音字。例如，将文本中的字与多音字集合进行匹配，以得到文本中命中多音字集合的多音字。

根据一种实施例，标注语料可以位于词典中，可以基于词典匹配的方式，确定文本中多音字当前的读音信息。

根据另一种实施例，可以将多音字及其上下文与标注语料进行匹配，并依据匹配成功的目标标注语料中多音字的读音信息，得到文本中多音字当前的读音信息。

根据再一种实施例，可以基于标注语料对数学模型进行训练，以得到数据分析器。数据分析器可表征输入数据(多音字及其上下文)和输出数据(多音字当前的读音信息)之间的映射关系。

标注语料可以表征语言环境，数据分析器可以基于学习，得到特定语言环境下多音字当前的读音信息的规律。因此，在使用数据分析器的情况下，可以不要求多音字及其上下文与标注语料在字面方面的匹配，而是可以依据多音字及其上下文与标注语料两者之间的语言环境的匹配，确定多音字当前的读音信息。

数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型，数学模型是针对参照某种事物系统的特征或数量依存关系，采用数学语言，概括地或近似地表述出的一种数学结构，这种数学结构是借助于数学符号刻画出来的关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合，通过这些方程定量地或定性地描述系统各变量之间的相互关系或因果关系。除了用方程描述的数学模型外，还有用其他数学工具，如代数、几何、拓扑、数理逻辑等描述的模型。其中，数学模型描述的是系统的行为和特征而不是系统的实际结构。其中，可采用机器学习、深度学习方法等方法进行数学模型的训练，机器学习方法可包括：线性回归、决策树、随机森林等，深度学习方法可包括：卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(LongShort-Term Memory，LSTM)、门控循环单元(Gated Recurrent Unit，GRU)等。

步骤102中，修正操作可用于触发当前的读音信息的修正。修正操作可以为语音操作或者触摸操作或鼠标操作。

例如，语音操作可以为“修正X字的读音”，则可以响应该语音操作，展示X字对应的读音输入接口。“X字”可以表征多音字。

又如，触摸操作可以为针对X字的点击操作，则可以响应该点击操作，展示X字对应的读音输入接口。

再如，触摸操作可以为针对X字的鼠标选中操作，则可以响应该鼠标选中操作，展示X字对应的读音输入接口。

本发明实施例展示上述多音字对应的读音输入接口，可以供用户输入修正后的读音信息。

根据一种实施例，上述展示所述多音字对应的读音输入接口，具体可以包括：展示所述多音字对应的读音选项，以供用户选择；例如，针对多音字“为”，提供“wei4”、“wei2”等读音选项。

根据另一种实施例，上述展示所述多音字对应的读音输入接口，具体可以包括：展示所述多音字对应的读音输入框，以供用户输入。用户可以在语音输入框中输入对应的读音信息，如“wei2”等。

步骤103中，将修正后的读音信息用于文本的语音合成，可以提高语音合成结果的准确度。

根据一种实施例，在确定修正后的读音信息的情况下，若完整文本对应的语音合成已经完成，则可以对文本进行划分，例如，划分为第一部分文本和第二部分文本。其中，第一部分文本可以表征涉及读音修正的文本，第二部分文本可以表征未涉及读音修正的文本。可以理解，本发明实施例对于第一部分文本可以为一处或多处。

该实例中，在确定所述修正后的读音信息之前，已确定所述第二部分文本对应的第二部分合成结果；

因此所述依据修正后的读音信息，对所述文本进行语音合成，具体可以包括：依据修正后的读音信息，对所述多音字对应的第一部分文本进行语音合成，以得到对应的第一部分合成结果；对所述第一部分合成结果和所述第二部分合成结果进行融合，以得到所述文本对应的语音合成结果。这样，可以实现基于修正后的读音信息、对已获得的语音合成结果进行修正的目的。

根据再一种实施例，在确定修正后的读音信息的情况下，若完整文本对应的语音合成未完成，则可以依据修正后的读音信息，对所述多音字对应的完整文本进行语音合成。

本发明实施例中，可选的是，可以对得到的语音合成结果进行保存，以供用户收听或下载。

综上，本发明实施例的语音处理方法，依据文本中多音字及其上下文，得到多音字当前的读音信息。多音字及其上下文可以对应词、或短语、或句子、或段落等语言单元，由于在确定当前的读音信息的过程中采用了更为语言单元表征的更为丰富的语言信息，因此能够提高当前的读音信息的准确度。

方法实施例二

参照图2，示出了本发明的一种语音处理方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤201、展示文本中多音字当前的读音信息；上述文本用于语音处理；上述当前的读音信息可以为依据上述多音字及其上下文得到；

步骤202、依据用户针对上述当前的读音信息的纠正操作，展示上述多音字对应的读音输入接口，以供用户输入修正后的读音信息；

步骤203、依据修正后的读音信息，对上述文本进行语音合成；

相对于图1所示方法实施例一，本实施例的方法还可以包括：

步骤204、展示文本中语言单元当前的情感参数；

步骤205、依据用户针对上述当前的情感参数的修正操作，展示上述语言单元对应的情感输入接口，以供用户输入修正后的情感参数。

本发明实施例向用户提供文本中语言单元当前的情感参数，以供用户进行情感纠错，以将用户所需的情感参数应用于语音处理，进而能够提高语音处理的准确度、以及用户对于语音处理结果的满意度。

本发明实施例的语言单元可以为词、或短语、或句子、或段落等。换言之，本发明实施例可以以文本中的词、或短语、或句子、或段落等语言单元为单位，展示当前的情感参数，以供用户修正。

情感可以表征人的内心体验和感受，用来描述具有社会意义的感情，如对真理的热爱、对美的欣赏、对怀才不遇的悲愤等。本发明实施例可以对语言单元进行语义分析，以得到当前的情感参数。或者，可以利用情感分类模型，确定语言单元所属的情感类别。具体的情感类别可由本领域技术人员根据实际应用需求确定，在此不作赘述。

本发明实施例可以识别语句或者词语的情感参数(例如某一句的情感参数为悲愤，某一句的情感参数为低沉，某一句的的情感参数为哽咽等等)，并展示在对应语句或词语的周围区域。

本发明实施例中，展示上述语言单元对应的情感输入接口，可以包括：展示上述语言单元对应的情感选项，以供用户选择，则可以依据用户选择的情感选项，确定修正后的情感参数；或者，可以展示上述语言单元对应的情感输入框，以使用户在情感输入框中输入修正后的情感参数。

在本发明的一种可选实施例中，可以将修正后的情感参数应用于语音合成中，完成相应的情感迁移；也即，依据修正后的情感参数，对所述文本进行语音合成。这样，可以在一定程度上避免语音合成结果的呆板问题，也即可以减少类似机器人的平稳且呆板的声音的出现，进而能够提高语音合成结果的自然度和情感度。

根据一种实施例，在确定修正后的情感参数的情况下，若完整文本对应的语音合成已经完成，则可以基于修正后的情感参数、对已获得的语音合成结果进行修正。

根据再一种实施例，在确定修正后的情感参数的情况下，若完整文本对应的语音合成未完成，则可以依据修正后的情感参数，对所述多音字对应的完整文本进行语音合成。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图3，示出了本发明的一种语音处理装置实施例的结构框图，具体可以包括：

第一展示模块301，用于展示文本中多音字当前的读音信息；上述文本用于语音合成处理；上述当前的读音信息为依据上述多音字及其上下文得到；

第二展示模块302，用于依据用户针对上述当前的读音信息的纠正操作，展示上述多音字对应的读音输入接口，以供用户输入修正后的读音信息；

第一语音合成模块303，用于依据修正后的读音信息，对上述文本进行语音合成。

可选地，上述装置还可以包括：

读音信息确定模块，用于依据上述多音字及其上下文、以及包含多音字的标注语料，确定上述文本中多音字当前的读音信息。

可选地，第一展示模块301，具体用于在对上述文本进行语音合成之前，展示文本中多音字当前的读音信息。

可选地，第二展示模块302，可以包括：

读音选项展示模块，用于展示上述多音字对应的读音选项，以供用户选择；或者

输入框展示模块，用于展示上述多音字对应的读音输入框，以供用户输入。

可选地，上述第一语音合成模块可以包括：

完整文本合成模块，用于依据修正后的读音信息，对上述多音字对应的完整文本进行语音合成。

可选地，上述文本可以包括：第一部分文本和第二部分文本；在确定上述修正后的读音信息之前，确定上述第二部分文本对应的第二部分合成结果；

则上述第一语音合成模块可以包括：

部分文本合成模块，用于依据修正后的读音信息，对上述多音字对应的第一部分文本进行语音合成，以得到对应的第一部分合成结果；

融合模块，用于对上述第一部分合成结果和上述第二部分合成结果进行融合，以得到上述文本对应的语音合成结果。

可选地，上述装置还可以包括：

第三展示模块，用于展示文本中语言单元当前的情感参数；

第四展示模块，用于依据用户针对上述当前的情感参数的修正操作，展示上述语言单元对应的情感输入接口，以供用户输入修正后的情感参数。

可选地，上述装置还可以包括：

第二语音合成模块，用于依据修正后的情感参数，对上述文本进行语音合成。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种用于语音处理的装置1300的框图。例如，装置1300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电源组件1306，多媒体组件1308，音频组件1310，输入/输出(I/O)的接口1312，传感器组件1314，以及通信组件1316。

处理组件1302通常控制装置1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1302可以包括一个或多个处理器1320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理组件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在设备1300的操作。这些数据的示例包括用于在装置1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1306为装置1300的各种组件提供电力。电源组件1306可以包括电源管理系统，一个或多个电源，及其他与为装置1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在所述装置1300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1308包括一个前置摄像头和/或后置摄像头。当设备1300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310包括一个麦克风(MIC)，当装置1300处于操作模式，如呼叫模式、记录模式和语音数据处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。

I/O接口1312为处理组件1302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器，用于为装置1300提供各个方面的状态评估。例如，传感器组件1314可以检测到设备1300的打开/关闭状态，组件的相对定位，例如所述组件为装置1300的显示器和小键盘，传感器组件1314还可以检测装置1300或装置1300一个组件的位置改变，用户与装置1300接触的存在或不存在，装置1300方位或加速/减速和装置1300的温度变化。传感器组件1314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1316被配置为便于装置1300和其他设备之间有线或无线方式的通信。装置1300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频数据处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1304，上述指令可由装置1300的处理器1320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种语音处理方法，所述方法包括：展示文本中多音字当前的读音信息；所述文本用于语音合成处理；所述当前的读音信息为依据所述多音字及其上下文得到；依据用户针对所述当前的读音信息的纠正操作，展示所述多音字对应的读音输入接口，以供用户输入修正后的读音信息；依据修正后的读音信息，对所述文本进行语音合成。

图5是本发明实施例中服务端的结构示意图。该服务端1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务端中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务端1900上执行存储介质1930中的一系列指令操作。

服务端1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本发明实施例公开了A1、一种语音处理方法，包括：

依据修正后的读音信息，对所述文本进行语音合成。

A2、根据A1所述的方法，所述方法还包括：

依据所述多音字及其上下文、以及包含多音字的标注语料，确定所述文本中多音字当前的读音信息。

A3、根据A1所述的方法，所述展示文本中多音字当前的读音信息，包括：

在对所述文本进行语音合成之前，展示文本中多音字当前的读音信息。

A4、根据A1所述的方法，所述展示所述多音字对应的读音输入接口，包括：

展示所述多音字对应的读音选项，以供用户选择；或者

展示所述多音字对应的读音输入框，以供用户输入。

A5、根据A1至A4中任一所述的方法，所述依据修正后的读音信息，对所述文本进行语音合成，包括：

依据修正后的读音信息，对所述多音字对应的完整文本进行语音合成。

A6、根据A1至A4中任一所述的方法，所述文本包括：第一部分文本和第二部分文本；在确定所述修正后的读音信息之前，确定所述第二部分文本对应的第二部分合成结果；

则所述依据修正后的读音信息，对所述文本进行语音合成，包括：

依据修正后的读音信息，对所述多音字对应的第一部分文本进行语音合成，以得到对应的第一部分合成结果；

对所述第一部分合成结果和所述第二部分合成结果进行融合，以得到所述文本对应的语音合成结果。

A7、根据A1至A4中任一所述的方法，所述方法还包括：

展示文本中语言单元当前的情感参数；

依据用户针对所述当前的情感参数的修正操作，展示所述语言单元对应的情感输入接口，以供用户输入修正后的情感参数。

A8、根据A7所述的方法，所述方法还包括：

依据修正后的情感参数，对所述文本进行语音合成。

本发明实施例公开了B9、一种语音处理装置，包括：

B10、根据B9所述的装置，所述装置还包括：

读音信息确定模块，用于依据所述多音字及其上下文、以及包含多音字的标注语料，确定所述文本中多音字当前的读音信息。

B11、根据B9所述的装置，所述第一展示模块，具体用于在对所述文本进行语音合成之前，展示文本中多音字当前的读音信息。

B12、根据B9所述的装置，所述第二展示模块包括：

读音选项展示模块，用于展示所述多音字对应的读音选项，以供用户选择；或者

输入框展示模块，用于展示所述多音字对应的读音输入框，以供用户输入。

B13、根据B9至B12中任一所述的装置，所述第一语音合成模块包括：

完整文本合成模块，用于依据修正后的读音信息，对所述多音字对应的完整文本进行语音合成。

B14、根据B9至B12中任一所述的装置，所述文本包括：第一部分文本和第二部分文本；在确定所述修正后的读音信息之前，确定所述第二部分文本对应的第二部分合成结果；

则所述第一语音合成模块包括：

部分文本合成模块，用于依据修正后的读音信息，对所述多音字对应的第一部分文本进行语音合成，以得到对应的第一部分合成结果；

融合模块，用于对所述第一部分合成结果和所述第二部分合成结果进行融合，以得到所述文本对应的语音合成结果。

B15、根据B9至B12中任一所述的装置，所述装置还包括：

第三展示模块，用于展示文本中语言单元当前的情感参数；

第四展示模块，用于依据用户针对所述当前的情感参数的修正操作，展示所述语言单元对应的情感输入接口，以供用户输入修正后的情感参数。

B16、根据B15所述的装置，所述装置还包括：

第二语音合成模块，用于依据修正后的情感参数，对所述文本进行语音合成。

本发明实施例公开了C17、一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

依据修正后的读音信息，对所述文本进行语音合成。

C18、根据C17所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C19、根据C17所述的装置，所述展示文本中多音字当前的读音信息，包括：

C20、根据C17所述的装置，所述展示所述多音字对应的读音输入接口，包括：

展示所述多音字对应的读音选项，以供用户选择；或者

展示所述多音字对应的读音输入框，以供用户输入。

C21、根据C17至C20中任一所述的装置，所述依据修正后的读音信息，对所述文本进行语音合成，包括：

C22、根据C17至C20中任一所述的装置，所述文本包括：第一部分文本和第二部分文本；在确定所述修正后的读音信息之前，确定所述第二部分文本对应的第二部分合成结果；

C23、根据C17至C20中任一所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

展示文本中语言单元当前的情感参数；

C24、根据C23所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

依据修正后的情感参数，对所述文本进行语音合成。

本发明实施例公开了D25、一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A8中一个或多个所述的方法。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种用于语音处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

依据修正后的读音信息，对所述文本进行语音合成。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述展示文本中多音字当前的读音信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述展示所述多音字对应的读音输入接口，包括：

展示所述多音字对应的读音选项，以供用户选择；或者

展示所述多音字对应的读音输入框，以供用户输入。

5.根据权利要求1至4中任一所述的方法，其特征在于，所述依据修正后的读音信息，对所述文本进行语音合成，包括：

6.根据权利要求1至4中任一所述的方法，其特征在于，所述文本包括：第一部分文本和第二部分文本；在确定所述修正后的读音信息之前，确定所述第二部分文本对应的第二部分合成结果；

7.根据权利要求1至4中任一所述的方法，其特征在于，所述方法还包括：

展示文本中语言单元当前的情感参数；

8.一种语音处理装置，其特征在于，包括：

9.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

依据修正后的读音信息，对所述文本进行语音合成。

10.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的方法。