CN110827826A

CN110827826A - 语音转换文字方法、电子设备

Info

Publication number: CN110827826A
Application number: CN201911158169.9A
Authority: CN
Inventors: 梁素敏
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-02-21
Anticipated expiration: 2039-11-22
Also published as: CN110827826B

Abstract

本发明实施例提供了一种语音转换文字方法、电子设备，涉及语音识别领域。所述方法包括：获取语音数据；将所述语音数据转换为预设语音文本库中，与所述语音数据匹配的目标文本；所述预设语音文本库存储有语音样本数据，以及与所述语音样本数据对应的至少一种特征文本；所述语音样本数据与至少一种特征语音数据匹配。本申请能够从较大程度上避免发音不标准，对用户要求高的问题，提升了转换准确率，减少了无法转换的问题。同时，上述预设语音文本库中，存储有语音样本数据对应的至少一种特征文本，进而为语音数据匹配的目标文本中至少包括一种特征文本，转换后的文本携带有足够多的个性化乐趣。

Description

语音转换文字方法、电子设备

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音转换文字方法、电子设备。

背景技术

语音由于具有使用简单、输入速度快等特点，因此，电子设备通过接收语音输入，以简化用户输入。

目前，电子设备接收到语音输入后，通常将输入的语音转换为通用文本。例如，将输入的语音转换为普通话文本。

发明人在研究上述现有技术的过程中，发现现有技术存在如下技术问题：一方面，输入的语音需要比较标准，否则容易出错或无法转换，对用户要求高；另一方面，针对一些特征语音无法转换或转换后失去了携带的个性化乐趣，个性化乐趣少。

发明内容

本发明提供一种语音转换文字方法、电子设备，以解决语音转换文字过程中，对输入语音的用户要求高、个性化乐趣少的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音转换文字方法，应用于电子设备，所述方法包括：

获取语音数据；

将所述语音数据转换为预设语音文本库中，与所述语音数据匹配的目标文本；所述预设语音文本库存储有语音样本数据，以及与所述语音样本数据对应的至少一种特征文本；所述语音样本数据与至少一种特征语音数据匹配。

第二方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

第一获取模块，用于获取语音数据；

转文字模块，用于将所述语音数据转换为预设语音文本库中，与所述语音数据匹配的目标文本；所述预设语音文本库存储有语音样本数据，以及与所述语音样本数据对应的至少一种特征文本；所述语音样本数据与至少一种特征语音数据匹配。

第三方面，本发明实施例还提供了一种移动终端，该移动终端包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现本发明所述的语音转换文字方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现本发明所述的语音转换文字方法的步骤。

在本发明实施例中，获取语音数据；将所述语音数据转换为预设语音文本库中，与所述语音数据匹配的目标文本；所述预设语音文本库存储有语音样本数据，以及与所述语音样本数据对应的至少一种特征文本；所述语音样本数据与至少一种特征语音数据匹配。相对于现有技术中，输入的语音需要比较标准，否则容易出错或无法转换，对用户要求高；另一方面，针对语音转换文字后，个性化乐趣少而言。本申请中，预设语音文本库中存储的语音样本数据与至少一种特征语音匹配，进而针对一些特征语音，该预设语音文本库也能够准确匹配到对应的文本，能够从较大程度上避免发音不标准，对用户要求高的问题，提升了转换准确率，减少了无法转换的问题。同时，上述预设语音文本库中，存储有语音样本数据对应的至少一种特征文本，进而为语音数据匹配的目标文本中至少包括一种特征文本，进而使得转换后的文本最大程度体现特征元素，转换后的文本携带有足够多的个性化乐趣。

附图说明

图1表示本发明实施例提供的一种语音转换文字方法的流程图；

图2表示本发明实施例提供的另一种语音转换文字方法的流程图；

图3表示本发明实施例提供的一种子库选择的示意图；

图4表示本发明实施例提供的还一种语音转换文字方法的流程图；

图5表示本发明实施例提供的一种电子设备的结构框图；

图6表示本发明实施例提供的又一种电子设备的结构框图；

图7表示实现本发明各个实施例的一种移动终端的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

参照图1，图1表示本发明实施例提供的一种语音转换文字方法的流程图，该语音转换文字方法应用于电子设备，该电子设备可以包括：计算机、手机、笔记本、平板电脑等。在本发明实施例中，对此不作具体限定。

该语音转换文字方法具体可以包括如下步骤：

步骤101，获取语音数据。

在本发明实施例中，该语音数据可以为用户实时输入的语音数据。或者，该语音数据可以为提前录制好的语音数据等。

在本发明实施例中，上述电子设备可以具有麦克风等语音数据输入部件等，通过上述语音数据输入部件，获取语音数据。在本发明实施例中，对此不作具体限定。

在本发明实施例中，电子设备可以通过一定的应用等或界面等，接收或获取上述语音数据。在本发明实施例中，对此不作具体限定。

例如，电子设备可以安装有聊天应用等，可以通过上述聊天应用等，获取语音数据。或者，该电子设备可以安装有搜索应用等，通过上述搜索应用等获取语音数据等。在本发明实施例中，对此不作具体限定。

步骤102，将所述语音数据转换为预设语音文本库中，与所述语音数据匹配的目标文本；所述预设语音文本库存储有语音样本数据，以及与所述语音样本数据对应的至少一种特征文本；所述语音样本数据与至少一种特征语音数据匹配。

在本发明实施例中，特征语音数据可以为除通用语音数据之外的至少一种其它语音数据。该通用语音数据可以为较大地域范围内通用的语音数据。该预设语音文本库中通用语音数据可以为一种或多种。该预设语音文本库中上述特征语音数据同样可以为一种或多种。

例如，该通用语音数据可以为：普通话语音数据、英语语音数据、法语语音数据等。则，特征语音数据可以为除上述通用语音数据之外的语音数据。例如，该特征语音数据可以为：重庆话语音数据、粤语语音数据、或其他地方方言语音数据等。

在本发明实施例中，预设语音文本库可以设置在电子设备侧，或者该预设语音文本库可以设置在网络平台上等。可以提前采集语音样本数据，以及与该语音样本数据意思匹配的文本，该文本可以包括至少一种特征文本。该语音样本数据匹配的文本还可以是由用户自定义的任何文本内容等。将该语音样本数据，以及与该语音样本数据意思匹配的文本对应存储，以构建该预设语音文本库。或者，将该语音样本数据，以及用户自定义的该语音样本数据对应的文本内容对应存储，以构建该预设语音文本库等。

在本发明实施例中，预设语音文本库中可以存储有语音样本数据。该语音样本数据可以与至少一种特征语音数据匹配。具体的，该预设语音文本库中可以存储有至少一种特征语音数据样本数据等。进而，该预设语音文本库不仅可以准确识别上述通用语音数据，还可以准确识别上述特征语音数据，进而针对一些特征语音，该预设语音文本库也能够准确匹配到对应的文本，能从较大程度上够避免发音不标准，对用户要求高的问题，提升了转换准确率，减少了无法转换的问题。

例如，针对上述例子，该预设语音文本库中可以存储有普通话语音样本数据、英语样本语音数据、法语样本语音数据等。该预设语音文本库中还可以存储有重庆话语音样本数据、粤语样本语音数据、或其他地方方言样本语音数据等。进而该预设语音文本库不仅可以准确识别普通话语音数据、英语语音数据、法语语音数据等通用语音数据，更能准确识别重庆话语音数据、粤语音数据、或其他地方方言语音数据等。

在本发明实施例中，该预设语音文本库中还存储了与上述语音样本数据对应的至少一种特征文本。该特征文本同样可以为除通用文本之外的至少一种其它文本。该通用文本同样可以为较大地域范围内通用的文本。该预设语音文本库中通用文本可以为一种或多种。该预设语音文本库中上述特征文本同样可以为一种或多种。

例如，该通用文本可以为：普通话文本、英语文本、法语文本等。则，特征文本可以为除上述通用文本之外的文本。例如，该特征文本可以为：重庆话文本、粤语文本、或其他地方方言文本等。

在本发明实施例中，可选的，在上述步骤102之后，还可以包括：显示上述目标文本。将上述语音数据转换后的目标文本进行显示，以方便用户核对所说的语音数据是否准确。

在本发明实施例中，预设语音文本库中，存储了语音样本数据对应的至少一种特征文本，存储的语音样本数据包括特征语音数据。上述语音样本数据可以只与一种文本匹配，或者，上述语音样本数据可以与多种文本匹配。此处的语音文本数据与文本匹配可以理解为该文本与上述语音文本转换为文字表述的意思一致。在本发明实施例中，对此不作具体限定。

例如，针对上述例子，该预设语音文本库中，普通话语音数据、英语语音数据、法语语音数据、重庆话语音数据、粤语语音数据、或其他地方方言语音数据等可以均与普通话文本匹配。即普通话、英语、法语、重庆话、粤语等其它地方方言的语音数据均被翻译或转换为普通话文本。或者，该预设语音文本库中，普通话语音数据、英语语音数据、法语语音数据、重庆话语音数据、粤语语音数据、或其他地方方言语音数据等可以均与粤语文本匹配。即普通话、英语、法语、重庆话、粤语等其它地方方言的语音数据均被翻译或转换为粤语文本。或者，该预设语音文本库中，可以将普通话语音数据转换为普通话文本，将英语语音数据转换为英语文本，将法语语音数据转换为法语文本，将重庆话语音数据转换为重庆方言文本，将粤语语音数据转换为粤语方言文本，或其他地方方言语音数据等转换为该方言文本。

在本发明实施例中，预设语音文本库中存储的语音样本数据包括特征语音数据，存储了与上述语音样本数据对应的至少一种特征文本。进而上述语音样本数据可以与至少一种特征文本匹配。将上述语音数据转换为预设语音文本库中，与上述语音数据匹配的目标文本的过程中，可以将上述语音数据转换为特征文本等，进而使得转换后的文本最大程度体现特征元素，转换后的文本携带有足够多的个性化乐趣。

例如，针对上述例子，将普通话、英语、法语、重庆话、粤语等其它地方方言的语音数据均被翻译或转换为粤语文本，粤语文本从很大程度上体现了特征元素，具有更多的个性化乐趣。

在本发明实施例中，可选的，该电子设备可以具有多个合法用户。该多个合法用户可以分别设置其对应的预设语音文本库。每个合法用户对应的预设语音文本库可以存储有该合法用户录制的语音样本数据等。在获取语音数据后，电子设备可以获取该语音数据中的声纹特征信息，从多个用户对应的多个预设语音文本库中，将该声纹特征信息与每个预设语音文本库存储的合法用户录制的语音样本数据进行比对，将与该声纹特征信息匹配的语音样本数据，确定为目标语音样本数据。将该目标语音样本数据对应的预设语音文本库，确定为该语音数据对应的预设语音文本库。进而便捷实现语音数据的输出用户，与其录制的预设语音文本库的对应，可以大幅度降低语音数据无法转文本的问题。同时，用该合法用户预置的预设语音文本库，对其本人输入的语音数据进行比对，可以提升该合法用户语音转换文字的个性化乐趣。

例如，电子设备1具有3个合法用户。3个合法用户分别为：用户a1、用户a2、用户a3。其中，用户a1习惯讲粤语，用户a2习惯讲法语，用户a3习惯讲普通话。则，用户a1预置的预设语音文本库中可以存储有用户a1录制的粤语语音样本数据，以及与粤语语音样本数据对应的多种文本等。用户a2预置的预设语音文本库可以存储有用户a2录制的法语语音样本数据，用户a2预置的预设语音文本库可以将其讲的法语准确转换为多种文本等。用户a3预置的预设语音文本库可以存储有用户a3录制的普通话语音样本数据，用户a3预置的预设语音文本库可以将其讲的普通话准确转换为多种文本等。在获取到语音数据后，先获取该语音数据中的声纹特征信息，将该声纹特征信息与用户a1录制的粤语语音样本数据、用户a2录制的法语语音样本数据、用户a3录制的普通话语音样本数据进行比对，确定该语音数据对应用户的预置的预设语音文本库。

在本发明实施例中，可选的，还可以通过语音数据匹配对应的预设语音文本库，与用户声纹特征信息无关。例如，多个用户均输入了粤语语音数据，可以将同一个预设语音文本库均匹配给上述多个粤语语音数据。在本发明实施例中，对此不作具体限定。

在本发明实施例中，在本发明实施例中，获取语音数据；将所述语音数据转换为预设语音文本库中，与所述语音数据匹配的目标文本；所述预设语音文本库存储有语音样本数据，以及与所述语音样本数据对应的至少一种特征文本；所述语音样本数据与至少一种特征语音数据匹配。相对于现有技术中，输入的语音需要比较标准，否则容易出错或无法转换，对用户要求高；另一方面，针对语音转换文字后，个性化乐趣少而言。本申请中，预设语音文本库中存储的语音样本数据与至少一种特征语音匹配，进而针对一些特征语音，该预设语音文本库也能够准确匹配到对应的文本，能够从较大程度上避免发音不标准，对用户要求高的问题，提升了转换准确率，减少了无法转换的问题。同时，上述预设语音文本库中，存储有语音样本数据对应的至少一种特征文本，进而为语音数据匹配的目标文本中至少包括一种特征文本，进而使得转换后的文本最大程度体现特征元素，转换后的文本携带有足够多的个性化乐趣。

参照图2，图2表示本发明实施例提供的另一种语音转换文字方法的流程图，该语音转换文字方法应用于电子设备，关于该电子设备参照前述记载，为了避免重复此处不再赘述。该方法可以包括如下步骤：

步骤201，获取语音数据。

在本发明实施例中，上述步骤201可以参照前述步骤101的相关记载，为了避免重复，此处不再赘述。

步骤202，所述预设语音文本库设置在共享平台上；向所述共享平台发送共享请求；所述预设语音文本库存储有语音样本数据，以及与所述语音样本数据对应的至少一种特征文本；所述语音样本数据与至少一种特征语音数据匹配。

在本发明实施例中，该预设语音文本库设置在共享平台上，该共享平台可以与电子设备进行通讯。一方面不会占用电子设备侧的内存。另一方面通过该共享平台，实现了多个电子设备共用该预设语音文本库，无需各个电子设备单独构建该预设语音文本库，提升了资源利用率，减少了各个电子设备的构建负担。

电子设备在接收到语音数据后，向该共享平台发送共享请求，该共享请求用于请求该共享平台向其发送上述预设语音文本库。

可选的，该预设语音文本库可以具有多个语音文本子库。可以根据电子设备用户的喜好等，提前选择将多个语音文本子库中，与该电子设备用户喜好、习惯、籍贯等匹配的至少一个语音文本子库确定为该电子设备用户所需的语音文本子库。该共享平台在接收到共享请求后，向该电子设备发送其所需的语音文本子库。可以避免将不必要的语音文本子库发送给电子设备，还可以体现多样性，提升转换准确性和效率。

例如，电子设备用户若籍贯为广东，平时喜欢讲粤语、使用粤语文本等。则，该电子设备用户对应的语音文本子库中，可以存储有粤语语音样本数据，以及与粤语语音样本数据意思匹配的粤语文本、普通话文本等。这样用户讲粤语时，电子设备可以将粤语准确转换为粤语文本或普通话文本等。

在本发明实施例中，可选的，电子设备还可以将上述语音数据发送至该共享平台，由该共享平台在其存储的预设语音文本库中查找到与该语音数据对应的目标文本。该共享平台将该目标文本返回至该电子设备。进而无需电子设备在预设语音文本库中查找到与该语音数据对应的目标文本，减少了内存占用。

步骤203，接收所述共享平台发送的所述预设语音文本库。

在本发明实施例中，共享平台可以将预设语音文本库发送至该电子设备。

步骤204，所述预设语音文本库包括普通话文本子库和第二预设数量的特征语音文本子库；显示特征语音文本子库选择界面。

在本发明实施例中，该预设语音文本库可以包括普通话文本子库和第二预设数量的特征语音文本子库。该电子设备可以显示特征语音文本子库选择界面。进而根据电子设备的需求实时选择最适合的特征语音文本子库，以进一步提升转换准确性和转换效率，同时提升转换乐趣。

该普通话文本子库可以存储有普通话语音样本数据，以及与该普通话语音样本数据对应的普通话文本。该特征语音文本子库中，可以存储有除上述普通话语音样本数据之外的特征语音样本数据，以及与上述特征语音样本数据对应的特征文本。该特征语音文本子库可以将识别除普通话语音数据之外的其它语音数据，并将上述语音数据转换为普通话文本之外的其它文本。

该第二预设数量可以根据实际需要进行设定。在本发明实施例中，对此不作具体限定。

在本发明实施例中，可选的，上述普通话文本子库和第二预设数量的特征语音文本子库的可以具有设定的优先级等。在接收到上述语音数据之后，按照上述优先级从高到低的顺序，优先从优先级高的库中匹配，对于匹配不到的语音数据或语音数据子片段等，再从优先级次高的库中匹配。以此类推，直至该语音数据全部转化完毕为止等。在本发明实施例中，对此不作具体限定。

步骤205，在所述选择界面中，接收子库选择操作。

该子库选择操作可以为滑动操作、触摸操作、按压操作等。在本发明实施例中，对此不作具体限定。

参照图3所示，图3表示本发明实施例提供的一种子库选择的示意图。在图3中，第二预设数量可以为5。5个特征语音文本子库分别为：重庆话语音文本子库、上海话语音文本子库、粤语语音文本子库、客家方言语音文本子库、藏语语音文本子库。该子库选择操作对应的特征语音文本子库可以为粤语语音文本子库。如，该粤语语音文本子库可以准确识别粤语语音数据，同时可以将多种语音数据统一转换为粤语文本等。

步骤206，将所述语音数据转换为所述普通话文本子库和所述子库选择操作对应的特征语音文本子库中，与所述语音数据匹配的目标文本。

在本发明实施例中，同时基于普通话文本子库和子库选择操作对应的特征语音文本子库转换语音数据，将语音数据转换为普通话文本子库和子库选择操作对应的特征语音文本子库中匹配的目标文本。具体的，将语音数据根据普通话文本子库中的普通话语音样本数据，和子库选择操作对应的特征语音文本子库中的特征语音样本数据，拆分为与普通话文本子库中的普通话语音样本数据匹配的第一子语音数据，和与子库选择操作对应的特征语音文本子库中的特征语音样本数据匹配的第二子语音数据。然后，将第一子语音数据转换为普通话文本子库中，与上述第一子语音数据匹配的第一子目标文本。将第二子语音数据转换为子库选择操作对应的特征语音文本子库中，与上述第二子语音数据匹配的第二子目标文本。将上述第一子目标文本和第二子目标文本，按照第一子语音数据和第二子语音数据的先后顺序组合，得到目标文本。

具体的，通常一些网络用语、流行语或某些固定术语等对应的发音通常为普通话语音数据。在某一语音数据既包括方言语音数据或特征语音数据，又包括上述普通话语音数据的情况下，同时在普通话文本子库和子库选择操作对应的特征语音文本子库中，将与语音数据匹配的文本确定为语音数据对应的目标文本。针对该语音数据，不论是普通话语音数据部分还是特征语音数据部分均能够被准确转换，满足了用户的多样性需求。

例如，若语音数据为“minggeshangmeishuke”，上述语音数据可以分为两个部分，第二子语音数据可以为方言语音数据“mingge”，第一子语音数据可以为普通话语音数据“shangmeishuke”。则，可以在子库选择操作对应的特征语音文本子库中，查找“mingge”对应的方言文本“明个”，可以在普通话语音样本数据中匹配“shangmeishuke”对应的普通话文本“上美术课”。将两部分的子语音数据对应的两部子目标文本合成，得到上述语音数据的目标文本可以为：“明个上美术课”。

步骤207，获取语音样本数据，以及与所述语音样本数据对应的至少一种特征文本。

在本发明实施例中，电子设备可以获取语音样本数据。该语音样本数据可以为电子设备的用户输入的，或者该电子设备下载的或接收的。在本发明实施例中，对此不作具体限定。

该电子设备还可以接收与上述语音样本数据对应的至少一种特征文本。与语音样本数据对应的特征文本可以为一种或多种。该语音样本数据对应的文本还可以包括：通用文本等。上述特征文本或通用文本等可以由用户根据语音样本数据表达的语义编辑得到等。在本发明实施例中，对此不作具体限定。

例如，该语音样本数据的拼音若为“mingge”，与该语音样本数据对应的文本可以为特征文本“明个”，与该语音样本数据对应的通用文本可以为“明天”。“明个”、“明天”可以由电子设备用户根据语音样本数据“mingge”表达的语义编辑得到。

步骤208，将所述语音样本数据以及所述语音样本数据对应的特征文本发送至所述共享平台；所述共享平台用于基于所述语音样本数据以及所述语音样本数据对应的特征文本，创建所述预设语音文本库，或，更新所述预设语音文本库。

在本发明实施例中，电子设备将获取到的语音样本数据以及该语音样本数据对应的特征文本发送至共享平台，由该共享平台存储，进而构建或更新上述预设语音文本库，进而该预设语音文本库的创建和更新，具有广泛的样本来源，提升了预设语音文本库的多样性等。

需要说明的是上述步骤207和步骤208可以在上述步骤201至步骤206之前执行。或者，上述步骤207和步骤208可以在上述步骤201至步骤206之后执行。或者，上述步骤207和步骤208可以在上述步骤201至步骤206中任一步骤之间执行。在本发明实施例中，对此不作具体限定。

在本发明实施例中，获取语音数据；将所述语音数据转换为预设语音文本库中，与所述语音数据匹配的目标文本；所述预设语音文本库存储有语音样本数据，以及与所述语音样本数据对应的至少一种特征文本；所述语音样本数据与至少一种特征语音数据匹配。相对于现有技术中，输入的语音需要比较标准，否则容易出错或无法转换，对用户要求高；另一方面，针对语音转换文字后，个性化乐趣少而言。本申请中，预设语音文本库中存储的语音样本数据与至少一种特征语音匹配，进而针对一些特征语音，该预设语音文本库也能够准确匹配到对应的文本，能够从较大程度上避免发音不标准，对用户要求高的问题，提升了转换准确率，减少了无法转换的问题。同时，上述预设语音文本库中，存储有语音样本数据对应的至少一种特征文本，进而为语音数据匹配的目标文本中至少包括一种特征文本，进而使得转换后的文本最大程度体现特征元素，转换后的文本携带有足够多的特征乐趣。

参照图4，图4表示本发明实施例提供的还一种语音转换文字方法的流程图，该方法应用于电子设备，关于该电子设备，可以参照前述对电子设备的相关记载，为了避免重复，此处不再赘述。该方法可以包括如下步骤：

步骤301，在预设应用的联系人聊天窗口中，获取语音数据。

在本发明实施例中，该预设应用可以为能够向联系人发送文本信息的应用。如，该电子设备可以安装有多个聊天应用或文字沟通应用等。上述聊天应用或文字沟通应用可以为预设应用。例如，短信应用、微信应用、QQ应用等均可以预设应用。

上述预设应用可以具有至少一个联系人聊天窗口。该联系人聊天窗口可以获取语音数据，通过该联系人聊天窗口接收上述语音数据。

步骤302，获取所述联系人对应的方言信息。

在本发明实施例中，联系人对应的方言信息可以包括：联系人的籍贯信息、联系人的地域信息等。该联系人的方言信息可以基于该预设应用中该联系人的注册信息、账号信息等获取等。或者，联系人的方言信息还可以基于联系人对应的IP地址等获取。或者，联系人的方言信息还可以基于联系人对应的电话号码归属地等获取。在本发明实施例中对此不作具体限定。

步骤303，所述预设语音文本库包括第一预设数量的方言语音文本子库；每个所述方言语音文本子库中存储有多种语音样本数据，所述多种语音样本数据均对应同一种方言文本；各个所述方言语音文本子库对应的各个方言文本的种类均不相同；在各个种类的所述方言文本中，确定与所述方言信息匹配的目标方言种类。

在本发明实施例中，该预设语音文本库可以包括有第一预设数量的方言语音文本子库，该第一预设数量不作具体限定。每个方言语音文本子库中存储有多种语音样本数据。在每个方言语音文本子库中，上述多种语音文本数据均对应同一种方言文本。各个方言语音文本子库对应的各个方言文本的种类均不相同。每个方言语音文本子库中存储的语音样本数据的种类可以相同。也就是说，每个方言语音文本子库可以准确识别多种类别的语音样本数据，同时可以将多种类别的语音数据均转换为一种方言文本。

例如，预设语音文本库包括5个方言语音文本子库。分别为：重庆方言语音文本子库、上海方言语音文本子库、粤语方言语音文本子库、客家方言语音文本子库、藏语方言语音文本子库。每个方言语音文本子库中存储的语音样本数据的种类均相同。均为：普通话语音样本数据、重庆话语音样本数据、上海话语音样本数据、粤语语音样本数据、客家方言语音样本数据、藏语语音样本数据、英语语音样本数据、法语语音样本数据、日语语音样本数据、德语语音样本数据等。上述该粤语方言语音文本子库可以准确识别普通话语音数据、重庆话语音数据、上海话语音数据、粤语语音数据、客家方言语音数据、藏语语音数据、英语语音数据、法语语音数据、日语语音数据、德语语音数据等，同时可以将上述多种语音数据统一转换为粤语文本等。上述重庆方言语音文本子库同样可以准确识别普通话语音数据、重庆话语音数据、上海话语音数据、粤语语音数据、客家方言语音数据、藏语语音数据、英语语音数据、法语语音数据、日语语音数据、德语语音数据等，并将上述多种语音数据统一转换为重庆话文本。

在本发明实施例中，各个方言语音文本子库对应的各个方言文本的种类均不相同。在各个种类的方言文本中，确定与联系人的方言信息匹配的目标方言种类。具体的，根据联系人的方言信息，确定联系人习惯或喜好的方言种类。在多种方言文本中，将该联系人习惯或喜好的方言种类，确定为目标方言种类。

例如，微信应用中联系人A的籍贯为重庆。若联系人A的方言信息即为籍贯重庆，则，在上述5个方言语音文本子库对应的5种方言文本：重庆话文本、上海话文本、粤语文本、客家话文本、藏语文本中，与该方言信息匹配的目标方言种类可以为：重庆话文本。

步骤304，将所述语音数据转换为所述目标方言种类对应的方言语音文本子库中，与所述语音数据匹配的目标方言文本，并将所述目标方言文本发送至所述联系人。

在本发明实施例中，将上述语音数据转换为上述目标方言种类对应的方言语音文本子库中，与上述语音数据匹配的目标方言文本，并将该目标方言文本发送至该联系人。则，呈现给联系人的目标方言文本即为与该联系人的方言信息匹配的方言种类文本。进而便于不了解或不熟悉其联系人的方言的用户用其联系人熟悉或习惯的方言，与该联系人沟通。通过联系人熟悉或习惯的方言文本与该联系人沟通，快速拉近与联系人的距离。

例如，针对上述例子，微信应用中联系人A的籍贯为重庆。若联系人A的方言信息即为籍贯重庆。则，联系人A可能熟悉、喜欢或习惯重庆方言。则，从上述5个方言语音文本子库中，选择重庆方言语音文本子库。若电子设备的主人只会讲粤语，电子设备的主人在联系人A的聊天窗口中输入了粤语语音数据，则电子设备在联系人A的聊天窗口接收的语音数据为粤语语音数据。由于重庆方言语音文本子库可以准确识别普通话语音数据、重庆话语音数据、上海话语音数据、粤语语音数据、客家方言语音数据、藏语语音数据、英语语音数据、法语语音数据、日语语音数据、德语语音数据等，并将上述多种语音数据统一转换为重庆话文本。进而重庆方言语音文本子库可以准确识别输入的粤语语音数据，将其转换为重庆话文本，并发送给联系人A。则，展现给联系人A的就可能是联系人A熟悉、喜欢或习惯的重庆方言文本，进而快速拉近了电子设备主人与联系人A的距离。

在本发明实施例中，预设语音文本库包括第一预设数量的方言语音文本子库，每个方言语音文本子库中存储有多种语音样本数据，进而每个方言语音文本子库均可以准确识别上述多种语音数据。每个方言语音文本子库中：多种语音样本数据均对应同一种方言文本。各个方言语音文本子库对应的各个方言文本的种类均不相同。根据联系人的方言信息，从多种方言文本中，确定与该联系人的方言信息匹配的目标方言种类，在预设语音文本库包括的多个方言语音文本子库中，选择与该目标方言种类对应的方言语音文本子库，并将上述语音数据转换为与该目标方言种类对应的方言语音文本子库中，与上述语音数据匹配的目标方言文本，并将该目标方言文本发送至该联系人。则，呈现给联系人的目标方言文本即为与该联系人的方言信息匹配的方言种类文本。进而便于不了解或不熟悉其联系人的方言的用户用其联系人熟悉或习惯的方言，与该联系人沟通。且，通过联系人熟悉或习惯的方言文本与该联系人沟通，快速拉近与联系人的距离。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定都是本申请实施例所必须的。

在本发明实施例中，还提供一种电子设备，参照图5，图5表示本发明实施例提供的一种电子设备的结构框图，所述电子设备500可以包括：

第一获取模块501，用于获取语音数据；

转文字模块502，用于将所述语音数据转换为预设语音文本库中，与所述语音数据匹配的目标文本；所述预设语音文本库存储有语音样本数据，以及与所述语音样本数据对应的至少一种特征文本；所述语音样本数据与至少一种特征语音数据匹配。

可选的，所述预设语音文本库设置在共享平台上；在上述图5的基础上，参照图6所示，所述电子设备，还可以包括：

共享请求发送模块503，用于向所述共享平台发送共享请求；

第一接收模块504，用于接收所述共享平台发送的所述预设语音文本库。

可选的，所述的电子设备还可以包括：

第二获取模块505，用于获取语音样本数据，以及与所述语音样本数据对应的至少一种特征文本；

样本数据发送模块506，用于将所述语音样本数据以及所述语音样本数据对应的特征文本发送至所述共享平台；所述共享平台用于基于所述语音样本数据以及所述语音样本数据对应的特征文本，创建所述预设语音文本库，或，更新所述预设语音文本库。

可选的，所述预设语音文本库包括第一预设数量的方言语音文本子库；每个所述方言语音文本子库中：存储有多种语音样本数据，所述多种语音样本数据均对应同一种方言文本；各个所述方言语音文本子库对应的各个方言文本的种类均不相同；所述第一获取模块501，可以包括：

第一获取单元，用于在预设应用的联系人聊天窗口中，获取语音数据；

所述电子设备，还可以包括：

第三获取模块，用于获取所述联系人对应的方言信息；

目标方言种类确定模块，用于在各个种类的所述方言文本中，确定与所述方言信息匹配的目标方言种类；

所述转文字模块502，可以包括：

第一转文字单元，用于将所述语音数据转换为所述目标方言种类对应的方言语音文本子库中，与所述语音数据匹配的目标方言文本，并将所述目标方言文本发送至所述联系人。

可选的，所述预设语音文本库包括普通话文本子库和第二预设数量的特征语音文本子库；所述电子设备，还可以包括：

显示模块507，显示特征语音文本子库选择界面；

第二接收模块508，用于在所述选择界面中，接收子库选择操作；

所述转文字模块502，可以包括：

第二转文字单元5021，用于将所述语音数据转换为所述普通话文本子库和所述子库选择操作对应的特征语音文本子库中，与所述语音数据匹配的目标文本。

本发明实施例提供的电子设备能够实现图1至图4的方法实施例中电子设备实现的各个过程，并能够达到相应的有益效果，为避免重复，这里不再赘述。

图7表示为实现本发明各个实施例的一种移动终端的硬件结构示意图。该移动终端900包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、处理器910、以及电源911等部件。本领域技术人员可以理解，图7中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，移动终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器910，用于获取语音数据；

本发明实施例中，获取语音数据；将所述语音数据转换为预设语音文本库中，与所述语音数据匹配的目标文本；所述预设语音文本库存储有语音样本数据，以及与所述语音样本数据对应的至少一种特征文本；所述语音样本数据与至少一种特征语音数据匹配。相对于现有技术中，输入的语音需要比较标准，否则容易出错或无法转换，对用户要求高；另一方面，针对语音转换文字后，个性化乐趣少而言。本申请中，预设语音文本库中存储的语音样本数据与至少一种特征语音匹配，进而针对一些特征语音，该预设语音文本库也能够准确匹配到对应的文本，能从较大程度上够避免发音不标准，对用户要求高的问题，提升了转换准确率，减少了无法转换的问题。同时，上述预设语音文本库中，存储有语音样本数据对应的至少一种特征文本，进而为语音数据匹配的目标文本中至少包括一种特征文本，进而使得转换后的文本最大程度体现特征元素，转换后的文本携带有足够多的个性化乐趣。

应理解的是，本发明实施例中，射频单元901可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器910处理；另外，将上行的数据发送给基站。通常，射频单元901包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元901还可以通过无线通信系统与网络和其他设备通信。

移动终端通过网络模块902为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元903可以将射频单元901或网络模块902接收的或者在存储器909中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元903还可以提供与移动终端900执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元903包括扬声器、蜂鸣器以及受话器等。

输入单元904用于接收音频或视频信号。输入单元904可以包括图形处理器(Graphics Processing Unit，GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元906上。经图形处理器9041处理后的图像帧可以存储在存储器909(或其它存储介质)中或者经由射频单元901或网络模块902进行发送。麦克风9042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元901发送到移动通信基站的格式输出。

移动终端900还包括至少一种传感器905，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板9061的亮度，接近传感器可在移动终端900移动到耳边时，关闭显示面板9061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器905还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元906用于显示由用户输入的信息或提供给用户的信息。显示单元906可包括显示面板9061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板9061。

用户输入单元907可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板9071上或在触控面板9071附近的操作)。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器910，接收处理器910发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板9071。除了触控面板9071，用户输入单元907还可以包括其他输入设备9072。具体地，其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板9071可覆盖在显示面板9061上，当触控面板9071检测到在其上或附近的触摸操作后，传送给处理器910以确定触摸事件的类型，随后处理器910根据触摸事件的类型在显示面板9061上提供相应的视觉输出。虽然在图7中，触控面板9071与显示面板9061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板9071与显示面板9061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元908为外部装置与移动终端900连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元908可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端900内的一个或多个元件或者可以用于在移动终端900和外部装置之间传输数据。

存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器909可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器910是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器909内的软件程序和/或模块，以及调用存储在存储器909内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器910可包括一个或多个处理单元；优选的，处理器910可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。

移动终端900还可以包括给各个部件供电的电源911(比如电池)，优选的，电源911可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，移动终端900包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种移动终端，包括处理器910，存储器909，存储在存储器909上并可在所述处理器910上运行的计算机程序，该计算机程序被处理器910执行时实现上述语音转换文字方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音转换文字方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音转换文字方法，应用于电子设备，其特征在于，所述方法包括：

获取语音数据；

2.根据权利要求1所述的方法，其特征在于，所述预设语音文本库设置在共享平台上；所述将所述语音数据转换为预设语音文本库中，与所述语音数据匹配的目标文本之前，还包括：

向所述共享平台发送共享请求；

接收所述共享平台发送的所述预设语音文本库。

3.根据权利要求2所述的方法，其特征在于，还包括：

获取语音样本数据，以及与所述语音样本数据对应的至少一种特征文本；

将所述语音样本数据以及所述语音样本数据对应的特征文本发送至所述共享平台；所述共享平台用于基于所述语音样本数据以及所述语音样本数据对应的特征文本，创建所述预设语音文本库，或，更新所述预设语音文本库。

4.根据权利要求1所述的方法，其特征在于，所述预设语音文本库包括第一预设数量的方言语音文本子库；每个所述方言语音文本子库中存储有多种语音样本数据，所述多种语音样本数据均对应同一种方言文本；各个所述方言语音文本子库对应的各个方言文本的种类均不相同；所述获取语音数据，包括：

在预设应用的联系人聊天窗口中，获取语音数据；

所述将所述语音数据转换为预设语音文本库中，与所述语音数据匹配的目标文本之前，还包括：

获取所述联系人对应的方言信息；

在各个种类的所述方言文本中，确定与所述方言信息匹配的目标方言种类；

所述将所述语音数据转换为预设语音文本库中，与所述语音数据匹配的目标文本，包括：

将所述语音数据转换为所述目标方言种类对应的方言语音文本子库中，与所述语音数据匹配的目标方言文本，并将所述目标方言文本发送至所述联系人。

5.根据权利要求1所述的方法，其特征在于，所述预设语音文本库包括普通话文本子库和第二预设数量的特征语音文本子库；所述将所述语音数据转换为预设语音文本库中，与所述语音数据匹配的目标文本之前，还包括：

显示特征语音文本子库选择界面；

在所述选择界面中，接收子库选择操作；

将所述语音数据转换为所述普通话文本子库和所述子库选择操作对应的特征语音文本子库中，与所述语音数据匹配的目标文本。

6.一种电子设备，其特征在于，所述电子设备包括：

第一获取模块，用于获取语音数据；

7.根据权利要求6所述的电子设备，其特征在于，所述预设语音文本库设置在共享平台上；所述电子设备，还包括：

共享请求发送模块，用于向所述共享平台发送共享请求；

第一接收模块，用于接收所述共享平台发送的所述预设语音文本库。

8.根据权利要求7所述的电子设备，其特征在于，还包括：

第二获取模块，用于获取语音样本数据，以及与所述语音样本数据对应的至少一种特征文本；

样本数据发送模块，用于将所述语音样本数据以及所述语音样本数据对应的特征文本发送至所述共享平台；所述共享平台用于基于所述语音样本数据以及所述语音样本数据对应的特征文本，创建所述预设语音文本库，或，更新所述预设语音文本库。

9.根据权利要求6所述的电子设备，其特征在于，所述预设语音文本库包括第一预设数量的方言语音文本子库；每个所述方言语音文本子库中存储有多种语音样本数据，所述多种语音样本数据均对应同一种方言文本；各个所述方言语音文本子库对应的各个方言文本的种类均不相同；所述第一获取模块，包括：

所述电子设备，还包括：

第三获取模块，用于获取所述联系人对应的方言信息；

所述转文字模块，包括：

10.根据权利要求6所述的电子设备，其特征在于，所述预设语音文本库包括普通话文本子库和第二预设数量的特征语音文本子库；所述电子设备，还包括：

显示模块，显示特征语音文本子库选择界面；

第二接收模块，用于在所述选择界面中，接收子库选择操作；

所述转文字模块，包括：

第二转文字单元，用于将所述语音数据转换为所述普通话文本子库和所述子库选择操作对应的特征语音文本子库中，与所述语音数据匹配的目标文本。

11.一种移动终端，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音转换文字方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的语音转换文字方法的步骤。