CN109741750A

CN109741750A - 一种语音识别的方法、文件处理方法及终端设备

Info

Publication number: CN109741750A
Application number: CN201810438801.4A
Authority: CN
Inventors: 孙东
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2019-05-10
Also published as: WO2019214628A1

Abstract

本申请公开了一种语音识别的方法、文件处理方法及终端设备，所述语音识别方法包括：接收语音数据；所述语音数据包括目标语音；将所述目标语音与预设存储路径下的预设文本进行匹配，并确定所述目标语音与预设存储路径下的预设文本是否匹配成功；若匹配成功，将所述目标语音识别为所述预设文本；其中，所述预设文本包括：预设存储路径下的预设文件夹名称和/或预设文件名称。由于所述预设文本包括预设存储路径下的预设文件夹名称和/或预设文件名称，即用户输入的语音数据中包含该预设文本的可能性比较大，故而当目标语音与预设文本匹配成功时，可以将所述目标语音识别成预设文本。从而避免将目标语音识别为其它文本，提高了语音识别的准确率。

Description

一种语音识别的方法、文件处理方法及终端设备

技术领域

本申请涉及互联网领域，特别是涉及一种语音识别的方法、文件处理方法及终端设备。

背景技术

随着互联网技术的发展，语音识别技术的应用也越来越广泛。许多智能设备尤其是智能移动终端上都安装有语音识别引擎，用户可以通过向终端设备输入语音数据，语音识别引擎可以将用户输入的语音转换成文本，从而根据所述文本控制终端设备执行与所述语音数据相应的操作。

但是，由于语音识别引擎的语音识别范围有限以及用户的口音等因素，导致语音识别引擎在将用户输入的目标语音转换成目标文本时，可能会识别错误。从而使得语音识别的准确率不高。进一步导致终端设备不能准确的执行用户输入的语音数据对应的操作。

因此，需要提供一种语音识别的方法和终端设备，能够提高语音识别的准确率，从而使得终端设备可以准确的执行用户输入的语音数据对应的操作。

发明内容

本申请所要解决的技术问题是如何提高语音识别的准确率，从而使得终端设备可以准确的执行用户输入的语音数据对应的操作，本申请提供一种语音识别的方法、文件处理方法及终端设备。

第一方面，本申请实施例提供了一种语音识别的方法，应用于终端设备，包括：

接收语音数据；所述语音数据包括目标语音；

将所述目标语音与预设存储路径下的预设文本进行匹配，并确定所述目标语音与所述预设文本是否匹配成功；

若匹配成功，将所述目标语音识别为所述预设文本；

其中，所述预设文本包括：所述预设存储路径下的预设文件夹名称和/或预设文件名称。

可选的，所述将所述目标语音与预设存储路径下的预设文本进行匹配，包括：

将所述预设文本的读音与所述目标语音进行比较；

相应的，所述确定所述目标语音与所述预设文本是否匹配成功，包括：

当所述预设文本的读音与所述目标语音的相似度大于或者等于第一预设阈值时，确定所述目标语音与所述预设文本匹配成功。

对所述目标语音进行识别，获得第一识别文本；

将所述第一识别文本和所述预设文本进行比较；

当所述第一识别文本和所述预设文本的相似度大于或者等于第二预设阈值时，确定所述目标语音与所述预设文本匹配成功。

可选的，其特征在于，所述预设存储路径包括：

所述终端设备的操作系统自带的存储路径，和/或，响应于用户触发的存储路径新建指令所构建的存储路径。

第二方面，本申请实施例提供一种文件处理的方法，包括：

获取利用以上第一方面任意一项所述的方法对目标语音进行识别得到的目标文本；

确定所述目标文本对应的目标文件的文件类型；

根据所述目标文件的文件类型确定所述目标文件支持的操作；

对所述目标文件执行所述目标文件支持的操作。

第三方面，本申请实施例提供了一种终端设备，包括：

接收单元，用于接收语音数据；所述语音数据包括目标语音；

匹配单元，用于将所述目标语音与预设存储路径下的预设文本进行匹配，并确定所述目标语音与所述预设文本是否匹配成功；

识别单元，用于若匹配成功，将所述目标语音识别为所述预设文本；

可选的，所述匹配单元，具体用于：

将所述预设文本的读音与所述目标语音进行比较；

可选的，所述匹配单元，具体用于：

对所述目标语音进行识别，获得第一识别文本；

将所述第一识别文本和所述预设文本进行比较；

可选的，所述预设存储路径包括：

第四方面，本申请实施例提供了一种终端设备，其特征在于，包括：

获取单元，用于获取利用以上第一方面任意一项所述的方法对目标语音进行识别得到的目标文本；

第一确定单元，用于确定所述目标文本对应的目标文件的文件类型；

第二确定单元，用于根据所述目标文件的文件类型确定所述目标文件支持的操作；

执行单元，用于对所述目标文件执行所述目标文件支持的操作。

与现有技术相比，本申请实施例具有以下优点：

一方面，本申请实施例提供的语音识别方法及终端设备，所述方法包括：接收语音数据；所述语音数据包括目标语音；将所述目标语音与预设存储路径下的预设文本进行匹配，并确定所述目标语音与预设存储路径下的预设文本是否匹配成功；若匹配成功，将所述目标语音识别为所述预设文本；其中，所述预设文本包括：预设存储路径下的预设文件夹名称和/或预设文件名称。由此可见，利用本申请实施例提供的语音识别方法及终端设备，由于所述预设文本包括预设存储路径下的预设文件夹名称和/或预设文件名称，即用户输入的语音数据中包含该预设文本的可能性比较大，故而当目标语音与预设文本匹配成功时，可以将所述目标语音识别成预设文本。从而避免将目标语音识别为其它文本，提高了语音识别的准确率。

另一方面，本申请实施例提供一种文件处理方法及终端设备，获取对目标语音进行识别得到的目标文本；确定所述目标文本对应的目标文件的文件类型；根据所述目标文件的文件类型确定所述目标文件支持的操作；对所述目标文件执行所述目标文件支持的操作。由此可见，利用本申请实施例提供的文件处理方法和终端设备，可以根据所述目标文本确定目标文件支持的操作，从而确定终端设备可以执行的操作。提升用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音识别的方法的流程示意图；

图2为本申请实施例提供的一种步骤S102的具体实现方法的流程示意图；

图3为本申请实施例提供的又一种步骤S102的具体实现方法的流程示意图；

图4为本申请实施例提供的一种文件处理方法的流程示意图；

图5为本申请实施例一种语音识别的方法的流程示意图；

图6为本申请实施例提供的一种终端设备的结构示意图；

图7为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的发明人经过研究发现，在实际应用中，用户可能会将一些文件存储到终端设备中。例如，将小说、教学视频以及音乐等文件存储在终端设备中。

随着语音识别技术的发展，用户可以通过向终端设备输入语音数据，从而控制终端设备执行相应的操作。在用户通过语音数据控制终端执行相应的操作时，用户存储在终端设备中的文件的名称，在用户输入的语音数据中出现的可能性比较大，因此，可以将用户输入的语音数据与存储在终端设备中的文件的名称进行匹配，从而将用户输入的语音数据识别成文本，进一步执行与该语音数据对应的操作。

鉴于此，一方面，本申请实施例提供一种语音识别的方法及终端设备，所述方法包括：接收语音数据；所述语音数据包括目标语音；将所述目标语音与预设存储路径下的预设文本进行匹配，并确定所述目标语音与预设存储路径下的预设文本是否匹配成功；若匹配成功，将所述目标语音识别为所述预设文本；其中，所述预设文本包括：预设存储路径下的预设文件夹名称和/或预设文件名称。

由此可见，利用本申请实施例提供的语音识别方法及终端设备，由于所述预设文本包括预设存储路径下的预设文件夹名称和/或预设文件名称，即用户输入的语音数据中包含该预设文本的可能性比较大，故而当目标语音与预设文本匹配成功时，可以将所述目标语音识别成预设文本。从而避免将目标语音识别为其它文本，提高了语音识别的准确率。

下面结合附图，详细说明本申请的各种非限制性实施方式。

第一实施例

参见图1，该图为本申请实施例提供的一种语音识别的方法的流程示意图。

本申请实施例提供的语音识别的方法，应用于终端设备，所述终端设备例如可以是笔记本电脑、台式计算机等终端设备，所述终端设备也可以是手机、平板电脑等移动终端设备，本发明实施例不具体限定所述终端设备。

在本实施例中，所述方法例如可以通过如下步骤S101-S103实现。

S101：接收语音数据，所述语音数据包括目标语音。

需要说明的是，在本发明实施例中，所述语音数据可以是用户通过麦克风输入的语音数据。也就是说，终端设备可以通过麦克风接收所述语音数据。

需要说明的是，本发明实施例不具体限定所述语音数据。所述语音数据可以包括一个或多个句子，也可以包括一个或多个词语。

相应的，所述目标语音为所述语音数据的部分或全部内容。目标语音可以为对所述语音数据进行拆分所获得的。例如，所述语音数据包括一个句子，所述目标语音为对该句子进行拆分获得的词语所对应的语音。又如，所述语音数据包括一个词语，所述目标语音为该一个词语对应的语音。

S102：将所述目标语音与预设存储路径下的预设文本进行匹配，并确定所述目标语音与所述预设文本是否匹配成功。

需要说明的是，在本申请是实施例中，所述预设文本包括所述预设存储路径下的预设文件夹名称，和/或，预设文件名称。

需要说明的是，本申请实施例对所述预设存储路径不做具体限定。作为一种示例，所述终端设备的操作系统自带的存储路径，和/或，响应于用户触发的存储路径新建指令所构建的存储路径。

需要说明的是，本申请实施例不具体限定所述终端设备的操作系统自带的存储路径。所述终端设备的操作系统自带的存储路径，例如可以包括：“桌面”、“D:\我的文档”等等。

需要说明的是，本申请实施例不具体限定所述响应于用户触发的存储路径新建指令所构建的存储路径。所述响应于用户触发的存储路径新建指令所构建的存储指令，例如可以是用户在存储路径“D:\我的文档”中点击鼠标右键新建了文件夹“个人文件”，所构成的存储路径“D:\我的文档\个人文件”。

需要说明的是，在本申请实施例中，所述预设存储路径中可以包括若干个预设文件夹和若干个预设文件。其中，所述预设文件可以是所述预设存储路径中的文件夹中的文件，也可以是所述预设存储路径的根目录下的文件。所述预设文件夹可以是所述预设存储路径的根目录下的文件夹，也可以是所述根目录中的文件夹中所包含的子文件夹。本申请实施例对所述预设文件夹和预设文件不做限定。

需要说明的是，本发明实施例不具体限定所述预设文本，所述预设文本可以包括一个或多个字符。所述预设文本可以为英文字符，也可以为中文字符，还可以为其它字符。例如，预设文本可以包括字符“My Music”；又如，预设文本可以包括字符“格林童话”。

需要说明的是，步骤S102在具体实现时，可以包括多种实现方式。以下将结合附图对步骤S102的两种可能的实现方式进行介绍。

参见图2，该图为本申请实施例提供的一种步骤S102的具体实现方法的流程示意图。

在步骤S102的一种可能实现的方式中，可以通过如下步骤S201-S202实现。

S201：将所述预设文本的读音与所述目标语音进行比较。

需要说明的是，在实际应用中，所述预设文本可能包括多种读音。例如，所述预设文本为“朝阳”，预设文本包括“chao(一声)yang(二声)”和“zhao(一声)yang(二声)”两种读音。

在本发明实施例中，若预设文本的读音包括第一读音和第二读音，则比较预设文本的读音和所述目标语音时，可以将所述第一语音和所述第二语音分别与所述目标语音进行比较。

S202：当所述预设文本的读音与所述目标语音的相似度大于或者等于第一预设阈值时，确定所述目标语音与所述预设文本匹配成功。

需要说明的是，本发明实施例不具体限定所述第一预设阈值，所述第一预设阈值可以根据实际情况具体设置，作为一种示例，所述第一预设阈值可以为0.9。

在本发明实施例中，当所述预设文本的读音和所述目标语音的相似度大于或者等于第一预设阈值时，可以认为所述目标语音即为所述预设文本对应的语音。

需要说明的是，当所述预设文本的读音包括第一读音和第二读音时，若所述第一读音和所述目标语音的相似度大于或者等于第一预设阈值；或者，若所述第二读音和所述目标语音的相似度大于或者等于第一预设阈值，则确定所述目标语音与所述预设文本匹配成功。

也就是说，第一读音和第二读音中任意一个读音和所述目标语音的相似度大于或者等于第一预设阈值时，可以确定所述目标语音与所述预设文本匹配成功。

参见图3，该图为本申请实施例提供的又一种步骤S102的具体实现方法的流程示意图。

在步骤S102的又一种可能实现的方式中，可以通过如下步骤S301-S303实现。

S301：对所述目标语音进行识别，获得第一识别文本。

需要说明的是，本申请实施例不具体限定对所述目标语音进行识别，获得第一识别文本的实现方式。作为一种示例，可以采用业内比较成熟的语音识别技术对所述目标语音进行识别，从而获得第一识别文本。

S302：将所述第一识别文本和所述预设文本进行比较。

S303：当所述第一识别文本和预设文本的相似度大于或者等于第二预设阈值时，确定所述目标语音与所述预设文本匹配成功。

关于S302和S303，需要说明的是，本申请实施例不具体限定所述第二预设阈值，第二预设阈值可以根据实际情况确定。例如，所述第二预设阈值可以为0.8。

可以理解的是，当所述第一识别文本和所述预设文本的相似度大于或者等于第二预设阈值时，可以认为所述目标语音对应的文本即为所述预设文本。

S103：若匹配成功，将所述目标语音识别为所述预设文本。

可以理解的是，当所述目标语音与所述预设文本匹配成功时，则可以认为所述目标语音对应的文本即为所述预设文本，因此，可以将所述目标语音识别为所述预设文本。

由此可见，利用本申请实施例提供的语音识别方法，由于所述预设文本包括预设存储路径下的预设文件夹名称和/或预设文件名称，即用户输入的语音数据中包含该预设文本的可能性比较大，故而当目标语音与预设文本匹配成功时，可以将所述目标语音识别成预设文本。从而避免将目标语音识别为其它文本，提高了语音识别的准确率。

第二实施例

如前文所述，随着语音识别技术的发展，用户可以通过向终端设备输入语音数据，从而控制终端设备执行相应的操作。在本申请实施例中，若所述预设文本为所述预设存储路径下的预设文件名称，则用户输入语音数据很有可能是为了对所述预设文件执行相应的操作。

鉴于此，在本申请实施例中，将所述目标语音识别为所述预设文本之后，还可以根据所述预设文本确定终端设备可以执行的操作。即，本申请实施例还提供一种文件处理方法，以下将结合附图介绍根据所述预设文本确定终端设备可以执行的操作的具体实现。

参见图4，该图为本申请实施例提供的一种文件处理方法的流程示意图。

所述方法例如可以通过如下步骤S401-S404实现。

S401：获取对目标语音进行识别得到的目标文本。

可以理解的是，在本申请实施例中，可以利用以上第一实施例提供的方法对所述目标语音进行识别，得到目标文本。

S402：确定所述目标文本对应的目标文件的文件类型。

可以理解的是，所述目标文件是所述预设存储路径下的若干个预设文件中的一个文件。所述目标文本时所述预设存储路径下的若干个预设文本中的一个预设文本。所述目标文本即为所述目标文件的文件名称。

需要说明的是，本申请实施例不具体限定所述文件类型。例如，所述文件类型可以包括：文档、音乐、视频等类型中的任意一种。

在本申请实施例中，例如可以通过读取所述目标文件的文件扩展名来确定所述目标文本对应的目标文本的文件类型。

S403：根据所述目标文件的文件类型确定所述目标文件支持的操作。

可以理解的是，文件类型不同，其支持的操作也不同。例如，视频文件和音乐文件可以支持播放操作；文档文件支持打开操作。因此，可以根据所述预设文件的文件类型确定所述预设文件支持的操作。

S404：对所述目标文件执行所述目标文件支持的操作。

确定所述目标文件支持的操作之后，可以执行所述操作。例如，所述目标文件为音乐文件，则可以播放该音乐文件。

由此可见，利用本申请实施例提供的方法，可以根据所述目标文本确定目标文件支持的操作，从而确定终端设备可以执行的操作。提升用户体验。

第三实施例

第一实施例介绍了一种语音识别的方法，第二实施例提供了一种文件处理的方法，第三实施例将结合具体场景介绍以上实施例提供的语音识别的方法和文件处理方法。

在该场景中，预设存储路径中存储有音乐文件，该音乐文件的文件名为“菊花台”。

参见图5，该图为本申请实施例提供的一种语音识别的方法的流程示意图。该方法例如可以通过步骤S501-S506实现。

S501：接收用户输入的语音数据，所述语音数据中包含目标语音。

S502：将所述目标语音与歌曲文件的文件名“菊花台”的读音进行比较。

S503：确定目标语音与“菊花台”的读音的相似度为0.95。

S504：将目标语音识别为预设文本“菊花台”。

S505：根据预设文本“菊花台”对应的预设文件的文件扩展名，确定预设文件的文件类型为音乐文件。

S506：播放音乐文件“菊花台”。

由此可见，利用本申请实施例的方法，用户可以直接向终端设备输入语音数据“菊花台”，而不必向终端设备输入语音数据“播放菊花台”，终端设备也可以自动根据预设文本“菊花台”对应的文件类型，执行对音乐文件“菊花台”的播放操作，进一步提升了用户体验。

第四实施例

基于以上第一实施例提供的语音识别的方法，本申请实施例还提供一种终端设备。

参见图6，该图为本申请实施例中一种终端设备的结构示意图。

所述终端设备600例如可以具体包括：接收单元610、匹配单元620和识别单元630。

接收单元610，用于接收语音数据；所述语音数据包括目标语音；

匹配单元620，用于将所述目标语音与预设存储路径下的预设文本进行匹配，并确定所述目标语音与所述预设文本是否匹配成功；

识别单元630，用于若匹配成功，将所述目标语音识别为所述预设文本；

可选的，所述匹配单元620，具体用于：

将所述预设文本的读音与所述目标语音进行比较；

可选的，所述匹配单元620，具体用于：

对所述目标语音进行识别，获得第一识别文本；

将所述第一识别文本和所述预设文本进行比较；

可选的，所述预设存储路径包括：

可选的，若所述预设文本为所述预设存储路径下的预设文件名称，所述终端设备还包括：

第一确定单元，用于确定所述预设文本对应的预设文件的文件类型；

第二确定单元，用于根据所述预设文件的文件类型确定所述预设文件支持的操作；

操作执行单元，用于对所述预设文件执行所述预设文件支持的操作。

关于所述终端设备600的各单元的具体实现，可以参考以上第一实施例的介绍部分，此处不再赘述。

由此可见，利用本申请实施例提供终端设备600，由于所述预设文本包括预设存储路径下的预设文件夹名称和/或预设文件名称，即用户输入的语音数据中包含该预设文本的可能性比较大，故而当目标语音与预设文本匹配成功时，可以将所述目标语音识别成预设文本。从而避免将目标语音识别为其它文本，提高了语音识别的准确率。

第五实施例

基于以上第二实施例提供的文件处理方法，本申请实施例还提供一种终端设备。

参见图7，该图为本申请实施例中一种终端设备的结构示意图。

所述终端设备700例如可以具体包括：获取单元710、第一确定单元720、第二确定单元730和执行单元740。

获取单元710，用于获取对目标语音进行识别得到的目标文本；

第一确定单元720，用于确定所述目标文本对应的目标文件的文件类型；

第二确定单元730，用于根据所述目标文件的文件类型确定所述目标文件支持的操作；

执行单元740，用于对所述目标文件执行所述目标文件支持的操作。

关于所述终端设备700的各单元的具体实现，可以参考以上第二实施例的介绍部分，此处不再赘述。

由此可见，利用本申请实施例提供的终端设备700，可以根据所述目标文本确定目标文件支持的操作，从而确定终端设备可以执行的操作。提升用户体验。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别的方法，其特征在于，应用于终端设备，包括：

接收语音数据；所述语音数据包括目标语音；

若匹配成功，将所述目标语音识别为所述预设文本；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标语音与预设存储路径下的预设文本进行匹配，包括：

将所述预设文本的读音与所述目标语音进行比较；

3.根据权利要求1所述的方法，其特征在于，所述将所述目标语音与预设存储路径下的预设文本进行匹配，包括：

对所述目标语音进行识别，获得第一识别文本；

将所述第一识别文本和所述预设文本进行比较；

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述预设存储路径包括：

5.一种文件处理的方法，其特征在于，包括：

获取利用如权利要求1-4任意一项所述的方法对目标语音进行识别得到的目标文本；

确定所述目标文本对应的目标文件的文件类型；

对所述目标文件执行所述目标文件支持的操作。

6.一种终端设备，其特征在于，包括：

7.根据权利要求6所述的终端设备，其特征在于，所述匹配单元，具体用于：

将所述预设文本的读音与所述目标语音进行比较；

8.根据权利要求6所述的终端设备，其特征在于，所述匹配单元，具体用于：

对所述目标语音进行识别，获得第一识别文本；

将所述第一识别文本和所述预设文本进行比较；

9.根据权利要求6-8任意一项所述的终端设备，其特征在于，所述预设存储路径包括：

10.一种终端设备，其特征在于，包括：

获取单元，用于获取利用如权利要求1-4任意一项所述的方法对目标语音进行识别得到的目标文本；