CN113793609A

CN113793609A - 一种基于语音识别的文件上传方法

Info

Publication number: CN113793609A
Application number: CN202111043225.1A
Authority: CN
Inventors: 禹成国; 田永鑫; 武豪; 刘乐乐
Original assignee: Mimao Shanghai Digital Technology Co ltd
Current assignee: Mimao Shanghai Digital Technology Co ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-14

Abstract

本发明涉及计算机技术领域，具体公开了一种基于语音识别的文件上传方法，包括如下步骤：基于语音识别模块采集信息生成识别标识；利用文件检索模块根据识别标识检索目标文件；基于文件上传模块将检索到的目标文件进行上传至对象存储设施。以此能够在文件位置未知情况下快速定位目标文件，并将目标文件进行快速且准确的上传。

Description

一种基于语音识别的文件上传方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于语音识别的文件上传方法。

背景技术

现有上传文件方式是通过人工检索文件点击上传，或者拖拽文件上传。windows10系统的文件检索机制是通过文件树的形式层层人工检索，检索到目标文件后点击上传。百度网盘检索依赖于操作系统，其上传方式提供了点击和拖拽两种形式。

现有技术的缺陷和不足：人工检索点击上传和拖拽上传的基础是明确知晓文件位置，而在文件位置未知的情况下很难检索到目标文件上传。

发明内容

本发明的目的在于提供一种基于语音识别的文件上传方法，旨在解决现有技术中的在文件位置未知的情况下很难检索到目标文件上传的技术问题。

为实现上述目的，本发明采用的一种基于语音识别的文件上传方法，包括如下步骤：

语音输入；

基于语音识别模块采集信息生成识别标识；

利用文件检索模块根据识别标识检索目标文件；

基于文件上传模块将检索到的目标文件进行上传至对象存储设施。

其中，所述语音输入的具体方式为：

用户口述文件名。

其中，在基于语音识别模块采集信息生成识别标识的步骤中：

采集到的语音信息为未经压缩的数据裸流PCM格式，无需处理和转换。

其中，在采集到PCM格式的语音信息后：

调用第三方语音识别接口识别PCM格式的语音数据并反馈结果，其中反馈结果为字符串文本；

利用MD5算法对字符串文本计算得到识别标识。

其中，识别标识是长度固定为32位数字字母混合码的字符串文本。

其中，在利用文件检索模块根据识别标识检索目标文件的步骤中：

所述文件自动检索模块在检索之前会对所有被检索文件的名称进行MD5计算，并将计算生成的识别标识和文件路径以键值对的形式保存于散列表中。

所述文件检索模块根据语音识别模块产生的识别标识检索散列表，基于标识内的顺序进行依次匹配完全相同的识别标识，从而获取目标文件路径。

本发明的一种基于语音识别的文件上传方法，语音输入；基于语音识别模块采集信息生成识别标识；利用文件检索模块根据识别标识检索目标文件；基于文件上传模块将检索到的目标文件进行上传至对象存储设施。通过在传统人工检索点击上传和拖拽上传的基础上，提供了在文件位置未知情况下的语音文件上传方法，能够快速找到目标文件并进行上传。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的基于语音识别的文件上传方法的原理图。

图2是本发明的基于语音识别的文件上传方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图1和图2，本发明提供了一种基于语音识别的文件上传方法，包括如下步骤：

S1：语音输入；

S2：基于语音识别模块采集信息生成识别标识；

S3：利用文件检索模块根据识别标识检索目标文件；

S4：基于文件上传模块将检索到的目标文件进行上传至对象存储设施。

其中，所述语音输入的具体方式为：

用户口述文件名。

在基于语音识别模块采集信息生成识别标识的步骤中：

在采集到PCM格式的语音信息后：

利用MD5算法对字符串文本计算得到识别标识。

识别标识是长度固定为32位数字字母混合码的字符串文本。

在利用文件检索模块根据识别标识检索目标文件的步骤中：

在基于文件上传模块将检索到的目标文件进行上传至对象存储设施的步骤中：

在获取目标文件路径后，文件上传模块将目标路径文件进行上传，上传文件无需处理或格式转换。

语音识别模块收集用户语音信息的方式为主动式或被动式。

目标文件进行上传至对象存储设施步骤中：

文件上传的目标支持Amazon S3协议的对象存储设施。

具体为：用户口述文件名，语音识别模块采集语音信息生成识别标识，语音采集设备为麦克风，采集到的语音信息为未经压缩的数据裸流PCM(Pulse Code Modulation，脉冲编码调制)格式，无需处理和转换。随后调用第三方语音识别接口识别PCM格式的语音数据并反馈结果，反馈结果的格式为字符串文本。例如语音内容为“北京.jpg”，结果字符串则为“北京.jpg”。利用MD5(Message-Digest Algorithm 5，信息-摘要算法5)对上述字符串文本计算得到识别标识，识别标识是长度固定为32位数字字母混合码的字符串文本。以“北京.jpg”为例，利用MD5计算它得到的识别标识为”6D5DFDA07D668ECEACD1ACAEBB0F8430“。文件自动检索模块在检索之前会对所有被检索文件的名称进行MD5计算，此MD5计算和上述MD5计算是完全一致的。并将计算生成的识别标识和文件路径以键值对的形式保存于散列表中，散列表维护在内存中，这样做的目的是利用散列表查找时间复杂度为O(1)的特性，大幅缩短文件检索的时间。文件检索模块根据语音识别模块产生的识别标识检索散列表，基于标识内的顺序进行依次匹配完全相同的识别标识从而获取目标文件路径，文件上传模块将目标路径文件进行上传，上传文件无需处理或格式转换。

上述的语音识别模块收集用户语音信息的方式是主动式或被动式的，可以由用户控制语音输入或者实时监听，实时监听由第三方语音识别对麦克风进行实时语音采集。

其中，第三方语音识别技术是由百度语音识别提供的，支持中英文双语且准确率达70％，不会对语音数据进行格式转换；另外上述文件上传的目标是支持Amazon S3协议的对象存储设施；此外上述检索散列表检索的时间复杂度是O(1)。与传统遍历查找的时间复杂度O(n)相比，数量级从线性缩减至常数。上述所有流程是可以跨平台(Windows、Linux)实施的。跨平台技术的实现基于跨平台的编程语言，如Java和C#这类本身就支持跨平台的语言。在跨平台技术的支持下可以实现一次编写多处运行的效果。

综上所述，本发明提供的一种基于语音识别的文件上传方法，能够在文件位置未知情况下轻松快速的找到目标文件，并将目标文件进行快速及准确的上传。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于语音识别的文件上传方法，其特征在于，包括如下步骤：

语音输入；

基于语音识别模块采集信息生成识别标识；

利用文件检索模块根据识别标识检索目标文件；

2.如权利要求1所述的基于语音识别的文件上传方法，其特征在于，所述语音输入的具体方式为：

用户口述文件名。

3.如权利要求1所述的基于语音识别的文件上传方法，其特征在于，在基于语音识别模块采集信息生成识别标识的步骤中：

4.如权利要求3所述的基于语音识别的文件上传方法，其特征在于，在采集到PCM格式的语音信息后：

利用MD5算法对字符串文本计算得到识别标识。

5.如权利要求4所述的基于语音识别的文件上传方法，其特征在于，

识别标识是长度固定为32位数字字母混合码的字符串文本。

6.如权利要求1所述的基于语音识别的文件上传方法，其特征在于，在利用文件检索模块根据识别标识检索目标文件的步骤中：

7.如权利要求6所述的基于语音识别的文件上传方法，其特征在于，在利用文件检索模块根据识别标识检索目标文件的步骤中：