CN110867179A

CN110867179A - 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统

Info

Publication number: CN110867179A
Application number: CN201911102132.4A
Authority: CN
Inventors: 赵从阳; 姜虹云; 李俊峰; 张自勤; 杨华; 左世交; 李枝念
Original assignee: Yunnan Power Grid Co ltd Dehong Power Supply Bureau
Current assignee: Yunnan Power Grid Co ltd Dehong Power Supply Bureau
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-03-06

Abstract

基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统，步骤为：将文件通过IKAnalyzer进行分词解析形成索引文件，并把索引文件进行存储；通过hdfs把文件进行分片存储到hadoop服务器，同时把索引文件和hdfs分片存储的文件进行关联对应，以便通过关键字检索文件；3)移动端输入查询关键字语音，通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。本发明解决了电网现场作业人员手动查询作业规范所带来的不便，语音输入就能快速、方便的检索出所需的文件，同时降低了文件丢失的风险解决了手动备份文件的麻烦。

Description

基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统

技术领域

本发明属于文件存储和文件检索技术领域，具体涉及一种基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统。

背景技术

随着电网的发展的速度越来越快，现场工作量也越来越大，而且存在各专业交叉作业。为了减少安全事故，电网有很多相应的作业制度和作业规范。现象作业人员在现场作业过程成不可避免会出现忘记相应规范和流程的情况。目前现场工作人员想查询相应的作业规范和流程只能通过纸质的文档或者在现场手动的查询，而且为了规范现场作业人员操作避免安全事故发生，相应的制度和作业规范越来越多，文件的存储、备份和检索也越来越麻烦。另外，传统的文件存储方式对硬件要求高、检索速度慢，现场作业人员通过纸质文档或者现场手动查询相应的作业规范效率低，操作不方便，影响现场作业效率。

发明内容

本发明针对上述现有技术的不足，提供了一种基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统。

本发明是通过如下技术方案来实现的。

基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法，步骤如下：

1)将文件通过IKAnalyzer进行分词解析形成索引文件，并把索引文件进行存储；

2)通过hdfs把文件进行分片存储到hadoop服务器，同时把索引文件和hdfs分片存储的文件进行关联对应，以便通过关键字检索文件；

3)移动端输入查询关键字语音，通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。

基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索的方法的系统，由语音识别模块、IKAnalyzer分词模块、hdfs文件存储模块、文件全文检索模块组成；其中，

语音识别模块包含前端处理、特征提取、模型训练和解码四个模块；输入的语音数据流经过前端处理；经过前端处理之后的得到的分段语音数据送入特征提取模块，进行声学特征提取；最后解码模块对提取的特征数据进行解码；

IKAnalyzer分词模块分为加载词典、预处理、子分词器处理后续处理；IKAnalyzer分词模块把文件内容进行分词，形成文件对应的分词索引表；移动端语音识别到查询关键字后，通过分词索引表找到符合条件的文件把结果返回；

hdfs文件存储模块把文件进行分片并通过分布式集群来存储和备份，具体为：hdfs文件存储模块把文件分成若干block，文件的block存放在若干Datanode节点上，同时hdfs文件存储模块会把每个block进行备份存储；

当通过分词索引表找到对应的文件，hdfs客户端向NameNode发起读取文件的RPC请求，确定请求文件block所在的位置；NameNode会返回文件的部分或者全部block列表，然后根据相应的算法对block列表进行排序；hdfs客户端选取排序靠前的DataNode来读取block；最后所有读取来的block会合并成一个完整的最终文件。

较佳地，本发明的系统在解码过程中利用发音字典、声学模型、语言模型信息构建WFST搜索空间，在搜索空间内寻找匹配概率最大的最优路径，得到最优的识别结果。

有益效果：本发明通过IKAnalyzer中文分词对文件进行分词、语音识别查询关键字、hdfs对文件进行分片存储和hdfs文件分片备份等技术的整合，实现了基于语音识别、IKAnalyzer分词、hdfs存储的文件存储和检索的方案，通过该方案的实现解决了电网现场作业人员手动查询作业规范所带来的不便，语音输入就能快速、方便的检索出所需的文件，同时降低了文件丢失的风险解决了手动备份文件的麻烦。

附图说明

图1为本发明的结构图；

图2为本发明语音识别流程图；

图3为本发明分词解析流程图；

图4为本发明Hdfs存储文件流程图；

图5为本发明Hdfs读取文件流程图。

具体实施方式

如图1-5所示，基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法，步骤如下：

语音识别模块包含前端处理、特征提取、模型训练和解码四个模块；输入的语音数据流经过前端处理；经过前端处理之后的得到的分段语音数据送入特征提取模块，进行声学特征提取；最后解码模块对提取的特征数据进行解码；在解码过程中利用发音字典、声学模型、语言模型信息构建WFST搜索空间，在搜索空间内寻找匹配概率最大的最优路径，得到最优的识别结果；

以上所揭露的为本发明的优选实施例，不能以此来限定本发明之权利范围，因此依本发明申请专利范围所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法，其特征在于，步骤如下：

2.使用权利要求1所述方法的系统，其特征在于，由语音识别模块、IKAnalyzer分词模块、hdfs文件存储模块、文件全文检索模块组成；其中，

3.根据权利要求2所述的系统，其特征在于：在解码过程中利用发音字典、声学模型、语言模型信息构建WFST搜索空间，在搜索空间内寻找匹配概率最大的最优路径，得到最优的识别结果。