CN110867179A - 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统 - Google Patents

基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统 Download PDF

Info

Publication number
CN110867179A
CN110867179A CN201911102132.4A CN201911102132A CN110867179A CN 110867179 A CN110867179 A CN 110867179A CN 201911102132 A CN201911102132 A CN 201911102132A CN 110867179 A CN110867179 A CN 110867179A
Authority
CN
China
Prior art keywords
file
hdfs
word segmentation
module
ikanalyzer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911102132.4A
Other languages
English (en)
Inventor
赵从阳
姜虹云
李俊峰
张自勤
杨华
左世交
李枝念
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Power Grid Co ltd Dehong Power Supply Bureau
Original Assignee
Yunnan Power Grid Co ltd Dehong Power Supply Bureau
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Power Grid Co ltd Dehong Power Supply Bureau filed Critical Yunnan Power Grid Co ltd Dehong Power Supply Bureau
Priority to CN201911102132.4A priority Critical patent/CN110867179A/zh
Publication of CN110867179A publication Critical patent/CN110867179A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统,步骤为:将文件通过IKAnalyzer进行分词解析形成索引文件,并把索引文件进行存储;通过hdfs把文件进行分片存储到hadoop服务器,同时把索引文件和hdfs分片存储的文件进行关联对应,以便通过关键字检索文件;3)移动端输入查询关键字语音,通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。本发明解决了电网现场作业人员手动查询作业规范所带来的不便,语音输入就能快速、方便的检索出所需的文件,同时降低了文件丢失的风险解决了手动备份文件的麻烦。

Description

基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方 法和系统
技术领域
本发明属于文件存储和文件检索技术领域,具体涉及一种基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统。
背景技术
随着电网的发展的速度越来越快,现场工作量也越来越大,而且存在各专业交叉作业。为了减少安全事故,电网有很多相应的作业制度和作业规范。现象作业人员在现场作业过程成不可避免会出现忘记相应规范和流程的情况。目前现场工作人员想查询相应的作业规范和流程只能通过纸质的文档或者在现场手动的查询,而且为了规范现场作业人员操作避免安全事故发生,相应的制度和作业规范越来越多,文件的存储、备份和检索也越来越麻烦。另外,传统的文件存储方式对硬件要求高、检索速度慢,现场作业人员通过纸质文档或者现场手动查询相应的作业规范效率低,操作不方便,影响现场作业效率。
发明内容
本发明针对上述现有技术的不足,提供了一种基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统。
本发明是通过如下技术方案来实现的。
基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法,步骤如下:
1)将文件通过IKAnalyzer进行分词解析形成索引文件,并把索引文件进行存储;
2)通过hdfs把文件进行分片存储到hadoop服务器,同时把索引文件和hdfs分片存储的文件进行关联对应,以便通过关键字检索文件;
3)移动端输入查询关键字语音,通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。
基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索的方法的系统,由语音识别模块、IKAnalyzer分词模块、hdfs文件存储模块、文件全文检索模块组成;其中,
语音识别模块包含前端处理、特征提取、模型训练和解码四个模块;输入的语音数据流经过前端处理;经过前端处理之后的得到的分段语音数据送入特征提取模块,进行声学特征提取;最后解码模块对提取的特征数据进行解码;
IKAnalyzer分词模块分为加载词典、预处理、子分词器处理后续处理;IKAnalyzer分词模块把文件内容进行分词,形成文件对应的分词索引表;移动端语音识别到查询关键字后,通过分词索引表找到符合条件的文件把结果返回;
hdfs文件存储模块把文件进行分片并通过分布式集群来存储和备份,具体为:hdfs文件存储模块把文件分成若干block,文件的block存放在若干Datanode节点上,同时hdfs文件存储模块会把每个block进行备份存储;
当通过分词索引表找到对应的文件,hdfs客户端向NameNode发起读取文件的RPC请求,确定请求文件block所在的位置;NameNode会返回文件的部分或者全部block列表,然后根据相应的算法对block列表进行排序;hdfs客户端选取排序靠前的DataNode来读取block;最后所有读取来的block会合并成一个完整的最终文件。
较佳地,本发明的系统在解码过程中利用发音字典、声学模型、语言模型信息构建WFST搜索空间,在搜索空间内寻找匹配概率最大的最优路径,得到最优的识别结果。
有益效果:本发明通过IKAnalyzer中文分词对文件进行分词、语音识别查询关键字、hdfs对文件进行分片存储和hdfs文件分片备份等技术的整合,实现了基于语音识别、IKAnalyzer分词、hdfs存储的文件存储和检索的方案,通过该方案的实现解决了电网现场作业人员手动查询作业规范所带来的不便,语音输入就能快速、方便的检索出所需的文件,同时降低了文件丢失的风险解决了手动备份文件的麻烦。
附图说明
图1为本发明的结构图;
图2为本发明语音识别流程图;
图3为本发明分词解析流程图;
图4为本发明Hdfs存储文件流程图;
图5为本发明Hdfs读取文件流程图。
具体实施方式
如图1-5所示,基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法,步骤如下:
1)将文件通过IKAnalyzer进行分词解析形成索引文件,并把索引文件进行存储;
2)通过hdfs把文件进行分片存储到hadoop服务器,同时把索引文件和hdfs分片存储的文件进行关联对应,以便通过关键字检索文件;
3)移动端输入查询关键字语音,通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。
基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索的方法的系统,由语音识别模块、IKAnalyzer分词模块、hdfs文件存储模块、文件全文检索模块组成;其中,
语音识别模块包含前端处理、特征提取、模型训练和解码四个模块;输入的语音数据流经过前端处理;经过前端处理之后的得到的分段语音数据送入特征提取模块,进行声学特征提取;最后解码模块对提取的特征数据进行解码;在解码过程中利用发音字典、声学模型、语言模型信息构建WFST搜索空间,在搜索空间内寻找匹配概率最大的最优路径,得到最优的识别结果;
IKAnalyzer分词模块分为加载词典、预处理、子分词器处理后续处理;IKAnalyzer分词模块把文件内容进行分词,形成文件对应的分词索引表;移动端语音识别到查询关键字后,通过分词索引表找到符合条件的文件把结果返回;
hdfs文件存储模块把文件进行分片并通过分布式集群来存储和备份,具体为:hdfs文件存储模块把文件分成若干block,文件的block存放在若干Datanode节点上,同时hdfs文件存储模块会把每个block进行备份存储;
当通过分词索引表找到对应的文件,hdfs客户端向NameNode发起读取文件的RPC请求,确定请求文件block所在的位置;NameNode会返回文件的部分或者全部block列表,然后根据相应的算法对block列表进行排序;hdfs客户端选取排序靠前的DataNode来读取block;最后所有读取来的block会合并成一个完整的最终文件。
以上所揭露的为本发明的优选实施例,不能以此来限定本发明之权利范围,因此依本发明申请专利范围所作的等同变化,仍属本发明所涵盖的范围。

Claims (3)

1.基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法,其特征在于,步骤如下:
1)将文件通过IKAnalyzer进行分词解析形成索引文件,并把索引文件进行存储;
2)通过hdfs把文件进行分片存储到hadoop服务器,同时把索引文件和hdfs分片存储的文件进行关联对应,以便通过关键字检索文件;
3)移动端输入查询关键字语音,通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。
2.使用权利要求1所述方法的系统,其特征在于,由语音识别模块、IKAnalyzer分词模块、hdfs文件存储模块、文件全文检索模块组成;其中,
语音识别模块包含前端处理、特征提取、模型训练和解码四个模块;输入的语音数据流经过前端处理;经过前端处理之后的得到的分段语音数据送入特征提取模块,进行声学特征提取;最后解码模块对提取的特征数据进行解码;
IKAnalyzer分词模块分为加载词典、预处理、子分词器处理后续处理;IKAnalyzer分词模块把文件内容进行分词,形成文件对应的分词索引表;移动端语音识别到查询关键字后,通过分词索引表找到符合条件的文件把结果返回;
hdfs文件存储模块把文件进行分片并通过分布式集群来存储和备份,具体为:hdfs文件存储模块把文件分成若干block,文件的block存放在若干Datanode节点上,同时hdfs文件存储模块会把每个block进行备份存储;
当通过分词索引表找到对应的文件,hdfs客户端向NameNode发起读取文件的RPC请求,确定请求文件block所在的位置;NameNode会返回文件的部分或者全部block列表,然后根据相应的算法对block列表进行排序;hdfs客户端选取排序靠前的DataNode来读取block;最后所有读取来的block会合并成一个完整的最终文件。
3.根据权利要求2所述的系统,其特征在于:在解码过程中利用发音字典、声学模型、语言模型信息构建WFST搜索空间,在搜索空间内寻找匹配概率最大的最优路径,得到最优的识别结果。
CN201911102132.4A 2019-11-12 2019-11-12 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统 Pending CN110867179A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911102132.4A CN110867179A (zh) 2019-11-12 2019-11-12 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911102132.4A CN110867179A (zh) 2019-11-12 2019-11-12 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统

Publications (1)

Publication Number Publication Date
CN110867179A true CN110867179A (zh) 2020-03-06

Family

ID=69653842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911102132.4A Pending CN110867179A (zh) 2019-11-12 2019-11-12 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统

Country Status (1)

Country Link
CN (1) CN110867179A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704384A (zh) * 2021-08-27 2021-11-26 挂号网(杭州)科技有限公司 语音识别生成代码的方法及装置、电子设备、存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281534A (zh) * 2008-05-28 2008-10-08 叶睿智 一种基于音频内容检索的多媒体资源检索方法
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其系统
CN103853612A (zh) * 2012-12-04 2014-06-11 中山大学深圳研究院 一种基于分布式存储下的数字家庭内容读数据的方法
US20160306811A1 (en) * 2013-12-26 2016-10-20 Le Holdings (Beijing) Co., Ltd. Method and system for creating inverted index file of video resource
CN106250409A (zh) * 2016-07-21 2016-12-21 中国农业银行股份有限公司 数据查询方法及装置
CN108334612A (zh) * 2018-02-07 2018-07-27 华南理工大学 一种针对密文域的形近汉字全文模糊检索方法
CN108804592A (zh) * 2018-05-28 2018-11-13 山东浪潮商用系统有限公司 知识库检索实现方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281534A (zh) * 2008-05-28 2008-10-08 叶睿智 一种基于音频内容检索的多媒体资源检索方法
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其系统
CN103853612A (zh) * 2012-12-04 2014-06-11 中山大学深圳研究院 一种基于分布式存储下的数字家庭内容读数据的方法
US20160306811A1 (en) * 2013-12-26 2016-10-20 Le Holdings (Beijing) Co., Ltd. Method and system for creating inverted index file of video resource
CN106250409A (zh) * 2016-07-21 2016-12-21 中国农业银行股份有限公司 数据查询方法及装置
CN108334612A (zh) * 2018-02-07 2018-07-27 华南理工大学 一种针对密文域的形近汉字全文模糊检索方法
CN108804592A (zh) * 2018-05-28 2018-11-13 山东浪潮商用系统有限公司 知识库检索实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LITTLE豪斯: "《IKAnalyzer流程总结》", 《CSDN》 *
柴洁: "《基于IKAnalyzer和Lucene的地理编码中文搜索引擎的研究与实现》", 《城市勘测》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704384A (zh) * 2021-08-27 2021-11-26 挂号网(杭州)科技有限公司 语音识别生成代码的方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN111753099B (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
US8341112B2 (en) Annotation by search
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
US8126897B2 (en) Unified inverted index for video passage retrieval
WO2017084506A1 (zh) 搜索查询词纠错方法和装置
CN111309877A (zh) 一种基于知识图谱的智能问答方法及系统
US10713302B2 (en) Search processing method and device
US9317608B2 (en) Systems and methods for parsing search queries
CN106205613B (zh) 一种导航语音识别方法及系统
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和系统
CN102110123A (zh) 倒排索引建立方法
CN103914570A (zh) 基于字符串相似度算法的智能客服搜索方法与系统
CN104199956A (zh) 一种erp数据语音搜索方法
EP3926484A1 (en) Improved fuzzy search using field-level deletion neighborhoods
CN106021532B (zh) 关键词的显示方法和装置
US10726075B2 (en) Streamlining and searching document text
CN111782817A (zh) 一种面向信息系统的知识图谱构建方法、装置及电子设备
US20200192924A1 (en) Natural language query system
CN110867179A (zh) 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统
CN109684357B (zh) 信息处理方法及装置、存储介质、终端
CN101650716A (zh) 多国语言翻译系统及其方法
CN112015856A (zh) 一种IPTV中基于Elasticsearch实现拼音检索方法
CN116578666B (zh) 段句位的倒排索引结构设计及其限定运算全文检索的方法
Alexakis et al. Evaluation of Content Fusion Algorithms for Large and Heterogeneous Datasets
CN115982320A (zh) 一种基于医疗设备手册说明的语义相似度检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200306