CN110867179A - 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统 - Google Patents
基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统 Download PDFInfo
- Publication number
- CN110867179A CN110867179A CN201911102132.4A CN201911102132A CN110867179A CN 110867179 A CN110867179 A CN 110867179A CN 201911102132 A CN201911102132 A CN 201911102132A CN 110867179 A CN110867179 A CN 110867179A
- Authority
- CN
- China
- Prior art keywords
- file
- hdfs
- word segmentation
- module
- ikanalyzer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000013467 fragmentation Methods 0.000 claims abstract description 4
- 238000006062 fragmentation reaction Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统,步骤为:将文件通过IKAnalyzer进行分词解析形成索引文件,并把索引文件进行存储;通过hdfs把文件进行分片存储到hadoop服务器,同时把索引文件和hdfs分片存储的文件进行关联对应,以便通过关键字检索文件;3)移动端输入查询关键字语音,通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。本发明解决了电网现场作业人员手动查询作业规范所带来的不便,语音输入就能快速、方便的检索出所需的文件,同时降低了文件丢失的风险解决了手动备份文件的麻烦。
Description
技术领域
本发明属于文件存储和文件检索技术领域,具体涉及一种基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统。
背景技术
随着电网的发展的速度越来越快,现场工作量也越来越大,而且存在各专业交叉作业。为了减少安全事故,电网有很多相应的作业制度和作业规范。现象作业人员在现场作业过程成不可避免会出现忘记相应规范和流程的情况。目前现场工作人员想查询相应的作业规范和流程只能通过纸质的文档或者在现场手动的查询,而且为了规范现场作业人员操作避免安全事故发生,相应的制度和作业规范越来越多,文件的存储、备份和检索也越来越麻烦。另外,传统的文件存储方式对硬件要求高、检索速度慢,现场作业人员通过纸质文档或者现场手动查询相应的作业规范效率低,操作不方便,影响现场作业效率。
发明内容
本发明针对上述现有技术的不足,提供了一种基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统。
本发明是通过如下技术方案来实现的。
基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法,步骤如下:
1)将文件通过IKAnalyzer进行分词解析形成索引文件,并把索引文件进行存储;
2)通过hdfs把文件进行分片存储到hadoop服务器,同时把索引文件和hdfs分片存储的文件进行关联对应,以便通过关键字检索文件;
3)移动端输入查询关键字语音,通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。
基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索的方法的系统,由语音识别模块、IKAnalyzer分词模块、hdfs文件存储模块、文件全文检索模块组成;其中,
语音识别模块包含前端处理、特征提取、模型训练和解码四个模块;输入的语音数据流经过前端处理;经过前端处理之后的得到的分段语音数据送入特征提取模块,进行声学特征提取;最后解码模块对提取的特征数据进行解码;
IKAnalyzer分词模块分为加载词典、预处理、子分词器处理后续处理;IKAnalyzer分词模块把文件内容进行分词,形成文件对应的分词索引表;移动端语音识别到查询关键字后,通过分词索引表找到符合条件的文件把结果返回;
hdfs文件存储模块把文件进行分片并通过分布式集群来存储和备份,具体为:hdfs文件存储模块把文件分成若干block,文件的block存放在若干Datanode节点上,同时hdfs文件存储模块会把每个block进行备份存储;
当通过分词索引表找到对应的文件,hdfs客户端向NameNode发起读取文件的RPC请求,确定请求文件block所在的位置;NameNode会返回文件的部分或者全部block列表,然后根据相应的算法对block列表进行排序;hdfs客户端选取排序靠前的DataNode来读取block;最后所有读取来的block会合并成一个完整的最终文件。
较佳地,本发明的系统在解码过程中利用发音字典、声学模型、语言模型信息构建WFST搜索空间,在搜索空间内寻找匹配概率最大的最优路径,得到最优的识别结果。
有益效果:本发明通过IKAnalyzer中文分词对文件进行分词、语音识别查询关键字、hdfs对文件进行分片存储和hdfs文件分片备份等技术的整合,实现了基于语音识别、IKAnalyzer分词、hdfs存储的文件存储和检索的方案,通过该方案的实现解决了电网现场作业人员手动查询作业规范所带来的不便,语音输入就能快速、方便的检索出所需的文件,同时降低了文件丢失的风险解决了手动备份文件的麻烦。
附图说明
图1为本发明的结构图;
图2为本发明语音识别流程图;
图3为本发明分词解析流程图;
图4为本发明Hdfs存储文件流程图;
图5为本发明Hdfs读取文件流程图。
具体实施方式
如图1-5所示,基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法,步骤如下:
1)将文件通过IKAnalyzer进行分词解析形成索引文件,并把索引文件进行存储;
2)通过hdfs把文件进行分片存储到hadoop服务器,同时把索引文件和hdfs分片存储的文件进行关联对应,以便通过关键字检索文件;
3)移动端输入查询关键字语音,通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。
基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索的方法的系统,由语音识别模块、IKAnalyzer分词模块、hdfs文件存储模块、文件全文检索模块组成;其中,
语音识别模块包含前端处理、特征提取、模型训练和解码四个模块;输入的语音数据流经过前端处理;经过前端处理之后的得到的分段语音数据送入特征提取模块,进行声学特征提取;最后解码模块对提取的特征数据进行解码;在解码过程中利用发音字典、声学模型、语言模型信息构建WFST搜索空间,在搜索空间内寻找匹配概率最大的最优路径,得到最优的识别结果;
IKAnalyzer分词模块分为加载词典、预处理、子分词器处理后续处理;IKAnalyzer分词模块把文件内容进行分词,形成文件对应的分词索引表;移动端语音识别到查询关键字后,通过分词索引表找到符合条件的文件把结果返回;
hdfs文件存储模块把文件进行分片并通过分布式集群来存储和备份,具体为:hdfs文件存储模块把文件分成若干block,文件的block存放在若干Datanode节点上,同时hdfs文件存储模块会把每个block进行备份存储;
当通过分词索引表找到对应的文件,hdfs客户端向NameNode发起读取文件的RPC请求,确定请求文件block所在的位置;NameNode会返回文件的部分或者全部block列表,然后根据相应的算法对block列表进行排序;hdfs客户端选取排序靠前的DataNode来读取block;最后所有读取来的block会合并成一个完整的最终文件。
以上所揭露的为本发明的优选实施例,不能以此来限定本发明之权利范围,因此依本发明申请专利范围所作的等同变化,仍属本发明所涵盖的范围。
Claims (3)
1.基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法,其特征在于,步骤如下:
1)将文件通过IKAnalyzer进行分词解析形成索引文件,并把索引文件进行存储;
2)通过hdfs把文件进行分片存储到hadoop服务器,同时把索引文件和hdfs分片存储的文件进行关联对应,以便通过关键字检索文件;
3)移动端输入查询关键字语音,通过语音识别把关键字转换为关键字文本再通过索引文件到hdfs文件服务器中检索到相应的文件。
2.使用权利要求1所述方法的系统,其特征在于,由语音识别模块、IKAnalyzer分词模块、hdfs文件存储模块、文件全文检索模块组成;其中,
语音识别模块包含前端处理、特征提取、模型训练和解码四个模块;输入的语音数据流经过前端处理;经过前端处理之后的得到的分段语音数据送入特征提取模块,进行声学特征提取;最后解码模块对提取的特征数据进行解码;
IKAnalyzer分词模块分为加载词典、预处理、子分词器处理后续处理;IKAnalyzer分词模块把文件内容进行分词,形成文件对应的分词索引表;移动端语音识别到查询关键字后,通过分词索引表找到符合条件的文件把结果返回;
hdfs文件存储模块把文件进行分片并通过分布式集群来存储和备份,具体为:hdfs文件存储模块把文件分成若干block,文件的block存放在若干Datanode节点上,同时hdfs文件存储模块会把每个block进行备份存储;
当通过分词索引表找到对应的文件,hdfs客户端向NameNode发起读取文件的RPC请求,确定请求文件block所在的位置;NameNode会返回文件的部分或者全部block列表,然后根据相应的算法对block列表进行排序;hdfs客户端选取排序靠前的DataNode来读取block;最后所有读取来的block会合并成一个完整的最终文件。
3.根据权利要求2所述的系统,其特征在于:在解码过程中利用发音字典、声学模型、语言模型信息构建WFST搜索空间,在搜索空间内寻找匹配概率最大的最优路径,得到最优的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911102132.4A CN110867179A (zh) | 2019-11-12 | 2019-11-12 | 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911102132.4A CN110867179A (zh) | 2019-11-12 | 2019-11-12 | 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110867179A true CN110867179A (zh) | 2020-03-06 |
Family
ID=69653842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911102132.4A Pending CN110867179A (zh) | 2019-11-12 | 2019-11-12 | 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110867179A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704384A (zh) * | 2021-08-27 | 2021-11-26 | 挂号网(杭州)科技有限公司 | 语音识别生成代码的方法及装置、电子设备、存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281534A (zh) * | 2008-05-28 | 2008-10-08 | 叶睿智 | 一种基于音频内容检索的多媒体资源检索方法 |
CN101510222A (zh) * | 2009-02-20 | 2009-08-19 | 北京大学 | 一种多层索引语音文档检索方法及其系统 |
CN103853612A (zh) * | 2012-12-04 | 2014-06-11 | 中山大学深圳研究院 | 一种基于分布式存储下的数字家庭内容读数据的方法 |
US20160306811A1 (en) * | 2013-12-26 | 2016-10-20 | Le Holdings (Beijing) Co., Ltd. | Method and system for creating inverted index file of video resource |
CN106250409A (zh) * | 2016-07-21 | 2016-12-21 | 中国农业银行股份有限公司 | 数据查询方法及装置 |
CN108334612A (zh) * | 2018-02-07 | 2018-07-27 | 华南理工大学 | 一种针对密文域的形近汉字全文模糊检索方法 |
CN108804592A (zh) * | 2018-05-28 | 2018-11-13 | 山东浪潮商用系统有限公司 | 知识库检索实现方法 |
-
2019
- 2019-11-12 CN CN201911102132.4A patent/CN110867179A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281534A (zh) * | 2008-05-28 | 2008-10-08 | 叶睿智 | 一种基于音频内容检索的多媒体资源检索方法 |
CN101510222A (zh) * | 2009-02-20 | 2009-08-19 | 北京大学 | 一种多层索引语音文档检索方法及其系统 |
CN103853612A (zh) * | 2012-12-04 | 2014-06-11 | 中山大学深圳研究院 | 一种基于分布式存储下的数字家庭内容读数据的方法 |
US20160306811A1 (en) * | 2013-12-26 | 2016-10-20 | Le Holdings (Beijing) Co., Ltd. | Method and system for creating inverted index file of video resource |
CN106250409A (zh) * | 2016-07-21 | 2016-12-21 | 中国农业银行股份有限公司 | 数据查询方法及装置 |
CN108334612A (zh) * | 2018-02-07 | 2018-07-27 | 华南理工大学 | 一种针对密文域的形近汉字全文模糊检索方法 |
CN108804592A (zh) * | 2018-05-28 | 2018-11-13 | 山东浪潮商用系统有限公司 | 知识库检索实现方法 |
Non-Patent Citations (2)
Title |
---|
LITTLE豪斯: "《IKAnalyzer流程总结》", 《CSDN》 * |
柴洁: "《基于IKAnalyzer和Lucene的地理编码中文搜索引擎的研究与实现》", 《城市勘测》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704384A (zh) * | 2021-08-27 | 2021-11-26 | 挂号网(杭州)科技有限公司 | 语音识别生成代码的方法及装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753099B (zh) | 一种基于知识图谱增强档案实体关联度的方法及系统 | |
US8341112B2 (en) | Annotation by search | |
US7272558B1 (en) | Speech recognition training method for audio and video file indexing on a search engine | |
US8126897B2 (en) | Unified inverted index for video passage retrieval | |
WO2017084506A1 (zh) | 搜索查询词纠错方法和装置 | |
CN111309877A (zh) | 一种基于知识图谱的智能问答方法及系统 | |
US10713302B2 (en) | Search processing method and device | |
US9317608B2 (en) | Systems and methods for parsing search queries | |
CN106205613B (zh) | 一种导航语音识别方法及系统 | |
WO2012159558A1 (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
CN102110123A (zh) | 倒排索引建立方法 | |
CN103914570A (zh) | 基于字符串相似度算法的智能客服搜索方法与系统 | |
CN104199956A (zh) | 一种erp数据语音搜索方法 | |
EP3926484A1 (en) | Improved fuzzy search using field-level deletion neighborhoods | |
CN106021532B (zh) | 关键词的显示方法和装置 | |
US10726075B2 (en) | Streamlining and searching document text | |
CN111782817A (zh) | 一种面向信息系统的知识图谱构建方法、装置及电子设备 | |
US20200192924A1 (en) | Natural language query system | |
CN110867179A (zh) | 基于语音识别、IKAnalyzer分词和hdfs的文件存储及检索方法和系统 | |
CN109684357B (zh) | 信息处理方法及装置、存储介质、终端 | |
CN101650716A (zh) | 多国语言翻译系统及其方法 | |
CN112015856A (zh) | 一种IPTV中基于Elasticsearch实现拼音检索方法 | |
CN116578666B (zh) | 段句位的倒排索引结构设计及其限定运算全文检索的方法 | |
Alexakis et al. | Evaluation of Content Fusion Algorithms for Large and Heterogeneous Datasets | |
CN115982320A (zh) | 一种基于医疗设备手册说明的语义相似度检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200306 |