CN102956232A - 嵌入式智能语音处理引擎 - Google Patents
嵌入式智能语音处理引擎 Download PDFInfo
- Publication number
- CN102956232A CN102956232A CN 201110236368 CN201110236368A CN102956232A CN 102956232 A CN102956232 A CN 102956232A CN 201110236368 CN201110236368 CN 201110236368 CN 201110236368 A CN201110236368 A CN 201110236368A CN 102956232 A CN102956232 A CN 102956232A
- Authority
- CN
- China
- Prior art keywords
- speech
- cluster
- clients
- processing engine
- distributed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种嵌入式智能语音处理引擎:一种嵌入式智能语音处理引擎的实现方法,其特征在于包括如下步骤:用户客户端从音频文件中提取文件的语音特征参数,上传至服务器;服务器接收文件后,识别语音参数,进行特征比对和语句判别,并从数据库中调取相应的语音文件,将该语音文件返回客户端。具有如下特点:1.模块的小型化,为适应分布式的系统模式,将庞大的语料库与相应的计算处理进行动态调度,实施网络分布式管理,减小客户端承载压力。2.分布式并行计算对于语音识别,引擎在客户端对接收的发音信号进行实时运算,实时提取其语音特征后提交服务器进行多服务器分布式联动匹配计算,获取对应音素数据后返回。
Description
技术领域
本发明设计一种远程语音处理系统,尤其设计一种分布嵌入式智能语音处理引擎。
背景技术
分布式语音识别伴随着无线网络的推广应运而生,其基本思路是将语音识别过程分成几个功能相对独立的模块,将这几个模块的计算分布到网络上的不同设备,通过定义和规范模块接口使模块协同工作,共同完成语音识别,提高了语音识别性能。它的优点是对终端计算能力和存储量要求低、灵活性强,为嵌入式系统的语音技术应用开辟了新道路。
语音合成技术在2000年时已达到用户基本可接受的准实用水平,2005年开始获得了较为广泛的应用。未来语音合成技术将从清晰度和自然度的要求上升至对个性化合成的要求,如对语音、语调、情绪的丰富性要求等。
发明内容
针对以上亟待解决的问题的提出,本发明提供了一种嵌入式智能语音处理引擎:
一种嵌入式智能语音处理引擎的实现方法,其特征在于包括如下步骤:
用户客户端从音频文件中提取文件的语音特征参数,上传至服务器;
服务器接收文件后,识别语音参数,进行特征比对和语句判别,并从数据库中调取相应的语音文件,将该语音文件返回客户端。
所述客户端包括语音识别集群SRC(Speech recognize Cluster)和语音合成集群SSC(Speech Synthesis Cluster)。
语音识别集群SRC(Speech recognize Cluster)和语音合成集群SSC(SpeechSynthesis Cluster)采用Master/Slave结构,该Master/Slave架构中Master负责Slave的调度管理。
由于采用了上述技术方案本发明提供的分布式智能语音处理引擎具有如下突出的特点:
1.模块的小型化,为适应分布式的系统模式,将庞大的语料库与相应的计算处理进行动态调度,实施网络分布式管理,减小客户端承载压力。
2.分布式并行计算对于语音识别,引擎在客户端对接收的发音信号进行实时运算,实时提取其语音特征后提交服务器进行多服务器分布式联动匹配计算,获取对应音素数据后返回。对于语音识别,引擎将待合成文本直接提交到后台进行分布式处理。
附图说明
本发明只有一幅附图
图1为本发明的结构示意图
具体实施方式
图1为本发明的结构示意图,如图1所示:一种嵌入式智能语音处理引擎的实现方法,包括
用户客户端从音频文件中提取文件的语音特征参数,上传至服务器;
服务器接收文件后,识别语音参数,进行特征比对和语句判别,并从数据库中调取相应的语音文件,将该语音文件返回客户端。语音识别分为特征提取和特征比对、词句判别两个阶段,分布式语音识别(DSR)技术采用客户机/服务器方法,整个处理过程分布于终端和网络两端。终端执行语音特征参数提取任务,是语音识别系统的前端。提取的特征参数传输至服务器端识别器。服务器端识别器负责特征比对和词句判别。
所述客户端包括语音识别集群SRC(Speech recognize Cluster)和语音合成集群SSC(Speech Synthesis Cluster)。
语音识别集群SRC(Speech recognize Cluster)和语音合成集群SSC(SpeechSynthesis Cluster)采用Master/Slave结构,该Master/Slave架构中Master负责Slave的调度管理。语音识别和合成的后台服务基于分布式架构,主要采用Master/Slave结构,Master负责Slave的调度管理,在Slave失效时进行其他Slave节点的动态迁移。计算时,运用Map/Reduce原理进行运算的分解,最终将结果整合起来反馈给客户端。
Claims (3)
1.一种嵌入式智能语音处理引擎的实现方法,其特征在于包括如下步骤:
用户客户端从音频文件中提取文件的语音特征参数,上传至服务器;
服务器接收文件后,识别语音参数,进行特征比对和语句判别,并从数据库中调取相应的语音文件,将该语音文件返回客户端。
2.根据权利要求1所述的一种嵌入式智能语音处理引擎的实现方法,其特征还在于:所述客户端包括语音识别集群Speech recognize Cluster和语音合成集群Speech Synthesis Cluster。
3.根据权利要求2所述的一种嵌入式智能语音处理引擎的实现方法,其特征还在于:语音识别集群SRC和语音合成集群SSC采用Master/Slave结构,该Master/Slave架构中Master负责Slave的调度管理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110236368 CN102956232A (zh) | 2011-08-17 | 2011-08-17 | 嵌入式智能语音处理引擎 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110236368 CN102956232A (zh) | 2011-08-17 | 2011-08-17 | 嵌入式智能语音处理引擎 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102956232A true CN102956232A (zh) | 2013-03-06 |
Family
ID=47764964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110236368 Pending CN102956232A (zh) | 2011-08-17 | 2011-08-17 | 嵌入式智能语音处理引擎 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102956232A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110289015A (zh) * | 2019-05-27 | 2019-09-27 | 北京大米科技有限公司 | 一种音频处理方法、装置、服务器、存储介质及系统 |
-
2011
- 2011-08-17 CN CN 201110236368 patent/CN102956232A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110289015A (zh) * | 2019-05-27 | 2019-09-27 | 北京大米科技有限公司 | 一种音频处理方法、装置、服务器、存储介质及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102018010463B3 (de) | Tragbare Vorrichtung, computerlesbares Speicherungsmedium, Verfahren und Einrichtung für energieeffiziente und leistungsarme verteilte automatische Spracherkennung | |
CN109192213B (zh) | 庭审语音实时转写方法、装置、计算机设备及存储介质 | |
CN106971741B (zh) | 实时将语音进行分离的语音降噪的方法及系统 | |
CN102013254A (zh) | 一种数字电视语音识别人机交互系统及方法 | |
CN109754790B (zh) | 一种基于混合声学模型的语音识别系统及方法 | |
CN103559879B (zh) | 语种识别系统中声学特征提取方法及装置 | |
CN103164403B (zh) | 视频索引数据的生成方法和系统 | |
CN108986797B (zh) | 一种语音主题识别方法及系统 | |
CN104036774A (zh) | 藏语方言识别方法及系统 | |
CN102496364A (zh) | 基于云端网络的交互式语音识别方法 | |
CN105118501A (zh) | 语音识别的方法及系统 | |
CN103871402A (zh) | 语言模型训练系统、语音识别系统及相应方法 | |
CN101154379A (zh) | 定位语音中的关键词的方法和设备以及语音识别系统 | |
CA2520420A1 (en) | Apparatus and method for spoken language understanding by using semantic role labeling | |
CN107146615A (zh) | 基于匹配模型二次识别的语音识别方法及系统 | |
CN104658538A (zh) | 一种基于鸟鸣声的移动式鸟类识别方法 | |
WO2016119604A1 (zh) | 一种语音信息搜索方法、装置及服务器 | |
CN103295575A (zh) | 一种语音识别方法和客户端 | |
CN101950560A (zh) | 一种连续语音声调识别方法 | |
CN104199825A (zh) | 一种信息查询方法和系统 | |
CN101256768A (zh) | 用于语种识别的时频二维倒谱特征提取方法 | |
CN113823275A (zh) | 一种用于电网调度的语音识别方法及系统 | |
CN111145746A (zh) | 一种基于人工智能语音的人机交互方法 | |
CN110265000A (zh) | 一种实现快速语音文字记录的方法 | |
CN110544482A (zh) | 一种单通道语音分离系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130306 |