CN105827504A - 一种语音信息的传输方法、移动终端和系统 - Google Patents

一种语音信息的传输方法、移动终端和系统 Download PDF

Info

Publication number
CN105827504A
CN105827504A CN201510864077.8A CN201510864077A CN105827504A CN 105827504 A CN105827504 A CN 105827504A CN 201510864077 A CN201510864077 A CN 201510864077A CN 105827504 A CN105827504 A CN 105827504A
Authority
CN
China
Prior art keywords
voice messaging
wavelet
voice
message queue
transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510864077.8A
Other languages
English (en)
Inventor
李仁军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN201510864077.8A priority Critical patent/CN105827504A/zh
Publication of CN105827504A publication Critical patent/CN105827504A/zh
Pending legal-status Critical Current

Links

Abstract

本发明实施例提供了一种语音信息的传输方法、装置和系统,涉及通信领域,以解决以录音文件的形式传输语音信息需要消耗较大的数据流量的问题。技术方案包括:接收用户输入的原始语音信息和发送指令;对所述原始语音信息进行语音识别,得到对应的传输文字信息;将所述传输文字信息生成对应编码消息队列后发送至所述发送指令对应的接收终端。本发明实施例提供的技术方案可以应用在即时聊天、发送语音附件等场景下。

Description

一种语音信息的传输方法、移动终端和系统
技术领域
本发明涉及通信领域,特别是涉及一种语音信息的传输方法、移动终端和系统。
背景技术
随着智能手机、平板电脑等终端的普及,与其适配的各种即时消息的社交软件也层出不穷,并我们的日常生活里得到了广泛而频繁的使用。在联网状态下,它们能够支持文字、语音、图片及附件等消息的聊天和共享。相比文字消息聊天,语音信息聊天的输入更为便捷,也多了一份神秘感,在聊天过程中也越来越多地被用户使用到。
然而,由于语音信息一般是以录音文件的形式传输的,因此语音信息传输需要消耗较大的数据流量。
发明内容
本发明实施例的目的在于提供一种语音信息的传输方法、移动终端和系统,以解决以录音文件的形式传输语音信息需要消耗较大的数据流量的问题。
为了解决上述问题,本发明公开了一种语音信息的传输方法,包括:接收用户输入的原始语音信息和发送指令;对所述原始语音信息进行语音识别,得到对应的传输文字信息;将所述传输文字信息生成对应编码消息队列后发送至所述发送指令对应的接收终端。
为了解决上述问题,本发明还公开了一种语音信息的传输方法,包括:接收发送终端发送的编码消息队列,所述编码消息队列由原始语音信息识别得到的传输文字信息生成的,所述原始语音信息为用户在所述发送终端上输入的语音信息;对所述编码消息队列进行解码,得到对应的传输文字信息;对所述传输文字信息进行语音合成,得到合成语音信息;输出所述合成语音信息。
为了解决上述问题,本发明又提供了一种移动终端,作为消息发送方,包括:
录入模块,用于接收用户输入的原始语音信息和发送指令;
识别模块,与所述录入模块相连,用于对所述原始语音信息进行语音识别,得到对应的传输文字信息;
发送模块,分别与所述录入模块和识别模块相连,用于将所述传输文字信息生成对应编码消息队列后发送至所述发送指令对应的接收终端。
为了解决上述问题,本发明还提供一种移动终端,作为消息接收方,包括:
接收模块,用于接收发送终端发送的编码消息队列,所述编码消息队列由原始语音信息识别得到的传输文字信息生成的,所述原始语音信息为用户在所述发送终端上输入的语音信息;
解码模块,与所述接收模块相连,用于对所述编码消息队列进行解码,得到对应的传输文字信息;
合成模块,与所述解码模块相连,用于对所述传输文字信息进行语音合成,得到合成语音信息;
输出模块,与所述合成模块相连,用于输出所述合成语音信息。
为了解决上述问题,本发明再提供一种语音信息的传输系统,包括:
发送终端,用于接收用户输入的原始语音信息和发送指令;对所述原始语音信息进行语音识别,得到对应的传输文字信息;将所述传输文字信息生成对应编码消息队列后发送至所述发送指令对应的接收终端;
所述接收终端,与所述发送终端相连,用于接收所述发送终端发送的编码消息队列;对所述编码消息队列进行解码,得到对应的传输文字信息;对所述传输文字信息进行语音合成,得到合成语音信息;输出所述合成语音信息。
本发明实施例提供的语音信息的传输方法、移动终端和系统,将语音信息转化为文字信息后发送至接收终端;由于语音信息以文字的形式传输,从而减少了传输语音信息所消耗的数据流量,实现了省流量的语音信息传输。进一步地,通过减少语音中的噪声,可以进一步减少流量且更准确地获得文字信息。
附图说明
图1是本发明实施例1提供的语音信息的传输方法的流程图;
图2是本发明实施例2提供的语音信息的传输方法的流程图;
图3是本发明实施例3提供的移动终端的结构示意图;
图4为图3所示的移动终端中识别模块的结构示意图;
图5为图3所示的移动终端中发送模块的结构示意图;
图6是本发明实施例4提供的移动终端的结构示意图;
图7为图6所示的移动终端中解码模块的结构示意图;
图8为图6所示的移动终端中合成模块的结构示意图;
图9是本发明实施例5提供的语音信息的传输系统的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
如图1所示,本发明实施例提供一种语音信息的传输方法,包括:
步骤101,接收用户输入的原始语音信息和发送指令。
在本实施例中,用户终端可以通过麦克风、耳麦等接收原始语音信息,可以通过按键、触摸屏等接收用户输入的发送指令。
步骤102,对该原始语音信息进行语音识别,得到对应的传输文字信息。
在本实施例中,通过步骤102进行语音识别时,可以直接对原始语音信息进行语音识别。为了提高语音识别率,还可以首先对原始语音信息进行处理,得到处理语音信息;然后对处理语音信息进行语音识别。对原始语音信息进行处理后识别时,通过步骤102对原始语音信息进行语音识别,包括:将原始语音信息进行小波变换去噪,得到去噪语音信息;对该去噪语音信息进行语音识别,得到对应的传输文字信息。其中,对该去噪语音信息进行语音识别,得到对应的传输文字信息,包括:对去噪语音信息进行关键字识别,得到至少一个关键字;根据至少一个关键字对去噪语音信息进行模糊匹配,得到去噪语音信息对应的传输文字信息。该小波变换去噪使用的方法具体可以为基于小波变换的幅度阈值去噪方法;此时,对去噪语音信息进行小波变换去噪,包括获取小波基和小波变换分解层数;根据所述小波基和小波变换分解层数N对所述原始语音信号进行小波分解,得到一组小波系数wj,k;根据每层小波变换的高频系数,分别对所述一组小波系数进行阈值处理,得到估计小波系数获取小波分解的最后一层的低频系数;将所述最后一层的低频系数和所述估计小波系数进行离散小波重构,得到去噪语音信息。
在本实施例中,含噪语音信号的数学模型:
f(t)=s(t)+n(t)(2.1)
其中f(t),s(t),n(t)分别代表带噪语音、纯净语音和噪声信号。本文中研究的噪声符合如下的假设:
(1)噪声是加性的,是方差为σ2的高斯自噪声,服从N(0,σ2)。
(2)噪声是局部平稳的。局部平稳是指一段带噪语音中的噪声,具有和语音段开始前那段噪声相同的统计特性,且在整个语音段中保持不变。也就是说,可以根据语音开始前那段噪声来估计语音中所叠加的噪声统计特性。
(3)噪声与语音统计独立或不相关。
(4)只有带噪语音可以利用,没有其他参考信号。
对于语音信号f(t)来说,对其离散采样,得到N点离散信号f(n),n=1,2,3,...,N-1,其小波变换为
W f ( j , k ) = 2 j 2 Σ n = 0 N - 1 f ( n ) ψ ( 2 - j n - k ) - - - ( 2.2 )
Wf(j,k)即为小波系数;小波指的是小波基,即小波变换的类型。目前常见的几种小波基,如Haar小波、Daubechies小波、Biorthgonal小波、Coiflets小波、Symlets小波、MexicanHat小波、Morlet小波、Meyer小波。各个小波的正交性、紧支撑性、消失矩、正则性和对称性等性质的不尽相同,不同的小波基对信号的描述也是不同的,小波基函数的选择会对降噪效果产生一定的影响。降噪的第一步就是选择合适的基小波。小波基的应用大多是挖掘其用很少的非零小波系数去有效逼近特殊的函数类的能力,因此,要选择最优小波基以产生最多的接近零的小波系数。比如对跳变较多的信号,Haar小波基比较合用;对由分段多项式结构组成的信号,Daubechies小波比较合用。
但是在实际应用中,直接利用(2.2)式计算是比较繁琐的,况且ψ(t)一般没有显式表达式,这里需要引入双尺度方程(2.3.1)和(2.3.2)式:
其中和ψ(t)分别为尺度空间和小波空间的一个标准正交基函数,展开系数h0(k)和h1(k)分别为:
由于式(2.3.1)和(2.3.2)描述的是相邻两尺度空间基函数之间的关系,所以称此二式为二尺度方程,并且二尺度方程存在于任意相邻两尺度j和j-1之间,也即:
并且展开系数h0(k)和h1(k)不随尺度j的变化而变化,k∈Z。
借助上述的双尺度方程,从而得到小波变换的递归实现方法:
Sf(j+1,k)=Sf(j,k)*h(j,k)(2.3)
Wf(j+1,k)=Sf(j,k)*g(j,k)(2.4)
其中h和g分别是对应于尺度函数和小波函数ψ(x)的低通和高通去噪器,Sf(0,k)为原始信号f(k),Sf(j,k)为尺度系数,Wf(j,k)为小波系数。相应地,小波变换重构公式为:
S f ( j - 1 , k ) = S f ( j , k ) * h ~ ( j , k ) + W f ( j , k ) * g ~ ( j , k ) - - - ( 2.5 )
其中分别对应于重构低通和高通去噪器。
为了方便起见,小波系数Wf(j,k)简记为wj,k。由于小波变换是线性变换,所以对带噪信号f(t)=s(t)+n(t)作离散小波变换成f(k)=s(k)+n(k)后,得到的小波系数wj,k仍由两部分组成,一部分是真实信号s(k)对应的小波系数,记为uj,k,另一部分是噪声n(k)对应的小波系数,记为vj,k
上述基于小波变换的幅度阈值去噪方法的基本原理为由于语音信息可能会掺杂一定噪声,因此将此音源信息经过小波变换后,有效的语音信息会集中在小波域的低频带,而噪声则分布在所有的小波系数中。对于高频带,少数绝对值较大的重要的小波系数,含有语音的重要奇异特性。通过选择一个合适的阈值,对通过小波变换后得到的各个子波作适当的阈值处理,将小于阈值的小波系数(由噪声信号产生)置零,而保留大于阈值的小波系数(由有效语音信号产生),从而就得到了更为“干净”的语音信息,以提高语音识别的准确率,尤其在一些相对嘈杂的环境下语音识别的准确率更高。
在本实施例中,分解层次一般是3-5层,经Matlab实验模拟,若输入的语音信息信噪比大于等于20db,则分解层数N=3,否则使N=5。带有噪声的信号f(t)就是原始语音信息,在进行小波变换前,需要先对原始语音信息进行离散采样得到离散信号f(n)。注:采样点数N和小波分解层次N不是同一个,采样频率可为8kHz-48kHz,分解层次3-5层。。高频系数指的每一层级信号分解下的高频信号的小波系数,低频系数则指的每一层信号分解下的低频信号的小波系数。语音信号频率范围和小波分解的频率分布决定了小波分解的层数,语音信号的频率范围一般为300~3400Hz,对于采样率为8kHz的语音信号,如继续进行第五层分解,则五级的低频部分的频率范围将是0~250Hz,为无效的语音信号频率,故一般只做4层小波分解。
在本实施例中,每一层高频系数选择一个阈值。使用半软阈值(semisoftshrinkage)函数。对wj,k进行阈值处理得到估计小波系数
w ^ j , k = w j , k | w j , k | > λ 2 sgn ( w j , k ) λ 2 ( | w j , k | - λ 1 ) λ 2 - λ 1 λ 1 ≤ | w j , k | ≤ λ 2 0 | w j , k | > λ 1 - - - ( 8.1 )
其中0<λ12。其中,λ1和λ2分别称为下阈值和上阈值,至于这两个阈值该如何选取,一般地可取σ为噪声标准差,N为信号采样点数;而λ1的选取与信号的形式有关:对于细节较多的信号,可将其取得较小,这样有利于保持信号的细节;对于细节较少的信号,一般将其取得较大,这样更有利于去噪。
在本实施例中,将最后一层的低频系数和估计小波系数进行离散小波重构,为进行小波反变换,即公式2.5。
本语音识别模块中定制了各领域相关或相似的关键词库,如成语俗语、电影电视、生活娱乐、体育运动、城市和景点、药品、自然科学、人文科学等。而日常的口语交流语句中,一般包含两部分信息:一个是语句的句式,如情景问候、事件咨询或回答等;另一个则是语句中的关键词汇,例如去哪玩、吃饭、上午九点、下班、北京、兰州拉面、天虹超市等等。
关键字识别基于一种统计分析的方法,能够更快的提取有用信息,帮助模糊匹配的语言、语法规则定位和校准。模糊匹配则是根据该语言下的日常口语交流和词汇语法规则,达到介词的补全或关键词的修正。能够较好的忽略小波变换去噪没能过滤的杂音;同时,也可以自动补替因小波变换去噪中丢失或变形的有效词汇信息。
例如小波变换去噪后通过语音合成模块生成的文字为“今晚哪里吃饭,是在肯的鸡”。首先提取有效的一些关键词汇,如“哪里”、“吃饭”;然后,分析语句语法规则,判断状语“今晚”和宾语“哪里”可能缺少一个“动词”,另外根据词库中“哪里”的组合,存在高概率动宾词汇组“去哪里”、“在哪里”,因此可能生成“今晚去哪吃饭”或者“今晚在哪里吃饭”;另一方面,分析语句总得意思是表达的饮食,所以,介词“在”后应该是个具有关键特征的名词,就会去饮食类的关键词库中,匹配和“肯的鸡”发音相同或相似的名词组,并根据系统的使用概率统计,选择概率最高,也就是“肯德基”;最后,因为语句包含“哪里”,属于一个疑问语句,故在名字“肯德基”后补上“吗?”或者“么?”。从而最终得到的语句则可以是:“今晚去哪里吃饭,是在肯德基吗?”,“今晚在哪里吃饭,是在肯德基吗?”,“今晚去哪里吃饭,是在肯德基么?”,“今晚在哪里吃饭,是在肯德基么?”。当然,这四条语句是最终选择概率最高的那一个。
其中,关键字识别可以基于一种统计分析的方法,从而能够快速从去噪语音信息中提取有用信息,帮助模糊匹配所使用的语言、语法规则进行定位和校准;模糊匹配可以是根据语言和语法规则进行匹配,从而能够较好的忽略去噪过程没有过滤的杂音,也可以自动补替去噪过程中丢失或者变形的有效词汇信息,从而克服语音转换为文字时的语法、语序的不确定性以及方言的多样性等问题,进而更进一步提高语音识别能力。
步骤103,将传输文字信息生成对应编码消息队列后发送至发送指令对应的接收终端。
在本实施例中,可以直接将传输文字信息生成编码消息队列后发送;为了防止接收终端混淆普通文字信息和通过语音转换得到的文字信息,还可以预先设置语音转换标记,此时,步骤103包括:获取原始语音信息的语种信息;将传输文字信息、语种信息和预设语音转换标记生成对应的编码消息队列;发送编码消息队列至发送指令对应的接收终端。
在本实施例中,可以使用目前通用的十六进制的文字编码方式。其中,英文字符为7位编码(编码位值为00),中文字符为UCS2编码(编码位值为08)。然后,使用编码方式位的保留值,如10、18,来确认其最终是需要转换为语音消息的文字编码。
在本实施例中,所有需要传输语音信息的场景,如即时聊天、发送语音附件等,均可以直接执行上述过程;为方便用户使用,上述过程也可以仅在用户指示后执行,用户未指示时,以现有方式传输语音信息。
本发明实施例提供的语音信息的传输方法,将语音信息转化为文字信息后发送至接收终端;由于语音信息以文字的形式传输,从而减少了传输语音信息所消耗的数据流量,实现了省流量的语音信息传输。进一步地,通过减少语音中的噪声,可以进一步减少流量且更准确地获得文字信息。
实施例2
如图2所示,本发明实施例提供一种语音信息的传输方法,包括:
步骤201,接收发送终端发送的编码消息队列。
在本实施例中,步骤201中编码消息队列由原始语音信息去噪、识别得到的传输文字信息生成的,所述原始语音信息为用户在所述发送终端上输入的语音信息。具体的,该编码消息队列的生成过程,与本发明实施例1提供的过程相似,在此不再一一赘述。
步骤202,对编码消息队列进行解码,得到对应的解码文字信息。
在本实施例中,如果编码消息队列为传输文字信息直接生成的,则可以直接通过步骤202对编码消息队列进行解码;如果编码消息队列为传输文字信息、语种信息和语种转换标记生成的,则步骤202包括:从编码消息队列中去除预设语音转换标记,得到第一消息队列;提取所述第一消息队列中的语种信息,并从所述第一消息队列中去除所述语种信息,得到第二消息队列;对所述第二消息队列进行解码,得到解码文字信息。
步骤203,对该解码文字信息进行语音合成,得到合成语音信息。
在本实施例中,通过步骤203对该解码文字信息进行语音合成,包括:根据所述解码文字信息和语种信息,获取对应的语音合成规则;根据所述语音合成规则从预设波形编码数据库中采集波形编码;根据预设语音转换标记,将所述波形编码进行转换合成,得到合成语音信息。其中,获取语音合成规则的方式可以为首先根据解码文字信息和语种信息,确定对应的国家语言;然后根据对应的国家语言获取最为合适的文字发音停顿、语气和语法规则等语音合成规则。
通过上述过程进行语音合成,能够合成出较为口语化的语音信息,从而实现真音还原。
在本实施例中,语音合成时使用目前广泛被使用的波形拼接法。在语音合成模块中存放所有音节的波形编码,每个波形编码有对应的索引文件,记录了该音节的起始位置和长度,以提高数据查找匹配的速度。根据每个输入的文字或单词的拼音、声调、停顿等音律信息,从语音合成模型库中挑选合适的波形编码;然后判断当前语句中的文字对应的国家语言(中文或英文)和句式,获取较为合适的文字发音停顿、语气等,创建对应音节的起始位置和音频速率变化规则,以调整波形数据的频率和振幅,最终达到调节合成的语音的音频和语速,最后拼接起来输出较为口语化的语音信息。
每个音节的波形数据有这对应的默认的音频,通过文字的特性判断其语调或语气等(陈述、疑问),以调整波形数据的频率和振幅,最终达到调节合成的语音的音频和语速,使之显得更符使用场景。
步骤204,输出该合成语音信息。
本发明实施例提供的语音信息的传输方法,接收发送终端发送的由语音信息转化得到的文字信息,并对文字信息进行解码和语音合成,从而实现语音信息的传输;由于语音信息以文字的形式传输,从而减少了传输语音信息所消耗的数据流量,实现了省流量的语音信息传输。进一步地,通过减少语音中的噪声,可以进一步减少流量且更准确地获得文字信息。
实施例3
如图3所示,本发明实施例提供一种移动终端,包括:
录入模块301,用于接收用户输入的原始语音信息和发送指令;
识别模块302,与所述录入模块相连,用于对所述原始语音信息进行语音识别,得到对应的传输文字信息;
发送模块303,分别与所述录入模块和识别模块相连,用于将所述传输文字信息生成对应编码消息队列后发送至所述发送指令对应的接收终端。
在本实施例中,通过录入模块301、识别模块302发送模块303实现语音信息的传输的过程,与本发明实施例1提供的过程相似,在此不再一一赘述。
进一步的,如图4所示,本发明实施例提供的移动终端中识别模块302,包括:
去噪子模块3021,用于将所述原始语音信息进行小波变换去噪,得到去噪语音信息;
识别子模块3022,用于对所述去噪语音信息进行语音识别,得到对应的传输文字信息。
此时,识别子模块3022,包括:关键词获取单元30221,用于对所述去噪语音信息进行关键字识别,得到至少一个关键字;
匹配单元30222,用于根据所述至少一个关键字对所述去噪语音信息进行模糊匹配,得到所述去噪语音信息对应的传输文字信息。
去噪子模块3021,包括:获取单元30211,其用于获取小波基和小波变换分解层数;
小波分解单元30212,其用于根据所述小波基和小波变换分解层数,对所述原始语音信号进行小波分解,得到一组小波系数;
小波系数获取单元30213,其用于根据每层小波变换的高频系数,分别对所述一组小波系数进行阈值处理,得到估计小波系数;
低频系数获取单元30214,其用于获取小波分解的最后一层的低频系数;
离散重构单元30215,其用于将所述最后一层的低频系数和所述估计小波系数进行离散小波重构,得到去噪语音信息。
在本实施例中,通过上述模块实现去噪和识别的过程,与本发明实施例1提供的过程相似,在此不再一一赘述。
进一步的,如图5所示,本实施例提供的移动终端中发送模块303,包括:
语音获取单元3031,其用于获取所述原始语音信息的语种信息;
生成单元3032,其用于将所述传输文字信息、语种信息和预设语音转换标记生成对应的编码消息队列;
发送单元3033,其用于发送所述编码消息队列至所述发送指令对应的接收终端。
本发明实施例提供的移动终端,将语音信息转化为文字信息后发送至接收终端;由于语音信息以文字的形式传输,从而减少了传输语音信息所消耗的数据流量,实现了省流量的语音信息传输。进一步地,通过减少语音中的噪声,可以进一步减少流量且更准确地获得文字信息。
实施例4
如图6所示,本发明实施例提供一种移动终端,包括:
接收模块601,用于接收发送终端发送的编码消息队列,所述编码消息队列由原始语音信息识别得到的传输文字信息生成的,所述原始语音信息为用户在所述发送终端上输入的语音信息;
解码模块602,与所述接收模块相连,用于对所述编码消息队列进行解码,得到对应的传输文字信息;
合成模块603,与所述解码模块相连,用于对所述传输文字信息进行语音合成,得到合成语音信息;
输出模块604,与所述合成模块相连,用于输出所述合成语音信息。
在本实施例中,通过接收模块601、解码模块602、合成模块603和输出模块604实现语音信息的传输的过程,与本发明实施例2提供的过程相似,在此不再一一赘述。具体的,发送终端的结构,与本发明实施例3提供的相似,在此不再一一赘述。
进一步的,如图7所示,本实施例提供的移动终端中解码模块602,包括:
第一获取单元6021,用于从所述编码消息队列中去除预设语音转换标记,得到第一消息队列;
提取单元6022,用于提取所述第一消息队列中的语种信息,并从所述第一消息队列中去除所述语种信息,得到第二消息队列;
解码单元6023,用于对所述第二消息队列进行解码,得到所述传输文字信息。
在本实施例中,通过第一获取单元6021、提取单元6022和解码单元6023实现解码的过程与本发明实施例2提供的过程相似,在此不再一一赘述。
进一步的,如图8所示,本实施例提供的移动终端中合成模块603,包括:
获取单元6031,用于根据所述传输文字信息和语种信息,获取对应的语音合成规则;
采集单元6032,用于根据所述语音合成规则从预设波形编码数据库中采集波形编码;
合成单元6033,用于根据预设语音转换标记,将所述波形编码进行转换合成,得到合成语音信息。
在本实施例中,通过获取单元、采集单元和合成单元实现合成的过程,与本发明实施例2提供的过程相似,在此不再一一赘述。
本发明实施例提供的移动终端,接收发送终端发送的由语音信息转化得到的文字信息,并对文字信息进行解码和语音合成,从而实现语音信息的传输;由于语音信息以文字的形式传输,从而减少了传输语音信息所消耗的数据流量,实现了省流量的语音信息传输。进一步地,通过减少语音中的噪声,可以进一步减少流量且更准确地获得文字信息。
实施例5
如图9所示,本发明实施例提供一种语音信息的传输系统,包括:
发送终端901,用于接收用户输入的原始语音信息和发送指令;对所述原始语音信息进行语音识别,得到对应的传输文字信息;将所述传输文字信息生成对应编码消息队列后发送至所述发送指令对应的接收终端;
所述接收终端902,与所述发送终端相连,用于接收所述发送终端发送的编码消息队列;对所述编码消息队列进行解码,得到对应的传输文字信息;对所述传输文字信息进行语音合成,得到合成语音信息;输出所述合成语音信息。
在本实施例中,发送终端901的结构及其实现语音信息的传输的过程,与本发明实施例3提供的相似,在此不再一一赘述;接收终端902的结构及其实现与语音信息的传输的过程,与本发明实施例4提供的相似,在此不再一一赘述。
本发明实施例提供的语音信息的传输系统,将语音信息转化为文字信息后发送至接收终端;由于语音信息以文字的形式传输,从而减少了传输语音信息所消耗的数据流量,实现了省流量的语音信息传输。进一步地,通过减少语音中的噪声,可以进一步减少流量且更准确地获得文字信息。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种调整充电电路发热量的方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (17)

1.一种语音信息的传输方法,其特征在于,包括:
接收用户输入的原始语音信息和发送指令;
对所述原始语音信息进行语音识别,得到对应的传输文字信息;
将所述传输文字信息生成对应编码消息队列后发送至所述发送指令对应的接收终端。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始语音信息进行语音识别,得到对应的传输文字信息的步骤,包括:
将所述原始语音信息进行小波变换去噪,得到去噪语音信息;
对所述去噪语音信息进行语音识别,得到对应的传输文字信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述去噪语音信息进行语音识别,得到对应的传输文字信息的步骤包括:
对所述去噪语音信息进行关键字识别,得到至少一个关键字;
根据所述至少一个关键字对所述去噪语音信息进行模糊匹配,得到所述去噪语音信息对应的传输文字信息。
4.根据权利要求2所述的方法,其特征在于,所述将所述原始语音信息进行小波变换去噪,得到去噪语音信息的步骤包括:
获取小波基和小波变换分解层数;
根据所述小波基和小波变换分解层数,对所述原始语音信号进行小波分解,得到一组小波系数;
根据每层小波变换的高频系数,分别对所述一组小波系数进行阈值处理,得到估计小波系数;
获取小波分解的最后一层的低频系数;
将所述最后一层的低频系数和所述估计小波系数进行离散小波重构,得到去噪语音信息。
5.根据权利要求1所述的方法,其特征在于,所述将所述传输文字信息生成对应编码消息队列后发送至所述发送指令对应的接收终端的步骤包括:
获取所述原始语音信息的语种信息;
将所述传输文字信息、语种信息和预设语音转换标记生成对应的编码消息队列;
发送所述编码消息队列至所述发送指令对应的接收终端。
6.一种语音信息的传输方法,其特征在于,包括:
接收发送终端发送的编码消息队列,所述编码消息队列由原始语音信息识别得到的传输文字信息生成的,所述原始语音信息为用户在所述发送终端上输入的语音信息;
对所述编码消息队列进行解码,得到对应的传输文字信息;
对所述传输文字信息进行语音合成,得到合成语音信息;
输出所述合成语音信息。
7.根据权利要求6所述的方法,其特征在于,所述对所述编码消息队列进行解码,得到对应的传输文字信息的步骤包括:
从所述编码消息队列中去除预设语音转换标记,得到第一消息队列;
提取所述第一消息队列中的语种信息,并从所述第一消息队列中去除所述语种信息,得到第二消息队列;
对所述第二消息队列进行解码,得到所述传输文字信息。
8.根据权利要求7所述的方法,其特征在于,所述对所述传输文字信息进行语音合成,得到合成语音信息的步骤包括:
根据所述传输文字信息和语种信息,获取对应的语音合成规则;
根据所述语音合成规则从预设波形编码数据库中采集波形编码;
根据预设语音转换标记,将所述波形编码进行转换合成,得到合成语音信息。
9.一种移动终端,其特征在于,包括:
录入模块,用于接收用户输入的原始语音信息和发送指令;
识别模块,与所述录入模块相连,用于对所述原始语音信息进行语音识别,得到对应的传输文字信息;
发送模块,分别与所述录入模块和识别模块相连,用于将所述传输文字信息生成对应编码消息队列后发送至所述发送指令对应的接收终端。
10.根据权利要求9所述的移动终端,其特征在于,所述识别模块包括:
去噪子模块,用于将所述原始语音信息进行小波变换去噪,得到去噪语音信息;
识别子模块,用于对所述去噪语音信息进行语音识别,得到对应的传输文字信息。
11.根据权利要求10所述的移动终端,其特征在于,所述识别子模块包括,
关键词获取单元,用于对所述去噪语音信息进行关键字识别,得到至少一个关键字;
匹配单元,用于根据所述至少一个关键字对所述去噪语音信息进行模糊匹配,得到所述去噪语音信息对应的传输文字信息。
12.根据权利要求10所述的移动终端,其特征在于,所述去噪子模块包括:
获取单元,其用于获取小波基和小波变换分解层数;
小波分解单元,其用于根据所述小波基和小波变换分解层数,对所述原始语音信号进行小波分解,得到一组小波系数;
小波系数获取单元,其用于根据每层小波变换的高频系数,分别对所述一组小波系数进行阈值处理,得到估计小波系数;
低频系数获取单元,其用于获取小波分解的最后一层的低频系数;
离散重构单元,其用于将所述最后一层的低频系数和所述估计小波系数进行离散小波重构,得到去噪语音信息。
13.根据权利要求9所述的移动终端,其特征在于,所述发送模块包括:
语音获取单元,其用于获取所述原始语音信息的语种信息;
生成单元,其用于将所述传输文字信息、语种信息和预设语音转换标记生成对应的编码消息队列;
发送单元,其用于发送所述编码消息队列至所述发送指令对应的接收终端。
14.一种移动终端,其特征在于,包括:
接收模块,用于接收发送终端发送的编码消息队列,所述编码消息队列由原始语音信息识别得到的传输文字信息生成的,所述原始语音信息为用户在所述发送终端上输入的语音信息;
解码模块,与所述接收模块相连,用于对所述编码消息队列进行解码,得到对应的传输文字信息;
合成模块,与所述解码模块相连,用于对所述传输文字信息进行语音合成,得到合成语音信息;
输出模块,与所述合成模块相连,用于输出所述合成语音信息。
15.根据权利要求14所述的移动终端,其特征在于,所述解码模块包括:
第一获取单元,用于从所述编码消息队列中去除预设语音转换标记,得到第一消息队列;
提取单元,用于提取所述第一消息队列中的语种信息,并从所述第一消息队列中去除所述语种信息,得到第二消息队列;
解码单元,用于对所述第二消息队列进行解码,得到所述传输文字信息。
16.根据权利要求15所述的移动终端,其特征在于,所述合成模块包括:
获取单元,用于根据所述传输文字信息和语种信息,获取对应的语音合成规则;
采集单元,用于根据所述语音合成规则从预设波形编码数据库中采集波形编码;
合成单元,用于根据预设语音转换标记,将所述波形编码进行转换合成,得到合成语音信息。
17.一种语音信息的传输系统,其特征在于,包括:
发送终端,用于接收用户输入的原始语音信息和发送指令;对所述原始语音信息进行语音识别,得到对应的传输文字信息;将所述传输文字信息生成对应编码消息队列后发送至所述发送指令对应的接收终端;
所述接收终端,与所述发送终端相连,用于接收所述发送终端发送的编码消息队列;对所述编码消息队列进行解码,得到对应的传输文字信息;对所述传输文字信息进行语音合成,得到合成语音信息;输出所述合成语音信息。
CN201510864077.8A 2015-11-30 2015-11-30 一种语音信息的传输方法、移动终端和系统 Pending CN105827504A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510864077.8A CN105827504A (zh) 2015-11-30 2015-11-30 一种语音信息的传输方法、移动终端和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510864077.8A CN105827504A (zh) 2015-11-30 2015-11-30 一种语音信息的传输方法、移动终端和系统

Publications (1)

Publication Number Publication Date
CN105827504A true CN105827504A (zh) 2016-08-03

Family

ID=56514943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510864077.8A Pending CN105827504A (zh) 2015-11-30 2015-11-30 一种语音信息的传输方法、移动终端和系统

Country Status (1)

Country Link
CN (1) CN105827504A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106486111A (zh) * 2016-10-14 2017-03-08 北京光年无限科技有限公司 基于智能机器人的多tts引擎输出语速调节方法及系统
CN108389281A (zh) * 2018-03-17 2018-08-10 广东容祺智能科技有限公司 一种具有语音记录功能的无人机巡检系统
CN110164449A (zh) * 2019-04-26 2019-08-23 安徽美博智能科技有限公司 语音识别的空调机控制方法及装置
CN110808059A (zh) * 2019-10-10 2020-02-18 天津大学 一种基于谱减法和小波变换的语音降噪方法
CN110853621A (zh) * 2019-10-09 2020-02-28 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN111192571A (zh) * 2019-12-30 2020-05-22 云知声智能科技股份有限公司 语音广播方法及装置
CN112967719A (zh) * 2019-12-12 2021-06-15 上海棋语智能科技有限公司 一种标准电台手咪的电脑端接入设备
CN113077807A (zh) * 2019-12-17 2021-07-06 北京搜狗科技发展有限公司 一种语音数据的处理方法、装置及电子设备
CN113517901A (zh) * 2021-04-13 2021-10-19 深圳市太美亚电子科技有限公司 一种太阳能智能家居系统的智能手环及其控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003230041A (ja) * 2002-01-31 2003-08-15 Kyocera Corp 携帯端末及び携帯端末用機器、並びにその機器制御方法
CN101334999A (zh) * 2008-07-10 2008-12-31 上海言海网络信息技术有限公司 中文语音识别系统及其语音识别方法
CN102710539A (zh) * 2012-05-02 2012-10-03 中兴通讯股份有限公司 语音信息传送方法及装置
CN103268525A (zh) * 2013-06-04 2013-08-28 南京大学 一种基于wd-rbf的水文时间序列模拟预测方法
CN203722828U (zh) * 2014-02-13 2014-07-16 上海温光自动化技术有限公司 一种终端设备语音智能对话系统
US20150256492A1 (en) * 2013-05-16 2015-09-10 Tencent Technology (Shenzhen) Company Limited Method, Terminal and Computer Storage Medium for Group Sending Message in Instant Communication

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003230041A (ja) * 2002-01-31 2003-08-15 Kyocera Corp 携帯端末及び携帯端末用機器、並びにその機器制御方法
CN101334999A (zh) * 2008-07-10 2008-12-31 上海言海网络信息技术有限公司 中文语音识别系统及其语音识别方法
CN102710539A (zh) * 2012-05-02 2012-10-03 中兴通讯股份有限公司 语音信息传送方法及装置
US20150256492A1 (en) * 2013-05-16 2015-09-10 Tencent Technology (Shenzhen) Company Limited Method, Terminal and Computer Storage Medium for Group Sending Message in Instant Communication
CN103268525A (zh) * 2013-06-04 2013-08-28 南京大学 一种基于wd-rbf的水文时间序列模拟预测方法
CN203722828U (zh) * 2014-02-13 2014-07-16 上海温光自动化技术有限公司 一种终端设备语音智能对话系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106486111A (zh) * 2016-10-14 2017-03-08 北京光年无限科技有限公司 基于智能机器人的多tts引擎输出语速调节方法及系统
CN108389281A (zh) * 2018-03-17 2018-08-10 广东容祺智能科技有限公司 一种具有语音记录功能的无人机巡检系统
CN110164449A (zh) * 2019-04-26 2019-08-23 安徽美博智能科技有限公司 语音识别的空调机控制方法及装置
CN110853621A (zh) * 2019-10-09 2020-02-28 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN110853621B (zh) * 2019-10-09 2024-02-13 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN110808059A (zh) * 2019-10-10 2020-02-18 天津大学 一种基于谱减法和小波变换的语音降噪方法
CN112967719A (zh) * 2019-12-12 2021-06-15 上海棋语智能科技有限公司 一种标准电台手咪的电脑端接入设备
CN113077807A (zh) * 2019-12-17 2021-07-06 北京搜狗科技发展有限公司 一种语音数据的处理方法、装置及电子设备
CN113077807B (zh) * 2019-12-17 2023-02-28 北京搜狗科技发展有限公司 一种语音数据的处理方法、装置及电子设备
CN111192571A (zh) * 2019-12-30 2020-05-22 云知声智能科技股份有限公司 语音广播方法及装置
CN113517901A (zh) * 2021-04-13 2021-10-19 深圳市太美亚电子科技有限公司 一种太阳能智能家居系统的智能手环及其控制方法

Similar Documents

Publication Publication Date Title
CN105827504A (zh) 一种语音信息的传输方法、移动终端和系统
US11620980B2 (en) Text-based speech synthesis method, computer device, and non-transitory computer-readable storage medium
CN109791767B (zh) 用于语音识别的系统和方法
CN101510222B (zh) 一种多层索引语音文档检索方法
US20190164064A1 (en) Question and answer interaction method and device, and computer readable storage medium
CN110288980A (zh) 语音识别方法、模型的训练方法、装置、设备及存储介质
CN104166462B (zh) 一种文字的输入方法和系统
US9047868B1 (en) Language model data collection
KR20170022445A (ko) 통합 모델 기반의 음성 인식 장치 및 방법
US20230035947A1 (en) Voice recognition method and related product
CN113239169B (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN110309280B (zh) 一种语料扩容方法及相关设备
CN104252861A (zh) 视频语音转换方法、装置和服务器
CN109660865B (zh) 为视频自动打视频标签的方法及装置、介质和电子设备
CN110880316A (zh) 一种音频的输出方法和系统
CN201919034U (zh) 基于网络的语音提醒的系统
CN109767758B (zh) 车载语音分析方法、系统、存储介质以及设备
CN111539199A (zh) 文本的纠错方法、装置、终端、及存储介质
CN111767697A (zh) 文本处理方法、装置、计算机设备以及存储介质
CN109933773A (zh) 一种多重语义语句解析系统及方法
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
CN116364054A (zh) 基于diffusion的语音合成方法、装置、设备、存储介质
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN116913244A (zh) 一种语音合成方法、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160803

RJ01 Rejection of invention patent application after publication