CN110349581B - 语音和文字转换传输方法、系统、计算机设备和存储介质 - Google Patents

语音和文字转换传输方法、系统、计算机设备和存储介质 Download PDF

Info

Publication number
CN110349581B
CN110349581B CN201910465416.3A CN201910465416A CN110349581B CN 110349581 B CN110349581 B CN 110349581B CN 201910465416 A CN201910465416 A CN 201910465416A CN 110349581 B CN110349581 B CN 110349581B
Authority
CN
China
Prior art keywords
voice
current network
bandwidth
text
extremely low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910465416.3A
Other languages
English (en)
Other versions
CN110349581A (zh
Inventor
齐燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910465416.3A priority Critical patent/CN110349581B/zh
Priority to PCT/CN2019/103634 priority patent/WO2020237886A1/zh
Publication of CN110349581A publication Critical patent/CN110349581A/zh
Application granted granted Critical
Publication of CN110349581B publication Critical patent/CN110349581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请中提供的一种语音和文字转换传输方法、系统、计算机设备和存储介质,通过检测网络传输带宽是否属于极低带宽。若网络传输带宽属于极低带宽,则启动语音识别系统。发送端识别用户语音信息,将所述语音信息转化为附带特征信息的目标文字,并将所述目标文字发送给接收端,接收端接收发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息,并播放。本申请通过系统自动检测网络带宽,自适应地切换传输模式,对于网络不理想的情况仍然可以流畅地同远端交互,解决了极低带宽下传输语音的问题,达到信息交互的目的。此外,在文字转换成语音时,利用自建语音模型进行转化,提升了逼真度。

Description

语音和文字转换传输方法、系统、计算机设备和存储介质
技术领域
本申请涉及通信技术领域,特别涉及一种语音和文字转换传输方法、系统、计算机设备和存储介质。
背景技术
目前音视频会议解决网络传输不好,低带宽的情况,通常采取降低视频和音频的码率的方法。然而,对于极低带宽下的场景不适用,这是因为音视频编码的码率最低值任然高于可用带宽。在带宽较低的情况下,无法传输音频信息或者传输的音频信息出现丢包现象,结果可能造成音视频的断续,达不到传输信息的目的。因此,亟需一种能在极低带宽下正常通信的方法。
发明内容
本申请的主要目的为提供一种语音和文字转换传输方法、系统、计算机设备和存储介质,旨在解决在极低带宽下无法进行音频会议的问题。
为实现上述目的,本申请提供了一种语音和文字转换传输方法,包括步骤:
发送端检测所述发送端的第一当前网络传输带宽是否属于极低带宽,以及检测是否接收到接收端的第二当前网络传输带宽属于极低带宽的信号;
若所述发送端的第一当前网络传输带宽属于极低带宽和/或接收到所述接收端的第二当前网络传输带宽属于极低带宽的信号,则启动语音转文字系统,并向所述接收端发送通过语音转文字系统通信的信号;
通过语音转文字系统对用户所说的语音信息进行识别,并转化为目标文字,将所述目标文字发送给所述接收端,其中所述目标文字包括特征码和文字段。
进一步地,所述发送端检测所述发送端的第一当前网络传输带宽是否属于极低带宽的步骤,包括:
实时监测所述发送端的当前网络速度,并将当前网络速度与预设网络速度对比;
若当前网络速度大于预设网络速度的10%,则判定所述发送端的第一当前网络传输带宽不属于极低带宽;
若当前网络速度小于等于预设网络速度的10%,则判定所述发送端的第一当前网络传输带宽属于极低带宽。
进一步地,所述对用户所说的语音信息进行识别,并转化为目标文字的步骤,包括:
识别所述用户的语音信息;包括语义识别和声纹识别;
将所述语音信息转换成文字段,以及提取所述语音信息中的音频信息特征,生成特征码;所述音频信息特征包括声纹频谱和PCM码流,所述特征码为根据声纹生成的一串符号;
将特征码以预设方式加入所述文字段,得到所述目标文字。
进一步地,所述提取所述语音信息中的音频信息特征,生成特征码的步骤之后,还包括:
将提取到的音频信息特征输入到预设的语音模型中,并以所生成的特征码命名所述语音模型;所述特征码作为调用语音模型的唯一识别标识;
将所述语音模型发送给所述接收端。
本申请同时提出一种语音和文字转换传输方法,包括步骤:
接收端检测所述接收端的第二当前网络传输带宽是否属于极低带宽,以及检测是否接收到发送端的第一当前网络传输带宽属于极低带宽的信号;
若所述接收端的第二当前网络传输带宽属于极低带宽和/或接收到所述发送端的第一当前网络传输带宽属于极低带宽的信号,则启动文字转语音系统,并向所述发送端发送通过文字转语音系统通信的信号;
接收所述发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息,并播放。
进一步地,所述接收端检测所述接收端的第二当前网络传输带宽是否属于极低带宽的步骤,包括:
实时监测所述接收端的当前网络速度,并将当前网络速度与预设网络速度对比;
若当前网络速度大于预设网络速度的10%,则判定所述接收端的第二当前网络传输带宽不属于极低带宽;
若当前网络速度小于等于预设网络速度的10%,则判定所述接收端的第二当前网络传输带宽属于极低带宽。
进一步地,所述接收所述发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息的步骤,还包括:
根据目标文字附带的特征信息提取文字段;
将所述文字段中的文字转换成发音的音节,得到与音节对应的频谱信息和PCM码流;
根据目标文字附带的特征信息查找本地语音库中对应用户的语音模型;
将文字转换得到的频谱信息和PCM码流,与对应用户的语音模型中的频谱信息和PCM码流进行调换,得到所述用户与所述文字段对应的频谱信息和PCM码流。
本申请同时提出一种语音和文字转换传输系统,包括:发送端和接收端;
所述发送端用于检测所述发送端的第一当前网络传输带宽是否属于极低带宽,以及检测是否接收到接收端的第二当前网络传输带宽属于极低带宽的信号;
若所述发送端的第一当前网络传输带宽属于极低带宽和/或接收到所述接收端的第二当前网络传输带宽属于极低带宽的信号,则启动语音转文字系统,并向所述接收端发送通过语音转文字系统通信的信号;
通过语音转文字系统对用户所说的语音信息进行识别,并转化为目标文字,将所述目标文字发送给所述接收端;
所述接收端用于检测所述接收端的第二当前网络传输带宽是否属于极低带宽,以及检测是否接收到发送端的第一当前网络传输带宽属于极低带宽的信号;
若所述接收端的第二当前网络传输带宽属于极低带宽和/或接收到所述发送端的第一当前网络传输带宽属于极低带宽的信号,则启动文字转语音系统,并向所述发送端发送通过文字转语音系统通信的信号;
接收所述发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息,并播放。
本申请同时提出一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请同时提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的一种语音和文字转换传输系统、方法、计算机设备和存储介质,通过检测网络传输带宽是否属于极低带宽。若网络传输带宽属于极低带宽,则启动语音识别系统。发送端识别用户语音信息,将所述语音信息转化为附带特征信息的目标文字,并将所述目标文字发送给接收端,接收端接收发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息,并播放。本申请通过系统自动检测网络带宽,自适应地切换传输模式,对于网络不理想的情况仍然可以流畅地同远端交互,解决了极低带宽下传输语音的问题,达到信息交互的目的。此外,在文字转换成语音时,利用自建语音模型进行转化,提升了逼真度。
附图说明
图1是本申请一实施例中语音和文字转换传输方法步骤示意图;
图2是本申请一实施例中另一语音和文字转换传输方法步骤示意图;
图3是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请提出一种语音和文字转换传输方法,包括步骤:
S1、发送端检测所述发送端的第一当前网络传输带宽是否属于极低带宽,以及检测是否接收到接收端的第二当前网络传输带宽属于极低带宽的信号;
S2、若所述发送端的第一当前网络传输带宽属于极低带宽和/或接收到所述接收端的第二当前网络传输带宽属于极低带宽的信号,则启动语音转文字系统,并向所述接收端发送通过语音转文字系统通信的信号;
S3、通过语音转文字系统对用户所说的语音信息进行识别,并转化为目标文字,将所述目标文字发送给所述接收端,其中所述目标文字包括特征码和文字段。
如上述步骤S1所述,由于网络传输受到用户电脑软硬件的配置、所浏览网站的地址、对端网站、对端服务器带宽等情况的影响,因此,用户上网时实际的速率通常低于理论速率值。上述网络传输带宽是指实际信号传输中的数据传输能力;极低带宽指的是低于正常通信带宽理论值的10%。比如正常通信时带宽速率为4M/S,理论值为512KB/S,而实际则为400KB/S左右,极低带宽则是指带宽速率为52KB/S以下。当网络传输带宽属于极低带宽时,数据传输不稳定,将导致丢包率上升。以致很多数据无法正常传输。
如上述步骤S2所述,在确定当前网络属于极低带宽之后,则启动语音转文字系统。由于在极低带宽的状态下,网络速度被限制,视频、音频传输极可能发生丢包的情况,而语音识别系统的功能就是在极低带宽的状态下,保证用于通讯的信息仍然能够正常传输。因此需启动语音转文字系统客户端作为发送端。上述并向所述接收端发送通过语音转文字系统通信的信号即是提示或控制接收端启动安装于接收端一端的文字转语音系统客户端进行通信。
如上述步骤S3所述,上述发送端指的是发出目标文字的终端,该终端可以是PC、笔记本电脑、平板电脑等可连接网络的智能终端设备。在本实施例中,带宽分为上行带宽和下行带宽。理论上上行带宽和下行带宽不会有影响,但是IP协议传输是要双向交互的,实质是有一些影响的。而极低带宽又不利于数据传输,因此,在发送端将所述目标文字发送给接收端时,为了提高数据传输的效率,可以在发送目标文字前将下行带宽限制为一极小值,发送完成后再还原。可以达到提高数据传输效率的目的。相应的,本申请则通过接收端接收目标文字。在发送端和接收端上均安装有相应的客户端。接收端还通过文字转语音系统的客户端实现对目标文字的识别,以及将目标文字转化为语音信息,并播放。
在一个实施例中,所述发送端检测所述发送端的第一当前网络传输带宽是否属于极低带宽的步骤,包括:
S11、实时监测所述发送端的当前网络速度,并将当前网络速度与预设网络速度对比;
S12、若当前网络速度大于预设网络速度的10%,则判定所述发送端的第一当前网络传输带宽不属于极低带宽;
S13、若当前网络速度小于等于预设网络速度的10%,则判定所述发送端的第一当前网络传输带宽属于极低带宽。
在步骤S11-步骤S13中,简单来说,网络传输带宽使用的单位是bit(位),网络速度使用的单位是Byte(字节),而这两者之间的关系是1Byte=8bit。因此,上述网络传输带宽与网络速度呈正比关系,又由于检测网络速度比检测网络传输带宽方便得多,因此在本实施例中,通过检测网络速度达到检测网络传输带宽的目的。上述预设网络速度即是正常通信中实际接入的网络速度的理论值。检测出网络速度在预设网络速度中的占比即可知道网络传输带宽是否属于极低带宽。
在一个实施例中,所述通过语音转文字系统对用户所说的语音信息进行识别,并转化为目标文字的步骤S3,包括:
S31、识别所述用户的语音信息;包括语义识别和声纹识别;
S32、将所述语音信息转换成文字段,以及提取所述语音信息中的音频信息特征,生成特征码;所述音频信息特征包括声纹频谱和PCM码流,所述特征码为根据声纹生成的一串符号;
S33、将特征码以预设方式加入所述文字段,得到所述目标文字。
在步骤S31中,上述语音信息指的是用户所说的话,上述文字段指的是在连续的时间内,识别由同一用户所说的话,并生成的文字。本步骤的目的是识别用户所说的话,并将所识别到用户说的话中的内容转换为一段文字。
在步骤S32至S33中,上述音频信息特征指的是识别用户所说的话,生成的录音文件中用户的声纹频谱的信息和PCM码流。上述特征码指的由用户声纹特征生成的字符串,由于用户的声纹特征具有唯一性,所以生成的字符串相应的也具有唯一性,可以作为一种身份标识信息,用于提取对应说话人的语音模型,保证不会出现错误。另外,在字符串的识别中,加入字符串开始至字符串结束的特殊信息(例如##特征码##文字段)。则在语音识别系统识别文字段时会自动提取出特征码,特征码不会对文字段的识别造成影响。对于上述目标文字,可以进一步地将多个目标文字一起打包压缩,既方便发送,进一步又可以减少节省空间。把多个目标文字打包压缩一次性发送,可以在传输数据时防止出现数据丢失的现象。
在一个实施例中,所述提取所述语音信息中的音频信息特征,生成特征码的步骤S32之后,还包括:
S3201、将提取到的音频信息特征输入到预设的语音模型中,并以所生成的特征码命名所述语音模型;所述特征码作为调用语音模型的唯一识别标识;
S3202、将所述语音模型发送给所述接收端。
在步骤S3201至S3202中,上述将提取到的音频信息特征输入到预设语音模型中指的是,由于每一个字的发音都是由音节组成,预设的语音模型中就是记录同一用户说话的所有音节的音频信息特征,将同一用户说话的所有音节的音频信息特征从用户的录音文件中提取出来,再输入预设语音模型中,得到的语音模型中具有该用户发音的所有音节特征。通过步骤S3202将所述语音模型发送给所述接收端,进一步地,在接收端有了该用户的语音模型,就可以通过音节特征就可以合成对应音节的发音的频率特性,将这些频率点转换到PCM信号(通过傅里叶逆变换)就可以合成出具有用户声音特性的,个性化的语音进行语言仿真了。
参照图2,本申请同时提出一种语音和文字转换传输方法,包括步骤:
S10、接收端检测所述接收端的第二当前网络传输带宽是否属于极低带宽,以及检测是否接收到发送端的第一当前网络传输带宽属于极低带宽的信号;
S20、若所述接收端的第二当前网络传输带宽属于极低带宽和/或接收到所述发送端的第一当前网络传输带宽属于极低带宽的信号,则启动文字转语音系统,并向所述发送端发送通过文字转语音系统通信的信号;
S30、接收所述发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息,并播放。
如上述步骤S10所述,由于网络传输受到用户电脑软硬件的配置、所浏览网站的地址、对端网站、对端服务器带宽等情况的影响,因此,用户上网时实际的速率通常低于理论速率值。上述网络传输带宽是指实际信号传输中的数据传输能力;极低带宽指的是低于正常通信带宽理论值的10%。比如正常通信时带宽速率为4M/S,理论值为512KB/S,而实际则为400KB/S左右,极低带宽则是指带宽速率为52KB/S以下。当网络传输带宽属于极低带宽时,数据传输不稳定,将导致丢包率上升。以致很多数据无法正常传输。
如上述步骤S20所述,在确定当前网络属于极低带宽之后,则启动文字转语音系统。由于在极低带宽的状态下,网络速度被限制,视频、音频传输极可能发生丢包的情况,而文字转语音系统的功能就是在极低带宽的状态下,保证用于通讯的信息仍然能够正常传输。因此需启动文字转语音系统客户端作为接收端。上述并向所述发送端发送通过文字转语音系统通信的信号即是提示或控制发送端启动安装于发送端一端的语音转文字系统客户端进行通信。
如上述步骤S30所述,上述发送端指的是发出目标文字的终端,该终端可以是PC、笔记本电脑、平板电脑等可连接网络的智能终端设备。理论上上行带宽和下行带宽不会有影响,但是IP协议传输是要双向交互的,实质是有一些影响的。而极低带宽又不利于数据传输,因此,在接收端接收发送端发来的目标文字时,为了提高数据传输的效率,可以在接收目标文字时将上行带宽限制为一极小值,接收完成后再还原。可以达到提高数据传输效率的目的。相应的,本申请则通过发送端发送目标文字。在发送端和接收端上均安装有相应的客户端。发送端还通过语音转文字系统对用户所说的语音信息进行识别,并转化为目标文字,将所述目标文字发送给所述接收端。
在一个实施例中,所述发送端检测所述发送端的第一当前网络传输带宽是否属于极低带宽的步骤S10,包括:
S101、实时监测所述发送端的当前网络速度,并将当前网络速度与预设网络速度对比;
S102、若当前网络速度大于预设网络速度的10%,则判定所述发送端的第一当前网络传输带宽不属于极低带宽;
S103、若当前网络速度小于等于预设网络速度的10%,则判定所述发送端的第一当前网络传输带宽属于极低带宽。
在步骤S101-步骤S103中,简单来说,网络传输带宽使用的单位是bit(位),网络速度使用的单位是Byte(字节),而这两者之间的关系是1Byte=8bit。因此,上述网络传输带宽与网络速度呈正比关系,又由于检测网络速度比检测网络传输带宽方便得多,因此在本实施例中,通过检测网络速度达到检测网络传输带宽的目的。上述预设网络速度即是正常通信中实际接入的网络速度的理论值。检测出网络速度在预设网络速度中的占比即可知道网络传输带宽是否属于极低带宽。
在一个实施例中,接收所述发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息的步骤S30,还包括:
S301、根据目标文字附带的特征信息提取文字段;
S302、将所述文字段中的文字转换成发音的音节,得到与音节对应的频谱信息和PCM码流;
S303、根据目标文字附带的特征信息查找本地语音库中对应用户的语音模型;
S304、将文字转换得到的频谱信息和PCM码流,与对应用户的语音模型中的频谱信息和PCM码流进行调换,得到所述用户与所述文字段对应的频谱信息和PCM码流。
在步骤S301中,上述目标文字是由发送端将用户所说的话转换而来的,当目标文字包含多个用户所说的话时,此时特征信息则可将目标文字分为多段,每个文字段均包含对应用户的特征信息,即目标文字由多个文字段组成,每个文字段均包含有特征信息。代表这一文字段是由一个特定用户所说的话转换来的。例如,根据特征信息分析出,目标文字包含A特征、B特征、A特征、C特征;由此得到目标文字是由A用户说的一段话,B用户说的一段话,A用户说的一段话以及C用户说的一段话转换而来的。
在步骤S302中,上述将文字段中的文字转换成发音的音节,得到音频信息,音频信息中包含音节对应的频谱信息和PCM码流。
在步骤S303中,上述目标文字附带的特征信息除了用于提取文字段,还用于查找语音模型。其过程是将目标文字附带的特征信息与语音库中语音模型包含的用户特征进行比对,匹配成功则说明该文字段为语音模型所对应的用户所说的话。
在步骤S304中,上述对频谱信息和PCM码流进行调整指的是,将用户的语音模型中特征频谱段和PCM码流,替换由文字转换得到的频谱信息和PCM码流的对应部分,即对应音节相替换。得到接近真实的用户所说的话的音频信息。播放该音频信息听到的声音,接近用户的原话。
上述特征信息的具体生成过程可以概括为:提取说话人的音频信息特征,比如音频信号PCM码流,声音的频谱特性,然后将此信息进行长时间的归纳,统计。上述频谱特性指的是:语音的PCM信号经过傅里叶变换,转换到频域:每个频点的值代表了该频率的大小。声音是由许多不同频率的正弦波组成的,频率特性就是指每个频率的正弦波的大小。具体过程是,将话音等模拟信号每隔一定时间进行取样,使其离散化,同时将抽样值按分层单位四舍五入取整量化,同时将抽样值按一组二进制码来表示抽样脉冲的幅值。用户的语音特征从频率特性可以提取出来。根据得到的频率特性可以提取用户的语音特征:例如取每个频率所对应的能量的值,或者所有频点能量的平均值,方差等。对用户的语音PCM信号切分成一块块小的音节,比如a,u,e,i,u,yu等将这些音节的特征提取出来传到另外一端接收端,在接收端建立相应的模型。接收端利用收到的文字,结合模型的音节特征就可以合成对应的音节的发音的频率特性,将这些频率点转换到PCM信号(通过傅里叶逆变换)就可以合成出具有用户声音特性的,个性化的语音了。
本申请中提出的一种语音和文字转换传输方法、系统、计算机设备和存储介质,通过检测网络传输带宽是否属于极低带宽。若网络传输带宽属于极低带宽,则启动语音识别系统。发送端识别用户语音信息,将所述语音信息转化为附带特征信息的目标文字,并将所述目标文字发送给接收端,接收端接收发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息,并播放。本申请通过系统自动检测网络带宽,自适应地切换传输模式,对于网络不理想的情况仍然可以流畅地同远端交互,解决了极低带宽下传输语音的问题,达到信息交互的目的。此外,在文字转换成语音时,利用自建语音模型进行转化,提升了逼真度。
本申请一实施例还提出一种语音和文字转换传输系统,包括:发送端和接收端;
所述发送端用于检测所述发送端的第一当前网络传输带宽是否属于极低带宽,以及检测是否接收到接收端的第二当前网络传输带宽属于极低带宽的信号;
若所述发送端的第一当前网络传输带宽属于极低带宽和/或接收到所述接收端的第二当前网络传输带宽属于极低带宽的信号,则启动语音转文字系统,并向所述接收端发送通过语音转文字系统通信的信号;
通过语音转文字系统对用户所说的语音信息进行识别,并转化为目标文字,将所述目标文字发送给所述接收端;
所述接收端用于检测所述接收端的第二当前网络传输带宽是否属于极低带宽,以及检测是否接收到发送端的第一当前网络传输带宽属于极低带宽的信号;
若所述接收端的第二当前网络传输带宽属于极低带宽和/或接收到所述发送端的第一当前网络传输带宽属于极低带宽的信号,则启动文字转语音系统,并向所述发送端发送通过文字转语音系统通信的信号;
接收所述发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息,并播放。
参照图3,本申请实施例中还提出一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储指导方案库等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音和文字转换传输方法。
上述处理器执行上述方法的步骤:
发送端检测所述发送端的第一当前网络传输带宽是否属于极低带宽,以及检测是否接收到接收端的第二当前网络传输带宽属于极低带宽的信号;
若所述发送端的第一当前网络传输带宽属于极低带宽和/或接收到所述接收端的第二当前网络传输带宽属于极低带宽的信号,则启动语音转文字系统,并向所述接收端发送通过语音转文字系统通信的信号;
通过语音转文字系统对用户所说的语音信息进行识别,并转化为目标文字,将所述目标文字发送给所述接收端。
进一步地,所述发送端检测所述发送端的第一当前网络传输带宽是否属于极低带宽的步骤,包括:
实时监测所述发送端的当前网络速度,并将当前网络速度与预设网络速度对比;
若当前网络速度大于预设网络速度的10%,则判定所述发送端的第一当前网络传输带宽不属于极低带宽;
若当前网络速度小于等于预设网络速度的10%,则判定所述发送端的第一当前网络传输带宽属于极低带宽。
进一步地,所述对用户所说的语音信息进行识别,并转化为目标文字的步骤,包括:
识别所述用户的语音信息;
将所述语音信息转换成文字段,以及提取所述语音信息中的音频信息特征,生成特征码;
将特征码以预设方式加入所述文字段,得到所述目标文字。
进一步地,所述提取所述语音信息中的音频信息特征,生成特征码的步骤之后,还包括:
将提取到的音频信息特征输入到预设的语音模型中,并以所生成的特征码命名所述语音模型;
将所述语音模型发送给所述接收端。
在另一实施例中,上述处理器执行上述方法的步骤:
接收端检测所述接收端的第二当前网络传输带宽是否属于极低带宽,以及检测是否接收到发送端的第一当前网络传输带宽属于极低带宽的信号;
若所述接收端的第二当前网络传输带宽属于极低带宽和/或接收到所述发送端的第一当前网络传输带宽属于极低带宽的信号,则启动文字转语音系统,并向所述发送端发送通过文字转语音系统通信的信号;
接收所述发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息,并播放。
进一步地,所述接收端检测所述接收端的第二当前网络传输带宽是否属于极低带宽的步骤,包括:
实时监测所述接收端的当前网络速度,并将当前网络速度与预设网络速度对比;
若当前网络速度大于预设网络速度的10%,则判定所述接收端的第二当前网络传输带宽不属于极低带宽;
若当前网络速度小于等于预设网络速度的10%,则判定所述接收端的第二当前网络传输带宽属于极低带宽。
进一步地,所述接收所述发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息的步骤,还包括:
根据目标文字附带的特征信息提取文字段;
将所述文字段中的文字转换成发音的音节,得到与音节对应的频谱信息和PCM码流;
根据目标文字附带的特征信息查找本地语音库中对应用户的语音模型;
将文字转换得到的频谱信息和PCM码流,与对应用户的语音模型中的频谱信息和PCM码流进行调换,得到所述用户与所述文字段对应的频谱信息和PCM码流。
本申请一实施例还提出一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语音和文字转换传输方法,包括步骤:
发送端检测所述发送端的第一当前网络传输带宽是否属于极低带宽,以及检测是否接收到接收端的第二当前网络传输带宽属于极低带宽的信号;
若所述发送端的第一当前网络传输带宽属于极低带宽和/或接收到所述接收端的第二当前网络传输带宽属于极低带宽的信号,则启动语音转文字系统,并向所述接收端发送通过语音转文字系统通信的信号;
通过语音转文字系统对用户所说的语音信息进行识别,并转化为目标文字,将所述目标文字发送给所述接收端。
在一个实施例中,所述发送端检测所述发送端的第一当前网络传输带宽是否属于极低带宽的步骤,包括:
实时监测所述发送端的当前网络速度,并将当前网络速度与预设网络速度对比;
若当前网络速度大于预设网络速度的10%,则判定所述发送端的第一当前网络传输带宽不属于极低带宽;
若当前网络速度小于等于预设网络速度的10%,则判定所述发送端的第一当前网络传输带宽属于极低带宽。
在一个实施例中,所述对用户所说的语音信息进行识别,并转化为目标文字的步骤,包括:
识别所述用户的语音信息;
将所述语音信息转换成文字段,以及提取所述语音信息中的音频信息特征,生成特征码;
将特征码以预设方式加入所述文字段,得到所述目标文字。
在一个实施例中,所述提取所述语音信息中的音频信息特征,生成特征码的步骤之后,还包括:
将提取到的音频信息特征输入到预设的语音模型中,并以所生成的特征码命名所述语音模型;
将所述语音模型发送给所述接收端。
本申请另一实施例还提出一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语音和文字转换传输方法,包括步骤:
接收端检测所述接收端的第二当前网络传输带宽是否属于极低带宽,以及检测是否接收到发送端的第一当前网络传输带宽属于极低带宽的信号;
若所述接收端的第二当前网络传输带宽属于极低带宽和/或接收到所述发送端的第一当前网络传输带宽属于极低带宽的信号,则启动文字转语音系统,并向所述发送端发送通过文字转语音系统通信的信号;
接收所述发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息,并播放。
在一个实施例中,所述接收端检测所述接收端的第二当前网络传输带宽是否属于极低带宽的步骤,包括:
实时监测所述接收端的当前网络速度,并将当前网络速度与预设网络速度对比;
若当前网络速度大于预设网络速度的10%,则判定所述接收端的第二当前网络传输带宽不属于极低带宽;
若当前网络速度小于等于预设网络速度的10%,则判定所述接收端的第二当前网络传输带宽属于极低带宽。
在一个实施例中,所述接收所述发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息的步骤,还包括:
根据目标文字附带的特征信息提取文字段;
将所述文字段中的文字转换成发音的音节,得到与音节对应的频谱信息和PCM码流;
根据目标文字附带的特征信息查找本地语音库中对应用户的语音模型;
将文字转换得到的频谱信息和PCM码流,与对应用户的语音模型中的频谱信息和PCM码流进行调换,得到所述用户与所述文字段对应的频谱信息和PCM码流。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (9)

1.一种语音和文字转换传输方法,其特征在于,包括步骤:
发送端检测所述发送端的第一当前网络传输带宽是否属于极低带宽,以及检测是否接收到接收端的第二当前网络传输带宽属于极低带宽的信号;
若所述发送端的第一当前网络传输带宽属于极低带宽和/或接收到所述接收端的第二当前网络传输带宽属于极低带宽的信号,则启动语音转文字系统,并向所述接收端发送通过语音转文字系统通信的信号;
通过语音转文字系统对用户所说的语音信息进行识别,并转化为目标文字,将多个所述目标文字打包并发送给所述接收端,其中所述目标文字包括特征码和文字段;
所述对用户所说的语音信息进行识别,并转化为目标文字的步骤,包括:
识别所述用户的所述语音信息;包括语义识别和声纹识别;
将所述语音信息转换成文字段,以及提取所述语音信息中的音频信息特征,生成所述特征码;所述音频信息特征包括声纹频谱和PCM码流,所述特征码为根据声纹生成的一串符号;所述特征码具有唯一性,所述特征码用于提取语音模型;
将所述特征码以预设方式加入所述文字段,得到所述目标文字。
2.根据权利要求1所述的语音和文字转换传输方法,其特征在于,所述发送端检测所述发送端的第一当前网络传输带宽是否属于极低带宽的步骤,包括:
实时监测所述发送端的当前网络速度,并将当前网络速度与预设网络速度对比;
若当前网络速度大于预设网络速度的10%,则判定所述发送端的第一当前网络传输带宽不属于极低带宽;
若当前网络速度小于等于预设网络速度的10%,则判定所述发送端的第一当前网络传输带宽属于极低带宽。
3.根据权利要求1所述的语音和文字转换传输方法,其特征在于,所述提取所述语音信息中的音频信息特征,生成特征码的步骤之后,还包括:
将提取到的音频信息特征输入到预设的所述语音模型中,并以所生成的特征码命名所述语音模型;所述特征码作为调用语音模型的唯一识别标识;
将所述语音模型发送给所述接收端。
4.一种语音和文字转换传输方法,其特征在于,包括步骤:
接收端检测所述接收端的第二当前网络传输带宽是否属于极低带宽,以及检测是否接收到发送端的第一当前网络传输带宽属于极低带宽的信号;
若所述接收端的第二当前网络传输带宽属于极低带宽和/或接收到所述发送端的第一当前网络传输带宽属于极低带宽的信号,则启动文字转语音系统,并向所述发送端发送通过文字转语音系统通信的信号;
接收所述发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息,并播放。
5.根据权利要求4所述的语音和文字转换传输方法,其特征在于,所述接收端检测所述接收端的第二当前网络传输带宽是否属于极低带宽的步骤,包括:
实时监测所述接收端的当前网络速度,并将当前网络速度与预设网络速度对比;
若当前网络速度大于预设网络速度的10%,则判定所述接收端的第二当前网络传输带宽不属于极低带宽;
若当前网络速度小于等于预设网络速度的10%,则判定所述接收端的第二当前网络传输带宽属于极低带宽。
6.根据权利要求4所述的语音和文字转换传输方法,其特征在于,所述接收所述发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息的步骤,还包括:
根据目标文字附带的特征信息提取文字段;
将所述文字段中的文字转换成发音的音节,得到与音节对应的频谱信息和PCM码流;
根据目标文字附带的特征信息查找本地语音库中对应用户的语音模型;
将文字转换得到的频谱信息和PCM码流,与对应用户的语音模型中的频谱信息和PCM码流进行调换,得到所述用户与所述文字段对应的频谱信息和PCM码流。
7.一种语音和文字转换传输系统,其特征在于,包括:发送端和接收端;
所述发送端用于检测所述发送端的第一当前网络传输带宽是否属于极低带宽,以及检测是否接收到接收端的第二当前网络传输带宽属于极低带宽的信号;
若所述发送端的第一当前网络传输带宽属于极低带宽和/或接收到所述接收端的第二当前网络传输带宽属于极低带宽的信号,则启动语音转文字系统,并向所述接收端发送通过语音转文字系统通信的信号;
通过语音转文字系统对用户所说的语音信息进行识别,并转化为目标文字,多个所述目标文字打包并发送给所述接收端,其中所述目标文字包括特征码和文字段;
所述对用户所说的语音信息进行识别,并转化为目标文字的步骤,包括:
识别所述用户的所述语音信息;包括语义识别和声纹识别;
将所述语音信息转换成文字段,以及提取所述语音信息中的音频信息特征,生成所述特征码;所述音频信息特征包括声纹频谱和PCM码流,所述特征码为根据声纹生成的一串符号;所述特征码具有唯一性,所述特征码用于提取语音模型;
将所述特征码以预设方式加入所述文字段,得到所述目标文字;
所述接收端用于检测所述接收端的第二当前网络传输带宽是否属于极低带宽,以及检测是否接收到发送端的第一当前网络传输带宽属于极低带宽的信号;
若所述接收端的第二当前网络传输带宽属于极低带宽和/或接收到所述发送端的第一当前网络传输带宽属于极低带宽的信号,则启动文字转语音系统,并向所述发送端发送通过文字转语音系统通信的信号;
接收所述发送端发来的目标文字,识别所述目标文字,将所述目标文字转化为语音信息,并播放。
8.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201910465416.3A 2019-05-30 2019-05-30 语音和文字转换传输方法、系统、计算机设备和存储介质 Active CN110349581B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910465416.3A CN110349581B (zh) 2019-05-30 2019-05-30 语音和文字转换传输方法、系统、计算机设备和存储介质
PCT/CN2019/103634 WO2020237886A1 (zh) 2019-05-30 2019-08-30 语音和文字转换传输方法、系统、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910465416.3A CN110349581B (zh) 2019-05-30 2019-05-30 语音和文字转换传输方法、系统、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110349581A CN110349581A (zh) 2019-10-18
CN110349581B true CN110349581B (zh) 2023-04-18

Family

ID=68174517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910465416.3A Active CN110349581B (zh) 2019-05-30 2019-05-30 语音和文字转换传输方法、系统、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN110349581B (zh)
WO (1) WO2020237886A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270919B (zh) * 2020-09-14 2022-11-22 深圳随锐视听科技有限公司 视频会议自动补音的方法、系统、存储介质及电子设备
CN112637613A (zh) * 2020-11-16 2021-04-09 深圳市声扬科技有限公司 直播音频处理方法、装置、计算机设备和存储介质
CN112992149B (zh) * 2021-03-05 2024-04-16 中海油信息科技有限公司 一种海上石油平台甚高频电台的信息传输方法及系统
CN113066497A (zh) * 2021-03-18 2021-07-02 Oppo广东移动通信有限公司 数据处理方法、装置、系统、电子设备和可读存储介质
CN112822297A (zh) * 2021-04-01 2021-05-18 深圳市顺易通信息科技有限公司 一种停车场服务数据传输方法及相关设备
CN113257271B (zh) * 2021-05-17 2023-01-10 浙江大学 多发声者发声运动特征波形的获取方法及装置、电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US7035794B2 (en) * 2001-03-30 2006-04-25 Intel Corporation Compressing and using a concatenative speech database in text-to-speech systems
PL1908249T3 (pl) * 2005-07-27 2012-10-31 Ibm Systemy i sposób bezpiecznego dostarczania plików do autoryzowanych odbiorców
CN102348117A (zh) * 2010-08-03 2012-02-08 深圳Tcl新技术有限公司 低带宽传输数字高清信号的系统、方法及网络多媒体电视
CN102223406B (zh) * 2011-06-09 2014-01-08 华平信息技术股份有限公司 音频信息网络数字化实时传输系统及方法
CN102710539A (zh) * 2012-05-02 2012-10-03 中兴通讯股份有限公司 语音信息传送方法及装置
KR101907406B1 (ko) * 2012-05-08 2018-10-12 삼성전자 주식회사 통신 서비스 운용 방법 및 시스템
CN102968991B (zh) * 2012-11-29 2015-01-21 华为技术有限公司 一种语音会议纪要的分类方法、设备和系统
CN106683682A (zh) * 2015-11-05 2017-05-17 湖南德海通信设备制造有限公司 一种提高语音传输效率的方法
CN107438056B (zh) * 2016-05-26 2021-02-09 深圳富泰宏精密工业有限公司 VoIP通讯模组、电子装置及VoIP通讯方法
KR101874451B1 (ko) * 2017-08-07 2018-08-02 시스템베이스 주식회사 저대역폭 무선 통신에 기반하는 음성처리 방법 및 그 장치
CN108173740A (zh) * 2017-11-30 2018-06-15 维沃移动通信有限公司 一种语音通信的方法和装置

Also Published As

Publication number Publication date
CN110349581A (zh) 2019-10-18
WO2020237886A1 (zh) 2020-12-03

Similar Documents

Publication Publication Date Title
CN110349581B (zh) 语音和文字转换传输方法、系统、计算机设备和存储介质
US11776540B2 (en) Voice control of remote device
US10074371B1 (en) Voice control of remote device by disabling wakeword detection
US10593328B1 (en) Voice control of remote device
KR100632912B1 (ko) 멀티-레벨 분산 음성 인식을 위한 방법 및 장치
US7693719B2 (en) Providing personalized voice font for text-to-speech applications
JP2019057273A (ja) 情報をプッシュする方法及び装置
US20150170665A1 (en) Attribute-based audio channel arbitration
US20090287477A1 (en) System and method for providing network coordinated conversational services
US10733996B2 (en) User authentication
CN110838894B (zh) 语音处理方法、装置、计算机可读存储介质和计算机设备
JP2004511823A (ja) 動的再構成可能音声認識システムとその方法
WO2003085640A1 (fr) Dispositif, systeme, procede et programme de selection de conversation a reconnaissance vocale
CN110992955A (zh) 一种智能设备的语音操作方法、装置、设备及存储介质
CN111739506A (zh) 一种应答方法、终端及存储介质
EP3113175A1 (en) Method for converting text to individual speech, and apparatus for converting text to individual speech
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
JP2005151553A (ja) ボイス・ポータル
CN113345437B (zh) 语音打断方法及装置
JP2005520194A (ja) テキストメッセージの生成
CN110534084B (zh) 一种基于FreeSWITCH的智能语音控制方法及系统
US11495240B1 (en) Management of local devices
CN105118507A (zh) 声控系统及其控制方法
US20030220794A1 (en) Speech processing system
KR102181583B1 (ko) 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant