CN115249480A - 基于北斗短报文的语音文字的转换方法及相关装置 - Google Patents
基于北斗短报文的语音文字的转换方法及相关装置 Download PDFInfo
- Publication number
- CN115249480A CN115249480A CN202210622644.9A CN202210622644A CN115249480A CN 115249480 A CN115249480 A CN 115249480A CN 202210622644 A CN202210622644 A CN 202210622644A CN 115249480 A CN115249480 A CN 115249480A
- Authority
- CN
- China
- Prior art keywords
- voice
- frequency spectrum
- short message
- speech
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 47
- 238000001228 spectrum Methods 0.000 claims abstract description 67
- 238000007781 pre-processing Methods 0.000 claims abstract description 52
- 230000006854 communication Effects 0.000 claims abstract description 44
- 238000004891 communication Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims description 24
- 238000012790 confirmation Methods 0.000 claims description 20
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 238000003786 synthesis reaction Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- DMBHHRLKUKUOEG-UHFFFAOYSA-N diphenylamine Chemical compound C=1C=CC=CC=1NC1=CC=CC=C1 DMBHHRLKUKUOEG-UHFFFAOYSA-N 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 206010049244 Ankyloglossia congenital Diseases 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 206010021703 Indifference Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001936 parietal effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及数据库领域,公开了一种基于北斗短报文的语音文字的转换方法及相关装置,包括:在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息;对所述语音信息进行预处理以获得预处理结果;在所述预处理结果中提取随时间变化的语音特征序列,通过梅尔频率倒谱系数对所述语音特征序列进行处理以获得目标频谱;采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文,通过将采集的语音输入信息转化成文字内容进行输出,实现了在通讯条件有限的情况下通过语音转文字成功保障通讯的技术效果。
Description
技术领域
本发明涉及语音转化技术领域,尤其涉及一种基于北斗短报文的语音文字的转换方法及相关装置。
背景技术
随着科技发展的进步,通讯工具已经渗入人们生活的各个角落,通过通讯工具人们能实现交流的方式也多种多样。但是在一些特殊场景中,不方便或者不能够通过输入文字实现交流时,需要我们的通讯设备能够提供由语音到文字的转化功能。
虽然目前的大多数通讯设备能够实现语音到文字的正常翻译,但是翻译精度,翻译的条件要求往往比较苛刻。在一些特定的应用场景中,如通讯设备当前环境在电力终端或者移动通信无法覆盖的情况下,如何实现语音到文字的转化,因此,如何克服在北斗短报文通讯过程中,语音到文字转化困难成为了一个亟待解决的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于北斗短报文的语音文字的转换方法及相关装置,旨在解决在北斗短报文通讯过程中,语音到文字转化困难的技术问题。
为实现上述目的,本发明提供一种基于北斗短报文的语音文字的转换方法,所述方法包括以下步骤:
在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息;
对所述语音信息进行预处理以获得预处理结果;
在所述预处理结果中提取随时间变化的语音特征序列,通过梅尔频率倒谱系数对所述语音特征序列进行处理以获得目标频谱;
采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文。
可选地,所述在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息,包括:
通过双麦克风语音采集设备获取输入的语音信息,所述双麦克风采集设备包括第一麦克风和第二麦克风,其中第一麦克风位于所述双麦克风采集设备的顶部,用于根据外界噪音发出与所述外界噪音相反的声波,第二麦克风位于所述双麦克风采集设备的底部,用于采集输入的语音信息。
可选地,所述对所述语音信息进行预处理以获得预处理结果包括:
根据预设条件将所述语音信息切成预设数量的语音片段,根据所述语音片段组成语音片段集合;
在所述语音片段集合中根据预设特征进行筛选以获得预处理结果。
可选地,所述采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文包括:
将所述目标频谱转化成数字特征码;
将所述数字特征码输入至所述预设模型中以输出所述目标频谱对应的目标文字。
可选地,所述将所述数字特征码输入至所述预设模型中以输出所述目标频谱对应的目标文字包括:
将所述数字特征码输入至所述预设模型中,获取所述预设模型的输出结果;
对所述输出结果进行词性分析,并将所述词性分析结果发送至常用单词库中进行常用词匹配并获取匹配结果;
根据所述匹配结果更新所述预设模型的输出结果以输出所述目标频谱对应的目标文字。
可选地,所述将所述数字特征码输入至所述预设模型中以输出所述目标频谱对应的目标文字之后,还包括:
将所述目标文字发送至确认终端以接收来自确认终端的确认信息;
若接收到来自所述确认终端的确认信息,将所述目标文字发送至对应地址;
将所述输入的语音信息和所述目标文字作为转化成功结果,将所述转化成功结果发送至所述预设模型以完成对所述预设模型的训练。
可选地,所述采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文之后,还包括:若接收到预设端口发送的北斗短报文,对所述北斗短报文进行语言学分析;
根据语言学分析结果在语音合成库中进行语音合成以输出所述北斗短报文对应的语音。
此外,为实现上述目的,本发明还提出一种语音到文字的转换装置,所述语音到文字的转换装置包括:
语音采集设备:用于在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息;
预处理模块,用于对所述语音信息进行预处理以获得预处理结果;
特征提取模块,用于在所述预处理结果中提取随时间变化的语音特征序列,通过梅尔频率倒谱系数对所述语音特征序列进行处理以获得目标频谱;
模型输出模块,用于采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文。
此外,为实现上述目的,本发明还提出一种语音到文字的转换设备,所述语音到文字的转换设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音到文字的转换生成程序,所述语音到文字的转换程序配置为实现如上文所述的基于北斗短报文的语音文字的转换方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有语音到文字的转换程序,所述语音到文字的转换程序被处理器执行时实现如上文所述的语音到文字的转换生成方法的步骤。
本发明在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息;对所述语音信息进行预处理以获得预处理结果;在所述预处理结果中提取随时间变化的语音特征序列,通过梅尔频率倒谱系数对所述语音特征序列进行处理以获得目标频谱;采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文,通过将采集的语音输入信息转化成文字内容进行输出,实现了在通讯条件有限的情况下通过语音转文字成功保障通讯的技术效果。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的语音到文字的转换设备的结构示意图;
图2为本发明基于北斗短报文的语音文字的转换方法第一实施例的流程示意图;
图3为本发明基于北斗短报文的语音文字的转换方法第一实施例的双MIC降噪语音收集模块图;
图4为本发明基于北斗短报文的语音文字的转换方法第一实施例的语音信号分帧图:
图5为本发明基于北斗短报文的语音文字的转换方法第一实施例的频谱图;
图6为本发明语音到文字的转换装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的语音到文字的转换设备结构示意图。
如图1所示,该语音到文字的转换设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对语音到文字的转换设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及语音到文字的转换程序。
在图1所示的语音到文字的转换设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明语音到文字的转换设备中的处理器1001、存储器1005可以设置在语音到文字的转换设备中,所述语音到文字的转换设备设备通过处理器1001调用存储器1005中存储的语音到文字的转换程序,并执行本发明实施例提供的基于北斗短报文的语音文字的转换方法。
本发明实施例提供了一种基于北斗短报文的语音文字的转换方法,参照图2,图2为本发明基于北斗短报文的语音文字的转换方法第一实施例的流程示意图。
本实施例中,所述基于北斗短报文的语音文字的转换方法包括以下步骤:
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
步骤S10:在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息。
需要说明的是,本实施例的执行主体可以是通讯功能的电子设备,例如个人通讯终端或者其他具有同类功能的设备,本实施例在此不做限制。本实施例以北斗导航设备为例进行说明。
可以理解的是,北斗导航系统是中国自行研制的全球定位导航系统,也是继GPS,GLONASS之后的第三个成熟的卫星导航系统,可在全球范围内全天候,全天时为各类用户提供高精度,高可靠定位,授时服务,并且具备短报文通信能力。北斗短报文功能在国防,民生和应急救援等领域,都具有很强的应用价值,特别是灾区移动通讯中断,电力中断或移动通信无法覆盖北斗终端的情况下可以使用短消息进行通信,定位信息和遥感信息等,北斗3代短信息容量可达2KB,可以实现双向通信。由于北斗3代应用场景要求,设备基本不带WIFI,通信系带功能,本身的带宽有限,北斗3代不能做到语音发送,在一些特定需要语音交流方式将不太适用。
需要理解的是,在本实施例中语音采集设备用双MIC降噪语音收集模块为例进行说明,本实施例在此不做限制。
在具体实施中,如图3所示的双MIC降噪语音收集模块,由于需要提高语音识别率,就必须提高源始输入素材,双MIC降噪方案可以有效果声音质量,底部的MIC是保持稳定保持清晰语音,顶部的MIC则是用来物理主动消除噪音,它是通过收集外界的声音,进行处理后,发出与噪音相反的声波,利用抵消原理消除噪音。
进一步地,为了使语音转化文字的过程更加精确,所述在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息,包括:通过双麦克风语音采集设备获取输入的语音信息,所述双麦克风采集设备包括第一麦克风和第二麦克风,其中第一麦克风位于所述双麦克风采集设备的顶部,用于根据外界噪音发出与所述外界噪音相反的声波,第二麦克风位于所述双麦克风采集设备的底部,用于采集输入的语音信息。
需要说明的是,所述在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息之前,还包括:建立基于深度学习的预设模型,将所述基于深度学习的预设模型转移至边缘计算设备上。
步骤S20:对所述语音信息进行预处理以获得预处理结果。
进一步地,为了提高语音转化文字的速度,减少其他因素的干扰,所述对所述语音信息进行预处理以获得预处理结果包括:根据预设条件将所述语音信息切成预设数量的语音片段,根据所述语音片段组成语音片段集合;在所述语音片段集合中根据预设特征进行筛选以获得预处理结果。
在具体实施中,对所述语音信息进行预处理是指对采集的声音信息进行去噪处理为后续的语音转文字功能排除干扰因素。对采集的声音信息进行去噪处理的步骤包括:将采集到的声音信息中的声音片段剪切成若干数量的片段以去除空白时间段,再将剪切的声音片段整合成声音片段集。在声音片段集中根据管理员预设的筛选条件,所述筛选条件可以是声音片段的频谱幅度或者频率范围,本实施例在此不做限制。将预处理过后的声音片段集作为预处理结果。
需要说明的是,语音数据和视频数据不同,本没有帧的概念,但是为了传输与存储,本实施例采集的音频数据都是一段一段的。为了程序能够进行批量处理,会根据指定的长度(时间段或者采样数)进行分段,结构化为数据结构,这就是分帧。
在具体实施中,如图4所示,图中通过将语音信息进行切割的方式生成了如框内所示的若干段语音片段。
可以理解的是,本实施例中的预设条件可以是语音分帧的长度或者其他具有甄别能力的方式,本实施例通过限制帧长的方式对声音文件进行截取。
在具体实施中,预设条件将所述语音信息切成预设数量的语音片段是通过限制采集到的声音的最大和最小分贝为筛选条件,选出满足预设条件的声音片段。
需要说明的是,预处理结果是一个包含声音片段的集合,在所述预处理结中将所述声音片段按照采集时间进行排序。
步骤S30:在所述预处理结果中提取随时间变化的语音特征序列,通过梅尔频率倒谱系数对所述语音特征序列进行处理以获得目标频谱。
需要说明的是,在本实施例中从预处理结果中进行特征提取时,可以是在预处理结果中根据时域特征提取、频域特征提取或者是时频特征提取,本实施例在此不做限制。
在具体实施中,特征提取,从语音波形中提取出随时间变化的语音特征序列(即将声音信号从时域转换到频域),为声学模型提供合适的特征向量,在这里使用梅尔频率倒谱系数进行处理。下面是一个语音的频谱图。峰值就表示语音的主要频率成分,我们把这些峰值称为共振峰(formants),而共振峰就是携带了声音的辨识属性(就是个人身份证一样)。用它就可以识别不同的声音。
进一步地,提高语音转化文字结果的准确度,所述在所述预处理结果中提取随时间变化的语音特征序列,通过梅尔频率倒谱系数对所述语音特征序列进行处理以获得目标频谱包括:在所述预处理结果中提取随时间变化的语音特征序列;通过梅尔频率倒谱系数对所述语音特征序列进行处理以获得目标频谱。
在具体实施中,在所述预处理结果中提取随时间变化的语音特征序列,通过梅尔频率倒谱系数对所述语音特征序列进行处理以获得目标频谱是通过先从语音波形中提取出语音特征序列,通过梅尔频率倒谱系数对特征序列进行处理以获得频谱。所述频谱如图5所示。
步骤S40:采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文。
需要说明的是,在通过预设模型对所述目标频谱进行识别之前,还包括需要建立训练模型的步骤,首先根据本实施例需要解决的技术问题定义模型对应的需要解决的问题,根据数据特征选定模型算法,导入自定义或者外部数据,接着对所述训练模型进行训练。
进一步地,为了使语音转化文字更加精确,所述采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文包括:将所述目标频谱转化成数字特征码;将所述数字特征码输入至所述预设模型中以输出所述目标频谱对应的目标文字。
在具体实施中,所述将所述数字特征码输入至所述预设模型中以输出所述目标频谱对应的目标文字包括:将所述数字特征码输入至所述预设模型中,获取所述预设模型的输出结果;对所述输出结果进行词性分析,并将所述词性分析结果发送至常用单词库中进行常用词匹配并获取匹配结果;根据所述匹配结果更新所述预设模型的输出结果以输出所述目标频谱对应的目标文字。
在具体实施中,将所述数字特征码输入至所述预设模型中,通过所述预设模型对所述数字特征码进行计算已获得数字特征码对应的短语;对所述短语进行词性分析,所述词性分析也就是进一步地去噪处理,将不符合语义或者词性的短句进行调整;从调整之后的短句中按照短句中各个词的词性,例如动词或者名词在训练模型的匹配库中进行相近词语匹配,所述匹配库中可以有常用地名库,例如:北京,深圳等地名;也可以有常用方位词,例如:东、南、西、北或者前方,头顶等常用词语。在匹配库中进行匹配之后,会更新所述训练模型输出的短句,将更新之后的短句作为目标文字。
需要说明的是,词性分析是指具体词语的语法属性,实际上也就是某个词在性质上属于词语的哪一类。在分析词性的时候首先根据语义断定其语法功能。分析结果包括但不限于,该词属于形容词、动词或者名词等。
可以理解的是,在本实施例中,词性分析之后的词进行训练模型中的匹配库时,匹配相似度的设定,匹配库中常用词语或者训练库中数据的导入都由管理者进行调整,本实施例对此不做限制。
在具体实施中,所述将所述数字特征码输入至所述预设模型中以输出所述目标频谱对应的目标文字之后,还包括:将所述目标文字发送至确认终端以接收来自确认终端的确认信息;若接收到来自所述确认终端的确认信息,将所述目标文字发送至对应地址;将所述输入的语音信息和所述目标文字作为转化成功结果,将所述转化成功结果发送至所述预设模型以完成对所述预设模型的训练。
在具体实施中,所述采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文之后,还包括:若接收到预设端口发送的北斗短报文,对所述北斗短报文进行语言学分析;根据语言学分析结果在语音合成库中进行语音合成以输出所述北斗短报文对应的语音。
需要说明的是,本实施例还支持文字转语音功能,使用TTS技术,对文本进行文本分析:对输入文本进行语言学分析,逐句进行词汇的、语法的和语义的分析,以确定句子的低层结构和每个字的音素的组成,包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等,然后再语音合成:把处理好的文本所对应的单字或短语从语音合成库中提取,把语言学描述转化成言语波形;最后韵律生成:是指语音合成系统所输出的逼真语音的质量。
需要说明的是,TTS是Text To Speech的缩写,即“从文本到语音”,是人机对话的一部分,让机器能够说话。它是同时运用语言学和心理学的杰出之作,在内置芯片的支持之下,通过神经网络的设计,把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可以秒计算。在其特有智能语音控制器作用下,文本输出的语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。TTS语音合成技术即将覆盖国标一、二级汉字,具有英文接口,自动识别中、英文,支持中英文混读。所有声音采用真人普通话为标准发音,实现了120-150个汉字/分钟的快速语音合成,朗读速度达3-4个汉字/秒,使用户可以听到清晰悦耳的音质和连贯流畅的语调。TTS是语音合成应用的一种,它将储存于电脑中的文件,如帮助文件或者网页,转换成自然语音输出。TTS不仅能帮助有视觉障碍的人阅读计算机上的信息,更能增加文本文档的可读性。TTS应用包括语音驱动的邮件以及声音敏感系统,并常与声音识别程序一起使用。
本实例在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息;对所述语音信息进行预处理以获得预处理结果;在所述预处理结果中提取随时间变化的语音特征序列,通过梅尔频率倒谱系数对所述语音特征序列进行处理以获得目标频谱;采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文,通过将采集的语音输入信息转化成文字内容进行输出,实现了在通讯条件有限的情况下通过语音转文字成功保障通讯的技术效果。
参照图6,图6为本发明语音到文字的转换装置第一实施例的结构框图。
如图6所示,本发明实施例提出的语音到文字的转换装置包括:
语音采集设备10:用于在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息;
预处理模块20,用于对所述语音信息进行预处理以获得预处理结果;
特征提取模块30,用于在所述预处理结果中提取随时间变化的语音特征序列,通过梅尔频率倒谱系数对所述语音特征序列进行处理以获得目标频谱;
模型输出模块40,用于采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文。
本实例在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息;对所述语音信息进行预处理以获得预处理结果;在所述预处理结果中提取随时间变化的语音特征序列,通过梅尔频率倒谱系数对所述语音特征序列进行处理以获得目标频谱;采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文,通过将采集的语音输入信息转化成文字内容进行输出,实现了在通讯条件有限的情况下通过语音转文字成功保障通讯的技术效果。
在一实施例中,所述语音采集设备10,还用于通过双麦克风语音采集设备获取输入的语音信息,所述双麦克风采集设备包括第一麦克风和第二麦克风,其中第一麦克风位于所述双麦克风采集设备的顶部,用于根据外界噪音发出与所述外界噪音相反的声波,第二麦克风位于所述双麦克风采集设备的底部,用于采集输入的语音信息。
在一实施例中,所述预处理模块20,还用于根据预设条件将所述语音信息切成预设数量的语音片段,根据所述语音片段组成语音片段集合;在所述语音片段集合中根据预设特征进行筛选以获得预处理结果。
在一实施例中,所述模型输出模块40,还用于将所述目标频谱转化成数字特征码;将所述数字特征码输入至所述预设模型中以输出所述目标频谱对应的目标文字。
在一实施例中,所述模型输出模块40,还用于将所述数字特征码输入至所述预设模型中,获取所述预设模型的输出结果;对所述输出结果进行词性分析,并将所述词性分析结果发送至常用单词库中进行常用词匹配并获取匹配结果;根据所述匹配结果更新所述预设模型的输出结果以输出所述目标频谱对应的目标文字。
在一实施例中,所述模型输出模块40,还用于将所述目标文字发送至确认终端以接收来自确认终端的确认信息;若接收到来自所述确认终端的确认信息,将所述目标文字发送至对应地址;将所述输入的语音信息和所述目标文字作为转化成功结果,将所述转化成功结果发送至所述预设模型以完成对所述预设模型的训练。
在一实施例中,模型输出模块40,还用于若接收到预设端口发送的北斗短报文,对所述北斗短报文进行语言学分析;根据语言学分析结果在语音合成库中进行语音合成以输出所述北斗短报文对应的语音。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的流处理处理方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(ReadOnlyMemory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围。
Claims (10)
1.一种基于北斗短报文的语音文字的转换方法,其特征在于,所述基于北斗短报文的语音文字的转换方法包括:
在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息;
对所述语音信息进行预处理以获得预处理结果;
在所述预处理结果中提取随时间变化的语音特征序列,通过梅尔频率倒谱系数对所述语音特征序列进行处理以获得目标频谱;
采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文。
2.根据权利要求1所述的基于北斗短报文的语音文字的转换方法,其特征在于,所述在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息,包括:
在接收到北斗通讯请求时,通过双麦克风语音采集设备获取输入的语音信息,所述双麦克风采集设备包括第一麦克风和第二麦克风,其中第一麦克风位于所述双麦克风采集设备的顶部,用于根据外界噪音发出与所述外界噪音相反的声波,第二麦克风位于所述双麦克风采集设备的底部,用于采集输入的语音信息。
3.根据权利要求1所述的基于北斗短报文的语音文字的转换方法,其特征在于,所述对所述语音信息进行预处理以获得预处理结果包括:
根据预设条件将所述语音信息切成预设数量的语音片段,根据所述语音片段组成语音片段集合;
在所述语音片段集合中根据预设特征进行筛选以获得预处理结果。
4.根据权利要求1所述的基于北斗短报文的语音文字的转换方法,其特征在于,所述采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文包括:
将所述目标频谱转化成数字特征码;
将所述数字特征码输入至所述预设模型中以输出所述目标频谱对应的目标文字。
5.根据权利要求4所述的基于北斗短报文的语音文字的转换方法,其特征在于,所述将所述数字特征码输入至所述预设模型中以输出所述目标频谱对应的目标文字包括:
将所述数字特征码输入至所述预设模型中,获取所述预设模型的输出结果;
对所述输出结果进行词性分析,并将所述词性分析结果发送至常用单词库中进行常用词匹配并获取匹配结果;
根据所述匹配结果更新所述预设模型的输出结果以输出所述目标频谱对应的目标文字。
6.根据权利要求4所述的基于北斗短报文的语音文字的转换方法,其特征在于,所述将所述数字特征码输入至所述预设模型中以输出所述目标频谱对应的目标文字之后,还包括:
将所述目标文字发送至确认终端以接收来自确认终端的确认信息;
若接收到来自所述确认终端的确认信息,将所述目标文字发送至对应地址;
将所述输入的语音信息和所述目标文字作为转化成功结果,将所述转化成功结果发送至所述预设模型以完成对所述预设模型的训练。
7.根据权利要求1至6任一项所述的基于北斗短报文的语音文字的转换方法,其特征在于,所述采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文之后,还包括:
若接收到预设端口发送的北斗短报文,对所述北斗短报文进行语言学分析;
根据语言学分析结果在语音合成库中进行语音合成以输出所述北斗短报文对应的语音。
8.一种语音到文字的转换装置,其特征在于,所述语音到文字的转换装置包括:
语音采集设备:用于在接收到北斗通讯请求时,通过语音采集设备获取输入的语音信息;
预处理模块,用于对所述语音信息进行预处理以获得预处理结果;
特征提取模块,用于在所述预处理结果中提取随时间变化的语音特征序列,通过梅尔频率倒谱系数对所述语音特征序列进行处理以获得目标频谱;
模型输出模块,用于采用预设模型对所述目标频谱进行识别以输出所述目标频谱对应的北斗短报文。
9.一种语音到文字的转换设备,其特征在于,所述语音到文字的转换设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音到文字的转换程序,所述语音到文字的转换程序配置为实现如权利要求1至7中任一项所述的基于北斗短报文的语音文字的转换方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有语音到文字的转换程序,所述语音到文字的转换程序被处理器执行时实现如权利要求1至7任一项所述的语音到文字的转换生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210622644.9A CN115249480A (zh) | 2022-06-01 | 2022-06-01 | 基于北斗短报文的语音文字的转换方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210622644.9A CN115249480A (zh) | 2022-06-01 | 2022-06-01 | 基于北斗短报文的语音文字的转换方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115249480A true CN115249480A (zh) | 2022-10-28 |
Family
ID=83698833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210622644.9A Pending CN115249480A (zh) | 2022-06-01 | 2022-06-01 | 基于北斗短报文的语音文字的转换方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115249480A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115396951A (zh) * | 2022-10-31 | 2022-11-25 | 电科疆泰(深圳)科技发展有限公司 | 报文通信方法、装置、终端设备及存储介质 |
CN117577098A (zh) * | 2024-01-15 | 2024-02-20 | 云天智能信息(深圳)有限公司 | 一种卫星宽带短报文通信的语音通信方法及系统 |
-
2022
- 2022-06-01 CN CN202210622644.9A patent/CN115249480A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115396951A (zh) * | 2022-10-31 | 2022-11-25 | 电科疆泰(深圳)科技发展有限公司 | 报文通信方法、装置、终端设备及存储介质 |
CN115396951B (zh) * | 2022-10-31 | 2023-05-02 | 电科疆泰(深圳)科技发展有限公司 | 报文通信方法、装置、终端设备及存储介质 |
CN117577098A (zh) * | 2024-01-15 | 2024-02-20 | 云天智能信息(深圳)有限公司 | 一种卫星宽带短报文通信的语音通信方法及系统 |
CN117577098B (zh) * | 2024-01-15 | 2024-04-19 | 云天智能信息(深圳)有限公司 | 一种卫星宽带短报文通信的语音通信方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107945805B (zh) | 一种智能化跨语言语音识别转化方法 | |
KR102582291B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
WO2008084476A2 (en) | Vowel recognition system and method in speech to text applications | |
CN115249480A (zh) | 基于北斗短报文的语音文字的转换方法及相关装置 | |
CN1742273A (zh) | 多模态语音-语音语言翻译和显示 | |
JPWO2005093713A1 (ja) | 音声合成装置 | |
Thimmaraja Yadava et al. | Enhancements in automatic Kannada speech recognition system by background noise elimination and alternate acoustic modelling | |
El Ouahabi et al. | Toward an automatic speech recognition system for amazigh-tarifit language | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
EP1271469A1 (en) | Method for generating personality patterns and for synthesizing speech | |
JP2022133447A (ja) | 音声処理方法、装置、電子機器及び記憶媒体 | |
CN111724764B (zh) | 一种合成音乐的方法和装置 | |
Mittal et al. | Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi | |
CN117597728A (zh) | 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆 | |
CN114639371A (zh) | 一种语音的转换方法、装置及设备 | |
Sefara et al. | The development of local synthetic voices for an automatic pronunciation assistant | |
KR20220116660A (ko) | 인공지능 스피커 기능을 탑재한 텀블러 장치 | |
Chowdhury et al. | A review-based study on different Text-to-Speech technologies | |
JP2006330060A (ja) | 音声合成装置、音声処理装置、およびプログラム | |
Schramm et al. | A Brazilian Portuguese language corpus development | |
KR102457822B1 (ko) | 자동 통역 장치 및 그 방법 | |
KR102182455B1 (ko) | 배경 음악이 삽입된 음성 멘트 제공 방법 및 이를 실행하는 장치 | |
Bhagavathsingh et al. | Real time speech based integrated development environment for C program | |
Garcia et al. | A bisaya text-to-speech (TTS) system utilizing rulebased algorithm and concatenative speech synthesis | |
Németh et al. | Speech generation in mobile phones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |