CN114220432A - 基于海事单边带语音自动监听方法、系统及存储介质 - Google Patents
基于海事单边带语音自动监听方法、系统及存储介质 Download PDFInfo
- Publication number
- CN114220432A CN114220432A CN202111349726.2A CN202111349726A CN114220432A CN 114220432 A CN114220432 A CN 114220432A CN 202111349726 A CN202111349726 A CN 202111349726A CN 114220432 A CN114220432 A CN 114220432A
- Authority
- CN
- China
- Prior art keywords
- file
- maritime
- audio
- sideband
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012544 monitoring process Methods 0.000 title claims abstract description 27
- 230000004044 response Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 238000004891 communication Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 8
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 229940050561 matrix product Drugs 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 101150071716 PCSK1 gene Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000009429 distress Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M11/00—Telephonic communication systems specially adapted for combination with other electrical systems
- H04M11/04—Telephonic communication systems specially adapted for combination with other electrical systems with alarm systems, e.g. fire, police or burglar alarm systems
Abstract
本发明公开了一种基于海事单边带语音自动监听方法、系统及存储介质,包括:获取海事单边带音频文件;将所述海事单边带音频文件输入到预设语音识别模型得到文本文件;所述预设语音识别模型包括声学单元和端到端的语音识别单元;对所述文本文件进行分词处理得到若干个词语,并根据所述词语的危险等级做出对应的响应措施。本发明实施例能够自动监听海事单边带音频文件并根据监听的结果做出响应措施,可广泛应用于语音识别技术领域。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于海事单边带语音自动监听方法、系统及存储介质。
背景技术
单边带通信广泛应用于军事、海洋、气象等领域,如飞机、坦克、各类船舶都配备单边带电台。单边带通信具有以下优点:一、距离远(传播距离可到1万公里以上)且不需要中继站;二、依靠天波传输,通信链路不易受到毁损,具备加密功能,在异常天气和战争等特殊时期非常重要的通信手段;三、单边带通信节约频带及节省功率;四、单边带发射机不发送载频,提高了保密性;因此,海事单边带语音通信是目前海上遇险紧急通信和常规语音通信非常重要的通信手段。
在目前的实际应用中,主要依靠工作人员长时间集中精力监听和分辨广播中的音频,从中识别各种求助信息语音并作出应答。当工作人员处于疲惫或精神不集中时,则很容易疏忽或漏掉某些关键的海上求助语音信息。
发明内容
有鉴于此,本发明实施例的目的是提供一种基于海事单边带语音自动监听方法、系统及存储介质,能够自动监听海事单边带音频文件并根据监听的结果做出响应措施。
第一方面,本发明实施例提供了一种基于海事单边带语音自动监听方法,包括以下步骤:
获取海事单边带音频文件;
将所述海事单边带音频文件输入到预设语音识别模型得到文本文件;所述预设语音识别模型包括声学单元和端到端的语音识别单元;
对所述文本文件进行分词处理得到若干个词语,并根据所述词语的危险等级做出对应的响应措施。
可选地,所述预设语音识别模型通过以下方法训练得到:
获取海事单边带音频样本文件,并对所述样本文件进行预处理和标注以获得标记文件;
提取所述标记文件的音频特征;
将所述标记文件的标注文本及所述标记文件的音频特征划分为训练集、交叉验证集和测试集;
采用所述训练集及所述交叉验证集对所述预设语音识别模型进行训练,并采用测试集对所述设语音识别模型进行验证。
可选地,所述获取海事单边带音频样本文件,具体包括:
获取海事单边带音频第一样本文件;所述第一样本文件包括待寻找目标音频文件;
获取海事单边带音频第二样本文件;所述第二样本文件包括噪声文件。
可选地,所述对所述样本文件进行预处理和标注以获得标记文件,具体包括:
对所述样本文件进行语音活动检测并静音切割以提取预设长度的有效音频文件;
将所述有效音频文件按照字向量及位置信息进行标注以获得标记文件。
可选地,所述方法还包括:
对所述海事单边带音频样本文件进行数据增强以扩充数据。
可选地,所述根据所述词语的危险等级做出对应的预警响应措施,具体包括:
当所述词语的危险等级为遇险紧急通信,发出报警信息并开启自动录音;
当所述词语的危险等级为常规语音通信,判断是否需要接通程控电话并开启自动录音。
第二方面,本发明实施例提供了一种基于海事单边带语音自动监听系统,包括:
第一模块,用于获取海事单边带音频文件;
第二模块,用于将所述海事单边带音频文件输入到预设语音识别模型得到文本文件;所述预设语音识别模型包括声学单元和端到端的语音识别单元;
第三模块,用于对所述文本文件进行分词处理得到若干个词语,并根据所述词语的危险等级做出对应的预警响应措施。
第三方面,本发明实施例提供了一种基于海事单边带语音自动监听系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的方法。
第四方面,本发明实施例提供了一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行上述的方法。
第五方面,本发明实施例提供了一种基于海事单边带语音自动监听系统,包括计算机设备,以及与所述计算机设备连接的单边带语音接收设备、报警装置和程控电话通信装置;其中,
所述单边带语音接收设备,用于接收海事单边带音频文件;
所述报警装置,用于根据所述计算机设备的指令产生报警信号;
所述程控电话通信装置,用于连接公共网络并根据所述计算机设备的指令拨打程控电话;
所述计算机设备包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的方法。
实施本发明实施例包括以下有益效果:本发明实施例首先将获取的海事单边带音频文件输入到预设语音识别模型得到文本文件,然后对文本文件进行分词处理得到若干个词语并根据词语的危险等级做出对应的响应措施,其中,预设语音识别模型包括声学单元和端到端的语音识别单元,能够自动监听海事单边带音频文件并根据监听的结果做出响应措施,减少人工成本,准确率高,适用范围广。
附图说明
图1是本发明实施例提供的一种基于海事单边带语音自动监听方法的步骤流程示意图;
图2是本发明实施例提供的一种端到端的语音识别单元的结构示意图;
图3是本发明实施例提供的一种基于海事单边带语音自动监听系统的结构框图;
图4是本发明实施例提供的第二种基于海事单边带语音自动监听系统的结构框图;
图5是本发明实施例提供的第三种基于海事单边带语音自动监听系统的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
如图1所示,本发明实施例提供了一种基于海事单边带语音自动监听方法,其包括的步骤如下所示。
S100、获取海事单边带音频文件。
需要说明的是,海事单边带通信机发出的音频文件通过海事单边带接收装置接收。
S200、将所述海事单边带音频文件输入到预设语音识别模型得到文本文件;所述预设语音识别模型包括声学单元和端到端的语音识别单元。
需要说明的是,传统的语音识别技术包含声学模型、发音模型、语言模型及二次重打分模型等,每个模型都得分开训练,过程非常繁琐复杂且耗时。本发明实施中,语音识别单元采用了自注意力机制(self-attention)的Transformer模型端到端语音识别技术。基于Transformer模型端到端语音识别技术具有以下优点:第一、通过上下文来理解当前词的创新方法,语义特征的提取能力更强,对于句子中的同音字或词,能根据其周围的词和前后的句子来判断究竟应该是哪个,从而得到更准确的结果;第二、解决了传统的语音识别方案中各部分任务独立,无法联合优化的问题,单一神经网络的框架变得更简单,直接实现语音的输入与解码识别,从而不需要繁杂的对齐工作与发音词典制作工作,可以节省大量的前期准备工作;第三、当更换识别语言体系时可以利用相同的框架结构直接训练,例如同样的网络结构可以训练包含26个字符的英文模型,也可以训练包含几千个常用汉字的中文模型,或者将中英文的词典直接合在一起,训练一个混合模型;第四、能更好利用GPU运算,预测速度更快,如对于一个10秒左右的音频文件,在一块GPU的服务器上仅需0.1秒左右的时间便可得到预测结果。
具体地,参阅图2,采用Transformer模型和利用自注意力self-attention机制来构建语音识别单元,在计算语音信号的同时,采用位置编码技术作为语音信号的补充。本实施例中,采用6层Transformer模型作为编码器(Encoder)以及12层Transformer模型作为解码器(Decoder)来构建所述构建语音识别单元的识别引擎。编码器负责把输入(音频序列)映射成为隐藏层,然后解码器再把隐藏层映射为自然语言序列,并学习如何得到每一个文字的最大概率。
其中,位置编码是将词序信息和词向量结合起来一种的表示方式。Transformer模型需把位置编码信息输入给编码器和解码器,这样模型就具备了学习词序信息的能力。计算位置编码的公式如下:
其中,PE表示位置编码,pos表示单词的位置索引;设句子长度为L,那么pos=0,1,2,…,L-1,i是向量的某一维度,假设词向量维度dmodel=512,那么i=0,1,…,255。
需要说明的是,在处理音频序列数据时,各个音频序列常常具有不同长度;深度学习模型的输入数据必须为单一张量,短于最长条目的样本需要用占位符值进行填充。如果所有样本都具有了统一长度,须告知模型,数据的某些部分实际上是填充应该忽略,这种机制称作遮盖。前瞻遮挡,用于遮挡一个序列中的后续标记,前瞻遮挡表明了不应该使用的条目;比如要预测第三个词,将仅使用第一个和第二个词,与此类似,预测第四个词,仅使用第一个,第二个和第三个词,依此类推。在本实施例中,通过在keras引入遮挡层来解决这个问题,比如:添加一个keras layers Masking层。
需要说明的是,端到端模型有一个缺点是如果句子太长,编码器会遗忘,那么解码器接受到的句子特征也就不完全。为此,Transformer模型引入自注意力机制(self-attention)机制,让源序列和目标序列首先“自关联”起来,解码器每次更新状态的时候都会再看一遍编码器所有状态,还会告诉解码器要更关注的部分。
编码器和解码器均包括多头注意力层(MultiHeadAttention)以及全连接层(FeedFrowardNetwork)。多头注意力层主要由多个注意力网络构成,有助于网络捕捉到更丰富的特征信息。比如有i层等网络,多头注意力层计算公式如下:
MultiHead(Q,K,V)=concat(Att1,Att2,Att3,...,Attn)
其中,MultiHead表示多头注意力,Atti表示单个注意力,Atti=Attentioni(Qi,Ki,Vi),concat表示将Atti注意力机制得到的结果向量进行拼接,下标i表示第i层,Q表示请求,K表示主键,V表示数值。假设Q和K的均值为0,方差为1,它们的矩阵乘积将有均值为0,方差为dk;因此,dk的平方根被用于缩放(而非其他数值),Q和K的矩阵乘积的均值本应该为0,方差本应该为1,这样会获得一个更平缓的softmax值。
需要说明的是,Transformer模型的解码器最终的输出是一个向量,其中每个元素是浮点数。全连接层则可以把解码器输出的向量映射到一个更长的向量,这个向量称为logits向量。Softmax层会把这些分数转换为概率,最后选择最高概率的那个数字对应的词,作为这个时间步的输出文字。
可选地,所述预设语音识别模型通过以下方法训练得到:
S210、获取海事单边带音频样本文件,并对所述样本文件进行预处理和标注以获得标记文件;
需要说明的是,海事单边带音频样本文件包括正面素材和负面素材,对样本文件进行预处理以符合预设语音识别模型的输入要求,标记文件文件包括海事单边带音频文件及其对应的标注文本。
可选地,所述获取海事单边带音频样本文件,具体包括:
S211、获取海事单边带音频第一样本文件;所述第一样本文件包括待寻找目标音频文件;
S212、获取海事单边带音频第二样本文件;所述第二样本文件包括噪声文件。
具体地,海事单边带音频样本文件根据采集的海事单边带通讯机在日常工作中的实际音频确定。如将“救命”“船只起火”“船只破损”“有人落水”“救命”“紧急呼叫”“我们遇到危险”“有伤亡”“SOS”“Mayday”“XXX”“PANPAN”等声音作为正面素材,正面素材即为待寻找目标音频文件;另外,第一样本文件包括各种常见的语言版本音频,比如普通话版、英文版、粤语版、闽南语版等,男声和女声等。将啸叫声、背景杂音、海浪声、机器声等作为负面素材,负面素材即为噪声文件。
需要说明的是,将第一样本文件和第二样本文件制作生成wav文件。
可选地,所述对所述样本文件进行预处理和标注以获得标记文件,具体包括:
S213、对所述样本文件进行语音活动检测并静音切割以提取预设长度的有效音频文件。
获取的海事单边带音频样本文件,由于语音信号的差异性巨大,音量有大有小,首先进行VAD(Voice Activity Detection,语音活动检测)及静音切割技术进行切割,将音频信号中的有效部分抽取出来,并重新输出标准wav文件。根据海事单边带通讯语音交流的特点,10秒的说话长度被认为是合适的,因此在切割音频文件时,使切割长度切割后长度不超过10秒。
S214、将所述有效音频文件按照字向量及位置信息进行标注以获得标记文件。
有效音频文件通过人工方式进行语音信号的标注工作以生成标记文件,将标注完成的数据进行归集工作,整理为一个文本文件,并分别记录标注音频文件以及标注文本。
具体地,通过获取相关的字向量、文本向量或位置信息等,提供每个字的位置信息给transformer才能识别出语言中的顺序关系。字典表类似以下表示:{1:我,2:们,3:在,...},每个字无论中英文都有一个唯一的数字与其对应。本实施例中,海事单边带通讯中常用的通信词语并不多(大概有几百个),因此,中文采用单个汉字作为建模单元,英文则使用单个字母建模。
可选地,所述方法还包括:
S214、对所述海事单边带音频样本文件进行数据增强以扩充数据。
具体地,本实施例采用了三种数据增强的方法:音频加噪、速度扰动以及SpecAugment方法(Google AI Resident团队提出的一种应用于语音识别的数据增强方法)。音频加噪主要通过在原始音频中添加加性噪声来实现,采取音频加噪的方式扩充训练数据集来提高模型的抗噪声干扰能力。速度扰动通过在原始音频中对音频进行加速或减速来达到数据增广的目的。在本实施例中采用了0.9、1.0和1.1的速度扰动因子对数据进行增广,最终得到的数据量是原来的三倍。
S220、提取所述标记文件的音频特征;
具体地,提取标记文件的音频特征指提取语音数据的时域特征,通过预加重、分帧、加窗、傅里叶变换(FFT)、mel滤波、去均值等操作获得FBank特征。FBank特征更能符合声音信号的本质,拟合人耳的接收特性,在模型对高相关的信号不敏感时(如神经网络),比MFCC特征更有优势。
S230、将所述标记文件的标注文本及所述标记文件的音频特征划分为训练集、交叉验证集和测试集。
需要说明的是,标记文件的标注文本与音频特征是对应的。
S240、采用所述训练集及所述交叉验证集对所述预设语音识别模型进行训练,并采用测试集对所述设语音识别模型进行验证。
具体地,Transformer使用Adam优化器与自定义的学习速率调度程序(scheduler)配合使用,学习速率的计算公式如下:
公式中,warmup_step表示迭代次数,step_num表示学习步长。在本实施例中,warmup_step设置为40000次迭代训练后,单边带广播输入的音频信号能基本被识别成对应的文字。
S300、对所述文本文件进行分词处理得到若干个词语,并根据所述词语的危险等级做出对应的响应措施。
具体地,本实施例采用golang的GoJieba中文分词工具,并采用精确分词模式,将文字信息精确切开,并获得相关的词语。
可选地,所述根据所述词语的危险等级做出对应的预警响应措施,具体包括:
S310、当所述词语的危险等级为遇险紧急通信,发出报警信息并开启自动录音;
S320、当所述词语的危险等级为常规语音通信,判断是否需要接通程控电话并开启自动录音。
需要说明的是,报警信息包括声光报警,当发生报警信息后,工作人员也可以进行人工紧急处理。
具体地,如“救命”“危险”等属于遇险紧急通信,发出声光报警,工作人员进行紧急处理;如“天气”等属于常规语音通信,连接气象台等程控电话;另外,接收的海事单边带音频文件需要录音。
实施本发明实施例包括以下有益效果:本发明实施例首先将获取的海事单边带音频文件输入到预设语音识别模型得到文本文件,然后对文本文件进行分词处理得到若干个词语并根据词语的危险等级做出对应的响应措施,其中,预设语音识别模型包括声学单元和端到端的语音识别单元,能够自动监听海事单边带音频文件并根据监听的结果做出响应措施,减少人工成本,准确率高,适用范围广。
如图3所示,本发明实施例提供了一种基于海事单边带语音自动监听系统,包括:
第一模块,用于获取海事单边带音频文件;
第二模块,用于将所述海事单边带音频文件输入到预设语音识别模型得到文本文件;所述预设语音识别模型包括声学单元和端到端的语音识别单元;
第三模块,用于对所述文本文件进行分词处理得到若干个词语,并根据所述词语的危险等级做出对应的预警响应措施。
可见,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
如图4所示,本发明实施例提供了一种基于海事单边带语音自动监听系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的方法。
可见,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
此外,本申请实施例还公开了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述所示的方法。同样地,上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
如图5所示,本发明实施例提供了一种基于海事单边带语音自动监听系统,包括计算机设备,以及与所述计算机设备连接的单边带语音接收设备、报警装置和程控电话通信装置;其中,
所述单边带语音接收设备,用于接收海事单边带音频文件并将所述海事单边带音频文件发送给所述计算机设备;
所述报警装置,用于根据所述计算机设备的指令产生报警信号;
所述程控电话通信装置,用于连接公共网络并根据所述计算机设备的指令拨打程控电话;
所述计算机设备包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的方法。
具体地,对于所述单边带语音接收设备可以通过单边带通信机实现;对于所述报警装置,其主要通过LED灯和/或声音报警器或来实现;而对于所述计算机设备,其可为不同类型的电子设备,包含但不限于有台式电脑、手提电脑等终端。
可见,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种基于海事单边带语音自动监听方法,其特征在于,包括:
获取海事单边带音频文件;
将所述海事单边带音频文件输入到预设语音识别模型得到文本文件;所述预设语音识别模型包括声学单元和端到端的语音识别单元;
对所述文本文件进行分词处理得到若干个词语,并根据所述词语的危险等级做出对应的响应措施。
2.根据权利要求1所述的方法,其特征在于,所述预设语音识别模型通过以下方法训练得到:
获取海事单边带音频样本文件,并对所述样本文件进行预处理和标注以获得标记文件;
提取所述标记文件的音频特征;
将所述标记文件的标注文本及所述标记文件的音频特征划分为训练集、交叉验证集和测试集;
采用所述训练集及所述交叉验证集对所述预设语音识别模型进行训练,并采用测试集对所述设语音识别模型进行验证。
3.根据权利要求2所述的方法,其特征在于,所述获取海事单边带音频样本文件,所述样本文件包括第一样本文件和第二样本文件,具体包括:
获取海事单边带音频第一样本文件;所述第一样本文件包括待寻找目标音频文件;
获取海事单边带音频第二样本文件;所述第二样本文件包括噪声文件。
4.根据权利要求2所述的方法,其特征在于,所述对所述样本文件进行预处理和标注以获得标记文件,具体包括:
对所述样本文件进行语音活动检测并静音切割以提取预设长度的有效音频文件;
将所述有效音频文件按照字向量及位置信息进行标注以获得标记文件。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述方法还包括:
对所述样本文件进行数据增强以扩充数据。
6.根据权利要求1-4所述的方法,其特征在于,所述根据所述词语的危险等级做出对应的预警响应措施,具体包括:
当所述词语的危险等级为遇险紧急通信,发出报警信息并开启自动录音;
当所述词语的危险等级为常规语音通信,判断是否需要接通程控电话并开启自动录音。
7.一种基于海事单边带语音自动监听系统,其特征在于,包括:
第一模块,用于获取海事单边带音频文件;
第二模块,用于将所述海事单边带音频文件输入到预设语音识别模型得到文本文件;所述预设语音识别模型包括声学单元和端到端的语音识别单元;
第三模块,用于对所述文本文件进行分词处理得到若干个词语,并根据所述词语的危险等级做出对应的预警响应措施。
8.一种基于海事单边带语音自动监听系统,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-6任一项所述的方法。
9.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-6任一项所述的方法。
10.一种基于海事单边带语音自动监听系统,其特征在于,包括计算机设备,以及与所述计算机设备连接的单边带语音接收设备、报警装置和程控电话通信装置;其中,
所述单边带语音接收设备,用于接收海事单边带音频文件;
所述报警装置,用于根据所述计算机设备的指令产生报警信号;
所述程控电话通信装置,用于连接公共网络并根据所述计算机设备的指令拨打程控电话;
所述计算机设备包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111349726.2A CN114220432A (zh) | 2021-11-15 | 2021-11-15 | 基于海事单边带语音自动监听方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111349726.2A CN114220432A (zh) | 2021-11-15 | 2021-11-15 | 基于海事单边带语音自动监听方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114220432A true CN114220432A (zh) | 2022-03-22 |
Family
ID=80697198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111349726.2A Pending CN114220432A (zh) | 2021-11-15 | 2021-11-15 | 基于海事单边带语音自动监听方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114220432A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015135494A (ja) * | 2014-01-17 | 2015-07-27 | 株式会社Nttドコモ | 音声認識方法及び装置 |
CN108833722A (zh) * | 2018-05-29 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN110428818A (zh) * | 2019-08-09 | 2019-11-08 | 中国科学院自动化研究所 | 低资源多语言的语音识别模型、语音识别方法 |
CN111710336A (zh) * | 2020-06-05 | 2020-09-25 | 平安科技(深圳)有限公司 | 语音的意图识别方法、装置、计算机设备及存储介质 |
CN112217947A (zh) * | 2020-10-10 | 2021-01-12 | 携程计算机技术(上海)有限公司 | 客服电话语音转录文本方法、系统、设备及存储介质 |
CN112466285A (zh) * | 2020-12-23 | 2021-03-09 | 北京百度网讯科技有限公司 | 离线语音识别方法、装置、电子设备及存储介质 |
CN113395116A (zh) * | 2021-05-28 | 2021-09-14 | 西北工业大学 | 一种基于语义压缩的水声语音数字传输方法 |
CN113516973A (zh) * | 2021-09-13 | 2021-10-19 | 珠海亿智电子科技有限公司 | 基于双向上下文的非自回归语音识别网络、方法及设备 |
CN113516997A (zh) * | 2021-04-26 | 2021-10-19 | 常州分音塔科技有限公司 | 一种语音事件识别装置和方法 |
-
2021
- 2021-11-15 CN CN202111349726.2A patent/CN114220432A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015135494A (ja) * | 2014-01-17 | 2015-07-27 | 株式会社Nttドコモ | 音声認識方法及び装置 |
CN108833722A (zh) * | 2018-05-29 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN110428818A (zh) * | 2019-08-09 | 2019-11-08 | 中国科学院自动化研究所 | 低资源多语言的语音识别模型、语音识别方法 |
CN111710336A (zh) * | 2020-06-05 | 2020-09-25 | 平安科技(深圳)有限公司 | 语音的意图识别方法、装置、计算机设备及存储介质 |
CN112217947A (zh) * | 2020-10-10 | 2021-01-12 | 携程计算机技术(上海)有限公司 | 客服电话语音转录文本方法、系统、设备及存储介质 |
CN112466285A (zh) * | 2020-12-23 | 2021-03-09 | 北京百度网讯科技有限公司 | 离线语音识别方法、装置、电子设备及存储介质 |
CN113516997A (zh) * | 2021-04-26 | 2021-10-19 | 常州分音塔科技有限公司 | 一种语音事件识别装置和方法 |
CN113395116A (zh) * | 2021-05-28 | 2021-09-14 | 西北工业大学 | 一种基于语义压缩的水声语音数字传输方法 |
CN113516973A (zh) * | 2021-09-13 | 2021-10-19 | 珠海亿智电子科技有限公司 | 基于双向上下文的非自回归语音识别网络、方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112804400B (zh) | 客服呼叫语音质检方法、装置、电子设备及存储介质 | |
CN110287283B (zh) | 意图模型训练方法、意图识别方法、装置、设备及介质 | |
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
CN112002308B (zh) | 一种语音识别方法及装置 | |
EP4016526A1 (en) | Sound conversion system and training method for same | |
CN111477216B (zh) | 一种用于对话机器人的音意理解模型的训练方法及系统 | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
CN111930914A (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN115132174A (zh) | 一种语音数据处理方法、装置、计算机设备及存储介质 | |
CN113327585A (zh) | 一种基于深度神经网络的自动语音识别方法 | |
CN116450799B (zh) | 一种应用于交通管理服务的智能对话方法及设备 | |
CN112885379A (zh) | 客服语音评估方法、系统、设备及存储介质 | |
CN114220432A (zh) | 基于海事单边带语音自动监听方法、系统及存储介质 | |
CN116189657A (zh) | 一种多模态语音识别纠错方法和系统 | |
CN113889073B (zh) | 语音处理方法、装置、电子设备和存储介质 | |
CN112242134A (zh) | 语音合成方法及装置 | |
CN115022471A (zh) | 一种智能机器人语音交互系统和方法 | |
CN115116474A (zh) | 口语评分模型训练方法、评分方法、装置及电子设备 | |
CN112863493A (zh) | 语音数据标注方法和装置,电子设备 | |
CN114420086B (zh) | 语音合成方法和装置 | |
Youa et al. | Research on dialect speech recognition based on DenseNet-CTC | |
CN117727288B (zh) | 一种语音合成方法、装置、设备及存储介质 | |
CN115273849B (zh) | 一种关于音频数据的意图识别方法及装置 | |
CN115394288B (zh) | 民航多语种无线电陆空通话的语种识别方法及系统 | |
CN115809641A (zh) | Asr文本纠错方法、模型、装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |