CN116665675A - 语音转写方法、系统、电子设备和存储介质 - Google Patents
语音转写方法、系统、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116665675A CN116665675A CN202310913545.0A CN202310913545A CN116665675A CN 116665675 A CN116665675 A CN 116665675A CN 202310913545 A CN202310913545 A CN 202310913545A CN 116665675 A CN116665675 A CN 116665675A
- Authority
- CN
- China
- Prior art keywords
- text
- transcribed
- feature vector
- voice
- generate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 62
- 230000035897 transcription Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 141
- 238000012937 correction Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000012546 transfer Methods 0.000 claims abstract description 21
- 230000004927 fusion Effects 0.000 claims description 32
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 9
- 238000009825 accumulation Methods 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 abstract description 4
- 239000011159 matrix material Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提供一种语音转写方法、系统、电子设备和存储介质,所述方法包括:获取待转写源语音,并将所述待转写源语音输入到至少三个通道;在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量;将所有通道提取的特征向量交叉融合,以生成融合后的特征向量;将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本。本申请采用端到端模型,实现了语音转写和文本纠错的一体化处理,大大减少了处理时间和资源消耗;提高了纠错效果和准确率;实现了快速迭代和优化;有效避免了错误累积和误差传递的问题,提高了最终的转写结果的准确性和可靠性。
Description
技术领域
本申请属于语音转写技术领域,涉及一种语音转写方法、系统、电子设备和存储介质。
背景技术
在传统的语音识别和纠错系统中,往往需要先利用语音识别模型将语音信号转换为文本,再利用文本纠错模型进行后续的纠错操作,该种技术方案存在以下缺陷:
(1)由于语音识别模型和文本纠错模型需要分别进行训练和优化,因此需要大量的数据和计算资源,难以实现快速迭代和优化;
(2)由于语音识别模型和文本纠错模型是独立的,因此在实际应用中容易出现错误累积和误差传递的问题,导致最终的转写结果不准确;
(3)由于语音识别模型和文本纠错模型是分开进行的,因此无法充分利用语音和文字之间的关联信息,导致纠错效果不佳,同时增加了软件开发以及系统集成的难度和成本。
因此,需要提供一种新的语音转写系统及方法,以克服现有技术的缺陷。
发明内容
本申请的目的在于提供一种语音转写方法、系统、电子设备和存储介质,用于解决现有技术中由于级联语音转写和文本纠错两个模型,导致系统对语音和文字之间的关联信息利用不充分,以及转写效果不佳的技术问题。
第一方面,本申请提供一种语音转写方法,包括:
获取待转写源语音,并将所述待转写源语音输入到至少三个通道;在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量;将所有通道提取的特征向量交叉融合,以生成融合后的特征向量;将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本。
在第一方面的一种实现方式中,在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量包括:
将所述待转写源语音转换为声学特征向量;对所述声学特征向量进行编码,以生成第一特征向量。
在第一方面的一种实现方式中,在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量包括:确定与所述待转写源语音对应的源频谱序列;对所述源频谱序列进行编码,以生成第二特征向量。
在第一方面的一种实现方式中,在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量包括:
确定与所述待转写源语音对应的滤波器频带特征;对所述滤波器频带特征进行编码,以生成第三特征向量。
在第一方面的一种实现方式中,将所有通道提取的特征向量交叉融合,以生成融合后的特征向量包括:
将每个通道提取的特征向量转换为三个子特征向量;按照预设规则将所述三个子特征向量输入至对应的融合器中;所述融合器的数量与所述通道数量相同;对输入至每个融合器的所有子特征向量进行融合,以生成所述融合后的特征向量。
在第一方面的一种实现方式中,将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本包括:
对所述融合后的特征向量进行解码,以生成转写文本;基于所述融合后的特征向量确定所述转写文本中正确文字出现的位置;基于所述融合后的特征向量确定所述转写文本中错误文字出现的位置;基于所述正确文字出现的位置和所述错误文字出现的位置对所述转写文本进行纠错,以生成纠错后的转写文本。
第二方面,本申请提供一种语音转写系统,包括语音输入单元、特征提取单元、特征融合单元和转写单元;所述语音输入单元用于获取待转写源语音,并将所述待转写源语音输入到至少三个通道;所述特征提取单元用于在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量;所述特征融合单元用于将所有通道提取的特征向量交叉融合,以生成融合后的特征向量;所述转写单元用于将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本。
在第二方面的一种实现方式中,所述转写单元将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本包括:
对所述融合后的特征向量进行解码,以生成转写文本;基于所述融合后的特征向量确定所述转写文本中正确文字出现的位置;基于所述融合后的特征向量确定所述转写文本中错误文字出现的位置;基于所述正确文字出现的位置和所述错误文字出现的位置对所述转写文本进行纠错,以生成纠错后的转写文本。
第三方面,本申请提供一种电子设备,包括:处理器及存储器。
所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述任一项所述的语音转写方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述的语音转写方法。
如上所述,本申请所述的语音转写方法、系统、电子设备和存储介质,具有以下有益效果:
采用端到端模型,实现了语音转写和文本纠错的一体化处理,大大减少了处理时间和资源消耗;充分利用了语音和文字之间的关联信息,提高了纠错效果和准确率;通过共享参数减少了训练数据和计算资源的需求,从而实现了快速迭代和优化;有效避免错误累积和误差传递的问题,提高了最终的转写结果的准确性和可靠性。
附图说明
图1显示为本申请所述的语音转写方法于一实施例中的流程图。
图2显示为本申请所述的语音转写方法于另一实施例中的流程图。
图3显示为本申请所述的语音转写系统于一实施例中的结构示意图。
图4显示为本申请所述的电子设备于一实施例中的结构示意图。
元件标号说明
11 语音输入单元
12 特征提取单元
13 特征融合单元
14 转写单元
41 处理器
42 存储器
S1~S4 步骤
实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在本申请中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本申请以下实施例提供了语音转写方法、系统、电子设备和存储介质,实现的应用场景包括但不限于内置于智能手机、笔记本电脑、平板电脑、智能音箱和智能家居等终端设备上的语音交互软件,例如语音助手和虚拟助手等,用于为用户提供更加便捷和高效的语音交互和智能服务。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细描述。。
如图1所示,本实施例提供一种语音转写方法,包括:
步骤S1、获取待转写源语音,并将所述待转写源语音输入到至少三个通道。
具体地,本实施例中的源语音为WAV格式的包含人说话的语音数据,所述源语音可以来自于通用语料库,也可以通过麦克风、手机、电脑等录音设备在现场采集的语音资源,或者使用语音合成器合成的特定语音,例如机器人语音。其中所述通用语料库是指包含各个语言领域的语言资源库,例如新闻、社交媒体、法律文书、医学文献等。
需要说明的是,本实施例不限制源语音的语种类别,例如所述源语音可以是中文语音或英文语音等。优先地,为了保证语音的质量和准确性,可以对所述源语音进行预处理,例如去除噪声和分段等,本实施例对此不作具体限定。
步骤S2、在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量。
如图2所示,于一实施例中,在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量包括:
步骤S211、将所述待转写源语音转换为声学特征向量。
具体地,本实施例采用wav2vec模型将所述待转写源语音或预处理后的待转写源语音转换为声学特征向量。
具体地,wav2vec模型是一种基于自监督学习的语音识别模型,在实际应用时,需要使用大量的训练数据预先对所述wav2vec模型进行训练,以提高其对不同语音信号的适应性。同时,通过预训练和微调的方式对wav2vec模型进行调整和优化,以提高wav2vec模型的性能和准确率。
步骤S212、对所述声学特征向量进行编码,以生成第一特征向量。
具体地,本实施例采用转换器编码模块(Transformer Encoder Blocks)对所述声学特征向量进行多层的编码处理。所述Transformer Encoder Blocks由多个相同的编码器堆叠而成,每个编码器由自注意力层(Self-Attention Layer)和多层感知器(MultilayerPerceptron,MLP)两个子层组成。
每进行一层编码,输入的特征向量先经过自注意力模型进行特征提取,然后再经过多层感知器进行特征映射,最后将两个子层的输出进行残差连接和层归一化,得到当前层的输出向量。对最后一层的输出向量进行池化操作,例如平均池化或最大池化,以得到所述声学特征向量的编码表示。
需要说明的是,可以根据具体的任务和数据特点设置Transformer EncoderBlocks的堆叠数量或层数,以达到最优的编码效果。
于另一实施例中,每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量包括:
步骤S221、确定与所述待转写源语音对应的源频谱序列。
具体地,本实施例中的源频谱序列为梅尔频谱(mel-spectorgram)。mel-spectorgram的生成过程包括:首先对待转写源语音或预处理后的待转写语音信号进行预加重、分帧、加窗和短时傅里叶变换(Short-Time Fourier Transform,STFT),以获取语音信号的时频谱图;对所述时频谱图进行梅尔滤波器组变换,所述梅尔滤波器组通常包括若干个滤波器;接着对所述梅尔频谱进行对数变换,再做离散余弦变换,以得到对数梅尔频谱系数。进一步地,将得到的所述对数梅尔频谱系数输入到神经网络的全连接层(Fullyconnected layers,FC)层,以进行特征提取和分类处理。
步骤S222、对所述源频谱序列进行编码,以生成第二特征向量。
具体地,本实施例采用Transformer Encoder Blocks对所述源频谱序列进行多层的编码处理。所述Transformer Encoder Blocks由多个相同的编码器堆叠而成,每个编码器由自注意力层(Self-Attention Layer)和多层感知器(Multilayer Perceptron,MLP)两个子层组成。
需要说明的是,本实施例和上述步骤S212中采用的Transformer Encoder Blocks在参数设置、工作原理和技术效果方面基本一致,此处不再赘述。
于再一实施例中,在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量包括:
步骤S231、确定与所述待转写源语音对应的滤波器频带特征。
具体地,滤波器频带(Filter Bank,FBank)特征和梅尔频谱的生成过程基本一致,区别在于获取FBank特征时没有应用离散余弦变换的处理过程。例如,FBank特征的生成过程包括:首先对待转写源语音或预处理后的待转写语音信号进行预加重、分帧、加窗和短时傅里叶变换(Short-Time Fourier Transform,STFT),以获取语音信号的时频谱图;对所述时频谱图进行梅尔滤波器组变换,所述梅尔滤波器组通常包括若干个滤波器;接着对所述梅尔频谱进行对数变换,以得到所述FBank特征。进一步地,将得到的所述FBank特征输入到神经网络的全连接层(Fully connected layers,FC)层,以进行特征提取和分类处理。
步骤S232、对所述滤波器频带特征进行编码,以生成第三特征向量。
具体地,本实施例采用Transformer Encoder Blocks对所述滤波器频带特征进行多层的编码处理。所述Transformer Encoder Blocks由多个相同的编码器堆叠而成,每个编码器由自注意力层(Self-Attention Layer)和多层感知器(Multilayer Perceptron,MLP)两个子层组成。
需要说明的是,本实施例与上述步骤S212和步骤S222中采用的TransformerEncoder Blocks在参数设置、工作原理和技术效果方面基本一致,此处不再赘述。
步骤S3、将所有通道提取的特征向量交叉融合,以生成融合后的特征向量。
于一实施例中,将所有通道提取的特征向量交叉融合,以生成融合后的特征向量包括:
步骤S31、将每个通道提取的特征向量转换为三个子特征向量。
具体地,将第一特征向量与矩阵A1相乘以得到子特征向量Q1,将第一特征向量与矩阵B1相乘以得到子特征向量K1,将第一特征向量与矩阵C1相乘以得到子特征向量V1。
同样地,将第二特征向量与矩阵A2相乘以得到子特征向量Q2,将第二特征向量与矩阵B2相乘以得到子特征向量K2,将第二特征向量与矩阵C2相乘以得到子特征向量V2;将第三特征向量与矩阵A3相乘以得到子特征向量Q3,将第三特征向量与矩阵B3相乘以得到子特征向量K3,将第三特征向量与矩阵C3相乘以得到子特征向量V3。
步骤S32、按照预设规则将所述三个子特征向量输入至对应的融合器中。
具体地,所述融合器的数量与所述通道数量相同。于一实施例中,定义提取第一特征向量的通道为第一通道,所述第一通道对应的融合器为第一融合器;对应地,定义提取第二特征向量的通道为第二通道,所述第二通道对应的融合器为第二融合器;定义提取第三特征向量的通道为第三通道,所述第三通道对应的融合器为第三融合器。
按照预设规则将所述三个子特征向量输入至对应的融合器中包括:将Q1、K2和V2输入至第一通道对应的融合器;将Q3、K2和V1输入至第二通道对应的融合器;将Q2、K3和V1输入至第三通道对应的融合器。在其他实施例中,也可以按照其他规则将不同的子特征向量输入至对应的融合器中,以实现不同特征向量的交叉融合。
步骤S33、对输入至每个融合器的所有子特征向量进行融合,以生成所述融合后的特征向量。
于一实施例中,对输入至每个融合器的所有子特征向量进行融合包括:将输入至每个融合器的三个子特征向量相乘,以获取所述融合后的特征向量。
例如,第一融合器在融合所有子特征向量时,将Q1和K2先相乘,再和V2相乘,以获取融合后的特征向量F1;第二融合器在融合所有子特征向量时,将Q3、K2先相乘,再和V1相乘,以获取融合后的特征向量F2;第三融合器在融合所有子特征向量时,将Q2、K3先相乘,再和V1相乘,以获取融合后的特征向量F3。
在其他实施例中,还可以基于其他规则对输入至每个融合器的所有子特征向量进行融合,本实施例不做具体限定。
步骤S4、将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本。
于一实施例中,将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本包括:
步骤S41、对所述融合后的特征向量进行解码,以生成转写文本。
具体地,利用CTC解码器对所述融合后的特征向量F3进行解码,以生成转写文本。
所述CTC解码器使用了一种基于概率的方法,通过对输出进行限制来解决标注不清或长度可变的问题。解码器输出的结果是一系列字符或标记的序列,这些字符或标记可能包括字母、数字、标点符号等,也可能包括特殊的标记,如空白符、起始符和终止符等。对解码器输出的字符或标记序列进行后处理,例如去除空白符、合并重复字符和转换大小写等,以得到最终的转写文本。
步骤S42、基于所述融合后的特征向量确定所述转写文本中正确文字出现的位置。
具体地,将融合后的特征向量F2输入至神经网络的全连接层,进行线性变换和激活函数处理;再输入至Softmax层,进行归一化处理,得到每个字(token)的概率分布;最后根据softmax层的输出结果生成正确的token序列。
步骤S43、基于所述融合后的特征向量确定所述转写文本中错误文字出现的位置。
具体地,将融合后的特征向量F1输入至神经网络的全连接层,进行线性变换和激活函数处理;再输入至Sigmoid层,进行归一化处理,得到每个位置是否为错误token的概率;选择概率大于阈值的位置作为错误token的位置,输出结果。
需要说明的是,Sigmoid层的输出是一个0到1之间的实数,表示该位置为错误token的概率,因此需要设置一个阈值来确定哪些位置被认为是错误的。阈值的选择可以根据实际情况进行调整。
步骤S44、基于所述正确文字出现的位置和所述错误文字出现的位置对所述转写文本进行纠错,以生成纠错后的转写文本。
例如,通过对融合后的特征向量F3进行解码,生成转写文本:“我使个中过人”。基于融合后的特征向量F2确定转写文本中正确的token序列:[blank,是,blank,国,blank,blank],该token序列共包括6个token,其中“是”和“国”对应的第2和4位置就是应该输出的正确token。基于融合后的特征向量F1确定转写文本中错误文字出现的位置:[0,1,0,1,0,0],该token序列也包括6个token,其中值为1对应的第2个位置和第4个位置就是出现错误的位置,那么错误的字就是“使”和“过”。基于所述正确文字出现的位置和所述错误文字出现的位置对所述转写文本进行纠错,可以生成纠错后的转写文本:“我是个中国人”。
本申请实施例所述的语音转写方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。
如图3所示,本申请实施例还提供一种语音转写系统,包括语音输入单元11、特征提取单元12、特征融合单元13和转写单元14。
所述语音输入单元11用于获取待转写源语音,并将所述待转写源语音输入到至少三个通道。
所述特征提取单元12用于在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量。
所述特征融合单元13用于将所有通道提取的特征向量交叉融合,以生成融合后的特征向量。
所述转写单元14用于将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本。
于一实施例中,所述转写单元14将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本包括:
对所述融合后的特征向量进行解码,以生成转写文本;基于所述融合后的特征向量确定所述转写文本中正确文字出现的位置;基于所述融合后的特征向量确定所述转写文本中错误文字出现的位置;基于所述正确文字出现的位置和所述错误文字出现的位置对所述转写文本进行纠错,以生成纠错后的转写文本。
需要说明的是,本实施例中的语音输入单元11、特征提取单元12、特征融合单元13和转写单元14的结构和原理与上述语音转写方法中的步骤及实施例一一对应,故在此不再赘述。
本申请实施例所述的语音转写系统可以实现本申请所述的语音转写方法,但本申请所述的语音转写方法的实现装置包括但不限于本实施例列举的语音转写系统的结构,凡是根据本申请的原理所做的现有技术的结构变形和替换,都包括在本申请的保护范围内。
如图4所示,本申请实施例还提供一种电子设备,包括:处理器41及存储器42。
所述存储器42用于存储计算机程序。
所述处理器41用于执行所述存储器42存储的计算机程序,以使所述电子设备执行上述任一项所述的语音转写方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置或方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,模块/单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的,作为模块/单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如,在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中,也可以是各个模块/单元单独物理存在,也可以两个或两个以上模块/单元集成在一个模块/单元中。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时上述任一项所述的语音转写方法。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(magnetic tape),软盘(floppy disk),光盘(optical disc)及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本申请实施例还可以提供一种计算机程序产品,所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机或数据中心进行传输。
所述计算机程序产品被计算机执行时,所述计算机执行前述方法实施例所述的方法。该计算机程序产品可以为一个软件安装包,在需要使用前述方法的情况下,可以下载该计算机程序产品并在计算机上执行该计算机程序产品。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
综上所述,本申请的语音转写方法、系统、电子设备和存储介质采用端到端模型,实现了语音转写和文本纠错的一体化处理,大大减少了处理时间和资源消耗;充分利用了语音和文字之间的关联信息,提高了纠错效果和准确率;通过共享参数减少了训练数据和计算资源的需求,从而实现了快速迭代和优化;有效避免错误累积和误差传递的问题,提高了最终的转写结果的准确性和可靠性。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (8)
1.一种语音转写方法,其特征在于,包括:
获取待转写源语音,并将所述待转写源语音输入到至少三个通道;
在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量;
将所有通道提取的特征向量交叉融合,以生成融合后的特征向量;
采用端到端模型将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本;
采用端到端模型将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本包括:
对所述融合后的特征向量进行解码,以生成转写文本;
基于所述融合后的特征向量确定所述转写文本中正确文字出现的位置;
基于所述融合后的特征向量确定所述转写文本中错误文字出现的位置;
基于所述正确文字出现的位置和所述错误文字出现的位置对所述转写文本进行纠错,以生成纠错后的转写文本。
2.根据权利要求1所述的语音转写方法,其特征在于,在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量包括:
将所述待转写源语音转换为声学特征向量;
对所述声学特征向量进行编码,以生成第一特征向量。
3.根据权利要求1所述的语音转写方法,其特征在于,在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量包括:
确定与所述待转写源语音对应的源频谱序列;
对所述源频谱序列进行编码,以生成第二特征向量。
4.根据权利要求1所述的语音转写方法,其特征在于,在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量包括:
确定与所述待转写源语音对应的滤波器频带特征;
对所述滤波器频带特征进行编码,以生成第三特征向量。
5.根据权利要求1所述的语音转写方法,其特征在于,将所有通道提取的特征向量交叉融合,以生成融合后的特征向量包括:
将每个通道提取的特征向量转换为三个子特征向量;
按照预设规则将所述三个子特征向量输入至对应的融合器中;所述融合器的数量与所述通道数量相同;
对输入至每个融合器的所有子特征向量进行融合,以生成所述融合后的特征向量。
6.一种语音转写系统,其特征在于,包括语音输入单元、特征提取单元、特征融合单元和转写单元;
所述语音输入单元用于获取待转写源语音,并将所述待转写源语音输入到至少三个通道;
所述特征提取单元用于在每个通道中,采用预设特征提取方法获取与所述待转写源语音对应的特征向量;
所述特征融合单元用于将所有通道提取的特征向量交叉融合,以生成融合后的特征向量;
所述转写单元用于采用端到端模型将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本;
所述转写单元采用端到端模型将所述融合后的特征向量转写为文本,并基于所述融合后的特征向量对所述文本进行纠错处理,以生成纠错后的转写文本包括:
对所述融合后的特征向量进行解码,以生成转写文本;
基于所述融合后的特征向量确定所述转写文本中正确文字出现的位置;
基于所述融合后的特征向量确定所述转写文本中错误文字出现的位置;
基于所述正确文字出现的位置和所述错误文字出现的位置对所述转写文本进行纠错,以生成纠错后的转写文本。
7.一种电子设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行权利要求1至5中任一项所述的语音转写方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5任一项所述的语音转写方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310913545.0A CN116665675B (zh) | 2023-07-25 | 2023-07-25 | 语音转写方法、系统、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310913545.0A CN116665675B (zh) | 2023-07-25 | 2023-07-25 | 语音转写方法、系统、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116665675A true CN116665675A (zh) | 2023-08-29 |
CN116665675B CN116665675B (zh) | 2023-12-12 |
Family
ID=87722677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310913545.0A Active CN116665675B (zh) | 2023-07-25 | 2023-07-25 | 语音转写方法、系统、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665675B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116991874A (zh) * | 2023-09-26 | 2023-11-03 | 海信集团控股股份有限公司 | 一种文本纠错、基于大模型的sql语句生成方法及设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1647969A1 (en) * | 2004-10-15 | 2006-04-19 | Microsoft Corporation | Testing of an automatic speech recognition system using synthetic inputs generated from its acoustic models |
CN113782030A (zh) * | 2021-09-10 | 2021-12-10 | 平安科技(深圳)有限公司 | 基于多模态语音识别结果纠错方法及相关设备 |
CN114444479A (zh) * | 2022-04-11 | 2022-05-06 | 南京云问网络技术有限公司 | 一种端到端中文语音文本纠错方法、装置和存储介质 |
KR20220070709A (ko) * | 2020-11-23 | 2022-05-31 | 서울대학교산학협력단 | 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법 |
US20220198137A1 (en) * | 2020-12-23 | 2022-06-23 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Text error-correcting method, apparatus, electronic device and readable storage medium |
CN114781377A (zh) * | 2022-06-20 | 2022-07-22 | 联通(广东)产业互联网有限公司 | 非对齐文本的纠错模型、训练及纠错方法 |
CN114912418A (zh) * | 2021-12-02 | 2022-08-16 | 天翼数字生活科技有限公司 | 一种基于多元语义特征和掩码策略的文本纠错方法和系统 |
CN115132175A (zh) * | 2021-03-25 | 2022-09-30 | 北京三星通信技术研究有限公司 | 语音识别方法、装置、电子设备及计算机可读存储介质 |
US11488586B1 (en) * | 2021-07-19 | 2022-11-01 | Institute Of Automation, Chinese Academy Of Sciences | System for speech recognition text enhancement fusing multi-modal semantic invariance |
CN115525749A (zh) * | 2022-09-30 | 2022-12-27 | 河南讯飞人工智能科技有限公司 | 语音问答方法、装置、电子设备和存储介质 |
CN116189657A (zh) * | 2023-02-28 | 2023-05-30 | 信雅达科技股份有限公司 | 一种多模态语音识别纠错方法和系统 |
CN116312617A (zh) * | 2023-03-23 | 2023-06-23 | 平安科技(深圳)有限公司 | 语音转换方法、装置、电子设备及存储介质 |
CN116434752A (zh) * | 2023-05-11 | 2023-07-14 | 京东科技信息技术有限公司 | 语音识别纠错方法和装置 |
-
2023
- 2023-07-25 CN CN202310913545.0A patent/CN116665675B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1647969A1 (en) * | 2004-10-15 | 2006-04-19 | Microsoft Corporation | Testing of an automatic speech recognition system using synthetic inputs generated from its acoustic models |
KR20220070709A (ko) * | 2020-11-23 | 2022-05-31 | 서울대학교산학협력단 | 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법 |
US20220198137A1 (en) * | 2020-12-23 | 2022-06-23 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Text error-correcting method, apparatus, electronic device and readable storage medium |
CN115132175A (zh) * | 2021-03-25 | 2022-09-30 | 北京三星通信技术研究有限公司 | 语音识别方法、装置、电子设备及计算机可读存储介质 |
US11488586B1 (en) * | 2021-07-19 | 2022-11-01 | Institute Of Automation, Chinese Academy Of Sciences | System for speech recognition text enhancement fusing multi-modal semantic invariance |
CN113782030A (zh) * | 2021-09-10 | 2021-12-10 | 平安科技(深圳)有限公司 | 基于多模态语音识别结果纠错方法及相关设备 |
CN114912418A (zh) * | 2021-12-02 | 2022-08-16 | 天翼数字生活科技有限公司 | 一种基于多元语义特征和掩码策略的文本纠错方法和系统 |
CN114444479A (zh) * | 2022-04-11 | 2022-05-06 | 南京云问网络技术有限公司 | 一种端到端中文语音文本纠错方法、装置和存储介质 |
CN114781377A (zh) * | 2022-06-20 | 2022-07-22 | 联通(广东)产业互联网有限公司 | 非对齐文本的纠错模型、训练及纠错方法 |
CN115525749A (zh) * | 2022-09-30 | 2022-12-27 | 河南讯飞人工智能科技有限公司 | 语音问答方法、装置、电子设备和存储介质 |
CN116189657A (zh) * | 2023-02-28 | 2023-05-30 | 信雅达科技股份有限公司 | 一种多模态语音识别纠错方法和系统 |
CN116312617A (zh) * | 2023-03-23 | 2023-06-23 | 平安科技(深圳)有限公司 | 语音转换方法、装置、电子设备及存储介质 |
CN116434752A (zh) * | 2023-05-11 | 2023-07-14 | 京东科技信息技术有限公司 | 语音识别纠错方法和装置 |
Non-Patent Citations (1)
Title |
---|
敖翔;王绪刚;戴国忠;王宏安;: "基于多通道融合的连续手写识别纠错方法", 软件学报, no. 09, pages 106 - 117 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116991874A (zh) * | 2023-09-26 | 2023-11-03 | 海信集团控股股份有限公司 | 一种文本纠错、基于大模型的sql语句生成方法及设备 |
CN116991874B (zh) * | 2023-09-26 | 2024-03-01 | 海信集团控股股份有限公司 | 一种文本纠错、基于大模型的sql语句生成方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116665675B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223705B (zh) | 语音转换方法、装置、设备及可读存储介质 | |
CN111627418B (zh) | 语音合成模型的训练方法、合成方法、系统、设备和介质 | |
CN110827801B (zh) | 一种基于人工智能的自动语音识别方法及系统 | |
CN110288980A (zh) | 语音识别方法、模型的训练方法、装置、设备及存储介质 | |
CN112509555B (zh) | 方言语音识别方法、装置、介质及电子设备 | |
WO2022121251A1 (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN116665675B (zh) | 语音转写方法、系统、电子设备和存储介质 | |
CN112131359A (zh) | 一种基于图形化编排智能策略的意图识别方法及电子设备 | |
CN115376495A (zh) | 语音识别模型训练方法、语音识别方法及装置 | |
CN115602165A (zh) | 基于金融系统的数字员工智能系统 | |
JP7329393B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
Picheny et al. | Trends and advances in speech recognition | |
CN113362804A (zh) | 一种合成语音的方法、装置、终端及存储介质 | |
CN113077783A (zh) | 小语种语音语料扩增方法、装置及电子设备和存储介质 | |
CN114970470B (zh) | 文案信息处理方法、装置、电子设备和计算机可读介质 | |
Drgas et al. | Speaker recognition based on multilevel speech signal analysis on Polish corpus | |
CN113990334A (zh) | 用于语音编码的蓝牙音频的传送方法、系统和电子设备 | |
CN111462736B (zh) | 基于语音的图像生成方法、装置和电子设备 | |
CN117649846B (zh) | 语音识别模型生成方法、语音识别方法、设备和介质 | |
CN111048065A (zh) | 文本纠错数据生成方法及相关装置 | |
CN113689863B (zh) | 一种声纹特征提取方法、装置、设备及存储介质 | |
CN113724689B (zh) | 语音识别方法及相关装置、电子设备、存储介质 | |
Jiang et al. | Generation of Voice Signal Tone Sandhi and Melody Based on Convolutional Neural Network | |
US20240127803A1 (en) | Automatic Speech Recognition with Voice Personalization and Generalization | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: Room 301ab, No.10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 201204 Patentee after: Shanghai Mido Technology Co.,Ltd. Address before: Room 301ab, No.10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 201204 Patentee before: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd. |