CN114694637A - 混合语音识别方法、装置、电子设备及存储介质 - Google Patents

混合语音识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114694637A
CN114694637A CN202011631411.2A CN202011631411A CN114694637A CN 114694637 A CN114694637 A CN 114694637A CN 202011631411 A CN202011631411 A CN 202011631411A CN 114694637 A CN114694637 A CN 114694637A
Authority
CN
China
Prior art keywords
voice
data
sequence
language
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011631411.2A
Other languages
English (en)
Inventor
佟津乐
朱元婧
谢海华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Original Assignee
Pku Founder Information Industry Group Co ltd
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pku Founder Information Industry Group Co ltd, Peking University Founder Group Co Ltd filed Critical Pku Founder Information Industry Group Co ltd
Priority to CN202011631411.2A priority Critical patent/CN114694637A/zh
Publication of CN114694637A publication Critical patent/CN114694637A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种混合语音识别方法、装置、电子设备及存储介质,获取待识别的语音数据,对所述语音数据进行预处理得到语音特征序列;利用预先训练完毕的混合语音识别模型对所述语音特征序列进行识别处理,得到多个候选文本标签序列以及候选文本标签序列对应的置信度;根据各置信度从多个候选文本标签序列中确定目标文本标签序列,并根据预先建立的混合语音词表确定目标文本标签序列对应的文本数据。本发明的方法基于语种分类概率、标签分类概率以及相应的音素对齐概率确定文本标签序列的置信度,并结合混合语音词表,实现将多语种的文本标签序列转换为文本,进而实现了对于多语种语音的识别处理。

Description

混合语音识别方法、装置、电子设备及存储介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种混合语音识别方法、装置、电子设备及存储介质。
背景技术
随着全球化的发展,语音识别技术发挥着重要作用。
现有技术中,通过构建和训练语音识别模型,以使可利用训练后的语音识别模型对语音进行识别,得到语音对应的文本数据。
随着语言语种的多样化进程,在同一语音中具有多种语种成为常态,而利用现有的语音识别模型对于具有多语种语音进行识别尚无法实现。
发明内容
本发明提供一种混合语音识别方法,以实现对多语种混合语音的识别,满足用户多语种混合语音的识别要求。
第一方面,本发明提供一种混合语音识别方法,包括:
获取待识别的语音数据,对所述语音数据进行预处理得到语音特征序列;
利用预先训练完毕的混合语音识别模型对所述语音特征序列进行识别处理,得到多个候选文本标签序列以及候选文本标签序列对应的置信度;其中,所述候选文本标签序列对应的置信度是候选文本标签序列的标签分类概率、语种分类概率以及音素对齐概率确定的;
根据各置信度从多个候选文本标签序列中确定目标文本标签序列,并根据预先建立的混合语音词表确定目标文本标签序列对应的文本数据。
进一步的,所述对所述语音数据进行预处理得到语音特征序列,包括:
对所述语音数据进行采样和拼接处理,得到多个待识别的语音片段;
对各语音片段进行静音检测处理,以获得每个语音片段中的有效片段的片段数据;
对所述各有效片段的片段数据进行特征提取处理,得到所述语音特征序列。
进一步的,所述利用预先训练完毕的混合语音识别模型对所述语音特征序列进行识别处理,包括:
对所述语音特征序列依次卷积处理和编码处理得到语音编码数据;
对所述语音编码数据进行音素对齐处理,得到语音编码数据的多种音素对齐位置,以及相应的所述音素对齐概率;
根据所述多种音素对齐位置对语音编码数据进行音素划分,得到多个候选音素解码数据,其中每个候选音素解码数据是基于不同音素对齐位置对对语音编码数据进行音素划分得到的;
对各个候选音素解码数据分别进行语种分类识别以及标签分类识别,以得到各个候选文本标签序列,以及每个候选文本标签序列的语种分类概率以及标签分类概率;
对每个候选文本标签序列的语种分类概率、标签分类概率以及相应的音素对齐概率进行加权处理,得到所述每个候选文本标签序列的置信度。
进一步的,所述根据各置信度从多个候选文本标签序列中确定目标文本标签序列,包括:
根据所述各候选文本标签序列的置信度,从中选出置信度最高的文本标签序列作为目标文本标签序列。
进一步的,所述获取待识别的语音数据,对所述语音数据进行预处理得到语音特征序列之前还包括:
获取语音训练数据以及对应的标注文本数据;
利用所述语音训练数据以及对应的标注文本数据对构建的语音识别模型进行训练,获得所述训练完毕的语音识别模型。
进一步的,所述获取待识别的语音数据,对所述语音数据进行预处理得到语音特征序列之前还包括:
根据语音训练数据以及对应的标注文本数据,构建混合语音词表。
进一步的,所述根据语音训练数据以及对应的标注文本数据,构建混合语音词表,包括:
根据语种类型对所述标注文本数据文本划分,得到第一语种文本数据和第二语种文本数据;
分别对第一语种文本数据和第二语种文本数据进行分词过滤处理,得到第一语种词表和第二语种词表;
根据第一语种词表和第二语种词表,构建混合语音词表。
第二方面,本发明提供一种混合语音识别装置,包括:
获取模块,用于获取待识别的语音数据;
预处理模块,用于对所述语音数据进行预处理得到语音特征序列;
识别模块,用于利用预先训练完毕的混合语音识别模型对所述语音特征序列进行识别处理,得到多个候选文本标签序列以及候选文本标签序列对应的置信度;
确定模块,用于根据各置信度从多个候选文本标签序列中确定目标文本标签序列,并根据预先建立的混合语音词表确定目标文本标签序列对应的文本数据。
进一步的,所述预处理模块,具体用于:
对所述语音数据进行采样和拼接处理,得到多个待识别的语音片段;
对各语音片段进行静音检测处理,以获得每个语音片段中的有效片段的片段数据;
对所述各有效片段的片段数据进行特征提取处理,得到所述语音特征序列。
进一步的,所述识别模块,具体用于:
对所述语音特征序列依次卷积处理和编码处理得到语音编码数据;
对所述语音编码数据进行音素对齐处理,得到语音编码数据的多种音素对齐位置,以及相应的所述音素对齐概率;
根据所述多种音素对齐位置对语音编码数据进行音素划分,得到多个候选音素解码数据,其中每个候选音素解码数据是基于不同音素对齐位置对对语音编码数据进行音素划分得到的;
对各个候选音素解码数据分别进行语种分类识别以及标签分类识别,以得到各个候选文本标签序列,以及每个候选文本标签序列的语种分类概率以及标签分类概率;
对每个候选文本标签序列的语种分类概率、标签分类概率以及相应的音素对齐概率进行加权处理,得到所述每个候选文本标签序列的置信度。
进一步的,所述确定模块,具体用于:
根据所述各候选文本标签序列的置信度,从中选出置信度最高的文本标签序列作为目标文本标签序列。
进一步的,所述装置还包括:训练模块;
所述训练模块,具体用于获取语音训练数据以及对应的标注文本数据;利用所述语音训练数据以及对应的标注文本数据对构建的语音识别模型进行训练,获得所述训练完毕的语音识别模型。
进一步的,所述装置还包括:词表构建模块;
所述词表构建模块,用于根据语音训练数据以及对应的标注文本数据,构建混合语音词表。
进一步的,所述词表构建模块,具体用于:
根据语种类型对所述标注文本数据文本划分,得到第一语种文本数据和第二语种文本数据;
分别对第一语种文本数据和第二语种文本数据进行分词过滤处理,得到第一语种词表和第二语种词表;
根据第一语种词表和第二语种词表,构建混合语音词表。
第三方面,本发明提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行第一方面任一项所述的语音识别方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的语音识别方法。
本发明提供的一种混合语音识别方法、装置、电子设备及存储介质,获取待识别的语音数据,对所述语音数据进行预处理得到语音特征序列;利用预先训练完毕的混合语音识别模型对所述语音特征序列进行识别处理,得到多个候选文本标签序列以及候选文本标签序列对应的置信度;其中,所述候选文本标签序列对应的置信度是候选文本标签序列的标签分类概率、语种分类概率以及音素对齐概率确定的;根据各置信度从多个候选文本标签序列中确定目标文本标签序列,并根据预先建立的混合语音词表确定目标文本标签序列对应的文本数据。与现有技术相比,本申请提供的语音识别方法能够基于语种分类概率、标签分类概率以及相应的音素对齐概率确定文本标签序列的置信度,并结合混合语音词表,实现将多语种的文本标签序列转换为文本,进而实现了对于多语种语音的识别处理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开所基于的一种网络架构的示意图;
图2为本公开实施例提供的一种混合语音识别方法的流程示意图;
图3为本公开实施例提供的一种语音识别模型的结构示意图;
图4为本公开实施例提供的另一种混合语音识别方法的流程示意图;
图5为本公开实施例提供的一种混合语音识别装置的结构示意图;
图6为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前,不同国家之间的人员交流的日益频繁,语言不通成为人们沟通的巨大阻碍,语音识别技术成为解决这一问题的有效手段。
现有技术通常根据对语种类型的识别需求准备大量符合要求的语音训练数据,用以对构建的语音识别模型进行训练,使用训练后的语音识别模型可以对特定语种的语音进行识别,识别过程包括语音特征提取、语音编码语音解码和文本输出。
例如,训练能够识别德语语音的语音识别模型,需要准备大量的德语语音数据并进行中文标注,获得德语训练数据,利用德语训练数据对构建的语音识别模型进行训练,训练后的模型能够将德语语音识别为中文文本进行输出。
然而,由于单一语种的语音训练数据较多,缺少高质量的多语种混合语音训练数据,导致上述方法对单一语种的语音识别率较高,却无法对多语种混合语音进行识别,无法满足用户对多语种混合语音的识别要求。
图1为本公开所基于的一种网络架构的示意图,如图1所示的,本公开基于的一种网络架构可包括混合语音识别装置1以及终端2。
其中,混合语音识别装置1是可与终端2通过网络进行交互的硬件或软件,其可用于执行下述各实施例中所述的语音识别方法。
当混合语音识别装置1为硬件时,包括具备运算功能的云端服务器。当混合语音识别装置1为软件时,其可以安装在具备运算功能的电子设备中,其中的电子设备包括但不限于膝上型便携计算机和台式计算机等等。
其中,终端2具体可为用户手机、智能家居设备、平板电脑等装有麦克风和录音器的硬件设备,而混合语音识别装置1可为集成或安装在所述终端2上的服务端。
混合语音识别装置1可在终端2上运行,并为终端2提供语音识别服务,并且,终端1利用其显示器或显示组件向用户显示语音识别后的文本信息。
同时,混合语音识别装置1还可利用终端1的录音功能,以获取终端1的录音信息、位置信息、场景信息甚至其他的一些信息资源。
当然,在其他使用场景中,混合语音识别装置1还可集成在用于处理语音数据的服务器中,如语音识别服务器等,此时,终端2则可为包括智能手机、平板电脑、台式计算机等在内的可与前述的混合语音识别装置1通过网络进行通信和数据交互的设备。终端2则可将需要处理的语音发送至混合语音识别装置1,以使混合语音识别装置1以采用如下所示的方式对语音信息进行处理,并将处理后的中文文本返回至终端2。
以下将对本申请提供的混合语音识别方法、装置、电子设备及存储介质进行进一步说明:
图2为本公开实施例提供的一种混合语音识别方法的流程示意图。如图2所示,本公开实施例提供的一种混合语音识别方法,包括:
S21、获取待识别的语音数据,对所述语音数据进行预处理得到语音特征序列;
本实施例中,由于原始语音数据无法直接输入模型进行识别处理,首先对待识别的语音数据进行预处理,预处理是将原始语音数据进行采样、拼接以及特征提取,可以确定语音数据中的有声部分和结束部分,进而获得能够被语音识别模型识别的语音特征序列。
在一种可能的实施方式中,对所述语音数据进行预处理得到语音特征序列,包括:对所述语音数据进行采样和拼接处理,得到多个待识别的语音片段;对各语音片段进行静音检测处理,以获得每个语音片段中的有效片段的片段数据;对所述各有效片段的片段数据进行特征提取处理,得到所述语音特征序列。
具体来说,对语音数据进行采样,获得包含多个语音采样信号的语音片段,将语音片段进行静音检测,确定语音片段是否为有声片段,若是则标定为有效片段,否则标定为结束片段,对语音片段进行特征提取得到语音特征序列。
举例来说,当语音识别开始后,利用麦克风模块对语音数据进行采样,获得30个100ms的语音采样信号,30个语音采样信号拼接成语音片段,将语音片段传入静音检测模块,以10ms为间隔对语音片段中的各语音采样信号进行检测,统计各语音采样信号检测为有声的次数占总次数的百分比,若百分比大于预设的阈值0.5,则将当前检测的语音采样信号标定为有声片段,否则标定为结束片段,将检测后的语音片段传入模型输入迭代器进行特征提取得到语音特征序列。
S22、利用预先训练完毕的混合语音识别模型对所述语音特征序列进行识别处理,得到多个候选文本标签序列以及候选文本标签序列对应的置信度;其中,所述候选文本标签序列对应的置信度是候选文本标签序列的标签分类概率、语种分类概率以及音素对齐概率确定的;
在本实施例中,利用预先训练完毕的混合语音识别模型识别前述步骤获得的语音特征序列,识别过程包括:编码、音素对齐以及解码,最终得到多个候选文本标签序列以及候选文本标签序列对应的置信度,置信度用于表示候选文本标签序列的预测准确度。
在一种可能的实施方式中,所述利用预先训练完毕的混合语音识别模型对所述语音特征序列进行识别处理,包括:对所述语音特征序列依次卷积处理和编码处理得到语音编码数据;对所述语音编码数据进行音素对齐处理,得到语音编码数据的多种音素对齐位置,以及相应的所述音素对齐概率;根据所述多种音素对齐位置对语音编码数据进行音素划分,得到多个候选音素解码数据,其中每个候选音素解码数据是基于不同音素对齐位置对对语音编码数据进行音素划分得到的;对各个候选音素解码数据分别进行语种分类识别以及标签分类识别,以得到各个候选文本标签序列,以及每个候选文本标签序列的语种分类概率以及标签分类概率;对每个候选文本标签序列的语种分类概率、标签分类概率以及相应的音素对齐概率进行加权处理,得到所述每个候选文本标签序列的置信度。
本实施例中,图3为本公开实施例提供的一种语音识别模型的结构示意图,如图3所示,训练完毕的语音识别模型包括卷积层、编码层、对齐层、解码层、语种线性层以及标签线性层,首先通过卷积层对语音特征序列进行降维处理,通过对齐层进行音素对齐处理,解码层根据多种音素对齐位置对语音编码数据进行音素划分,通过标签线性层输出各个候选文本标签序列和每个候选文本标签序列的标签分类概率,通过语种线性层输出每个候选文本标签序列的语种分类概率。
具体来说,由于算法的时间复杂度很大程度取决于特征的维度,因此本实施例中对语音特征序列采用卷积处理进行特征降维,从而实现减少特征的维度,减少计算复杂度,进而降低时间复杂度。首先对语音特征序列进行卷积处理,得到降维语音特征序列,并将降维语音特征序列输入模型的编码层进行编码处理得到语音编码数据。由于语音数据不一定是匀速连续的数据,为提高语音识别效果,将语音编码数据输入对齐层进行音素对齐处理以确定语音编码数据的多种音素对齐位置,以及相应的所述音素对齐概率。由于对齐处理后得到了多种音素对齐位置,可用于对语音编码数据进行音素划分,将语音编码数据输入模型的解码层,解码层根据多种音素对齐位置对语音编码数据进行音素划分,得到多个候选音素解码数据。由于语音数据的各个音素可能属于不同的语种,需要进行语种区分以提高对不同语种语音的识别准确率,将各个候选音素解码数据分别输入语种线性层和标签线性层,标签线性层输出各个候选文本标签序列和每个候选文本标签序列的标签分类概率,语种线性层输出每个候选文本标签序列的语种分类概率。由于语种分类概率表示候选文本标签序列的语种预测准确率,标签分类概率文本标签序列的各标签预测的准确率,相应的音素对齐概率表示音素与语音特征对齐的预测准确率,将每个候选文本标签序列的语种分类概率、标签分类概率以及相应的音素对齐概率进行加权处理得到每个候选文本标签序列的置信度,通过置信度可以更准确地确定目标文本标签序列。
S23、根据各置信度从多个候选文本标签序列中确定目标文本标签序列,并根据预先建立的混合语音词表确定目标文本标签序列对应的文本数据。
本实施例中,由于置信度越高表示候选文本标签序列的预测准确度越高,根据各候选文本标签序列的置信度来确定目标文本标签序列,使得确定的目标文本标签序列的准确率更高。
在一种可能的实施方式中,所述根据各置信度从多个候选文本标签序列中确定目标文本标签序列,包括:根据所述各候选文本标签序列的置信度,从中选出置信度最高的文本标签序列作为目标文本标签序列。
本实施例提供了一种混合语音识别方法,获取待识别的语音数据,对所述语音数据进行预处理得到语音特征序列;利用预先训练完毕的混合语音识别模型对所述语音特征序列进行识别处理,得到多个候选文本标签序列以及候选文本标签序列对应的置信度;其中,所述候选文本标签序列对应的置信度是候选文本标签序列的标签分类概率、语种分类概率以及音素对齐概率确定的;根据各置信度从多个候选文本标签序列中确定目标文本标签序列,并根据预先建立的混合语音词表确定目标文本标签序列对应的文本数据。本实施例提供的语音识别方法能够基于语种分类概率、标签分类概率以及相应的音素对齐概率确定文本标签序列的置信度,并结合混合语音词表,实现将多语种的文本标签序列转换为文本,进而实现了对于多语种语音的识别处理。
在上述实施例的基础上,图4为本公开实施例提供的另一种混合语音识别方法的流程示意图,在步骤S21所述的获取待识别的语音数据,对所述语音数据进行预处理得到语音特征序列之前,还包括语音识别模型的训练阶段,如图4所示,包括:
S31、获取语音训练数据以及对应的标注文本数据;
本实施例中,语音训练数据为多个语种混合的语音数据,对应的标注文本数据为多个语种混合的语音数据对应的人工标注文本数据。
S32、利用所述语音训练数据以及对应的标注文本数据对构建的语音识别模型进行训练,获得所述训练完毕的语音识别模型。
本实施例中,对语音训练数据以及对应的标注文本数据分别进行处理,获得训练语音特征序列和词汇标签库;将训练语音特征序列输入待训练的语音识别模型,通过待训练的语音识别模型对训练语音特征序列进行处理得到输出文本标签序列;根据输出文本标签序列与词汇标签库计算损失函数值,并将所述损失函数值反向传播至所述语音识别模型的各层,以根据所述损失函数值更新各层的权值参数;重复上述的训练步骤,直至语音识别模型收敛。
S33、根据语音训练数据以及对应的标注文本数据,构建混合语音词表。
本实施例中,由于模型的输出为目标文本标签序列,需要将目标文本标签序列中的各标签转换为相应的文本,从而得到目标文本标签序列对应的文本数据,因此根据语音训练数据以及对应的标注文本数据构建混合语音词表。
在一种可能的实施方式中,所述根据语音训练数据以及对应的标注文本数据,构建混合语音词表,包括:根据语种类型对所述标注文本数据文本划分,得到第一语种文本数据和第二语种文本数据;分别对第一语种文本数据和第二语种文本数据进行分词过滤处理,得到第一语种词表和第二语种词表;根据第一语种词表和第二语种词表,构建混合语音词表。
举例来说,语音训练数据为中英文混合语音数据,将中英文混合语音数据对应的标注文本数据按照所属语种类型划分为中文文本数据和英文文本数据,对中文文本数据和英文文本数据分别进行分词和过滤处理,将中文文本数据转换为中文词表,将英文文本数据转换为英文词表,最终将中文词表和英文词表合并为中英文混合词表。
对应于上文实施例的语音识别方法,图5为本公开实施例提供的一种混合语音识别装置的结构示意图。为了便于说明,仅示出了与本公开实施例相关的部分。参照图5,所述语音识别装置包括:获取模块51、预处理模块52、识别模块53以及确定模块54。
获取模块51,用于获取待识别的语音数据;
预处理模块52,用于对所述语音数据进行预处理得到语音特征序列;
识别模块53,用于利用预先训练完毕的混合语音识别模型对所述语音特征序列进行识别处理,得到多个候选文本标签序列以及候选文本标签序列对应的置信度;
确定模块54,用于根据各置信度从多个候选文本标签序列中确定目标文本标签序列,并根据预先建立的混合语音词表确定目标文本标签序列对应的文本数据。
进一步的,所述预处理模块52,具体用于:
对所述语音数据进行采样和拼接处理,得到多个待识别的语音片段;
对各语音片段进行静音检测处理,以获得每个语音片段中的有效片段的片段数据;
对所述各有效片段的片段数据进行特征提取处理,得到所述语音特征序列。
进一步的,所述识别模块53,具体用于:
对所述语音特征序列依次卷积处理和编码处理得到语音编码数据;
对所述语音编码数据进行音素对齐处理,得到语音编码数据的多种音素对齐位置,以及相应的所述音素对齐概率;
根据所述多种音素对齐位置对语音编码数据进行音素划分,得到多个候选音素解码数据,其中每个候选音素解码数据是基于不同音素对齐位置对对语音编码数据进行音素划分得到的;
对各个候选音素解码数据分别进行语种分类识别以及标签分类识别,以得到各个候选文本标签序列,以及每个候选文本标签序列的语种分类概率以及标签分类概率;
对每个候选文本标签序列的语种分类概率、标签分类概率以及相应的音素对齐概率进行加权处理,得到所述每个候选文本标签序列的置信度。
进一步的,所述确定模块54,具体用于:
根据所述各候选文本标签序列的置信度,从中选出置信度最高的文本标签序列作为目标文本标签序列。
进一步的,所述装置还包括:模型训练模块55;
所述模型训练模块,具体用于获取语音训练数据以及对应的标注文本数据;利用所述语音训练数据以及对应的标注文本数据对构建的语音识别模型进行训练,获得所述训练完毕的语音识别模型。
进一步的,所述装置还包括:词表构建模块56;
所述词表构建模块,用于根据语音训练数据以及对应的标注文本数据,构建混合语音词表。
进一步的,所述词表构建模块,具体用于:
根据语种类型对所述标注文本数据文本划分,得到第一语种文本数据和第二语种文本数据;
分别对第一语种文本数据和第二语种文本数据进行分词过滤处理,得到第一语种词表和第二语种词表;
根据第一语种词表和第二语种词表,构建混合语音词表。
本实施例提供了一种混合语音识别装置,获取待识别的语音数据,对所述语音数据进行预处理得到语音特征序列;利用预先训练完毕的混合语音识别模型对所述语音特征序列进行识别处理,得到多个候选文本标签序列以及候选文本标签序列对应的置信度;其中,所述候选文本标签序列对应的置信度是候选文本标签序列的标签分类概率、语种分类概率以及音素对齐概率确定的;根据各置信度从多个候选文本标签序列中确定目标文本标签序列,并根据预先建立的混合语音词表确定目标文本标签序列对应的文本数据。本实施例提供的装置能够基于语种分类概率、标签分类概率以及相应的音素对齐概率确定文本标签序列的置信度,并结合混合语音词表,实现将多语种的文本标签序列转换为文本,进而实现了对于多语种语音的识别处理。
图6为本公开实施例提供的一种电子设备的结构示意图,如图6所示,本实施例的电子设备60可以包括:存储器61、处理器62。
存储器61,用于存储计算机程序(如实现上述一种混合语音识别方法的应用程序、功能模块等)、计算机指令等;
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器61中。并且上述的计算机程序、计算机指令、数据等可以被处理器62调用。
处理器62,用于执行存储器61存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。
具体可以参见前面方法实施例中的相关描述。
存储器61和处理器62可以是独立结构,也可以是集成在一起的集成结构。当存储器61和处理器62是独立结构时,存储器61、处理器62可以通过总线63耦合连接。
本实施例的一种电子设备可以执行图2和图5所示方法中的技术方案,其具体实现过程和技术原理参见图2和图5所示方法中的相关描述,此处不再赘述。
此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当用户设备的至少一个处理器执行该计算机执行指令时,用户设备执行上述各种可能的方法。
其中,计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的实施例形式。

Claims (16)

1.一种混合语音识别方法,其特征在于,包括:
获取待识别的语音数据,对所述语音数据进行预处理得到语音特征序列;
利用预先训练完毕的混合语音识别模型对所述语音特征序列进行识别处理,得到多个候选文本标签序列以及候选文本标签序列对应的置信度;其中,所述候选文本标签序列对应的置信度是候选文本标签序列的标签分类概率、语种分类概率以及音素对齐概率确定的;
根据各置信度从多个候选文本标签序列中确定目标文本标签序列,并根据预先建立的混合语音词表确定目标文本标签序列对应的文本数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述语音数据进行预处理得到语音特征序列,包括:
对所述语音数据进行采样和拼接处理,得到多个待识别的语音片段;
对各语音片段进行静音检测处理,以获得每个语音片段中的有效片段的片段数据;
对所述各有效片段的片段数据进行特征提取处理,得到所述语音特征序列。
3.根据权利要求1所述的方法,其特征在于,所述利用预先训练完毕的混合语音识别模型对所述语音特征序列进行识别处理,包括:
对所述语音特征序列依次卷积处理和编码处理得到语音编码数据;
对所述语音编码数据进行音素对齐处理,得到语音编码数据的多种音素对齐位置,以及相应的所述音素对齐概率;
根据所述多种音素对齐位置对语音编码数据进行音素划分,得到多个候选音素解码数据,其中每个候选音素解码数据是基于不同音素对齐位置对对语音编码数据进行音素划分得到的;
对各个候选音素解码数据分别进行语种分类识别以及标签分类识别,以得到各个候选文本标签序列,以及每个候选文本标签序列的语种分类概率以及标签分类概率;
对每个候选文本标签序列的语种分类概率、标签分类概率以及相应的音素对齐概率进行加权处理,得到所述每个候选文本标签序列的置信度。
4.根据权利要求1所述的方法,其特征在于,所述根据各置信度从多个候选文本标签序列中确定目标文本标签序列,包括:
根据所述各候选文本标签序列的置信度,从中选出置信度最高的文本标签序列作为目标文本标签序列。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取待识别的语音数据,对所述语音数据进行预处理得到语音特征序列之前还包括:
获取语音训练数据以及对应的标注文本数据;
利用所述语音训练数据以及对应的标注文本数据对构建的语音识别模型进行训练,获得所述训练完毕的语音识别模型。
6.根据权利要求5所述的方法,其特征在于,所述获取待识别的语音数据,对所述语音数据进行预处理得到语音特征序列之前还包括:
根据语音训练数据以及对应的标注文本数据,构建混合语音词表。
7.根据权利要求6所述的方法,其特征在于,所述根据语音训练数据以及对应的标注文本数据,构建混合语音词表,包括:
根据语种类型对所述标注文本数据文本划分,得到第一语种文本数据和第二语种文本数据;
分别对第一语种文本数据和第二语种文本数据进行分词过滤处理,得到第一语种词表和第二语种词表;
根据第一语种词表和第二语种词表,构建混合语音词表。
8.一种混合语音识别装置,其特征在于,包括:
获取模块,用于获取待识别的语音数据;
预处理模块,用于对所述语音数据进行预处理得到语音特征序列;
识别模块,用于利用预先训练完毕的混合语音识别模型对所述语音特征序列进行识别处理,得到多个候选文本标签序列以及候选文本标签序列对应的置信度;
确定模块,用于根据各置信度从多个候选文本标签序列中确定目标文本标签序列,并根据预先建立的混合语音词表确定目标文本标签序列对应的文本数据。
9.根据权利要求8所述的装置,其特征在于,所述预处理模块,具体用于:
对所述语音数据进行采样和拼接处理,得到多个待识别的语音片段;
对各语音片段进行静音检测处理,以获得每个语音片段中的有效片段的片段数据;
对所述各有效片段的片段数据进行特征提取处理,得到所述语音特征序列。
10.根据权利要求8所述的装置,其特征在于,所述识别模块,具体用于:
对所述语音特征序列依次卷积处理和编码处理得到语音编码数据;
对所述语音编码数据进行音素对齐处理,得到语音编码数据的多种音素对齐位置,以及相应的所述音素对齐概率;
根据所述多种音素对齐位置对语音编码数据进行音素划分,得到多个候选音素解码数据,其中每个候选音素解码数据是基于不同音素对齐位置对对语音编码数据进行音素划分得到的;
对各个候选音素解码数据分别进行语种分类识别以及标签分类识别,以得到各个候选文本标签序列,以及每个候选文本标签序列的语种分类概率以及标签分类概率;
对每个候选文本标签序列的语种分类概率、标签分类概率以及相应的音素对齐概率进行加权处理,得到所述每个候选文本标签序列的置信度。
11.根据权利要求8所述的装置,其特征在于,所述确定模块,具体用于:
根据所述各候选文本标签序列的置信度,从中选出置信度最高的文本标签序列作为目标文本标签序列。
12.根据权利要求8-11任一项所述的图像处理装置,其特征在于,所述装置还包括:模型训练模块;
所述模型训练模块,具体用于获取语音训练数据以及对应的标注文本数据;利用所述语音训练数据以及对应的标注文本数据对构建的语音识别模型进行训练,获得所述训练完毕的语音识别模型。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:词表构建模块;
所述词表构建模块,用于根据语音训练数据以及对应的标注文本数据,构建混合语音词表。
14.根据权利要求13所述的装置,其特征在于,所述词表构建模块,具体用于:
根据语种类型对所述标注文本数据文本划分,得到第一语种文本数据和第二语种文本数据;
分别对第一语种文本数据和第二语种文本数据进行分词过滤处理,得到第一语种词表和第二语种词表;
根据第一语种词表和第二语种词表,构建混合语音词表。
15.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-7任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-7任一项所述的方法。
CN202011631411.2A 2020-12-30 2020-12-30 混合语音识别方法、装置、电子设备及存储介质 Pending CN114694637A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011631411.2A CN114694637A (zh) 2020-12-30 2020-12-30 混合语音识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011631411.2A CN114694637A (zh) 2020-12-30 2020-12-30 混合语音识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114694637A true CN114694637A (zh) 2022-07-01

Family

ID=82134769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011631411.2A Pending CN114694637A (zh) 2020-12-30 2020-12-30 混合语音识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114694637A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115579009A (zh) * 2022-12-06 2023-01-06 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质
CN115862604A (zh) * 2022-11-24 2023-03-28 镁佳(北京)科技有限公司 语音唤醒模型训练及语音唤醒方法、装置及计算机设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862604A (zh) * 2022-11-24 2023-03-28 镁佳(北京)科技有限公司 语音唤醒模型训练及语音唤醒方法、装置及计算机设备
CN115862604B (zh) * 2022-11-24 2024-02-20 镁佳(北京)科技有限公司 语音唤醒模型训练及语音唤醒方法、装置及计算机设备
CN115579009A (zh) * 2022-12-06 2023-01-06 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110706690B (zh) 语音识别方法及其装置
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
CN110909613B (zh) 视频人物识别方法、装置、存储介质与电子设备
CN110797016B (zh) 一种语音识别方法、装置、电子设备及存储介质
CN106887225B (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
CN112509562B (zh) 用于文本后处理的方法、装置、电子设备和介质
CN109087667B (zh) 语音流利度识别方法、装置、计算机设备及可读存储介质
CN114360557B (zh) 语音音色转换方法、模型训练方法、装置、设备和介质
CN110503956B (zh) 语音识别方法、装置、介质及电子设备
CN116166827B (zh) 语义标签抽取模型的训练和语义标签的抽取方法及其装置
CN114694637A (zh) 混合语音识别方法、装置、电子设备及存储介质
CN113643694A (zh) 语音识别方法、装置、电子设备和存储介质
CN113793591A (zh) 语音合成方法及相关装置和电子设备、存储介质
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
CN114758330A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN111899718A (zh) 用于识别合成语音的方法、装置、设备和介质
CN113470617B (zh) 语音识别方法以及电子设备、存储装置
CN115910046A (zh) 语音识别方法、装置、电子设备及存储介质
CN114512121A (zh) 语音合成方法、模型训练方法及装置
CN115294974A (zh) 一种语音识别方法、装置、设备和存储介质
CN110728137B (zh) 用于分词的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230703

Address after: 3007, Hengqin International Financial Center Building, No. 58 Huajin Street, Hengqin New District, Zhuhai City, Guangdong Province, 519030

Applicant after: New founder holdings development Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Applicant before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

TA01 Transfer of patent application right