CN112885335B - 语音识别方法及相关装置 - Google Patents
语音识别方法及相关装置 Download PDFInfo
- Publication number
- CN112885335B CN112885335B CN202110088987.7A CN202110088987A CN112885335B CN 112885335 B CN112885335 B CN 112885335B CN 202110088987 A CN202110088987 A CN 202110088987A CN 112885335 B CN112885335 B CN 112885335B
- Authority
- CN
- China
- Prior art keywords
- target
- data
- language model
- text
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提供了语音识别方法及相关装置,其中,方法包括:采用目标领域的公开数据对声学模型和语言模型进行训练,得到目标声学模型和初始语言模型;目标领域指:语音数据的内容具有分布规律的领域;将目标领域的采集语音数据输入目标声学模型得到的特征数据输入初始语言模型,得到文本数据;采用符合目标领域语音内容的分布规律的文本库,对文本数据进行纠错;至少采用采集语音数据和纠错后的文本数据,对初始语言模型进行训练,得到目标语言模型;依据目标声学模型和目标语言模型,对目标领域的待识别语音进行识别。本申请可以实现在保证语音识别准确率的前提下,低成本的得到语音识别系统。
Description
技术领域
本申请涉及语音处理领域,尤其涉及语音识别方法及相关装置。
背景技术
在一些领域,通过通话向客户推销产品,产生大量的通话语音。其中,通话语音中含有大量有价值的信息。因此,可以对通话语音进行信息挖掘,其中,信息挖掘的过程包括:先将通话语音转换为文本,再对文本进行信息挖掘。其中,将通话语音转换为文本的过程就是通话语音识别的过程。例如,对于在线教育领域,客服需要和家长进行约课和推销课程,每天会有大量的通话语音,需要对通话语音进行语音识别,得到文本数据,并从文本数据中,分析客服是否违规,家长为何虚报等有价值的信息。
目前,语音识别的方式包括:采用市面上标注好的标注数据,对语音识别系统(声学模型和语言模型)进行训练,得到具有较高语音识别准确率的语音识别系统。采用语音识别系统对待识别语音进行识别。
但是,市面上标注好的标注数据的价格不菲,因此,得到具有较高语音识别准确率的语音识别系统的成本较高。因此,如何在保证语音识别准确率的前提下,低成本的得到语音识别系统,是急需解决的问题。
发明内容
本申请提供了语音识别方法及相关装置,目的在于在保证语音识别准确率的前提下,低成本的得到语音识别系统。
为了实现上述目的,本申请提供了以下技术方案:
本申请提供了一种语音识别方法,包括:
采用目标领域的公开数据对声学模型和语言模型进行训练,得到目标声学模型和初始语言模型;所述目标领域指:语音数据的内容具有分布规律的领域;
将所述目标领域的采集语音数据输入所述目标声学模型得到的特征数据输入所述初始语言模型,得到文本数据;
采用符合所述目标领域语音内容的分布规律的文本库,对所述文本数据进行纠错;
至少采用所述采集语音数据和纠错后的文本数据,对所述初始语言模型进行训练,得到目标语言模型;
依据所述目标声学模型和所述目标语言模型,对所述目标领域的待识别语音进行识别。
可选的,所述文本库包括:所述目标领域语音内容的语义点、满足所述语义点的语句,以及所述语义点的易错关键词;
所述采用符合所述目标领域语音内容的规律的文本库,对所述文本数据进行纠错,包括:
将所述文本数据中,与所述文本库中的一个语句的相似度大于预设阈值的语句,作为目标语句;
将所述文本库中与所述目标语句的相似度大于所述预设阈值的语句的语义点,作为目标语义点;
计算所述目标语句中的每个分词分别与目标易错关键词间的音素距离;所述目标易错关键词为所述目标语义点对应的易错关键词;
将所述目标语句中音素距离小于第二阈值的分词,纠正为所述目标易错关键词。
可选的,所述文本库通过人工对部分所述采集语音数据中提取得到。
可选的,所述采用目标领域的公开数据对声学模型和语言模型进行训练,包括:
采用所述目标领域的开源数据,对所述声学模型进行训练;
采用所述目标领域的网上爬取数据,对所述语言模型进行训练。
可选的,所述至少采用所述采集语音数据和纠错后的文本数据,对所述初始语言模型进行训练,得到目标语言模型,包括:
采用所述网上爬取数据、所述采集语音数据和纠错后的文本数据,对所述初始语言模型进行训练,得到目标语言模型。
本申请还提供了一种语音识别装置,包括:
第一训练模块,用于采用目标领域的公开数据对声学模型和语言模型进行训练,得到目标声学模型和初始语言模型;所述目标领域指:语音数据的内容具有分布规律的领域;
执行模块,用于将所述目标领域的采集语音数据输入所述目标声学模型得到的特征数据输入所述初始语言模型,得到文本数据;
纠错模块,用于采用符合所述目标领域语音内容的分布规律的文本库,对所述文本数据进行纠错;
第二训练模型,用于至少采用所述采集语音数据和纠错后的文本数据,对所述初始语言模型进行训练,得到目标语言模型;
识别模块,用于依据所述目标声学模型和所述目标语言模型,对所述目标领域的待识别语音进行识别。
可选的,所述文本库包括:所述目标领域语音内容的语义点、满足所述语义点的语句,以及所述语义点的易错关键词;
所述纠错模块,用于采用符合所述目标领域语音内容的规律的文本库,对所述文本数据进行纠错,包括:
所述纠错模块,具体用于将所述文本数据中,与所述文本库中的一个语句的相似度大于预设阈值的语句,作为目标语句;将所述文本库中与所述目标语句的相似度大于所述预设阈值的语句的语义点,作为目标语义点;计算所述目标语句中的每个分词分别与目标易错关键词间的音素距离;所述目标易错关键词为所述目标语义点对应的易错关键词;将所述目标语句中音素距离小于第二阈值的分词,纠正为所述目标易错关键词。
可选的,所述文本库通过人工对部分所述采集语音数据中提取得到。
本申请还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述任一所述的语音识别方法。
本申请还提供了一种设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述任一所述的语音识别方法。
本申请所述的语音识别方法及相关装置,采用目标领域的公开数据对声学模型和语言模型进行训练,得到目标声学模型和初始语言模型,由于是采用公开数据进行训练,因此,得到目标声学模型和初始语言模型的成本较低。将目标领域的采集语音数据输入初始语言模型,得到文本数据,该文本数据的准确性可能不高。在本申请中,由于目标领域指:语音数据的内容具有分布规律的领域,因此,采用符合目标领域语音内容的分布规律的文本库,对文本数据进行纠错,使得纠错后的文本数据的准确性较高。即本申请通过纠错得到准确性较高的文本数据,因此,本申请得到准确性较高的文本数据的成本较低。由于纠错后的文本数据的准确性较高,因此,至少采用采集语音数据和纠错后的文本数据,对初始语言模型进行训练,得到的目标语言模型可以具有较高的识别准确率。
因此,本申请依据目标声学模型和目标语言模型,对目标领域的待识别语音进行识别,可以保证识别的准确率。
综上所述,本申请可以实现在保证语音识别准确率的前提下,低成本的得到语音识别系统。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开一种语音数据的识别方法的流程图;
图2为本申请实施例公开的一种声学模型的训练过程的示意图;
图3为本申请实施例公开的一种语音数据的识别装置的结构示意图;
图4为本申请实施例公开的一种设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种语音识别方法,可以包括以下步骤:
S101、采用目标领域的公开数据对声学模型和语言模型进行训练,得到目标声学模型和初始语言模型。
在本实施例中,目标领域指:语音数据的内容具有分布规律的领域。例如,客服领域。具体可以包括:在线教育领域,医疗领域等等。其中,以在线教育领域中的少儿英语在线教育领域为例,语音通话的内容的分布规律可以指:语义点范围是确定的。其中,语义点可以包括:开场、预约跟进、预约说明、降低预期、课前-挖需-年龄信息、英语时间-有基础、提问授权、有课外班、购买意愿、学习愿景、课前-挖需-年级信息、关单-赠课、孩子优缺点、英语时间-零基础、品牌介绍、课前-挖需-性别信息、无课外班、孩子性格等等。在实际的通话中,通话语音内容所涉及的语义点一般都是举例的这些语义点构成的集合(即语义点范围)。
当然,在实际中,目标领域还可以为其他领域,只要该领域的语音数据的内容具有分布规律即可。
在本实施例中,声学模型用于计算声学特征属于各个音素的后验概率。在本步骤中,可以采用目标领域的开源数据,对预设的声学模型进行训练。可选的,可以采用1000h小时的开源音频数据进行训练。其中,训练过程在图2对应的实施例中进行介绍,这里不再赘述。
语言模型是对词训练概率的模型,可以采用比较成熟的N-gram语言模型。其中,n-gram语言模型的思想可以追溯到信息论大师香农的研究工作。他提出一个问题:给定一串字母,如”for ex”,下一个最大可能性出现的字母是什么。从训练语料数据中,可以通过极大似然估计的方法,得到N个概率分布:是a的概率是0.4,是b的概率是0.0001,是c的概率是…,当然,约束条件为:所有的N个概率分布的总和为1。
n-gram模型概率公式推导过程可以包括:
根据公式(1)的条件概率和乘法公式
可以得到公式(2)
P(AB)=P(B/A)P(A) (2)
通过推导可以得到公式(3):
P(A1A2A3...An)=P(A1)P(A2/A1)...P(An/A1...An-1) (3)#
例如,假设T是由词序列A1、A2、A3…An组成,那么P(T)=P(A1A2A3…An)=P(A1)P(A2|A1)P(A3|A1A2)…P(An|A1A2…An-1)。如果直接计算,是有很大困难的,因此,引入马尔科夫假设。即:一个item的出现概率,只与其前m个items有关。当m=0时,就是unigram,m=1时,是bigram模型,因此,P(T)可以求得。例如,当利用bigram模型时,P(T)=P(A1)P(A2|A1)P(A3|A2)…P(An|An-1)而P(An|An-1)条件概率可以通过极大似然估计求得,等于Count(An-1,An)/Count(An-1)。
n-gram模型的解码过程就是在给定声学特征的情况下,找到最可能对应的词组的过程,如公式(4)所示:
P(W/O)=P(O/W)·P(W) (4)
式中,P(O/W)表示声学模型概率,P(W)表示语言模型概率。
该解码就是找到两个概率乘积最大的词序列W,其中,W可以表示为如下公式(5)#。
Wmax=argmax(P(O/W)·P(W)) (5)
其中,找到最大词序列可以搜索方法,具体可以为维特比搜索方法。其中,搜索方法的具体实现过程为现有技术,这里不再赘述。
S102、将目标领域的采集语音数据输入声学模型得到的特征数据输入初始语言模型,得到文本数据。
在本实施例中,由于初始语言模型是采用爬取网络数据训练得到,因此,初始语言模型对声学模型输出的特征数据进行计算,得到的文本数据的准确率可能达不到所需的语音识别准确率。
S103、获取符合目标领域语音内容的分布规律的文本库。
在本实施例中,文本库可以包括:目标领域语音内容的语义点、满足语义点的语句,以及语义点的易错关键词。
以目标领域为少儿英语在线教育领域为例,语音内容的语义点可以包括:开场、预约跟进、预约说明、降低预期、课前-挖需-年龄信息、英语时间-有基础、提问授权、有课外班、购买意愿、学习愿景、课前-挖需-年级信息、关单-赠课、孩子优缺点、英语时间-零基础、品牌介绍、课前-挖需-性别信息、无课外班和孩子性格等等。
其中,文本库中每个语义点分别对应预设数量的语句,其中,任意一个语义点对应的预设数量的语句是在实际通话中,该语义点对应的语句。
其中,文本库中的每个语义点分别对应有易错关键词。易错关键词指:语言模型容易输出错误的关键词。以语义点为开场白为例,易错关键词可以包括:“伴鱼英语”。在实际中,语言模型容易将“伴鱼英语”输出为“办于英语”。例如,对于通话中“我是伴鱼的班主任”,语言模型的输出可能是“我是办于的办主任”。
可选的,在本实施例中,文本库可以是通过人工从S102的采集语音数据中的部分采集语音数据中提取得到。例如,人工听取部分采集语音数据,记录该部分采集语音数据对应的文本数据。根据记录的文本数据,总结语义点、语义点对应的语句,以及语义点对应的易错关键词,并保存在数据库,得到文本库。由于目标领域的语音内容具有分布规律,因此,通过人工从部分采集语音数据中提取得到的文本库中的数据,包含的分布规律,就可以代表目标领域的语音内容的分布规律。
需要说明的是,在本步骤中,以文本库是通过从S102中的部分采集语音数据中提取得到为例,介绍了文本库的生成方法。当然,在实际中,文本库还可以从目标领域的其他语音数据中提取得到,本实施例不对用于提取文本库内容的语音数据作限定,只要是目标领域的语音数据即可。
S104、采用符合目标领域语音内容的分布规律的文本库,对文本数据进行纠错。
在本实施例中,符合目标领域语音内容的分布规律的文本库为S103生成的文本库。
在本步骤中,采用文本库对文本数据进行纠错的过程可以包括以下步骤A1~步骤A4:
A1、将文本数据中,与文本库中的一个语句的相似度大于预设阈值的语句,作为目标语句。
在本实施例中,将文本数据中的每个语句分别与文本库中语义点对应的语句进行相似度比对。以文本数据中的一个语句为例,当该语句与文本库中的某个语句的相似度大于预设阈值时,将该语句作为目标语句。即通过本步骤,可以确定出文本数据中的目标语句。
A2、将文本库中与目标语句的相似度大于预设阈值的语句的语义点,作为目标语义点。
在本实施例中,为了描述方便,将文本库中与目标语句的相似度大于预设阈值的语句的语义点,称为目标语义点。
A3、计算目标语句中的每个分词分别与目标易错关键词间的音素距离。
在本实施例中,目标易错关键词指:文本库中目标语义点对应的易错关键词。
在本实施例中,音素距离指:分词展开为音素后去除语调,与,目标易错关键词展开为音素后去除语调,两者之间的距离。如果两者音素相同,则距离为0。如果两者音素不同,如果音素不同的字母同为声母或韵母,则两者距离为1/2;如果不同的字母一个为声母另一个为韵母,则两者的距离为1;如果不同的字母为易混声韵母对,则两者的距离1/3。其中,易混声韵母对可以包括:b和d、p和q、n和m、f和t、iu和ui、ei和ie等。
A4、将目标语句中音素距离小于第二阈值的分词,纠正为目标易错关键词。
在本实施例中,第二阈值的取值可以为1/4。需要说明的是,1/4只是针对少儿英语在线教育领域的一种取值,在实际中,第二阈值的取值需要根据实际的场景确定,本实施例不对第二阈值的取值作限定。
在本步骤中,将目标语句中音素距离小于第二阈值的分词,替换为目标易错关键词。
S105、至少采用采集语音数据和纠错后的文本数据,对初始语言模型进行训练,得到目标语言模型。
在本实施例中,可以采用S102中的采集语音数据和S104得到的纠错后的文本数据,对初始语言模型进行训练,其中,具体的训练过程可以参考对预设语言模型训练得到初始语言模型的训练过程,这里不再赘述。
在本实施例中,为了进一步提高对初始语言模型训练得到的目标语言模型的准确性。在本步骤中,对初始语言模型进行训练的数据可以包括:网上爬取的数据、采集语音数据和纠错后的文本数据,将训练得到的语言模型称为目标语言模型。
S106、依据目标声学模型和目标语言模型,对目标领域的待识别语音进行识别。
在本步骤中,依据目标声学模型和目标语言模型,对目标领域的待识别语音进行识别的过程可以包括:将待识别语音输入目标声学模型,目标声学模型输出特征数据,该特征数据作为目标语言模型的输入数据,目标语言模型输出的文本数据,即是该待识别语音对应的文本数据。
图2为本申请实施例提供的对声学模型的训练过程,可以包括以下步骤:
S201、对音频数据进行分帧。
作为示例,可以每25ms一帧,帧移10ms。
S202、从分帧后的音频数据中提取特征。
作为示例,提取的特征可以为40维梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients,MFCC)。其中,MFCC表示在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式(6)近似表示:
式中,f表示频率,单位为Hz。
S203、将音频数据对应的文本数据按字典展开成音素,将每帧按时间平均分割打上音素标签,使得提取的特征和音频标签对应。
S204、采用时延神经网络tdnn进行训练,得到初始声学模型。
S205、通过采用初始声学模型维特比强制对应,对音频数据和因素标签进行新的对齐,得到每个音频数据的音素标签后,对初始声学模型进行新的训练,得到新的声学模型。
上述S203~S205的具体实现方式为现有技术,这里不再赘述。
S206、判断是否达到预设的迭代次数,如果否,则执行步骤S205,如果是,则停止训练,得到目标声学模型。
图3为本申请实施例提供的一种语音数据的识别装置,可以包括:第一训练模块301、执行模块302、纠错模块303、第二训练模型304和识别模块305,其中,
第一训练模块301,用于采用目标领域的公开数据对声学模型和语言模型进行训练,得到目标声学模型和初始语言模型;所述目标领域指:语音数据的内容具有分布规律的领域;
执行模块302,用于将所述目标领域的采集语音数据输入所述目标声学模型得到的特征数据输入所述初始语言模型,得到文本数据;
纠错模块303,用于采用符合所述目标领域语音内容的分布规律的文本库,对所述文本数据进行纠错;
第二训练模型304,用于至少采用所述采集语音数据和纠错后的文本数据,对所述初始语言模型进行训练,得到目标语言模型;
识别模块305,用于依据所述目标声学模型和所述目标语言模型,对所述目标领域的待识别语音进行识别。
可选的,所述文本库包括:所述目标领域语音内容的语义点、满足所述语义点的语句,以及所述语义点的易错关键词;
所述纠错模块303,用于采用符合所述目标领域语音内容的规律的文本库,对所述文本数据进行纠错,包括:
所述纠错模块303,具体用于将所述文本数据中,与所述文本库中的一个语句的相似度大于预设阈值的语句,作为目标语句;将所述文本库中与所述目标语句的相似度大于所述预设阈值的语句的语义点,作为目标语义点;计算所述目标语句中的每个分词分别与目标易错关键词间的音素距离;所述目标易错关键词为所述目标语义点对应的易错关键词;将所述目标语句中音素距离小于第二阈值的分词,纠正为所述目标易错关键词。
可选的,所述文本库通过人工对部分所述采集语音数据中提取得到。
可选的,所述第一训练模块301,用于采用目标领域的公开数据对声学模型和语言模型进行训练,包括:
第一训练模块301,具体用于采用所述目标领域的开源数据,对所述声学模型进行训练;采用所述目标领域的网上爬取数据,对所述语言模型进行训练。
可选的,所述第二训练模块305,用于至少采用所述采集语音数据和纠错后的文本数据,对所述初始语言模型进行训练,得到目标语言模型,包括:
所述第二训练模块305,具体用于采用所述网上爬取数据、所述采集语音数据和纠错后的文本数据,对所述初始语言模型进行训练,得到目标语言模型。
语音识别装置包括处理器和存储器,上述第一训练模块301、执行模块302、纠错模块303、第二训练模型304和识别模块305等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提供在保证语音识别准确率的前提下,低成本的得到语音识别系统。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述语音识别方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述语音识别方法。
本发明实施例提供了一种设备,如图4所示,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述的语音识别方法。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
采用目标领域的公开数据对声学模型和语言模型进行训练,得到目标声学模型和初始语言模型;所述目标领域指:语音数据的内容具有分布规律的领域;
将所述目标领域的采集语音数据输入所述目标声学模型得到的特征数据输入所述初始语言模型,得到文本数据;
采用符合所述目标领域语音内容的分布规律的文本库,对所述文本数据进行纠错;
至少采用所述采集语音数据和纠错后的文本数据,对所述初始语言模型进行训练,得到目标语言模型;
依据所述目标声学模型和所述目标语言模型,对所述目标领域的待识别语音进行识别。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书的各个实施例中记载的特征可以相互替换或者组合,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种语音识别方法,其特征在于,包括:
采用目标领域的公开数据对声学模型和语言模型进行训练,得到目标声学模型和初始语言模型;所述目标领域指:语音数据的内容具有分布规律的领域;
将所述目标领域的采集语音数据输入所述目标声学模型得到的特征数据输入所述初始语言模型,得到文本数据;
采用符合所述目标领域语音内容的分布规律的文本库,对所述文本数据进行纠错;
至少采用所述采集语音数据和纠错后的文本数据,对所述初始语言模型进行训练,得到目标语言模型;
依据所述目标声学模型和所述目标语言模型,对所述目标领域的待识别语音进行识别;
其中,所述文本库包括:所述目标领域语音内容的语义点、满足所述语义点的语句,以及所述语义点的易错关键词;
所述采用符合所述目标领域语音内容的规律的文本库,对所述文本数据进行纠错,包括:
将所述文本数据中,与所述文本库中的一个语句的相似度大于预设阈值的语句,作为目标语句;
将所述文本库中与所述目标语句的相似度大于所述预设阈值的语句的语义点,作为目标语义点;
计算所述目标语句中的每个分词分别与目标易错关键词间的音素距离;所述目标易错关键词为所述目标语义点对应的易错关键词;
将所述目标语句中音素距离小于第二阈值的分词,纠正为所述目标易错关键词。
2.根据权利要求1所述的方法,其特征在于,所述文本库通过人工对部分所述采集语音数据中提取得到。
3.根据权利要求1所述的方法,其特征在于,所述采用目标领域的公开数据对声学模型和语言模型进行训练,包括:
采用所述目标领域的开源数据,对所述声学模型进行训练;
采用所述目标领域的网上爬取数据,对所述语言模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述至少采用所述采集语音数据和纠错后的文本数据,对所述初始语言模型进行训练,得到目标语言模型,包括:
采用所述网上爬取数据、所述采集语音数据和纠错后的文本数据,对所述初始语言模型进行训练,得到目标语言模型。
5.一种语音识别装置,其特征在于,包括:
第一训练模块,用于采用目标领域的公开数据对声学模型和语言模型进行训练,得到目标声学模型和初始语言模型;所述目标领域指:语音数据的内容具有分布规律的领域;
执行模块,用于将所述目标领域的采集语音数据输入所述目标声学模型得到的特征数据输入所述初始语言模型,得到文本数据;
纠错模块,用于采用符合所述目标领域语音内容的分布规律的文本库,对所述文本数据进行纠错;
第二训练模型,用于至少采用所述采集语音数据和纠错后的文本数据,对所述初始语言模型进行训练,得到目标语言模型;
识别模块,用于依据所述目标声学模型和所述目标语言模型,对所述目标领域的待识别语音进行识别;
其中,所述文本库包括:所述目标领域语音内容的语义点、满足所述语义点的语句,以及所述语义点的易错关键词;
所述纠错模块,用于采用符合所述目标领域语音内容的规律的文本库,对所述文本数据进行纠错,包括:
所述纠错模块,具体用于将所述文本数据中,与所述文本库中的一个语句的相似度大于预设阈值的语句,作为目标语句;将所述文本库中与所述目标语句的相似度大于所述预设阈值的语句的语义点,作为目标语义点;计算所述目标语句中的每个分词分别与目标易错关键词间的音素距离;所述目标易错关键词为所述目标语义点对应的易错关键词;将所述目标语句中音素距离小于第二阈值的分词,纠正为所述目标易错关键词。
6.根据权利要求5所述的装置,其特征在于,所述文本库通过人工对部分所述采集语音数据中提取得到。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1~4任意一项所述的语音识别方法。
8.一种语音识别设备,其特征在于,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1~4中任一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110088987.7A CN112885335B (zh) | 2021-01-22 | 2021-01-22 | 语音识别方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110088987.7A CN112885335B (zh) | 2021-01-22 | 2021-01-22 | 语音识别方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112885335A CN112885335A (zh) | 2021-06-01 |
CN112885335B true CN112885335B (zh) | 2023-05-02 |
Family
ID=76050408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110088987.7A Active CN112885335B (zh) | 2021-01-22 | 2021-01-22 | 语音识别方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112885335B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360705B (zh) * | 2021-08-09 | 2021-11-19 | 武汉华信数据系统有限公司 | 数据管理方法和数据管理装置 |
CN114078475B (zh) * | 2021-11-08 | 2023-07-25 | 北京百度网讯科技有限公司 | 语音识别和更新方法、装置、设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9396723B2 (en) * | 2013-02-01 | 2016-07-19 | Tencent Technology (Shenzhen) Company Limited | Method and device for acoustic language model training |
CN108304385A (zh) * | 2018-02-09 | 2018-07-20 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN111816165A (zh) * | 2020-07-07 | 2020-10-23 | 北京声智科技有限公司 | 语音识别方法、装置及电子设备 |
CN112233653B (zh) * | 2020-12-10 | 2021-03-12 | 北京远鉴信息技术有限公司 | 多方言口音普通话语音识别模型训练方法、装置及设备 |
-
2021
- 2021-01-22 CN CN202110088987.7A patent/CN112885335B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112885335A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170206897A1 (en) | Analyzing textual data | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
US11514891B2 (en) | Named entity recognition method, named entity recognition equipment and medium | |
US9495955B1 (en) | Acoustic model training | |
CN111369974B (zh) | 一种方言发音标注方法、语言识别方法及相关装置 | |
CN112885335B (zh) | 语音识别方法及相关装置 | |
KR20180062003A (ko) | 음성 인식 오류 교정 방법 | |
Mantena et al. | Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios | |
US20120221335A1 (en) | Method and apparatus for creating voice tag | |
JP2018072697A (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
Sefara et al. | HMM-based speech synthesis system incorporated with language identification for low-resourced languages | |
CN110503956B (zh) | 语音识别方法、装置、介质及电子设备 | |
Alrumiah et al. | Intelligent Quran Recitation Recognition and Verification: Research Trends and Open Issues | |
Adi et al. | Interlanguage of Automatic Speech Recognition | |
Biswas et al. | Speech Recognition using Weighted Finite-State Transducers | |
Sefara et al. | Web-based automatic pronunciation assistant | |
CN112489646B (zh) | 语音识别方法及其装置 | |
CN115424616A (zh) | 一种音频数据筛选方法、装置、设备及计算机可读介质 | |
Mustafa et al. | Developing an HMM-based speech synthesis system for Malay: a comparison of iterative and isolated unit training | |
Coto‐Solano | Computational sociophonetics using automatic speech recognition | |
Baranwal et al. | Improved Mispronunciation detection system using a hybrid CTC-ATT based approach for L2 English speakers | |
Nga et al. | A Survey of Vietnamese Automatic Speech Recognition | |
Patil et al. | Automatic speech recognition models: A characteristic and performance review | |
Singla et al. | E2E Spoken Entity Extraction for Virtual Agents | |
CN113506561B (zh) | 文本拼音的转换方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |