CN111063338B - 音频信号识别方法、装置、设备、系统和存储介质 - Google Patents
音频信号识别方法、装置、设备、系统和存储介质 Download PDFInfo
- Publication number
- CN111063338B CN111063338B CN201811148191.0A CN201811148191A CN111063338B CN 111063338 B CN111063338 B CN 111063338B CN 201811148191 A CN201811148191 A CN 201811148191A CN 111063338 B CN111063338 B CN 111063338B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- recognition
- specific
- model
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 373
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 27
- 230000004927 fusion Effects 0.000 claims 3
- 230000008569 process Effects 0.000 description 22
- 238000012549 training Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种音频信号识别方法、装置、设备、系统和存储介质,该方法包括:针对接收的音频信号,确定音频信号中是否包括特定音频信号;如果音频信号中包括特定音频信号,基于语音识别模型组件处理音频信号,得到音频信号中语音识别单元的识别概率,语音识别模型组件包括特定声学模型和非特定声学模型;利用语言模型对音频信号中语音识别单元的识别概率进行声学解码,得到音频信号的文本识别结果。根据本发明实施例提供的音频信号识别方法,可以提高音频信号识别准确率。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种音频信号识别方法、装置、设备、系统和存储介质。
背景技术
随着音频信号识别技术的不断发展,音频信号识别技术在汽车驾驶领域、智能家居、智能商务系统等领域得到了广泛的应用,音频信号识别技术可以通过对音频信号的识别,准确地执行相应的功能。
现阶段,音频信号识别技术对所有的音频信号均使用同一套通用的音频信号识别模型进行识别。然而,不同的音频信号的声学特征存在一定的差异,这种音频信号识别技术的识别准确率有待提高。
发明内容
本发明实施例提供了一种音频信号识别方法、装置、设备、系统和存储介质,能够提高音频信号的识别准确率。
根据本发明实施例的一方面,提供一种音频信号识别方法,包括:
针对接收的音频信号,确定音频信号中是否包括特定音频信号;如果音频信号中包括特定音频信号,基于语音识别模型组件处理音频信号,得到音频信号中语音识别单元的识别概率,语音识别模型组件包括特定声学模型和非特定声学模型;利用语言模型对音频信号中语音识别单元的识别概率进行声学解码,得到音频信号的文本识别结果。
根据本发明实施例的另一方面,提供一种音频信号识别装置,包括:
目标音频判断模块,用于判断接收的音频信号的声学特征中是否包括目标音频信号的声学特征;目标音频声学特征识别模块,用于接收的音频信号的声学特征中包括目标音频信号的声学特征,则采用预设目标音频声学模型识别接收的音频信号的声学特征;通用声学特征识别模块,用于接收的音频信号的声学特征中未包括目标音频信号的声学特征,则采用预设通用声学模型识别接收的音频信号的声学特征。
根据本发明实施例的再一方面,提供一种音频信号识别系统,包括:
集音设备,用于接收音频信号;音频信号识别设备,用于针对接收的音频信号,确定音频信号中是否包括特定音频信号,如果音频信号中包括特定音频信号,基于语音识别模型组件处理音频信号,得到音频信号中语音识别单元的识别概率,语音识别模型组件包括特定声学模型和非特定声学模型,利用语言模型对音频信号中语音识别单元的识别概率进行声学解码,得到音频信号的文本识别结果。
根据本发明实施例的又一方面,提供一种音频信号识别设备,包括:存储器和处理器;该存储器用于存储程序;该处理器用于读取存储器中存储的可执行程序代码以执行上述的音频信号识别方法。
根据本发明实施例的还一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述各方面的音频信号识别方法。
根据本发明实施例中的音频信号识别方法、装置、设备、系统和存储介质,可以在确定接收的音频信号的声学特征包括特定音频信号的声学特征时,语音信号识别模型组件利用特定声学模型和非特定声学模型,对接收的音频信号的声学特征进行识别,提高音频信号识别准确率。
附图说明
从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。
图1示出了根据本发明示例性实施例的音频信号识别系统的实际应用场景;
图2示出了本发明一实施例的音频信号的识别系统的结构示意图;
图3示出了本发明一实施例的模型训练方法的流程图;
图4示出了本发明另一实施例的模型训练方法的流程图;
图5示出了根据本发明一实施例的音频信号处理方法的流程示意图;
图6示出了根据本发明一实施例的音频信号处理装置的模块示意图;
图7是示出能够实现根据本发明实施例音频信号识别方法和装置的计算设备的示例性硬件架构的结构图;
图8示出了根据本发明另一实施例的音频信号的识别系统的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本发明实施例中,音频信号识别技术往往应用于不同的应用场景,例如医疗领域、教育领域、智能车载、智能可穿戴、智能家居、智能音频输入输出和智能购物等,也能嵌入各式音频识别类产品,例如智能音箱、儿童类或成人类智能设备、购物软件、音频播放软件和智能家电等。
在本发明实施例中,现有的音频信号识别系统,可以用于将接收到的音频信号转换为与音频信号匹配度最高的文字序列或指令。而在不同的应用场景和音频识别类产品背后,音频信号识别技术往往需要为不同的用户群体提供服务。不同的用户群体的音频特性存在着一定差异,用同一套声学模型对所有用户的音频特性进行识别将会对识别准确率产生一定影响。
图1示出了根据本发明示例性实施例的音频信号识别系统的实际应用场景。如图1所示,音频信号识别系统的实际应用场景可以包括声源10和音频信号识别系统20,音频信号识别系统20包括:集音设备21和音频信号识别设备22,集音设备21可以包括麦克风阵列。具体地,集音设备21在接收由声源10发出的音频信号之后,将音频信号发送至音频信号识别设备22,以供音频信号识别设备22对音频信号的声学特征进行识别。
在一个实施例中,音频信号可以包括语音信号,也可以是通过机器播放的有含义的音频信号,只要该音频信号可以驱动音频交互设备进行音频交互即可;声源10可以包括用户和/或能够播放有含义的音频信号的机器。
图2示出了本发明实施例的音频信号识别系统的结构示意图。
如图2所示,本发明实施例中的音频信号识别系统20可以包括:集音设备(图中未示出)、音频信号识别设备22、语言模型组件和解码器。其中,音频信号识别设备22可以包括声学特征提取单元、特定音频判别模型组件、语音识别模型组件。
在一个实施例中,音频信号识别系统20与现有的音频信号识别系统相比,不同之处在于,本发明实施例的音频信号识别系统中,音频信号识别设备22包括特定音判别模型组件。
继续参考图2,本发明实施例的音频信号的识别过程具体包括:
步骤S11,集音设备接收音频信号,声学特征提取单元从接收到的音频信号中提取音频信号的声学特征,并将音频信号的声学特征输入至特定音判别模型组件。
步骤S12,特定音频判别模型组件,根据音频信号的声学特征,判定接收的音频信号中是否包括特定音频信号。
在一个实施例中,音频信号的声学特征可以包括非特定用户的声学特征,也可以包括特定用户的声学特征。
步骤S13,如果接收的音频信号中包括特定音频信号,使用语音识别模型组件对接收的音频信号的声学特征进行识别,并将识别得到的音频信号的语音识别单元的识别概率输出至解码器。
在一个实施例中,如果接收的音频信号中包括特定音频信号,使用的语音识别模型组件中,包括特定声学模型和非特定声学模型。利用特定声学模型和非特定声学模型对音频信号进行处理,得到音频信号中语音识别单元的识别概率。
在一个实施例中,音频信号的声学模型用于建立音频信号的声学特征与语音识别单元的表示关系。
在一个实施例中,音频信号的语音识别单元的识别概率表示:以音频信号的声学特征与语音识别单元的表示关系为基准,将音频信号的声学特征表示为语音识别单元的概率。
在一个实施例中,音频信号的语音识别单元例如可以包括音素、音节、声韵母、单词等。
在一个实施例中,音频信号的语音识别单元的识别概率可以是该音频信号的后验概率,表示将音频信号表示为文字序列或指令的概率。
步骤S14,解码器可以利用语言模型,根据音频信号的语音识别单元的识别概率,将音频信号解码为文字,得到音频信号的识别结果。
在一个实施例中,语言模型用于对音频信号进行声学解码,根据音频信号的语音识别单元的识别概率,选择对应的语言模型,解码器使用对应的语言模型,将音频信号解码为文字。
作为一个示例,音频信号的文本识别结果为解码得到字词组成的文本序列。
在本发明实施例中,以用户的声学特征为例,可以由所有用户所具有的相同的发音特点归结出所有用户的音频信号所共有的声学特征。因而,非特定声学模型可以根据所有用户的音频信号的训练数据训练得到的,可以对所有用户的音频信号进行识别的声学模型。
并且,由于所有用户中的部分用户可以具有特定的发音特点,根据特定用户的发音特点可以归纳出特定用户的声学特征,该特定用户的声学特征不同于所有用户的音频信号所共有的声学特征。例如,基于不同年龄段的用户的发音特点的区别,可以归纳出儿童音的声学特征。再例如,基于地域差异或民族差异,可以归纳出具有民族特色或地域特色的口音的声学特征。
因而,特定声学模型是利用包含特定音频信号的训练数据训练得到的,可以对特定音频信号进行识别的声学模型。
本发明实施例提供一种可以对特定用户的音频信息进行识别的音频信号识别方法,若利用特定音频判别模型组件判定音频信号中包括特定音频信号,则利用语音识别模型组件对该音频信号进行识别,其中,语音识别模型组件使用的声学模型包括非特定声学模型和特定声学模型。
语音识别模型组件在一定程度上决定了音频信号的识别准确率。为了便于理解,在本发明的下述实施例中,结合图3和图4,介绍特定音频判别模型组件的训练过程,以及语音识别模型组件所使用的非特定声学模型和特定声学模型的训练过程。
图3示出了根据本发明一实施例的模型训练方法的流程图。如图3所示,在一个实施例中,模型训练阶段的模型训练可以包括:
S31,训练特定音判别模型。
在一个实施例中,可以将特定音频信号的音频数据作为正样本,将非特定音频信号的音频数据的声学特征作为负样本,训练特定音判别模型。
在一个实施例中,特定音判别模型可以是二分类模型,比如支持向量机模型(Support Vector Machine,SVM)或二分类神经网络模型。目标模型还可以是,除二分类神经网络模型之外的其他神经网络模型。
以特定音频信号为儿童音,非特定音频信号为成人音为例,在一个示例中,可以从儿童音的音频数据中提取出儿童音的声学特征作为正样本,从成人音的音频数据中提取成人音的声学特征作为负样本。依据该正样本和负样本训练儿童音频模型。
S32,训练非特定声学模型。
在一个实施例中,非特定声学模型的训练方法可以包括:从全部音频样本数据中提取声学特征,利用提取的全部音频样本数据的声学特征训练非特定声学模型。其中,全部音频样本数据包括特定音频数据和非特定音频数据。
在一个实施例中,非特定声学模块可以是深度神经网络模型,训练后的非特定声学模型可以对所有音频信号的声学特征进行识别,且对所有音频信号的声学特征的识别结果具有较好的准确率。
S32,训练特定声学模型。
在一个实施例中,特定声学模型的训练方法可以包括:从特定音频样本数据提取声学特征,利用提取的特定音频样本数据的声学特征训练特定声学模型。
在一个实施例中,特定声学模块可以是深度神经网络模型,训练后的特定声学模型适用于特定音频信号的识别。相较于非特定声学模型,特定声学模型对特定音频信号的识别准确率较高。
在本发明实施例中,可以利用训练后的特定音频判别模型构建特定音频判别模型组件;以及利用训练后的非特定声学模型和特定声学模型,构建语音识别模型组件。
下面介绍利用特定音频判别模型组件和该语音识别模型组件进行音频信号识别的具体流程。
在一个实施例中,当利用音频信号识别设备对接收的音频信号进行识别时,声学特征提取单元提取音频信号的声学特征,并将提取的音频信号的声学特征输入特定音判别模型组件,通过特定音频判别模型组件确定音频信号的声学特征中是否包括特定音频的声学特征。
在一个实施例中,当确定音频信号的声学特征中包含特定音频的声学特征:
语音识别模型组件将该音频信号分别输入至特定声学模型和非特定声学模型;特定声学模型对音频信号识别后,输出音频信号的第一后验概率;非特定声学模型对音频信号识别后,输出音频信号的第二后验概率;语音识别模型组件对音频信号的第一后验概率和音频信号的第二后验概率按照一定的加权比例进行加权运算,输出该音频信号的音频识别概率;解码器调用语言模型,对语音识别模型组件输出的音频信号识别概率进行解码,得到音频信号的文本识别结果。
以特定音频信号为儿童音为例,本发明实施例的音频信号识别方法可包括:
声学特征提取单元提取音频信号的声学特征,特定音频判别模型组件根据音频信号的声学特征,确定音频信号中是否包含儿童音频。
若音频信号中包含儿童音频,语音识别模型组件利用非特定声学模型和特定声学模型对音频信号进行识别,得到由非特定声学模型输出的音频信号的第一后验概率P1和由特定声学模型输出的音频信号的第二后验概率P2。若P1的非特定音频加权比例为W1,P2的特定音频加权比例为W2,则加权运算后的结果为P1与W1的乘积与P2与W2的乘积之和。
在一个实施例中,非特定音频加权比例和特定音频加权比例可以是用于预先根据应用场景或经验设定的加权比值。作为一个示例,W1的值可以取0.5,W2的值可以取0.5。
若音频信号中不包含儿童音频,语音识别模型组件可以只利用非特定声学模型对音频信号进行识别。当非特定声学模型输出音频信号的第三后验概率例如P3,则语音识别模型组件可以根据P3确定加权运算后的音频信号的识别概率。
在本实施例中,为了提高音频信号的识别准确率,当音频信号包括特定音频信号时,可以语音识别模型组件可以结合非特定声学模型和特定音频声学模型对音频信号进行处理。
图4示出了本发明另一实施例的模型训练方法的流程图。图4和图3相比,特定音频判别模型的训练过程基本一致,在此不再赘述。
在一个实施例中,如图4所示,语音识别模型组件包括非特定声学模型和特定声学模型,并且非特定声学模型的网络结构和特定声学模型的网络结构包含共享部分。
在该语音识别模型组件的模型训练过程中:
如果音频样本数据中包括特定音频数据,则可以利用该音频样本数据,对非特定声学模型和特定声学模型的共享部分以及特定声学模型的独立部分进行训练。
如果音频样本数据中不包括特定音频数据,则可以利用该音频样本数据,对非特定声学模型和特定声学模型的共享部分以及非特定声学模型的独立部分进行训练。
以特定音频信号为儿童音为例,若音频样本数据包括儿童音频,则用该音频样本数据对该共享部分和特定声学模型进行训练,得到训练后的非特定声学模型和训练后的特定声学模型。
以非特定音频信号为成人音为例,若输入的样本数据不包括儿童音频而是成人音频,则用该音频样本数据对该共享部分和非特定声学模型进行训练,得到训练后的非特定声学模型和训练后的特定声学模型。
在该实施例中,利用训练后的非特定声学模型和训练后的特定声学模型,构建语音识别模型组件。相比现有技术中智能对非特定音频信号进行识别的语音信号识别组件,当音频信号中包含特定音频信号时,利用该语音识别模型组件对音频信号进行识别时,识别准确率更高。
下面结合该语音识别模型组件,描述对音频信号识别的具体流程。
在一个实施例中,当利用音频信号识别设备对接收的音频信号进行识别时,声学特征提取单元提取音频信号的声学特征,并将提取的音频信号的声学特征输入特定音频判别模型组件,通过特定音频判别模型组件确定音频信号的声学特征中是否包括特定音频的声学特征。
在一个实施例中,当确定音频信号的声学特征中包含特定音频的声学特征:语音识别模型组件可以利用非特定声学模型和特定声学模型的共享部分以及特定声学模型的独立部分,对音频信号进行处理,得到该音频信号的后验概率。
在一个实施例中,当确定音频信号的声学特征中不包含特定音频的声学特征:语音识别模型组件可以利用非特定声学模型和特定声学模型的共享部分以及非特定声学模型的独立部分,对音频信号进行处理,得到该音频信号的后验概率。
在上述实施例中,解码器对语音识别模型组件输出的音频信号的识别概率解码,得到音频信号的文本识别结果。
作为一个示例,若特定音频为儿童音频,本发明实施例的音频信号识别方法可包括:
声学特征提取单元提取出音频信号的声学特征,特定音频判别模型组件根据音频信号的声学特征,确定音频信号中是否包含儿童音频。
若音频信号中包括儿童音频,语音识别模型组件利用非特定声学模型和特定声学模型的共享部分以及特定声学模型的独立部分,对该音频信号进行处理,得到该音频信号的识别概率;解码器利用语言模型,直接根据语音识别模型组件输出的识别概率,解码文本识别结果。
若音频信号中不包括儿童音频,语音识别模型组件利用非特定声学模型和特定声学模型的共享部分以及非特定声学模型的独立部分,对该音频信号进行处理,得到该音频信号的识别概率;解码器利用语言模型,直接根据语音识别模型组件输出的识别概率,解码文本识别结果。
本发明实施例的音频信号识别方法,结合特定声学模型和非特定声学模型的共享部分,对音频信号进行识别,不仅简化语音识别模型组件的模型结构,还可以在识别过程中结合特定声学模型和非特定声学模型的共同特征,进一步提高了信号识别的准确率。
图5示出了根据本发明一实施例的音频信号识别方法的流程示意图。如图5所示,在本发明一实施例中,本发明实施例中的音频信号识别方法500包括以下步骤:
步骤S510,针对接收的音频信号,确定音频信号中是否包括特定音频信号。
在一个实施例中,步骤S510可具体包括:
步骤S511利用特定音频判别模型组件,判断音频信号的声学特征中是否包括特定音频信号的声学特征,根据判断结果确定音频信号中是否包括特定音频信号。
在一个具体的实施例中,为了加强特定音频判别的准确率,特定音频判别模型是根据正样本和负样本训练得到的模型,正样本为包括特定音频信号的音频数据,负样本为包括非特定音频信号的音频数据。
步骤S520,如果音频信号中包括特定音频信号,基于语音识别模型组件处理音频信号,得到音频信号中语音识别单元的识别概率,语音识别模型组件包括特定声学模型和非特定声学模型。
在一个实施例中,步骤S520,具体可以包括:
步骤S521,使用语音识别模型组件中的非特定声学模型,计算音频信号中语音识别单元的第一识别概率;
步骤S522,使用语音识别模型组件中的特定声学模型,计算音频信号中语音识别单元的第二识别概率;
步骤S523,利用通用声学模型权重系数和特定声学模型权重系数,对第一识别概率和第二识别概率进行加权融合,得到音频信号中语音识别单元的识别概率。
在一个实施例中,语音识别模型组件包括的模型的数量为两个。
在一个实施例中,特定声学模型的网络结构和非特定声学模型的网络结构中可以包括共享部分。
在该实施例中,步骤S520具体可以包括:
如果音频信号中包括特定音频信号,利用共享部分和特定模型中的独立部分,处理音频信号,得到音频信号中语音识别单元的识别概率。
在该实施例中,步骤S520具体可以包括:
如果音频信号中不包括特定音频信号,利用共享部分和非特定模型中的独立部分处理音频信号,得到音频信号中语音识别单元的识别概率。
步骤S530,利用语言模型对音频信号中语音识别单元的识别概率进行声学解码,得到音频信号的文本识别结果。
根据本发明实施例中的音频信号识别方法,当确定接收的音频信号中包括特定音频信号,可以利用语音识别模型组件处理该音频信号,得到音频信号的识别概率,由于语音识别模型组件可以结合特定声学模型和非特定声学模型对目标音频信号进行识别,识别准确率高于仅包括非特定声学模型的语音识别模型组件,因此能够提高音频信号识别准确率。
图6示出了根据本发明实施例的音频信号处理装置的模块示意图,如图6所示,音频信号处理装置600可以包括:
特定音频判别模块610,用于针对接收的音频信号,确定音频信号中是否包括特定音频信号;
音频信号处理模块620,用于如果音频信号中包括特定音频信号,基于语音识别模型组件处理音频信号,得到音频信号中语音识别单元的识别概率,语音识别模型组件包括特定声学模型和非特定声学模型;
声学解码模块630,用于如果音频信号中包括特定音频信号,基于语音识别模型组件处理音频信号,得到音频信号中语音识别单元的识别概率,语音识别模型组件包括特定声学模型和非特定声学模型。
在一个实施例中,特定音频判别模块610,具体用于:
利用特定音频判别模型组件,判断音频信号的声学特征中是否包括特定音频信号的声学特征,根据判断结果确定音频信号中是否包括特定音频信号。
在一个具体的实施例中,特定音频判别模型组件是根据正样本和负样本训练得到的模型,正样本为包括特定音频信号的音频数据,负样本为包括非特定音频信号的音频数据。
在一个实施例中,此时,音频信号处理模块620,具体可以用于:
使用语音识别模型组件中的非特定声学模型,计算音频信号中语音识别单元的第一识别概率;
使用语音识别模型组件中的特定声学模型,计算音频信号中语音识别单元的第二识别概率;
利用通用声学模型权重系数和特定声学模型权重系数,对第一识别概率和第二识别概率进行加权融合,得到音频信号中语音识别单元的识别概率。
在一个实施例中,语音识别模型组件包括的模型的数量为两个。
在一个实施例中,特定声学模型的网络结构和非特定声学模型的网络结构中包括共享部分。
在一个实施例中,音频信号处理模块620,具体可以用于:
如果音频信号中包括特定音频信号,利用共享部分和特定模型中的独立部分,处理音频信号,得到音频信号中语音识别单元的识别概率。
在一个实施例中,音频信号处理模块620,具体可以用于:
如果音频信号中不包括特定音频信号,利用共享部分和非特定模型中的独立部分处理音频信号,得到音频信号中语音识别单元的识别概率。
需要说明的是,上述各实施例的装置可作为上述各实施例的用于各实施例的方法中的执行主体,可以实现各个方法中的相应流程,实现相同的技术效果,为了简洁,此方面内容不再赘述。
图7是示出能够实现根据本发明实施例音频信号识别方法和装置的计算设备的示例性硬件架构的结构图。
如图7所示,计算设备700包括输入设备701、输入接口702、中央处理器703、存储器704、输出接口705、以及输出设备706。其中,输入接口702、中央处理器703、存储器704、以及输出接口705通过总线710相互连接,输入设备701和输出设备706分别通过输入接口702和输出接口705与总线710连接,进而与计算设备700的其他组件连接。
具体地,输入设备701接收来自外部的输入信息,并通过输入接口702将输入信息传送到中央处理器703;中央处理器703基于存储器704中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器704中,然后通过输出接口705将输出信息传送到输出设备706;输出设备706将输出信息输出到计算设备700的外部供用户使用。
也就是说,图7所示的计算设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图1至图6描述的音频信号识别方法和装置。
图8示出了根据本发明实施例的音频信号识别系统的结构示意图。在一个实施例中,音频信号识别系统800,包括:
集音设备810,用于接收音频信号;
音频信号识别设备820,用于针对接收的音频信号,确定音频信号中是否包括特定音频信号,如果音频信号中包括特定音频信号,基于语音识别模型组件处理音频信号,得到音频信号中语音识别单元的识别概率,语音识别模型组件包括特定声学模型和非特定声学模型,利用语言模型对音频信号中语音识别单元的识别概率进行声学解码,得到音频信号的文本识别结果。
根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以从网络上被下载和安装,和/或从可拆卸存储介质被安装。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,当其在计算机上运行时,使得计算机执行上述各个实施例中描述的方法。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
需要明确的是,本发明并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁,这里省略了对已知方法的详细描述,并且上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域的技术人员可以清楚地了解到,本发明的方法过程并不限于所描述和示出的具体步骤,任何熟悉本技术领域的技术人员在领会本发明的精神后,在本发明揭露的技术范围内作出各种改变、修改和添加,或者等效替换以及改变步骤之间的顺序,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (11)
1.一种音频信号识别方法,包括:
针对接收的音频信号,确定所述音频信号中是否包括特定音频信号;
如果所述音频信号中包括特定音频信号,基于语音识别模型组件处理所述音频信号,得到所述音频信号中语音识别单元的识别概率,所述语音识别模型组件包括特定声学模型和非特定声学模型,其中,所述识别概率为将基于所述特定声学模型处理所述音频信号得到的识别概率和基于所述非特定声学模型处理所述音频信号得到的识别概率进行加权融合后得到的概率;
利用语言模型对所述音频信号中语音识别单元的识别概率进行声学解码,得到所述音频信号的文本识别结果。
2.根据权利要求1所述音频信号识别方法,其中,所述确定所述音频信号中是否包括特定音频信号,包括:
利用特定音频判别模型组件,判断所述音频信号的声学特征中是否包括特定音频信号的声学特征,根据判断结果确定所述音频信号中是否包括特定音频信号。
3.根据权利要求2所述音频信号识别方法,其中,
所述特定音频判别模型组件是根据正样本和负样本训练得到的模型,所述正样本为包括特定音频信号的音频数据,所述负样本为包括非特定音频信号的音频数据。
4.根据权利要求1所述音频信号识别方法,其中,所述基于语音识别模型组件处理所述音频信号,得到所述音频信号中语音识别单元的识别概率,所述语音识别模型组件包括特定声学模型和非特定声学模型,包括:
使用所述语音识别模型组件中的非特定声学模型,计算所述音频信号中语音识别单元的第一识别概率;
使用所述语音识别模型组件中的特定声学模型,计算所述音频信号中语音识别单元的第二识别概率;
利用通用声学模型权重系数和特定声学模型权重系数,对所述第一识别概率和所述第二识别概率进行加权融合,得到所述音频信号中语音识别单元的识别概率。
5.根据权利要求1所述音频信号识别方法,其中,
所述特定声学模型的网络结构和所述非特定声学模型的网络结构中包括共享部分。
6.根据权利要求5所述的音频信号识别方法,其中,所述基于语音识别模型组件处理所述音频信号,得到所述音频信号中语音识别单元的识别概率,所述语音识别模型组件包括特定声学模型和非特定声学模型,包括:
利用所述共享部分和所述特定声学模型中的独立部分,处理所述音频信号,得到所述音频信号中语音识别单元的识别概率。
7.根据权利要求5所述的音频信号识别方法,其中,所述基于语音识别模型组件处理所述音频信号,得到所述音频信号中语音识别单元的识别概率,包括:
如果所述音频信号中不包括特定音频信号,利用所述共享部分和所述非特定声学模型中的独立部分处理所述音频信号,得到所述音频信号中语音识别单元的识别概率。
8.一种音频信号识别装置,包括:
特定音频确定模块,用于针对接收的音频信号,确定所述音频信号中是否包括特定音频信号;
音频信号处理模块,用于如果所述音频信号中包括特定音频信号,基于语音识别模型组件处理所述音频信号,得到所述音频信号中语音识别单元的识别概率,所述语音识别模型组件包括特定声学模型和非特定声学模型;
声学解码模块,用于如果所述音频信号中包括特定音频信号,基于语音识别模型组件处理所述音频信号,得到所述音频信号中语音识别单元的识别概率,所述语音识别模型组件包括特定声学模型和非特定声学模型,其中,所述识别概率为将基于所述特定声学模型处理所述音频信号得到的识别概率和基于所述非特定声学模型处理所述音频信号得到的识别概率进行加权融合后得到的概率。
9.一种音频信号识别系统,包括:
集音设备,用于接收音频信号;
音频信号识别设备,用于针对接收的音频信号,确定所述音频信号中是否包括特定音频信号,如果所述音频信号中包括特定音频信号,基于语音识别模型组件处理所述音频信号,得到所述音频信号中语音识别单元的识别概率,所述语音识别模型组件包括特定声学模型和非特定声学模型,利用语言模型对所述音频信号中语音识别单元的识别概率进行声学解码,得到所述音频信号的文本识别结果,其中,所述识别概率为将基于所述特定声学模型处理所述音频信号得到的识别概率和基于所述非特定声学模型处理所述音频信号得到的识别概率进行加权融合后得到的概率。
10.一种音频信号识别设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求1-7任一项所述音频信号识别方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1-7中任一项所述音频信号识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811148191.0A CN111063338B (zh) | 2018-09-29 | 2018-09-29 | 音频信号识别方法、装置、设备、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811148191.0A CN111063338B (zh) | 2018-09-29 | 2018-09-29 | 音频信号识别方法、装置、设备、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111063338A CN111063338A (zh) | 2020-04-24 |
CN111063338B true CN111063338B (zh) | 2023-09-19 |
Family
ID=70296234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811148191.0A Active CN111063338B (zh) | 2018-09-29 | 2018-09-29 | 音频信号识别方法、装置、设备、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111063338B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102846B (zh) * | 2020-09-04 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、电子设备以及存储介质 |
CN113314127B (zh) * | 2021-04-23 | 2023-10-10 | 广州大学 | 基于空间方位的鸟鸣识别方法、系统、计算机设备与介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7472064B1 (en) * | 2000-09-30 | 2008-12-30 | Intel Corporation | Method and system to scale down a decision tree-based hidden markov model (HMM) for speech recognition |
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
CN105229725A (zh) * | 2013-03-11 | 2016-01-06 | 微软技术许可有限责任公司 | 多语言深神经网络 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN106469552A (zh) * | 2015-08-20 | 2017-03-01 | 三星电子株式会社 | 语音识别设备和方法 |
CN107154260A (zh) * | 2017-04-11 | 2017-09-12 | 北京智能管家科技有限公司 | 一种领域自适应语音识别方法和装置 |
CN108428446A (zh) * | 2018-03-06 | 2018-08-21 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8099288B2 (en) * | 2007-02-12 | 2012-01-17 | Microsoft Corp. | Text-dependent speaker verification |
CN105185372B (zh) * | 2015-10-20 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
-
2018
- 2018-09-29 CN CN201811148191.0A patent/CN111063338B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7472064B1 (en) * | 2000-09-30 | 2008-12-30 | Intel Corporation | Method and system to scale down a decision tree-based hidden markov model (HMM) for speech recognition |
CN105229725A (zh) * | 2013-03-11 | 2016-01-06 | 微软技术许可有限责任公司 | 多语言深神经网络 |
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
CN106469552A (zh) * | 2015-08-20 | 2017-03-01 | 三星电子株式会社 | 语音识别设备和方法 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN107154260A (zh) * | 2017-04-11 | 2017-09-12 | 北京智能管家科技有限公司 | 一种领域自适应语音识别方法和装置 |
CN108428446A (zh) * | 2018-03-06 | 2018-08-21 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
Non-Patent Citations (1)
Title |
---|
融合引导概率的语音识别解码算法研究;杨占磊等;声学学报;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111063338A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110838289B (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
JP2020086437A (ja) | 音声認識方法及び音声認識装置 | |
Tong et al. | A comparative study of robustness of deep learning approaches for VAD | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN110706690A (zh) | 语音识别方法及其装置 | |
JP2017016131A (ja) | 音声認識装置及び方法と電子装置 | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
US11574637B1 (en) | Spoken language understanding models | |
CN113327609A (zh) | 用于语音识别的方法和装置 | |
EP3667660A1 (en) | Information processing device and information processing method | |
US12087305B2 (en) | Speech processing | |
US20230419957A1 (en) | User profile linking | |
US20240013784A1 (en) | Speaker recognition adaptation | |
CN111063338B (zh) | 音频信号识别方法、装置、设备、系统和存储介质 | |
US11544504B1 (en) | Dialog management system | |
US11646035B1 (en) | Dialog management system | |
CN111243604B (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
CN112185425B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
US20240321264A1 (en) | Automatic speech recognition | |
US20240185846A1 (en) | Multi-session context | |
US11430435B1 (en) | Prompts for user feedback | |
CN112037772A (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN110570838A (zh) | 语音流处理方法和装置 | |
CN110232911B (zh) | 跟唱识别方法、装置、存储介质及电子设备 | |
CN110164445B (zh) | 语音识别方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |