CN115062143A - 语音识别与分类方法、装置、设备、冰箱及存储介质 - Google Patents
语音识别与分类方法、装置、设备、冰箱及存储介质 Download PDFInfo
- Publication number
- CN115062143A CN115062143A CN202210556181.0A CN202210556181A CN115062143A CN 115062143 A CN115062143 A CN 115062143A CN 202210556181 A CN202210556181 A CN 202210556181A CN 115062143 A CN115062143 A CN 115062143A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- voice
- text data
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本发明提供一种语音识别与分类方法、装置、设备、冰箱及存储介质,涉及计算机技术领域,所述方法包括步骤:获取实时语音数据,获取历史文本数据;转写所述实时语音数据为语音文本数据;提取所述实时语音数据和所述历史文本数据的文本特征;将所述文本特征经全连接层组合后,输出至分类器计算得分得到分类结果信息;输出所述分类结果信息。通过获取历史文本数据,将历史文本数据作为预训练和预测模型的数据集的一部分,更全面地获取了文本语义特征信息,通过综合运用实时语音数据和历史文本数据,将历史文本数作为补充数据,弥补了语音数据文本语义信息较少的问题,有效提高了文本分类准确度。
Description
技术领域
本发明涉及计算机技术领域,具体地涉及一种语音识别与分类方法、装置、设备、冰箱及存储介质。
背景技术
自从数据、算力和算法助力AI各项核心技术的快速发展及应用落地,深度学习在智能电器领域被广泛应用,其中数据离不开语音、文本、图像、视频等多源异构数据,当前智能冰箱与用户交互大部分是语音和文本数据,但是当前所使用传统建模方法在冰箱智能语音识别与分类方面,普遍存在特征提取不充分的问题,从而导致语音识别精度、语音转写文本的分类准确率偏低,影响冰箱语音交互效果及推送消息的准确率。为此,如何利用深度神经网络解决冰箱食材智能语音识别与分类方法已成为提升冰箱智能交互与感知的关键技术。
发明内容
本发明的目的在于提供一种语音识别与分类方法、装置、设备、冰箱及存储介质。
本发明提供一种语音识别与分类方法,包括步骤:
获取实时语音数据,获取历史文本数据;
转写所述实时语音数据为语音文本数据;
提取所述实时语音数据和所述历史文本数据的文本特征;
将所述文本特征经全连接层组合后,输出至分类器计算得分得到分类结果信息;
输出所述分类结果信息。
作为本发明的进一步改进,所述转写所述实时语音数据为语音文本数据,具体包括:
提取所述实时语音数据特征,得到语音特征;
将所述语音特征输入语音识别卷积神经网络得到输出文本数据;
将所述输出文本数据序列通过连接时序分类方法与所述语音特征序列对齐;
将所述输出文本数据经全连接层组合后,输出至分类函数计算得分得到语音文本数据。
作为本发明的进一步改进,所述转写所述实时语音数据为语音文本数据,还包括步骤:
基于注意力机制,获取所述输出文本数据局部关键特征。
作为本发明的进一步改进,所述将所述语音特征向量输入语音识别卷积神经网络得到输出文本数据,具体包括:
将所述语音特征向量输入多尺寸多通道的多层语音识别卷积神经网络得到输出文本数据。
作为本发明的进一步改进,所述提取所述实时语音数据特征,具体包括:
提取所述实时语音数据特征,获取其梅尔频率倒谱系数特征。
作为本发明的进一步改进,所述提取所述实时语音数据和所述历史文本数据的文本特征,具体包括:
将所述语音文本数据和所述历史文本数据转化为词向量;
将所述词向量输入双向长短记忆网络模型,获取包含基于所述语音文本数据和所述历史文本数据上下文特征信息的上下文特征向量。
作为本发明的进一步改进,所述提取所述实时语音数据和所述历史文本数据的文本特征,还包括:
将所述上下文特征向量输入注意力机制模型,获取包含权重信息的注意力特征向量。
作为本发明的进一步改进,所述将所述上下文特征向量输入注意力机制模型,获取包含权重信息的注意力特征向量,具体包括:
将所述上下文特征向量输入自注意力机制模型,获取包含所述文本数据的文本语义自身权重信息的第一注意力特征向量;
将所述第一注意力特征向量输入互注意力机制模型,获取包含所述文本数据不同词之间的关联权重信息的第二注意力特征向量。
作为本发明的进一步改进,所述将所述文本特征经全连接层组合后,输出至分类器计算得分得到分类结果信息,具体包括:
将所述注意力特征向量经全连接层组合后,输出至Softmax函数,计算所述语音文本数据和所述历史文本数据文本语义的得分及其归一化得分结果,得到分类结果信息。
作为本发明的进一步改进,所述获取实时语音数据,具体包括:
获取语音采集装置所采集的所述实时语音数据,和/或
获取自客户终端传输的所述实时语音数据。
作为本发明的进一步改进,所述获取历史文本数据,具体包括:
获取内部存储的历史文本作为历史文本数据,和/或
获取外部存储的历史文本作为历史文本数据,和/或
获取客户终端传输的历史文本作为历史文本数据。
作为本发明的进一步改进,还包括步骤:
对所述实时语音数据进行预处理,包括:对所述实时语音数据进行分帧处理和加窗处理,
对所述历史文本数据进行预处理,包括:对所述语音文本数据进行清洗处理、标注、分词、去停用词。
作为本发明的进一步改进,所述输出所述分类结果信息包括:
将所述分类结果信息转换为语音进行输出,和/或
将所述分类结果信息转换为语音传输至客户终端输出,和/或
将所述分类结果信息转换为文本进行输出,和/或
将所述分类结果信息转换为文本传输至客户终端输出。
作为本发明的进一步改进,所述获取所述实时语音数据和所述历史文本数据的上下文信息和权重信息,具体包括:
获取存储于外部缓存的配置数据,将所述语音文本数据和所述历史文本数据基于所述配置数据执行深度神经网络计算,获取所述实时语音数据和所述历史文本数据的上下文信息和权重信息。
本发明还提供一种语音识别与分类装置,包括:
数据获取模块,用于获取实时语音数据,和获取历史文本数据;
转写模块,用于转写所述实时语音数据为语音文本数据;
特征提取模块,用于提取所述实时语音数据和所述历史文本数据的文本特征;
结果计算模块,用于将所述文本特征经全连接层组合后,输出至分类器计算得分得到分类结果信息;
输出模块,用于输出所述分类结果信息。
本发明还提供一种电器设备,包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现上述的语音识别与分类方法。
本发明还提供一种冰箱,包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现上述的语音识别与分类方法。
本发明还提供一种计算机可读存储介质,其存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现上述的语音识别与分类方法。
本发明的有益效果是:本发明所提供的方法完成了对所获取的语音数据的识别与分类任务,并且通过获取历史文本数据,将历史文本数据作为预训练和预测模型的数据集的一部分,更全面地获取了文本语义特征信息,通过综合运用实时语音数据和历史文本数据,将历史文本数作为补充数据,弥补了语音数据文本语义信息较少的问题,有效提高了文本分类准确度。并且,通过构建融合了卷积神经网络、连接时序分类方法和注意力机制的神经网络模型提高了实时语音识别的精度;通过构建融合了上下文信息机制、自注意力机制和互注意力机制的神经网络模型,更充分地提取文本语义特征信息。整体模型结构具有优秀的深度学习表征能力,语音识别精度高,对语音文本分类的准确率高。
附图说明
图1是本发明一实施方式中的语音识别与分类方法所涉及模型的结构框图。
图2是本发明一实施方式中的语音识别与分类方法步骤示意图。
图3本发明一实施方式中获取实时语音数据,获取历史文本数据步骤示意图。
图4是发明一实施方式中转写所述实时语音数据为语音文本数据步骤示意图。
图5是发明一实施方式中提取所述实时语音数据和所述历史文本数据的文本特征步骤示意图。
图6是本发明一实施方式中的语音识别与分类装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施方式及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施方式仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
下面详细描述本发明的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
如图1所示,为本发明所提供的一种语音识别与分类方法所涉及模型的结构框图,如图2所示,为语音识别与分类方法步骤示意图,其包括:
S1:获取实时语音数据,获取历史文本数据。
S2:转写所述实时语音数据为语音文本数据。
S3:提取所述实时语音数据和所述历史文本数据的文本特征。
S4:将所述文本特征经全连接层组合后,输出至分类器计算得分得到分类结果信息。
S5:输出所述分类结果信息。
本发明提供的方法可供智能电子设备基于用户的实时语音输入,来实现与用户之间的实时交互或消息推送等功能。示例性的,在本实施方式中,以智能冰箱为例,并结合预先训练好的深度学习模型对本方法进行说明。基于用户的语音输入,智能冰箱对用户语音所对应的文本内容进行分类,并根据分类结果信息计算需要输出的分类结果信息。
如图3所示,在步骤S1中,其具体包括:
S11:获取语音采集装置所采集的所述实时语音数据,和/或
获取自客户终端传输的所述实时语音数据。
S12:获取内部存储的历史文本作为历史文本数据,和/或
获取外部存储的历史文本作为历史文本数据,和/或
获取客户终端传输的历史文本作为历史文本数据。
这里所述的实时语音指的是用户当前对智能电子设备或对与智能电子设备通信连接的客户终端设备等说出的询问性或指令性语句等。如在本实施方式中,用户可提出诸如“今天冰箱里有啥蔬菜”、“今天有什么菜谱推荐”等问题,或用户可发出诸如“提醒冰箱里快到期的酸奶”、“给出当季的水果”等命令指令。基于上述信息,智能冰箱的处理器通过本发明所提供的方法进行语音识别后,与用户进行实时语音交互或推送相关信息。
这里所述的历史文本数据指的是在以往使用过程中,用户的实时语音所转写成的语音文本数据,进一步的,其还可包括用户自行输入的历史文本数据等。具体的,在本实施方式中,其可包括:以往用户提问或发出指令后,相关问题和指令所转写成的文本;以往使用过程中用户依据放入的物品发出的说明性语音所转写的文本,如“今天放入了一个西瓜”、“冰箱里还剩3瓶酸奶”等;以往使用过程中用户对食材进行的评论所转写的文本,如“今天放进去的辣椒很辣”“某种品牌的酸奶很好喝”等;或者用户在以往使用过程中其他自行输入的文本数据等。在不同实施方式中,可以根据需要选择以上历史文本中的一种或多种作为本方法所需的所述历史文本数据。
如步骤S11所述,在本实施方式中,可通过设置于智能冰箱内的拾音器、麦克风阵列等语音采集装置采集用户实时语音,在使用过程中,当用户需要与智能冰箱进行交互时,直接对智能冰箱发出语音即可。并且,也可通过与智能冰箱基于无线通信协议连接的客户终端获取传输而来的用户实时语音,客户终端为具有信息发送功能的电子设备,如手机、平板电脑、智能音响、智能手环或蓝牙耳机等智能电子设备,在使用过程中,用户直接对客户终端发出语音,客户终端采集语音后通过wifi或蓝牙等无线通信方式传输至智能冰箱。从而实现多渠道的实时语音获取方式,并不局限于必须面向智能冰箱发出语音。当用户有交互需求时,通过任意便捷渠道发出实时语音即可,从而能够显著提高用户的使用便捷度。在本发明的其他实施方式中,也可采用上述实时语音获取方法中的一种或任意多种,或者也可基于现有技术通过其他渠道获取所述实时语音,具体在此不再赘述。
如步骤S12所述,在本实施方式中,可通过读取智能冰箱的内部存储器所存储的历史文本来获取所述历史文本数据。并且,也可通过读取智能冰箱配置的外部存储装置所存储的历史文本来获取所述历史文本数据,外部存储装置为诸如U盘、SD卡等设备,通过设置外部存储装置可进一步拓展智能冰箱的存储空间。并且,也可获取存储在诸如手机、平板电脑等客户终端或应用软件服务器端等处的所述历史文本数据,在需要使用时,通过客户终端通信传输至智能冰箱进行处理。实现多渠道的历史文本获取渠道,能够大幅提高历史文本信息的数据量,从而提高后续语音识别的准确度。在本发明的其他实施方式中,也可采用上述历史文本数据获取方法中的一种或任意多种,或者也可基于现有技术通过其他渠道获取所述历史文本数据,具体在此不再赘述。
进一步的,在本实施方式中,智能冰箱配置有外部缓存,至少有部分所述历史文本数据被储存在所述外部缓存中,随着使用时间增加,历史文本数据增多,通过将部分数据存储在外部缓存中,能够节省智能冰箱内部存储空间,并且在进行神经网络计算时,直接读取存储于外部缓存中的所述历史文本数据,能够提高算法效率。
具体的,在本实施方式中,采用Redis组件作为所述外部缓存,Redis组件为当前一种使用较为广泛的key/value存储结构的分布式缓存系统,其可用作数据库,高速缓存和消息队列代理。在本发明的其他实施方式中也可采用诸如Memcached等其他外部缓存,本发明对此不作具体限制。
综上所述,在步骤S11和步骤S12中,能够通过多渠道灵活获取实时语音数据和历史文本数据,在提升了用户体验的同时,保证了数据量,并有效提升了算法效率。
进一步的,步骤S1还包括对数据进行预处理的步骤,其包括:
S13:对所述实时语音数据进行预处理,包括:对所述实时语音数据进行分帧处理和加窗处理。
S14:对所述历史文本数据进行预处理,包括:对所述语音文本数据进行清洗处理、标注、分词、去停用词。
具体的,在步骤S13中,将语音根据指定的长度(时间段或者采样数)进行分段,结构化为可编程的数据结构,完成对语音的分帧处理得到语音信号数据。接着,将语音信号数据与一个窗函数相乘,使原本没有周期性的语音信号呈现出周期函数的部分特征,完成加窗处理。进一步的,还可在分帧处理之前进行预加重处理,对语音的高频部分进行加重,以消除发声过程中口唇辐射的影响,从而补偿语音信号受到发音系统所压抑的高频部分,并能突显高频的共振峰。并且,在加窗处理之后还可进行过滤音频噪音点处理和增强人声处理等步骤,从而完成对所述实时语音数据的加强,提取得到所述实时语音的特征参数,使所述实时语音数据符合后续神经网络模型的输入要求。
具体的,在步骤S14中,删除历史文本数据集中的无关数据、重复数据以及处理异常值和缺失值数据等,初步筛选掉与分类无关的信息,对所述历史文本数据进行清洗处理。接着,基于规则统计的方法等对所述历史文本数据进行类别标签标注,以及基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法等对所述历史文本数据进行分词处理。之后,去除停用词,完成对所述历史文本数据的预处理,使所述历史文本数据符合后续神经网络模型的输入要求。
在步骤S13和步骤S14中,对所述实时语音数据和所述历史文本数据预处理所采用的的具体算法可参考当前本领域现有技术,具体在此不再赘述。
如图4所示,在步骤S2中,其具体包括步骤:
S21:提取所述实时语音数据特征,得到语音特征。
S22:将所述语音特征输入语音识别卷积神经网络得到输出文本数据。
S23:将所述输出文本数据序列通过连接时序分类方法与所述语音特征序列对齐。
S24:将所述输出文本数据经全连接层组合后,输出至分类函数计算得分得到语音文本数据。
进一步的,在本发明的一些实施方式中,在步骤S23之后还包括步骤:
S231:基于注意力机制,获取所述输出文本数据局部关键特征。
在步骤S21中,提取所述实时语音数据特征具体包括:
提取所述实时语音数据特征,获取其梅尔频率倒谱系数特征(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。MFCC是一种语音信号中具有辨识性的成分,是在Mel标度频率域提取出来的倒谱参数,其中,Mel标度描述了人耳频率的非线性特性,MFCC的参数考虑到了人耳对不同频率的感受程度,特别适用于语音辨别和语者辨识。
示例性的,步骤S21可包括:
将预处理后的所述实时语音数据经过快速傅里叶变换后得到各帧实时语音数据信号的能量谱,并将能量谱通过一组Mel尺度的三角形滤波器组来对频谱进行平滑化,消除谐波的作用,突显实时语音的共振峰,之后在进一步通过对数运算和离散余弦变换后得到MFCC系数特征。
在本发明的其他实施方式中,也可通过不同算法步骤获取所述实时语音数据的感知线性预测特征(Perceptual Linear Predictive,简称PLP)或线性预测系数特征(LinearPredictive Coding,简称LPC)等特征参数来取代MFCC特征,具体可基于实际模型参数和本方法实际应用的领域而进行具体选择,本发明对此不做具体限制。
上述步骤中所涉及的具体的算法步骤可参考本领域现有技术,具体在此不再赘述。
在步骤S22中,其具体包括:
将所述语音特征向量输入多尺寸多通道的多层语音识别卷积神经网络得到输出文本数据。
这里,考虑到通常冰箱侧语音数据有效时长较短的特点,构建多尺寸多通道的多层卷积神经网络来提升模型的网络宽度。卷积神经网络的宽度即指卷积神经网络模型中通道的数量,在本发明中,通过增加卷积层通道数量来增加网络宽度,更宽的网络能够让卷积神经网络每一层学习到更加丰富的特征,从而提升所述语音识别卷积神经网络模型的性能,以弥补实时语音数据中有效时长较短的缺点。
具体的,在本实施方式中,卷积核大小为3*3,每一卷积层通道数量为32,并通过最大池化来缩减所述语音识别卷积神经网络模型的大小,提高计算速度,并同时提高所提取特征的鲁棒性。这里,将通道数量设置为32,一方面,确保了所述语音识别减卷积神经网络的网络宽度,一方面,避免了过宽的网络宽度带来过大的计算量而致使所述语音识别卷积神经网络效率的降低。
在本发明的其他实施方式中,也可具体基于实际模型参数和本方法实际应用的领域而对语音识别卷积神经网络模型参数而进行具体调整,本发明对此不作具体限制。
在步骤S23中,连接时序分类方法(Connectionist temporal classification,简称CTC)模型是一种完全端到端的声学模型训练方法,其能够扩展标签集合,添加空元素,在使用扩展标签集合对序列进行标注后,所有可以通过映射函数转换为真实序列的预测序列均为正确的预测结果。通过引入其解决了所述语音特征与所述输出文本数据之间标签序列对齐的问题。
在步骤S231中,注意力机制可以引导神经网络去关注更为关键的信息而抑制其他非关键的信息,因此,通过引入注意力机制,能够得到所述输出文本数据的局部关键特征或权重信息,从而进一步减少模型训练时序列的不规则误差对齐现象。由于CTC模型缺乏前后语音特征之间的联系,比较依赖语言模型的修正,而单纯采用注意力机制模型则与输入的所述实时语音数据的帧顺序无关,每个解码单元是通过前一单元的解码结果与整体语音特征来生成当前的结果,忽略了语音的单调时序性,为了兼顾CTC模型和注意力模型的优缺点,在本实施方式中选择将其组合使用。
综上所述,在步骤S2中,通过构建融合了卷积神经网络、连接时序分类方法和注意力机制的深度神经网络模型能够获得所述实时语音数据丰富的高层语音特征信息,从而提高了模型的语音识别能力及精度。
在本发明的其他实施方式中,也可通过构建浅层神经网络模型或者通过高斯混合模型等模型等来将所述实时语音数据转写为所述语音文本数据,只要能够将所述实时语音数据转写为所述语音文本数据即可。
从而,通过步骤S1和步骤S2得到了实时语音对应的所述语音文本数据和所述历史文本数据。
如图5所示,在步骤S3中,其具体包括:
S31:将所述语音文本数据和所述历史文本数据转化为词向量。
S32:将所述词向量输入双向长短记忆网络模型,获取包含基于所述语音文本数据和所述历史文本数据上下文特征信息的上下文特征向量。
进一步的,在本发明一些实施方式中,在步骤S32之后,还包括步骤:
S33:将所述上下文特征向量输入注意力机制模型,获取包含权重信息的注意力特征向量;
在步骤S31中,为了将文本数据转化为计算机能够识别和处理的向量化形式,可通过Word2Vec算法,将所述历史文本数据和所述语音文本数据转化为所述词向量,或者也可通过其他诸如Glove算法等本领域现有算法转化得到所述词向量,本发明对此不做具体限制。
在步骤S32中,双向长短记忆网络(Bi-directional Long Short-Term Memory,简写BiLSTM)由前向长短记忆网络(Long Short-Term Memory,简写LSTM)和后向长短记忆网络组合而成,LSTM模型能够更好地获取文本语义长距离的依赖关系,而在其基础上,BiLSTM模型能更好地获取文本双向语义。将多个所述词向量分别输入BiLSTM模型中,经过前向LSTM和后向LSTM后,得到每个时间步输出的表示有效信息的隐藏层状态,输出带有语境上下文信息的所述上下文特征向量。
在本发明的其他实施方式中,也可采用诸如门控循环单元(Gated RecurrentUnit,简写GRU)网络等本领域常见的循环网络模型来提取上下文特征信息,本发明对此不作具体限制。
在步骤S33中,将所述上下文特征向量作为注意力机制模型的输入得到输出的所述注意力特征向量,进一步的,在本实施方式中,步骤S33具体包括:
S331:将所述上下文特征向量输入自注意力机制模型,获取包含所述文本数据的文本语义自身权重信息的第一注意力特征向量。
S332:将所述第一注意力特征向量输入互注意力机制模型,获取包含所述文本数据不同词之间的关联权重信息的第二注意力特征向量。
这里,通过自注意力机制模型将输入的所述上下文特征向量赋予其自身权重信息,得到所述第一注意力特征向量,从而获得所述语音文本数据和所述历史文本数据文本语义特征的内部权重信息。并进一步通过互注意力机制模型将输入的所述第一注意力特征向量赋予文本不同词之间的关联权重信息,得到所述第二注意力特征向量,从而获得所述语音文本数据和所述历史文本数据不同词之间的关联权重信息。最终得到的所述第二注意力特征向量,其融合了文本语义的上下文信息、词内部权重信息和不同词之间的关联权重信息,具有丰富的语义特征信息,从而能够获得到优秀的文本、语音表征能力。
在本发明的其他实施方式中,也可仅基于自注意力机制模型,或通过其他算法模型完成对所述上下文特征向量的文本特征增强。
进一步的,在本发明的一些实施方式中,步骤S3还可包括:
获取存储于外部缓存的配置数据,将所述语音文本数据和所述历史文本数据基于所述配置数据执行深度神经网络计算,获取所述实时语音数据和所述历史文本数据的上下文信息和权重信息。
这里,通过配置外部缓存提高了算法计算效率,有效解决了所述历史文本数据量较大带来的时间响应和空间计算复杂度等问题。
在本发明的其他实施方式中,可以根据需要调整深度神经网络各层的排列顺序或省略部分层,只要能够完成对所述语音文本数据和所述历史文本数据的文本分类即可,本发明对此不作具体限制。
在步骤S4中,其具体包括:
将所述注意力特征向量经全连接层组合后,输出至Softmax函数,计算所述语音文本数据和所述历史文本数据文本语义的得分及其归一化得分结果,得到分类结果信息。
在本发明的其他实施方式中,也可根据模型结构选择其他激活函数,本发明对此不做具体限制。
综上所述,本发明所提供的方法依次通过上述步骤,完成了对所获取的语音数据的识别与分类任务,并且通过获取所述历史文本数据,将所述历史文本数据作为预训练和预测模型的数据集的一部分,更全面地获取了文本语义特征信息,通过综合运用所述实时语音数据和所述历史文本数据,将所述历史文本数作为补充数据,弥补了所述语音数据文本语义信息较少的问题,有效提高了文本分类准确度。并且,通过构建融合了卷积神经网络、连接时序分类方法和注意力机制的神经网络模型提高了实时语音识别的精度;通过构建融合了上下文信息机制、自注意力机制和互注意力机制的神经网络模型,更充分地提取文本语义特征信息。整体模型结构具有优秀的深度学习表征能力,语音识别精度高,对语音文本分类的准确率高。
在步骤S5中,其具体包括:
将所述分类结果信息转换为语音进行输出,和/或
将所述分类结果信息转换为语音传输至客户终端输出,和/或
将所述分类结果信息转换为文本进行输出,和/或
将所述分类结果信息转换为文本传输至客户终端输出。
如步骤S5所述,在本实施方式中,在通过前述步骤获得所述分类结果信息后,可将其转换为语音,通过智能冰箱内置的声音播放设备播报所述分类结果信息语音,从而直接与用户进行语音交互,或者也可将所述分类结果信息转换为文本,直接通过智能冰箱配置的显示装置显示。并且,也可将所述分类结果信息语音通信传输至客户终端输出,这里,客户终端为具有信息接收功能的电子设备,如将语音传输至手机、智能音响、蓝牙耳机等设备进行播报,或将所述分类结果信息文本通过短信、邮件等方式通讯传输至诸如手机、平板电脑等客户终端或客户终端安装的应用软件,供用户查阅。从而实现多渠道多种类的分类结果信息输出方式,用户并不局限于只能在智能冰箱附近处获得相关信息,配合本发明所提供的多渠道多种类实时语音获取方式,使得用户能够直接在远程与智能冰箱进行交互,具有极高的便捷性,大幅提高了用户使用体验。在本发明的其他实施方式中,也可仅采用上述分类结果信息输出方式中的一种或几种,或者也可基于现有技术通过其他渠道输出分类结果信息,本发明对此不作具体限制。
综上所述,本发明提供的一种语音识别与分类方法,其通过多渠道获取实时语音数据,在将实时语音数据进行文本转写后,结合历史文本数据通过深度神经网络模型充分提取了文本语义特征,获得分类结果信息后通过多渠道进行输出,显著改善语音识别精度和文本分类准确率的同时,使得交互方式更加便捷多元,大幅提高用户体验。
如图6所示,基于同一发明构思,本发明还提供一种语音识别与分类装置6,其包括:
数据获取模块61,用于获取实时语音数据,和获取历史文本数据;
转写模块62,用于转写所述实时语音数据为语音文本数据;
特征提取模块63,用于提取所述实时语音数据和所述历史文本数据的文本特征;
结果计算模块64,用于将所述文本特征经全连接层组合后,输出至分类器计算得分得到分类结果信息;
输出模块65,用于输出所述分类结果信息。
基于同一发明构思,本发明还提供一种电器设备,其包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现上述的语音识别与分类方法。
基于同一发明构思,本发明还提供一种冰箱,其包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现上述的语音识别与分类方法。
基于同一发明构思,本发明还提供一种计算机可读存储介质,其存储有可执行指令,所述可执行指令被处理器执行时实现上述的语音识别与分类方法。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
Claims (18)
1.一种语音识别与分类方法,其特征在于,包括步骤:
获取实时语音数据,获取历史文本数据;
转写所述实时语音数据为语音文本数据;
提取所述实时语音数据和所述历史文本数据的文本特征;
将所述文本特征经全连接层组合后,输出至分类器计算得分得到分类结果信息;
输出所述分类结果信息。
2.根据权利要求1所述的语音识别与分类方法,其特征在于,所述转写所述实时语音数据为语音文本数据,具体包括:
提取所述实时语音数据特征,得到语音特征;
将所述语音特征输入语音识别卷积神经网络得到输出文本数据;
将所述输出文本数据序列通过连接时序分类方法与所述语音特征序列对齐;
将所述输出文本数据经全连接层组合后,输出至分类函数计算得分得到语音文本数据。
3.根据权利要求2所述的语音识别与分类方法,其特征在于,所述转写所述实时语音数据为语音文本数据,还包括步骤:
基于注意力机制,获取所述输出文本数据局部关键特征。
4.根据权利要求2所述的语音识别与分类方法,其特征在于,所述将所述语音特征向量输入语音识别卷积神经网络得到输出文本数据,具体包括:
将所述语音特征向量输入多尺寸多通道的多层语音识别卷积神经网络得到输出文本数据。
5.根据权利要求2所述的语音识别与分类方法,其特征在于,所述提取所述实时语音数据特征,具体包括:
提取所述实时语音数据特征,获取其梅尔频率倒谱系数特征。
6.根据权利要求1所述的语音识别与分类方法,其特征在于,所述提取所述实时语音数据和所述历史文本数据的文本特征,具体包括:
将所述语音文本数据和所述历史文本数据转化为词向量;
将所述词向量输入双向长短记忆网络模型,获取包含基于所述语音文本数据和所述历史文本数据上下文特征信息的上下文特征向量。
7.根据权利要求6所述的语音识别与分类方法,其特征在于,所述提取所述实时语音数据和所述历史文本数据的文本特征,还包括:
将所述上下文特征向量输入注意力机制模型,获取包含权重信息的注意力特征向量。
8.根据权利要求7所述的语音识别与分类方法,其特征在于,所述将所述上下文特征向量输入注意力机制模型,获取包含权重信息的注意力特征向量,具体包括:
将所述上下文特征向量输入自注意力机制模型,获取包含所述文本数据的文本语义自身权重信息的第一注意力特征向量;
将所述第一注意力特征向量输入互注意力机制模型,获取包含所述文本数据不同词之间的关联权重信息的第二注意力特征向量。
9.根据权利要求7所述的语音识别与分类方法,其特征在于,所述将所述文本特征经全连接层组合后,输出至分类器计算得分得到分类结果信息,具体包括:
将所述注意力特征向量经全连接层组合后,输出至Softmax函数,计算所述语音文本数据和所述历史文本数据文本语义的得分及其归一化得分结果,得到分类结果信息。
10.根据权利要求1所述的语音识别与分类方法,其特征在于,所述获取实时语音数据,具体包括:
获取语音采集装置所采集的所述实时语音数据,和/或
获取自客户终端传输的所述实时语音数据。
11.根据权利要求1所述的语音识别与分类方法,其特征在于,所述获取历史文本数据,具体包括:
获取内部存储的历史文本作为历史文本数据,和/或
获取外部存储的历史文本作为历史文本数据,和/或
获取客户终端传输的历史文本作为历史文本数据。
12.根据权利要求1所述的语音识别与分类方法,其特征在于,还包括步骤:
对所述实时语音数据进行预处理,包括:对所述实时语音数据进行分帧处理和加窗处理,
对所述历史文本数据进行预处理,包括:对所述语音文本数据进行清洗处理、标注、分词、去停用词。
13.根据权利要求1所述的语音识别与分类方法,其特征在于,所述输出所述分类结果信息包括:
将所述分类结果信息转换为语音进行输出,和/或
将所述分类结果信息转换为语音传输至客户终端输出,和/或
将所述分类结果信息转换为文本进行输出,和/或
将所述分类结果信息转换为文本传输至客户终端输出。
14.根据权利要求1所述的语音识别与分类方法,其特征在于,所述获取所述实时语音数据和所述历史文本数据的上下文信息和权重信息,具体包括:
获取存储于外部缓存的配置数据,将所述语音文本数据和所述历史文本数据基于所述配置数据执行深度神经网络计算,获取所述实时语音数据和所述历史文本数据的上下文信息和权重信息。
15.一种语音识别与分类装置,包括:
数据获取模块,用于获取实时语音数据,和获取历史文本数据;
转写模块,用于转写所述实时语音数据为语音文本数据;
特征提取模块,用于提取所述实时语音数据和所述历史文本数据的文本特征;
结果计算模块,用于将所述文本特征经全连接层组合后,输出至分类器计算得分得到分类结果信息;
输出模块,用于输出所述分类结果信息。
16.一种电器设备,包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至14任一项所述的语音识别与分类方法。
17.一种冰箱,包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至14任一项所述的语音识别与分类方法。
18.一种计算机可读存储介质,其存储有可执行指令,所述可执行指令被处理器执行时实现权利要求1至14任一项所述的语音识别与分类方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210556181.0A CN115062143A (zh) | 2022-05-20 | 2022-05-20 | 语音识别与分类方法、装置、设备、冰箱及存储介质 |
PCT/CN2023/095080 WO2023222088A1 (zh) | 2022-05-20 | 2023-05-18 | 语音识别与分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210556181.0A CN115062143A (zh) | 2022-05-20 | 2022-05-20 | 语音识别与分类方法、装置、设备、冰箱及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115062143A true CN115062143A (zh) | 2022-09-16 |
Family
ID=83199399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210556181.0A Pending CN115062143A (zh) | 2022-05-20 | 2022-05-20 | 语音识别与分类方法、装置、设备、冰箱及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115062143A (zh) |
WO (1) | WO2023222088A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116741151A (zh) * | 2023-08-14 | 2023-09-12 | 成都筑猎科技有限公司 | 一种基于呼叫中心的用户呼叫实时监测系统 |
CN116975301A (zh) * | 2023-09-22 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 文本聚类方法、装置、电子设备和计算机可读存储介质 |
WO2023222090A1 (zh) * | 2022-05-20 | 2023-11-23 | 青岛海尔电冰箱有限公司 | 基于深度学习的信息推送方法和装置 |
WO2023222089A1 (zh) * | 2022-05-20 | 2023-11-23 | 青岛海尔电冰箱有限公司 | 基于深度学习的物品分类方法和装置 |
WO2023222088A1 (zh) * | 2022-05-20 | 2023-11-23 | 青岛海尔电冰箱有限公司 | 语音识别与分类方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305641B (zh) * | 2017-06-30 | 2020-04-07 | 腾讯科技(深圳)有限公司 | 情感信息的确定方法和装置 |
US10468019B1 (en) * | 2017-10-27 | 2019-11-05 | Kadho, Inc. | System and method for automatic speech recognition using selection of speech models based on input characteristics |
CN109146066A (zh) * | 2018-11-01 | 2019-01-04 | 重庆邮电大学 | 一种基于语音情感识别的虚拟学习环境自然交互方法 |
CN109523994A (zh) * | 2018-11-13 | 2019-03-26 | 四川大学 | 一种基于胶囊神经网络的多任务语音分类方法 |
CN113053366B (zh) * | 2021-03-12 | 2023-11-21 | 中国电子科技集团公司第二十八研究所 | 一种基于多模态融合的管制话音复述一致性校验方法 |
CN113808622B (zh) * | 2021-09-17 | 2023-04-07 | 青岛大学 | 基于中文语音和文本的情感识别系统及方法 |
CN115062143A (zh) * | 2022-05-20 | 2022-09-16 | 青岛海尔电冰箱有限公司 | 语音识别与分类方法、装置、设备、冰箱及存储介质 |
-
2022
- 2022-05-20 CN CN202210556181.0A patent/CN115062143A/zh active Pending
-
2023
- 2023-05-18 WO PCT/CN2023/095080 patent/WO2023222088A1/zh unknown
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023222090A1 (zh) * | 2022-05-20 | 2023-11-23 | 青岛海尔电冰箱有限公司 | 基于深度学习的信息推送方法和装置 |
WO2023222089A1 (zh) * | 2022-05-20 | 2023-11-23 | 青岛海尔电冰箱有限公司 | 基于深度学习的物品分类方法和装置 |
WO2023222088A1 (zh) * | 2022-05-20 | 2023-11-23 | 青岛海尔电冰箱有限公司 | 语音识别与分类方法和装置 |
CN116741151A (zh) * | 2023-08-14 | 2023-09-12 | 成都筑猎科技有限公司 | 一种基于呼叫中心的用户呼叫实时监测系统 |
CN116741151B (zh) * | 2023-08-14 | 2023-11-07 | 成都筑猎科技有限公司 | 一种基于呼叫中心的用户呼叫实时监测系统 |
CN116975301A (zh) * | 2023-09-22 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 文本聚类方法、装置、电子设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023222088A1 (zh) | 2023-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020182153A1 (zh) | 基于自适应语种进行语音识别的方法及相关装置 | |
CN115062143A (zh) | 语音识别与分类方法、装置、设备、冰箱及存储介质 | |
WO2021082941A1 (zh) | 视频人物识别方法、装置、存储介质与电子设备 | |
CN111968679B (zh) | 情感识别方法、装置、电子设备及存储介质 | |
CN108428446A (zh) | 语音识别方法和装置 | |
CN104575504A (zh) | 采用声纹和语音识别进行个性化电视语音唤醒的方法 | |
CN109509470A (zh) | 语音交互方法、装置、计算机可读存储介质及终端设备 | |
WO2023222089A1 (zh) | 基于深度学习的物品分类方法和装置 | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
WO2023222090A1 (zh) | 基于深度学习的信息推送方法和装置 | |
CN110751953A (zh) | 一种用于模切机的智能语音交互系统 | |
CN115798459B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN116108176A (zh) | 基于多模态深度学习的文本分类方法、设备及存储介质 | |
CN114626424B (zh) | 一种基于数据增强的无声语音识别方法及装置 | |
CN110853669A (zh) | 音频识别方法、装置及设备 | |
CN116186258A (zh) | 基于多模态知识图谱的文本分类方法、设备及存储介质 | |
CN115985320A (zh) | 智能设备控制方法、装置、电子设备及存储介质 | |
CN115691500A (zh) | 一种基于时延神经网络的电力客服语音识别方法及装置 | |
CN113782005B (zh) | 语音识别方法及装置、存储介质及电子设备 | |
CN111833869B (zh) | 一种应用于城市大脑的语音交互方法及系统 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN112581937A (zh) | 一种语音指令的获得方法及装置 | |
CN113689863B (zh) | 一种声纹特征提取方法、装置、设备及存储介质 | |
CN116705013B (zh) | 语音唤醒词的检测方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |