CN114944156A - 基于深度学习的物品分类方法、装置、设备及存储介质 - Google Patents

基于深度学习的物品分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114944156A
CN114944156A CN202210554861.9A CN202210554861A CN114944156A CN 114944156 A CN114944156 A CN 114944156A CN 202210554861 A CN202210554861 A CN 202210554861A CN 114944156 A CN114944156 A CN 114944156A
Authority
CN
China
Prior art keywords
text
data
voice
text data
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210554861.9A
Other languages
English (en)
Inventor
曾谁飞
孔令磊
张景瑞
刘卫强
李敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Haier Refrigerator Co Ltd
Haier Smart Home Co Ltd
Original Assignee
Qingdao Haier Refrigerator Co Ltd
Haier Smart Home Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Haier Refrigerator Co Ltd, Haier Smart Home Co Ltd filed Critical Qingdao Haier Refrigerator Co Ltd
Priority to CN202210554861.9A priority Critical patent/CN114944156A/zh
Publication of CN114944156A publication Critical patent/CN114944156A/zh
Priority to PCT/CN2023/095081 priority patent/WO2023222089A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于深度学习的物品分类方法、装置、设备及存储介质,所述方法包括步骤:获取包含物品信息的实时语音数据,获取历史文本数据;转写实时语音数据为语音文本数据,提取语音文本数据文本特征;提取历史文本数据的文本特征;将实时语音数据文本特征和历史文本数据文本特征联合表示得到联合特征;将联合特征经全连接层组合后,输出至分类器计算得分得到分类结果信息,并判断得到物品类别信息;输出物品类别信息。通过综合运用语音文本数据和历史文本数据,弥补了语音数据文本语义信息较少的问题,有效提高了文本分类准确度,从而提高了对物品进行分类的准确率。

Description

基于深度学习的物品分类方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,具体地涉及一种基于深度学习的物品分类方法、装置、设备及存储介质。
背景技术
随着语音识别技术的成熟应用落地,目前针对食材内容在冰箱场景应用普遍存在如下问题或现象:食材内容分类准确率偏低,没有结合及提取食材评论中的重要性信息,导致食材推送体验不好甚至推送内容欠佳。因此,如何利用深度学习构建基于智能语音食材分类模型已成为冰箱体验提升的关键技术及解决方法。并且,智能冰箱交互离不开语音、文本、图像等多源异构数据,故如何最大化利用及其融合最有用的多模态数据特征信息,从而优化智能语音食材分类准确率进而提升冰箱使用的体验效果,目前业界尚未提出较为有效的解决方案。
发明内容
本发明的目的在于提供一种基于深度学习的物品分类方法、装置、设备及存储介质。
本发明提供一种种基于深度学习的物品分类方法,包括步骤:
获取包含物品信息的实时语音数据,获取历史文本数据;
转写所述实时语音数据为语音文本数据,提取所述语音文本数据文本特征;
提取所述历史文本数据的文本特征;
将所述实时语音数据文本特征和所述历史文本数据文本特征联合表示得到联合特征;
将所述联合特征经全连接层组合后,输出至分类器计算得分得到分类结果信息,并判断得到物品类别信息;
输出所述物品类别信息。
作为本发明的进一步改进,所述获取历史文本数据,具体包括:
获取历史食材评论文本数据作为所述历史文本数据。
作为本发明的进一步改进,所述转写所述实时语音数据为语音文本数据,提取所述语音文本数据文本特征,具体包括:
提取所述实时语音数据特征,得到语音特征;
将所述语音特征输入语音识别深度神经网络模型转写得到第一语音文本向量;
将所述第一语音文本向量输入语音识别卷积神经网络进行编码,得到第二语音文本向量。
作为本发明的进一步改进,所述提取所述实时语音数据特征,具体包括:
提取所述实时语音数据特征,获取其梅尔频率倒谱系数特征。
作为本发明的进一步改进,提取所述历史文本数据的文本特征,具体包括:
将所述历史食材评论文本数据转化为食材评论词向量;
将所述食材评论词向量输入双向长短记忆网络模型,获取包含基于所述历史食材评论文本数据上下文特征信息的食材评论上下文特征向量。
作为本发明的进一步改进,还包括步骤:
基于注意力机制模型,增强所述语音文本数据和所述历史食材评论文本数据的文本特征。
作为本发明的进一步改进,所述基于注意力机制模型,增强所述语音文本数据和历史食材评论文本数据的文本特征,具体包括:
分别将所述第二语音文本向量和所述食材评论上下文特征向量输入自注意力机制模型和互注意力机制机制模型;
获取包含所述语音文本数据自身权重信息以及所述语音文本数据与所述历史食材评论文本数据之间权重信息的语音文本注意力特征向量;
获取包含所述历史食材评论文本数据自身权重信息以及所述历史食材评论文本数上下文特征向量与所述语音文本数据之间权重信息的食材评论文本注意力特征向量。
作为本发明的进一步改进,所述将所述实时语音数据文本特征和所述历史文本数据文本特征联合表示得到联合特征向量,具体包括:
将所述语音文本注意力特征向量和所述食材评论文本注意力特征向量共同映射到一个统一多模态向量空间进行联合表示得到所述联合特征向量。
作为本发明的进一步改进,所述将所述文本特征经全连接层组合后,输出至分类器计算得分得到分类结果信息,具体包括:
将所述联合特征向量经全连接层组合后,输出至Softmax函数,计算所述语音文本数据和所述历史食材评论文本数据文本语义的得分及其归一化得分结果,得到分类结果信息。
作为本发明的进一步改进,所述获取包含物品信息的实时语音数据,具体包括:
获取语音采集装置所采集的所述实时语音数据,和/或
获取自客户终端传输的所述实时语音数据。
作为本发明的进一步改进,所述获取历史食材评论文本数据作为所述历史文本数据,具体包括:
获取内部存储的历史食材评论文本作为历史食材评论文本数据,和/或
获取外部存储的历史食材评论文本作为历史食材评论文本数据,和/或
获取客户终端传输的历史食材评论文本作为历史食材评论文本数据。
作为本发明的进一步改进,还包括步骤:
对所述实时语音数据进行预处理,包括:对所述实时语音数据进行分帧处理和加窗处理,
对所述历史文本数据进行预处理,包括:对所述语音文本数据进行清洗处理、标注、分词、去停用词。
作为本发明的进一步改进,所述输出所述物品类别信息包括:
将所述物品类别信息转换为语音进行输出,和/或
将所述物品类别信息转换为语音传输至客户终端输出,和/或
将所述物品类别信息转换为文本进行输出,和/或
将所述物品类别信息转换为文本传输至客户终端输出。
作为本发明的进一步改进,所述转写所述实时语音数据为语音文本数据,提取所述语音文本数据文本特征;提取所述历史文本数据的文本特征,还包括:
获取存储于外部缓存的配置数据,将所述所述实时语音数据和所述历史食材评论文本数据基于所述配置数据执行深度神经网络计算,进行文本转写和提取文本特征。
本发明还提供一种基于深度学习的物品分类装置,包括:
数据获取模块,用于获取实时语音数据和获取历史文本数据;
转写模块,用于转写所述实时语音数据为语音文本数据;
特征提取模块,用于提取所述语音文本数据文本特征和提取所述历史文本数据的文本特征;
联合表示模块,用于将所述实时语音数据文本特征和所述历史文本数据文本特征联合表示得到联合特征;
结果计算模块,用于将所述联合特征经全连接层组合后,输出至分类器计算得分得到分类结果信息,并判断得到物品类别信息;
输出模块,用于输出所述物品类别信息。
本发明还提供一种电器设备,包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现上述的基于深度学习的物品分类方法。
本发明还提供一种冰箱,包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现上述的基于深度学习的物品分类方法。
本发明还提供一种计算机可读存储介质,其存储有可执行指令,所述可执行指令被处理器执行时实现上述的基于深度学习的物品分类方法。
本发明的有益效果是:本发明所提供的方法完成了对所获取的语音数据的识别与分类任务,并且通过获取历史食材评论文本数据,将历史食材评论文本数据作为预训练和预测模型的数据集的一部分,更全面地获取了文本语义特征信息,通过综合运用语音文本数据和历史食材评论文本数据,将历史食材评论文本数据作为补充数据,弥补了语音数据文本语义信息较少的问题,有效提高了文本分类准确度,从而提高了对物品进行分类的准确率。并且,通过构建融合了深度神经网络和卷积神经网络的网络模型提高了实时语音识别的精度;通过构建融合了上下文信息机制、自注意力机制和互注意力机制的神经网络模型,更充分地提取文本语义特征信息。整体模型结构具有优秀的深度学习表征能力,语音识别精度高,对语音文本分类的准确率高,大幅提升了对物品类别进行分类的准确率和泛化能力。
附图说明
图1是本发明一实施方式中的基于深度学习的物品分类方法所涉及模型的结构框图。
图2是本发明一实施方式中的基于深度学习的物品分类方法步骤示意图。
图3本发明一实施方式中获取实时语音数据,获取历史文本数据步骤示意图。
图4是发明一实施方式中转写所述实时语音数据为语音文本数据,提取所述语音文本数据文本特征步骤示意图。
图5是发明一实施方式中提取所述历史文本数据的文本特征步骤示意图。
图6是本发明一实施方式中的基于深度学习的物品分类装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施方式及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施方式仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
下面详细描述本发明的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
如图1所示,为本发明所提供的一种基于深度学习的物品分类方法所涉及模型的结构框图,如图2所示,为基于深度学习的物品分类方法步骤示意图,其包括:
S1:获取包含物品信息的实时语音数据,获取历史文本数据。
S2:转写所述实时语音数据为语音文本数据,提取所述语音文本数据文本特征。
S3:提取所述历史文本数据的文本特征。
S4:将所述实时语音数据文本特征和所述历史文本数据文本特征联合表示得到联合特征。
S5:将所述联合特征经全连接层组合后,输出至分类器计算得分得到分类结果信息。
S6:输出所述物品类别信息。
本发明提供的方法可供智能电子设备基于用户的实时语音输入,来实现与用户之间的实时交互或消息推送等功能。示例性的,在本实施方式中,以智能冰箱为例,并结合预先训练好的深度学习模型对本方法进行说明。基于用户的语音输入,智能冰箱对用户语音所对应的文本内容进行分类,从而对语音所涉及的物品类别进行判断,并根据物品分类结果推送相关分类信息。进一步的,在本实施方式中,以对智能冰箱内的食材分类为例进行说明,在其他实施方式中,本发明所提供的方法也可应用于针对其他需要存放于冰箱内的物品如药品、化妆品等进行分类。
如图3所示,在步骤S1中,其具体包括:
S11:获取语音采集装置所采集的所述实时语音数据,和/或
获取自客户终端传输的所述实时语音数据。
S12:获取内部存储的历史食材评论文本作为历史食材评论文本数据,和/或
获取外部存储的历史食材评论文本作为历史食材评论文本数据,和/或
获取客户终端传输的历史食材评论文本作为历史食材评论文本数据。
这里所述的实时语音指的是用户当前对智能电子设备或对与智能电子设备通信连接的客户终端设备等说出的询问性或指令性语句等。如在本实施方式中,所述实时语音为包含存放于智能冰箱内物品的类别等相关信息的语句,用户可提出诸如“今天冰箱里有啥蔬菜”、“今天冰箱里牛肉食材有哪些”等问题,或用户可发出诸如“提醒冰箱里剩余饮料的种类”等命令指令。基于上述信息,智能冰箱的处理器通过本发明所提供的方法对相关物品类别进行判断后,与用户进行实时语音交互或推送相关信息。
具体的,在本实施方式中,获取历史文本数据包括:
获取历史食材评论文本数据作为所述历史文本数据。
这里所述的历史食材评论文本数据指的是以往使用过程中用户对食材进行的评论所转写的文本,如“今天放进去的辣椒很辣”“昨天放入的某种品牌的酸奶很好喝”等,进一步的,其还可包括用户直接自行输入的相关食材评论文本数据等。所述历史食材评论文本通常会包含用户感兴趣的物品信息,选择其作为所述历史文本数据,能够有效对物品类别等信息做出有效补充。
在本发明的其他实施方式中,也可获取诸如以往用户提问或发出指令后,相关问题和指令所转写成的文本、或以往使用过程中用户依据放入的物品发出的说明性语音所转写的文本等其他历史文本数据,具体在此不再赘述。
如步骤S11所述,在本实施方式中,可通过设置于智能冰箱内的拾音器、麦克风阵列等语音采集装置采集用户实时语音,在使用过程中,当用户需要与智能冰箱进行交互时,直接对智能冰箱发出语音即可。并且,也可通过与智能冰箱基于无线通信协议连接的客户终端获取传输而来的用户实时语音,客户终端为具有信息发送功能的电子设备,如手机、平板电脑、智能音响、智能手环或蓝牙耳机等智能电子设备,在使用过程中,用户直接对客户终端发出语音,客户终端采集语音后通过wifi或蓝牙等无线通信方式传输至智能冰箱。从而实现多渠道的实时语音获取方式,并不局限于必须面向智能冰箱发出语音。当用户有交互需求时,通过任意便捷渠道发出实时语音即可,从而能够显著提高用户的使用便捷度。在本发明的其他实施方式中,也可采用上述实时语音获取方法中一种或任意多种,或者也可基于现有技术通过其他渠道获取所述实时语音,本发明对此不作具体限制。
如步骤S12所述,在本实施方式中,可通过读取智能冰箱的内部存储器所存储的历史食材评论文本来获取所述历史食材评论文本数据。并且,也可通过读取智能冰箱配置的外部存储装置所存储的历史食材评论文本来获取所述历史食材评论文本数据,外部存储装置为诸如U盘、SD卡等移动存储设备,通过设置外部存储装置可进一步拓展智能冰箱的存储空间。并且,也可通过获取存储在诸如手机、平板电脑等客户终端或应用软件服务器端等处的所述历史食材评论文本数据。实现多渠道的历史文本获取渠道,能够大幅提高历史文本信息的数据量,从而提高后续语音识别的准确度。在本发明的其他实施方式中,也可采用上述历史食材评论文本数据获取方法中的一种或任意多种,或者也可基于现有技术通过其他渠道获取所述历史食材评论文本数据,本发明对此不作具体限制。
进一步的,在本实施方式中,智能冰箱配置有外部缓存,至少有部分所述历史食材评论文本数据被储存在所述外部缓存中,随着使用时间增加,历史食材评论文本数据增多,通过将部分数据存储在外部缓存中,能够节省智能冰箱内部存储空间,并且在进行神经网络计算时,直接读取存储于外部缓存中的所述历史食材评论文本数据,能够提高算法效率。
具体的,在本实施方式中,采用Redis组件作为所述外部缓存,Redis组件为当前一种使用较为广泛的key/value存储结构的分布式缓存系统,其可用作数据库,高速缓存和消息队列代理。在本发明的其他实施方式中也可采用诸如Memcached等其他外部缓存,本发明对此不作具体限制。
综上所述,在步骤S11和步骤S12中,能够通过多渠道灵活获取包含物品信息的实时语音数据和历史食材评论文本数据,在提升了用户体验的同时,保证了数据量,并有效提升了算法效率。
进一步的,步骤S1还包括对数据进行预处理的步骤,其包括:
S13:对所述实时语音数据进行预处理,包括:对所述实时语音数据进行分帧处理和加窗处理。
S14:对所述历史文本数据进行预处理,包括:对所述语音文本数据进行清洗处理、标注、分词、去停用词。
具体的,在步骤S13中,将语音根据指定的长度(时间段或者采样数)进行分段,结构化为可编程的数据结构,完成对语音的分帧处理得到语音信号数据。接着,将语音信号数据与一个窗函数相乘,使原本没有周期性的语音信号呈现出周期函数的部分特征,完成加窗处理。进一步的,还可在分帧处理之前进行预加重处理,对语音的高频部分进行加重,以消除发声过程中口唇辐射的影响,从而补偿语音信号受到发音系统所压抑的高频部分,并能突显高频的共振峰。并且,在加窗处理之后还可进行过滤音频噪音点处理和增强人声处理等步骤,从而完成对所述实时语音数据的加强,提取得到所述实时语音的特征参数,使所述实时语音数据符合后续神经网络模型的输入要求。
具体的,在步骤S14中,删除历史食材评论文本数据集中的无关数据、重复数据以及处理异常值和缺失值数据等,初步筛选掉与分类无关的信息,对所述历史食材评论文本数据进行清洗处理。接着,基于规则统计的方法等对所述历史食材评论文本数据进行类别标签标注,以及基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法等对所述历史食材评论文本数据进行分词处理。之后,去除停用词,完成对所述历史食材评论文本数据的预处理,从而使所述历史食材评论文本数据符合后续神经网络模型的输入要求。
在步骤S13和步骤S14中,对所述实时语音数据和所述历史食材评论文本数据预处理所采用的的具体算法可参考当前本领域现有技术,具体在此不再赘述。
如图4所示,在步骤S2中,其具体包括步骤:
S21:提取所述实时语音数据特征,得到语音特征。
S22:将所述语音特征输入语音识别深度神经网络模型转写得到第一语音文本向量。
S23:将所述第一语音文本向量输入语音识别卷积神经网络进行编码,得到第二语音文本向量。
在步骤S21中,提取所述实时语音数据特征具体包括:
提取所述实时语音数据特征,获取其梅尔频率倒谱系数特征(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。MFCC是一种语音信号中具有辨识性的成分,是在Mel标度频率域提取出来的倒谱参数,其中,Mel标度描述了人耳频率的非线性特性,MFCC的参数考虑到了人耳对不同频率的感受程度,特别适用于语音辨别和语者辨识。
示例性的,步骤S21可包括:
将预处理后的所述实时语音数据经过快速傅里叶变换后得到各帧实时语音数据信号的能量谱,并将能量谱通过一组Mel尺度的三角形滤波器组来对频谱进行平滑化,消除谐波的作用,突显实时语音的共振峰,之后在进一步通过对数运算和离散余弦变换后得到MFCC系数特征。
在本发明的其他实施方式中,也可通过不同算法步骤获取所述实时语音数据的感知线性预测特征(Perceptual Linear Predictive,简称PLP)或线性预测系数特征(LinearPredictive Coding,简称LPC)等特征参数来取代MFCC特征,具体可基于实际模型参数和本方法实际应用的领域而进行具体选择,本发明对此不做具体限制。
上述步骤中所涉及的具体的算法步骤可参考当前本领域现有技术,具体在此不再赘述。
在步骤S22中,通过预先训练的所述语音识别深度神经网络完成对所述实时语音数据的文本内容转写,得到所述第一语音文本向量。
在本实施方式中,直接通过深度神经网络模型来完成语音识别,相比于现有技术中常用的高斯混合模型等模型,深度神经网络模型避免了声学特征需要服从独立同分布的假设,与高斯混合模型中的网络输入不同,深度神经网络模型由相邻的若干帧拼接重叠得到,从而能够更好地利用上下文的信息,获取更多语音特征信息,具有更高的语音识别精度。
进一步的,在本实施方式中,步骤S21所涉及算法步骤可以结合在所述深度神经网络模型中,以使整体模型结构更加均衡。
在得到所述第一语音文本向量后,通过语音识别卷积神经网络对其进行编码,由于卷积神经网络在时间和空间上具有平移不变性,所以基于CNN对语音识别的声学特征进行建模,能够消除语音信号的多样性,完成对其的编码工作,最终得到的所述第二语音文本向量包含实时语音数据的高层特征语义信息。
在本发明的其他实施方式中,也可通过构建其他结构神经网络模型或者通过高斯混合模型等模型等来将所述实时语音数据转写为所述语音文本数据,只要能够将所述实时语音数据转写为所述语音文本数据即可。
综上所述,通过步骤S2完成了对所述实时语音数据的文本转写及特征提取。
如图5所示,在步骤S3中,其具体包括:
S31:将所述历史食材评论文本数据转化为食材评论词向量。
S32:将所述食材评论词向量输入双向长短记忆网络模型,获取包含基于所述历史食材评论文本数据上下文特征信息的食材评论上下文特征向量。
在步骤S31中,为了将文本数据转化为计算机能够识别和处理的向量化形式,可通过Word2Vec算法,将所述历史食材评论文本数据转化为所述食材评论词向量,或者也可通过其他诸如Glove算法等本领域现有算法转化得到所述词向量,本发明对此不做具体限制。
在步骤S32中,双向长短记忆网络(Bi-directional Long Short-Term Memory,简写BiLSTM)由前向长短记忆网络(Long Short-Term Memory,简写LSTM)和后向长短记忆网络组合而成,LSTM模型能够更好地获取文本语义长距离的依赖关系,而在其基础上,BiLSTM模型能更好地获取文本双向语义。将多个所述食材评论词向量分别输入BiLSTM模型中,经过前向LSTM和后向LSTM后,得到每个时间步输出的表示有效信息的隐藏层状态,输出带有语境上下文信息的所述食材评论上下文特征向量。
在本发明的其他实施方式中,也可采用诸如门控循环单元(Gated RecurrentUnit,简写GRU)网络等本领域常见的循环网络模型来提取上下文特征信息,本发明对此不作具体限制。
在本发明的另一些实施方式中,也可在步骤S3中增加步骤:
S33:将所述第二语音文本向量输入语音识别双向长短记忆网络模型,获取包含基于所述语音文本数据上下文特征信息的语音文本上下文特征向量。
从而进一步增加所述语音文本数据的上下文特征信息,但基于整体模型结构考虑,在本实施方式中,不增加语音识别双向长短记忆网络模型,从而使得整体模型结构更加对称和均衡,本领域技术人员可依据实际模型结构对模型层数进行具体调整,本发明对此不做具体限制。
从而,通过步骤S2和S3分别完成了对所述语音文本数据和所述历史食材评论文本数据的特征提取,分别得到了不同的语义特征信息并进而提取了有用的文本信息,提升了物品分类的准确性,避免有用信息的丢失或过滤,提升了模型的性能。
进一步的,在本发明一些实施方式中,在步骤S3之后,还包括步骤:
S3a:基于注意力机制模型,增强所述语音文本数据和所述历史食材评论文本数据的文本特征。
具体的,步骤S3a包括:
分别将所述第二语音文本向量和所述食材评论上下文特征向量输入自注意力机制模型和互注意力机制机制模型;
获取包含所述语音文本数据自身权重信息以及所述语音文本数据与所述历史食材评论文本数据之间权重信息的语音文本注意力特征向量;
获取包含所述历史食材评论文本数据自身权重信息以及所述历史食材评论文本数上下文特征向量与所述语音文本数据之间权重信息的食材评论文本注意力特征向量。
注意力机制可以引导神经网络去关注更为关键的信息而抑制其他非关键的信息,因此,通过引入注意力机制,能够得到所述输出文本数据的局部关键特征或权重信息,从而进一步减少模型训练时序列的不规则误差对齐现象。
这里,通过自注意力机制模型将输入的所述第二语音文本向量和所述食材评论上下文特征向量赋予其自身权重信息,从而获得所述语音文本数据和所述历史食材评论文本数据文本语义特征的内部权重信息。并进一步通过互注意力机制模型将输入的所述第二语音文本向量和所述食材评论上下文特征向量赋予其相互之间的关联权重信息,从而获得所述语音文本数据和所述历史食材评论文本数据之间的关联权重信息。最终得到的所述语音文本注意力特征向量和所述食材评论文本注意力特征向量,从而增强文本语义特征信息不同部分的重要性,使得模型的可解释性进一步优化。
在本发明的其他实施方式中,也可仅基于自注意力机制模型,或通过其他算法模型完成对所述语音文本数据和所述历史食材评论文本数据的文本特征增强。
进一步的,在本发明的一些实施方式中,步骤S2、S3、S3a还可包括:
获取存储于外部缓存的配置数据,将所述语音文本数据和所述历史食材评论文本数据基于所述配置数据执行深度神经网络计算,进行文本转写和提取所述语音文本数据和所述历史食材评论文本数据的文本特征。
这里,通过配置外部缓存提高了算法计算效率,有效解决了所述历史食材评论文本数据量较大带来的时间响应和空间计算复杂度等问题。
在本发明的其他实施方式中,可以根据需要调整深度神经网络各层的排列顺序或省略部分层,只要能够完成对所述语音文本数据和所述历史食材评论文本数据的文本分类即可,本发明对此不作具体限制。
在步骤S4中,其具体包括:
将所述语音文本注意力特征向量和所述食材评论文本注意力特征向量共同映射到一个统一多模态向量空间进行联合表示得到所述联合特征向量,多模态联合的所述联合特征向量融合了文本语义的上下文信息、特征有用信息、高层特征、有用特征的不同重要性等最优表征能力,具有丰富的语义特征信息,从而能够获得到优秀的文本、语音表征能力。
需要说明的是,在目前的神经网络模型中,多模态的联合特征表示和多模态融合之间已经没有明确的界限,因此,在本发明的一些实施方式中,步骤S4也可为:将所述语音文本注意力特征向量和所述食材评论文本注意力特征向量融合表示得到融合特征向量。多模态联合特征表示以及多模态融合均是为了将所述实时语音数据和所述历史食材评论文本组合,更好地提取和表示两者的特征信息。
在步骤S5中,其具体包括:
将所述注意力特征向量经全连接层组合后,输出至Softmax函数,计算所述语音文本数据和所述历史食材评论文本数据文本语义的得分及其归一化得分结果,得到分类结果信息。
在本发明的其他实施方式中,也可根据模型结构选择其他激活函数,本发明对此不做具体限制。
综上所述,本发明所提供的方法依次通过上述步骤,完成了对所获取的语音数据的识别与分类任务,并且通过获取历史食材评论文本数据,将历史食材评论文本数据作为预训练和预测模型的数据集的一部分,更全面地获取了文本语义特征信息,通过综合运用语音文本数据和历史食材评论文本数据,将历史食材评论文本数据作为补充数据,弥补了语音数据文本语义信息较少的问题,有效提高了文本分类准确度,从而提高了对物品进行分类的准确率。并且,通过构建融合了深度神经网络和卷积神经网络的网络模型提高了实时语音识别的精度;通过构建融合了上下文信息机制、自注意力机制和互注意力机制的神经网络模型,更充分地提取文本语义特征信息。整体模型结构具有优秀的深度学习表征能力,对语音文本分类的准确率高,大幅提升了对物品类别进行分类的准确率和泛化能力。
在步骤S6中,其具体包括:
将所述物品类别信息转换为语音进行输出,和/或
将所述物品类别信息转换为语音传输至客户终端输出,和/或
将所述物品类别信息转换为文本进行输出,和/或
将所述物品类别信息转换为文本传输至客户终端输出。
如步骤S6所述,在本实施方式中,在通过前述步骤获得分类结果信息并判断得到物品类别信息后,可将其转换为语音,通过智能冰箱内置的声音播放设备播报所述物品类别信息,从而直接与用户进行语音交互,或者也可将所述物品类别信息转换为文本,直接通过智能冰箱配置的显示装置显示。并且,也可将物品类别信息语音通信传输至客户终端输出,这里,客户终端为具有信息接收功能的电子设备,如将语音传输至手机、智能音响、蓝牙耳机等设备进行播报,或将分类结果信息文本通过短信、邮件等方式通讯传输至诸如手机、平板电脑等客户终端或客户终端安装的应用软件,供用户查阅。从而实现多渠道多种类的分类结果信息输出方式,用户并不局限于只能在智能冰箱附近处获得相关信息,配合本发明所提供的多渠道多种类实时语音获取方式,使得用户能够直接在远程与智能冰箱进行交互,具有极高的便捷性,大幅提高了用户使用体验。在本发明的其他实施方式中,也可仅采用上述分类结果信息输出方式中的一种或几种,或者也可基于现有技术通过其他渠道输出分类结果信息,本发明对此不作具体限制。
综上所述,本发明提供的一种基于深度学习的物品分类方法,其通过多渠道获取包含物品信息的实时语音数据,在将实时语音数据进行文本转写后,结合历史食材评论文本数据通过深度神经网络模型充分提取了文本语义特征,获得物品类别信息后通过多渠道进行输出,显著改善语音识别精度和物品类别判断准确率的同时,使得交互方式更加便捷多元,大幅提高用户体验。
如图6所示,基于同一发明构思,本发明还提供一种基于深度学习的物品分类装置7,其包括:
数据获取模块71,用于获取实时语音数据和获取历史文本数据;
转写模块72,用于转写所述实时语音数据为语音文本数据;
特征提取模块73,用于提取所述语音文本数据文本特征和提取所述历史文本数据的文本特征;
联合表示模块74,用于将所述实时语音数据文本特征和所述历史文本数据文本特征联合表示得到联合特征;
结果计算模块75,用于将所述联合特征经全连接层组合后,输出至分类器计算得分得到分类结果信息,并判断得到物品类别信息;
输出模块76,用于输出所述物品类别信息。
基于同一发明构思,本发明还提供一种电器设备,其包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现上述的基于深度学习的物品分类方法。
基于同一发明构思,本发明还提供一种冰箱,其包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现上述的基于深度学习的物品分类方法。
基于同一发明构思,本发明还提供一种计算机可读存储介质,其存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现上述的基于深度学习的物品分类方法。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (18)

1.一种基于深度学习的物品分类方法,其特征在于,包括步骤:
获取包含物品信息的实时语音数据,获取历史文本数据;
转写所述实时语音数据为语音文本数据,提取所述语音文本数据文本特征;
提取所述历史文本数据的文本特征;
将所述实时语音数据文本特征和所述历史文本数据文本特征联合表示得到联合特征;
将所述联合特征经全连接层组合后,输出至分类器计算得分得到分类结果信息,并判断得到物品类别信息;
输出所述物品类别信息。
2.根据权利要求1所述的基于深度学习的物品分类方法,其特征在于,所述获取历史文本数据,具体包括:
获取历史食材评论文本数据作为所述历史文本数据。
3.根据权利要求1所述的基于深度学习的物品分类方法,其特征在于,所述转写所述实时语音数据为语音文本数据,提取所述语音文本数据文本特征,具体包括:
提取所述实时语音数据特征,得到语音特征;
将所述语音特征输入语音识别深度神经网络模型转写得到第一语音文本向量;
将所述第一语音文本向量输入语音识别卷积神经网络进行编码,得到第二语音文本向量。
4.根据权利要求3所述的基于深度学习的物品分类方法,其特征在于,所述提取所述实时语音数据特征,具体包括:
提取所述实时语音数据特征,获取其梅尔频率倒谱系数特征。
5.根据权利要求3所述的基于深度学习的物品分类方法,其特征在于,提取所述历史文本数据的文本特征,具体包括:
将所述历史食材评论文本数据转化为食材评论词向量;
将所述食材评论词向量输入双向长短记忆网络模型,获取包含基于所述历史食材评论文本数据上下文特征信息的食材评论上下文特征向量。
6.根据权利要求5所述的基于深度学习的物品分类方法,其特征在于,还包括步骤:
基于注意力机制模型,增强所述语音文本数据和所述历史食材评论文本数据的文本特征。
7.根据权利要求6所述的基于深度学习的物品分类方法,其特征在于,所述基于注意力机制模型,增强所述语音文本数据和历史食材评论文本数据的文本特征,具体包括:
分别将所述第二语音文本向量和所述食材评论上下文特征向量输入自注意力机制模型和互注意力机制机制模型;
获取包含所述语音文本数据自身权重信息以及所述语音文本数据与所述历史食材评论文本数据之间权重信息的语音文本注意力特征向量;
获取包含所述历史食材评论文本数据自身权重信息以及所述历史食材评论文本数上下文特征向量与所述语音文本数据之间权重信息的食材评论文本注意力特征向量。
8.根据权利要求7所述的基于深度学习的物品分类方法,其特征在于,所述将所述实时语音数据文本特征和所述历史文本数据文本特征联合表示得到联合特征向量,具体包括:
将所述语音文本注意力特征向量和所述食材评论文本注意力特征向量共同映射到一个统一多模态向量空间进行联合表示得到所述联合特征向量。
9.根据权利要求7所述的基于深度学习的物品分类方法,其特征在于,所述将所述文本特征经全连接层组合后,输出至分类器计算得分得到分类结果信息,具体包括:
将所述联合特征向量经全连接层组合后,输出至Softmax函数,计算所述语音文本数据和所述历史食材评论文本数据文本语义的得分及其归一化得分结果,得到分类结果信息。
10.根据权利要求1所述的基于深度学习的物品分类方法,其特征在于,所述获取包含物品信息的实时语音数据,具体包括:
获取语音采集装置所采集的所述实时语音数据,和/或
获取自客户终端传输的所述实时语音数据。
11.根据权利要求2所述的基于深度学习的物品分类方法,其特征在于,所述获取历史食材评论文本数据作为所述历史文本数据,具体包括:
获取内部存储的历史食材评论文本作为历史食材评论文本数据,和/或
获取外部存储的历史食材评论文本作为历史食材评论文本数据,和/或
获取客户终端传输的历史食材评论文本作为历史食材评论文本数据。
12.根据权利要求1所述的基于深度学习的物品分类方法,其特征在于,还包括步骤:
对所述实时语音数据进行预处理,包括:对所述实时语音数据进行分帧处理和加窗处理,
对所述历史文本数据进行预处理,包括:对所述语音文本数据进行清洗处理、标注、分词、去停用词。
13.根据权利要求1所述的基于深度学习的物品分类方法,其特征在于,所述输出所述物品类别信息包括:
将所述物品类别信息转换为语音进行输出,和/或
将所述物品类别信息转换为语音传输至客户终端输出,和/或
将所述物品类别信息转换为文本进行输出,和/或
将所述物品类别信息转换为文本传输至客户终端输出。
14.根据权利要求1所述的基于深度学习的物品分类方法,其特征在于,所述转写所述实时语音数据为语音文本数据,提取所述语音文本数据文本特征;提取所述历史文本数据的文本特征,还包括:
获取存储于外部缓存的配置数据,将所述所述实时语音数据和所述历史食材评论文本数据基于所述配置数据执行深度神经网络计算,进行文本转写和提取文本特征。
15.一种基于深度学习的物品分类装置,其特征在于,包括:
数据获取模块,用于获取实时语音数据和获取历史文本数据;
转写模块,用于转写所述实时语音数据为语音文本数据;
特征提取模块,用于提取所述语音文本数据文本特征和提取所述历史文本数据的文本特征;
联合表示模块,用于将所述实时语音数据文本特征和所述历史文本数据文本特征联合表示得到联合特征;
结果计算模块,用于将所述联合特征经全连接层组合后,输出至分类器计算得分得到分类结果信息,并判断得到物品类别信息;
输出模块,用于输出所述物品类别信息。
16.一种电器设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至14任一项所述的基于深度学习的物品分类方法。
17.一种冰箱,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至14任一项所述的基于深度学习的物品分类方法。
18.一种计算机可读存储介质,其存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至14任一项所述的基于深度学习的物品分类方法。
CN202210554861.9A 2022-05-20 2022-05-20 基于深度学习的物品分类方法、装置、设备及存储介质 Pending CN114944156A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210554861.9A CN114944156A (zh) 2022-05-20 2022-05-20 基于深度学习的物品分类方法、装置、设备及存储介质
PCT/CN2023/095081 WO2023222089A1 (zh) 2022-05-20 2023-05-18 基于深度学习的物品分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210554861.9A CN114944156A (zh) 2022-05-20 2022-05-20 基于深度学习的物品分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114944156A true CN114944156A (zh) 2022-08-26

Family

ID=82908762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210554861.9A Pending CN114944156A (zh) 2022-05-20 2022-05-20 基于深度学习的物品分类方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN114944156A (zh)
WO (1) WO2023222089A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023222089A1 (zh) * 2022-05-20 2023-11-23 青岛海尔电冰箱有限公司 基于深度学习的物品分类方法和装置
WO2023222090A1 (zh) * 2022-05-20 2023-11-23 青岛海尔电冰箱有限公司 基于深度学习的信息推送方法和装置
CN117475199A (zh) * 2023-10-16 2024-01-30 深圳市泰洲科技有限公司 一种海关报关商品智能归类方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2628431C1 (ru) * 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Подбор параметров текстового классификатора на основе семантических признаков
US10896385B2 (en) * 2017-07-27 2021-01-19 Logmein, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
CN107993134A (zh) * 2018-01-23 2018-05-04 北京知行信科技有限公司 一种基于用户兴趣的智能购物交互方法及系统
CN113111954B (zh) * 2021-04-20 2022-10-11 网易(杭州)网络有限公司 一种用户类别判定方法、装置、存储介质及服务器
CN113887410A (zh) * 2021-09-30 2022-01-04 杭州电子科技大学 一种基于深度学习的多类别食材识别系统及方法
CN114121018A (zh) * 2021-12-06 2022-03-01 中国科学技术大学 语音文档分类方法、系统、设备及存储介质
CN114944156A (zh) * 2022-05-20 2022-08-26 青岛海尔电冰箱有限公司 基于深度学习的物品分类方法、装置、设备及存储介质
CN115062143A (zh) * 2022-05-20 2022-09-16 青岛海尔电冰箱有限公司 语音识别与分类方法、装置、设备、冰箱及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023222089A1 (zh) * 2022-05-20 2023-11-23 青岛海尔电冰箱有限公司 基于深度学习的物品分类方法和装置
WO2023222090A1 (zh) * 2022-05-20 2023-11-23 青岛海尔电冰箱有限公司 基于深度学习的信息推送方法和装置
CN117475199A (zh) * 2023-10-16 2024-01-30 深圳市泰洲科技有限公司 一种海关报关商品智能归类方法

Also Published As

Publication number Publication date
WO2023222089A1 (zh) 2023-11-23

Similar Documents

Publication Publication Date Title
WO2020182153A1 (zh) 基于自适应语种进行语音识别的方法及相关装置
CN110853618B (zh) 一种语种识别的方法、模型训练的方法、装置及设备
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
CN111968679B (zh) 情感识别方法、装置、电子设备及存储介质
CN114944156A (zh) 基于深度学习的物品分类方法、装置、设备及存储介质
CN115062143A (zh) 语音识别与分类方法、装置、设备、冰箱及存储介质
CN113408385A (zh) 一种音视频多模态情感分类方法及系统
CN112259089B (zh) 语音识别方法及装置
CN107644643A (zh) 一种语音交互系统及方法
CN113421547B (zh) 一种语音处理方法及相关设备
CN114242113B (zh) 语音检测方法、训练方法、装置和电子设备
CN113129867A (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
WO2023222090A1 (zh) 基于深度学习的信息推送方法和装置
CN111798846A (zh) 语音命令词识别方法、装置、会议终端及会议终端系统
CN114550702A (zh) 一种语音识别方法和装置
CN115798459B (zh) 音频处理方法、装置、存储介质及电子设备
CN116108176A (zh) 基于多模态深度学习的文本分类方法、设备及存储介质
CN116186258A (zh) 基于多模态知识图谱的文本分类方法、设备及存储介质
CN116070020A (zh) 基于知识图谱的食材推荐方法、设备及存储介质
US20230015112A1 (en) Method and apparatus for processing speech, electronic device and storage medium
CN113782005B (zh) 语音识别方法及装置、存储介质及电子设备
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
WO2024140430A1 (zh) 基于多模态深度学习的文本分类方法、设备及存储介质
WO2024140434A1 (zh) 基于多模态知识图谱的文本分类方法、设备及存储介质
Sartiukova et al. Remote Voice Control of Computer Based on Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination