CN116186258A

CN116186258A - 基于多模态知识图谱的文本分类方法、设备及存储介质

Info

Publication number: CN116186258A
Application number: CN202211736562.3A
Authority: CN
Inventors: 曾谁飞; 孔令磊; 张景瑞; 李敏; 刘卫强
Original assignee: Qingdao Haier Refrigerator Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Refrigerator Co Ltd; Haier Smart Home Co Ltd
Priority date: 2022-12-31
Filing date: 2022-12-31
Publication date: 2023-05-30
Also published as: WO2024140434A1

Abstract

本发明公开了一种基于多模态知识图谱的文本分类方法，包括以下步骤：获取实时音视频数据、实时和历史文本数据；对所述实时音视频数据进行预处理，获取实时语音和实时视频数据；转写实时语音数据为语音文本数据并提取其文本特征；转写所述实时视频数据为图像文本数据并提取其文本特征；提取所述实时和历史文本数据的实体特征；根据所述实时语音数据文本特征、实时视频数据文本特征和实体特征，获取该文本数据的上下文信息和文本语义特征的权重信息；将所述上下文信息和权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息并输出。该方法有效的提高了文本分类的准确率和泛化能力，提升用户的体验效果。

Description

基于多模态知识图谱的文本分类方法、设备及存储介质

技术领域

本发明涉及计算机技术领域，具体地涉及一种基于多模态知识图谱的文本分类方法、设备及存储介质。

背景技术

目前，文本分类算法没有充分利用语音、视频和用户对食材的偏好、喜爱和评论数据等多模态数据的语义信息表示能力，导致文本分类效果不佳。而且，这些文本数据都是基于传统机器学习方法或机器学习与神经网络浅层特征信息相结合方法，这些方法容易出现泛化、数据理解能力不足、构建模型的鲁棒性较弱，进而影响文本分类能力不足。

因此，如何借助知识图谱构建多模态的文本分类方法成为文本分类准确率提高的关键技术。而智能冰箱交互离不开实时语音、视频和实时文本以及历史文本等多源异构数据，故针对所述多源异构数据如何基于多模态或跨模态数据实现最优的特征信息提取和文本分类，从而优化智能冰箱文本分类准确率，进而提升冰箱使用的体验效果。

发明内容

本发明的目的在于提供一种基于多模态知识图谱的文本分类方法、设备及存储介质。

本发明提供种基于多模态知识图谱的生成文本分类方法，包括步骤：

获取实时音视频数据，获取实时和历史文本数据；对所述实时音视频数据进行预处理，获取实时语音数据和实时视频数据；转写所述实时语音数据为语音文本数据，提取所述语音文本数据的文本特征；转写所述实时视频数据为图像文本数据，提取所述图像文本数据的文本特征；提取所述实时和历史文本数据的实体特征；根据所述实时语音数据文本特征、实时视频数据文本特征和实体特征，获取该文本数据的上下文信息和文本语义特征的权重信息；将所述上下文信息和权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息；输出所述分类结果信息。

作为本发明的进一步改进，所述“对所述实时音视频数据进行预处理，获取实时语音数据和视频数据”，具体包括：对所述实时音视频数据进行数据清洗、格式解析、格式转换和数据存储，获得有效的音视频数据；采用脚本或第三方工具将所述有效音视频数据进行语音和视频分离，以获得所述实时语音数据和实时视频数据；对所述实时语音数据和视频数据进行预处理，包括：对所述实时语音数据进行分帧和加窗处理，对所述实时视频数据进行裁剪、分帧处理；对所述实时和历史文本数据进行预处理，包括：分词、去除停用词、去重复词。

作为本发明的进一步改进，所述“转写所述实时语音数据为语音文本数据”，具体包括：提取所述实时语音数据特征，得到语音特征；将所述语音特征输入语音识别多通道多尺寸深度卷积神经网络模型转写得到第一语音文本数据；基于连接时序分类方法输出所述语音特征和所述第一语音文本数据的对齐关系，以得到第二语音文本数据；基于注意力机制，获取所述第二语音文本数据的关键特征或所述关键特征的权重信息；将所述第二语音文本数据以及其关键特征或关键特征的权重信息经全连接层组合后，再经过分类函数计算得分得到所述语音文本数据。

作为本发明的进一步改进，所述“提取所述有效语音数据特征”，具体包括：提取所述有效语音数据特征，获取其梅尔频率倒谱系数特征。

作为本发明的进一步改进，所述“转写所述实时视频数据为图像文本数据”，具体包括：将所述实时视频数据输入3D深度卷积神经网络计算，得到图像特征；将所述图像特征输入多通道多尺寸时间卷积网络转写，获得第一图像文本数据；基于连接时序分类方法输出所述图像特征和所述第一图像文本数据的对齐关系，以得到第二图像文本数据；将所述第二图像文本数据经全连接层组合后，再经过分类函数计算得分得到所述图像文本数据。

作为本发明的进一步改进，所述“提取所述实时和历史文本数据的实体特征”，具体包括：采用实体链接方法对所述文本数据进行实体抽取，以得到多个食材实体；基于每个食材实体查询食材知识图谱，获得对应的实体向量表示；将所述实体向量表示输入多头注意力机制计算，得到实体特征向量。

作为本发明的进一步改进，所述“基于每个食材实体查询食材知识图谱，获得对应的实体向量表示”，具体包括：采用实体三元组形式将所述实体转换为对应的实体向量表示；采用神经网络的分布式向量表示方法来实现所述实体向量表示。

作为本发明的进一步改进，所述“根据所述实时语音数据文本特征、实时视频数据文本特征和实体特征，获取该文本数据的上下文信息和文本语义特征的权重信息”，具体包括：将所述实时语音文本特征和实时视频文本特征转换为语音文本词向量和图像文本词向量；将所述语音文本词向量、图像文本词向量和实体特征输入双向长短记忆网络模型，获取包含所述语音文本特征、图像文本特征和实时以及历史文本特征信息的上下文特征向量。

作为本发明的进一步改进，基于注意力机制，区分所述语音文本数据、图像文本数据和实时以及历史文本数据的文本特征中的词、词语的自身权重信息和/或关联权重信息，获得所述文本语义特征的权重信息。

作为本发明的进一步改进，所述“基于注意力机制，区分所述语音文本数据、图像文本数据和实时以及历史文本数据的文本特征中的词、词语的自身权重信息和或关联权重信息”，具体包括：分别将所述语音文本上下文特征向量、图像文本上下文特征向量和实时以及历史文本实体特征向量输入多头注意力机制；获取包含所述语音文本语义特征、图像文本语义特征和实时以及历史文本语义特征自身权重信息的自身权重文本注意力特征向量；获取包含所述语音文本语义特征、图像文本语义特征和实时以及历史文本语义特征关联权重信息的关联权重文本注意力特征向量。

作为本发明的进一步改进，所述“将所述上下文信息和权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息”，具体包括：将所述上下文特征向量和权重文本注意力特征向量经全连接层组合后，输出至分类函数，计算所述语音文本数据、图像文本数据和实时以及历史文本数据文本语义的得分及其归一化得分结果，得到文本的分类结果信息。

作为本发明的进一步改进，所述“输出所述分类结果信息”，具体包括：将所述分类结果信息转换为语音进行输出，和/或将所述分类结果信息转换为语音传输至客户终端输出，和/或将所述分类结果信息转换为文本进行输出，和/或将所述分类结果信息转换为文本传输至客户终端输出，和/或将所述分类结果信息转换为图像进行输出，和/或将所述分类结果信息转换为图像传输至客户终端输出。

作为本发明的进一步改进，所述“获取实时音视频数据，获取实时和历史文本数据”，具体包括：获取语音采集装置所采集的所述实时音视频数据，和/或获取自客户终端传输的所述实时音视频数据；获取文本采集装置所采集的所述实时文本数据，和/或获取自客户终端传输的所述实时文本数据；获取内部存储的所述历史文本数据，和/或获取外部存储的所述历史文本数据，和/或获取自客户终端传输的所述历史文本数据。

作为本发明的进一步改进，所述“转写所述语音数据为语音文本数据，提取所述语音文本数据的文本特征”，还包括：获取存储于外部缓存的配置数据，将所述语音数据基于所述配置数据执行所述多通道多尺寸深度卷积神经网络模型计算，进行文本转写和提取文本特征。

本发明还提供一种电器设备，包括：存储器，用于存储可执行指令；处理器，用于运行所述存储器存储的可执行指令时，实现上述的基于多模态知识图谱的生成文本分类方法。

本发明还提供一种冰箱，包括：存储器，用于存储可执行指令；处理器，用于运行所述存储器存储的可执行指令时，实现上述的基于多模态知识图谱的生成文本分类方法。

本发明还提供一种计算机可读存储介质，其存储有可执行指令，所述可执行指令被处理器执行时实现上述的基于多模态知识图谱的生成文本分类方法。

本发明的有益效果是：本发明所提供的方法完成了对所获取的文本数据进行识别与分类任务。首先通过引入实时语音、实时视频、实时文本、实时和历史用户对食材偏好、兴趣和历史评论数据等多模态数据，解决了单一模态数据的文本语义信息单一、数据理解不足等问题；其次，引入深度卷积神经网络模型弥补了传统机器学习方法的特征表征能力不足的现象，能更深层次的获得语义特征信息的关联性和互补性，加强语义特征，有效提高了文本分类准确度；最后，增加对多模态知识图谱的实体链接表示，提高文本语义特征信息的泛化能力，提升用户的体验效果。

附图说明

图1是本发明一实施方式中的基于多模态知识图谱的文本分类方法所涉及模型的结构框图。

图2是本发明一实施方式中的基于多模态知识图谱的文本分类方法步骤示意图。

图3是本发明一实施方式中获取实时音视频数据以及实时和历史文本数据步骤示意图。

图4是本发明一实施方式中对所述实时音视频数据和实时以及历史文本数据进行预处理步骤示意图。

图5是本发明一实施方式中转写所述实时语音数据为语音文本数据步骤示意图。

图6是本发明一实施方式中转写所述实时视频数据为图像文本数据步骤示意图。

图7是本发明一实施方式中根据所述实时语音文本特征、实时视频文本特征和实体特征，获取该文本数据的上下文信息和权重信息步骤示意图。

图8是本发明一实施方式中根据所述实时语音文本特征、实时视频文本特征和实体特征，获取该文本数据的上下文信息和文本语义特征的权重信息步骤示意图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

需要说明的是，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明的实施例是一种基于多模态知识图谱的文本分类方法。虽然本申请提供了如下述实施方式或流程图1所述的方法操作步骤，但是基于常规或者无需创造性的劳动，所述方法在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施方式中所提供的执行顺序。

如图1所示，为本发明所提供的一种基于多模态知识图谱的文本分类方法所涉及模型的结构框图，如图2所示，为基于多模态知识图谱的文本分类方法步骤示意图，其包括：

S1：获取实时音视频数据，获取实时和历史文本数据。

S2：对所述实时音视频数据进行预处理，获取实时语音数据和实时视频数据。

S3：转写所述实时语音数据为语音文本数据，提取所述语音文本数据的文本特征。

S4：转写所述实时视频数据为图像文本数据，提取所述图像文本数据的文本特征。

S5：提取所述实时和历史文本数据的实体特征。

S6：根据所述实时语音文本特征、实时视频文本特征和实体特征，获取该文本数据的上下文信息和文本语义特征的权重信息。

S7：将所述上下文信息和权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息。

S8：输出所述分类结果信息。

本发明提供的方法可供智能电子设备基于用户的实时音视频数据输入，来实现与用户之间的实时交互或消息推送等功能。示例性的，在本实施方式中，以智能冰箱为例，并结合预先训练好的深度学习模型对本方法进行说明。基于用户的音视频输入，智能冰箱对用户音视频数据所生成的对应文本内容进行分类，并根据分类结果信息计算需要输出的文本内容分类结果信息。

如图3所示，在步骤S1中，其具体包括：

S11：获取采集装置所采集的所述实时音视频数据，和/或

获取自客户终端传输的所述实时音视频数据。

S12：获取采集装置所采集的所述实时文本数据，和/或

获取自客户终端传输的所述实时文本数据。

S13：获取内部存储的历史文本数据，和/或

获取外部存储的历史文本数据，和/或

获取客户终端传输的历史文本数据。

这里所述的实时音视频数据包括实时语音数据和实时视频数据，所述实时语音指的是用户当前对智能电子设备或对与智能电子设备通信连接的客户终端设备等说出的询问性或指令性语句，同样的，也可以是语音采集装置采集用户发出的语音信息。如在本实施方式中，用户可提出诸如“今天冰箱里有啥蔬菜”、“今天冰箱里牛肉食材有哪些”等问题，或用户可发出诸如“删除全部食材”等命令指令。所述实时视频数据是利用智能电子设备或智能电子设备通信连接的客户终端设备实时拍摄而获得的实时视频图像，如在本实时方式中，利用内置在智能冰箱内的视像头拍摄到用户的脸部图像，从脸部图像中提取嘴唇区域特征图像以识别该图像对应的文本内容，比如识别出“今天冰箱里有啥蔬菜”的图像文本数据。

这里所述的实时文本数据是通过文本采集装置采集到的文本数据，而所述历史文本数据是指以往使用过程中用户的实时文本数据，进一步的，其还可以包括用户自行输入的历史文本数据等。具体的，在本实施方式中，所述实时和历史文本数据包括用户对食材的偏好、喜爱和用户感兴趣的食材信息以及用户发表的一些评论数据，比如“我以前喜欢宫保鸡丁”，涵盖了用户对食材的喜欢已经与当前实时文本数据有关联的信息。实时文本数据和历史文本数据的获取可以作为预训练和预测模型的数据集的一部分，能够有效的补充实时音视频数据的单一语音表征，丰富语义特征。

如步骤S11和S12所述，在本实施方式中，可通过设置于智能冰箱内的照相机、摄像头等音视频采集装置采集用户实时音视频，在使用过程中，当用户需要与智能冰箱进行交互时，直接对智能冰箱发出语音即可。并且，也可通过与智能冰箱基于无线通信协议连接的客户终端获取传输而来的用户实时音视频数据，客户终端为具有信息发送功能的电子设备，如手机、平板电脑、智能摄像机、智能手表、APP或蓝牙等智能电子设备，在使用过程中，用户直接对客户终端发出语音或直接使用冰箱内置的摄像头进行拍摄即可，客户终端采集音视频后通过wifi或蓝牙等无线通信方式传输至智能冰箱。从而实现多渠道的实时音视频获取方式，并不局限于必须面向智能冰箱发出语音。当用户有交互需求时，通过文本采集装置或者是客户终端文本输入设备直接采集实时文本数据。在本发明的其他实施方式中，也可采用上述实时音视频数据或实时文本数据获取方法中一种或任意多种，或者也可基于现有技术通过其他渠道获取所述实时音视频数据和实时文本数据，本发明对此不作具体限制。

如步骤S13所述，在本实施方式中，可读取智能冰箱的内部存储器所存储的历史文本数据。并且，也可通过读取智能冰箱配置的外部存储装置所存储的历史文本数据，外部存储装置为诸如U盘、SD卡等移动存储设备，通过设置外部存储装置可进一步拓展智能冰箱的存储空间。并且，也可通过获取存储在诸如手机、平板电脑等客户终端或应用软件服务器端等处的所述历史文本数据。实现多渠道的历史文本数据获取渠道，能够大幅提高历史文本的数据量，从而提高后续语音识别和视频图像识别的准确度。在本发明的其他实施方式中，也可采用上述历史文本数据获取方法中的一种或任意多种，或者也可基于现有技术通过其他渠道获取所述历史文本数据，本发明对此不作具体限制。

进一步的，在本实施方式中，智能冰箱配置有外部缓存，至少有部分所述历史文本数据被储存在所述外部缓存中，随着使用时间增加，历史文本数据增多，通过将部分数据存储在外部缓存中，能够节省智能冰箱内部存储空间，并且在进行神经网络计算时，直接读取存储于外部缓存中的所述历史文本数据，能够提高算法效率。

具体的，在本实施方式中，采用Redis组件作为所述外部缓存，Redis组件为当前一种使用较为广泛的key/value存储结构的分布式缓存系统，其可用作数据库，高速缓存和消息队列代理。在本发明的其他实施方式中也可采用诸如Memcached等其他外部缓存，本发明对此不作具体限制。

综上所述，在步骤S11到步骤S13中，能够通过多渠道灵活获取实时音视频数据、实时和历史文本数据，在提升了用户体验的同时，保证了数据量，并有效提升了算法效率。

如图4所示，在步骤S2中，其具体包括步骤：

S21：对所述实时音视频数据进行数据清洗，获得有效的音视频数据。

S22：将所述有效音视频数据进行语音和视频分离，以获得实时语音数据和视频数据。

S23：对所述实时语音数据和视频数据进行预处理，包括：对所述实时语音数据进行分帧和加窗处理，对所述实时视频数据进行裁剪、分帧处理。

S24：对所述实时和历史评论文本数据进行预处理，包括：分词、去除停用词、去重复词。

在步骤S21中，对所述实时音视频数据进行数据清洗具体包括：

获取一定数量的实时音视频数据集，示例性的，可以以文件的形式导入数据清洗模型进行处理，为了防止数据导入失败，对不满足文件导入格式的数据进行数据格式解析和数据格式转换，然后再删除数据集中的无关数据、重复数据以及处理异常值和缺失值数据等，初步筛选掉与分类无关的信息，对所述音视频数据进行清洗处理，同时将清洗后的数据以指定格式输出并保存起来，从而获得有效的音视频数据。

在步骤S22中，采用脚本或者第三方音视频分离工具对所述有效的音视频数据进行语音和视频分离，从而获得了实时语音数据和实时视频数据。

在本发明实施例中，可以采用python语言进行音视频分离脚本的编写，或者是第三方的音视频分离工具，将输入的音视频数据进行分离操作，实现语音、视频的分离，得到分类后的实时语音和视频数据。

在步骤S23中，对分类后的语音根据指定的时间段或采样数进行分段，完成对语音的分帧处理以得到语音信号数据，再通过窗函数的作用，使得原本含有噪声的语音信号呈现出信号加强和信号周期性的特征，完成加窗处理，便于后续更好的提取语音的特征参数。示例性的，步骤S23还包括对有效的视频数据进行裁剪，产生多帧图片，具体的，可以采用编写脚本的方式首先加载视频数据并读取视频信息，然后根据视频信息对视频进行解码，确定视频每秒钟展示多少张图片，从而获取单帧图像信息，所述单帧图像信息包括每帧图片的宽度和高度，最后将视频保存成多张图片。所以，经过步骤S23的处理，可以得到有效的实时语音数据和图像数据。在本发明的其他实施方式中也可采用诸如第三方视频裁剪工具等其他视频分帧方法，本发明对此不作具体限制。

在步骤S24中，对采集到的实时和历史文本数据进行文本预处理，比如删除无关的数据、重复数据以及处理异常值和缺失值等，初步筛选与分类无关的信息。接着，基于规则统计方法对所述实时文本数据和历史文本数据进行类别标签标注，以及基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法对所述文本数据进行分词处理。之后，去停用词和去重复词，使得所述文本数据符合神经网络模型的输入要求。

如图5所示，在步骤S3中，其具体包括：

S31：提取所述有效语音数据特征，得到语音特征。

S32：将所述语音特征输入语音识别多通道多尺寸深度卷积神经网络模型转写得到第一语音文本数据。

S33：基于连接时序分类方法输出所述语音特征和所述第一语音文本数据的对齐关系，以得到第二语音文本数据。

S34:基于注意力机制，获取所述第二语音文本数据的关键特征或所述关键特征的权重信息。

S35：将所述第二语音文本数据以及其关键特征或关键特征的权重信息经全连接层组合后，再经过分类函数计算得分得到所述语音文本数据。

在步骤S31钟，提取所述有效语音数据特征具体包括：

提取所述语音数据特征，获取其梅尔频率倒谱系数特征(Mel-scale FrequencyCepstral Coefficients，简称MFCC)。MFCC是一种语音信号中具有辨识性的成分，是在Mel标度频率域提取出来的倒谱参数，其中，Mel标度描述了人耳频率的非线性特性，MFCC的参数考虑到了人耳对不同频率的感受程度，特别适用于语音辨别和语者辨识。

在本发明实施例中，也可以通过不同算法步骤获取所述语音数据的感知线性预测特征(Perceptual Linear Predictive，简称PLP)或线性预测系数特征(LinearPredictive Coding，简称LPC)等特征参数来取代MFCC特征，具体可根据实际应用场景和采用的模型参数进行具体的调整，本发明对此不做具体限制。

上述步骤中所涉及的具体的算法步骤可参考当前本领域的现有技术，具体的内容在此不做具体描述。

在步骤S32中，通过自动语音识别技术中的网络模型对所述有效语音数据实现文本内容转写，得到所述的第一语音文本数据。

在本实施方式中，通过构建多通道多尺寸深度卷积神经网络模型实现语音转文本的任务，该深度网络模型是由多层深度卷积网络模型构成，深度卷积神经网络模型一般是由若干卷积层加若干全连接层组成，中间包含各种的非线性操作、池化操作，主要用于处理网格结构的数据，因此该模型可以利用滤波器将相邻像素之间的轮廓过滤出来。另外，该模型它是先提出语音特征值，然后再对特征值进行计算而不是对原始语音数据值进行计算。因此，相比于传统的循环神经网络来说，深度卷积神经网络模型具有计算量小、容易刻画局部特征的优势，而且共享权重以及池化层可以赋予该模型更好的时域或频域的不变性，另外更深层的非线性结构也可以让该模型具备强大的表征能力。另外，多通道多尺寸可以从不同的视角去提取语音特征，获取更多的语音特征信息，具有更好的语音识别精度。

具体的，在本实施方式中，在步骤S32中，所采用的多通道多尺寸深度卷积神经网络由3*3卷积层、32通道数和一层最大池化构成。

在步骤S33中，利用连接时序分类方法(Connectionist temporalclassification，CTC)得到输入语音特征序列和输出的语音文本特征序列的对齐关系。

在本实施方式中，所述有效语音数据和所述第一语音文本数据的文字很难构建精准的映射关系，从而增加了后续语音识别的难度。为了解决这个问题，采用了时序分类方法，该方法一般是在使用卷积网络模型之后使用的，是一种完全端到端的声学模型训练，不需要预先对数据做对齐处理，只需要一个输入序列和一个输出序列即可训练，不需要对数据做对齐和一一标注处理，同时可以直接输出序列预测的概率。根据这个预测概率，我们可以获得最有可能的文本输出结果，以得到第二语音文本数据。

进一步的，在步骤S34中，所述注意力机制可以引导深度卷神经网络去关注更为关键的特征信息而抑制其他非关键的特征信息，因此，通过引入注意力机制，能够得到所述第二语音文本数据的局部关键特征或权重信息，从而进一步减少模型训练时出现序列的不规则误差对齐现象。

这里，在步骤S35中，根据所述第二语音文本数据以及其关键特征或关键特征的权重信息，通过自注意力机制和全连接层相融合的模型将所述第二语音文本数据赋予其自身权重信息，从而更好的获得所述语音文本数据文本语义特征的内部权重信息，以增强文本语义特征信息不同部分的重要性，最后再经过分类函数，比如Softmax函数，计算得分得到所述语音文本数据。

如图6所示，在步骤S4中，其具体包括：

S41：将所述实时视频数据输入3D深度卷积神经网络计算，得到图像特征。

S42：将所述图像特征输入多通道多尺寸时间卷积网络转写，获得第一图像文本数据。

S43：基于连接时序分类方法输出所述图像特征和所述第一图像文本数据的对齐关系，以得到第二图像文本数据。

S44：将所述第二图像文本数据经全连接层组合后，再经过分类函数计算得分得到所述图像文本数据。

在步骤S41和步骤S42中，考虑到图像文本识别到的句子比较复杂，比如句子长度不一、句子停顿位置或单词构成不一样以及其图像特征存在关联性等多种情况，所以我们可以根据所述有效的视频数据，对其进行裁剪分帧等视频处理操作，获取面部区域的视频图像，并对面部区域的视频图像进行裁剪、分割，以得到多张连续的面部图片帧。在本实施例中，将所述多张连续的面部图片帧输入到3D卷积神经网络模型中，通过增加时间维度的信息，能够提取到更具表达性的特征，所述3D卷积神经网络模型可以解决多张图片之间的关联信息，是以连续的多帧图像作为输入，通过增加了一个新的维度信息，捕捉到输入帧中的运动信息，从而更好的获得其图像特征。

在步骤S43和S44中，同样也是和上述语音数据处理的方法一样，也采用了连续时序分类方法，实现了所述有效视频数据和所述第一图像文本数据的文字之间的映射关系，以得到第二图像文本数据。再通过自注意力机制和全连接层相融合的模型将所述第二图像文本数据赋予其自身权重信息和/或关联权重信息，从而更好的获得所述图像文本数据文本语义特征的内部权重信息和/或关联权重信息，以增强文本语义特征信息不同部分的重要性，最后再经过分类函数计算得分得到所述图像文本数据。具体的处理过程同上述语音数据处理步骤，在此不做赘述。

如图7所示，在步骤S5中，其具体包括：

S51：采用实体链接方法对所述文本数据进行实体抽取，以得到多个食材实体。

S52：基于每个食材实体查询食材知识图谱，获得对应的实体向量表示。

S53：将所述实体向量表示输入多头注意力机制计算，得到所述实体特征向量。

在步骤S51和S52中，实体链接是将文本中已识别的实体对象(比如人名、地名等)无歧义的正确指向知识库中目标实体的过程。也就是说，查找知识库，找到最符合所述实体对象的目标项，所以实体链接是为文本中提及到的实体分配唯一标识，一般是作为实体抽取识别的后置任务。在本实施方式中，先从实时和历史文本中提取到有关食材的所有实体，对应到候选实体项中，并从给定的知识图谱中找到每个实体提及可能对应的候选实体集合，过滤掉知识图谱中不相关的实体以生成候选实体；接着，提取到的实体消除歧义和实体对齐处理，对每个实体对应的候选实体集合中多个候选实体打分和排序，并输出得分最高的候选实体作为实体链接结果。

所述实体信息包含了用户对食材的偏好、喜爱、用户感兴趣的话题和有关食材的评论数据等语义特征信息，这些实时和历史的文本数据丰富了文本语义内容。另外，通过三元组形式将基于知识图谱查找到的实体转化为实体向量表示，所述实体向量表示是考虑知识图谱中的实体关系结构信息和实体描述信息，分别得到对应的向量表示。具体的，通常采用神经网络的分布式向量表示方法，该方法将词转化成一种分布式表示，即将词表示为一个定长的连续的向量，该种方法可以体现不同分词对结果的贡献程度。

在步骤S53中，注意力机制是通过运算来直接计算得到文本数据在编码过程中每个位置上的注意力权重，然后再以权重和的形式来计算得到整个文本的隐含向量表示。通常，我们希望注意力机制模型可以基于相同的注意力机制学习到不同的行为，将后将不同的行为作为知识组合起来，为此，我们可以独立学习多个不同种类的文本数据，经过注意力池化操作后拼接在一起，以产生最终的特征向量。在本实时方式中，将实体向量表示输入多头注意力机制，得到带有用户对食材偏好、兴趣和有关食材评论数据相关性的实体特征向量，这在一定程度上扩展了不同类型数据间的语义特征的互补性和多方位多角度的语义关联性。

如图8所示，在步骤S6中，其具体包括：

S61：将所述语音文本数据和图像文本数据转换为语音文本词向量和图像文本词向量。

S62：将所述语音文本词向量、图像文本词向量和实体特征向量输入双向长短记忆网络模型，获取包含所述语音文本特征、图像文本特征和实时以及历史文本特征信息的上下文特征向量。

S63：基于注意力机制，区分所述语音文本数据、图像文本数据和实时以及历史文本数据的文本特征中的词、词语的自身权重信息和/或关联权重信息，获得所述文本语义特征的权重信息。

在步骤S61中，为了将文本数据转化为计算机能够识别和处理的向量化形式，可通过Word2Vec算法，将所述语音文本数据和图像文本数据转化为所述语音文本词向量和图像文本词向量，或者也可通过其他诸如Glove算法等本领域现有算法转化得到所述词向量，本发明对此不做具体限制。

在步骤S62中，双向长短记忆网络(Bi-directional Long Short-Term Memory，简写BiLSTM)由前向长短记忆网络(Long Short-Term Memory，简写LSTM)和后向长短记忆网络组合而成，LSTM模型能够更好地获取文本语义长距离的依赖关系，而在其基础上，BiLSTM模型能更好地获取文本双向语义。将所述语音文本词向量、图像文本词向量和实体特征向量输入BiLSTM模型中，经过前向LSTM和后向LSTM处理后，其中前向LSTM和后向LSTM都是等到所有时间步都计算完成后，才能产生两个结果向量，再将这两个结果向量拼接起来，输出带有语境上下文信息的所述上下文特征向量。

在本发明实施方式中，也可以通过构建其他结构的神经网络模型来实现语音数据和视频数据转写为所述的语音文本数据和视频文本数据，具体的方法不做限制。

在步骤S63中，为了区分所述语音文本数据、图像文本数据和实时以及历史文本数据中不同词或词语的自身的权重信息或不同文本数据之间的关联权重信息，分别将所述语音文本上下文特征向量、图像文本上下文特征向量和实时以及历史文本上下文实体特征向量输入多头注意力机制中，获取包含所述语音文本语义特征、图像文本语义特征和实时以及历史文本语义特征自身权重信息的自身权重特征向量以及包含所述语音文本语义特征、图像文本语义特征和实时以及历史文本语义关联权重信息的关联权重特征向量，充分利用了上述文本的上下文信息，补充了语音和视频数据中单一特征的不足，丰富了文本数据中的语义表征能力，优化了后续的文本分类能力。

在步骤S7中，其具体包括：

将所述语音的上下文特征向量和权重文本注意力特征向量(包括自身权重文本注意力特征向量和关联权重文本注意力特征向量)经全连接层组合后，输出至分类函数，计算所述语音文本数据和所述图像文本数据中文本语义的得分及其归一化得分结果，得到分类结果信息。

综上所述，依次通过上述步骤可以得到本发明所提供的基于多模态知识图谱的文本分类方法。通过获取所述实时的音视频数据、实时和历史文本数据，对其进行数据清洗，同时对其进行语音和视频的分离，分别产生有效的语音数据和视频数据，并将其都作为预训练和预测模型的数据集的一部分，从而更全面的获取了文本语义特征。另外，通过构建融合了连接时序分类方法和注意力机制的多通道多尺寸的深度卷积网络模型以及基于时间深度卷积神经网络模型与句子层面的视频图像识别方法，从而挖掘并获得了更加丰富的高层语义特征信息。最后，通过构建融合了语音文本数据、视频文本数据和实时文本数据以及历史文本数据的上下文信息机制、多头注意力机制，更加充分的利用了语义表征能力，弥补了语音和视频数据中单一特征的不足，提高了文本分类的准确性。另外，通过获取外部存储的配置数据进行计算，提高了模型的计算效率。整体模型结构具有很好的文本数据语义表征能力，从语义特征熵体现了良好的互补性和关联性特点，提高了对文本分类的准确率。

在步骤S8中，其具体包括：

将所述分类结果信息转换为语音进行输出，和/或

将所述分类结果信息转换为语音传输至客户终端输出，和/或

将所述分类结果信息转换为文本进行输出，和/或

将所述分类结果信息转换为文本传输至客户终端输出，和/或

将所述分类结果信息转换为图像进行输出，和/或

将所述分类结果信息转换为图像传输至客户终端输出。

如步骤S8所述，在本实时方式中，在通过上述所述步骤获得分类结果信息后，可将其转换成语音，通过智能冰箱内置的声音播放设备播报所述结果信息，或者也可以将所述结果信息转换为文本，直接通过智能冰箱配置的显示设备显示，或者也可以将所述结果信息转换图像，直接通过智能冰箱的大屏显示。并且，也可将结果信息语音通信传输至客户终端输出，这里，客户终端为具有信息接收功能的电子设备，如将语音传输至手机、智能音响、蓝牙耳机等设备进行播报，或将分类结果信息以文本或图像形式通过短信、邮件等方式通讯传输至诸如手机、平板电脑等客户终端或客户终端安装的应用软件，供用户查阅。从而实现多渠道多种类的分类结果信息输出方式，用户并不局限于只能在智能冰箱附近处获得相关信息，配合本发明所提供的多渠道多种类实时语音获取方式，使得用户能够直接在远程与智能冰箱进行交互，具有极高的便捷性，大幅提高了用户使用体验。在本发明的其他实施方式中，也可仅采用上述分类结果信息输出方式中的一种或几种，或者也可基于现有技术通过其他渠道输出分类结果信息，本发明对此不作具体限制。

综上所述，本发明提供的一种基于多模态知识图谱的文本分类方法，其通过多渠道获取实时音视频数据、实时和历史文本数据，提取对应的特征并进行融合，充分利用了深度卷积、循环融合多头注意力机制的神经网络模型来实现语义文本特征提取，获得生成文本分类结果，并将所述文本分类结果通过多渠道进行输出，所述方法不仅显著提高了生成文本分类的准确率，而且使得用户和智能冰箱的交互方式更加便捷、多元化，大大提高了用户的体验。

基于同一发明构思，本发明还提供一种电器设备，其包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现上述的基于多模态知识图谱的文本分类方法。

基于同一发明构思，本发明还提供一种冰箱，其包括：

存储器，用于存储可执行指令；

基于同一发明构思，本发明还提供一种计算机可读存储介质，其存储有可执行指令，所述可执行指令被处理器执行时实现上述的基于多模态知识图谱的文本分类方法。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内_。

Claims

1.一种基于多模态知识图谱的文本分类方法，其特征在于，包括步骤：

获取实时音视频数据，获取实时和历史文本数据；

对所述实时音视频数据进行预处理，获取实时语音数据和实时视频数据；

转写所述实时语音数据为语音文本数据，提取所述语音文本数据的文本特征；

转写所述实时视频数据为图像文本数据，提取所述图像文本数据的文本特征；

提取所述实时和历史文本数据的实体特征；

根据所述实时语音数据文本特征、实时视频数据文本特征和实体特征，获取该文本数据的上下文信息和文本语义特征的权重信息；

将所述上下文信息和权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息；

输出所述分类结果信息。

2.根据权利要求1所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“对所述实时音视频数据进行预处理，获取实时语音数据和视频数据”，具体包括：

对所述实时音视频数据进行数据清洗、格式解析、格式转换和数据存储，获得有效的音视频数据；

采用脚本或第三方工具将所述有效音视频数据进行语音和视频分离，以获得所述实时语音数据和实时视频数据；

对所述实时语音数据和视频数据进行预处理，包括：对所述实时语音数据进行分帧和加窗处理，对所述实时视频数据进行裁剪、分帧处理；

对所述实时和历史文本数据进行预处理，包括：分词、去除停用词、去重复词。

3.根据权利要求1所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“转写所述实时语音数据为语音文本数据”，具体包括：

提取所述实时语音数据特征，得到语音特征；

将所述语音特征输入语音识别多通道多尺寸深度卷积神经网络模型转写得到第一语音文本数据；

基于连接时序分类方法输出所述语音特征和所述第一语音文本数据的对齐关系，以得到第二语音文本数据；

基于注意力机制，获取所述第二语音文本数据的关键特征或所述关键特征的权重信息；

将所述第二语音文本数据以及其关键特征或关键特征的权重信息经全连接层组合后，再经过分类函数计算得分得到所述语音文本数据。

4.根据权利要求3所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“提取所述实时语音数据特征”，具体包括：

提取所述实时语音数据特征，获取其梅尔频率倒谱系数特征。

5.根据权利要求1所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“转写所述实时视频数据为图像文本数据”，具体包括：

将所述实时视频数据输入3D深度卷积神经网络计算，得到图像特征；

将所述图像特征输入多通道多尺寸时间卷积网络转写，获得第一图像文本数据；

基于连接时序分类方法输出所述图像特征和所述第一图像文本数据的对齐关系，以得到第二图像文本数据；

将所述第二图像文本数据经全连接层组合后，再经过分类函数计算得分得到所述图像文本数据。

6.根据权利要求1所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“提取所述实时和历史文本数据的实体特征”，具体包括：

采用实体链接方法对所述文本数据进行实体抽取，以得到多个食材实体；

基于每个食材实体查询食材知识图谱，获得对应的实体向量表示；

将所述实体向量表示输入多头注意力机制计算，得到实体特征向量。

7.根据权利要求6所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“基于每个食材实体查询食材知识图谱，获得对应的实体向量表示”，具体包括：

采用实体三元组形式将所述实体转换为对应的实体向量表示；

采用神经网络的分布式向量表示方法来实现所述实体向量表示。

8.根据权利要求1所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“根据所述实时语音数据文本特征、实时视频数据文本特征和实体特征，获取该文本数据的上下文信息和文本语义特征的权重信息”，具体包括：

将所述实时语音文本特征和实时视频文本特征转换为语音文本词向量和图像文本词向量；

将所述语音文本词向量、图像文本词向量和实体特征输入双向长短记忆网络模型，获取包含所述语音文本特征、图像文本特征和实时以及历史文本特征信息的上下文特征向量。

9.根据权利要求8所述的基于多模态知识图谱的文本分类方法，其特征在于，所述方法还包括：

基于注意力机制，区分所述语音文本数据、图像文本数据和实时以及历史文本数据的文本特征中的词、词语的自身权重信息和/或关联权重信息，获得所述文本语义特征的权重信息。

10.根据权利要求9所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“基于注意力机制，区分所述语音文本数据、图像文本数据和实时以及历史文本数据的文本特征中的词、词语的自身权重信息和/或关联权重信息”，具体包括：

分别将所述语音文本上下文特征向量、图像文本上下文特征向量和实时以及历史文本实体特征向量输入多头注意力机制；

获取包含所述语音文本语义特征、图像文本语义特征和实时以及历史文本语义特征自身权重信息的自身权重文本注意力特征向量；

获取包含所述语音文本语义特征、图像文本语义特征和实时以及历史文本语义特征关联权重信息的关联权重文本注意力特征向量。

11.根据权利要求10所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“将所述上下文信息和权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息”，具体包括：

将所述上下文特征向量和权重文本注意力特征向量经全连接层组合后，输出至分类函数，计算所述语音文本数据、图像文本数据和实时以及历史文本数据文本语义的得分及其归一化得分结果，得到文本的分类结果信息。

12.根据权利要求1所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“输出所述分类结果信息”，具体包括：

将所述分类结果信息转换为语音进行输出，和/或

将所述分类结果信息转换为语音传输至客户终端输出，和/或

将所述分类结果信息转换为文本进行输出，和/或

将所述分类结果信息转换为文本传输至客户终端输出，和/或

将所述分类结果信息转换为图像进行输出，和/或

将所述分类结果信息转换为图像传输至客户终端输出。

13.根据权利要求1所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“获取实时音视频数据，获取实时和历史文本数据”，具体包括：

获取语音采集装置所采集的所述实时音视频数据，和/或

获取自客户终端传输的所述实时音视频数据；

获取文本采集装置所采集的所述实时文本数据，和/或

获取自客户终端传输的所述实时文本数据；

获取内部存储的所述历史文本数据，和/或

获取外部存储的所述历史文本数据，和/或

获取自客户终端传输的所述历史文本数据。

14.根据权利要求1所述的基于多模态知识图谱的文本分类方法，其特征在于，所述“转写所述语音数据为语音文本数据，提取所述语音文本数据的文本特征”，还包括：

获取存储于外部缓存的配置数据，将所述语音数据基于所述配置数据执行所述多通道多尺寸深度卷积神经网络模型计算，进行文本转写和提取文本特征。

15.一种电器设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至14任一项所述的基于多模态知识图谱的文本分类方法。

16.一种冰箱，其特征在于，包括：

存储器，用于存储可执行指令；

17.一种计算机可读存储介质，其存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至14任一项所述的基于多模态知识图谱的文本分类方法。