CN112101045B

CN112101045B - 一种多模态语义完整性识别方法、装置及电子设备

Info

Publication number: CN112101045B
Application number: CN202011200644.7A
Authority: CN
Inventors: 张常睿; 李蒙
Original assignee: Beijing Qilu Information Technology Co Ltd
Current assignee: Beijing Qilu Information Technology Co Ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-12-14
Anticipated expiration: 2040-11-02
Also published as: CN112101045A

Abstract

本发明公开了一种多模态语义完整性识别方法、装置及电子设备，所述方法包括：创建多模态语义完整性模型，将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型中，得到语义完整性识别结果；根据所述语义完整性识别结果调整当前对话的用户语义。其中，所述多模态语义完整性模型包括第一模型用于分别提取音频数据和文本数据中的音频向量特征和文本向量特征，和第二模型用于结合音频向量特征、文本向量特征和对话特征识别语义完整性。本发明能够根据文本数据、音频数据和对话数据三种模态识别语义的完整性，从而有效提高模型意图识别的准确度，提升语音机器人与用户的语音交互效果。

Description

一种多模态语义完整性识别方法、装置及电子设备

技术领域

本发明涉及语音智能技术领域，具体而言，涉及一种多模态语义完整性识别方法、装置、电子设备及计算机可读介质。

背景技术

随着人工智能技术的发展，语音机器人的应用也越来越广泛。语音机器人基于语音识别、语音合成、自然语言理解等技术，能够为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验。目前，语音机器人已广泛应用于电话销售、智能问答、智能质检、实时演讲字幕、访谈录音等场景。

语音机器人首先对用户的语音进行自然语音理解来识别用户意图，再根据用户意图通过自然语音生成技术生成对用户的问答语音，从而完成与用户的语音问答。在自然语音理解过程中语音机器人将用户的语音通过语音识别（Automatic Speech Recognition，ASR）技术转化为文字，再通过自然语言理解（Natural Language Understanding，NLU）技术识别用户意图。其中，NLU过程中主要采用数据量大，参数比较多的机器学习模型，比如，循环神经网络模型（Recurrent Neural Network，RNN）、长短记忆网络模型（Long Short-TermMemory，LSTM）等来处理。

实际中，用户在与语音机器人对话过程中常常会有停顿的现象，机器模型以为用户已经说完一句话。这就导致在意图识别过程中出现语义不完整的情况，影响意图识别的准确性。

发明内容

本发明旨在解决用户对话时出现停顿导致语音机器人对用户意图识别出现语义不完整的技术问题。

为了解决上述技术问题，本发明第一方面提出一种多模态语义完整性识别方法，所述方法包括：

创建多模态语义完整性模型，其中，所述多模态语义完整性模型包括第一模型和第二模型，所述第一模型用于分别提取音频数据和文本数据中的音频向量特征和文本向量特征，所述第二模型用于结合音频向量特征、文本向量特征和对话特征识别语义完整性；

将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型中，得到语义完整性识别结果；

根据所述语义完整性识别结果调整当前对话的用户语义。

根据本发明一种优选的实施方式，所述对话数据包括当前用户语音是用户第几轮对话和/或当前用户语音的时长。

根据本发明一种优选的实施方式，所述第一模型包括Word2Vec模型和VGG模型。

根据本发明一种优选的实施方式，所述第二模型为VAD模型。

根据本发明一种优选的实施方式，所述将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型中之前，所述方法还包括：

采集当前对话的用户音频数据和对话数据；

将所述用户音频数据转换为文本数据。

根据本发明一种优选的实施方式，所述根据所述语义完整性识别结果调整当前对话的用户语义包括：

若所述语义识别不完整，接收下一时段用户音频数据，将当前用户音频数据与下一段用户音频数据拼接作为完整语义；

或者，若所述语义识别不完整，提示用户重复当前语音；

或者，若所述语义识别不完整，标记所述当前用户音频数据并反馈语义不完整。

为了解决上述技术问题，本发明第二方面提供一种多模态语义完整性识别装置，所述装置包括：

创建模块，用于创建多模态语义完整性模型，其中，所述多模态语义完整性模型包括第一模型和第二模型，所述第一模型用于分别提取音频数据和文本数据中的音频向量特征和文本向量特征，所述第二模型用于结合音频向量特征、文本向量特征和对话特征识别语义完整性；

输入模块，将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型中，得到语义完整性识别结果；

调整模块，用于根据所述语义完整性识别结果调整当前对话的用户语义。

根据本发明一种优选的实施方式，所述第二模型为VAD模型。

根据本发明一种优选的实施方式，所述装置还包括：

采集模块，用于采集当前对话的用户音频数据和对话数据；

转换模块，用于将所述用户音频数据转换为文本数据。

根据本发明一种优选的实施方式，所述调整模块具体用于：若所述语义识别不完整，接收下一时段用户音频数据，将当前用户音频数据与下一段用户音频数据拼接作为完整语义；

或者，若所述语义识别不完整，提示用户重复当前语音；

为解决上述技术问题，本发明第三方面提供一种电子设备，包括：

处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行上述的方法。

为了解决上述技术问题，本发明第四方面提出一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现上述方法。

本发明创建了多模态语义完整性模型，包括第一模型和第二模型，所述第一模型用于分别提取音频数据和文本数据中的音频向量特征和文本向量特征，所述第二模型用于结合音频向量特征、文本向量特征和对话特征识别语义完整性，从而使得所述多模态语义完整性模型能够根据文本数据、音频数据和对话数据三种模态识别语义的完整性，再根据所述语义完整性识别结果调整当前对话的用户语义，从而有效提高模型的意图识别的准确度，为后续准确的语音问答奠定基础，提升语音机器人与用户的语音交互效果。

附图说明

为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚，下面将参照附图详细描述本发明的具体实施例。但需声明的是，下面描述的附图仅仅是本发明的示例性实施例的附图，对于本领域的技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他实施例的附图。

图1是本发明一种多模态语义完整性识别方法的流程示意图；

图2是本发明多模态语义完整性模型的结构框架示意图；

图3是本发明一种多模态语义完整性识别装置的结构框架示意图；

图4是根据本发明的一种电子设备的示例性实施例的结构框图；

图5是本发明一个计算机可读介质实施例的示意图。

具体实施方式

现在将参考附图来更加全面地描述本发明的示例性实施例，虽然各示例性实施例能够以多种具体的方式实施，但不应理解为本发明仅限于在此阐述的实施例。相反，提供这些示例性实施例是为了使本发明的内容更加完整，更加便于将发明构思全面地传达给本领域的技术人员。

在符合本发明的技术构思的前提下，在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

本发明实施例提供的方案涉及人工智能的自然语言理解和深度学习等技术，现通过如下实施例进行说明。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

自然语言理解（Natural Language Understanding，NLU）是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言理解以语音学为基础，融合逻辑学、计算机科学等学科，通过对语义、语法、语用的分析，获取自然语音的语义表示。自然语言理解的主要功能包括实体识别、用户意图识别、用户情感识别、指代消解、省略恢复、回复确认及拒识判断等。

意图识别指运用各种机器学习方法，让机器学习并理解一段文本所表示的语义意图，涉及语音学、计算语言学、人工智能、机器学习等多个学科。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

深度学习是机器学习的核心部分，其通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。基于深度学习的自然语音理解技术在获得自然语音的向量化表示后，通过采用端到端的方法直接生产回复，其最典型的框架是Encoder-Decoder框架。其不仅可以应用到聊天机器人领域，还可以应用在机器翻译、文本摘要、句法分析等应用场景中。其中，语言模型是将深度学习引入自然语言理解的核心技术之一。

本发明中每一种信息的来源或者形式可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；多种多样的传感器，如雷达、红外、加速度计；信息的媒介，有语音、视频、文字等等。以上的每一种都可以称为一种模态。此外，模态也可以有非常广泛的定义，比如可以把两种不同的语言当做是两种模态，甚至在两种不同情况下采集到的数据集，亦可认为是两种模态。本发明的多模态语义完整性模型属于多模态机器学习（MultiModal MachineLearning ，MMML），涉及同一用户语音对应的文本数据、音频数据和对话数据三种模态，旨在从语音的多模态角度出发通过机器学习的方法实现处理和理解语义完整性的能力。

请参阅图1，图1是本发明提供的一种多模态语义完整性识别方法的流程图，如图1所示，所述方法包括：

S1、创建多模态语义完整性模型，

如图2所示，所述多模态语义完整性模型包括第一模型D1和第二模型D2，所述第一模型D1用于分别提取音频数据和文本数据中的音频向量特征和文本向量特征，所述第二模型D2用于结合音频向量特征、文本向量特征和对话特征识别语义完整性。

其中，所述对话数据包括当前用户语音是用户第几轮对话，当前用户语音的时长。具体用户第几轮对话可以在采集用户语音时根据用户与语音机器人的对答次数来确定，并通过标识符来标记。例如，当前用户语音是用户与语音机器人的第三次对答，则通过标识符3来标记当前用户语音。本发明将第几轮对话、及对话时长作为判断用户语义是否完整的一个维度。具体根据语音机器人的问询，将用户每轮对话的时长设置在一定时长范围内，如果当前用户语音的时长小于该轮对话的时长范围，则当前用户语音的语义有可能不完整。例如，设定语音机器人在第一轮对话的问询是“您了解XX产品吗”对应的用户语音时长范围是2~4分钟；设定语音机器人在第二轮对话的问询是“我来给您介绍一下XX产品可以吗”对应的用户语音时长范围是1~3分钟等等。若当前用户语音是上述第二轮对话，且对话时长小于1分钟，则当前用户语音的语义有可能不完整。

在一种优选的实施方式中，所述第一模型D1包括Word2Vec模型和VGG模型。本发明中Word2Vec模型用于从文本数据中提取文本向量特征。其中，Word2Vec模型是可以将词表征为实数值向量的语音模型，Word2Vec模型有两种主要的实现方式：连续词袋模型（Continuous Bag-of-Word Model， CBOW Model）和 skip-gram模型。其中，CBOW模型是一个三层神经网络（输入层、隐含层和哈夫曼树层）。将上下文的词向量输入CBOW模型，由隐含层累加得到中间向量，将中间向量输入哈夫曼树的根节点，根节点会将其分到左子树或右子树，每个非叶节点都会对中间向量进行分类，直到达到某个叶节点，该叶节点对应的单词就是对下个单词的预测。Skip-gram模型也是一个三层神经网络。skip-gram模型输入某个单词输出对它上下文词向量的预测。Skip-gram模型的核心同样是一个哈夫曼树，每一个单词从树根开始到达叶节点可以预测出它上下文中的一个单词，对每个单词进行N-1次迭代，得到对它上下文中所有单词的预测，根据训练数据调整词向量得到足够精确的结果。

本发明中VGG模型用于从音频数据中提取音频向量特征。在VGG模型中，使用了3个3x3卷积核来代替7x7卷积核，使用了2个3x3卷积核来代替5*5卷积核，在保证具有相同感知的条件下，提升了网络的深度，在一定程度上提升了神经网络的效果。因而，VGG模型能够满足音频向量特征提取的时效性。

在一种优选的实施方式中，所述第二模型D2为语音活动检测模型（VoiceActivity Detection，VAD）。本发明中通过VAD模型结合音频向量特征、文本向量特征和对话特征识别语义完整性。具体的，可以预先将历史用户语音的音频向量特征、文本向量特征和对话特征，以及该历史用户语音的语义完整性结果作为训练集输入VAD模型中，对VAD模型进行训练，再采用训练好的VAD模型根据输入的音频向量特征、文本向量特征和对话特征来识别语义完整性。

需要说明的是，所述第一模型D1和第二模型D2采用的具体机器学习模型并不限于上述列举的Word2Vec模型、VGG模型、VAD模型，还可以采用其他模型。

S2、将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型中，得到语义完整性识别结果；

在本步骤之前，可以先将采集采集当前对话的用户音频数据和对话数据，通过ASR技术将用户音频数据转换为文本数据。再将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型进行语义完整性识别。

具体的，如图2所示，当前用户的文本数据w1、音频数据y1输入第一模型D1中，得到文本向量特征W1和音频向量特征Y1。再将文本向量特征W、音频向量特征Y1和对话数据h1输入第二模型D2中，得到语义完整性识别结果M。

S3、根据所述语义完整性识别结果调整当前对话的用户语义。

本发明中，语义完整性识别结果可以包括：语义识别完整和语义识别不完整两类。当语音识别完整时，对当前对话的用户语义不做调整。当语音识别不完整时，对当前对话的用户语义进行调整。

在一种语义调整示例中，当语音识别不完整时，接收下一时段用户音频数据，将所述当前音频数据与下一段用户音频数据拼接作为完整语义。

在另一种语义调整示例中，当语义识别不完整时，控制语音机器人通过语音的方式提示用户重复当前语音。

在另一种语义调整示例中，当语义识别不完整时，通过标识符标记所述当前用户音频数据并系统反馈语义不完整。用于系统做出相应的反应。

图3是本发明一种多模态语义完整性识别装置的架构示意图，如图3所示，所述装置包括：

创建模块31，用于创建多模态语义完整性模型，其中，所述多模态语义完整性模型包括第一模型和第二模型，所述第一模型用于分别提取音频数据和文本数据中的音频向量特征和文本向量特征，所述第二模型用于结合音频向量特征、文本向量特征和对话特征识别语义完整性；

输入模块32，将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型中，得到语义完整性识别结果；

调整模块33，用于根据所述语义完整性识别结果调整当前对话的用户语义。

本发明中，所述对话数据包括当前用户语音是用户第几轮对话，当前用户语音的时长。

优选的，所述第一模型包括Word2Vec模型和VGG模型，所述第二模型为VAD模型。

进一步的，所述装置还包括：

采集模块，用于采集当前对话的用户音频数据和对话数据；

转换模块，用于将所述用户音频数据转换为文本数据。

在一种具体实施方式中，所述调整模块用于：若所述语义识别不完整，接收下一时段用户音频数据，将所述当前音频数据与下一段用户音频数据拼接作为完整语义；

或者，若所述语义识别不完整，提示用户重复当前语音；

本领域技术人员可以理解，上述装置实施例中的各模块可以按照描述分布于装置中，也可以进行相应变化，分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

下面描述本发明的电子设备实施例，该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节，应视为对于上述方法或装置实施例的补充；对于在本发明电子设备实施例中未披露的细节，可以参照上述方法或装置实施例来实现。

图4是根据本发明的一种电子设备的示例性实施例的结构框图。图4显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，该示例性实施例的电子设备400以通用数据处理设备的形式表现。电子设备400的组件可以包括但不限于：至少一个处理单元410、至少一个存储单元420、连接不同电子设备组件（包括存储单元420和处理单元410）的总线430、显示单元440等。

其中，所述存储单元420存储有计算机可读程序，其可以是源程序或都只读程序的代码。所述程序可以被处理单元410执行，使得所述处理单元410执行本发明各种实施方式的步骤。例如，所述处理单元410可以执行如图1所示的步骤。

所述存储单元420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）4201和/或高速缓存存储单元4202，还可以进一步包括只读存储单元（ROM）4203。所述存储单元420还可以包括具有一组（至少一个）程序模块4205的程序/实用工具4204，这样的程序模块4205包括但不限于：操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备300（例如键盘、显示器、网络设备、蓝牙设备等）通信，使得用户能经由这些外部设备300与该电子设备400交互，和/或使得该电子设备400能与一个或多个其它数据处理设备（例如路由器、调制解调器等等）进行通信。这种通信可以通过输入/输出（I/O）接口450进行，还可以通过网络适配器460与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）进行。网络适配器460可以通过总线430与电子设备400的其它模块通信。应当明白，尽管图4中未示出，电子设备400中可使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID电子设备、磁带驱动器以及数据备份存储电子设备等。

图5是本发明的一个计算机可读介质实施例的示意图。如图5所示，所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时，使得该计算机可读介质能够实现本发明的上述方法，即：创建多模态语义完整性模型，其中，所述多模态语义完整性模型包括第一模型和第二模型，所述第一模型用于分别提取音频数据和文本数据中的音频向量特征和文本向量特征，所述第二模型用于结合音频向量特征、文本向量特征和对话特征识别语义完整性；将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型中，得到语义完整性识别结果；根据所述语义完整性识别结果调整当前对话的用户语义。

通过以上的实施方式的描述，本领域的技术人员易于理解，本发明描述的示例性实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个计算机可读的存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台数据处理设备（可以是个人计算机、服务器、或者网络设备等）执行根据本发明的上述方法。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语音的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语音包括面向对象的程序设计语音—诸如Java、C++等，还包括常规的过程式程序设计语音—诸如“C”语音或类似的程序设计语音。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

综上所述，本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器（DSP）等通用数据处理设备来实现本发明的一些或者全部功能。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模态语义完整性识别方法，其特征在于，所述方法包括：

将历史用户语音的音频向量特征、文本向量特征和对话特征，以及该历史用户语音的语义完整性结果作为训练集输入第二模型中，对第二模型进行训练；

将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型中，得到语义完整性识别结果；所述对话数据包括当前用户语音是用户第几轮对话，当前用户语音的时长；将第几轮对话、及对话时长作为判断用户语义是否完整的一个维度，根据语音机器人每轮对话的问询，将用户每轮对话的时长设置在一定时长范围内，如果当前用户语音的时长小于该轮对话的时长范围，则当前用户语音的语义有可能不完整；

根据所述语义完整性识别结果调整当前对话的用户语义。

2.根据权利要求1所述的方法，其特征在于，所述对话数据包括当前用户语音是用户第几轮对话和/或当前用户语音的时长。

3.根据权利要求2所述的方法，其特征在于，所述第一模型包括Word2Vec模型和VGG模型。

4.根据权利要求2所述的方法，其特征在于，所述第二模型为VAD模型。

5.根据权利要求2所述的方法，其特征在于，所述将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型中之前，所述方法还包括：

采集当前对话的用户音频数据和对话数据；

将所述用户音频数据转换为文本数据。

6.根据权利要求2所述的方法，其特征在于，所述根据所述语义完整性识别结果调整当前对话的用户语义包括：

或者，若所述语义识别不完整，提示用户重复当前语音；

7.一种多模态语义完整性识别装置，其特征在于，所述装置包括：

训练模块，用于将历史用户语音的音频向量特征、文本向量特征和对话特征，以及该历史用户语音的语义完整性结果作为训练集输入第二模型中，对第二模型进行训练；

输入模块，将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型中，得到语义完整性识别结果；所述对话数据包括当前用户语音是用户第几轮对话，当前用户语音的时长；将第几轮对话、及对话时长作为判断用户语义是否完整的一个维度，根据语音机器人每轮对话的问询，将用户每轮对话的时长设置在一定时长范围内，如果当前用户语音的时长小于该轮对话的时长范围，则当前用户语音的语义有可能不完整；

8.一种电子设备，包括：

处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现权利要求1-6中任一项所述的方法。