CN112783324B

CN112783324B - 人机交互方法及设备、计算机存储介质

Info

Publication number: CN112783324B
Application number: CN202110048569.5A
Authority: CN
Inventors: 汪国新
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2023-12-01
Anticipated expiration: 2041-01-14
Also published as: CN112783324A

Abstract

本申请公开了一种人机交互方法及设备、计算机存储介质，该人机交互方法包括：获取待处理交互数据；利用预设的判停策略和回复策略分别对待处理交互数据进行预测，以获得输入预测数据和回复预测数据；将输入预测数据和回复预测数据分别与待处理交互数据进行合并，以获得第一校验数据和第二校验数据；对第一校验数据和第二校验数据分别进行语义完备度评分，得到第一分数和第二分数；若第一分数大于第二分数，则等待交互；若第一分数小于第二分数，则以回复预测数据进行回复。本申请所提供的人机交互方法能够增加用户交互的成功率，提高用户的交互体验。

Description

人机交互方法及设备、计算机存储介质

技术领域

本申请涉及人机交互技术领域，特别是涉及一种人机交互方法及设备、计算机存储介质。

背景技术

正常用户在交互过程中可能会出现短暂停顿、停顿了好几次或者是说了好几句话才完整表达了一个意思，进而造成了一个完整的句子分成了几个句子。

此时如果针对用户说的每一句话都进行回复，容易误导用户的交流思维过程，导致用户说着说着就忘了自己原本想表达的意思，影响用户体验。例如，一个想看《小猪佩奇》的用户，在第一次说完“我想看”之后产生了一个较短的停顿，此时如果逐句进行回复，则会直接回复“你想看什么呢，我这里有最新的电视剧哦”，但用户明显已有自己想看的视频，此时机器人对交互过程产生了不合理的干预，所以目前对这种情况下的应对方案还不完善。

发明内容

本申请主要解决的技术问题是提供一种人机交互方法及设备、计算机存储介质，能够增加用户交互的成功率，提高用户的交互体验。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种人机交互方法，所述方法包括：获取待处理交互数据，其中所述待处理交互数据至少包括已获取的当前用户交互数据；利用预设的判停策略和回复策略分别对所述待处理交互数据进行预测，以获得输入预测数据和回复预测数据，其中所述输入预测数据是对用户处于停顿状况下待输入的后续用户交互数据进行预测的结果，所述回复预测数据是对用户已完成输入状况下的回复内容进行预测的结果；将所述输入预测数据和所述回复预测数据分别与所述待处理交互数据进行合并，以获得第一校验数据和第二校验数据；对所述第一校验数据和所述第二校验数据分别进行语义完备度评分，得到第一分数和第二分数；若所述第一分数大于所述第二分数，则等待交互；若所述第一分数小于所述第二分数，则以所述回复预测数据进行回复。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种人机交互设备，所述人机交互设备包括处理器、存储器以及通信电路，所述处理器分别耦接所述存储器、所述通信电路，所述存储器中存储有程序数据，所述处理器通过执行所述存储器内的所述程序数据以实现上述方法中的步骤。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序能够被处理器执行以实现上述方法中的步骤。

本申请的有益效果是：本申请的人机交互方法在获取到待处理交互数据后，并不会直接进行回复，而是以两种不同的策略进行预测，得到两种预测结果，一种是预测用户可能还会继续输入的输入预测数据，另一种是预测用户不会继续输入而人机交互设备直接进行回复的回复预测数据，然后分别将得到的两种预测数据与待处理交互数据进行合并，得到第一校验数据和第二校验数据，接着对得到的两种校验数据进行语义完备度评分，即判断采用何种策略对待处理交互数据进行预测更加合理，然后执行对应的步骤，既能避免扰乱用户的交流思维，也能够及时对用户进行回复，最终保证增加用户交互的成功率，提高用户的交互体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请人机交互方法一实施方式的流程示意图；

图2是一应用场景中的人机交互数据；

图3是一应用场景中判停语义分析器和回复语义分析器的训练过程流程示意图；

图4是一应用场景中语义完备度评估器的训练过程流程示意图；

图5是本申请人机交互设备一实施方式的流程示意图；

图6是本申请计算机存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先需要说明的是，本申请人机交互方法由人机交互设备执行，该人机交互设备可以跟用户之间进行交互，可以是通过语音或手势或信息输入等交互方式，人机交互设备可以是例如手机、电脑、智能手表等具有信息接收和处理能力的设备，在此不做限制。

参阅图1，图1是本申请人机交互方法一实施方式的流程示意图，该方法包括：

S110：获取待处理交互数据。

具体地，待处理交互数据至少包括已获取的当前用户交互数据，其中当前用户交互数据指的是用户最新输入人机交互设备的数据，可以是之前或最新输入但人机交互设备还没有进行回复的数据，或者也可以是之前回复过的、但当前用户重新输入的数据。同时待处理交互数据可以是语音数据、图像数据或文本数据等等。如果是语音数据，可以先对语音数据进行语音识别后，将得到的文本数据作为后续步骤的处理对象。

S120：利用预设的判停策略和回复策略分别对待处理交互数据进行预测，以获得输入预测数据和回复预测数据。

具体地，输入预测数据是对用户处于停顿状况下待输入的后续用户交互数据进行预测的结果，回复预测数据是对用户已完成输入状况下的回复内容进行预测的结果。

其中判停策略和回复策略为两种不同的策略，采用判停策略进行预测指的是，预测用户在输入待处理交互数据后经过停顿，其还可能还会继续输入的数据，即此时认为用户在输入待处理交互数据时，并没有完全输入自己想交互的内容，只是停顿了一下，后续还会继续输入；采用回复策略进行预测指的是，预测用户在输入待处理交互数据后，人机交互设备可能回复的交互数据，即此时认为用户在输入待处理交互数据时，已经完全输入自己想交互的内容，后续需要人机交互设备进行回复。

也就是说，输入预测数据为在接收到待处理交互数据后，用户可能继续输入的数据，回复预测数据为在接收到待处理交互数据后，人机交互设备可能回复的数据。

例如，当待处理交互数据中的当前用户交互数据为“我想看小猪”时，若采用判停策略进行预测，则人机交互设备得到的结果为“佩奇”，即认为用户还会在输入“我想看小猪”之后，继续输入“佩奇”；若采用回复策略进行预测，则人机交互设备得到的结果为“好的，下面为您播放小猪的视频”，即认为用户已经完整表达自己的意思，其就是想看有关小猪的视频。

在一应用场景中，为了提高步骤S120的处理速度，预先训练一判停语义分析器和回复语义分析器，而后采用判停语义分析器和回复语义分析器分别对待处理交互数据进行预测，以得到输入预测数据和回复预测数据。具体地，判停语义分析器和回复语义分析器预先被训练完毕达到收敛，将待处理交互数据输入判停语义分析器后，判停语义分析器输出输入预测数据，将待处理交互数据输入回复语义分析器后，回复语义分析器输出回复预测数据。

在一应用场景中，在采用判停语义分析器和回复语音分析器分别对待处理交互数据进行预测时，包括以下步骤：

步骤1：对待处理交互数据进行词向量处理（word-embedding），得到待处理交互数据的词表征向量。

具体地，词向量处理的过程为，针对待处理交互数据中的每个字而言，都使用一个固定长度的向量表示，例如，对于一个包括L个字的待处理交互数据而言（L也是待处理交互数据的长度），其中每个字都使用一个长度为128的向量表示，从而得到该待处理交互数据的词表征向量的大小为1*L*128。

可以理解的是，对待处理交互数据进行词向量处理，以基于得到的词表征向量执行后续步骤可以便于后续的数据处理，能够提高处理速度。

步骤2：提取待处理交互数据的至少一个特征向量，至少一个特征向量表征待处理交互数据的角色信息、轮次信息、停顿信息、贴弧特征信息中的至少一个或组合。

具体地，待处理交互数据的角色信息表示的是该待处理交互数据哪些是用户发出的，哪些是人机交互设备发出的，或者还可以表示用户在交互过程中担任的角色，例如主持人、普通咨询者、重要客户等等。其中针对待处理交互数据中的每个字而言，都使用一个长度为2的向量表示角色信息，例如，（0，1）表示是用户发出的，（1，0）表示是人机交互设备发出的，从而得到角色信息的特征向量的大小为1*L*2（L为待处理交互数据中的字数）。当然在其它实现方式中，也可以用其它长度的向量表征角色信息，本发明对此不限定。

待处理交互数据的轮次信息表示的是该待处理交互数据是交互过程的第几轮，其中，用户与人机交互设备的一次来回对话作为一轮，例如图2中的交互数据，人机交互设备的第一句其轮次标记为0，用户的第二句至第四句为第一轮，而后人机交互设备的回复也为第一轮，后面的轮次按照该规则进行递增。其中在提取待处理交互数据的轮次信息时，针对待交互数据中的每个字，都使用一个固定长度的向量表示其的轮次信息，例如固定长度为5（也可以是10、20或者等他数值），然后该向量从右往左（也可以是从左往右）数，对应的字是第几轮，则在该向量的对应位置上置1，其余位置上置0，例如，一个字的轮次信息为第2轮，则对应的向量为（0，0，0，1，0），如果是第5轮，则对应的向量为（1，0，0，0，0），从而得到轮次信息的特征向量的大小为1*L*5（L为待处理交互数据中的字数）。

待处理交互数据的停顿信息表示的是该待处理交互数据是本轮中同一角色的第几个停顿的子句，以图2中的交互数据为例，“我想看”是第一轮中用户说的第一个子句，则其停顿标记为1（所包括的各个字的停顿标记都是1），“小猪”是第一轮中用户说的第二个子句，则其停顿标记为2，“佩奇”是第一轮中用户说的第三个子句，则其停顿标记为3，“好的，你想看中文的还是英文的”是第一轮中人机交互设备说的第一个句子（该句子没有停顿，直接说完），则其停顿标记为1，而后针对待处理交互数据中的每个字，都使用一个固定长度的向量表示其的停顿标记，例如固定长度为7（也可以是10、20或者等他数值），然后对应的字的停顿标记是几，则将该向量从右往左（也可以是从左往右）的对应位置上置1，其余位置上置0，例如，一个字的停顿标记是1，则其停顿信息的特征向量为（0，0，0，0，0，0，1），一个字的停顿标记是5，则其停顿信息的特征向量为（0，0，1，0，0，0，0），从而得到停顿信息的特征向量的大小为1*L*5（L为待处理交互数据中的字数）。

贴弧特征信息的特征向量表征的是待处理交互数据中的每个字是否属于特定领域的专有名词，例如，“佩奇”其贴弧特征信息可以是“video”，即影视类别，其中，针对待处理交互数据中的每个字，都使用一个固定长度的向量表示其的贴弧特征信息，例如，对于电视领域，假设有music标签，video标签，cartoon标签，且设置贴弧特征信息的特征向量的长度为10，且向量从右往左（也可以是从左往右）对应的标签依次为B-MUSIC、I-MUSIC、B-CARTOON、I-CARTOON、B-VIDEO、I-VIDEO、O、S-MUSIC、S- CARTOON、S-VIDEO，其中，O标签表示当前字没有贴弧标签，B-MUSIC标签表示当前字是某一个音乐名字开头的字，I-MUSIC标签表示当前字是某一个音乐名字中间的字，S-MUSIC标签表示当前字是一个单字，且是某一个音乐名字，其他的标签依次类推，然后对于待处理交互数据中的每个字，其对应哪个贴弧标签，就在特征向量的对应位置上置1，其余位置上置0，那么贴弧特征信息的特征向量的大小为1*L*10，例如“我想看小猪佩奇动画”，其对应的贴弧特征向量如下：

表一贴弧特征向量表

其中，在提取待处理交互数据的特征向量时，可以只提取角色信息、轮次信息、停顿信息、贴弧特征信息中的一个，也可以提取多个。

步骤3：将词表征向量和至少一个特征向量进行合并，以得到合并向量。

具体地，以步骤2同时提取角色信息、轮次信息、停顿信息、贴弧特征信息的特征向量对合并过程进行说明：假设待处理交互数据的长度为L（也就是其包括L个字），其词表征向量的大小为1*L*128（128可以替换为其他数值），角色信息的特征向量的大小为1*L*2，轮次信息的特征向量的大小为1*L*5，停顿信息的特征向量的大小为1*L*7，贴弧特征信息的特征向量的大小为1*L*10，则合并向量的大小为1*L*（128+2+5+10）。

可以理解的是，得到的合并向量能够表征待处理交互数据的角色信息、轮次信息、停顿信息、贴弧特征信息中的至少一种特征。

步骤4：将合并向量分别输入判停语义分析器和回复语义分析器，以得到输入预测数据和回复预测数据。

基于得到的合并向量进行预测，能够考虑到待处理交互数据的上下文信息，保证得到的输入预测数据、回复预测数据的准确性。以上对判停语义分析器和回复语义分析器的处理过程进行了介绍，以下介绍判停语义分析器和回复语义分析器的训练过程。

参阅图3，在一应用场景中，判停语义分析器和回复语义分析器的训练过程包括：

S101：获取第一训练数据，训练数据包括形成至少一轮进入交互的用户输入样本和机器回复样本，其中用户输入样本包括时序上依次设置的子样本段。

具体地，用户输入样本为用户输入的内容，机器回复样本为人机交互设备针对用户输入的内容进行回复的内容。

为了更好理解步骤S101，结合图2，“我想看小猪佩奇”即为用户输入样本，“好的，你想看中文的还是英文的呢”即为机器回复样本，同时“我想看小猪佩奇”进一步包括时序上依次设置的若干个子样本段，例如，“我想看小猪”为时序在前的子样本段，“佩奇”为时序在后的子样本段。

其中，在获取第一训练数据时，其中的用户输入样本可以已经按照预设策略被划分成在时序上依次设置的子样本段，或者也可以是在获取到第一训练数据中的用户输入样本后，将用户输入样本按照预设的策略划分成在时序上依次设置的子样本段。其中预设策略可以是随机划分，例如随机间隔一定的字数划分，也可以是按照预设的字数划分，例如每隔3个字进行划分。S102：以用户输入样本中时序在前的子样本段作为输入，并以时序在后的子样本段为真值标签对判停语义分析器进行训练。

具体地，结合图2，例如以“我想看小猪”作为输入，以“佩奇”为真值标签对判停语义分析器进行训练，即以用户输入样本的前半部分作为输入，后半部分为真值标签对判停语义分析器进行训练。

其中在训练过程中，需要对用户输入样本中时序在前的子样本段进行词向量处理，得到对应的词表征向量，以及提取用户输入样本中时序在前的子样本段的至少一个特征向量，至少一个特征向量表征该子样本段的角色信息、轮次信息、停顿信息、贴弧特征信息中的至少一个或组合，然后将得到的词表征向量和至少一个特征向量进行合并，得到合并向量。同时还需要对时序在后的子样本段进行词向量处理，得到对应的词表征向量。然后在训练时，以得到的合并向量为输入，时序在后的子样本段对应的词表征向量作为真值标签对判停语义分析器进行训练。

通过上述步骤对判停语义分析器进行训练，使得到的判停语义分析器能够准确预测用户处于停顿状况下，后续的交互数据，且能够使判停语义分析器在进行预测时，能够结合上下文信息，提高预测结果的准确性。其中在提取特征向量时，预先对训练数据进行标记：

第一类标记为角色信息标记：判断对应的角色是用户还是人机交互设备，例如图2的数据中，属于人机交互设备的标记为R，属于用户的标记为U；

第二类标记为轮次信息标记：判断某一个字属于人机交互过程中的第几轮，其中用户与人机交互设备的一次来回对话作为一轮，例如图2的数据中，用户的第二句至第四句为第一轮，而后人机交互设备的回复也为第一轮，因此其对应的轮次标记为1，结合前面的第一类标记，则用户的第二句至第四句标记为U1，人机交互设备对此的回复标记为R1，后面的以此类推，其中人机交互设备的第一句话轮次信息标记为0，结合第一类标记，进一步标记为R0；

第三类标记为停顿信息标记：判断某一个字是同一角色在本轮中停顿的第几个句子，例如图2中，“我想看”是第一轮中用户说的第一个子句，则其停顿标记为1（所包括的各个字的停顿标记都是1），“小猪”是第一轮中用户说的第二个子句，则其停顿标记为2，“佩奇”是第一轮中用户说的第三个子句，则其停顿标记为3，“好的，你想看中文的还是英文的”是第一轮中人机交互设备说的第一个句子（该句子没有停顿，直接说完），则其停顿标记为1，然后结合第一类标记和第二类标记，将“我想看”、“小猪”、“佩奇”、“好的，你想看中文的还是英文的呢”依次标记为U11、U12、U13以及R11；

第四类标记为贴弧特征信息标记，首先贴弧特征指的是利用贴弧技术对数据进行贴弧操作，得到贴弧特征。此处的贴弧技术是指将某个领域的所有专有名词都整理到一起，使用现有贴弧的技术（贴弧的方法可以使用正则匹配、AC自动机等）对数据进行标记操作，从而判断数据中的字是否属于特定领域。

在形成上述四类标记后，针对每类标记形成对应的特征向量。

其中此处特征向量的提取过程与上述特征向量的提取过程相同，具体可参见上述实施方式，在此不再赘述。

同时词表征向量和特征向量进行合并的过程与上述合并的过程也相同，具体可参见上述实施方式，在此不再赘述。

在一应用场景中，判停语义分析器基于双向深度循环神经网络构建，例如GRU，同时该判停语义分析器可以利用一双向GRU进行编码，同时利用另一双向GRU进行解码，从而得到预测结果。

S103：以用户输入样本作为输入，并以机器回复样本作为真值标签对回复语义分析器进行训练。

具体地，结合图2，此时以“我想看小猪佩奇”作为输入，以“好的，你想看中文的还是英文的呢”为真值标签对回复语义分析器进行训练。

其中在训练过程中，也需要对用户输入样本进行词向量处理、特征向量提取以及词表征向量和特征向量进行合并等步骤，其中具体处理过程与步骤S102的处理过程相同，具体可参见上述方式，在此不再赘述。

通过上述步骤对回复语义分析器进行训练，使得到的回复语义分析器能够准确预测用户已完成输入状况下，后续人机交互设备的回复数据，且能够使回复语义分析器在进行预测时，能够结合上下文信息，提高预测结果的准确性。

在一应用场景中，回复语义分析器的结构与判停语义分析器的结构相同，都基于双向深度循环神经网络构建，同时在训练过程中，两者都采用对数概率损失函数作为损失函数，具体如下：

，其中，N表示的是参与训练的样本数，L表示的是判停语义分析器或回复语义分析器预测出的句子的长度，/>表示判停语义分析器或回复语义分析器在第l时刻所预测的词表中某个词的概率。

在其他应用场景中，回复语义分析器的结构与判停语义分析器的结构也可以不相同，且也可以利用其他函数作为损失函数，例如交叉熵损失函数等。

以上对步骤S120的过程进行了详细介绍，下面继续结合图1，介绍步骤S120之后的步骤。

S130：将输入预测数据和回复预测数据分别与待处理交互数据进行合并，以获得第一校验数据和第二校验数据。

在一应用场景中，将输入预测数据和回复预测数据分别合并在待处理交互数据之后，得到第一校验数据和第二校验数据。

为了便于理解，在此举出具体例子：若待处理交互数据为“我想看小猪”，采用判停策略得到的预测结果为“佩奇”，采用回复策略得到的预测结果为“好的，下面为您播放小猪的视频”，则此时第一校验数据即为“我想看小猪佩奇”，第二校验数据即为“我想看小猪，好的，下面为您播放小猪的视频”。

在其他应用场景中，也可以将输入预测数据和回复预测数据分别合并在待处理交互数据之前，得到第一校验数据和第二校验数据。

S140：对第一校验数据和第二校验数据分别进行语义完备度评分，得到第一分数和第二分数。

具体地，第一分数与第一校验数据对应，第二分数与第二校验数据对应。对第一校验数据和第二校验数据分别进行语义完备度评分，评分越高，表示对应的校验数据语义完备度越高，对应的预测数据更加符合上文语境。

在一应用场景中，为了提高步骤S140的处理效率，采用预先训练好的语义完备度评估器分别对第一校验数据和第二校验数据进行语义完备度评分，得到第一分数和第二分数。具体地，语义完备度评估器预先训练并达到收敛，在将第一校验数据和第二校验数据输入语义完备度评估器后，语义完备度评估器输出与第一校验数据对应的第一分数和与第二校验数据对应的第二分数。

在一应用场景中，在采用语义完备度评估器分别对第一校验数据和第二校验数据进行语义完备度评分时，包括以下步骤：

步骤1：对第一校验数据和第二校验数据分别进行词向量处理，得到第一校验词向量、第二校验词向量。

步骤2：将第一校验词向量和第二校验词向量均输入语义完备度评估器，以得到第一分数和第二分数。

具体地，先将第一校验数据和第二校验数据转化为对应的词表征向量后，将两者所对应的词表征向量输入语义完备度评估器，而后语义完备度评估器输出第一分数和第二分数。其中此处词向量处理的过程与上述词向量处理的过程相同，具体可参见上述实施方式，在此不再赘述。

同时对第一校验数据和第二校验数据分别进行词向量处理，以基于得到的第一校验词向量、第二校验词向量进行评分，能够提高处理数据的速度。

参阅图4，在一应用场景中，语义完备度评估器的训练过程包括：

S104：获取第二训练数据，其中第二训练数据包括正确对话数据和错误对话数据。

S105：以正确对话数据为正样本，错误对话数据为负样本对语义完备度评估器进行训练。

具体地，正确对话数据指的是符合语境的对话数据，错误对话数据指的是不符合语境的对话数据，例如，如果用户想表达的是“我想看小猪佩奇”，那么“我想看小猪佩奇”就是正确对话数据，而“我想看小猪，好的，你想看中文的还是英文的”就是错误对话数据。

可以理解的是，正确对话数据的评分高于错误对话数据的评分，这样更加符合常规逻辑，若在训练过程中出现了错误，能够便于查找。

在一应用场景中，语义完备度评估器所采用的结构是单层全连接神经网络及softmax激活函数，其具有两个输出节点，分别输出第一分数和第二分数（具体输出时，可以以两个概率值的形式表示对应的分数）。

在一应用场景中，语义完备度评估器在训练时所采用的损失函数为交叉熵函数，在其他应用场景中，也可以是平方损失函数或指数损失函数等其他损失函数，在此不做限制。

以上对步骤S140的过程进行了详细介绍，下面继续结合图1，介绍步骤S140之后的步骤。

S150：判断第一分数是否大于第二分数。

若判断结果为是，则进入步骤S160，否则，则进入步骤S170。

S160：等待交互。

S170：以回复预测数据进行回复。

具体地，若第一分数大于第二分数，表示输入预测数据更加适合上文内容（即待处理交互数据），此时等待用户停顿之后继续输入数据更加合理，则直接等待交互，即对人机交互设备来说，其不会执行任何动作；若第二分数大于或者等于第一分数，则预测回复内容更加适合上文内容，此时直接对用户进行回复更加合理，且此时进行回复时，直接以预测得到的回复预测数据进行回复。

需要说明的是，在其他实施方式中，当第一分数与第二分数相等时，也可以不执行步骤S170，此时可以执行步骤S160，或者随机执行步骤S160或步骤S170。

在一应用场景中，步骤S160在等待交互时，若等待交互的时长超过预设的时长阈值（例如，预设的时长阈值为20秒、30秒或者1分钟等），则以预设的回复内容进行回复。具体地，当等待交互的时长超过预设的时长阈值时，表明用户确实已经完全输入自己想表达的数据，此时需要人机交互设备进行回复。其中人机交互设备在进行回复时，回复的预设的回复内容可以是步骤S120得到的回复预测数据，也可以是预先设定的固定内容，例如“您好，我没有听清，请您再重复一遍”等。

从上述内容可以看出，在接收到待处理交互数据后，以两种不同的策略进行预测，并得到两种预测结果，一种是预测用户可能还会继续输入的输入预测数据，另一种是预测用户不会继续输入而人机交互设备直接进行回复的回复预测数据，然后分别将得到的两种预测数据与待处理交互数据进行合并，得到第一校验数据和第二校验数据，接着对得到的两种校验数据进行语义完备度评分，即判断采用何种策略对待处理交互数据进行预测更加合理，然后执行对应的步骤。也就是说，相比现有技术，本申请在获取待处理交互数据后，并不会直接进行回复，而是会考虑此时是继续等待用户输入，还是直接进行回复更加合理，从而既能避免扰乱用户的交流思维，也能够及时对用户进行回复，最终保证增加用户交互的成功率，提高用户的交互体验。

参阅图5，图5是本申请人机交互设备一实施方式的结构示意图。该人机交互设备200包括处理器210、存储器220以及通信电路230，处理器210分别耦接存储器220、通信电路230，存储器220中存储有程序数据，处理器210通过执行存储器220内的程序数据以实现上述任一项实施方式人机交互方法中的步骤，其中详细的步骤可参见上述实施方式，在此不再赘述。

其中，人机交互设备200可以是手机、电脑、智能手表等任一项可以与用户进行交互的设备，具体其为何种设备，在此不做限制。

参阅图6，图6是本申请计算机存储介质一实施方式的结构示意图。该计算机存储介质300存储有计算机程序310，计算机程序310能够被处理器执行以实现上述任一项方法中的步骤。

其中，计算机存储介质300具体可以为U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等可以存储计算机程序310的装置，或者也可以为存储有该计算机程序310的服务器，该服务器可将存储的计算机程序310发送给其他设备运行，或者也可以自运行该存储的计算机程序310。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种人机交互方法，其特征在于，所述方法包括：

获取待处理交互数据，其中所述待处理交互数据至少包括已获取的当前用户交互数据；

利用预设的判停策略和回复策略分别对所述待处理交互数据进行预测，以获得输入预测数据和回复预测数据，其中所述输入预测数据是对用户处于停顿状况下待输入的后续用户交互数据进行预测的结果，所述回复预测数据是对用户已完成输入状况下的回复内容进行预测的结果；

将所述输入预测数据和所述回复预测数据分别与所述待处理交互数据进行合并，以获得第一校验数据和第二校验数据；

对所述第一校验数据和所述第二校验数据分别进行语义完备度评分，得到第一分数和第二分数；

若所述第一分数大于所述第二分数，则等待交互；

若所述第一分数小于所述第二分数，则以所述回复预测数据进行回复。

2.根据权利要求1所述的方法，其特征在于，所述若所述第一分数大于所述第二分数，则等待交互的步骤之后，进一步包括：

若等待交互的时长超过预设的时长阈值，则以预设的回复内容进行回复。

3.根据权利要求2所述的方法，其特征在于，所述预设的回复内容为所述回复预测数据。

4.根据权利要求1所述的方法，其特征在于，所述利用预设的判停策略和回复策略分别对所述待处理交互数据进行预测的步骤，包括：

采用预先训练好的判停语义分析器和回复语义分析器分别对所述待处理交互数据进行预测，以得到所述输入预测数据和所述回复预测数据。

5.根据权利要求4所述的方法，其特征在于，所述采用预先训练好的判停语义分析器和回复语义分析器分别对所述待处理交互数据进行预测的步骤，包括：

对所述待处理交互数据进行词向量处理，得到所述待处理交互数据的词表征向量；

提取所述待处理交互数据的至少一个特征向量，所述至少一个特征向量表征所述待处理交互数据的角色信息、轮次信息、停顿信息、贴弧特征信息中的至少一个或组合；

将所述词表征向量和所述至少一个特征向量进行合并，以得到合并向量；

将所述合并向量分别输入所述判停语义分析器和所述回复语义分析器，以得到所述输入预测数据和所述回复预测数据。

6.根据权利要求5所述的方法，其特征在于，在所述获取待处理交互数据的步骤之前，进一步包括：

获取第一训练数据，所述训练数据包括形成至少一轮进入交互的用户输入样本和机器回复样本，其中所述用户输入样本包括时序上依次设置的子样本段；

以所述用户输入样本中时序在前的子样本段作为输入，并以时序在后的子样本段为真值标签对所述判停语义分析器进行训练；

以所述用户输入样本作为输入，并以所述机器回复样本作为真值标签对所述回复语义分析器进行训练。

7.根据权利要求1所述的方法，其特征在于，所述对所述第一校验数据和所述第二校验数据分别进行语义完备度评分的步骤，包括：

采用预先训练好的语义完备度评估器分别对所述第一校验数据和所述第二校验数据进行语义完备度评分，得到所述第一分数和所述第二分数。

8.根据权利要求7所述的方法，其特征在于，所述采用预先训练好的语义完备度评估器分别对所述第一校验数据和所述第二校验数据进行语义完备度评分的步骤，包括：

对所述第一校验数据和所述第二校验数据分别进行词向量处理，得到第一校验词向量、第二校验词向量；

将所述第一校验词向量和所述第二校验词向量均输入所述语义完备度评估器，以得到所述第一分数和所述第二分数。

9.根据权利要求8所述的方法，其特征在于，在所述获取待处理交互数据的步骤之前，进一步包括：

获取第二训练数据，其中所述第二训练数据包括正确对话数据和错误对话数据；

以所述正确对话数据为正样本，所述错误对话数据为负样本对所述语义完备度评估器进行训练。

10.一种人机交互设备，其特征在于，所述人机交互设备包括处理器、存储器以及通信电路，所述处理器分别耦接所述存储器、所述通信电路，所述存储器中存储有程序数据，所述处理器通过执行所述存储器内的所述程序数据以实现如权利要求1-9任一项所述方法中的步骤。

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-9任一项所述方法中的步骤。