CN109102825A

CN109102825A - 一种饮酒状态检测方法及装置

Info

Publication number: CN109102825A
Application number: CN201810844158.5A
Authority: CN
Inventors: 陈洋; 夏涛; 梅林海; 陈志刚
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2018-12-28
Anticipated expiration: 2038-07-27
Also published as: CN109102825B

Abstract

本申请公开了一种饮酒状态检测方法及装置，该方法包括：在每轮人机交互过程中，选择一个问题并提供给被检测者，然后获取到被检测者对问题的回答结果，接着，通过对被检测者在至少一轮人机交互中的回答结果的分析，判断出被检测者是否处于饮酒状态。可见，本申请不再局限于只采用酒精浓度的检测方法判断被检测者是否饮酒驾驶，而是采用语音交互的方式，通过对被检测者对语音交互设备提出的问题的回答结果进行分析，判断出被检测者是否处于饮酒状态，从而提高了饮酒状态检测结果的准确率，同时，也无需被检测者下车进行检测，对被检测者要求较低，且检测方式较为便捷。

Description

一种饮酒状态检测方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种饮酒状态检测方法及装置。

背景技术

根据交通部统计数据显示，酒后驾驶已经成为交通事故的主要诱因。

目前，为了检测驾驶员是否酒驾，多采用酒精浓度的检测方法，根据酒精浓度来判断驾驶员是否饮酒驾驶，主要是利用酒精锁、酒精探测仪、皮肤接触式酒精检测仪等酒驾检测设备进行检测。

但是，上述酒驾检测设备存在适用性差、检测准确性不高、对环境因素要求比较高的使用条件限制，存在检测准确率低的问题，因而，如果汽车中有乘客饮酒，利用上述酒驾检测设备检测驾驶员是否酒驾，会对最终的酒精检测结果会造成较大影响，从而导致检测结果不准确。而且，如果要求驾驶员下车进行检测的话，对驾驶员要求较高，且检测方式不够便捷。

发明内容

本申请实施例的主要目的在于提供一种饮酒状态检测方法及装置，能够提高饮酒状态检测结果的准确率。

本申请实施例提供了一种饮酒状态检测方法，包括：

在每轮人机交互过程中，选择一个问题并提供给被检测者；

获取所述被检测者对所述问题的回答结果；

根据所述被检测者在至少一轮人机交互中的回答结果，判断所述被检测者是否处于饮酒状态。

可选的，所述根据所述被检测者在至少一轮人机交互中的回答结果，判断所述被检测者是否处于饮酒状态，包括：

对于所述被检测者在至少一轮人机交互中的每一回答结果，获取每一回答结果对应的结果特征数据，其中，所述结果特征数据包括所述回答结果对应的音频数据的声学特征和/或所述回答结果对应的文本数据的语义特征；

根据每一回答结果对应的结果特征数据，判断所述被检测者是否处于饮酒状态。

可选的，所述结果特征数据还包括：

在所述回答结果对应的一轮人机交互过程中，所述被检测者附近的酒精浓度。

可选的，所述根据每一回答结果对应的结果特征数据，判断所述被检测者是否处于饮酒状态，包括：

获取上轮特征数据和本轮特征数据，其中，所述上轮特征数据包括上一轮人机交互中的回答结果对应的结果特征数据，所述本轮特征数据包括本轮人机交互中的回答结果对应的结果特征数据；

根据所述上轮特征数据和所述本轮特征数据生成第一预测结果，作为本轮预测结果，其中，所述第一预测结果包括所述被检测者处于饮酒状态的可能性概率以及下一轮人机交互的问题的难易度；

根据至少一轮预测结果中的第一预测结果，判断所述被检测者是否处于饮酒状态。

可选的，所述声学特征包括响应特征、音调特征和流畅度特征中的至少一个，其中：

所述响应特征是反映所述被检测者对所述问题的响应速度的特征数据；

所述音调特征是反映所述回答结果的音调高低的特征数据；

所述流畅度特征是反映所述回答结果的流畅程度的特征数据。

可选的，所述语义特征包括正确度特征、语速特征、个人情感特征以及词嵌入矩阵中的至少一个，其中：

所述正确度特征是反映所述回答结果是否正确的特征数据；

所述语速特征是反映所述被检测者的语速快慢的特征数据；

所述个人情感特征是反映所述被检测者的情感状态的特征数据；

所述词嵌入矩阵是所述回答结果的各个词语的词向量数据。

检测所述被检测者的面部特征；

根据所述面部特征以及所述被检测者在至少一轮人机交互中的回答结果，判断所述被检测者是否处于饮酒状态。

可选的，所述根据所述面部特征以及所述被检测者在至少一轮人机交互中的回答结果，判断所述被检测者是否处于饮酒状态，包括：

根据所述被检测者的面部特征生成第二预测结果，其中，所述第二预测结果包括所述被检测者处于饮酒状态的可能性概率；

根据所述第二预测结果以及所述被检测者在至少一轮人机交互中的回答结果，判断所述被检测者是否处于饮酒状态。

本申请实施例还提供了一种饮酒状态检测装置，包括：

问题选择单元，用于在每轮人机交互过程中，选择一个问题并提供给被检测者；

结果获取单元，用于获取所述被检测者对所述问题的回答结果；

状态判断单元，用于根据所述被检测者在至少一轮人机交互中的回答结果，判断所述被检测者是否处于饮酒状态。

可选的，所述状态判断单元包括：

特征获取子单元，用于对于所述被检测者在至少一轮人机交互中的每一回答结果，获取每一回答结果对应的结果特征数据，其中，所述结果特征数据包括所述回答结果对应的音频数据的声学特征和/或所述回答结果对应的文本数据的语义特征；

第一状态判断子单元，用于根据每一回答结果对应的结果特征数据，判断所述被检测者是否处于饮酒状态。

可选的，所述结果特征数据还包括：

可选的，所述第一状态判断子单元包括：

第一特征获取子单元，用于获取上轮特征数据和本轮特征数据，其中，所述上轮特征数据包括上一轮人机交互中的回答结果对应的结果特征数据，所述本轮特征数据包括本轮人机交互中的回答结果对应的结果特征数据；

第一预测结果生成子单元，用于根据所述上轮特征数据和所述本轮特征数据生成第一预测结果，作为本轮预测结果，其中，所述第一预测结果包括所述被检测者处于饮酒状态的可能性概率以及下一轮人机交互的问题的难易度；

第二状态判断子单元，用于根据至少一轮预测结果中的第一预测结果，判断所述被检测者是否处于饮酒状态。

所述音调特征是反映所述回答结果的音调高低的特征数据；

所述正确度特征是反映所述回答结果是否正确的特征数据；

所述语速特征是反映所述被检测者的语速快慢的特征数据；

所述词嵌入矩阵是所述回答结果的各个词语的词向量数据。

可选的，所述状态判断单元包括：

特征检测子单元，用于检测所述被检测者的面部特征；

第三状态判断子单元，用于根据所述面部特征以及所述被检测者在至少一轮人机交互中的回答结果，判断所述被检测者是否处于饮酒状态。

可选的，所述第三状态判断子单元包括：

第二预测结果生成子单元，用于根据所述被检测者的面部特征生成第二预测结果，其中，所述第二预测结果包括所述被检测者处于饮酒状态的可能性概率；

第四状态判断子单元，用于根据所述第二预测结果以及所述被检测者在至少一轮人机交互中的回答结果，判断所述被检测者是否处于饮酒状态。

本申请实施例还提供了一种饮酒状态检测装置，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述饮酒状态检测方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述饮酒状态检测方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述饮酒状态检测方法中的任意一种实现方式。

本申请实施例提供的一种饮酒状态检测方法及装置，在每轮人机交互过程中，选择一个问题并提供给被检测者，然后，获取到被检测者对该问题的回答结果，接着，通过对被检测者在至少一轮人机交互中的回答结果的分析，判断出被检测者是否处于饮酒状态。可见，本申请实施例不再局限于只采用酒精浓度的检测方法判断被检测者是否饮酒驾驶，而是采用语音交互的方式，通过对被检测者对语音交互设备提出的问题的回答结果进行分析，判断出被检测者是否处于饮酒状态，从而提高了饮酒状态检测结果的准确率，同时，也无需被检测者下车进行检测，对被检测者要求较低，且检测方式较为便捷。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种饮酒状态检测方法的流程示意图；

图2为本申请实施例提供的判断被检测者是否处于饮酒状态的流程示意图之一；

图3为本申请实施例提供的判断被检测者是否处于饮酒状态的流程示意图之二；

图4为本申请实施例提供的Bi-LSTM模型的结构示意图；

图5为本申请实施例判断被检测者是否处于饮酒状态的流程示意图之三；

图6为本申请实施例提供的一种饮酒状态检测装置的组成示意图。

具体实施方式

在一些饮酒状态检测方法中，通常是利用酒精锁、酒精探测仪、皮肤接触式酒精检测仪等酒驾检测设备对驾驶员进行检测，根据检测到的酒精浓度来判断驾驶员的饮酒状态，进而判断驾驶员是否酒驾。但是，这些酒驾检测设备存在适用性差、检测准确性不高、对环境因素要求比较高的使用条件限制等问题，并且，这种完全依靠酒驾检测设备对驾驶员进行酒精浓度检测的方式，当遇到乘客饮酒而驾驶员没有饮酒的情况时，将导致检测结果不准确，而且，这种检测方式也不够便捷，如果要求驾驶员下车进行检测的话，对驾驶员要求也较高。

为解决上述缺陷，本申请实施例提供了一种饮酒状态检测方法，加入了语音交互的检测方式，利用语音交互设备在每轮人机交互过程中，选择一个问题向驾驶员进行提问，然后，获取到每轮人机交互中驾驶员对问题的回答结果，接着，通过对驾驶员在至少一轮人机交互中的回答结果进行分析，以判断驾驶员的饮酒状态，这样，通过语音交互的方式可以更便捷、更准确的检测出驾驶员的饮酒状态，同时，也无需驾驶员下车进行检测，对驾驶员的要求也较低。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种饮酒状态检测方法的流程示意图，该方法包括以下步骤：

S101：在每轮人机交互过程中，选择一个问题并提供给被检测者。

在本实施例中，将采用本实施例实现饮酒状态检测的任一用户定义为被检测者，例如，在酒驾检测场景中，驾驶员即为被检测者。为了提高饮酒状态检测结果的准确率并加强检测的便捷性，本实施例采用了语音交互的检查方式，通过对被检测者语音的识别以及对其语义的理解，检测出被检查者的饮酒状态。

具体来讲，在利用语音交互的方式对被检测者进行检测的过程中，首先，需要利用语音交互设备与被检测者进行至少一轮的人机交互，并且在每轮人机交互的过程中，需要选择一个问题提供给被检测者，以便被检测者在每轮人机交互的过程中可以通过语音回答对应的问题。

S102：获取被检测者对问题的回答结果。

在每轮人机交互过程中，语音交互设备在选择一个问题提供给被检测者之后，设备将开始针对被检查者进行录音，以便获取到被检测者在每轮人机交互过程中对问题的回答结果，该回答结果指的是被检测者以语音方式回答该问题形成的语音数据。

S103：根据被检测者在至少一轮人机交互中的回答结果，判断被检测者是否处于饮酒状态。

在本实施例中，通过步骤S102获取的被检测者在每轮人机交互过程中对问题的回答结果后，可以对其中至少一轮人机交互中被检测者的回答结果进行数据处理，进而根据处理结果判断出被检测者是否处于饮酒状态。

具体来讲，对被检测者的回答结果进行数据处理指的是对被检测者回答问题时发出的音频数据进行处理，在具体的处理过程中，一方面是对被检测者的音频数据进行声学特征提取，获取该音频数据对应的响应时间、音调、流畅度等声学特征；另一方面是利用现有或未来出现的语音识别方法对被检测者的音频数据进行识别，比如，可以使用语音活动检测(Voice Activity Detection，简称VAD)方法对被检测者的语音数据进行识别，将被检测者的音频数据转换为文本数据，进而可以对该文本数据进行语义特征提取，获取该文本数据对应的正确度、语速、个人情感以及词嵌入矩阵等语义特征。然后，可以根据获取到的被检测者的语音数据对应的数据特征，判断出被检测者是否处于饮酒状态，具体的通过对语音数据进行处理以判断被检测者是否处于饮酒状态的实现过程可参见后续第二实施例的相关介绍。

进一步地，一般来说，当被检测者为驾驶员时，在被检测者饮酒、乘客没有饮酒情况下，被检测者回答问题的过程中，分散的酒精分子会从驾驶座位渐渐向其他座位分散，被检测者座位附近的酒精浓度涨幅不大，但是乘客座位附近的酒精浓度涨幅比较明显；在被检测者没有饮酒、乘客饮酒的情况下，乘客附近的酒精浓度基本保持不变，但是被检测者附近的酒精浓度涨幅比较明显。这些变化的数据能够辅助验证被检测者是否酒驾。

此外，轻度饮酒的被检测者通常具有面部发红的特征，而醉酒的被检测者通常面部发白，由此，通过提取被检测者的面部颜色特征，能够辅助验证被检测者是否酒驾。

因此，为了提高饮酒状态检测结果的准确率，还可以进一步结合被检测者附近的酒精浓度和/或面部颜色特征，判断所述被检测者是否处于饮酒状态。

综上，本实施例提供的一种饮酒状态检测方法，在每轮人机交互过程中，选择一个问题并提供给被检测者，然后，获取到被检测者对该问题的回答结果，接着，通过对被检测者在至少一轮人机交互中的回答结果的分析，判断出被检测者是否处于饮酒状态。可见，本申请实施例不再局限于只采用酒精浓度的检测方法判断被检测者是否饮酒驾驶，而是采用语音交互的方式，通过对被检测者对语音交互设备提出的问题的回答结果的分析，判断出被检测者是否处于饮酒状态，从而提高了饮酒状态检测结果的准确率，同时，也无需被检测者下车进行检测，对被检测者要求较低，且检测方式较为便捷。

第二实施例

本实施例将对第一实施例中步骤S103“根据被检测者在至少一轮人机交互中的回答结果，判断被检测者是否处于饮酒状态”的一种具体实施方式进行介绍。

在本实施例中，通过对被检测者在至少一轮人机交互中的回答结果进行数据处理，进而根据处理结果判断出被检测者是否处于饮酒状态。

参见图2，其示出了本实施例提供的判断被检测者是否处于饮酒状态的一种流程示意图，该流程包括以下步骤：

S201：对于被检测者在至少一轮人机交互中的每一回答结果，获取每一回答结果对应的结果特征数据，其中，结果特征数据包括回答结果对应的音频数据的声学特征和/或回答结果对应的文本数据的语义特征。

在本实施例中，在利用语音交互设备获取到被检测者在每轮人机交互过程中对问题的回答结果后，进一步可以对其中至少一轮人机交互中被检测者的每一回答结果进行特征提取，以获取到每一回答结果对应的结果特征数据，其中，结果特征数据包括回答结果对应的音频数据的声学特征和/或回答结果对应的文本数据的语义特征。

需要说明的是，一种可选的实现方式是，本步骤S201中回答结果对应的音频数据的声学特征，可以包括响应特征、音调特征和流畅度特征中的至少一个，接下来，本实施例将对响应特征、音调特征和流畅度特征的具体提取过程进行描述。

(1)响应特征

在本实施例中，响应特征是反映被检测者对问题的响应速度的特征数据，比如，响应特征可以是被检测者在听到问题之后，对问题做出回答的响应时间。一般来说，醉酒的人，由于大脑受到酒精的过度刺激，导致大脑对外界事物的响应较慢，反应时间较长，而轻微醉酒的人、未饮酒的人的反应时间则依次变短。所以，如果被检测者在听到一个问题之后，对该问题做出回答的响应时间较长，则该被检测者有酒驾的可能。

以响应特征是响应时间为例，在具体提取响应时间的过程中，一种可选的实施方式是，可以利用语音交互设备从向被检测者提出问题之后，开始对被检测者进行录音并计时，直至检测到被检测者发出第一个有效音频段，此时，将计时开始时刻与第一个有效音频段中第一个文字的记录时刻之间的时长，记为响应时间，其中，第一个有效音频段指的是，利用现有或未来出现的语音识别方法对被检测者发出的音频数据识别到的第一个文字所属的音频段。

(2)音调特征

在本实施例中，音调特征是反映回答结果的音调高低的特征数据，而音调特征则是由被检测者回答问题时发出的音频的频率和强度所决定。一般来说，轻度饮酒的人，由于受到酒精轻微的刺激，大脑皮层比较活跃，说话异常兴奋，音调较高；而醉酒的人，由于大脑受到酒精的过度刺激，大脑皮层反应比较迟钝，说话含糊不清，导致发出的音频的音调较低；而未饮酒的人，由于未受到酒精的刺激，在回答问题时发出的音频的音调较为平稳，不会出现过高或过低的情况。

在具体提取音调特征的过程中，一种可选的实施方式是，可以首先依次计算被检测者发出的音频数据中的每一有效语音段的基频的方差，然后计算所有有效语音段的基频方差值的均值，并将其作为被检测者发出的音频数据的音调特征。其中，所有有效语音段指的是，被检测者从开始回答问题到回答结束这段时间内发出的能够被识别成文本的所有音频段。

(3)流畅度特征

在本实施例中，流畅度特征是反映回答结果的流畅程度的特征数据。也就是说，流畅度特征主要描述被检测者回答问题时的流畅程度。一般来说，醉酒的人，说话的时候含糊不清，经常出现“停顿”、重复词、语气词等现象。例如，在回答问题时，可能在说一段话后出现10秒钟的停顿，或者出现重复说比如“今天今天”等相同的重复词，再或者重复出现比如“啊啊啊、嗯嗯嗯”等语气词，可以理解的是，当被检测者发出的音频数据中出现“停顿”、重复词、语气词的频率越大时，说明被检测者回答问题时的流畅度越低，反之亦然。

在具体提取流畅度特征的过程中，一种可选的实施方式是，首先，可以计算出被检测者发出的音频数据中出现“停顿”的频率，在具体计算时，可以根据音频数据中的有效音频段，得到音频数据中的无声段，该无声段指的是被检测者回答问题时的停顿时间段，进而将所有停顿时间段与被检测者发出的音频数据总时长的比值作为“停顿”出现的频率，记为S。

其次，还可以计算被检测者回答问题时出现重复词和语气词的总频率。具体计算时，先分别统计被检测者回答问题时的音频数据中重复词、语气词的出现次数，可以利用现有或未来出现的统计方法进行统计，比如使用文本顺滑技术进行统计，接着，再将重复词、语气词出现的次数进行累加，得到二者出现的总次数，进而可以将该总次数与识别文本对应的总词数的比值作为被检测者回答问题时重复词以及语气词出现的总频率，记为T。

最后，可直接根据被检测者回答问题时“停顿”出现的频率S、重复词以及语气词出现的总频率T，计算得到被检测者回答问题的流畅度，具体的计算公式如下：

F＝1-α·(S+T)

其中，F表示被检测者回答问题的流畅度；α为流畅度调节系数，其取值范围可以是0＜α≤0.5，一般取值为0.5；S表示被检测者回答问题时“停顿”出现的频率；T表示被检测者回答问题时重复词以及语气词出现的总频率。

还需要说明的是，一种可选的实现方式是，上述步骤S201中回答结果对应的文本数据的语义特征，可以包括正确度特征、语速特征、个人情感特征以及词嵌入矩阵中的至少一个，其中，回答结果对应的文本数据可以通过现有或未来出现的语音识别方法对回答结果的音频数据进行识别而得到。接下来，本实施例将对正确度特征、语速特征、个人情感特征以及词嵌入矩阵四个语义特征的具体提取过程进行描述：

(1)正确度特征

在本实施例中，正确度特征指的是反映回答结果是否正确的特征数据。一般来说，醉酒的人，由于大脑受到酒精的过度刺激，大脑皮层就会受到抑制，导致大脑对外界事物的响应失常，很难能正确回答问题，而轻微醉酒的人、未饮酒的人所回答问题的正确性则依次提高。

在具体提取正确度特征的过程中，可以利用现有或未来出现的语义理解方法，对识别文本进行语义理解，例如，可以利用符合语法识别规范(Augmented BNF syntax，简称ABNF)的文法匹配方法对识别文本进行语义理解，以获得被检测者回答该问题的答案，如果答案正确，则将该正确度特征值定义为1，如果答案错误，则将该正确度特征值定义为0。

(2)语速特征

在本实施例中，语速特征指的是反映被检测者的语速快慢的特征数据。一般来说，对于醉酒的人，由于大脑反应不够灵活，回答问题的速度会较慢，主要体现在回答时间长，说话的字数少；对于轻微饮酒的人，受到酒精的刺激，思维活跃，主要体现在回答时间长，说话的字数多；对于未饮酒的人，因未受到酒精的刺激，主要体现在回答时间较短，说话的字数适中。

在具体提取语速特征的过程中，可以将被检测者的回答结果对应的识别文本的文本长度除以被检测者回答问题所花费的时间，以获取到被检测者的语速，具体的计算公式如下：

speed＝word_length/time

其中，speed表示被检测者回答问题的语速；word_length表示被检测者的回答结果对应的识别文本长度；time表示被检测者回答问题所花费的时间(单位可以为秒)。

(3)个人情感特征

在本实施例中，个人情感特征指的是反映被检测者的情感状态的特征数据。一般来说，人的情感状态有七种：喜、怒、哀、乐、惊、恐、思，这是人类对外界事物的基本本能反应。由于受到酒精的作用，这七种情感状态在人机交互的过程中表现的更加明显，所以提取被检测者的情感特征，也更具有代表意义。并且，可以理解的是，提取个人情感特征指的就是对被检测者的音频数据对应的识别文本进行情感分析，获取被检测者当前的情感状态。

在具体提取个人情感特征的过程中，可以使用现有或未来出现的提取个人情感特征的技术提取被检测者的个人情感特征，如可以利用卷积神经网络(Convolution NeuralNetwork，简称CNN)模型、基于支持向量机的排序(Support Vector Machine for Ranking，简称SVMRank)模型等提取被检测者的个人情感特征，具体的模型构建过程可参考现有技术，本申请在此不再赘述。

(4)词嵌入(word embedding)矩阵

在本实施例中，词嵌入矩阵指的是回答结果的各个词语的词向量数据。为了获取回答结果的各个词语的词向量数据，首先，本实施例将利用现有或未来出现的词语向量化方法以及用来产生词向量的相关模型，对所有词语进行词语向量化，得到所有词语的词向量，构成初始化word embedding矩阵，再利用模型对该初始化word embedding矩阵进行训练以及修正。例如，例如可以使用Word2vec方法，对所有词语进行词语向量化，得到所有词语的词向量，构成初始化word embedding矩阵，再利用双向长短期记忆网络(Bi-directional Long Short-Term Memory，简称Bi-LSTM)模型对该初始化word embedding矩阵进行训练以及修正，进而得到包含所有词语的词向量的原始word embedding矩阵。

然后，可以利用现有或未来出现的分词方法对回答结果对应的识别文本中每个分句文本进行分词处理，得到各个词语，接着，从上述原始word embedding矩阵中查找经分词处理后的每一词语的词向量，形成回答结果对应的识别文本的word embedding矩阵，即相当于从上述原始word embedding矩阵中抽取出对应于识别文本的word embedding子矩阵。

需要说明的是，对应于识别文本的word embedding子矩阵的维度，与该识别文本包含的词语对应的词向量个数以及每个词向量对应的维度相关。若该矩阵的维度大小为n*m，则n表示识别文本包含的词语对应的词向量个数，m表示其中每一词向量的维度，例如，若该word embedding矩阵的维度大小为10*200，则10表示识别文本对应的词向量个数，200表示每一词向量的维度。

还需要说明的是，一种可选的实现方式是，在上述步骤S201中对至少一轮人机交互中的被检测者的每一回答结果进行特征提取，获取到的每一回答结果对应的结果特征数据不仅包括回答结果对应的音频数据的声学特征和/或回答结果对应的文本数据的语义特征，还可以包括：在回答结果对应的一轮人机交互过程中，被检测者附近的酒精浓度。

在本实施例中，为了提高饮酒状态检测结果的准确率，可以将语音交互的检测方式与现有的通过酒精浓度进行检测的方法相结合，进而根据二者共同的检测结果，确定出被检测者的饮酒状态。

一般来说，当被检测者为驾驶员时，在被检测者饮酒、乘客没有饮酒情况下，被检测者回答问题的过程中，分散的酒精分子会从驾驶座位渐渐向其他座位分散，被检测者座位附近的酒精浓度涨幅不大，但是乘客座位附近的酒精浓度涨幅比较明显；在被检测者没有饮酒、乘客饮酒的情况下，乘客附近的酒精浓度基本保持不变，但是被检测者附近的酒精浓度涨幅比较明显。这些变化的数据能够辅助验证被检测者是否酒驾。

基于此，需要确定被检测者所在车辆内的座位数，假设车内有5个座位，可以预先在5个座位处分别安装酒精浓度检测仪，用以检测并记录车内5个座位附近的实时酒精浓度，进一步的，可以将获取到的这5个酒精浓度值构成酒精浓度特征矩阵，该特征矩阵的维度是1*5，矩阵形式可以为(1,3,4,10,20)，矩阵中每一数值的单位可以是mg/100ml。

可以理解的是，当汽车为7座汽车时，其对应的酒精浓度特征矩阵的维度即为1*7，也就是说，酒精浓度特征矩阵具体的维度值可根据车辆座位数的实际情况设定，本申请对此不进行限制。

在获取到包括回答结果对应的音频数据的声学特征、文本数据的语义特征以及酒精浓度特征的结果特征数据后，可继续执行步骤S202。

S202：根据每一回答结果对应的结果特征数据，判断被检测者是否处于饮酒状态。

在本实施例中，通过上述步骤S201获取到被检测者针对每一问题的回答结果对应的结果特征数据后，进一步可以将该结果特征数据中包含的音频数据的声学特征、文本数据的语义特征以及酒精浓度特征三者对应的特征矩阵共同作为输入数据，输入至饮酒预测模型中，比如，该饮酒预测模型的结构可以是Bi-LSTM，进而通过该饮酒预测模型的输出结果，判断出被检测者是否处于饮酒状态。

接下来，本实施例将通过下述步骤S301-S303，对本步骤S202的具体实施方式进行介绍。

参见图3，其示出了本实施例提供的判断被检测者是否处于饮酒状态的一种流程示意图，该流程包括以下步骤：

S301：获取上轮特征数据和本轮特征数据，其中，上轮特征数据包括上一轮人机交互中的回答结果对应的结果特征数据，本轮特征数据包括本轮人机交互中的回答结果对应的结果特征数据。

在本实施例中，为了判断出被检测者是否处于饮酒状态，首先，可以获取到上轮特征数据和本轮特征数据，然后，将二者对应的特征矩阵作为饮酒预测模型的输入数据，进而通过该模型的输出结果，判断出被检测者是否处于饮酒状态。

需要说明的是，上轮特征数据指的是上一轮人机交互中的回答结果对应的结果特征数据，即上一轮人机交互中的回答结果对应的音频数据的声学特征、文本数据的语义特征以及酒精浓度特征，其中，音频数据的声学特征包括上一轮人机交互中的被检测者的回答结果对应的响应特征、音调特征和流畅度特征中的至少一个；文本数据的语义特征包括上一轮人机交互中的被检测者的回答结果对应的正确度特征、语速特征、个人情感特征矩阵以及word embedding矩阵中的至少一个。

相类似的，本轮特征数据则指的是本轮人机交互中的回答结果对应的结果特征数据，即本轮人机交互中的回答结果对应的音频数据的声学特征、文本数据的语义特征以及酒精浓度特征，其中，音频数据的声学特征包括本轮人机交互中的被检测者的回答结果对应的响应特征、音调特征和流畅度特征中的至少一个；文本数据的语义特征包括本轮人机交互中的被检测者的回答结果对应的正确度特征、语速特征、个人情感特征矩阵以及wordembedding矩阵中的至少一个。

S302：根据上轮特征数据和本轮特征数据生成第一预测结果，作为本轮预测结果，其中，第一预测结果包括被检测者处于饮酒状态的可能性概率以及下一轮人机交互的问题的难易度。

在本实施例中，被检测者在回答本轮问题的时候，不仅需要关注本轮对话的特征数据(本轮回答结果的声学特征、语义特征)，而上一轮对话的特征数据(上一轮回答结果的声学特征、语义特征)、以及上一轮对话到本轮对话这一期间的酒精浓度变化趋势也会影响到模型预测的输出结果。由此，在通过步骤S301获取到上轮特征数据和本轮特征数据后，可将二者对应的特征矩阵作为饮酒预测模型的输入矩阵，输入至饮酒预测模型，得到模型的输出结果并作为第一预测结果，然后，可以根据第一预测结果进行被检测者饮酒状态的判断，其中，第一预测结果包括被检测者处于饮酒状态的可能性概率以及下一轮人机交互的问题的难易度，也就是说，饮酒预测模型的输出结果为被检测者处于饮酒状态的可能性概率P_i以及下一轮人机交互的问题的难易度D_i。

参见图4，其示出了本申请实施例提供的饮酒预测模型为Bi-LSTM的结构示意图，如图4所示，Bi-LSTM模型的输入矩阵分为上轮特征矩阵和本轮特征矩阵两部分，其中，上轮特征矩阵包括了上一轮人机交互中的回答结果对应的音频数据的声学特征矩阵、文本数据的语义特征矩阵以及酒精浓度特征矩阵，而本轮特征数据则包括了本轮人机交互中的回答结果对应的音频数据的声学特征矩阵、文本数据的语义特征矩阵以及酒精浓度特征矩阵。相对应的，如图4所示，Bi-LSTM模型的输出矩阵维度是1*2，可以表示为(P_i,D_i)，其中，P_i表示被检测者处于饮酒状态的可能性概率，该值越大，表明被检测者处于饮酒状态的可能性越高；D_i表示下一轮人机交互的问题的难易度(D_i的取值范围可以是1-10，1表示最简单，10表示最难)。

在本实施例中，酒精浓度特征矩阵的维度为1*k，k为被检测者所在车辆的座位数，比如该酒精浓度特征矩阵为(1,3,4,10,20)；由于音频数据的声学特征包括响应特征、音调特征以及流畅度特征，则声学特征矩阵的维度为1*3；而语义特征矩阵则包括正确度特征、语速特征、个人情感特征矩阵以及word embedding矩阵，其中，个人情感特征特征矩阵的维度是1*7，word embedding矩阵的维度是n*m。

可以理解的是，可以先将难度等级较低的问题提供给驾驶员进行回答，例如可以选择4级难度的问题，假设将上述输入矩阵输入至Bi-LSTM模型后，得到的第一预测结果即输出矩阵为(75％,3)，则表明第一预测结果为：该驾驶员处于饮酒状态的可能性概率为75％，下一轮人机交互的问题的难易度为3级。从中可以看出，由于该驾驶员的处于饮酒状态的可能性概率已经达到了75％，即该驾驶员很大可能已经处于饮酒状态，因此下一轮应该选择问题的难易度更低的问题提供给驾驶员，以便进一步判断出该驾驶员是否真正处于饮酒状态，即判断下一轮Bi-LSTM模型输出的该驾驶员的处于饮酒状态的可能性概率是否大于75％。

在预测过程中，若未达到预设预测轮数，则将下一轮人机交互的问题的回答结果作为本轮人机交互中的回答结果，下一轮人机交互的问题是根据难易度选择的，继续执行步骤S301，直到达到预设预测轮数为止。

具体来讲，在本实施例中，当利用Bi-LSTM模型，通过上述步骤S301-S302完成被检测者饮酒状态的预测后，可以进一步判断预测的轮数是否已达到预设的预测轮数Q(Q的取值一般大于4)；若否，则将下一轮人机交互的问题的回答结果作为本轮人机交互中的回答结果，继续执行上述步骤S301-S302，实现对被检测者饮酒状态的预测，直到达到预设预测轮数为止；若是，则继续执行步骤S303，需要说明的是，Q值可根据实际情况进行设置，本实施例对此不进行限制。

S303：根据至少一轮预测结果中的第一预测结果，判断被检测者是否处于饮酒状态。

在本实施例中，若判断出利用饮酒预测模型比如Bi-LSTM模型进行预测的轮数已达到预设的预测轮数Q，此时可以获取到各轮预测过程输出的第一预测结果，例如，当预设的预测轮数Q为4轮时，则各轮预测过程输出的第一预测结果分别为(P₁,D₁)，(P₂,D₂)，(P₃,D₃)，(P₄,D₄)，将这4组预测结果输入到饮酒判断模型中，由饮酒判断模型来判断被检测者最终是否处于饮酒状态。其中，饮酒判断模型可以选择现有或未来出现的分类模型，例如支持向量机(Support Vector Machine，简称SVM)模型、CNN模型、循环神经网络(RecurrentNeural Network，简称RNN)模型等，具体的模型构建过程可参考现有技术，在此不再赘述。

综上，本实施例采用语音交互的方式，通过对被检测者回答结果的分析，还可以结合被检测者附近的酒精浓度，判断出被检测者是否处于饮酒状态，不仅提高了饮酒状态检测结果的准确率，同时，也无需被检测者下车进行检测，对被检测者要求较低，且检测方式较为便捷。

第三实施例

本实施例将对第一实施例中步骤S103“根据被检测者在至少一轮人机交互中的回答结果，判断被检测者是否处于饮酒状态”的另一种具体实施方式进行介绍。

在本实施例中，不仅可以采用语音交互的检查方式对被检测者进行饮酒状态检测，还可以进一步获取被检测者的面部图像特征，结合二者共同判断被检测者是否处于饮酒状态。

参见图5，其示出了本实施例提供的判断被检测者是否处于饮酒状态的一种流程示意图，该流程包括以下步骤：

S501：检测被检测者的面部特征。

在本实施例中，假设被检测者为驾驶员，可以预先在驾驶座前面安装图像采集设备，用以采集被检测者的面部特征，具体可以是面部颜色特征。一般来说，轻度饮酒的被检测者通常具有面部发红的特征，而醉酒的被检测者通常面部发白，由此，通过提取被检测者的面部颜色特征，能够辅助验证被检测者是否酒驾。

S502：根据面部特征以及被检测者在至少一轮人机交互中的回答结果，判断被检测者是否处于饮酒状态。

在本实施例的一种实现方式中，S502具体可以包括步骤A-B：

步骤A：根据被检测者的面部特征生成第二预测结果，其中，第二预测结果包括被检测者处于饮酒状态的可能性概率。

在本实施例中，通过步骤S501提取出被检测者的面部特征后，进一步可以将该面部特征输入至现有或未来出现的图像识别模型中，进而通过该模型输出预测结果，例如，可以将该面部特征输入至CNN或RNN等图像识别模型，得到图像识别模型输出的被检测者处于饮酒状态的预测概率Y％，表示被检测者有Y％的可能性处于饮酒状态，进而再结合被检测者在至少一轮人机交互中的回答结果(具体可以是第二实施例中介绍的每一回答结果对应的结果特征数据)，判断出被检测者是否处于饮酒状态。

步骤B：根据第二预测结果以及被检测者在至少一轮人机交互中的回答结果，判断被检测者是否处于饮酒状态。

在本实施例中，关于回答结果的含义解释以及对回答结果进行处理得到第一预测结果的过程，请参见上述实施例。

在本实施例中，在获取到第二预测结果即被检测者处于饮酒状态的可能性概率Y％后，进一步的，可以将Y％以及被检测者在各轮预测中输出的各个第一预测结果比如(P₁,D₁)，(P₂,D₂)，(P₃,D₃)，(P₄,D₄)(参见第二实施例S304)输入到上述饮酒判断模型中，由饮酒判断模型来判断被检测者最终是否处于饮酒状态。

综上，本实施例采用了语音交互与面部特征检测相结合的方式，即，不但对被检测者在每轮人机交互过程中的回答结果进行分析，还对被检测者的面部图像特征进行提取，结合二者共同判断出被检测者是否处于饮酒状态，进一步提高了饮酒状态检测结果的准确率。

第四实施例

本实施例将对一种饮酒状态检测装置进行介绍，相关内容请参见上述方法实施例。

参见图6，为本实施例提供的一种饮酒状态检测装置的组成示意图，该装置600包括：

问题选择单元601，用于在每轮人机交互过程中，选择一个问题并提供给被检测者；

结果获取单元602，用于获取所述被检测者对所述问题的回答结果；

状态判断单元603，用于根据所述被检测者在至少一轮人机交互中的回答结果，判断所述被检测者是否处于饮酒状态。

在本实施例的一种实现方式中，所述状态判断单元603包括：

在本实施例的一种实现方式中，所述结果特征数据还包括：

在本实施例的一种实现方式中，所述第一状态判断子单元包括：

在本实施例的一种实现方式中，所述声学特征包括响应特征、音调特征和流畅度特征中的至少一个，其中：

所述音调特征是反映所述回答结果的音调高低的特征数据；

在本实施例的一种实现方式中，所述语义特征包括正确度特征、语速特征、个人情感特征以及词嵌入矩阵中的至少一个，其中：

所述正确度特征是反映所述回答结果是否正确的特征数据；

所述语速特征是反映所述被检测者的语速快慢的特征数据；

所述词嵌入矩阵是所述回答结果的各个词语的词向量数据。

在本实施例的一种实现方式中，所述状态判断单元603包括：

特征检测子单元，用于检测所述被检测者的面部特征；

在本实施例的一种实现方式中，所述第三状态判断子单元包括：

进一步地，本申请实施例还提供了一种饮酒状态检测装置，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述饮酒状态检测方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述饮酒状态检测方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述饮酒状态检测方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种饮酒状态检测方法，其特征在于，包括：

在每轮人机交互过程中，选择一个问题并提供给被检测者；

获取所述被检测者对所述问题的回答结果；

2.根据权利要求1所述的方法，其特征在于，所述根据所述被检测者在至少一轮人机交互中的回答结果，判断所述被检测者是否处于饮酒状态，包括：

3.根据权利要求2所述的方法，其特征在于，所述结果特征数据还包括：

4.根据权利要求2所述的方法，其特征在于，所述根据每一回答结果对应的结果特征数据，判断所述被检测者是否处于饮酒状态，包括：

5.根据权利要求2所述的方法，其特征在于，所述声学特征包括响应特征、音调特征和流畅度特征中的至少一个，其中：

所述音调特征是反映所述回答结果的音调高低的特征数据；

6.根据权利要求2所述的方法，其特征在于，所述语义特征包括正确度特征、语速特征、个人情感特征以及词嵌入矩阵中的至少一个，其中：

所述正确度特征是反映所述回答结果是否正确的特征数据；

所述语速特征是反映所述被检测者的语速快慢的特征数据；

所述词嵌入矩阵是所述回答结果的各个词语的词向量数据。

7.根据权利要求1所述的方法，其特征在于，所述根据所述被检测者在至少一轮人机交互中的回答结果，判断所述被检测者是否处于饮酒状态，包括：

检测所述被检测者的面部特征；

8.根据权利要求7所述的方法，其特征在于，所述根据所述面部特征以及所述被检测者在至少一轮人机交互中的回答结果，判断所述被检测者是否处于饮酒状态，包括：

9.一种饮酒状态检测装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述状态判断单元包括：

11.根据权利要求10所述的装置，其特征在于，所述结果特征数据还包括：

12.根据权利要求10所述的装置，其特征在于，所述第一状态判断子单元包括：

13.根据权利要求10所述的装置，其特征在于，所述声学特征包括响应特征、音调特征和流畅度特征中的至少一个，其中：

所述音调特征是反映所述回答结果的音调高低的特征数据；

14.根据权利要求10所述的装置，其特征在于，所述语义特征包括正确度特征、语速特征、个人情感特征以及词嵌入矩阵中的至少一个，其中：

所述正确度特征是反映所述回答结果是否正确的特征数据；

所述语速特征是反映所述被检测者的语速快慢的特征数据；

所述词嵌入矩阵是所述回答结果的各个词语的词向量数据。

15.根据权利要求9所述的装置，其特征在于，所述状态判断单元包括：

特征检测子单元，用于检测所述被检测者的面部特征；

16.根据权利要求15所述的装置，其特征在于，所述第三状态判断子单元包括：

17.一种饮酒状态检测装置，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-8任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-8任一项所述的方法。

19.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1-8任一项所述的方法。