CN116526634A

CN116526634A - 一种基于语音交互的充电系统及实现方法

Info

Publication number: CN116526634A
Application number: CN202310757302.2A
Authority: CN
Inventors: 程焕章; 练贵盛; 周朋; 陈武
Original assignee: Shenzhen Rocknoo Technology Co ltd
Current assignee: Shenzhen Rocknoo Technology Co ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-08-01
Anticipated expiration: 2043-06-26
Also published as: CN116526634B

Abstract

本发明涉及智慧充电技术领域，公开了一种基于语音交互的充电系统及实现方法，用于实现语音交互的充电过程控制并提高智慧充电的安全性。方法包括：构建目标用户的目标场景话术模型并获取目标用户的第二音频数据，进行智能对话转换和用户意图识别，得到用户充电意图以及用户查询意图；根据用户充电意图生成第一充电策略，并对用户查询意图进行信息查询，得到用户查询结果；获取用电设备的电池状态数据，并根据电池状态数据对第一充电策略进行策略优化，得到第二充电策略；根据第二充电策略对目标充电设备进行充电过程控制，生成智能充/断电指令，并对智能充/断电指令以及用户查询结果进行语音播报。

Description

一种基于语音交互的充电系统及实现方法

技术领域

本发明涉及智慧充电技术领域，尤其涉及一种基于语音交互的充电系统及实现方法。

背景技术

随着智慧充电技术的普及，人们对智能充电设备的交互方式提出了更高的要求。语音交互技术作为一种自然、方便的交互方式，受到了广泛的关注和应用。而在实际的应用过程中，人们遇到了很多问题，如充电不便、充电不安全、充电效率低等。因此，通过基于语音交互的充电方法来解决以上问题，具有很大的实用性和研究意义。

然而，在现有技术中，在用户充电意图和智能充电策略生成方面，还需要更完善的场景和功能覆盖，以应对更多实际情况并提高充电效率。同时，在充电过程控制和充电策略，其准确率较低，进而导致充电过程稳定不高和设备充电存在安全隐患。

发明内容

本发明提供了一种基于语音交互的充电系统及实现方法，用于实现语音交互的充电过程控制并提高智慧充电的安全性。

本发明第一方面提供了一种基于语音交互的充电方法，所述基于语音交互的充电方法包括：

基于预置的目标充电设备，采集目标用户的人脸图像数据以及第一音频数据；

对所述人脸图像数据进行面部特征检测，得到面部特征信息，并对所述第一音频数据进行音频特征提取，得到音频特征信息；

对所述面部特征信息和所述音频特征信息进行特征编码，得到目标编码特征；

根据所述目标编码特征构建所述目标用户的目标场景话术模型，其中，所述目标场景话术模型包括多个场景话术模板以及多个意图识别点；

基于所述目标场景话术模型获取所述目标用户的第二音频数据，并对所述第二音频数据进行智能对话转换和用户意图识别，得到用户充电意图以及用户查询意图；

根据所述用户充电意图生成第一充电策略，并对所述用户查询意图进行信息查询，得到用户查询结果；

获取用电设备的电池状态数据，并根据所述电池状态数据对所述第一充电策略进行策略优化，得到第二充电策略；

根据所述第二充电策略对所述目标充电设备进行充电过程控制，生成智能充/断电指令，并对所述智能充/断电指令以及所述用户查询结果进行语音播报。

结合第一方面，在本发明第一方面的第一实施方式中，所述对所述人脸图像数据进行面部特征检测，得到面部特征信息，并对所述第一音频数据进行音频特征提取，得到音频特征信息，包括：

对所述人脸图像数据进行噪声处理和分辨率增强，得到高清人脸数据；

对所述高清人脸数据进行人脸检测，得到初始面部信息，并对所述初始面部信息进行关键点定位，得到面部特征信息；

对所述第一音频数据进行功率谱密度分析，得到音频频域信号，并对所述音频频域信号进行语音端点检测和特征运算，得到音频特征信息。

结合第一方面，在本发明第一方面的第二实施方式中，所述对所述面部特征信息和所述音频特征信息进行特征编码，得到目标编码特征，包括：

对所述面部特征信息进行充电权限校验，得到充电权限校验结果，并对所述音频特征信息进行唤醒词识别，得到唤醒词识别结果；

若所述充电权限校验结果为校验通过，则提取所述面部特征信息中的多个第一特征信息；

若所述唤醒词识别结果为存在唤醒词，则提取所述音频特征信息中的多个第二特征信息；

对所述多个第一特征信息进行线性变换，得到多个第一特征编码值，以及对所述多个第二特征信息进行线性变换，得到多个第二特征编码值；

将所述多个第一特征编码值以及所述多个第二特征编码值映射到一个低纬度特征空间，得到目标编码特征。

结合第一方面，在本发明第一方面的第三实施方式中，所述根据所述目标编码特征构建所述目标用户的目标场景话术模型，其中，所述目标场景话术模型包括多个场景话术模板以及多个意图识别点，包括：

对所述目标编码特征进行场景话术模型匹配，得到多个子场景话术模型；

根据预设的话术逻辑，对所述多个子场景话术模型进行模型连接，得到初始场景话术模型；

对所述初始场景话术模型中的多个连接层进行评价系数计算，得到每个连接层的评价系数；

根据每个连接层的评价系数生成评价系数组合，并根据所述评价系数组合对所述初始场景话术模型进行最优化拟合，得到所述目标用户的目标场景话术模型，其中，所述目标场景话术模型包括多个场景话术模板以及多个意图识别点。

结合第一方面，在本发明第一方面的第四实施方式中，所述基于所述目标场景话术模型获取所述目标用户的第二音频数据，并对所述第二音频数据进行智能对话转换和用户意图识别，得到用户充电意图以及用户查询意图，包括：

基于所述目标场景话术模型，获取所述目标用户的第二音频数据；

对所述第二音频数据进行语音转写和语音识别，得到用户说话内容，并对所述说话内容进行分段，得到目标分词集合，其中，所述目标分词集合包括多个目标关键词；

根据所述多个意图识别点，计算每个目标关键词的命中率，并根据所述命中率获取多个目标意图点；

对所述多个目标意图点进行类型划分，生成用户充电意图以及用户查询意图。

结合第一方面，在本发明第一方面的第五实施方式中，所述根据所述用户充电意图生成第一充电策略，并对所述用户查询意图进行信息查询，得到用户查询结果，包括：

根据所述用户充电意图确定充电方式和充电时刻，并根据所述充电方式和所述充电时刻生成第一充电策略；

对所述用户查询意图进行信息查询，得到用户查询结果，其中，所述用户查询结果包括：查询余额和充电记录。

结合第一方面，在本发明第一方面的第六实施方式中，所述获取用电设备的电池状态数据，并根据所述电池状态数据对所述第一充电策略进行策略优化，得到第二充电策略，包括：

获取用电设备的电池状态数据，其中，所述电池状态数据包括：电量、电流以及电压；

对所述电池状态数据进行电池状态分类预测，得到电池剩余寿命以及充电速率；

根据所述电池剩余寿命以及所述充电速率生成所述用电设备的充电建议信息；

根据所述充电建议信息，对所述第一充电策略进行策略优化，得到第二充电策略。

本发明第二方面提供了一种基于语音交互的充电系统，所述基于语音交互的充电系统包括：

采集模块，用于基于预置的目标充电设备，采集目标用户的人脸图像数据以及第一音频数据；

检测模块，用于对所述人脸图像数据进行面部特征检测，得到面部特征信息，并对所述第一音频数据进行音频特征提取，得到音频特征信息；

编码模块，用于对所述面部特征信息和所述音频特征信息进行特征编码，得到目标编码特征；

构建模块，用于根据所述目标编码特征构建所述目标用户的目标场景话术模型，其中，所述目标场景话术模型包括多个场景话术模板以及多个意图识别点；

识别模块，用于基于所述目标场景话术模型获取所述目标用户的第二音频数据，并对所述第二音频数据进行智能对话转换和用户意图识别，得到用户充电意图以及用户查询意图；

查询模块，用于根据所述用户充电意图生成第一充电策略，并对所述用户查询意图进行信息查询，得到用户查询结果；

优化模块，用于获取用电设备的电池状态数据，并根据所述电池状态数据对所述第一充电策略进行策略优化，得到第二充电策略；

播报模块，用于根据所述第二充电策略对所述目标充电设备进行充电过程控制，生成智能充/断电指令，并对所述智能充/断电指令以及所述用户查询结果进行语音播报。

本发明第三方面提供了一种基于语音交互的充电设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于语音交互的充电设备执行上述的基于语音交互的充电方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于语音交互的充电方法。

本发明提供的技术方案中，构建目标用户的目标场景话术模型并获取目标用户的第二音频数据，进行智能对话转换和用户意图识别，得到用户充电意图以及用户查询意图；根据用户充电意图生成第一充电策略，并对用户查询意图进行信息查询，得到用户查询结果；获取用电设备的电池状态数据，并根据电池状态数据对第一充电策略进行策略优化，得到第二充电策略；根据第二充电策略对目标充电设备进行充电过程控制，生成智能充/断电指令，并对智能充/断电指令以及用户查询结果进行语音播报，本发明通过人脸图像数据和音频数据的采集，能够准确地识别目标用户并了解用户需求，进而根据用户意图自动生成智能的充电策略，从而提高充电效率和用户满意度，采用了智能充放电指令生成技术，能够根据实时采集的电池状态数据进行动态调整，从而保证充电过程的安全性和稳定性，采用了语音播报技术，能够为用户实时提供充电状态和查询结果。

附图说明

图1为本发明实施例中基于语音交互的充电方法的一个实施例示意图；

图2为本发明实施例中特征编码的流程图；

图3为本发明实施例中构建目标场景话术模型的流程图；

图4为本发明实施例中智能对话转换和用户意图识别的流程图；

图5为本发明实施例中基于语音交互的充电系统的一个实施例示意图；

图6为本发明实施例中基于语音交互的充电设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于语音交互的充电系统及实现方法，用于实现语音交互的充电过程控制并提高智慧充电的安全性。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于语音交互的充电方法的一个实施例包括：

S101、基于预置的目标充电设备，采集目标用户的人脸图像数据以及第一音频数据；

可以理解的是，本发明的执行主体可以为基于语音交互的充电系统，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

具体的，服务器预先收集并存储目标用户的人脸图像数据和第一音频数据，其中，用户可以在设备上进行自我设定或通过管理员设定，同时，该目标用户的人脸图像数据以及第一音频数据可以储存在云端，进而，当目标用户需要使用充电设备时，设备识别用户的身份，通过人脸识别技术采集用户脸部特征并将其与预置的目标用户信息进行匹配。同时，设备也采集用户的第一音频数据，例如用户发出的语音指令，以辅助识别和确认用户的身份和操作意图。

S102、对人脸图像数据进行面部特征检测，得到面部特征信息，并对第一音频数据进行音频特征提取，得到音频特征信息；

具体的，服务器在进行面部特征检测之前，需要先将人脸图像数据进行预处理，如对图像进行大小标准化，进行灰度化处理等。接着，利用人脸检测技术（如Haar Cascade、HOG、SSD等）对图像进行人脸位置检测，然后再通过人脸关键点检测技术（如68个特征点）对人脸的关键点进行检测。最后，根据检测到的人脸关键点坐标，可以计算出多种面部特征信息（如面部轮廓、眼睛、嘴巴、鼻子等），需要说明的是，音频特征提取是对语音音频信号进行数学分析，用于提取出声音的特征。常用的音频特征有MFCC（Mel-Frequency CepstralCoefficients）和Spectrogram等，在本发明中，首先将语音信号分帧，进行加窗处理，然后对每一帧信号进行傅立叶变换，从而获取频谱信息。接着，对频谱信息应用滤波器组（Mel滤波器组），通过运用离散余弦变换（DCT），将频谱信息转换到一个新的空间，从而获取MFCC的特征系数，进而根据该特征系数实现对第一音频数据的音频特征提取，得到音频特征信息。

例如，通过使用开源软件库和算法来实现人脸图像数据的特征检测和第一音频数据的特征提取，如OpenCV、Dlib、scikit-learn等。例如，使用Dlib库中的人脸关键点检测方法，可以获取人脸区域和关键点坐标，然后通过计算关键点之间的距离及角度等信息来获得各种面部特征。同时，使用Python中的Librosa库，可以方便地进行音频特征提取，如读取并预处理音频文件、进行MFCC分析、计算音频信号的能量、频率等信息。这些技术可以集成到设备或系统中，以实现自动化的人脸和音频特征提取。

S103、对面部特征信息和音频特征信息进行特征编码，得到目标编码特征；

需要说明的是，特征编码通常是通过将原始特征映射到一个更低维度的向量空间中，然后从中提取出关键特征，对于面部特征和音频特征的编码，通过具有良好特征提取性质的深度神经网络（如CNN、RNN、LSTM等）来实现。例如，在人脸识别任务中，通过特定的神经网络架构，如VGGNet、ResNet、FaceNet等，对提取的面部特征进行编码，得到一个向量表征该面部特征。类似地，对于音频特征的编码，通过预处理的Mel特征和DNN等工具生成该音频特征的表征向量，需要说明的是，在本发明实施例中，通过欧几里德距离或余弦相似度等常见距离度量方法，来度量向量空间中向量之间的距离或相似度，例如：在一个房间充电站设备中，可以首先对目标用户的面部特征和音频特征进行特征提取，然后使用特定的神经网络将其编码为一个目标编码特征向量。当设备需要在用户充电期间识别和确认该用户时，可以抓取并预处理该用户的面部图像和第一音频数据，并将其中提取出的特征信息转换为目标编码特征。

S104、根据目标编码特征构建目标用户的目标场景话术模型，其中，目标场景话术模型包括多个场景话术模板以及多个意图识别点；

具体的，目标场景话术模型是根据目标编码特征和用户的充电场景等信息，为目标用户构建一个针对特定场景的话术模板，以便设备可以智能地与用户进行沟通和交互。模型通常包含多个场景话术模板和多个意图识别点，其中模板包含设备与用户交互中的常用问答对话内容，而意图识别点则用于帮助设备识别用户的意图和行为，目标充电设备通过使用意图识别技术，来分析用户的语音指令和语言行为，并将用户的行为及相关特征与目标场景话术模型进行比较。在实际应用中，通过条件随机场（CRF）或基于循环神经网络的语言模型（RNN）等方法，来构建用户的意图识别模型，并通过这些技术来优化充电设备的智能化对话系统。

例如，根据设立的场景，在目标场景话术模型中，针对“用户需要充电”的场景，可以设置常用的充电场景话术模板，例如“您对电动车进行快速充电吗？”、“充电过程需要保持车门关闭，以保障安全”等。还将用户的特定需求、疑问和意图识别为不同类型的事实、询问、建议等，并将其带入现有的话术模板中，以完成更加智能化和人性化的问答交互过程。在该场景下，设备通过语音和视频等交互方式，确保对话和解释内容的准确实现和内容传达。

S105、基于目标场景话术模型获取目标用户的第二音频数据，并对第二音频数据进行智能对话转换和用户意图识别，得到用户充电意图以及用户查询意图；

具体的，基于目标场景话术模型获取用户与设备之间的语音交流数据，并采集到第二音频数据，这些数据通过实时传输（如IoT）或存储等方式进行处理和分析。将获取到的音频数据传递到设备内置的智能对话系统中，通过对已有模板和意图进行匹配，利用自然语言处理和语音识别技术，对完整的对话进行转换和整合，并返回对用户提问或行为的回应。目标场景话术模型可以为用户的意图识别提供指导。在智能对话系统中，通过配备导入的机器学习算法来进行意图识别，如监督学习、无监督学习等，以确定用户的充电意图和查询意图。

需要说明的是，识别出用户的充电意图后，设备可以根据用户提供的车型和电量规划充电策略，并为用户提供最佳的充电设施建议。对于用户查询意图，设备可以为用户提供相关车辆信息、充电价格、充电历史记录等方面的查询回复，并可根据用户的不同查询意图提供不同的问答解决方案。

例如，当设备接收到目标用户的第二音频数据时，需要将其与目标场景话术模型中的模板、意图及相关词库进行对比、匹配和识别。采用的技术包括语音识别技术、自然语言处理技术、对话管理技术等，以确保正确识别用户的需求和意图。此外，设备还可以借助实时反馈功能来与用户进行互动，并根据用户的反馈来调整充电策略、模板和词库等中的参数。

S106、根据用户充电意图生成第一充电策略，并对用户查询意图进行信息查询，得到用户查询结果；

具体的，在根据用户的充电意图生成第一充电策略时，根据用户提供的车型、充电状态和设备可用充电插座等信息，以及充电设施的情况、充电速度、充电价格和设备充电历史数据等参数，创建佳充电策略，并在智能对话系统中返回给用户。当用户查询相关车辆信息、设备状态、充电历史记录等情况时，设备通过已经提前收集和处理好的数据，或通过网络接口向相关数据库查询获取相关数据。将查询得到的用户结果，通过智能对话系统，进行分析和转化，并根据用户需求和场景，以文字、音频等多种形式返回给用户，以便用户可以更加全面地了解自己的充电状态和设备性能情况。

例如，在执行充电策略和查询操作之前，需要根据当前充电场景下的充电设施信息、设备状态、车辆信息等进行综合分析和处理，并根据预设的充电策略和查询模型来决定相应的采取措施。同时，使用合适的人工智能技术，在与用户交互的过程中，自动地进行任务规划和知识推断，以更好地理解和满足用户的需求。

S107、获取用电设备的电池状态数据，并根据电池状态数据对第一充电策略进行策略优化，得到第二充电策略；

具体的，服务器采集充电设备的实时数据，例如电量、电压、电流等，进而，采用算法来分析这些数据，用来诊断充电设备故障和判断充电状态等。同时，基于第二充电策略，对充电设备进行优化控制，以达到最佳充电效果。根据上述分析结果，控制中心将生成智能充/断电指令，并将其通过语音播报的方式传达给用户。在这个过程中，采用自然语音处理技术，将指令和查询结果转化为语音播报，让用户更加方便地了解充电设备的状态。最后，需要将生成的智能充/断电指令发送至与目标充电设备连接的控制单元，从而实现对充电设备的远程控制。

S108、根据第二充电策略对目标充电设备进行充电过程控制，生成智能充/断电指令，并对智能充/断电指令以及用户查询结果进行语音播报。

具体的，首先采集充电设备的实时数据需要用到物联网技术。当充电设备连接到物联网后，会自动上传充电设备的电量、电压、电流等数据，这些数据会被存储在云端。控制中心通过云端访问这些数据，实时了解充电设备的状态，并进行进一步分析。针对充电设备故障的诊断和充电状态的判断，需要用到一些算法。比如，可以采用机器学习算法来自动检测充电设备的故障，或者通过预测算法来判断充电设备何时需要充电。这些算法需要提前进行训练和优化，以确保其准确性和稳定性。基于第二充电策略对充电设备进行优化控制，需要根据具体的策略制定相应的控制方案。例如，可以在充电设备电量低于某一阈值时自动充电，或者在充电量接近满电时停止充电，从而改善充电效率并延长电池寿命。生成智能充/断电指令的过程通过语音播报的方式告知用户，这采用自然语音处理技术。通过这种技术，将指令和查询结果转化为语音，让用户更加方便地了解充电设备的状态。

本发明实施例中，构建目标用户的目标场景话术模型并获取目标用户的第二音频数据，进行智能对话转换和用户意图识别，得到用户充电意图以及用户查询意图；根据用户充电意图生成第一充电策略，并对用户查询意图进行信息查询，得到用户查询结果；获取用电设备的电池状态数据，并根据电池状态数据对第一充电策略进行策略优化，得到第二充电策略；根据第二充电策略对目标充电设备进行充电过程控制，生成智能充/断电指令，并对智能充/断电指令以及用户查询结果进行语音播报，本发明通过人脸图像数据和音频数据的采集，能够准确地识别目标用户并了解用户需求，进而根据用户意图自动生成智能的充电策略，从而提高充电效率和用户满意度，采用了智能充放电指令生成技术，能够根据实时采集的电池状态数据进行动态调整，从而保证充电过程的安全性和稳定性，采用了语音播报技术，能够为用户实时提供充电状态和查询结果。

在一具体实施例中，执行步骤S102的过程可以具体包括如下步骤：

（1）对人脸图像数据进行噪声处理和分辨率增强，得到高清人脸数据；

（2）对高清人脸数据进行人脸检测，得到初始面部信息，并对初始面部信息进行关键点定位，得到面部特征信息；

（3）对第一音频数据进行功率谱密度分析，得到音频频域信号，并对音频频域信号进行语音端点检测和特征运算，得到音频特征信息。

需要说明的是，原始的人脸图像数据可能存在噪声，例如图像中的颜色、光线、阴影等会对人脸特征提取造成干扰。因此，通过噪声处理技术，去除这些噪声，从而得到更加清晰的人脸数据。常用的噪声处理算法包括高斯滤波、中值滤波等，人脸图像数据的分辨率较低会影响人脸识别的准确度，因此需要进行分辨率增强处理。分辨率增强算法的原理是通过插值方法对人脸图像进行放大，从而提高图像的分辨率。常用的分辨率增强算法包括双线性插值、双立方插值等，对于不同的人脸图像数据，需要根据其不同的特点采用不同的人脸检测算法进行预处理。常用的人脸检测算法包括Haar特征和HOG特征的级联分类器等，由于人脸在不同的图像中可能存在尺度、旋转和平移等变换，所以在进行人脸识别之前，需要将其对齐，使得人脸的位置、大小和方向等都相同。人脸对齐可以采用特征点检测和仿射变换等方法。

例如，对于人脸图像数据进行噪声处理和分辨率增强，需要采用一系列的图像处理算法，包括噪声去除、分辨率增强、人脸检测和人脸对齐等步骤，以得到高清人脸数据，假设有一张低分辨率的人脸图像，其清晰度不高，存在噪声和模糊等问题。为了得到高清人脸数据，可以进行以下步骤：首先对图像进行噪声处理，其次，需要进行分辨率增强处理。为了获得更清晰的人脸数据，对图像进行放大，以增加其分辨率。通过双线性插值、双立方插值等，进而，需要进行人脸检测，通过如Haar特征和HOG特征的级联分类器进行人脸识别，最后，进行人脸对齐，以便使人脸特征能够更好地被提取。人脸对齐可以采用特征点检测和仿射变换等方法，对图像中的人脸进行变形，使得人脸在大小、位置和方向上都保持一致。

进一步的，对高清人脸数据进行人脸检测，通过人脸检测算法，如Haar特征和HOG特征的级联分类器等，以识别出图像中的人脸部分。对于检测到的人脸部分，得到初始的面部信息，包括人脸部位、轮廓等，为后续的人脸识别和关键点定位提供基础，然后，对初始面部信息进行关键点定位，通过如LBP特征和HOG特征的支持向量回归器等，以定位出面部的关键点，如眼睛、嘴巴、鼻子等。通过关键点定位，得到面部特征信息，包括面部轮廓、眼睛、嘴巴、鼻子等各部分的位置、大小和形状等，对于第一音频数据，首先进行功率谱密度分析，通过基于FFT的功率谱密度分析算法，将音频信号转换为频域信号，以分析其频域特征。通过分析音频信号的频域特征，得到音频的基本特征，如基频、共振峰等，进而，对音频信号进行语音端点检测和特征运算。语音端点检测通过一些基础的端点检测算法，如基于短时能量或过零率等阈值检测算法，以确定音频信号的起始和终止处。特征运算通过一些基础的语音特征提取算法，如MFCC特征提取算法、LPC谱线性预测算法等，以提取音频信号的语音特征。通过语音端点检测和特征运算，得到音频的关键特征信息，如说话人的声音特征、语音的发音特点等。

例如，假设有一张高清人脸数据，其图像中包含有一个人的面部信息，同时还有一段第一音频数据，记录了该人的语音信息。首先，通过Haar特征和HOG特征的级联分类器等人脸检测算法，识别出图像中的人脸部分，并得到初始的面部信息。接着，通过LBP特征和HOG特征的支持向量回归器等算法进行关键点定位，以定位出面部的各个关键点，如眼睛、鼻子等，得到面部特征信息。对于音频数据，通过FFT算法进行功率谱密度分析，得到音频的频域信号。接着，可以采用基于短时能量或过零率等阈值检测算法进行语音端点检测，以确定音频的起始和终止处。最后，通过MFCC特征提取算法，提取音频的语音特征，以得到音频的关键特征信息。

在一具体实施例中，如图2所示，执行步骤S103的过程可以具体包括如下步骤：

S201、对面部特征信息进行充电权限校验，得到充电权限校验结果，并对音频特征信息进行唤醒词识别，得到唤醒词识别结果；

S202、若充电权限校验结果为校验通过，则提取面部特征信息中的多个第一特征信息；

S203、若唤醒词识别结果为存在唤醒词，则提取音频特征信息中的多个第二特征信息；

S204、对多个第一特征信息进行线性变换，得到多个第一特征编码值，以及对多个第二特征信息进行线性变换，得到多个第二特征编码值；

S205、将多个第一特征编码值以及多个第二特征编码值映射到一个低纬度特征空间，得到目标编码特征。

具体的，对面部特征信息进行充电权限校验，通过如特征提取和模板匹配算法等。将预先获得的目标用户信息的面部特征信息与当前用户的面部特征信息进行比较，判断是否是允许进行充电的目标用户。如果匹配成功，则表示用户具有充电权限。然后，对音频特征信息进行唤醒词识别，可以采用如基于深度学习的关键词识别算法等。将预先设置的唤醒词与第一音频数据中提取的音频特征信息进行比较，以确定是否存在唤醒词。如果识别结果与预期的唤醒词匹配，则表示用户具有唤醒权限。例如，假设已经获得了目标用户的面部特征信息和约定的唤醒词，并且有一组用户提供的面部信息和语音信息。首先，利用预处理的面部信息和预设信息进行人脸识别，判断是否是允许充电的用户。然后，通过声音信号识别技术对音频特征信息进行唤醒词识别，判断是否包含预设的唤醒词。如果两个步骤均成功，则允许进行充电。如果有一步失败，则不允许进行充电。

如果充电权限校验结果为校验通过，则提取面部特征信息中的多个第一特征信息。这些特征信息可以用于后续的人脸识别、情绪识别等相关任务。其中，通过如OpenCV和Dlib等，提取图像中的多个面部特征信息，如眼睛、鼻子等位置、大小、形状等信息。这些特征信息可以被用于后续的任务，例如根据面部表情进行定制化推荐。如果唤醒词识别结果为存在唤醒词，则提取音频特征信息中的多个第二特征信息。这些特征信息可以用于后续的语音识别、情感分析等相关任务。其中，通过如Librosa和python_speech_features等，提取音频特征信息，如基频、共振峰、能量等，同时可以根据预训练的深度学习模型，进行识别和分类。

例如，假设已经完成了充电权限校验和唤醒词识别，并且允许进行充电。此时，通过提前处理的面部特征信息和语音特征信息，提取出面部特征信息中的多个第一特征信息，如面部轮廓和各部分的位置、大小和形状等，以及在音频特征信息中的多个第二特征信息，如基频、共振峰和能量等。这些信息将被用于后续的任务，例如特定用户的个性化推荐和情感分析。

对多个第一特征信息进行线性变换，通过如主成分分析（PCA）和线性判别分析（LDA）等，以提取出多个第一特征的主要成分，并得到第一特征编码值。同样地，对多个第二特征信息进行线性变换，可以采用相同的算法进行处理，得到多个第二特征编码值。进而，将多个第一特征编码值以及多个第二特征编码值映射到一个低维度特征空间，通过如自编码器（Autoencoder）和变分自编码器（VAE）等。这些算法通过非线性映射将高维度的输入数据降维到低维度的编码空间，以提取数据的关键特征信息。在实现过程中，通过预训练的神经网络模型，对多个第一特征编码值和多个第二特征编码值进行联合编码，从而得到目标编码特征。例如，假设已经提取出了多个第一特征信息和多个第二特征信息，并通过线性变换得到了多个第一特征编码值和多个第二特征编码值。接着，通过自编码器或变分自编码器等算法，提取出这些编码值中的关键特征信息，以得到最终的目标编码特征。例如，在训练过程中，通过给自编码器输入多个第一特征编码值和多个第二特征编码值，让其通过多个神经网络层进行编码和解码，从而训练出一个具有优秀编码性能的自编码器模型，用于提取多个特征信息的编码特征。

在一具体实施例中，如图3所示，执行步骤S104的过程可以具体包括如下步骤：

S301、对目标编码特征进行场景话术模型匹配，得到多个子场景话术模型；

S302、根据预设的话术逻辑，对多个子场景话术模型进行模型连接，得到初始场景话术模型；

S303、对初始场景话术模型中的多个连接层进行评价系数计算，得到每个连接层的评价系数；

S304、根据每个连接层的评价系数生成评价系数组合，并根据评价系数组合对初始场景话术模型进行最优化拟合，得到目标用户的目标场景话术模型，其中，目标场景话术模型包括多个场景话术模板以及多个意图识别点。

具体的，服务器对目标编码特征进行场景话术模型匹配，其中，可以训练多个场景模型，每个模型对应不同的场景，并根据预先设置的场景关键特征，例如词汇、语气、情感等，将场景话术模型与目标编码特征进行匹配。最终，可以得到多个子场景话术模型，每个子场景话术模型对应不同的场景。

例如，假设已经借助自编码器或变分自编码器等算法，提取出了目标编码特征。接着，可以利用朴素贝叶斯分类器或SVM等机器学习算法，训练多个场景模型，对应不同的场景，例如问询、推荐、购买等场景。对于每个场景模型，通过预先设置的关键特征，如特定词汇、情感、语气等，将目标编码特征与场景模型进行匹配，并选择最匹配的模型。最终，可以得到多个子场景话术模型，每个子场景话术模型对应不同的场景。

根据预设的话术逻辑，对多个子场景话术模型进行模型连接，得到初始场景话术模型。根据预设的话术逻辑，将多个子场景话术模型进行连接，构成初始场景话术模型。连接方式可以采用一些基础的神经网络模型，例如Dense层、GRU层或LSTM层等，同时通过一些基于自然语言处理（NLP）的算法，例如Word2Vec或Bert等，编码文字信息。其中，输入文本信息会映射到词嵌入矩阵空间中，经过连接层进行神经网络计算，并输出相应的回答。例如，假设需要实现一个酒店自助服务机器人。根据预设的话术逻辑，需要将多个子场景话术模型进行连接，例如充电子场景、修改订单子场景、查询预定子场景等。利用Dense层、GRU层或LSTM层等构建神经网络模型，将不同子场景话术模型进行连接，构成初始场景话术模型。例如输入“我要充电”，则经过连接层进行神经网络计算，输出相应的回答，为了计算每个连接层的评价系数，通过例如交叉验证或平均绝对误差等，评估连接层对整体模型性能的贡献。同时还可以针对连接层的特征信息，进行一些基本特征分析，例如相关性、偏度等，以评估连接层的特征重要性。例如，假设需要对场景话术模型进行评价系数计算。在初始场景话术模型中，包含多个连接层，通过交叉验证算法来评估每个连接层对整体模型的性能贡献。同时，还可以对每个连接层的特征信息进行分析，以评估每个连接层的特征重要性。根据评价系数的结果，可以对场景话术模型进行优化，提高整体模型的性能表现。

最终，根据每个连接层的评价系数生成评价系数组合。在生成评价系数组合时，通过随机森林回归算法计算每个连接层在整体场景话术模型中的重要性，并根据重要性生成评价系数组合。其中，在计算评价系数时可以将每个连接层的性能表现与整体场景话术模型的性能表现进行比较，计算其在整体性能中的贡献，并根据贡献大小生成评价系数组合。

根据评价系数组合对初始场景话术模型进行最优化拟合，得到目标用户的目标场景话术模型。在进行最优化拟合时，通过一些基础的优化算法，例如梯度下降或牛顿法等，以优化连接层的权重和偏差，并根据评价系数组合对初始场景话术模型进行匹配，以得到目标用户的目标场景话术模型。其中，可以在每个连接层的权重和偏差做出微调，以拟合评价系数组合，并根据目标用户的需求，选择相应的场景模板和意图识别点，构建目标场景话术模型。例如，生成评价系数组合后，通过梯度下降或牛顿法等基础的优化算法，在每个连接层的权重和偏差上进行微调，以拟合评价系数组合。同时，还可以根据用户需求，选择相应的场景模板和意图识别点，构建目标场景话术模型。例如，用户需要订购特定类型的房间和服务，可以根据目标场景话术模型，结合评价系数和用户需求，构建出相应的场景话术模板和意图识别点。

在一具体实施例中，如图4所示，执行步骤S105的过程可以具体包括如下步骤：

S401、基于目标场景话术模型，获取目标用户的第二音频数据；

S402、对第二音频数据进行语音转写和语音识别，得到用户说话内容，并对说话内容进行分段，得到目标分词集合，其中，目标分词集合包括多个目标关键词；

S403、根据多个意图识别点，计算每个目标关键词的命中率，并根据命中率获取多个目标意图点；

S404、对多个目标意图点进行类型划分，生成用户充电意图以及用户查询意图。

具体的，为了获取目标用户的第二音频数据，可以利用一些基础的音频采集设备或API，例如麦克风或语音识别API等，录制用户的语音。根据预先设置的场景话术模板和意图识别点，确定音频数据的具体格式和内容，以满足场景需求。在进行语音转写和语音识别时，将音频数据转换为文字信息，并对说话内容进行语音识别。其中，通过对原始音频数据进行语音识别和转写处理，提取语音特征信息，并使用文本分类器或文本聚类器等算法，将说话内容进行分割和分类，以获得目标分词集合。在对说话内容进行分段时，通过一些基础的文本分析算法和分词器，例如jieba分词器或NLTK等，对说话内容进行分词处理，并将其分成多个短语。同时，还可以根据预先设置的关键词库或者词性库，对目标分词集合进行匹配，以提取出目标关键词和特定短语。例如，假设需要根据用户的语音数据，获取用户的说话内容，并提取出目标关键词和特定短语。在进行语音转写和语音识别后，通过jieba分词器或NLTK等文本分析算法，对说话内容进行分词处理，并将其分成多个短语。同时，还可以根据预先设置的关键词库或者词性库，对目标分词集合进行匹配，以提取出目标关键词和特定短语。

在计算每个目标关键词的命中率时，可以通过例如频率计算或概率计算等，以计算每个目标关键词在意图识别点中出现的次数。具体而言，可以将目标关键词与意图识别点进行匹配，计算其在意图识别点中出现的次数，并通过次数计算其命中率。在根据命中率获取多个目标意图点时，通过贪心算法或最小割算法等，以筛选出命中率最高的目标意图点。具体而言，可以对计算出的命中率进行排序，选择命中率最高的目标关键词所对应的意图识别点，并构建多个目标意图点。在进行多个目标意图点的类型划分时，通过主题模型或情感分析等，以对意图点进行分类和标签分析，并生成用户充电意图以及用户查询意图。具体而言，可以对多个目标意图点中的语义信息进行分析和分类，例如区分充电时间和电量等关键信息，根据分类结果，生成用户充电意图以及用户查询意图。例如，可以根据意图分类方法，进行目标关键词命中率计算，筛选出命中率最高的目标意图点，例如“酒店预定查询”。然后可以对意图点进行类型划分，识别关键信息，如果用户说出“我想充电”，可以使用相同的方法，识别在不同场景下的关键意图点，并生成用户充电意图。

在一具体实施例中，执行步骤S106的过程可以具体包括如下步骤：

（1）根据用户充电意图确定充电方式和充电时刻，并根据充电方式和充电时刻生成第一充电策略；

（2）对用户查询意图进行信息查询，得到用户查询结果，其中，用户查询结果包括：查询余额和充电记录。

具体的，在根据用户充电意图确定充电方式和充电时刻时，可以根据用户的需求和设备的性能，选择相应的充电方式和充电时刻，以实现充电效果的最大化。例如，对于电动车等充电设备，可以根据充电方式的不同，选择快充或慢充，并根据用户的出行时间和充电需求，确定充电时刻。在确定充电方式和充电时刻后，可以基于预先设置的充电策略，生成第一充电策略，以保证充电效果的最大化。在进行用户查询意图的信息查询时，可以使用一些基础的数据库查询算法或API，例如MySQL或MongoDB等，以检索用户信息并生成用户查询结果。具体而言，可以根据用户查询意图中的关键信息，如用户名或账户ID等，查询账户余额和充电记录等信息，并根据查询结果，生成用户查询结果。在生成查询结果后，可以通过文字回复或语音播报等方式，向用户传递查询结果。例如，假设用户说出“我想充电，下午五点之前完成”，可以根据用户的需求和设备性能，选择合适的充电方式和充电时刻，并基于预先设置的充电策略，生成第一充电策略，并通知用户执行该策略。如果用户说出“我想查询余额和最近的充电记录”，可以根据用户的账户信息，查询账户余额和最近的充电记录，并根据查询结果，生成用户查询结果，并将其回复给用户。

在一具体实施例中，执行步骤S107的过程可以具体包括如下步骤：

（1）获取用电设备的电池状态数据，其中，电池状态数据包括：电量、电流以及电压；

（2）对电池状态数据进行电池状态分类预测，得到电池剩余寿命以及充电速率；

（3）根据电池剩余寿命以及充电速率生成用电设备的充电建议信息；

（4）根据充电建议信息，对第一充电策略进行策略优化，得到第二充电策略。

具体的，在获取用电设备的电池状态数据时，可以使用一些基础的传感器技术或API，例如电池监控API或传感器设备等，以收集电池状态数据。具体而言，可以收集电量、电流以及电压等电池特征数据，并对其进行处理和记录，以支持后续电池状态分类预测等分析工作。在进行电池状态分类预测时，可以使用一些基础的分类算法或预测模型，例如决策树或神经网络等，以根据电池状态数据预测电池剩余寿命以及充电速率。具体而言，可以使用电池状态数据作为输入，训练分类器或模型，以识别不同的电池状态。然后，可以使用该分类器或模型，根据电池状态数据，对电池进行分类预测，并得到电池剩余寿命以及充电速率等电池状态信息。

例如，假设需要对移动设备的电池状态进行预测。可以使用电池监控API或传感器设备，收集电量、电流以及电压等电池特征数据，并将其作为输入，训练决策树或神经网络等分类器或模型。然后，可以使用该分类器或模型，根据电池状态数据，对电池进行分类预测，并得到电池剩余寿命以及充电速率等电池状态信息。例如，当电池状态分类预测结果显示电池剩余寿命较短时，可以提醒用户及时充电或更换电池。

在根据电池剩余寿命以及充电速率生成用电设备的充电建议信息时，可以使用一些基础的推荐算法或优化技术，例如基于协同过滤的推荐算法或遗传算法等，以生成针对不同设备的充电建议信息。具体而言，可以使用电池剩余寿命及充电速率等信息，结合设备需求和使用习惯等因素，生成充电建议信息，以提高充电效率和缩短充电时间。在根据充电建议信息，对第一充电策略进行策略优化时，可以使用一些基础的优化算法或评估方法，例如模拟退火或梯度下降等，以调整充电策略并生成第二充电策略。具体而言，可以基于预先设置的充电建议信息，优化充电策略中的充电速率、充电起始时间和充电结束时间等因素，并生成第二充电策略，以满足设备的充电需求。

例如，假设需要根据电池剩余寿命和充电速率，生成针对某个电动车的充电建议信息，并根据充电建议信息，对第一充电策略进行策略优化。首先，可以利用电池剩余寿命和充电速率等信息，考虑车辆的行驶计划、充电需求等因素，生成充电建议信息，例如推荐在充电站进行快充，以保证高效充电。然后，可以使用模拟退火或梯度下降等优化算法，调整充电策略中的充电速率、充电起始时间和充电结束时间等因素，并生成第二充电策略，以满足车辆的充电需求。例如，根据充电建议信息和优化算法，确定在充电站进行快充，并根据车辆的行驶计划和充电需求，优化充电速率和充电时段，以获得更高效的充电效果。

上面对本发明实施例中基于语音交互的充电方法进行了描述，下面对本发明实施例中基于语音交互的充电系统进行描述，请参阅图5，本发明实施例中基于语音交互的充电系统一个实施例包括：

采集模块501，用于基于预置的目标充电设备，采集目标用户的人脸图像数据以及第一音频数据；

检测模块502，用于对所述人脸图像数据进行面部特征检测，得到面部特征信息，并对所述第一音频数据进行音频特征提取，得到音频特征信息；

编码模块503，用于对所述面部特征信息和所述音频特征信息进行特征编码，得到目标编码特征；

构建模块504，用于根据所述目标编码特征构建所述目标用户的目标场景话术模型，其中，所述目标场景话术模型包括多个场景话术模板以及多个意图识别点；

识别模块505，用于基于所述目标场景话术模型获取所述目标用户的第二音频数据，并对所述第二音频数据进行智能对话转换和用户意图识别，得到用户充电意图以及用户查询意图；

查询模块506，用于根据所述用户充电意图生成第一充电策略，并对所述用户查询意图进行信息查询，得到用户查询结果；

优化模块507，用于获取用电设备的电池状态数据，并根据所述电池状态数据对所述第一充电策略进行策略优化，得到第二充电策略；

播报模块508，用于根据所述第二充电策略对所述目标充电设备进行充电过程控制，生成智能充/断电指令，并对所述智能充/断电指令以及所述用户查询结果进行语音播报。

通过上述各个组成部分的协同合作，构建目标用户的目标场景话术模型并获取目标用户的第二音频数据，进行智能对话转换和用户意图识别，得到用户充电意图以及用户查询意图；根据用户充电意图生成第一充电策略，并对用户查询意图进行信息查询，得到用户查询结果；获取用电设备的电池状态数据，并根据电池状态数据对第一充电策略进行策略优化，得到第二充电策略；根据第二充电策略对目标充电设备进行充电过程控制，生成智能充/断电指令，并对智能充/断电指令以及用户查询结果进行语音播报，本发明通过人脸图像数据和音频数据的采集，能够准确地识别目标用户并了解用户需求，进而根据用户意图自动生成智能的充电策略，从而提高充电效率和用户满意度，采用了智能充放电指令生成技术，能够根据实时采集的电池状态数据进行动态调整，从而保证充电过程的安全性和稳定性，采用了语音播报技术，能够为用户实时提供充电状态和查询结果。

上面图5从模块化功能实体的角度对本发明实施例中的基于语音交互的充电系统进行详细描述，下面从硬件处理的角度对本发明实施例中基于语音交互的充电设备进行详细描述。

图6是本发明实施例提供的一种基于语音交互的充电设备的结构示意图，该基于语音交互的充电设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）610（例如，一个或一个以上处理器）和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630（例如一个或一个以上海量存储设备）。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对基于语音交互的充电设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在基于语音交互的充电设备600上执行存储介质630中的一系列指令操作。

基于语音交互的充电设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的基于语音交互的充电设备结构并不构成对基于语音交互的充电设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种基于语音交互的充电设备，所述基于语音交互的充电设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于语音交互的充电方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于语音交互的充电方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random acceS memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于语音交互的充电方法，其特征在于，所述基于语音交互的充电方法包括：

2.根据权利要求1所述的基于语音交互的充电方法，其特征在于，所述对所述人脸图像数据进行面部特征检测，得到面部特征信息，并对所述第一音频数据进行音频特征提取，得到音频特征信息，包括：

3.根据权利要求1所述的基于语音交互的充电方法，其特征在于，所述对所述面部特征信息和所述音频特征信息进行特征编码，得到目标编码特征，包括：

4.根据权利要求1所述的基于语音交互的充电方法，其特征在于，所述根据所述目标编码特征构建所述目标用户的目标场景话术模型，其中，所述目标场景话术模型包括多个场景话术模板以及多个意图识别点，包括：

5.根据权利要求1所述的基于语音交互的充电方法，其特征在于，所述基于所述目标场景话术模型获取所述目标用户的第二音频数据，并对所述第二音频数据进行智能对话转换和用户意图识别，得到用户充电意图以及用户查询意图，包括：

6.根据权利要求1所述的基于语音交互的充电方法，其特征在于，所述根据所述用户充电意图生成第一充电策略，并对所述用户查询意图进行信息查询，得到用户查询结果，包括：

7.根据权利要求1所述的基于语音交互的充电方法，其特征在于，所述获取用电设备的电池状态数据，并根据所述电池状态数据对所述第一充电策略进行策略优化，得到第二充电策略，包括：

8.一种基于语音交互的充电系统，其特征在于，所述基于语音交互的充电系统包括：

9.一种基于语音交互的充电设备，其特征在于，所述基于语音交互的充电设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于语音交互的充电设备执行如权利要求1-7中任一项所述的基于语音交互的充电方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述的基于语音交互的充电方法。