CN109961789A

CN109961789A - 一种基于视频及语音交互服务设备

Info

Publication number: CN109961789A
Application number: CN201910358518.5A
Authority: CN
Inventors: 张玄武
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-07-02
Anticipated expiration: 2039-04-30
Also published as: CN109961789B

Abstract

本发明涉及智能终端服务机领域，更具体的涉及一种基于视频及语音交互服务设备，一种基于视频及语音交互服务设备，包括数据采集装置、数据识别装置、数据输出装置，所述数据采集装置、数据识别装置、数据输出装置通过无线连接并安装在服务器上。在进行交互服务时，能够准确识别用户语音及视频信息，计算用户所需意图服务，从而实现为用户提供交互式服务的完整解决方案。

Description

一种基于视频及语音交互服务设备

技术领域

本发明涉及智能终端服务机领域,尤其涉及一种基于视频及语音交互服务设备。

背景技术

随着科技的进步，服务机器人、智能广告牌、公共智能自助柜台机等设备在公共领域提供的服务越来越广泛，为人们提供了越来越多的服务，使人们的生活更加的便捷。机场、车站、景区、医院等公共场所一般都会设有问询台，有工作人员在问询台实时的提供问询帮助，当突发高峰导致问询的人数增多时，由于问询服务人员不足，导致大量排队、秩序混乱、用户体验不良等现象；当处于问询人员少时，又导致问询服务人员的人力浪费。当前虽然存在自助问询的机器人，但是由于在嘈杂的公共场所语音识别不准确、并且在进行语音及视频信息转化时信息转化错误导致无法理解客户意图等原因产生了大量答非所问的现象，当前并未被良好的解决，也没有合理的工业化方案，因此，当前普遍无法为用户在公共场所提供语音式交互服务。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种基于视频及语音交互服务设备，解决了在语音与视频识别过程中出现的用户周围噪声大导致信息识别不准确、意图计算错误、意图服务输出慢等问题。

为了实现上述目的，本发明所采用的技术方案为一种基于视频及语音交互服务设备，包括数据采集装置、数据识别装置、数据输出装置，所述数据采集装置、数据识别装置、数据输出装置通过无线连接并安装在服务器上。通过采用上述技术方案，能够使用户与设备实现一套完整的自助服务。

进一步的，所述数据采集装置设置有摄像头、麦克风、分类器，所述摄像头与所述麦克风连接在显示器上，所述分类器与所述摄像头、麦克风通过总数据线相连接，所述麦克风有降噪功能。通过采用上述技术方案，方便对用户信息的采集，降低用户周围噪声，保证语音信息收集的准确性。

进一步的，所述数据输出装置设置有对话管理及服务管理系统，所述对话管理及服务管理系统与显示器相连接。通过上述技术方案，可以根据当前服务内容、当前对话语境、用户意图相结合计算用户所需的服务类型进行匹配并将匹配结果输入到显示器上，实现数据的快速准确传播。

进一步的，所述数据输出装置设置有推荐系统，所述推荐系统与显示器相连接。通过采用上述技术方案，当数据识别装置未能通过用户语音及图像信息识别到相关信息时，推荐系统则将最接近的服务推送供用户选择

进一步的，所述数据输出装置设置有人机交互显示装置，所述人机交互显示装置上设置有显示器、喇叭，所述喇叭连接在所述显示器上。通过采用上述技术方案，方便用户与设备进行语音交互或者点选自助服务。

进一步的，所述数据识别装置设置有意图识别系统。通过采用上述技术方案，将收集到的数据计算出最接近的意图服务供用户点选或语音交互。

进一步的，所述意图识别系统为Embedding运算系统。通过采用上述技术方案，能够快速运算出与用户意图相似的意图服务。

进一步的，所述数据识别装置还包括语音及视频识别系统，所述语音及视频识别系统连接在服务器上。通过采用上述技术方案，方便对用户语进行音识别，确保信息收集的准确性。

进一步的，所述语音及视频识别系统包括识别器、音频转化系统、视频图像编码系统、视频编码及语音和视频信息融合系统、融合信息识别系统、解码器，所述识别器与分类器相连接，所述音频转化系统、视频图像编码系统、视频编码及语音和视频信息融合系统、融合信息识别系统、解码器均通过无线连接。通过采取上述技术方案，能够方便数据的分类、剪辑、处理，进一步提高数据传播速度。

进一步的，所述的音频转化系统为时频转化及卷积神经网络系统，视频图像编码系统为卷积神经网络系统，视频编码及语音和视频信息融合系统为深度神经网络识别系统，融合信息识别系统为Attention识别系统。通过采用上述技术方案，采用了Attention识别系统，这样识别准确率更高，算法更具有鲁棒性，语音信息转化文字信息过程中使用同一个网络处理语音及视频信息，简化了训练方法、减少中间过程，提高了语音转化的准确率，提高了整个数据采集、识别、运算过程中服务器的鲁棒性。

与现有技术相比，本发明的优点在于：1、在视频提取过程中直接提取视频帧与帧之间的关联性，得到连续视频的信息，提高识别用户信息的准确率；2、语音信息转化文字信息过程中简化了训练方法、减少中间过程，提高了语音转化的准确率，使算法更具鲁棒性；3、在语音信息收集过程中能够降低周围噪声，提高用户信息识别准确性。

附图说明

图1为本发明的步骤流程图；

图2为本发明的具体流程图；

1-数据采集装置；2-数据识别装置；3-数据输出装置；11-摄像头；12-分类器；13-麦克风；21-语音及视频识别系统；211-识别器；22-意图识别系统；212-音频转化系统；213-视频图像编码系统；214-视频编码及语音和视频信息融合系统；215-融合信息识别系统；216-解码器；31-人机交互显示装置；311-显示器；312-喇叭；32-对话管理及服务管理系统；33-推荐系统。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合图示与具体实施例，进一步阐述本发明。

实施例1

参见图1-图2的步骤流程图，当用户走进服务范围时，服务器上的数据输出装置3提示用户进行语音或自主手动服务，此时用户可以通过在使用界面上点击的方式进行正常的自助服务，或者直接语音询问设备所需服务。当用户进行语音服务时，数据采集装置1将收集到的用户信息传递给数据识别装置2，此时数据识别装置2对信息进行识别、分类、裁剪、处理，将处理好的数据输入到数据输出装置3，此时数据输出装置3根据识别的信息计算用户所需意图服务，若计算的服务结果对应提前设置的用户意图，数据输出装置3将对应的意图服务显示在显示器311上，若计算结果与提前设置用户意图不对应，则数据输出装置3将根据语音信息及当前的服务进程计算出最为可能的服务，并将计算结果输出到显示器311中供用户选择，此时数据采集装置1又根据用户的语音进行上述流程。

在本实施例中，当用户选择语音识别服务时，摄像头11与麦克风13将收集到的用户信息通过总线传递到在分类器12上，分类器12通过检测用户是否开始说话开始剪裁视频及语音数据。从用户开始说话的时间点麦克风13及摄像头11开始收集视频及语音数据，同时麦克风13将收集到的语音信息进行降噪处理，保证麦克风13收集到的语音信息准确，便于语音及视频识别系统21进行准确识别；然后将语音及图像数据输入到数据识别系统2中，当分类器12检测到当前人脸说话完毕时，停止剪裁，停止向数据识别系统2输入视频和语音数据。

在本实施例中，Embedding运算系统将处理好的意图数据输入到对话管理及服务管理系统32中，对话管理及服务管理模块负责关联当前对话的语义语境、抽取关键词、词槽等，与系统中原始意图服务进行匹配，若计算结果显示意图数据与原始意图服务匹配则将改匹配得到的服务输送到显示器311中，若计算结果不匹配则将意图数据输入到推荐系统33进行下一步操作。

在本实施例中，当对话管理及服务管理系统32中的意图数据与原始意图服务不匹配时，推荐系统33通过根据当前服务内容、当前对话语境、用户语音文字内容相结合计算出最为接近的原始意图服务，并将计算结果输入到显示器311中供用户进行下一步操作。

在本实施例中，对话管理及服务管理系统32或推荐系统33将计算的意图服务输入到人机交互显示装置31中，用户通过人机交互显示装置31中的显示器进行点选服务或者语音操作，或者根据通过人机交互显示装置31中的喇叭312语音播报意图服务点选或者进行语音服务。

在本实施例中，解码器216解码成的文字信息输入到意图识别系统2进行意图的识别，计算出最有可能的用户意图服务。

在本实施例中，基于带有句子语义Embedding运算系统距离得到语义最相近的意图，并将该意图服务输入到对话管理及服务管理系统32进行匹配输入显示器311，供用户进行下一步操作。具体如下：

1、用户语音输入“我要看看卡里最近半年的流水”；

2、Embedding系统基于预训练模型，将用于语音输入转化为数值矩阵；

3、Embedding系统计算用户语音输入转化成的数值矩阵与系统对应服务意图库的数值矩阵之间的余弦距离，取距离最近且在提前设定好的距离阈值范围内的意图，作为用户的意图，确定对应的服务，此例中对应到查询流水服务；

4、Embedding运算系统根据用户上述语句抽取关键词如“最近”、“半年”、“一个月”；5、Embedding运算系统进行关键词匹配如：查询流水服务，“最近半年”；

6、Embedding运算系统将将该服务结果输入到下一程序进行操作。

该过程将视频的处理与音频的处理以及对文字的转换放置统一的神经网络中，减少了分开训练的中间环节，减少了累计误差。

在本实施例中，语音及视频识别系统21根据分类器12剪裁、分类的信息进行识别，并将识别的信息输入到意图识别系统2中进行下一步操作，具体的语音及视频识别系统21基于深度学习识别用户面部表情及肌肉的细微变化，增加语音识别在嘈杂环境下的准确率，然后将视频与降噪后的语音数据相结合，输入语音及视频识别系统21，进行语音识别，将用户语音转化成文字。

在本实施例中，识别器211将分类器12处理的视频及语音数据进行识别，并将识别到的视频及语音信息分别输入到时视频图像编码系统213和音频转化系统212中，进行视频提取及语音时频转化处理，并将处理好的数据输入到视频编码及语音和视频信息融合系统214中将视频及语音进行融合，然后将融合处理的数据输入到融合信息识别系统215中进行识别并转化为文字信息，解码器216将融合信息识别系统215的结果转化成对应的汉字输入到Embedding运算系统中进行意图服务运算。

在本实施例中，视频图像编码系统213中的卷积神经网络系统对图像进行处理，具体的，在视频提取过程中卷积神经网络系统直接提取视频帧与帧之间的关联性，将处理每一帧图像人脸及其附近的视频的数据组合起来，得到连续图像信息；同时，音频转化系统212的时频转化及卷积神经网络系统将收集到的语音数据进行时频转化处理，并输入到时频转化及卷积神经网络系统中的卷积神经网络系统中进行处理，将处理好的视频图像及语音数据传输到深度神经网络识别系统中进行数据叠加处理，其中深度神经网络识别系统通过深度卷积神经网络及全连接层连接。将叠加处理的信息传递到Attention识别系统中，将语音及图像信息转化为文字信息，这样识别准确率更高；然后通过Embedding运算系统对综合处理后的数据进行函数计算，并将计算结果传递到对话管理及服务管理系统32中，该过程简化了训练方法、减少中间过程，提高了语音转化的准确率，使算法更具鲁棒性。

综上所述，当摄像头11检测到用户走近服务范围时或者用户首次点击显示器311时，进入自助服务模式，显示器311显示正常服务界面，摄像头11采集到的图像实时显示在显示器311上，此时麦克风13发出语音提示用户可以进行语音询问进入服务，服务器根据用户选择进行语音或者自行点击正常服务。当用户选择语言服务时，分类器12检测用户是否开始说话，当用户开始语音说话时，麦克风13收集用户语音信息并对语音进行降噪处理，此时的降噪处理是指从用户开始说话到结束说话时只采集用户说话时的语音信息，对于周围的噪声以及周围人的语音信息并不采集，当用户停止说话时麦克风停止语音信息采集，降低周围环境噪声的收集，提高读取信息准确率。同时摄像头11收集用户的面部表情及唇部状态视频，并将收集到的语音及视频数据输入到语音及视频识别系统21中进行识别，通过时频转化及卷积神经网络系统对识别到的语音进行时频转化处理，得到语音矩阵输入到卷积神经网络系统中，因收集到的语音为时域信号，通过短时傅里处理得到语音的频域信息，提高语音信息识别的准确率。同时卷积神经网络系统将处理完成的人脸图像按照时间顺序组成图像序列，每张图像按照顺序依次用卷积神经网络系统识别得到矩阵，然后深度神经网络识别系统将时频转化及卷积神经网络系统的语音信息矩阵输入到卷积神经网络后与卷积神经网络系统处理后的视频图像矩阵通过深度神经网络识别系统中深度卷积神经网络以及全连接层进行叠加，得到综合信息矩阵。将综合信息矩阵输入到Attention识别系统进行识别并将图像信息及语音信息统一转化为文字信息，再通过解码器216将视频图像数据转化为文字信息，并输入到Embedding运算系统中，计算出该段视频及语音中用户所述意图服务，最后将结果输入到对话管理及服务管理系统32中，若计算得到的用户意图服务与提前设置好的原始意图服务相同，则输出相同的结果，若计算结果与原始意图服务不相同，则将用户意图服务输入到推荐系统33，推荐系统33将根据该段视频、语音数据及当前的服务进程计算出最为相似的意图服务，并将计算结果输出到显示器311并通过喇叭312将推荐的意图服务进行语音播报供用户进行下一步操作，此时服务器根据用户的语音或点选进行上述所述流程。在上述过程中，语音及视频识别系统21、意图识别系统22、对话管理及服务管理系统32、推荐系统33为整体训练模式，训练方法更简单快速。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于视频及语音交互服务设备，其特征在于：包括数据采集装置(1)、数据识别装置(2)、数据输出装置(3)，所述数据采集装置(1)、数据识别装置(2)、数据输出装置(3)通过无线连接并安装在服务器上。

2.根据权利要求1所述一种基于视频及语音交互服务设备，其特征在于：所述数据采集装置(1)设置有摄像头(11)、麦克风(13)、分类器(12)，所述摄像头(11)与所述麦克风(13)连接在显示器(311)上，所述分类器(12)与所述摄像头(11)、麦克风(13)通过总数据线相连接，所述麦克风(13)有降噪功能。

3.根据权利要求1所述一种基于视频及语音交互服务设备，其特征在于：所述数据输出装置(3)设置有对话管理及服务管理系统(32)，所述对话管理及服务管理系统(32)与显示器(311)相连接。

4.根据权利要求1所述一种基于视频及语音交互服务设备，其特征在于：所述数据输出装置(3)设置有推荐系统(33)，所述推荐系统(33)与显示器(311)相连接。

5.根据权利要求1所述一种基于视频及语音交互服务设备，其特征在于：所述数据输出装置(3)设置有人机交互显示装置(31)，所述人机交互显示装置(31)上设置有显示器(311)、喇叭(312)，所述喇叭(312)连接在所述显示器(311)上。

6.根据权利要求1所述一种基于视频及语音交互服务设备，其特征在于：所述数据识别装置(2)设置有意图识别系统(22)。

7.根据权利要求6所述一种基于视频及语音交互服务设备，其特征在于：所述意图识别系统(22)为Embedding运算系统。

8.根据权利要求1所述一种基于视频及语音交互服务设备，其特征在于：所述数据识别装置(2)还包括语音及视频识别系统(21)，所述语音及视频识别系统(21)连接在服务器上。

9.根据权利要求8所述一种基于视频及语音交互服务设备，其特征在于：所述语音及视频识别系统(21)包括识别器(211)、音频转化系统(212)、视频图像编码系统(213)、视频编码及语音和视频信息融合系统(214)、融合信息识别系统(215)、解码器(216)，所述识别器(211)与分类器(12)相连接，所述音频转化系统(212)、视频图像编码系统(213)、视频编码及语音和视频信息融合系统(214)、融合信息识别系统(215)、解码器(216)均通过无线连接。

10.根据权利要求9所述一种基于视频及语音交互服务设备，其特征在于：所述的音频转化系统(212)为时频转化及卷积神经网络系统，视频图像编码系统(213)为卷积神经网络系统，视频编码及语音和视频信息融合系统(214)为深度神经网络识别系统，融合信息识别系统(215)为Attention识别系统。