CN117198295B

CN117198295B - 自适应环境感知的语音智能识别方法和系统

Info

Publication number: CN117198295B
Application number: CN202311419403.5A
Authority: CN
Inventors: 邹弘伶
Original assignee: Beijing Longyifeng Technology Co ltd
Current assignee: Beijing Longyifeng Technology Co ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-05-14
Anticipated expiration: 2043-10-30
Also published as: CN117198295A; CN117935810A

Abstract

本发明提供的一种自适应环境感知的语音智能识别方法和系统，该方法包括基于用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频使用第一分割模型输出得到说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离；基于麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据；将用户说话语音数据转换为文字，该方法能够准确的将环境中其他人的人声和用户人声进行分割。

Description

自适应环境感知的语音智能识别方法和系统

技术领域

本发明涉及语音识别技术领域，具体涉及一种自适应环境感知的语音智能识别方法和系统。

背景技术

随着人工智能和移动设备的发展，语音识别技术越来越普及。当用户在安静状态下，用户可以发出语音并输入到手机中，手机可以根据接收到的语音通过语音识别技术转换为文字。但当用户在嘈杂的环境中时，往往环境中有其他人的人声等，若用户发出语音并输入到手机中时，则手机进行语音识别后的识别结果就包含了环境中的多种人声，从而造成识别结果错误。

因此如何准确的将环境中其他人的人声和用户人声进行分割是当前亟待解决的问题。

发明内容

本发明主要解决的技术问题如何准确的将环境中其他人的人声和用户人声进行分割。

根据第一方面，本发明提供一种自适应环境感知的语音智能识别方法，包括：获取手机发送的用户定位信息；基于所述用户定位信息判断是否开启光线传感器、加速度计、震动传感器；若判断结果为是，则获取预设时间段的光线传感器的数据、预设时间段的加速度计数据、预设时间段的震动传感器数据；基于所述定位信息、所述预设时间段的光线传感器的数据、所述预设时间段的加速度计数据、所述预设时间段的震动传感器数据使用传感器数据处理模型确定用户是否处于有人声的嘈杂环境；若传感器数据处理模型的输出结果为是，则当接收到用户开启麦克风的请求时，则同时开启前置摄像头和后置摄像头；接收到用户开启麦克风的请求时，获取麦克风的语音输入数据、用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频；基于所述用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频使用第一分割模型输出得到说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离；基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据；将所述用户说话语音数据转换为文字，该方法能够快速准确的确定企业生产经营场所发生火灾时的干粉灭火剂的用量。

更进一步地，所述基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据包括：

基于第二分割模型对所述说话用户的脸部动作视频和所述多个环境用户的脸部动作视频进行处理得到所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频；构建多个节点和所述多个节点之间的多条边，所述多个节点包括手机节点、说话用户节点、多个环境用户节点，其中所述手机节点为中心节点，所述说话用户节点、所述多个环境用户节点分别与所述手机节点建立边，所述手机节点的节点特征包括所述麦克风的语音输入数据，所述说话用户节点的节点特征包括所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户节点的节点特征包括所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频，所述说话用户节点与所述手机节点之间的边为所述说话用户到手机的距离，环境用户节点与所述手机节点之间的边为所述环境用户到手机的距离；基于图神经网络模型对所述多个节点和所述多个节点之间的多条边进行处理确定用户说话语音数据。

更进一步地，所述手机发送的用户定位信息包括手机发送的GPS定位信息、手机发送的Wi-Fi定位信息、手机发送的基站定位信息。

更进一步地，所述第一分割模型为循环神经网络模型、所述第二分割模型为循环神经网络模型。

更进一步地，所述方法还包括：若传感器数据处理模型的输出结果为否，则当接收到用户开启麦克风的请求时，则仅开启麦克风。

根据第二方面，本发明提供一种自适应环境感知的语音智能识别系统，包括：第一获取模块，用于获取手机发送的用户定位信息；判断模块，用于基于所述用户定位信息判断是否开启光线传感器、加速度计、震动传感器；第二获取模块，用于若判断结果为是，则获取预设时间段的光线传感器的数据、预设时间段的加速度计数据、预设时间段的震动传感器数据；确定模块，用于基于所述定位信息、所述预设时间段的光线传感器的数据、所述预设时间段的加速度计数据、所述预设时间段的震动传感器数据使用传感器数据处理模型确定用户是否处于有人声的嘈杂环境；摄像头开启模块，用于若传感器数据处理模型的输出结果为是，则当接收到用户开启麦克风的请求时，则同时开启前置摄像头和后置摄像头；第三获取模块，用于接收到用户开启麦克风的请求时，获取麦克风的语音输入数据、用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频；分割模块，用于基于所述用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频使用第一分割模型输出得到说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离；语音数据确定模块，用于基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据；转换模块，用于将所述用户说话语音数据转换为文字。

更进一步地，所述语音数据确定模块还用于：基于第二分割模型对所述说话用户的脸部动作视频和所述多个环境用户的脸部动作视频进行处理得到所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频；构建多个节点和所述多个节点之间的多条边，所述多个节点包括手机节点、说话用户节点、多个环境用户节点，其中所述手机节点为中心节点，所述说话用户节点、所述多个环境用户节点分别与所述手机节点建立边，所述手机节点的节点特征包括所述麦克风的语音输入数据，所述说话用户节点的节点特征包括所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户节点的节点特征包括所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频，所述说话用户节点与所述手机节点之间的边为所述说话用户到手机的距离，环境用户节点与所述手机节点之间的边为所述环境用户到手机的距离；基于图神经网络模型对所述多个节点和所述多个节点之间的多条边进行处理确定用户说话语音数据。

更进一步地，所述系统还用于：若传感器数据处理模型的输出结果为否，则当接收到用户开启麦克风的请求时，则仅开启麦克风。

本发明提供的一种自适应环境感知的语音智能识别方法和系统，该方法包括获取手机发送的用户定位信息；基于所述用户定位信息判断是否开启光线传感器、加速度计、震动传感器；若判断结果为是，则获取预设时间段的光线传感器的数据、预设时间段的加速度计数据、预设时间段的震动传感器数据；基于所述定位信息、所述预设时间段的光线传感器的数据、所述预设时间段的加速度计数据、所述预设时间段的震动传感器数据使用传感器数据处理模型确定用户是否处于有人声的嘈杂环境；若传感器数据处理模型的输出结果为是，则当接收到用户开启麦克风的请求时，则同时开启前置摄像头和后置摄像头；接收到用户开启麦克风的请求时，获取麦克风的语音输入数据、用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频；基于所述用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频使用第一分割模型输出得到说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离；基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据；将所述用户说话语音数据转换为文字，该方法能够快速准确的确定企业生产经营场所发生火灾时的干粉灭火剂的用量。该方法能够准确的将环境中其他人的人声和用户人声进行分割。

附图说明

图1为本发明实施例提供的一种自适应环境感知的语音智能识别方法的流程示意图；

图2为本发明实施例提供的确定用户说话语音数据的方法的流程示意图；

图3为本发明实施例提供的一种多个节点和所述多个节点之间的多条边的示意图；

图4为本发明实施例提供的一种自适应环境感知的语音智能识别系统的示意图。

具体实施方式

本发明实施例中，提供了如图1所示的一种自适应环境感知的语音智能识别方法，所述自适应环境感知的语音智能识别方法包括步骤S1~S9：

步骤S1，获取手机发送的用户定位信息；

其中所述手机发送的用户定位信息包括手机发送的GPS定位信息、手机发送的Wi-Fi定位信息、手机发送的基站定位信息。

步骤S2，基于所述用户定位信息判断是否开启光线传感器、加速度计、震动传感器。

在一些实施例中，若所述用户定位信息位于人口集中区域，则确定开启光线传感器、加速度计、震动传感器，以启用这些传感器进行进一步的判断，从而判断用户当前是否处于有人声的嘈杂环境。

在一些实施例中，若所述用户定位信息不位于人口集中区域，则确定不开启光线传感器、加速度计、震动传感器。

人口集中区域包括商城、超市、学校等。

光线传感器为一种用于感知环境光照强度的传感器。加速度计为一种用于感知手机加速度和方向变化的传感器。震动传感器为一种用于感知手机振动情况的传感器。

步骤S3，若判断结果为是，则获取预设时间段的光线传感器的数据、预设时间段的加速度计数据、预设时间段的震动传感器数据。

预设时间段是指提前设定好的一段特定时间。预设时间段的光线传感器的数据是指光线传感器在这段时间内检测到的光线信息，预设时间段的加速度计数据是这段时间内手机的移动和震动信息，预设时间段的震动传感器数据是这段时间内手机的移动和震动信息。

步骤S4，基于所述定位信息、所述预设时间段的光线传感器的数据、所述预设时间段的加速度计数据、所述预设时间段的震动传感器数据使用传感器数据处理模型确定用户是否处于有人声的嘈杂环境。

传感器数据处理模型为循环神经网络模型，循环神经网络模型包括循环神经网络（Recurrent Neural Network, RNN）。循环神经网络模型能够处理序列数据，捕捉序列的信息，输出基于序列中前后数据关联关系的结果。通过循环神经网络模型处理连续时间段的光线传感器的数据、加速度计数据、震动传感器，能够输出得到综合考虑了各个时间点的序列之间关联关系的特征，使得该输出的特征更加的准确和全面。循环神经网络包括一个隐藏层和一个输出层。隐藏层的每一个神经元在每个时间步都接收输入和前一个时刻的隐藏状态作为输入，并产生当前时刻的输出和下一个时刻的隐藏状态。传感器数据处理模型的输入为所述定位信息、所述预设时间段的光线传感器的数据、所述预设时间段的加速度计数据、所述预设时间段的震动传感器数据，传感器数据处理模型的输出为是处于有人声的嘈杂环境或不处于有人声的嘈杂环境。

通过获取用户的定位信息，可以确定用户所处的位置环境。例如，如果用户处于一个拥挤的公共场所或者嘈杂的街道，那么很可能是存在人声和噪声干扰的环境。光线传感器可以检测周围的光照强度。在白天或者明亮的室内环境中，一般较少会有嘈杂的人声干扰。而在昏暗或者夜晚的室外环境中，可能存在更多的人声噪音。加速度计可以检测设备的运动和震动。如果用户处于一个人流密集的地方，如火车站或者购物中心，加速度计数据可能会显示设备持续或者频繁的运动和震动，这也暗示着可能存在嘈杂的人声环境。震动传感器可以检测到设备或者周围物体的震动情况。在有人声的嘈杂环境中，可能伴随着人们的活动和交谈，会导致一定的震动传感器数据。

根据所述定位信息、预设时间段的光线传感器的数据、预设时间段的加速度计数据、预设时间段的震动传感器数据，使用传感器数据处理模型进行分析和判断。传感器数据处理模型将综合考虑各种传感器数据的特征，如光线强度、手机的运动状态和震动情况等，来判断用户所处环境是否嘈杂。作为示例，在晚上的时间段内，光线传感器数据显示环境光照较暗，加速度计数据显示手机处于静止状态，震动传感器数据显示手机无明显震动，结合定位信息确认用户所在地是一个居民区，根据传感器数据处理模型的判断，可以认为用户处于较为安静的环境中，反之亦然。

这样，后续可以根据判断结果来决定是否需要是否开启摄像头以对用户的语音输入进行额外的噪声处理，以提高语音识别和理解的准确性。

在一些实施例中，若传感器数据处理模型的输出结果为否，则当接收到用户开启麦克风的请求时，则仅开启麦克风。

传感器数据处理模型可以通过训练样本训练得到。训练样本的输入为样本定位信息、样本预设时间段的光线传感器的数据、样本预设时间段的加速度计数据、样本预设时间段的震动传感器数据，训练样本的输出为处于有人声的嘈杂环境或不处于有人声的嘈杂环境。在一些实施例中，可以通过梯度下降法对传感器数据处理模型进行训练得到训练后的传感器数据处理模型。具体的，根据训练样本，构建传感器数据处理模型的损失函数，通过传感器数据处理模型的损失函数调整图神经网络模型的参数，直到损失函数值收敛或者小于预设阈值，则训练完成。损失函数可以包括但不限于对数(log)损失函数、平方损失函数、指数损失函数、Hinge损失函数以及绝对值损失函数等。

步骤S5，若传感器数据处理模型的输出结果为是，则当接收到用户开启麦克风的请求时，则同时开启前置摄像头和后置摄像头。

当确定用户处于身边有人声的嘈杂环境时，则当接收到用户开启麦克风的请求时，则同时开启前置摄像头和后置摄像头以获取环境中的更多信息以消除环境中的噪声。

步骤S6，接收到用户开启麦克风的请求时，获取麦克风的语音输入数据、用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频。

用户开启麦克风的请求为用户发送请求，要求系统启动麦克风以接收语音输入。举例：用户可以点击应用程序中的语音输入按钮，发出开启麦克风的请求。麦克风的语音输入数据为包括了用户说话声音以及其他环境用户声音的数据，因此，需要对麦克风的语音输入数据进行处理以去掉其他环境用户声音从而分离出用户说话声音。

用户语音输入时间段指用户进行语音输入的时间范围，用户语音输入时间段包括用户开始说话的时间点和结束说话的时间点。举例：假设用户在手机上进行语音输入，时长为30秒，那么这30秒的时间范围就是用户语音输入时间段。

前置摄像头视频指前置摄像头安装在手机屏幕正前方的摄像头，用于拍摄用户面向手机屏幕时的画面。通过前置摄像头视频可以获取说话用户的脸部动作和表情，有助于提高语音识别的准确性。

后置摄像头视频为安装在手机背部的后置摄像头所拍摄的视频。通过后置摄像头视频可以获取环境用户的脸部动作和表情，有助于提高语音识别的准确性。

步骤S7，基于所述用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频使用第一分割模型输出得到说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离。

说话用户的脸部动作视频为在用户语音输入时间段内，通过前置摄像头拍摄到的用户面部视频数据。这段视频用于分析用户的脸部动作特征。

多个环境用户的脸部动作视频指在用户语音输入时间段内，通过后置摄像头拍摄到的周围环境中其他用户的面部视频数据。这段视频用于分析多个环境用户的脸部动作特征。

说话用户到手机的距离指根据前置摄像头拍摄到的用户面部视频数据和相机参数等信息使用第一分割模型计算得到的说话用户与手机之间的距离。

多个环境用户到手机的距离为根据后置摄像头拍摄到的周围环境中其他用户的面部视频数据和相机参数等信息使用第一分割模型计算出的环境用户与手机之间的距离。

第一分割模型为循环神经网络模型，第一分割模型的输入为所述用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频，第一分割模型的输出为说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离。

第一分割模型可以通过对输入数据进行逐帧处理，并将每一帧的信息进行建模，从而实现对不同目标的分割。

第一分割模型通过对输入的面部图像序列进行逐帧处理和建模，可以捕捉到面部动作的时序变化。在训练过程中，模型学习到了脸部动作与音频输入之间的关联关系，从而能够解析出说话用户的脸部动作视频、多个环境用户的脸部动作视频。

第一分割模型可以通过对输入的视频序列进行建模，学习到面部特征随着距离的变化而产生的模式。通过在训练过程中提供带有已知距离标签的样本，模型可以进行学习，并推断出说话用户到手机的距离、多个环境用户到手机的距离。在一些实施例中，可以通过梯度下降法对第一分割模型进行训练得到训练后的循环神经网络模型。

步骤S8，基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据。

图2为本发明实施例提供的一种确定用户说话语音数据的方法的流程示意图，如图2所示，步骤S8具体包括步骤S21-S23：

步骤S21，基于第二分割模型对所述说话用户的脸部动作视频和所述多个环境用户的脸部动作视频进行处理得到所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频；

第二分割模型为循环神经网络模型。第二分割模型的输入为所述说话用户的脸部动作视频和所述多个环境用户的脸部动作视频。第二分割模型的输出为说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频。

通过第二分割模型，可以将说话用户和环境用户的面部动作进行精细的分割和识别，从而获取更加全面的面部动作信息，提高语音识别的准确性。

嘴部动作视频是指通过第二分割模型从视频中提取出的嘴部动作的连续图像或视频片段。

下巴动作视频是指通过第二分割模型从视频中提取出的下巴动作的连续图像或视频片段。

说话时，嘴部和下巴的运动与发音息息相关。不同的发音方式会引起不同的嘴部形态变化。通过观察和分析嘴部和下巴的动作，可以获得关于用户说话内容的信息。举例来说，发音字母"b"和"p"在发音上是相似的，但唯一的区别就是唇部的闭合程度。通过观察用户嘴部动作中的闭合程度，可以推断出用户可能是说了"b"还是"p"。

脸颊两侧肌肉动作视频是指通过第二分割模型从视频中提取出的脸颊两侧肌肉动作的连续图像或视频片段。脸颊两侧的肌肉动作也会受到说话时声音的影响。这些肌肉动作可能与口腔的形状和大小相关，这对于声音的产生和传播都有影响。通过观察脸颊两侧肌肉的动作，可以间接地推断出声音的特征和内容，从而提取出用户说话的语音数据。

在一个复杂的环境中，可能存在多个其他人在同时说话的情况。这些其他人产生的声音会被认为是干扰噪声。因此，其他人的嘴部和下巴动作、脸颊肌肉动作也会与他们的说话内容相关。

通过对说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频进行处理，可以进行多源声音分离或者噪声消除的处理，削弱或去除其他人的声音干扰，从而更好地提取出目标用户的说话语音数据。

步骤S22，构建多个节点和所述多个节点之间的多条边，所述多个节点包括手机节点、说话用户节点、多个环境用户节点，其中所述手机节点为中心节点，所述说话用户节点、所述多个环境用户节点分别与所述手机节点建立边，所述手机节点的节点特征包括所述麦克风的语音输入数据，所述说话用户节点的节点特征包括所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户节点的节点特征包括所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频，所述说话用户节点与所述手机节点之间的边为所述说话用户到手机的距离，环境用户节点与所述手机节点之间的边为所述环境用户到手机的距离。

说话用户的嘴部动作视频、下巴动作视频、脸颊两侧肌肉动作视频：用户在说话时，口唇、下巴和脸颊的肌肉会产生特定的运动和变化。通过图神经网络模型的分析，可以提取出这些嘴部动作和肌肉动作的信息，并与音频数据进行关联，以恢复出用户的语音内容。

执行步骤S22的目的是构建一个图结构，将手机、说话用户和环境用户之间的关系以图结构的方式表示出来。通过这种方式，可以利用图神经网络模型对图结构进行分析和处理，从而对所述麦克风的语音输入数据去除噪音从而筛选出用户说话语音数据。图3为本发明实施例提供的一种多个节点和所述多个节点之间的多条边的示意图，其中A、B、C、D、E为多个节点，手机节点为E、说话用户节点为A、多个环境用户节点分别为B、C、D。说话用户节点A与手机节点E之间的边为所述说话用户到手机的距离，环境用户节点B、C、D与所述手机节点E之间的边为所述环境用户到手机的距离。

图神经网络模型可以通过对所述说话用户的嘴部动作视频、下巴动作视频、脸颊两侧肌肉动作视频以及多个环境用户的相应视频数据进行学习和分析，从而将视觉信息转化为语音信息以环境噪声中提取出用户说话语音数据。

图神经网络模型是一种能够处理图结构数据的深度学习模型。图神经网络模型包括图神经网络（Graph Neural Network，GNN）和全连接层。图神经网络是一种直接作用于图上的神经网络，所述图是由节点和边两部分组成的一种数据结构。图神经网络模型基于信息传播机制，每一个节点通过相互交换信息来更新自己的节点状态，直到达到某一个稳定值。其中每一个节点可以包括多个节点特征、节点特征可以为多种类型，例如数值、文本、图像等。在这个应用场景中，可以将各个视频数据中的嘴部动作、下巴动作和脸颊肌肉动作看作是图中的节点，并且节点之间存在某种关联关系。例如，同一个用户的嘴部动作视频、下巴动作视频和脸颊肌肉动作视频之间存在时序上的关联，而多个环境用户的动作视频之间也存在某种关联。

通过将这些视频数据转化为图结构，训练后的图神经网络模型可以学习到节点之间的关联和模式，并利用这些关联和模式来进行预测和推理。具体来说，模型可以提取出嘴部动作、下巴动作和脸颊肌肉动作的特征表示，将其映射到语音特征空间中，从而得到用户说话的语音数据。

图神经网络模型的优势在于其能够捕捉到节点之间的复杂关系和上下文信息。通过对嘴部动作视频、下巴动作视频、脸颊两侧肌肉动作视频的建模，模型可以利用这些视觉信息来补充和辅助语音信号的提取，从而实现从环境噪声中提取用户说话语音数据的目标。

所述说话用户到手机的距离和所述环境用户到手机的距离可以作为多条边输入到图神经网络模型以帮助确定用户说话语音数据。这是因为距离会对声音传播和接收造成影响，从而影响语音信号的质量和特征。具体来说，说话者到手机的距离会影响到声音信号的强度和清晰度。当距离过远时，声音信号可能被环境噪声所掩盖，同时也会使声音信号衰减、失真，从而影响语音识别的准确性。环境噪声和干扰也会对语音信号的质量产生影响。具体来说，环境噪声和干扰可能会掩盖人声信号，或者改变声音信号的特征，严重影响语音识别的准确性。因此，所述说话用户到手机的距离和所述环境用户到手机的距离都是非常重要的输入信息，可以帮助确定和处理用户说话语音数据。

步骤S23，基于图神经网络模型对所述多个节点和所述多个节点之间的多条边进行处理确定用户说话语音数据。

图神经网络模型的输入为所述多个节点和所述多个节点之间的多条边，图神经网络模型的输出为用户说话语音数据。

步骤S9，将所述用户说话语音数据转换为文字。

在一些实施例中，可以通过现有的语音识别算法将用户说话语音数据转换成文字。例如，语音识别算法可以包括基于动态时间规整（Dynamic Time Warping）的算法、基于参数模型的隐马尔可夫模型（HMM）的方法、基于非参数模型的矢量量化（VQ）的方法、基于人工神经网络（ANN）的算法和混合算法。

基于同一发明构思，图4为本发明的实施例提供的一种自适应环境感知的语音智能识别系统示意图，所述自适应环境感知的语音智能识别系统包括：

第一获取模块41，用于获取手机发送的用户定位信息；

判断模块42，用于基于所述用户定位信息判断是否开启光线传感器、加速度计、震动传感器；

第二获取模块43，用于若判断结果为是，则获取预设时间段的光线传感器的数据、预设时间段的加速度计数据、预设时间段的震动传感器数据；

确定模块44，用于基于所述定位信息、所述预设时间段的光线传感器的数据、所述预设时间段的加速度计数据、所述预设时间段的震动传感器数据使用传感器数据处理模型确定用户是否处于有人声的嘈杂环境；

摄像头开启模块45，用于若传感器数据处理模型的输出结果为是，则当接收到用户开启麦克风的请求时，则同时开启前置摄像头和后置摄像头；

第三获取模块46，用于接收到用户开启麦克风的请求时，获取麦克风的语音输入数据、用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频；

分割模块47，用于基于所述用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频使用第一分割模型输出得到说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离；

语音数据确定模块48，用于基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据；

转换模块49，用于将所述用户说话语音数据转换为文字。

Claims

1.一种自适应环境感知的语音智能识别方法，其特征在于，包括：

获取手机发送的用户定位信息；

基于所述用户定位信息判断是否开启光线传感器、加速度计、震动传感器；

若判断结果为是，则获取预设时间段的光线传感器的数据、预设时间段的加速度计数据、预设时间段的震动传感器数据；

基于所述定位信息、所述预设时间段的光线传感器的数据、所述预设时间段的加速度计数据、所述预设时间段的震动传感器数据使用传感器数据处理模型确定用户是否处于有人声的嘈杂环境；

若传感器数据处理模型的输出结果为是，则当接收到用户开启麦克风的请求时，则同时开启前置摄像头和后置摄像头；

接收到用户开启麦克风的请求时，获取麦克风的语音输入数据、用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频；

基于所述用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频使用第一分割模型输出得到说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离；

基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据，所述基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据包括：

基于第二分割模型对所述说话用户的脸部动作视频和所述多个环境用户的脸部动作视频进行处理得到所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频；

构建多个节点和所述多个节点之间的多条边，所述多个节点包括手机节点、说话用户节点、多个环境用户节点，其中所述手机节点为中心节点，所述说话用户节点、所述多个环境用户节点分别与所述手机节点建立边，所述手机节点的节点特征包括所述麦克风的语音输入数据，所述说话用户节点的节点特征包括所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户节点的节点特征包括所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频，所述说话用户节点与所述手机节点之间的边为所述说话用户到手机的距离，环境用户节点与所述手机节点之间的边为所述环境用户到手机的距离；

基于图神经网络模型对所述多个节点和所述多个节点之间的多条边进行处理确定用户说话语音数据；

将所述用户说话语音数据转换为文字。

2.如权利要求1所述的自适应环境感知的语音智能识别方法，其特征在于，所述手机发送的用户定位信息包括手机发送的GPS定位信息、手机发送的Wi-Fi定位信息、手机发送的基站定位信息。

3.如权利要求1所述的自适应环境感知的语音智能识别方法，其特征在于，所述第一分割模型为循环神经网络模型、所述第二分割模型为循环神经网络模型。

4.如权利要求1所述的自适应环境感知的语音智能识别方法，其特征在于，所述方法还包括：若传感器数据处理模型的输出结果为否，则当接收到用户开启麦克风的请求时，则仅开启麦克风。

5.一种自适应环境感知的语音智能识别系统，其特征在于，包括：

第一获取模块，用于获取手机发送的用户定位信息；

判断模块，用于基于所述用户定位信息判断是否开启光线传感器、加速度计、震动传感器；

第二获取模块，用于若判断结果为是，则获取预设时间段的光线传感器的数据、预设时间段的加速度计数据、预设时间段的震动传感器数据；

确定模块，用于基于所述定位信息、所述预设时间段的光线传感器的数据、所述预设时间段的加速度计数据、所述预设时间段的震动传感器数据使用传感器数据处理模型确定用户是否处于有人声的嘈杂环境；

摄像头开启模块，用于若传感器数据处理模型的输出结果为是，则当接收到用户开启麦克风的请求时，则同时开启前置摄像头和后置摄像头；

第三获取模块，用于接收到用户开启麦克风的请求时，获取麦克风的语音输入数据、用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频；

分割模块，用于基于所述用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频使用第一分割模型输出得到说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离；

语音数据确定模块，用于基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据，所述语音数据确定模块还用于：基于第二分割模型对所述说话用户的脸部动作视频和所述多个环境用户的脸部动作视频进行处理得到所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频；

转换模块，用于将所述用户说话语音数据转换为文字。

6.如权利要求5所述的自适应环境感知的语音智能识别系统，其特征在于，所述手机发送的用户定位信息包括手机发送的GPS定位信息、手机发送的Wi-Fi定位信息、手机发送的基站定位信息。

7.如权利要求5所述的自适应环境感知的语音智能识别系统，其特征在于，所述第一分割模型为循环神经网络模型、所述第二分割模型为循环神经网络模型。

8.如权利要求5所述的自适应环境感知的语音智能识别系统，其特征在于，所述系统还用于：若传感器数据处理模型的输出结果为否，则当接收到用户开启麦克风的请求时，则仅开启麦克风。