CN107885323B

CN107885323B - 一种基于机器学习的vr场景沉浸控制方法

Info

Publication number: CN107885323B
Application number: CN201710857662.4A
Authority: CN
Inventors: 张晖; 高财政
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2020-06-12
Anticipated expiration: 2037-09-21
Also published as: CN107885323A

Abstract

本发明涉及一种基于机器学习的VR场景沉浸控制方法，使用基于隐马尔科夫模型的用户位置学习算法，预测用户的位置，进而通过VR场景音频输出设备指向用户算法，根据用户位置，调整VR场景音频输出设备的指向，进而达到调整声源指向的目的，并通过实时调节音量算法，解决距离衰减的问题，从而实现用户在空间随机移动时，在空间内任何一个位置听到的声音效果完全相同，完美的解决了这个问题，为VR用户提供了更多的自由度。

Description

一种基于机器学习的VR场景沉浸控制方法

技术领域

本发明涉及一种基于机器学习的VR场景沉浸控制方法，属于智能识别和智能调节技术领域。

背景技术

沉浸感是VR最为核心的技术评价指标，沉浸感是让人专注在当前的目标情境下感到愉悦和满足，而忘记真实世界的情境。它是参与、融入、代入感的程度，是强烈的正负情绪交替的过程。目前，VR的沉浸式问题主要包括沉浸式视频问题和沉浸式音频问题，其中针对沉浸式视频问题的研究，业界已经投入了巨大的精力，相关技术取得了很大进展，并逐步走向成熟。然而，针对沉浸式音频问题，业界尚未引起足够的关注，相关技术仍然存在如下两个技术难点亟待解决。

VR音频的声场智能还原问题：目前，VR的音频采集方案主要通过自然HRTF采集，在还原过程中，VR音频录制设备数目和VR场景音频输出设备数目都是一一对应的，然而，在现实生活中，VR音频的VR音频录制设备与用户家中的VR场景音频输出设备在数目上往往都是不匹配的，这就导致了声场还原度低、音频采集资源浪费和VR场景音频输出设备利用不充分的问题。

VR音频的音效智能调节问题：目前，用户只能在一个固定位置使用VR设备，所有声源之间的相对位置都是固定的，这不仅限制了用户的行动，也限制了用户的体验。当用户在空间中移动时，声源之间的相对位置会发生变化，这就必然需要解决声源指向、距离衰减的问题。

发明内容

本发明所要解决的技术问题是提供一种采用全新设计控制策略，能够有效提高VR沉浸感的基于机器学习的VR场景沉浸控制方法。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于机器学习的VR场景沉浸控制方法，包括如下步骤：

步骤A01.针对L个VR音频录制设备所采集音频信号对应的MIT HRTF数据库，获取MIT HRTF数据库中的各个音频信号对象x_n，1≤n≤N，x_n表示MIT HRTF数据库中第n个音频信号对象，N表示MIT HRTF数据库中音频信号对象的数目；接着分别针对各个音频信号对象x_n，获得音频信号对象x_n所对应的各个指定音频特征属性值x_ns，并构建该音频信号对象x_n的特征向量p(x_n)＝{x_n1、…、x_ns、…、x_nS}，1≤s≤S，x_ns表示第n个音频信号对象所对应的第s个指定音频特征属性值，S表示指定音频特征属性的数目，各个指定音频特征属性包括方位角；然后根据W个VR场景音频输出设备，构建W个聚类簇，初始化迭代次数g＝1，并进入步骤A02；

步骤A02.由N个音频信号对象中随机选取W个音频信号对象，作为W个初始音频信号对象，剩余各个音频信号对象作为各个待处理音频信号对象，构建待处理音频信号对象集合M＝{x₁、…、x_l、…、x_L}，1≤l≤L,L＝N-W，然后进入步骤A03；

步骤A03.将W个初始音频信号对象的特征向量分别一一对应加入至各个聚类簇中，分别作为各个聚类簇中的向量元素，并分别获得各个聚类簇中所有向量元素的初始均值向量a₁、…、a_w、…、a_W，1≤w≤W，然后进入步骤A04；

步骤A04.分别针对待处理音频信号对象集合M中的各个待处理音频信号对象，获得待处理音频信号对象x_l分别与各个聚类簇初始均值向量a_w的距离d_lw，并将该待处理音频信号对象x_l加入至最小d_lw所对应的聚类簇当中，进而将待处理音频信号对象集合M中各个待处理音频信号对象分别加入至对应聚类簇当中，然后进入步骤A05；

步骤A05.判断迭代次数g是否等于预设最大迭代次数，是则进入步骤A08；否则进入步骤A06；

步骤A06.分别获得各个聚类簇中所有向量元素的均值向量a₁'、…、a'_w、…、a'_W，并针对各个聚类簇，判断各个聚类簇初始均值向量a_w与对应均值向量a'_w是否均相等，是则进入步骤A08；否则进入步骤A07；

步骤A07.分别针对各个聚类簇，获得聚类簇初始均值向量a_w与对应均值向量a'_w之间的差值，并获得W个差值的平均值，作为调整幅度值，然后判断调整幅度值是否小于预设最小调整幅度阈值，是则进入步骤A08；否则回滚本次迭代中步骤A02至步骤A04的操作，并针对迭代次数g的值进行加1更新，然后返回步骤A02；

步骤A08.分别针对各个聚类簇，获得聚类簇中各个向量元素方位角的均值，并与MIT HRTF数据库中音频信号对象的方位角进行对比，确认该聚类簇所对应的方位角，并与VR场景音频输出设备的摆放位置进行映射，进而将各个聚类簇一一对应映射到W个VR场景音频输出设备，实现L个VR音频录制设备到W个VR场景音频输出设备的音频信号映射控制。

作为本发明的一种优选技术方案：还包括步骤A0102如下，执行完步骤A01之后，进入步骤A0102，执行外步骤A0102之后，进入步骤A02；

步骤A0102.分别针对各个音频信号对象中的各个指定音频特征属性，进行标准差标准化更新。

作为本发明的一种优选技术方案：所述步骤A0102包括如下：

步骤A0102-1.分别针对各个音频信号对象，获得音频信号对象x_n所对应S个指定音频特征属性值的平均值

同时分别针对各个指定音频特征属性，获得N个音频信号对象对应指定音频特征属性的平均值

然后进入步骤A0102-2；

步骤A0102-2.分别针对各个音频信号对象，并进一步针对音频信号对象中的各个指定音频特征属性值，采用

的结果，针对x_ns进行更新，进而针对各个音频信号对象中的各个指定音频特征属性进行标准差标准化更新。

作为本发明的一种优选技术方案：所述步骤A04中，分别针对待处理音频信号对象集合M中的各个待处理音频信号对象，按如下公式：

d_lw＝||x_l-a_w||²

获得待处理音频信号对象x_l分别与各个聚类簇初始均值向量a_w的距离d_lw。

作为本发明的一种优选技术方案：所述各个指定音频特征属性包括方位角、仰角、双耳时间差数据、双耳声级差数据、频谱结构相位数据和幅度数据。

作为本发明的一种优选技术方案：所述步骤A08之后还包括如下步骤：

步骤B01.分别针对各个VR场景音频输出设备，获得当前时刻、VR场景音频输出设备相对于用户的位置状态y_w，y_w表示当前时刻、第w个VR场景音频输出设备相对于用户的位置状态；然后基于y_w，获得下一时刻、该VR场景音频输出设备相对于用户分别位于各类不同位置状态的概率B_wm＝[P(y_w1|y_w)、…、P(y_wm|y_w)、…、P(y_wM|y_w)]，1≤m≤M，M表示各类不同位置状态的种类数，y_wm表示下一时刻、第w个VR场景音频输出设备相对于用户位于第m类位置状态，进而基于W个VR场景音频输出设备，构建矩阵A＝[P(y_wm|y_w)]_W×M，然后进入步骤B02；

步骤B02.获取基于任意时刻、第w个VR场景音频输出设备相对于用户位于第m类位置状态y'_wm下，该时刻用户定位坐标x'被获取的概率P(x'|y'_wm)，则基于W个VR场景音频输出设备、M种不同位置状态，构建矩阵B＝[P(x'|y'_wm)]_W×M，然后进入步骤B03；

步骤B03.分别针对各个VR场景音频输出设备，获得VR场景音频输出设备相对于用户的初始位置分别为各种不同位置状态的概率向量π_w＝P(y”_wm)，y”_wm表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态，P(y”_wm)表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态的概率，进而获得各个VR场景音频输出设备分别相对于用户的初始位置分别为各种不同位置状态的概率向量组π＝{π₁、…、π_w、…、π_W}，然后进入步骤B04；

步骤B04.根据矩阵A、矩阵B和概率向量组π，构建三元数组E＝{A,B,π}，然后进入步骤B05；

步骤B05.根据历史数据推算各个状态的转移率，并针对三元数组E＝{A,B,π}，计算A、B、π，在采用前向算法计算指定隐马尔可夫模型下，各个VR场景音频输出设备、下一个可观察状态序列的概率如下：

则t时刻、第w个VR场景音频输出设备相对于用户位于各类位置状态下时，该t时刻向前预设各时刻分别观测到该第w个VR场景音频输出设备相对于用户位于对应位置状态的概率：

以及该t时刻向后预设各时刻分别观测到该第w个VR场景音频输出设备相对于用户位于对应位置状态的概率：

接着利用前向、后相的参数学习算法在学习过程中不断更新隐马尔可夫模型的参数，从而使P(x_t|λ)最大，然后进入步骤B06；

步骤B06.获取各个时刻用户的定位信息序列x”＝{x”₁、…、x”_K}，且用户当前时刻定位信息为：x”_t＝(η_t,σ_t)，(η_t,σ_t)表示用户当前时刻定位坐标信息，接着将x”输入到隐马尔可夫模型当中，预测下一时刻用户的方向，并将该方向转换成角度τ，结合预设用户步长λ，预测获得下一时刻用户的位置，然后进入步骤B07；

步骤B07.通过VR场景音频输出设备指向用户算法，根据所获预测用户下一时刻的位置，调整个VR场景音频输出设备的指向；以及根据所获预测用户下一时刻的位置，实时调节音量算法。

作为本发明的一种优选技术方案：所述VR场景音频输出设备相对于用户的各类不同位置状态包括原地不动、正前方、正后方、正左方、正右方、左前方、左后方、右前方、右后方。

作为本发明的一种优选技术方案：所述用户定位坐标为用户GPS定位信息。

本发明所述一种基于机器学习的VR场景沉浸控制方法的应用系统，采用以上技术方案与现有技术相比，具有以下技术效果：本发明所设计基于机器学习的VR场景沉浸控制方法，使用基于隐马尔科夫模型的用户位置学习算法，预测用户的位置，进而通过VR场景音频输出设备指向用户算法，根据用户位置，调整VR场景音频输出设备的指向，进而达到调整声源指向的目的，并通过实时调节音量算法，解决距离衰减的问题，从而实现用户在空间随机移动时，在空间内任何一个位置听到的声音效果完全相同，完美的解决了这个问题，为VR用户提供了更多的自由度。

附图说明

图1是本发明中系统模块关系示意图；

图2是本发明中基于模糊聚类的K均值映射算法流程图；

图3是本发明中基于隐马尔科夫模型的用户位置学习算法流程图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明所设计基于机器学习的VR场景沉浸控制方法，VR在沉浸感方面的问题主要包括沉浸式视频问题和沉浸式音频问题，其中针对沉浸式视频问题的研究，业界已经投入了巨大的精力，相关技术取得了很大进展，并逐步走向成熟。然而，针对沉浸式音频问题，业界尚未引起足够的关注，主要采用多向采集---声场还原---数字HRTF模拟---全景回放的方式来解决，该方法的优点是通过多向的声音传感器收集到的数据构成的声场来还原出360度各个方位的声音信息，再通过HRTF运算来加工为用户可以感受的VR音频，用户可以清楚的辨认出方位和距离，该方法的缺点是在还原过程中，VR音频录制设备数目和VR场景音频输出设备数目要求一一对应，然而，在现实生活中，VR音频的VR音频录制设备与用户家中的VR场景音频输出设备在数目上往往都是不匹配的，这就导致了声场还原度低、音频采集资源浪费和VR场景音频输出设备利用不充分的问题，针对这一问题，本发明提出了使用基于模糊聚类的k均值映射算法的解决方案。另外，我们只能在一个固定位置使用VR设备，谈不上交互，所以所有声源之间的相对位置都是固定的，一切声音也都基于时间线。而在VR游戏当中就要自由的多，我们可以随意在虚拟空间中移动，声源之间的相对位置也就会发生变化，也就是说游戏中的声音是完全基于对象的，这时我们就需要考虑到距离衰减、声源的指向性的问题，而针对该问题业界还没有好的解决方案，如图1所示，本发明使用基于隐马尔科夫模型的用户位置学习算法，预测用户的位置，进而通过VR场景音频输出设备指向用户算法，根据用户位置，调整VR场景音频输出设备的指向，进而达到调整声源指向的目的，并通过实时调节音量算法，解决距离衰减的问题，从而实现用户在空间随机移动时，在空间内任何一个位置听到的声音效果完全相同，完美的解决了这个问题，为VR用户提供了更多的自由度。

本发明设计了一种基于机器学习的VR场景沉浸控制方法，实际应用中，解决VR音频录制设备数目与VR场景音频输出设备数目不匹配的情况，采用基于模糊聚类的k均值映射算法，对VR音频数据特征进行分析，选取VR音频信号的特征向量，获取样本点集，执行模糊聚类的k均值映射算法，对聚类结果更新迭代求解，最后将聚类结果与用户家中外放设备一一映射，如图2所示，具体包括如下步骤：

步骤A01.针对L个VR音频录制设备所采集音频信号对应的MIT HRTF数据库，获取MIT HRTF数据库中的各个音频信号对象x_n，1≤n≤N，x_n表示MIT HRTF数据库中第n个音频信号对象，N表示MIT HRTF数据库中音频信号对象的数目；接着分别针对各个音频信号对象x_n，获得音频信号对象x_n所对应的各个指定音频特征属性值x_ns，并构建该音频信号对象x_n的特征向量p(x_n)＝{x_n1、…、x_ns、…、x_nS}，1≤s≤S，x_ns表示第n个音频信号对象所对应的第s个指定音频特征属性值，S表示指定音频特征属性的数目，各个指定音频特征属性包括方位角；然后根据W个VR场景音频输出设备，构建W个聚类簇，初始化迭代次数g＝1，并进入步骤A0102。其中，所述各个指定音频特征属性包括方位角、仰角、双耳时间差数据(ITD)、双耳声级差数据(IID)、频谱结构相位数据和幅度数据。

步骤A0102.分别针对各个音频信号对象中的各个指定音频特征属性，进行标准差标准化更新，然后进入步骤A02。

上述步骤A0102具体包括如下步骤：

然后进入步骤A0102-2；

步骤A02.由N个音频信号对象中随机选取W个音频信号对象，作为W个初始音频信号对象，剩余各个音频信号对象作为各个待处理音频信号对象，构建待处理音频信号对象集合M＝{x₁、…、x_l、…、x_L}，1≤l≤L,L＝N-W，然后进入步骤A03。

步骤A03.将W个初始音频信号对象的特征向量分别一一对应加入至各个聚类簇中，分别作为各个聚类簇中的向量元素，并分别获得各个聚类簇中所有向量元素的初始均值向量a₁、…、a_w、…、a_W，1≤w≤W，然后进入步骤A04。

步骤A04.分别针对待处理音频信号对象集合M中的各个待处理音频信号对象，按如下公式：

d_lw＝||x_l-a_w||²

获得待处理音频信号对象x_l分别与各个聚类簇初始均值向量a_w的距离d_lw，并将该待处理音频信号对象x_l加入至最小d_lw所对应的聚类簇当中，进而将待处理音频信号对象集合M中各个待处理音频信号对象分别加入至对应聚类簇当中，然后进入步骤A05。

步骤A05.判断迭代次数g是否等于预设最大迭代次数，是则进入步骤A08；否则进入步骤A06。

步骤A06.分别获得各个聚类簇中所有向量元素的均值向量a'₁、…、a'_w、…、a'_W，并针对各个聚类簇，判断各个聚类簇初始均值向量a_w与对应均值向量a'_w是否均相等，是则进入步骤A08；否则进入步骤A07。

步骤A07.分别针对各个聚类簇，获得聚类簇初始均值向量a_w与对应均值向量a'_w之间的差值，并获得W个差值的平均值，作为调整幅度值，然后判断调整幅度值是否小于预设最小调整幅度阈值，是则进入步骤A08；否则回滚本次迭代中步骤A02至步骤A04的操作，并针对迭代次数g的值进行加1更新，然后返回步骤A02。

解决用户出现偏离固定位置的行为时，声场之间的相对位置发生变化，从而引发声场指向、距离衰减的问题。使用基于隐马尔科夫模型的用户位置学习算法，预测用户的位置，进而通过外放设备指向用户算法，根据用户位置，调整外放设备的指向，进而达到调整声源指向的目的，并通过实时调节音量算法，解决距离衰减的问题，从而实现用户在空间随意移动时，在空间内任何一个位置听到的声音效果完全相同，从而提升用户在使用VR设备过程中的自由度，大大提高用户体验，如图3所示，具体处理步骤如下：

步骤B01.分别针对各个VR场景音频输出设备，获得当前时刻、VR场景音频输出设备相对于用户的位置状态y_w，y_w表示当前时刻、第w个VR场景音频输出设备相对于用户的位置状态；然后基于y_w，获得下一时刻、该VR场景音频输出设备相对于用户分别位于各类不同位置状态的概率B_wm＝[P(y_w1|y_w)、…、P(y_wm|y_w)、…、P(y_wM|y_w)]，1≤m≤M，M表示各类不同位置状态的种类数，y_wm表示下一时刻、第w个VR场景音频输出设备相对于用户位于第m类位置状态，进而基于W个VR场景音频输出设备，构建矩阵A＝[P(y_wm|y_w)]_W×M，然后进入步骤B02。其中，VR场景音频输出设备相对于用户的各类不同位置状态包括原地不动、正前方、正后方、正左方、正右方、左前方、左后方、右前方、右后方。

步骤B02.获取基于任意时刻、第w个VR场景音频输出设备相对于用户位于第m类位置状态y'_wm下，该时刻用户定位坐标x'被获取的概率P(x'|y'_wm)，则基于W个VR场景音频输出设备、M种不同位置状态，构建矩阵B＝[P(x'|y'_wm)]_W×M，然后进入步骤B03。

步骤B03.分别针对各个VR场景音频输出设备，获得VR场景音频输出设备相对于用户的初始位置分别为各种不同位置状态的概率向量π_w＝P(y”_wm)，y”_wm表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态，P(y”_wm)表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态的概率，进而获得各个VR场景音频输出设备分别相对于用户的初始位置分别为各种不同位置状态的概率向量组π＝{π₁、…、π_w、…、π_W}，然后进入步骤B04。

步骤B04.根据矩阵A、矩阵B和概率向量组π，构建三元数组E＝{A,B,π}，然后进入步骤B05。

接着利用前向、后相的参数学习算法在学习过程中不断更新隐马尔可夫模型的参数，从而使P(x_t|λ)最大，然后进入步骤B06。

步骤B06.获取各个时刻用户的GPS定位信息序列x”＝{x₁”、…、x”_K}，且用户当前时刻GPS定位信息为：x”_t＝(η_t,σ_t)，(η_t,σ_t)表示用户当前时刻定位坐标信息，接着将x”输入到隐马尔可夫模型当中，预测下一时刻用户的方向，并将该方向转换成角度τ，结合预设用户步长λ，预测获得下一时刻用户的位置，然后进入步骤B07。

上述技术方案所设计基于机器学习的VR场景沉浸控制方法，使用基于隐马尔科夫模型的用户位置学习算法，预测用户的位置，进而通过VR场景音频输出设备指向用户算法，根据用户位置，调整VR场景音频输出设备的指向，进而达到调整声源指向的目的，并通过实时调节音量算法，解决距离衰减的问题，从而实现用户在空间随机移动时，在空间内任何一个位置听到的声音效果完全相同，完美的解决了这个问题，为VR用户提供了更多的自由度。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变动。

Claims

1.一种基于机器学习的VR场景沉浸控制方法，其特征在于，包括如下步骤：

步骤A01.针对L个VR音频录制设备所采集音频信号对应的MIT HRTF数据库，获取MITHRTF数据库中的各个音频信号对象x_n，1≤n≤N，x_n表示MIT HRTF数据库中第n个音频信号对象，N表示MIT HRTF数据库中音频信号对象的数目；接着分别针对各个音频信号对象x_n，获得音频信号对象x_n所对应的各个指定音频特征属性值x_ns，并构建该音频信号对象x_n的特征向量p(x_n)＝{x_n1、…、x_ns、…、x_nS}，1≤s≤S，x_ns表示第n个音频信号对象所对应的第s个指定音频特征属性值，S表示指定音频特征属性的数目，各个指定音频特征属性包括方位角；然后根据W个VR场景音频输出设备，构建W个聚类簇，初始化迭代次数g＝1，并进入步骤A02；

步骤A06.分别获得各个聚类簇中所有向量元素的均值向量a′₁、…、a′_w、…、a′_W，并针对各个聚类簇，判断各个聚类簇初始均值向量a_w与对应均值向量a′_w是否均相等，是则进入步骤A08；否则进入步骤A07；

步骤A07.分别针对各个聚类簇，获得聚类簇初始均值向量a_w与对应均值向量a′_w之间的差值，并获得W个差值的平均值，作为调整幅度值，然后判断调整幅度值是否小于预设最小调整幅度阈值，是则进入步骤A08；否则回滚本次迭代中步骤A02至步骤A04的操作，并针对迭代次数g的值进行加1更新，然后返回步骤A02；

步骤A08.分别针对各个聚类簇，获得聚类簇中各个向量元素方位角的均值，并与MITHRTF数据库中音频信号对象的方位角进行对比，确认该聚类簇所对应的方位角，并与VR场景音频输出设备的摆放位置进行映射，进而将各个聚类簇一一对应映射到W个VR场景音频输出设备，实现L个VR音频录制设备到W个VR场景音频输出设备的音频信号映射控制。

2.根据权利要求1所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：还包括步骤A0102如下，执行完步骤A01之后，进入步骤A0102，执行外步骤A0102之后，进入步骤A02；

3.根据权利要求2所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：所述步骤A0102包括如下：

然后进入步骤A0102-2；

4.根据权利要求1所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：所述步骤A04中，分别针对待处理音频信号对象集合M中的各个待处理音频信号对象，按如下公式：

d_lw＝||x_l-a_w||²

5.根据权利要求1所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：所述各个指定音频特征属性包括方位角、仰角、双耳时间差数据、双耳声级差数据、频谱结构相位数据和幅度数据。

6.根据权利要求1所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：所述步骤A08之后还包括如下步骤：

步骤B02.获取基于任意时刻、第w个VR场景音频输出设备相对于用户位于第m类位置状态y′_wm下，该时刻用户定位坐标x'被获取的概率P(x′|y′_wm)，则基于W个VR场景音频输出设备、M种不同位置状态，构建矩阵B＝[P(x′|y′_wm)]_W×M，然后进入步骤B03；

步骤B03.分别针对各个VR场景音频输出设备，获得VR场景音频输出设备相对于用户的初始位置分别为各种不同位置状态的概率向量π_w＝P(y″_wm)，y″_wm表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态，P(y″_wm)表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态的概率，进而获得各个VR场景音频输出设备分别相对于用户的初始位置分别为各种不同位置状态的概率向量组π＝{π₁、…、π_w、…、π_W}，然后进入步骤B04；

步骤B06.获取各个时刻用户的定位信息序列x″＝{x″₁、…、x″_K}，且用户当前时刻定位信息为：x″_t＝(η_t,σ_t)，(η_t,σ_t)表示用户当前时刻定位坐标信息，接着将x″输入到隐马尔可夫模型当中，预测下一时刻用户的方向，并将该方向转换成角度τ，结合预设用户步长λ，预测获得下一时刻用户的位置，然后进入步骤B07；

7.根据权利要求6所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：所述VR场景音频输出设备相对于用户的各类不同位置状态包括原地不动、正前方、正后方、正左方、正右方、左前方、左后方、右前方、右后方。

8.根据权利要求6所述一种基于机器学习的VR场景沉浸控制方法，其特征在于：所述用户定位坐标为用户GPS定位信息。