CN107885323B - 一种基于机器学习的vr场景沉浸控制方法 - Google Patents

一种基于机器学习的vr场景沉浸控制方法 Download PDF

Info

Publication number
CN107885323B
CN107885323B CN201710857662.4A CN201710857662A CN107885323B CN 107885323 B CN107885323 B CN 107885323B CN 201710857662 A CN201710857662 A CN 201710857662A CN 107885323 B CN107885323 B CN 107885323B
Authority
CN
China
Prior art keywords
scene
user
audio signal
audio
audio output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710857662.4A
Other languages
English (en)
Other versions
CN107885323A (zh
Inventor
张晖
高财政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201710857662.4A priority Critical patent/CN107885323B/zh
Publication of CN107885323A publication Critical patent/CN107885323A/zh
Application granted granted Critical
Publication of CN107885323B publication Critical patent/CN107885323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/012Walk-in-place systems for allowing a user to walk in a virtual environment while constraining him to a given position in the physical environment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种基于机器学习的VR场景沉浸控制方法,使用基于隐马尔科夫模型的用户位置学习算法,预测用户的位置,进而通过VR场景音频输出设备指向用户算法,根据用户位置,调整VR场景音频输出设备的指向,进而达到调整声源指向的目的,并通过实时调节音量算法,解决距离衰减的问题,从而实现用户在空间随机移动时,在空间内任何一个位置听到的声音效果完全相同,完美的解决了这个问题,为VR用户提供了更多的自由度。

Description

一种基于机器学习的VR场景沉浸控制方法
技术领域
本发明涉及一种基于机器学习的VR场景沉浸控制方法,属于智能识别和智能调节技术领域。
背景技术
沉浸感是VR最为核心的技术评价指标,沉浸感是让人专注在当前的目标情境下感到愉悦和满足,而忘记真实世界的情境。它是参与、融入、代入感的程度,是强烈的正负情绪交替的过程。目前,VR的沉浸式问题主要包括沉浸式视频问题和沉浸式音频问题,其中针对沉浸式视频问题的研究,业界已经投入了巨大的精力,相关技术取得了很大进展,并逐步走向成熟。然而,针对沉浸式音频问题,业界尚未引起足够的关注,相关技术仍然存在如下两个技术难点亟待解决。
VR音频的声场智能还原问题:目前,VR的音频采集方案主要通过自然HRTF采集,在还原过程中,VR音频录制设备数目和VR场景音频输出设备数目都是一一对应的,然而,在现实生活中,VR音频的VR音频录制设备与用户家中的VR场景音频输出设备在数目上往往都是不匹配的,这就导致了声场还原度低、音频采集资源浪费和VR场景音频输出设备利用不充分的问题。
VR音频的音效智能调节问题:目前,用户只能在一个固定位置使用VR设备,所有声源之间的相对位置都是固定的,这不仅限制了用户的行动,也限制了用户的体验。当用户在空间中移动时,声源之间的相对位置会发生变化,这就必然需要解决声源指向、距离衰减的问题。
发明内容
本发明所要解决的技术问题是提供一种采用全新设计控制策略,能够有效提高VR沉浸感的基于机器学习的VR场景沉浸控制方法。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于机器学习的VR场景沉浸控制方法,包括如下步骤:
步骤A01.针对L个VR音频录制设备所采集音频信号对应的MIT HRTF数据库,获取MIT HRTF数据库中的各个音频信号对象xn,1≤n≤N,xn表示MIT HRTF数据库中第n个音频信号对象,N表示MIT HRTF数据库中音频信号对象的数目;接着分别针对各个音频信号对象xn,获得音频信号对象xn所对应的各个指定音频特征属性值xns,并构建该音频信号对象xn的特征向量p(xn)={xn1、…、xns、…、xnS},1≤s≤S,xns表示第n个音频信号对象所对应的第s个指定音频特征属性值,S表示指定音频特征属性的数目,各个指定音频特征属性包括方位角;然后根据W个VR场景音频输出设备,构建W个聚类簇,初始化迭代次数g=1,并进入步骤A02;
步骤A02.由N个音频信号对象中随机选取W个音频信号对象,作为W个初始音频信号对象,剩余各个音频信号对象作为各个待处理音频信号对象,构建待处理音频信号对象集合M={x1、…、xl、…、xL},1≤l≤L,L=N-W,然后进入步骤A03;
步骤A03.将W个初始音频信号对象的特征向量分别一一对应加入至各个聚类簇中,分别作为各个聚类簇中的向量元素,并分别获得各个聚类簇中所有向量元素的初始均值向量a1、…、aw、…、aW,1≤w≤W,然后进入步骤A04;
步骤A04.分别针对待处理音频信号对象集合M中的各个待处理音频信号对象,获得待处理音频信号对象xl分别与各个聚类簇初始均值向量aw的距离dlw,并将该待处理音频信号对象xl加入至最小dlw所对应的聚类簇当中,进而将待处理音频信号对象集合M中各个待处理音频信号对象分别加入至对应聚类簇当中,然后进入步骤A05;
步骤A05.判断迭代次数g是否等于预设最大迭代次数,是则进入步骤A08;否则进入步骤A06;
步骤A06.分别获得各个聚类簇中所有向量元素的均值向量a1'、…、a'w、…、a'W,并针对各个聚类簇,判断各个聚类簇初始均值向量aw与对应均值向量a'w是否均相等,是则进入步骤A08;否则进入步骤A07;
步骤A07.分别针对各个聚类簇,获得聚类簇初始均值向量aw与对应均值向量a'w之间的差值,并获得W个差值的平均值,作为调整幅度值,然后判断调整幅度值是否小于预设最小调整幅度阈值,是则进入步骤A08;否则回滚本次迭代中步骤A02至步骤A04的操作,并针对迭代次数g的值进行加1更新,然后返回步骤A02;
步骤A08.分别针对各个聚类簇,获得聚类簇中各个向量元素方位角的均值,并与MIT HRTF数据库中音频信号对象的方位角进行对比,确认该聚类簇所对应的方位角,并与VR场景音频输出设备的摆放位置进行映射,进而将各个聚类簇一一对应映射到W个VR场景音频输出设备,实现L个VR音频录制设备到W个VR场景音频输出设备的音频信号映射控制。
作为本发明的一种优选技术方案:还包括步骤A0102如下,执行完步骤A01之后,进入步骤A0102,执行外步骤A0102之后,进入步骤A02;
步骤A0102.分别针对各个音频信号对象中的各个指定音频特征属性,进行标准差标准化更新。
作为本发明的一种优选技术方案:所述步骤A0102包括如下:
步骤A0102-1.分别针对各个音频信号对象,获得音频信号对象xn所对应S个指定音频特征属性值的平均值
Figure GDA0002451440780000031
同时分别针对各个指定音频特征属性,获得N个音频信号对象对应指定音频特征属性的平均值
Figure GDA0002451440780000032
然后进入步骤A0102-2;
步骤A0102-2.分别针对各个音频信号对象,并进一步针对音频信号对象中的各个指定音频特征属性值,采用
Figure GDA0002451440780000033
的结果,针对xns进行更新,进而针对各个音频信号对象中的各个指定音频特征属性进行标准差标准化更新。
作为本发明的一种优选技术方案:所述步骤A04中,分别针对待处理音频信号对象集合M中的各个待处理音频信号对象,按如下公式:
dlw=||xl-aw||2
获得待处理音频信号对象xl分别与各个聚类簇初始均值向量aw的距离dlw
作为本发明的一种优选技术方案:所述各个指定音频特征属性包括方位角、仰角、双耳时间差数据、双耳声级差数据、频谱结构相位数据和幅度数据。
作为本发明的一种优选技术方案:所述步骤A08之后还包括如下步骤:
步骤B01.分别针对各个VR场景音频输出设备,获得当前时刻、VR场景音频输出设备相对于用户的位置状态yw,yw表示当前时刻、第w个VR场景音频输出设备相对于用户的位置状态;然后基于yw,获得下一时刻、该VR场景音频输出设备相对于用户分别位于各类不同位置状态的概率Bwm=[P(yw1|yw)、…、P(ywm|yw)、…、P(ywM|yw)],1≤m≤M,M表示各类不同位置状态的种类数,ywm表示下一时刻、第w个VR场景音频输出设备相对于用户位于第m类位置状态,进而基于W个VR场景音频输出设备,构建矩阵A=[P(ywm|yw)]W×M,然后进入步骤B02;
步骤B02.获取基于任意时刻、第w个VR场景音频输出设备相对于用户位于第m类位置状态y'wm下,该时刻用户定位坐标x'被获取的概率P(x'|y'wm),则基于W个VR场景音频输出设备、M种不同位置状态,构建矩阵B=[P(x'|y'wm)]W×M,然后进入步骤B03;
步骤B03.分别针对各个VR场景音频输出设备,获得VR场景音频输出设备相对于用户的初始位置分别为各种不同位置状态的概率向量πw=P(y”wm),y”wm表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态,P(y”wm)表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态的概率,进而获得各个VR场景音频输出设备分别相对于用户的初始位置分别为各种不同位置状态的概率向量组π={π1、…、πw、…、πW},然后进入步骤B04;
步骤B04.根据矩阵A、矩阵B和概率向量组π,构建三元数组E={A,B,π},然后进入步骤B05;
步骤B05.根据历史数据推算各个状态的转移率,并针对三元数组E={A,B,π},计算A、B、π,在采用前向算法计算指定隐马尔可夫模型下,各个VR场景音频输出设备、下一个可观察状态序列的概率如下:
Figure GDA0002451440780000041
则t时刻、第w个VR场景音频输出设备相对于用户位于各类位置状态下时,该t时刻向前预设各时刻分别观测到该第w个VR场景音频输出设备相对于用户位于对应位置状态的概率:
Figure GDA0002451440780000042
以及该t时刻向后预设各时刻分别观测到该第w个VR场景音频输出设备相对于用户位于对应位置状态的概率:
Figure GDA0002451440780000043
接着利用前向、后相的参数学习算法在学习过程中不断更新隐马尔可夫模型的参数,从而使P(xt|λ)最大,然后进入步骤B06;
步骤B06.获取各个时刻用户的定位信息序列x”={x”1、…、x”K},且用户当前时刻定位信息为:x”t=(ηtt),(ηtt)表示用户当前时刻定位坐标信息,接着将x”输入到隐马尔可夫模型当中,预测下一时刻用户的方向,并将该方向转换成角度τ,结合预设用户步长λ,预测获得下一时刻用户的位置,然后进入步骤B07;
步骤B07.通过VR场景音频输出设备指向用户算法,根据所获预测用户下一时刻的位置,调整个VR场景音频输出设备的指向;以及根据所获预测用户下一时刻的位置,实时调节音量算法。
作为本发明的一种优选技术方案:所述VR场景音频输出设备相对于用户的各类不同位置状态包括原地不动、正前方、正后方、正左方、正右方、左前方、左后方、右前方、右后方。
作为本发明的一种优选技术方案:所述用户定位坐标为用户GPS定位信息。
本发明所述一种基于机器学习的VR场景沉浸控制方法的应用系统,采用以上技术方案与现有技术相比,具有以下技术效果:本发明所设计基于机器学习的VR场景沉浸控制方法,使用基于隐马尔科夫模型的用户位置学习算法,预测用户的位置,进而通过VR场景音频输出设备指向用户算法,根据用户位置,调整VR场景音频输出设备的指向,进而达到调整声源指向的目的,并通过实时调节音量算法,解决距离衰减的问题,从而实现用户在空间随机移动时,在空间内任何一个位置听到的声音效果完全相同,完美的解决了这个问题,为VR用户提供了更多的自由度。
附图说明
图1是本发明中系统模块关系示意图;
图2是本发明中基于模糊聚类的K均值映射算法流程图;
图3是本发明中基于隐马尔科夫模型的用户位置学习算法流程图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明所设计基于机器学习的VR场景沉浸控制方法,VR在沉浸感方面的问题主要包括沉浸式视频问题和沉浸式音频问题,其中针对沉浸式视频问题的研究,业界已经投入了巨大的精力,相关技术取得了很大进展,并逐步走向成熟。然而,针对沉浸式音频问题,业界尚未引起足够的关注,主要采用多向采集---声场还原---数字HRTF模拟---全景回放的方式来解决,该方法的优点是通过多向的声音传感器收集到的数据构成的声场来还原出360度各个方位的声音信息,再通过HRTF运算来加工为用户可以感受的VR音频,用户可以清楚的辨认出方位和距离,该方法的缺点是在还原过程中,VR音频录制设备数目和VR场景音频输出设备数目要求一一对应,然而,在现实生活中,VR音频的VR音频录制设备与用户家中的VR场景音频输出设备在数目上往往都是不匹配的,这就导致了声场还原度低、音频采集资源浪费和VR场景音频输出设备利用不充分的问题,针对这一问题,本发明提出了使用基于模糊聚类的k均值映射算法的解决方案。另外,我们只能在一个固定位置使用VR设备,谈不上交互,所以所有声源之间的相对位置都是固定的,一切声音也都基于时间线。而在VR游戏当中就要自由的多,我们可以随意在虚拟空间中移动,声源之间的相对位置也就会发生变化,也就是说游戏中的声音是完全基于对象的,这时我们就需要考虑到距离衰减、声源的指向性的问题,而针对该问题业界还没有好的解决方案,如图1所示,本发明使用基于隐马尔科夫模型的用户位置学习算法,预测用户的位置,进而通过VR场景音频输出设备指向用户算法,根据用户位置,调整VR场景音频输出设备的指向,进而达到调整声源指向的目的,并通过实时调节音量算法,解决距离衰减的问题,从而实现用户在空间随机移动时,在空间内任何一个位置听到的声音效果完全相同,完美的解决了这个问题,为VR用户提供了更多的自由度。
本发明设计了一种基于机器学习的VR场景沉浸控制方法,实际应用中,解决VR音频录制设备数目与VR场景音频输出设备数目不匹配的情况,采用基于模糊聚类的k均值映射算法,对VR音频数据特征进行分析,选取VR音频信号的特征向量,获取样本点集,执行模糊聚类的k均值映射算法,对聚类结果更新迭代求解,最后将聚类结果与用户家中外放设备一一映射,如图2所示,具体包括如下步骤:
步骤A01.针对L个VR音频录制设备所采集音频信号对应的MIT HRTF数据库,获取MIT HRTF数据库中的各个音频信号对象xn,1≤n≤N,xn表示MIT HRTF数据库中第n个音频信号对象,N表示MIT HRTF数据库中音频信号对象的数目;接着分别针对各个音频信号对象xn,获得音频信号对象xn所对应的各个指定音频特征属性值xns,并构建该音频信号对象xn的特征向量p(xn)={xn1、…、xns、…、xnS},1≤s≤S,xns表示第n个音频信号对象所对应的第s个指定音频特征属性值,S表示指定音频特征属性的数目,各个指定音频特征属性包括方位角;然后根据W个VR场景音频输出设备,构建W个聚类簇,初始化迭代次数g=1,并进入步骤A0102。其中,所述各个指定音频特征属性包括方位角、仰角、双耳时间差数据(ITD)、双耳声级差数据(IID)、频谱结构相位数据和幅度数据。
步骤A0102.分别针对各个音频信号对象中的各个指定音频特征属性,进行标准差标准化更新,然后进入步骤A02。
上述步骤A0102具体包括如下步骤:
步骤A0102-1.分别针对各个音频信号对象,获得音频信号对象xn所对应S个指定音频特征属性值的平均值
Figure GDA0002451440780000071
同时分别针对各个指定音频特征属性,获得N个音频信号对象对应指定音频特征属性的平均值
Figure GDA0002451440780000072
然后进入步骤A0102-2;
步骤A0102-2.分别针对各个音频信号对象,并进一步针对音频信号对象中的各个指定音频特征属性值,采用
Figure GDA0002451440780000073
的结果,针对xns进行更新,进而针对各个音频信号对象中的各个指定音频特征属性进行标准差标准化更新。
步骤A02.由N个音频信号对象中随机选取W个音频信号对象,作为W个初始音频信号对象,剩余各个音频信号对象作为各个待处理音频信号对象,构建待处理音频信号对象集合M={x1、…、xl、…、xL},1≤l≤L,L=N-W,然后进入步骤A03。
步骤A03.将W个初始音频信号对象的特征向量分别一一对应加入至各个聚类簇中,分别作为各个聚类簇中的向量元素,并分别获得各个聚类簇中所有向量元素的初始均值向量a1、…、aw、…、aW,1≤w≤W,然后进入步骤A04。
步骤A04.分别针对待处理音频信号对象集合M中的各个待处理音频信号对象,按如下公式:
dlw=||xl-aw||2
获得待处理音频信号对象xl分别与各个聚类簇初始均值向量aw的距离dlw,并将该待处理音频信号对象xl加入至最小dlw所对应的聚类簇当中,进而将待处理音频信号对象集合M中各个待处理音频信号对象分别加入至对应聚类簇当中,然后进入步骤A05。
步骤A05.判断迭代次数g是否等于预设最大迭代次数,是则进入步骤A08;否则进入步骤A06。
步骤A06.分别获得各个聚类簇中所有向量元素的均值向量a'1、…、a'w、…、a'W,并针对各个聚类簇,判断各个聚类簇初始均值向量aw与对应均值向量a'w是否均相等,是则进入步骤A08;否则进入步骤A07。
步骤A07.分别针对各个聚类簇,获得聚类簇初始均值向量aw与对应均值向量a'w之间的差值,并获得W个差值的平均值,作为调整幅度值,然后判断调整幅度值是否小于预设最小调整幅度阈值,是则进入步骤A08;否则回滚本次迭代中步骤A02至步骤A04的操作,并针对迭代次数g的值进行加1更新,然后返回步骤A02。
步骤A08.分别针对各个聚类簇,获得聚类簇中各个向量元素方位角的均值,并与MIT HRTF数据库中音频信号对象的方位角进行对比,确认该聚类簇所对应的方位角,并与VR场景音频输出设备的摆放位置进行映射,进而将各个聚类簇一一对应映射到W个VR场景音频输出设备,实现L个VR音频录制设备到W个VR场景音频输出设备的音频信号映射控制。
解决用户出现偏离固定位置的行为时,声场之间的相对位置发生变化,从而引发声场指向、距离衰减的问题。使用基于隐马尔科夫模型的用户位置学习算法,预测用户的位置,进而通过外放设备指向用户算法,根据用户位置,调整外放设备的指向,进而达到调整声源指向的目的,并通过实时调节音量算法,解决距离衰减的问题,从而实现用户在空间随意移动时,在空间内任何一个位置听到的声音效果完全相同,从而提升用户在使用VR设备过程中的自由度,大大提高用户体验,如图3所示,具体处理步骤如下:
步骤B01.分别针对各个VR场景音频输出设备,获得当前时刻、VR场景音频输出设备相对于用户的位置状态yw,yw表示当前时刻、第w个VR场景音频输出设备相对于用户的位置状态;然后基于yw,获得下一时刻、该VR场景音频输出设备相对于用户分别位于各类不同位置状态的概率Bwm=[P(yw1|yw)、…、P(ywm|yw)、…、P(ywM|yw)],1≤m≤M,M表示各类不同位置状态的种类数,ywm表示下一时刻、第w个VR场景音频输出设备相对于用户位于第m类位置状态,进而基于W个VR场景音频输出设备,构建矩阵A=[P(ywm|yw)]W×M,然后进入步骤B02。其中,VR场景音频输出设备相对于用户的各类不同位置状态包括原地不动、正前方、正后方、正左方、正右方、左前方、左后方、右前方、右后方。
步骤B02.获取基于任意时刻、第w个VR场景音频输出设备相对于用户位于第m类位置状态y'wm下,该时刻用户定位坐标x'被获取的概率P(x'|y'wm),则基于W个VR场景音频输出设备、M种不同位置状态,构建矩阵B=[P(x'|y'wm)]W×M,然后进入步骤B03。
步骤B03.分别针对各个VR场景音频输出设备,获得VR场景音频输出设备相对于用户的初始位置分别为各种不同位置状态的概率向量πw=P(y”wm),y”wm表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态,P(y”wm)表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态的概率,进而获得各个VR场景音频输出设备分别相对于用户的初始位置分别为各种不同位置状态的概率向量组π={π1、…、πw、…、πW},然后进入步骤B04。
步骤B04.根据矩阵A、矩阵B和概率向量组π,构建三元数组E={A,B,π},然后进入步骤B05。
步骤B05.根据历史数据推算各个状态的转移率,并针对三元数组E={A,B,π},计算A、B、π,在采用前向算法计算指定隐马尔可夫模型下,各个VR场景音频输出设备、下一个可观察状态序列的概率如下:
Figure GDA0002451440780000091
则t时刻、第w个VR场景音频输出设备相对于用户位于各类位置状态下时,该t时刻向前预设各时刻分别观测到该第w个VR场景音频输出设备相对于用户位于对应位置状态的概率:
Figure GDA0002451440780000092
以及该t时刻向后预设各时刻分别观测到该第w个VR场景音频输出设备相对于用户位于对应位置状态的概率:
Figure GDA0002451440780000093
接着利用前向、后相的参数学习算法在学习过程中不断更新隐马尔可夫模型的参数,从而使P(xt|λ)最大,然后进入步骤B06。
步骤B06.获取各个时刻用户的GPS定位信息序列x”={x1”、…、x”K},且用户当前时刻GPS定位信息为:x”t=(ηtt),(ηtt)表示用户当前时刻定位坐标信息,接着将x”输入到隐马尔可夫模型当中,预测下一时刻用户的方向,并将该方向转换成角度τ,结合预设用户步长λ,预测获得下一时刻用户的位置,然后进入步骤B07。
步骤B07.通过VR场景音频输出设备指向用户算法,根据所获预测用户下一时刻的位置,调整个VR场景音频输出设备的指向;以及根据所获预测用户下一时刻的位置,实时调节音量算法。
上述技术方案所设计基于机器学习的VR场景沉浸控制方法,使用基于隐马尔科夫模型的用户位置学习算法,预测用户的位置,进而通过VR场景音频输出设备指向用户算法,根据用户位置,调整VR场景音频输出设备的指向,进而达到调整声源指向的目的,并通过实时调节音量算法,解决距离衰减的问题,从而实现用户在空间随机移动时,在空间内任何一个位置听到的声音效果完全相同,完美的解决了这个问题,为VR用户提供了更多的自由度。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变动。

Claims (8)

1.一种基于机器学习的VR场景沉浸控制方法,其特征在于,包括如下步骤:
步骤A01.针对L个VR音频录制设备所采集音频信号对应的MIT HRTF数据库,获取MITHRTF数据库中的各个音频信号对象xn,1≤n≤N,xn表示MIT HRTF数据库中第n个音频信号对象,N表示MIT HRTF数据库中音频信号对象的数目;接着分别针对各个音频信号对象xn,获得音频信号对象xn所对应的各个指定音频特征属性值xns,并构建该音频信号对象xn的特征向量p(xn)={xn1、…、xns、…、xnS},1≤s≤S,xns表示第n个音频信号对象所对应的第s个指定音频特征属性值,S表示指定音频特征属性的数目,各个指定音频特征属性包括方位角;然后根据W个VR场景音频输出设备,构建W个聚类簇,初始化迭代次数g=1,并进入步骤A02;
步骤A02.由N个音频信号对象中随机选取W个音频信号对象,作为W个初始音频信号对象,剩余各个音频信号对象作为各个待处理音频信号对象,构建待处理音频信号对象集合M={x1、…、xl、…、xL},1≤l≤L,L=N-W,然后进入步骤A03;
步骤A03.将W个初始音频信号对象的特征向量分别一一对应加入至各个聚类簇中,分别作为各个聚类簇中的向量元素,并分别获得各个聚类簇中所有向量元素的初始均值向量a1、…、aw、…、aW,1≤w≤W,然后进入步骤A04;
步骤A04.分别针对待处理音频信号对象集合M中的各个待处理音频信号对象,获得待处理音频信号对象xl分别与各个聚类簇初始均值向量aw的距离dlw,并将该待处理音频信号对象xl加入至最小dlw所对应的聚类簇当中,进而将待处理音频信号对象集合M中各个待处理音频信号对象分别加入至对应聚类簇当中,然后进入步骤A05;
步骤A05.判断迭代次数g是否等于预设最大迭代次数,是则进入步骤A08;否则进入步骤A06;
步骤A06.分别获得各个聚类簇中所有向量元素的均值向量a′1、…、a′w、…、a′W,并针对各个聚类簇,判断各个聚类簇初始均值向量aw与对应均值向量a′w是否均相等,是则进入步骤A08;否则进入步骤A07;
步骤A07.分别针对各个聚类簇,获得聚类簇初始均值向量aw与对应均值向量a′w之间的差值,并获得W个差值的平均值,作为调整幅度值,然后判断调整幅度值是否小于预设最小调整幅度阈值,是则进入步骤A08;否则回滚本次迭代中步骤A02至步骤A04的操作,并针对迭代次数g的值进行加1更新,然后返回步骤A02;
步骤A08.分别针对各个聚类簇,获得聚类簇中各个向量元素方位角的均值,并与MITHRTF数据库中音频信号对象的方位角进行对比,确认该聚类簇所对应的方位角,并与VR场景音频输出设备的摆放位置进行映射,进而将各个聚类簇一一对应映射到W个VR场景音频输出设备,实现L个VR音频录制设备到W个VR场景音频输出设备的音频信号映射控制。
2.根据权利要求1所述一种基于机器学习的VR场景沉浸控制方法,其特征在于:还包括步骤A0102如下,执行完步骤A01之后,进入步骤A0102,执行外步骤A0102之后,进入步骤A02;
步骤A0102.分别针对各个音频信号对象中的各个指定音频特征属性,进行标准差标准化更新。
3.根据权利要求2所述一种基于机器学习的VR场景沉浸控制方法,其特征在于:所述步骤A0102包括如下:
步骤A0102-1.分别针对各个音频信号对象,获得音频信号对象xn所对应S个指定音频特征属性值的平均值
Figure FDA0002451440770000021
同时分别针对各个指定音频特征属性,获得N个音频信号对象对应指定音频特征属性的平均值
Figure FDA0002451440770000022
然后进入步骤A0102-2;
步骤A0102-2.分别针对各个音频信号对象,并进一步针对音频信号对象中的各个指定音频特征属性值,采用
Figure FDA0002451440770000023
的结果,针对xns进行更新,进而针对各个音频信号对象中的各个指定音频特征属性进行标准差标准化更新。
4.根据权利要求1所述一种基于机器学习的VR场景沉浸控制方法,其特征在于:所述步骤A04中,分别针对待处理音频信号对象集合M中的各个待处理音频信号对象,按如下公式:
dlw=||xl-aw||2
获得待处理音频信号对象xl分别与各个聚类簇初始均值向量aw的距离dlw
5.根据权利要求1所述一种基于机器学习的VR场景沉浸控制方法,其特征在于:所述各个指定音频特征属性包括方位角、仰角、双耳时间差数据、双耳声级差数据、频谱结构相位数据和幅度数据。
6.根据权利要求1所述一种基于机器学习的VR场景沉浸控制方法,其特征在于:所述步骤A08之后还包括如下步骤:
步骤B01.分别针对各个VR场景音频输出设备,获得当前时刻、VR场景音频输出设备相对于用户的位置状态yw,yw表示当前时刻、第w个VR场景音频输出设备相对于用户的位置状态;然后基于yw,获得下一时刻、该VR场景音频输出设备相对于用户分别位于各类不同位置状态的概率Bwm=[P(yw1|yw)、…、P(ywm|yw)、…、P(ywM|yw)],1≤m≤M,M表示各类不同位置状态的种类数,ywm表示下一时刻、第w个VR场景音频输出设备相对于用户位于第m类位置状态,进而基于W个VR场景音频输出设备,构建矩阵A=[P(ywm|yw)]W×M,然后进入步骤B02;
步骤B02.获取基于任意时刻、第w个VR场景音频输出设备相对于用户位于第m类位置状态y′wm下,该时刻用户定位坐标x'被获取的概率P(x′|y′wm),则基于W个VR场景音频输出设备、M种不同位置状态,构建矩阵B=[P(x′|y′wm)]W×M,然后进入步骤B03;
步骤B03.分别针对各个VR场景音频输出设备,获得VR场景音频输出设备相对于用户的初始位置分别为各种不同位置状态的概率向量πw=P(y″wm),y″wm表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态,P(y″wm)表示第w个VR场景音频输出设备相对于用户的初始位置位于第m类位置状态的概率,进而获得各个VR场景音频输出设备分别相对于用户的初始位置分别为各种不同位置状态的概率向量组π={π1、…、πw、…、πW},然后进入步骤B04;
步骤B04.根据矩阵A、矩阵B和概率向量组π,构建三元数组E={A,B,π},然后进入步骤B05;
步骤B05.根据历史数据推算各个状态的转移率,并针对三元数组E={A,B,π},计算A、B、π,在采用前向算法计算指定隐马尔可夫模型下,各个VR场景音频输出设备、下一个可观察状态序列的概率如下:
Figure FDA0002451440770000031
则t时刻、第w个VR场景音频输出设备相对于用户位于各类位置状态下时,该t时刻向前预设各时刻分别观测到该第w个VR场景音频输出设备相对于用户位于对应位置状态的概率:
Figure FDA0002451440770000032
以及该t时刻向后预设各时刻分别观测到该第w个VR场景音频输出设备相对于用户位于对应位置状态的概率:
Figure FDA0002451440770000041
接着利用前向、后相的参数学习算法在学习过程中不断更新隐马尔可夫模型的参数,从而使P(xt|λ)最大,然后进入步骤B06;
步骤B06.获取各个时刻用户的定位信息序列x″={x″1、…、x″K},且用户当前时刻定位信息为:x″t=(ηtt),(ηtt)表示用户当前时刻定位坐标信息,接着将x″输入到隐马尔可夫模型当中,预测下一时刻用户的方向,并将该方向转换成角度τ,结合预设用户步长λ,预测获得下一时刻用户的位置,然后进入步骤B07;
步骤B07.通过VR场景音频输出设备指向用户算法,根据所获预测用户下一时刻的位置,调整个VR场景音频输出设备的指向;以及根据所获预测用户下一时刻的位置,实时调节音量算法。
7.根据权利要求6所述一种基于机器学习的VR场景沉浸控制方法,其特征在于:所述VR场景音频输出设备相对于用户的各类不同位置状态包括原地不动、正前方、正后方、正左方、正右方、左前方、左后方、右前方、右后方。
8.根据权利要求6所述一种基于机器学习的VR场景沉浸控制方法,其特征在于:所述用户定位坐标为用户GPS定位信息。
CN201710857662.4A 2017-09-21 2017-09-21 一种基于机器学习的vr场景沉浸控制方法 Active CN107885323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710857662.4A CN107885323B (zh) 2017-09-21 2017-09-21 一种基于机器学习的vr场景沉浸控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710857662.4A CN107885323B (zh) 2017-09-21 2017-09-21 一种基于机器学习的vr场景沉浸控制方法

Publications (2)

Publication Number Publication Date
CN107885323A CN107885323A (zh) 2018-04-06
CN107885323B true CN107885323B (zh) 2020-06-12

Family

ID=61780799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710857662.4A Active CN107885323B (zh) 2017-09-21 2017-09-21 一种基于机器学习的vr场景沉浸控制方法

Country Status (1)

Country Link
CN (1) CN107885323B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109709989A (zh) * 2019-01-09 2019-05-03 中德(珠海)人工智能研究院有限公司 一种定位系统、定位方法及增强现实系统
CN110705799A (zh) * 2019-10-10 2020-01-17 北京小米移动软件有限公司 一种智能提示梳洗相关信息的方法、装置及介质
CN110888535A (zh) * 2019-12-05 2020-03-17 上海工程技术大学 一种可以提高现场真实感的ar系统
CN113362864B (zh) * 2021-06-16 2022-08-02 北京字节跳动网络技术有限公司 音频信号处理的方法、装置、存储介质及电子设备
CN114885257B (zh) * 2022-07-12 2022-11-04 北京远特科技股份有限公司 一种音频处理方法、装置、电子设备及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10229244B2 (en) * 2002-11-11 2019-03-12 Affymetrix, Inc. Methods for identifying DNA copy number changes using hidden markov model based estimations
JP4765289B2 (ja) * 2003-12-10 2011-09-07 ソニー株式会社 音響システムにおけるスピーカ装置の配置関係検出方法、音響システム、サーバ装置およびスピーカ装置
US8976986B2 (en) * 2009-09-21 2015-03-10 Microsoft Technology Licensing, Llc Volume adjustment based on listener position
CN102074236B (zh) * 2010-11-29 2012-06-06 清华大学 一种分布式麦克风的说话人聚类方法
CN102740208B (zh) * 2011-04-14 2014-12-10 东南大学 一种基于多变量统计的助听器声源定位方法
CN104019885A (zh) * 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析系统
CN103218628A (zh) * 2013-03-22 2013-07-24 中国科学技术大学 一种基于团块与轨迹特征的异常行为描述方法
CN103605362B (zh) * 2013-09-11 2016-03-02 天津工业大学 基于车辆轨迹多特征的运动模式学习及异常检测方法
CN104464750B (zh) * 2014-10-24 2017-07-07 东南大学 一种基于双耳声源定位的语音分离方法
CN109447327A (zh) * 2015-03-31 2019-03-08 江苏理工学院 一种地铁列车轨迹预测方法
CN105575403A (zh) * 2015-12-25 2016-05-11 重庆邮电大学 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法
CN106028226B (zh) * 2016-05-27 2019-03-05 北京奇虎科技有限公司 声音播放方法及设备
CN106878877A (zh) * 2017-03-23 2017-06-20 南京邮电大学 Vr体验场景下为用户提供环绕立体声的方法及系统
CN106954127B (zh) * 2017-04-07 2019-10-29 南京邮电大学 一种vr场景下音频沉浸式控制方法

Also Published As

Publication number Publication date
CN107885323A (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
CN107885323B (zh) 一种基于机器学习的vr场景沉浸控制方法
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
US11307864B2 (en) Data processing apparatus and method
US9681250B2 (en) Statistical modelling, interpolation, measurement and anthropometry based prediction of head-related transfer functions
Keyrouz Advanced binaural sound localization in 3-D for humanoid robots
CN108076224A (zh) 应用程序控制方法、装置及存储介质和移动终端
Su Prediction of multivariate chaotic time series with local polynomial fitting
US20110060708A1 (en) Information processing device, information processing method, and program
CN110377961A (zh) 作物生长环境控制方法、装置、计算机设备及存储介质
Deleforge et al. Variational EM for binaural sound-source separation and localization
Lin et al. Device clustering algorithm based on multimodal data correlation in cognitive Internet of Things
Luo et al. Diff-instruct: A universal approach for transferring knowledge from pre-trained diffusion models
US20110060707A1 (en) Information processing device, information processing method, and program
Gao et al. Accurate grid keypoint learning for efficient video prediction
CN103824285B (zh) 一种基于蝙蝠优化模糊聚类的图像分割方法
Qian et al. Deep audio-visual beamforming for speaker localization
Lin et al. Domestic activities clustering from audio recordings using convolutional capsule autoencoder network
JP5909943B2 (ja) 情報処理装置、推定機生成方法、及びプログラム
Lai et al. Guided sampling for multistructure data via neighborhood consensus and residual sorting
CN115294353A (zh) 基于多层属性引导的人群场景图像字幕描述方法
CN115422993A (zh) 跨城市兴趣点分布数据迁移预测方法及系统
CN115019083A (zh) 基于少样本学习的词嵌入图神经网络的细粒度图分类方法
Wu et al. Multi-speaker DoA Estimation Using Audio and Visual Modality
CN114764469A (zh) 一种内容推荐方法、装置、计算机设备和存储介质
JP2022534712A (ja) 画像サンプルの選択方法及び関連装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant