CN105611481B - 一种基于空间声的人机交互方法和系统 - Google Patents

一种基于空间声的人机交互方法和系统 Download PDF

Info

Publication number
CN105611481B
CN105611481B CN201511021317.4A CN201511021317A CN105611481B CN 105611481 B CN105611481 B CN 105611481B CN 201511021317 A CN201511021317 A CN 201511021317A CN 105611481 B CN105611481 B CN 105611481B
Authority
CN
China
Prior art keywords
mtd
msub
sound
voice data
mtr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511021317.4A
Other languages
English (en)
Other versions
CN105611481A (zh
Inventor
孙学京
刘皓
刘恩
张晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tuoling Xinsheng Technology Co.,Ltd.
Original Assignee
Beijing Tuoling Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tuoling Inc filed Critical Beijing Tuoling Inc
Priority to CN201511021317.4A priority Critical patent/CN105611481B/zh
Publication of CN105611481A publication Critical patent/CN105611481A/zh
Application granted granted Critical
Publication of CN105611481B publication Critical patent/CN105611481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种基于空间声的人机交互的方法和系统,人机交互方法包括如下步骤:通过客户端麦克风录入客户声音,对录入的所述声音数据进行初级筛选,获取声音数据;将所述声音数据上传到服务器端;所述服务器端对接收到的所述语音数据进行分析和整合;对所述语音数据进行空间声生成渲染;通过所述客户端的播放端播放所述语音数据,生成空间声弹幕。本发明可以实现声音在三维空间中的定位,引导用户更有效的观看全景视频,克服了传统弹幕用文字方式带来遮挡视频内容的弊病,从而提升用户的兴趣。

Description

一种基于空间声的人机交互方法和系统
技术领域
本发明涉及人机交互领域,具体涉及一种基于空间声的人机交互方法和系统。
背景技术
用户消费多媒体内容时,常常通过显示设备(计算机屏幕,移动设备屏幕,虚拟现实显示屏幕)来欣赏视频,通过立体声耳机欣赏音频内容。弹幕是近年来兴起的一种在屏幕上实时显示用户评论的方式,可以给观众一种“实时互动”的错觉。
弹幕作为用户对视频内容的实时评论,可以有效的提升用户的兴趣,增加用户的粘性。但同时传统弹幕用文字的方式也带来遮挡视频内容的弊病,一些不合时宜的弹幕也会降低观众对于视频的注意力。
在用虚拟现实设备观看内容时,如常见的虚拟影院模式,用户置身于一个虚拟影院环境中,前方是电影的大屏幕。在此场景中,如果使用声音评论则会提升临场感,并降低用户孤独感,当然,在观看普通电影时,只要戴着立体声耳机,用户也可以使用语音弹幕。
在用虚拟现实设备观看全景视频内容时,语音弹幕可以起到引导用户更有效的观看视频的作用。这也是传统基于文字的弹幕所不具备的。这要求播放语音评论时空间声的方位和录制时的方位是一致的(在这里方位是指用户观看全景视频的方位)。比如,用户在观看第一个方向的视频内容是,有来自左侧90度方向的语音评论,则用户就会被引导向左转头90度去观看相应的视频内容。相应的播放模块需要旋转声场使得原来90度的语音评论听起来是来自正前方。如何实现上述功能,目前还没有比较有效的解决方案。
发明内容
本发明主要解决的技术问题是提供一种基于空间声的人机交互方法和系统,利用改变声音的双耳声级差和双耳时间差,生成基于双耳的空间声,实现声音在三维空间中的定位,引导用户更有效的观看全景视频,从而提升用户的兴趣。
为解决上述技术问题,本发明采用如下技术方案:
一种基于空间声的人机交互的方法,其特征在于,包括如下步骤:
步骤S1,通过客户端麦克风录入客户声音,,对录入的所述声音数据进行初级筛选,获取声音数据;
步骤S2,将所述声音数据上传到服务器端;
步骤S3,所述服务器端对接收到的所述语音数据进行分析和整合;
步骤S4,对所述语音数据进行空间声生成渲染;
步骤S5,通过所述客户端的播放端播放所述语音数据,生成空间声弹幕。
进一步,所述步骤1在录入所述声音数据的同时记录如下信息:
语音录制时间:用于后期对语音排序使用;
在录制时相应视频内容的时间:用于确定语音被回放的时间点;
使用的是虚拟现实设备观看全景视频时,还需要记录所述语音数据录入时观看视角。
进一步,所述步骤3中所述分析和整合包括:
对所述语音数据进行筛选,包括使用语音识别、关键词审查、音频分析技术去除噪音过大和含有不雅词汇;
对所述语音数据进行优先级排序;
生成播放列表,包括文件名和相关的元数据,用来表明语音文件的播放时间及空间位置。
进一步,所述语音数据优先级排序规则为所述语音数据物理性质适宜播放,VIP会员,评论内容与视频内容相关性和评论的新旧程度。
进一步,所述步骤S4中所述空间声生成渲染方法为:
根据所述步骤S1中所述声音数据录音时记录下的时间和观看视角,改变声音的双耳声级差和双耳时间差,生成基于双耳的空间声,实现声音在三维空间中的定位。
进一步,所述声音数据录音时记录下的时间和观看视角可以在所述服务器端根据需求修改。
进一步,在所述空间声生成渲染方法中使用头部相关传递函数(HRTF)滤波器,获得对声音在三维感知空间中更为真实的模拟,所述HRTF滤波器系数可以通过测量或使用数学模型来获得,分为左耳和右耳的传递函数;
对于一个音源S,放在空间中θ角度,所述θ角度根据所述观看视角确定,则所述音源S双耳化过程为:
其中,Hl,θ,Hr,θ为对应角度θ的左右耳的HRTF;
对于多个音源则会把分别的双耳化结果(i=1,2......N)相加,所述多个音源的双耳化过程用矩阵形式表示为:
进一步,所述步骤S4中所述空间声生成渲染在所述服务器端或客户端进行,
在所述服务端进行时生成的空间声是固定的,所述播放端不需要实时交互;
在所述客户端进行时所述客户端的播放端需要与用户实时交互。
进一步,所述步骤S5中生成空间声弹幕准则如下:
同一时刻同一位置只出现一个空间声;
同时呈现的声音不多于用户设定的个数;
音源的摆放的默认位置依据录制时记录下的观看视角,但如果和所述前两个准则冲突则需调整空间声位置和播放时间。
一种基于空间声的人机交互系统,包括空间声生成模块、位于客户端的录入模块和播放模块、位于服务器端的聚合模块,其特征在于,
所述录入模块用于录入客户声音并将所录制的语音数据上传到所述服务器端;
所述聚合模块对所述录入模块上传到服务器端的所述语音数据进行分析和整合;
所述空间声生成模块用于把声音放到三维空间中;
所述播放模块负责从负责从服务器下载语音数据,进行播放;
所述空间声生成模块与所述聚合模块连接,获取分析整合后的语音数据,对所述语音数据利用改变声音的双耳声级差和双耳时间差,生成基于双耳的空间声,并将生成的所述空间声通过所述播放模块发送给用户;
所述空间生成模块位于所述客户端或所述服务器端。
本发明的有益效果是:
用户在观看全景视频,尤其是在虚拟现实设备中,本发明可以起到引导用户更有效的观看全景视频,沉浸式声音更大的带来亲切感,会降低用虚拟现实设备观看电影时的孤独感,空间声更充分的利用了声音的特性来传递了更多的信息。
本发明克服了传统弹幕用文字方式带来遮挡视频内容的弊病,提升了用户的兴趣。
附图说明
图1是本发明一个实施例的基于空间声的人机交互方法流程示意图。
图2是本发明一个实施例的基于空间声的人机交互方法中记录下的观看视角示意图。
图3是本发明一个实施例的基于空间声的人机交互方法中根据观看视角确定的空间声位置示意图。
图4是本发明一个实施例的基于空间声的人机交互系统连接方框示意图。
具体实施方式
下面对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
实施例1一种基于空间声的人机交互的方法,包括如下步骤:
步骤S1,通过客户端麦克风录入客户声音,进行初级筛选,获取声音数据。
客户端麦克风录入用户语音,通过初级筛选屏蔽无效语音,如噪音过大,音量过高或过低等,同时记录以下信息:
语音录制时间:用来后期对语音排序使用,如新进评论可能权重高些,被播出的概率大些;
在录制时相应视频内容的时间:此时间决定了语音被回放的时间点;
如果是全景视频,在用虚拟现实设备观看时,还要记录下当前观看视角。
步骤S2,将所述声音数据上传到服务器端。
步骤S3,所述服务器端对接收到的所述语音数据进行分析和整合。
服务器端接收客户端录入的声音数据,进行分析整合,具体过程如下:
进一步的语音评论筛选:包括使用语音识别,关键词审查(keyword spotting),音频分析技术等,去除噪音过大,含有不雅词汇等;
对评论进行优先级排序:影响排序的则有多种,如物理性质适宜播放(长短适中等),VIP会员,评论内容与视频内容相关性等;
生成播放列表,列表包括文件名,以及相关的元数据(Metadata),用来表明语音文件的播放时间及空间位置。
步骤S4,对所述语音数据进行空间声生成渲染。
根据声音数据录音时记录下的时间和音源观看视角,利用改变声音的双耳声级差(interaural level difference)和双耳时间差(interaural time difference)生成基于双耳的空间声(spatial sound),或三维音频(3D audio),实现声音在三维空间中的定位。
在频域上,通过使用头部相关传递函数(Head-Related Transfer Function,HRTF)滤波器,对声音在三维感知空间中更为真实的模拟。
HRTF滤波器系数可以通过测量或使用数学模型来获得,分为左耳和右耳的传递函数。比如将一个音源S放在空间中θ角度,则其双耳化过程为:
其中,Hl,θ,Hr,θ为对应角度θ的左右耳的HRTF;
对于多个音源则会把分别的双耳化结果(i=1,2......N)相加,多个音源的双耳化过程用矩阵形式表示为:
如果是在时域上操作,则矩阵相乘就变成了卷积,HRTF也需要换成对应的HRIR(Head-Related Impulse Response)函数。
本实施例中只对空间声做角度上的区分,因此假设音源到听者的距离保持一致。
空间声生成渲染可以在在服务器端或客户端进行,如果不需要改变生成的音频信号,也就是播放端不需要实时交互,客户端只需本地生成或从服务器下载生成的双声道立体声音频。
上述将音源按照指定的时间和空间位置生成空间声的方法中,默认是依据录音时记录下的时间和观看视角,也可以利用服务器处理模块根据需求改变,赋予空间声新的时间和方位。
在全景视频模式下,空间声生成渲染可以在客户端或服务器端进行,此时客户端的播放端需要与用户实时交互,空间声需要根据播放端用户的头部方位做实时调整,如用户使用虚拟显示设备(可以是带头部跟踪传感器的移动设备或耳机),则用户的头部旋转角度可以返回给播放端,播放端根据角度实时调整或生成对应的空间声。如果是在服务器端进行双耳化,则需要把角度实时传到服务器端,如果角度变化不大,或网络延迟很低,这也是可行的。
步骤S5,通过所述客户端的播放端播放所述语音数据,生成空间声弹幕。
生成空间声弹幕准则如下:
同一时刻同一位置只出现一个空间声;
同时呈现的声音不多于用户设定的个数;
音源的摆放的默认位置依据录制时记录下的观看视角,但如果和前两个准则冲突则需调整空间声位置和播放时间。
根据记录的观看视角确定空间声的播放位置,如图2和图3所示,图2中虚线方框的位置为用户全景视频观看区域,该区域的中心点到原点的距离为d,角度为θ,则空间声的播放位置如图3所示。
本实施例克服了传统弹幕用文字方式带来遮挡视频内容的弊病,可以引导用户更有效的观看全景视频,尤其是在虚拟现实设备中。
实施例2一种基于空间声的人机交互系统,包括:
包括空间声生成模块、位于客户端的录入模块和播放模块、位于服务器端的聚合模块。
所述录入模块用于录入客户声音并将所录制的语音数据上传到所述服务器端;
所述聚合模块对所述录入模块上传到服务器端的所述语音数据进行分析和整合;
所述空间声生成模块用于把声音放到三维空间中;
所述播放模块负责从负责从服务器下载语音数据,进行播放;
所述空间声生成模块与所述聚合模块连接,获取分析整合后的语音数据,对所述语音数据利用改变声音的双耳声级差和双耳时间差,生成基于双耳的空间声,并将生成的所述空间声通过所述播放模块发送给用户。
所述空间生成模块位于所述客户端或所述服务器端。
所述录入模块还包括语音筛选模块和记录模块,所述语音筛选模块用于屏蔽无效语音;所述记录模块用于记录录音时的信息,包括:所述语音录制时间、在录制时相应视频内容的时间和当前观看的视频视角。
所述聚合模块还包括语音评论筛选模块、评论优先级排序模块和播放列表生成模块,所述语音评论筛选模块用于去除噪声和还有不雅词汇的语音;所述评论优先级模块用于按照一定的规则对评论进行排序,所述规则有多种,例如物理性质适宜播放(长短适中等)、VIP会员、评论内容与视频内容相关性等;播放列表生成模块用于生成播放列表,播放列表包括物理性质适宜播放(长短适中等),VIP会员,评论内容与视频内容相关性。
所述空间声生成模块利用改变声音的双耳声级差(interaural leveldifference)和双耳时间差(interaural time difference)生成基于双耳的空间声(spatial sound),或三维音频(3D audio),实现声音在三维空间中的定位。
根据使用场景不同,整体架构也不同。如果播放端不需实时交互,即生成的空间声是固定的,则双耳化过程(binauralization)可以在服务器端或客户端。
如果空间声需要根据播放端用户的头部方位做实时调整,则空间声在播放端生成,如用户使用虚拟显示设备(可以是带头部跟踪传感器的移动设备或耳机),则用户的头部旋转角度可以返回给播放模块,播放模块根据角度实时调整或生成对应的空间声。
本实施例提供一种基于空间声的人机交互系统,在全景视频模式,尤其是虚拟现实设备中,可以引导用户更有效地观看全景视频。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种基于空间声的人机交互的方法,其特征在于,包括:
步骤S1,通过客户端麦克风录入客户声音,对录入的所述声音数据进行初级筛选,获取语音数据;
步骤S2,将所述语音数据上传到服务器端;
步骤S3,所述服务器端对接收到的所述语音数据进行分析和整合;
步骤S4,对所述语音数据进行空间声生成渲染;
步骤S5,通过所述客户端的播放端播放所述语音数据,生成空间声弹幕;
其中,所述步骤S1在录入所述语音数据的同时记录如下信息:
语音录制时间:用于后期对语音排序使用;
在录制时相应视频内容的时间:用于确定语音被回放的时间点;
当视频内容为全景视频时,还需要记录所述语音数据录入时观看视角;
其中,所述步骤S4中所述空间声生成渲染方法为:
根据所述步骤S1中所述语音数据录音时记录下的时间和观看视角,改变声音的双耳声级差和双耳时间差,生成基于双耳的空间声,实现声音在三维空间中的定位。
2.根据权利要求1所述的基于空间声的人机交互的方法,其特征在于,所述步骤S3中所述分析和整合包括:
对所述语音数据进行筛选,包括使用语音识别、关键词审查、音频分析技术去除噪音过大和含有不雅词汇;
对所述语音数据进行优先级排序;
生成播放列表,包括文件名和相关的元数据,用来表明语音文件的播放时间及空间位置。
3.根据权利要求2所述的基于空间声的人机交互的方法,其特征在于,所述语音数据优先级排序规则为:
所述语音数据物理性质适宜播放;
VIP会员;
评论内容与视频内容相关性和评论的新旧程度。
4.根据权利要求1所述的基于空间声的人机交互的方法,其特征在于,所述声音数据录音时记录下的时间和观看视角可以在所述服务器端根据需求修改。
5.根据权利要求4所述的基于空间声的人机交互的方法,其特征在于,在所述空间声生成渲染方法中使用头部相关传递函数(HRTF)滤波器,获得对声音在三维感知空间中更为真实的模拟,所述HRTF滤波器系数可以通过测量或使用数学模型来获得,分为左耳和右耳的传递函数;
对于一个音源S,放在空间中θ角度,所述θ角度根据所述观看视角确定,则所述音源S双耳化过程为:
<mrow> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mi>L</mi> </mtd> </mtr> <mtr> <mtd> <mi>R</mi> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>&amp;theta;</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>&amp;theta;</mi> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mi>S</mi> </mrow>
其中,Hl,θ,Hr,θ为对应角度θ的左右耳的HRTF;
对于多个音源则会把分别的双耳化结果(i=1,2......N)相加,所述多个音源的双耳化过程用矩阵形式表示为:
<mrow> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mi>L</mi> </mtd> </mtr> <mtr> <mtd> <mi>R</mi> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>l</mi> <mo>,</mo> <msub> <mi>&amp;theta;</mi> <mn>1</mn> </msub> </mrow> </msub> </mtd> <mtd> <msub> <mi>H</mi> <mrow> <mi>l</mi> <mo>,</mo> <msub> <mi>&amp;theta;</mi> <mn>2</mn> </msub> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>H</mi> <mrow> <mi>l</mi> <mo>,</mo> <msub> <mi>&amp;theta;</mi> <mi>N</mi> </msub> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <msub> <mi>&amp;theta;</mi> <mn>1</mn> </msub> </mrow> </msub> </mtd> <mtd> <msub> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <msub> <mi>&amp;theta;</mi> <mn>2</mn> </msub> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <msub> <mi>&amp;theta;</mi> <mi>N</mi> </msub> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>S</mi> <mn>1</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>S</mi> <mn>2</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mn>...</mn> </mtd> </mtr> <mtr> <mtd> <msub> <mi>S</mi> <mi>N</mi> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>.</mo> </mrow>
6.根据权利要求5所述的基于空间声的人机交互的方法,其特征在于,所述步骤S4中所述空间声生成渲染在所述服务器端或所述客户端进行进行。
7.根据权利要求1所述的基于空间声的人机交互的方法,其特征在于,所述步骤S5中生成空间声弹幕准则如下:
同一时刻同一位置只出现一个空间声;
同时呈现的声音个数不多于用户设定的个数;
音源的摆放的默认位置依据录制时记录下的观看视角,但如果和所述前两个准则冲突则需调整空间声位置和播放时间。
8.一种基于空间声的人机交互系统,包括空间声生成模块、位于客户端的录入模块和播放模块、位于服务器端的聚合模块,其特征在于,
所述录入模块用于录入语音数据并将所录制的语音数据上传到所述服务器端;
所述聚合模块对所述录入模块上传到服务器端的所述语音数据进行分析和整合;
所述空间声生成模块用于对所述聚合模块分析整合后的语音数据进行空间声生成渲染;
所述播放模块负责从负责从服务器下载语音数据,进行播放;
所述空间声生成模块与所述聚合模块连接,获取分析整合后的语音数据,对所述语音数据利用根据语音数据录音时记录下的时间和观看视角改变声音的双耳声级差和双耳时间差,生成基于双耳的空间声,并将生成的所述空间声通过所述播放模块发送给用户;
所述空间声生成模块位于所述客户端或所述服务器端;
所述录入模块还包括语音筛选模块和记录模块,所述语音筛选模块用于屏蔽无效语音;所述记录模块用于记录录音时的信息,包括:所述语音录制时间、在录制时相应视频内容的时间和当前观看的视频视角。
CN201511021317.4A 2015-12-30 2015-12-30 一种基于空间声的人机交互方法和系统 Active CN105611481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511021317.4A CN105611481B (zh) 2015-12-30 2015-12-30 一种基于空间声的人机交互方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511021317.4A CN105611481B (zh) 2015-12-30 2015-12-30 一种基于空间声的人机交互方法和系统

Publications (2)

Publication Number Publication Date
CN105611481A CN105611481A (zh) 2016-05-25
CN105611481B true CN105611481B (zh) 2018-04-17

Family

ID=55990957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511021317.4A Active CN105611481B (zh) 2015-12-30 2015-12-30 一种基于空间声的人机交互方法和系统

Country Status (1)

Country Link
CN (1) CN105611481B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3264222B1 (en) * 2016-06-27 2019-04-10 Nokia Technologies Oy An apparatus and associated methods
US9906885B2 (en) * 2016-07-15 2018-02-27 Qualcomm Incorporated Methods and systems for inserting virtual sounds into an environment
CN106331977B (zh) * 2016-08-22 2018-06-12 北京时代拓灵科技有限公司 一种网络k歌的虚拟现实全景声处理方法
CN107786936A (zh) * 2016-08-25 2018-03-09 中兴通讯股份有限公司 一种声音信号的处理方法及终端
CN106331879B (zh) * 2016-08-26 2019-12-31 传线网络科技(上海)有限公司 基于全景视频的弹幕显示方法及装置
US9980078B2 (en) * 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
CN108616730A (zh) * 2016-12-27 2018-10-02 北京阿吉比科技有限公司 一种基于虚拟现实的立体弹幕方法及系统
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
CN108933964B (zh) * 2017-05-23 2021-07-27 腾讯科技(深圳)有限公司 一种弹幕显示方法、播放设备及控制终端
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
CN107888937A (zh) * 2017-11-08 2018-04-06 维沃移动通信有限公司 弹幕处理方法、服务端、客户端和计算机可读存储介质
CN108710632A (zh) * 2018-04-03 2018-10-26 北京奇艺世纪科技有限公司 一种语音播放方法及装置
CN109195022B (zh) * 2018-09-14 2021-03-02 王春晖 一种语音弹幕系统
CN110189764B (zh) * 2019-05-29 2021-07-06 深圳壹秘科技有限公司 展示分离角色的系统、方法和录音设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466401A (zh) * 2002-07-02 2004-01-07 矽统科技股份有限公司 立体音效的产生方法
CN101366081A (zh) * 2006-01-09 2009-02-11 诺基亚公司 双声道音频信号的解码
CN104125483A (zh) * 2014-07-07 2014-10-29 乐视网信息技术(北京)股份有限公司 音频评论信息生成方法和装置,音频评论播放方法和装置
CN104125512A (zh) * 2014-07-07 2014-10-29 乐视网信息技术(北京)股份有限公司 一种声音评论的播放方法和系统
CN104581602A (zh) * 2014-10-27 2015-04-29 常州听觉工坊智能科技有限公司 录音数据训练方法、多轨音频环绕方法及装置
CN104714937A (zh) * 2015-03-30 2015-06-17 北京奇艺世纪科技有限公司 一种评论信息发布方法及装置
CN104994401A (zh) * 2015-07-03 2015-10-21 王春晖 弹幕处理方法、装置及系统
CN105068795A (zh) * 2015-07-20 2015-11-18 上海幻电信息科技有限公司 基于弹幕特效的开发方法与装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466401A (zh) * 2002-07-02 2004-01-07 矽统科技股份有限公司 立体音效的产生方法
CN101366081A (zh) * 2006-01-09 2009-02-11 诺基亚公司 双声道音频信号的解码
CN104125483A (zh) * 2014-07-07 2014-10-29 乐视网信息技术(北京)股份有限公司 音频评论信息生成方法和装置,音频评论播放方法和装置
CN104125512A (zh) * 2014-07-07 2014-10-29 乐视网信息技术(北京)股份有限公司 一种声音评论的播放方法和系统
CN104581602A (zh) * 2014-10-27 2015-04-29 常州听觉工坊智能科技有限公司 录音数据训练方法、多轨音频环绕方法及装置
CN104714937A (zh) * 2015-03-30 2015-06-17 北京奇艺世纪科技有限公司 一种评论信息发布方法及装置
CN104994401A (zh) * 2015-07-03 2015-10-21 王春晖 弹幕处理方法、装置及系统
CN105068795A (zh) * 2015-07-20 2015-11-18 上海幻电信息科技有限公司 基于弹幕特效的开发方法与装置

Also Published As

Publication number Publication date
CN105611481A (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
CN105611481B (zh) 一种基于空间声的人机交互方法和系统
CN109644314B (zh) 渲染声音程序的方法、音频回放系统和制造制品
WO2018196469A1 (zh) 声场的音频数据的处理方法及装置
CN105027580B (zh) 用于输出修改的音频信号的方法
US9131305B2 (en) Configurable three-dimensional sound system
US20080243278A1 (en) System and method for providing virtual spatial sound with an audio visual player
EP3236346A1 (en) An apparatus and associated methods
EP4099709A1 (en) Data processing method and apparatus, device, and readable storage medium
US10993067B2 (en) Apparatus and associated methods
JP2022550372A (ja) オーディオビジュアルコンテンツについてバイノーラルイマーシブオーディオを作成するための方法及びシステム
CN112673649B (zh) 空间音频增强
Gupta et al. Investigation of effect of VR/AR headgear on Head related transfer functions for natural listening
US20200053505A1 (en) Rendering audio data from independently controlled audio zones
CN112601120B (zh) 字幕显示方法及装置
CN114424587A (zh) 控制音频数据的呈现
EP3895452A1 (en) Soundfield modeling for efficient encoding and/or retrieval
US20240098416A1 (en) Audio enhancements based on video detection
US20230039530A1 (en) Automated generation of haptic effects based on haptics data
JP6809463B2 (ja) 情報処理装置、および情報処理方法、並びにプログラム
Kishline et al. A multimedia speech corpus for audio visual research in virtual reality (L)
Oldfield et al. An object-based audio system for interactive broadcasting
US10856097B2 (en) Generating personalized end user head-related transfer function (HRTV) using panoramic images of ear
Virkkunen Automatic speech recognition for the hearing impaired in an augmented reality application
EP3321795B1 (en) A method and associated apparatuses
US20230421981A1 (en) Reproducing device, reproducing method, information processing device, information processing method, and program

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210818

Address after: Room 960A, floor 9, No. 11, Zhongguancun Street, Haidian District, Beijing 100190

Patentee after: Beijing Tuoling Xinsheng Technology Co.,Ltd.

Address before: Room 0014-32, floor 01, No. 26, Shangdi Information Road, Haidian District, Beijing 100085

Patentee before: BEIJING TUOLING Inc.