CN105611481B

CN105611481B - 一种基于空间声的人机交互方法和系统

Info

Publication number: CN105611481B
Application number: CN201511021317.4A
Authority: CN
Inventors: 孙学京; 刘皓; 刘恩; 张晨
Original assignee: Beijing Tuoling Inc
Current assignee: Beijing Tuoling Xinsheng Technology Co.,Ltd.
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2018-04-17
Anticipated expiration: 2035-12-30
Also published as: CN105611481A

Abstract

本发明涉及一种基于空间声的人机交互的方法和系统，人机交互方法包括如下步骤：通过客户端麦克风录入客户声音，对录入的所述声音数据进行初级筛选，获取声音数据；将所述声音数据上传到服务器端；所述服务器端对接收到的所述语音数据进行分析和整合；对所述语音数据进行空间声生成渲染；通过所述客户端的播放端播放所述语音数据，生成空间声弹幕。本发明可以实现声音在三维空间中的定位，引导用户更有效的观看全景视频，克服了传统弹幕用文字方式带来遮挡视频内容的弊病，从而提升用户的兴趣。

Description

一种基于空间声的人机交互方法和系统

技术领域

本发明涉及人机交互领域，具体涉及一种基于空间声的人机交互方法和系统。

背景技术

用户消费多媒体内容时，常常通过显示设备(计算机屏幕，移动设备屏幕，虚拟现实显示屏幕)来欣赏视频，通过立体声耳机欣赏音频内容。弹幕是近年来兴起的一种在屏幕上实时显示用户评论的方式，可以给观众一种“实时互动”的错觉。

弹幕作为用户对视频内容的实时评论，可以有效的提升用户的兴趣，增加用户的粘性。但同时传统弹幕用文字的方式也带来遮挡视频内容的弊病，一些不合时宜的弹幕也会降低观众对于视频的注意力。

在用虚拟现实设备观看内容时，如常见的虚拟影院模式，用户置身于一个虚拟影院环境中，前方是电影的大屏幕。在此场景中，如果使用声音评论则会提升临场感，并降低用户孤独感，当然，在观看普通电影时，只要戴着立体声耳机，用户也可以使用语音弹幕。

在用虚拟现实设备观看全景视频内容时，语音弹幕可以起到引导用户更有效的观看视频的作用。这也是传统基于文字的弹幕所不具备的。这要求播放语音评论时空间声的方位和录制时的方位是一致的(在这里方位是指用户观看全景视频的方位)。比如，用户在观看第一个方向的视频内容是，有来自左侧90度方向的语音评论，则用户就会被引导向左转头90度去观看相应的视频内容。相应的播放模块需要旋转声场使得原来90度的语音评论听起来是来自正前方。如何实现上述功能，目前还没有比较有效的解决方案。

发明内容

本发明主要解决的技术问题是提供一种基于空间声的人机交互方法和系统，利用改变声音的双耳声级差和双耳时间差，生成基于双耳的空间声，实现声音在三维空间中的定位，引导用户更有效的观看全景视频，从而提升用户的兴趣。

为解决上述技术问题，本发明采用如下技术方案：

一种基于空间声的人机交互的方法，其特征在于，包括如下步骤：

步骤S1，通过客户端麦克风录入客户声音，，对录入的所述声音数据进行初级筛选，获取声音数据；

步骤S2，将所述声音数据上传到服务器端；

步骤S3，所述服务器端对接收到的所述语音数据进行分析和整合；

步骤S4，对所述语音数据进行空间声生成渲染；

步骤S5，通过所述客户端的播放端播放所述语音数据，生成空间声弹幕。

进一步，所述步骤1在录入所述声音数据的同时记录如下信息：

语音录制时间：用于后期对语音排序使用；

在录制时相应视频内容的时间：用于确定语音被回放的时间点；

使用的是虚拟现实设备观看全景视频时，还需要记录所述语音数据录入时观看视角。

进一步，所述步骤3中所述分析和整合包括：

对所述语音数据进行筛选，包括使用语音识别、关键词审查、音频分析技术去除噪音过大和含有不雅词汇；

对所述语音数据进行优先级排序；

生成播放列表，包括文件名和相关的元数据，用来表明语音文件的播放时间及空间位置。

进一步，所述语音数据优先级排序规则为所述语音数据物理性质适宜播放，VIP会员，评论内容与视频内容相关性和评论的新旧程度。

进一步，所述步骤S4中所述空间声生成渲染方法为：

根据所述步骤S1中所述声音数据录音时记录下的时间和观看视角，改变声音的双耳声级差和双耳时间差，生成基于双耳的空间声，实现声音在三维空间中的定位。

进一步，所述声音数据录音时记录下的时间和观看视角可以在所述服务器端根据需求修改。

进一步，在所述空间声生成渲染方法中使用头部相关传递函数(HRTF)滤波器，获得对声音在三维感知空间中更为真实的模拟，所述HRTF滤波器系数可以通过测量或使用数学模型来获得，分为左耳和右耳的传递函数；

对于一个音源S，放在空间中θ角度，所述θ角度根据所述观看视角确定，则所述音源S双耳化过程为：

其中，H_l，θ，H_r，θ为对应角度θ的左右耳的HRTF；

对于多个音源则会把分别的双耳化结果(i＝1,2......N)相加，所述多个音源的双耳化过程用矩阵形式表示为：

进一步，所述步骤S4中所述空间声生成渲染在所述服务器端或客户端进行，

在所述服务端进行时生成的空间声是固定的，所述播放端不需要实时交互；

在所述客户端进行时所述客户端的播放端需要与用户实时交互。

进一步，所述步骤S5中生成空间声弹幕准则如下：

同一时刻同一位置只出现一个空间声；

同时呈现的声音不多于用户设定的个数；

音源的摆放的默认位置依据录制时记录下的观看视角，但如果和所述前两个准则冲突则需调整空间声位置和播放时间。

一种基于空间声的人机交互系统，包括空间声生成模块、位于客户端的录入模块和播放模块、位于服务器端的聚合模块，其特征在于，

所述录入模块用于录入客户声音并将所录制的语音数据上传到所述服务器端；

所述聚合模块对所述录入模块上传到服务器端的所述语音数据进行分析和整合；

所述空间声生成模块用于把声音放到三维空间中；

所述播放模块负责从负责从服务器下载语音数据，进行播放；

所述空间声生成模块与所述聚合模块连接，获取分析整合后的语音数据，对所述语音数据利用改变声音的双耳声级差和双耳时间差，生成基于双耳的空间声，并将生成的所述空间声通过所述播放模块发送给用户；

所述空间生成模块位于所述客户端或所述服务器端。

本发明的有益效果是：

用户在观看全景视频，尤其是在虚拟现实设备中，本发明可以起到引导用户更有效的观看全景视频，沉浸式声音更大的带来亲切感，会降低用虚拟现实设备观看电影时的孤独感，空间声更充分的利用了声音的特性来传递了更多的信息。

本发明克服了传统弹幕用文字方式带来遮挡视频内容的弊病，提升了用户的兴趣。

附图说明

图1是本发明一个实施例的基于空间声的人机交互方法流程示意图。

图2是本发明一个实施例的基于空间声的人机交互方法中记录下的观看视角示意图。

图3是本发明一个实施例的基于空间声的人机交互方法中根据观看视角确定的空间声位置示意图。

图4是本发明一个实施例的基于空间声的人机交互系统连接方框示意图。

具体实施方式

下面对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

实施例1一种基于空间声的人机交互的方法，包括如下步骤：

步骤S1，通过客户端麦克风录入客户声音，进行初级筛选，获取声音数据。

客户端麦克风录入用户语音，通过初级筛选屏蔽无效语音，如噪音过大，音量过高或过低等，同时记录以下信息：

语音录制时间：用来后期对语音排序使用，如新进评论可能权重高些，被播出的概率大些；

在录制时相应视频内容的时间：此时间决定了语音被回放的时间点；

如果是全景视频，在用虚拟现实设备观看时，还要记录下当前观看视角。

步骤S2，将所述声音数据上传到服务器端。

步骤S3，所述服务器端对接收到的所述语音数据进行分析和整合。

服务器端接收客户端录入的声音数据，进行分析整合，具体过程如下：

进一步的语音评论筛选：包括使用语音识别，关键词审查(keyword spotting)，音频分析技术等，去除噪音过大，含有不雅词汇等；

对评论进行优先级排序：影响排序的则有多种，如物理性质适宜播放(长短适中等)，VIP会员，评论内容与视频内容相关性等；

生成播放列表，列表包括文件名，以及相关的元数据(Metadata)，用来表明语音文件的播放时间及空间位置。

步骤S4，对所述语音数据进行空间声生成渲染。

根据声音数据录音时记录下的时间和音源观看视角，利用改变声音的双耳声级差(interaural level difference)和双耳时间差(interaural time difference)生成基于双耳的空间声(spatial sound)，或三维音频(3D audio)，实现声音在三维空间中的定位。

在频域上，通过使用头部相关传递函数(Head-Related Transfer Function,HRTF)滤波器，对声音在三维感知空间中更为真实的模拟。

HRTF滤波器系数可以通过测量或使用数学模型来获得，分为左耳和右耳的传递函数。比如将一个音源S放在空间中θ角度，则其双耳化过程为：

其中，H_l，θ，H_r，θ为对应角度θ的左右耳的HRTF；

对于多个音源则会把分别的双耳化结果(i＝1,2......N)相加，多个音源的双耳化过程用矩阵形式表示为：

如果是在时域上操作，则矩阵相乘就变成了卷积，HRTF也需要换成对应的HRIR(Head-Related Impulse Response)函数。

本实施例中只对空间声做角度上的区分，因此假设音源到听者的距离保持一致。

空间声生成渲染可以在在服务器端或客户端进行，如果不需要改变生成的音频信号，也就是播放端不需要实时交互，客户端只需本地生成或从服务器下载生成的双声道立体声音频。

上述将音源按照指定的时间和空间位置生成空间声的方法中，默认是依据录音时记录下的时间和观看视角，也可以利用服务器处理模块根据需求改变，赋予空间声新的时间和方位。

在全景视频模式下，空间声生成渲染可以在客户端或服务器端进行，此时客户端的播放端需要与用户实时交互，空间声需要根据播放端用户的头部方位做实时调整，如用户使用虚拟显示设备(可以是带头部跟踪传感器的移动设备或耳机)，则用户的头部旋转角度可以返回给播放端，播放端根据角度实时调整或生成对应的空间声。如果是在服务器端进行双耳化，则需要把角度实时传到服务器端，如果角度变化不大，或网络延迟很低，这也是可行的。

生成空间声弹幕准则如下：

同一时刻同一位置只出现一个空间声；

同时呈现的声音不多于用户设定的个数；

音源的摆放的默认位置依据录制时记录下的观看视角，但如果和前两个准则冲突则需调整空间声位置和播放时间。

根据记录的观看视角确定空间声的播放位置，如图2和图3所示，图2中虚线方框的位置为用户全景视频观看区域，该区域的中心点到原点的距离为d，角度为θ，则空间声的播放位置如图3所示。

本实施例克服了传统弹幕用文字方式带来遮挡视频内容的弊病，可以引导用户更有效的观看全景视频，尤其是在虚拟现实设备中。

实施例2一种基于空间声的人机交互系统，包括：

包括空间声生成模块、位于客户端的录入模块和播放模块、位于服务器端的聚合模块。

所述空间声生成模块用于把声音放到三维空间中；

所述空间声生成模块与所述聚合模块连接，获取分析整合后的语音数据，对所述语音数据利用改变声音的双耳声级差和双耳时间差，生成基于双耳的空间声，并将生成的所述空间声通过所述播放模块发送给用户。

所述空间生成模块位于所述客户端或所述服务器端。

所述录入模块还包括语音筛选模块和记录模块，所述语音筛选模块用于屏蔽无效语音；所述记录模块用于记录录音时的信息，包括：所述语音录制时间、在录制时相应视频内容的时间和当前观看的视频视角。

所述聚合模块还包括语音评论筛选模块、评论优先级排序模块和播放列表生成模块，所述语音评论筛选模块用于去除噪声和还有不雅词汇的语音；所述评论优先级模块用于按照一定的规则对评论进行排序，所述规则有多种，例如物理性质适宜播放(长短适中等)、VIP会员、评论内容与视频内容相关性等；播放列表生成模块用于生成播放列表，播放列表包括物理性质适宜播放(长短适中等)，VIP会员，评论内容与视频内容相关性。

所述空间声生成模块利用改变声音的双耳声级差(interaural leveldifference)和双耳时间差(interaural time difference)生成基于双耳的空间声(spatial sound)，或三维音频(3D audio)，实现声音在三维空间中的定位。

根据使用场景不同，整体架构也不同。如果播放端不需实时交互，即生成的空间声是固定的，则双耳化过程(binauralization)可以在服务器端或客户端。

如果空间声需要根据播放端用户的头部方位做实时调整，则空间声在播放端生成，如用户使用虚拟显示设备(可以是带头部跟踪传感器的移动设备或耳机)，则用户的头部旋转角度可以返回给播放模块，播放模块根据角度实时调整或生成对应的空间声。

本实施例提供一种基于空间声的人机交互系统，在全景视频模式，尤其是虚拟现实设备中，可以引导用户更有效地观看全景视频。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于空间声的人机交互的方法，其特征在于，包括：

步骤S1，通过客户端麦克风录入客户声音，对录入的所述声音数据进行初级筛选，获取语音数据；

步骤S2，将所述语音数据上传到服务器端；

步骤S4，对所述语音数据进行空间声生成渲染；

步骤S5，通过所述客户端的播放端播放所述语音数据，生成空间声弹幕；

其中，所述步骤S1在录入所述语音数据的同时记录如下信息：

语音录制时间：用于后期对语音排序使用；

当视频内容为全景视频时，还需要记录所述语音数据录入时观看视角；

其中，所述步骤S4中所述空间声生成渲染方法为：

根据所述步骤S1中所述语音数据录音时记录下的时间和观看视角，改变声音的双耳声级差和双耳时间差，生成基于双耳的空间声，实现声音在三维空间中的定位。

2.根据权利要求1所述的基于空间声的人机交互的方法，其特征在于，所述步骤S3中所述分析和整合包括：

对所述语音数据进行优先级排序；

3.根据权利要求2所述的基于空间声的人机交互的方法，其特征在于，所述语音数据优先级排序规则为：

所述语音数据物理性质适宜播放；

VIP会员；

评论内容与视频内容相关性和评论的新旧程度。

4.根据权利要求1所述的基于空间声的人机交互的方法，其特征在于，所述声音数据录音时记录下的时间和观看视角可以在所述服务器端根据需求修改。

5.根据权利要求4所述的基于空间声的人机交互的方法，其特征在于，在所述空间声生成渲染方法中使用头部相关传递函数(HRTF)滤波器，获得对声音在三维感知空间中更为真实的模拟，所述HRTF滤波器系数可以通过测量或使用数学模型来获得，分为左耳和右耳的传递函数；

<mrow> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mi>L</mi> </mtd> </mtr> <mtr> <mtd> <mi>R</mi> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>&theta;</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>&theta;</mi> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mi>S</mi> </mrow>

其中，H_l,θ，H_r,θ为对应角度θ的左右耳的HRTF；

<mrow> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mi>L</mi> </mtd> </mtr> <mtr> <mtd> <mi>R</mi> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>l</mi> <mo>,</mo> <msub> <mi>&theta;</mi> <mn>1</mn> </msub> </mrow> </msub> </mtd> <mtd> <msub> <mi>H</mi> <mrow> <mi>l</mi> <mo>,</mo> <msub> <mi>&theta;</mi> <mn>2</mn> </msub> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>H</mi> <mrow> <mi>l</mi> <mo>,</mo> <msub> <mi>&theta;</mi> <mi>N</mi> </msub> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <msub> <mi>&theta;</mi> <mn>1</mn> </msub> </mrow> </msub> </mtd> <mtd> <msub> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <msub> <mi>&theta;</mi> <mn>2</mn> </msub> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <msub> <mi>&theta;</mi> <mi>N</mi> </msub> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>S</mi> <mn>1</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>S</mi> <mn>2</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mn>...</mn> </mtd> </mtr> <mtr> <mtd> <msub> <mi>S</mi> <mi>N</mi> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>.</mo> </mrow>

6.根据权利要求5所述的基于空间声的人机交互的方法，其特征在于，所述步骤S4中所述空间声生成渲染在所述服务器端或所述客户端进行进行。

7.根据权利要求1所述的基于空间声的人机交互的方法，其特征在于，所述步骤S5中生成空间声弹幕准则如下：

同一时刻同一位置只出现一个空间声；

同时呈现的声音个数不多于用户设定的个数；

8.一种基于空间声的人机交互系统，包括空间声生成模块、位于客户端的录入模块和播放模块、位于服务器端的聚合模块，其特征在于，

所述录入模块用于录入语音数据并将所录制的语音数据上传到所述服务器端；

所述空间声生成模块用于对所述聚合模块分析整合后的语音数据进行空间声生成渲染；

所述空间声生成模块与所述聚合模块连接，获取分析整合后的语音数据，对所述语音数据利用根据语音数据录音时记录下的时间和观看视角改变声音的双耳声级差和双耳时间差，生成基于双耳的空间声，并将生成的所述空间声通过所述播放模块发送给用户；

所述空间声生成模块位于所述客户端或所述服务器端；