CN110189764B - 展示分离角色的系统、方法和录音设备 - Google Patents

展示分离角色的系统、方法和录音设备 Download PDF

Info

Publication number
CN110189764B
CN110189764B CN201910461199.0A CN201910461199A CN110189764B CN 110189764 B CN110189764 B CN 110189764B CN 201910461199 A CN201910461199 A CN 201910461199A CN 110189764 B CN110189764 B CN 110189764B
Authority
CN
China
Prior art keywords
role
audio data
user
recording
recording time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910461199.0A
Other languages
English (en)
Other versions
CN110189764A (zh
Inventor
朱浩华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Emeet Tech Co ltd
Original Assignee
Shenzhen Emeet Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Emeet Tech Co ltd filed Critical Shenzhen Emeet Tech Co ltd
Priority to CN201910461199.0A priority Critical patent/CN110189764B/zh
Priority to PCT/CN2019/101710 priority patent/WO2020237848A1/zh
Publication of CN110189764A publication Critical patent/CN110189764A/zh
Application granted granted Critical
Publication of CN110189764B publication Critical patent/CN110189764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种展示分离角色的系统、方法和录音设备,所述展示分离角色的系统包括角色分离处理模块:角色分离处理模块,用于获取用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间;角色分离处理模块,还用于根据音频数据以及对应的方位信息在三维立体模型上显示用户角色,并使得用户角色随着录音时间的更新沿方位信息对应的角色路径移动。从而根据获取的音频数据以及方位信息在三维立体模型上形象的展示说话人与录音设备之间的相对位置,并使得用户角色随着录音时间的更新沿着角色路径移动,使得角色分离的呈现方式更为立体,更为直观。

Description

展示分离角色的系统、方法和录音设备
技术领域
本发明涉及音频处理技术领域,尤其涉及一种展示分离角色的系统、方法和录音设备。
背景技术
随着社会各行各业信息化以及自动化程度的不断提升,以举行会议为例,在会议举行过程中,往往需要录制下与会者的声音作为素材,再对录制完成的声音素材进行分析,从中提取出有效信息以对会议进行总结。
与此同时人们对于高精度信息化分析的需求也越来越高,在实际应用中,为了对音频数据进行更好的分析,不仅需要录制下音频数据,进行音频识别,还需要识别出每段音频的说话人,因此很自然的出现了对说话人进行角色分离的需求。然而,在现有的基于音频分离角色的产品中,局限于音色对说话人进行角色分离,呈现角色分离的方式过于平面化以及数据化。
发明内容
本发明的主要目的在于提供了一种展示分离角色的系统、方法和录音设备,旨在解决现有呈现角色分离的方式过于平面化以及数据化的技术问题。
为实现上述目的,本发明提供了一种展示分离角色的系统,所述展示分离角色的系统包括角色分离处理模块:
所述角色分离处理模块,用于获取用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间;
所述角色分离处理模块,还用于根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色,并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动。
可选地,所述角色分离处理模块包括文件获取单元、角色分离单元以及角色展示单元;
所述文件获取单元,用于获取所述音频数据以及方位文件,并解析所述方位文件以得到所述音频数据对应的录音时间以及对应的方位信息;
所述角色分离单元,用于根据获取的音频数据进行角色分离,以在三维立体模型上绘制分离出的用户角色;
所述角色展示单元,用于根据解析得到的方位信息在三维立体模型上显示所述用户角色,并使得所述用户角色沿对应的角色路径移动。
可选地,所述方位信息包括水平角值以及仰角值;
所述角色展示单元,还用于根据录音时间的更新获取所述用户角色对应的水平角值以及仰角值,并根据所述水平角值以及所述仰角值得到对应的角色路径,以使得所述用户角色随着录音时间的更新沿对应的角色路径移动。
可选地,所述展示分离角色的系统还包括音频处理模块;
所述音频处理模块,用于录入音频数据,并记录对应的录音时间;
所述音频处理模块,还用于根据所述音频数据确定发出音频的当前声源对应的方位信息。
可选地,所述音频处理模块包括录音单元以及方位识别单元,所述录音单元包括麦克风阵列;
所述录音单元,用于通过麦克风阵列采集音频数据,并在采集音频数据的同时记录时间,以得到所述音频数据对应的录音时间;
所述方位识别单元,用于从所述音频数据中获取横向波程差和纵向波程差,并将横向波程差和纵向波程差输入至预设公式中,以根据输出结果确定当前声源对应的方位信息。
可选地,预设公式为:
Figure BDA0002077246570000021
Figure BDA0002077246570000022
其中,θ表示水平角值,所述水平角值大于或等于-90度且小于或等于90度,φ表示仰角值,所述仰角值大于或等于0度且小于360度,d表示麦克风阵列中各个麦克风之间的间距,ui表示第i个声源的纵向波程差,vi表示第i个声源的橫向波程差,λ表示声波波长。
可选地,所述麦克风阵列的型号为ES7210,所述麦克风阵列的指向性为全向、心形指向、超级心形指向以及8字型指向中的至少一种。
此外,为实现上述目的,本发明还提供一种展示分离角色的方法,所述方法包括以下步骤:
获取用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间;
根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色,并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动。
可选地,所述获取用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间的步骤包括:
通过麦克风阵列采集音频数据,并在采集音频数据的同时记录时间,以得到所述音频数据对应的录音时间;
从所述音频数据中获取横向波程差和纵向波程差,并将横向波程差和纵向波程差输入至预设公式中,以根据输出结果确定当前声源对应的方位信息。
此外,为实现上述目的,本发明还提供一种录音设备,所述录音设备包括服务端以及展示分离角色的系统,所述展示分离角色的系统被配置为如上所述的展示分离角色的系统,或者所述展示分离角色的系统实现如上所述展示分离角色的方法的步骤。
本发明提供了一种展示分离角色的系统、方法和录音设备,展示分离角色的系统包括角色分离处理模块:角色分离处理模块,用于获取用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间;角色分离处理模块,还用于根据音频数据以及对应的方位信息在三维立体模型上显示用户角色,并使得用户角色随着录音时间的更新沿方位信息对应的角色路径移动。从而根据获取的音频数据确定对应的说话人,根据方位信息在三维立体模型上形象的展示说话人与录音设备之间的相对位置,并使得用户角色随着录音时间的更新沿着角色路径移动,进而解决现有呈现角色分离的方式过于平面化以及数据化的技术问题,使得角色分离的呈现方式更为立体,更为直观。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明展示分离角色的系统一实施例的模块示意图;
图2为本发明展示分离角色的系统的一角色展示效果图;
图3为本发明展示分离角色的系统的另一角色展示效果图;
图4为本发明展示分离角色的系统的麦克风阵列电路图;
图5为本发明展示分离角色的方法的一实施例的流程示意图;
图6为本发明展示分离角色的方法的又一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
附图标号说明:
标号 名称 标号 名称
10 展示分离角色的系统 112 角色分离单元
11 角色分离处理模块 113 角色展示单元
12 音频处理模块 121 录音单元
111 文件获取单元 122 方位识别单元
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供了一种展示分离角色的系统10,请参阅图1,在一实施例中,展示分离角色的系统10包括角色分离处理模块11,所述角色分离处理模块11,用于获取用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间;还用于根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色,并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动。
具体的,可一并参阅图2,图2为本发明展示分离角色的系统10的角色展示效果图,在所述角色分离处理模块11得到用户通过录音设备录音的音频信息、对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间后,根据音频信息和与音频信息对应的方位信息,在三维立体模型上显示用户角色,应当理解的是,上述音频信息用来区分用户角色,根据不同的音频信息定义不同的用户角色,上述方位信息用于定义对应的用户角色在三维立体模型上为具体位置,优选地,上述三维立体模型为球状三维立体模型,用户角色以一个圆点表示,参阅图2中的圆点,即代表与所述音频信息对应的用户角色。再根据录音时间实时更新方位信息,容易理解的是,在不同的时间段,用户角色对应的方位信息是不同的,那么用户角色在三维立体模型上的位置也同步变化,因此会呈现实时用户角色随着录音时间的更新沿方位信息对应的角色路径移动的效果。
本实施例通过上述方式,根据获取的音频数据以及方位信息在三维立体模型上形象的展示说话人与录音设备之间的相对位置,并使得用户角色随着录音时间的更新沿着角色路径移动,进而解决现有呈现角色分离的方式过于平面化以及数据化的技术问题,使得角色分离的呈现方式更为立体,更为直观。
进一步地,请继续参阅图1,所述角色分离处理模块11包括文件获取单元111、角色分离单元112以及角色展示单元113;文件获取单元111,用于获取所述音频数据以及方位文件,并解析所述方位文件以得到所述音频数据对应的录音时间,以及对应的方位信息;角色分离单元112,用于根据获取的音频数据进行角色分离,以在三维立体模型上绘制用户角色;角色展示单元113,用于根据解析得到的方位信息在三维立体模型上显示所述用户角色,并使得所述用户角色沿对应的角色路径移动。角色展示单元113,还用于根据录音时间的更新获取所述用户角色对应的水平角值以及仰角值,并根据所述水平角值以及所述仰角值得到对应的角色路径,以使得所述用户角色随着录音时间的更新沿对应的角色路径移动。
角色分离处理模块11包括文件获取单元111、角色分离单元112以及角色展示单元113。其中,文件获取单元111,使用HTTP传输协议,或者其它方式获取所述音频数据以及方位文件,容易理解的是,所述方位文件包括音频数据对应的录音时间以及对应的方位信息;所述文件获取单元111还对方位文件进行解析,以得到所述录音时间以及方位信息。在文件获取单元111接收到音频数据后,将所述音频数据传输给角色分离单元112。所述角色分离单元112根据音频数据在三维立体模型上显示与音频数据对应的用户角色,容易理解的是,当存在多个音频数据时,角色分离单元112也会在三维立体模型上显示对应的多个用户角色,具体的,请一并参阅图3,图3为本发明展示分离角色的系统的另一角色展示效果图,图3中的2个圆点,就表示基于音频信息推断出来的2个用户角色。优选地,角色分离单元112会在球状三维立体模型上显示不同颜色的圆点,来表示不同的用户角色。文件获取单元111还将录音时间以及方位信息发送至角色展示单元113,角色展示单元113在接收到所述录音时间以及方位信息之后,根据方位信息确定用户角色在三维立体模型上的位置,以使得在三维立体模型上显示用户角色。
此外,上述方位信息包括水平角值以及仰角值,请参阅图2,θ表示水平角值,φ表示仰角值;请一并参阅图3,当存在2个用户角色时,θ2表示另一个用户角色的水平角值,φ2表示另一个用户角色的仰角值,根据水平角值和仰角值确定用户角色在三维立体模型上的位置。容易理解的是,在整个录音过程中,由于声源的位置并非固定的,因此随着录音时间的变化,需要实时更新方位信息。也就是说,本实施例中实时获取当前声源的方位信息,并根据实时获取的方位信息确定用户角色在每一段录音时间中的位置,以得到用户角色应当移动的角色路径。在分离角色展示过程中,随着录音时间的更新,在三维立体模型上显示的分离角色沿着角色路径移动,通过这种方式,形象的展示声源与录音设备之间的相对位置,使得角色分离的呈现方式更加立体,更加直观。
进一步地,展示分离角色的系统10还包括音频处理模块12;所述音频处理模块12,用于录入音频数据,并记录对应的录音时间;所述音频处理模块12,还用于根据所述音频数据确定发出音频的当前声源对应的方位信息。所述音频处理模块12包括录音单元121以及方位识别单元122,所述录音单元121包括麦克风阵列;所述录音单元121,用于通过麦克风阵列采集音频数据,并在采集音频数据的同时记录时间,以得到所述音频数据对应的录音时间;所述方位识别单元122,用于从所述音频数据中获取横向波程差和纵向波程差,并将横向波程差和纵向波程差输入至预设公式中,以根据输出结果确定当前声源对应的方位信息。其中,预设公式为
Figure BDA0002077246570000071
Figure BDA0002077246570000072
其中,θ表示水平角值,所述水平角值大于或等于-90度且小于或等于90度,φ表示仰角值,所述仰角值大于或等于0度且小于360度,d表示麦克风阵列中各个麦克风之间的间距,ui表示第i个声源的纵向波程差,vi表示第i个声源的橫向波程差,λ表示声波波长。
请继续参阅图1,本实施例中的展示分离角色的系统10还包括音频处理模块12,上述音频处理模块12,包括录音单元121和方位识别单元122,容易理解的是,所述录音单元121包括麦克风阵列,所述麦克风阵列可以为二维等距麦克风阵列、平面圆形麦克风阵列、立体球形麦克风阵列以及立体方形麦克风阵列中的至少一种。通过麦克风阵列进行录音,采集音频数据。优选地,所述麦克风阵列的型号为ES7210,麦克风阵列的电路图如图4所示,应当理解的是,所述麦克风阵列的电路为现有技术,在此不再阐述;优选地,为了达到全方位的拾音效果,麦克风阵列中麦克风的组成形式为6+1模式,即6个麦克风围绕中间一个麦克风形成闭环;优选地,所述麦克风阵列的指向性为全向、心形指向、超级心形指向以及8字型指向中的至少一种,由于超级心形指向的麦克风阵列拾音范围更广,不会偏向于某个方向进行拾音,因此本实施例中优选麦克风阵列的指向性为超级心形指向,来达到全方位拾音的效果。
所述录音单元121,不仅用于录入音频数据,同时在采集音频数据的同时记录时间,以得到所述音频数据对应的录音时间。特别的,录音单元121将采集的音频数据传输至方位识别单元122,所述方位识别单元122在从音频数据中获取横向波程差和纵向波程差,并将所述横向波程差和纵向波程差输入至预设的公式中,以得到水平角值和仰角值,并以此确定用户角色在三维立体模上的具体位置。本实施例引入声源与录音设备之间的水平角值和仰角值,更为精准的定位声源与录音设备的相对位置,同时,根据录音时间实时更新方位信息,使用户角色随着录音时间沿着角色路径移动,使得呈现角色分离的方式更为形象。
进一步地,请参阅图5,图5为本发明展示分离角色的方法的一实施例的流程示意图,在所述展示分离角色的方法的一实施例中,包括如下步骤:
步骤S10,获取用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间;
步骤S20,根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色,并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动。
本实施例中,先获取用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及与音频数据对应的录音时间,具体的,所述音频数据包括采集到的外部声源发出的声音信息。根据音频信息和与音频信息对应的方位信息,在三维立体模型上显示用户角色,应当理解的是,上述音频信息用来区分用户角色,根据不同的音频信息定义不同的用户角色,上述方位信息用于定义对应的用户角色在三维立体模型上为具体位置。再根据录音时间实时更新方位信息,容易理解的是,在不同的时间段,用户角色对应的方位信息是不同的,那么用户角色在三维立体模型上的位置也同步变化,因此会呈现实时用户角色随着录音时间的更新沿方位信息对应的角色路径移动的效果。
本实施例通过上述方式根据获取的音频数据以及方位信息在三维立体模型上形象的展示说话人与录音设备之间的相对位置,并使得用户角色随着录音时间的更新沿着角色路径移动,进而使得角色分离的呈现方式更为立体,更为直观。
进一步地,请参阅图6,图6为本发明展示分离角色的方法的又一实施例的流程示意图,所述步骤S10用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间的步骤包括:
步骤S11,通过麦克风阵列采集音频数据,并在采集音频数据的同时记录时间,以得到所述音频数据对应的录音时间;
步骤S12,从所述音频数据中获取横向波程差和纵向波程差,并将横向波程差和纵向波程差输入至预设公式中,以根据输出结果确定当前声源对应的方位信息。
本实施例中,通过麦克风阵列采集音频数据,在采集音频数据的同时记录时间,以得到所述音频数据对应的录音时间。应当理解的是,所述麦克风阵列可以为二维等距麦克风阵列、平面圆形麦克风阵列、立体球形麦克风阵列以及立体方形麦克风阵列中的至少一种。通过麦克风阵列进行录音,采集音频数据。优选地,所述麦克风阵列的型号为ES7210;优选地,为了达到全方位的拾音效果,麦克风阵列中麦克风的组成形式为6+1模式,即6个麦克风围绕中间一个麦克风形成闭环;优选地,所述麦克风阵列的指向性为全向、心形指向、超级心形指向以及8字型指向中的至少一种。
从音频数据中获取横向波程差和纵向波程差,并将所述横向波程差和纵向波程差输入至预设的公式中进行计算,具体的,预设公式如下所示:
Figure BDA0002077246570000091
Figure BDA0002077246570000092
其中,θ表示水平角值,所述水平角值大于或等于-90度且小于或等于90度,φ表示仰角值,所述仰角值大于或等于0度且小于360度,d表示麦克风阵列中各个麦克风之间的间距,ui表示第i个声源的纵向波程差,vi表示第i个声源的橫向波程差,λ表示声波波长。
通过将横向波程差和纵向波程差代入上述公式进行计算,得到水平角值和仰角值,并以此确定用户角色在三维立体模上的具体位置,更为精准的定位声源与录音设备的相对位置。
需要说明的是,上述展示分离角色的方法的其他实施例可以参照展示分离角色的系统的其他实施例执行,例如如何解析方位文件得到方位信息,如何录入音频数据并记录对应的录音时间,在此不作赘述。
此外,本发明实施例还提出一种录音设备,所述录音设备包括服务端以及展示分离角色的系统,所述展示分离角色的系统包括角色分离处理模块:
所述角色分离处理模块,用于获取用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间;
所述角色分离处理模块,还用于根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色,并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动。
进一步地,所述角色分离处理模块包括文件获取单元、角色分离单元以及角色展示单元;
所述文件获取单元,用于获取所述音频数据以及方位文件,并解析所述方位文件以得到所述音频数据对应的录音时间以及对应的方位信息;
所述角色分离单元,用于根据获取的音频数据进行角色分离,以在三维立体模型上绘制分离出的用户角色;
所述角色展示单元,用于根据解析得到的方位信息在三维立体模型上显示所述用户角色,并使得所述用户角色沿对应的角色路径移动。
进一步地,所述方位信息包括水平角值以及仰角值;
所述角色展示单元,还用于根据录音时间的更新获取所述用户角色对应的水平角值以及仰角值,并根据所述水平角值以及所述仰角值得到对应的角色路径,以使得所述用户角色随着录音时间的更新沿对应的角色路径移动。
进一步地,所述展示分离角色的系统还包括音频处理模块;
所述音频处理模块,用于录入音频数据,并记录对应的录音时间;
所述音频处理模块,还用于根据所述音频数据确定发出音频的当前声源对应的方位信息。
进一步地,所述音频处理模块包括录音单元以及方位识别单元,所述录音单元包括麦克风阵列;
所述录音单元,用于通过麦克风阵列采集音频数据,并在采集音频数据的同时记录时间,以得到所述音频数据对应的录音时间;
所述方位识别单元,用于从所述音频数据中获取横向波程差和纵向波程差,并将横向波程差和纵向波程差输入至预设公式中,以根据输出结果确定当前声源对应的方位信息。
进一步地,预设公式为:
Figure BDA0002077246570000111
Figure BDA0002077246570000112
其中,θ表示水平角值,所述水平角值大于或等于-90度且小于或等于90度,φ表示仰角值,所述仰角值大于或等于0度且小于360度,d表示麦克风阵列中各个麦克风之间的间距,ui表示第i个声源的纵向波程差,vi表示第i个声源的橫向波程差,λ表示声波波长。
进一步地,所述麦克风阵列的型号为ES7210,所述麦克风阵列的指向性为全向、心形指向、超级心形指向以及8字型指向中的至少一种。
所述录音设备中的展示分离角色的系统能执行以下步骤:
获取用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间;
根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色,并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动。
进一步地,所述录音设备中的展示分离角色的系统还能执行以下步骤:
通过麦克风阵列采集音频数据,并在采集音频数据的同时记录时间,以得到所述音频数据对应的录音时间;
从所述音频数据中获取横向波程差和纵向波程差,并将横向波程差和纵向波程差输入至预设公式中,以根据输出结果确定当前声源对应的方位信息。
本发明录音设备的具体实施例与上述展示分离角色的方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种展示分离角色的系统,其特征在于,所述展示分离角色的系统包括角色分离处理模块:
所述角色分离处理模块,用于获取用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间;
所述角色分离处理模块,还用于根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色,并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动;
所述展示分离角色的系统还包括音频处理模块;
所述音频处理模块,用于录入音频数据,并记录对应的录音时间;
所述音频处理模块,还用于根据所述音频数据确定发出音频的当前声源对应的方位信息;
所述音频处理模块包括录音单元以及方位识别单元,所述录音单元包括麦克风阵列;
所述录音单元,用于通过麦克风阵列采集音频数据,并在采集音频数据的同时记录时间,以得到所述音频数据对应的录音时间;
所述方位识别单元,用于从所述音频数据中获取横向波程差和纵向波程差,并将横向波程差和纵向波程差输入至预设公式中,以根据输出结果确定当前声源对应的方位信息。
2.如权利要求1所述的展示分离角色的系统,其特征在于,所述角色分离处理模块包括文件获取单元、角色分离单元以及角色展示单元;
所述文件获取单元,用于获取所述音频数据以及方位文件,并解析所述方位文件以得到所述音频数据对应的录音时间以及对应的方位信息;
所述角色分离单元,用于根据获取的音频数据进行角色分离,以在三维立体模型上绘制分离出的用户角色;
所述角色展示单元,用于根据解析得到的方位信息在三维立体模型上显示所述用户角色,并使得所述用户角色沿对应的角色路径移动。
3.如权利要求2所述的展示分离角色的系统,其特征在于,所述方位信息包括水平角值以及仰角值;
所述角色展示单元,还用于根据录音时间的更新获取所述用户角色对应的水平角值以及仰角值,并根据所述水平角值以及所述仰角值得到对应的角色路径,以使得所述用户角色随着录音时间的更新沿对应的角色路径移动。
4.如权利要求1所述的展示分离角色的系统,其特征在于,预设公式为:
Figure FDA0003036839620000021
Figure FDA0003036839620000022
其中,θ表示水平角值,所述水平角值大于或等于-90度且小于或等于90度,φ表示仰角值,所述仰角值大于或等于0度且小于360度,d表示麦克风阵列中各个麦克风之间的间距,ui表示第i个声源的纵向波程差,vi表示第i个声源的橫向波程差,λ表示声波波长。
5.如权利要求1所述的展示分离角色的系统,其特征在于,所述麦克风阵列的型号为ES7210,所述麦克风阵列的指向性为全向、心形指向、超级心形指向以及8字型指向中的至少一种。
6.一种展示分离角色的方法,其特征在于,所述方法包括以下步骤:
获取用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间;
根据所述音频数据以及对应的所述方位信息在三维立体模型上显示用户角色,并使得所述用户角色随着录音时间的更新沿方位信息对应的角色路径移动;
所述用户通过录音设备录音的音频数据,对应的用户相对于录音设备的方位信息以及音频数据对应的录音时间的步骤包括:
通过麦克风阵列采集音频数据,并在采集音频数据的同时记录时间,以得到所述音频数据对应的录音时间;
从所述音频数据中获取横向波程差和纵向波程差,并将横向波程差和纵向波程差输入至预设公式中,以根据输出结果确定当前声源对应的方位信息。
7.一种录音设备,其特征在于,包括服务端以及展示分离角色的系统,所述展示分离角色的系统被配置为如权利要求1-5中任一项所述的展示分离角色的系统,或者所述展示分离角色的系统实现如权利要求6所述的展示分离角色的方法的步骤。
CN201910461199.0A 2019-05-29 2019-05-29 展示分离角色的系统、方法和录音设备 Active CN110189764B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910461199.0A CN110189764B (zh) 2019-05-29 2019-05-29 展示分离角色的系统、方法和录音设备
PCT/CN2019/101710 WO2020237848A1 (zh) 2019-05-29 2019-08-21 展示分离角色的系统、方法和录音设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910461199.0A CN110189764B (zh) 2019-05-29 2019-05-29 展示分离角色的系统、方法和录音设备

Publications (2)

Publication Number Publication Date
CN110189764A CN110189764A (zh) 2019-08-30
CN110189764B true CN110189764B (zh) 2021-07-06

Family

ID=67718842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910461199.0A Active CN110189764B (zh) 2019-05-29 2019-05-29 展示分离角色的系统、方法和录音设备

Country Status (2)

Country Link
CN (1) CN110189764B (zh)
WO (1) WO2020237848A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145775A (zh) * 2019-12-19 2020-05-12 秒针信息技术有限公司 语音分离方法和装置及系统、存储介质
CN112908336A (zh) * 2021-01-29 2021-06-04 深圳壹秘科技有限公司 一种用于语音处理装置的角色分离方法及其语音处理装置
CN113012700B (zh) * 2021-01-29 2023-12-26 深圳壹秘科技有限公司 语音信号处理方法、装置、系统及计算机可读存储介质
CN113835065B (zh) * 2021-09-01 2024-05-17 深圳壹秘科技有限公司 基于深度学习的声源方向确定方法、装置、设备及介质
CN116072141A (zh) * 2023-04-06 2023-05-05 深圳市阿尔泰车载娱乐系统有限公司 具有语音识别功能的车载通信系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820565A (zh) * 2009-02-27 2010-09-01 本田技研工业株式会社 音源的推断方法及其装置
CN104360315A (zh) * 2014-10-16 2015-02-18 河北工业大学 基于LabVIEW的麦克风阵列声源定位方法及装置
CN105474667A (zh) * 2014-05-09 2016-04-06 松下知识产权经营株式会社 指向性控制装置、指向性控制方法、存储介质及指向性控制系统
CN106782596A (zh) * 2016-11-18 2017-05-31 深圳市行者机器人技术有限公司 一种基于麦克风阵列的声源定位跟随系统及方法
CN107346014A (zh) * 2017-06-09 2017-11-14 宇龙计算机通信科技(深圳)有限公司 一种定位方法、装置及终端
CN108564952A (zh) * 2018-03-12 2018-09-21 新华智云科技有限公司 语音角色分离的方法和设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714213B1 (en) * 1999-10-08 2004-03-30 General Electric Company System and method for providing interactive haptic collision detection
CN105611481B (zh) * 2015-12-30 2018-04-17 北京时代拓灵科技有限公司 一种基于空间声的人机交互方法和系统
CN106205573B (zh) * 2016-06-28 2019-09-17 青岛海信移动通信技术股份有限公司 一种音频数据处理方法和装置
US9711183B1 (en) * 2017-03-23 2017-07-18 Wi Myx Corporation Direct media feed enhanced recordings
CN106993249B (zh) * 2017-04-26 2020-04-14 深圳创维-Rgb电子有限公司 一种声场的音频数据的处理方法及装置
CN107087208B (zh) * 2017-05-25 2020-07-07 深圳市酷开网络科技有限公司 一种全景视频播放方法、系统及存储装置
CN108597530B (zh) * 2018-02-09 2020-12-11 腾讯科技(深圳)有限公司 声音再现方法和装置、存储介质及电子装置
CN108829254A (zh) * 2018-06-21 2018-11-16 广东小天才科技有限公司 一种麦克风与用户终端互动的实现方法、系统及相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820565A (zh) * 2009-02-27 2010-09-01 本田技研工业株式会社 音源的推断方法及其装置
CN105474667A (zh) * 2014-05-09 2016-04-06 松下知识产权经营株式会社 指向性控制装置、指向性控制方法、存储介质及指向性控制系统
CN104360315A (zh) * 2014-10-16 2015-02-18 河北工业大学 基于LabVIEW的麦克风阵列声源定位方法及装置
CN106782596A (zh) * 2016-11-18 2017-05-31 深圳市行者机器人技术有限公司 一种基于麦克风阵列的声源定位跟随系统及方法
CN107346014A (zh) * 2017-06-09 2017-11-14 宇龙计算机通信科技(深圳)有限公司 一种定位方法、装置及终端
CN108564952A (zh) * 2018-03-12 2018-09-21 新华智云科技有限公司 语音角色分离的方法和设备

Also Published As

Publication number Publication date
CN110189764A (zh) 2019-08-30
WO2020237848A1 (zh) 2020-12-03

Similar Documents

Publication Publication Date Title
CN110189764B (zh) 展示分离角色的系统、方法和录音设备
US10085108B2 (en) Method for visualizing the directional sound activity of a multichannel audio signal
US10126823B2 (en) In-vehicle gesture interactive spatial audio system
US9602946B2 (en) Method and apparatus for providing virtual audio reproduction
US10027888B1 (en) Determining area of interest in a panoramic video or photo
EP3400705B1 (en) Active speaker location detection
US11159906B2 (en) HRTF measurement method, HRTF measurement device, and program
US11812235B2 (en) Distributed audio capture and mixing controlling
US10013889B2 (en) Method and system for enhancing interactions between teachers and students
US9733896B2 (en) System, apparatus, and method for displaying virtual objects based on data received from another apparatus
US9232337B2 (en) Method for visualizing the directional sound activity of a multichannel audio signal
JP7048784B2 (ja) 表示制御システム、表示制御方法及びプログラム
US20210217432A1 (en) Acoustic zooming
JP2024096996A (ja) 頭部伝達関数を生成するシステム及び方法
US10743128B1 (en) System and method for generating head-related transfer function
Puomio et al. Locating image sources from multiple spatial room impulse responses
CN112328676A (zh) 一种估计个性化头相关传输函数的方法及相关设备
Kojima et al. HARK-Bird-Box: A portable real-time bird song scene analysis system
CN104935913A (zh) 处理多个装置采集的音频或视频信号
WO2019142233A1 (ja) 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
CN108548532A (zh) 基于云的盲人导航方法、电子设备和计算机程序产品
CN111492668B (zh) 用于在限定的空间内定位音频信号的发源点的方法和系统
CN109313506A (zh) 信息处理装置、信息处理方法和程序
JP2021124439A (ja) 収音データ表示プログラム
JP2007133531A (ja) 注目状態検出装置、及び注目状態検出方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant