CN105741833A - 语音通信数据处理方法和装置 - Google Patents

语音通信数据处理方法和装置 Download PDF

Info

Publication number
CN105741833A
CN105741833A CN201610143951.3A CN201610143951A CN105741833A CN 105741833 A CN105741833 A CN 105741833A CN 201610143951 A CN201610143951 A CN 201610143951A CN 105741833 A CN105741833 A CN 105741833A
Authority
CN
China
Prior art keywords
communication party
speech data
azimuth
simulated
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610143951.3A
Other languages
English (en)
Other versions
CN105741833B (zh
Inventor
江宁
马卓熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610143951.3A priority Critical patent/CN105741833B/zh
Publication of CN105741833A publication Critical patent/CN105741833A/zh
Application granted granted Critical
Publication of CN105741833B publication Critical patent/CN105741833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种语音通信数据处理方法和装置,所述方法包括:确定参与语音会话的各通信方;为各所述通信方分配彼此相异的模拟方位;根据所述模拟方位调整相应通信方的各声道语音数据中的至少一者,获得存在听觉差异的各声道语音数据;输出调整后获得的各声道语音数据。本发明提供的语音通信数据处理方法和装置,参与语音会话的通信方变可以根据声音方位辨识出不同通信方的语音,语音辨识性得以增强。

Description

语音通信数据处理方法和装置
技术领域
本发明涉及音频通信技术领域,特别是涉及一种语音通信数据处理方法和装置。
背景技术
语音通信是一种重要的现代通信技术手段,用户通过语音通信可以远程进行自然语言的沟通,是非常方便、高效的通信方式。一对一的语音通信是常见的语音通信方式,这种语音通信方式仅涉及两方,在语音通信过程中,进行语音通信的其中一方仅需排除掉自己的语音就可以辨识出另一方的语音。然而,在三方以上的语音通信中,一方用户听到的是其它至少两方用户的语音,只能通过其它方用户的声音特色来进行区分,若其它方用户的声音没有特色,就很难辨识出其它方用户的语音,语音辨识性比较差,需要改进。
发明内容
基于此,有必要针对上述在三方以上的语音通信中语音辨识性比较差的问题,提供一种语音通信数据处理方法和装置。
一种语音通信数据处理方法,所述方法包括:
确定参与语音会话的各通信方;
为各所述通信方分配彼此相异的模拟方位;
根据所述模拟方位调整相应通信方的各声道语音数据中的至少一者,获得存在听觉差异的各声道语音数据;
输出调整后获得的各声道语音数据。
一种语音通信数据处理装置,所述装置包括:
通信方确定模块,用于确定参与语音会话的各通信方;
模拟方位分配模块,用于为各所述通信方分配彼此相异的模拟方位;
语音数据调整模块,用于根据所述模拟方位调整相应通信方的各声道语音数据中的至少一者,获得存在听觉差异的各声道语音数据;
语音数据输出模块,用于输出调整后获得的各声道语音数据。
上述语音通信数据处理方法和装置,在进行语音会话时,为参与语音会话的各通信方分别分配彼此相异的模拟方位,从而便可以根据分配的模拟方位调整相应通信方的各声道语音数据中的至少一者,使得调整获得的各存在听觉差异。存在听觉差异的各声道语音数据的听觉差异程度与相应的模拟方位相关,这样调整后的各个通信方的各声道语音数据的听觉差异是不同的。调整获得的各声道语音数据输出后,各声道语音数据的听觉差异会导致人耳听到的声音的方位不同,参与语音会话的通信方变可以根据声音方位辨识出不同通信方的语音,语音辨识性得以增强。
附图说明
图1为一个实施例中语音通信数据处理系统的应用环境图;
图2为一个实施例中终端的内部结构示意图;
图3为一个实施例中语音通信数据处理方法的流程示意图;
图4为一个实施例中根据通信方总数开启或关闭虚拟方位语音通信功能并进行相应处理的步骤的流程示意图;
图5为一个实施例中各通信方的地理位置示意图;
图6为一个实施例中根据各通信方之间地理位置的相对位置为各通信方分配的彼此相异的模拟方位的示意图;
图7为一个实施例中3人网络聊天室为除本端通信方之外的其它通信方分配的虚拟方位的示意图;
图8为一个实施例中4人网络聊天室为除本端通信方之外的其它通信方分配的虚拟方位的示意图;
图9为一个实施例中5人网络聊天室为除本端通信方之外的其它通信方分配的虚拟方位的示意图;
图10为一个具体应用场景中在语音会话过程中展示的页面的示意图;
图11为一个实施例中语音通信数据处理装置的结构框图;
图12为另一个实施例中语音通信数据处理装置的结构框图;
图13为再一个实施例中语音通信数据处理装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提供了一种语音通信数据处理系统,包括终端102和服务器104,终端102比如终端102a、102b以及102c等。终端102包括台式计算机和移动终端,移动终端包括手机、平板电脑、PDA(个人数字助理)、对讲机以及固定电话等。服务器104包括一个或多个物理服务器。终端102和服务器104之间通过网络连接。
如图2所示,在一个实施例中,提供了一种终端102,包括通过系统总线连接的处理器、非易失性存储介质、内存储器、网络接口、拾音器和音频输出接口。其中处理器具有计算功能和控制终端102工作的功能,该处理器被配置为执行一种语音通信数据处理方法。非易失性存储介质包括磁存储介质、光存储介质以及闪存式存储介质。非易失性存储介质存储有操作系统和语音通信数据处理装置,该语音通信数据处理装置用于实施一种语音通信数据处理方法。拾音器用于采集环境声音,音频输出接口用于输出音频信号。
如图3所示,在一个实施例中,提供了一种语音通信数据处理方法,本实施例以该方法应用于上述图1和图2中的终端102a来举例说明,以下称终端102a为本端。该方法具体包括如下步骤:
步骤302,确定参与语音会话的各通信方。
其中,通信方表示通过某终端参与语音会话的用户,一个或者多个用户可通过一个终端参与语音会话。一个语音会话的通信方总数至少为2。语音会话是指各通信方之间通过语音通信方式进行通信的交互环境,一个语音会话中的语音交互发生在参与该语音会话的各通信方所对应的终端之间。
本端具体可从服务器拉取参与当前语音会话的所有通信方的唯一标识,以确定参与语音会话的各通信方。其中语音会话可由本端主动创建,并由本端邀请其它用户参与到该语音会话中;语音会话也可由其它用户对应的终端创建并发起邀请,由本端响应于其它用户发起的邀请而加入到已创建的语音会话中。语音会话可以通过即时通信应用、本地通话应用或者网页应用等支持语音通信的应用创建并维持。语音会话包括网络聊天室中的语音会话。
步骤304,为各所述通信方分配彼此相异的模拟方位。
其中,模拟方位是指模拟现实世界方位的数据,模拟方位可与各通信方真实的地理位置相关或者无关。本端可为参与语音会话的所有通信方或者部分通信方分配模拟方位,部分通信方比如活跃度超过预设值的通信方或者本端通信方所指定的通信方,活跃度可根据发言数和发言频率等计算。模拟方位可由本端进行分配,也可由服务器进行分配。被分配了模拟方位的各通信方各自的模拟方位是不同的。
步骤306,根据所述模拟方位调整相应通信方的各声道语音数据中的至少一者,获得存在听觉差异的各声道语音数据。
具体地,本端可获取各通信方的各声道语音数据,从而按照分配的相应模拟方位对相应的各声道语音数据中的至少一者进行调整。调整获得的各声道语音数据之间存在听觉差异,该听觉差异的听觉差异程度是根据模拟方位确定的,与模拟方位相关。不同通信方被分配的模拟方位是不同的,于是经过调整后,不同通信方的各声道音频数据之间的听觉差异程度是不同的。各通信方的语音数据的声道数可为2,此时调整的各声道语音数据为左声道语音数据和右声道语音数据。其中听觉差异是指调整后的各声道语音数据之间的差异可通过听觉辨识。
步骤308,输出调整后获得的各声道语音数据。
具体地,本端在完成调整后,将调整后获得的各声道语音数据分别转换为模拟信号的各声道语音信号,并将各声道语音信号分别通过不同的发声单元输出。发声单元可以是耳机的发声单元,也可以是音箱的发声单元。本端还可以将调整后获得的各声道语音数据输出给其它设备,由其它设备将调整后获得的各声道语音数据分别转换为模拟信号的各声道语音信号,并将各声道语音信号分别通过不同的发声单元输出。
其中,调整后获得的各声道语音数据之间存在听觉差异,存在的听觉差异可使调整后获得的各声道语音数据被输出后产生的声音发生声像位置偏移。声像是人的感知声源,若各声道语音数据不存在听觉差异,声像位置应当在人脑正中间位置,当存在听觉差异时可导致声像位置偏离人脑正中间位置。听觉差异程度不同声像偏移程度不同,本端通信方便可以根据声像位置辨识相应的通信方;若声像未偏移或偏移听觉差异小,则人耳可通过辨识各声道语音数据声音的听觉差异来辨识相应的通信方。
上述语音通信数据处理方法,在进行语音会话时,为参与语音会话的各通信方分别分配彼此相异的模拟方位,从而便可以根据分配的模拟方位调整相应通信方的各声道语音数据中的至少一者,使得调整获得的各声道语音数据存在听觉差异。存在听觉差异的各声道语音数据的听觉差异程度与相应的模拟方位相关,这样调整后的各个通信方的各声道语音数据的听觉差异是不同的,调整获得的各声道语音数据输出后,各声道语音数据的听觉差异会导致人耳听到的声音的方位不同,参与语音会话的通信方变可以根据声音方位辨识出不同通信方的语音,语音辨识性得以增强。
如图4所示,在一个实施例中,在步骤304之前,还包括根据通信方总数开启或关闭虚拟方位语音通信功能并进行相应处理的步骤,具体包括如下步骤:
步骤402,获取所述语音会话的通信方总数。
通信方总数是指参与某语音会话的所有通信方的数量,比如在一对一的语音会话中通信方总数为2,在三方语音会话中通信方总数则是3。本端具体可获取参与语音会话的通信方列表,从该通信方列表中统计出通信方总数。
步骤404,判断所述通信方总数是否大于预设数量;若是,则执行步骤304,若否,则执行步骤406。
其中,预设数量是用于判断开启或关闭虚拟方位语音通信功能的阈值,若通信方总数大于预设数量,则本端可开启虚拟方位语音通信功能,执行步骤304至步骤308;若通信方总数小于或等于预设数量,则本端可关闭虚拟方位语音通信功能,执行步骤406。其中预设数量可为2。
步骤406,直接获取各所述通信方对应的各声道语音数据并输出。
具体地,当通信方总数大于预设数量时,本端将不做分配虚拟方位并调整相应各声道语音数据的处理,而是直接获取各通信方的各声道语音数据并正常输出。
本实施例中,根据参与语音会话的通信方总数是否超过预设数量来判断是否需要调整各声道语音数据,从而在通信方总数较多时对相应各声道语音数据进行调整,方便本端通信方辨识出其他通信方;而在通信方总数较少时正常输出语音数据,优先保障语音通信质量,从而达到语音辨识性和语音通信质量的平衡。
在一个实施例中,步骤304具体包括:获取各所述通信方的地理位置,根据各所述通信方之间地理位置的相对位置为各所述通信方分配彼此相异的模拟方位。
具体地,各通信方的终端可定期主动向服务器上报各终端的地理位置,该终端的地理位置可表示相应通信方的地理位置,从而本端在需要时从服务器拉取参与语音会话的各通信方的地理位置。本端也可以在需要地理位置时向服务器发起地理位置查询请求,由服务器根据地理位置查询请求向参与语音会话的各终端查询地理位置,本端则接收服务器反馈的查询到的地理位置。地理位置可通过GPS(GlobalPositioningSystem,全球定位系统)定位方式和/或基站定位方式等获得。
进一步地,各通信方的地理位置是不同的,本端可根据这些地理位置彼此之间的相对位置,将各通信方的地理位置映射为规则的模拟方位,并将映射出的模拟方位分配给相应的通信方。举例说明,假设各通信方U1至U6的地理位置如图5所示,本端通信方为U1,本端可计算其它通信方U2至U6的地理位置分别与本端通信方U1的地理位置的相对位置,从而本端将各通信方的地理位置映射到如图6所示的预设规则形状(如椭圆)上。具体本端可先设置本端通信方U1在预设规则形状上的参照位置,从而依据参照位置以及计算出的相对位置计算出其它各通信方U2至U6在预设规则形状上的虚拟方位。分配虚拟方位时最好避免其他通信方的虚拟位置在本端通信方正前方,可避免无法产生声像位置偏移的情形。
本实施例中,根据各所述通信方的地理位置来分配相应的虚拟方位,这样在输出调整获得的各声道语音数据后,用户听到的各通信方的声音的声像位置与相应通信方的地理位置是保持一致的,更方便了人们之间的语音通信。
在一个实施例中,步骤304具体包括:获取预设的可选虚拟方位集合,从所述可选虚拟方位集合中选择可选的虚拟方位分配给各所述通信方。
具体地,本端可预先准备可选虚拟方位集合,该虚拟方位集合中包括若干可选的虚拟方位,在分配虚拟方位时从可选虚拟方位集合中选择可选的虚拟方位分配给各通信方。可选虚拟方位集合中可选的虚拟方位是指还未被分配的虚拟方位。从可选虚拟方位集合中选择可选的虚拟方位可优先选择可导致调整后获得的各声道语音数据听觉差异程度大的可选虚拟方位。
本实施例中,可预先准备可选虚拟方位集合,从而在需要分配虚拟方位时直接向各通信方分配虚拟方位,可避免复杂计算,实现高效地分配虚拟方位。
在一个实施例中,步骤304具体包括:以本端通信方作为参考位置,为除本端通信方的各通信方分配彼此相异的相对于本端通信方的虚拟方位。
具体地,本实施例中无需为本端通信方分配虚拟方位,对于除去本端通信方的其它通信方,则以本端通信方为参考来分配相对于本端通信方的虚拟方位,且向各通信方分配的虚拟方位是彼此不同的。本端具体可将除去本端通信方的其它通信方排序,从而按照排序结果分配虚拟方位。本端在排序时具体可按照其它通信方的名称、账号以及加入语音会话的时间等各种因素进行排序。
举例说明,在3人网络聊天室中,本端可为除本端通信方之外的其它通信方A和B分配如图7所示的虚拟方位;在4人网络聊天室中,本端可为除本端通信方之外的其它通信方A、B和C分配如图8所示的虚拟方位;在5人网络聊天室中,本端可为除本端通信方之外的其它通信方A、B、C和D分配如图9所示的虚拟方位。
本实施例中,以本端通信方作为参考,以本端通信方作为参考位置,为除本端通信方的各通信方分配彼此相异的相对于本端通信方的虚拟方位,这样在输出调整获得的各声道语音数据后,本端通信方听到的其它通信方的声音的声像位置也是相对于本端通信方的,可进一步增强语音分辨性。
在一个实施例中,步骤306包括:根据所述模拟方位确定声道时间差,将相应通信方的左声道语音数据和右声道语音数据中的一者调整为比另一者延迟所述声道时间差。
具体地,根据模拟方位可确定声道时间差,不同的模拟方位对应不同的声道时间差,将相应通信方的左声道语音数据和右声道语音数据中的一者调整为比另一者延迟所述声道时间差,调整后获得的左声道语音数据和右声道语音数据的听觉差异便是该声道时间差的延时。
本端可获取同步的左声道语音数据和右声道语音数据,在左声道语音数据和右声道语音数据的其中一个声道语音数据中,插入时间长度为声道时间差的音频数据或者删除时间长度为声道时间差的音频数据,从而使得左声道语音数据和右声道语音数据中的一者比另一者延迟所述声道时间差。本端还可以对左声道语音数据和右声道语音数据同时进行调整,比如在其中一者插入第一时间长度的音频数据,在另一者中删除第二时间长度的音频数据,且第一时间长度和第二时间长度的和等于声道时间差。插入的可以是空白音频数据,也可以是根据插入点附近的语音数据生成的音频数据。
本实施例中,左声道语音数据和右声道语音数据之间存在与虚拟方位相关的声道时间差,这样通过左右声道语音数据之间的延时可使得本端通信方听到的其它各方通信方的声像位置发生偏移,便于语音辨识。
在一个实施例中,步骤306包括:根据所述模拟方位确定声道音量强度比,并根据所述声道音量强度比调整相应通信方的各声道语音数据中的至少一者。
本实施例中,根据模拟方位的不同,可确定调整后的各声道语音数据的音量强度比例,称为声道音量强度比,通过调整各声道语音数据中的至少一者来实现该声道音量强度比。调整后获得的各声道语音数据的听觉差异是音量强度的听觉差异,这样通过各声道语音数据之间的音量强度的听觉差异可使得本端通信方听到的其它各方通信方的声像位置发生偏移,便于语音辨识。
在一个实施例中,语音通信数据处理方法还包括:获取各所述通信方的身份识别信息;根据各所述通信方的模拟方位展示相应的身份识别信息。
具体地,本端可从本地或者服务器获取各通信方的身份识别信息,并在语音会话的页面中按照各通信方的模拟方位来展示获取的身份识别信息。其中身份识别信息是指可识别出相应通信方身份的信息,比如用户名称、用户账号、用户头像等。本端还可以利用图形或文字来展示各通信方的虚拟方位。
本实施例中,根据模拟方位来展示各通信方的身份识别信息,这样本端通信方可从展示的身份识别信息看出各通信方的虚拟方位,将视觉辨识与听觉辨识相结合,可进一步提高语音辨识性。
下面用一个具体应用场景来说明上述语音通信数据处理方法的原理,本应用场景中参与语音会话的用户有用户1、用户2、用户3、用户4、用户5以及本端用户。参照图10,当本端用户进入网络聊天室后,本端获取网络聊天室中的用户总数为6,判定用户总数大于2,则为用户1、用户2、用户3、用户4以及用户5分配模拟现实世界方位的模拟方位,本端可将各用户的头像按照相应的模拟方位进行展示,还可利用头像尺寸来表示与本端的距离。本端根据虚拟位置的不同,调整相应用户的左声道语音数据和右声道语音数据的音频强度比例。这样本端用户在语音会话过程中可模拟出现实世界的方位感,丰富了语音聊天方式。
如图11所示,在一个实施例中,提供了一种语音通信数据处理装置1100,包括通信方确定模块1101、模拟方位分配模块1102、语音数据调整模块1103和语音数据输出模块1104。
通信方确定模块1101,用于确定参与语音会话的各通信方。
其中,通信方表示通过某终端参与语音会话的用户,一个或者多个用户可通过一个终端参与语音会话。一个语音会话的通信方总数至少为2。语音会话是指各通信方之间通过语音通信方式进行通信的交互环境,一个语音会话中的语音交互发生在参与该语音会话的各通信方所对应的终端之间。
通信方确定模块1101具体可从服务器拉取参与当前语音会话的所有通信方的唯一标识,以确定参与语音会话的各通信方。其中语音会话可由本端主动创建,并由本端邀请其它用户参与到该语音会话中;语音会话也可由其它用户对应的终端创建并发起邀请,由本端响应于其它用户发起的邀请而加入到已创建的语音会话中。语音会话可以通过即时通信应用、本地通话应用或者网页应用等支持语音通信的应用创建并维持。语音会话包括网络聊天室中的语音会话。
模拟方位分配模块1102,用于为各所述通信方分配彼此相异的模拟方位。
其中,模拟方位是指模拟现实世界方位的数据,模拟方位可与各通信方真实的地理位置相关或者无关。模拟方位分配模块1102可用于为参与语音会话的所有通信方或者部分通信方分配模拟方位,部分通信方比如活跃度超过预设值的通信方或者本端通信方所指定的通信方,活跃度可根据发言数和发言频率等计算。模拟方位可由本端进行分配,也可由服务器进行分配。被分配了模拟方位的各通信方各自的模拟方位是不同的。
语音数据调整模块1103,用于根据所述模拟方位调整相应通信方的各声道语音数据中的至少一者,获得存在听觉差异的各声道语音数据。
具体地,语音数据调整模块1103可获取各通信方的各声道语音数据,从而按照分配的相应模拟方位对相应的各声道语音数据中的至少一者进行调整。调整获得的各声道语音数据之间存在听觉差异,该听觉差异的听觉差异程度是根据模拟方位确定的,与模拟方位相关。不同通信方被分配的模拟方位是不同的,于是经过调整后,不同通信方的各声道音频数据之间的听觉差异程度是不同的。各通信方的语音数据的声道数可为2,此时调整的各声道语音数据为左声道语音数据和右声道语音数据。
语音数据输出模块1104,用于输出调整后获得的各声道语音数据。
具体地,在完成调整后,语音数据输出模块1104用于将调整后获得的各声道语音数据分别转换为模拟信号的各声道语音信号,并将各声道语音信号分别通过不同的发声单元输出。发声单元可以是耳机的发声单元,也可以是音箱的发声单元。
其中,调整后获得的各声道语音数据之间存在听觉差异,存在的听觉差异可使调整后获得的各声道语音数据被输出后产生的声音发生声像位置偏移。声像是人的感知声源,若各声道语音数据不存在听觉差异,声像位置应当在人脑正中间位置,当存在听觉差异时可导致声像位置偏离人脑正中间位置。听觉差异程度不同声像偏移程度不同,本端通信方便可以根据声像位置辨识相应的通信方;若声像未偏移或偏移听觉差异小,则人耳可通过辨识各声道语音数据声音的听觉差异来辨识相应的通信方。
上述语音通信数据处理装置1100,在进行语音会话时,为参与语音会话的各通信方分别分配彼此相异的模拟方位,从而便可以根据分配的模拟方位调整相应通信方的各声道语音数据中的至少一者,使得调整获得的各声道语音数据存在听觉差异。存在听觉差异的各声道语音数据的听觉差异程度与相应的模拟方位相关,这样调整后的各个通信方的各声道语音数据的听觉差异是不同的,调整获得的各声道语音数据输出后,各声道语音数据的听觉差异会导致人耳听到的声音的方位不同,参与语音会话的通信方变可以根据声音方位辨识出不同通信方的语音,语音辨识性得以增强。
如图12所示,在一个实施例中,语音通信数据处理装置1100还包括:通信方总数获取模块1105和判断模块1106。
通信方总数获取模块1105,用于获取所述语音会话的通信方总数。
通信方总数是指参与某语音会话的所有通信方的数量,比如在一对一的语音会话中通信方总数为2,在三方语音会话中通信方总数则是3。通信方总数获取模块1105具体可获取参与语音会话的通信方列表,从该通信方列表中统计出通信方总数。
判断模块1106,用于判断所述通信方总数是否大于预设数量。其中,预设数量是用于判断开启或关闭虚拟方位语音通信功能的阈值,若通信方总数大于预设数量,则本端可开启虚拟方位语音通信功能,若通信方总数小于或等于预设数量,则本端可关闭虚拟方位语音通信功能。其中预设数量可为2。
所述语音数据输出模块1104还用于若所述判断模块1106判断为否,则直接获取各所述通信方对应的各声道语音数据并输出。
所述模拟方位分配模块1102还用于若所述判断模块1106判断为是,则为各所述通信方分配彼此相异的模拟方位。
具体地,当通信方总数大于预设数量时,所述模拟方位分配模块1102将不做分配虚拟方位并调整相应各声道语音数据的处理,而是直接获取各通信方的各声道语音数据并正常输出。
本实施例中,根据参与语音会话的通信方总数是否超过预设数量来判断是否需要调整各声道语音数据,从而在通信方总数较多时对相应各声道语音数据进行调整,方便本端通信方辨识出其他通信方;而在通信方总数较少时正常输出语音数据,优先保障语音通信质量,从而达到语音辨识性和语音通信质量的平衡。
在一个实施例中,模拟方位分配模块1102还用于获取各所述通信方的地理位置,根据各所述通信方之间地理位置的相对位置为各所述通信方分配彼此相异的模拟方位。
具体地,各通信方的终端可定期主动向服务器上报各终端的地理位置,该终端的地理位置可表示相应通信方的地理位置,从而模拟方位分配模块1102在需要时从服务器拉取参与语音会话的各通信方的地理位置。模拟方位分配模块1102也可以在需要地理位置时向服务器发起地理位置查询请求,由服务器根据地理位置查询请求向参与语音会话的各终端查询地理位置,模拟方位分配模块1102则接收服务器反馈的查询到的地理位置。地理位置可通过GPS(GlobalPositioningSystem,全球定位系统)定位方式和/或基站定位方式等获得。
进一步地,各通信方的地理位置是不同的,模拟方位分配模块1102可根据这些地理位置彼此之间的相对位置,将各通信方的地理位置映射为规则的模拟方位,并将映射出的模拟方位分配给相应的通信方。举例说明,假设各通信方U1至U6的地理位置如图5所示,本端通信方为U1,模拟方位分配模块1102可计算其它通信方U2至U6的地理位置分别与本端通信方U1的地理位置的相对位置,从而模拟方位分配模块1102将各通信方的地理位置映射到如图6所示的预设规则形状(如椭圆)上。具体模拟方位分配模块1102可先设置本端通信方U1在预设规则形状上的参照位置,从而依据参照位置以及计算出的相对位置计算出其它各通信方U2至U6在预设规则形状上的虚拟方位。分配虚拟方位时最好避免其他通信方的虚拟位置在本端通信方正前方,可避免无法产生声像位置偏移的情形。
本实施例中,根据各所述通信方的地理位置来分配相应的虚拟方位,这样在输出调整获得的各声道语音数据后,用户听到的各通信方的声音的声像位置与相应通信方的地理位置是保持一致的,更方便了人们之间的语音通信。
在一个实施例中,模拟方位分配模块1102还用于获取预设的可选虚拟方位集合,从所述可选虚拟方位集合中选择可选的虚拟方位分配给各所述通信方。
具体地,模拟方位分配模块1102可预先准备可选虚拟方位集合,该虚拟方位集合中包括若干可选的虚拟方位,在分配虚拟方位时从可选虚拟方位集合中选择可选的虚拟方位分配给各通信方。可选虚拟方位集合中可选的虚拟方位是指还未被分配的虚拟方位。从可选虚拟方位集合中选择可选的虚拟方位可优先选择可导致调整后获得的各声道语音数据听觉差异程度大的可选虚拟方位。
本实施例中,可预先准备可选虚拟方位集合,从而在需要分配虚拟方位时直接向各通信方分配虚拟方位,可避免复杂计算,实现高效地分配虚拟方位。
在一个实施例中,模拟方位分配模块1102还用于以本端通信方作为参考位置,为除本端通信方的各通信方分配彼此相异的相对于本端通信方的虚拟方位。
具体地,本实施例中无需为本端通信方分配虚拟方位,对于除去本端通信方的其它通信方,则以本端通信方为参考来分配相对于本端通信方的虚拟方位,且向各通信方分配的虚拟方位是彼此不同的。模拟方位分配模块1102具体可将除去本端通信方的其它通信方排序,从而按照排序结果分配虚拟方位。模拟方位分配模块1102在排序时具体可按照其它通信方的名称、账号以及加入语音会话的时间等各种因素进行排序。
本实施例中,以本端通信方作为参考,以本端通信方作为参考位置,为除本端通信方的各通信方分配彼此相异的相对于本端通信方的虚拟方位,这样在输出调整获得的各声道语音数据后,本端通信方听到的其它通信方的声音的声像位置也是相对于本端通信方的,可进一步增强语音分辨性。
在一个实施例中,语音数据调整模块1103还用于根据所述模拟方位确定声道时间差,将相应通信方的左声道语音数据和右声道语音数据中的一者调整为比另一者延迟所述声道时间差。
具体地,根据模拟方位可确定声道时间差,不同的模拟方位对应不同的声道时间差,语音数据调整模块1103将相应通信方的左声道语音数据和右声道语音数据中的一者调整为比另一者延迟所述声道时间差,调整后获得的左声道语音数据和右声道语音数据的听觉差异便是该声道时间差的延时。
语音数据调整模块1103可获取同步的左声道语音数据和右声道语音数据,在左声道语音数据和右声道语音数据的其中一个声道语音数据中,插入时间长度为声道时间差的音频数据或者删除时间长度为声道时间差的音频数据,从而使得左声道语音数据和右声道语音数据中的一者比另一者延迟所述声道时间差。语音数据调整模块1103还可以对左声道语音数据和右声道语音数据同时进行调整,比如在其中一者插入第一时间长度的音频数据,在另一者中删除第二时间长度的音频数据,且第一时间长度和第二时间长度的和等于声道时间差。插入的可以是空白音频数据,也可以是根据插入点附近的语音数据生成的音频数据。
本实施例中,左声道语音数据和右声道语音数据之间存在与虚拟方位相关的声道时间差,这样通过左右声道语音数据之间的延时可使得本端通信方听到的其它各方通信方的声像位置发生偏移,便于语音辨识。
在一个实施例中,语音数据调整模块1103还用于根据所述模拟方位确定声道音量强度比,并根据所述声道音量强度比调整相应通信方的各声道语音数据中的至少一者。
本实施例中,根据模拟方位的不同,可确定调整后的各声道语音数据的音量强度比例,称为声道音量强度比,通过调整各声道语音数据中的至少一者来实现该声道音量强度比。调整后获得的各声道语音数据的听觉差异是音量强度的听觉差异,这样通过各声道语音数据之间的音量强度的听觉差异可使得本端通信方听到的其它各方通信方的声像位置发生偏移,便于语音辨识。
如图13所示,在一个实施例中,语音通信数据处理装置1100还包括:身份识别信息获取模块1107和展示模块1108。
身份识别信息获取模块1107,用于获取各所述通信方的身份识别信息。具体地,身份识别信息获取模块1107可用于从本地或者服务器获取各通信方的身份识别信息。
展示模块1108,用于根据各所述通信方的模拟方位展示相应的身份识别信息。其中身份识别信息是指可识别出相应通信方身份的信息,比如用户名称、用户账号、用户头像等。展示模块1108还可以利用图形或文字来展示各通信方的虚拟方位。
本实施例中,根据模拟方位来展示各通信方的身份识别信息,这样本端通信方可从展示的身份识别信息看出各通信方的虚拟方位,将视觉辨识与听觉辨识相结合,可进一步提高语音辨识性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等非易失性存储介质,或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种语音通信数据处理方法,所述方法包括:
确定参与语音会话的各通信方;
为各所述通信方分配彼此相异的模拟方位;
根据所述模拟方位调整相应通信方的各声道语音数据中的至少一者,获得存在听觉差异的各声道语音数据;
输出调整后获得的各声道语音数据。
2.根据权利要求1所述的方法,其特征在于,所述为各所述通信方分配彼此相异的模拟方位之前,还包括:
获取所述语音会话的通信方总数;
判断所述通信方总数是否大于预设数量;
若否,则直接获取各所述通信方对应的各声道语音数据并输出;
若是,则执行所述为各所述通信方分配彼此相异的模拟方位的步骤。
3.根据权利要求1所述的方法,其特征在于,所述为各所述通信方分配彼此相异的模拟方位,包括:
获取各所述通信方的地理位置,根据各所述通信方之间地理位置的相对位置为各所述通信方分配彼此相异的模拟方位;或者,
获取预设的可选虚拟方位集合,从所述可选虚拟方位集合中选择可选的虚拟方位分配给各所述通信方;或者,
以本端通信方作为参考位置,为除本端通信方的各通信方分配彼此相异的相对于本端通信方的虚拟方位。
4.根据权利要求1所述的方法,其特征在于,所述根据所述模拟方位调整相应通信方的各声道语音数据中的至少一者,包括:
根据所述模拟方位确定声道时间差,将相应通信方的左声道语音数据和右声道语音数据中的一者调整为比另一者延迟所述声道时间差;或者,
根据所述模拟方位确定声道音量强度比,并根据所述声道音量强度比调整相应通信方的各声道语音数据中的至少一者。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取各所述通信方的身份识别信息;
根据各所述通信方的模拟方位展示相应的身份识别信息。
6.一种语音通信数据处理装置,其特征在于,所述装置包括:
通信方确定模块,用于确定参与语音会话的各通信方;
模拟方位分配模块,用于为各所述通信方分配彼此相异的模拟方位;
语音数据调整模块,用于根据所述模拟方位调整相应通信方的各声道语音数据中的至少一者,获得存在听觉差异的各声道语音数据;
语音数据输出模块,用于输出调整后获得的各声道语音数据。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
通信方总数获取模块,用于获取所述语音会话的通信方总数;
判断模块,用于判断所述通信方总数是否大于预设数量;
所述语音数据输出模块还用于若所述判断模块判断为否,则直接获取各所述通信方对应的各声道语音数据并输出;
所述模拟方位分配模块还用于若所述判断模块判断为是,则为各所述通信方分配彼此相异的模拟方位。
8.根据权利要求6所述的装置,其特征在于,所述模拟方位分配模块还用于获取各所述通信方的地理位置,根据各所述通信方之间地理位置的相对位置为各所述通信方分配彼此相异的模拟方位;或者,
所述模拟方位分配模块还用于获取预设的可选虚拟方位集合,从所述可选虚拟方位集合中选择可选的虚拟方位分配给各所述通信方;或者,
所述模拟方位分配模块还用于以本端通信方作为参考位置,为除本端通信方的各通信方分配彼此相异的相对于本端通信方的虚拟方位。
9.根据权利要求6所述的装置,其特征在于,所述语音数据调整模块还用于根据所述模拟方位确定声道时间差,将相应通信方的左声道语音数据和右声道语音数据中的一者调整为比另一者延迟所述声道时间差;或者,
所述语音数据调整模块还用于根据所述模拟方位确定声道音量强度比,并根据所述声道音量强度比调整相应通信方的各声道语音数据中的至少一者。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
身份识别信息获取模块,用于获取各所述通信方的身份识别信息;
展示模块,用于根据各所述通信方的模拟方位展示相应的身份识别信息。
CN201610143951.3A 2016-03-14 2016-03-14 语音通信数据处理方法和装置 Active CN105741833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610143951.3A CN105741833B (zh) 2016-03-14 2016-03-14 语音通信数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610143951.3A CN105741833B (zh) 2016-03-14 2016-03-14 语音通信数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN105741833A true CN105741833A (zh) 2016-07-06
CN105741833B CN105741833B (zh) 2021-05-11

Family

ID=56250458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610143951.3A Active CN105741833B (zh) 2016-03-14 2016-03-14 语音通信数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN105741833B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108109630A (zh) * 2016-11-23 2018-06-01 中兴通讯股份有限公司 一种音频的处理方法、装置和媒体服务器
CN108630223A (zh) * 2017-03-21 2018-10-09 株式会社东芝 信号处理装置以及信号处理方法
CN110501013A (zh) * 2019-08-07 2019-11-26 腾讯科技(深圳)有限公司 位置补偿方法、装置及电子设备
CN113301294A (zh) * 2021-05-14 2021-08-24 深圳康佳电子科技有限公司 一种通话控制方法、装置及智能终端
CN114629868A (zh) * 2022-03-07 2022-06-14 瓴里网络科技(上海)有限公司 适用于远程工作的多媒体群聊室通信方法和系统及智能终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1703065A (zh) * 2004-05-26 2005-11-30 株式会社日立制作所 语音通信系统
US20130170678A1 (en) * 2007-04-04 2013-07-04 At&T Intellectual Property I, L.P. Methods and systems for synthetic audio placement
WO2015031074A2 (en) * 2013-08-30 2015-03-05 Gleim Conferencing, Llc Multidimensional virtual learning system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1703065A (zh) * 2004-05-26 2005-11-30 株式会社日立制作所 语音通信系统
US20130170678A1 (en) * 2007-04-04 2013-07-04 At&T Intellectual Property I, L.P. Methods and systems for synthetic audio placement
WO2015031074A2 (en) * 2013-08-30 2015-03-05 Gleim Conferencing, Llc Multidimensional virtual learning system and method
US20160057557A1 (en) * 2013-08-30 2016-02-25 Gleim Conferencing, Llc Multidimensional virtual learning system and method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁林: "基于HRTF的虚拟环绕声技术的研究与IP核实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
同晓娟: "虚拟环绕声技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108109630A (zh) * 2016-11-23 2018-06-01 中兴通讯股份有限公司 一种音频的处理方法、装置和媒体服务器
CN108109630B (zh) * 2016-11-23 2022-01-25 中兴通讯股份有限公司 一种音频的处理方法、装置和媒体服务器
CN108630223A (zh) * 2017-03-21 2018-10-09 株式会社东芝 信号处理装置以及信号处理方法
CN108630223B (zh) * 2017-03-21 2022-01-04 株式会社东芝 信号处理装置以及信号处理方法
CN110501013A (zh) * 2019-08-07 2019-11-26 腾讯科技(深圳)有限公司 位置补偿方法、装置及电子设备
CN110501013B (zh) * 2019-08-07 2023-09-05 腾讯科技(深圳)有限公司 位置补偿方法、装置及电子设备
CN113301294A (zh) * 2021-05-14 2021-08-24 深圳康佳电子科技有限公司 一种通话控制方法、装置及智能终端
CN114629868A (zh) * 2022-03-07 2022-06-14 瓴里网络科技(上海)有限公司 适用于远程工作的多媒体群聊室通信方法和系统及智能终端

Also Published As

Publication number Publication date
CN105741833B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN105741833A (zh) 语音通信数据处理方法和装置
US8340267B2 (en) Audio transforms in connection with multiparty communication
FI115868B (fi) Puhesynteesi
US9693170B2 (en) Multidimensional virtual learning system and method
CN105719649B (zh) 语音识别方法及装置
US20070263823A1 (en) Automatic participant placement in conferencing
US20210280172A1 (en) Voice Response Method and Device, and Smart Device
WO2020248524A1 (zh) 人机对话方法及电子设备
CN102469220A (zh) 用于控制多路并发电话会议中的音频信号的方法和系统
CN109120947A (zh) 一种直播间的语音私聊方法及客户端
CN109671429B (zh) 语音交互方法及设备
JP2009539133A (ja) 発話の区別
US20230021300A9 (en) System and method using cloud structures in real time speech and translation involving multiple languages, context setting, and transcripting features
US20240064485A1 (en) Systems and methods for sound-enhanced meeting platforms
CN105378829A (zh) 记笔记辅助系统、信息递送设备、终端、记笔记辅助方法和计算机可读记录介质
US20200184973A1 (en) Transcription of communications
KR20210071866A (ko) 일대다 매칭 외국어 학습 중계 서버 및 외국어 강의 방법
CN111447400B (zh) 视频会议参会人标识处理方法、装置、设备及存储介质
US20230267942A1 (en) Audio-visual hearing aid
CN112992186B (zh) 音频处理方法、装置、电子设备及存储介质
KR20220130490A (ko) 음성 인식 기반 자막 및 회의록 생성 장치 및 방법
JP2014021826A (ja) ストリームデータ処理装置、ストリームデータ処理方法、及び、プログラム
CN117494791A (zh) 内容生成模型优化方法、内容生成方法及相关装置
Albrecht et al. Continuous mobile communication with acoustic co-location detection
CN115766950A (zh) 语音会议创建方法、语音会议方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant