CN115174534B - 语音交流中话语权分配方法、装置、设备及存储介质 - Google Patents

语音交流中话语权分配方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115174534B
CN115174534B CN202210847338.5A CN202210847338A CN115174534B CN 115174534 B CN115174534 B CN 115174534B CN 202210847338 A CN202210847338 A CN 202210847338A CN 115174534 B CN115174534 B CN 115174534B
Authority
CN
China
Prior art keywords
audio
communication
party
target party
detection period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210847338.5A
Other languages
English (en)
Other versions
CN115174534A (zh
Inventor
黄林森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202210847338.5A priority Critical patent/CN115174534B/zh
Publication of CN115174534A publication Critical patent/CN115174534A/zh
Application granted granted Critical
Publication of CN115174534B publication Critical patent/CN115174534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • H04L65/4046Arrangements for multi-party communication, e.g. for conferences with distributed floor control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种语音交流中话语权分配方法、装置、设备及存储介质,本申请通过对交流各方分别进行收音,得到收录的音频,在设定的每一检测周期结束时,基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方,进而将话语权分配给该目标方,以指示目标方的客户端进行收音,以及,在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果。由此可见,本申请的方法能够通过自动对交流各方进行收音以及按照检测周期确定音频来源的目标方,从而实现自动将话语权分配给目标方,交流过程中各方无需分心操控电子设备,可以专注于聆听和语音表达,进而提升了交流效率及交流质量。

Description

语音交流中话语权分配方法、装置、设备及存储介质
技术领域
本申请涉及语音交互技术领域,更具体的说,是涉及一种语音交流中话语权分配方法、装置、设备及存储介质。
背景技术
随着语音识别技术的发展,基于具备语音识别功能的电子设备进行线上、线下形式的语音交流,极大方便了用户的工作、生活。示例如,线上多方进行音、视频会议,线下的会议场景中,借助语音识别或翻译设备,进行会议的发言、录音、语音识别、语音翻译等。
目前,在多方语音交流过程中,对各交流方的交流节奏引导还不够完善。以线下会议场景为例,现有技术是每轮会话初始需要发言的一方手动点击设备屏幕,语音识别或翻译设备通过判断各方点击时间先后顺序,来判断哪一方先点击,进而将当前轮次的话语权分配给先点击的一方。其他交流方若要发言需要强行再次点击已侧设备屏幕,以获取话语权。显然,这种方式使得各交流方需要分心在操控电子设备上,不能专注于聆听和语音表达,导致交流效率和质量不高。
发明内容
鉴于上述问题,提出了本申请以便提供一种语音交流中话语权分配方法、装置、设备及存储介质,以解决现有技术需要交流方分心操作电子设备,导致交流效率和质量不高的问题。具体方案如下:
第一方面,提供了一种语音交流中话语权分配方法,包括:
对交流各方分别进行收音,得到收录的音频;
在每一检测周期结束时,基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方;
将话语权分配给所述目标方,以指示所述目标方的客户端进行收音,以及,在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果。
第二方面,提供了一种语音交流中话语权分配装置,包括:
收音单元,用于对交流各方分别进行收音,得到收录的音频;
音源确定单元,用于在每一检测周期结束时,基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方;
话语权分配单元,用于将话语权分配给所述目标方,以指示所述目标方的客户端进行收音,以及,在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果。
第三方面,提供了一种电子设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的语音交流中话语权分配方法的各个步骤。
第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的语音交流中话语权分配方法的各个步骤。
借由上述技术方案,本申请通过对交流各方分别进行收音,得到收录的音频,在设定的每一检测周期结束时,基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方,进而将话语权分配给该目标方,以指示目标方的客户端进行收音,以及,在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果。由此可见,本申请的方法能够通过自动对交流各方进行收音以及按照检测周期确定音频来源的目标方,从而实现自动将话语权分配给目标方,交流过程中各方无需分心操控电子设备,可以专注于聆听和语音表达,进而提升了交流效率及交流质量。
同时,在将话语权分配给目标方之后,指示目标方的客户端进行收音,同时在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果,使得交流各方清楚的知道当前发言对象的发言内容,不至于出现交流节奏混乱的问题。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的语音交流中话语权分配方法的一流程示意图;
图2a示例了一种目标方客户端界面显示效果示意图;
图2b示例了一种除目标方外其余方客户端界面显示效果示意图;
图3为本申请实施例提供的语音交流中话语权分配方法的另一流程示意图;
图4示例了一种两人现场交流场景下确定目标方的过程示意图;
图5为本申请实施例提供的一种语音交流中话语权分配装置结构示意图;
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种语音交流中话语权分配方案,可以适用于基于局部语音识别的电子设备进行语音交流的场景,示例如线上多人参与的音频、视频会议场景中,对话语权进行分配。再比如,线下多人会议场景中,可以通过电子设备进行话语权的分配。
本申请方案可以基于具备语音识别能力的终端实现,该终端可以是语音识别设备、翻译设备等。
举例说明如下,在线下会议场景中,假设需要对各方的发言进行指定语种的翻译。则可以通过麦克风阵列对各方发言进行收音,通过翻译设备进行语音的识别、翻译。同时,还可以通过翻译设备来进行交流节奏的引导,也即通过翻译设备来对各方的话语权进行分配,使得交流各方可以专注于聆听和语音表达,而无需过多分心在操控电子设备上。
接下来,结合图1所示,本申请的语音交流中话语权分配方法可以包括如下步骤:
步骤S100、对交流各方分别进行收音,得到收录的音频。
具体地,本申请的方案可以适用于交流各方为现场交流的场景,以及交流各方为线上交流的场景。
当交流各方为现场交流时,本步骤中可以通过麦克风设备对现场进行收音,得到收录的音频。其中,麦克风设备可以是定向麦克风阵列,则将阵列中各麦克风收录的各路音频合成一路音频,得到收录的音频。除此之外,麦克风设备也可以是全向麦克风。
当交流各方为线上交流时,本步骤中可以通过各交流方的客户端上的麦克风进行收音,得到收录的各交流方对应的音频。
步骤S110、在每一检测周期结束时,基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方。
具体地,本实施例中可以设置检测周期,示例如每隔第一时长为一个检测周期,其中第一时长可以根据实际情况设置,如设置为600毫秒或其它数值。
在每个检测周期结束时,基于最近一个检测周期内收音得到的音频,从交流各方中确定出音频来源的目标方。
其中,正常交流情况下,一般只有一个交流方进行发言,则通过对检测周期内收音的音频进行说话方向的识别,可以确定出发言的目标方。
当然,若同时存在多方进行发言的情况,本步骤中也可以通过分析收音的音频,确定出主要发言或发言最多的方向,作为目标方。
本步骤中确定出的目标方,即本申请所认为的主要发言的交流方,也即需要进行话语权分配的交流方。
步骤S120、将话语权分配给所述目标方,以指示所述目标方的客户端进行收音,以及,在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果。
具体地,在确定出发言的目标方之后,将话语权分配给目标方。通过分配话语权,指示目标方的客户端进行收音。与此同时,还可以在除去目标方外的其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果。
参考图2a和图2b,图2a示例了目标方的客户端显示界面,其中可以在显示界面上通过控件M1来提示用户进行收音。控件M1可以是输入波形图等。
图2b示例的其余交流方的客户端显示界面,其中可以显示对目标方收音的音频的识别处理结果,图2b中示例的是对音频的识别翻译结果。
本申请实施例提供的话语权分配方法,通过对交流各方分别进行收音,得到收录的音频,在设定的每一检测周期结束时,基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方,进而将话语权分配给该目标方,以指示目标方的客户端进行收音,以及,在其余各交流方的客户端上提示当前话语权在该目标方。由此可见,本申请的方法能够通过自动对交流各方进行收音以及按照检测周期确定音频来源的目标方,从而实现自动将话语权分配给目标方,交流过程中各方无需分心操控电子设备,可以专注于聆听和语音表达,进而提升了交流效率及交流质量。
同时,在将话语权分配给目标方之后,指示目标方的客户端进行收音,同时在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果,使得交流各方清楚的知道当前发言对象的发言内容,不至于出现交流节奏混乱的问题。
进一步可选的,在将话语权分配给目标方之后,为了更加清楚的提示其余各交流方当前正在发言的对象,可以在其余各交流方的客户端上提示当前话语权在所述目标方。
进一步参考图3,图3示例了另一种语音交流中话语权分配方法流程图,该方法可以包括如下步骤:
步骤S200、对交流各方分别进行收音,得到收录的音频。
步骤S210、在每一检测周期结束时,判断最近一个检测周期收音得到的音频是否通过VAD前端点检测,若是,执行步骤S220,若否,返回执行步骤S200。
具体地,在每一个检测周期结束时,可以首先对最近一个检测周期收音到的音频进行语音活动性检测VAD。通过VAD检测,判断是否检测到语音的前端点,如果是,则执行下述步骤S220,否则,说明最近一个检测周期内并无有效的人声,可以继续执行步骤S200进行收音的过程。
步骤S220、基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方。
步骤S230、将话语权分配给所述目标方,以指示所述目标方的客户端进行收音,以及,在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果。
相比于前述实施例,本实施例中在确定音频来源的目标方之前,进一步增加了对检测周期内收音的音频进行VAD前端点检测的过程,并且在检测到语音的前端点时,才执行后续的确定音频来源的目标方的操作,减少了对不包含有效人声的音频进行音频来源方确定的操作过程。
进一步可选的,在上述步骤S230将话语权分配给目标方之后,对于采集的目标方的后续音频,还可以持续进行VAD检测,若检测到语音的后端点,表明目标方发言完毕,可以释放分配给目标方的话语权。
在本申请的一些实施例中,对上述步骤S120中,将话语权分配给目标方之后,在其余各交流方的客户端上显示对目标方收音的音频的识别处理结果的过程进行介绍。
可以理解的是,本申请是基于最近一个检测周期内收音的音频来确定的要分配话语权的目标方,也即,目标方在最近一个检测周期内已经存在发言语音了。为了保证目标方发言内容的完整性,本实施例中可以将最近一个检测周期收音得到的音频,添加到话语权分配给所述目标方之后对所述目标方收音得到的音频之前,得到完整音频。
通过上述操作,可以获取到目标方完整的发言音频,避免遗漏发言内容。在此基础上,可以基于完整音频进行后续语音识别处理任务,示例如:
对完整音频进行识别或翻译为指定语种的文本,将识别结果或翻译结果在交流各方的客户端上显示。
进一步地,鉴于最近一个检测周期收音的音频可能包含有效音频也可能属于环境噪声等无效音频,为此,本实施例中在上述得到完整音频之前,可以首先对最近一个检测周期收音得到的音频进行有效人声检测,若检测到有效人声,则执行上述将最近一个检测周期收音得到的音频,添加到话语权分配给所述目标方之后对所述目标方收音得到的音频之前,得到完整音频的过程;若未检测到有效人声,则说明该最近一个检测周期收音得到的音频属于噪声,可以删除缓存的最近一个检测周期收音得到的音频,直接将话语权分配给所述目标方之后对所述目标方收音得到的音频作为完整音频。
在本申请的一些实施例中,对上述步骤S100,对交流各方分别进行收音,得到收录的音频的过程进行说明。
本申请方案可以提供两种不同的使用场景供用户选择。其一,可以支持在交流的一方发言过程中,其他交流方可以随时主动打断发言方,也即抢夺话语权。其二,可以支持在交流的一方发言过程中,其他交流方无法主动打断发言方,仅能够在发言方释放话语权之后再争取话语权。
上述两种场景均可实现,视用户的需求而选择。
在第一种场景下,上述步骤S100的实施过程可以包括:
在整个交流过程中,持续地对交流各方分别进行收音,得到收录的音频。
也即,在各个交流方互相交流的整个过程中,本申请可以持续地对交流各方分别进行收音,得到收录的音频。
在此基础上,上述步骤S110,在每一检测周期结束时,基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方的过程,可以包括:
在整个交流过程中,每隔第一时长为一个检测周期,在一个检测周期结束时,基于该检测周期收音得到的音频,从交流各方中确定出音频来源的目标方。
具体地,为了保证目标方发言过程中,其他交流方能够争取话语权,可以在整个交流过程中,在每隔检测周期结束时,即基于收录的音频重新确定音频来源的目标方。基于此,若在目标方发言过程中,其他交流方主动发言打断目标方的发言,则按照本实施例的方案,可以及时将该新发言的交流方更新为新的目标方,进而将话语权分配给更新后的目标方。
考虑到交流各方可能处于现场交流的场景,也可能处于线上交流的场景。为此,本实施例分别介绍两种不同场景下,上述步骤S120,将话语权分配给目标方的具体实现过程。
1)在交流各方为现场交流的场景下,保持麦克风设备对所述目标方进行收音,在所述目标方的客户端上提示用户进行语音输入。
具体地,鉴于需要在整个交流过程中持续对各交流方进行收音,因此当更新了目标方之后,需要保持麦克风设备继续对目标方进行收音。同时,可以在目标方的客户端上提示用户进行语音输入,参考图2a中的控件M1。
由于麦克风设备需要同步对各交流方进行收音,为了避免后续对目标方的发言音频进行识别处理过程,由其他交流方的收音音频产生干扰,本申请中可以仅利用麦克风设备对目标方方向收录的一路音频进行后续的识别处理过程,保证不会收到其余方向收录的音频的干扰。
2)在交流各方为线上交流的场景下,保持所述目标方的客户端上的麦克风处于开启状态,在所述目标方的客户端上提示用户进行语音输入。
在交流各方为线上交流时,一般是基于各客户端上的麦克风对各交流方分别进行收音。因此,在更新了目标方之后,可以保持更新后的目标方的客户端上的麦克风处于开启状态,同时在目标方的客户端上提示用户进行语音输入。
在第二种场景下,也即支持在交流的一方发言过程中,其他交流方无法主动打断发言方,仅能够在发言方释放话语权之后再争取话语权的场景下:
上述步骤S100的实施过程可以包括:
在交流各方均未持有话语权的场景下,持续地对交流各方分别进行收音,得到收录的音频,当存在目标方被分配了话语权后且未释放该话语权之前,停止对除所述目标方外的其余各交流方进行收音。
具体地,当交流各方均未持有话语权时,可以持续地对交流各方分别进行收音,以便基于收录的音频来确定音频来源的目标方。当存在目标方被分配了话语权后且未释放该话语权之前,鉴于在该场景下不允许其他交流方打断当前正在发言的目标方,因此可以停止对除去目标方外的其余各交流方进行收音。
在此基础上,上述步骤S110,在每一检测周期结束时,基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方的过程,可以包括:
在交流各方均未持有话语权的场景下,每隔第一时长为一个检测周期,在一个检测周期结束时,基于该检测周期收音得到的音频,从交流各方中确定出音频来源的目标方。
当存在目标方被分配了话语权后且未释放该话语权之前,停止进行音频来源方的确定过程。
进一步,考虑到交流各方可能处于现场交流的场景,也可能处于线上交流的场景。为此,本实施例分别介绍两种不同场景下,上述步骤S120,将话语权分配给目标方的具体实现过程。
1)在交流各方为现场交流的场景下,将麦克风设备的波束方向固定到所述目标方对应的音源方向。
具体地,鉴于在第二场景下目标方发言过程不允许其他交流方争夺话语权,因此,可以将麦克风设备的波束方向固定到目标方对应的音源方向上,也即仅对目标方进行收音,其他方向抑制。
2)在交流各方为线上交流的场景下,控制所述目标方的客户端上的麦克风处于开启状态,同时,控制除所述目标方外的其余各交流方的客户端上的麦克风处于关闭状态。
同理,鉴于在第二场景下目标方发言过程不允许其他交流方争夺话语权,因此,在交流各方为线上交流时,可以控制目标方的客户端上的麦克风处于开启状态,同时,控制除目标方外的其余各交流方的客户端上的麦克风处于关闭状态。
在本申请的一些实施例中,对前述实施例中,步骤S110,在一个检测周期结束时,基于该检测周期收音得到的音频,从交流各方中确定出音频来源的目标方的过程进行说明。
本实施例中可以每隔第一时长为一个检测周期,在一个检测周期结束时,基于该检测周期收音得到的音频,确定目标方。
其中,第一时长可以由用户设置,示例如600ms或其他数值。
在一个检测周期内,还可以包括多个子检测周期,每个子检测周期的时长为第二时长,第二时长小于第一时长,取值也可以由用户设置,示例如10ms或其他数值。
基于此,步骤S110可以包括:
S1、在一个检测周期内,在每一子检测周期结束时,基于该子检测周期收音得到的音频,标定音频来源方。
具体地,若个交流方为现场语音交流场景,则可以基于麦克风设备在一个子检测周期内收录的音频,进行音源方向检测,并为该子检测周期内收录的音频标定音频来源方。
S2、在一个检测周期结束时,统计该检测周期内标定的每一音频来源方的数量,并选取数量最多的音频来源方作为目标方。
具体地,通过选取数量最多的音频来源方作为目标方,可以将子啊一个检测周期内发言时长最长的交流方作为目标方,以实现为其分配话语权的目的。
参考图4,其以两人现场交流场景为例,麦克风设备包含上下两个音源方向,分别定义为方向A和方向B,方向A对应交流方A,方向B对应交流方B。在600ms的检测周期内,每隔10ms为一个子检测周期,最终得到60个音频的标定结果。假设标定为方向A的音频有50个,标定为方向B的音频有10个,则可以将对象A确定为目标方。
下面对本申请实施例提供的语音交流中话语权分配装置进行描述,下文描述的语音交流中话语权分配装置与上文描述的语音交流中话语权分配方法可相互对应参照。
参见图5,图5为本申请实施例公开的一种语音交流中话语权分配装置结构示意图。
如图5所示,该装置可以包括:
收音单元11,用于对交流各方分别进行收音,得到收录的音频;
音源确定单元12,用于在每一检测周期结束时,基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方;
话语权分配单元13,用于将话语权分配给所述目标方,以指示所述目标方的客户端进行收音,以及,在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果。
可选的,本申请的装置还可以包括:VAD前端点检测单元,用于在所述音源确定单元执行之前,对最近一个检测周期收音得到的音频进行语音端点检测VAD;
若检测到语音的前端点,则执行所述音源确定单元的步骤;若未检测到语音的前端点,则返回执行所述收音单元的步骤。
可选的,本申请的装置还可以包括:VAD后端点检测单元,用于在所述话语权分配单元执行之后,若通过VAD检测到语音的后端点,则释放分配给所述目标方的话语权。
可选的,所述话语权分配单元在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果的过程,可以包括:
将所述最近一个检测周期收音得到的音频,添加到话语权分配给所述目标方之后对所述目标方收音得到的音频之前,得到完整音频;
对所述完整音频进行识别或翻译为指定语种的文本,将识别结果或翻译结果在交流各方的客户端上显示。
可选的,所述话语权分配单元还用于,在得到完整音频之前,对所述最近一个检测周期收音得到的音频进行有效人声检测,若检测到有效人声,则执行将所述最近一个检测周期收音得到的音频,添加到话语权分配给所述目标方之后对所述目标方收音得到的音频之前,得到完整音频的步骤;
若未检测到有效人声,则删除缓存的最近一个检测周期收音得到的音频,将话语权分配给所述目标方之后对所述目标方收音得到的音频作为完整音频。
可选的,上述收音单元对交流各方分别进行收音,得到收录的音频的过程,可以包括:
在整个交流过程中,持续地对交流各方分别进行收音,得到收录的音频。
基于此,上述音源确定单元在每一检测周期结束时,基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方的过程,可以包括:
在整个交流过程中,每隔第一时长为一个检测周期,在一个检测周期结束时,基于该检测周期收音得到的音频,从交流各方中确定出音频来源的目标方。
基于此,上述话语权分配单元将话语权分配给所述目标方的过程,可以包括:
在交流各方为现场交流的场景下,保持麦克风设备对所述目标方进行收音,在所述目标方的客户端上提示用户进行语音输入;
在交流各方为线上交流的场景下,保持所述目标方的客户端上的麦克风处于开启状态,在所述目标方的客户端上提示用户进行语音输入。
另一种可选情况下,上述收音单元对交流各方分别进行收音,得到收录的音频的过程,可以包括:
在交流各方均未持有话语权的场景下,持续地对交流各方分别进行收音,得到收录的音频,当存在目标方被分配了话语权后且未释放该话语权之前,停止对除所述目标方外的其余各交流方进行收音。
基于此,上述音源确定单元在每一检测周期结束时,基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方的过程,可以包括:
在交流各方均未持有话语权的场景下,每隔第一时长为一个检测周期,在一个检测周期结束时,基于该检测周期收音得到的音频,从交流各方中确定出音频来源的目标方;
当存在目标方被分配了话语权后且未释放该话语权之前,停止进行音频来源方的确定过程。
基于此,上述话语权分配单元将话语权分配给所述目标方的过程,可以包括:
在交流各方为现场交流的场景下,将麦克风设备的波束方向固定到所述目标方对应的音源方向;
在交流各方为线上交流的场景下,控制所述目标方的客户端上的麦克风处于开启状态,同时,控制除所述目标方外的其余各交流方的客户端上的麦克风处于关闭状态。
可选的,上述音源确定单元每隔第一时长为一个检测周期,在一个检测周期结束时,基于该检测周期收音得到的音频,从交流各方中确定出音频来源的目标方的过程,可以包括:
每隔第一时长为一个检测周期,在一个检测周期内,每隔第二时长为一个子检测周期,在每一子检测周期结束时,基于该子检测周期收音得到的音频,标定音频来源方;
在一个检测周期结束时,统计该检测周期内标定的每一音频来源方的数量,并选取数量最多的音频来源方作为目标方。
可选的,本申请的装置还可以包括:话语权提示单元,用于在所述话语权分配单元将话语权分配给所述目标方之后,在其余各交流方的客户端上提示当前话语权在所述目标方。
本申请实施例提供的语音交流中话语权分配装置可应用于电子设备,如语音识别设备、翻译设备等。可选的,图6示出了电子设备的硬件结构框图,参照图6,电子设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
对交流各方分别进行收音,得到收录的音频;
在每一检测周期结束时,基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方;
将话语权分配给所述目标方,以指示所述目标方的客户端进行收音,以及,在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
对交流各方分别进行收音,得到收录的音频;
在每一检测周期结束时,基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方;
将话语权分配给所述目标方,以指示所述目标方的客户端进行收音,以及,在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种语音交流中话语权分配方法,其特征在于,包括:
对交流各方分别进行收音,将收录的各路音频合成一路音频,得到收录的音频;
在每一检测周期结束时,基于最近一个检测周期收音得到的音频,进行说话方向的识别,根据说话方向识别结果从交流各方中确定出音频来源的目标方;
将话语权分配给所述目标方,以指示所述目标方的客户端进行收音,以及,在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果。
2.根据权利要求1所述的方法,其特征在于,在所述基于最近一个检测周期收音得到的音频,进行说话方向的识别,根据说话方向识别结果从交流各方中确定出音频来源的目标方之前,该方法还包括:
对最近一个检测周期收音得到的音频进行语音端点检测VAD;
若检测到语音的前端点,则执行所述基于最近一个检测周期收音得到的音频,从交流各方中确定出音频来源的目标方的步骤;
若未检测到语音的前端点,则返回执行对交流各方分别进行收音,得到收录的音频的步骤。
3.根据权利要求2所述的方法,其特征在于,在所述将话语权分配给所述目标方之后,还包括:
若通过VAD检测到语音的后端点,则释放分配给所述目标方的话语权。
4.根据权利要求1所述的方法,其特征在于,所述在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果,包括:
将所述最近一个检测周期收音得到的音频,添加到话语权分配给所述目标方之后对所述目标方收音得到的音频之前,得到完整音频;
对所述完整音频进行识别或翻译为指定语种的文本,将识别结果或翻译结果在交流各方的客户端上显示。
5.根据权利要求4所述的方法,其特征在于,在所述得到完整音频之前,该方法还包括:
对所述最近一个检测周期收音得到的音频进行有效人声检测,若检测到有效人声,则执行将所述最近一个检测周期收音得到的音频,添加到话语权分配给所述目标方之后对所述目标方收音得到的音频之前,得到完整音频的步骤;
若未检测到有效人声,则删除缓存的最近一个检测周期收音得到的音频,将话语权分配给所述目标方之后对所述目标方收音得到的音频作为完整音频。
6.根据权利要求1所述的方法,其特征在于,所述对交流各方分别进行收音,将收录的各路音频合成一路音频,得到收录的音频,包括:
在整个交流过程中,持续地对交流各方分别进行收音,将收录的各路音频合成一路音频,得到收录的音频;
所述在每一检测周期结束时,基于最近一个检测周期收音得到的音频,进行说话方向的识别,根据说话方向识别结果从交流各方中确定出音频来源的目标方,包括:
在整个交流过程中,每隔第一时长为一个检测周期,在一个检测周期结束时,基于该检测周期收音得到的音频,进行说话方向的识别,根据说话方向识别结果从交流各方中确定出音频来源的目标方。
7.根据权利要求6所述的方法,其特征在于,所述将话语权分配给所述目标方,包括:
在交流各方为现场交流的场景下,保持麦克风设备对所述目标方进行收音,在所述目标方的客户端上提示用户进行语音输入;
在交流各方为线上交流的场景下,保持所述目标方的客户端上的麦克风处于开启状态,在所述目标方的客户端上提示用户进行语音输入。
8.根据权利要求1所述的方法,其特征在于,所述对交流各方分别进行收音,将收录的各路音频合成一路音频,得到收录的音频,包括:
在交流各方均未持有话语权的场景下,持续地对交流各方分别进行收音,将收录的各路音频合成一路音频,得到收录的音频,当存在目标方被分配了话语权后且未释放该话语权之前,停止对除所述目标方外的其余各交流方进行收音;
所述在每一检测周期结束时,基于最近一个检测周期收音得到的音频,进行说话方向的识别,根据说话方向识别结果从交流各方中确定出音频来源的目标方,包括:
在交流各方均未持有话语权的场景下,每隔第一时长为一个检测周期,在一个检测周期结束时,基于该检测周期收音得到的音频,进行说话方向的识别,根据说话方向识别结果从交流各方中确定出音频来源的目标方;
当存在目标方被分配了话语权后且未释放该话语权之前,停止进行音频来源方的确定过程。
9.根据权利要求8所述的方法,其特征在于,所述将话语权分配给所述目标方,包括:
在交流各方为现场交流的场景下,将麦克风设备的波束方向固定到所述目标方对应的音源方向;
在交流各方为线上交流的场景下,控制所述目标方的客户端上的麦克风处于开启状态,同时,控制除所述目标方外的其余各交流方的客户端上的麦克风处于关闭状态。
10.根据权利要求6或8所述的方法,其特征在于,所述每隔第一时长为一个检测周期,在一个检测周期结束时,基于该检测周期收音得到的音频,进行说话方向的识别,根据说话方向识别结果从交流各方中确定出音频来源的目标方,包括:
每隔第一时长为一个检测周期,在一个检测周期内,每隔第二时长为一个子检测周期,在每一子检测周期结束时,基于该子检测周期收音得到的音频,标定音频来源方;
在一个检测周期结束时,进行说话方向的识别,根据说话方向识别结果统计该检测周期内标定的每一音频来源方的数量,并选取数量最多的音频来源方作为目标方。
11.根据权利要求1-9任一项所述的方法,其特征在于,在将话语权分配给所述目标方之后,该方法还包括:
在其余各交流方的客户端上提示当前话语权在所述目标方。
12.一种语音交流中话语权分配装置,其特征在于,包括:
收音单元,用于对交流各方分别进行收音,将收录的各路音频合成一路音频,得到收录的音频;
音源确定单元,用于在每一检测周期结束时,基于最近一个检测周期收音得到的音频,进行说话方向的识别,根据说话方向识别结果从交流各方中确定出音频来源的目标方;
话语权分配单元,用于将话语权分配给所述目标方,以指示所述目标方的客户端进行收音,以及,在其余各交流方的客户端上显示对所述目标方收音的音频的识别处理结果。
13.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~11中任一项所述的语音交流中话语权分配方法的各个步骤。
14.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~11中任一项所述的语音交流中话语权分配方法的各个步骤。
CN202210847338.5A 2022-07-19 2022-07-19 语音交流中话语权分配方法、装置、设备及存储介质 Active CN115174534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210847338.5A CN115174534B (zh) 2022-07-19 2022-07-19 语音交流中话语权分配方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210847338.5A CN115174534B (zh) 2022-07-19 2022-07-19 语音交流中话语权分配方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115174534A CN115174534A (zh) 2022-10-11
CN115174534B true CN115174534B (zh) 2024-02-13

Family

ID=83494874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210847338.5A Active CN115174534B (zh) 2022-07-19 2022-07-19 语音交流中话语权分配方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115174534B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1929593A (zh) * 2005-09-07 2007-03-14 宝利通公司 多点视频会议中的空间相关音频
JP2011199764A (ja) * 2010-03-23 2011-10-06 Oki Networks Co Ltd 発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラム
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
CN110600039A (zh) * 2019-09-27 2019-12-20 百度在线网络技术(北京)有限公司 发言者属性确定方法、装置、电子设备及可读存储介质
CN112435690A (zh) * 2019-08-08 2021-03-02 百度在线网络技术(北京)有限公司 双工蓝牙翻译处理方法、装置、计算机设备和存储介质
JP2021051172A (ja) * 2019-09-24 2021-04-01 学校法人早稲田大学 対話システムおよびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475880B2 (en) * 2019-04-16 2022-10-18 Google Llc Joint endpointing and automatic speech recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1929593A (zh) * 2005-09-07 2007-03-14 宝利通公司 多点视频会议中的空间相关音频
JP2011199764A (ja) * 2010-03-23 2011-10-06 Oki Networks Co Ltd 発言者音声抽出システム、発言者音声抽出装置及び発言者音声抽出プログラム
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
CN112435690A (zh) * 2019-08-08 2021-03-02 百度在线网络技术(北京)有限公司 双工蓝牙翻译处理方法、装置、计算机设备和存储介质
JP2021051172A (ja) * 2019-09-24 2021-04-01 学校法人早稲田大学 対話システムおよびプログラム
CN110600039A (zh) * 2019-09-27 2019-12-20 百度在线网络技术(北京)有限公司 发言者属性确定方法、装置、电子设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Gustavo Esteves Coelho ; 等.Microphone Array Front-End Interface for Home Automation.《2008 Hands-Free Speech Communication and Microphone Arrays》.2008,全文. *
多说话人环境下目标说话人语音提取方案;叶于林;莫建华;刘夏;;计算机系统应用(04);全文 *

Also Published As

Publication number Publication date
CN115174534A (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
US10249299B1 (en) Tailoring beamforming techniques to environments
CN110113316B (zh) 会议接入方法、装置、设备及计算机可读存储介质
US10149049B2 (en) Processing speech from distributed microphones
US8249233B2 (en) Apparatus and system for representation of voices of participants to a conference call
US20230164273A1 (en) Systems and methods to automatically join conference
US9042574B2 (en) Processing audio signals
US20130013303A1 (en) Processing Audio Signals
CN107316651B (zh) 基于麦克风的音频处理方法和装置
JP2020068466A (ja) 音信号処理装置、ミキサ、および音信号処理方法
CN111800700A (zh) 环境中对象提示方法、装置、耳机设备及存储介质
CN112997249B (zh) 语音处理方法、装置、存储介质及电子设备
CN110660403B (zh) 一种音频数据处理方法、装置、设备及可读存储介质
CN115174534B (zh) 语音交流中话语权分配方法、装置、设备及存储介质
CN110265038B (zh) 一种处理方法及电子设备
CN111383629B (zh) 语音处理方法和装置、电子设备以及存储介质
US11227423B2 (en) Image and sound pickup device, sound pickup control system, method of controlling image and sound pickup device, and method of controlling sound pickup control system
EP4246514A1 (en) Audio signal processing method and audio signal processing device
JP2002034092A (ja) 収音装置
JP6363429B2 (ja) データ構造、データ生成装置、データ生成方法、およびプログラム
CN113488066B (zh) 音频信号处理方法、音频信号处理装置及存储介质
CN115665602A (zh) 回声消除方法、装置、会议系统、电子设备和存储介质
CN114401350A (zh) 一种音频处理方法及会议系统
CN113808611A (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
US20220366156A1 (en) Translation system, translation apparatus, translation method, and translation program
CN112735455B (zh) 声音信息的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant