CN112837689A - 会议系统、数据通信系统及语音信息处理方法 - Google Patents
会议系统、数据通信系统及语音信息处理方法 Download PDFInfo
- Publication number
- CN112837689A CN112837689A CN201911166388.1A CN201911166388A CN112837689A CN 112837689 A CN112837689 A CN 112837689A CN 201911166388 A CN201911166388 A CN 201911166388A CN 112837689 A CN112837689 A CN 112837689A
- Authority
- CN
- China
- Prior art keywords
- voice
- voice information
- microphone array
- conference system
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 14
- 230000010365 information processing Effects 0.000 title abstract description 20
- 238000003672 processing method Methods 0.000 title abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000003491 array Methods 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 6
- 210000005069 ears Anatomy 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 24
- 230000015654 memory Effects 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000003825 pressing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Abstract
本申请公开了一种会议系统、数据通信系统及语音信息处理方法。其中,该系统包括:第一麦克风阵列,连接至会议系统中的语音输入端,用于采集目标对象的语音信息,并将语音信息传输至会议系统进行处理;第二麦克风阵列,连接至语音识别系统中的语音输入端,用于采集目标对象的语音信息,并将语音信息传输至语音识别系统进行语音识别。本申请解决了现有的会议系统缺少既能够获得适合人耳的声音,又能让语音识别系统准确识别声音的算法的技术问题。
Description
技术领域
本申请涉及语音识别领域,具体而言,涉及一种会议系统、数据通信系统及语音信息处理方法。
背景技术
传统的远程会议系统,例如视频会议系统,电话会议系统,为了能准确清晰的接受语音,会通过麦克风阵列接收语音,然后通过信号处理算法来消除回声,去除噪声,增强目标语音。在语音识别领域,为了获取清晰的语音,也会通过麦克风阵列收音,然后经过信号处理算法降噪,提高信噪比。
然而会议系统中的信号处理算法的目标是让人耳能更清晰的听见,语音识别领域的信号处理算法目的是让机器能更好的识别。由于人耳的容错性、敏感度和机器模型完全不同。所以两个场景算法优化的目标和处理结果也完全不同。适合人耳的声音,可能很难让语音识别系统去准确识别语音。而适合语音识别系统的声音,可能在人听起来又是含糊或者难以辨别的。会议系统现在越来越多地在增加语音识别能力,帮助人们记录会议内容。然而上面的问题一直是这个场景所需要解决的问题。
相关技术人员一直试图寻找更好的统一算法来处理语音,希望既获得适合人耳的声音,又能让语音识别系统准确识别。受制于现有算法的能力,目前还很难有特别好的算法,或者有合适的算法使系统的开销很小。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种会议系统、数据通信系统及语音信息处理方法,以至少解决现有的会议系统缺少既能够获得适合人耳的声音,又能让语音识别系统准确识别声音的算法的技术问题。
根据本申请实施例的一个方面,提供了一种会议系统,包括:第一麦克风阵列,连接至会议系统中的语音输入端,用于采集目标对象的语音信息,并将语音信息传输至会议系统进行处理;第二麦克风阵列,连接至语音识别系统中的语音输入端,用于采集目标对象的语音信息,并将语音信息传输至语音识别系统进行语音识别。
根据本申请实施例的另一方面,还提供了一种数据通信系统,包括:麦克风阵列、处理器、会议系统和语音识别系统;麦克风阵列,连接至处理器,用于采集目标对象的语音信息,并将语音信息发送至处理器;处理器,连接至语音识别系统中的语音输入端和会议系统中的语音输入端,用于对语音信息进行复制处理,得到两路语音信息;将两路语音信息分别传输至会议系统和语音识别系统。
根据本申请实施例的另一方面,还提供了一种语音信息处理方法,包括:采集目标对象的语音信息;将语音信息划分为两路语音信息;以及将两路语音信息分别传输至会议系统和语音识别系统。
根据本申请实施例的另一方面,还提供了一种语音信息处理方法,包括:展示人机交互界面;接收目标对象对所述人机交互界面上的开关控件的触发指令;确定所述触发指令的类型;依据所述类型控制会议系统中第一麦克风阵列和第二麦克风阵列中的至少之一的开启或关闭,其中,所述第一麦克风阵列用于采集所述目标对象的语音信息,并将所述语音信息传输至语音播放电路进行播放;所述第二麦克风阵列用于采集所述目标对象的语音信息,将所述语音信息传输至所述语音识别系统进行语音识别。
根据本申请实施例的另一方面,还提供了一种语音信息处理方法,包括:接收第一语音信息;对所述语音信息进行复制,得到第二语音信息;将所述第一语音信息和所述第二语音信息中的其中之一输入语音识别系统中进行语音识别,并将所述第一语音信息和所述第二语音信息中的另一语音信息传输至语音播放电路进行播放。
在本申请实施例中提供了一种会议系统,包括:第一麦克风阵列,连接至会议系统中的语音输入端,用于采集目标对象的语音信息,并将语音信息传输至会议系统进行处理;第二麦克风阵列,连接至语音识别系统中的语音输入端,用于采集目标对象的语音信息,并将语音信息传输至语音识别系统进行语音识别,通过采用两组麦克风阵列分别采集语音,并分别传输至会议系统和语音识别系统采用不同的前端信号算法处理,从而实现了极大的降低了信号处理算法的要求,可以用传统的算法在很小的改动下既能获得适合人耳的声音,又能使语音识别系统准确识别声音的技术效果,进而解决了现有的会议系统缺少既能够获得适合人耳的声音,又能让语音识别系统准确识别声音的算法的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种会议系统的结构图;
图2是根据本申请实施例的一种带语音识别的会议系统的示意图;
图3是根据本申请实施例的另一种会议系统的结构图;
图4是根据本申请实施例的另一种会议系统的结构图;
图5是根据本申请实施例的另一种会议系统的结构图;
图6是根据本申请实施例的另一种会议系统的结构图;
图7是根据本申请实施例的一种带语音识别的会议系统的示意图;
图8是根据本申请实施例的一种数据通信系统的结构图;
图9示出了一种用于实现语音信息处理方法的计算设备(或移动设备)的硬件结构框图;
图10是根据本申请实施例的一种语音信息处理方法的流程图;
图11是根据本申请实施例的一种语音信息处理装置的结构图;
图12是根据本申请实施例的一种计算设备的结构框图;
图13a是根据本申请实施例的另一种语音信息处理方法的流程图;
图13b是根据本申请实施例的一种人机交互界面控制麦克风阵列的原理示意图;
图14是根据本申请实施例的另一种语音信息处理方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
远程会议系统:类似视频会议,电话会议等结合通信的系统。
语音识别系统:将语音转成文字的系统。
实施例1
图1是根据本申请实施例的一种会议系统的结构图,如图1所示,该系统包括:
第一麦克风阵列10,连接至会议系统中的语音输入端,用于采集目标对象的语音信息,并将语音信息传输至会议系统进行处理。
可选地,会议系统包括但不限于语音播放电路,第一麦克风阵列与语音播放电路连接。该语音播放电路可以设置于会议系统中的远端设备或本地设备,该远端设备为会议系统中参会人员侧的设备。
第二麦克风阵列12,连接至语音识别系统中的语音输入端,用于采集目标对象的语音信息,并将语音信息传输至语音识别系统进行语音识别。
根据本申请的一个可选的实施例,上述目标对象是指参加会议的参会人员。
麦克风阵列,指的是麦克风的排列,由一定数目的声学传感器(一般指麦克风)组成,用来对声场的空间特性进行采样并处理的系统。需要说明的是,在实际应用时,根据需要具体设置麦克风的数量,因此上述第一麦克风阵列10和第二麦克风阵列12也可以使用单个麦克风替代。
图2是根据本申请实施例的一种带语音识别的会议系统的示意图,如图2所示,麦克风阵列1和麦克风阵列2分别采集参加会议的用户的音频数据,麦克风阵列1将采集的音频数据传输至会议系统,利用会议系统信号处理算法对音频数据进行处理,然后通过语音传输系统播放语音;麦克风阵列2将采集的音频数据传输至语音识别系统,利用语音识别系统信号处理算法对音频数据进行处理,然后通过语音识别系统将采集的音频数据转换成会议文字作为会议记录。
会议系统和语音识别系统采用不同的前端信号算法处理(例如,降噪算法、回声消除算法和自动增益算法),极大的降低了信号处理算法的要求,实现了可以用传统的算法在很小的改动下既能获得适合人耳的声音,又能使语音识别系统准确识别声音的技术效果。其中,对于语音识别系统中的算法还可以包括唤醒算法。
图3是根据本申请实施例的另一种会议系统的结构图,如图3所示,该系统还包括:
壳体14,第一麦克风阵列10和第二麦克风阵列12在壳体14的同一区域设置。第一麦克风阵列10和第二麦克风阵列12设置在会议系统的壳体14的同一区域是为了保证第一麦克风阵列10和第二麦克风阵列12采集的音频信息一致,如图2所示,麦克风阵列设置在壳体14上的语音输入口140处。
在本申请的一些可选的实施例中,第一麦克风阵列10和第二麦克风阵列12中的麦克风以相同间隔或不同间隔的方式间隔设置;图4是根据本申请实施例的另一种会议系统的结构图,如图4所示,该系统还包括:切换开关16,与第一麦克风阵列10和第二麦克风阵列12连接,在切换开关16在第一位置时,导通第一麦克风阵列10中麦克风与会议系统之间的通路;在切换开关16在第二位置时,导通第二麦克风阵列12中麦克风与语音识别系统之间的通路。
在本申请的一个可选的实施例,第一麦克风阵列10和第二麦克风阵列12中分别包含多个麦克风,并且多个麦克风以预设间隔距离排列,该预设间隔距离可以相等,也可以不相等。第一麦克风阵列10和第二麦克风阵列12可以同时工作,将采集语音信息分别发送至会议系统和语音识别系统进行处理,也可以在切换开关16的控制下,将采集的语音信息依次交替地发送至会议系统和语音识别系统进行处理。
以上语音识别系统和会议系统可以是跑在一套硬件上,也可以是运行在两套硬件上。所谓的系统概况可以是硬件的系统,也可以是软件系统。例如可以是一个CPU上面跑一套会议软件,同时也跑另一套语音识别软件。
在本申请的一些实施例中,第一麦克风阵列和第二麦克风阵列中的麦克风以相同间隔或不同间隔的方式间隔设置;图5是根据本申请实施例的另一种会议系统的结构图,如图5所示,该系统包括:第一开关18,与第一麦克风阵列10连接,在第一开关18闭合时,导通第一麦克风阵列10与会议系统之间的通路;第二开关110,与第二麦克风阵列12连接,在第二开关110闭合时,导通第二麦克风阵列18与语音识别系统之间的通路。
在本申请的一个可选的实施例,第一麦克风阵列10和第二麦克风阵列12中分别包含多个麦克风,并且多个麦克风以预设间隔距离排列,该预设间隔距离可以相等,也可以不相等。第一麦克风阵列10在与其连接的第一开关18的控制下与会议系统导通,将采集参会人员的语音信息发送至会议系统进行处理。第二麦克风阵列12在与其连接的第二开关110的控制下与语音识别系统导通,将采集参会人员的语音信息发送至语音识别系统进行处理。
在本申请的一个可选的实施例中,第二麦克风阵列12中的麦克风数量大于第一麦克风阵列10中的麦克风数量。
考虑到现阶段语音识别系统的机器模型对于声音的容错率和敏感度远不及人耳,在具体实施时,在第二麦克风阵列12中设置的麦克风的数量相应地多于在第一麦克风阵列10中设置的麦克风的数量,可以提高语音识别系统识别语音的精度。
在本申请的一些可选的实施例中,第一麦克风阵列10和第二麦克风阵列10为同一组麦克风阵列;图6是根据本申请实施例的另一种会议系统的结构图,如图6所示,该会议系统还包括:处理器112,其一端与会议系统的第一麦克风阵列10和第二麦克风阵列12组成的目标麦克风阵列连接,另一端分别与会议系统的语音输入端和语音识别系统的语音输入端连接,用于对目标麦克风阵列采集的语音信息进行复制,得到两路语音信息,并将两路语音信息分别发送至会议系统和语音识别系统。
图7是根据本申请实施例的一种带语音识别的会议系统的示意图,如图7所示,该会议系统采用一个麦克风阵列采集参加会议的用户的音频数据,然后将采集的语音信息复制成两份,分别发送至会议系统和语音识别系统处理,具体处理方法参见图2所示实施例的相关描述。这种方式的和图2所示实施例的处理方式的差别是,图2所示实施例中的语音识别系统可以采用和会议系统完全形态不同的麦克风阵列形式。
上述方案,通过两组麦克风或者麦克风阵列分别采集语音信息,并发送至不同的前端信号处理算法进行处理;或者通过一组麦克风阵列采集语音信息后,将采集的语音信息复制成两份,分别发送至不同的前端信号处理算法进行处理。通过两套信号处理算法分别按不同的需要来对采集的语音信号进行处理。需要说明的是,两套信号处理算法可以是并行工作,也可以是串行工作。
实施例2
图8是根据本申请实施例的一种数据通信系统的结构图,如图8所示,该系统包括:麦克风阵列80、处理器82、会议系统84和语音识别系统86;
麦克风阵列80,连接至处理器82,用于采集目标对象的语音信息,并将语音信息发送至处理器82;目标对象是指参加会议的参会人员。
处理器82,连接至语音识别系统86中的语音输入端和会议系统84中的语音输入端,用于对语音信息进行复制处理,得到两路语音信息;将两路语音信息分别传输至会议系统84和语音识别系统86。
需要说明的是,图8所示实施例的优选实施方式可以参见图6至图7所示实施例的相关描述。
实施例3
根据本申请实施例,还提供了一种语音信息处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算设备或者类似的运算装置中执行。图9示出了一种用于实现语音信息处理方法的计算设备(或移动设备)的硬件结构框图。如图9所示,计算设备90(或移动设备90)可以包括一个或多个(图中采用902a、902b,……,902n来示出)处理器902(处理器902可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器904、以及用于通信功能的传输模块906。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备90还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。
应当注意到的是上述一个或多个处理器902和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备90(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器904可用于存储应用软件的软件程序以及模块,如本申请实施例中的语音信息处理方法对应的程序指令/数据存储装置,处理器902通过运行存储在存储器904内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的语音信息处理方法。存储器904可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器904可进一步包括相对于处理器902远程设置的存储器,这些远程存储器可以通过网络连接至计算设备90。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备90的通信供应商提供的无线网络。在一个实例中,传输模块906包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块906可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备90(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图10所示的语音信息处理方法。图10是根据本申请实施例3的语音信息处理方法的流程图,如图10所示,该方法包括以下步骤:
步骤S1002,采集目标对象的语音信息。
根据本申请的一个可选的实施例,步骤S1002中的目标对象是指参会人员。
步骤S1004,将语音信息划分为两路语音信息。
步骤S1006,将两路语音信息分别传输至会议系统和语音识别系统。
根据本申请的一个可选的实施例,步骤S1002可以通过以下方法实现:通过第一麦克风阵列和第二麦克风阵列分别采集目标对象的语音信息。
麦克风阵列,指的是麦克风的排列,由一定数目的声学传感器(一般指麦克风)组成,用来对声场的空间特性进行采样并处理的系统。需要说明的是,在实际应用时,根据需要具体设置麦克风的数量,因此上述第一麦克风阵列和第二麦克风阵列也可以使用单个麦克风替代。
在本申请的一些可选的实施例中,第一麦克风阵列和第二麦克风阵列中的麦克风以相同间隔或不同间隔的方式间隔设置。
步骤S1004可以通过以下方式完成:将语音信息划分为两路语音信息,包括:将通过第一麦克风阵列和第二麦克风阵列分别采集到的语音信息确定为两路语音信息。
将第一麦克风阵列和第二麦克风阵列采集的语音信息分别发送至会议系统和语音识别系统进行处理,语音识别系统和会议系统可以是运行在一套硬件上,也可以是运行在两套硬件上。所谓的系统概况可以是硬件的系统,也可以是软件系统。例如可以是一个CPU上面运行一套会议软件,同时也运行另一套语音识别软件。
在本申请的一些可选的实施例中,步骤S1004还可以通过以下方式完成:对语音信息进行复制处理,得到两路语音信息。
在本申请另一个可选的实施例中,可以采用一组麦克风阵列采集语音信息,然后将采集的语音信息复制成两份,分别交给会议系统和语音识别系统处理。这种方式的和上述方案的差别是,上述方案里语音识别系统可以用和会议系统完全形态不同的阵列形式。
通过上述方法,采用两组麦克风阵列分别采集语音,并分别传输至会议系统和语音识别系统采用不同的前端信号算法处理,极大的降低了信号处理算法的要求,实现了可以用传统的算法在很小的改动下既能获得适合人耳的声音,又能使语音识别系统准确识别声音的技术效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的语音信息处理方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例4
根据本申请实施例,还提供了一种用于实施上述语音信息处理方法的装置,图11是根据本申请实施例的一种语音信息处理装置的结构图,如图11所示,该装置包括:
采集模块1100,用于采集目标对象的语音信息。目标对象指参加会议的参会人员。
可选地,采集模块1100用于通过第一麦克风阵列和第二麦克风阵列分别采集目标对象的语音信息。
划分模块1102,用于将语音信息划分为两路语音信息;
根据本申请的一个可选的实施例,划分模块1102还用于将通过第一麦克风阵列和第二麦克风阵列分别采集到的语音信息确定为两路语音信息。
可选地,划分模块1102还用于对语音信息进行复制处理,得到两路语音信息。
传输模块1104,用于将两路语音信息分别传输至会议系统和语音识别系统。
此处需要说明的是,上述采集模块1100、划分模块1102和传输模块1104对应于实施例3中的步骤S1002至步骤S1006,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例3提供的计算设备90中。
实施例5
本申请实施例还提供了一种语音信息处理方法,如图13a所示,该方法包括:
步骤S130,展示人机交互界面;
步骤S132,接收目标对象对人机交互界面上的开关控件的触发指令;
在本申请的一些实施例中,上述开关控件可以为一个控件,即第一麦克风阵列和第二麦克风阵列使用同一控件进行控制,例如,长按后再点击控件控制第一麦克风阵列;短按后再点击控件控制第二麦克风阵列。当然,为了控制方便,也可以为每个麦克风阵列分别设置一个控件。
步骤S134,确定触发指令的类型;
该类型包括但不限于:控制第一麦克风阵列开启或关闭的指令类型;控制第二麦克风阵列开启或关闭的指令类型,或者控制第一麦克风阵列和第二麦克风阵列同时开启或关闭;
步骤S136,依据类型控制会议系统中第一麦克风阵列和第二麦克风阵列中的至少之一的开启或关闭,其中,第一麦克风阵列用于采集目标对象的语音信息,并将语音信息传输至语音播放电路进行播放;第二麦克风阵列用于采集目标对象的语音信息,将语音信息传输至语音识别系统进行语音识别。
例如,长按控件后再点击控件控制第一麦克风阵列开启,再次检测到相同的操作后(即长按后再点击控件),控制第一麦克风阵列关闭;短按后再点击控件控制第二麦克风阵列开启,再次检测到相同的操作后(即短按后再点击控件),控制第二麦克风阵列关闭;连续点击多次控件控制第一麦克风阵列和第二麦克风阵列开启,并在再次检测到相同操作(连续点击多次控件)时,控制第一麦克风阵列和第二麦克风阵列关闭。
如图13b所示,终端设备1具有一个人机交互界面11,该人机交互界面上设置有控件13,在控件13被触发时控制第一麦克风阵列10和第二麦克风阵列12的开启或关闭。其中,终端设备1和第一、二麦克风阵列所在的设备为同一设备或者为不同的设备。终端设备1包括但不限于:视频会议终端。
需要说明的是,本申请实施例中的优选实施方式可以参见实施例1-4中的相关描述,此处不再赘述。
实施例6
本申请实施例还提供了一种语音信息处理方法,如图14所示,包括:
步骤S142,接收第一语音信息;
其中,该第一语音信息包括但不限于:接收语音采集设备上传的语音信息,即第一语音信息的来源为上传的语音信息。
步骤S144,对语音信息进行复制,得到第二语音信息;
例如,服务器接收会议系统中的语音采集设备上传的第一语音信息;服务器对第一语音信息进行复制,得到第二语音信息。
步骤S146,将第一语音信息和第二语音信息中的其中之一输入语音识别系统中进行语音识别,并将第一语音信息和第二语音信息中的另一语音信息传输至语音播放电路进行播放。
其中,语音播放电路为会议系统中的语音播放电路,其可以设置于视频会议终端中。
需要说明的是,本申请实施例中的优选实施方式可以参见实施例1-4中的相关描述,此处不再赘述。
实施例5
本申请的实施例可以提供一种计算设备,该计算设备可以是计算设备群中的任意一个计算设备。可选地,在本实施例中,上述计算设备也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算设备可以执行应用程序的语音信息处理方法中以下步骤的程序代码:采集目标对象的语音信息;将语音信息划分为两路语音信息;以及将两路语音信息分别传输至会议系统和语音识别系统。
可选地,图12是根据本申请实施例的一种计算设备的结构框图。如图12所示,该计算设备120可以包括:一个或多个(图中仅示出一个)处理器1202、存储器1204、以及存储控制器,射频模块。音频模块以及显示屏。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的语音信息处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语音信息处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备120。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:采集目标对象的语音信息;将语音信息划分为两路语音信息;以及将两路语音信息分别传输至会议系统和语音识别系统。
可选的,上述处理器还可以执行如下步骤的程序代码:通过第一麦克风阵列和第二麦克风阵列分别采集目标对象的语音信息;将通过第一麦克风阵列和第二麦克风阵列分别采集到的语音信息确定为两路语音信息。
可选的,上述处理器还可以执行如下步骤的程序代码:对语音信息进行复制处理,得到两路语音信息。
采用本申请实施例,提供了一种语音信息处理的方案。通过采用两组麦克风阵列分别采集语音,并分别传输至会议系统和语音识别系统采用不同的前端信号算法处理,从而达到了极大的降低了信号处理算法的要求,可以用传统的算法在很小的改动下既能获得适合人耳的声音,又能使语音识别系统准确识别声音的的目的,进而解决了现有的会议系统缺少既能够获得适合人耳的声音,又能让语音识别系统准确识别声音的算法的技术问题。
本领域普通技术人员可以理解,图12所示的结构仅为示意,计算设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如,计算设备120还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图12所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的信息处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算设备群中的任意一个计算设备中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:采集目标对象的语音信息;将语音信息划分为两路语音信息;以及将两路语音信息分别传输至会议系统和语音识别系统。
可选地,存储介质被设置为存储用于执行以下步骤的程序代码:通过第一麦克风阵列和第二麦克风阵列分别采集目标对象的语音信息;将通过第一麦克风阵列和第二麦克风阵列分别采集到的语音信息确定为两路语音信息。
可选的,上述处理器还可以执行如下步骤的程序代码:对语音信息进行复制处理,得到两路语音信息。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (12)
1.一种会议系统,其特征在于,包括:
第一麦克风阵列,连接至会议系统中的语音输入端,用于采集目标对象的语音信息,并将所述语音信息传输至所述会议系统进行处理;
第二麦克风阵列,连接至语音识别系统中的语音输入端,用于采集所述目标对象的语音信息,并将所述语音信息传输至所述语音识别系统进行语音识别。
2.根据权利要求1所述的会议系统,其特征在于,所述会议系统包括壳体,所述第一麦克风阵列和第二麦克风阵列在所述壳体的同一区域设置。
3.根据权利要求2所述的会议系统,其特征在于,所述第一麦克风阵列和第二麦克风阵列中的麦克风以相同间隔或不同间隔的方式间隔设置;所述会议系统还包括:
切换开关,与所述第一麦克风阵列和第二麦克风阵列连接,在所述切换开关在第一位置时,导通所述第一麦克风阵列中麦克风与所述会议系统之间的通路;在所述切换开关在第二位置时,导通所述第二麦克风阵列中麦克风与所述语音识别系统之间的通路。
4.根据权利要求2所述的会议系统,其特征在于,所述第一麦克风阵列和第二麦克风阵列中的麦克风以相同间隔或不同间隔的方式间隔设置;所述会议系统还包括:
第一开关,与所述第一麦克风阵列连接,在所述第一开关闭合时,导通所述第一麦克风阵列与所述会议系统之间的通路;
第二开关,与所述第二麦克风阵列连接,在所述第二开关闭合时,导通所述第二麦克风阵列与所述语音识别系统之间的通路。
5.根据权利要求1所述的会议系统,其特征在于,所述第二麦克风阵列中的麦克风数量大于所述第一麦克风阵列中的麦克风数量。
6.根据权利要求1至5中任意一项所述的会议系统,其特征在于,所述第一麦克风阵列和第二麦克风阵列为同一组麦克风阵列;所述会议系统还包括:
处理器,其一端与所述会议系统的第一麦克风阵列和第二麦克风阵列组成的目标麦克风阵列连接,另一端分别与所述会议系统的语音输入端和语音识别系统的语音输入端连接,用于对所述目标麦克风阵列采集的语音信息进行复制,得到两路语音信息,并将所述两路语音信息分别发送至所述会议系统和语音识别系统。
7.一种数据通信系统,其特征在于,包括:麦克风阵列、处理器、会议系统和语音识别系统;
所述麦克风阵列,连接至处理器,用于采集目标对象的语音信息,并将所述语音信息发送至所述处理器;
所述处理器,连接至所述语音识别系统中的语音输入端和所述会议系统中的语音输入端,用于对所述语音信息进行复制处理,得到两路语音信息;将所述两路语音信息分别传输至所述会议系统和语音识别系统。
8.一种语音信息处理方法,其特征在于,包括:
采集目标对象的语音信息;
将所述语音信息划分为两路语音信息;以及
将所述两路语音信息分别传输至会议系统和语音识别系统。
9.根据权利要求8所述的方法,其特征在于,
采集目标对象的语音信息,包括:通过第一麦克风阵列和第二麦克风阵列分别采集所述目标对象的语音信息;
将所述语音信息划分为两路语音信息,包括:将通过第一麦克风阵列和第二麦克风阵列分别采集到的语音信息确定为所述两路语音信息。
10.根据权利要求8所述的方法,其特征在于,将所述语音信息划分为两路语音信息,包括:
对所述语音信息进行复制处理,得到所述两路语音信息。
11.一种语音信息处理方法,其特征在于,包括:
展示人机交互界面;
接收目标对象对所述人机交互界面上的开关控件的触发指令;
确定所述触发指令的类型;
依据所述类型控制会议系统中第一麦克风阵列和第二麦克风阵列中的至少之一的开启或关闭,其中,所述第一麦克风阵列用于采集所述目标对象的语音信息,并将所述语音信息传输至语音播放电路进行播放;所述第二麦克风阵列用于采集所述目标对象的语音信息,将所述语音信息传输至所述语音识别系统进行语音识别。
12.一种语音信息处理方法,其特征在于,包括:
接收第一语音信息;
对所述语音信息进行复制,得到第二语音信息;
将所述第一语音信息和所述第二语音信息中的其中之一输入语音识别系统中进行语音识别,并将所述第一语音信息和所述第二语音信息中的另一语音信息传输至语音播放电路进行播放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911166388.1A CN112837689A (zh) | 2019-11-25 | 2019-11-25 | 会议系统、数据通信系统及语音信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911166388.1A CN112837689A (zh) | 2019-11-25 | 2019-11-25 | 会议系统、数据通信系统及语音信息处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112837689A true CN112837689A (zh) | 2021-05-25 |
Family
ID=75922230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911166388.1A Pending CN112837689A (zh) | 2019-11-25 | 2019-11-25 | 会议系统、数据通信系统及语音信息处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112837689A (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07104782A (ja) * | 1993-10-04 | 1995-04-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識装置 |
CN101083809A (zh) * | 2006-06-01 | 2007-12-05 | 三星电子株式会社 | 使用语音识别来改变操作模式的移动终端及方法 |
CN101582951A (zh) * | 2008-05-14 | 2009-11-18 | 北京帮助在线信息技术有限公司 | 一种运用语音识别技术的会议记录的实现方法和设备 |
JP2010178295A (ja) * | 2009-02-02 | 2010-08-12 | Oki Electric Ind Co Ltd | 雑音抑制装置、音声捕捉装置及び会議システム |
CN102769735A (zh) * | 2011-05-03 | 2012-11-07 | 英业达股份有限公司 | 多媒体会议系统与其服务方法 |
CN104123937A (zh) * | 2013-04-28 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 提醒设置方法、装置和系统 |
US9153231B1 (en) * | 2013-03-15 | 2015-10-06 | Amazon Technologies, Inc. | Adaptive neural network speech recognition models |
CN106898353A (zh) * | 2017-03-23 | 2017-06-27 | 东华理工大学 | 一种智能家居语音控制系统及其语音识别方法 |
CN107978312A (zh) * | 2016-10-24 | 2018-05-01 | 阿里巴巴集团控股有限公司 | 一种语音识别的方法、装置及系统 |
WO2018121747A1 (zh) * | 2016-12-31 | 2018-07-05 | 深圳市优必选科技有限公司 | 语音控制方法和装置 |
CN207718620U (zh) * | 2017-12-26 | 2018-08-10 | 深圳市腾辉炫星电子科技有限公司 | 一种智能语音识别遥控器 |
CN208367199U (zh) * | 2018-07-11 | 2019-01-11 | 苏州宏云智能科技有限公司 | 分离式麦克风阵列 |
KR101970753B1 (ko) * | 2019-02-19 | 2019-04-22 | 주식회사 소리자바 | 음성인식을 이용한 회의록 작성 시스템 |
CN110049270A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 多人会议语音转写方法、装置、系统、设备及存储介质 |
CN110178178A (zh) * | 2016-09-14 | 2019-08-27 | 纽昂斯通讯有限公司 | 具有环境自动语音识别(asr)的麦克风选择和多个讲话者分割 |
CN209514591U (zh) * | 2018-10-24 | 2019-10-18 | 科大讯飞股份有限公司 | 一种会议终端设备 |
-
2019
- 2019-11-25 CN CN201911166388.1A patent/CN112837689A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07104782A (ja) * | 1993-10-04 | 1995-04-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識装置 |
CN101083809A (zh) * | 2006-06-01 | 2007-12-05 | 三星电子株式会社 | 使用语音识别来改变操作模式的移动终端及方法 |
CN101582951A (zh) * | 2008-05-14 | 2009-11-18 | 北京帮助在线信息技术有限公司 | 一种运用语音识别技术的会议记录的实现方法和设备 |
JP2010178295A (ja) * | 2009-02-02 | 2010-08-12 | Oki Electric Ind Co Ltd | 雑音抑制装置、音声捕捉装置及び会議システム |
CN102769735A (zh) * | 2011-05-03 | 2012-11-07 | 英业达股份有限公司 | 多媒体会议系统与其服务方法 |
US9153231B1 (en) * | 2013-03-15 | 2015-10-06 | Amazon Technologies, Inc. | Adaptive neural network speech recognition models |
CN104123937A (zh) * | 2013-04-28 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 提醒设置方法、装置和系统 |
CN110178178A (zh) * | 2016-09-14 | 2019-08-27 | 纽昂斯通讯有限公司 | 具有环境自动语音识别(asr)的麦克风选择和多个讲话者分割 |
CN107978312A (zh) * | 2016-10-24 | 2018-05-01 | 阿里巴巴集团控股有限公司 | 一种语音识别的方法、装置及系统 |
WO2018121747A1 (zh) * | 2016-12-31 | 2018-07-05 | 深圳市优必选科技有限公司 | 语音控制方法和装置 |
CN106898353A (zh) * | 2017-03-23 | 2017-06-27 | 东华理工大学 | 一种智能家居语音控制系统及其语音识别方法 |
CN207718620U (zh) * | 2017-12-26 | 2018-08-10 | 深圳市腾辉炫星电子科技有限公司 | 一种智能语音识别遥控器 |
CN208367199U (zh) * | 2018-07-11 | 2019-01-11 | 苏州宏云智能科技有限公司 | 分离式麦克风阵列 |
CN209514591U (zh) * | 2018-10-24 | 2019-10-18 | 科大讯飞股份有限公司 | 一种会议终端设备 |
KR101970753B1 (ko) * | 2019-02-19 | 2019-04-22 | 주식회사 소리자바 | 음성인식을 이용한 회의록 작성 시스템 |
CN110049270A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 多人会议语音转写方法、装置、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103973544B (zh) | 语音通话方法、语音播放方法及装置 | |
CN105162728B (zh) | 网络接入方法、设备及系统 | |
CN105159578A (zh) | 视频显示模式的切换方法和装置 | |
CN104598130A (zh) | 模式切换方法、终端、可穿戴设备及装置 | |
CN105703932B (zh) | 日志记录上传方法、日志记录接收方法、终端及服务器 | |
CN101715102A (zh) | 在点对点和多点音频/视频会议期间显示动态呼叫者身份 | |
CN104834435A (zh) | 音频评论的播放方法和装置 | |
CN105808469B (zh) | 数据处理方法、装置、终端及智能设备 | |
CN105611055A (zh) | 通话方法及装置 | |
CN107396036A (zh) | 视频会议中视频处理方法及终端 | |
CN105376515A (zh) | 用于视频通讯的通讯信息的呈现方法、装置及系统 | |
WO2022135005A1 (zh) | 一种基于通话的屏幕共享方法、装置、设备及存储介质 | |
CN106162211A (zh) | 基于直播应用进行直播的方法及装置 | |
CN105635266A (zh) | 用于上报数据的方法、装置及终端 | |
CN106713127A (zh) | 即时聊天记录的获取及处理方法和装置 | |
CN109379490A (zh) | 音频播放方法、装置、电子设备及计算机可读介质 | |
CN104954361A (zh) | 联系人验证方法、装置及系统 | |
CN108076300B (zh) | 录像处理方法、录像处理装置及移动终端 | |
CN203340289U (zh) | 语音通信终端及语音通信系统 | |
CN106888327A (zh) | 语音播放方法及装置 | |
CN110381215B (zh) | 音频分流方法、装置、存储介质及计算机设备 | |
US10848530B2 (en) | Conference system and method for interworking between audio conference and web conference | |
CN108124114A (zh) | 一种音视频会议声音采集方法和装置 | |
CN107070707A (zh) | 路由器初始化模式的确定方法和装置 | |
CN112837689A (zh) | 会议系统、数据通信系统及语音信息处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |