CN110738995B - 一种声音信号采集方法及装置 - Google Patents
一种声音信号采集方法及装置 Download PDFInfo
- Publication number
- CN110738995B CN110738995B CN201910965393.2A CN201910965393A CN110738995B CN 110738995 B CN110738995 B CN 110738995B CN 201910965393 A CN201910965393 A CN 201910965393A CN 110738995 B CN110738995 B CN 110738995B
- Authority
- CN
- China
- Prior art keywords
- speaker
- sound signal
- sound
- signal
- preset threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 249
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 6
- 206010063385 Intellectualisation Diseases 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
公开了一种声音信号采集方法、装置、计算机可读存储介质及电子设备,该方法包括:通过至少一个声音采集设备采集第一声音信号;对所述第一声音信号进行说话人识别,得到至少两个说话人;基于所述第一声音信号,从所述至少两个说话人中确定第一说话人和第二说话人,所述第一说话人和第二说话人处于对话状态;通过距离所述第一说话人位置最近的声音采集设备采集第二说话人的第二声音信号;当所述第二声音信号满足预设条件时,通过距离所述第二说话人位置最近的声音采集设备采集第二说话人的第三声音信号。通过将本公开的技术方案,可提高声音信号采集的灵活性,确保采集到的声音信号可满足对话双方之间的对话需求,实现声音信号采集的智能化。
Description
技术领域
本申请涉及人工智能及信号处理技术领域,且更具体地,涉及一种声音信号采集方法及装置。
背景技术
目前乘车空间的增大,不仅增加了乘客人数,提高了乘客乘车时的舒适性,而且日益先进的车载语音系统为乘客提供了丰富的有声收听资源。但是,车内乘客在进行对话时,考虑到车内环境的变化可能会出现听不清、听错及听漏的现象。因此,通常需要采集说话人的声音信号。
目前的声音信号采集方法,主要通过车内的麦克风实时采集车内的说话人的声音信号。
但是,上述声音信号采集方法的灵活性较差。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种声音信号采集方法、装置、计算机可读存储可读介质及电子设备,可提高声音信号采集的灵活性,确保采集到的声音信号可满足对话双方之间的对话需求,实现声音信号采集的智能化。
根据本申请的一个方面,提供了一种声音信号采集方法,包括:
通过至少一个声音采集设备采集第一声音信号;
对所述第一声音信号进行说话人识别,得到至少两个说话人;
基于所述第一声音信号,从所述至少两个说话人中确定第一说话人和第二说话人,所述第一说话人和第二说话人处于对话状态;
通过距离所述第一说话人位置最近的声音采集设备采集第二说话人的第二声音信号;
当所述第二声音信号满足预设条件时,通过距离所述第二说话人位置最近的声音采集设备采集第二说话人的第三声音信号。
根据本申请的第二方面,提供了一种声音信号采集装置,包括:
第一获取模块,用于通过至少一个声音采集设备采集第一声音信号;
识别模块,用于对所述第一声音信号进行说话人识别,得到至少两个说话人;
对话人确定模块,用于基于所述第一声音信号,从所述至少两个说话人中确定第一说话人和第二说话人,所述第一说话人和第二说话人处于对话状态;
第一采集模块,用于通过距离所述第一说话人位置最近的声音采集设备采集第二说话人的第二声音信号;
第二采集模块,用于当所述第二声音信号满足预设条件时,通过距离所述第二说话人位置最近的声音采集设备采集第二说话人的第三声音信号。
根据本申请的第三方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述的声音信号采集方法。
根据本申请的第四方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的声音信号采集方法。
与现有技术相比,本申请提供的声音信号采集方法、装置、计算机可读存储介质及电子设备,至少包括以下有益效果:
本实施例通过确定正在对话的两个说话人,判断距离一方说话人最近的声音采集设备采集的另一方说话人的声音信号是否满足预设条件,从而确定正在对话的两个说话人之间的对话情况,当对话不顺利时,为了将一方说话人的说话内容传达给另一方说话人,通过距离说话人最近的声音采集设备采集该说话人的声音信号。综上,通过本实施例的技术方案,可提高声音信号采集的灵活性,实现声音信号采集的智能化,确保采集到的声音信号可满足对话双方之间的对话需求,进而提高对话双方在对话不顺利时的沟通效率。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本申请一个或多个实施例适用的一种应用场景的示意图。
图2是本申请一示例性实施例提供的声音信号采集方法的流程示意图。
图3是本申请另一个示例性实施例提供的声音信号采集方法的流程示意图。
图4是本申请又一个示例性实施例提供的声音信号采集方法的流程示意图。
图5是本申请再一个示例性实施例提供的声音信号采集方法的流程示意图。
图6是本申请一示例性实施例提供的声音信号采集装置的结构示意图。
图7是本申请另一个示例性实施例提供的声音信号采集装置的结构示意图。
图8是本申请又一个示例性实施例提供的声音信号采集装置的结构示意图。
图9是本申请一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
乘车空间的增大,不仅增加了乘客人数,提高了乘客乘车时的舒适性,而且日益先进的车载语音系统为乘客提供了丰富的有声收听资源。但是,车内乘客在进行对话时,考虑到车内环境的变化可能会出现听不清、听错及听漏的现象。因此,通常需要采集说话人的声音信号,从而将一方说话人的说话内容传达给另一方说话人。
目前的声音信号采集方法,主要通过车内的麦克风实时采集车内的说话人的声音信号。
但是,上述声音采集设备的数量通常是多个,通过多个声音采集设备一起采集说话人的声音信号,没有对声音采集设备的灵活控制,同时如果两个说话人之间的对话顺利,则无需采集说话人的声音信号,综上,上述声音信号采集方法的灵活性较差。
本公开通过对声音信号进行说话人识别,确定出若干个说话人,并确定若干个说话人中正在对话的两个说话人,通过判断距离一方说话人最近的声音采集设备采集的另一方说话人的声音信号是否满足预设条件,从而确定正在对话的两个说话人之间的对话情况,即确定出一方说话人能否听清楚另一方说话人的说话内容,若不能,为了确保对话双方之间的对话顺利,通常需要利用距离说话人最近的声音采集设备采集该说话人的声音信号,从而提高声音信号采集的灵活性,实现声音信号采集的智能化,同时确保采集的声音信号能够满足对话需求,将一方说话人的声音信号对应的说话内容传达给另一方说话人,从而确保正在对话的两个说话人之间的沟通效率。
在介绍本申请的基本构思之后,下面将结合附图来具体介绍本申请所述提供技术方案的各种非限制性实施例。
示例性方法
图2是本申请一示例性实施例提供的声音信号采集方法的流程示意图。
本实施例可应用在电子设备上,具体可以应用在服务器或一般计算机上。如图2所示,本申请一示例性实施例提供的声音信号采集方法至少包括如下步骤:
步骤201,通过至少一个声音采集设备采集第一声音信号。
说话人说话产生的声波传播到若干个声音采集设备,从而使得若干个声音采集设备能够采集说话人的声波信号,在这里,说话人的声波信号即为第一声音信号。声音采集设备具体指的是能够采集说话人的声波信号的输入设备,具体地,声音采集设备可以是麦克风。
需要说明的是,第一声音信号的开始时间点和结束时间点之间的时间差满足预设时段。举例来说,声音采集设备为麦克风,麦克风实时采集说话人的声波信号,对于ti时刻,将ti时刻之前预设时段内的说话人的声波信号确定为第一声音信号,比如,预设时段为tn,则第一声音信号包括说话人在(ti- tn)时刻到ti时刻之间的时间段的声波信号,若干个麦克风采集第一声音信号。
步骤202,对所述第一声音信号进行说话人识别,得到至少两个说话人。
说话人识别具体指的是通过对说话人的声音信号的分析处理,自动确认说话人是否在所记录的说话人集合中,从而确认说话人是谁。考虑到发音器官和发音习惯的差异都以复杂的形式反映在说话人的声音信号中,使得每个说话人的声音信号都带有强烈的个人色彩,这是对说话人进行识别的客观保证。具体地,对声音信号进行预处理和特征提取,即提取能够表征说话人特征的参数,将声音信号中的语义信息平均化,挖掘出包含在声音信号中的说话人的个性因素,强调不同说话人之间的特征差异,然后,建立说话人模型并训练说话人模型的参数,测试声音信号与说话人模型的匹配关系,之后,即可将第一声音信号输入说话人模型中进行说话人识别,从而确定至少两个说话人。步骤203,基于所述第一声音信号,从所述至少两个说话人中确定第一说话人和第二说话人,所述第一说话人和第二说话人处于对话状态。
对话需求指示了正在对话的两个说话人中一方说话人要传达给另一方说话人的说话内容。因此,为了确定对话需求,通常需要确定正在对话的两个说话人。具体地,根据第一声音信号携带的时间信息,确定距离第一声音信号的结束时间点最近的第一历史说话人,确定与第一历史说话人在时间上相继的第二历史说话人,第二历史说话人的说话时间早于第一历史说话人的说话时间,之后,确定第一历史说话人的开始说话时间点和第二历史说话人的结束说话时间点之间的时间差值,当时间差值满足一定范围(比如0.3s-3s)时,可认为第一历史说话人和第二历史说话人处于对话状态。此时,可将第一历史说话人确定为第一说话人,第二历史说话人确定为第二说话人。第二说话人接收第一说话人的说话内容,并对第一说话人的说话内容进行答复,第一说话人接收到第二说话人的说话内容,对第二说话人的说话内容进行答复。
步骤204,通过距离所述第一说话人位置最近的声音采集设备采集第二说话人的第二声音信号。
考虑到对话双方之间的对话顺利时,无需声音采集设备采集声音信号,因此,通常需要确定出正在对话的两个说话人的对话情况,从而确定声音采集设备是否需要采集声音信号。考虑到第一说话人位置最近的声音采集设备能够间接的指示第一说话人的位置,因此,在一种可能的实现方式中,在通过若干个声音采集设备采集第一声音信号之后,当第二说话人说话时,通过距离第一说话人位置最近的声音采集设备采集第二说话人的第二声音信号,第二声音信号指示了第一说话人说完话后,第二说话人发出的声波信号,故第二声音信号能够更为准确的反映出第一说话人和第二说话人之间的对话情况,即反映出第一说话人能否听清第二说话人的说话内容。显而易见的,第二声音信号对应的开始时间点晚于第一声音信号的结束时间点,同时可指示第二说话人接收到第一说话人的说话内容后的发出的语音。
在另一种可能的实现方式中,考虑到第一声音信号包含若干个说话人的声波信号,即可通过距离第一说话人位置最近的声音采集设备采集第一声音信号中第二说话人的第二声音信号。
具体地,根据第一声音信号进行声源定位,确定第一说话人的位置,并确定第一说话人的位置距离每个声音采集设备的位置的距离值,利用最小距离值对应的声音采集设备采集第二说话人的第二声音信号。显而易见的,对第一声音信号进行说话人识别和声源定位可以同时进行。在这里,声音采集设备可以是麦克风,麦克风的数量为多个,多个麦克风按照一定拓扑结构组成以形成麦克风列阵,麦克风列列通过波束成形算法对不同方向上的声音信号形成不用的响应,使得麦克风阵列具有声源定位功能,从而获取第一说话人的位置,具体地,第一说话人的位置指示了第一说话人的坐标。步骤205,当所述第二声音信号满足预设条件时,通过距离所述第二说话人位置最近的声音采集设备采集第二说话人的第三声音信号。
第二声音信号满足预设条件则说明第一说话人和第二说话人之间存在沟通障碍,即第一说话人听不清或者听不到第二说话人的说话内容,相应的,第二说话人也可能听不清或者听不到第一说话人的说话内容。因此,当第二说话人说话时,第二说话人的说话内容即为对话需求,为了确保第一说话人能够接收到第二说话人的说话内容,需要获取第二说话人的声音信号,为了确保获取的第二说话人的声音信号的准确性及有效性,通过距离第二说话人位置最近的声音采集设备采集第二说话人的第三声音信号。
需要说明的是,第二说话人通常对应有多个说话时段,同时多个说话时段在时间上相继,每个说话时段指示了第二说话人开始说话时间点到结束说话时间点对应的时间段,在一种可能的实现方式中,确定当前时刻之前的预设时段内的第二说话人的若干个说话时段,通过距离第二说话人位置最近的声音采集设备采集第二说话人在若干个说话时段分别对应的声波信号,这些声波信号为第三声音信号,举例来说,预设时段为tm,当前时刻为tM,在确定第一说话人听不见或听不清第二说话人的说话内容的时候,确定(tM-tm) 时刻到tM时刻之间的时间段内的第二说话人的至少一个说话时段,通过距离第二说话人位置最近的声音采集设备采集第二说话人在至少一个说话时段对应的声波信号,这些声音声波信号为第三声音信号。在另一种可能的实现方式中,确定距离当前时刻最近的第二说话人的说话时段,说话时段的结束时间点可以是当前时刻,通过距离第二说话人位置最近的声音采集设备采集第二说话人在该说话时段的声波信号,该声波信号为第三声音信号。显而易见的,无论是对于第一说话人还是第二说话人,当需要距离其最近的声音采集设备采集其声波信号时,均可按照上述相似的方法采集需要传达给另一方说话人的声音信号,若当前时刻的说话人正在说话,则需要实时采集说话人的声波信号直到说话人说完话,从而确保对话双方之间的沟通效率。
在一种可能的实现方式中,在第一声音信号对应的结束时间点之后,当第二说话人开始说话时,通过距离第一说话人位置最近的声音采集设备采集第二说话人的第二声音信号,当第二声音信号满足预设条件时,通过距离第二说话人位置最近的声音采集设备采集第二说话人的第三声音信号,当第一说话人说话时,通过距离第一说话人位置最近的声音采集设备采集第一说话人的第五声音信号。
在另一种可能的实现方式中,在第一声音信号对应的结束时间点之后,当第二说话人开始说话时,通过距离第一说话人位置最近的声音采集设备采集第二说话人的第二声音信号,当第二声音信号满足预设条件时,通过距离第二说话人位置最近的声音采集设备采集第二说话人的第三声音信号。基于该实现方式相似的流程,在第一声音信号对应的结束时间点之后,当第一说话人开始说话时,通过判断距离第二说话人位置最近的声音采集设备采集的第一说话人的声音信号是否满足预设条件,从而确定是否需要采集第一说话人的声音信号,若需要,则通过距离第一说话人位置最近的声音采集设备采集第一说话人的第五声音信号。
在又一种可能的实现方式中,通过距离第一说话人位置最近的声音采集设备采集第二说话人在第一声音信号中的第二声音信号,当第二声音信号满足预设条件时,通过距离第二说话人位置最近的声音采集设备采集第二说话人在第一声音信号中的第三声音信号,以及通过距离第一说话人位置最近的声音采集设备采集第一说话人在第一声音信号中的第五声音信号。
在再一种可能的实现方式中,通过距离第一说话人位置最近的声音采集设备采集第二说话人在第一声音信号中的第二声音信号,当第二声音信号满足预设条件时,通过距离第二说话人位置最近的声音采集设备采集第二说话人在第一声音信号中的第三声音信号,同时,通过距离第二说话人位置最近的声音采集设备采集第一说话人在第一声音信号中的第六声音信号,当第六声音信号满足预设条件时,通过距离第一说话人位置最近的声音采集设备采集第一说话人在第一声音信号中的第五声音信号。第二声音信号满足预设条件的实现方式如下:
在第一种可能的实现方式中,第二声音信号满足预设条件包括根据第二声音信号计算得到的声音能量值不大于第一预设阈值。在这里,声音能量值不大于第一预设阈值时,无论是否存在噪音,也不管噪音对正在对话的两个说话人的影响,第一说话人均听不到或者听不清第二说话人的说话内容,即第一说话人和第二说话人之间的存在沟通障碍。
在第二种可能的实现方式中,第二声音信号满足预设条件包括根据第二声音信号计算得到的声音能量值大于第一预设阈值,且根据第二声音信号计算得到的信噪比不大于第二预设阈值。在这里,声音能量值大于第一预设阈值时,在噪音影响较小或者没有噪音的情况下,第一说话人可听到第二说话人的说话内容,当根据第二声音信号计算得到的信噪比不大于第二预设阈值,则说明噪音对第一说话人与第二说话人之间的对话产生了较大的影响,导致第一说话人和第二说话人之间的存在沟通障碍。
在第三种可能的实现方式中,第二声音信号满足预设条件包括对第二声音信号进行语音识别得到的说话文本中包括预设关键词。在这里,预设关键词具体指的是预设习惯性询问词语,比如“啊”、“什么”、“你说什么”、“我没听清”、“我没听懂”。当对第二声音信号进行语音识别得到的说话文本中包括预设关键词时,则说明第二说话人听不到或者听不清第一说话人的说话内容,相应的,第一说话人可能听不到或者听不清第二说话人的说话内容,即第一说话人和第二说话人之间的存在沟通障碍。
在第四种可能的实现方式中,第二声音信号满足预设条件包括根据第二声音信号计算得到的声音能量值不大于第一预设阈值,对第二声音信号进行语音识别得到的说话文本中包括预设关键词。
在第五种可能的实现方式中,第二声音信号满足预设条件包括根据第二声音信号计算得到的声音能量值大于第一预设阈值,且根据第二声音信号计算得到的信噪比不大于第二预设阈值,同时对第二声音信号进行语音识别得到的说话文本中包括预设关键词。
需要说明的是,当对话双方的两个说话人发生变化时,相应的,距离说话人位置最近的声音采集设备也会发生改变,从而可灵活的采集声音信号,同时确保采集的声音信号能够满足对话双方之间的对话需求。
本实施例提供的声音信号采集方法的有益效果至少在于:
本实施例通过确定正在对话的两个说话人,判断距离一方说话人最近的声音采集设备采集的另一方说话人的声音信号是否满足预设条件,从而确定正在对话的两个说话人之间的对话情况,当对话不顺利时,为了将一方说话人的说话内容传达给另一方说话人,通过距离说话人最近的声音采集设备采集该说话人的声音信号。综上,通过本实施例的技术方案,可提高声音信号采集的灵活性,实现声音信号采集的智能化,确保采集到的声音信号可满足对话双方之间的对话需求,进而提高对话双方在对话不顺利时的沟通效率。
图3是本申请另一个示例性实施例提供的声音信号采集方法的流程示意图。
如图3所示,在上述图1所示实施例的基础上,本申请另一示例性实施例提供的声音信号采集方法还包括如下步骤:
步骤301,获取所述第三声音信号对应的第四声音信号。
为了确保能够播放声音信号,通常需要将声波信号转化成数字信号,之后将数字信号转化为模拟信号,而第三声音信号是声波信号,因此,需要将第三声音信号转化为第四声音信号,第四声音信号是模拟信号。
具体地,通过声音采集设备将第三声音信号转化为数字信号,之后,通过音讯数字模拟转换器(audio digital-to-analog converter,简称audio DAC) 将数字信号转换为模拟信号,从而将第三声音信号转化为第四声音信号。
需要说明的是,当第三声音信号包含若干个时间上相继的说话时段对应的声波信号时,具体地,确定距离当前时刻最近的说话时段对应的声波信号,获取该声波信号对应的模拟信号。
步骤302,通过距离所述第一说话人位置最近的声音播放设备播放所述第四声音信号。
为了确保第一说话人能够更为准确的接收到第二说话人的说话内容,通过距离第一说话人位置最近的声音播放设备播放第四声音信号,从而确保第一说话人能够了解到第二说话人的说话内容。
需要说明的是,声音播放设备是能够播放声音的输出设备,通常指的是扬声器,在这里,第四声音信号通常需要通过音讯放大器(audio amplifier) 放大,从而驱动扬声器播放第四声音信号,使得第一说话人能够接收到第二说话人的说话内容。
本实施例通过将声波信号转化为模拟信号,利用距离说话人最近的声音播放设备播放模拟信号,从而将一方说话人的说话内容传达给另一方说话人,确保对话双方之间的沟通效率。
图4是本申请又一个示例性实施例提供的声音信号采集方法的流程示意图。
如图4所示,在上述图1所示实施例的基础上,本申请另一示例性实施例提供的声音信号采集方法还包括如下步骤:
步骤401,对所述第三声音信号进行语音识别,以获得所述第三声音信号对应的说话文本。
语音识别是以语音为研究对象,通过声音信号处理和模式识别让机器自动识别和理解人类口述的语言,尽可能将不同说话人的差异归一化,是让机器通过识别和理解过程把声音信号转变为相应的文本或者命令的高技术。
通过对第三声音信号进行语音识别,能够得到第三声音信号对应的说话文本,该说话文本是第二说话人的说话内容,第二说话人的说话内容是第一说话人需要了解的信息,即第二说话人的说话内容指示了对话需求。
需要说明的是,当第三声音信号包含若干个时间上相继的说话时段对应的声波信号时,具体地,可以识别各个说话时段对应的声波信号的说话文本,从而便于一方说话人能够更为准确的理解另一方说话人的说话内容,进而提高对话双方之间的沟通效率。
步骤402,根据显示设备显示所述第三声音信号对应的说话文本。
显示设备具体指的是能够提供符合视觉感受因素的视觉信息的设备。在这里,利用显示设备显示第三声音声音信号对应的说话文本,从而使得第一说话人能够了解到第二说话人的说话文本,从而确保第一说话人能够了解到第二说话人的说话内容,进而确保第一说话人和第二说话人之间的沟通效率。在这里,显示设备可以是中控屏幕或者第一说话人对应的屏幕。利用显示设备显示说话人的说话内容,可进一步确保对话双方之间的信息交互的准确性,当显示设备为中控屏幕时,方便其他人加入对话。
本实施例通过对说话人的声音信号进行识别从而获取说话人的说话内容,通过显示设备显示说话人的说话内容,确保对话双方之间的沟通效率,同时可进一步确保对话双方之间的信息交互的准确性,当显示设备为中控屏幕时,方便其他人加入对话。
图5是本申请再一个示例性实施例提供的声音信号采集方法的流程示意图。
如图5所示,在上述图1所示实施例的基础上,本申请再一个示例性实施例提供的声音信号采集方法至少包括如下步骤:
步骤501,获取所述第三声音信号对应的第四声音信号。
步骤502,通过距离所述第一说话人位置最近的声音播放设备播放所述第四声音信号。
步骤503,对所述第三声音信号进行语音识别,以获得所述第三声音信号对应的说话文本。
步骤504,根据显示设备显示所述第三声音信号对应的说话文本。
实现方式1,请参考图1,声音采集设备为麦克风,声音播放设备为扬声器,车内配置了四个麦克风及四个扬声器,四个麦克风不间断地采集汽车内的若干个说话人的声波信号,从而获取当前时刻之前的预设时段内的第一声音信号,车内的电子设备可对第一声音信号进行说话人识别,即可确定出四个说话人,之后,从这四个说话人中确定出正在对话的第一说话人和第二说话人,第三说话人和第四说话人在未处于对话正态,对于第二说话人,当第二说话人开始说话时,即可通过距离第一说话人位置最近的麦克风采集第二说话人的第二声音信号,当第二声音信号满足预设条件时,则说明第一说话人听不清或者听不见第二说话人的说话内容,之后,当第二说话人再次开始说话时,即可通过距离第二说话人位置最近的麦克风获取第二说话人的第三声音信号,然后,获取第三声音信号对应的第四声音信号,并利用距离第一说话人位置最近的扬声器播放第四声音信号,同时利用中控屏幕和/或第一说话人对应的屏幕显示对第三声音信号进行语音识别获得的说话内容,确保第一说话人能够接收到第二说话人的说话内容,从而确保对话双方之间的沟通效率。对于第一说话人,在一种可能的实现方式中,当第二声音信号满足预设条件时,在第一说话人开始说话时,通过距离第一说话人位置最近的麦克风采集第一说话人的声音信号,通过上述相似的方式,将第一说话人的说话内容传达给第二说话人;在另一种可能的实现方式中,在获取第一声音信号之后,当第一说话人开始说话时,通过距离第二说话人位置最近的麦克风获取第一说话人的声音信号,当第一说话人的声音信号满足预设条件时,在第一说话人再次说话时,通过距离第一说话人位置最近的麦克风获取第一说话人的声音信号,之后,通过上述相似的方式,将第一说话人的说话内容传达给第二说话人。
实现方式2,请参考图1,四个麦克风不间断地采集汽车内的若干个说话人的声波信号,从而获取当前时刻对应的第一声音信号,车内的电子设备可对第一声音信号进行说话人识别,即可确定出四个说话人,之后,从这四个说话人中确定出正在对话的第一说话人和第二说话人,第三说话人和第四说话人在未处于对话正态,对于第二说话人,通过距离第一说话人位置最近的声音采集设备采集第二说话人在第一声音信号中的第二声音信号,当第二声音信号满足预设条件时,则说明第一说话人听不清或者听不见第二说话人的说话内容,则通过距离第二说话人位置最近的声音采集设备采集第二说话人在第一声音信号中的第三声音信号,通过上述方式,将第二说话人的说话内容传达给第一说话人。对于第一说话人,在一种可能的实现方式中,当第二声音信号满足预设条件时,通过距离第一说话人位置最近的声音采集设备采集第一说话人在第一声音信号中的声音信号,通过上述相似的方式,将第一说话人的说话内容传达给第二说话人;在另一种可能的实现方式中,在确定第二声音信号的同时,通过距离第二说话人位置最近的声音采集设备采集第一说话人在第一声音信号中的声音信号,当第一说话人的声音信号满足预设条件时,通过第一说话人位置最近的声音采集设备采集第一说话人在第一声音信号中的声音信号,通过上述方式,将第一说话人的说话内容传达给第二说话人。
本实施例通过将声波信号转化为模拟信号,利用距离说话人最近的声音播放设备播放模拟信号,同时对声音信号进行识别从而获取说话人的说话内容,通过显示设备显示说话人的说话内容,从而确保对话双方之间的沟通效率。
示例性装置
基于与本申请方法实施例相同的构思,本申请实施例还提供了声音信号采集装置。
图6示出了本申请一示例性实施例提供的声音信号采集装置的结构示意图。
如图6所示,本申请一示例性实施例提供的声音信号采集装置,包括:
第一获取模块601,用于通过至少一个声音采集设备采集第一声音信号;
识别模块602,用于对所述第一声音信号进行说话人识别,得到至少两个说话人;
对话人确定模块603,用于基于所述第一声音信号,从所述至少两个说话人中确定第一说话人和第二说话人,所述第一说话人和第二说话人处于对话状态;
第一采集模块604,用于通过距离所述第一说话人位置最近的声音采集设备采集第二说话人的第二声音信号;
第二采集模块605,用于当所述第二声音信号满足预设条件时,通过距离所述第二说话人位置最近的声音采集设备采集第二说话人的第三声音信号。
图7示出了本申请另一个示例性实施例提供的声音信号采集装置的结构示意图。
如图7所示,在上述图1所示实施例的基础上,本申请另一个示例性实施例提供的声音信号采集装置,还包括:
第二获取模块701,用于获取所述第三声音信号对应的第四声音信号。
播放模块702,用于通过距离所述第一说话人位置最近的声音播放设备播放所述第四声音信号。
图8示出了本申请又一个示例性实施例提供的声音信号采集装置的结构示意图。
如图8所示,在上述图1所示实施例的基础上,本申请又一个示例性实施例提供的声音信号采集装置,还包括:
文本确定模块801,用于对所述第三声音信号进行语音识别,以获得所述第三声音信号对应的说话文本。
显示模块802,用于根据显示设备显示所述所述第三声音信号对应的说话文本。
示例性电子设备
图9图示了根据本申请实施例的电子设备的框图。
如图9所示,电子设备90包括一个或多个处理器901和存储器902。
处理器901可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备90中的其他组件以执行期望的功能。
存储器902可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器 (ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器901可以运行所述程序指令,以实现上文所述的本申请的各个实施例的声音信号采集方法以及/或者其他期望的功能。
在一个示例中,电子设备90还可以包括:输入装置903和输出装置904,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
当然,为了简化,图9中仅示出了该电子设备90中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备90还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的声音信号采集方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的声音信号采集方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (7)
1.一种声音信号采集方法,包括:
通过至少一个声音采集设备采集第一声音信号;
对所述第一声音信号进行说话人识别,得到至少两个说话人;
基于所述第一声音信号,从所述至少两个说话人中确定第一说话人和第二说话人,所述第一说话人和第二说话人处于对话状态;
通过距离所述第一说话人位置最近的声音采集设备采集第二说话人的第二声音信号;
当所述第二声音信号满足预设条件时,通过距离所述第二说话人位置最近的声音采集设备采集第二说话人的第三声音信号;
其中,所述第二声音信号满足预设条件包括:
根据所述第二声音信号计算得到的声音能量值不大于第一预设阈值;
或者,根据所述第二声音信号计算得到的声音能量值大于第一预设阈值,且根据所述第二声音信号计算得到的信噪比不大于第二预设阈值;
或者,对所述第二声音信号进行语音识别得到的说话文本中包括预设关键词;
或者,根据所述第二声音信号计算得到的声音能量值不大于第一预设阈值,同时对所述第二声音信号进行语音识别得到的说话文本中包括预设关键词;
或者,根据所述第二声音信号计算得到的声音能量值大于第一预设阈值,且根据所述第二声音信号计算得到的信噪比不大于第二预设阈值,同时对所述第二声音信号进行语音识别得到的说话文本中包括预设关键词。
2.根据权利要求1所述的方法,其中,所述方法还包括:
获取所述第三声音信号对应的第四声音信号;
通过距离所述第一说话人位置最近的声音播放设备播放所述第四声音信号。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述第三声音信号进行语音识别,以获得所述第三声音信号对应的说话文本;
根据显示设备显示所述第三声音信号对应的说话文本。
4.根据权利要求3所述的方法,其中,所述显示设备包括中控屏幕或所述第一说话人对应的屏幕。
5.一种声音信号采集装置,包括:
第一获取模块,用于通过至少一个声音采集设备采集第一声音信号;
识别模块,用于对所述第一声音信号进行说话人识别,得到至少两个说话人;
对话人确定模块,用于基于所述第一声音信号,从所述至少两个说话人中确定第一说话人和第二说话人,所述第一说话人和第二说话人处于对话状态;
第一采集模块,用于通过距离所述第一说话人位置最近的声音采集设备采集第二说话人的第二声音信号;
第二采集模块,用于当所述第二声音信号满足预设条件时,通过距离所述第二说话人位置最近的声音采集设备采集第二说话人的第三声音信号;其中,所述第二声音信号满足预设条件包括:根据所述第二声音信号计算得到的声音能量值不大于第一预设阈值;或者,根据所述第二声音信号计算得到的声音能量值大于第一预设阈值,且根据所述第二声音信号计算得到的信噪比不大于第二预设阈值;或者,对所述第二声音信号进行语音识别得到的说话文本中包括预设关键词;或者,根据所述第二声音信号计算得到的声音能量值不大于第一预设阈值,同时对所述第二声音信号进行语音识别得到的说话文本中包括预设关键词;或者,根据所述第二声音信号计算得到的声音能量值大于第一预设阈值,且根据所述第二声音信号计算得到的信噪比不大于第二预设阈值,同时对所述第二声音信号进行语音识别得到的说话文本中包括预设关键词。
6.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-4任一所述的声音信号采集方法。
7.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-4任一所述的声音信号采集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910965393.2A CN110738995B (zh) | 2019-10-11 | 2019-10-11 | 一种声音信号采集方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910965393.2A CN110738995B (zh) | 2019-10-11 | 2019-10-11 | 一种声音信号采集方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110738995A CN110738995A (zh) | 2020-01-31 |
CN110738995B true CN110738995B (zh) | 2022-11-11 |
Family
ID=69268733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910965393.2A Active CN110738995B (zh) | 2019-10-11 | 2019-10-11 | 一种声音信号采集方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110738995B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104335559A (zh) * | 2014-04-04 | 2015-02-04 | 华为终端有限公司 | 一种自动调节音量的方法、音量调节装置及电子设备 |
CN105825854A (zh) * | 2015-10-19 | 2016-08-03 | 维沃移动通信有限公司 | 一种语音信号处理方法、装置及移动终端 |
CN107734126A (zh) * | 2017-11-10 | 2018-02-23 | 广东欧珀移动通信有限公司 | 语音调节方法、装置、终端及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6482887A (en) * | 1987-09-25 | 1989-03-28 | Sony Corp | Microphone device |
TW437627U (en) * | 2000-03-08 | 2001-05-28 | Jeng Shuen Ren | Hands-free earphone for cellular phone and multimedia audio device in the headrest on the back of automobile chair |
WO2010150368A1 (ja) * | 2009-06-24 | 2010-12-29 | パイオニア株式会社 | 音場調整装置 |
JP6311136B2 (ja) * | 2015-10-16 | 2018-04-18 | パナソニックIpマネジメント株式会社 | 双方向会話補助装置及び双方向会話補助方法 |
JP6753252B2 (ja) * | 2016-09-30 | 2020-09-09 | ヤマハ株式会社 | 会話アシスト装置 |
CN106534462A (zh) * | 2016-11-18 | 2017-03-22 | 努比亚技术有限公司 | 提高用户接收对方声音效果的方法及装置 |
CN108022597A (zh) * | 2017-12-15 | 2018-05-11 | 北京远特科技股份有限公司 | 一种声音处理系统、方法及车辆 |
CN110070868B (zh) * | 2019-04-28 | 2021-10-08 | 广州小鹏汽车科技有限公司 | 车载系统的语音交互方法、装置、汽车和机器可读介质 |
-
2019
- 2019-10-11 CN CN201910965393.2A patent/CN110738995B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104335559A (zh) * | 2014-04-04 | 2015-02-04 | 华为终端有限公司 | 一种自动调节音量的方法、音量调节装置及电子设备 |
CN105825854A (zh) * | 2015-10-19 | 2016-08-03 | 维沃移动通信有限公司 | 一种语音信号处理方法、装置及移动终端 |
CN107734126A (zh) * | 2017-11-10 | 2018-02-23 | 广东欧珀移动通信有限公司 | 语音调节方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110738995A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12051410B2 (en) | Method and apparatus to provide comprehensive smart assistant services | |
US11854550B2 (en) | Determining input for speech processing engine | |
JP6463825B2 (ja) | 多重話者音声認識修正システム | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
Tawari et al. | Speech based emotion classification framework for driver assistance system | |
CN110880321B (zh) | 基于语音的智能刹车方法、装置、设备及存储介质 | |
EP3956883A1 (en) | Identifying input for speech recognition engine | |
CN109964270A (zh) | 用于关键短语识别的系统和方法 | |
JP2013007764A (ja) | 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム | |
JP7230806B2 (ja) | 情報処理装置、及び情報処理方法 | |
CN109712610A (zh) | 用于识别语音的方法和装置 | |
CN110047481A (zh) | 用于语音识别的方法和装置 | |
CN112397065A (zh) | 语音交互方法、装置、计算机可读存储介质及电子设备 | |
US20210118464A1 (en) | Method and apparatus for emotion recognition from speech | |
CN111883135A (zh) | 语音转写方法、装置和电子设备 | |
CN110737422B (zh) | 一种声音信号采集方法及装置 | |
CN110738995B (zh) | 一种声音信号采集方法及装置 | |
CN111429882B (zh) | 播放语音的方法、装置及电子设备 | |
CN116580713A (zh) | 一种车载语音识别方法、装置、设备和存储介质 | |
JP2011199698A (ja) | Av機器 | |
JP7110057B2 (ja) | 音声認識システム | |
US20240223707A1 (en) | Far-end terminal and voice focusing method thereof | |
CN112286357A (zh) | 一种行车人机交互方法及系统 | |
CN113438440A (zh) | 视频会议语音转换文字纪要方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |