CN113066500B - 声音采集方法、装置及设备和存储介质 - Google Patents

声音采集方法、装置及设备和存储介质 Download PDF

Info

Publication number
CN113066500B
CN113066500B CN202110343578.7A CN202110343578A CN113066500B CN 113066500 B CN113066500 B CN 113066500B CN 202110343578 A CN202110343578 A CN 202110343578A CN 113066500 B CN113066500 B CN 113066500B
Authority
CN
China
Prior art keywords
person
sound
area
signals
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110343578.7A
Other languages
English (en)
Other versions
CN113066500A (zh
Inventor
肖启华
莫志坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202110343578.7A priority Critical patent/CN113066500B/zh
Publication of CN113066500A publication Critical patent/CN113066500A/zh
Application granted granted Critical
Publication of CN113066500B publication Critical patent/CN113066500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请实施例公开了一种声音采集方法、装置及设备和存储介质,先收集第一方向的声音信号,如果第一方向的声音信号中包括第一人的语音信号,确定第一人所在的第二方向;收集第二方向的声音信号,以及第三方向的声音信号;其中,第一方向的覆盖范围大于第三方向的覆盖范围,第三方向的覆盖范围大于第二方向的覆盖范围;第二方向的覆盖范围属于第三方向的覆盖范围的子覆盖范围,第三方向的覆盖范围属于第一方向的覆盖范围的子覆盖范围;对在第二方向收集的声音信号进行识别,以确定第一人的语音信号;对在第三方向收集的声音信号中的语音信号进行特征参数提取,该特征参数用于区分不同人的语音信号。在降低了功耗的同时,保持声音采集的连续性。

Description

声音采集方法、装置及设备和存储介质
技术领域
本申请涉及音频处理技术领域,更具体地说,涉及一种声音采集方法、装置及设备和存储介质。
背景技术
在音频处理领域,有时会利用声音进行身份识别,比如,声纹识别。目前在对声音进行识别时,主要有两种方式:对电子设备周期进行360度全方位收音,对收集的声音信号进行识别,从而识别出特定对象的声音。这种方法需要对电子设备周围360度范围内的声音进行处理,音频处理量大,功耗较高。为了降低识别的功耗,提出了另一种方式,该方式是在特定的角度内进行收音,然后对收集的声音进行识别,从而识别出特定对象的声音,该方法虽然降低了音频处理量,从而降低了功耗,但是,当说话人离开特定角度时,识别效果就会变差,甚至是无法识别。
发明内容
本申请的目的是提供一种声音采集方法、装置及设备和存储介质,包括如下技术方案:
一种声音采集方法,所述方法包括:
收集第一方向的声音信号;
如果所述第一方向的声音信号中包括第一人的语音信号,确定所述第一人所在的第二方向;
收集所述第二方向的声音信号,以及第三方向的声音信号;其中,所述第一方向的覆盖范围大于所述第三方向的覆盖范围,所述第三方向的覆盖范围大于所述第二方向的覆盖范围;所述第二方向的覆盖范围属于所述第三方向的覆盖范围的子覆盖范围,所述第三方向的覆盖范围属于所述第一方向的覆盖范围的子覆盖范围;
对在所述第二方向收集的声音信号进行识别,以确定所述第一人的语音信号;
对在所述第三方向收集的声音信号中的语音信号进行特征参数提取,所提取的特征参数用于区分不同人的语音信号。
上述方法,优选的,还包括:
根据所提取的特征参数确定出所述第一人的语音信号和非第一人的语音信号;
滤除在所述第三方向收集的声音信号中的语音信号中的非第一人的语音信号。
上述方法,优选的,所述确定所述第一人所在第二方向,包括:
确定所述第一人所在第一区域;所述第一区域为所述第一方向覆盖的多个区域中的一个区域,不同的区域位于不同的方向;
所述第三方向的覆盖范围包括所述第一区域以及所述第一区域的两个相邻区域。
上述方法,优选的,还包括:
确定所述第一人的移动轨迹;
如果所述移动轨迹表征所述第一人从所述第一区域移动到与所述第一区域相邻的第二区域,收集第二区域以及所述第二区域的两个相邻区域的声音信号,禁止收集与所述第一区域相邻的第四区域的声音信号;
所述第四区域与所述第二区域不同。
上述方法,优选的,所述确定所述第一人的移动轨迹包括:
向轨迹跟踪传感器发送方向信息,所述方向信息表征所述第一人所在的第二方向,以使得所述轨迹跟踪传感器根据所述方向信息锁定所述第一人,对所述第一人进行跟踪定位,进而确定所述第一人的移动轨迹。
上述方法,优选的,所述轨迹跟踪传感器为面阵飞行时间传感器、超声波传感器或雷达传感器。
上述方法,优选的,所述对在所述第三方向收集的声音信号中的语音信号进行特征参数提取,包括:
根据频率信息从在所述第三方向收集的声音信号中提取语音信号;
对所提取的语音信号进行特征参数提取。
一种声音采集装置,包括:
第一收音模块,用于收集第一方向的声音信号;
确定模块,用于如果所述第一方向的声音信号中包括第一人的语音信号,确定所述第一人所在的第二方向;
第二收音模块,用于收集所述第二方向的声音信号,以及第三方向的声音信号;其中,所述第一方向的覆盖范围大于所述第三方向的覆盖范围,所述第三方向的覆盖范围大于所述第二方向的覆盖范围;所述第二方向的覆盖范围属于所述第三方向的覆盖范围的子覆盖范围,所述第三方向的覆盖范围属于所述第一方向的覆盖范围的子覆盖范围;
识别模块,用于对在所述第二方向收集的声音信号进行识别,以确定所述第一人的语音信号;
特征提取模块,用于对在所述第三方向收集的声音信号中的语音信号进行特征参数提取,所提取的特征参数用于区分不同人的语音信号。
一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,实现如上任一项所述的声音采集方法的各个步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的声音采集方法的各个步骤。
通过以上方案可知,本申请提供的一种声音采集方法、装置及设备和存储介质,先收集第一方向的声音信号,如果第一方向的声音信号中包括第一人的语音信号,确定第一人所在的第二方向;收集第二方向的声音信号,以及第三方向的声音信号;其中,第一方向的覆盖范围大于第三方向的覆盖范围,第三方向的覆盖范围大于第二方向的覆盖范围;第二方向的覆盖范围属于第三方向的覆盖范围的子覆盖范围,第三方向的覆盖范围属于第一方向的覆盖范围的子覆盖范围;对在第二方向收集的声音信号进行识别,以确定第一人的语音信号;对在第三方向收集的声音信号中的语音信号进行特征参数提取,所提取的特征参数用于区分不同人的语音信号。基于本申请的方案,仅在开始时大范围收集声音信号,在确定第一人所在方向后,仅在第一人所在方向及其邻近方向的小范围内收集声音信号,进而从第一人所在方向及其邻近方向的小范围内收集的声音信号中区分出第一人及其他人的语音信号,降低了收集和处理的音频量,从而降低了采集第一人的声音的工作量,也就降低了功耗。而且,由于采集了第一人所在方向的邻近方向的声音信号,因此,当第一人移出第二方向时,仍然能够即时采集到第一人的声音并能够快速区分不同人的语音信号,因而能够保持第一人的声音采集的连续性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的声音采集方法的一种实现流程图;
图2a为本申请实施例提供的第一方向的一个示例图;
图2b为本申请实施例提供的第一方向的另一个示例图;
图2c为本申请实施例提供的第一方向的又一个示例图;
图3为本申请实施例提供的第一方向、第二方向和第三方向间的关联关系的一种示例图;
图4为本申请实施例提供的将第一方向覆盖的区域划分为多个区域的一种示例图;
图5为本申请实施例提供的对在第三方向收集的声音信号中的语音信号进行特征参数提取的一种实现流程图;
图6为本申请实施例提供的声音采集装置的一种结构示意图;
图7为本申请实施例提供的电子设备的硬件结构框图的示例图。
说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,能够以除了在这里图示的以外的顺序实施。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的声音采集方法用于电子设备中,该电子设备可以是移动终端,比如,手机、平板电脑、笔记本电脑等,该电子设备也可以是非移动终端,比如台式计算机、一体机电脑等。
本申请实施例提供的声音采集方法的一种实现流程图如图1所示,可以包括:
步骤S101:收集第一方向的声音信号。
可以通过收音装置收集第一方向的声音信号,收音装置可以由至少两个收音单元构成,收音单元可以为麦克风。
可选的第一方向可以是360度全方向,此时收音范围呈圆形区域;如图2a所示,为本申请实施例提供的第一方向的一个示例图;
第一方向也可以是部分角度的方向,比如第一方向是180度的方向,此时收音范围呈半圆形,如图2b所示,为本申请实施例提供的第一方向的另一个示例图;再比如,第一方向是270度的方向,此时收音范围呈扇形,如图2c所示,为本申请实施例提供的第一方向的又一个示例图。图2a-2c中的黑点表示电子设备。
具体第一方向为哪个,可以根据电子设备的具体使用环境确定。比如,如果电子设备周围360度范围内均可能产生声音,则第一方向可以为360度全方向,如果电子设备周围仅前方100度范围内可能产生声音,则第一方向可以为100度的方向。
第一方向可以是电子设备出厂前就预置好的,或者,可以是用户根据实际的应用场景配置的。
步骤S102:如果第一方向的声音信号中包括第一人的语音信号,确定第一人所在的第二方向。
可以通过对第一方向的声音信号进行身份识别,得到识别结果;如果识别结果表征第一方向的声音信号中包括第一人的语音信号,确定第一人所在的第二方向。
可选的,可以利用波束成形技术(beamforming)确定第一人的方向(也就是第二方向),具体实现方式可以参考已有的方案,由于其不是本申请的重点,这里不再详述。
步骤S103:收集第二方向的声音信号,以及第三方向的声音信号;其中,第一方向的覆盖范围大于第三方向的覆盖范围,第三方向的覆盖范围大于第二方向的覆盖范围;第二方向的覆盖范围属于第三方向的覆盖范围的子覆盖范围,第三方向的覆盖范围属于第一方向的覆盖范围的子覆盖范围。
如果只在第二方向收集声音信号,那么当第一人走出第二方向时,由于无法收集到第一人的声音,也就是无法识别到第一人的声音,即不能采集到第一人的声音。为了避免第一人走出第二方向时无法采集到第一人的声音,本申请实施例中,在确定第一人所在的人第二方向后,不是仅采集第二方向的声音信号,而是除了采集第二方向的声音信号外,还采集第二方向的邻近方向的声音信号。
如图3所示,为本申请实施例提供的第一方向、第二方向和第三方向间的关联关系的一种示例图。该示例中,第一方向是360度全方向,第二方向是两条点划线之间的区域所对应的方向,第三方向是两条虚线之间的区域所对应的方向。
对于第三方向之外的方向(为便于叙述,记为非第三方向),禁止收集该非第三方向的声音信号。
步骤S104:对在第二方向收集的声音信号进行识别,以确定第一人的语音信号。
本申请中,对于第一人所在的第二方向,直接对收集到的声音信号进行身份识别,以识别出第一人的语音信号。在确定第一人的语音信号后,可以将第一人的语音信号输出,比如,通过音频输出设备(比如音响)输出第一人的语音信号,或者,将第一人的语音信号识别为文本,通过显示设备输出文本等。
步骤S105:对在第三方向收集的声音信号中的语音信号进行特征参数提取,所提取的特征参数用于区分不同人的语音信号。
其中,步骤S104和步骤S105可以同时进行。
实际应用中,第一人在说话的时候,其周围除了噪声(相对于人的声音来说的声音,即除了人的声音以外的声音都是噪声),可能还会有其他人的声音,需要消除其他人的声音,这个过程通常比较复杂,需要耗费一定的时长,因此,如果在第一人移出第二方向后才开始对第二方向之外第一人所在方向的声音信号进行识别,会产生第一人的语音信号的识别产生延迟的现象,导致第一人的语音信号的输出与第一人实际说话的声音不同步,比如在第一人说出一句话后的一段时间(比如2s)后音频输出设备才会输出这句话的音频。
为了克服因人的移动而导致的音频输出延迟问题,本申请中,对在第二方向收集的声音信号进行识别的同时,将在第三方向收集的声音信号中的噪声屏蔽掉,留下语音信号,只对该语音信号进行处理,比如对语音信号进行特征参数提取,以便在第一人走出第二方向时,能够根据该特征参数快速区分不同人的语音信号,即区分第一人以及其他人的语音信号。从而克服了第一人的音频输出延迟问题。
综上,本申请实施例提供的声音采集方法,仅在开始时大范围收集声音信号,在确定第一人所在方向后,仅在第一人所在方向及其邻近方向的小范围内收集声音信号,进而从第一人所在方向及其邻近方向的小范围内收集声音信号中区分出第一人即其他人的语音信号,降低了收集和处理的音频量,从而降低了采集第一人的声音的工作量,也就降低了功耗。而且,由于采集了第一人所在方向的邻近方向的声音信号,因此,当第一人移出第二方向时,仍然能够即时采集到第一人的声音并能够区分不同人的语音信号,因而能够保持第一人的声音采集的连续性,也不会出现延迟问题。
在一可选的实施例中,在对第三方向收集的声音信号中的语音信号进行特征参数提取后,还可以包括:
根据所提取的特征参数确定出第一人的语音信号和非第一人(即除第一人以外的其他人)的语音信号。作为示例,所提取的特征参数可以是声纹特征。
滤除在第三方向收集的声音信号中的语音信号中的非第一人的语音信号,保留第一人的语音信号,从而实现对第一人的声音的采集。
本申请实施例中,对于第一人所在的第二方向的声音信号,以及包括第一人所在第二方向的第三方向的声音信号,采用不同的识别通道(比如,不同的音频处理模型)识别第一人的声音,其中,对于在第二方向收集的声音信号,直接输入第一识别通道进行识别,从而识别出第一人的声音,对于在第三方向收集的声音信号,则先屏蔽掉噪声,留下语音信号,只将语音信号输入第二识别通道进行特征参数提取,进而根据提取的特征参数识别出第一人的声音。
在一可选的实施例中,为了便于收音管理,本申请实施例中,预先将第一方向覆盖的区域划分为多个区域,其中,不同的区域位于不同的方向。如图4所示,为本申请实施例提供的将第一方向覆盖的区域划分为多个区域的一种示例图,该示例中,第一方向是360度全方向,第一方向覆盖的区域被划分为了6个区域:第一区域,第二区域,第三区域,第四区域,第五区域和第六区域。
基于此,上述确定第一人所在第二方向的一种实现方式可以包括:
确定第一人所在第一区域;第一区域为第一方向覆盖的多个区域中的一个区域,不同的区域位于不同的方向;也就是说第二方向的覆盖范围为第一区域。
具体的,可以先定位出第一人在哪个位置,进而根据第一人的位置确定其所在的第一区域。第一人的位置可以根据第一人距离电子设备的距离,以及第一人相对于电子设备的方向确定。
第三方向的覆盖范围包括第一区域以及第一区域的两个相邻区域(即第二区域和第四区域)。
在一可选的实施例中,本申请实施例提供的声音采集方法还可以包括:
确定第一人的移动轨迹。
如果第一人的移动轨迹表征第一人从第一区域移动到与第一区域相邻的第二区域,收集第二区域以及第二区域的两个相邻区域的声音信号,禁止收集与第一区域相邻的第四区域的声音信号;
第四区域与所述第二区域不同。
如图4所示,在确定第一人在第一区域时,是对第一区域进行声音收集,以及对第一区域、第二区域和第四区域构成的组合区域(为便于区分,记为第一组合区域)进行声音收集,其中,对在第一区域收集的声音信号进行识别,以确定第一人的语音信号,同时对在第一组合区域收集的声音信号进行语音信号提取(即屏蔽噪声),对提取的语音信号进行特征参数提取,从而能够根据提取的特征参数区分不同人的语音信号。当第一人在第一区域时,禁止收集第三区域、第五区域和第六区域的声音信号。
当发现第一人从第一区域走到第二区域时,启动对第三区域的声音信号的收集,而停止对第四区域进行声音收集,此时是:对第二区域进行声音收集,以及对第一区域、第二区域和第三区域构成的组合区域(为便于区分,记为第二组合区域)进行声音收集,其中,对在第二区域收集的声音信号进行识别,以确定第一人的语音信号,同时对在第二组合区域收集的声音信号进行语音信号提取(即屏蔽噪声),对提取的语音信号进行特征参数提取,从而能够根据提取的特征参数区分不同人的语音信号。当第一人在第二区域时,禁止收集第四区域、第五区域和第六区域的声音信号。
也就是说,基于本申请的方案,根据第一人的移动轨迹,自动调整收音方向,实现了仅根据第一人所在区域及其邻区内的声音信号进行识别的目的,从而在降低功耗的同时保证了对第一人的声音采集的连续性。
在一可选的实施例中,在确定第一人所在的第二方向后,上述确定第一人的移动轨迹的一种实现方式可以包括:
向轨迹跟踪传感器发送方向信息,该方向信息表征第一人所在的第二方向,以使得轨迹跟踪传感器根据方向信息锁定第一人,对第一人进行跟踪定位,进而确定第一人的移动轨迹。
其中,轨迹跟踪传感器可以包括但不限于以下任意一种:面阵飞行时间传感器、超声波传感器、雷达传感器等等。
由于基于传感器定位的方法与基于语音识别的定位方法相比,功耗低很多,比如,基于传感器的定位方法的功耗通常为几十毫瓦,而基于语音识别的定位方法的功耗通常在几百毫瓦,二者的功耗不是一个量级,因此,用传感器代替语音识别的定位方法,能够进一步降低功耗。
声音采集装置根据轨迹跟踪传感器确定的第一人的移动轨迹即时地调整收音方向。
可选的,人与物体的区别在于,人是有呼吸的,而物体是没有呼吸的,因此,人的胸腔是起伏的,而物体是没有的,因此,轨迹跟踪传感器可以根据这一区别从周围的环境中区分出人和物体来,对于环境中有多个人的情况,通常是电子设备(配置有收音装置)地使用者(即第一人)距离电子设备最近,因此,在检测到多个人的情况下,可以根据不同的人与电子设备之间的距离区分第一人和其他人,从而可以将距离电子设备最近的人确定为追踪对象(即第一人),对该距离电子设备最近的人进行跟踪。
在一可选的实施例中,上述对在第三方向收集的声音信号中的语音信号进行特征参数提取的一种实现流程图如图5所示,可以包括:
步骤S501:根据信息从在第三方向收集的声音信号中提取语音信号。
噪声的频率和人的声音的频率的差别是比较明显的,因此,可以根据频率快速地从收集的声音信号中采集语音信号,或将噪声信号过滤掉。而且,由于噪声的侦测比较快,不会对声音采集产生影响,即不会造成第一人的音频输出延迟问题。
步骤S502:对所提取的语音信号进行特征参数提取。由于一直在提取在第三方向收集的声音中的语音信号的特征参数,因此,即便第一人从第二方向走到了了第三方向中位于第二方向之外的区域,也能快速根据提取的特征参数快速识别出第一人的语音,而不必重新对第一人所在方向进行声音收集后才对收集的声音信号进行识别。避免第一人的声音输出延迟的问题。
与方法实施例相对应,本申请实施例还提供一种声音采集装置,本申请实施例提供的声音采集装置的一种结构示意图如图6所示,可以包括:
第一收音模块601,确定模块602,第二收音模块603,识别模块604和特征提取模块605;其中,
第一收音模块601用于收集第一方向的声音信号;
确定模块602用于如果所述第一方向的声音信号中包括第一人的语音信号,确定所述第一人所在的第二方向;
第二收音模块603用于收集所述第二方向的声音信号,以及第三方向的声音信号;其中,所述第一方向的覆盖范围大于所述第三方向的覆盖范围,所述第三方向的覆盖范围大于所述第二方向的覆盖范围;所述第二方向的覆盖范围属于所述第三方向的覆盖范围的子覆盖范围,所述第三方向的覆盖范围属于所述第一方向的覆盖范围的子覆盖范围;
识别模块604用于对在所述第二方向收集的声音信号进行识别,以确定所述第一人的语音信号;
特征提取模块605用于对在所述第三方向收集的声音信号中的语音信号进行特征参数提取,所提取的特征参数用于区分不同人的语音信号。
本申请实施例提供的声音采集装置,仅在开始时大范围收集声音信号,在确定第一人所在方向后,仅在第一人所在方向及其邻近方向的小范围内收集声音信号,进而从第一人所在方向及其邻近方向的小范围内收集声音信号中区分出第一人即其他人的语音信号,降低了收集和处理的音频量,从而降低了采集第一人的声音的工作量,也就降低了功耗。而且,由于采集了第一人所在方向的邻近方向的声音信号,因此,当第一人移出第二方向时,仍然能够即时采集到第一人的声音并能够区分不同人的语音信号,因而能够保持第一人的声音采集的连续性,也不会出现延迟问题。
在一可选的实施例中,还包括:
区分模块,用于根据所提取的特征参数确定出所述第一人的语音信号和非第一人的语音信号;
滤除模块,用于滤除在所述第三方向收集的声音信号中的语音信号中的非第一人的语音信号。
在一可选的实施例中,所述确定模块602在确定所述第一人所在第二方向时,具体用于:
确定所述第一人所在第一区域;所述第一区域为所述第一方向覆盖的多个区域中的一个区域,不同的区域位于不同的方向;
所述第三方向的覆盖范围包括所述第一区域以及所述第一区域的两个相邻区域。
在一可选的实施例中,还包括:
追踪模块,用于确定所述第一人的移动轨迹;
所述第二收音模块还用于:如果所述移动轨迹表征所述第一人从所述第一区域移动到与所述第一区域相邻的第二区域,收集第二区域以及所述第二区域的两个相邻区域的声音信号,禁止收集与所述第一区域相邻的第四区域的声音信号;
所述第四区域与所述第二区域不同。
在一可选的实施例中,所述追踪模块具体用于:
向轨迹跟踪传感器发送方向信息,所述方向信息表征所述第一人所在的第二方向,以使得所述轨迹跟踪传感器根据所述方向信息锁定所述第一人,对所述第一人进行跟踪定位,进而确定所述第一人的移动轨迹。
在一可选的实施例中,所述轨迹跟踪传感器为面阵飞行时间传感器、超声波传感器或雷达传感器。
在一可选的实施例中,所述特征提取模块605具体用于:
根据频率信息从在所述第三方向收集的声音信号中提取语音信号;
对所提取的语音信号进行特征参数提取。
与方法实施例相对应,本申请还提供一种电子设备,如终端、服务器等。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑等移动端,也可以是台式计算机等,但并不局限于此。在一些实施例中,上述终端或服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
本申请实施例提供的电子设备的硬件结构框图的示例图如图7所示,可以包括:
处理器1,通信接口2,存储器3和通信总线4;
其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,处理器1具体用于执行存储器3中存储的计算机程序,以执行如下步骤:
收集第一方向的声音信号;
如果所述第一方向的声音信号中包括第一人的语音信号,确定所述第一人所在的第二方向;
收集所述第二方向的声音信号,以及第三方向的声音信号;其中,所述第一方向的覆盖范围大于所述第三方向的覆盖范围,所述第三方向的覆盖范围大于所述第二方向的覆盖范围;所述第二方向的覆盖范围属于所述第三方向的覆盖范围的子覆盖范围,所述第三方向的覆盖范围属于所述第一方向的覆盖范围的子覆盖范围;
对在所述第二方向收集的声音信号进行识别,以确定所述第一人的语音信号;
对在所述第三方向收集的声音信号中的语音信号进行特征参数提取,所提取的特征参数用于区分不同人的语音信号。
可选的,所述计算机程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该存储介质可存储有适于处理器执行的计算机程序,所述计算机程序用于:
收集第一方向的声音信号;
如果所述第一方向的声音信号中包括第一人的语音信号,确定所述第一人所在的第二方向;
收集所述第二方向的声音信号,以及第三方向的声音信号;其中,所述第一方向的覆盖范围大于所述第三方向的覆盖范围,所述第三方向的覆盖范围大于所述第二方向的覆盖范围;所述第二方向的覆盖范围属于所述第三方向的覆盖范围的子覆盖范围,所述第三方向的覆盖范围属于所述第一方向的覆盖范围的子覆盖范围;
对在所述第二方向收集的声音信号进行识别,以确定所述第一人的语音信号;
对在所述第三方向收集的声音信号中的语音信号进行特征参数提取,所提取的特征参数用于区分不同人的语音信号。
可选的,所述计算机程序的细化功能和扩展功能可参照上文描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种声音采集方法,所述方法包括:
收集第一方向的声音信号;
对所述第一方向的声音信号进行身份识别,如果所述第一方向的声音信号中包括第一人的语音信号,确定所述第一人所在的第二方向;
收集所述第二方向的声音信号,以及第三方向的声音信号;其中,所述第一方向的覆盖范围大于所述第三方向的覆盖范围,所述第三方向的覆盖范围大于所述第二方向的覆盖范围;所述第二方向的覆盖范围属于所述第三方向的覆盖范围的子覆盖范围,所述第三方向的覆盖范围属于所述第一方向的覆盖范围的子覆盖范围;
对在所述第二方向收集的声音信号进行识别,以确定所述第一人的语音信号;
对在所述第三方向收集的声音信号中的语音信号进行特征参数提取,所提取的特征参数用于区分不同人的语音信号。
2.根据权利要求1所述的方法,还包括:
根据所提取的特征参数确定出所述第一人的语音信号和非第一人的语音信号;
滤除在所述第三方向收集的声音信号中的语音信号中的非第一人的语音信号。
3.根据权利要求1所述的方法,所述确定所述第一人所在第二方向,包括:
确定所述第一人所在第一区域;所述第一区域为所述第一方向覆盖的多个区域中的一个区域,不同的区域位于不同的方向;
所述第三方向的覆盖范围包括所述第一区域以及所述第一区域的两个相邻区域。
4.根据权利要求3所述的方法,还包括:
确定所述第一人的移动轨迹;
如果所述移动轨迹表征所述第一人从所述第一区域移动到与所述第一区域相邻的第二区域,收集第二区域以及所述第二区域的两个相邻区域的声音信号,禁止收集与所述第一区域相邻的第四区域的声音信号;
所述第四区域与所述第二区域不同。
5.根据权利要求4所述的方法,所述确定所述第一人的移动轨迹包括:
向轨迹跟踪传感器发送方向信息,所述方向信息表征所述第一人所在的第二方向,以使得所述轨迹跟踪传感器根据所述方向信息锁定所述第一人,对所述第一人进行跟踪定位,进而确定所述第一人的移动轨迹。
6.根据权利要求5所述的方法,所述轨迹跟踪传感器为面阵飞行时间传感器、超声波传感器或雷达传感器。
7.根据权利要求1所述的方法,所述对在所述第三方向收集的声音信号中的语音信号进行特征参数提取,包括:
根据频率信息从在所述第三方向收集的声音信号中提取语音信号;
对所提取的语音信号进行特征参数提取。
8.一种声音采集装置,包括:
第一收音模块,用于收集第一方向的声音信号;
确定模块,用于对所述第一方向的声音信号进行身份识别,如果所述第一方向的声音信号中包括第一人的语音信号,确定所述第一人所在的第二方向;
第二收音模块,用于收集所述第二方向的声音信号,以及第三方向的声音信号;其中,所述第一方向的覆盖范围大于所述第三方向的覆盖范围,所述第三方向的覆盖范围大于所述第二方向的覆盖范围;所述第二方向的覆盖范围属于所述第三方向的覆盖范围的子覆盖范围,所述第三方向的覆盖范围属于所述第一方向的覆盖范围的子覆盖范围;
识别模块,用于对在所述第二方向收集的声音信号进行识别,以确定所述第一人的语音信号;
特征提取模块,用于对在所述第三方向收集的声音信号中的语音信号进行特征参数提取,所提取的特征参数用于区分不同人的语音信号。
9.一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,实现如权利要求1-7中任一项所述的声音采集方法的各个步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的声音采集方法的各个步骤。
CN202110343578.7A 2021-03-30 2021-03-30 声音采集方法、装置及设备和存储介质 Active CN113066500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110343578.7A CN113066500B (zh) 2021-03-30 2021-03-30 声音采集方法、装置及设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110343578.7A CN113066500B (zh) 2021-03-30 2021-03-30 声音采集方法、装置及设备和存储介质

Publications (2)

Publication Number Publication Date
CN113066500A CN113066500A (zh) 2021-07-02
CN113066500B true CN113066500B (zh) 2023-05-23

Family

ID=76564884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110343578.7A Active CN113066500B (zh) 2021-03-30 2021-03-30 声音采集方法、装置及设备和存储介质

Country Status (1)

Country Link
CN (1) CN113066500B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106302974A (zh) * 2015-06-12 2017-01-04 联想(北京)有限公司 一种信息处理的方法及电子设备
CN107402739A (zh) * 2017-07-26 2017-11-28 北京小米移动软件有限公司 一种拾音方法及装置
CN109949810A (zh) * 2019-03-28 2019-06-28 华为技术有限公司 一种语音唤醒方法、装置、设备及介质
CN110648692A (zh) * 2019-09-26 2020-01-03 苏州思必驰信息科技有限公司 语音端点检测方法及系统
WO2020138943A1 (ko) * 2018-12-27 2020-07-02 한화테크윈 주식회사 음성을 인식하는 장치 및 방법
CN111883151A (zh) * 2020-07-30 2020-11-03 云知声智能科技股份有限公司 音频信号的处理方法、装置、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012096073A1 (ja) * 2011-01-13 2012-07-19 日本電気株式会社 音声処理装置及びその制御方法とその制御プログラムを格納した記憶媒体、該音声処理装置を備えた車両、情報処理装置及び情報処理システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106302974A (zh) * 2015-06-12 2017-01-04 联想(北京)有限公司 一种信息处理的方法及电子设备
CN107402739A (zh) * 2017-07-26 2017-11-28 北京小米移动软件有限公司 一种拾音方法及装置
WO2020138943A1 (ko) * 2018-12-27 2020-07-02 한화테크윈 주식회사 음성을 인식하는 장치 및 방법
CN109949810A (zh) * 2019-03-28 2019-06-28 华为技术有限公司 一种语音唤醒方法、装置、设备及介质
CN110648692A (zh) * 2019-09-26 2020-01-03 苏州思必驰信息科技有限公司 语音端点检测方法及系统
CN111883151A (zh) * 2020-07-30 2020-11-03 云知声智能科技股份有限公司 音频信号的处理方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN113066500A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN108899044B (zh) 语音信号处理方法及装置
US20160187453A1 (en) Method and device for a mobile terminal to locate a sound source
CN109506568B (zh) 一种基于图像识别和语音识别的声源定位方法及装置
CN105702263B (zh) 语音重放检测方法和装置
TWI711035B (zh) 方位角估計的方法、設備、語音交互系統及儲存介質
EP3360137B1 (en) Identifying sound from a source of interest based on multiple audio feeds
EP2907121B1 (en) Real-time traffic detection
CN108597505B (zh) 语音识别方法、装置及终端设备
CN111599371B (zh) 语音增加方法、系统、装置及存储介质
Oh et al. Target speech feature extraction using non-parametric correlation coefficient
CN103971681A (zh) 一种语音识别方法及系统
CN110400566B (zh) 识别方法和电子设备
CN110875045A (zh) 一种语音识别方法、智能设备和智能电视
US20220402459A1 (en) Vehicle unlocking method, system, and apparatus, vehicle, and storage medium
CN111883186B (zh) 录音设备、语音采集方法及装置、存储介质及电子设备
WO2021042799A1 (zh) 一种身份识别预处理、身份识别方法及设备
CN110992953A (zh) 一种语音数据处理方法、装置、系统及存储介质
CN113066500B (zh) 声音采集方法、装置及设备和存储介质
CN112423176A (zh) 耳机降噪方法、装置、存储介质及降噪耳机
CN106708461B (zh) 信息处理方法及电子设备
CN108364346B (zh) 构建三维人脸模型的方法、装置和计算机可读存储介质
CN113220912A (zh) 一种交互辅助方法、装置及计算机可读存储介质
Chong et al. Multiple sound source tracking and identification via degenerate unmixing estimation technique and cardinality balanced multi-target multi-bernoulli filter (DUET-CBMeMBer) with track management
CN111354341A (zh) 语音唤醒方法及装置、处理器、音箱和电视机
CN113409802B (zh) 语音信号的增强处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant