CN111081234B - 一种语音采集方法、装置、设备及存储介质 - Google Patents
一种语音采集方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111081234B CN111081234B CN201811213581.1A CN201811213581A CN111081234B CN 111081234 B CN111081234 B CN 111081234B CN 201811213581 A CN201811213581 A CN 201811213581A CN 111081234 B CN111081234 B CN 111081234B
- Authority
- CN
- China
- Prior art keywords
- sound source
- voice
- source object
- target
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000003068 static effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000012880 independent component analysis Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 235000021395 porridge Nutrition 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Geometry (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种语音采集方法、装置、设备及存储介质,用于提高语音采集的准确性。在方法中,先获得多个声源对象的图像信息以对多个声源对象进行有效识别,再按照预设确定规则从多个声源对象中确定目标声源对象,进而根据获得的图像信息确定目标声源对象的目标位置,然后再控制语音采集模块对目标位置的语音信号进行增强采集,以及对目标位置外的语音信号进行抑制,由于目标位置是目标声源对象所在的位置,相当于是对目标声源对象所发出的语音信号进行增强采集,同时通过抑制其它声源对象的语音信号的方式来提高对目标声源对象的语音信号采集的准确性和有效性,从而提高语音采集的准确性。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种语音采集方法、装置、设备及存储介质。
背景技术
语音采集技术在现代社会中的应用越来越广泛,例如在教育、会议、家电控制等各个方面都有着广泛的应用,在语音识别、语音控制、智能交互等领域对语音采集技术有比较高的指标要求,要求采集的语音清晰、准确。
然而,在嘈杂的环境中采集语音时,例如在包括多个声源(例如多个用户)的环境中采集到的语音通常是多个用户的混合语音信息,这样的话就难以对感兴趣的某个用户的语音进行准确的采集,也就是说,目前的在多声源的场景下语音采集的准确性较低,使得最终采集到的语音可能并不是最希望采集到的语音,例如在语音控制过程中,由于混合的语音信息还可能导致控制出错,用户体验较差。
发明内容
本发明实施例提供一种语音采集方法、装置、设备及存储介质,用于提高语音采集的准确性。
第一方面,提供一种语音采集方法,所述方法包括:
获取至少两个声源对象的图像信息,其中,每个声源对象为能够输出语音信息的对象;
按照预设确定规则,从所述至少两个声源对象中确定目标声源对象;
根据所述图像信息,确定所述目标声源对象的目标位置;
控制语音采集模块对所述目标位置的语音信号进行增强采集,以及对所述目标位置外的语音信号进行抑制。
可选的,按照预设确定规则,从所述至少两个声源对象中确定目标声源对象,包括:
对所述至少两个声源对象的语音信息分别进行语音识别,以获得每个声源对象对应的语音内容;
将包括预设关键词的语音内容对应的声源对象确定为所述目标声源对象。
可选的,将包括预设关键词的语音内容对应的声源对象确定为所述目标声源对象,包括:
将最早包括所述预设关键词的语音内容对应的声源对象确定为所述目标声源对象;或者,
在将最早包括所述预设关键词的语音内容对应的声源对象确定为所述目标声源对象之后,将所述目标声源对象更新为再次包括所述预设关键词的语音内容对应的声源对象。
可选的,按照预设确定规则,从所述至少两个声源对象中确定目标声源对象,包括:
根据获取图像信息对所述至少两个声源对象进行识别,并将属于预定对象集合的声源对象确定为所述目标声源对象;和/或,
对所述至少两个声源对象的语音信息进行声纹识别,并将声纹属于预定声纹集合的声源对象确定为所述目标声源对象。
可选的,在将声纹属于预定声纹集合的声源对象确定为所述目标声源对象之前,所述方法还包括:
获得每个声源对象与自身的声纹特征之间的关联对应关系。
第二方面,提供一种语音采集装置,该语音采集装置包括:
获取模块,用于获取至少两个声源对象的图像信息,其中,每个声源对象为能够输出语音信息的对象;
第一确定模块,用于按照预设确定规则,从所述至少两个声源对象中确定目标声源对象;
第二确定模块,用于根据所述图像信息,确定所述目标声源对象的目标位置;
控制模块,用于控制语音采集模块对所述目标位置的语音信号进行增强采集,以及对所述目标位置外的语音信号进行抑制。
可选的,所述第一确定模块用于:
对所述至少两个声源对象的语音信息分别进行语音识别,以获得每个声源对象对应的语音内容;
将包括预设关键词的语音内容对应的声源对象确定为所述目标声源对象。
可选的,所述第一确定模块用于:
将最早包括所述预设关键词的语音内容对应的声源对象确定为所述目标声源对象;或者,
在将最早包括所述预设关键词的语音内容对应的声源对象确定为所述目标声源对象之后,将所述目标声源对象更新为再次包括所述预设关键词的语音内容对应的声源对象。
可选的,所述第一确定模块用于:
根据获得图像信息对所述至少两个声源对象进行识别,并将属于预定对象集合的声源对象确定为所述目标声源对象;和/或,
对所述至少两个声源对象的语音信息进行声纹识别,并将声纹属于预定声纹集合的声源对象确定为所述目标声源对象。
可选的,所述语音采集装置还包括获得模块,用于:
在所述第一确定模块将声纹属于预定声纹集合的声源对象确定为所述目标声源对象之前,获得每个声源对象与自身的声纹特征之间的关联对应关系。
第三方面,提供一种语音采集设备,该语音采集设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中的任一方法包括的步骤;
语音采集模块,用于根据所述处理器的控制进行语音采集。
第四方面,提供一种存储介质,该存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行第一方面中的任一方法包括的步骤。
在本发明实施例中,在包括多声源对象的应用场景下,可以先获得多个声源对象的图像信息以对多个声源对象进行有效识别,并可以按照预设确定规则从多个声源对象中确定目标声源对象,进而可以根据获得的图像信息来确定目标声源对象的目标位置,然后再控制语音采集模块对目标位置的语音信号进行增强采集,以及对目标位置外的语音信号进行抑制,由于目标位置是目标声源对象所在的位置,相当于是对目标声源对象所发出的语音信号进行增强采集,同时通过抑制其它声源对象的语音信号的方式来提高对目标声源对象的语音信号采集的准确性和有效性,从而提高语音采集的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为本发明实施例中的语音采集方法的流程图;
图2为本发明实施例中的包括多个声源对象的图像信息的示意图;
图3为本发明实施例中的一种麦克风阵列采集语音信号的示意图;
图4为本发明实施例中的一种麦克风阵列采集语音信号的另一示意图;
图5为本发明实施例中的语音采集装置的结构框图;
图6为本发明实施例中的语音采集设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例中,“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
现有技术中,当需要对环境中的语音进行采集以实现某些功能(例如语音控制)的时候,采集到是环境中所有的语音信号,若当前环境中包括多个声源,如前所述,采集到的也是多个声源的混合语音信息,例如混合语音信息中可能包括一些相反的甚至是错误的控制语音,这样就会使得语音控制难以准确实现。例如,当张三使用语音控制家电设备的时候,若家电设备周围有包括张三在内的几个人在交谈,那么家电设备采集到的语音信号就是这几个人的混合语音信息,而难以对张三的语音信号进行准确的采集,从而导致家电设备未能对家电设备进行成功的控制,或者可能导致控制出错,给用户造成不好的体验。
鉴于此,本发明实施例提供一种语音采集方法,通过该方法能够在多声源的环境中对感兴趣的用户的语音进行准确采集,提高语音采集的准确性,从而提升用户体验。
本发明实施例提供的语音采集方法可以由具有语音采集功能的设备执行,该设备例如可以是手机、平板电脑、掌上电脑(Personal Digital Assistant,PDA),笔记本电脑、智能穿戴式设备(例如智能手表和智能头盔)、个人计算机等终端设备,或者也可以是电视机、空调、冰箱等智能家居设备。并且,该设备同时还可以具备图像采集功能,例如通过设置的摄像头进行图像采集。
下面结合说明书附图介绍本发明实施例提供的技术方案。
请参见图1,本发明实施例提供一种语音采集方法,该方法可以由前述的设备执行。该方法的具体流程描述如下。
步骤101:获取至少两个声源对象的图像信息,其中,每个声源对象为能够输出语音信息的对象。
本发明实施例中的语音采集方法,可以应用于会议室、家庭的家电设备控制等包括有多个声源的应用场景,即在该场景中可以包括至少两个声源对象,其中的声源对象是指能够输出语音信息的对象,具体的,声源对象可以是人,可以是动物,也可以是能够输出语音信息的电视机、手机、冰箱等设备,后文中将以声源对象是人来对本发明实施例中的语音采集方法进行说明。
当需要采集当前环境中的语音信号时,可以先获得当前环境中的多个声源对象的图像信息,例如可以通过设备自带的摄像头拍摄得到多个声源对象的图像信息,或者也可以由其它设备拍摄得到多个声源对象的图像信息,然后再将其发送给进行语音采集的设备。
在本发明实施例中,获取到的图像信息可以是静态的,也可以是动态的,其中,动态的图像信息例如是指一段视频流,通过动态的图像信息可以展示人的面部表情、唇部动作以及位置移动等信息,根据图像信息可以获得声源对象的个数以及声源对象的位置,以图2所示的包括三个声源对象(即声源对象A、声源对象B和声源对象C)的图像信息为例,通过对该图像信息进行分析,可以确定当前环境中的声源对象为三个人,且可以确定每个人的位置,以及各个人之间的相对位置关系。
步骤102:按照预设确定规则,从至少两个声源对象中确定目标声源对象。
如前所述,在多声源的应用场景下,设备在采集语音信号时一般期望的是采集某个特定声源的语音信号,本发明实施例中将该期望采集语音信号的声源对象称作目标声源对象,目标声源对象例如可以是最感兴趣的声源对象,或者可以是对当前语音场景具有主控权限的声源对象,或者可以是重要级别(例如老板)的声源对象,等等。在不同的应用场景中,目标声源对象的定义可能不同,所以在不同的应用场景下,可以采用不同的确定方式从多个声源对象中确定目标声源对象,具体来说,例如在不同的应用场景下可以采用不同的预设确定规则来从多个声源对象中确定最感兴趣的目标声源对象,预设确定规则可以理解为是用于从多个声源对象中确定出目标声源对象的条件,在多声源的环境中,从多个声源对象中确定目标声源对象是实现对用户的语音信号进行准确采集的前提条件。
在本发明实施例中,大致可以采用静态确定和动态确定这两类方式确定目标声源对象。其中,静态确定的方式例如是根据各个声源对象的图像信息(例如用户的人脸信息)或声纹信息等生物特征信息对预存的特定用户进行匹配比较,从而将匹配的声源对象确定为最终的目标声源对象,静态确定的方式由于是从本次存储的数据中直接匹配,速率较快,确定效率较高;动态确定的方式例如是根据各个声源对象实时的语音内容来选择确定最终的目标声源对象,也就是说,在前述的静态确定的方式上还提供了另一种可选的确定方式,增强方案的适用性和灵活性,并且由于是通过实时的语音内容动态的进行确定,通过可变的语音内容的确定方式使得确定的针对性更强,进一步地提高准确性。
为了便于本领域技术人员理解,以下列举几种可能的方式来说明如何从多个声源对象中确定出目标声源对象,应该理解的是,以下举例只是示意性的说明,其并不对本发明实施例构成限定,除去以下所列举的方式,在具体实施过程中还可以再采用其它的确定方式,本文中并不穷举。
作为一种可选的方式,在执行完步骤101之后,需要按照预设确定规则,确定出目标声源对象,预设确定规则至少包括以下两种:
第一种确定方式
对至少两个声源对象的语音信息分别进行语音识别,以获得每个声源对象对应的语音内容,再将包括预设关键词的语音内容对应的声源对象确定为目标声源对象。
在第一种确定方式中,可以预先存储一些关键词,预存的这些关键词称作预设关键词,预设关键词可以是一个词语,也可以是一组词语的集合(即包括多个预设关键),以应用在家电设备控制中为例,预设关键词例如可以为“煮饭”、“开启空调”、“煮饭、煲粥、制冷”,等等,再以在会议场景中为例,预设关键词例如可以为“张总”、“绩效考核”等词语。
当获取到环境中的多个声源对象的混合语音信息后,可以对获得的混合语音信息进行独立成分分析,其中,独立成分分析是指将获取到的混合语音信息分离开来,进而获得分离的语音信息,在分离的过程中,例如可以根据各个人的声纹特征不同进行区分,再对分离的语音信息进行语音识别,然后再将预设关键词与根据语音识别获得的语音内容进行比对,若某条语音内容中出现该预设关键词,则可以将该语音内容对应的输出者确定为目标声源对象。
由于是根据实时的语音内容对目标声源对象进行动态的识别和确定,所以可以将第一种确定方式理解为是前述介绍的动态的确定方式的具体实施方式。
在一种可能的实施方式中,可以将最早包括预设关键词的语音内容对应的声源对象确定为目标声源对象,也就是说,在众多的语音内容中,只要首次检测到预设关键词,那么就可以将首次说出该预设关键词的声源对象确定为是最终的目标声源对象,在后续的过程中,目标声源对象可以持续不变,这样的话,可以持续保持某个用户的目标声源对象的身份,便于对目标声源对象的身份进行保护,以尽量避免其他声源对象的干扰,确保语音采集的准确性。
例如,在家电设备的控制场景下,以预设关键词为“煮饭”为例,假设对获取的图像信息进行图像分析确定出声源对象为三人,那么对采集到的混合语音信息进行独立成分分析,获得三个分离的语音信息分别为语音信息1、语音信息2、语音信息3,然后对三个分离的语音信息进行语音识别,获得三条分离的语音内容即语音内容1、语音内容2、语音内容3,若语音内容3中包含有“煮饭”这个关键词,则确定发出语音内容3的人为目标声源对象。
在另一种可能的实施方式中,也可以先将最早包括预设关键词的语音内容对应的声源对象确定为目标声源对象,在此之后,若再检测到其它声源对象也输出了预设关键词,那么就可以对之前的目标声源对象进行更新,具体来说,就是将再次输出预设关键词的其它声源对象重新确定为目标声源对象,当然,这里的其它声源对象可能与之前确定的目标声源对象相同,或者也可以不同,由于预设关键词可以包括多个不同的词语,所以原始的目标声源对象之前所说的预设关键词与后来更新的目标声源对象所说的预设关键词可能不同。
可见,在整个语音采集过程中,目标声源对象可以是恒定不变的,或者也可以根据各个用户不同的语音内容对目标声源对象进行更新,即可以将目标声源对象的身份从一个用户切换到另外一个用户,从而增加目标声源对象的可变性和灵活性,以动态地改变语音采集的感兴趣目标。
第二种确定方式
根据获得图像信息对至少两个声源对象进行识别,并将属于预定对象集合的声源对象确定为目标声源对象。
在该方式中,可以预先存储至少一个人脸信息,该人脸信息例如是预定对象的人脸信息,预定对象是指预先设置的希望将其语音信号进行准确采集的用户,例如是对家里面的各个家居设备具有主控权限的用户,预定对象可以设置一个或多个,即预定对象集合,所以在获得了各个声源对象的图像信息之后,可以对各个声源对象的人脸进行是被,进而获得各个声源对象的人脸信息,进而再将确定出的多个人脸信息与预定对象的人脸信息进行比较,并将匹配出的(例如完全相同的)声源对象确定为是目标声源对象。
第三种确定方式
对至少两个声源对象的语音信息进行声纹识别,并将声纹属于预定声纹集合的声源对象确定为目标声源对象。
第三种确定方式与第二种确定方式的实施原理是类似的,即都是通过匹配比较的方式来找到目标声源对象,与第二种确定方式所不同的是,在第三种确定方式中是以声纹特征替代了第二种确定方式中的人脸信息这一生物特征信息,并且声纹特征也可以包括预定声纹集合。另外,可理解的是,例如还可以以虹膜信息或其它生物特征信息进行匹配比较。
在第三种确定方式中,还可以预先获得每个声源对象与自身的声纹特征之间的关联对应关系,通过该关联对应关系,可以准确地根据声纹特征确定出目标声源对象。例如,该关联对应关系可以是预先存储在本地的,在需要时即从本地读取即可,又或者,该关联对应关系可以是根据每个声源对象输出语音信息的时间和采集到语音信息的时间之间进行匹配而得到的,比如当对图像信息进行动作分析以确定某个声源对象正在说话时,同时也采集到了语音信号,那么则可以将同时采集到的语音信号的声纹特征确定为是当前正在说话的声源对象对应的声纹特征。
例如,以应用于会议室为例,预设声纹集合以经理的声纹信息为例,假设此刻会议室中正在进行头脑风暴,即经理和员工A、员工B、员工C、员工D进行方案探讨,此刻采集到的语音信号可以包括经理、员工A、员工B、员工C和员工D的混合语音信息,然后将该混合语音信息进行独立成分分析,获得分离的语音信息1、语音信息2、语音信息3、语音信息4、语音信息5,此刻的语音信息虽然是分离的,但是并不能确定分别是会议室中哪个人的语音信息,然后可以将这些分离的语音信息分别对应的声纹特征与关联对应关系进行比对,进而根据声纹特征确定出每个用户的语音信息。进一步地,再分别与预设声纹集合(即经理的声纹信息)进行比较,若最终匹配出的是语音信息5的声纹特征与预设声纹集合吻合,那么则可以将经理确定为目标声源对象。
通过上述介绍的几种预设确定规则的具体实施方式,可以准确的确定出目标声源对象,从而可以对目标声源对象发出的语音信号进行增强采集,以获得更为清楚的语音信息,使得后续的处理工作更加顺利,提升用户体验。
步骤103:根据图像信息,确定目标声源对象的目标位置。
如前所述,在获得多个声源对象的图像信息之后,通过对该图像信息进行分析,可以确定各个声源对象的位置,以及还可以确定各个声源对象之间的相对位置关系。为了便于描述,本发明实施例中将确定出的目标声源对象的位置称作目标位置。
步骤104:控制语音采集模块对目标位置的语音信号进行增强采集,以及对目标位置外的语音信号进行抑制。
本发明实施例中的语音采集模块是指能够进行语音采集的功能模块,为了便于理解,本文中以麦克风阵列为例进行说明。通过对目标位置的语音信号进行增强放大采集,以及对目标位置外的语音信号进行抑制,这样可以在较大程度上过滤到目标位置外的声音信号,进而对目标位置处的声音信号进行准确、清晰的采集,由于目标位置处的声音信号是由目标声源对象发出的,相当于是可以对目标声源对象所输出的语音信号进行增强、有效、准确的采集。
在具体实施过程中,可以是使用多个(例如6个)个麦克风组成的单排麦克风阵列,也可以使用6个麦克风阵列组成的环形麦克风阵列,具体的麦克风阵列可以根据实际情况选择,使用麦克风阵列,可以利用麦克风接收到的声波的相位之间的差异对声波进行过滤,能较大限度地将干扰声音信号(例如环境噪声)滤除,以尽量只保留需要的声音信号。
作为一种可选的方式,若是使用6个麦克风组成的单排麦克风阵列进行语音信号采集,在确定出目标声源对象的目标位置之后,可以控制单排麦克风阵列进行转动以将采集区域对准目标位置,进而增强目标位置的语音信号。例如图3所示,假设会议室中的声源对象有3人,分别为员工A、员工B以及员工C,且确定目标声源对象为员工C,那么在确定员工C的位置之后,可将单排麦克风阵列对准员工C的位置来采集语音信号,以实现对员工C的语音信号的增强采集,对员工A和员工B的语音信号进行抑制。
作为另一种可选的方式,若是使用6个麦克风阵列组成的环形麦克风阵列进行语音信号采集,在确定出目标声源对象的目标位置之后,可以控制环形麦克风阵列将空域滤波器的主瓣对准目标声源对象的目标位置,进而对目标位置的语音信号进行增强采集,以及对目标位置外的语音信号进行抑制。例如图4所示,假设会议室中的声源对象有5人,分别为员工A、员工B、员工C、员工D以及经理,且确定目标声源对象为经理,那么则可以控制环形麦克风阵列将空域滤波器主瓣对准经理的位置来采集语音信号,以实现对经理的语音信号的增强采集,对员工A、员工B、员工C及员工D的语音信号进行抑制。
在具体实施过程中,当使用麦克风阵列采集到语音信号之后,还可以进一步地对采集到的语音信号进行降噪、滤波等优化处理,从而将处理后的语音信号传递后后续的处理流程,增强语音信号的质量。
在本发明实施例中,在包括多声源对象的应用场景下,可以先获得多个声源对象的图像信息以对多个声源对象进行有效识别,并可以按照预设确定规则从多个声源对象中确定目标声源对象,进而可以根据获得的图像信息来确定目标声源对象的目标位置,然后在控制语音采集模块对目标位置的语音信号进行增强采集,以及对目标位置外的语音信号进行抑制,由于目标位置是目标声源对象所在的位置,相当于是对目标声源对象所发出的语音信号进行增强采集,同时通过抑制其它声源对象的语音信号的方式来提高对目标声源对象的语音信号采集的准确性和有效性,从而提高语音采集的准确性。
基于同一发明构思,本发明实施例提供了一种用于语音采集装置,该语音采集装置能够实现前述的语音采集方法对应的功能。该语音采集装置可以是硬件结构、软件模块、或硬件结构加软件模块。该语音采集装置可以由芯片系统实现,芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。请参见图5所示,该语音采集装置包括获取模块501、第一确定模块502、第二确定模块503和控制模块504。其中:
获取模块501,用于获取至少两个声源对象的图像信息,其中,每个声源对象为能够输出语音信息的对象;
第一确定模块502,用于按照预设确定规则,从至少两个声源对象中确定目标声源对象;
第二确定模块503,用于根据图像信息,确定目标声源对象的目标位置;
控制模块504,用于控制语音采集模块对目标位置的语音信号进行增强采集,以及对目标位置外的语音信号进行抑制。
可选的,第一确定模块502用于:
对至少两个声源对象的语音信息分别进行语音识别,以获得每个声源对象对应的语音内容;
将包括预设关键词的语音内容对应的声源对象确定为目标声源对象。
可选的,第一确定模块502用于:
将最早包括预设关键词的语音内容对应的声源对象确定为目标声源对象;或者,
在将最早包括预设关键词的语音内容对应的声源对象确定为目标声源对象之后,将目标声源对象更新为再次包括预设关键词的语音内容对应的声源对象。
可选的,第一确定模块502用于:
根据获得图像信息对至少两个声源对象进行识别,并将属于预定对象集合的声源对象确定为目标声源对象;和/或,
对至少两个声源对象的语音信息进行声纹识别,并将声纹属于预定声纹集合的声源对象确定为目标声源对象。
可选的,语音采集装置还包括获得模块,用于:
在第一确定模块502将声纹属于预定声纹集合的声源对象确定为目标声源对象之前,获得每个声源对象与自身的声纹特征之间的关联对应关系。
前述的语音采集方法的实施例涉及的各步骤的所有相关内容均可以援引到本发明实施例中的语音采集装置所对应的功能模块的功能描述,在此不再赘述。
本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
基于同一发明构思,本发明实施例提供一种语音采集设备,请参见图6所示,该语音采集设备包括至少一个处理器601,以及与至少一个处理器连接的存储器602,本发明实施例中不限定处理器601与存储器602之间的具体连接介质,图6中是以处理器601和存储器602之间通过总线600连接为例,总线600在图6中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线600可以分为地址总线、数据总线、控制总线等,为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。另外,该语音采集设备还可以包括语音采集模块603,该语音采集模块603也可以通过总线600与处理器601和存储器602连接,并且能够根据处理器601的控制进行语音采集,例如,语音采集模块603为麦克风或麦克风阵列。
在本发明实施例中,存储器602存储有可被至少一个处理器601执行的指令,至少一个处理器601通过执行存储器602存储的指令,可以执行前述的语音采集方法中所包括的步骤。
其中,处理器601是语音采集设备的控制中心,可以利用各种接口和线路连接整个语音采集设备的各个部分,通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据,语音采集设备的各种功能和处理数据,从而对语音采集设备进行整体监控。可选的,处理器601可包括一个或多个处理单元,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。在一些实施例中,处理器601和存储器602可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器601可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本发明实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器601进行设计编程,可以将前述实施例中介绍的语音采集方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述的语音采集方法的步骤,如何对处理器601进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于同一发明构思,本发明实施例还提供一种存储介质,该存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行如前述的语音采集方法的步骤。
在一些可能的实施方式中,本发明提供的语音采集方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在语音采集设备上运行时,所述程序代码用于使该语音采集设备执行本说明书上述描述的根据本发明各种示例性实施方式的语音采集方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种语音采集方法,其特征在于,所述方法包括:
获取至少两个声源对象的图像信息,其中,每个声源对象为能够输出语音信息的对象;
按照预设确定规则,从所述至少两个声源对象中确定目标声源对象;
根据所述图像信息,确定所述目标声源对象的目标位置;
控制语音采集模块对所述目标位置的语音信号进行增强采集,以及对所述目标位置外的语音信号进行抑制;
其中,按照预设确定规则,从所述至少两个声源对象中确定目标声源对象,包括:
对所述至少两个声源对象的语音信息分别进行语音识别,以获得每个声源对象对应的语音内容;
将最早包括预设关键词的语音内容对应的声源对象确定为所述目标声源对象;或者,在将最早包括预设关键词的语音内容对应的声源对象确定为所述目标声源对象之后,将所述目标声源对象更新为再次包括所述预设关键词的语音内容对应的声源对象。
2.如权利要求1所述的方法,其特征在于,按照预设确定规则,从所述至少两个声源对象中确定目标声源对象,包括:
根据获得图像信息对所述至少两个声源对象进行识别,并将属于预定对象集合的声源对象确定为所述目标声源对象;和/或,
对所述至少两个声源对象的语音信息进行声纹识别,并将声纹属于预定声纹集合的声源对象确定为所述目标声源对象。
3.如权利要求2所述的方法,其特征在于,在将声纹属于预定声纹集合的声源对象确定为所述目标声源对象之前,所述方法还包括:
获得每个声源对象与自身的声纹特征之间的关联对应关系。
4.一种语音采集装置,其特征在于,所述语音采集装置包括:
获取模块,用于获取至少两个声源对象的图像信息,其中,每个声源对象为能够输出语音信息的对象;
第一确定模块,用于按照预设确定规则,从所述至少两个声源对象中确定目标声源对象;
第二确定模块,用于根据所述图像信息,确定所述目标声源对象的目标位置;
控制模块,用于控制语音采集模块对所述目标位置的语音信号进行增强采集,以及对所述目标位置外的语音信号进行抑制;
其中,所述第一确定模块用于:
对所述至少两个声源对象的语音信息分别进行语音识别,以获得每个声源对象对应的语音内容;
将最早包括预设关键词的语音内容对应的声源对象确定为所述目标声源对象;或者,
在将最早包括预设关键词的语音内容对应的声源对象确定为所述目标声源对象之后,将所述目标声源对象更新为再次包括所述预设关键词的语音内容对应的声源对象。
5.一种语音采集设备,其特征在于,所述语音采集设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1-3任一所述的方法包括的步骤;
语音采集模块,用于根据所述处理器的控制进行语音采集。
6.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1-3任一所述的方法包括的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811213581.1A CN111081234B (zh) | 2018-10-18 | 2018-10-18 | 一种语音采集方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811213581.1A CN111081234B (zh) | 2018-10-18 | 2018-10-18 | 一种语音采集方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111081234A CN111081234A (zh) | 2020-04-28 |
CN111081234B true CN111081234B (zh) | 2022-03-25 |
Family
ID=70308588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811213581.1A Active CN111081234B (zh) | 2018-10-18 | 2018-10-18 | 一种语音采集方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111081234B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767793A (zh) * | 2020-05-25 | 2020-10-13 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
CN113676592B (zh) * | 2021-08-02 | 2023-02-17 | Oppo广东移动通信有限公司 | 录音方法、装置、电子设备及计算机可读介质 |
CN113707183B (zh) * | 2021-09-02 | 2024-04-19 | 北京奇艺世纪科技有限公司 | 一种视频中的音频处理方法及装置 |
CN113628623B (zh) * | 2021-10-11 | 2022-02-08 | 深圳市一号互联科技有限公司 | 一种智能语音识别处理方法及系统 |
CN116962564A (zh) * | 2022-04-19 | 2023-10-27 | 华为技术有限公司 | 一种定向拾音方法及设备 |
CN116312564A (zh) * | 2023-05-22 | 2023-06-23 | 安徽谱图科技有限公司 | 一种基于声纹技术的视频会议用啸叫抑制设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100571451C (zh) * | 2004-01-19 | 2009-12-16 | 宏碁股份有限公司 | 结合定位技术的麦克风阵列收音方法及其系统 |
TWI406266B (zh) * | 2011-06-03 | 2013-08-21 | Univ Nat Chiao Tung | 語音辨識裝置及其辨識方法 |
US9646610B2 (en) * | 2012-10-30 | 2017-05-09 | Motorola Solutions, Inc. | Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition |
CN106531179B (zh) * | 2015-09-10 | 2019-08-20 | 中国科学院声学研究所 | 一种基于语义先验的选择性注意的多通道语音增强方法 |
CN106603878B (zh) * | 2016-12-09 | 2019-09-06 | 奇酷互联网络科技(深圳)有限公司 | 语音定位方法、装置和系统 |
CN108159702B (zh) * | 2017-12-06 | 2021-08-20 | Oppo广东移动通信有限公司 | 基于多人语音游戏处理方法和装置 |
-
2018
- 2018-10-18 CN CN201811213581.1A patent/CN111081234B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111081234A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111081234B (zh) | 一种语音采集方法、装置、设备及存储介质 | |
CN110291489B (zh) | 计算上高效的人类标识智能助理计算机 | |
US20210074315A1 (en) | Augmented multi-tier classifier for multi-modal voice activity detection | |
US10089454B2 (en) | Enhanced accuracy of user presence status determination | |
US11916635B2 (en) | Self-learning based on Wi-Fi-based monitoring and augmentation | |
CN109344722B (zh) | 一种用户身份确定方法、装置及电子设备 | |
CN111081257A (zh) | 一种语音采集方法、装置、设备及存储介质 | |
CN110400566B (zh) | 识别方法和电子设备 | |
CN105512348A (zh) | 用于处理视频和相关音频的方法和装置及检索方法和装置 | |
CN110808048A (zh) | 语音处理方法、装置、系统及存储介质 | |
CN111868823B (zh) | 一种声源分离方法、装置及设备 | |
US10325600B2 (en) | Locating individuals using microphone arrays and voice pattern matching | |
US9165182B2 (en) | Method and apparatus for using face detection information to improve speaker segmentation | |
CN110705356A (zh) | 功能控制方法及相关设备 | |
US11996114B2 (en) | End-to-end time-domain multitask learning for ML-based speech enhancement | |
CN109671430A (zh) | 一种语音处理方法及装置 | |
CN105589798A (zh) | 征信值计算方法及装置 | |
CN109147801B (zh) | 语音交互方法、系统、终端及存储介质 | |
US20100138040A1 (en) | Apparatus for detecting user and method for detecting user by the same | |
Park et al. | ReLiSCE: utilizing resource-limited sensors for office activity context extraction | |
CN112487246A (zh) | 一种多人视频中发言人的识别方法和装置 | |
Cabañas-Molero et al. | Multimodal speaker diarization for meetings using volume-evaluated SRP-PHAT and video analysis | |
CN112417923A (zh) | 用于控制智能设备的系统、方法和装置 | |
CN111103807A (zh) | 一种家用终端设备的控制方法及装置 | |
CN112466305B (zh) | 饮水机的语音控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |