CN104715753B - 一种数据处理的方法及电子设备 - Google Patents

一种数据处理的方法及电子设备 Download PDF

Info

Publication number
CN104715753B
CN104715753B CN201310681412.1A CN201310681412A CN104715753B CN 104715753 B CN104715753 B CN 104715753B CN 201310681412 A CN201310681412 A CN 201310681412A CN 104715753 B CN104715753 B CN 104715753B
Authority
CN
China
Prior art keywords
sound
image
angle value
acquisition
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310681412.1A
Other languages
English (en)
Other versions
CN104715753A (zh
Inventor
黄磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201310681412.1A priority Critical patent/CN104715753B/zh
Publication of CN104715753A publication Critical patent/CN104715753A/zh
Application granted granted Critical
Publication of CN104715753B publication Critical patent/CN104715753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种数据处理方法及电子设备,用于解决现有技术中当环境噪声较大时,语音识别系统难以达到较高的识别率的技术问题,包括:获得通过一图像采集单元采集获得的声音输出对象的目标图像数据;基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值;当一声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,以获得一语音识别结果。

Description

一种数据处理的方法及电子设备
技术领域
本申请涉及电子技术领域,特别涉及一种数据处理的方法及电子设备。
背景技术
随着电子技术的快速发展,语音识别技术也得到了快速的发展和广泛的应用,语音识别的目的是将人类语音中的词汇内容转换为电子设备可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。
语音识别方法主要是模式匹配法,包括训练和识别两个阶段。不管是训练还是识别,都必须对输入语音预处理和特征提取。训练阶段所做的具体工作是通过用户输入若干次训练语音,经过预处理和特征提取后得到特征矢量参数,最后通过特征建模达到建立训练语音的参考模型库的目的;而识别阶段所做的主要工作是将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较,然后把相似性最高的输入特征矢量作为识别结果输出。这样,最终就达到了语音识别的目的。
语音识别主要应用于PC领域和嵌入式领域。目前国内在PC应用领域,具有代表性的有:科大讯飞的InterReco2.0、中科模式识别的Pattek ASR3.0、捷通华声的jASRv5.5;在嵌入式应用领域,具有代表性的有:凌阳的SPCE061A、ICRoute的LD332X、上海华镇电子的WS-117;总而言之,是通过在各语音识别硬件模块内部集成语音识别算法,从而通过软硬件结合来实现语音识别。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
当目标声音输出者所在的环境中噪声很大时,电子设备通过语音识别硬件系统和软件算法进行语音识别的识别率不高,也就是说,现有技术中存在当环境噪声较大时,语音识别系统难以达到较高的识别率的技术问题。
发明内容
本申请实施例通过提供一种数据处理的方法及电子设备,用以解决现有技术中存在当环境噪声较大时,语音识别系统难以达到较高的识别率的技术问题,提高了电子设备在环境噪声较大时的语音识别率。
一方面,本申请实施例提供了一种数据处理的方法,应用于一电子设备中,所述方法包括:
获得通过一图像采集单元采集获得的声音输出对象的目标图像数据;
基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值;
当一声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,以获得一语音识别结果。
可选的,所述图像采集单元至少包括第一摄像头和第二摄像头,所述获得通过一图像采集单元采集获得的声音输出对象的目标图像数据,具体包括:
获得通过所述第一摄像头采集获得的所述声音输出对象的第一图像数据;
获得通过所述第二摄像头采集获得的所述声音输出对象的第二图像数据;
基于所述第一图像数据和所述第二图像数据,获得所述目标图像数据。
可选的,所述基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值,具体为:
基于所述第一图像数据和所述第二图像数据,获取所述声音输出对象与所述第一位置间的所述第一参考距离值和所述第一参考角度值。
可选的,所述第一摄像头与所述第二摄像头之间的距离为第一预设距离,所述基于所述第一图像数据和所述第二图像数据,获取所述声音输出对象与所述第一位置间的所述第一参考距离值和所述第一参考角度值,具体包括:
基于所述第一图像数据,获取所述第一摄像头与所述声音输出对象的第一角度值;以及
基于所述第二图像数据,获取所述第二摄像头与所述声音输出对象的第二角度值;
基于所述第一预设距离,所述第一角度值以及所述第二角度值,确定所述第一参考距离值和所述第一参考角度值。
可选的,所述当一声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,以获得一语音识别结果,具体包括:
获取所述声音采集单元的所述第二位置;
判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果;
当所述第一判断结果为是时,至少基于所述第一参考距离值和所述第一参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
可选的,在所述判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果之后,所述方法还包括:
当所述第一判断结果为否时,基于所述第一位置与所述第二位置获得所述图像采集单元与所述声音采集单元的第二参考距离值和第二参考角度值;
至少基于所述第一参考距离值,所述第一参考角度值,所述第二参考距离值以及所述第二参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
可选的,所述获取所述声音采集单元的所述第二位置,具体为:
通过所述图像采集单元获取包含所述声音采集单元的第一图像;
对所述第一图像进行处理,确定所述第二位置。
可选的,所述获得通过一图像采集单元采集获得的声音输出对象的目标图像数据,具体包括:
获得通过所述图像采集单元采集获得的所述声音输出对象的环境图像画面,其中,所述环境图像画面包含所述声音输出对象的目标图像画面;
判断所述目标图像画面是否位于所述环境图像画面的预设位置,获得第二判断结果;
当所述第二判断结果为是时,基于所述目标图像画面获得所述目标图像数据。
可选的,在所述判断所述目标图像画面是否位于所述环境图像画面的预设位置,获得第二判断结果之后,所述方法还包括:
当所述第二判断结果为否时,对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置。
可选的,在所述对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置之后,所述方法还包括:
获取用于对所述图像采集单元进行调整的第一调整参数;
基于所述第一调整参数,对所述声音采集单元进行调整,使所述声音采集单元位于所述第二位置,其中,当所述声音采集单元位于所述第二位置时,所述声音采集单元指向所述声音输出对象。
另一方面,本申请实施例还提供了一种数据处理的电子设备,包括:
第一获取单元,用于获得通过一图像采集单元采集获得的声音输出对象的目标图像数据;
第二获取单元,用于基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值;
第一处理单元,用于当一声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,以获得一语音识别结果。
可选的,所述图像采集单元至少包括第一摄像头和第二摄像头,所述第一获取单元,具体包括:
第一获取子单元,用于获得通过所述第一摄像头采集获得的所述声音输出对象的第一图像数据;
第二获取子单元,用于获得通过所述第二摄像头采集获得的所述声音输出对象的第二图像数据;
第三获取子单元,用于基于所述第一图像数据和所述第二图像数据,获得所述目标图像数据。
可选的,所述第二获取单元基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值,具体为:
基于所述第一图像数据和所述第二图像数据,获取所述声音输出对象与所述第一位置间的所述第一参考距离值和所述第一参考角度值。
可选的,所述第一摄像头与所述第二摄像头之间的距离为第一预设距离,所述第二获取单元具体包括:
第四获取子单元,用于基于所述第一图像数据,获取所述第一摄像头与所述声音输出对象的第一角度值;
第五获取子单元,用于在所述第四获取子单元基于所述第一图像数据,获取所述第一摄像头与所述声音输出对象的第一角度值时,基于所述第二图像数据,获取所述第二摄像头与所述声音输出对象的第二角度值;
第一确定子单元,用于基于所述第一预设距离,所述第一角度值以及所述第二角度值,确定所述第一参考距离值和所述第一参考角度值。
可选的,所述第一处理单元,具体包括:
第六获取子单元,用于获取所述声音采集单元的所述第二位置;
第一判断子单元,用于判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果;
第一处理子单元,用于当所述第一判断结果为是时,至少基于所述第一参考距离值和所述第一参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
可选的,所述第一处理单元,还包括:
第七获取子单元,用于在所述第一判断子单元判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果之后,当所述第一判断结果为否时,基于所述第一位置与所述第二位置获得所述图像采集单元与所述声音采集单元的第二参考距离值和第二参考角度值;
第二处理子单元,至少基于所述第一参考距离值,所述第一参考角度值,所述第二参考距离值以及所述第二参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
可选的,所述第六获取子单元,具体包括:
第一获取模块,用于通过所述图像采集单元获取包含所述声音采集单元的第一图像;
第一确定模块,用于对所述第一图像进行处理,确定所述第二位置。
可选的,所述第一获取单元,具体包括:
第八获取子单元,用于获得通过所述图像采集单元采集获得的所述声音输出对象的环境图像画面,其中,所述环境图像画面包含所述声音输出对象的目标图像画面;
第二判断子单元,用于判断所述目标图像画面是否位于所述环境图像画面的预设位置,获得第二判断结果;
第九获取子单元,用于当所述第二判断结果为是时,基于所述目标图像画面获得所述目标图像数据。
可选的,所述第一获取单元,还包括:
第一调整子单元,用于当所述第二判断结果为否时,对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置。
可选的,所述第一获取单元,还包括:
第十获取子单元,用于在所述第一调整子单元对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置之后,获取用于对所述图像采集单元进行调整的第一调整参数;
第二调整子单元,用于基于所述第一调整参数,对所述声音采集单元进行调整,使所述声音采集单元位于所述第二位置,其中,当所述声音采集单元位于所述第二位置时,所述声音采集单元指向所述声音输出对象。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
(1)由于在本申请实施例中,获得通过图像采集单元获得的声音输出对象的目标图像数据,并基于所述目标图像数据,获取声音输出对象与图像采集单元所在的第一位置间的第一参考距离值和第一参考角度值,当声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,以获得一语音识别结果,也就是说,电子设备在进行语音识别时,借助图像采集单元的人脸识别功能,首先通过图像采集单元确定声音输出对象与图像采集单元的距离值和角度值,并基于所述距离值和所述角度值对声音采集单元采集到的环境声音信息进行识别处理,解决了现有技术中存在的当环境噪声较大时,语音识别系统难以达到较高的识别率的技术问题,实现了提高电子设备在环境噪声较大时的语音识别率的技术效果。
(2)由于在本申请实施例中,图像采集单元设置有至少两个摄像头,即第一摄像头和第二摄像头,分别通过两个摄像头获取声音输出对象的图像数据,即第一图像数据和第二图像数据,并基于第一图像数据和第二图像数据获取声音输出对象与图像采集单元的位置间的第一参考距离值和第一参考角度值,使得获取到的用于语音识别处理的数据信息(即第一参考距离值和第一参考角度值)更加精确,从而提高语音识别率。
(3)由于在本申请实施例中,在进行语音识别时,还会获取声音采集单元的第二位置,并结合声音采集单元和图像采集单元之间的位置关系,来有针对性的对声音采集单元获取的声音信息进行语音识别处理。如当第二位置与所述第一位置间的距离小于等于第二预设距离时,至少基于所述第一参考距离值和所述第一参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果;当第二位置与所述第一位置间的距离大于第二预设距离时,至少基于所述第一参考距离值,所述第一参考角度值,所述第二参考距离值以及所述第二参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果,实现了在语音识别过程中,充分考虑图像采集单元和声音采集单元的位置关系,有针对性地对采集到的声音信息进行语音识别处理的技术效果。
(4)由于在本申请实施例中,电子设备会获得通过所述图像采集单元采集获得的所述声音输出对象的环境图像画面,并判断声音输出对象中的目标声音输出对象的目标图像画面是否位于所述环境图像画面的预设位置,如图像采集单元镜头的中间位置,并在所述目标图像画面不是位于所述预设位置时,以第一调整参数调整图像采集单元的位置,使目标图像画面位于所述预设位置,实现了通过调整图像采集单元使获取到的图像数据更准确,从而获得更准确的第一参考距离值和第一参考角度值的技术效果。
(5)进一步,由于在本申请实施例中,在对图像采集单元进行调整后,还会基于第一调整参数调整声音采集单元的位置,使所述声音采集单元指向所述声音输出对象,尤其是指向所述声音输出对象中的目标声音输出对象,实现了声音采集单元在进行声音信息采集时具有方向性,从而采集到更多有效声音信息的技术效果。
附图说明
图1为本申请实施例提供的一种数据处理的方法流程图;
图2-图3为本申请实施例提供的不同定位方式示意图;
图4为本申请实施例提供的一种电子设备的结构框图。
具体实施方式
本申请实施例通过提供一种数据处理的方法及电子设备,解决了现有技术中存在的当环境噪声较大时,语音识别系统难以达到较高的识别率的技术问题,提高了电子设备在环境噪声较大时的语音识别率。
本申请实施例中的技术方案为解决上述问题,总体思路如下:
本申请实施例提供了一种数据处理的方法,应用于一电子设备中,所述方法包括:获得通过一图像采集单元采集获得的声音输出对象的目标图像数据;基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值;当一声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,以获得一语音识别结果。
可见,本申请实施例中电子设备在进行语音识别时,借助图像采集单元的人脸识别功能,首先通过图像采集单元确定声音输出对象与图像采集单元的距离值和角度值,并基于所述距离值和所述角度值对声音采集单元采集到的环境声音信息进行识别处理,解决了现有技术中存在的当环境噪声较大时,语音识别系统难以达到较高的识别率的技术问题,实现了提高电子设备在环境噪声较大时的语音识别率的技术效果。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
请参考图1,本申请实施例提供了一种数据处理的方法,应用于一电子设备中,所述电子设备可以是一体机电脑,手机,PDA等,所述方法包括步骤:
S101:获得通过一图像采集单元采集获得的声音输出对象的目标图像数据;
S102:基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值;
S103:当一声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,以获得一语音识别结果。
在具体实施过程中,为了使得获取到的用于语音识别处理的数据信息(即第一参考距离值和第一参考角度值)更加精确,从而提高语音识别率。所述图像采集单元至少包括第一摄像头和第二摄像头,所述获得通过一图像采集单元采集获得的声音输出对象的目标图像数据,具体包括:
获得通过所述第一摄像头采集获得的所述声音输出对象的第一图像数据;
获得通过所述第二摄像头采集获得的所述声音输出对象的第二图像数据;
基于所述第一图像数据和所述第二图像数据,获得所述目标图像数据。
进一步,步骤S102:基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值,具体为:
基于所述第一图像数据和所述第二图像数据,获取所述声音输出对象与所述第一位置间的所述第一参考距离值和所述第一参考角度值。
具体的,所述第一摄像头与所述第二摄像头之间的距离为第一预设距离,所述基于所述第一图像数据和所述第二图像数据,获取所述声音输出对象与所述第一位置间的所述第一参考距离值和所述第一参考角度值,具体包括:
基于所述第一图像数据,获取所述第一摄像头与所述声音输出对象的第一角度值;以及
基于所述第二图像数据,获取所述第二摄像头与所述声音输出对象的第二角度值;
基于所述第一预设距离,所述第一角度值以及所述第二角度值,确定所述第一参考距离值和所述第一参考角度值。
在具体实施过程中,为了在语音识别过程中,充分考虑图像采集单元和声音采集单元的位置关系,有针对性地对采集到的声音信息进行语音识别处理的技术效果,所述步骤S103:当一声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,以获得一语音识别结果,具体包括:
获取所述声音采集单元的所述第二位置;
判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果;
当所述第一判断结果为是时,至少基于所述第一参考距离值和所述第一参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
进一步,在所述判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果之后,所述方法还包括:
当所述第一判断结果为否时,基于所述第一位置与所述第二位置获得所述图像采集单元与所述声音采集单元的第二参考距离值和第二参考角度值;
至少基于所述第一参考距离值,所述第一参考角度值,所述第二参考距离值以及所述第二参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
具体的,所述获取所述声音采集单元的所述第二位置,具体为:
通过所述图像采集单元获取包含所述声音采集单元的第一图像;
对所述第一图像进行处理,确定所述第二位置。
在具体实施过程中,为了使得通过调整图像采集单元使获取到的图像数据更准确,从而获得更准确的第一参考距离值和第一参考角度值,步骤S101:获得通过一图像采集单元采集获得的声音输出对象的目标图像数据,具体包括:
获得通过所述图像采集单元采集获得的所述声音输出对象的环境图像画面,其中,所述环境图像画面包含所述声音输出对象的目标图像画面;
判断所述目标图像画面是否位于所述环境图像画面的预设位置,获得第二判断结果;
当所述第二判断结果为是时,基于所述目标图像画面获得所述目标图像数据。
在具体实施过程中,在所述判断所述目标图像画面是否位于所述环境图像画面的预设位置,获得第二判断结果之后,所述方法还包括:
当所述第二判断结果为否时,对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置。
进一步,为了使声音采集单元在进行声音信息采集时具有方向性,从而采集到更多有效的声音信息,在所述对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置之后,所述方法还包括:
获取用于对所述图像采集单元进行调整的第一调整参数;
基于所述第一调整参数,对所述声音采集单元进行调整,使所述声音采集单元位于所述第二位置,其中,当所述声音采集单元位于所述第二位置时,所述声音采集单元指向所述声音输出对象。
实施例一
在本实施例中,以电子设备为一体机电脑为例,目前,许多一体机电脑具有语音识别功能,例如,通过语音控制电子设备,具体为,用户通过发出语音“开机”或“关机”从而实现自动打开或关闭电子设备的目的,还可通过发出语音“打开/关闭浏览器”实现自动打开或关闭浏览器的目的等,又如用于浏览器的语音输入,即当用户在使用浏览器且需要进行输入操作时,只需要将要搜索的内容说出,电子设备便可接收并进行识别操作,并进行网页响应,如用户发出语音“英语学习”,浏览器就会打开关于英语学习的相关网页等。
在一体机电脑的主板上设置有摄像头和麦克风,当电子设备的语音识别功能开启时,摄像头首先会通过人脸识别技术对用户进行定位,可以是对特定用户,也可以是对非特定用户。
(1)如果图像采集单元是对特定用户进行人脸识别,那么在电子设备内存中存储有一个或数个特定用户的人脸模板数据,在图像采集单元采集到人脸数据后,电子设备计算测试与特定用户的人脸模板之间的匹配程度,并通过阈值来判断是否存在特定用户的人脸,确定相似度最高的人脸数据,并将该用户确定为目标用户,并对该目标用户进行定位,确定出其与图像采集单元的距离值和角度值(即第一参考距离值和第一参考角度值)。
具体的,请参考图2,电子设备20包括图像采集单元201,声音采集单元202,以及数据处理单元203,其中,图像采集单元201、声音采集单元202分别与数据处理单元203相连,数据处理单元203用于处理图像采集单元201获取的图像数据,以及声音采集单元202获取的声音信息。
在空间坐标系下,以图像采集单元201,声音采集单元202,以及声音输出对象在同一个垂直平面yoz内为例,声音采集单元202在图像采集单元201正下方bm处。在图2中,图像采集单元201采集获取到声音输出对象(即用户)的目标图像数据,并根据图像采集单元自身的焦距,放大系数,以及目标图像在镜头中的画面大小,确定出声音输出对象与图像采集单元201的第一参考距离值(am)和第一参考角度值(α°),α°具体为图像采集单元的拍摄方向相对于水平面xoy的夹角,也就是说,图像采集单元的拍摄方向与垂直方向的夹角为A=(90-α)°。在图2中,声音采集单元202获取声音输出对象所在环境的声音信息,并送入数据处理单元203进行处理,根据声音的传输特性,声音输出对象位于声音采集单元的不同方位(包括角度和距离两个概念),声音采集单元采集到的声音数据也会有所不同,也就是说,数据处理单元在对采集到的声音信息进行分析处理时,会解析出声音信息中各声音数据的发生源的大致方位。又由于在本申请实施例中,可以结合声音采集单元与图像采集单元的距离差(bm),以及图像采集单元获取的第一参考距离值(am)和第一参考角度值(α°),获得声音输出对象中目标声音输出对象(即目标用户)距离声音采集单元202的参考方位,结合图2可知,声音采集单元202与声音输出对象的距离为:
进一步,声音采集单元202与声音输出对象的夹角,在本实施例中即为声音采集单元202采集声音信息的方向与水平方向的夹角,记为β:
那么,在数据处理单元在对采集到的声音信息进行识别处理的过程中,就可以提取出符合所述参考方位的声音信息,滤除掉其它的声音信息,从而达到语音识别的效果,其中,所述参考方位即为声音采集单元与目标声音输出对象的距离值c和角度值β。
当然,在实际应用过程中,图像采集单元201,声音采集单元202,以及声音输出对象也可以不在一个垂直平面内,但是,与上述通过第一参考距离值,第一参考角度值,以及声音采集单元与图像采集单元的方位差(包括距离差值和角度差值),来获取目标声音输出对象与声音采集单元的距离值和角度值,从而基于目标声音输出对象与声音采集单元的距离值和角度值,对采集到的声音信息进行语音识别处理的基本思想是一样的。另外,声音采集单元可以是两个,对称设置在图像采集单元的两侧。
在具体实施过程中,由于在一体机中,图像采集单元(主要功能模块为摄像头)和声音采集单元(主要功能模块为麦克风)在同一主板上,二者之间的距离在50cm以内,在进行语音处理的过程中可以认为二者近似位于同一位置,那么通过确定出的目标用户与图像采集单元间的距离值和角度值,也可认为是目标用户与声音采集单元的距离值和角度值,也就是说,可以直接利用获取到的图像采集单元与目标用户之间的距离值和角度值作为数据处理单元对采集到的声音信息进行处理的参考数据,而不需要再计算出声音采集单元与目标用户之间的距离值和角度值。
(2)如果图像采集单元是对非特定用户进行人脸识别,那么在电子设备内存中存储有一个或数个标准人脸的模板,在图像采集单元采集到人脸数据后,电子设备计算测试与标准模板之间的匹配程度,并通过阈值来判断是否存在人脸,并确定为声音输出对象,并对每个声音输出对象进行定位,确定出其与图像采集单元的距离值和角度值(即第一参考距离值和第一参考角度值)。
然后,按照与本实施例中“电子设备在图像采集单元对特定用户进行人脸识别后,确定目标声音输出对象与声音采集单元的距离值和角度值作为语音识别的参考数据的实施方式”相同或相似的实施方式,确定并基于每个声音输出对象与声音采集单元的距离值和角度值,滤除声音信息中除人声以外的声音信息,并利用语音识别算法对余下的声音信息进行关键词识别,如“关机”、“开机”等,从而提高电子设备在环境噪声较大时的语音识别率。
实施例二
请参考图3,在本申请实施例中,电子设备的图像采集单元包含有第一摄像头301和第二摄像头302,电子设备的声音采集单元也包含第一麦克风303和第二麦克风304,其中,第一摄像头301、第二摄像头302、第一麦克风303和第二麦克风304分别与数据处理单元305相连,数据处理单元305用于处理图像采集单元获取的图像数据,以及声音采集单元获取的声音信息。
在具体实施过程中,电子设备通过第一摄像头获取声音输出对象(可以是特定用户,也可是非特定用户)的第一图像数据,并确定出声音输出对象与第一摄像头之间的第一角度值,以及通过第二摄像头获取声音输出对象的第二图像数据,并确定出声音输出对象与第二摄像头之间的第二角度值,其中,第一摄像头301和第二摄像头302之间的距离是已知的为bm。具体而言,第一摄像头301和第二摄像头302之间的距离可以固定,也可以根据实际应用需要进行自动调整。当第一摄像头301和第二摄像头302之间的距离可以调整时,两个摄像头之间具有传感装置,并且在两个摄像头进行距离调整时,即时地将二者之间的当前距离差值传送给数据处理单元305。
其中,电子设备通过图像采集单元确定第一角度值和第二角度值的具体实施方式同实施例一中通过图像采集单元获取第一参考距离值和第二参考距离值的具体实施方式相同或相似,这里不再一一赘述。
由图3可知,第一摄像头301与声音输出对象的第一角度值为θ1,第二摄像头302与声音输出对象的第二角度值为θ2,又第一摄像头301与第二摄像头302之间的距离值确定为bm,可以确定出声音输出对象距离第一摄像头301的距离值am,声音输出对象距离第二摄像头302的距离值cm。a、c的具体计算式如下:
其中,A=(90-θ2)°,B=(θ1+θ2)°,C=(90-θ1)°。
进一步,可以确定出声音输出对象与图像采集单元间的距离值和角度值,并作为数据处理单元进行语音识别的参考数据。
在本实施例中,具体有以下几种具体实施方式:
(1)当声音采集单元只有一个麦克风时,可以取第一摄像头301与第二摄像302间的中心位置作为图像采集单元的参考位置,结合θ1、θ2、a、b、c的值可以获得声音输出对象与所述参考位置之间的距离值和角度值,即第一参考距离值和第一参考角度值。当声音采集单元与图像采集单元间的距离小于等于一预设距离(如50cm)时,可以直接以获得的第一参考距离值和第一参考角度值作为语音识别处理的参考数值。当声音采集单元与图像采集单元间的距离大于所述预设距离时,那么可以首先获取声音采集单元的位置数据,进一步,确定声音采集相对于图像采集单元的距离值和角度值,最终,获得声音采集单元与声音输出对象的相对距离值和角度值,并通过实施例一中的具体实施方式,获得声音输出对象与声音采集单元的距离值和角度值。
具体的,在本实施例中,可以通过以下方式获取声音采集单元的位置数据,最终获得用于语音识别的参考数据:
1)方式一:当声音采集单元不在图像采集单元的采集区域内时,可以通过在图像采集单元的摄像头以及声音采集单元的麦克风上分别设置有传感器,实时地将二者之间的相对距离值和角度值上传给数据处理单元,用于语音识别处理。
2)方式二:当声音采集单元在图像采集单元的采集区域内时,可以直接采集获得声音采集单元和声音输出对象的图像数据,即让声音采集单元和声音输出对象位于同一图像画面上,从而直接获得声音采集单元和声音输出对象的相对距离值和相对角度值。或者图像采集单元可以分别采集声音采集单元的图像数据和声音输出对象的图像数据,并分别确定声音采集单元相对于图像采集单元的距离值和角度值,以及声音输出对象相对于图像采集单元的距离值和角度值,并基于两个相对距离值和相对角度值获得声音输出对象与声音采集单元的距离值和角度值。
(2)当声音采集单元具有两个麦克风,且分别对称设置在两个摄像头的两侧时,如图3所示,可利用如实施例一中的具体实施方式,通过第一摄像头获得的第一图像数据确定第一麦克风与声音输出对象的第一距离值和第一角度值,通过第二摄像头获得的第二图像数据确定第二麦克风与声音输出对象的第二距离值和第二角度值,先对两个麦克风采集的数据进行分别过滤处理,然后进行综合过滤处理,从而提高电子设备的语音识别效率。
实施例三
在具体实施过程中,目标用户有时会处于人多且噪声较大的环境中对电子设备发出语音指令,并且图像采集单元是对特定用户进行图像采集,其中,特定用户是指电子设备的主要用户,可以是一个,也可以是多个,并且在电子设备的图像数据库中存储有这些特定用户的图像信息,当电子设备的语音识别功能处于开启状体时,图像采集单元采集到声音输出对象的图像画面会包括许多其他的不相干的人脸图像数据,此时电子设备的数据处理单元会对图像画面中的各个人脸图像与数据库中已存的人脸图像信息进行对比,找到相似度较高的人脸图像作为目标对象,并确定该人脸图像为目标图像画面。
进一步,图像采集单元还会判断目标图像画面是否处于镜头画面的中心位置,如果是,那么直接基于目标图像画面获得目标图像数据,并结合实施例一和二中的具体实施方式,获取目标声音输出对象(即特定用户)与声音采集单元之间的距离值和角度值,并基于所述距离值和所述角度值进行语音识别。
相对的,如果目标图像画面不位于镜头画面的中心位置,那么,电子设备会以第一调整参数,调节图像采集单元的位置,使其采集到的图像画面中,所述目标图像画面位于所述中心位置,例如,在图像采集单元采集到的图像画面中,目标图像画面相对于镜头中心位置偏左45°,那么,电子设备会控制图像采集单元向左调整45°,以使目标图像画面位于镜头画面的中心位置。并且,电子设备还会控制声音采集单元(即麦克风)进行位置调整,使麦克风指向声音输出对象,具体为指向声音输出对象中的目标声音输出对象(即特定用户),以使声音采集单元采集到更多的有效声音数据,从而提高语音识别率。
为了更进一步的提高语音识别率,在具体实施过程中,按照上述实施方式调整声音采集单元的位置之后,仍以如实施例一以及实施例二中的方式,获取获取目标声音输出对象(即特定用户)与声音采集单元之间的距离值和角度值,并基于所述距离值和所述角度值进行语音识别。
基于同一发明构思,本申请实施例还提供一种数据信息处理的电子设备,请参考图4,具体包括:
第一获取单元401,用于获得通过一图像采集单元采集获得的声音输出对象的目标图像数据;
第二获取单元402,用于基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值;
第一处理单元403,用于当一声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,以获得一语音识别结果。
在具体实施过程中,为了使得获取到的用于语音识别处理的数据信息(即第一参考距离值和第一参考角度值)更加精确,从而提高语音识别率。所述图像采集单元至少包括第一摄像头和第二摄像头,所述第一获取单元401,具体包括:
第一获取子单元,用于获得通过所述第一摄像头采集获得的所述声音输出对象的第一图像数据;
第二获取子单元,用于获得通过所述第二摄像头采集获得的所述声音输出对象的第二图像数据;
第三获取子单元,用于基于所述第一图像数据和所述第二图像数据,获得所述目标图像数据。
进一步,所述第二获取单元402基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值,具体为:
基于所述第一图像数据和所述第二图像数据,获取所述声音输出对象与所述第一位置间的所述第一参考距离值和所述第一参考角度值。
具体的,所述第一摄像头与所述第二摄像头之间的距离为第一预设距离,所述第二获取单元402具体包括:
第四获取子单元,用于基于所述第一图像数据,获取所述第一摄像头与所述声音输出对象的第一角度值;
第五获取子单元,用于在所述第四获取子单元基于所述第一图像数据,获取所述第一摄像头与所述声音输出对象的第一角度值时,基于所述第二图像数据,获取所述第二摄像头与所述声音输出对象的第二角度值;
第一确定子单元,用于基于所述第一预设距离,所述第一角度值以及所述第二角度值,确定所述第一参考距离值和所述第一参考角度值。
在具体实施过程中,为了在语音识别过程中,充分考虑图像采集单元和声音采集单元的位置关系,有针对性地对采集到的声音信息进行语音识别处理的技术效果,所述第一处理单元403,具体包括:
第六获取子单元,用于获取所述声音采集单元的所述第二位置;
第一判断子单元,用于判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果;
第一处理子单元,用于当所述第一判断结果为是时,至少基于所述第一参考距离值和所述第一参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
进一步,所述第一处理单元403,还包括:
第七获取子单元,用于在所述第一判断子单元判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果之后,当所述第一判断结果为否时,基于所述第一位置与所述第二位置获得所述图像采集单元与所述声音采集单元的第二参考距离值和第二参考角度值;
第二处理子单元,至少基于所述第一参考距离值,所述第一参考角度值,所述第二参考距离值以及所述第二参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
具体的,所述第六获取子单元,具体包括:
第一获取模块,用于通过所述图像采集单元获取包含所述声音采集单元的第一图像;
第一确定模块,用于对所述第一图像进行处理,确定所述第二位置。
在具体实施过程中,为了使得通过调整图像采集单元使获取到的图像数据更准确,从而获得更准确的第一参考距离值和第一参考角度值,所述第一获取单元401,具体包括:
第八获取子单元,用于获得通过所述图像采集单元采集获得的所述声音输出对象的环境图像画面,其中,所述环境图像画面包含所述声音输出对象的目标图像画面;
第二判断子单元,用于判断所述目标图像画面是否位于所述环境图像画面的预设位置,获得第二判断结果;
第九获取子单元,用于当所述第二判断结果为是时,基于所述目标图像画面获得所述目标图像数据。
在具体实施过程中,所述第一获取单元401,还包括:
第一调整子单元,用于当所述第二判断结果为否时,对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置。
进一步,为了使声音采集单元在进行声音信息采集时具有方向性,从而采集到更多有效的声音信息,所述第一获取单元401,还包括:
第十获取子单元,用于在所述第一调整子单元对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置之后,获取用于对所述图像采集单元进行调整的第一调整参数;
第二调整子单元,用于基于所述第一调整参数,对所述声音采集单元进行调整,使所述声音采集单元位于所述第二位置,其中,当所述声音采集单元位于所述第二位置时,所述声音采集单元指向所述声音输出对象。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
(1)由于在本申请实施例中,获得通过图像采集单元获得的声音输出对象的目标图像数据,并基于所述目标图像数据,获取声音输出对象与图像采集单元所在的第一位置间的第一参考距离值和第一参考角度值,当声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,以获得一语音识别结果,也就是说,电子设备在进行语音识别时,借助图像采集单元的人脸识别功能,首先通过图像采集单元确定声音输出对象与图像采集单元的距离值和角度值,并基于所述距离值和所述角度值对声音采集单元采集到的环境声音信息进行识别处理,解决了现有技术中存在的当环境噪声较大时,语音识别系统难以达到较高的识别率的技术问题,实现了提高电子设备在环境噪声较大时的语音识别率的技术效果。
(2)由于在本申请实施例中,图像采集单元设置有至少两个摄像头,即第一摄像头和第二摄像头,分别通过两个摄像头获取声音输出对象的图像数据,即第一图像数据和第二图像数据,并基于第一图像数据和第二图像数据获取声音输出对象与图像采集单元的位置间的第一参考距离值和第一参考角度值,使得获取到的用于语音识别处理的数据信息(即第一参考距离值和第一参考角度值)更加精确,从而提高语音识别率。
(3)由于在本申请实施例中,在进行语音识别时,还会获取声音采集单元的第二位置,并结合声音采集单元和图像采集单元之间的位置关系,来有针对性的对声音采集单元获取的声音信息进行语音识别处理。如当第二位置与所述第一位置间的距离小于等于第二预设距离时,至少基于所述第一参考距离值和所述第一参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果;当第二位置与所述第一位置间的距离大于第二预设距离时,至少基于所述第一参考距离值,所述第一参考角度值,所述第二参考距离值以及所述第二参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果,实现了在语音识别过程中,充分考虑图像采集单元和声音采集单元的位置关系,有针对性地对采集到的声音信息进行语音识别处理的技术效果。
(4)由于在本申请实施例中,电子设备会获得通过所述图像采集单元采集获得的所述声音输出对象的环境图像画面,并判断声音输出对象中的目标声音输出对象的目标图像画面是否位于所述环境图像画面的预设位置,如图像采集单元镜头的中间位置,并在所述目标图像画面不是位于所述预设位置时,以第一调整参数调整图像采集单元的位置,使目标图像画面位于所述预设位置,实现了通过调整图像采集单元使获取到的图像数据更准确,从而获得更准确的第一参考距离值和第一参考角度值的技术效果。
(5)进一步,由于在本申请实施例中,在对图像采集单元进行调整后,还会基于第一调整参数调整声音采集单元的位置,使所述声音采集单元指向所述声音输出对象,尤其是指向所述声音输出对象中的目标声音输出对象,实现了声音采集单元在进行声音信息采集时具有方向性,从而采集到更多有效声音信息的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
具体来讲,本申请实施例中的数据处理方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与该数据处理方法对应的计算机程序指令被一电子设备读取或被执行时,包括如下步骤:
获得通过一图像采集单元采集获得的声音输出对象的目标图像数据;
基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值;
当一声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,以获得一语音识别结果。
可选的,所述存储介质中存储的与步骤图像采集单元至少包括第一摄像头和第二摄像头,所述获得通过一图像采集单元采集获得的声音输出对象的目标图像数据,对应的计算机指令在具体被执行过程中,具体包括如下步骤:
获得通过所述第一摄像头采集获得的所述声音输出对象的第一图像数据;
获得通过所述第二摄像头采集获得的所述声音输出对象的第二图像数据;
基于所述第一图像数据和所述第二图像数据,获得所述目标图像数据。
可选的,所述存储介质中存储的与步骤基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值,对应的计算机指令在具体被执行过程中,具体为如下步骤:
基于所述第一图像数据和所述第二图像数据,获取所述声音输出对象与所述第一位置间的所述第一参考距离值和所述第一参考角度值。
可选的,所述存储介质中存储的与步骤第一摄像头与所述第二摄像头之间的距离为第一预设距离,所述基于所述第一图像数据和所述第二图像数据,获取所述声音输出对象与所述第一位置间的所述第一参考距离值和所述第一参考角度值,对应的计算机指令在具体被执行过程中,具体包括如下步骤:
基于所述第一图像数据,获取所述第一摄像头与所述声音输出对象的第一角度值;以及
基于所述第二图像数据,获取所述第二摄像头与所述声音输出对象的第二角度值;
基于所述第一预设距离,所述第一角度值以及所述第二角度值,确定所述第一参考距离值和所述第一参考角度值。
可选的,所述存储介质中存储的与步骤当一声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,以获得一语音识别结果,对应的计算机指令在具体被执行过程中,具体包括如下步骤:
获取所述声音采集单元的所述第二位置;
判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果;
当所述第一判断结果为是时,至少基于所述第一参考距离值和所述第一参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
可选的,所述存储介质中还存储有另外一些计算机指令,这些计算机指令在与步骤:判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果对应的计算机指令被执行之后被执行,在被执行时包括如下步骤:
当所述第一判断结果为否时,基于所述第一位置与所述第二位置获得所述图像采集单元与所述声音采集单元的第二参考距离值和第二参考角度值;
至少基于所述第一参考距离值,所述第一参考角度值,所述第二参考距离值以及所述第二参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
可选的,所述存储介质中存储的与步骤获取所述声音采集单元的所述第二位置,对应的计算机指令在具体被执行过程中,具体为如下步骤:
通过所述图像采集单元获取包含所述声音采集单元的第一图像;
对所述第一图像进行处理,确定所述第二位置。
可选的,所述存储介质中存储的与步骤获得通过一图像采集单元采集获得的声音输出对象的目标图像数据,对应的计算机指令在具体被执行过程中,具体包括如下步骤:
获得通过所述图像采集单元采集获得的所述声音输出对象的环境图像画面,其中,所述环境图像画面包含所述声音输出对象的目标图像画面;
判断所述目标图像画面是否位于所述环境图像画面的预设位置,获得第二判断结果;
当所述第二判断结果为是时,基于所述目标图像画面获得所述目标图像数据。
可选的,所述存储介质中还存储有另外一些计算机指令,这些计算机指令在与步骤:判断所述目标图像画面是否位于所述环境图像画面的预设位置,获得第二判断结果对应的计算机指令被执行之后被执行,在被执行时包括如下步骤:
当所述第二判断结果为否时,对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置。
可选的,所述存储介质中还存储有另外一些计算机指令,这些计算机指令在与步骤:对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置对应的计算机指令被执行之后被执行,在被执行时包括如下步骤:
获取用于对所述图像采集单元进行调整的第一调整参数;
基于所述第一调整参数,对所述声音采集单元进行调整,使所述声音采集单元位于所述第二位置,其中,当所述声音采集单元位于所述第二位置时,所述声音采集单元指向所述声音输出对象。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (20)

1.一种数据处理方法,应用于一电子设备中,所述方法包括:
获得通过一图像采集单元采集获得的声音输出对象的目标图像数据;
基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值;
当一声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,提取出符合参考方位的声音信息,滤除掉其它的声音信息,以获得一语音识别结果,其中,所述参考方位为所述声音采集单元与所述声音输出对象的距离值和角度值。
2.如权利要求1所述的方法,其特征在于,所述图像采集单元至少包括第一摄像头和第二摄像头,所述获得通过一图像采集单元采集获得的声音输出对象的目标图像数据,具体包括:
获得通过所述第一摄像头采集获得的所述声音输出对象的第一图像数据;
获得通过所述第二摄像头采集获得的所述声音输出对象的第二图像数据;
基于所述第一图像数据和所述第二图像数据,获得所述目标图像数据。
3.如权利要求2所述的方法,其特征在于,所述基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值,具体为:
基于所述第一图像数据和所述第二图像数据,获取所述声音输出对象与所述第一位置间的所述第一参考距离值和所述第一参考角度值。
4.如权利要求3所述的方法,其特征在于,所述第一摄像头与所述第二摄像头之间的距离为第一预设距离,所述基于所述第一图像数据和所述第二图像数据,获取所述声音输出对象与所述第一位置间的所述第一参考距离值和所述第一参考角度值,具体包括:
基于所述第一图像数据,获取所述第一摄像头与所述声音输出对象的第一角度值;以及
基于所述第二图像数据,获取所述第二摄像头与所述声音输出对象的第二角度值;
基于所述第一预设距离,所述第一角度值以及所述第二角度值,确定所述第一参考距离值和所述第一参考角度值。
5.如权利要求1所述的方法,其特征在于,所述当一声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,以获得一语音识别结果,具体包括:
获取所述声音采集单元的所述第二位置;
判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果;
当所述第一判断结果为是时,至少基于所述第一参考距离值和所述第一参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
6.如权利要求5所述的方法,其特征在于,在所述判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果之后,所述方法还包括:
当所述第一判断结果为否时,基于所述第一位置与所述第二位置获得所述图像采集单元与所述声音采集单元的第二参考距离值和第二参考角度值;
至少基于所述第一参考距离值,所述第一参考角度值,所述第二参考距离值以及所述第二参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
7.如权利要求5或6所述的方法,其特征在于,所述获取所述声音采集单元的所述第二位置,具体为:
通过所述图像采集单元获取包含所述声音采集单元的第一图像;
对所述第一图像进行处理,确定所述第二位置。
8.如权利要求1或2所述的方法,其特征在于,所述获得通过一图像采集单元采集获得的声音输出对象的目标图像数据,具体包括:
获得通过所述图像采集单元采集获得的所述声音输出对象的环境图像画面,其中,所述环境图像画面包含所述声音输出对象的目标图像画面;
判断所述目标图像画面是否位于所述环境图像画面的预设位置,获得第二判断结果;
当所述第二判断结果为是时,基于所述目标图像画面获得所述目标图像数据。
9.如权利要求8所述的方法,其特征在于,在所述判断所述目标图像画面是否位于所述环境图像画面的预设位置,获得第二判断结果之后,所述方法还包括:
当所述第二判断结果为否时,对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置。
10.如权利要求9所述的方法,其特征在于,在所述对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置之后,所述方法还包括:
获取用于对所述图像采集单元进行调整的第一调整参数;
基于所述第一调整参数,对所述声音采集单元进行调整,使所述声音采集单元位于所述第二位置,其中,当所述声音采集单元位于所述第二位置时,所述声音采集单元指向所述声音输出对象。
11.一种电子设备,包括:
第一获取单元,用于获得通过一图像采集单元采集获得的声音输出对象的目标图像数据;
第二获取单元,用于基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值;
第一处理单元,用于当一声音采集单元位于与所述第一位置不同的第二位置时,至少基于所述第一参考距离值和所述第一参考角度值,对通过所述声音采集单元采集获得的所述声音输出对象所在环境的声音信息进行识别处理,提取出符合参考方位的声音信息,滤除掉其它的声音信息,以获得一语音识别结果,其中,所述参考方位为所述声音采集单元与所述声音输出对象的距离值和角度值。
12.如权利要求11所述的电子设备,其特征在于,所述图像采集单元至少包括第一摄像头和第二摄像头,所述第一获取单元,具体包括:
第一获取子单元,用于获得通过所述第一摄像头采集获得的所述声音输出对象的第一图像数据;
第二获取子单元,用于获得通过所述第二摄像头采集获得的所述声音输出对象的第二图像数据;
第三获取子单元,用于基于所述第一图像数据和所述第二图像数据,获得所述目标图像数据。
13.如权利要求12所述的电子设备,其特征在于,所述第二获取单元基于所述目标图像数据,获取所述声音输出对象与所述图像采集单元的第一位置间的第一参考距离值和第一参考角度值,具体为:
14.如权利要求13所述的电子设备,其特征在于,所述第一摄像头与所述第二摄像头之间的距离为第一预设距离,所述第二获取单元具体包括:
第四获取子单元,用于基于所述第一图像数据,获取所述第一摄像头与所述声音输出对象的第一角度值;
第五获取子单元,用于在所述第四获取子单元基于所述第一图像数据,获取所述第一摄像头与所述声音输出对象的第一角度值时,基于所述第二图像数据,获取所述第二摄像头与所述声音输出对象的第二角度值;
第一确定子单元,用于基于所述第一预设距离,所述第一角度值以及所述第二角度值,确定所述第一参考距离值和所述第一参考角度值。
15.如权利要求11所述的电子设备,其特征在于,所述第一处理单元,具体包括:
第六获取子单元,用于获取所述声音采集单元的所述第二位置;
第一判断子单元,用于判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果;
第一处理子单元,用于当所述第一判断结果为是时,至少基于所述第一参考距离值和所述第一参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
16.如权利要求15所述的电子设备,其特征在于,所述第一处理单元,还包括:
第七获取子单元,用于在所述第一判断子单元判断所述第二位置与所述第一位置间的距离是否小于等于第二预设距离,获得第一判断结果之后,当所述第一判断结果为否时,基于所述第一位置与所述第二位置获得所述图像采集单元与所述声音采集单元的第二参考距离值和第二参考角度值;
第二处理子单元,至少基于所述第一参考距离值,所述第一参考角度值,所述第二参考距离值以及所述第二参考角度值,对所述声音信息进行识别处理,以获得所述语音识别结果。
17.如权利要求15或16所述的电子设备,其特征在于,所述第六获取子单元,具体包括:
第一获取模块,用于通过所述图像采集单元获取包含所述声音采集单元的第一图像;
第一确定模块,用于对所述第一图像进行处理,确定所述第二位置。
18.如权利要求11或12所述的电子设备,其特征在于,所述第一获取单元,具体包括:
第八获取子单元,用于获得通过所述图像采集单元采集获得的所述声音输出对象的环境图像画面,其中,所述环境图像画面包含所述声音输出对象的目标图像画面;
第二判断子单元,用于判断所述目标图像画面是否位于所述环境图像画面的预设位置,获得第二判断结果;
第九获取子单元,用于当所述第二判断结果为是时,基于所述目标图像画面获得所述目标图像数据。
19.如权利要求18所述的电子设备,其特征在于,所述第一获取单元,还包括:
第一调整子单元,用于当所述第二判断结果为否时,对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置。
20.如权利要求19所述的电子设备,其特征在于,所述第一获取单元,还包括:
第十获取子单元,用于在所述第一调整子单元对所述图像采集单元进行调整,以使所述图像采集单元采集获得的所述目标图像画面位于所述预设位置之后,获取用于对所述图像采集单元进行调整的第一调整参数;
第二调整子单元,用于基于所述第一调整参数,对所述声音采集单元进行调整,使所述声音采集单元位于所述第二位置,其中,当所述声音采集单元位于所述第二位置时,所述声音采集单元指向所述声音输出对象。
CN201310681412.1A 2013-12-12 2013-12-12 一种数据处理的方法及电子设备 Active CN104715753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310681412.1A CN104715753B (zh) 2013-12-12 2013-12-12 一种数据处理的方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310681412.1A CN104715753B (zh) 2013-12-12 2013-12-12 一种数据处理的方法及电子设备

Publications (2)

Publication Number Publication Date
CN104715753A CN104715753A (zh) 2015-06-17
CN104715753B true CN104715753B (zh) 2018-08-31

Family

ID=53415015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310681412.1A Active CN104715753B (zh) 2013-12-12 2013-12-12 一种数据处理的方法及电子设备

Country Status (1)

Country Link
CN (1) CN104715753B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105208283A (zh) * 2015-10-13 2015-12-30 广东欧珀移动通信有限公司 一种声控拍照的方法及装置
CN107452381B (zh) * 2016-05-30 2020-12-29 中国移动通信有限公司研究院 一种多媒体语音识别装置及方法
CN107220021B (zh) * 2017-05-16 2021-03-23 北京小鸟看看科技有限公司 语音输入识别方法、装置及头戴式设备
CN109961781B (zh) * 2017-12-22 2021-08-27 深圳市优必选科技有限公司 基于机器人的语音信息接收方法、系统及终端设备
CN108682161B (zh) * 2018-08-10 2023-09-15 东方智测(北京)科技有限公司 确认车辆鸣笛的方法和系统
CN109459038A (zh) * 2018-12-29 2019-03-12 出门问问信息科技有限公司 智能交互终端、以及智能交互终端的导航方法
CN111753565B (zh) * 2019-03-27 2021-12-24 北京外号信息技术有限公司 用于呈现与光通信装置有关的信息的方法和电子设备
CN110087361A (zh) * 2019-05-10 2019-08-02 中山市金钗运鸿光电科技有限公司 带有云处理及语音识别的智能灯具控制组件及控制方法
CN112967696A (zh) * 2021-03-22 2021-06-15 北海惠科光电技术有限公司 液晶面板显示参数调节方法、系统、液晶面板及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1488134A (zh) * 2001-10-22 2004-04-07 ���ṫ˾ 语音识别装置及语音识别方法
CN1813284A (zh) * 2003-06-17 2006-08-02 索尼爱立信移动通讯股份有限公司 语音活动检测的装置和方法
CN1831554A (zh) * 2005-03-11 2006-09-13 株式会社东芝 声音信号处理设备和声音信号处理方法
CN1946985A (zh) * 2004-04-21 2007-04-11 松下电器产业株式会社 音频信息输出装置及音频信息输出方法
CN102414743A (zh) * 2009-04-21 2012-04-11 皇家飞利浦电子股份有限公司 音频信号合成
CN103339961A (zh) * 2010-12-03 2013-10-02 弗兰霍菲尔运输应用研究公司 用于通过声波三角测量进行空间性选择声音获取的装置及方法
CN103871420A (zh) * 2012-12-13 2014-06-18 华为技术有限公司 麦克风阵列的信号处理方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1063470A (ja) * 1996-06-12 1998-03-06 Nintendo Co Ltd 画像表示に連動する音響発生装置
JP3702978B2 (ja) * 1996-12-26 2005-10-05 ソニー株式会社 認識装置および認識方法、並びに学習装置および学習方法
JP2001188555A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
US6931596B2 (en) * 2001-03-05 2005-08-16 Koninklijke Philips Electronics N.V. Automatic positioning of display depending upon the viewer's location
JP3863165B2 (ja) * 2005-03-04 2006-12-27 株式会社コナミデジタルエンタテインメント 音声出力装置、音声出力方法、ならびに、プログラム
JP5646146B2 (ja) * 2009-03-18 2014-12-24 株式会社東芝 音声入力装置、音声認識システム及び音声認識方法
JP5790238B2 (ja) * 2011-07-22 2015-10-07 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US9031259B2 (en) * 2011-09-15 2015-05-12 JVC Kenwood Corporation Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1488134A (zh) * 2001-10-22 2004-04-07 ���ṫ˾ 语音识别装置及语音识别方法
CN1813284A (zh) * 2003-06-17 2006-08-02 索尼爱立信移动通讯股份有限公司 语音活动检测的装置和方法
CN1946985A (zh) * 2004-04-21 2007-04-11 松下电器产业株式会社 音频信息输出装置及音频信息输出方法
CN1831554A (zh) * 2005-03-11 2006-09-13 株式会社东芝 声音信号处理设备和声音信号处理方法
CN102414743A (zh) * 2009-04-21 2012-04-11 皇家飞利浦电子股份有限公司 音频信号合成
CN103339961A (zh) * 2010-12-03 2013-10-02 弗兰霍菲尔运输应用研究公司 用于通过声波三角测量进行空间性选择声音获取的装置及方法
CN103871420A (zh) * 2012-12-13 2014-06-18 华为技术有限公司 麦克风阵列的信号处理方法及装置

Also Published As

Publication number Publication date
CN104715753A (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
CN104715753B (zh) 一种数据处理的方法及电子设备
US10679612B2 (en) Speech recognizing method and apparatus
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN108986835B (zh) 基于改进gan网络的语音去噪方法、装置、设备及介质
CN102799262B (zh) 用于确定输入语音的相关性的装置和方法
WO2021135628A1 (zh) 语音信号的处理方法、语音分离方法
CN108538311A (zh) 音频分类方法、装置及计算机可读存储介质
CN105512348A (zh) 用于处理视频和相关音频的方法和装置及检索方法和装置
CN109816764A (zh) 图像生成方法及装置、电子设备和存储介质
CN109614613A (zh) 图像的描述语句定位方法及装置、电子设备和存储介质
CN108877787A (zh) 语音识别方法、装置、服务器及存储介质
CN115169507B (zh) 类脑多模态情感识别网络、识别方法及情感机器人
US9947323B2 (en) Synthetic oversampling to enhance speaker identification or verification
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
WO2021013255A1 (zh) 一种声纹识别方法及装置
WO2022179453A1 (zh) 声音录制方法及相关设备
CN109145150A (zh) 目标匹配方法及装置、电子设备和存储介质
CN110047468A (zh) 语音识别方法、装置及存储介质
CN112183107A (zh) 音频的处理方法和装置
CN109920016A (zh) 图像生成方法及装置、电子设备和存储介质
CN108520758A (zh) 一种视听觉跨模态物体材质检索方法及系统
CN109947971A (zh) 图像检索方法、装置、电子设备及存储介质
US20210081653A1 (en) Method and device for facial image recognition
CN113516990A (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
CN110728993A (zh) 一种变声识别方法及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant