CN105592264A - 一种语音控制拍照软件 - Google Patents

一种语音控制拍照软件 Download PDF

Info

Publication number
CN105592264A
CN105592264A CN201510952923.1A CN201510952923A CN105592264A CN 105592264 A CN105592264 A CN 105592264A CN 201510952923 A CN201510952923 A CN 201510952923A CN 105592264 A CN105592264 A CN 105592264A
Authority
CN
China
Prior art keywords
voice
user
software
vocal print
photographing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510952923.1A
Other languages
English (en)
Inventor
邹月娴
郑炜乔
余嘉胜
王毅
柳俊宏
陈锦
黄晓林
金彦含
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201510952923.1A priority Critical patent/CN105592264A/zh
Publication of CN105592264A publication Critical patent/CN105592264A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/62Control of parameters via user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/667Camera operation mode switching, e.g. between still and video, sport and normal or high- and low-resolution modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种语音控制拍照软件。利用最自然便捷的人机交互方式——语音,来控制拍照快门。采用语音识别技术实现语音命令控制拍照,识别的语音命令可由用户自定义设置,实现个性化语音识别;另外也通过声纹识别技术,让拍照只能由用户的语音进行控制,避免其他人对拍照过程进行干扰,实现“拍照听我的”的效果。最后可对拍摄的照片进行多种特效处理,使照片更具特色和美感。本发明实现语音控制拍照,解放双手,可以满足双手残疾人或双手不方便的人群进行拍照的需求;同时能减少人们自拍或合影带来的烦恼。

Description

一种语音控制拍照软件
技术领域
本发明涉及软件应用领域,特别是涉及一种语音控制拍照软件,属于语音人机交互技术领域。
本发明利用最自然便捷的人机交互方式——语音,来控制拍照快门,采用语音识别技术实现语音命令来控制相机软件进行拍照,另外也通过声纹识别技术,让拍照只能由用户的语音进行控制,拒绝其他人对拍照过程的干扰,实现“拍照听我的”的效果。最后可对拍摄的照片进行多种特效处理,使照片更具特色和美感。
背景技术
在移动互联网和移动智能设备快速发展的形势下,语音作为最便捷最自然的人机交互方式,基于移动智能设备的语音应用具有很大的市场需求与实用价值。其中语音识别技术,给移动智能设备安装上“耳朵”,使其具备“听话”的功能,如应用在智能手机上的语音搜索、语音短信听写等给用户带来很好的体验,逐渐让我们的生活更加智能化。另外,声纹识别技术提供了“听声辨人”的功能,是一种最为经济、简便与安全的身份认证方式,目前采用声纹识别技术保护手机安全与个人隐私的产品深得用户的信赖。
目前的拍照软件大多都需要通过用户手动控制快门,当用户或者伸长自己双手想尽办法拍一张靓照,或者借助自拍杆,或者求助于路人帮忙拍照。现实生活中会存在以下的场景:1)当自拍的时候,总是因为手机摄像头距离脸太近,只拍到大大的脸蛋而烦恼,为自拍将手伸得很长而费尽周折,为拍个全身照而抓狂……2)双手残疾人或双手不方便的人群总是苦于要找别人帮他拍照,不能在随时方便地记录美好的时光;3)当好友相聚或出游时,想合影留念时,总是很不情愿地挤出一个人来为集体拍照,使得合照上少了他,留下遗憾,或是纠结寻找路人甲帮忙拍照等等。以上这些场景存在的烦恼,现有的拍照软件并不能完全解决,他们大多是实现自动对焦,对拍好的照片实现图片特效处理等之类功能。虽然部分拍照软件具有声控功能,但这种声控效果只是针对声音的检测而已,即只要检测到声音就可以自动进行触发拍照按钮,实现拍照。这种声控功能的拍照软件很容易受其他的声音干扰,导致误操作,不具有抗噪声和抗干扰的性能,不能满足用户进行语音控制拍照的需求,用户体验较差。
发明内容
为了克服上述的不足,本发明的目的在于提供一种语音控制拍照软件,利用最自然便捷的人机交互方式,用语音控制快门,采用语音识别技术和声纹识别技术,通过语音控制硬件设备,将语音技术推向实用产品中,实现“拍照听我的”的愿望,同时减少人们自拍或合影带来的烦恼,另外也融合了图像处理的相关技术对照片进行多种特效处理,使照片更具美感,给人们带来极大的便利和乐趣。
本发明提供一种语音控制拍照软件,通过以下技术方案实现:
(1)用户打开软件,首次使用将进入引导界面,所述引导界面具有软件介绍的功能使用引导页面,可以通过滑动切换页面,也可以直接选择跳过,直接进入拍照界面;
(2)进入拍照界面后,所述界面具有现有拍照软件的功能,包括手动触屏快门、放大与缩小控制、亮度调整、前后摄像头切换,照片预览和拍照与录像切换等控件;所述界面采用侧边栏UI的扁平化设计模式,包括拍照模式和照片特效处理和设置选项,所述拍照模式包括默认拍照、语音识别和声纹识别三种拍照模式;
(3)用户没有对拍照模式进行选择时,将使用默认拍照模式进行拍照,所述默认拍照模式下,拍照软件具有普通的拍照软件的功能;
(4)用户选择语音识别拍照模式,所述语音识别拍照模式下,用户进行语音识别命令个性化设置,设置完成后将进入语音识别拍照模式,用户只要说出语音命令,通过语音端点检测获取有效的语音信息后进行识别,当语音识别得到的文本信息与设置的语音识别命令一致时,自动对焦,并自动快速控制快门,实现语音识别拍照功能;
(5)用户选择声纹识别拍照模式,所述声纹识别拍照模式下,用户输入自己的用户名,输入完成后将进行用户声纹是否已注册的判断,若不存在该用户声纹,将进入声纹注册环节,所述声纹注册环节给出注册声纹的文本命令,所述文本命令包括数字、文字或数字与文字的结合,用户根据提示说出对应文本命令的语音,根据提示进行4次录音,每次录音平均时长为2-3s;注册的语音进行声纹建模后保存该声纹模板,完成注册过程。若存在该用户声纹,将进入声纹识别环节,所述声纹识别环节根据给出的识别文本命令,所述文本命令包括数字、文字或数字与文字的结合,用户说出给定的识别文本命令的语音,通过语音端点检测获取有效的语音信息后进行声纹模板匹配,当模板匹配得分超过阈值时则判定为对应的注册声纹的用户,进行自动对焦,并自动快速控制快门,实现声纹识别拍照功能;否则该声纹不属于用户,不进行自动拍照,继续进入语音端点检测;
(6)对拍摄的照片进行保存,还提供了通过侧边栏UI的照片特效处理选项对拍摄的图片进行多种图片特效处理,满足用户对照片的多样效果的需求。
与现有技术相比,本发明具有以下优点与有益效果:
1、本发明利用最自然便捷的人机交互方式——语音,来控制拍照快门。采用语音识别技术实现语音命令控制拍照,识别的语音命令可由用户自定义设置,实现个性化语音识别;另外也通过声纹识别技术,让拍照只能由用户的语音进行控制,拒绝其他人对拍照过程的干扰,实现“拍照听我的”的效果。最后可对拍摄的照片进行多种特效处理,使照片更具特色和美感。
2、本发明实现语音控制拍照,解放双手,可以满足双手残疾人或双手不方便的人群进行拍照的需求。
3、本发明实现语音控制拍照,减少人们自拍或合影带来的烦恼,同时声纹识别控制拍照,又能让拍照只由用户的语音进行控制,不受其他人的干扰,达到“拍照听我的”的效果。
附图说明
图1为本发明的一种语音控制拍照软件的系统流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域普通技术人员在不脱离本发明本质和精神的情况下所获得的所有其他实施例,都属于本发明公开和保护的范围。
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
本实施例的一种语音控制拍照软件,如图1所示,包括以下主要功能:
(1)用户打开软件,首次使用将进入引导界面,所述引导界面具有软件介绍的功能使用引导页面,可以通过滑动切换页面,也可以直接选择跳过,直接进入拍照界面;
(2)进入拍照界面后,所述界面具有现有拍照软件的功能,包括手动触屏快门、放大与缩小控制、亮度调整、前后摄像头切换,照片预览和拍照与录像切换等控件;所述界面采用侧边栏UI的扁平化设计模式,包括拍照模式和照片特效处理和设置选项,所述拍照模式包括默认拍照、语音识别和声纹识别三种拍照模式;
(3)用户没有对拍照模式进行选择时,将使用默认拍照模式进行拍照,所述默认拍照模式下,拍照软件具有普通的拍照软件的功能;
(4)用户选择语音识别拍照模式,所述语音识别拍照模式下,用户进行语音识别命令个性化设置,设置完成后将进入语音识别拍照模式,用户只要说出语音命令,通过语音端点检测获取有效的语音信息后进行识别,当语音识别得到的文本信息与设置的语音识别命令一致时,自动对焦,并自动快速控制快门,实现语音识别拍照功能。
(5)用户选择声纹识别拍照模式,所述声纹识别拍照模式下,用户输入自己的用户名,输入完成后将进行用户声纹是否已注册的判断,若不存在该用户声纹,将进入声纹注册环节,所述声纹注册环节给出注册声纹的文本命令,所述文本命令包括数字、文字或数字与文字的结合,用户根据提示说出对应文本命令的语音,根据提示进行4次录音,每次录音平均时长为2-3s;注册的语音进行声纹建模后保存该声纹模板,完成注册过程。若存在该用户声纹,将进入声纹识别环节,所述声纹识别环节根据给出的识别文本命令,所述文本命令包括数字、文字或数字与文字的结合,用户说出给定的识别文本命令的语音,通过语音端点检测获取有效的语音信息后进行声纹模板匹配,当模板匹配得分超过阈值时则判定为对应的注册声纹的用户,进行自动对焦,并自动快速控制快门,实现声纹识别拍照功能;否则该声纹不属于用户,不进行自动拍照,继续进入语音端点检测。
(6)对拍摄的照片进行保存,还提供了通过侧边栏UI的照片特效处理选项对拍摄的图片进行多种图片特效处理,满足用户对照片的多样效果的需求。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种语音控制拍照软件,用户打开软件,在首次使用时将进入引导界面,所述引导界面具有软件介绍的功能使用引导页面,可以通过滑动切换页面,也可以直接选择跳过,直接进入拍照界面。
2.根据权利要求1所述的一种语音控制拍照软件,其特征在于,进入拍照界面后,所述界面具有现有拍照软件的功能,包括手动触屏快门、放大与缩小控制、亮度调整、前后摄像头切换,照片预览和拍照与录像切换等控件;所述界面采用侧边栏UI的扁平化设计模式,包括拍照模式和照片特效处理和设置选项,所述拍照模式包括默认拍照、语音识别和声纹识别三种拍照模式。
3.根据权利要求1所述的一种语音控制拍照软件,其特征在于,用户可以选择三种拍照模式中任何一种进行拍照,所述三种拍照模式为默认拍照、语音识别和声纹识别拍照模式,其工作流程分别为:
(1)用户没有对拍照模式进行选择时,将使用默认拍照模式进行拍照,所述默认拍照模式下,拍照软件具有普通的拍照软件的功能;
(2)用户选择语音识别拍照模式,所述语音识别拍照模式下,用户进行语音识别命令个性化设置,设置完成后将进入语音识别拍照模式,用户只要说出语音命令,通过语音端点检测获取有效的语音信息后进行识别,当语音识别得到的文本信息与设置的语音识别命令一致时,自动对焦,并自动快速控制快门,实现语音识别拍照功能。
(3)用户选择声纹识别拍照模式,所述声纹识别拍照模式下,用户输入自己的用户名,输入完成后将进行用户声纹是否已注册的判断,若不存在该用户声纹,将进入声纹注册环节,所述声纹注册环节给出注册声纹的文本命令,所述文本命令包括数字、文字或数字与文字的结合,用户根据提示说出对应文本命令的语音,根据提示进行4次录音,每次录音平均时长为2-3s;注册的语音进行声纹建模后保存该声纹模板,完成注册过程。若存在该用户声纹,将进入声纹识别环节,所述声纹识别环节根据给出的识别文本命令,所述文本命令包括数字、文字或数字与文字的结合,用户说出给定的识别文本命令的语音,通过语音端点检测获取有效的语音信息后进行声纹模板匹配,当模板匹配得分超过阈值时则判定为对应的注册声纹的用户,进行自动对焦,并自动快速控制快门,实现声纹识别拍照功能;否则该声纹不属于用户,不进行自动拍照,继续进入语音端点检测。
4.根据权利要求1所述的一种语音控制拍照软件,其特征在于,对拍摄的照片进行保存,还提供了通过侧边栏UI的照片特效处理选项对拍摄的图片进行多种图片特效处理,满足用户对照片的多样效果的需求。
CN201510952923.1A 2015-12-17 2015-12-17 一种语音控制拍照软件 Pending CN105592264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510952923.1A CN105592264A (zh) 2015-12-17 2015-12-17 一种语音控制拍照软件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510952923.1A CN105592264A (zh) 2015-12-17 2015-12-17 一种语音控制拍照软件

Publications (1)

Publication Number Publication Date
CN105592264A true CN105592264A (zh) 2016-05-18

Family

ID=55931445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510952923.1A Pending CN105592264A (zh) 2015-12-17 2015-12-17 一种语音控制拍照软件

Country Status (1)

Country Link
CN (1) CN105592264A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106375668A (zh) * 2016-09-28 2017-02-01 上海斐讯数据通信技术有限公司 一种智能终端相机的自动对焦装置和方法
CN107180632A (zh) * 2017-06-19 2017-09-19 微鲸科技有限公司 语音控制方法、装置及可读存储介质
CN107220292A (zh) * 2017-04-25 2017-09-29 上海庆科信息技术有限公司 智能对话装置、反馈式智能语音控制系统及方法
CN107911613A (zh) * 2017-12-25 2018-04-13 努比亚技术有限公司 拍照控制方法、移动终端以及计算机可读介质
CN108074310A (zh) * 2017-12-21 2018-05-25 广东汇泰龙科技有限公司 基于语音识别模块的语音交互方法及智能锁管理系统
CN108154878A (zh) * 2017-12-12 2018-06-12 北京小米移动软件有限公司 控制监控设备的方法及装置
CN109063082A (zh) * 2018-07-25 2018-12-21 珠海格力电器股份有限公司 一种页面跳转方法及终端设备
CN110473556A (zh) * 2019-09-17 2019-11-19 深圳市万普拉斯科技有限公司 语音识别方法、装置和移动终端
CN110602391A (zh) * 2019-08-30 2019-12-20 Oppo广东移动通信有限公司 拍照控制方法、装置、存储介质及电子设备
CN111953894A (zh) * 2016-11-22 2020-11-17 谷歌有限责任公司 用于捕获图像的设备、方法、系统及计算机可读存储介质
CN112702510A (zh) * 2020-12-17 2021-04-23 珠海格力电器股份有限公司 信息发布方法、控制装置及系统、存储介质
CN115202545A (zh) * 2021-04-12 2022-10-18 广州视睿电子科技有限公司 基于接口的事件触发方法、模块、学习机及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130124207A1 (en) * 2011-11-15 2013-05-16 Microsoft Corporation Voice-controlled camera operations
CN104092932A (zh) * 2013-12-03 2014-10-08 腾讯科技(深圳)有限公司 一种声控拍摄方法及装置
CN104883503A (zh) * 2015-05-28 2015-09-02 牟肇健 基于语音的个性化拍照技术
CN104935819A (zh) * 2015-06-11 2015-09-23 广东欧珀移动通信有限公司 一种控制摄像头拍摄方法及终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130124207A1 (en) * 2011-11-15 2013-05-16 Microsoft Corporation Voice-controlled camera operations
CN104092932A (zh) * 2013-12-03 2014-10-08 腾讯科技(深圳)有限公司 一种声控拍摄方法及装置
CN104883503A (zh) * 2015-05-28 2015-09-02 牟肇健 基于语音的个性化拍照技术
CN104935819A (zh) * 2015-06-11 2015-09-23 广东欧珀移动通信有限公司 一种控制摄像头拍摄方法及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONEYHONEY224: ""橙推广"APP引导页设计欣赏", 《百度文库》 *
百度经验: "小米手机语音拍照 红米note声控快门怎么用", 《百度经验》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106375668A (zh) * 2016-09-28 2017-02-01 上海斐讯数据通信技术有限公司 一种智能终端相机的自动对焦装置和方法
CN111953894A (zh) * 2016-11-22 2020-11-17 谷歌有限责任公司 用于捕获图像的设备、方法、系统及计算机可读存储介质
US11317018B2 (en) 2016-11-22 2022-04-26 Google Llc Camera operable using natural language commands
CN107220292A (zh) * 2017-04-25 2017-09-29 上海庆科信息技术有限公司 智能对话装置、反馈式智能语音控制系统及方法
CN107180632A (zh) * 2017-06-19 2017-09-19 微鲸科技有限公司 语音控制方法、装置及可读存储介质
CN108154878A (zh) * 2017-12-12 2018-06-12 北京小米移动软件有限公司 控制监控设备的方法及装置
CN108074310A (zh) * 2017-12-21 2018-05-25 广东汇泰龙科技有限公司 基于语音识别模块的语音交互方法及智能锁管理系统
CN107911613A (zh) * 2017-12-25 2018-04-13 努比亚技术有限公司 拍照控制方法、移动终端以及计算机可读介质
CN109063082A (zh) * 2018-07-25 2018-12-21 珠海格力电器股份有限公司 一种页面跳转方法及终端设备
CN109063082B (zh) * 2018-07-25 2021-02-09 珠海格力电器股份有限公司 一种页面跳转方法及终端设备
CN110602391A (zh) * 2019-08-30 2019-12-20 Oppo广东移动通信有限公司 拍照控制方法、装置、存储介质及电子设备
CN110473556A (zh) * 2019-09-17 2019-11-19 深圳市万普拉斯科技有限公司 语音识别方法、装置和移动终端
CN110473556B (zh) * 2019-09-17 2022-06-21 深圳市万普拉斯科技有限公司 语音识别方法、装置和移动终端
CN112702510A (zh) * 2020-12-17 2021-04-23 珠海格力电器股份有限公司 信息发布方法、控制装置及系统、存储介质
CN115202545A (zh) * 2021-04-12 2022-10-18 广州视睿电子科技有限公司 基于接口的事件触发方法、模块、学习机及存储介质
CN115202545B (zh) * 2021-04-12 2024-05-14 广州视睿电子科技有限公司 基于接口的事件触发方法、模块、学习机及存储介质

Similar Documents

Publication Publication Date Title
CN105592264A (zh) 一种语音控制拍照软件
CN105204357B (zh) 智能家居设备的情景模式调整方法及装置
JP6504808B2 (ja) 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体
US20140247368A1 (en) Ready click camera control
CN103945121B (zh) 一种信息处理方法及电子设备
US10083710B2 (en) Voice control system, voice control method, and computer readable medium
CN110730115B (zh) 语音控制方法及装置、终端、存储介质
US11488596B2 (en) Method and system for recording audio content in a group conversation
KR100926978B1 (ko) 영상 수집 제어 방법 및 장치
JP2013225860A (ja) 自律動作のためのカメラコンフィギュレーション
KR20190087230A (ko) 복수의 카메라를 이용하여 영상 데이터를 생성하는 방법 및 서버
CN107045386A (zh) 一种基于人群状态检测的智能播放系统及实现方法
JP2014099922A (ja) 画像を捕捉する方法及び装置
CN105631804B (zh) 图片处理方法及装置
RU2628178C1 (ru) Способ, устройство и мобильный терминал для бесконтактной аутентификации по отпечатку ладони
CN104883503A (zh) 基于语音的个性化拍照技术
CN107509021B (zh) 一种拍摄方法、装置及存储介质
WO2016192622A1 (zh) 一种智能终端/手机的控制方法
CN105824427A (zh) 基于手势操作进行音量调节的方法及系统
CN113918077A (zh) 投影方法及投影控制方法和相关装置、投影仪、存储介质
US9077848B2 (en) Side channel for employing descriptive audio commentary about a video conference
KR20080109519A (ko) 영상 촬영 장치 및 촬영 방법
CN108933891A (zh) 拍照方法、终端及系统
CN103780824A (zh) 调整影像构图的数码影像摄取装置及影像构图调整的方法
CN103780826A (zh) 提示影像拍摄构图效果的数码影像摄取装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160518

RJ01 Rejection of invention patent application after publication