CN117354623A - 拍照的控制方法、装置、电子设备及存储介质 - Google Patents

拍照的控制方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117354623A
CN117354623A CN202311641184.5A CN202311641184A CN117354623A CN 117354623 A CN117354623 A CN 117354623A CN 202311641184 A CN202311641184 A CN 202311641184A CN 117354623 A CN117354623 A CN 117354623A
Authority
CN
China
Prior art keywords
information
mobile terminal
control
voice
earphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311641184.5A
Other languages
English (en)
Inventor
迟欣
吴海全
姜德军
曹磊
何桂晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Grandsun Electronics Co Ltd
Original Assignee
Shenzhen Grandsun Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Grandsun Electronics Co Ltd filed Critical Shenzhen Grandsun Electronics Co Ltd
Priority to CN202311641184.5A priority Critical patent/CN117354623A/zh
Publication of CN117354623A publication Critical patent/CN117354623A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Telephone Function (AREA)

Abstract

本申请提供了拍照的控制方法、装置、电子设备及存储介质,控制方法应用于耳机,包括:获取用户的语音信息;通过已构建的语音语义识别模型识别语音信息,确定唤醒信息;若唤醒信息为预设唤醒词,基于唤醒信息启动与耳机连接的移动终端的语音控制拍照功能;通过已构建的语音语义识别模型识别语音信息,确定控制信息;基于控制信息,控制移动终端的拍照动作,由于通过耳机获取用户的语音信息,并将语音信息转换为控制信息,再采用控制信息控制与耳机连接的移动终端的拍照动作,提高了自拍拍照的控制效率,解放了用户的双手,能自由摆出各种姿势,从而提高了用户进行自拍的体验感。

Description

拍照的控制方法、装置、电子设备及存储介质
技术领域
本申请属于穿戴设备技术领域,尤其涉及一种拍照的控制方法、装置、电子设备及存储介质。
背景技术
目前移动终端的自拍拍照的控制方法有通过自拍杆进行控制,通过移动终端的自拍延时模式进行控制,通过移动终端带自拍遥控器进行控制,或者通过移动终端的语音触发控制自拍拍照。
但通过自拍杆进行控制时用户的手臂总是伸向前方,通过移动终端的自拍延时模式进行控制时用户需在一个姿势保持一段时间表情变僵硬,通过移动终端带自拍遥控器进行控制时用户需要握住遥控器,通过移动终端的语音触发控制自拍拍照时嘈杂的环境影响语音触发的效果。
现有技术存在自拍拍照的控制效率低,用户体验感差的问题。
发明内容
本申请实施例提供了一种拍照的控制方法、装置、电子设备及存储介质,可以解决自拍拍照的控制效率低,用户体验感差的问题。
第一方面,本申请实施例提供了一种拍照的控制方法,应用于耳机,包括:
获取用户的语音信息;
通过已构建的语音语义识别模型识别所述语音信息,确定唤醒信息;
若所述唤醒信息为预设唤醒词,基于所述唤醒信息启动与耳机连接的移动终端的语音控制拍照功能;
通过已构建的所述语音语义识别模型识别所述语音信息,确定控制信息;
基于所述控制信息,控制所述移动终端的拍照动作。
在其中一个实施例中,所述控制信息包括语音控制信息;
所述控制方法还包括:
获取用户的多个语音信息;
通过已构建的语音语义识别模型识别任一所述语音信息,确定语音控制信息;
基于所述语音控制信息转换为控制指令;
基于所述控制指令控制与所述耳机连接的移动终端的拍照动作。
在其中一个实施例中,所述通过已构建的语音语义识别模型识别所述语音信息,确定唤醒信息,还包括:
将用户的语音信息发送至与所述耳机连接的移动终端或云端;
接收所述移动终端或所述云端发送的所述唤醒信息,其中,所述唤醒信息由所述移动终端或所述云端训练好的语音语义识别模型识别所述语音信息对应的语义形成。
在其中一个实施例中,所述若所述唤醒信息为预设唤醒词,基于所述唤醒信息启动与耳机连接的移动终端的语音控制拍照功能,还包括:
若唤醒信息为预设唤醒词,且唤醒信息满足预设条件,基于唤醒信息启动与耳机连接的移动终端的语音控制拍照功能;
其中,预设条件包括:语音能量大于或者等于预设能量阈值、信噪比大于或者等于预设信噪比阈值、或语音识别角度处于预设角度范围内中至少一个条件。
在其中一个实施例中,所述通过已构建的所述语音语义识别模型识别所述语音信息,确定控制信息,还包括:
将用户的语音信息发送至与所述耳机连接的所述移动终端或云端;
接收所述移动终端或所述云端发送的所述控制信息,其中,所述控制信息由所述移动终端或所述云端训练好的语音语义识别模型识别所述语音信息对应的语义形成。
在其中一个实施例中,所述基于所述控制信息,控制所述移动终端的拍照动作,包括:
基于所述控制信息转换为控制指令;
发送所述控制指令至与所述耳机连接的所述移动终端;
基于所述控制指令控制与所述耳机连接的所述移动终端的拍照动作。
在其中一个实施例中,所述控制信息还包括物理按键控制信息、触摸板控制信息或动作控制信息中至少一种;
所述动作控制信息包括头部动作控制信息或手势动作控制信息。
在其中一个实施例中,所述控制指令包括第一控制指令、第二控制指令、第三控制指令、第四控制指令、第五控制指令、第六控制指令、第七控制指令、第八控制指令、第九控制指令及第十控制指令,所述拍照动作包括拍照操作、录像开启操作、录像关闭操作、画面放大操作、画面缩小操作、画面移动操作、画面亮度调节操作、闪光灯操作、焦点调节操作或模式调节操作中至少一种;
所述基于所述控制指令控制与所述耳机连接的所述移动终端的拍照动作,包括:
基于所述第一控制指令,控制所述移动终端的拍照操作;
基于所述第二控制指令,控制与所述耳机连接的所述移动终端的录像开启操作;
基于所述第三控制指令,控制与所述耳机连接的所述移动终端的录像关闭操作;
基于所述第四控制指令,控制与所述耳机连接的所述移动终端的画面放大操作;
基于所述第五控制指令,控制与所述耳机连接的所述移动终端的画面缩小操作;
基于所述第六控制指令,控制与所述耳机连接的所述移动终端的画面移动操作;
基于所述第七控制指令,控制与所述耳机连接的所述移动终端的画面亮度调节操作;
基于所述第八控制指令,控制与所述耳机连接的所述移动终端的闪光灯操作;
基于所述第九控制指令,控制与所述耳机连接的所述移动终端的焦点调节操作;
基于所述第十控制指令,控制与所述耳机连接的所述移动终端的模式调节操作。
第二方面,本申请实施例提供了一种拍照的控制装置,应用于耳机,包括:
获取模块,用于获取用户的语音信息;
第一确定模块,用于通过已构建的语音语义识别模型识别所述语音信息,确定唤醒信息;
启动模块,用于若所述唤醒信息为预设唤醒词,基于所述唤醒信息启动与耳机连接的移动终端的语音控制拍照功能;
第二确定模块,用于通过已构建的所述语音语义识别模型识别所述语音信息,确定控制信息;
控制模块,用于基于所述控制信息,控制所述移动终端的拍照动作。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面内容中任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面内容中任一项所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面内容中任一项所述的方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面内容中的相关描述,在此不再赘述。
本申请实施例与现有技术相比存在的有益效果是:
本申请的拍照的控制方法应用于耳机,通过获取用户的语音信息;通过已构建的语音语义识别模型识别语音信息,确定唤醒信息;若唤醒信息为预设唤醒词,基于唤醒信息启动与耳机连接的移动终端的语音控制拍照功能;通过已构建的语音语义识别模型识别语音信息,确定控制信息;基于控制信息,控制移动终端的拍照动作,由于通过耳机获取用户的语音信息,并将语音信息转换为控制信息,再采用控制信息控制与耳机连接的移动终端的拍照动作,提高了自拍拍照的控制效率,解放了用户的双手,能自由摆出各种姿势,从而提高了用户进行自拍的体验感。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的耳机、移动终端及云端的结构连接示意图;
图2是本申请一实施例提供的拍照的控制方法的流程示意图;
图3是本申请一实施例提供的通过已构建的语音语义识别模型识别语音信息,确定唤醒信息的流程示意图;
图4是本申请一实施例提供的通过已构建的语音语义识别模型识别语音信息,确定控制信息的流程示意图;
图5是本申请一实施例提供的基于控制信息,控制移动终端的拍照动作的流程示意图;
图6是本申请另一实施例提供的拍照的控制方法的流程示意图;
图7是本申请实施例提供的拍照的控制装置的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
自拍在现代社交媒体时代蓬勃发展,成为人们生活中不可或缺的一部分。人们对自拍的热爱源自多方面的动机和需求,展现出了对自我表达、社交互动以及个人身份认同的追求。用户借助自拍记录下生活中的点滴瞬间,通过照片的形式展示自己的情感、心情和感受。
目前移动终端的自拍拍照的控制方法有通过自拍杆进行控制,通过移动终端的自拍延时模式进行控制,通过移动终端带自拍遥控器进行控制,或者通过移动终端的语音触发控制自拍拍照。
但通过自拍杆进行控制时用户的手臂总是伸向前方,通过移动终端的自拍延时模式进行控制时用户需在一个姿势保持一段时间表情变僵硬,通过移动终端带自拍遥控器进行控制时用户需要握住遥控器,通过移动终端的语音触发控制自拍拍照时嘈杂的环境或者移动终端与用户的距离较远影响语音触发的效果。
在本申请中,如图1所示,自拍拍照的控制系统包括耳机、移动终端及云端,耳机分别与移动终端及云端连接。
本申请提供的一种拍照的控制方法应用于耳机,通过获取用户的语音信息;通过已构建的语音语义识别模型识别语音信息,确定唤醒信息;若唤醒信息为预设唤醒词,基于唤醒信息启动与耳机连接的移动终端的语音控制拍照功能;通过已构建的语音语义识别模型识别语音信息,确定控制信息;基于控制信息,控制移动终端的拍照动作,由于通过耳机获取用户的语音信息,并将语音信息转换为控制信息,再采用控制信息控制与耳机连接的移动终端的拍照动作,提高了自拍拍照的控制效率,解放了用户的双手,能自由摆出各种姿势,从而提高了用户进行自拍的体验感。
下面通过具体的实施例来说明本申请的技术方案。
第一方面,如图2所示,本实施例提供了一种拍照的控制方法,应用于耳机,包括:
S100,获取用户的语音信息。
在一个实施例中,耳机获取用户的语音信息,语音信息为用户的声波通过空气传播,被耳机的麦克风接收,通过采样、量化、编码转换为离散的数字信号,即波形文件,音量、音高和音色是声音的基本属性,由于耳机与人的发声器官的距离很近,耳机能获取准确的用户的语音信息,从而提高了识别语音信息的准确率。
S110,通过已构建的语音语义识别模型识别语音信息,确定唤醒信息。
在一个实施例中,通过耳机中设置的已构建的语音语义识别模型识别语音信息,确定唤醒信息,其中,唤醒信息为通过已构建的语音语义识别模型识别语音信息对应的语义形成的唤醒词,由于已构建的语音语义识别模型识别语音信息对应的语义准确率高,提高了耳机的唤醒信息的准确率。
在一个实施例中,语音语义识别模型为深度学习模型,例如循环神经网络(RNN)模型、卷积神经网络(CNN)模型或变换器(Transformer)模型。
在一个实施例中,构建语音语义识别模型,包括:获取用户在各个场景中的语音信息;将预设比例的语音信息进行语义标记形成训练数据集,将预设比例之外的语音信息不进行语音标记形成测试数据集;采用训练数据集和测试数据集对语音语义识别模型进行训练,直到语音语义识别模型输出的语义满足预设要求,形成训练好的语音语义识别模型。
在另一个实施例中,如图3所示,通过已构建的语音语义识别模型识别语音信息,确定唤醒信息,还包括:
S111,将用户的语音信息发送至与耳机连接的移动终端或云端。
在另一个实施例中,耳机连接移动终端,将用户的语音信息发送至与耳机连接的移动终端,由于移动终端与耳机直接通过无线连接,移动终端能快速地获取语音信息,利用移动终端芯片强大的计算能力大幅提高了效率和响应速度,提高了用户的体验感。
在又一个实施例中,耳机连接云端,将用户的语音信息发送至与耳机连接的云端,由于云端的计算能力远大于耳机和移动终端,进一步提高了识别的准确率和响应速度,进一步提高了用户的体验感。
S112,接收移动终端或云端发送的唤醒信息,其中,唤醒信息由移动终端或云端训练好的语音语义识别模型识别语音信息对应的语义形成。
在另一个实施例中,接收移动终端发送的唤醒信息,其中,唤醒信息由移动终端训练好的语音语义识别模型识别语音信息对应的语义形成,由于移动终端的计算能力大于耳机,故通过设置在移动终端的已构建的语音语义识别模型确定语音信息对应的语义准确率高,提高了耳机接收移动终端发送的唤醒信息的准确率,也提高了用户的体验感。
在又一个实施例中,接收云端发送的唤醒信息,其中,唤醒信息由云端训练好的语音语义识别模型识别语音信息对应的语义形成,由于云端的计算能力大于耳机和移动终端,故通过设置在云端的已构建的语音语义识别模型确定语音信息对应的语义准确率更高,进一步提高了耳机接收云端发送的唤醒信息的准确率,也提高了用户的体验感。
S120,若唤醒信息为预设唤醒词,基于唤醒信息启动与耳机连接的移动终端的语音控制拍照功能。
用户打开移动终端的拍照功能后,现有技术大部分为自拍杆控制或双手触摸控制拍照动作,在一个实施例中,若唤醒信息为预设唤醒词,基于唤醒信息启动与耳机连接的移动终端的语音控制拍照功能,即用预设唤醒词启动语音拍照功能,同时避免了唤醒信息不是预设唤醒词的误触发,提高了唤醒信息的准确率,从而控制移动终端的拍照动作切换为用语音控制拍照动作,解放了用户的双手,能自由摆出各种姿势,提高了用户的体验感。例如,预设唤醒词包括“拍照”、“茄子”、或“cheese”中至少一个。
在一个实施例中,若唤醒信息为预设唤醒词,且唤醒信息满足预设条件,基于唤醒信息启动与耳机连接的移动终端的语音控制拍照功能。例如,预设条件包括:语音能量大于或者等于预设能量阈值、信噪比大于或者等于预设信噪比阈值、或语音识别角度处于预设角度范围内中至少一个条件,通过预设条件提高了唤醒信息的准确率,提高了用户的体验感。
在一个实施例中,预设能量阈值的取值范围为大于或者等于 65 dBSPL;预设信噪比阈值的取值范围为大于或者等于 20 dB;预设角度范围为大于或者等于-30°,且小于或者等于 +30°。
S130,通过已构建的语音语义识别模型识别语音信息,确定控制信息。
在一个实施例中,移动终端的语音拍照功能启动后,再通过耳机中已构建的语音语义识别模型识别语音信息,从确定控制信息,采用控制信息控制移动终端进行各种自拍拍照的动作,用户无需双手或自拍杆就能控制移动终端的拍照动作以自由地摆出各种拍照的动作,解放了用户的双手从而提高了用户进行自拍的体验感。
在另一个实施例中,如图4所示,通过已构建的语音语义识别模型识别语音信息,确定控制信息,还包括:
S131,将用户的语音信息发送至与耳机连接的移动终端或云端。
S132,接收移动终端或云端发送的控制信息。
在另一个实施例中,将用户的语音信息发送至与耳机连接的移动终端后,接收移动终端发送的控制信息,其中,控制信息由设置在移动终端的训练好的语音语义识别模型识别语音信息对应的语义形成,由于移动终端的运算能力大于耳机,故提高了识别语音信息的准确率和速度,提高了用户的体验感。
在又一个实施例中,将用户的语音信息发送至与耳机连接的云端后,接收云端发送的控制信息,其中,控制信息由设置在云端的训练好的语音语义识别模型识别语音信息对应的语义形成,由于云端的运算能力大于移动终端和耳机,进一步提高了识别语音信息的准确率和速度,进一步提高了用户的体验感。
S140,基于控制信息,控制移动终端的拍照动作。
在一个实施例中,基于控制信息,控制移动终端的拍照动作,由于无需用户的双手或自拍杆控制移动终端的拍照动作,提高了自拍拍照的控制效率,解放了用户的双手,用户能自由摆出各种拍照姿势,从而提高了用户进行自拍的体验感。
在一个实施例中,如图5所示,基于控制信息,控制移动终端的拍照动作,包括:
S141,基于控制信息转换为控制指令。
在一个实施例中,基于控制信息,耳机识别控制信息并将控制信息转换为对应的控制指令,由于耳机能识别控制信息并转换为与控制信息对应的控制指令,避免了不同的控制信息造成误操作,提高了控制指令的准确率,提高了用户的体验感。
在另一个实施例中,基于控制信息,移动终端识别控制信息并将控制信息转换为对应的控制指令,由于移动终端的计算能力大于耳机,故识别控制信息并转换为与控制信息对应的控制指令的响应速度更快,既避免了不同的控制信息造成误操作,提高了控制指令的准确率,又提高了控制信息转换为控制指令的效率,提高了用户的体验感。
在一个实施例中,控制信息还包括物理按键控制信息、触摸板控制信息或动作控制信息中至少一种,能适用各种设计理念的耳机,扩展了耳机的应用场景。例如,设置有物理按键的耳机包括音量增加按键、音量降低的按键、播放/暂停按键、上一曲按键、下一曲按键、电源按键、多功能按键或者蓝牙控制按键中至少一种;设置有触摸板的耳机能通过在触摸板上滑动、各种频率的轻触或各种姿态滑动手指来实现各种操作,如音量控制、切换音轨、接听电话等,触摸板能实现更复杂的控制;设置有捕捉动作的耳机能通过传感器或动作识别来进行控制,耳机或移动终端将上述各种控制信息转化为多个拍照动作对应的各种控制指令。
在一个实施例中,动作控制信息包括头部动作控制信息或手势动作控制信息。例如,设置了传感器的耳机能通过耳机的传感器检测用户的头部动作,实现点头、摇头等各种动作的操作,设置了手势识别功能的耳机能通过各种手势来进行操作,耳机或移动终端将上述各种控制信息转化为多个拍照动作对应的各种控制指令。
在一个实施例中,基于控制信息转换为控制指令,包括:
基于物理按键控制信息、触摸板控制信息或动作控制信息,耳机或移动终端识别语音控制信息、物理按键控制信息、触摸板控制信息或动作控制信息并转换为对应的控制指令;便于移动终端根据各控制信息对应的控制指令控制拍照动作,扩展了拍照的控制方法的应用场景。
S142,基于控制指令控制与耳机连接的移动终端的拍照动作。
在一个实施例中,基于各控制指令控制移动终端对应的拍照动作,由于无需采用双手或自拍杆控制移动终端的拍照动作,避免了各种拍照动作的繁琐操作,解放了用户的双手,提高了用户控制拍照动作的准确率,也提高了用户控制自拍的效率,从而提高了用户的体验感。
在又一个实施例中,耳机的语音拍照功能已经默认打开,或者通过与耳机连接的移动终端打开。如图6所示,控制信息包括语音控制信息,控制方法还包括:
S200,获取用户的多个语音信息。
S210,通过已构建的语音语义识别模型识别任一语音信息,确定语音控制信息。
在又一个实施例中,通过设置在耳机的已构建的语音语义识别模型识别任一语音信息,确定语音控制信息,其中,语音控制信息为语音语义识别模型识别任一语音信息对应的语义形成。
在又一个实施例中,由于用户打开移动终端的拍照应用后,移动终端的拍照应用具有直接接收语音控制拍照的功能,且不采用物理按键控制信息、触摸板控制信息或动作控制信息来控制拍照动作,不用将语音信息转换为物理按键控制信息、触摸板控制信息或动作控制信息,故无需启动与耳机连接的移动终端的语音控制拍照功能,进一步提高了控制拍照动作的效率,从而进一步提高了用户的体验感。
S220,基于语音控制信息转换为控制指令。
在又一个实施例中,耳机直接将语音控制信息转换为各种拍照动作对应的控制指令,由于无需移动终端再将语音控制信息转换为控制指令,提高了移动终端拍照应用的响应速度,提高了控制拍照动作的效率,从而提高了用户的体验感。
在再一个实施例中,基于耳机发送至移动终端的语音控制信息,移动终端将语音控制信息转换为各种拍照动作对应的控制指令,降低了耳机的计算负担,移动终端的计算能力大于耳机,提高了控制拍照动作的效率,从而提高了用户的体验感。
S230,基于控制指令控制与耳机连接的移动终端的拍照动作。
在一个实施例中,基于控制指令控制与耳机连接的移动终端的拍照动作,由于控制指令与各拍照动作相对应,各拍照动作均能根据对应的控制指令进行控制,提高了控制指令控制拍照动作的准确率。
在一个实施例中,控制指令包括第一控制指令、第二控制指令、第三控制指令、第四控制指令、第五控制指令、第六控制指令、第七控制指令、第八控制指令、第九控制指令及第十控制指令,拍照动作包括拍照操作、录像开启操作、录像关闭操作、画面放大操作、画面缩小操作、画面移动操作、画面亮度调节操作、闪光灯操作、焦点调节操作或模式调节操作中至少一种。其中,模式调节包括选择风景模式、人像模式、夜晚模式、或广角模式中任一模式。
在一个实施例中,基于控制指令控制与耳机连接的移动终端的拍照动作,包括:基于第一控制指令,控制与耳机连接的移动终端的拍照操作;基于第二控制指令,控制与耳机连接的移动终端的录像开启操作;基于第三控制指令,控制与耳机连接的移动终端的录像关闭操作;基于第四控制指令,控制与耳机连接的移动终端的画面放大操作;基于第五控制指令,控制与耳机连接的移动终端的画面缩小操作;基于第六控制指令,控制与耳机连接的移动终端的画面移动操作;基于第七控制指令,控制与耳机连接的移动终端的画面亮度调节操作;基于第八控制指令,控制与耳机连接的移动终端的闪光灯操作;基于第九控制指令,控制与耳机连接的移动终端的焦点调节操作;基于第十控制指令,控制与耳机连接的移动终端的模式调节操作。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本申请实施例与现有技术相比存在的有益效果是:
本申请的拍照的控制方法应用于耳机,通过获取用户的语音信息;通过已构建的语音语义识别模型识别所述语音信息,确定唤醒信息;若所述唤醒信息为预设唤醒词,基于所述唤醒信息启动与耳机连接的移动终端的语音控制拍照功能;通过已构建的所述语音语义识别模型识别所述语音信息,确定控制信息;基于所述耳机发送至与所述耳机连接的移动终端的所述控制信息,控制所述移动终端的拍照动作,由于通过耳机获取用户的语音信息,并将语音信息转换为控制信息,再采用控制信息控制与耳机连接的移动终端的拍照动作,提高了自拍拍照的控制效率,解放了用户的双手,能自由摆出各种姿势,从而提高了用户进行自拍的体验感。
第二方面,如图7所示,本实施例提供了一种拍照的控制装置100,应用于耳机,包括:
获取模块110,用于获取用户的语音信息。
第一确定模块120,用于通过已构建的语音语义识别模型识别语音信息,确定唤醒信息。
启动模块130,用于若唤醒信息为预设唤醒词,基于唤醒信息启动与耳机连接的移动终端的语音控制拍照功能。
第二确定模块140,用于通过已构建的语音语义识别模型识别语音信息,确定控制信息。
控制模块150,用于基于控制信息,控制与耳机连接的移动终端的拍照动作。
在一个实施例中,耳机通过蓝牙通信协议与移动终端连接,例如人机接口设备(Human Interface Device,HID)、音视频远程控制协议(the Audio/Video RemoteControl Profile ,AVRCP)、标准并行接口(Standard Parallel Port,SPP),串行线性仿真协议(Radio Frequency Communication(s) ,RFCOMM)或蓝牙低能耗(Bluetooth LowEnergy,BLE),便于将耳机发送的控制信息转换为移动终端的控制指令,以控制拍照动作。
在一个实施例中,耳机与移动终端的消息定义格式为消息标识、厂家ID、消息ID、子消息ID及消息体。
需要说明的是,上述模块/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面内容中任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面内容中任一项所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面内容中任一项所述的方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
本申请实施例提供的一种拍照的控制方法还可以应用于穿戴设备,移动终端包括手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备上,本申请实施例对移动终端设备的具体类型不作任何限制。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (11)

1.一种拍照的控制方法,其特征在于,应用于耳机,包括:
获取用户的语音信息;
通过已构建的语音语义识别模型识别所述语音信息,确定唤醒信息;
若所述唤醒信息为预设唤醒词,基于所述唤醒信息启动与耳机连接的移动终端的语音控制拍照功能;
通过已构建的所述语音语义识别模型识别所述语音信息,确定控制信息;
基于所述控制信息控制所述移动终端的拍照动作。
2.如权利要求1所述的方法,其特征在于,所述控制信息包括语音控制信息;
所述控制方法还包括:
获取用户的多个语音信息;
通过已构建的语音语义识别模型识别任一所述语音信息,确定语音控制信息;
基于所述语音控制信息转换为控制指令;
基于所述控制指令控制与所述耳机连接的移动终端的拍照动作。
3.如权利要求1所述的方法,其特征在于,所述通过已构建的语音语义识别模型识别所述语音信息,确定唤醒信息,还包括:
将用户的语音信息发送至与所述耳机连接的移动终端或云端;
接收所述移动终端或所述云端发送的所述唤醒信息,其中,所述唤醒信息由所述移动终端或所述云端训练好的语音语义识别模型识别所述语音信息对应的语义形成。
4.如权利要求1所述的方法,其特征在于,所述若所述唤醒信息为预设唤醒词,基于所述唤醒信息启动与耳机连接的移动终端的语音控制拍照功能,还包括:
若唤醒信息为预设唤醒词,且唤醒信息满足预设条件,基于唤醒信息启动与耳机连接的移动终端的语音控制拍照功能;
其中,预设条件包括:语音能量大于或者等于预设能量阈值、信噪比大于或者等于预设信噪比阈值、或语音识别角度处于预设角度范围内中至少一个条件。
5.如权利要求1所述的方法,其特征在于,所述通过已构建的所述语音语义识别模型识别所述语音信息,确定控制信息,还包括:
将用户的语音信息发送至与所述耳机连接的所述移动终端或云端;
接收所述移动终端或所述云端发送的所述控制信息,其中,所述控制信息由所述移动终端或所述云端训练好的语音语义识别模型识别所述语音信息对应的语义形成。
6.如权利要求1所述的方法,其特征在于,所述基于所述控制信息,控制所述移动终端的拍照动作,包括:
基于所述控制信息转换为控制指令;
发送所述控制指令至与所述耳机连接的所述移动终端;
基于所述控制指令控制与所述耳机连接的所述移动终端的拍照动作。
7.如权利要求6所述的方法,其特征在于,所述控制信息还包括物理按键控制信息、触摸板控制信息或动作控制信息中至少一种;
所述动作控制信息包括头部动作控制信息或手势动作控制信息。
8.如权利要求2或6所述的方法,其特征在于,所述控制指令包括第一控制指令、第二控制指令、第三控制指令、第四控制指令、第五控制指令、第六控制指令、第七控制指令、第八控制指令、第九控制指令及第十控制指令,所述拍照动作包括拍照操作、录像开启操作、录像关闭操作、画面放大操作、画面缩小操作、画面移动操作、画面亮度调节操作、闪光灯操作、焦点调节操作或广角调节操作中至少一种;
所述基于所述控制指令控制与所述耳机连接的所述移动终端的拍照动作,包括:
基于所述第一控制指令,控制与所述耳机连接的所述移动终端的拍照操作;
基于所述第二控制指令,控制与所述耳机连接的所述移动终端的录像开启操作;
基于所述第三控制指令,控制与所述耳机连接的所述移动终端的录像关闭操作;
基于所述第四控制指令,控制与所述耳机连接的所述移动终端的画面放大操作;
基于所述第五控制指令,控制与所述耳机连接的所述移动终端的画面缩小操作;
基于所述第六控制指令,控制与所述耳机连接的所述移动终端的画面移动操作;
基于所述第七控制指令,控制与所述耳机连接的所述移动终端的画面亮度调节操作;
基于所述第八控制指令,控制与所述耳机连接的所述移动终端的闪光灯操作;
基于所述第九控制指令,控制与所述耳机连接的所述移动终端的焦点调节操作;
基于所述第十控制指令,控制与所述耳机连接的所述移动终端的模式调节操作。
9.一种拍照的控制装置,其特征在于,应用于耳机,包括:
获取模块,用于获取用户的语音信息;
第一确定模块,用于通过已构建的语音语义识别模型识别所述语音信息,确定唤醒信息;
启动模块,用于若所述唤醒信息为预设唤醒词,基于所述唤醒信息启动与耳机连接的移动终端的语音控制拍照功能;
第二确定模块,用于通过已构建的所述语音语义识别模型识别所述语音信息,确定控制信息;
控制模块,用于基于所述控制信息,控制所述移动终端的拍照动作。
10.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202311641184.5A 2023-12-04 2023-12-04 拍照的控制方法、装置、电子设备及存储介质 Pending CN117354623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311641184.5A CN117354623A (zh) 2023-12-04 2023-12-04 拍照的控制方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311641184.5A CN117354623A (zh) 2023-12-04 2023-12-04 拍照的控制方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117354623A true CN117354623A (zh) 2024-01-05

Family

ID=89356028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311641184.5A Pending CN117354623A (zh) 2023-12-04 2023-12-04 拍照的控制方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117354623A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照系统
CN104811595A (zh) * 2015-04-08 2015-07-29 合肥君正科技有限公司 一种网络监控摄像机及其工作方法
CN110086996A (zh) * 2019-05-17 2019-08-02 深圳创维-Rgb电子有限公司 一种基于电视的自动拍照方法、电视及存储介质
CN110602391A (zh) * 2019-08-30 2019-12-20 Oppo广东移动通信有限公司 拍照控制方法、装置、存储介质及电子设备
CN111386566A (zh) * 2017-12-15 2020-07-07 海尔优家智能科技(北京)有限公司 设备控制方法、云端设备、智能设备、计算机介质及设备
CN111711864A (zh) * 2020-05-15 2020-09-25 南京创维信息技术研究院有限公司 基于电视的智能语音拍照方法、计算机可读存储介质及电视
CN112114879A (zh) * 2019-06-21 2020-12-22 奇酷互联网络科技(深圳)有限公司 终端唤醒方法、终端和存储介质
US20210319782A1 (en) * 2018-08-23 2021-10-14 Huawei Technologies Co., Ltd. Speech recognition method, wearable device, and electronic device
WO2023202442A1 (zh) * 2022-04-18 2023-10-26 华为技术有限公司 唤醒设备的方法、电子设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照系统
CN104811595A (zh) * 2015-04-08 2015-07-29 合肥君正科技有限公司 一种网络监控摄像机及其工作方法
CN111386566A (zh) * 2017-12-15 2020-07-07 海尔优家智能科技(北京)有限公司 设备控制方法、云端设备、智能设备、计算机介质及设备
US20210319782A1 (en) * 2018-08-23 2021-10-14 Huawei Technologies Co., Ltd. Speech recognition method, wearable device, and electronic device
CN110086996A (zh) * 2019-05-17 2019-08-02 深圳创维-Rgb电子有限公司 一种基于电视的自动拍照方法、电视及存储介质
CN112114879A (zh) * 2019-06-21 2020-12-22 奇酷互联网络科技(深圳)有限公司 终端唤醒方法、终端和存储介质
CN110602391A (zh) * 2019-08-30 2019-12-20 Oppo广东移动通信有限公司 拍照控制方法、装置、存储介质及电子设备
CN111711864A (zh) * 2020-05-15 2020-09-25 南京创维信息技术研究院有限公司 基于电视的智能语音拍照方法、计算机可读存储介质及电视
WO2023202442A1 (zh) * 2022-04-18 2023-10-26 华为技术有限公司 唤醒设备的方法、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110176226B (zh) 一种语音识别、及语音识别模型训练方法及装置
KR102270394B1 (ko) 이미지를 인식하기 위한 방법, 단말, 및 저장 매체
US9685161B2 (en) Method for updating voiceprint feature model and terminal
CN108735209B (zh) 唤醒词绑定方法、智能设备及存储介质
WO2019214361A1 (zh) 语音信号中关键词的检测方法、装置、终端及存储介质
CN110890093A (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
JP7166294B2 (ja) オーディオ処理方法、装置及び記憶媒体
KR20160005050A (ko) 키워드 검출을 위한 적응적 오디오 프레임 프로세싱
WO2022089098A1 (zh) 音高调节方法、装置及计算机存储介质
WO2019242414A1 (zh) 语音处理方法、装置、存储介质及电子设备
CN111883091A (zh) 音频降噪方法和音频降噪模型的训练方法
CN111477243B (zh) 音频信号处理方法及电子设备
WO2021008458A1 (en) Method for voice recognition via earphone and earphone
CN110830368A (zh) 即时通讯消息发送方法及电子设备
CN109686359B (zh) 语音输出方法、终端及计算机可读存储介质
CN114333774A (zh) 语音识别方法、装置、计算机设备及存储介质
CN111739515B (zh) 语音识别方法、设备、电子设备和服务器、相关系统
CN117354623A (zh) 拍照的控制方法、装置、电子设备及存储介质
CN114065168A (zh) 信息处理方法、智能终端及存储介质
CN112256135A (zh) 一种设备控制方法及装置、设备、存储介质
WO2024055831A1 (zh) 一种语音交互方法、装置及终端
WO2023151360A1 (zh) 一种电子设备控制方法、装置及电子设备
CN110148401B (zh) 语音识别方法、装置、计算机设备及存储介质
CN113535926B (zh) 主动对话方法、装置及语音终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination