CN101480039B - 声音远程控制 - Google Patents

声音远程控制 Download PDF

Info

Publication number
CN101480039B
CN101480039B CN2006800551968A CN200680055196A CN101480039B CN 101480039 B CN101480039 B CN 101480039B CN 2006800551968 A CN2006800551968 A CN 2006800551968A CN 200680055196 A CN200680055196 A CN 200680055196A CN 101480039 B CN101480039 B CN 101480039B
Authority
CN
China
Prior art keywords
user
word
portable terminal
control
control action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2006800551968A
Other languages
English (en)
Other versions
CN101480039A (zh
Inventor
M·古斯塔夫松
J·霍普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
SnapTrack Inc
Original Assignee
Sony Ericsson Mobile Communications AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Ericsson Mobile Communications AB filed Critical Sony Ericsson Mobile Communications AB
Publication of CN101480039A publication Critical patent/CN101480039A/zh
Application granted granted Critical
Publication of CN101480039B publication Critical patent/CN101480039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/16Transforming into a non-visible representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Studio Devices (AREA)
  • Telephone Function (AREA)
  • Selective Calling Equipment (AREA)
  • Magnetically Actuated Valves (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)

Abstract

一种设备可以包括图像获取设备和逻辑。所述逻辑可以被配置为接收来自用户的声音输入以及识别所述声音输入。所述逻辑可以被进一步配置为基于所识别的声音输入来执行与所述图像获取设备相关联的控制动作。

Description

声音远程控制
发明领域
本发明总体上涉及执行控制动作,尤其是涉及使用语音识别来执行与图像获取有关的控制动作。
背景技术
诸如蜂窝式电话之类的通信设备已经变得是越来越多用途的。例如,当今的蜂窝式电话经常包括允许用户不仅仅是拨打和接听电话而是还可以进行诸如发送/接收文本消息、播放音乐、玩视频游戏等之类的更多行为的应用。此外,蜂窝式电话经常包括允许用户拍照和记录视频剪辑的相机。因而,蜂窝式电话已经变成每天生活的越来越普遍的一部分。
US2005118990涉及组合的移动电话和数字相机,其中可以通过音频或者声音控制来控制数字相机。移动电话包括至少一个麦克风来检测可听到的输入。所检测到的可听到输入被转换成电信号并且被发送到处理器。该处理器具有对存储介质的访问,该存储介质包含导致处理器在所检测到的可听到输入上进行操作的软件。该处理器将所检测到的可听到输入与相机命令数据库比较比较以确定所检测到的可听到输入是否与数据库中的相机命令之一相匹配。如果存在匹配,则该处理器执行与该相机命令相关联的指令集以执行期望的功能。
在US5027249中,描述了通过声音识别操作来拍摄照片的相机。该相机包括麦克风,通过该麦克风,操作者的声音命令词语以数字数据的形式登记在计算机中。该计算机根据所登记的数据标识相同的声音命令词语并且操作相机想要的功能。相机利用显示设备指示计算机用于登记和识别声音命令词语的功能,以便操作者可以确认他在相机上的操作。
US 4389109中描述了具有声音命令系统的相机,其包括将声音命令系统选择性地带入学习和工作模式之一的开关。在学习模式期间,各种命令声音在麦克风中说入并且每个命令声音以指定的部分登记在相机中。在工作模式期间,将说出的命令声音与所登记的命令声音中的每一个进行比较,并且由最相关的那个所识别以便产生依赖于所识别部分的控制信号。
发明内容
根据一个方面,提供了一种包括至少一个图像获取设备和逻辑的设备。所述逻辑被配置为接收来自用户的声音输入,识别该声音输入,并且基于所识别的声音输入来执行与所述至少一个图像获取设备相关联的控制动作。
另外,所述至少一个图像获取设备可以包含相机,而且所述控制动作包括使用所述相机拍照。
另外,所述至少一个图像获取设备可以包含视频记录设备,而且所述控制动作包括激活与该视频记录设备相关联的视频记录模式。
另外,所述控制动作可以包含控制自动聚焦功能、控制变焦镜头或者控制分辨率模式。
另外,当识别声音输入时,所述逻辑被配置为使用语音识别软件来识别所述声音输入。
另外,所述设备可以进一步包含显示器,其被配置为响应于用户输入而显示多个控制动作以及与所述多个控制动作中的每一个相关联的声音命令。
另外,所述设备可以包含存储器,并且所述逻辑可以被进一步配置为允许用户提供与多个相应的控制动作中的每一个相对应的至少一个词语。所述逻辑可以被进一步配置为在所述存储器中存储与所述多个相应的控制动作中的每一个相对应的至少一个词语。
另外,所述逻辑可以被进一步配置为执行语音识别以识别与所述多个控制动作中的第一控制动作相关联的第一词语或者短语,向用户检验所识别的第一词语或者短语是否是正确的,以及当所识别的第一词语或者短语被检验为正确时,在所述存储器中将所识别的第一词语或者短语存储为与所述第一控制动作相对应。
另外,所述设备可以进一步包含存储器,并且所述逻辑可以被进一步配置为提供用户接口,该用户接口被配置为允许用户向所述设备输入文本,该文本标识了将对应于与所述至少一个图像获取设备相关联的第一控制动作的至少一个词语或者短语,并且所述逻辑还可以被进一步配置为在所述存储器中将所述文本存储为与所述第一控制动作相对应。
另外,所述设备可以包含蜂窝式电话。
根据另一个方面,在包括至少一个图像获取设备的移动终端中执行一种方法。该方法包括:接收来自用户的声音输入,识别所述声音输入,并且基于所识别的声音输入来执行与所述至少一个图像获取设备相关联的控制动作。
另外,所述控制动作可以包含拍照、激活视频记录模式、设置分辨率模式、激活闪光灯、控制变焦镜头或者控制自动聚焦功能中的至少一个。
另外,识别所述声音输入包括:使用语音识别软件识别所述声音输入。
另外,使用语音识别软件识别所述声音输入包括:将所述声音输入与用户提供的多个经存储的语音信号相比较,并且确定所述声音输入是否与所存储的语音信号之一相匹配。
另外,所述方法可以进一步包含:提示用户提供与多个相应的控制动作中的每一个相关联的声音输入,响应于所述提示而从用户接收与所述多个相应的控制动作中的每一个相关联的至少一个词语,以及存储与所述多个相应的控制动作中的每一个相关联的所述至少一个词语。
另外,所述方法可以进一步包含:执行语音识别以识别与所述多个控制动作中的第一控制动作相关联的至少第一词语,向用户检验所识别的与所述第一控制动作相关联的第一词语是否是正确的,以及当所识别的第一词语被检验为正确时存储所述与第一控制动作相关联的第一词语。
根据还有的另一个方面,提供了一种设备。该设备包括:用于拍摄照片或者视频中的至少一个的装置,用于从用户接收声音输入的装置,以及用于基于所述声音输入而执行与所述用于拍摄照片或者视频中的至少一个的装置相关联的控制动作的装置。
另外,所述设备可以包含用于显示多个控制动作以及与所述多个控制动作相对应的多个声音命令的装置。
根据还有的另一个方面,提供了一种其上存储有多个指令的计算机可读介质。所述指令在由至少一个处理器执行时导致所述至少一个处理器从用户接收声音输入,识别所述声音输入,以及基于所识别的声音输入执行与图像获取有关的控制功能。
另外,所述与图像获取有关的控制功能可以包含利用相机拍摄照片、激活与视频记录设备相关联的视频记录模式、设置分辨率模式、激活闪光灯、控制变焦镜头或者控制自动聚焦功能中的至少一个。
另外,所述指令进一步导致所述处理器响应于用户输入而显示多个与图像获取有关的控制动作以及与所述多个与图像获取有关的控制动作中的每一个相对应的声音命令。
另外,所述指令进一步导致所述处理器允许用户选择和多个与图像获取有关的控制动作中的每一个相对应的词语或者短语。
对于本领域技术人员来说,本发明其他特征和优点将根据以下的详细说明而变得是非常显然的。所显示和描述的实施例提供了被考虑用于实现本发明的最佳方式的示例说明。本发明能够在各种明显的方面进行修改而都不背离本发明。因此,附图将被认为实质上是说明性的,而不是限制性的。
附图说明
参考附图,其中具有相同参考数字表示的元件可以始终表示相似的元件。
图1A和1B是其中可以实现根据本发明的方法和系统的示例性移动终端的图示;
图2是根据按照本发明的实施方式的、图1A和1B中的移动终端的示例性框图;
图3是根据按照本发明的实施方式的、在图2的移动终端中实现的部件的示例性功能框图;
图4是示出了与根据本发明配置图2的移动终端相关联的示例性处理的流程图;
图5是可以被存储在图2的移动终端中和/或显示给用户的示例性表格的图示;以及
图6是示出了根据本发明的示例性处理的流程图。
具体实施方式
本发明的下列详细说明参考附图。在不同附图中的相同参考数字标识相同或者类似的元件。此外,以下的详细说明不是限制本发明。相反,本发明的范围由所附的权利要求及其等效内容来限定。
图1A和1B是其中可以实现根据本发明的方法和方法的示例性移动终端100的正视图和后视图。在此,在移动终端的上下文中描述本发明。如在此处所使用的那样,术语“移动终端”可以包括:有或者没有多行显示器的蜂窝式无线电话;个人通信系统(PCS)终端,其可以将蜂窝式无线电话与数据处理、传真和数据通信能力组合起来;个人数字助理(PDA),其可以包括无线电话、寻呼机、互联网/局域网接入、Web浏览器、管理器、日历和/或全球定位系统(GPS)接收器;以及传统的膝上型和/或掌上型接收器或者其他的包括无线电话收发信机的装置。移动终端还可以被称为“普适计算(pervasivecomputing)”设备。还应当理解,本发明的各方面还可以在其他的不包括与拨打和接听电话相关联的通信功能的设备中实现。例如,本发明的各方面可以在任何图像获取设备中实现。在此处使用的的术语“图像获取设备”可以包括诸如照相机之类的、获取静止图像的任何设备和/或诸如视频记录设备之类的、获取运动图像的任何设备。
参见图1A,移动终端100可以包括外壳110、镜头120和快门按钮130。外壳110可以保护移动终端100的部件免受外部元件的影响。镜头120可以聚焦光线,并且可以包括许多透镜元件。镜头盖(未示出)可以被控制为揭开镜头120的盖子以准许用户拍摄照片以及当照相机不被使用时盖上镜头120。快门按钮130可以被用户按下以拍摄照片。
图1B示出了移动终端100的背面。参见图1B,移动终端100包括显示屏140和用户控制区150。显示屏140可以是液晶显示器(LCD)或者某个其它种类的显示屏,其允许用户查看在用户拍摄照片和/或录制视频剪辑时将要被获取的图像。在某些实施方式中,镜头120可以位于移动终端100的与显示屏140相同的侧上。移动终端100还可以包括其他的与拍摄照片和/或记录视频剪辑相关联的元件/部件(未示出)。例如,移动终端100可以包括变焦镜头、闪光灯、及其他便于拍摄照片和/或视频的元件。
用户控制区150可以包括与经由移动终端100接打电话相关联的控制。例如,用户控制区150可以包括拨号盘按钮、挂断按钮等。如以下详细描述的那样,用户控制区150还可以包括菜单按钮,其准许用户查看与选择移动终端100的功能相关联的菜单,所述功能诸如为声音激活的远程控制功能。
图2是根据按照本发明的示例性实施方式的移动终端100的图示。移动终端100可以包括总线210、处理逻辑220、存储器230、输入设备240、输出设备250、图像获取设备260和通信接口270。总线210准许在移动终端100的部件当中进行通信。本领域技术人员将会认识到,移动终端100可以以许多其他的方式进行配置,并且可以包括其他的或者不同的元件。例如,移动终端100可以包括一个或多个电源(未显示)。移动终端100还可以包括用于处理数据的调制器、解调器、编码器、解码器等。
处理逻辑220可以包括处理器、微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。处理逻辑220可以执行软件指令/程序或者数据结构以控制移动终端100的操作。
存储器230可以包括:随机存取存储器(RAM)或者另一类型的动态存储设备,用于存储由处理逻辑220执行的信息与指令;只读存储器(ROM)或者另一类型的静态存储设备,用于存储供处理逻辑220使用的静态信息与指令;闪速存储器(例如,电可擦可编程只读存储器(EEPROM))设备,用于存储信息与指令;和/或某些其它类型的磁或者光记录介质及其相应的驱动器。存储器230还可以用来在处理逻辑220执行指令期间存储临时变量或者其他中间信息。此外或者是可替代地,处理逻辑220使用的指令可以被存储在可被处理逻辑220存取的另一类型的计算机可读介质中。
输入设备240可以包括任何准许操作者向移动终端100输入信息的机构,如麦克风、键盘、小键盘、鼠标、笔、声音识别和/或生物计量机构等。输入设备240还可以包括诸如用户控制区150中的按钮(图1B)之类的一个或多个按钮,其允许用户经由输出设备250接收选项菜单。该菜单可以允许用户选择与移动终端100所执行的应用相关联的各种功能或者模式。做为选择,输入设备240可以在控制区150中包括一个或多个按钮,其允许用户激活移动终端100的特定模式,诸如与激活和相机260相关联的声音激活的远程控制功能相关联的模式。
输出设备250可以包括一个或多个传统的、向用户输出信息的机构,包括显示器、打印机、一个或多个扬声器等。输出设备250还可以包括当接到打进来的电话时导致移动终端100振动的振动机构。
图像获取设备260可以包括传统的相机元件,诸如镜头120、快门按钮130及其他使移动终端100能够拍摄照片的部件。图像获取设备260还可以包括使图像获取设备260能够记录诸如视频剪辑之类的运动图像的部件。图像获取设备260可以在例如存储器230或者另一存储器中存储照片/视频剪辑。如上所述,图像获取设备260还可以包括诸如变焦镜头、闪光灯等之类的其他元件。图像获取设备260可以进一步在两种模式之一下进行操作。在第一种模式下,移动终端100的用户可以通过按下快门按钮130来拍摄照片,手动地操作变焦镜头,和/或通过按下移动终端100上的一个或多个按钮来切换到视频模式。在第二种模式下,移动终端100的用户可以如以下更详细描述地那样使用声音命令经由图像获取设备260拍摄照片/视频。图像获取设备260在图2中被显示为单个设备。在某些实施方式中,图像获取设备260可以包括分离的用于拍摄静止图像的与照相机有关的元件/部件,和分离的用于拍摄和记录运动图像(例如视频)的与视频记录有关的元件/部件。
通信接口270可以包括任何使移动终端100能够与其他设备和/或系统进行通信的类似收发信机的机构。例如,通信接口270可以包括调制解调器或者到LAN的以太网接口。
通信接口270还可以包括用于经由诸如无线网络之类的网络进行通信的其他机构。例如,通信接口270可以包括一个或多个射频(RF)发射机和接收机和/或收发信机以用于传输RF数据。通信接口270还可以包括一个或多个用于发射/接收诸如RF数据之类的数据的天线。
根据本发明,移动终端100可以执行与控制移动终端100上的诸如图像获取逻辑260之类的各种元件相关联的处理。移动终端100可以响应于处理逻辑220执行这些操作,其中所述处理逻辑220执行在诸如存储器230之类的计算机可读介质中包含的指令序列。这种指令可以经由例如通信接口270从另一计算机可读介质中读取到存储器230中。计算机可读介质可以包括一个或多个存储器设备和/或载波。在替换实施例中,硬布线的电路可以用来代替软件指令或者与所述软件指令结合使用来实现根据本发明的处理。因此,根据本发明的实施方式不局限于硬件电路和软件的任何特定组合。
图3是根据按照本发明的实施方式在图2的移动终端中如在存储器230中实现的示例性部件的功能框图。参见图3,存储器230可以包括语音识别程序310和控制命令产生器320。语音识别程序310可以包括任何种类的、能够执行语音识别以识别各种词语和/或短语并且基于所识别的词语/短语输出信息的语音识别软件和/或硬件。语音识别程序310还可以包括用户接口,如以下更详细地描述的那样,通过该用户接口向移动终端100的用户提示提供将与各种动作相关的词语/短语。语音识别程序310可以进一步包括存储许多与执行语音识别相关联的规则或者语法的规则数据库。这些规则/语法可以基于特定的词语/短语,其中语音识别程序310被配置为识别所述特定词语/短语。
例如,语音识别程序310可以被配置为识别各种词语,诸如“笑一笑”(cheese)、“卡嗒”(click)、“拍照”、“放大”、“广角”、“聚焦”、“自动聚焦正常”、“自动聚焦微距”(auto focusmacro)、“自动聚焦关闭”、“连拍4张”(burst4)、“视频开始”、“视频停止”、“闪光灯”、“高分辨率”、“低分辨率”、“麦克风打开”、“麦克风关闭”以及其他与利用图像获取设备260拍摄照片和/或视频相关联的词语/短语。如以下更详细地描述的那样,这些词语/短语可以由移动终端100的用户提供,这些词语/短语与各种控制动作相关并且被存储在移动终端100中。语音识别程序310可以使用这些存储的词语/短语以便于准确的语音识别。
语音识别程序310还可以存储语音样本,诸如由移动终端100的用户输入的、用户想要使之与各种控制动作相关的词语/短语。语音识别程序310还可以使用这些存储的语音样本以便于语音识别处理。例如,语音识别程序310可以将用户输入的词语或者短语与所存储的语音样本进行比较。如果所接收的词语或者短语与所存储的语音样本之一相匹配,则语音识别程序310可以将与所存储的语音样本相关联的词语/短语识别为由用户讲出来的词语/短语。使用存储的语音样本可以有助于提高语音识别处理的准确度。
在每种情况下,语音识别程序310可以接收声音输入,并且确定所述声音输入是否与语音识别程序310中存储的词语/短语之一相对应。语音识别程序310然后可以将标识所说出的词语/短语的信息转发到移动终端100中的其他设备/应用,诸如控制命令产生器320。
控制命令产生器320可以接收来自语音识别程序310的信息,并且产生命令以控制由移动终端100执行的应用。例如,在一种实施方式中,控制命令产生器320可以被配置为执行与由图像获取设备260和/或诸如变焦镜头或者闪光灯之类、与图像获取设备260相关的外围设备拍摄照片和/或视频相关联的控制动作。在每种情况下,控制命令产生器320可以包括预先存储的命令/代码,以及/或者产生适合于所期望的控制动作的命令、代码或者指令。
如上所述,在某些实施方式中,语音识别程序310可以包括用户接口,其允许用户提供将与各种控制命令相关的词语/短语。例如,图4示出了与提供定制的声音命令相关联的示例性处理,其中所述定制的声音命令将由语音识别程序310和/或控制命令产生器320使用以执行各种控制动作。处理可以从用户访问经由例如移动终端100的输出设备250提供的菜单开始。菜单可以包括用于允许用户输入各种将被语音识别程序310识别的声音命令的选项。假定用户选择了这个选项。
语音识别程序310然后可以向移动终端100的用户提供用户接口(步骤410)。在示例性实施方式中,用户接口可以经由显示屏140向用户显示许多命令,诸如拍摄照片、放大、缩小、自动聚焦、当拍摄照片时激活闪光灯、转到视频模式、使用高分辨率模式、使用低分辨率模式、打开照相机、关闭照相机、打开麦克风、关闭麦克风等。
假定用户选择了用于拍摄照片的命令。在这种情况下,用户接口可以提示用户讲出他/她想要与用于使用图像获取设备260拍摄照片的命令相对应的词语或者短语。由语音识别程序310提供的提示可以是经由输出设备250(例如扬声器)输出给用户的声音提示和/或经由显示屏140输出的文字提示。
假定用户想要使词语“笑一笑”与用于拍摄照片的声音命令相对应。在这种情况下,用户可以讲出词语“笑一笑”。语音识别程序310可以经由例如输入设备240(例如麦克风)接收该声音输入(步骤420)。语音识别程序310可以向用户讲回词语“笑一笑”以确保该词语被语音识别程序310正确识别出来。
例如,语音识别程序310可以提供诸如“你已经选择了词语笑一笑作为用于拍摄照片的命令。是这样吗?”之类的声音输出。如果语音识别程序310已经恰当地识别出所述词语/短语(在这个例子中为笑一笑),则用户可以例如通过回答是的来确认语音识别程序310所识别出的词语/短语(步骤430)。
做为选择,语音识别程序310提供的提示可以指示用户将经由文本输入、例如经由输入设备240(例如字母数字小键盘)输入所述词语/短语。
在每种情况下,语音识别程序310将存储用户提供的词语/短语,并且将词语/短语与用于拍摄照片的命令相关(步骤440)。可以以这样的方式为多个其他的命令/动作继续该处理。也就是说,用户可以提供用于放大预定量、放大最大量、缩小预定量、缩小最大量、使用自动聚焦功能、快速连续地拍摄多张照片、在拍摄照片时使用闪光灯、开始视频获取模式、停止视频获取模式、激活与拍摄/存储照片相关联的高分辨率模式、激活与拍摄/存储照片相关联的低分辨率模式、打开照相机、关闭照相机、打开麦克风、关闭麦克风等的词语/短语。在每种情况下,用户可以选择他/她偏好的词语或者短语用于执行所期望的动作。
例如,如上所述,所述词语/短语可以单个词,例如用于拍摄照片的笑一笑,用于使图像获取设备260能够在视频记录模式下操作的“视频”等。做为选择,所述词语/短语可以是若干个词语,诸如用于使用变焦镜头以把镜头推进到被摄对象上的“最大变焦”,指示图像获取设备260使用可经由相机260可得到的最多兆数的像素来拍摄并且存储数字照片的“高分辨率”,指示图像获取设备260连续快速地拍摄四幅照片的“连拍4张”等。用这样的方式,用户偏好的声音命令可以被移动终端100存储下来并且关联到所期望的控制动作。
在用户提供了初始命令之后的稍晚时间,用户可以查看移动终端100已经存储的词语/短语以及对应命令的列表。例如,移动终端100可以包括允许用户查看存储在移动终端100中的声音命令的菜单。用户可以通过例如按下用户控制区150(图1B)中的按钮来查看命令。响应于用户的选择,移动终端100可以经由显示屏140输出命令和对应的声音输入的列表。
例如,图5示出了存储在移动终端100中和/或经由显示屏140显示给用户的示例性表格。参见图5,表格500可以在字段510中包括控制动作的列表,并且在字段520中可以包括对应的声音命令的列表。例如,如第一条目中所示,用于打开相机的声音命令可以是“相机打开(camera on)”。如果用户希望改变声音命令,则用户可以经由输入设备、诸如小键盘控制设备选择特定命令并且提供新的命令。例如,如果用户希望将用于拍摄照片的命令从“笑一笑”改变为“卡嗒”,则用户可以选择字段510中的动作“拍摄照片”或者字段520中的声音命令“笑一笑”,并且提供新的词语/短语来代替“笑一笑”。在这个例子中,用户会讲出“卡嗒”(或者经由字母数字小键盘输入“卡嗒”),而且语音识别程序310将用“卡嗒”来代替“笑一笑”,并且将“卡嗒”识别为用于拍摄照片的声音命令。以这样的方式,用户可以随时改变用于特定控制动作的特定声音命令。
在某些实施方式中,语音识别程序310可以存储可用于每个特定控制动作的选择(即词语/短语)菜单。在这种情况下,语音识别程序310可以显示用于特定控制动作的选择,并且用户可以选择他/她希望用于特定控制动作的选择之一。用户然后可以使用所选择的词语/短语作为用于执行所期望的控制动作的声音命令。
此外,在某些实施方式中,缺省的声音命令可以由声音识别程序310预先存储。也就是说,声音识别程序310可以在用户输入任何特定的词语/短语之前存储用于特定动作的各种声音命令。在这种情况下,用户可以查看声音命令,并且决定是否使用预先存储的词语/短语或者对预先存储的、与声音命令对应的词语/短语进行一个或多个改变。在每种情况下,声音识别程序310都可以允许用户选择他/她偏好的用于执行各种控制动作的词语/短语。移动终端100然后可以如以下详细描述的那样响应于声音输入而执行所期望的控制动作。
图6是示出了与执行和图像获取设备260相关联的控制动作相关联的示例性处理的流程图。假定移动终端100被加电,并且移动终端100的用户希望使用图像获取设备260来拍摄照片。例如,移动终端100的用户可能想要使用图像获取设备260拍摄他/她自己与一群朋友的照片。在这种情况下,移动终端100的用户可以将移动终端100放置在某个表面(诸如桌子)上,将他/她自己的周围的这群朋友安排在镜头120的前面,并且讲出词语“笑一笑”。
语音识别程序310可以接收该声音输入,并且执行语音识别以识别用户讲出的特定词语/短语(步骤610)。在这种情况下,假定语音识别程序识别词语“笑一笑”。语音识别程序310然后可以识别与所说出的词语/短语(即,在这个例子中为“笑一笑”)相对应的命令(步骤620)。例如,语音识别程序310可以访问表格500,并且识别出词语“笑一笑”与用于拍摄照片的控制动作510相对应。
语音识别程序310可以将识别出的命令转发给控制命令产生器320。控制命令产生器320接收来自语音识别程序310的信息,并且产生适当的、用于导致图像获取设备260拍摄照片的命令或者指令(步骤630)。例如,控制命令产生器320可以指示图像获取设备260拍摄照片。这个指令可以代替当按下快门按钮130时接收的传统信号。图像获取设备260然后可以拍摄照片(步骤640)。用这样的方式,移动终端100的用户可以简单地讲出用于拍摄照片的命令,并且移动终端100可以执行拍摄照片所需要的控制动作。这使用户能够执行与图像获取设备260相关联的各种控制动作而不需要用户按下快门按钮130或者一个或多个其他按钮来执行所期望的动作。有利地,用这样的方式使用语音识别程序310可以允许用户将他/她自己置于照片中而不需要用户设置定时装置然后急速地使他/她自己出现于照片中。此外,使用语音识别程序310可以允许用户避免在按下快门按钮时使移动终端100无意地移动,从而避免可能焦点没有对准或者不恰当地居中的照片。
如上所述,控制命令产生器320还可以产生控制其他与图像获取设备260相关联的部件(诸如变焦镜头、自动聚焦功能、闪光灯等)的命令或者指令。在每种情况下,控制命令产生器320都可以被配置为存储被各种与图像获取设备260相关联的部件识别以执行所期望的控制功能的命令、代码和/或指令。
作为另一个例子,假定与移动终端100相关联的用户想要切换到视频记录模式,则用户可以简单地讲出“视频开始”,并且图像获取设备260将切换到其中可以记录视频剪辑(例如运动图像)的视频记录模式。以这样的方式使用语音识别程序310可以在用户忙着贯注于特别的主题时提供附加的益处。例如,当用户正在跟随运动赛事中的动作时,用户可以简单地讲出用于切换到视频模式的命令,而不必查找并按下移动终端100上的一个或多个按钮。
作为还有的另一个例子,假定移动终端100的用户想要经由图像获取设备260使用可得到的最高分辨率模式来拍摄照片。在这种情况下,用户可以讲出“最大分辨率”,并且图像获取设备260将经由图像获取设备260使用可得到的最高兆像素的分辨率来拍照。再次,用这样的方式使用语音识别程序310使得用户能够贯注于他/她想要经由照片获取的被摄对象,而不需要用户按下一个或多个按钮来改变与图像获取设备260相关联的图象分辨率模式。
在还有的另一种情形中,移动终端100的用户可能希望快速连续地拍摄多张照片(诸如四幅照片)。在这种情况下,用户可以讲出“连拍4张”,并且图像获取设备260可以很快速地连续拍摄四幅照片。这个命令可以有利地允许用户比按下快门按钮130更加快速地获取图像。
如上所述,移动终端100可以使用声音识别来执行与图像获取设备260相关联的各种控制动作。在某些实施方式中,移动终端100可以包括模式指定器,其允许经由声音命令来控制图像获取设备260及其他与图像获取设备260相关联的部件。例如,移动终端100可以包括菜单,其允许移动终端100的用户指定将在与传统的手动激活模式相反的声音激话控制模式下使用图像获取设备260。用户可以通过例如按下用户控制区150(图1B)中的按钮来接收菜单。做为选择,输入设备240可以包括位于用户控制区150中的相机/视频按钮,其允许用户选择图像获取设备260是在与声音命令相关联的模式下还是在传统的相机/视频记录模式下。在还有的其它替代方式中,可能不需要设置与图像获取设备260相关联的声音激话模式。也就是说,图像获取设备260可以在声音激话模式下操作而不需要设置任何特定模式。例如,在一种实施方式中,移动终端100的用户可以简单地讲出“麦克风打开”以激活可以被包括在输入设备240中的麦克风。一旦麦克风被激活了,语音识别程序310就可以从用户接收声音命令。在每种情况下,移动终端100都可以允许用户提供将导致与图像获取设备260相关联的一个或多个动作的声音命令。
结论
根据本发明的实施方式允许用户通过使用语音识别来以有效的方式执行与图像获取功能相关联的控制动作。有利地,使用语音识别可以以简单、用户友好的方式允许用户执行与相机和/或视频记录设备相关联的各种控制功能。这可以增加用户对于使用各种与图像获取有关的功能的满意度,并且可以简化这些功能的整体使用。
对本发明的实施例的上述描述提供了例子说明和描述,但是不是穷举的,而且也不打算将本发明限制为所公开的确切形式。鉴于上述示教进行修改和变化是可能的,或者可以从本发明的实践中获知修改和变化。
例如,已经主要在包括诸如相机和/或视频记录器之类的图像获取设备的移动终端的上下文中描述了本发明。然而,本发明可以用在诸如单独的照相机、单独的视频记录设备、组合式照相机/视频记录设备等之类的包括图像获取设备的其他设备中。
此外,在某些实施方式中,移动终端100可以在识别出声音命令之后向移动终端100的用户提供诸如音频和/或文本之类的反馈。例如,在用户已经讲出用于切换到视频模式的命令之后,移动终端100可以输出表明“视频模式已激活”的音频。用这样的方式,用户可以接收指示所执行的特定控制动作的反馈。
此外,虽然已经结合图4和图6描述了一系列步骤,但是在根据本发明的其他实施方式中可以改变这些步骤的顺序。而且,不相关的步骤可以并行地执行。
对于本领域普通技术人员来说,如上所述的本发明的方面显然可以以蜂窝式通信设备/系统、方法、和/或计算机程序产品的形式实现。因此,本发明可以以硬件和/或软件(包括固件、驻留软件、微码等)来实现。此外,根据本发明的方面可以采取在计算机可用存储介质或者计算机可读存储介质上的计算机程序产品的形式,其中在所述介质中包含用于由指令执行系统使用或者与指令执行系统关联使用的计算机可用程序代码或者计算机可读程序代码。用于实现根据本发明原理的方面的实际软件代码或者专用控制硬件不对本发明构成限制。因此,描述了这些方面的操作和工作情况而不考虑具体的软件代码——应当理解,本领域普通技术人员能够基于在此处的描述设计出用于实现这些方面的软件和控制硬件。
此外,本发明的某些部分可以被实现为执行一个或多个功能的“逻辑”。这个逻辑可以包括诸如处理器、微处理器、专用集成电路或者现场可编程门阵列之类的硬件、软件、或者硬件和软件的组合。
应当强调的是,在这个说明书中使用的术语“包括/包含”用于表示存在所提及的特征、整数、步骤或部件,但是并不排除还存在或者添加有一个或多个其他的特征、整数、步骤、部件、或者它们的组。
除非明确地说明,否则在本申请的说明书中使用的元件、步骤或者指令都不应当被看作是对于本发明而言是关键或者必要的。此外,在此处使用的冠词“一个”用来包括一项或多项。在想要表示仅仅一个项目时,使用了术语“单个”或者类似的语言。此外,除非明确地说明,否则在此处使用的短语“基于”用来表示“至少部分地基于”。
本发明的范围由权利要求及其等效内容来限定。

Claims (10)

1.一种用于执行控制动作的移动终端,包括:
至少一个图像获取设备和存储器;所述移动终端的特征在于包括:
显示器,其被配置为响应于用户输入而显示多个控制动作以及多个声音命令,该多个声音命令的每一个声音命令与所述控制动作中的相应控制动作相对应;以及
逻辑,被配置为:
接收来自用户的声音输入,
识别所述声音输入,
基于所识别的声音输入,执行该多个控制动作中与所述至少一个图像获取设备相关联的控制动作,
提供用户接口,该用户接口被配置为允许用户向所述移动终端输入文本,所述文本标识将对应于和所述至少一个图像获取设备相关联的第一控制动作的至少一个词语或者短语,以及所选择的词语或者短语被用作为用于执行所希望的控制动作的声音命令,以及
在所述存储器中将所述文本存储为与所述第一控制动作相对应。
2.如权利要求1所述的移动终端,其中所述多个控制动作中被执行的控制动作包括拍摄照片、激活视频记录模式、控制自动聚焦功能、控制变焦镜头或者控制分辨率模式中的至少一个。
3.如权利要求1所述的移动终端,其中所述逻辑被进一步配置为:
允许用户为多个控制动作中的每一个提供至少一个相对应的词语,以及
在所述存储器中为所述多个控制动作中的每一个存储所述至少一个相对应的词语。
4.如权利要求3所述的移动终端,其中所述逻辑被进一步配置为:
执行语音识别,以识别与所述多个控制动作中的第二控制动作相关联的第一词语或者短语,
向用户检验所识别的第一词语或者短语是否是正确的,以及
在所识别的第一词语或者短语被检验为正确的时,在该存储器中将所识别的第一词语或者短语存储为与所述第二控制动作相对应。
5.如权利要求1所述的移动终端,其中所述移动终端包括蜂窝式电话。
6.一种在包括至少一个图像获取设备的移动终端中的方法,该方法包括:
提供用户接口,该用户接口被配置为允许用户向所述移动终端输入文本,所述文本标识至少一个词语或者短语,所述至少一个词语或者短语将对应于多个控制动作中的第一控制动作;
在存储器中将所述文本存储为与所述第一控制动作相对应;
接收来自用户的声音输入;
将所述声音输入识别为与所述至少一个词语或者短语相对应;以及
基于所识别的声音输入,执行与所述至少一个图像获取设备相关联的第一控制动作。
7.如权利要求6所述的方法,其中所述多个控制动作中的第一控制动作包括拍摄照片、激活视频记录模式、设置分辨率模式、激活闪光灯、控制变焦镜头或者控制自动聚焦功能中的至少一个。
8.如权利要求7所述的方法,其中将所述声音输入识别为与所述至少一个词语或者短语相对应还包括:
将所述声音输入与多个存储的用户提供的语音信号进行比较,以及
确定所述声音输入是否与所存储的语音信号之一相匹配。
9.如权利要求6所述的方法,进一步包括:
提示用户为多个控制动作中的每一个提供相关联的声音输入,
响应于所述提示而为所述多个控制动作中的每一个从用户接收至少一个相关联的词语,以及
为所述多个控制动作中的每一个存储所述至少一个相关联的词语。
10.如权利要求9所述的方法,进一步包括:
执行语音识别,以识别与所述多个控制动作中的第二控制动作相关联的至少第一词语,
向用户检验所识别的与所述第二控制动作相关联的至少第一词语是否是正确的,以及
当所识别的至少第一词语被检验为正确的时,存储所述与第二控制动作相关联的所识别的至少第一词语。
CN2006800551968A 2006-06-30 2006-12-27 声音远程控制 Active CN101480039B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/427,807 US8207936B2 (en) 2006-06-30 2006-06-30 Voice remote control
US11/427,807 2006-06-30
PCT/IB2006/055039 WO2008004037A1 (en) 2006-06-30 2006-12-27 Voice remote control

Publications (2)

Publication Number Publication Date
CN101480039A CN101480039A (zh) 2009-07-08
CN101480039B true CN101480039B (zh) 2012-12-12

Family

ID=37903620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800551968A Active CN101480039B (zh) 2006-06-30 2006-12-27 声音远程控制

Country Status (8)

Country Link
US (3) US8207936B2 (zh)
EP (1) EP2041957B1 (zh)
JP (1) JP4975813B2 (zh)
KR (1) KR101163273B1 (zh)
CN (1) CN101480039B (zh)
AT (1) ATE489807T1 (zh)
DE (1) DE602006018539D1 (zh)
WO (1) WO2008004037A1 (zh)

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040006473A1 (en) * 2002-07-02 2004-01-08 Sbc Technology Resources, Inc. Method and system for automated categorization of statements
US8207936B2 (en) * 2006-06-30 2012-06-26 Sony Ericsson Mobile Communications Ab Voice remote control
US7801569B1 (en) * 2007-03-22 2010-09-21 At&T Intellectual Property I, L.P. Mobile communications device with distinctive vibration modes
CN101465960B (zh) * 2007-12-19 2011-07-27 深圳富泰宏精密工业有限公司 具有语音控制功能的摄像装置及其使用方法
JP4919993B2 (ja) * 2008-03-12 2012-04-18 株式会社日立製作所 情報記録装置
JP5053950B2 (ja) * 2008-07-29 2012-10-24 キヤノン株式会社 情報処理方法、情報処理装置、プログラムおよび記憶媒体
US8154644B2 (en) * 2008-10-08 2012-04-10 Sony Ericsson Mobile Communications Ab System and method for manipulation of a digital image
KR20110040590A (ko) * 2009-10-14 2011-04-20 삼성전자주식회사 휴대단말의 데이터 통신 방법 및 시스템
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US20110165917A1 (en) 2009-12-31 2011-07-07 Mary Elizabeth Taylor Methods and arrangements employing sensor-equipped smart phones
JP5499796B2 (ja) * 2010-03-15 2014-05-21 株式会社ニコン 電子機器
CN101937676A (zh) * 2010-08-17 2011-01-05 深圳市同洲电子股份有限公司 通过音频识别实现远程控制设备的方法和移动终端
CN102413276A (zh) * 2010-09-21 2012-04-11 天津三星光电子有限公司 具有声控聚焦功能的数码摄像机
US9368107B2 (en) * 2011-04-20 2016-06-14 Nuance Communications, Inc. Permitting automated speech command discovery via manual event to command mapping
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
US9031847B2 (en) * 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
US20130120106A1 (en) 2011-11-16 2013-05-16 Motorola Mobility, Inc. Display device, corresponding systems, and methods therefor
EP3748631B1 (en) 2011-12-07 2024-04-03 QUALCOMM Incorporated Low power integrated circuit to analyze a digitized audio stream
EP2821916B1 (en) * 2012-02-27 2018-12-19 NEC Corporation Voice input device, voice input method and program
US20130250139A1 (en) * 2012-03-22 2013-09-26 Trung Tri Doan Method And System For Tagging And Organizing Images Generated By Mobile Communications Devices
US8913142B2 (en) * 2012-04-18 2014-12-16 Sony Corporation Context aware input system for focus control
CN102664009B (zh) * 2012-05-07 2015-01-14 乐视致新电子科技(天津)有限公司 一种通过移动通信终端对视频播放装置进行语音控制的系统及方法
CN102693726B (zh) * 2012-05-25 2014-06-04 福建英特莱信息技术咨询有限公司 具有语音识别功能的北斗卫星通信设备
KR101880636B1 (ko) * 2012-07-25 2018-07-20 삼성전자주식회사 디지털 촬영 장치 및 그의 제어 방법
KR101981316B1 (ko) * 2012-09-12 2019-05-22 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
USD769847S1 (en) * 2012-09-29 2016-10-25 Michael McClurkan Remote control
KR101971967B1 (ko) * 2012-10-23 2019-04-24 엘지전자 주식회사 이동 단말기 및 이의 제어 방법
KR101990037B1 (ko) * 2012-11-13 2019-06-18 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
KR20140075997A (ko) * 2012-12-12 2014-06-20 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
KR20140077821A (ko) * 2012-12-14 2014-06-24 삼성전자주식회사 홈 네트워크 시스템에서 컨텐츠 백업 장치 및 방법
WO2014098477A1 (ko) 2012-12-18 2014-06-26 삼성전자 주식회사 홈 네트워크 시스템에서 홈 디바이스를 원격으로 제어하는 방법 및 장치
US9622365B2 (en) 2013-02-25 2017-04-11 Google Technology Holdings LLC Apparatus and methods for accommodating a display in an electronic device
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US20140247368A1 (en) * 2013-03-04 2014-09-04 Colby Labs, Llc Ready click camera control
CN103108235A (zh) * 2013-03-05 2013-05-15 北京车音网科技有限公司 电视控制方法、装置及系统
US9674922B2 (en) 2013-03-14 2017-06-06 Google Technology Holdings LLC Display side edge assembly and mobile device including same
US9747899B2 (en) 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
JP6102588B2 (ja) * 2013-07-10 2017-03-29 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
KR102077675B1 (ko) * 2013-07-26 2020-02-14 엘지전자 주식회사 이동 단말기 및 그것의 제어방법
US10015308B2 (en) 2013-07-26 2018-07-03 Lg Electronics Inc. Mobile terminal and method of controlling the same
KR102047703B1 (ko) * 2013-08-09 2019-11-22 엘지전자 주식회사 이동 단말기 및 이의 제어 방법
USD743944S1 (en) * 2013-11-15 2015-11-24 Sony Mobile Communications Ab Remote control
US9484001B2 (en) 2013-12-23 2016-11-01 Google Technology Holdings LLC Portable electronic device controlling diffuse light source to emit light approximating color of object of user interest
KR20150102489A (ko) * 2014-02-28 2015-09-07 삼성전자주식회사 디스플레이 장치
US20150279373A1 (en) * 2014-03-31 2015-10-01 Nec Corporation Voice response apparatus, method for voice processing, and recording medium having program stored thereon
JP2015233188A (ja) * 2014-06-09 2015-12-24 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
KR102147329B1 (ko) * 2014-06-17 2020-08-24 엘지전자 주식회사 영상 표시 기기 및 그의 동작 방법
US10245521B2 (en) * 2014-08-08 2019-04-02 Hung-Wang Hsu Speech remote control device
CN104580515A (zh) * 2015-01-28 2015-04-29 朱文通 基于微信的早教终端通信控制方法、早教终端及服务器
USD805502S1 (en) * 2015-03-27 2017-12-19 Koninklijke Philips N.V. Remote control
CN105611167B (zh) * 2015-12-30 2020-01-31 联想(北京)有限公司 一种对焦平面调整方法及电子设备
CN105578060A (zh) * 2016-02-18 2016-05-11 温岭市太平高级职业中学 基于asr mo8-a与tc35的语音远程控制数码相机
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10178293B2 (en) 2016-06-22 2019-01-08 International Business Machines Corporation Controlling a camera using a voice command and image recognition
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
CN106231196A (zh) * 2016-08-16 2016-12-14 北京金山安全软件有限公司 一种视频拍摄控制方法、装置及电子设备
CN106231197A (zh) * 2016-08-16 2016-12-14 北京金山安全软件有限公司 一种视频拍摄控制方法、装置及电子设备
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN106412312A (zh) * 2016-10-19 2017-02-15 北京奇虎科技有限公司 自动唤醒智能终端摄像功能的方法、系统及智能终端
US10212338B2 (en) 2016-11-22 2019-02-19 Google Llc Camera operable using natural language commands
US20180270343A1 (en) * 2017-03-20 2018-09-20 Motorola Mobility Llc Enabling event-driven voice trigger phrase on an electronic device
US11024305B2 (en) * 2017-08-07 2021-06-01 Dolbey & Company, Inc. Systems and methods for using image searching with voice recognition commands
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
JP7202853B2 (ja) * 2018-11-08 2023-01-12 シャープ株式会社 冷蔵庫
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
JP7215118B2 (ja) * 2018-11-30 2023-01-31 株式会社リコー 情報処理装置、情報処理システム、プログラムおよび方法
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US10855921B2 (en) * 2019-04-29 2020-12-01 Sony Corporation Techniques for controlling camera interfaces using voice commands
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11134188B2 (en) * 2019-08-19 2021-09-28 Motorola Mobility Llc Electronic device with image capturing device that records based on external inputs
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11385526B2 (en) * 2019-11-15 2022-07-12 Samsung Electronics Co., Ltd. Method of processing image based on artificial intelligence and image processing device performing the same
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11995297B2 (en) * 2021-03-08 2024-05-28 Samsung Electronics Co., Ltd. Enhanced user interface (UI) button control for mobile applications
US20230402068A1 (en) * 2022-06-10 2023-12-14 Lemon Inc. Voice-controlled content creation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4389109A (en) * 1979-12-31 1983-06-21 Minolta Camera Co., Ltd. Camera with a voice command responsive system
US5027149A (en) * 1988-01-28 1991-06-25 Konica Corporation Voice-recognition camera
US5749000A (en) * 1993-04-28 1998-05-05 Nikon Corporation Camera having voice-input device for changing focus detection
EP1014338A1 (en) * 1998-12-23 2000-06-28 Hewlett-Packard Company Voice control input for portable capture devices
CN1726693A (zh) * 2002-12-18 2006-01-25 诺基亚有限公司 移动终端、操作该终端的方法及用于其中的信息项

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893902A (en) * 1996-02-15 1999-04-13 Intelidata Technologies Corp. Voice recognition bill payment system with speaker verification and confirmation
JPH11109498A (ja) 1997-10-07 1999-04-23 Canon Inc 音声入力機能付き装置及びカメラ
US6295391B1 (en) * 1998-02-19 2001-09-25 Hewlett-Packard Company Automatic data routing via voice command annotation
JP2000083186A (ja) * 1998-09-03 2000-03-21 Canon Inc 映像機器
JP2001216059A (ja) 2000-02-04 2001-08-10 Sony Corp 情報処理装置および方法、並びにプログラム格納媒体
JP2002312386A (ja) 2001-04-12 2002-10-25 Kobelco Systems Corp 音声検索サービスシステム
JP4296473B2 (ja) * 2002-11-28 2009-07-15 富士フイルム株式会社 映像装置
JP2005027002A (ja) 2003-07-02 2005-01-27 Fuji Photo Film Co Ltd 通信機能付カメラ
US20050118990A1 (en) * 2003-12-02 2005-06-02 Sony Ericsson Mobile Communications Ab Method for audible control of a camera
KR100621593B1 (ko) * 2004-09-24 2006-09-19 삼성전자주식회사 다중양식의 입력을 이용하는 통합 원격 제어 장치 및 방법
KR101081126B1 (ko) 2004-12-21 2011-11-07 주식회사 팬택 이동 통신 단말기의 키패드 설정 방법 및 시스템
US8207936B2 (en) * 2006-06-30 2012-06-26 Sony Ericsson Mobile Communications Ab Voice remote control

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4389109A (en) * 1979-12-31 1983-06-21 Minolta Camera Co., Ltd. Camera with a voice command responsive system
US5027149A (en) * 1988-01-28 1991-06-25 Konica Corporation Voice-recognition camera
US5749000A (en) * 1993-04-28 1998-05-05 Nikon Corporation Camera having voice-input device for changing focus detection
EP1014338A1 (en) * 1998-12-23 2000-06-28 Hewlett-Packard Company Voice control input for portable capture devices
CN1726693A (zh) * 2002-12-18 2006-01-25 诺基亚有限公司 移动终端、操作该终端的方法及用于其中的信息项

Also Published As

Publication number Publication date
KR101163273B1 (ko) 2012-07-05
ATE489807T1 (de) 2010-12-15
JP2009543396A (ja) 2009-12-03
EP2041957B1 (en) 2010-11-24
JP4975813B2 (ja) 2012-07-11
CN101480039A (zh) 2009-07-08
US20080036869A1 (en) 2008-02-14
KR20090025362A (ko) 2009-03-10
US8207936B2 (en) 2012-06-26
WO2008004037A1 (en) 2008-01-10
US8674939B2 (en) 2014-03-18
US20140195250A1 (en) 2014-07-10
US9401159B2 (en) 2016-07-26
DE602006018539D1 (de) 2011-01-05
EP2041957A1 (en) 2009-04-01
US20120265538A1 (en) 2012-10-18

Similar Documents

Publication Publication Date Title
CN101480039B (zh) 声音远程控制
EP2621153B1 (en) Portable terminal, response message transmitting method and server
EP2210214B1 (en) Automatic identifying
US20110039598A1 (en) Methods and devices for adding sound annotation to picture and for highlighting on photos and mobile terminal including the devices
CN102576530A (zh) 对声音模式加了标签的联系人
KR100790177B1 (ko) 휴대단말기에서 이미지 디스플레이 방법 및 장치
CN104506703B (zh) 语音留言、语音留言播放方法及装置
CN107423386A (zh) 生成电子卡片的方法及装置
WO2011019467A1 (en) Methods and devices for adding sound annotation to picture and for highlighting on photos and mobile terminal including the devices
KR100692005B1 (ko) 사진별 메모 입력 기능을 갖는 이동통신 단말기 및 그제어 방법
CN108574777A (zh) 信息提醒方法及装置
JPWO2005081507A1 (ja) 通信端末及び通信方法
CN110415703A (zh) 语音备忘信息处理方法及装置
CN105095213B (zh) 信息关联方法及装置
CN106406705A (zh) 通话过程中的信息处理方法及装置
US11561278B2 (en) Method and device for processing information based on radar waves, terminal, and storage medium
CN105100410B (zh) 聚合第三方电话应用的方法及装置
KR100566230B1 (ko) 이동통신 단말기에서 전화번호와 연관된 기능 수행 방법
JP2007135028A (ja) 留守番メッセージ装置及びプログラム
CN109558175A (zh) 日程创建方法及装置
JP5023932B2 (ja) 撮像装置、シナリオによる画像撮影方法、およびプログラム
CN105430260B (zh) 获取视频图像的方法及装置
CN104793847B (zh) 图片展示方法及装置
JP2000231309A (ja) 画像形成装置
CN106375568A (zh) 铃声设置方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Longde, Sweden

Patentee after: Sony Mobile Communications AB

Address before: Longde, Sweden

Patentee before: SONY ERICSSON MOBILE COMMUNICATIONS AB

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160321

Address after: California, USA

Patentee after: SNAPTRACK, Inc.

Address before: Tokyo, Japan

Patentee before: SONY MOBILE COMMUNICATIONS Inc.

Effective date of registration: 20160321

Address after: Tokyo, Japan

Patentee after: SONY MOBILE COMMUNICATIONS Inc.

Address before: Longde, Sweden

Patentee before: Sony Mobile Communications AB