CN108154140A - 基于唇语的语音唤醒方法、装置、设备及计算机可读介质 - Google Patents

基于唇语的语音唤醒方法、装置、设备及计算机可读介质 Download PDF

Info

Publication number
CN108154140A
CN108154140A CN201810061009.1A CN201810061009A CN108154140A CN 108154140 A CN108154140 A CN 108154140A CN 201810061009 A CN201810061009 A CN 201810061009A CN 108154140 A CN108154140 A CN 108154140A
Authority
CN
China
Prior art keywords
lip
image
voice
modified
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810061009.1A
Other languages
English (en)
Inventor
高亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810061009.1A priority Critical patent/CN108154140A/zh
Publication of CN108154140A publication Critical patent/CN108154140A/zh
Priority to JP2018167824A priority patent/JP6811755B2/ja
Priority to US16/165,597 priority patent/US10810413B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Toys (AREA)

Abstract

本发明提出一种基于唇语的语音唤醒方法,包括以下步骤:采集用户的嘴唇变化图像;判断用户的嘴唇变化图像是否与预设变化图像相匹配;当用户的嘴唇变化图像与预设变化图像相匹配时,唤醒语音交互功能。本发明实施例可以在不需要说出明确唤醒词的情况下唤起智能语音交互设备,使得语音唤醒更加智能,方便用户与语音设备的交互。

Description

基于唇语的语音唤醒方法、装置、设备及计算机可读介质
技术领域
本发明涉及语音唤醒技术领域,尤其涉及一种基于唇语的语音唤醒方法及装置、设备和计算机可读介质。
背景技术
随着语音识别的能力的增强,越来越多的智能设备也应用到了语音识别。目前的智能设备的语音交互方式基本上使用的是基于语音唤醒词的语音交互。在进行语音功能唤醒的具体操作一般为采用固定的唤醒词,比如:小度小度,Alexa,等来唤醒语音交互设备。在由语音交互设备进行启动识别,然后再和用户进行语音交互。
然而,现有的语音唤醒的方式,每次在进行语音交互前都要说一遍唤醒词。重复的说唤醒词会给用户造成不好的体验。
发明内容
本发明实施例提供一种基于唇语的语音唤醒方法、装置、设备及计算机可读介质,以解决或缓解现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种基于唇语的语音唤醒方法,包括以下步骤:
采集用户的嘴唇变化图像;
判断用户的嘴唇变化图像是否与预设变化图像相匹配;
当用户的嘴唇变化图像与预设变化图像相匹配时,唤醒语音交互功能。
结合第一方面,本发明在第一方面的第一种实现方式中,所述判断用户的嘴唇变化图像是否与预设变化图像相匹配的步骤中,具体包括:判断嘴唇变化图像是否为嘴唇的正面图像;若是,判断嘴唇的变化图像是否与预设变化图像相同。
结合第一方面,本发明在第一方面的第二种实现方式中,所述预设变化图像为:嘴唇由合拢状态变化为张开状态。
结合第一方面,本发明在第一方面的第三种实现方式中,所述当用户的嘴唇变化图像与预设变化图像相匹配时,唤醒语音交互功能的步骤之后,还包括:接收用户的语音,并判断所述语音是否为有效的语音信息;若是,则执行响应动作,若否,则关闭语音交互功能。
第二方面,本发明实施例提供了一种基于唇语的语音唤醒装置,包括:
采集模块,用于采集用户的嘴唇变化图像;
图像判断模块,用于判断用户的嘴唇变化图像是否与预设变化图像相匹配;
唤醒模块,用于当用户的嘴唇变化图像与预设变化图像相匹配时,唤醒语音交互功能。
结合第二方面,本发明在第二方面第一种实现方式中,所述图像判断模块具体用于判断嘴唇变化图像是否为嘴唇的正面图像;若是,判断嘴唇的变化图像是否与预设变化图像相同。
结合第二方面,本发明在第二方面第二种实现方式中,所述预设变化图像为:嘴唇由合拢状态变化为张开状态。
结合第二方面,本发明在第二方面第三种实现方式中,还包括语音判断模块,用于接收用户的语音,并判断所述语音是否为有效的语音信息;若是,则执行响应动作,若否,则关闭语音交互功能。
所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,基于唇语的语音唤醒装置的结构中包括处理器和存储器,所述存储器用于存储支持基于唇语的语音唤醒装置执行上述第一方面中基于唇语的语音唤醒方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述基于唇语的语音唤醒装置还可以包括通信接口,用于基于唇语的语音唤醒装置与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种计算机可读介质,用于存储基于唇语的语音唤醒装置所用的计算机软件指令,其包括用于执行上述第一方面的基于唇语的语音唤醒方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:本发明实施例可以在不需要说出明确唤醒词的情况下唤起智能语音交互设备,使得语音唤醒更加智能,方便用户与语音设备的交互。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为实施例一的基于唇语的语音唤醒方法的步骤流程图;
图2为实施例一的嘴唇合拢时的示意图;
图3为实施例一的嘴唇张开时的示意图;
图4为实施例二的基于唇语的语音唤醒方法的步骤流程图;
图5为实施例三的基于唇语的语音唤醒装置的连接框图;
图6为实施例四的基于唇语的语音唤醒装置的连接框图;
图7为实施例五的基于唇语的语音唤醒设备连接框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例旨在解决现有技术中进行语音唤醒时需要说一遍唤醒词的技术问题。本发明实施例主要通过采用手势进行语音唤醒,下面分别通过以下实施例进行技术方案的展开描述。
实施例一
请参阅图1,其为本发明实施例一的基于唇语的语音唤醒方法的步骤流程图。本实施例一提供了一种基于唇语的语音唤醒方法,包括以下步骤:
S110:采集用户的嘴唇变化图像。
当用户需要针对某个智能设备启动语音交互功能时,可以直接对着智能设备的摄像头上说话,此时可以通过摄像头实时采集用户的嘴唇图像。
S120:判断用户的嘴唇变化图像是否与预设变化图像相匹配。
根据接收到的用户的嘴唇变化图像进行判断,可以跟预设变化图像进行比对,判断是否相匹配。另外,由于用户可能在与其他人对话,此时需要判断用户是否正对着智能设备进行语音输入。因此,在本实施例中还需要判断采集到的用户嘴唇图像是否为嘴唇的正面图像,若是,则在进一步判断嘴唇变化图像是否与预设变化图像匹配。
在本实施例中所述的相匹配的嘴唇变化图像,并不需要完全一模一样,只需要做出相同动作即可。例如,如图2-3所示,其分别为本实施例中嘴唇合拢时和嘴唇张开时的示意图。在本实施例中预设的嘴唇变化图像可以为:嘴唇由合拢状态变化为张开状态。
S130:当用户的嘴唇变化图像与预设变化图像相匹配时,唤醒语音交互功能。
此时,当用户嘴唇变化图像与预设图像相匹配时,说明用户想与智能设备进行语音通话,此时智能设备开始唤醒语音交互功能。此时用户不需要做额外的唤醒动作,就可以直接进行语音对话。
实施例二
与实施例一的区别在于:本实施例二在唤醒语音交互功能后还进一步判断用户输入的语音信息是否为有效的语音信息,具体的方案如下:
如图4所示,其为本实施例二的基于唇语的语音唤醒方法的步骤流程图。本实施例二的基于唇语的语音唤醒方法包括以下步骤:
S210:采集用户的嘴唇变化图像。
S220:判断用户的嘴唇变化图像是否与预设变化图像相匹配。
根据接收到的用户的嘴唇变化图像进行判断,可以跟预设变化图像进行比对,判断是否相匹配。另外,由于用户可能在与其他人对话,此时需要判断用户是否正对着智能设备进行语音输入。因此,在本实施例中还需要判断采集到的用户嘴唇图像是否为嘴唇的正面图像,若是,则在进一步判断嘴唇变化图像是否与预设变化图像匹配。在本实施例中预设的嘴唇变化图像可以为:嘴唇由合拢状态变化为张开状态。
S230:当用户的嘴唇变化图像与预设变化图像相匹配时,唤醒语音交互功能。
S240:接收用户的语音,并判断所述语音是否为有效的语音信息;若是,则执行响应动作,若否,则关闭语音交互功能。
当用户的嘴唇由合拢状态转变为张开状态时,语音交互功能唤醒。此时需要进一步检测用户是否输入了有效的语音信息。因为用户的嘴唇变化可能未必是想开口说话,有可能是“打哈欠”,也有可能是“吃东西”。所以,当检测到用户并没有输入有效的语音信息时,则关闭语音唤醒功能。
本实施例二的步骤S210-S230与实施例一相同,故不再赘述。
实施例三
本实施例三对应于实施例一,提供了一种基于唇语的语音唤醒装置。请参阅图5,其为本实施例三的基于唇语的语音唤醒装置的连接框图。
本实施例三的基于唇语的语音唤醒装置,包括:
采集模块110,用于采集用户的嘴唇变化图像。
图像判断模块120,用于判断用户的嘴唇变化图像是否与预设变化图像相匹配。
其中,所述图像判断模块120具体用于判断嘴唇变化图像是否为嘴唇的正面图像;若是,判断嘴唇的变化图像是否与预设变化图像相同。在本实施例中,所述预设变化图像为:嘴唇由合拢状态变化为张开状态。
唤醒模块130,用于当用户的嘴唇变化图像与预设变化图像相匹配时,唤醒语音交互功能。
本实施例三与实施例一的原理相同,故不再赘述。
实施例四
本实施例四与实施例二对应,提供了一种基于唇语的语音唤醒装置,具体如下:
如图6所示,为本实施例四的基于唇语的语音唤醒装置的连接框图。本发明实施例四提供了一种基于唇语的语音唤醒装置,包括:
采集模块210,用于采集用户的嘴唇变化图像。
图像判断模块220,用于判断用户的嘴唇变化图像是否与预设变化图像相匹配。
其中,所述图像判断模块220具体用于判断嘴唇变化图像是否为嘴唇的正面图像;若是,判断嘴唇的变化图像是否与预设变化图像相同。在本实施例中,所述预设变化图像为:嘴唇由合拢状态变化为张开状态。
唤醒模块230,用于当用户的嘴唇变化图像与预设变化图像相匹配时,唤醒语音交互功能。
语音判断模块240,用于接收用户的语音,并判断所述语音是否为有效的语音信息;若是,则执行响应动作,若否,则关闭语音交互功能。
本实施例四的应用方式与原理与实施例二相同,故不再赘述。
实施例五
本发明实施例五提供一种基于唇语的语音唤醒设备,如图7所示,该设备包括:存储器310和处理器320,存储器310内存储有可在处理器320上运行的计算机程序。所述处理器320执行所述计算机程序时实现上述实施例中的基于唇语的语音唤醒方法。所述存储器310和处理器320的数量可以为一个或多个。
该设备还包括:
通信接口330,用于与外界设备进行通信,进行数据交互传输。
存储器310可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器310、处理器320和通信接口330独立实现,则存储器310、处理器320和通信接口330可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器310、处理器320及通信接口330集成在一块芯片上,则存储器310、处理器320及通信接口330可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
综上所述,本发明实施例可以在不需要说出明确唤醒词的情况下唤起智能语音交互设备,使得语音唤醒更加智能,方便用户与语音设备的交互。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于唇语的语音唤醒方法,其特征在于,包括:
采集用户的嘴唇变化图像;
判断用户的嘴唇变化图像是否与预设变化图像相匹配;以及
当用户的嘴唇变化图像与预设变化图像相匹配时,唤醒语音交互功能。
2.根据权利要求1所述基于唇语的语音唤醒方法,其特征在于,所述判断用户的嘴唇变化图像是否与预设变化图像相匹配的步骤包括:
判断嘴唇变化图像是否为嘴唇的正面图像;
若是,判断嘴唇的变化图像是否与预设变化图像相同。
3.根据权利要求1所述基于唇语的语音唤醒方法,其特征在于,所述预设变化图像为:嘴唇由合拢状态变化为张开状态。
4.根据权利要求1所述基于唇语的语音唤醒方法,其特征在于,所述当用户的嘴唇变化图像与预设变化图像相匹配时,唤醒语音交互功能的步骤之后,所述语音唤醒方法还包括:
接收用户的语音,并判断所述语音是否为有效的语音信息;若是,则执行响应动作,若否,则关闭语音交互功能。
5.一种基于唇语的语音唤醒装置,其特征在于,包括:
采集模块,用于采集用户的嘴唇变化图像;
图像判断模块,用于判断用户的嘴唇变化图像是否与预设变化图像相匹配;以及
唤醒模块,用于当用户的嘴唇变化图像与预设变化图像相匹配时,唤醒语音交互功能。
6.根据权利要求5所述基于唇语的语音唤醒装置,其特征在于,所述图像判断模块用于判断嘴唇变化图像是否为嘴唇的正面图像;若是,判断嘴唇的变化图像是否与预设变化图像相同。
7.根据权利要求5所述基于唇语的语音唤醒装置,其特征在于,所述预设变化图像为:嘴唇由合拢状态变化为张开状态。
8.根据权利要求5所述基于唇语的语音唤醒装置,其特征在于,还包括语音判断模块,用于接收用户的语音,并判断所述语音是否为有效的语音信息;若是,则执行响应动作,若否,则关闭语音交互功能。
9.一种基于唇语的语音唤醒设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-4中任一所述的基于唇语的语音唤醒方法。
10.一种计算机可读介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的基于唇语的语音唤醒方法。
CN201810061009.1A 2018-01-22 2018-01-22 基于唇语的语音唤醒方法、装置、设备及计算机可读介质 Pending CN108154140A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810061009.1A CN108154140A (zh) 2018-01-22 2018-01-22 基于唇语的语音唤醒方法、装置、设备及计算机可读介质
JP2018167824A JP6811755B2 (ja) 2018-01-22 2018-09-07 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム
US16/165,597 US10810413B2 (en) 2018-01-22 2018-10-19 Wakeup method, apparatus and device based on lip reading, and computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810061009.1A CN108154140A (zh) 2018-01-22 2018-01-22 基于唇语的语音唤醒方法、装置、设备及计算机可读介质

Publications (1)

Publication Number Publication Date
CN108154140A true CN108154140A (zh) 2018-06-12

Family

ID=62461886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810061009.1A Pending CN108154140A (zh) 2018-01-22 2018-01-22 基于唇语的语音唤醒方法、装置、设备及计算机可读介质

Country Status (3)

Country Link
US (1) US10810413B2 (zh)
JP (1) JP6811755B2 (zh)
CN (1) CN108154140A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848011A (zh) * 2018-06-19 2018-11-20 广东美的制冷设备有限公司 家电设备及其语音交互方法和装置
CN109558788A (zh) * 2018-10-08 2019-04-02 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN109949812A (zh) * 2019-04-26 2019-06-28 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、设备及存储介质
CN110196900A (zh) * 2019-06-13 2019-09-03 三星电子(中国)研发中心 用于终端的交互方法和装置
CN111078297A (zh) * 2018-10-18 2020-04-28 奇酷互联网络科技(深圳)有限公司 唤醒语音助手的方法、移动终端和计算机可读存储介质
WO2020087895A1 (zh) * 2018-10-29 2020-05-07 华为技术有限公司 语音交互处理方法及装置
CN111599361A (zh) * 2020-05-14 2020-08-28 宁波奥克斯电气股份有限公司 一种唤醒方法、装置、计算机存储介质及空调器
CN113113009A (zh) * 2021-04-08 2021-07-13 思必驰科技股份有限公司 多模态语音唤醒和打断方法及装置
CN113450795A (zh) * 2021-06-28 2021-09-28 深圳七号家园信息技术有限公司 一种具有语音唤醒功能的图像识别方法及系统
CN113460067A (zh) * 2020-12-30 2021-10-01 安波福电子(苏州)有限公司 一种人车交互系统
CN113674746A (zh) * 2021-08-18 2021-11-19 北京百度网讯科技有限公司 人机交互方法、装置、设备以及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241922B (zh) * 2019-12-28 2024-04-26 深圳市优必选科技股份有限公司 一种机器人及其控制方法、计算机可读存储介质
CN111309283B (zh) * 2020-03-25 2023-12-05 北京百度网讯科技有限公司 用户界面的语音控制方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152125A (ja) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc 発話検出装置及び発話検出方法
CN101937268A (zh) * 2009-06-30 2011-01-05 索尼公司 基于视觉唇形识别的设备控制
JP2014240856A (ja) * 2013-06-11 2014-12-25 アルパイン株式会社 音声入力システム及びコンピュータプログラム
US20150161992A1 (en) * 2012-07-09 2015-06-11 Lg Electronics Inc. Speech recognition apparatus and method
CN104820556A (zh) * 2015-05-06 2015-08-05 广州视源电子科技股份有限公司 唤醒语音助手的方法及装置
CN105045122A (zh) * 2015-06-24 2015-11-11 张子兴 一种基于音频和视频的智能家居自然交互系统
CN105501121A (zh) * 2016-01-08 2016-04-20 北京乐驾科技有限公司 一种智能唤醒方法及系统
CN106288229A (zh) * 2016-09-20 2017-01-04 珠海格力电器股份有限公司 一种空调控制方法、装置、集中控制节点及系统
CN106782524A (zh) * 2016-11-30 2017-05-31 深圳讯飞互动电子有限公司 一种混合唤醒方法及系统
CN107517313A (zh) * 2017-08-22 2017-12-26 珠海市魅族科技有限公司 唤醒方法及装置、终端及可读存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8798311B2 (en) * 2009-01-23 2014-08-05 Eldon Technology Limited Scrolling display of electronic program guide utilizing images of user lip movements
JP2011013731A (ja) * 2009-06-30 2011-01-20 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US20120304067A1 (en) * 2011-05-25 2012-11-29 Samsung Electronics Co., Ltd. Apparatus and method for controlling user interface using sound recognition
US9318129B2 (en) * 2011-07-18 2016-04-19 At&T Intellectual Property I, Lp System and method for enhancing speech activity detection using facial feature detection
US8863042B2 (en) * 2012-01-24 2014-10-14 Charles J. Kulas Handheld device with touch controls that reconfigure in response to the way a user operates the device
KR102216048B1 (ko) * 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
CN105389097A (zh) * 2014-09-03 2016-03-09 中兴通讯股份有限公司 一种人机交互装置及方法
US9875352B2 (en) * 2015-10-02 2018-01-23 International Business Machines Corporation Oral authentication management
US9963096B2 (en) * 2015-11-16 2018-05-08 Continental Automotive Systems, Inc. Vehicle infotainment and connectivity system
US20170186446A1 (en) * 2015-12-24 2017-06-29 Michal Wosk Mouth proximity detection
US9916832B2 (en) * 2016-02-18 2018-03-13 Sensory, Incorporated Using combined audio and vision-based cues for voice command-and-control
CN105881548B (zh) 2016-04-29 2018-07-20 北京快乐智慧科技有限责任公司 唤醒智能交互机器人的方法及智能交互机器人
US10748542B2 (en) * 2017-03-23 2020-08-18 Joyson Safety Systems Acquisition Llc System and method of correlating mouth images to input commands

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152125A (ja) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc 発話検出装置及び発話検出方法
CN101937268A (zh) * 2009-06-30 2011-01-05 索尼公司 基于视觉唇形识别的设备控制
US20150161992A1 (en) * 2012-07-09 2015-06-11 Lg Electronics Inc. Speech recognition apparatus and method
JP2014240856A (ja) * 2013-06-11 2014-12-25 アルパイン株式会社 音声入力システム及びコンピュータプログラム
CN104820556A (zh) * 2015-05-06 2015-08-05 广州视源电子科技股份有限公司 唤醒语音助手的方法及装置
CN105045122A (zh) * 2015-06-24 2015-11-11 张子兴 一种基于音频和视频的智能家居自然交互系统
CN105501121A (zh) * 2016-01-08 2016-04-20 北京乐驾科技有限公司 一种智能唤醒方法及系统
CN106288229A (zh) * 2016-09-20 2017-01-04 珠海格力电器股份有限公司 一种空调控制方法、装置、集中控制节点及系统
CN106782524A (zh) * 2016-11-30 2017-05-31 深圳讯飞互动电子有限公司 一种混合唤醒方法及系统
CN107517313A (zh) * 2017-08-22 2017-12-26 珠海市魅族科技有限公司 唤醒方法及装置、终端及可读存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848011A (zh) * 2018-06-19 2018-11-20 广东美的制冷设备有限公司 家电设备及其语音交互方法和装置
CN109558788A (zh) * 2018-10-08 2019-04-02 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN109558788B (zh) * 2018-10-08 2023-10-27 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN111078297A (zh) * 2018-10-18 2020-04-28 奇酷互联网络科技(深圳)有限公司 唤醒语音助手的方法、移动终端和计算机可读存储介质
US11620995B2 (en) 2018-10-29 2023-04-04 Huawei Technologies Co., Ltd. Voice interaction processing method and apparatus
WO2020087895A1 (zh) * 2018-10-29 2020-05-07 华为技术有限公司 语音交互处理方法及装置
CN109949812A (zh) * 2019-04-26 2019-06-28 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、设备及存储介质
CN110196900A (zh) * 2019-06-13 2019-09-03 三星电子(中国)研发中心 用于终端的交互方法和装置
CN111599361A (zh) * 2020-05-14 2020-08-28 宁波奥克斯电气股份有限公司 一种唤醒方法、装置、计算机存储介质及空调器
CN113460067A (zh) * 2020-12-30 2021-10-01 安波福电子(苏州)有限公司 一种人车交互系统
CN113113009A (zh) * 2021-04-08 2021-07-13 思必驰科技股份有限公司 多模态语音唤醒和打断方法及装置
CN113450795A (zh) * 2021-06-28 2021-09-28 深圳七号家园信息技术有限公司 一种具有语音唤醒功能的图像识别方法及系统
CN113674746A (zh) * 2021-08-18 2021-11-19 北京百度网讯科技有限公司 人机交互方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
JP6811755B2 (ja) 2021-01-13
JP2019128938A (ja) 2019-08-01
US20190228212A1 (en) 2019-07-25
US10810413B2 (en) 2020-10-20

Similar Documents

Publication Publication Date Title
CN108154140A (zh) 基于唇语的语音唤醒方法、装置、设备及计算机可读介质
CN108181992A (zh) 基于手势的语音唤醒方法、装置、设备及计算机可读介质
CN107680591A (zh) 基于车载终端的语音交互方法、装置及其设备
CN107591151A (zh) 远场语音唤醒方法、装置和终端设备
US11587560B2 (en) Voice interaction method, device, apparatus and server
CN108108142A (zh) 语音信息处理方法、装置、终端设备及存储介质
CN104102409A (zh) 用户界面的场景自适应装置及方法
CN107610698A (zh) 一种实现语音控制的方法、机器人及计算机可读存储介质
JP7158217B2 (ja) 音声認識方法、装置及びサーバ
CN109165292A (zh) 数据处理方法、装置以及移动终端
CN108038102A (zh) 表情图像的推荐方法、装置、终端及存储介质
CN109036393A (zh) 家电设备的唤醒词训练方法、装置及家电设备
CN110830368B (zh) 即时通讯消息发送方法及电子设备
CN104461545B (zh) 将移动终端中内容提供至用户的方法及装置
CN109582153A (zh) 信息输入方法及装置
CN109582882A (zh) 搜索结果的展现方法、装置和电子设备
CN108932102A (zh) 数据处理方法、装置以及移动终端
CN111968641B (zh) 语音助手唤醒控制方法及装置、存储介质和电子设备
CN112017650A (zh) 电子设备的语音控制方法、装置、计算机设备和存储介质
CN108665900A (zh) 云端唤醒方法及系统、终端以及计算机可读存储介质
CN110992953A (zh) 一种语音数据处理方法、装置、系统及存储介质
CN106471493A (zh) 用于管理数据的方法和装置
CN109949812A (zh) 一种语音交互方法、装置、设备及存储介质
CN110246498A (zh) 语音处理方法、装置和家电设备
CN106453910A (zh) 通话录音的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination