CN106328141A - 一种面向移动终端的超声波唇读识别装置及方法 - Google Patents

一种面向移动终端的超声波唇读识别装置及方法 Download PDF

Info

Publication number
CN106328141A
CN106328141A CN201610803559.7A CN201610803559A CN106328141A CN 106328141 A CN106328141 A CN 106328141A CN 201610803559 A CN201610803559 A CN 201610803559A CN 106328141 A CN106328141 A CN 106328141A
Authority
CN
China
Prior art keywords
ultrasonic
lip
unit
signal
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610803559.7A
Other languages
English (en)
Other versions
CN106328141B (zh
Inventor
王晓亮
谭佳瑶
陆桑璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201610803559.7A priority Critical patent/CN106328141B/zh
Publication of CN106328141A publication Critical patent/CN106328141A/zh
Application granted granted Critical
Publication of CN106328141B publication Critical patent/CN106328141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B11/00Transmission systems employing sonic, ultrasonic or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种面向移动终端的超声波唇读识别装置及方法,装置包括超声波发送模块、超声波接收模块和信号处理模块;方法具体为超声波发送模块发送超声波信号,超声波信号在被嘴部反射后,由超声波接收模块接收,信号处理模块处理超声波接收模块获取的反射超声波信号以得到该信号的特征向量,根据特征向量识别口型,得到匹配结果。本发明的有益效果为:以移动终端作为超声波发送和接收模块,在无需额外硬件定制的基础上,利用超声波感知的能力识别唇语,拓展了超声波技术的应用场景,克服了传统唇读识别技术的不足,具有广泛的应用场景。

Description

一种面向移动终端的超声波唇读识别装置及方法
技术领域
本发明涉及移动行为感知技术领域,尤其是一种面向移动终端的超声波唇读识别装置及方法。
背景技术
现有技术中,移动终端上的行为感知技术被普遍应用,如呼吸检测、手势识别等,这种移动感知是一种更加智能化的人机交互方式。而唇读则是行为感知技术中更为细粒度的识别技术,是一项通过考察人们说话时嘴的运动模式,以此提高计算机的理解能力的技术。传统的唇读技术往往基于设备携带的传感器或者相机,借助移动设备携带的声学传感器进行语音识别,虽然能够精确的解释语音内容轻松实现唇读,但算法主要依赖于图像的质量,复杂度高。
发明内容
本发明所要解决的技术问题在于,提供一种面向移动终端的超声波唇读识别装置及方法,对来自嘴部的反射信号进行特征提取匹配,实现唇读识别。
为解决上述技术问题,本发明提供一种面向移动终端的超声波唇读识别装置,包括超声波发送模块、超声波接收模块和信号处理模块;超声波发送模块发送超声波信号,超声波信号在被嘴部反射后,由超声波接收模块接收,信号处理模块处理超声波接收模块获取的反射超声波信号以得到该信号的特征向量,根据特征向量识别口型,得到匹配结果。
优选的,超声波发送模块为移动终端的扬声器,超声波接收模块为移动终端的麦克风,均支持19KHz的超声波信号。
优选的,信号处理模块包括时间记录单元、预处理单元、唇动分割单元、特征提取单元、唇语识别单元、模型训练单元和口型基元库;时间记录单元记录每次发射超声波信号与接收超声波信号的时间差,预处理单元对超声波接收模块获取的反射超声波信号进行滤波得到唇动反射信号,唇动分割单元将唇动反射信号以单音节为单位分割成若干个单音节信号序列,特征提取单元针对每个单音节信号序列提取并处理对应口型的特征参数形成唇动特征向量,口型基元库应用特征提取单元提取的12种音节的特征参数,确立为12种基本口型,唇语识别单元调用口型基元库匹配所有单音节信号序列分量的结果,模型训练单元对分量匹配结果进行联合学习。
一种面向移动终端的超声波唇读识别方法,包括如下步骤:
(1)超声波发送模块发送19KHz的超声波信号,同时信号处理模块的时间记录单元开始计时;
(2)超声波接收模块接收来自嘴部的超声波反射信号,并将反射信号传递到信号处理模块,同时信号处理模块的时间记录单元停止计时;
(3)信号处理模块的预处理单元对超声波接收模块的反射超声波信号进行滤波,从原始超声波反射信号中分离出唇动引起的反射信号即唇动反射信号,传递唇动反射信号给唇动分割单元;
(4)唇动分割单元对唇动反射信号进行分割,以单音节为单位进行分割,得到的音节信号序列传递给特征提取单元;
(5)特征提取单元检测每一个音节信号序列分量对应的特征参数,形成唇动特征向量;特征提取单元处理所有音节信号序列分量后,将每个分量的唇动特征向量传递给唇语识别单元;
(6)唇语识别单元对当前唇动特征向量进行识别,调用口型基元库,与口型基元库中的单口型唇动特征向量样本相匹配,根据口型基元库中单口型与音节的对应关系、单口型与特性向量对应关系,对当前唇动特征向量进行分类匹配,将所有分量匹配结果传递给模型训练单元进一步识别;
(7)模型训练单元基于马尔科夫假设,应用概率统计模型对分量匹配结果进行联合学习,结合语法规则集和基于上下文的纠错,统计具有最大概率的句子序列集,并输出为最终唇读结果。
优选的,步骤(4)中,唇动分割单元对唇动信号进行分割包括词内分割和词间分割;对唇动信号进行词间分割时,通过检测单词间存在的较为明显的停顿,设置一个长为Tms的滑动窗口,每次向前滑动kms个单位,满足2k≤T,当检测到连续两次滑动窗口内不存在信号时,判断当前为停顿,为词间分割点;对唇动信号进行词内分割时,计算信号中19KHz的主频峰的个数n,根据个数对信号进行n均等词内分割。
优选的,步骤(5)中的特征参数包括持续时间和频移;时间记录单元记录的发射超声波和接收超声波的时间差作为持续时间。
优选的,步骤(5)中的频移特征提取步骤如下:
(1)采用快速傅里叶变换FFT计算主要频峰E和周围频带范围内的所有峰值点,主要频峰E为19KHz处的峰值,将小于19KHz的频段内的峰值存放入峰前数组F,大于19KHz频段内的峰值点存放在峰后数组A中;
(2)设置主要频峰和次要频峰的阈值比例k,扫描得到的频峰值数组A、F,若存在高于k·E的频峰值,则说明存在次要频峰,次要频峰即唇动引入的第二大频峰值;
(3)当确定了次要频峰位置后,进一步对主要、次要频峰作差,得到唇动对应的频移Δf。
优选的,步骤(7)中的模型训练单元应用概率统计模型统计最大概率的句子序列集,具体步骤如下:
(1)初始化概率统计模型的参数:口型状态O,定义为包括口型基元库中12种基本口型;音节状态S,即输出识别结果,定义为12种口型对应的所有元音辅音音节;转移概率P(Oi→Oj),从口型状态Oi转移到口型状态Oj的概率;传输概率P(Si|Ok,Sj),当后一个音节状态为Sj,当前口型状态为Ok情况下,输出音节状态为Si的概率;
(2)组合所有分量匹配结果时,第i个分量识别为音节状态Si的概率与前一个口型状态Oi-1、当前口型状态Oi、后一个分量识别的音节状态Si+1有关;具有最大概率的音节状态即作为当前分量的识别结果;即
P(Si)=P(Oi-1→Oi)·P(Si|Oi,Si+1)
(3)以此类推,计算到最后一个分量的识别结果,求解出对应的具有最大概率的序列S1S2...Si...Sn-1Sn
本发明的有益效果为:以移动终端作为超声波发送和接收模块,在无需额外硬件定制的基础上,利用超声波感知的能力识别唇语,拓展了超声波技术的应用场景,克服了传统唇读识别技术的不足,具有广泛的应用场景。
附图说明
图1是本发明的整体装置结构示意图。
图2是本发明的方法流程图。
图3是本发明的移动终端配置示意图。
图4是本发明的特征提取流程图。
图5是本发明的应用概率统计模型识别唇读示意图。
图6是本发明的口型状态数字标号与口型、音节对应关系图。
图7是本发明的口型状态转移关系图。
图8是本发明的口型状态到音节状态转移关系图。
具体实施方式
如图1所示,一种面向移动终端的超声波唇读识别装置,包括超声波发送模块、超声波接收模块和信号处理模块;超声波发送模块发送超声波信号,超声波信号在被嘴部反射后,由超声波接收模块接收,信号处理模块处理超声波接收模块获取的反射超声波信号以得到该信号的特征向量,根据特征向量识别口型,得到匹配结果。
超声波发送模块为移动终端的扬声器,超声波接收模块为移动终端的麦克风,均支持19KHz的超声波信号。
信号处理模块包括时间记录单元、预处理单元、唇动分割单元、特征提取单元、唇语识别单元、模型训练单元和口型基元库;时间记录单元记录每次发射超声波信号与接收超声波信号的时间差,预处理单元对超声波接收模块获取的反射超声波信号进行滤波得到唇动反射信号,唇动分割单元将唇动反射信号以单音节为单位分割成若干个单音节信号序列,特征提取单元针对每个单音节信号序列提取并处理对应口型的特征参数形成唇动特征向量,口型基元库结合汉语的发音特征,应用特征提取单元提取的12种音节的特征参数,确立为12种基本口型,唇语识别单元调用口型基元库匹配所有单音节信号序列分量的结果,模型训练单元对分量匹配结果进行联合学习。
如图1和2所示,一种面向移动终端的超声波唇读识别方法,包括如下步骤:(1)超声波发送模块发送19KHz的超声波信号,同时信号处理模块的时间记录单元开始计时;
(2)超声波接收模块接收来自嘴部的超声波反射信号,并将反射信号传递到信号处理模块,同时信号处理模块的时间记录单元停止计时;
(3)信号处理模块的预处理单元对超声波接收模块的反射超声波信号进行滤波,从原始超声波反射信号中分离出唇动引起的反射信号即唇动反射信号,传递唇动反射信号给唇动分割单元;
(4)唇动分割单元对唇动反射信号进行分割,以单音节为单位进行分割,得到的音节信号序列传递给特征提取单元;
(5)特征提取单元检测每一个音节信号序列分量对应的特征参数,形成唇动特征向量;特征提取单元处理所有音节信号序列分量后,将每个分量的唇动特征向量传递给唇语识别单元;
(6)唇语识别单元对当前唇动特征向量进行识别,调用口型基元库,与口型基元库中的单口型唇动特征向量样本相匹配,根据口型基元库中单口型与音节的对应关系、单口型与特性向量对应关系,对当前唇动特征向量进行分类匹配,将所有分量匹配结果传递给模型训练单元进一步识别;
(7)模型训练单元基于马尔科夫假设,应用概率统计模型对分量匹配结果进行联合学习,结合语法规则集和基于上下文的纠错,统计具有最大概率的句子序列集,并输出为最终唇读结果。
如图3所示,为根据本发明实施方式设计的支持不同唇动模式的移动终端配置的示意图,具体实施过程如下:
(1)超声波发送模块,即移动终端的扬声器发送出19KHz的超声波信号。同时启动信号处理模块的时间记录单元开始计时。
(2)由于多普勒效应,超声波信号碰到嘴部后,不同的唇动模式将导致超声波信号的时间频率分布发生变化。根据图3所示,若移动终端包括一个超声波发送模块和一个超声波接收模块,以及用户的嘴部做不同的运动模式,则估计的反射超声波信号频率如下所示:
f ′ = ( C ± V C ) f 0
其中,f'为在用户的手处接收超声波信号的频率,f0为超声波信号的发送频率19KHz,C为声波在空气中传播的速度,V为嘴部相对于介质的速度。式中+、-分别表示嘴部靠近、远离移动终端。
(3)超声波接收模块,即移动终端的麦克风接收来自嘴部的反射信号。信号处理模块的时间记录单元停止计时。
如图4所示,为特征提取单元提取唇动特性向量的流程图,包括以下步骤:
(1)采用快速傅里叶变化FFT运算对唇动信号进行时频变换。
(2)计算频谱上主要频峰值E,即19KHz对应的峰值点以及周围所有频段内其他所有峰值点。
(3)对计算的所有频峰点进行判断,频率低于19KHz频段内的峰值点存入峰前数组F,频率高于19KHz的频段内的峰值点存入峰后数组A。
(4)扫描得到峰前、峰后数组,搜索是否存在次要频峰。首先,设置主要频峰和次要的阈值比例k,若在数组中存在大于k·E的峰值点,则判断为次要频峰e。
(5)对主要频峰E、次要频峰e作差,与时间记录单元记录的时间差,分别作为频移、持续时间特征参数。
如图5所示,为模型训练单元应用隐式马尔可夫模型统计最大概率的句子序列集的过程。
(1)首先,初始化概率统计模型四个主要参数:
口型状态O:定义为口型基元库对应的12种基本口型。为了更加形象描述,将12种口型用1-12的数字标号代替,对应关系如图6所示。
O={1,2,3,4,5,6,7,8,9,10,11,12}
音节状态S:定义为如图6所示的12种基本口型对应的所有元音辅音音节。
转移概率P(Oi→Oj):从口型状态Oi转移到口型状态Oj的概率。如图7所示,根据语法规则对各个口型状态之间的转移进行了约束。例如状态1只可转移到状态4或者状态5,这是由于语法规则中状态1对应的音节a只与状态4对应的音节i可形成复合音节/ai/,或者与状态5对应的u复合发音形成/au/,因此,P(1->4)+P(1->5)=1。
传输概率P(Si|Ok,Sj):当后一个音节状态为Sj时,当前口型状态为Ok情况下,输出音节状态为Si的概率;如图8所示,定义了所有口型状态到音节状态之间转移的关系,进一步基于现有的语料库统计概率。
P ( S i | O k , S j ) = N O k , S i , S j Σ m = 1 n N O k , S m , S j
其中,表示在语料库中当前口型为Ok,后一个为音节Sj时,输出音节状态为Si的数目。表示在语料库中,当前口型为Ok,后一个音节为Sj时,输出为Ok状态下所有音节状态的数目。例如,当识别“book(/buk/)”,基于现有的英文语料库,利用上式可得同时P(p|6,u)=28.9%,由此识别第一个音节为b而不是p。
(2)依次识别每个分量,第i个分量识别为音节状态Si的概率与前一个口型状态Oi-1、当前口型状态Oi、后一个分量识别的音节状态Si+1有关;具有最大概率的音节状态即作为当前分量的识别结果;即
P(Si)=P(Oi-1→Oi)·P(Si|Oi,Si+1)
(3)以此类推,计算到最后一个分量的识别结果,求解出对应的具有最大概率的序列S1S2...Si...Sn-1Sn
尽管本发明就优选实施方式进行了示意和描述,但本领域的技术人员应当理解,只要不超出本发明的权利要求所限定的范围,可以对本发明进行各种变化和修改。

Claims (8)

1.一种面向移动终端的超声波唇读识别装置,其特征在于,包括:超声波发送模块、超声波接收模块和信号处理模块;超声波发送模块发送超声波信号,超声波信号在被嘴部反射后,由超声波接收模块接收,信号处理模块处理超声波接收模块获取的反射超声波信号以得到该信号的特征向量,根据特征向量识别口型,得到匹配结果。
2.如权利要求1所述的面向移动终端的超声波唇读识别装置,其特征在于,超声波发送模块为移动终端的扬声器,超声波接收模块为移动终端的麦克风,均支持19KHz的超声波信号。
3.如权利要求1所述的面向移动终端的超声波唇读识别装置,其特征在于,信号处理模块包括时间记录单元、预处理单元、唇动分割单元、特征提取单元、唇语识别单元、模型训练单元和口型基元库;时间记录单元记录每次发射超声波信号与接收超声波信号的时间差,预处理单元对超声波接收模块获取的反射超声波信号进行滤波得到唇动反射信号,唇动分割单元将唇动反射信号以单音节为单位分割成若干个单音节信号序列,特征提取单元针对每个单音节信号序列提取并处理对应口型的特征参数形成唇动特征向量,口型基元库应用特征提取单元提取的12种音节的特征参数,确立为12种基本口型,唇语识别单元调用口型基元库匹配所有单音节信号序列分量的结果,模型训练单元对分量匹配结果进行联合学习。
4.一种面向移动终端的超声波唇读识别方法,包括如下步骤:
(1)超声波发送模块发送19KHz的超声波信号,同时信号处理模块的时间记录单元开始计时;
(2)超声波接收模块接收来自嘴部的超声波反射信号,并将反射信号传递到信号处理模块,同时信号处理模块的时间记录单元停止计时;
(3)信号处理模块的预处理单元对超声波接收模块的反射超声波信号进行滤波,从原始超声波反射信号中分离出唇动引起的反射信号即唇动反射信号,传递唇动反射信号给唇动分割单元;
(4)唇动分割单元对唇动反射信号进行分割,以单音节为单位进行分割,得到的音节信号序列传递给特征提取单元;
(5)特征提取单元检测每一个音节信号序列分量对应的特征参数,形成唇动特征向量;特征提取单元处理所有音节信号序列分量后,将每个分量的唇动特征向量传递给唇语识别单元;
(6)唇语识别单元对当前唇动特征向量进行识别,调用口型基元库,与口型基元库中的单口型唇动特征向量样本相匹配,根据口型基元库中单口型与音节的对应关系、单口型与特性向量对应关系,对当前唇动特征向量进行分类匹配,将所有分量匹配结果传递给模型训练单元进一步识别;
(7)模型训练单元基于马尔科夫假设,应用概率统计模型对分量匹配结果进行联合学习,结合语法规则集和基于上下文的纠错,统计具有最大概率的句子序列集,并输出为最终唇读结果。
5.如权利要求4所述的面向移动终端的超声波唇读识别方法,其特征在于,步骤(4)中,唇动分割单元对唇动信号进行分割包括词内分割和词间分割;对唇动信号进行词间分割时,通过检测单词间存在的较为明显的停顿,设置一个长为Tms的滑动窗口,每次向前滑动kms个单位,满足2k≤T,当检测到连续两次滑动窗口内不存在信号时,判断当前为停顿,为词间分割点;对唇动信号进行词内分割时,计算信号中19KHz的主频峰的个数n,根据个数对信号进行n均等词内分割。
6.如权利要求4所述的面向移动终端的超声波唇读识别方法,其特征在于,步骤(5)中的特征参数包括持续时间和频移;时间记录单元记录的发射超声波和接收超声波的时间差作为持续时间。
7.如权利要求4所述的面向移动终端的超声波唇读识别方法,其特征在于,步骤(5)中的频移特征提取步骤如下:
(1)采用快速傅里叶变换FFT计算主要频峰E和周围频带范围内的所有峰值点,主要频峰E为19KHz处的峰值,将小于19KHz的频段内的峰值存放入峰前数组F,大于19KHz频段内的峰值点存放在峰后数组A中;
(2)设置主要频峰和次要频峰的阈值比例k,扫描得到的频峰值数组A、F,若存在高于k·E的频峰值,则说明存在次要频峰,次要频峰即唇动引入的第二大频峰值;
(3)当确定了次要频峰位置后,对主要、次要频峰作差,得到唇动对应的频移Δf。
8.如权利要求4所述的面向移动终端的超声波唇读识别方法,其特征在于,步骤(7)中的模型训练单元应用概率统计模型统计最大概率的句子序列集,具体步骤如下:
(1)初始化概率统计模型的参数:口型状态O:定义为包括口型基元库中12种基本口型;音节状态S,即输出识别结果,定义为12种口型对应的所有元音辅音音节;转移概率P(Oi→Oj):从口型状态Oi转移到口型状态Oj的概率;传输概率P(Si|Ok,Sj):当后一个音节状态为Sj,当前口型状态为Ok情况下,输出音节状态为Si的概率;
(2)组合所有分量匹配结果时,第i个分量识别为音节状态Si的概率与前一个口型状态Oi-1、当前口型状态Oi、后一个分量识别的音节状态Si+1有关;具有最大概率的音节状态即作为当前分量的识别结果;即
P(Si)=P(Oi-1→Oi)·P(Si|Oi,Si+1)
(3)以此类推,计算到最后一个分量的识别结果,求解出对应的具有最大概率的序列S1S2...Si...Sn-1Sn
CN201610803559.7A 2016-09-05 2016-09-05 一种面向移动终端的超声波唇读识别装置及方法 Active CN106328141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610803559.7A CN106328141B (zh) 2016-09-05 2016-09-05 一种面向移动终端的超声波唇读识别装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610803559.7A CN106328141B (zh) 2016-09-05 2016-09-05 一种面向移动终端的超声波唇读识别装置及方法

Publications (2)

Publication Number Publication Date
CN106328141A true CN106328141A (zh) 2017-01-11
CN106328141B CN106328141B (zh) 2019-06-14

Family

ID=57787315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610803559.7A Active CN106328141B (zh) 2016-09-05 2016-09-05 一种面向移动终端的超声波唇读识别装置及方法

Country Status (1)

Country Link
CN (1) CN106328141B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN108664842A (zh) * 2017-03-27 2018-10-16 Tcl集团股份有限公司 一种唇动识别模型的构建方法及系统
CN111856422A (zh) * 2020-07-03 2020-10-30 西安电子科技大学 基于宽带多通道毫米波雷达的唇语识别方法
CN113011245A (zh) * 2021-01-28 2021-06-22 南京大学 基于超声波感知与知识蒸馏的唇语识别系统及方法
CN113611287A (zh) * 2021-06-29 2021-11-05 深圳大学 一种基于机器学习的发音纠错方法和系统
CN113870858A (zh) * 2021-09-27 2021-12-31 平安科技(深圳)有限公司 基于人工智能的静默语音识别方法、装置及存储介质
WO2022121182A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及计算机可读存储介质
CN114676735A (zh) * 2022-04-21 2022-06-28 歌尔股份有限公司 唇语识别方法、装置及计算机可读存储介质
CN114842846A (zh) * 2022-04-21 2022-08-02 歌尔股份有限公司 头戴设备的控制方法、装置及计算机可读存储介质
CN115565549A (zh) * 2022-10-08 2023-01-03 中国海洋大学 行为识别方法、远程控制方法、装置、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003036617A1 (fr) * 2001-10-22 2003-05-01 Sony Corporation Appareil de reconnaissance vocale et procede de reconnaissance de la parole
CN102467905A (zh) * 2010-10-28 2012-05-23 鸿富锦精密工业(深圳)有限公司 手势识别装置及方法
CN103151038A (zh) * 2011-12-06 2013-06-12 张国鸿 在电子产品中实现语音识别操控的方法
CN104025188A (zh) * 2011-12-29 2014-09-03 英特尔公司 声学信号修改
CN105278817A (zh) * 2014-05-30 2016-01-27 金兆栋 一种语音、唇语控制装置及控制方法
CN105654952A (zh) * 2014-11-28 2016-06-08 三星电子株式会社 用于输出语音的电子设备、服务器和方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003036617A1 (fr) * 2001-10-22 2003-05-01 Sony Corporation Appareil de reconnaissance vocale et procede de reconnaissance de la parole
CN1488134A (zh) * 2001-10-22 2004-04-07 ���ṫ˾ 语音识别装置及语音识别方法
CN102467905A (zh) * 2010-10-28 2012-05-23 鸿富锦精密工业(深圳)有限公司 手势识别装置及方法
CN103151038A (zh) * 2011-12-06 2013-06-12 张国鸿 在电子产品中实现语音识别操控的方法
CN104025188A (zh) * 2011-12-29 2014-09-03 英特尔公司 声学信号修改
CN105278817A (zh) * 2014-05-30 2016-01-27 金兆栋 一种语音、唇语控制装置及控制方法
CN105654952A (zh) * 2014-11-28 2016-06-08 三星电子株式会社 用于输出语音的电子设备、服务器和方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664842A (zh) * 2017-03-27 2018-10-16 Tcl集团股份有限公司 一种唇动识别模型的构建方法及系统
CN108664842B (zh) * 2017-03-27 2020-12-18 Tcl科技集团股份有限公司 一种唇动识别模型的构建方法及系统
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN111856422A (zh) * 2020-07-03 2020-10-30 西安电子科技大学 基于宽带多通道毫米波雷达的唇语识别方法
CN111856422B (zh) * 2020-07-03 2024-10-01 西安电子科技大学 基于宽带多通道毫米波雷达的唇语识别方法
WO2022121182A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及计算机可读存储介质
CN113011245A (zh) * 2021-01-28 2021-06-22 南京大学 基于超声波感知与知识蒸馏的唇语识别系统及方法
CN113011245B (zh) * 2021-01-28 2023-12-12 南京大学 基于超声波感知与知识蒸馏的唇语识别系统及方法
CN113611287B (zh) * 2021-06-29 2023-09-12 深圳大学 一种基于机器学习的发音纠错方法和系统
CN113611287A (zh) * 2021-06-29 2021-11-05 深圳大学 一种基于机器学习的发音纠错方法和系统
CN113870858A (zh) * 2021-09-27 2021-12-31 平安科技(深圳)有限公司 基于人工智能的静默语音识别方法、装置及存储介质
CN114842846A (zh) * 2022-04-21 2022-08-02 歌尔股份有限公司 头戴设备的控制方法、装置及计算机可读存储介质
CN114676735A (zh) * 2022-04-21 2022-06-28 歌尔股份有限公司 唇语识别方法、装置及计算机可读存储介质
CN115565549A (zh) * 2022-10-08 2023-01-03 中国海洋大学 行为识别方法、远程控制方法、装置、系统、设备及介质

Also Published As

Publication number Publication date
CN106328141B (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN106328141B (zh) 一种面向移动终端的超声波唇读识别装置及方法
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
JP4795919B2 (ja) 音声区間検出方法
US7680666B2 (en) Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product
EP3156978A1 (en) A system and a method for secure speaker verification
US20170154640A1 (en) Method and electronic device for voice recognition based on dynamic voice model selection
CN103903612B (zh) 一种实时语音识别数字的方法
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
KR101022519B1 (ko) 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법
JP5385876B2 (ja) 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
Stanek et al. Algorithms for vowel recognition in fluent speech based on formant positions
Schuller Affective speaker state analysis in the presence of reverberation
CN116994600B (zh) 基于音频驱动角色口型的方法及系统
Köpüklü et al. ResectNet: An Efficient Architecture for Voice Activity Detection on Mobile Devices.
CN111179972A (zh) 一种基于深度学习的人声检测算法
CN109697985B (zh) 语音信号处理方法、装置及终端
Khan et al. Pashto language dialect recognition using mel frequency cepstral coefficient and support vector machines
RU2296376C2 (ru) Способ распознавания слов речи
Chen et al. LOCSELECT: Target Speaker Localization with an Auditory Selective Hearing Mechanism
KR100849027B1 (ko) 음성 신호에 대한 립싱크 동기화 방법 및 장치
Razak et al. Towards automatic recognition of emotion in speech
CN113990325A (zh) 流式语音识别方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant