CN107221324B - 语音处理方法及装置 - Google Patents

语音处理方法及装置 Download PDF

Info

Publication number
CN107221324B
CN107221324B CN201710652375.XA CN201710652375A CN107221324B CN 107221324 B CN107221324 B CN 107221324B CN 201710652375 A CN201710652375 A CN 201710652375A CN 107221324 B CN107221324 B CN 107221324B
Authority
CN
China
Prior art keywords
user
audio signal
state
lip
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710652375.XA
Other languages
English (en)
Other versions
CN107221324A (zh
Inventor
蒋化冰
朱一菁
郝明瑞
罗承雄
谭舟
梁兰
徐志强
严婷
郦莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Noah Wood Robot Technology Co ltd
Original Assignee
Shanghai Zhihuilin Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhihuilin Medical Technology Co ltd filed Critical Shanghai Zhihuilin Medical Technology Co ltd
Priority to CN201710652375.XA priority Critical patent/CN107221324B/zh
Publication of CN107221324A publication Critical patent/CN107221324A/zh
Application granted granted Critical
Publication of CN107221324B publication Critical patent/CN107221324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及语音识别技术领域,尤其涉及一种语音处理方法及装置。本发明解决现有技术中,对非用户发出的音频信号进行识别的技术问题。本发明提供的语音处理方法包括:在采集音频信号的过程中,对音频信号所在方向上的用户拍摄多张图像;从多张图像中,识别用户的唇部动作频率;根据唇部动作频率,处理音频信号。本发明提供的方法可以准确辨别用户发出的音频信号和非用户发出的音频信号,进而解决了音频信号误识别的技术问题。

Description

语音处理方法及装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音处理方法及装置。
背景技术
随着语音识别技术的发展,可以向具有语音识别功能的语音识别设备发送音频信号。语音识别设备可以识别接收到的音频信号,进而根据识别结果进行相应的操作。
现有技术中,语音识别设备难以辨别用户发出的音频信号和非用户发出的音频信号,例如语音识别设备难以辨别用户发出的音频信号和电视中的人声、歌曲等音频信号。因此,如果语音识别设备接收到非用户发出的音频信号,也会识别接收到的音频信号,从而导致音频信号误识别。
发明内容
本发明的多个方面提供一种语音处理方法及装置,用以解决现有技术中,对非用户发出的音频信号进行识别的技术问题。
本发明实施例提供一种语音处理方法,包括:
在采集音频信号的过程中,对所述音频信号所在方向上的用户拍摄多张图像;
从所述多张图像中,识别所述用户的唇部动作频率;
根据所述唇部动作频率,处理所述音频信号。
可选地,所述根据所述唇部动作频率,处理所述音频信号,包括:
若所述唇部动作频率在吐字频率范围之内,对所述音频信号进行语音识别;或者
若所述唇部动作频率在吐字频率范围之外,丢弃所述音频信号。
可选地,所述在采集音频信号的过程中,对所述音频信号所在方向上的用户拍摄多张图像,包括:
在采集音频信号的过程中,在所述音频信号所在方向所属的区域范围内拍摄初始图像;
根据所述初始图像确定所述音频信号所在方向上存在所述用户;
对所述音频信号所在方向上的所述用户拍摄所述多张图像。
可选地,所述从所述多张图像中,识别所述用户的唇部动作频率,包括:
识别所述多张图像中每张图像里面所述用户的唇部动作状态;
根据每张图像里面所述用户的唇部动作状态以及所述多张图像的拍摄时间,计算所述用户的唇部动作频率。
可选地,所述用户的唇部动作状态为张开状态或闭合状态;
所述根据每张图像里面所述用户的唇部动作状态以及所述多张图像的拍摄时间,计算所述用户的唇部动作频率,包括:
根据每张图像里面所述用户的唇部动作状态,统计所述用户的唇部在张开状态和闭合状态之间的变化次数;
根据所述变化次数和所述多张图像的拍摄时间,计算所述用户的唇部开合频率。
可选地,所述识别所述多张图像中每张图像里面所述用户的唇部动作状态,包括:
通过预先训练的图像分类器,识别出每张图像的状态类别,所述状态类别包括张开态或闭合态;
根据每张图像的状态类别,确定每张图像中所述用户的唇部动作状态为张开状态或闭合状态;
其中,所述张开态是指图像中所述用户的唇部特征点符合张开条件的图像状态,所述闭合态是指图像中所述用户的唇部特征点符合闭合条件的图像状态。
本发明实施例还提供一种语音处理装置,包括:
拍摄模块,用于在采集音频信号的过程中,对所述音频信号所在方向上的用户拍摄多张图像;
识别模块,用于从所述多张图像中,识别所述用户的唇部动作频率;
处理模块,用于根据所述唇部动作频率,处理所述音频信号。
可选地,所述处理模块,具体用于:
若所述唇部动作频率在吐字频率范围之内,对所述音频信号进行语音识别;或者
若所述唇部动作频率在吐字频率范围之外,丢弃所述音频信号。
可选地,所述拍摄模块,具体用于:
在采集音频信号的过程中,在所述音频信号所在方向所属的区域范围内拍摄初始图像;
根据所述初始图像确定所述音频信号所在方向上存在所述用户;
对所述音频信号所在方向上的所述用户拍摄所述多张图像。
可选地,所述识别模块包括:
状态识别单元,用于识别所述多张图像中每张图像里面所述用户的唇部动作状态;
频率计算单元,用于根据每张图像里面所述用户的唇部动作状态以及所述多张图像的拍摄时间,计算所述用户的唇部动作频率。
在本发明实施例中,通过在采集音频信号的过程中,对音频信号所在方向上的用户拍摄多张图像;再根据多张图像中用户的唇部动作频率,处理音频信号,使得在采集音频信号的过程中,能够根据用户的唇部动作频率判断音频信号所在方向上的用户是否处于发声状态,从而可以准确辨别音频信号为用户发出的音频信号还是非用户发出的音频信号,进而对音频信号进行相应地处理,解决了现有技术中音频信号误识别的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一实施例提供的语音处理方法的流程示意图;
图2为本发明又一实施例提供的语音处理方法的流程示意图;
图3为本发明又一实施例提供的语音处理装置的模块结构图;
图4为本发明又一实施例提供的语音处理装置的模块结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图,详细说明本发明各实施例提供的技术方案。
图1为本发明一实施例提供的语音处理方法的流程示意图。如图1所示,该方法包括以下步骤。
S101:在采集音频信号的过程中,对音频信号所在方向上的用户拍摄多张图像。
S102:从多张图像中,识别用户的唇部动作频率。
S103:根据唇部动作频率,处理音频信号。
在步骤S101中,通过音频信号采集设备监听音频信号,当监听到音频信号时,对音频信号进行采集。在采集音频信号的过程中,可以对音频信号所在方向上的用户拍摄多张图像。其中,多张图像可以指至少两张图像。
可选地,音频信号采集设备可以独立存在,也可以集成到其他设备中。例如,环形麦克分阵列属于独立存在的音频信号采集设备,具备语音识别功能的机器人、手机等设备则集成了音频信号采集设备。基于此,可以在独立的音频信号采集设备上,或者具有语音识别功能的设备上安装图像拍摄设备,进而通过图像拍摄设备对音频信号所在方向上的用户拍摄多张图像。
可选地,图像拍摄设备包括但不限于摄像头、相机、图像扫描器等。
可选地,在音频信号采集设备开始采集音频信号时,通过图像采集设备对音频信号所在方向上的用户拍摄多张图像。在音频信号采集设备停止采集音频信号时,停止拍摄操作。这样,可以实现在同一时间段采集音频信号和拍摄多张图像。
为了对音频信号所在方向上的用户拍摄图像,可以采用声源定位技术,定位出音频信号所在方向,进而对音频信号所在方向上的用户拍摄多张图像。其中,声源定位技术包括但不限于基于可控波束形成器的源定位技术、基于高分辨率谱估计的源定位技术、基于时延估计的源定位技术等。
其中,多张图像是识别用户的唇部动作频率的依据。为了准确识别用户的唇部动作频率,优选地,可以在采集音频信号的过程中,连续拍摄多张图像。也可以在采集音频信号的过程中,间隔指定时间,对音频信号所在方向上的用户拍摄多张图像。
人在发声时与人不发声时,唇部的动作频率是不同的。例如,人在说“点歌”、“我在上班路上”时唇部的动作频率较快,人在闭嘴或者打哈欠时,唇部的动作频率较慢或者几乎为零。基于此,可以从多张图像中,识别用户的唇部动作频率;进而根据唇部动作频率,处理音频信号。
可选地,可以根据唇部动作频率判断用户是否处于发声状态。若判断出用户处于发声状态,则音频信号为用户的语音信号,进而对音频信号进行语音识别;
若根据唇部动作频率判断出用户不处于发声状态,则音频信号不是用户的语音信号,进而不对音频信号进行语音识别。
本实施例中,通过在采集音频信号的过程中,对音频信号所在方向上的用户拍摄多张图像;再根据多张图像中用户的唇部动作频率,处理音频信号,使得在采集音频信号的过程中,能够根据用户的唇部动作频率判断音频信号所在方向上的用户是否处于发声状态,从而可以准确辨别音频信号为用户发出的音频信号还是非用户发出的音频信号,进而对音频信号进行相应地处理,解决了现有技术中音频信号误识别的技术问题。
在上述实施例或下述实施例中,根据唇部动作频率,处理音频信号,包括以下两种实施方式。
第一种实施方式:若唇部动作频率在吐字频率范围之内,对音频信号进行语音识别。
第二种实施方式:若唇部动作频率在吐字频率范围之外,丢弃音频信号。
可选地,吐字频率可以指人们在说话时,发出单音节或者单字的频率。以中文为例,一秒钟的时间内发出2个单字,则吐字频率为2个/秒。考虑到有的人吐字频率快、有的人吐字频率慢,可以设置一吐字频率范围,例如0.5个/秒~4个/秒。吐字频率范围为人们处于发声状态时最大的吐字频率与最小的吐字频率之间的频率范围。
一般来说,人们每发出一个字,唇部就会动作一次。基于此,可以比较唇部动作频率和吐字频率范围。若唇部动作频率在吐字频率范围之内,意味着用户处于发声状态。此时,采集的音频信号可以认为是用户发出的音频信号,则对音频信号进行语音识别。
若唇部动作频率在吐字频率范围之外,也就是唇部动作频率小于吐字频率范围的最小值,或者唇部动作频率大于吐字频率范围的最大值时,意味着用户在打哈欠或唇部抽搐,不处于发声状态,进而音频信号为非用户发出的音频信号,则丢弃音频信号,不对音频信号进行语音识别。
本实施例中,通过将唇部动作频率与吐字频率范围相比,进而能够准确辨别音频信号是否为用户发出的音频信号,进而识别或丢弃音频信号。
在上述实施例或下述实施例中,在采集音频信号的过程中,可以首先判定音频信号所在方向上存在用户,进而对音频信号所在方向上的用户拍摄多张图像。
首先,在采集音频信号的过程中,在音频信号所在方向所属的区域范围内拍摄初始图像;根据初始图像确定音频信号所在方向上存在用户;对音频信号所在方向上的用户拍摄多张图像。
在图像拍摄设备来说,有些可以360度全景拍摄,但大部分的图像拍摄设备的视角小于360度,只能拍摄到部分空间图像。为了能够拍摄到用户,可以定位音频信号所在方向,进而对音频信号所在方向所属的区域范围内拍摄初始图像。
可选地,音频信号所在方向所属的区域范围可以指以音频信号所在方向为中心,以指定距离为半径的球体区域。
初始图像用于判断该区域范围内是否存在用户。可选地,通过图像识别技术,识别初始图像中是否存在用户图像。若存在,则判定音频信号所在方向上存在用户;若不存在,则判定音频信号所在方向上不存在用户。
当音频信号所在方向上存在用户时,根据用户图像在初始图像上的位置,确定用户在音频信号所在方向所属的区域范围内的位置,进而对音频信号所在方向上的用户拍摄多张图像。
当音频信号所在方向上不存在用户时,可以认为采集到的音频信号为非用户发出的音频信号,并丢弃该音频信号。进一步地,可以停止拍摄图像。当然,考虑到用户可能暂时离开或者不久后出现在音频信号所在方向上,则可以以低于拍摄多张图像的频率继续拍摄音频信号所在方向所属的区域范围内的初始图像,直到停止采集音频信号。
在上述实施例或下述实施例中,唇部的动作频率可以为唇部的动作状态变化的频率。基于此,从多张图像中,识别用户的唇部动作频率包括:识别多张图像中每张图像里面用户的唇部动作状态;根据每张图像里面用户的唇部动作状态以及多张图像的拍摄时间,计算用户的唇部动作频率。
可选地,可以通过人脸识别技术从每张图像里面识别出正面面部图像,进而分析正面面部图像,以得到用户的唇部特征点。然后,从唇部特征点中,提取唇部的形状、轮廓等信息。再根据唇部的形状、轮廓等信息确定唇部运动状态。
可选地,唇部运动状态包括但不限于抿嘴状态、打开状态、缩起状态、撅起状态等。
然后,根据每张图像里面用户的唇部动作状态,统计唇部动作状态之间的变化次数。在一示例中,在采集音频的过程中,共拍摄3张图像。第1张图像中用户的唇部动作状态为抿嘴状态,第二张图像中用户的唇部动作状态为撅起状态,第三张图像中用户的唇部动作状态为打开状态。经统计,在采集音频的过程中,唇部动作状态变化了两次。
在统计出多张图像中,唇部动作状态之间的变化次数后,结合多张图像的拍摄时间,计算用户的唇部动作频率。在一示例中,在采集音频的过程中,拍摄3张图像。唇部动作状态之间的变化次数为3次,3张图像的拍摄时间为1秒。则唇部动作频率为3次/秒。
在上述实施例或下述实施例中,唇部动作状态可以大体归纳为张开状态或闭合状态。基于此,可以识别多张图像中每张图像里面用户唇部的张开状态或闭合状态;然后,根据每张图像里面用户唇部的张开状态或闭合状态,以及多张图像的拍摄时间,计算用户的唇部动作频率。
图2为本发明又一实施例提供的语音处理方法的流程示意图。如图2所示,该方法包括以下步骤:
S201:在采集音频信号的过程中,对音频信号所在方向上的用户拍摄多张图像。
S202:通过预先训练的图像分类器,识别出每张图像的状态类别,状态类别包括张开态或闭合态。
S203:根据每张图像的状态类别,确定每张图像中用户的唇部动作状态为张开状态或闭合状态。
S204:根据每张图像里面用户的唇部动作状态,统计用户的唇部在张开状态和闭合状态之间的变化次数。
S205:根据变化次数和多张图像的拍摄时间,计算用户的唇部开合频率。
S206:根据唇部动作频率,处理音频信号。
步骤S201与步骤S101相同,此处不再赘述。
在拍摄多张图像之后,可以通过预先训练的图像分类器识别出每张图像的状态类别,状态类别包括张开态或闭合态(即步骤时S202)。其中,张开态是指图像中用户的唇部特征点符合张开条件的图像状态,闭合态是指图像中用户的唇部特征点符合闭合条件的图像状态。
可选地,张开条件指唇部的开合幅度大于张开阈值;闭合条件指唇部的开合幅度小于闭合阈值。其中,可以根据唇部特征点确定唇部轮廓,进而根据唇部轮廓得到唇部的开合幅度。
在使用图像分类器识别每张图像的状态类别之前,可以先训练图像分类器。可选地,可以将唇部特征点符合张开条件的图像标记为张开态,将唇部特征点符合闭合条件的图像标记为闭合态。
然后,将张开态和闭合态的图像作为训练集,训练图像分类器,直到图像分类器对图像状态进行识别的准确率达到指定比率,例如95%。
其中,图像分类器可以包括但不限于支持向量机(Support Vector Machine,SVM)分类器、深度神经网络分类器、朴素贝叶斯分类器等。开发人员可以根据拍摄图像的数据量、分类的实时性要求、硬件性能等因素综合选择合适的图像分类器。
在使用图像分类器识别每张图像的状态类别时,可以首先识别用户的正面面部图像;然后从正面面部图像中,提取唇部特征点;再根据唇部特征点,将每张图像的状态类别分类为张开态或闭合态。
接着,根据每张图像的状态类别,确定每张图像中用户的唇部动作状态为张开状态或闭合状态(即步骤S203)。也就是,若图像的状态类别为张开态,则该图像中用户的唇部动作状态为张开状态;若图像的状态类别为闭合态,则该图像中用户的唇部动作状态为闭合状态。
接着,根据每张图像里面用户的唇部动作状态,统计用户的唇部在张开状态和闭合状态之间的变化次数(即步骤S204),进而,根据变化次数和多张图像的拍摄时间,计算用户的唇部开合频率(即步骤S205)。
在一示例中,在采集音频信号的过程中,拍摄4张图像。每张图像的用户的唇部动作状态依次为张开状态、张开状态、闭合状态、张开状态。经统计,用户的唇部在张开状态和闭合状态之间的变化次数为2次。结合4张图像的拍摄时间1秒,计算出用户的唇部开合频率为2次/秒。
接着,根据唇部动作频率,处理音频信号(即步骤S206)。步骤S206与步骤S203相同,此处不再赘述。
本发明实施例还提供一种语音处理装置300,如图3所示,包括:拍摄模块301、识别模块302以及处理模块303。
拍摄模块301,用于在采集音频信号的过程中,对音频信号所在方向上的用户拍摄多张图像。
识别模块302,用于从拍摄模块301拍摄的多张图像中,识别用户的唇部动作频率。
处理模块303,用于根据识别模块302识别出的唇部动作频率,处理音频信号。
本实施例中,通过在采集音频信号的过程中,对音频信号所在方向上的用户拍摄多张图像;再根据多张图像中用户的唇部动作频率,处理音频信号,使得在采集音频信号的过程中,能够根据用户的唇部动作频率判断音频信号所在方向上的用户是否处于发声状态,从而可以准确辨别音频信号为用户发出的音频信号还是非用户发出的音频信号,进而对音频信号进行相应地处理,解决了现有技术中音频信号误识别的技术问题。
可选地,处理模块303在根据识别模块302识别出的唇部动作频率,处理音频信号时,具体用于:若唇部动作频率在吐字频率范围之内,对音频信号进行语音识别;或者若唇部动作频率在吐字频率范围之外,丢弃音频信号。
本实施例中,通过将唇部动作频率与吐字频率范围相比,进而能够准确辨别音频信号是否为用户发出的音频信号,进而识别或丢弃音频信号。
可选地,拍摄模块301在在采集音频信号的过程中,对音频信号所在方向上的用户拍摄多张图像时,具体用于:在采集音频信号的过程中,在音频信号所在方向所属的区域范围内拍摄初始图像;根据初始图像确定音频信号所在方向上存在用户;对音频信号所在方向上的用户拍摄多张图像。
可选地,如图4所示,识别模块302包括状态识别单元3021和频率计算单元3022。
其中,状态识别单元3021,用于识别多张图像中每张图像里面用户的唇部动作状态;
频率计算单元3022,用于根据每张图像里面用户的唇部动作状态以及多张图像的拍摄时间,计算用户的唇部动作频率。
可选地,频率计算单元3022具体用于根据每张图像里面用户的唇部动作状态,统计用户的唇部在张开状态和闭合状态之间的变化次数;根据变化次数和多张图像的拍摄时间,计算用户的唇部开合频率。其中,用户的唇部动作状态为张开状态或闭合状态。
可选地,状态识别单元3021,具体用于通过预先训练的图像分类器,识别出每张图像的状态类别,状态类别包括张开态或闭合态;根据每张图像的状态类别,确定每张图像中用户的唇部动作状态为张开状态或闭合状态;其中,张开态是指图像中用户的唇部特征点符合张开条件的图像状态,闭合态是指图像中用户的唇部特征点符合闭合条件的图像状态。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (8)

1.一种语音处理方法,用于辨别用户发出的音频信号和非用户发出的音频信号,其特征在于,包括:
在采集音频信号的过程中,对所述音频信号所在方向上的用户拍摄多张图像;
从所述多张图像中,识别所述用户的唇部动作频率;
根据所述唇部动作频率,处理所述音频信号;
所述根据所述唇部动作频率,处理所述音频信号,包括:
若所述唇部动作频率在吐字频率范围之内,对所述音频信号进行语音识别;或者
若所述唇部动作频率在吐字频率范围之外,丢弃所述音频信号。
2.根据权利要求1所述的方法,其特征在于,所述在采集音频信号的过程中,对所述音频信号所在方向上的用户拍摄多张图像,包括:
在采集音频信号的过程中,在所述音频信号所在方向所属的区域范围内拍摄初始图像;
根据所述初始图像确定所述音频信号所在方向上存在所述用户;
对所述音频信号所在方向上的所述用户拍摄所述多张图像。
3.根据权利要求1所述的方法,其特征在于,所述从所述多张图像中,识别所述用户的唇部动作频率,包括:
识别所述多张图像中每张图像里面所述用户的唇部动作状态;
根据每张图像里面所述用户的唇部动作状态以及所述多张图像的拍摄时间,计算所述用户的唇部动作频率。
4.根据权利要求3所述的方法,其特征在于,所述用户的唇部动作状态为张开状态或闭合状态;
所述根据每张图像里面所述用户的唇部动作状态以及所述多张图像的拍摄时间,计算所述用户的唇部动作频率,包括:
根据每张图像里面所述用户的唇部动作状态,统计所述用户的唇部在张开状态和闭合状态之间的变化次数;
根据所述变化次数和所述多张图像的拍摄时间,计算所述用户的唇部开合频率。
5.根据权利要求4所述的方法,其特征在于,所述识别所述多张图像中每张图像里面所述用户的唇部动作状态,包括:
通过预先训练的图像分类器,识别出每张图像的状态类别,所述状态类别包括张开态或闭合态;
根据每张图像的状态类别,确定每张图像中所述用户的唇部动作状态为张开状态或闭合状态;
其中,所述张开态是指图像中所述用户的唇部特征点符合张开条件的图像状态,所述闭合态是指图像中所述用户的唇部特征点符合闭合条件的图像状态。
6.一种语音处理装置,用于辨别用户发出的音频信号和非用户发出的音频信号,其特征在于,包括:
拍摄模块,用于在采集音频信号的过程中,对所述音频信号所在方向上的用户拍摄多张图像;
识别模块,用于从所述多张图像中,识别所述用户的唇部动作频率;
处理模块,用于根据所述唇部动作频率,处理所述音频信号;
所述处理模块,具体用于:
若所述唇部动作频率在吐字频率范围之内,对所述音频信号进行语音识别;或者
若所述唇部动作频率在吐字频率范围之外,丢弃所述音频信号。
7.根据权利要求6所述的装置,其特征在于,所述拍摄模块,具体用于:
在采集音频信号的过程中,在所述音频信号所在方向所属的区域范围内拍摄初始图像;
根据所述初始图像确定所述音频信号所在方向上存在所述用户;
对所述音频信号所在方向上的所述用户拍摄所述多张图像。
8.根据权利要求6所述的装置,其特征在于,所述识别模块包括:
状态识别单元,用于识别所述多张图像中每张图像里面所述用户的唇部动作状态;
频率计算单元,用于根据每张图像里面所述用户的唇部动作状态以及所述多张图像的拍摄时间,计算所述用户的唇部动作频率。
CN201710652375.XA 2017-08-02 2017-08-02 语音处理方法及装置 Active CN107221324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710652375.XA CN107221324B (zh) 2017-08-02 2017-08-02 语音处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710652375.XA CN107221324B (zh) 2017-08-02 2017-08-02 语音处理方法及装置

Publications (2)

Publication Number Publication Date
CN107221324A CN107221324A (zh) 2017-09-29
CN107221324B true CN107221324B (zh) 2021-03-16

Family

ID=59955006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710652375.XA Active CN107221324B (zh) 2017-08-02 2017-08-02 语音处理方法及装置

Country Status (1)

Country Link
CN (1) CN107221324B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145853A (zh) * 2018-08-31 2019-01-04 百度在线网络技术(北京)有限公司 用于识别噪音的方法和装置
CN111868823A (zh) * 2019-02-27 2020-10-30 华为技术有限公司 一种声源分离方法、装置及设备
CN110310668A (zh) * 2019-05-21 2019-10-08 深圳壹账通智能科技有限公司 静音检测方法、系统、设备及计算机可读存储介质
CN111326175A (zh) * 2020-02-18 2020-06-23 维沃移动通信有限公司 一种对话者的提示方法及穿戴设备
CN113362849A (zh) * 2020-03-02 2021-09-07 阿里巴巴集团控股有限公司 一种语音数据处理方法以及装置
CN111933174A (zh) * 2020-08-16 2020-11-13 云知声智能科技股份有限公司 语音处理方法、装置、设备和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680481A (en) * 1992-05-26 1997-10-21 Ricoh Corporation Facial feature extraction method and apparatus for a neural network acoustic and visual speech recognition system
JP2000338987A (ja) * 1999-05-28 2000-12-08 Mitsubishi Electric Corp 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
KR20100041061A (ko) * 2008-10-13 2010-04-22 성균관대학교산학협력단 화자의 얼굴을 확대하는 영상 통화 방법 및 이를 위한 단말
TWI502583B (zh) * 2013-04-11 2015-10-01 Wistron Corp 語音處理裝置和語音處理方法
CN105915798A (zh) * 2016-06-02 2016-08-31 北京小米移动软件有限公司 视频会议中摄像头的控制方法和控制装置

Also Published As

Publication number Publication date
CN107221324A (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
CN107221324B (zh) 语音处理方法及装置
US9595259B2 (en) Sound source-separating device and sound source-separating method
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
Choudhury et al. Multimodal person recognition using unconstrained audio and video
JP2021500616A (ja) オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体
WO2015172630A1 (zh) 摄像装置及其对焦方法
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
Scanlon et al. Feature analysis for automatic speechreading
JPWO2019044157A1 (ja) 収音装置、収音方法、及びプログラム
JP4715738B2 (ja) 発話検出装置及び発話検出方法
JP2001092974A (ja) 話者認識方法及びその実行装置並びに音声発生確認方法及び装置
EP2721609A1 (en) Identification of a local speaker
WO2012128382A1 (en) Device and method for lip motion detection
US20160078883A1 (en) Action analysis device, action analysis method, and action analysis program
US10964326B2 (en) System and method for audio-visual speech recognition
CN108898042B (zh) 一种应用于atm机舱内用户异常行为的检测方法
CN110750152A (zh) 一种基于唇部动作的人机交互方法和系统
Foggia et al. Cascade classifiers trained on gammatonegrams for reliably detecting audio events
May et al. Environment-aware ideal binary mask estimation using monaural cues
CN114282621B (zh) 一种多模态融合的话者角色区分方法与系统
Hung et al. Towards audio-visual on-line diarization of participants in group meetings
Rentzeperis et al. The 2006 athens information technology speech activity detection and speaker diarization systems
Canton-Ferrer et al. Audiovisual event detection towards scene understanding
Yoshinaga et al. Audio-visual speech recognition using new lip features extracted from side-face images
Bratoszewski et al. Comparison of acoustic and visual voice activity detection for noisy speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 200336 402 rooms, No. 33, No. 33, Guang Shun Road, Shanghai

Applicant after: Shanghai zhihuilin Medical Technology Co.,Ltd.

Address before: 200336 402 rooms, No. 33, No. 33, Guang Shun Road, Shanghai

Applicant before: Shanghai Zhihui Medical Technology Co.,Ltd.

Address after: 200336 402 rooms, No. 33, No. 33, Guang Shun Road, Shanghai

Applicant after: Shanghai Zhihui Medical Technology Co.,Ltd.

Address before: 200336 402 rooms, No. 33, No. 33, Guang Shun Road, Shanghai

Applicant before: SHANGHAI MROBOT TECHNOLOGY Co.,Ltd.

Address after: 200336 402 rooms, No. 33, No. 33, Guang Shun Road, Shanghai

Applicant after: SHANGHAI MROBOT TECHNOLOGY Co.,Ltd.

Address before: 200336 402 rooms, No. 33, No. 33, Guang Shun Road, Shanghai

Applicant before: SHANGHAI MUYE ROBOT TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 202150 room 205, zone W, second floor, building 3, No. 8, Xiushan Road, Chengqiao Town, Chongming District, Shanghai (Shanghai Chongming Industrial Park)

Patentee after: Shanghai Noah Wood Robot Technology Co.,Ltd.

Address before: 200336 402 rooms, No. 33, No. 33, Guang Shun Road, Shanghai

Patentee before: Shanghai zhihuilin Medical Technology Co.,Ltd.

CP03 Change of name, title or address