CN110570862A - 一种语音识别方法及智能语音引擎装置 - Google Patents

一种语音识别方法及智能语音引擎装置 Download PDF

Info

Publication number
CN110570862A
CN110570862A CN201910952049.XA CN201910952049A CN110570862A CN 110570862 A CN110570862 A CN 110570862A CN 201910952049 A CN201910952049 A CN 201910952049A CN 110570862 A CN110570862 A CN 110570862A
Authority
CN
China
Prior art keywords
voice
recognition result
phoneme
module
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910952049.XA
Other languages
English (en)
Inventor
许可喜
洪艳婷
陈华胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN201910952049.XA priority Critical patent/CN110570862A/zh
Publication of CN110570862A publication Critical patent/CN110570862A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种语音识别方法,包括:获取用户的语音指令,得到对应的语音文件,并获取所述用户发出所述语音指令时的唇部的连续动作的视频;对所述语音文件进行解析,得到对应的语音识别结果;对所述视频进行解析,得到对应的唇语识别结果;根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析,得到各个音素单元的识别结果,将所有所述音素单元的识别结果串联,得到最终的自动语音识别的结果。本申请还公开了一种对应的智能语音引擎装置。应用本申请公开的技术方案,能够提高智能设备对自然语言理解的准确率。

Description

一种语音识别方法及智能语音引擎装置
技术领域
本申请涉及智能引擎技术领域,特别涉及一种语音识别方法及智能语音引擎装置。
背景技术
目前的智能设备(包括智能电视/智能音箱/智能冰箱等)都具有语音助手功能。智能引擎(也可称为“智能语音引擎”)通过把用户指令转化成文本,再进一步对文本进行语义解析,进而解析出用户的意图。其中:
将语音文件转化成文本是自动语音识别(ASR:Automatic speechrecognization);
从文本解析出用户意图是自然语言理解(NLU:Natural LanguageUnderstanding)。
上述两个过程都有一定的差错率。ASR过程出错的原因是:脉冲编码调制(PCM:Pulse Code Modulation)文件质量问题,比如:音效不够清晰,有杂音,用户方言没有辨识出来等;NLU出错的原因是:语句、语法比较复杂,有多种解析句子的方法,从而对应有多种解析句子的结果,导致自然语言理解的准确率不高。
如前所述,智能设备上的智能引擎用于将用户的语音输入转化成用户意图。常见的语音智能引擎有Alexa,google assistant,iFlyTek等。有的智能设备上驻扎了多个智能语音引擎,并且配置有引擎选择模块。用户的语音指令由底层驱动转换成语音PCM文件,然后传送到多智能引擎选择模块,多智能引擎选择模块根据用户喜好、当前语音特征等选择其中一个智能语音引擎。被选中的智能语音引擎按照如前所述的方法,首先从PCM文件识别出文本文件,再进一步进行语义分析解析出用户意愿。
针对PCM文件有噪声的问题,目前有背景去噪声技术,但是成本高,应用率不高。因而,现有智能引擎系统由于PCM文件质量的原因,或者由于语句语法比较复杂的原因,导致自然语言理解的准确率不高。
发明内容
本申请提供了一种语音识别方法及智能语音引擎装置,以提高智能设备对自然语言理解的准确率。
本申请公开了一种语音识别方法,包括:
获取用户的语音指令,得到对应的语音文件,并获取所述用户发出所述语音指令时的唇部的连续动作的视频;
对所述语音文件进行解析,得到对应的语音识别结果;
对所述视频进行解析,得到对应的唇语识别结果;
根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析,得到各个音素单元的识别结果,将所有所述音素单元的识别结果串联,得到最终的自动语音识别的结果。
较佳的,对所述视频进行解析,得到对应的唇语识别结果具体包括:
将所述用户唇部的连续动作的视频分解为单个图像,对单个图像逐个进行处理,获取对应的唇部图像序列;
对所述唇部图像序列进行唇语识别处理,获得与所述唇部图像序列对应的音素单元识别结果;其中,所述音素单元对应一个或多个音素序列,所述音素序列与目标文字具有对应关系;
对所述音素单元识别结果进行解码处理,获得唇语识别结果。
较佳的,所述语音文件为:脉冲编码调制PCM文件;
对所述语音文件进行解析,得到对应的语音识别结果具体包括:
对所述PCM文件进行分段,并对每一个分段进行逐段解析得到对应的PCM语音序列;
对所述PCM语音序列进行识别处理,获得与所述PCM语音序列对应的音素单元识别结果;所述音素单元对应一个或多个音素序列,所述音素序列与目标文字具有对应关系;
对所述音素单元识别结果进行解码处理,获得语音识别结果。
较佳的,所述根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析具体包括:
如果两者类似或者相等,则直接得到本音素单元的识别结果;
如果两者有差别,则基于优化选择的原则进行分析和筛选,得到最有可能正确的各个音素单元的识别结果。
较佳的,通过智能设备的摄像头或用户发出所述语音指令所在房间的摄像头拍摄所述用户发出所述语音指令时唇部的连续动作的视频。
本申请还公开了一种智能语音引擎装置,包括:语音捕捉模块、唇语解析模块、智能语音解析模块和智能选择优化模块,其中:
所述语音捕捉模块用于抓取用户的语音指令,形成语音文件,发送给所述智能语音解析模块;
所述唇语解析模块用于接收所述用户发出所述语音指令时的唇部的连续动作的视频,对所述视频进行解析,得到对应的唇语识别结果,并发送给所述智能选择优化模块;
所述智能语音解析模块用于对所述语音捕捉模块发送的所述语音文件进行解析,得到对应的语音识别结果,并发送给所述智能选择优化模块;
所述智能选择优化模块用于根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析,得到各个音素单元的识别结果,将所有所述音素单元的识别结果串联,得到最终的自动语音识别的结果。
较佳的,所述唇语解析模块具体用于:
将所述用户唇部的连续动作的视频分解为单个图像,对单个图像逐个进行处理,获取对应的唇部图像序列;
对所述唇部图像序列进行唇语识别处理,获得与所述唇部图像序列对应的音素单元识别结果;其中,所述音素单元对应一个或多个音素序列,所述音素序列与目标文字具有对应关系;
对所述音素单元识别结果进行解码处理,获得唇语识别结果;
将所述唇语识别结果发送给所述智能选择优化模块。
较佳的,所述语音文件为:PCM文件;
所述智能语音解析模块具体用于:
对所述PCM文件进行分段,并对每一个分段进行逐段解析得到对应的PCM语音序列;
对所述PCM语音序列进行识别处理,获得与所述PCM语音序列对应的音素单元识别结果;所述音素单元对应一个或多个音素序列,所述音素序列与目标文字具有对应关系;
对所述音素单元识别结果进行解码处理,获得语音识别结果;
将所述语音识别结果发送给所述智能选择优化模块。
较佳的,所述智能选择优化模块具体用于:
对所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析;
如果两者类似或者相等,则直接得到本音素单元的识别结果;
如果两者有差别,则基于优化选择的原则进行分析和筛选,得到最有可能正确的各个音素单元的识别结果;
将所有音素单元的识别结果串连,得到最终的自动语音识别的结果。
较佳的,所述装置中进一步包括图像捕捉模块;
所述图像捕捉模块用于通过摄像头摄制所述用户发出所述语音指令时唇部的连续动作的视频,并发送给所述唇语解析模块。
由上述技术方案可见,本申请相对于传统的语音识别方法和智能语音引擎装置,拓宽了智能语音引擎的输入项,通过引入用户发出语音指令时的唇语连续图像作为输入,并对用户的唇语进行解析,然后根据唇语解析结果和语音解析结果的对比分析得到最后的语音识别结果。由于集合了语音解析和唇语解析的优势,可以大大提高自动语音识别的成功率和准确率。此外,在用户发出语音指令环境有噪声的情况下,采用本发明技术方案能够尽量减少噪声,杂音等对语音识别的不良影响,进而提高智能设备对自然语言理解的准确率。
附图说明
图1为本发明语音识别方法的示意图;
图2为本发明智能语音引擎的模块图;
图3为本发明实施例中识别用户输入的语音信息的流程示意图;
图4为本发明实施例中自动语音识别的过程示意图。
具体实施方式
为使本申请的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本申请作进一步详细说明。
本发明的主要思想在于:捕获用户嘴唇的连续动作,并让智能引擎在ASR解析阶段参考用户嘴唇的连续动作,也就是增加唇语解析的纠错过程,从而增加语音识别成功的概率,提高智能设备对自然语言理解的准确率。
基于上述主要思想,本发明提供了一种语音识别方法,该方法的流程示意图如图1所述,包括以下步骤:
获取用户的语音指令,得到对应的语音文件,并获取所述用户发出所述语音指令时的唇部的连续动作的视频;
对所述语音文件进行解析,得到对应的语音识别结果;
对所述视频进行解析,得到对应的唇语识别结果;
根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析,得到各个音素单元的识别结果,将所有所述音素单元的识别结果串联,得到最终的自动语音识别的结果。
其中,对所述视频进行解析,得到对应的唇语识别结果具体包括:
将所述用户唇部的连续动作的视频分解为单个图像,对单个图像逐个进行处理,获取对应的唇部图像序列;
对所述唇部图像序列进行唇语识别处理,获得与所述唇部图像序列对应的音素单元识别结果;其中,所述音素单元对应一个或多个音素序列,所述音素序列与目标文字具有对应关系;
对所述音素单元识别结果进行解码处理,获得唇语识别结果。
其中,所述语音文件为:PCM文件;对所述语音文件进行解析,得到对应的语音识别结果具体包括:
对所述PCM文件进行分段,并对每一个分段进行逐段解析得到对应的PCM语音序列;
对所述PCM语音序列进行识别处理,获得与所述PCM语音序列对应的音素单元识别结果;所述音素单元对应一个或多个音素序列,所述音素序列与目标文字具有对应关系;
对所述音素单元识别结果进行解码处理,获得语音识别结果。
其中,所述根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析具体包括:
如果两者类似或者相等,则直接得到本音素单元的识别结果;
如果两者有差别,则基于优化选择的原则进行分析和筛选,得到最有可能正确的各个音素单元的识别结果。
其中,可以通过智能设备的摄像头或用户发出所述语音指令所在房间的摄像头拍摄所述用户发出所述语音指令时唇部的连续动作的视频。
当用户在智能设备旁边发布语音指令时,如果该智能设备自带摄像头,则该智能设备捕捉该用户嘴唇的连续动作的视频;如果该智能设备不自带摄像头,则用户所在房间的摄像头捕捉该用户嘴唇的连续动作的视频。摄制到的用户嘴唇的连续动作连同用户的语音PCM文件由智能语音引擎进行进一步处理。智能语音引擎根据用户嘴唇的连续动作进行唇语解析,最后对唇语解析的结果和语音PCM文件的解析结果进行对比分析和优化,得到最终的文本结果,从而更加精准地解析用户的语音文本,达到更高的语音识别率。
对应于上述方法,本发明还提供了一种考虑唇语识别的提高语音识别率的智能语音引擎装置,其模块图如图2所示,该智能语音引擎装置可包括五个模块:
A.语音捕捉模块;
B.图像捕捉模块;
C.唇语解析模块;
D.智能语音解析模块;
E.智能选择优化模块。
可选择的,如果智能语音引擎没有包含图像捕捉模块,则可以借助房间的其它摄像头进行摄像,然后所述其它摄像头将摄制的用户唇部的连续动作的视频发送给智能语音引擎。
各模块具体阐述如下:
1)语音捕捉模块
该模块是传统智能语音引擎一直带有的模块。该模块从设备底层抓取用户的语音信息,形成语音文件(例如:PCM文件),然后传送给智能语音解析模块。
2)图像捕捉模块
该模块是本发明新增的模块,该模块通过摄像头摄制用户发出语音指令时唇部的连续动作的视频,并发送给唇语解析模块。
3)唇语解析模块
唇语解析模块用于对所述图像捕捉模块发送的唇部的连续动作的视频进行解析,得到对应的唇语识别结果,并发送给智能选择优化模块。具体而言:所述唇语解析模块用于将输入的唇部的连续动作的视频分解为单个图像,对单个图像逐个进行处理,获取对应的唇部图像序列;对所述唇部图像序列进行唇语识别处理,获得与所述唇部图像序列对应的音素单元识别结果;所述音素单元对应一个或多个音素序列,所述音素序列与目标文字具有对应关系;对所述音素单元识别结果进行解码处理,获得唇语识别结果;将所述唇语识别结果发送给所述智能选择优化模块。
4)智能语音解析模块
智能语音解析模块用于对所述语音捕捉模块发送的PCM语音文件进行解析,得到对应的语音识别结果,并发送给智能选择优化模块。具体而言:智能语音解析模块用于对输入的PCM语音文件进行分段,并对每一个分段进行逐段解析得到对应的PCM语音序列,然后对所述PCM语音序列进行识别处理,获得与所述PCM语音序列对应的音素单元识别结果;所述音素单元对应一个或多个音素序列,所述音素序列与目标文字具有对应关系;对所述音素单元识别结果进行解码处理,获得语音识别结果;将所述语音识别结果发送给所述智能选择优化模块。
5)智能选择优化模块
智能选择优化模块根据实时输入的唇语识别结果和语音识别结果进行基于音素单元的对比分析。如果两者类似或者相等,则直接得到本音素单元的识别结果;如果两者有差别,则基于优化选择的原则进行分析和筛选,得到最有可能正确的各个音素单元的识别结果。将所有音素单元的识别结果串连,得到最终的自动语音识别的结果。
下面结合附图通过一个较佳实施例对本申请上述技术方案进行进一步详细说明。
本实施例以用户对智能电视点歌为例进行说明。如图3所示,根据本发明技术方案,如果该智能电视自带摄像头,则该智能电视将会捕捉到用户的面部嘴唇的动作;如果该智能电视不自带摄像头,则用户所在房间的摄像头开始捕捉用户的面部嘴唇的动作。摄制到的用户的面部嘴唇动作连同用户的语音PCM文件将发送到智能语音引擎系统进行进一步识别和处理。
如图4所示,本实施例中,智能电视的智能引擎检测到用户语音输入,同时智能电视自带的摄像头设备或者房间的摄像头设备捕捉到用户面部唇部的连续动作并发送给智能电视。智能电视接收到用户的语音指令和唇部动作信息后,触发唇语解析模块、智能语音解析模块、以及智能选择优化模块同时开启工作。其中:
智能语音解析模块进行自动语音识别,从输入的语音PCM文件解析出连续的音素元素,发送给智能选择优化模块;
与此同时,唇语解析模块进行唇语识别,从唇部连续动作图像解析出连续的音素元素,发送给智能选择优化模块;
智能选择优化模块接收到智能语音引擎模块发送的语音解析的音素结果和唇语解析模块发送的唇语解析的音素结果,对两者进行对比分析。如果两者一致,则直接得到此音素单元对应的文本结果;如果两者不一致,则根据某优化选择的原则进行对比分析和选择,选择合适的音素单元对应的文本结果。最后将多个连续的音素单元对应的文本结果进行合并得到最终的自动语音识别的文本结果,并进行下一步的自然语言理解的流程。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
获取用户的语音指令,得到对应的语音文件,并获取所述用户发出所述语音指令时的唇部的连续动作的视频;
对所述语音文件进行解析,得到对应的语音识别结果;
对所述视频进行解析,得到对应的唇语识别结果;
根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析,得到各个音素单元的识别结果,将所有所述音素单元的识别结果串联,得到最终的自动语音识别的结果。
2.根据权利要求1所述的方法,其特征在于,对所述视频进行解析,得到对应的唇语识别结果具体包括:
将所述用户唇部的连续动作的视频分解为单个图像,对单个图像逐个进行处理,获取对应的唇部图像序列;
对所述唇部图像序列进行唇语识别处理,获得与所述唇部图像序列对应的音素单元识别结果;其中,所述音素单元对应一个或多个音素序列,所述音素序列与目标文字具有对应关系;
对所述音素单元识别结果进行解码处理,获得唇语识别结果。
3.根据权利要求1所述的方法,其特征在于:
所述语音文件为:脉冲编码调制PCM文件;
对所述语音文件进行解析,得到对应的语音识别结果具体包括:
对所述PCM文件进行分段,并对每一个分段进行逐段解析得到对应的PCM语音序列;
对所述PCM语音序列进行识别处理,获得与所述PCM语音序列对应的音素单元识别结果;所述音素单元对应一个或多个音素序列,所述音素序列与目标文字具有对应关系;
对所述音素单元识别结果进行解码处理,获得语音识别结果。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析具体包括:
如果两者类似或者相等,则直接得到本音素单元的识别结果;
如果两者有差别,则基于优化选择的原则进行分析和筛选,得到最有可能正确的各个音素单元的识别结果。
5.根据权利要求1至3任一项所述的方法,其特征在于:
通过智能设备的摄像头或用户发出所述语音指令所在房间的摄像头拍摄所述用户发出所述语音指令时唇部的连续动作的视频。
6.一种智能语音引擎装置,其特征在于,包括:语音捕捉模块、唇语解析模块、智能语音解析模块和智能选择优化模块,其中:
所述语音捕捉模块用于抓取用户的语音指令,形成语音文件,发送给所述智能语音解析模块;
所述唇语解析模块用于接收所述用户发出所述语音指令时的唇部的连续动作的视频,对所述视频进行解析,得到对应的唇语识别结果,并发送给所述智能选择优化模块;
所述智能语音解析模块用于对所述语音捕捉模块发送的所述语音文件进行解析,得到对应的语音识别结果,并发送给所述智能选择优化模块;
所述智能选择优化模块用于根据所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析,得到各个音素单元的识别结果,将所有所述音素单元的识别结果串联,得到最终的自动语音识别的结果。
7.根据权利要求6所述的装置,其特征在于,所述唇语解析模块具体用于:
将所述用户唇部的连续动作的视频分解为单个图像,对单个图像逐个进行处理,获取对应的唇部图像序列;
对所述唇部图像序列进行唇语识别处理,获得与所述唇部图像序列对应的音素单元识别结果;其中,所述音素单元对应一个或多个音素序列,所述音素序列与目标文字具有对应关系;
对所述音素单元识别结果进行解码处理,获得唇语识别结果;
将所述唇语识别结果发送给所述智能选择优化模块。
8.根据权利要求6所述的装置,其特征在于:
所述语音文件为:PCM文件;
所述智能语音解析模块具体用于:
对所述PCM文件进行分段,并对每一个分段进行逐段解析得到对应的PCM语音序列;
对所述PCM语音序列进行识别处理,获得与所述PCM语音序列对应的音素单元识别结果;所述音素单元对应一个或多个音素序列,所述音素序列与目标文字具有对应关系;
对所述音素单元识别结果进行解码处理,获得语音识别结果;
将所述语音识别结果发送给所述智能选择优化模块。
9.根据权利要求7或8所述的装置,其特征在于,所述智能选择优化模块具体用于:
对所述唇语识别结果和所述语音识别结果进行基于音素单元的对比分析;
如果两者类似或者相等,则直接得到本音素单元的识别结果;
如果两者有差别,则基于优化选择的原则进行分析和筛选,得到最有可能正确的各个音素单元的识别结果;
将所有音素单元的识别结果串连,得到最终的自动语音识别的结果。
10.根据权利要求6至8任一项所述的装置,其特征在于,所述装置中进一步包括图像捕捉模块;
所述图像捕捉模块用于通过摄像头摄制所述用户发出所述语音指令时唇部的连续动作的视频,并发送给所述唇语解析模块。
CN201910952049.XA 2019-10-09 2019-10-09 一种语音识别方法及智能语音引擎装置 Pending CN110570862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910952049.XA CN110570862A (zh) 2019-10-09 2019-10-09 一种语音识别方法及智能语音引擎装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910952049.XA CN110570862A (zh) 2019-10-09 2019-10-09 一种语音识别方法及智能语音引擎装置

Publications (1)

Publication Number Publication Date
CN110570862A true CN110570862A (zh) 2019-12-13

Family

ID=68784235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910952049.XA Pending CN110570862A (zh) 2019-10-09 2019-10-09 一种语音识别方法及智能语音引擎装置

Country Status (1)

Country Link
CN (1) CN110570862A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462733A (zh) * 2020-03-31 2020-07-28 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN111968628A (zh) * 2020-08-22 2020-11-20 彭玲玲 一种用于语音指令捕捉的信号精确度调节系统及方法
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法
CN112382277A (zh) * 2021-01-07 2021-02-19 博智安全科技股份有限公司 智能设备唤醒方法、智能设备和计算机可读存储介质
CN113660501A (zh) * 2021-08-11 2021-11-16 云知声(上海)智能科技有限公司 一种匹配字幕的方法和设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657650A (zh) * 2015-01-06 2015-05-27 三星电子(中国)研发中心 用于数据输入或验证身份的方法及装置
CN105022470A (zh) * 2014-04-17 2015-11-04 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
JP2018091954A (ja) * 2016-12-01 2018-06-14 オリンパス株式会社 音声認識装置、及び音声認識方法
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及系统
CN108521516A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 用于终端设备的控制方法和装置
US20190279642A1 (en) * 2018-02-15 2019-09-12 DMAI, Inc. System and method for speech understanding via integrated audio and visual based speech recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022470A (zh) * 2014-04-17 2015-11-04 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
CN104657650A (zh) * 2015-01-06 2015-05-27 三星电子(中国)研发中心 用于数据输入或验证身份的方法及装置
JP2018091954A (ja) * 2016-12-01 2018-06-14 オリンパス株式会社 音声認識装置、及び音声認識方法
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及系统
US20190279642A1 (en) * 2018-02-15 2019-09-12 DMAI, Inc. System and method for speech understanding via integrated audio and visual based speech recognition
CN108521516A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 用于终端设备的控制方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462733A (zh) * 2020-03-31 2020-07-28 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN111462733B (zh) * 2020-03-31 2024-04-16 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN111968628A (zh) * 2020-08-22 2020-11-20 彭玲玲 一种用于语音指令捕捉的信号精确度调节系统及方法
CN111968628B (zh) * 2020-08-22 2021-06-25 南京硅基智能科技有限公司 一种用于语音指令捕捉的信号精确度调节系统及方法
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法
CN112382277A (zh) * 2021-01-07 2021-02-19 博智安全科技股份有限公司 智能设备唤醒方法、智能设备和计算机可读存储介质
CN113660501A (zh) * 2021-08-11 2021-11-16 云知声(上海)智能科技有限公司 一种匹配字幕的方法和设备

Similar Documents

Publication Publication Date Title
CN110570862A (zh) 一种语音识别方法及智能语音引擎装置
CN110246512B (zh) 声音分离方法、装置及计算机可读存储介质
US10796685B2 (en) Method and device for image recognition
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
CN107945792B (zh) 语音处理方法和装置
CN112088402A (zh) 用于说话者识别的联合神经网络
WO2018014787A1 (en) Methods, systems, and media for transmitting data in a video signal
CN110691204B (zh) 一种音视频处理方法、装置、电子设备及存储介质
CN106782551A (zh) 一种语音识别系统及方法
CN104808794A (zh) 一种唇语输入方法和系统
CN109993130A (zh) 一种基于深度图像动态手语语义识别系统及方法
CN114519880A (zh) 基于跨模态自监督学习的主动说话人识别方法
CN110933485A (zh) 一种视频字幕生成方法、系统、装置和存储介质
CN110428807A (zh) 一种基于深度学习的语音识别方法、系统及装置
CN114882861A (zh) 语音生成方法、装置、设备、介质及产品
CN114239610A (zh) 多国语言语音辨识及翻译方法与相关的系统
CN113365109A (zh) 一种生成视频字幕的方法、装置、电子设备和存储介质
CN108881119B (zh) 一种视频浓缩的方法、装置和系统
CN112507829A (zh) 一种多人视频手语翻译方法及系统
CN114819110B (zh) 一种实时识别视频中说话人的方法及装置
CN115909505A (zh) 手语识别设备的控制方法、装置、存储介质及电子设备
US11176923B1 (en) System and method for noise cancellation
CN211788155U (zh) 智能会议记录系统
CN114283493A (zh) 基于人工智能的识别系统
CN108899031B (zh) 基于云计算的壮语语音识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191213

RJ01 Rejection of invention patent application after publication