CN110415689A - 语音识别装置及方法 - Google Patents

语音识别装置及方法 Download PDF

Info

Publication number
CN110415689A
CN110415689A CN201810387233.XA CN201810387233A CN110415689A CN 110415689 A CN110415689 A CN 110415689A CN 201810387233 A CN201810387233 A CN 201810387233A CN 110415689 A CN110415689 A CN 110415689A
Authority
CN
China
Prior art keywords
voice
matching
word
confidence
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810387233.XA
Other languages
English (en)
Other versions
CN110415689B (zh
Inventor
林忠亿
郭锦斌
陈怡桦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yuzhan Precision Technology Co ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Shenzhen Yuzhan Precision Technology Co ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yuzhan Precision Technology Co ltd, Hon Hai Precision Industry Co Ltd filed Critical Shenzhen Yuzhan Precision Technology Co ltd
Priority to CN201810387233.XA priority Critical patent/CN110415689B/zh
Priority to US16/018,174 priority patent/US10714088B2/en
Publication of CN110415689A publication Critical patent/CN110415689A/zh
Application granted granted Critical
Publication of CN110415689B publication Critical patent/CN110415689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及语音识别领域,尤其涉及一种语音识别装置及语音识别方法。该方法包括步骤:获取一语音采集单元采集的语音;获取一摄像单元采集的影像,并将该影像与采集的语音在时间上进行关联;将获取的语音与一语音库进行比对确定出匹配语音及与该匹配语音对应的信心度;判断该匹配语音的信心度是否超过一预设值;当该匹配语音的信心度超过该预设值时通过一语音输出单元输出该匹配语音;及当匹配语音的信心度未超过预设值时识别与该语音关联的影像并识别该影像中的手势;将识别的手势与该影像所对应的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配;及输出匹配处理后的匹配语音。本发明能够提高语音识别的准确度,并增强用户的体验效果。

Description

语音识别装置及方法
技术领域
本发明涉及语音识别领域,尤其涉及一种语音识别装置及语音识别方法。
背景技术
现有技术中,语音识别系统在识别用户的语音时会产生多种相似的语音识别结果供用户选择。造成语音识别的效率低下。然而,目前手势动作一般都有特定的含义,比如摇手的手势动作表示否定的意义,OK的手势动作表示赞成或完成的意义,手往下比一的手势动作表示强调的意义。因而,在语音识别的过程中结合具有特定含义的手持识别能够提高语音识别的准确度,并增强用户的体验效果。
发明内容
鉴于以上内容,有必要提供一种语音识别装置及语音识别方法提高语音识别的准确度,并增强用户的体验效果。
一种语音识别装置,包括语音采集单元、语音输出单元、摄像单元及处理单元,该语音采集单元用于采集语音,该摄像单元用于采集影像,该处理单元用于:
获取该语音采集单元采集的语音;
获取该摄像单元采集的影像,并将该影像与采集的语音在时间上进行关联;
将获取的语音与一语音库进行比对确定出匹配语音及与该匹配语音对应的信心度,其中,该信心度指示该匹配语音与该语音采集单元采集的语音相匹配的准确度;
判断该匹配语音的信心度是否超过一预设值;及
当该匹配语音的信心度超过该预设值时通过该语音输出单元输出该匹配语音。
优选地,该处理单元还用于:
当匹配语音的信心度未超过预设值时识别与该语音关联的影像并识别该影像中的手势;
将识别的手势与该影像所对应的匹配语音进行增强处理以使该匹配语音与该手势的语义相匹配;及
输出匹配处理后的匹配语音。
优选地,该处理单元还用于:
将该语音按照字、词进行分割;将分割的字、词与语音库中的字、词进行比对以在该语音库中确定与语音中每个字、词相匹配的匹配字及匹配词;
根据比对结果确定匹配字的信心度与匹配词的信心度;
根据该些匹配字及匹配词确定出匹配语音;及
根据该些匹配字的信心度与匹配词的信心度确定该匹配语音的信心度。
优选地,该处理单元用于将获取的语音划分为多个语音片段,将获取的影像信息划分为多个影像片段,并将该些影像片段与语音片段按照时间进行对应关联,其中,该处理单元从获取的语音中提取音位特征,并使用终点算法识别获取的语音中每个句子的终点,并按照句子将获取的语音划分为多个语音片段。
优选地,该处理单元还用于:
根据识别的手势查找一定义多个手势与语义的对应关系的语义关系表确定与该手势对应的语义。
一种语音识别方法,该方法包括步骤:
获取一语音采集单元采集的语音;
获取一摄像单元采集的影像,并将该影像与采集的语音在时间上进行关联;
将获取的语音与一语音库进行比对确定出匹配语音及与该匹配语音对应的信心度,其中,该信心度指示该匹配语音与该语音采集单元采集的语音相匹配的准确度;
判断该匹配语音的信心度是否超过一预设值;及
当该匹配语音的信心度超过该预设值时通过一语音输出单元输出该匹配语音。
优选地,该方法还包括步骤:
当匹配语音的信心度未超过预设值时识别与该语音关联的影像并识别该影像中的手势;
将识别的手势与该影像所对应的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配;及
输出匹配处理后的匹配语音。
优选地,该方法还包括步骤:
将该语音按照字、词进行分割;将分割的字、词与语音库中的字、词进行比对以在该语音库中确定与语音中每个字、词相匹配的匹配字及匹配词;
根据比对结果确定匹配字的信心度与匹配词的信心度;
根据该些匹配字及匹配词确定出匹配语音;及
根据该些匹配字的信心度与匹配词的信心度确定该匹配语音的信心度。
优选地,该方法还包括步骤:
将获取的语音划分为多个语音片段,其中,从获取的语音中提取音位特征,并使用终点算法识别获取的语音中每个句子的终点,并按照句子将获取的语音划分为多个语音片段;
将获取的影像信息划分为多个影像片段,并将该些影像片段与语音片段按照时间进行对应关联。
优选地,该方法还包括步骤:
根据识别的手势查找一定义多个手势与语义的对应关系的语义关系表确定与该手势对应的语义。
本发明能够提高语音识别的准确度,并增强用户的体验效果。
附图说明
图1为本发明一实施方式中语音识别系统的应用环境图。
图2为本发明一实施方式中语音识别装置的功能模块图。
图3为本发明一实施方式中语音识别系统的功能模块图。
图4为本发明一实施方式中语音识别方法的流程图。
主要元件符号说明
语音识别系统 1
语音识别装置 2
服务器 3
摄像单元 21
语音采集单元 22
语音输出单元 23
通信单元 24
存储单元 25
处理单元 26
获取模块 101
语音识别模块 102
判断模块 103
输出模块 104
图像识别模块 105
匹配模块 106
步骤 S401~S408
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
请参考图1,所示为本发明一实施方式中语音识别系统1的应用环境图。该语音识别系统1应用在一语音识别装置2中。该语音识别装置2与一服务器3通信连接。本实施方式中,该服务器3为云端服务器。该语音识别系统1用于获取用户的语音及手势动作,并根据获取的语音及手势动作识别用户的语音及输出该语音。本实施方式中,该语音识别装置2可以为电视、电脑、智能手机等装置。
请参考图2,所示为本发明一实施方式中语音识别装置2的功能模块图。该语音识别装置2包括,但不限于摄像单元21、语音采集单元22、语音输出单元23、通信单元24、存储单元25及处理单元26。本实施方式中,该摄像单元21用于摄取语音识别装置2周围的环境图像并将摄取的图像传送给该处理单元26。例如,该摄像单元21可以摄取位于语音识别装置2周围的用户的手势图像,并将摄取的用户的手势图像发送给该处理单元26。本实施方式中,该摄像单元21可以为一摄像头、3D光场相机等。该语音采集单元22用于采集接语音识别装置2周围的语音信息并将接收的语音信息传送给处理单元26。在本实施方式中,该语音采集单元22可以为麦克风或麦克风阵列等。
该语音输出单元23用于在该处理单元26的控制下输出语音信息。在本实施方式中,该语音输出单元23可以为扬声器。该通信单元24用于供该语音识别装置2与服务器3通信连接。在一实施方式中,该通信单元24可以为WIFI通信模块、3G/4G通信模块、Zigbee通信模块及BlueTooth通信模块。该存储单元25用于存储该语音识别装置2的程序代码及数据资料。例如,该存储单元25可以存储预设人脸图像、预设语音手势图像及语音识别系统1。本实施方式中,该存储单元25可以为该语音识别装置2的内部存储单元,例如该语音识别装置2的硬盘或内存。在另一实施方式中,该存储单元25也可以为该语音识别装置2的外部存储设备,例如该语音识别装置2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。该处理单元26用于获取用户的语音及手势动作,并根据获取的语音及手势动作识别用户的语音及控制输出该语音。本实施方式中,该处理单元26可以为一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,该处理单元26用于执行软件程序代码或运算数据。
请参考图3,所示为本发明一实施方式中语音识别系统1的功能模块图。该语音识别系统1包括一个或多个模块,所述一个或者多个模块被存储于该存储单元25中,并被该处理单元26所执行。本实施方式中,语音识别系统1包括获取模块101、语音识别模块102、判断模块103、输出模块104、图像识别模块105、匹配模块106。在其他实施方式中,该语音识别系统1为内嵌在该语音识别装置2中的程序段或代码。
该获取模块101用于获取该语音采集单元22采集的语音。
该获取模块101还用于获取该摄像单元21采集的影像,并将该影像与采集的语音在时间上进行关联。本实施方式中,该获取模块101将获取的语音划分为多个语音片段,具体的,该获取模块101可以从所述语音中提取音位特征,并使用终点算法识别语音中每个句子的终点,并按照识别的句子终点将获取的语音划分为多个语音片段。该获取模块101还将获取的影像信息划分为多个影像片段,并将该些影像片段与语音片段按照时间进行对应关联,其中每一语音片段与一影像片段在时间上对应关联。
该语音识别模块102用于将获取的语音与一语音库进行比对确定出匹配语音及与该匹配语音对应的信心度。其中,该信心度指示该匹配语音与该语音采集单元22采集的语音相匹配的准确度。本实施方式中,该语音识别模块102将该语音按照字、词进行分割,将分割的字、词与语音库中的字、词进行比对以在该语音库中确定与语音中每个字、词相匹配的匹配字及匹配词,根据比对结果确定匹配字的信心度与匹配词的信心度,并根据该些匹配字及匹配词确定出匹配语音及根据该些匹配字的信心度与匹配词的信心度确定该匹配语音的信心度。本实施方式中,该语音识别模块102根据该些匹配字及匹配词确定出的匹配语音可以是一个或是多个。本实施方式中,该语音库存储在该语音识别装置2的存储单元25中,该语音识别模块102查找存储在该存储单元25中的语音库从而将获取的语音与该语音库进行比对。在其他实施方式中,该语音库存储在该服务器3中,该语音识别模块102通过访问该服务器3查找该语音库从而将获取的语音与该语音库进行比对。
该判断模块103用于判断该匹配语音的信心度是否超过一预设值。本实施方式中,该预设值可以根据实际需要具体设定,例如,可将该预设值设定为0.6。
该输出模块104用于在该匹配语音的信心度超过该预设值时,通过该语音输出单元23输出该匹配语音。在其他实施方式中,当语音识别模块102确定的匹配语音的数量超过1个时,该输出模块104输出信心度最大的匹配语音。
该图像识别模块105用于在匹配语音的信心度小于一预设值时识别与该语音关联的影像并识别该影像中的手势。该匹配模块106用于将识别的手势与该影像所对应的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配。该输出模块104将匹配模块106匹配处理后的匹配语音输出。
本实施方式中,该匹配模块106根据识别的手势查找语义关系表确定该手势的语义。其中,该语义关系表中定义多个手势与语义的对应关系。该匹配模块106根据手势查找该语义关系表并确定与该手势相对应的语义。该匹配模块106根据该手势的语义对该匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配。该输出模块104将匹配模块106匹配处理后的匹配语音输出。在一实施方式中,当识别出的匹配语音有多个时,该匹配模块106确定每一匹配语音相对于该手势的语义的匹配度,依据每一匹配语音相对于该手势的语义的匹配度确定与该手势的语义的匹配度最高的匹配语音,并将与该手势的语义的匹配度最高的匹配语音与该手势进行匹配处理。该输出模块104输出经过匹配处理的匹配语音。
本实施方式中,该获取模块101将获取的语音划分为多个语音片段及将获取的影像信息划分为多个影像片段并将每一语音片段与一影像片段在时间上对应关联后,该语音识别模块102将划分的语音片段与一语音库进行比对确定出与每一语音片段对应的匹配语音及确定出该匹配语音的信心度。该判断模块103判断与每一语音片段对应的匹配语音的信心度是否超过预设值。当与语音片段对应的匹配语音的信心度超过预设值时,该输出模块104通过该语音输出单元23输出该匹配语音;当语音片段所对应的匹配语音信心度没有超过预设值时,该图像识别模块105识别语音片段所对应的影像片段并识别该语音片段所对应的影像片段中的手势。该匹配模块106用于将从影像片段中识别的手势与该影像所对应的语音片段的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配。该输出模块104输出匹配处理后的匹配语音。
请参考图4,所示为本发明一实施方式中语音识别方法的流程图。该方法应用在语音识别装置2中。根据不同需求,该流程图中步骤的顺序可以改变,某些步骤可以省略或合并。该方法包括如下步骤。
S401:获取语音采集单元22采集的语音。
S402:获取摄像单元21采集的影像,并将该影像与采集的语音在时间上进行关联。本实施方式中,该语音识别装置2将获取的语音划分为多个语音片段,具体的,该语音识别装置2可以从所述语音中提取音位特征,并使用终点算法识别语音中每个句子的终点,并按照句子将获取的语音划分为多个语音片段。该语音识别装置2将获取的影像信息划分为多个影像片段,并将该些影像片段与语音片段按照时间进行对应关联,其中每一语音片段与一影像片段在时间上对应关联。
S403:将获取的语音与一语音库进行比对确定出匹配语音及与该匹配语音对应的信心度。其中,该信心度指示该匹配语音与该语音采集单元22采集的语音相匹配的准确度。
本实施方式中,该语音识别装置2将语音按照字、词进行分割,将分割的字、词与语音库中的字、词进行比对以在该语音库中确定与语音中每个字、词相匹配的匹配字及匹配词,根据比对结果确定匹配字的信心度与匹配词的信心度,并根据该些匹配字及匹配词确定出匹配语音及根据该些匹配字的信心度与匹配词的信心度确定该匹配语音的信心度。本实施方式中,该语音识别装置2根据该些匹配字及匹配词确定出的匹配语音可以是一个或是多个。本实施方式中,该语音库存储在该语音识别装置2的存储单元25中,该语音识别装置2查找存储在该存储单元25中的语音库从而将获取的语音与该语音库进行比对。在其他实施方式中,该语音库存储在该服务器3中,该语音识别装置2通过访问该服务器3查找该语音库从而将获取的语音与该语音库进行比对。
本实施方式中,在将获取的语音划分为多个语音片段及将获取的影像信息划分为多个影像片段并将每一语音片段与一影像片段在时间上对应关联后,该语音识别装置2还识别每一语音片段并将识别的语音片段与一语音库进行比对确定出与每一语音片段对应的匹配语音及确定出该匹配语音的信心度。
S404:判断该匹配语音的信心度是否超过一预设值。本实施方式中,该预设值可以根据实际需要具体设定,例如,可将该预设值设定为0.6。本实施方式中,该语音识别装置2判断与每一语音片段对应的匹配语音的信心度是否超过预设值。当匹配语音的信心度超过预设值时执行步骤S405,否则执行步骤S406。
S405:通过语音输出单元23输出该匹配语音。在其他实施方式中,当确定的匹配语音的数量超过1个时,该语音识别装置2输出信心度最大的匹配语音。
S406:识别与该语音关联的影像并识别该影像中的手势。本实施方式中,该语音识别装置2根据识别的手势查找语义关系表确定该手势的语义。其中,该语义关系表中定义多个手势与语义的对应关系。该语音识别装置2根据手势查找该语义关系表并确定与该手势相对应的语义。例如,在一实施方式中,当语音片段所对应的匹配语音信心度没有超过预设值时,该语音识别装置2识别语音片段所对应的影像片段并识别该语音片段所对应的影像片段中的手势。
S407:将识别的手势与该影像所对应的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配。本实施方式中,该语音识别装置2根据该手势的语义对该匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配。例如,在一实施方式中,该语音识别装置2将从影像片段中识别的手势与该影像片段所对应的语音片段的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配。
在一实施方式中,当识别出的匹配语音有多个时,该语音识别装置2确定每一匹配语音相对于该手势的语义的匹配度,依据每一匹配语音相对于该手势的语义的匹配度确定与该手势的语义的匹配度最高的匹配语音,并将与该手势的语义的匹配度最高的匹配语音与该手势进行匹配处理。
S408:输出匹配处理后的匹配语音。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照以上较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换都不应脱离本发明技术方案的精神和范围。

Claims (10)

1.一种语音识别装置,包括语音采集单元、语音输出单元、摄像单元及处理单元,该语音采集单元用于采集语音,该摄像单元用于采集影像,其特征在于,该处理单元用于:
获取该语音采集单元采集的语音;
获取该摄像单元采集的影像,并将该影像与采集的语音在时间上进行关联;
将获取的语音与一语音库进行比对确定出匹配语音及与该匹配语音对应的信心度,其中,该信心度指示该匹配语音与该语音采集单元采集的语音相匹配的准确度;
判断该匹配语音的信心度是否超过一预设值;及
当该匹配语音的信心度超过该预设值时通过该语音输出单元输出该匹配语音。
2.如权利要求1所述的语音识别装置,其特征在于,该处理单元还用于:
当匹配语音的信心度未超过预设值时识别与该语音关联的影像并识别该影像中的手势;
将识别的手势与该影像所对应的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配;及
输出匹配处理后的匹配语音。
3.如权利要求1所述的语音识别装置,其特征在于,该处理单元还用于:
将该语音按照字、词进行分割;将分割的字、词与语音库中的字、词进行比对以在该语音库中确定与语音中每个字、词相匹配的匹配字及匹配词;
根据比对结果确定匹配字的信心度与匹配词的信心度;
根据该些匹配字及匹配词确定出匹配语音;及
根据该些匹配字的信心度与匹配词的信心度确定该匹配语音的信心度。
4.如权利要求1所述的语音识别装置,其特征在于,该处理单元用于将获取的语音划分为多个语音片段,将获取的影像信息划分为多个影像片段,并将该些影像片段与语音片段按照时间进行对应关联,其中,该处理单元从获取的语音中提取音位特征,并使用终点算法识别获取的语音中每个句子的终点,并按照句子将获取的语音划分为多个语音片段。
5.如权利要求2所述的语音识别装置,其特征在于,该处理单元还用于:
根据识别的手势查找一定义多个手势与语义的对应关系的语义关系表确定与该手势对应的语义。
6.一种语音识别方法,其特征在于,该方法包括步骤:
获取一语音采集单元采集的语音;
获取一摄像单元采集的影像,并将该影像与采集的语音在时间上进行关联;
将获取的语音与一语音库进行比对确定出匹配语音及与该匹配语音对应的信心度,其中,该信心度指示该匹配语音与该语音采集单元采集的语音相匹配的准确度;
判断该匹配语音的信心度是否超过一预设值;及
当该匹配语音的信心度超过该预设值时通过一语音输出单元输出该匹配语音。
7.如权利要求6所述的语音识别方法,其特征在于,该方法还包括步骤:
当匹配语音的信心度未超过预设值时识别与该语音关联的影像并识别该影像中的手势;
将识别的手势与该影像所对应的匹配语音进行匹配处理以使该匹配语音与该手势的语义相匹配;及
输出匹配处理后的匹配语音。
8.如权利要求6所述的语音识别方法,其特征在于,该方法还包括步骤:
将该语音按照字、词进行分割;将分割的字、词与语音库中的字、词进行比对以在该语音库中确定与语音中每个字、词相匹配的匹配字及匹配词;
根据比对结果确定匹配字的信心度与匹配词的信心度;
根据该些匹配字及匹配词确定出匹配语音;及
根据该些匹配字的信心度与匹配词的信心度确定该匹配语音的信心度。
9.如权利要求6所述的语音识别方法,其特征在于,该方法还包括步骤:
将获取的语音划分为多个语音片段,其中,从获取的语音中提取音位特征,并使用终点算法识别获取的语音中每个句子的终点,并按照句子将获取的语音划分为多个语音片段;
将获取的影像信息划分为多个影像片段,并将该些影像片段与语音片段按照时间进行对应关联。
10.如权利要求7所述的语音识别方法,其特征在于,该方法还包括步骤:
根据识别的手势查找一定义多个手势与语义的对应关系的语义关系表确定与该手势对应的语义。
CN201810387233.XA 2018-04-26 2018-04-26 语音识别装置及方法 Active CN110415689B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810387233.XA CN110415689B (zh) 2018-04-26 2018-04-26 语音识别装置及方法
US16/018,174 US10714088B2 (en) 2018-04-26 2018-06-26 Speech recognition device and method of identifying speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810387233.XA CN110415689B (zh) 2018-04-26 2018-04-26 语音识别装置及方法

Publications (2)

Publication Number Publication Date
CN110415689A true CN110415689A (zh) 2019-11-05
CN110415689B CN110415689B (zh) 2022-02-15

Family

ID=68291259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810387233.XA Active CN110415689B (zh) 2018-04-26 2018-04-26 语音识别装置及方法

Country Status (2)

Country Link
US (1) US10714088B2 (zh)
CN (1) CN110415689B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562652A (zh) * 2020-12-02 2021-03-26 湖南翰坤实业有限公司 一种基于Untiy引擎的语音处理方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11842737B2 (en) * 2021-03-24 2023-12-12 Google Llc Automated assistant interaction prediction using fusion of visual and audio input

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060178882A1 (en) * 2005-02-04 2006-08-10 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US20100063820A1 (en) * 2002-09-12 2010-03-11 Broadcom Corporation Correlating video images of lip movements with audio signals to improve speech recognition
CN103730129A (zh) * 2013-11-18 2014-04-16 长江大学 一种用于数据库信息查询的语音查询系统
CN104423543A (zh) * 2013-08-26 2015-03-18 联想(北京)有限公司 一种信息处理方法及装置
CN106157956A (zh) * 2015-03-24 2016-11-23 中兴通讯股份有限公司 语音识别的方法及装置
CN106157957A (zh) * 2015-04-28 2016-11-23 中兴通讯股份有限公司 语音识别方法、装置及用户设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013114533A1 (ja) * 2012-01-30 2013-08-08 トヨタ自動車株式会社 内燃機関の排気浄化装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100063820A1 (en) * 2002-09-12 2010-03-11 Broadcom Corporation Correlating video images of lip movements with audio signals to improve speech recognition
US20060178882A1 (en) * 2005-02-04 2006-08-10 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
CN104423543A (zh) * 2013-08-26 2015-03-18 联想(北京)有限公司 一种信息处理方法及装置
CN103730129A (zh) * 2013-11-18 2014-04-16 长江大学 一种用于数据库信息查询的语音查询系统
CN106157956A (zh) * 2015-03-24 2016-11-23 中兴通讯股份有限公司 语音识别的方法及装置
CN106157957A (zh) * 2015-04-28 2016-11-23 中兴通讯股份有限公司 语音识别方法、装置及用户设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562652A (zh) * 2020-12-02 2021-03-26 湖南翰坤实业有限公司 一种基于Untiy引擎的语音处理方法及系统
CN112562652B (zh) * 2020-12-02 2024-01-19 湖南翰坤实业有限公司 一种基于Untiy引擎的语音处理方法及系统

Also Published As

Publication number Publication date
CN110415689B (zh) 2022-02-15
US20190333516A1 (en) 2019-10-31
US10714088B2 (en) 2020-07-14

Similar Documents

Publication Publication Date Title
US10235603B2 (en) Method, device and computer-readable medium for sensitive picture recognition
CN109376596B (zh) 人脸匹配方法、装置、设备及存储介质
CN106446816B (zh) 人脸识别方法及装置
CN108986826A (zh) 自动生成会议记录的方法、电子装置及可读存储介质
CN110265037B (zh) 身份验证方法、装置、电子设备及计算机可读存储介质
CN108830138B (zh) 牲畜识别方法、装置及存储介质
CN109922355A (zh) 虚拟形象直播方法、虚拟形象直播装置和电子设备
US10339622B1 (en) Systems and methods for enhancing machine vision object recognition through accumulated classifications
US9734828B2 (en) Method and apparatus for detecting user ID changes
CN110675433A (zh) 视频处理方法、装置、电子设备及存储介质
KR20120046652A (ko) 얼굴 인식 기반의 헤어 추천 시스템 및 그 방법
CN105426857A (zh) 人脸识别模型训练方法和装置
CN103942705A (zh) 一种基于人脸识别的广告分类匹配推送方法及系统
US11126827B2 (en) Method and system for image identification
CN111243603B (zh) 声纹识别方法、系统、移动终端及存储介质
CN105549841A (zh) 一种语音交互方法、装置及设备
JP2015529354A (ja) 顔認識のための方法および装置
CN111275650B (zh) 美颜处理方法及装置
CN105069016A (zh) 相册管理方法、装置以及终端设备
CN110415689A (zh) 语音识别装置及方法
CN104078045A (zh) 一种识别的方法及电子设备
CN110705356A (zh) 功能控制方法及相关设备
CN107330848A (zh) 图片处理方法、移动终端和存储设备
CN109711287B (zh) 人脸采集方法及相关产品
CN107680598B (zh) 基于好友声纹通讯录的信息交互方法、装置及其设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant