CN104123930A - 喉音识别方法及装置 - Google Patents

喉音识别方法及装置 Download PDF

Info

Publication number
CN104123930A
CN104123930A CN201310152543.0A CN201310152543A CN104123930A CN 104123930 A CN104123930 A CN 104123930A CN 201310152543 A CN201310152543 A CN 201310152543A CN 104123930 A CN104123930 A CN 104123930A
Authority
CN
China
Prior art keywords
gutturophony
bio signal
model
text message
cognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310152543.0A
Other languages
English (en)
Inventor
何秀强
张弓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310152543.0A priority Critical patent/CN104123930A/zh
Priority to PCT/CN2014/076293 priority patent/WO2014173325A1/zh
Publication of CN104123930A publication Critical patent/CN104123930A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例公开了一种喉音识别方法及装置,涉及通信技术领域,所述方法包括:客户端采集用户的喉音生物信号;客户端提取采集到的所述喉音生物信号的特征量;服务器根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息。本发明适用于无声情况下的人机交互。

Description

喉音识别方法及装置
技术领域
本发明涉及通信技术领域,特别涉及一种喉音识别方法及装置。
背景技术
随着语音识别技术发展,人们能够通过自然语言与机器进行直接通信,提高了人机交互的效率和体验。例如,当前的智能终端上已经出现了通过语音控制实现拨打和接听电话、网上搜索、定向导航等一系列的功能。这些功能对于驾驶员,视障人群以及老年人等一些特定人群是非常适用的,为其提供了很大的便利。
现有技术中至少存在如下问题:语音识别的人机交互方式虽然提供了一定的便利,但其适用场景有很大的局限性,例如,当用户处于比较嘈杂的环境时,语音识别无法做到准确识别用户的指令;或者当用户处于公共场所需要谈论涉及隐私的内容时,现有的语音识别无法对用户的隐私进行保护;或者当用户无法发出声音时,现有的语音识别无法识别用户指令。
发明内容
提供一种喉音识别方法及装置,能够解决语音识别的人机交互方式的局限性问题,为用户提供具有更高准确性和更宽适用性的人机交互方式,提高用户体验。
第一方面,提供一种喉音识别方法,包括:
采集用户的喉音生物信号;
提取采集到的所述喉音生物信号的特征量;
根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息。
在第一种可能的实现方式中,所述提取采集到的所述喉音生物信号的特征量包括:提取采集到的所述喉音生物信号中的时域统计量和频域统计量,所述时域统计量和频域统计量包括:梅尔频率倒谱系数MFCC、波动模式FP和谱直方图SH。
进一步的,在所述采集用户的喉音生物信号之前,所述方法还包括:建立所述识别模型。
进一步的,在所述输出与所述喉音生物信号对应的文本信息之后,所述方法还包括:如果输出的所述文本信息与所述喉音生物信号对应错误,接收用户发出的修正指示;根据所述修正指示输出与所述喉音生物信号对应的文本信息,并对所述识别模型进行修正。
结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,在所述输出与所述喉音生物信号对应的文本信息之后,所述方法还包括:根据所述文本信息的内容执行与所述内容相对应的操作指令。
具体的,所述建立所述识别模型包括:为采集的喉音生物信号标注对应的文本信息;将所述喉音生物信号的特征量与所述文本信息进行关联;根据所述特征量与所述文本信息的关联结果建立训练样本库;使用机器学习模型对所述训练样本库进行训练,获得所述识别模型。
进一步的,所述对所述识别模型进行修正包括:使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,其中,所述机器学习模型包括:高斯混合模型GMM、隐式马尔可夫模型HMM、贝叶斯模型BM或贝叶斯高斯过程BGP。
其中,所述根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息包括:将所述特征量与所述训练样本库中的数据进行匹配;根据匹配近似度,输出相似度最高的一个或多个文本信息的识别结果。
第二方面,提供一种喉音识别装置,包括:
采集单元,用于采集用户的喉音生物信号;
提取单元,用于提取所述采集单元采集到的所述喉音生物信号的特征量;
识别输出单元,用于根据识别模型和所述提取单元提取的所述特征量对所述采集单元采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息。
在第一种可能的实现方式中,所述提取单元具体用于:提取采集到的所述喉音生物信号中的时域统计量和频域统计量,所述时域统计量和频域统计量包括:梅尔频率倒谱系数MFCC、波动模式FP和谱直方图SH。
进一步的,所述装置还包括:模型建立单元,用于建立所述识别模型。
进一步的,所述装置还包括:接收单元,用于当输出的所述文本信息与所述喉音生物信号对应错误时,接收用户发出的修正指示;处理单元,用于根据所述修正指示输出与所述喉音生物信号对应的文本信息,并对所述识别模型进行修正。
结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述装置还包括:执行单元,用于根据所述文本信息的内容执行与所述内容相对应的操作指令。
具体的,所述模型建立单元包括:文本标注单元,用于为采集的喉音生物信号标注对应的文本信息;关联单元,用于将所述喉音生物信号的特征量与所述文本信息进行关联;样本库建立单元,用于根据所述特征量与所述文本信息的关联结果建立训练样本库;训练单元,用于使用机器学习模型对所述训练样本库进行训练,获得所述识别模型。
进一步的,所述处理单元具体用于:使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述识别输出单元包括:匹配单元,用于将所述特征量与所述训练样本库中的数据进行匹配;输出单元,用于根据匹配近似度,输出相似度最高的一个或多个文本信息的识别结果。
与现有技术相比,本发明实施例通过采集用户的喉音生物信号;提取采集到的所述喉音生物信号的特征量;根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息;根据文本信息执行相应的命令。能够解决现有的语音识别的人机交互方式的局限性问题,在嘈杂的环境中或者用户不能发出声音的情境下,为用户提供喉音识别的人机交互方式,与语音识别相比具有更高准确性和更宽适用性,提高用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例一提供的方法流程图;
图2为本发明实施例二提供的方法流程图;
图3为本发明实施例二提供的设备间流程交互图;
图4为本发明实施例二提供的设备间流程交互图;
图5为本发明实施例二提供的设备间流程交互图;
图6、图7为本发明实施例三提供的装置结构示意图;
图8、图9为本发明实施例四提供的装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
实施例一
本实施例提供一种喉音识别方法,应用于电子设备,包括客户端和服务器,如图1所示,所述方法包括:
101、客户端采集用户的喉音生物信号。
其中,上述客户端包括智能终端、PDA(Personal Digital Assistant,掌上电脑)、平板电脑pad等电子设备。主要方法包括但不限于以下几种:采用传统的神经信号采集系统、生物信息采集系统或便携式采集设备。
优选的,还可以通过专有的设备以及方法接触或靠近用户的喉部或者口腔,对用户喉部的生物信号进行采集。可选的,可以将专有的设备的功能集成在客户端内,例如,可以将传感器芯片嵌入在智能手机等移动终端中,通过接触或者靠近喉部完成生物信号的采集。该方案具有下述优点:目前的智能终端配置了很多类型的传感器,喉音生物信号采集系统可以很好的集成在终端中;智能终端方易于携带,方便用户的使用;智能终端具有越来越强的数据存储、计算和网络访问能力,可以实现喉音本地识别,作为中间设备提供与其他设备统一的接口,方便传统设备也能够使用该技术;智能终端本身就作为通讯工具,将该技术应用于智能终端能够更好的发挥其技术特点。
可选的,在采集用户的喉音生物信号之前,需要设置一定的规则来启动采集系统。例如,设置一个开关程序,用户可以通过手动指示终端启动或者停止采集;或者,当用户启动终端上某个应用时,自动启动喉音生物信号采集。
102、客户端提取采集到的喉音生物信号的特征量。
例如,所述提取采集到的所述喉音生物信号的特征量包括:提取采集到的所述喉音生物信号中的时域统计量和频域统计量,所述频域统计量包括:梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、波动模式(Fluctuation Pattern,FP)和谱直方图(Spectrum Histogram,SH)。同时,谱直方图也是时域统计量。
例如,提取到的喉音生物信号主要包括声道的振动信号,根据振动信号获得上述特征量。其中,MFCC由以下方式获得:将振动信号作时频变换,对其对数能量谱依照梅尔刻度分布的三角滤波器组做卷积,再对滤波器组的输出向量作离散余弦变换,这样得到的前N维向量即是MFCC。MFCC中将振动信号的序列值抽象成矩阵,该矩阵用于从识别模型中获得识别结果,以及对识别结果进行修正;进一步的,根据FP和SH得到振动信号的频率特征变化,该频率特征变化用于与MFCC结合提高获得的识别结果的准确度。
可选的,上述提取喉音生物信号的特征量的过程也可以在服务器侧实现,具体根据客户端的性能和用户需求决定。
103、服务器根据识别模型和特征量对采集到的喉音生物信号进行识别,输出与喉音生物信号对应的文本信息。
可选的,在所述采集用户的喉音生物信号之前,所述方法还包括:建立所述识别模型。
例如,所述建立所述识别模型包括:为采集的喉音生物信号标注对应的文本信息;将所述喉音生物信号的特征量与所述文本信息进行关联;根据所述特征量与所述文本信息的关联结果建立训练样本库;使用机器学习模型对所述训练样本库进行训练,获得所述识别模型。其中,所述机器学习模型包括但不限于以下模型:高斯混合模型(Gaussian Mixture Model,GMM),隐式马尔可夫模型(Hidden Markov Model,HMM)、贝叶斯模型(Bayesian Model,BM),贝叶斯高斯过程(Bayesian Gaussian Process,BGP)等。
具体的,所述根据识别模型和所述特征量对采集的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息包括:将所述特征量与所述训练样本库中的数据进行匹配;根据匹配近似度,输出相似度最高的一个或多个文本信息的识别结果。例如,使用高斯混合模型,获取MFCC特征量中的矩阵向量的高斯分布,将获取的高斯分布与识别模型中的高斯分布进行比较,输出识别模型中距离与矩阵向量的高斯分布最为接近的识别结果。
可选的,在所述输出与所述喉音生物信号对应的文本信息之后,所述方法还包括:如果输出的所述文本信息与所述喉音生物信号对应错误,接收用户发出的修正指示;根据所述修正指示输出与所述喉音生物信号对应的文本信息,并对所述识别模型进行修正。
其中,所述对所述识别模型进行修正包括:使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
进一步的,在所述输出与所述喉音生物信号对应的文本信息之后,所述方法还包括:根据所述文本信息的内容执行与所述内容相对应的操作指令。
与现有技术相比,本发明实施例通过采集用户的喉音生物信号;提取采集到的所述喉音生物信号的特征量;根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息;根据文本信息执行相应的命令。能够解决现有的语音识别的人机交互方式的局限性问题,在嘈杂的环境中或者用户不能发出声音的情境下,为用户提供喉音识别的人机交互方式,与语音识别相比具有更高准确性和更宽适用性,提高用户体验。
实施例二
本实施例提供一种喉音识别方法,通过一个电子设备或者多个电子设备相配合完成对用户喉音生物信号的识别,如图2所示,所述方法包括:
201、采集多次喉音生物信号以及对应的文本信息,建立识别模型。
其中,用户在发出声音时,是通过喉音生物信号控制声带振动来达到发声目的的。本发明直接采集用户的喉音生物信号,即便在用户不发出声音的情况下也能够得到用户想表达的信息。
例如,在建立识别模型时,我们通常所使用的机器学习模型包括但不限于以下几种:高斯混合模型、隐式马尔可夫模型、贝叶斯模型或贝叶斯高斯模型。在使用这些模型建立识别模型之前需要建立一个样本库,样本库中包含用户大量的喉音生物信号,以及与这些喉音生物信号对应的文本信息。通过几种机器学习模型对样本库中的喉音生物信号以及对应的文本信息进行训练,获得识别模型。此时获得的识别模型只是一个基础模型,其精度还需要后续实际操作过程中进行不断的反馈修正,逐步建立起一个完善的识别模型。
具体的,所述建立所述识别模型包括:为采集的喉音生物信号标注对应的文本信息;将所述喉音生物信号的特征量与所述文本信息进行关联;根据所述特征量与所述文本信息的关联结果建立训练样本库;使用机器学习模型对所述训练样本库进行训练,获得所述识别模型。
202、用户启动喉音生物信号采集。
可选的,需要设置一定的规则来启动采集系统。例如,设置一个开关程序,用户可以通过手动指示终端启动或者停止采集;或者,当用户启动终端上某个应用时,自动启动喉音生物信号采集。
203、采集用户输出的喉音生物信号,并提取特征量。
其中,采集方法包括但不限于以下几种:采用传统的神经信号采集系统、生物信息采集系统或便携式采集设备。
优选的,还可以通过专有的设备以及方法接触或靠近用户的喉部或者口腔,对用户喉部的生物信号进行采集。例如,可以将传感器芯片嵌入在智能手机等移动终端中,通过接触或者靠近喉部完成生物信号的采集。该方案具有下述优点:目前的智能终端配置了很多类型的传感器,喉音生物信号采集系统可以很好的集成在终端中;智能终端方易于携带,方便用户的使用;智能终端具有越来越强的数据存储、计算和网络访问能力,可以实现喉音本地识别,作为中间设备提供与其他设备统一的接口,方便传统设备也能够使用该技术;智能终端本身就作为通讯工具,将该技术应用于智能终端能够更好的发挥其技术特点。
其中,所述提取采集的所述喉音生物信号的特征量包括:提取采集的所述喉音生物信号中的时域统计量和频域统计量,所述频域统计量包括:梅尔频率倒谱系数、波动模式和谱直方图等,谱直方图同时也是时域统计量。
例如,提取到的喉音生物信号主要包括声道的振动信号,根据振动信号获得上述特征量。其中,MFCC由以下方式获得:将振动信号作时频变换,对其对数能量谱依照梅尔刻度分布的三角滤波器组做卷积,再对滤波器组的输出向量作离散余弦变换,这样得到的前N维向量即是MFCC。MFCC中将振动信号的序列值抽象成矩阵,该矩阵用于从识别模型中获得识别结果,以及对识别结果进行修正;进一步的,根据FP和SH得到振动信号的频率特征变化,该频率特征变化用于与MFCC结合提高获得的识别结果的准确度。
204、将所述特征量与所述识别模型中的数据进行匹配。
具体的,将所述特征量与识别模型中的样本库中的数据进行对比,在样本库中找到与所述特征量最为接近的特征量,以及对应的文本信息。
205、根据匹配近似度,输出相似度最高的一个或多个文本信息的识别结果。
例如,使用高斯混合模型,获取MFCC特征量中的矩阵向量的高斯分布,将获取的高斯分布与识别模型中的高斯分布进行比较,输出识别模型中距离与矩阵向量的高斯分布最为接近的识别结果。
206、判断输出的识别结果是否正确,当识别结果不正确时,执行步骤207;当识别结果正确时,执行步骤208。
207、用户发出修正指示,修正识别结果,并修正识别模型中的对应内容。
208、输出识别结果。
209、根据识别结果执行与识别结果内容相对应的操作指令。
需要说明的是,本发明实施例中的步骤流程可以通过一个电子设备完成或者由多个电子设备共同配合完成,例如,如图3所示,将喉音生物信号采集、信号的特征量提取、信号识别以及识别模型的建立的流程设置于第一电子设备中,通过无线的方式将识别结果发送至第二电子设备;经过简单的信号处理,第二电子设备将信号发送至第三电子设备,第三电子设备执行最终的操作命令。
可选的,如图4所示,将喉音生物信号采集、信号的特征量提取的流程设置于第一电子设备,通过无线的方式将提取的特征量发送至第二电子设备;第二电子设备负责对特征量进行识别以及包括建立识别模型,将识别结果发送至第三电子设备;第三电子设备执行最终的操作命令。
可选的,如图5所示,仅将将喉音生物信号采集的流程设置于第一电子设备,通过无线的方式将采集的喉音生物信号发送至第二电子设备;第二电子设备提取特征量,将特征量发送至第三电子设备;第三电子设备负责对特征量进行识别以及包括建立识别模型,将识别结果发送至第四电子设备;第四电子设备执行最终的操作命令。
其中,上述三种实施方式中,第一电子设备可以为终端设备,第二电子设备、第三电子设备和第四电子设备可以为服务器。每一种实施方式适用不同的场景,其中,图3中的操作流程适用于专用的喉音识别设备,终端本身具有较强的计算能力,服务器仅接受人机交互指令,实现与传统接收语音交互机器的无缝对接;图4中的操作流程适用于处理器能力较强的智能手机等终端,信号的特征提取过程在终端完成,减少了网络传输流量,同时减小了服务器端的处理复杂度;图5中的操作流程适合于仅具有传感器和数据传输能力的简易终端,大部分的计算功能都在服务器端完成。
与现有技术相比,本发明实施例通过采集多次喉音生物信号以及对应的文本信息,建立识别模型;提取采集的所述喉音生物信号的特征量;用户启动喉音生物信号采集,采集用户输出的喉音生物信号,并提取特征量;将所述特征量与所述识别模型中的数据进行匹配;根据匹配近似度,输出相似度最高的一个或多个文本信息的识别结果;当识别结果不正确时,用户发出修正指示,修正识别结果,并修正识别模型中的对应内容;当识别结果正确时,输出识别结果;根据识别结果执行与识别结果内容相对应的操作指令。能够解决现有的语音识别的人机交互方式的局限性问题,在嘈杂的环境中或者用户不能发出声音的情境下,为用户提供喉音识别的人机交互方式,与语音识别相比具有更高准确性和更宽适用性,提高用户体验。
实施例三
本实施例提供一种喉音识别装置30,如图6所示,所述装置30包括:
采集单元31,用于采集用户的喉音生物信号;
提取单元32,用于提取所述采集单元31采集到的所述喉音生物信号的特征量;
识别输出单元33,用于根据识别模型和所述提取单元32提取的所述特征量对所述采集单元31采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息。
其中,所述提取单元32具体用于:提取采集到的所述喉音生物信号中的时域统计量和频域统计量,所述时域统计量和频域统计量包括:梅尔频率倒谱系数MFCC、波动模式FP和谱直方图SH。
进一步的,如图7所示,所述装置30还可以包括:
模型建立单元34,用于建立所述识别模型。
进一步的,如图7所示,所述模型建立单元34包括:
文本标注单元341,用于为采集的喉音生物信号标注对应的文本信息;
关联单元342,用于将所述喉音生物信号的特征量与所述文本信息进行关
联;
样本库建立单元343,用于根据所述特征量与所述文本信息的关联结果建立训练样本库;
训练单元344,用于使用机器学习模型对所述训练样本库进行训练,获得所述识别模型。
进一步的,如图7所示,所述识别输出单元33包括:
匹配单元331,用于将所述特征量与所述训练样本库中的数据进行匹配;
输出单元332,用于根据匹配近似度,输出相似度最高的一个或多个文本信息的识别结果。
进一步的,如图7所示,所述装置30还可以包括:
接收单元35,用于当输出的所述文本信息与所述喉音生物信号对应错误时,接收用户发出的修正指示;
处理单元36,用于根据所述修正指示输出与所述喉音生物信号对应的文本信息,并对所述识别模型进行修正。
其中,所述处理单元36具体用于:使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
进一步的,如图7所示,所述装置30还可以包括:
执行单元37,用于根据所述文本信息的内容执行与所述内容相对应的操作指令。
与现有技术相比,本发明实施例通过采集用户的喉音生物信号;提取采集到的所述喉音生物信号的特征量;根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息;根据文本信息执行相应的命令。能够解决现有的语音识别的人机交互方式的局限性问题,在嘈杂的环境中或者用户不能发出声音的情境下,为用户提供喉音识别的人机交互方式,与语音识别相比具有更高准确性和更宽适用性,提高用户体验。
实施例四
本实施例提供一种喉音识别装置40,如图8所示,所述装置40包括:
处理器41,用于采集用户的喉音生物信号;以及,用于提取采集到的所述喉音生物信号的特征量;以及,用于根据识别模型和提取的所述特征量对采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息。
其中,所述处理器41具体用于:提取采集到的所述喉音生物信号中的时域统计量和频域统计量,所述时域统计量和频域统计量包括:梅尔频率倒谱系数MFCC、波动模式FP和谱直方图SH。
进一步的,所述处理器41还用于:建立所述识别模型。
进一步的,所述处理器41具体用于:
为采集的喉音生物信号标注对应的文本信息;
将所述喉音生物信号的特征量与所述文本信息进行关联;
根据所述特征量与所述文本信息的关联结果建立训练样本库;
使用机器学习模型对所述训练样本库进行训练,获得所述识别模型。
进一步的,所述处理器41具体还用于:
将所述特征量与所述训练样本库中的数据进行匹配;
根据匹配近似度,输出相似度最高的一个或多个文本信息的识别结果。
进一步的,如图9所示,所述装置40还可以包括:
接收器42,用于当输出的所述文本信息与所述喉音生物信号对应错误时,接收用户发出的修正指示;
所述处理器41还用于根据所述修正指示输出与所述喉音生物信号对应的文本信息,并对所述识别模型进行修正。
其中,所述处理器41还用于使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
进一步的,所述处理器41还用于:根据所述文本信息的内容执行与所述内容相对应的操作指令。
与现有技术相比,本发明实施例通过采集用户的喉音生物信号;提取采集到的所述喉音生物信号的特征量;根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息;根据文本信息执行相应的命令。能够解决现有的语音识别的人机交互方式的局限性问题,在嘈杂的环境中或者用户不能发出声音的情境下,为用户提供喉音识别的人机交互方式,与语音识别相比具有更高准确性和更宽适用性,提高用户体验。
本发明实施例提供的喉音识别装置可以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。本发明实施例提供的喉音识别方法及装置可以适用于无声情况下的人机交互,但不仅限于此。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (17)

1.一种喉音识别方法,其特征在于,包括:
采集用户的喉音生物信号;
提取采集到的所述喉音生物信号的特征量;
根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述提取采集到的所述喉音生物信号的特征量包括:
提取采集到的所述喉音生物信号中的时域统计量和频域统计量,所述时域统计量和频域统计量包括:梅尔频率倒谱系数MFCC、波动模式FP和谱直方图SH。
3.根据权利要求1或2所述的方法,其特征在于,在所述采集用户的喉音生物信号之前,所述方法还包括:
建立所述识别模型。
4.根据权利要求3所述的方法,其特征在于,所述建立所述识别模型包括:
为采集的喉音生物信号标注对应的文本信息;
将所述喉音生物信号的特征量与所述文本信息进行关联;
根据所述特征量与所述文本信息的关联结果建立训练样本库;
使用机器学习模型对所述训练样本库进行训练,获得所述识别模型。
5.根据权利要求4所述的方法,其特征在于,所述机器学习模型包括:高斯混合模型GMM、隐式马尔可夫模型HMM、贝叶斯模型BM或贝叶斯高斯过程BGP。
6.根据权利要求4所述的方法,其特征在于,所述根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息包括:
将所述特征量与所述训练样本库中的数据进行匹配;
根据匹配近似度,输出相似度最高的一个或多个文本信息的识别结果。
7.根据权利要求1所述的方法,其特征在于,在所述输出与所述喉音生物信号对应的文本信息之后,所述方法还包括:
如果输出的所述文本信息与所述喉音生物信号对应错误,接收用户发出的修正指示;
根据所述修正指示输出与所述喉音生物信号对应的文本信息,并对所述识别模型进行修正。
8.根据权利要求7所述的方法,其特征在于,所述对所述识别模型进行修正包括:
使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
9.根据权利要求1或7所述的方法,其特征在于,在所述输出与所述喉音生物信号对应的文本信息之后,所述方法还包括:
根据所述文本信息的内容执行与所述内容相对应的操作指令。
10.一种喉音识别装置,其特征在于,包括:
采集单元,用于采集用户的喉音生物信号;
提取单元,用于提取所述采集单元采集到的所述喉音生物信号的特征量;
识别输出单元,用于根据识别模型和所述提取单元提取的所述特征量对所述采集单元采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息。
11.根据权利要求10所述的装置,其特征在于,所述提取单元具体用于:
提取采集到的所述喉音生物信号中的时域统计量和频域统计量,所述时域统计量和频域统计量包括:梅尔频率倒谱系数MFCC、波动模式FP和谱直方图SH。
12.根据权利要求10或11所述的装置,其特征在于,所述装置还包括:
模型建立单元,用于建立所述识别模型。
13.根据权利要求12所述的装置,其特征在于,所述模型建立单元包括:
文本标注单元,用于为采集的喉音生物信号标注对应的文本信息;
关联单元,用于将所述喉音生物信号的特征量与所述文本信息进行关联;
样本库建立单元,用于根据所述特征量与所述文本信息的关联结果建立训练样本库;
训练单元,用于使用机器学习模型对所述训练样本库进行训练,获得所述识别模型。
14.根据权利要求13所述的装置,其特征在于,所述识别输出单元包括:
匹配单元,用于将所述特征量与所述训练样本库中的数据进行匹配;
输出单元,用于根据匹配近似度,输出相似度最高的一个或多个文本信息的识别结果。
15.根据权利要求10所述的装置,其特征在于,所述装置还包括:
接收单元,用于当输出的所述文本信息与所述喉音生物信号对应错误时,接收用户发出的修正指示;
处理单元,用于根据所述修正指示输出与所述喉音生物信号对应的文本信息,并对所述识别模型进行修正。
16.根据权利要求15所述的装置,其特征在于,所述处理单元具体用于:使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
17.根据权利要求10或15所述的装置,其特征在于,所述装置还包括:执行单元,用于根据所述文本信息的内容执行与所述内容相对应的操作指令。
CN201310152543.0A 2013-04-27 2013-04-27 喉音识别方法及装置 Pending CN104123930A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310152543.0A CN104123930A (zh) 2013-04-27 2013-04-27 喉音识别方法及装置
PCT/CN2014/076293 WO2014173325A1 (zh) 2013-04-27 2014-04-25 喉音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310152543.0A CN104123930A (zh) 2013-04-27 2013-04-27 喉音识别方法及装置

Publications (1)

Publication Number Publication Date
CN104123930A true CN104123930A (zh) 2014-10-29

Family

ID=51769320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310152543.0A Pending CN104123930A (zh) 2013-04-27 2013-04-27 喉音识别方法及装置

Country Status (2)

Country Link
CN (1) CN104123930A (zh)
WO (1) WO2014173325A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105489228A (zh) * 2015-12-08 2016-04-13 杭州百世伽信息科技有限公司 一种基于频域图处理的干罗音识别方法
CN105938399A (zh) * 2015-12-04 2016-09-14 深圳大学 基于声学的智能设备的文本输入识别方法
CN108831473A (zh) * 2018-03-30 2018-11-16 联想(北京)有限公司 一种音频处理方法及装置
CN110444189A (zh) * 2019-06-18 2019-11-12 中国人民解放军军事科学院国防科技创新研究院 一种缄默通信方法、系统和存储介质
CN110956949A (zh) * 2019-10-24 2020-04-03 中国人民解放军军事科学院国防科技创新研究院 一种口含式缄默通信方法与系统
WO2020206579A1 (zh) * 2019-04-08 2020-10-15 深圳大学 一种基于脸部振动的智能设备输入方法
WO2022033377A1 (zh) * 2020-08-14 2022-02-17 华为技术有限公司 一种媒体信息传输方法及电子设备
CN117316160A (zh) * 2023-11-30 2023-12-29 北京安声科技有限公司 无声语音识别方法、装置、电子设备和计算机可读介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241093A (ja) * 1995-03-06 1996-09-17 Nippon Telegr & Teleph Corp <Ntt> 連続数字音声認識方法
CN1235320A (zh) * 1999-03-31 1999-11-17 五邑大学 噪声环境下语音控制指令产生装置
JP2002287792A (ja) * 2001-03-27 2002-10-04 Denso Corp 音声認識装置
CN1453766A (zh) * 2002-04-24 2003-11-05 株式会社东芝 声音识别方法以及声音识别装置
CN1591568A (zh) * 2003-07-29 2005-03-09 微软公司 头部安装的多-感觉音频输入系统
CN1679371A (zh) * 2002-08-30 2005-10-05 中岛淑贵 传声器和通信接口系统
US20060095260A1 (en) * 2004-11-04 2006-05-04 Cho Kwan H Method and apparatus for vocal-cord signal recognition
CN101170757A (zh) * 2006-10-26 2008-04-30 英华达(上海)电子有限公司 一种在移动设备中控制文字输入的方法及其装置
CN101923586A (zh) * 2010-06-12 2010-12-22 杭州金刚建筑技术有限公司 基于部件-标准层件结构的cad设计重用装置及方法
CN101950249A (zh) * 2010-07-14 2011-01-19 北京理工大学 默声音符编码字符输入方法和装置
CN102543076A (zh) * 2011-01-04 2012-07-04 中国移动通信集团公司 用于语音输入法的语音训练方法及相应的系统
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN102930867A (zh) * 2011-08-08 2013-02-13 三星电子株式会社 语音识别设备、语音识别服务器、语音识别系统和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8618193D0 (en) * 1986-07-25 1986-11-26 Smiths Industries Plc Speech recognition apparatus
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241093A (ja) * 1995-03-06 1996-09-17 Nippon Telegr & Teleph Corp <Ntt> 連続数字音声認識方法
CN1235320A (zh) * 1999-03-31 1999-11-17 五邑大学 噪声环境下语音控制指令产生装置
JP2002287792A (ja) * 2001-03-27 2002-10-04 Denso Corp 音声認識装置
CN1453766A (zh) * 2002-04-24 2003-11-05 株式会社东芝 声音识别方法以及声音识别装置
CN1679371A (zh) * 2002-08-30 2005-10-05 中岛淑贵 传声器和通信接口系统
CN1591568A (zh) * 2003-07-29 2005-03-09 微软公司 头部安装的多-感觉音频输入系统
US20060095260A1 (en) * 2004-11-04 2006-05-04 Cho Kwan H Method and apparatus for vocal-cord signal recognition
CN101170757A (zh) * 2006-10-26 2008-04-30 英华达(上海)电子有限公司 一种在移动设备中控制文字输入的方法及其装置
CN101923586A (zh) * 2010-06-12 2010-12-22 杭州金刚建筑技术有限公司 基于部件-标准层件结构的cad设计重用装置及方法
CN101950249A (zh) * 2010-07-14 2011-01-19 北京理工大学 默声音符编码字符输入方法和装置
CN102543076A (zh) * 2011-01-04 2012-07-04 中国移动通信集团公司 用于语音输入法的语音训练方法及相应的系统
CN102930867A (zh) * 2011-08-08 2013-02-13 三星电子株式会社 语音识别设备、语音识别服务器、语音识别系统和方法
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
丁爱明: "《基于MFCC和GMM的说话人识别系统研究》", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
桑立锋: "《动态贝叶斯网络及其在说话人识别中的应用》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
滕鹏 等: "《默声音符编码文本输入方法》", 《科学通报》 *
胡维平 等: "《基于经验模态分解分析和隐马尔可夫模型识别的咳嗽音检测》", 《生物医学工程学杂志》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105938399A (zh) * 2015-12-04 2016-09-14 深圳大学 基于声学的智能设备的文本输入识别方法
CN105489228A (zh) * 2015-12-08 2016-04-13 杭州百世伽信息科技有限公司 一种基于频域图处理的干罗音识别方法
CN108831473A (zh) * 2018-03-30 2018-11-16 联想(北京)有限公司 一种音频处理方法及装置
WO2020206579A1 (zh) * 2019-04-08 2020-10-15 深圳大学 一种基于脸部振动的智能设备输入方法
US20210233533A1 (en) * 2019-04-08 2021-07-29 Shenzhen University Smart device input method based on facial vibration
US11662610B2 (en) * 2019-04-08 2023-05-30 Shenzhen University Smart device input method based on facial vibration
CN110444189A (zh) * 2019-06-18 2019-11-12 中国人民解放军军事科学院国防科技创新研究院 一种缄默通信方法、系统和存储介质
CN110956949A (zh) * 2019-10-24 2020-04-03 中国人民解放军军事科学院国防科技创新研究院 一种口含式缄默通信方法与系统
CN110956949B (zh) * 2019-10-24 2022-10-04 中国人民解放军军事科学院国防科技创新研究院 一种口含式缄默通信方法与系统
WO2022033377A1 (zh) * 2020-08-14 2022-02-17 华为技术有限公司 一种媒体信息传输方法及电子设备
CN117316160A (zh) * 2023-11-30 2023-12-29 北京安声科技有限公司 无声语音识别方法、装置、电子设备和计算机可读介质
CN117316160B (zh) * 2023-11-30 2024-02-20 北京安声科技有限公司 无声语音识别方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
WO2014173325A1 (zh) 2014-10-30

Similar Documents

Publication Publication Date Title
CN104123930A (zh) 喉音识别方法及装置
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
US9542938B2 (en) Scene recognition method, device and mobile terminal based on ambient sound
CN110223673B (zh) 语音的处理方法及装置、存储介质、电子设备
CN102723078B (zh) 基于自然言语理解的语音情感识别方法
CN103117061B (zh) 一种基于语音的动物识别方法及装置
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN107147618A (zh) 一种用户注册方法、装置及电子设备
CN106971723A (zh) 语音处理方法和装置、用于语音处理的装置
CN104036774A (zh) 藏语方言识别方法及系统
CN102404278A (zh) 一种基于声纹识别的点歌系统及其应用方法
CN102568478A (zh) 一种基于语音识别的视频播放控制方法和系统
CN109377981B (zh) 音素对齐的方法及装置
CN112102846B (zh) 音频处理方法、装置、电子设备以及存储介质
CN101345819A (zh) 一种用于机顶盒的语音控制系统
CN110972112B (zh) 地铁运行方向的确定方法、装置、终端及存储介质
CN112820291A (zh) 智能家居控制方法、系统和存储介质
CN107507620A (zh) 一种语音播报声音设置方法、装置、移动终端及存储介质
CN105989836A (zh) 一种语音采集方法、装置及终端设备
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN106356054A (zh) 一种基于语音识别的农产品信息采集方法和系统
CN206672635U (zh) 一种基于图书服务机器人的语音交互装置
CN108322770A (zh) 视频节目识别方法、相关装置、设备和系统
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN116825123B (zh) 一种基于音频推送的音质优化方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20141029