CN104795066A - 语音识别方法和装置 - Google Patents

语音识别方法和装置 Download PDF

Info

Publication number
CN104795066A
CN104795066A CN201410022569.8A CN201410022569A CN104795066A CN 104795066 A CN104795066 A CN 104795066A CN 201410022569 A CN201410022569 A CN 201410022569A CN 104795066 A CN104795066 A CN 104795066A
Authority
CN
China
Prior art keywords
background sound
voice document
speech recognition
noise reduction
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410022569.8A
Other languages
English (en)
Inventor
王晓利
曾勇波
张永生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to CN201410022569.8A priority Critical patent/CN104795066A/zh
Priority to JP2015005684A priority patent/JP2015135494A/ja
Publication of CN104795066A publication Critical patent/CN104795066A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了语音识别方法,包括:记录客户端设备所在位置附近的背景音;根据记录的客户端设备所在位置附近的背景音生成噪音模型;根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理;以及对降噪后的语音文件进行语音识别得到识别后的文本。本发明还公开了执行上述方法的边缘节点、语音识别引擎以及控制服务器。在本发明中,用于干扰消除的背景音是由客户端设备所在位置附近的边缘节点捕获并记录的,能及时并且准确地反映出客户端设备所在位置附近的环境噪音或外部声音情况,因此,以此背景音声称噪音模型并进行降噪可以获得非常好的降噪效果,从而可以大大提高语音识别的识别率。

Description

语音识别方法和装置
技术领域
本申请涉及语音识别技术领域,特别涉及一种语音识别方法和装置。
背景技术
语音识别技术简要来说就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括声音特征提取技术、模式匹配准则及模型训练技术等方面。
目前语音识别技术已经得到快速的发展以及广泛的使用。但是,在环境噪声较大的环境下,例如在体育场等嘈杂环境下,语音识别技术的应用却受到了很大的限制。可以理解,用户说话时的背景噪声越大,语音识别的识别率就会越低。甚至受到背景噪声的影响,很多时候无法完成语音结束检测(Utterance Ending Detection),也即无法检测出用户什么时候停止说话的。
发明内容
为了解决上述问题,本发明的实施例提出了一种语音识别的方法及执行该方法的装置,可以提高噪声环境下语音识别的识别率。
本发明实施例所述的语音识别方法包括:记录客户端设备所在位置附近的背景音,并根据记录的背景音生成噪音模型;根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理;以及对降噪后的语音文件进行语音识别得到识别后的文本。
上述记录用户所在位置附近的背景音包括:服务所述用户的边缘节点记录自身周围的背景音。
其中,上述语音文件包含时间戳;则根据记录的背景音生成噪音模型包括:所述边缘节点根据语音文件对应的时间戳查找所述时间戳所指示时间对应的背景音,根据所述背景音生成噪音模型。
上述根据记录的背景音生成噪音模型包括:边缘节点根据接收到语音文件的时间查找与所述时间对应的背景音,并根据查找到的背景音生成噪音模型。
或者,上述根据记录的背景音生成噪音模型包括:边缘节点在收到客户端上传的语音信号后开始记录背景音,并根据记录的背景音生成噪音模型。
又或者,上述根据记录的背景音生成噪音模型包括:语音识别引擎向控制服务器发送背景音记录上传请求;以及在收到控制服务器上传的背景音后,语音识别引擎根据控制服务器上传的背景音生成噪音模型。
上述根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理包括:所述边缘节点根据生成的噪音模型对语音文件进行降噪处理,并对降噪处理后的语音文件进行语音输入结束检测;对降噪后的语音文件进行语音识别得到识别后的文本包括:边缘节点对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本,并将识别后的文本上传至应用服务器。
又或者,根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理包括:所述边缘节点根据生成的噪音模型对语音文件进行降噪处理,对降噪处理后的语音文件进行语音输入结束检测,并将语音输入结束检测处理后的语音文件上传至语音识别引擎;对降噪后的语音文件进行语音识别得到识别后的文本包括:语音识别引擎对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本,并将识别后的文本上传至应用服务器。
再或者,根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理包括:所述边缘节点根据生成的噪音模型对语音文件进行降噪处理,并将降噪处理后的语音文件上传至语音识别引擎;对降噪后的语音文件进行语音识别得到识别后的文本包括:语音识别引擎对降噪处理后的语音文件进行语音输入结束检测,对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本,并将识别后的文本上传至应用服务器。
上述根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理包括:所述语音识别引擎根据生成的噪音模型对从边缘节点接收的语音文件进行降噪处理,并对降噪处理后的语音文件进行语音输入结束检测;对降噪后的语音文件进行语音识别得到识别后的文本包括:所述语音识别引擎对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本,并将识别后的文本上传至应用服务器。
上述方法在根据记录的用户所在位置附近的背景音生成噪音模型之前进一步包括:对记录的背景音进行传播损耗估计,并根据传播损耗估计结果对自身记录的背景音进行补偿。
本发明实施例所述的边缘节点包括:背景音记录模块401,用于记录自身所在位置附近的背景音。
边缘节点可以进一步包括:请求接收模块1201,用于接收来自控制服务器的背景音记录上传请求;以及背景音上传模块1202,用于将自身记录的背景音上传至控制服务器。
或者,上述边缘节点进一步包括:噪音模型生成模块402,用于根据记录的背景音生成噪音模型;降噪模块403,用于根据生成的噪音模型对接收的语音文件进行降噪处理;语音输入结束检测模块404,用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较,如果从某个时刻开始,各个时刻的幅值小于预先设置的静音门限,则从语音文件中删除这个时刻之后的部分;语音识别模块405,用于对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本;以及文本上传模块406,用于将识别后的文本上传至应用服务器。
又或者,上述边缘节点进一步包括:噪音模型生成模块402,用于根据记录的背景音生成噪音模型;降噪模块403,用于根据生成的噪音模型对接收的语音文件进行降噪处理;语音输入结束检测模块404,用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较,如果从某个时刻开始,各个时刻的幅值小于预先设置的静音门限,则从语音文件中删除这个时刻之后的部分;以及文件上传模块601,用于将语音输入结束检测后的语音文件上传至语音识别引擎。
再或者,上述边缘节点进一步包括:噪音模型生成模块402,用于根据记录的背景音生成噪音模型;降噪模块403,用于根据生成的噪音模型对接收的语音文件进行降噪处理;以及第二文件上传模块901,用于将降噪后的语音文件上传至语音识别引擎。
上述边缘节点进一步包括:传播损耗估计模块,用于对所记录的背景音进行传播损耗估计,并根据传播损耗估计结果对所记录的背景音进行补偿。
本发明实施例所述的语音识别引擎包括:语音库701,用于存储各种不同类型声音,针对同一文本内容的发音;语言库702,用于存储各种不同语言的词汇信息;搜索和解码单元703,用于根据语音库和语言库,对所接收的语音文件进行搜索和解码得到识别后的文本;以及文本上传模块406,用于将识别后的文本上传至应用服务器。
上述语音识别引擎进一步包括:语音输入结束检测模块404,用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较,如果从某个时刻开始,各个时刻的幅值小于预先设置的静音门限,则从语音文件中删除这个时刻之后的部分。
更进一步,语音识别引擎可以包括:控制模块1401,用于在收到语音文件后判断是否需要进行降噪处理,如果不需要降噪处理,则触发语音输入结束检测模块404对语音文本进行语音输入结束检测;而如果需要降噪处理,则控制请求模块1402向控制服务器发送背景音记录上传请求;请求模块1402,用于向控制服务器发送背景音记录上传请求;背景音接收模块1403,用于从控制服务器接收服务客户端设备的边缘节点记录的背景音;噪音模型生成模块402,用于根据所接收的背景音生成噪音模型;以及降噪模块403,用于根据生成的噪音模型对接收的语音文件进行降噪处理,并触发语音输入结束检测模块404对语音文本进行语音输入结束检测。
本发明实施例所述的控制服务器包括:上传请求接收模块1301,用于接收来自语音识别引擎的背景音记录上传请求;匹配模块1302,用于根据背景音记录上传请求中携带的客户端设备的位置信息确定为该客户端设备服务的边缘节点;以及转发模块1303,用于向该边缘节点转发背景音记录上传请求;并将该边缘节点上传的背景音转发至语音识别引擎。
在本发明的各个实施例中,用于干扰消除的背景音是由用户所在位置附近的边缘节点捕获并记录的,能及时并且准确地反映出用户所在位置附近的环境噪音或外部声音情况,因此,以此背景音声称噪音模型并进行降噪可以获得非常好的降噪效果,从而可以大大提高语音识别的识别率。
附图说明
图1为本发明实施例所述的语音识别方法流程图;
图2为本发明实施例所述的语音识别方法流程图;
图3为本发明实施例所述的客户端设备内部结构示意图;
图4为本发明实施例所述的边缘节点内部结构示意图;
图5为本发明另一实施例所述的语音识别方法流程图;
图6为本发明另一实施例所述的边缘节点内部结构示意图;
图7为本发明另一实施例所述的语音识别引擎内部结构示意图;
图8为本发明又一实施例所述的语音识别方法流程图;
图9为本发明又一实施例所述的边缘节点内部结构示意图;
图10为本发明又一实施例所述的语音识别引擎内部结构示意图;
图11为本发明再一实施例所述的语音识别方法流程图;
图12为本发明再一实施例所述的边缘节点内部结构示意图;
图13为本发明再一实施例所述的控制服务器内部结构示意图;以及
图14为本发明再一实施例所述的语音识别引擎内部结构示意图。
具体实施方式
在目前的移动通信系统中,为了提升业务密集区域如体育馆或者购物中心等区域的网络容量,在第三代合作伙伴项目(3rd Generation Partnership Project,3GPP)第12版本(Rel-12)的规定中,除了宏小区(Macro Cell)之外,还可以在业务密集区域部署小小区(Small Cell),由这些小小区承载大部分的数据流量,从而可以大大增加网络的容量。此外,在WLAN中也部署了承载数据业务的AP。其中,小小区基站以及AP均可以称为边缘节点(Edge Node)。
基于上述小小区应用环境或WLAN应用环境,为了解决现有在噪声环境下语音识别识别率低的问题,本发明的实施例提出了一种语音识别方法。该方法的具体实现流程如图1所示,主要包括:
步骤101:记录客户端设备所在位置附近的背景音,例如环境噪音或外放声源等;
步骤102:根据记录的背景音生成噪音模型;
步骤103:根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理;以及
步骤104:对降噪后的语音文件进行语音识别得到识别后的文本。
在上述方法中,上述来自客户端设备的语音文件可以是由用户使用的客户端设备,例如移动终端等,接收并记录的文件,例如MP3、WAV等文件,并将上述语音文件上传至边缘节点。为了减少传输信息量,客户端设备也可以进一步对记录的MP3或WAV文件进行特征提取(例如,提取MFCC特征)的处理,并将特征提取后的特征文件作为语音文件上传到边缘节点。此外,根据本发明一个实施例的客户端设备可以对自身生成的语音文件打上时间戳,以指示记录来自客户端设备的语音文件的时间,也即与语音文件对应的时间信息。
在上述步骤101中,上述客户端设备所在位置附近的背景音可以由该客户端设备的服务小小区基站或AP,也即边缘节点记录。具体地,可以在边缘节点内部安装声音捕获装置,由声音捕获装置捕获并记录自身周围的背景音,然后反馈给边缘节点。在本发明的一个实施例中,边缘节点可以一直记录自身周围的背景音,并为所记录的背景音打上时间戳,以指示与所记录的背景音对应的时间信息;边缘节点也可以实时监测背景音的强度,当发现背景音的强度超度了预设门限之后才开始记录。或者,根据本发明的另一个实施例,边缘节点并不用一直记录自身周围的背景音,而是在收到客户端设备上传的语音信号后,才开始记录附近的背景音,所记录的背景音足够生成噪音模型即可。
在上述步骤102中,用于生成噪音模型的背景音的记录时间应当与上述客户端设备语音信号的记录时间相对应。具体而言,如果客户端设备上传的语音文件上带有时间戳,且边缘节点可以一直记录自身周围的背景音,则边缘节点在收到客户端设备上传的语音文件后,会首先根据语音文件对应的时间戳找到该时间戳所指示时间对应的背景音,再根据该背景音生成噪音模型。或者,如果客户端设备上传的语音文件上没有时间戳,但是边缘节点可以一直记录自身周围的背景音,则边缘节点会在收到客户端上传的语音信号后,根据接收到语音文件的时间找到与该时间对应的背景音,再根据该背景音生成噪音模型。又或者,边缘节点会在收到客户端上传的语音文件后才开始记录自身周围的背景音,然后根据自身记录的附近的环境噪音生成噪音模型。具体而言,在本发明的实施例中可以根据多种方法生成噪音模型,例如,利用高斯混合模型(GMM)或非复矩阵因式分解(NMF)来生成。
在上述步骤103中,可以由边缘节点根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理;也可以由位于云端的语音识别引擎进行降噪处理。
在上述步骤104中,可以由边缘节点对降噪后的语音信号进行语音识别得到识别后的文本;或者也可以由云端的语音识别引擎进行语音识别。
下面就结合具体的附图2至4详细说明本发明的一个实施例。在本实施例中,对语音文件的降噪处理、语音输入结束检测以及语音识别处理都在边缘节点处完成。
图2显示了根据本实施例的语音识别方法。如图2所示,该方法主要包括以下步骤:
步骤201:客户端设备记录来自用户的语音信号。
在本步骤中,在用户按下进行语音识别的按键后,客户端设备就开始记录来自用户的语音信号。
步骤202:客户端设备根据记录的语音信号生成语音文件。上述语音文件包括但不限于MP3、WAVE以及MFCC等文件。
更进一步,在本步骤中,客户端设备可以在生成的语音文件中添加时间戳,以指示语音文件对应的时间信息。
步骤203:客户端设备将生成的语音文件上传至为客户端设备提供服务的边缘节点。
步骤204:边缘节点记录自身所在位置附近的背景音。
如前所述,在本步骤中,边缘节点可以在接收到客户端设备上传的语音文件后开始记录自身所在位置附近的背景音。此外,边缘节点还可以持续记录自身所在位置附近的背景音。
步骤205:边缘节点根据记录的背景音生成噪音模型。
在生成噪音模型时,如果从客户端设备接收到的语音文件中有时间戳,则边缘节点会根据语音文件对应的时间戳找到该时间戳所指示时间对应的背景音,然后根据该背景音生成噪音模型;或者,如果客户端设备上传的语音文件上没有时间戳,则边缘节点会在收到客户端上传的语音信号后,根据接收到语音文件的时间找到与该时间对应的背景音,然后根据该背景音生成噪音模型;又或者边缘节点会在收到客户端上传的语音信号后开始记录背景音,并根据记录的背景音生成噪音模型。
具体而言,根据本发明的一个实施例只有当背景音的音量大于预先设置的音量门限时客户端设备才会记录自身周围的背景音;而在背景音的音量小于或等于该音量门限时,边缘节点可以不记录背景音而直接将自身周围的背景音设置为0。
步骤206:边缘节点根据生成的噪音模型对接收的语音文件进行降噪处理。
步骤207:边缘节点根据降噪处理后的语音文件,进行语音输入结束检测,确定用户在什么时刻结束语音输入。
具体而言,在本步骤中,边缘节点会将降噪处理后的语音文件在各个时刻上的幅值与预先设置的静音门限进行比较,如果从某个时刻开始,各个时刻的幅值小于预先设置的静音门限,则从语音文件中删除这个时刻之后的部分。
步骤208:边缘节点对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本。
步骤209:边缘节点将识别后的文本上传至应用服务器。
本领域技术人员可以理解,由于客户端设备和边缘节点所处的位置不同,因此背景音的大小也可能会不同,为了减小不同位置上背景音的差异对降噪效果的影响,在上述方法的步骤205之前,即生成噪音模型之前,边缘节点还可以进一步进行背景音的传播损耗估计,并根据传播损耗估计结果对自身记录的背景音进行补偿,得到更为接近客户端设备处的背景音。
具体而言,在具体的实现中,可以根据声源的不同类型进行不同的处理。比如对于点声源,可以采用基于距离的方法,即边缘节点可以根据背景音的声源与客户端设备之间的距离以及背景音的声源与边缘节点之间的距离进行传播损耗估计,以对将边缘节点处记录的背景音进行补偿,得到更为接近客户端设备处的背景音。具体方法如下:
假设背景音的声源与客户端设备之间的距离为d1,背景音的声源与边缘节点之间的距离为d2。假设在边缘节点处接收到的来自客户端设备的信号为Y1,而边缘节点处接收到的来自背景音的声源的信号为Y2。则可以确定客户端设备接收的语音信号可以用如下的公式(1)来表示。其中,背景音的声源与边缘节点之间的距离d2可以预先设定(例如在音乐厅,播放音乐的喇叭和边缘节点之间的距离是固定且已知的);而背景音的声源与客户端设备之间的距离d1可以通过GPS来确定。
x ^ = Y 1 - Y 2 · d 2 2 d 1 2 - - - ( 1 )
此外,边缘节点还可以采用基于功率密度的方法,即根据从客户端设备接收的语音文件中背景音的功率密度以及自身记录的背景音的功率密度进行传播损耗估计,以对将边缘节点处记录的背景音进行补偿,得到更为接近客户端设备处的背景音。需要说明的是,这一方法适合于各种声源类型。具体方法如下:
首先,客户端设备确定所接收语音信号中背景音的功率密度PUE,上述功率密度PUE可以从客户端设备接收的语音信号中的语言停顿中得到;
客户端设备将确定的语音信号中背景音的功率密度PUE上传给边缘节点;
边缘节点确定自身所记录背景音的功率密度PeNB;以及
边缘节点通过比较语音信号中背景音的功率密度PUE以及边缘节点自身所记录背景音的功率密度PeNB确定传播损耗,对边缘节点自身所记录背景音进行补偿,得到更为接近客户端设备处的背景音。
图3显示了执行本实施例所述语音识别方法的客户端设备的内部结构。如图3所示,本实施例所述的客户端设备包括:
语音信号记录模块301,用于接收并记录来自客户端设备的语音信号;
语音文件生成模块302,用于对根据记录的语音信号生成语音文件;以及
上传模块303,用于将生成的语音文件上传至客户端设备所在的边缘节点。
如前所述,上述客户端设备还可以包括:时间戳模块,用于在生成的语音文件中添加时间戳,以指示语音文件对应的时间信息。
图4显示了执行本实施例的语音识别方法的边缘节点的内部结构。如图4所示,本实施例所述的边缘节点包括:
背景音记录模块401,用于记录自身所在位置附近的背景音;
如前所述,背景音记录模块401可以在接收到客户端设备上传的语音文件后开始记录自身所在位置附近的背景音;还可以持续记录自身所在位置附近的背景音;
噪音模型生成模块402,用于根据记录的背景音生成噪音模型;
降噪模块403,用于根据生成的噪音模型对接收的语音文件进行降噪处理;
语音输入结束检测模块404,用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较,如果从某个时刻开始,各个时刻的幅值小于预先设置的静音门限,则从语音文件中删除这个时刻之后的部分;
语音识别模块405,用于对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本;以及
文本上传模块406,用于将识别后的文本上传至应用服务器。
其中,语音识别模块404可以包括:语音库、语言库以及搜索和解码单元,其中语音库用于存储各种不同类型声音,针对同一文本内容的发音;语言库用于存储各种不同语言的词汇信息;搜索和解码单元用于根据语音库和语言库,对所接收的语音文件进行搜索和解码得到识别后的文本。
本领域技术人员可以理解,由于客户端设备和边缘节点所处的位置不同,因此背景音的大小也可能会不同,为了减小上述差异对降噪效果的影响,上述边缘节点还可以进一步包括:传播损耗估计模块,用于进行背景音的传播损耗估计,并根据传播损耗估计结果对自身记录的背景音进行补偿,得到更为接近客户端设备处的背景音。具体方法可以用如前所述的基于距离的方法或基于功率密度的方法。
下面再结合具体的附图5至7详细说明本发明的另一个实施例。在本实施例中,对语音文件的降噪处理和语音输入结束检测在边缘节点处完成;而语音识别处理在云端的语音识别引擎处完成。
图5显示了根据本实施例的语音识别方法。如图5所示,该方法主要包括以下步骤:
步骤201:客户端设备接收并记录来自用户的语音信号。
步骤202:客户端设备根据记录的语音信号生成语音文件。
步骤203:客户端设备将生成的语音文件上传至客户端设备所在的边缘节点。
步骤204:边缘节点记录自身所在位置附近的背景音。
步骤205:边缘节点根据记录的背景音生成噪音模型。
步骤206:边缘节点根据生成的噪音模型对接收的语音文件进行降噪处理。
步骤207:边缘节点根据降噪处理后的语音文件,进行语音输入结束检测,确定用户在什么时刻结束语音输入。
在本发明的实施例中,相同的步骤标号代表相同的内容,因此以上步骤201至207和之前实施例中描述的步骤201至207相同,在此就不再赘述了。
步骤501:边缘节点将语音输入结束检测后的语音文件上传至语音识别引擎。
步骤502:语音识别引擎对语音文件进行语音识别得到识别后的文本。
具体而言,在本步骤中,语音识别引擎可以对降噪后的语音文件进行语音识别。
步骤503:语音识别引擎将识别后的文本上传至应用服务器。
此外,如前所述,在上述步骤205之前,即生成噪音模型之前,边缘节点还可以进一步进行背景音的传播损耗估计,并根据传播损耗估计结果对自身记录的背景音进行补偿,得到更为接近客户端设备处的背景音。具体而言,边缘节点可以通过基于距离的方法或基于功率密度的方法对背景音进行传播损耗估计。
在本实施例中,客户端设备的内部结构也将如图3所示。也即在本实施例中,客户端设备也将包括语音信号记录模块301、特征提取模块302以及上传模块303。此外,客户端设备还可以包括时间戳模块。
图6显示了执行本实施例的语音识别方法的边缘节点的内部结构。如图6所示,本实施例所述的边缘节点包括:背景音记录模块401、噪音模型生成模块402、降噪模块403、语音输入结束检测模块404以及文件上传模块601,用于将语音输入结束检测后的语音文件上传至语音识别引擎。
在本发明的实施例中,相同的模块标号代表相同的内容,因此以上模块401至404和之前实施例中描述的模块401至404相同,在此就不再赘述了。
上述边缘节点还可以进一步包括:传播损耗估计模块,用于进行背景音的传播损耗估计,并根据传播损耗估计结果对自身记录的背景音进行补偿,得到更为接近客户端设备处的背景音。具体方法可以用如前所述的基于距离的方法或基于功率密度的方法。
图7显示了执行本实施例的语音识别方法的语音识别引擎的内部结构。如图7所示,本实施例所述的语音识别引擎包括:语音库701、语言库702以及搜索和解码单元703,其中,语音库701用于存储各种不同类型声音,针对同一文本内容的发音;语言库702用于存储各种不同语言的词汇信息;搜索和解码单元703用于根据语音库和语言库,对所接收的语音文件进行搜索和解码得到识别后的文本。语音识别引擎还包括:文本上传模块406,用于将识别后的文本上传至应用服务器。
作为上述实施例的变形,在上述实施例中,边缘节点在收到客户端设备上传的语音文件后也可以先不进行步骤205至206的降噪处理,而是把接收到的语音文件进行语音输入结束检测后直接上传至云端的语音识别引擎进行语音识别处理。如果语音识别引擎判断语音识别的识别率大于预先设置的识别门限,则语音识别引擎可以直接将识别后的文本上传给应用服务器。而如果语音识别引擎判断语音识别的识别率小于或等于预先设置的识别门限,则语音识别引擎将向为该客户端设备提供服务的边缘节点发送降噪请求。在这种情况下,边缘节点在收到语音识别引擎的降噪请求后将执行上述步骤205至206进行降噪处理,并在再次执行语音输入结束检测处理后,将处理后的语音文件重新上传到语音识别引擎,由语音识别引擎再次进行语音识别,以提高语音识别的识别率。
下面就结合具体的附图8至10详细说明本发明的又一个实施例。在本实施例中,对语音文件的降噪处理在边缘节点处完成,而语音输入结束检测以及语音识别处理将在云端的语音识别引擎处完成。
图8显示了根据本实施例的语音识别方法。如图8所示,该方法主要包括以下步骤:
步骤201:客户端设备接收并记录来自用户的语音信号。
步骤202:客户端设备根据记录的语音信号生成语音文件。
步骤203:客户端设备将生成的语音文件上传至客户端设备所在的边缘节点。
步骤204:边缘节点记录自身所在位置附近的背景音。
步骤205:边缘节点根据记录的背景音生成噪音模型。
步骤206:边缘节点根据生成的噪音模型对接收的语音文件进行降噪处理。
在本发明的实施例中,相同的步骤标号代表相同的内容,因此以上步骤201至206和之前实施例中描述的步骤201至206相同,在此就不再赘述了。
步骤801:边缘节点将降噪处理后的语音文件上传至语音识别引擎。
步骤802:语音识别引擎根据降噪处理后的语音文件,进行语音输入结束检测,确定用户在什么时刻结束语音输入。
具体而言,在本步骤中,语音识别引擎会将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较,如果从某个时刻开始,各个时刻的幅值小于预先设置的静音门限,则从语音文件中删除这个时刻之后的部分。
步骤502:语音识别引擎对语音文件进行语音识别得到识别后的文本。
步骤503:语音识别引擎将识别后的文本上传至应用服务器。
此外,如前所述,在上述步骤205之前,即生成噪音模型之前,边缘节点还可以进一步进行背景音的传播损耗估计,并根据传播损耗估计结果对自身记录的背景音进行补偿,得到更为接近客户端设备处的背景音。具体而言,边缘节点可以通过基于距离的方法或基于功率密度的方法对背景音进行传播损耗估计。
在本实施例中,客户端设备的内部结构也将如图3所示。也即在本实施例中,客户端设备也将包括语音信号记录模块301、特征提取模块302以及上传模块303。此外,客户端设备还可以包括时间戳模块。
图9显示了执行本实施例的语音识别方法的边缘节点的内部结构。如图9所示,本实施例所述的边缘节点包括:背景音记录模块401、噪音模型生成模块402、降噪模块403、以及第二文件上传模块901,用于将降噪后的语音文件上传至语音识别引擎。
在本发明的实施例中,相同的模块标号代表相同的内容,因此以上模块401至403和之前实施例中描述的模块401至403相同,在此就不再赘述了。
上述边缘节点还可以进一步包括:传播损耗估计模块,用于进行背景音的传播损耗估计,并根据传播损耗估计结果对自身记录的背景音进行补偿,得到更为接近客户端设备处的背景音。具体方法可以用如前所述的基于距离的方法或基于功率密度的方法。
图10显示了执行本实施例的语音识别方法的语音识别引擎的内部结构。如图10所示,本实施例所述的语音识别引擎包括:语音输入结束检测模块404、语音库701、语言库702、搜索和解码单元703以及文本上传模块406。以上模块404、406以及模块701至703和之前实施例中描述的模块404、406以及模块701至703相同,在此就不再赘述了。
作为上述实施例的变形,在上述实施例中,边缘节点在收到客户端设备上传的语音文件后也可以先不进行步骤205至206的降噪处理,而是把接收到的语音文件直接上传至云端的语音识别引擎进行语音输入结束检测以及语音识别处理。如果语音识别引擎判断语音识别的识别率大于预先设置的识别门限,则语音识别引擎可以直接将识别后的文本上传给应用服务器。而如果语音识别引擎判断语音识别的识别率小于或等于预先设置的识别门限,则语音识别引擎将向为该客户端设备提供服务的边缘节点发送降噪请求。在这种情况下,边缘节点在收到语音识别引擎的降噪请求后将执行上述步骤205至206进行降噪处理,并将处理后的语音文件重新上传到语音识别引擎,由语音识别引擎再次进行语音输入结束检测以及语音识别,以提高语音识别的识别率。
下面就结合具体的附图11至14详细说明本发明的又一个实施例。在本实施例中,对语音文件的降噪处理、语音输入结束检测以及语音识别处理均将在云端的语音识别引擎处完成。
本实施例中,除了客户端设备、边缘节点以及语音识别引擎之外,语音识别系统还将包括控制服务器,用于接收或者/和管理边缘节点记录的背景音,并根据客户端设备所在的位置以及来自客户端设备的语音信号记录的时间向语音识别引擎提供相应的背景音。
图11显示了根据本实施例的语音识别方法。如图11所示,该方法主要包括以下步骤:
步骤201:客户端设备接收并记录来自用户的语音信号。
步骤202:客户端设备根据记录的语音信号生成语音文件。
步骤1101:客户端设备将生成的语音文件通过客户端设备所在的边缘节点上传至语音识别引擎。
步骤1102:语音识别引擎对所接收语音文件进行语音输入结束检测,确定用户在什么时刻结束语音输入。具体而言,在本步骤中,语音识别引擎会将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较,如果从某个时刻开始,各个时刻的幅值小于预先设置的静音门限,则从语音文件中删除这个时刻之后的部分。
步骤1103:语音识别引擎对语音文件进行语音识别得到识别后的文本。
步骤1104:如果语音识别引擎判断语音识别的识别率大于预先设置的识别门限,则执行步骤503,即语音识别引擎将识别后的文本上传给应用服务器;如果语音识别引擎判断语音识别的识别率小于或等于预先设置的识别门限,则执行步骤1105;
步骤1105:语音识别引擎将向控制服务器发送背景音记录上传请求,该背景音记录上传请求中携带客户端设备的位置信息。
步骤1106:控制服务器在收到来自语音识别引擎的背景音记录上传请求后,根据背景音记录上传请求中携带的客户端设备的位置信息确定为该客户端设备服务的边缘节点,并向该边缘节点转发背景音记录上传请求。
步骤1107:边缘节点在收到来自控制服务器的背景音记录上传请求后,将自身记录的背景音通过控制服务器上传至语音识别引擎。
步骤1108:语音识别引擎根据接收的背景音生成噪音模型。
步骤1109:语音识别引擎根据生成的噪音模型对接收的语音文件进行降噪处理。
步骤802:语音识别引擎根据降噪处理后的语音文件,进行语音输入结束检测,确定用户在什么时刻结束语音输入。
步骤502:语音识别引擎对语音输入结束检测后的语音文件进行语音识别得到识别后的文本。
步骤503:语音识别引擎将识别后的文本上传至应用服务器。
此外,如前所述,在上述步骤1107之前,即在上传所记录的背景音之前,边缘节点还可以进一步进行背景音的传播损耗估计,并根据传播损耗估计结果对自身记录的背景音进行补偿,得到更为接近客户端设备处的背景音。具体而言,边缘节点可以通过基于距离的方法或基于功率密度的方法对背景音进行传播损耗估计。
在本实施例中,客户端设备的内部结构也将如图3所示。也即在本实施例中,客户端设备也将包括语音信号记录模块301、特征提取模块302以及上传模块303。客户端设备还可以包括时间戳模块。
图12显示了执行本实施例的语音识别方法的边缘节点的内部结构。如图12所示,本实施例所述的边缘节点包括:背景音记录模块401以及请求接收模块1201,用于接收来自控制服务器的背景音记录上传请求;和背景音上传模块1202,用于将自身记录的背景音上传至控制服务器。如前所述,上述边缘节点还可以进一步包括:传播损耗估计模块。
图13显示了执行本实施例的语音识别方法的控制服务器的内部结构,如图13所示,本实施例所述的控制服务器包括:
上传请求接收模块1301,用于接收来自语音识别引擎的背景音记录上传请求;
匹配模块1302,用于根据背景音记录上传请求中携带的客户端设备的位置信息确定为该客户端设备服务的边缘节点;
转发模块1303,用于向该边缘节点转发背景音记录上传请求;并将该边缘节点上传的背景音转发至语音识别引擎。
图14显示了执行本实施例的语音识别方法的语音识别引擎的内部结构。如图14所示,本实施例所述的语音识别引擎包括:
控制模块1401,用于在收到语音文件后判断是否需要进行降噪处理,如果不需要降噪处理(例如第一次对该语音文件进行语音识别),则触发语音输入结束检测模块404对语音文本进行语音输入结束检测;而如果需要降噪处理(例如之前语音识别的识别率较低),则控制请求模块1402向控制服务器发送背景音记录上传请求;
请求模块1402,用于向控制服务器发送背景音记录上传请求;
背景音接收模块1403,用于从控制服务器接收服务客户端设备的边缘节点记录的背景音;
噪音模型生成模块402,用于根据所接收的背景音生成噪音模型;
降噪模块403,用于根据生成的噪音模型对接收的语音文件进行降噪处理,并触发语音输入结束检测模块404对语音文本进行语音输入结束检测。
语音识别引擎还包括:语音库701、语言库702、搜索和解码单元703以及文本上传模块406。搜索和解码单元703用于根据语音库和语言库,对语音输入结束检测后的语音文件进行搜索和解码得到识别后的文本;文本上传模块406用于将识别后的文本上传至应用服务器。
从上述实施例可以看出,在本发明的实施例中,用于干扰消除的背景音是由客户端设备所在位置附近的边缘节点捕获并记录的,能及时并且准确地反映出客户端设备所在位置附近的环境噪音或外部声音情况,因此,以此背景音声称噪音模型并进行降噪可以获得非常好的降噪效果,从而可以大大提高语音识别的识别率。此外,除了上述方法,本发明的实施例还可以进一步对所记录的背景音进行传播损耗估计,以补偿客户端设备处的背景音和边缘节点处背景音的不同,从而进一步提高降噪的效果,进而提高语音识别的识别率。
更进一步,本发明实施例提出的语音识别方法以及装置对于各种类型的环境噪音或者外部声音都有很好的降噪效果,可以应用到各种环境中。
而且,本发明实施例提出的语音识别方法以及装置对客户端的要求并不高,因此容易推广。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (21)

1.一种语音识别方法,其特征在于,包括:
记录客户端设备所在位置附近的背景音,并根据记录的背景音生成噪音模型;
根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理;以及
对降噪后的语音文件进行语音识别得到识别后的文本。
2.根据权利要求1所述的方法,其特征在于,所述记录客户端设备所在位置附近的背景音包括:服务所述客户端设备的边缘节点记录自身周围的背景音。
3.根据权利要求1所述的方法,其特征在于,所述语音文件包含时间戳;
所述根据记录的背景音生成噪音模型包括:所述边缘节点根据所述语音文件对应的时间戳查找所述时间戳所指示时间对应的背景音,根据所述背景音生成噪音模型。
4.根据权利要求1所述的方法,其特征在于,所述根据记录的背景音生成噪音模型包括:边缘节点根据接收到所述语音文件的时间查找与所述时间对应的背景音,并根据该背景音生成噪音模型。
5.根据权利要求1所述的方法,其特征在于,所述根据记录的背景音生成噪音模型包括:边缘节点在收到客户端上传的语音信号后开始记录背景音,并根据记录的背景音生成噪音模型。
6.根据权利要求1所述的方法,其特征在于,所述根据记录的背景音生成噪音模型包括:
语音识别引擎向控制服务器发送背景音记录上传请求;以及
在收到控制服务器上传的背景音后,语音识别引擎根据控制服务器上传的背景音生成噪音模型。
7.根据权利要求6所述的方法,其特征在于,所述根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理包括:所述语音识别引擎根据生成的噪音模型对从边缘节点接收的语音文件进行降噪处理,并对降噪处理后的语音文件进行语音输入结束检测;
所述对降噪后的语音文件进行语音识别得到识别后的文本包括:所述语音识别引擎对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本,并将识别后的文本上传至应用服务器。
8.根据权利要求1所述的方法,其特征在于,所述根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理包括:所述边缘节点根据生成的噪音模型对语音文件进行降噪处理,并对降噪处理后的语音文件进行语音输入结束检测;
所述对降噪后的语音文件进行语音识别得到识别后的文本包括:边缘节点对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本,并将识别后的文本上传至应用服务器。
9.根据权利要求1所述的方法,其特征在于,所述根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理包括:所述边缘节点根据生成的噪音模型对语音文件进行降噪处理,对降噪处理后的语音文件进行语音输入结束检测,并将语音输入结束检测处理后的语音文件上传至语音识别引擎;
所述对降噪后的语音文件进行语音识别得到识别后的文本包括:语音识别引擎对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本,并将识别后的文本上传至应用服务器。
10.根据权利要求1所述的方法,其特征在于,所述根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理包括:所述边缘节点根据生成的噪音模型对语音文件进行降噪处理,并将降噪处理后的语音文件上传至语音识别引擎;
所述对降噪后的语音文件进行语音识别得到识别后的文本包括:语音识别引擎对降噪处理后的语音文件进行语音输入结束检测,对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本,并将识别后的文本上传至应用服务器。
11.根据权利要求1所述的方法,其特征在于,在根据记录的背景音生成噪音模型之前,进一步包括:对记录的背景音进行传播损耗估计,并根据传播损耗估计结果对自身记录的背景音进行补偿。
12.一种边缘节点,其特征在于,包括:
背景音记录模块(401),用于记录自身所在位置附近的背景音。
13.根据权利要求12所述的边缘节点,其特征在于,进一步包括:
请求接收模块(1201),用于接收来自控制服务器的背景音记录上传请求;以及
背景音上传模块(1202),用于将自身记录的背景音上传至控制服务器。
14.根据权利要求12所述的边缘节点,其特征在于,进一步包括:
噪音模型生成模块(402),用于根据记录的背景音生成噪音模型;
降噪模块(403),用于根据生成的噪音模型对接收的语音文件进行降噪处理;
语音输入结束检测模块(404),用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较,如果从某个时刻开始,各个时刻的幅值小于预先设置的静音门限,则从语音文件中删除这个时刻之后的部分;
语音识别模块(405),用于对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本;以及
文本上传模块(406),用于将识别后的文本上传至应用服务器。
15.根据权利要求12所述的边缘节点,其特征在于,进一步包括:
噪音模型生成模块(402),用于根据记录的背景音生成噪音模型;
降噪模块(403),用于根据生成的噪音模型对接收的语音文件进行降噪处理;
语音输入结束检测模块(404),用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较,如果从某个时刻开始,各个时刻的幅值小于预先设置的静音门限,则从语音文件中删除这个时刻之后的部分;以及
文件上传模块(601),用于将语音输入结束检测后的语音文件上传至语音识别引擎。
16.根据权利要求12所述的边缘节点,其特征在于,进一步包括:
噪音模型生成模块(402),用于根据记录的背景音生成噪音模型;
降噪模块(403),用于根据生成的噪音模型对接收的语音文件进行降噪处理;以及
第二文件上传模块(901),用于将降噪后的语音文件上传至语音识别引擎。
17.根据权利要求14、15或16所述的边缘节点,其特征在于,进一步包括:
传播损耗估计模块,用于对所记录的背景音进行传播损耗估计,并根据传播损耗估计结果对所记录的背景音进行补偿。
18.一种语音识别引擎,其特征在于,包括:
语音库(701),用于存储各种不同类型声音,针对同一文本内容的发音;
语言库(702),用于存储各种不同语言的词汇信息;
搜索和解码单元(703),用于根据语音库和语言库,对所接收的语音文件进行搜索和解码得到识别后的文本;以及
文本上传模块(406),用于将识别后的文本上传至应用服务器。
19.根据权利要求18所述的语音识别引擎,其特征在于,进一步包括:
语音输入结束检测模块(404),用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较,如果从某个时刻开始,各个时刻的幅值小于预先设置的静音门限,则从语音文件中删除这个时刻之后的部分。
20.根据权利要求19所述的语音识别引擎,其特征在于进一步包括:
控制模块(1401),用于在收到语音文件后判断是否需要进行降噪处理,如果不需要降噪处理,则触发语音输入结束检测模块(404)对语音文本进行语音输入结束检测;而如果需要降噪处理,则控制请求模块(1402)向控制服务器发送背景音记录上传请求;
请求模块(1402),用于向控制服务器发送背景音记录上传请求;
背景音接收模块(1403),用于从控制服务器接收服务客户端设备的边缘节点记录的背景音;
噪音模型生成模块(402),用于根据所接收的背景音生成噪音模型;以及
降噪模块(403),用于根据生成的噪音模型对接收的语音文件进行降噪处理,并触发语音输入结束检测模块(404)对语音文本进行语音输入结束检测。
21.一种控制服务器,其特征在于,包括:
上传请求接收模块(1301),用于接收来自语音识别引擎的背景音记录上传请求;
匹配模块(1302),用于根据背景音记录上传请求中携带的客户端设备的位置信息确定为该客户端设备服务的边缘节点;以及
转发模块(1303),用于向该边缘节点转发背景音记录上传请求;并将该边缘节点上传的背景音转发至语音识别引擎。
CN201410022569.8A 2014-01-17 2014-01-17 语音识别方法和装置 Pending CN104795066A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410022569.8A CN104795066A (zh) 2014-01-17 2014-01-17 语音识别方法和装置
JP2015005684A JP2015135494A (ja) 2014-01-17 2015-01-15 音声認識方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410022569.8A CN104795066A (zh) 2014-01-17 2014-01-17 语音识别方法和装置

Publications (1)

Publication Number Publication Date
CN104795066A true CN104795066A (zh) 2015-07-22

Family

ID=53559825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410022569.8A Pending CN104795066A (zh) 2014-01-17 2014-01-17 语音识别方法和装置

Country Status (2)

Country Link
JP (1) JP2015135494A (zh)
CN (1) CN104795066A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427870A (zh) * 2015-12-23 2016-03-23 北京奇虎科技有限公司 一种针对停顿的语音识别方法和装置
CN106941619A (zh) * 2017-03-16 2017-07-11 百度在线网络技术(北京)有限公司 基于人工智能的节目提醒方法、装置以及系统
CN107028524A (zh) * 2015-12-08 2017-08-11 太琦科技股份有限公司 语音控制型洗浴系统及其操作方法
CN107945804A (zh) * 2017-12-07 2018-04-20 杭州测质成科技有限公司 基于语音识别的任务管理与量具数据提取系统及其方法
CN108630193A (zh) * 2017-03-21 2018-10-09 北京嘀嘀无限科技发展有限公司 语音识别方法及装置
CN108986830A (zh) * 2018-08-28 2018-12-11 安徽淘云科技有限公司 一种音频语料筛选方法及装置
CN109410920A (zh) * 2018-10-15 2019-03-01 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN110187859A (zh) * 2019-04-12 2019-08-30 华为技术有限公司 一种去噪方法及电子设备
CN110867184A (zh) * 2019-10-23 2020-03-06 张家港市祥隆五金厂 一种语音智能终端设备
CN111768768A (zh) * 2020-06-17 2020-10-13 北京百度网讯科技有限公司 语音处理方法、装置、外设操控设备及电子设备

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180042659A (ko) * 2016-10-18 2018-04-26 주식회사 아트메스 계측데이터 처리 방법 및 그 장치
CN111415653B (zh) * 2018-12-18 2023-08-01 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
CN111464644B (zh) * 2020-04-01 2023-04-28 北京声智科技有限公司 一种数据传输方法及电子设备
CN111768759A (zh) * 2020-06-29 2020-10-13 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN112053702B (zh) * 2020-09-30 2024-03-19 北京大米科技有限公司 一种语音处理的方法、装置及电子设备
CN114220432A (zh) * 2021-11-15 2022-03-22 交通运输部南海航海保障中心广州通信中心 基于海事单边带语音自动监听方法、系统及存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107028524A (zh) * 2015-12-08 2017-08-11 太琦科技股份有限公司 语音控制型洗浴系统及其操作方法
CN105427870B (zh) * 2015-12-23 2019-08-30 北京奇虎科技有限公司 一种针对停顿的语音识别方法和装置
CN105427870A (zh) * 2015-12-23 2016-03-23 北京奇虎科技有限公司 一种针对停顿的语音识别方法和装置
CN106941619A (zh) * 2017-03-16 2017-07-11 百度在线网络技术(北京)有限公司 基于人工智能的节目提醒方法、装置以及系统
CN108630193A (zh) * 2017-03-21 2018-10-09 北京嘀嘀无限科技发展有限公司 语音识别方法及装置
CN107945804A (zh) * 2017-12-07 2018-04-20 杭州测质成科技有限公司 基于语音识别的任务管理与量具数据提取系统及其方法
CN108986830A (zh) * 2018-08-28 2018-12-11 安徽淘云科技有限公司 一种音频语料筛选方法及装置
CN109410920A (zh) * 2018-10-15 2019-03-01 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN110187859A (zh) * 2019-04-12 2019-08-30 华为技术有限公司 一种去噪方法及电子设备
WO2020207376A1 (zh) * 2019-04-12 2020-10-15 华为技术有限公司 一种去噪方法及电子设备
CN110867184A (zh) * 2019-10-23 2020-03-06 张家港市祥隆五金厂 一种语音智能终端设备
CN111768768A (zh) * 2020-06-17 2020-10-13 北京百度网讯科技有限公司 语音处理方法、装置、外设操控设备及电子设备
CN111768768B (zh) * 2020-06-17 2023-08-29 北京百度网讯科技有限公司 语音处理方法、装置、外设操控设备及电子设备

Also Published As

Publication number Publication date
JP2015135494A (ja) 2015-07-27

Similar Documents

Publication Publication Date Title
CN104795066A (zh) 语音识别方法和装置
JP6916352B2 (ja) 分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答
US11482242B2 (en) Audio recognition method, device and server
KR101954550B1 (ko) 음량조절 방법, 시스템, 디바이스 및 컴퓨터 저장매체
US9093069B2 (en) Privacy-sensitive speech model creation via aggregation of multiple user models
EP2681896B1 (en) Method and apparatus for identifying mobile devices in similar sound environment
KR102257910B1 (ko) 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법
JP2019204073A (ja) 音声区間の認識方法、装置及び機器
CA2899657A1 (en) Method and device for audio recognition
CN108351872A (zh) 用于提供响应的设备选择
CN105874732B (zh) 用于识别音频流中的一首音乐的方法和装置
US9373336B2 (en) Method and device for audio recognition
KR20130117844A (ko) 환경 사운드 인식용 시스템 및 방법
JP2006190296A (ja) マルチメディア通信システムにおけるコンテキスト抽出及びこれを用いた情報提供装置及び方法
CN105489221A (zh) 一种语音识别方法及装置
CN107293307A (zh) 音频检测方法及装置
CN104598644A (zh) 用户喜好标签挖掘方法和装置
KR102312993B1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
WO2014173325A1 (zh) 喉音识别方法及装置
CN106791125A (zh) 移动终端及其通话记录的生成方法
CN112242149A (zh) 音频数据的处理方法、装置、耳机及计算机可读存储介质
WO2012121856A1 (en) Sound recognition method and system
JP2016045253A (ja) データ構造、音声対話装置及び電子機器
WO2017117234A1 (en) Responding to remote media classification queries using classifier models and context parameters
Nan et al. One solution for voice enabled smart home automation system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150722

WD01 Invention patent application deemed withdrawn after publication