CN117178320A - 用于语音代听和生成语音识别模型的方法、装置、电子设备和介质 - Google Patents
用于语音代听和生成语音识别模型的方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN117178320A CN117178320A CN202180093163.7A CN202180093163A CN117178320A CN 117178320 A CN117178320 A CN 117178320A CN 202180093163 A CN202180093163 A CN 202180093163A CN 117178320 A CN117178320 A CN 117178320A
- Authority
- CN
- China
- Prior art keywords
- target
- model
- user terminal
- recognition model
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000007613 environmental effect Effects 0.000 claims abstract description 50
- 238000006467 substitution reaction Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 12
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 32
- 238000004891 communication Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 20
- 230000005540 biological transmission Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000001413 cellular effect Effects 0.000 description 8
- 230000003993 interaction Effects 0.000 description 8
- 238000013507 mapping Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000010006 flight Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于语音代听的方法,该方法应用于用户终端(110,120),包括:获取目标关键词对应的语音识别模型,语音识别模型为根据目标关键词构建,目标关键词为根据用户的出行信息获取(310);根据目标语音识别模型对本地语音识别模型进行更新,获得更新后的语音识别模型,本地语音识别模型为用户终端中存储的语音识别模型(320);当满足目标条件时(330),根据更新后的语音识别模型对采集到的环境声音进行识别,获得识别结果(340),环境声音为在用户终端所处的环境中采集到的声音信息;以及当识别结果指示环境声音中存在目标关键词时(350),对用户进行提示(360)。用于语音代听的方法在用户无法清楚听见环境声音时,帮助用户识别环境声音中的目标关键词,从而实现个性化智能代听。
Description
本发明涉及人工智能技术领域,具体涉及用于语音代听和生成语音识别模型的方法、装置、电子设备和介质。
随着近年来深度学习技术和大规模集成电路、数字电路、信号处理、微电子技术的飞速发展,各类搭载语音识别技术的消费电子产品越来越普及。通过语言识别技术,电子产品可以接收语音指令,通过识别语音指令来执行用户想要的操作。
遗憾的是,现有的电子产品大多是识别厂商提供的语音命令,针对用户的个性化关键词的语音识别较为困难,而且通常需要人工输入待识别的个性化关键词,经机器掌握后才具备识别该关键词的能力。该方案依赖人工主动输入,在使用便利性上有所不足,而且需要较多计算资源。此外,现有语音识别技术在噪声环境下性能较差,例如,当希望在机场、火车站等高噪声、强混响环境下识别广播中的列车车次或航班号时,难以获取令人满意的效果。
发明内容
本公开的实施例提供了用于语音识别的方案,其实现了针对个性化关键词的语音代听。
根据本公开的第一方面,提供了一种用于语音代听的方法,所述方法应用于用户终端,包括:获取目标关键词对应的目标语音识别模型,所述目标语音识别模型为根据所述目标关键词构建,所述目标关键词为根据用户的出行信息获取;根据所述目标语音识别模型对本地语音识别模型进行更新,获得更新后的语音识别模型,所述本地语音识别模型为所述用户终端中存储的语音识别模型;当满足目标条件时,根据所述更新后的语音识别模型对采集到的环境声音进行识别,获得识别结果,所述环境声音为在所述用户终端所处的环境中采集到的声音信息;以及当所述识别结果指示所述环境声音中存在所述目标关键词时,对所述用户进行提示。以此方式,能够在环境声音中检测出行信息的目标关键词,并检测到环境声音包括目标关键词语音时提醒用户,从而实现设备代替人耳的智能代听功能。
在一些实施例中,获取目标关键词对应的目标语音识别模型包括:获取所述用户的出行信息;根据所述出行信息提取用户出行方式相关的目标关键词;向服务器发送所述目标关键词,以用于所述服务器根据所述目标关键词构建所述目标语音识别模型;以及从所述服务器获取所述目标语音识别模型。以此方式,能够在不需要用户交互的情况下,生成和部署针对个性化关键词的目标语音识别模型。
在一些实施例中,所述用户终端是第一用户终端并且连接到第二用户终端,该方法还包括向所述第二用户终端发送标识信息,所述标识信息用于标识所述第一用户终端。所述获取目标关键词对应的目标语音识别模型,具体为:基于所述标识信息从所述第二用户终端接收所述目标语音识别模型,所述目标语音识别模型为所述第二用户终端根据所述目标关键词从所述服务器获取;其中所述第一用户终端是音频播放设备。以此方式,能够在用户使用音频 播放设备(例如耳机)的情况下实现智能代听。
在一些实施例中,所述目标语音识别模型是基于声学模型、目标发音字典和目标语言模型而生成的解码图,所述解码图是由所述目标关键词确定的语法约束规则的解码路径集合,所述目标发音字典模型是基于所述目标关键词的发音序列而获取的,并且所述目标语言模型是基于所述目标关键词的字之间的关系而获取的。以此方式,能够生产轻量化的目标语音识别模型,以便于部署到具有较少计算资源的用户终端上。
在一些实施例中,所述声学模型通过融合特征和目标语音数据的文本信息进行训练而生成,所述融合特征基于目标语音数据和噪声数据而生成,所述目标语音数据为包括目标语音内容的音频数据,所述噪声数据为不包括所述目标语音内容的音频数据。以此方式,所生成的目标语音识别模型更能够精确地识别高噪声、强混响环境中的语音,从而实现了个性化智能代听。
在一些实施例中,通过融合特征和目标语音数据的文本信息进行训练,目标语音数据的文本信息可以是直接的文本内容也可以是对应于文本内容的其他标注数据,例如音素序列。
在一些实施例中,该方法还包括:根据所述出行信息获取与用户出行方式关联的位置信息;其中当满足目标条件时,根据所述更新后的语音识别模型对采集到的环境声音进行识别包括:当所述用户的位置与所述位置信息匹配时,根据所述更新后的语音识别模型对采集到的环境声音进行识别。以此方式,在满足地理位置的目标条件时,自动使用更新后的语音识别模型来判断环境声音中是否包含关键词,而不需要用户交互,带来更好的使用体验。
在一些实施例中,该方法还包括:根据所述出行信息获取与用户出行方式关联的时间信息,其中当满足目标条件时,根据所述更新后的语音识别模型对采集到的环境声音进行识别包括:当满足时间条件时,根据所述更新后的语音识别模型对采集到的环境声音进行识别,所述时间条件为根据所述时间信息确定。在一些实施例中,时间条件可以是当前时间在所述时间信息之前的预定时间段内。以此方式,在满足时间的目标条件时,自动使用更新后的语音识别模型来判断环境声音中是否包含关键词,而不需要用户交互,带来更好的使用体验。
在一些实施例中,对所述用户进行提示包括在所述用户终端上播放与所述目标关键词对应的语音。以此方式,用户能够针对感兴趣的个性化关键词收听到对应的提示。
在一些实施例中,所述目标关键词是列车车次或航班号。
在一些实施例中,所述用户终端是智能手机、智能家电、可穿戴设备、音频播放设备、平板电脑和笔记本电脑之一。
根据本公开的第二方面,提供了一种用于代听的装置,包括:模型获取单元,用于获取目标关键词对应的目标语音识别模型,所述目标语音识别模型为根据所述目标关键词构建,所述目标关键词为根据用户的出行信息获取;更新单元,用于根据所述目标语音识别模型对本地语音识别模型进行更新,获得更新后的语音识别模型,所述本地语音识别模型为所述用户终端中存储的语音识别模型;声音识别单元,用于当满足目标条件时,根据所述更新后的语音识别模型对采集到的环境声音进行识别,获得识别结果,所述环境声音为在所述用户终端所处的环境中采集到的声音信息;以及提示单元,用于当所述识别结果指示所述环境声音中存在所述目标关键词时,对所述用户进行提示。以此方式,能够在环境声音中检测出行信息的目标关键词,并检测到环境声音包括目标关键词语音时提醒用户,从而实现设备代替人耳的智能代听功能。
在一些实施例中,所述装置还包括:目标关键词获取单元,用于获取所述用户的所述出行信息;目标关键词获取单元,用于根据所述出行信息提取用户出行方式相关的目标关键词;和发送单元,用于向服务器发送所述出行信息中的所述目标关键词,以用于所述服务器根据所述目标关键词构建。模型获取单元还用于从所述服务器获取所述目标语音识别模型。以此方式,能够在不需要用户交互的情况下,生成和部署针对个性化关键词的目标语音识别模型。
在一些实施例中,所述用户终端是第一用户终端并且连接到第二用户终端。该装置还包括发送单元,用于向所述第二用户终端发送标识信息,所述标识信息用于标识所述第一用户终端。模型获取单元还用于基于所述标识信息从所述第二用户终端接收所述目标语音识别模型,所述目标语音识别模型为所述第二用户终端根据所述目标关键词从所述服务器获取。所述第一用户终端是音频播放设备。以此方式,能够在用户使用音频播放设备(例如耳机)的情况下实现智能代听。
在一些实施例中,所述目标语音识别模型是基于声学模型、目标发音字典和目标语言模型而生成的解码图,所述解码图是由所述目标关键词确定的语法约束规则的解码路径集合,所述目标发音字典模型是基于所述目标关键词的发音序列而获取的,并且所述目标语言模型是基于所述目标关键词的字之间的关系而获取的。以此方式,能够生产轻量化的语音识别模型,以便于部署具有较少计算资源的用户终端上。
在一些实施例中,所述声学模型通过融合特征和目标语音数据的文本信息进行训练而生成,所述融合特征基于目标语音数据和噪声数据而生成,所述目标语音数据为包括目标语音内容的音频数据,所述噪声数据为不包括所述目标语音内容的音频数据。以此方式,所生成的目标语音识别模型更能够精确地识别高噪声、强混响环境中的语音,从而实现了个性化智能代听。
在一些实施例中,该装置还包括出行位置信息获取单元,用于根据出行信息获取与所述用户出行方式关联的位置信息。声音识别单元还用于:当所述用户的位置与所述位置信息匹配时,根据所述更新后的语音识别模型对采集到的环境声音进行识别。以此方式,在满足地理位置的目标条件时,自动使用更新后的语音识别模型来判断环境声音中是否包含关键词,而不需要用户交互,带来更好的使用体验。
在一些实施例中,该装置还包括出行时间信息获取单元,用于根据所述出行信息获取与所述用户出行方式关联的时间信息。声音识别单元还用于:当满足时间条件时,根据所述更新后的语音识别模型对采集到的环境声音进行识别,所述时间条件为根据所述时间信息确定。在一些实施例中,时间条件可以是当前时间在所述时间信息之前的预定时间段内。以此方式,在满足时间的目标条件时,自动使用更新后的语音识别模型来判断环境声音中是否包含关键词,而不需要用户交互,带来更好的使用体验。
在一些实施例中,所述提示单元还用于:在所述用户终端上播放与所述目标关键词对应的语音。以此方式,用户能够针对感兴趣的个性化关键词收听到对应的提示。
在一些实施例中,所述目标关键词是列车车次或航班号。
在一些实施例中,所述用户终端是智能手机、智能家电、可穿戴设备、音频播放设备、平板电脑和笔记本电脑之一。
根据本公开的第三方面,提供了一种生成语音识别模型的方法,包括:基于目标语音数据和噪声数据生成融合声学特征,所述目标语音数据为包括目标语音内容的音频数据,所述 噪声数据为不包括所述目标语音内容的音频数据;通过所述融合特征和所述语音数据的文本信息进行训练来生成所述声学模型;以及根据所述声学模型、发音字典和语言模型构建所述语音识别模型。以此方式,使用融合特征来训练的声学模型能够用于精确识别高噪声、强混响环境中的语音,从而实现了个性化智能代听。
在一些实施例中,生成所述融合声学特征包括:对所述目标语音数据和所述噪声数据进行叠加来获取叠加后的音频数据;以及基于所述叠加后的音频数据获取所述融合声学特征。
在一些实施例中,生成所述融合声学特征包括:基于所述目标语音数据获取第一声学特征;基于所述噪声数据获取第二声学特征;基于所述第一声学特征和所述第二声学特征获取所述融合声学特征。
在一些实施例中,所述基于所述目标语音数据获取第一声学特征,包括:从所述目标语音数据生成带噪声学特征;通过增强所述带噪声学数据来生成所述第一声学特征。
在一些实施例中,增强所述带噪声学特征包括:对所述带噪声学特征进行LASSO变换;以及对经LASSO变换的声学特征进行bottleneck网络处理,以获取所述第一声学特征。
在一些实施例中,所述基于所述第一声学特征和所述第二声学特征获取所述融合声学特征包括:叠加所述第一声学特征和所述第二声学特征,以得到叠加的声学特征;以及通过对所述叠加的声学特征进行归一化处理,生成所述融合声学特征。
在一些实施例中,基于所述第一声学特征和所述第二声学特征获取所述融合声学特征包括:获取所述第一声学特征的帧数,所述第一声学特征的帧数根据所述目标语音数据的持续时间确定;根据所述第一声学特征的帧数基于所述第二声学特征构建第三声学特征;叠加所述第一声学特征和所述第三声学特征获取所述融合声学特征。
在一些实施例中,所述声学模型是神经网络模型,并且所述训练包括:从所述声学模型的隐藏层提取声源特征;以及将所述声源特征和所述融合声学特征作为所述声学模型的输入特征来训练所述声学模型。
在一些实施例中,所述根据所述声学模型,发音字典和语言模型构建所述语音识别模型,具体为:接收来自用户终端的目标关键词;根据所述目标关键词的发音序列从所述发音字典获取目标发音字典模型;根据所述目标关键词的字之间的关系从所述语音模型获取目标语言模型;以及通过合并所述声学模型、所述目标发音字典模型和所述目标语言模型来构建所述语音识别模型。以此方式,能够生成针对特定关键词的轻量级语音识别模型,以适用于计算资源有限的用户终端。
根据本公开的第四方面,提供了一种生成语音识别模型的装置,包括:融合单元,用于基于目标语音数据和噪声数据生成融合声学特征,所述目标语音数据为包括目标语音内容的音频数据,所述噪声数据为不包括所述目标语音内容的音频数据;训练单元,用于通过所述融合特征和所述语音数据的文本信息进行训练来生成所述声学模型;以及语音识别模型构建单元,用于根据所述声学模型、发音字典和语言模型构建所述语音识别模型。
根据本公开的第五方面,提供了一种用于语音代听的方法,包括:获取用户的出行信息中的与用户出行方式相关的目标关键词;构建与所述目标关键词对应的目标语音识别模型;以及向用户终端发送所述目标语音识别模型,所述目标语音识别模型用于当满足目标条件时对用户终端处的环境声音进行识别,以用于确定所述环境声音中是否存在所述目标关键词。以此方式,能够生成和部署针对特定关键词的目标语音识别模型,以实现针对特定关键词的 智能语音代听。
根据本公开的第六方面,提供了一种用于语音代听的装置,包括:目标关键词获取单元,用于获取用户出行信息中的与用户出行方式相关的目标关键词;语音识别模型构建单元,用于构建与所述目标关键词对应的目标语音识别模型;以及发送单元,向用户终端发送所述目标语音识别模型,所述目标语音识别模型用于当满足目标条件时对用户终端处的环境声音进行识别,以用于确定所述环境声音中是否存在所述目标关键词。以此方式,能够生成和部署针对特定关键词的目标语音识别模型,以实现针对特定关键词的智能语音代听。
根据本公开的第七方面,提供了一种电子设备,包括:至少一个计算单元;至少一个存储器,所述至少一个存储器被耦合到所述至少一个计算单元并且存储用于由所述至少一个计算单元执行的指令,所述指令当由所述至少一个计算单元执行时,使得所述电子设备执行根据本公开的第一方面、第三方面或第五方面所述的方法。
根据本公开的第八方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据本公开的第一方面、第三方面或第五方面所述的方法。
根据本公开的第九方面,提供了一种计算机程序产品,包括计算机可执行指令,其中所述计算机可执行指令在被处理器执行时实现根据本本公开的第一方面、第三方面或第五方面所述的方法。
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了根据本公开的多个实施例能够在其中实现的示例环境的示意图。
图2示出了根据本公开的实施例的语音识别系统的示意框图。
图3示出了根据本公开的实施例的用于语音代听的方法的示意流程图。
图4示出了根据本公开的实施例的构建和部署语音识别模型的示例过程的示意图。
图5示出了根据本公开的实施例的用于生成声学模型的方法的示意流程图。
图6示出了根据本公开的实施例的用于增强语音声学特征的方法的示意流程图。
图7示出了根据本公开的实施例的用于生成融合特征的方法的示意概念图。
图8示出了根据本公开的实施例的特征融合过程的示意图。
图9示出了根据本公开的实施例的用于训练声学模型的架构图。
图10示出了根据本公开的实施例的用于语音代听的装置的示意框图。
图11示出了根据本公开的实施例的用于生成语音识别模型的装置的示意框图。
图12示出了根据本公开的实施例的用于语音代听的装置的示意框图。
图13示出了可以用来实施本公开的实施例的示例设备的示意性框图。
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
随着诸如智能手机、耳机、智能手表或手环等各种用户终端的普及,用户在例如戴着耳机或其他用户终端时常常难以听清楚外界环境中的声音。在一些场景中会给用户带来各种不便。例如,当用户在机场、火车站等候航班或车次、同时戴着耳机听音乐或观看视频时,用户可能不能清楚听见在这些场所播放的广播信息,导致错过航班或车次。
如上所述,虽然已经有一些电子产品能够识别语音,但是大多数用于识别厂商提供的语音命令,针对用户的个性化关键词的语音识别较为困难。因此,无法监听广播中的航班号和车次。另外,一些个性化语音识别技术要求人工输入待识别的关键词,经机器掌握后才具备识别该关键词的能力,使用便利性上有所不足,而且需要较多计算资源。有鉴于此,本公开提供了语音代听技术,用户终端获取用于识别个性化关键词的语音识别模型,使用该语音识别模型来监听环境声音中的出行信息的关键词,语音识别模型在识别到目标关键词时提示用户。也就是说,由这种语音识别模型来代替用户监听环境声音,为用户提供关于出行信息的提示,实现了更好的智能化体验。
示例环境和系统
图1示出了根据本公开的多个实施例能够在其中实现的示例环境100的示意图。根据本公开的实施例的应用场景是,在高噪声、强混响的环境中的用户终端(例如,智能手机、智能家电、可穿戴设备、音频播放设备、平板电脑、笔记本电脑等)能够识别非人声广播中的个性化内容,例如航班号、车次等,帮助用户监听环境中的语音内容。例如,在用户佩戴降噪耳机收听音乐时,能够识别到外界广播中的用户感兴趣的关键词,并且向用户发出提醒,从而实现智能代听。
如图1所示,示例环境100包括位于用户侧的第一用户终端110和第二用户终端120以及位于云侧的服务器130。第一用户终端110和第二用户终端120作为整体可以与服务器130可以经由各种有线或无线通信技术彼此连接和通信,包括但不限于,以太网、蜂窝网络(4G、5G等)、无线局域网(例如,WiFi)、互联网、蓝牙、近场通信(NFC)、红外(IR)等。
根据本公开的实施例,服务器130可以是实现在云计算环境中的分布式或集中式的计算设备或计算设备集群。根据本公开的实施例,第一用户终端110和第二用户终端120可以包括智能手机、智能家电、可穿戴设备、音频播放设备、平板电脑、笔记本电脑等中任一个或多个设备,二者的类型可以相同或不同。
在一些实施例中,第一用户终端110可以不直接连接到服务器130,并且第二用户终端120可以连接到服务器130。在这种情况下,第一用户终端110可以经由第二用户终端120连接到服务器130,并与服务器130通信。例如,第一用户终端110可以通过蓝牙、红外、NFC等短距离通信连接到第二用户终端120,与此同时,第二用户终端通过无线局域网、互联网、蜂窝网络与服务器130通信和传输数据。
在一些实施例中,第一用户终端110可以直接连接到服务器130。例如,第一用户终端110可以通过无线局域网、互联网、蜂窝网络与服务器130通信和传输数据。另外,当第一 用户终端110和第二用户终端120连接到相同的无线局域网时,第一用户终端110和第二用户终端120可以彼此通信和传输数据。
如图所示,第二用户终端120可以向云侧的服务器130传输目标关键词,例如出行信息的车次或航班号。并且第一用户终端110可以从服务器130接收针对该目标关键词的目标语音识别模型。服务器130可以根据接收到的目标关键词生成目标语音识别模型,例如解码图。解码图是一种轻量级的语音识别模型,便于部署在计算资源有限的用户终端。目标语音识别模型被发送到用户侧,用于部署在用户终端或更新用户终端的本地语音识别模型,从而实现用户侧的智能代听,即,监听环境声音中是否存在对应目标关键词的语音。虽然在图1示出了从第二用户终端120发送目标关键词到服务器130,并且由第一用户终端110接收目标语音识别模型,但是应理解,目标关键词可以从任一个用户终端发送给服务器130,并且目标语音识别模型可以被发送和部署在任一个用户终端。
作为示例而非限制,第一用户终端110是降噪耳机,第二用户终端120是智能手机,第一用户终端110经由蓝牙连接到第二用户终端120。在这种情况下,第二用户终端120上可以安装有应用,例如与用户出行有关的应用、短消息服务应用、或者存储用户未来行程信息的任何其他应用。可以通过访问第二用户终端120的应用来获取用户想要被智能代听的个性化信息。根据本公开的实施例,第二用户终端120可以从其上安装的指定应用,例如,上述与用户出行有关的应用、短消息服务应用等,自动获取用户期望的个性化信息并且发送到服务器130,以用于生成针对该个性化信息的目标语音识别模型。
尽管图1中第一用户终端110和第二用户终端被示为单独的设备,但是它们也可以被实现为同一设备(如图中的虚线所示)。换句话说,可以使用单个用户终端来实现根据本公开的实施例的智能代听,该单个用户终端向服务器130发送个性化信息,并且从服务器130接收目标语音识别模型,以用于监听环境中的语音内容。
图2示出了根据本公开的实施例的语音识别系统200的示意框图。语音识别系统200被用于生成、部署和使用针对个性化的目标关键词的目标语音识别模型,以检测环境声音中是否存在目标关键词。如图2所示,语音识别系统200包括用户侧的第一用户终端110和第二用户终端120、以及位于云侧的服务器130。作为示例而非限制,第一用户终端110可以是音频播放设备(例如,降噪耳机、智能音箱等)、可穿戴设备(例如,智能手表、手环等),其经由诸如蓝牙、近场通信、红外等方式连接到第二用户终端120。第二用户终端120可以是智能手机、智能家电、平板电脑、笔记本电脑等,其能够经由无线局域网、互联网、蜂窝网等有线或无线方式连接到服务器130。服务器130用于接收从第二用户终端120反馈的个性化的目标关键词,并生成针对该目标关键词的目标语音识别模型。以下描述第一用户终端110、第二用户终端120、服务器130的示例性功能模块。
第二用户终端120包括传输通信模块122、关键词获取模块124和存储模块126。传输通信模块122用于向第一用户终端110和服务器130发送和从它们接收数据。例如,通过蓝牙、近场通信、红外等方式与第一用户终端110通信,并且通过蜂窝网络、无线局域网等方式与服务器130通信。
关键词获取模块124用于获取关键词作为个性化信息。例如,可以从短信或出行应用读取用户出行信息,并从中提取目标关键词。关键词获取模块124被配置用于通过合规方案(例如,经用户授权的指定应用,例如,出行应用或短消息服务等)提取出行信息中的关键词, 例如航班号/车次等。例如,关键词获取模块122可以定期访问指定的应用来获取与未来的出行信息。出行信息通常可以包括出行人的名称、航班号或车次、时间信息、位置信息等。航班号或车次通常包括由数字字母构成的字符串,因此,可以将出行信息中的航班号或车次确定为将要用于语音识别的目标关键词。可以通过例如正则表达式等来确定目标关键词。此外,还可以从出行信息获得时间和位置信息等。
存储模块126可以用于存储第二用户终端120的设备标识、与第二用户终端120连接的第一用户终端110的连接信息(例如,第一用户终端110的标识信息、地址等),从服务器130接收到的目标语音识别模型、以及请求标识。请求标识可以用作向服务器请求目标语音识别模型的请求的唯一标识符。在服务器130广播发送目标语音识别模型的情况下,第二用户终端120可以根据该请求标识来确定目标语音识别模型是否是自己请求的,由此确定接收或不接收。
第一用户终端110包括传输通信模块112、语音识别模型114以及提示模块116。传输通信模块112用于向第二用户终端120发送和从第二用户终端120接收数据。例如,通过蓝牙、近场通信、红外等方式与第一用户终端110通信。在第一用户终端具有与服务器130直接通信的能力的情况下,传输通信模块112还用于与服务器130通信,例如通过蜂窝网络或Wifi。
语音识别模型114是基于一个或更多目标关键词生成的,并且可以根据从服务器130接收的针对新目标关键词的目标语音识别模型而更新。例如,语音识别模型114可以被配置为用于识别多个关键词,其在运行时监听环境声音中是否包括这些目标关键词。更新语音识别模型可以使得更新后的语音识别模型114能够监听环境声音是否包括新目标关键词,例如,在增加新目标关键词,或者用新目标关键词替换已有的目标关键词中的一个,例如,存在时间最长的目标关键词。当检测到目标关键词时,更新后的语音识别模型114可以触发提示模块116产生提示信息。提示模型116可以使第一用户终端110或第二用户终端发出声音或视觉上的提示。
服务器130包括传输通信模块132、语音识别模型构建模块134、离线声学模型训练模块136、以及模型库138。在服务器130中,传输通信模块132被配置用于接收获取关键词获取模块122传输的目标关键词,然后转发给语音识别模型构建模块134。语音识别模型构建模块134被配置为根据接收到的目标关键词和模型库138来构建定制的目标语音识别模型,并将构建好的目标语音识别模型传输到第一用户终端110或第二用户终端120。
离线声学模型训练模块134被配置用于依据语音识别声学模型的训练准则,按照鲁棒性声学模型训练方法预先离线训练声学模型。经训练的声学模型可以被存储到模型库138。需要注意的是,训练声学模型的操作可以是离线执行的,因此与语音识别模型构成模块134构建过程是可解耦的。根据本公开的实施例,声学模型可以被设计为针对高噪声、强混响的环境而生成,例如基于融合特征,以实现更精确的语音识别。
模型库138被配置用于存储训练好的模型,包括按需离线训练的声学模型(通过上述离线声学模型训练模型124获取)、发音字典、语言模型等。这些模型均可以是离线训练的,并被离线声学模型训练模块134使用以构建针对目标关键词的目标语音识别模型。
语音识别模型构建模块134可以被配置为结合模型库138中预先训练好的声学模型、发音字典、语言模型和传输通信模块132传输过来的目标关键词,依据关键词识别模型构建算法生成目标语音识别模型。需要注意的是,构建目标语音识别模型的过程与离线声学模型的 训练操作没有强依赖关系,可以异步执行。因此,语音识别模型构建模块134可以从模型库138获取预先训练好的声学模型来构建目标语音识别模型。
尽管在图2中第一用户终端110和第二用户终端120被示出单独的设备,但是它们也可以被实现为同一设备(如图中的虚线所示)。(如图中的虚线所示)中以实现根据本公开的实施例的智能代听方案。在这种情况下,从单个用户终端获取目标关键词,并且在同一用户终端上部署针对目标关键词的语音识别模型。
智能语音代听
图3示出了根据本公开的实施例的用于语音代听的方法300的示意流程图。方法300可以用于在如图1和图2所示的用户终端110上实施。用户终端110可以是诸如智能手机、智能家电、可穿戴设备、音频播放设备、平板电脑、笔记本电脑等,其具有能够接收声音的传感器,例如麦克风。
在框310,用户终端110获取目标关键词对应的目标语音识别模型,目标语音识别模型由服务器130为根据目标关键词构建,目标关键词为根据用户的出行信息获取。根据本公开的实施例,如上所述,用户终端110可以经由诸如蓝牙的无线连接从与连接的用户终端120(如智能手机)接收目标语音识别模型。备选地,在用户终端110具有与服务器130的直连通信能力的情况下,用户终端110可以直接从服务器130接收目标语音识别模型。
如上所述,用户的出行信息表示用户将到机场、车站等交通场所乘坐飞机或列车出行、或者到机场或车站接送其他人。出行信息通常包括航班号或车次、交通场所的位置、发出时间或到达时间等信息。出行信息中的目标关键词可以是表示航班号或列车号的字符串,通常由字母和数字组成。例如,出行信息可能包括如下信息:“2021年6月2日上午7点45分,G109,北京南至上海虹桥”,对应地,目标关键词是“G109”、位置是“北京南站”、时间是“2021年6月2日上午7点45分”。
目标语音识别模型由服务器130基于接收到的目标关键词来构建。在一些实施例中,目标关键词可以从与用户终端110连接的另一用户终端120获取,并且被发送到服务器130。例如,用户终端110(例如,降噪耳机)通过蓝牙或其他短距离通信方式连接到另一用户终端120(例如智能手机)。通过访问用户终端120的出行应用、短信或其他经授权的应用,获取到用户的出行信息。用户终端可以将出行信息中的目标关键词,例如航班号或车次,发送到服务器130。由此,服务器130可以基于收到的目标关键词来构建用于识别该目标关键词的目标语音识别模型并将构建的目标语音识别模型传输给用户终端110,下文将参照图4描述。
在用户终端110从服务器130接收到目标语音识别模型之后,在框320,根据目标语音识别模型对本地语音识别模型进行更新,获得更新后的语音识别模型,所述本地语音识别模型为所述用户终端中存储的语音识别模型。在更新之前,用户终端110本地的语音识别模型114可以识别一个或多个关键词,需要在更新之后才能识别目标关键词。在一些实施例中,本地语音识别模型和目标语音识别模式可以是例如解码图。解码图是由待识别关键词确定的语法约束规则的解码路径集合,下文将“语音识别模型的生成和部署”的小节中描述解码图的细节,这暂不详述。将目标语音识别模型的针对目标关键词的解码路径添加到本地语音识别模型,使得本地语音识别模型被更新,从而能够识别目标关键词。备选地,考虑到模型大 小约束,可以用目标语音识别模型的针对目标关键词的解码路径替换本地语音识别模型中的已有解码路径,例如,替换到在本地语音识别模型中存在时间最长的关键词的解码路径。
应理解,如果用户终端110本地没有语音识别模型,则可以直接将目标语音识别模型部署为本地语音识别模型。在这种情况下,本地语音识别模型专用识别对应的目标关键词,并且以后可以被更新。
在框330,判断用户终端110是否满足目标条件。如果满足目标条件,则在框330,根据更新后的语音识别模型对采集到的环境声音进行识别,获得识别结果。也就是说,在适当的条件下,才触发更新后的语音识别模型来对外部环境中的广播音进行监听。由于语音识别模型114可能较早存在于用户终端110,此时不需要立即开始监听环境声音。在满足一定目标条件的情况下允许触发本地语音识别模型的执行,这符合用户的真实代听需求,也能够节省用户终端的计算资源和电量。
在一些实施例中,目标条件可以是用户位置与出行信息的位置信息匹配。如上所述,除了目标关键词,出行信息通常还包括位置信息。例如,出行信息可能包括如下信息:“2021年6月2日上午7点45分,G109,北京南至上海虹桥”,则“北京南站”将作为位置信息。当用户的位置与“北京南站”匹配时,例如,根据用户终端的GPS信息或其他定位信息确定用户在北京南站内或附近时,启用更新后的语音识别模型来对采集到的环境声音进行识别。这样,在满足地理位置条件时,可以自动使用更新后的语音识别模型来识别环境声音的关键词,而不需要用户交互,带来更好的使用体验。
在一些实施例中,目标条件还可以是当前时间在所述时间信息之前的预定时间段内时,根据更新后的语音识别模型对采集到的环境声音进行识别。仍以上述示例的出行信息为例,时间信息是“2021年6月2日上午7点45分”。例如,当当前时间在“2021年6月2日上午7点45分”之前的半小时、1个小时、或其他时间段内时,用更新后的语音识别模型来对采集到的环境声音进行识别。通常,在这些时间段内机场或车站内会广播忙用户期望监听的目标关键词。这样,在满足时间条件时,可以自动使用更新后的语音识别模型来识别环境声音的关键词,而不需要用户交互,带来更好的使用体验。
用户的位置信息和时间信息可以由用户终端110自身提供,也可以从其他设备处获取,例如从与用户终端110连接的另一个用户终端120处获取。另外,可以由用户终端110自身或其他终端,例如用户终端120来触发语音识别模型的执行(例如,通过蓝牙连接发送触发信号)。在一些实施例中,上述触发语音识别模型的目标条件可以单独或组合地使用。
备选地,还可以由用户手动地触发语音识别模型的执行,例如通过手动按钮来触发。特别地,当触发监听的方式为手动方式时,按钮可以设置在作为智能代听设备的用户终端110上、也可以设置在另一用户终端120上、或者设置为用户终端110和120的应用中。
在一些实施例中,用户终端110的语音识别模型114能够识别多个关键词。在这种情况下可以由用户选择其中的一部分或全部来进行识别,或者自动选择识别最新更新的目标关键词。
在框340,根据更新后的语音识别模型对采集到的环境声音进行识别,获得识别结果。为了对采集到的环境声音进行识别,首先打开用户终端110的麦克风开始采集外部环境声音。然后,通过语音识别模型在用户终端110的本地对采集到的环境声音进行识别。可以实时或者接近实时地识别。采集到的环境声音可以直接被输入到语音识别模型,由语音识别模型判 断是否是目标关键词的文字,例如通过解码图的解码路径。采集到的环境声音也可以在用户终端110被缓存然后被读取到语音识别模型,缓存的声音可以持续例如大约10秒、20秒、30秒或更多。随着时间推移,如果没有识别到目标关键词,则缓存环境声音可以被逐步地移除或覆盖。
识别结果初始值可以置为“否”。根据本公开的实施例,环境声音可以按照时间顺序被逐帧地输入到语音识别模型。语音识别模型确定这些语音帧是否对应于目标关键词,如果完全匹配,则确定识别到目标关键词,否则确定没有识别到目标关键词,从重新开始监听。例如,在目标关键词是“G109”的情况下,如果环境声音中的语音包括“G107”,则将依次识别出“G”、“1”、“0”、“7”。作为示例,在识别出“7”之前,语音识别模型依次确定环境声音和目标关键词的前部分是匹配的(因为“G”、“1”、“0”与目标关键词一致)。但是,一旦识别出与目标关键词中的“9”不一致的“7”,语音识别模型立即重新开始监听,并清除已经识别出内容“G”、“1”、“0”。在一些实施例中,一旦识别到与关键词不匹配的语音,就可以将相关联的缓存数据删除,并重新开始监测。实际上,只要环境声音中的语音的第一个字不是目标关键词的第一个字,就将重新开始监测。根据本公开的实施例,当检测到完整的目标关键词时,识别结果可以被置为“是”。
在框350,确定是否存在目标关键词的语音。如果识别结果为“否”,则确定不存在目标关键词的语音,继续监听环境声音。如果识别结果为“是”,前进到框360。
在框360,用户设备110对用户进行提示。提示的形式可以取决于该用户终端的能力和用户配置。在一些实施例中,提示可以包括但不限于文本、图像、音频和视频中的一种或多种形式。例如,当用户终端110为具有扬声器的设备时,响应于检测到环境声音包括目标关键词,提示可以是播放指定提醒音、特定录音、或播放与目标关键词对应的语音等。当用户终端为具有屏幕的设备时,提示可以是卡片弹窗、横幅显示等。用户终端110具有扬声器和屏幕二者时,通知可以是上述任一种或某几种的组合。通过各种类型的提醒方式,实现了用户终端上的智能代听。
在一些实施例中,用户终端110还可以向连接的其他用户终端120提供该提示。例如,经由用户终端110和用户终端120之间的蓝牙通信协议提供提示。以此方式,可以在部署语音识别模型的用户终端或在其他设备上呈现通知,以达到更好的通知效果。
上文描述了用户终端110作为智能代听设备,但是应理解,智能代听功能还可以实现在其他用户终端(例如,用户终端120)。在这种情况下,用户终端120向服务器130发送目标关键词,并且从服务器130接收语音识别模型,并且使用语音识别模型来于监听环境中的语音内容,而不需要将语音识别模型转发给用户终端110。
通过以上描述的实施例,能够在公共交通场所的环境声音中检测出行信息的目标关键词,并提醒用户,从而实现设备代替人耳的智能代听功能。
语音识别模型的生成和部署
如上所述,根据本公开的实施例的语音识别模型是一种部署在计算资源有限的用户终端的轻量级模型。而且,这种语音识别模型是由用户定制的、并且针对特定目标关键词的模型。以下参照图4进一步描述根据本公开的实施例的语音识别模型的生成和部署的过程。
根据本公开的实施例,由服务器130构建用于识别目标关键词的语音识别模型,并将其 部署在诸如智能手机、智能家电、可穿戴设备、音频播放设备、平板电脑、笔记本电脑等的用户终端110和120中的任一个。用户终端110和120可以利用该语音识别模型来识别周围环境、尤其是高噪声环境中是否播放了包含关键词的语音。
图4示出了根据本公开的实施例的构建和部署语音识别模型的示例过程400的示意图。图4示出了在如图1和图2所示的第一用户终端110上的部署语音识别模型的实例,其中第一用户终端110经由诸如蓝牙的短距离通信连接到第二用户终端120。应当理解,可以在第二用户终端120上部署语音识别模型,或者在只有一个用户终端的情况下在该单个终端上部署语音识别模型,而不脱离本公开的实施例的范围。
第一用户终端110可以在创建与第二用户终端的连接时,向第二用户终端120发送自身的标识信息。第二用户终端120可以将该标识信息存储在本地,以便后续向第一用户终端110传输数据,例如目标语音识别模型或其他信息。
如图所示,第二用户终端120可以获取410用户想要识别的目标关键词。目标关键词文本可以是用户的出行信息中的关键词,例如用户将要乘坐的航班号或列车号等。例如,出行信息可能包括如下信息:“2021年6月2日上午7点45分,G109,北京南至上海虹桥”,对应地,目标关键词是“G109”。在一些实施例中,可以通过合规方案(例如,经用户授权的指定应用,例如,出行应用或短消息服务等)提取出行信息中的关键词,也可以访问短信息中来自指定发送方(例如,航空公司或列车运营方)的消息来获取目标关键词。
根据本公开的实施例,目标关键词可以是自动获取的,而不需要用户手动输入。例如,如果第二用户终端120是智能手机,则经授权后,可以通过访问智能手机的短信或指定应用的消息,从指定的发送方(例如,交通工具运营方)的短信或消息中提取目标关键词。应理解,包括航班号或列车号的短信或消息还可以包括出发时间信息。在一些实施例中,还可以根据这种时间信息来获取关键词文本。例如,可以获取最近的航班号或列车号来作为目标关键词。备选地,还可以从当前时刻起的预设时间段内(例如,一天)的航班号或列车号来作为关键词文本。
然后,第二用户终端120可以向服务器130请求420针对目标关键词的语音识别模型。第二用户终端120可以通过蜂窝网络或无线局域网(例如WiFi)等向服务器130发送包括目标关键词的请求。
在一些实施例中,请求还可以包括第二用户终端120的标识符(例如,IMSI、IMEI或其他唯一标识符)以及第二用户终端的当前连接信息,包括但不限于蓝牙连接信息(例如蓝牙地址、设备标识等)、无线局域网连接信息(例如,无线接入点地址、设备标识等)等。这些信息可以用于建立服务器130与第二用户终端120或第一用户终端110之间的点对点连接。
备选地,请求还包括可以唯一标识该请求的请求标识。请求标识可以由第二用户终端使用任何合适的方式来生成,例如,可以根据第二设备的设备标识(例如,IMSI、IMEI等)或其他唯一性标识、与第二用户终端120连接的第一用户终端110的连接信息、时间戳等中一项或多项来生成该请求标识。请求标识可以用于服务器130以广播方式传输构建的语音识别模型。为此,第二用户终端120可以在本地创建和维护一个映射表。映射表中包括相关联存储的第二用户终端120的设备标识、与第二用户终端120连接的第一用户终端110的连接信息、以及所生成的请求标识。
服务器130接收第二用户终端120的请求,并且基于请求中的目标关键词来构建430针 对该目标关键词的语音识别模型。根据本公开的实施例,所构建的语音识别模型是轻量级解码图,解码图是目标关键词确定的语法约束规则的解码路径集合。服务器130例如基于HCLG(HMM+Context+Lexicon+Grammar)解码图构建过程来生成解码图。
在一些实施例中,服务器130基于语法规则和文法规则(例如,JSpeech Grammar Format,简称为“JSGF”文法规则)、n-gram统计规则等构建针对该关键词的特定轻量级语言模型,即目标语言模型(G.fst)。区别于传统语言模型构建,依赖大规模海量数据的训练文本,让机器尽可能充分地学习所有满足自然语言逻辑的字、词、句子、段落间的关系,从而让语言模型近乎全覆盖的包含所有学习单元(字、词、句子、段落)间的转移概率和连接权重,服务器130仅根据目标关键词来约束目标关键词的字与字之间的转移概率和连接权重,而忽略其他学习单元间的关系和连接,进而将目标语言模型定制为只符合该目标关键词文法约束规范的参数集合,以保证对该目标关键词有识别能力。例如,将目标关键词的字组合确定为具有更高的出现概率,而将其他非目标关键词的组合出现概率置为0。
然后,根据该目标关键词从存储于模型库138的发音词典里选择出特定发音序列,结合发音词典里的音素描述文件构建目标发音词典模型(L.fst),由于该发音序列是根据目标关键词检索得到,相比于原始发音词典,规模也大大减小。另外,服务器130还通过离线训练得到声学模型,例如HMM模型(H.fst)。
服务器130对目标语言模型、目标发音字典模型和声学模型进行模型合并,以获得语音识别模型。该语音识别模型使用了原始声学模型,根据目标关键词构建的轻量级目标语言模型以及由目标关键词检索到的轻量级发音字典模型,故构建所得语音识别模型具有轻量化结构,相比广义语音识别模型,该模型仅包含针对目标关键词的转移概率和连接权重,参数规模得到了极大的缩减。该语音识别模型可以为如上所述的解码图。具体地,服务器130合并上述构建的目标语言模型(G.fst)和发音字典模型(L.fst),生成合并后的发音词典和语言模型(LG.fst),接着合并由发音词典模型生成的上下文模型(C.fst)以生成CLG.fst,最后合并上述构建的HMM模型(H.fst)即可生成解码图模型(HCLG.fst),作为针对目标关键词的语音识别模型。
本公开的实施例提供了声学模型,其适用于高噪声、强混响的环境下对非人声的远场广播语音进行识别,能够显著提高语音识别的准确度。该声学模型下文将参照图5至图9描述。在一些实施例中,声学模型可以采用离线训练或在线的训练方式。此外,本公开不旨在对于发音字典、目标语言模型的类型或训练过程进行限定。
然后,服务器130将构建好的目标语音识别模型传输440给第二用户终端120。
如上所述,服务器130可以通过点对点方式传输目标语音识别模型。在一些实施例中,服务器130根据请求420中包括的第二用户终端120的标识符,使用蜂窝或WiFi通信协议建立与第二用户终端之间的点对点连接,并且将目标语音识别模型传输440给第二用户终端。
接下来,第二用户终端120根据本地的连接信息来确定450将用于部署语音识别模型的第一用户终端110。然后,第二用户终端120通过与第一用户终端110之间的连接将语音识别模型传输460至第一用户终端110。
另外,服务器还可以通过广播方式传输目标语音识别模型。服务器130广播所构建的目标语音识别模型和相关联的请求标识。第二用户终端120可以将广播的请求标识与本地的映射表进行对比,来确定是否要接收语音识别模型。如果在映射表中找不到该请求标识,则不 接收目标语音识别模型。如果找到该请求标识,则接收对应的目标语音识别模型。
第二用户终端120还可以根据请求标识来确定连接的第一用户终端110。第二用户终端120可以使用请求标识在映射表中查找与该请求标识对应的第一用户终端110的连接信息,例如第一用户终端110的标识信息等,从而确定450要接收目标语音设备模型的第一用户终端110。然后,第二用户终端120向所确定的第一用户终端110发送460目标语音识别模型。
在接收到语音识别模型后,第一用户终端110可以部署目标语音识别模型或者基于目标语音识别模型来更新本地的语音识别模型,在满足目标条件时开始执行470更新后的语音识别模型以监听环境声音中是否存在目标关键词,如上文参照图3描述的过程300。
图4描述了从服务器130经由第二用户终端120向第一用户终端110传输目标语音识别模型的过程。在一些实施例中,第一用户终端110可以具有与服务器130直接通信的能力。因此,还可以从服务器130直接向第一用户终端110传输目标语音识别模型。服务器130可以使用第二用户终端120上报的第一移动终端110的信息(例如,蓝牙连接信息、无线局域网连接信息等)来定位第一用户设备110,直接将目标语音识别模型传输到第一用户终端110。
此外,第二用户终端120也可以不向第一用户终端110传输接收到的语音识别模型,而是由自己来执行语音识别模型以实现语音代听功能。
声学模型
根据本公开的实施例的针对目标关键词的语音识别模型被用于识别机场或火车站的环境声音中的广播语音。然而,识别这种环境声音是有挑战的。首先,机场广播通常距离用户的拾音设备过远,有较强混响干扰。其次,广播音基本都是根据固定模板合成的,与标准人声普通话有较大区别。最后,大厅中有其他旅客的交谈声等各式噪声,环境异常复杂。因此,希望在提供一种利用用户终端在噪声环境下准确识别复杂背景噪声环境中的广播语音内容的方案。
本公开利用深度学习技术,通过离线训练来获得能够在诸如机场、火车站等高噪声、强混响环境下识别广播内容的声学模型。图5示出了根据本公开的实施例的用于生成声学模型的方法500的示意程图。
方法500包括,在框510,在噪声场所采集声音数据。为了使声音适于检测噪声环境下的语音,从噪声环境采集声音数据以产生用于训练和构建声学模型的训练数据。
例如,可以使用各种类型的手机、具有录音功能的耳机、录音笔等设备在机场、火车站的多个位置处采集环境声音。声音采集地点可以包括但不限于柜台大厅、安检通道、候机厅、便利店、餐饮区域、公共卫生间等位置,以便覆盖用户能够到达的区域。具体地,可以根据采集位置所在区域(如航站楼)的大小,以一个位置覆盖半径为R(R>0)米的圆形面积为标准,设置若干个采集位置。声音采集方式可以是关闭录音设备的前端增益,连续不间断录音(例如,持续二十四小时),确保能在各个位置将不含广播音的背景噪声录制。在一些实施例中,可以采用静态录音,将声音采集设备固定并连续不间断录音。备选地,还可以采用动态录音,由人或机器持采集设备在噪声场所内移动,并连续不间断录音。此外,录音格式可以是例如wav格式、16kHz、16bit、多通道等,但不限于此。
以上描述了获取语音数据和噪声数据的声学特征的示例性过程。声学特征可以按照上述方式来获取,也可以通过其他方式来获取,例如,访问已有的带噪语音特征或各种类型的已 有噪声特征,而不需要专门现场采集
在框520,预处理声音数据,得到目标语音数据和噪声数据。根据本公开的实施例,由于连续不间断录音,采集到的原始声音数据在一部分时间段内包括广播语音,而其他时间段不包括广播语音。预处理可以包括手动或通过机器将原始声音数据划分为包括目标语音内容的音频数据和不包括目标语音内容的音频数据,并分别进行标注。在一些实施例中,目标语音数据被标注了该数据来自的位置信息以及该目标语音数据的文本,例如,包括航班号或车次。对于噪声数据,仅标注噪声数据的位置信息。
在框530,提取语音数据和噪声数据的声学特征。可以通过对标注后的语音数据和噪声数据进行分帧、加窗、FFT等处理,来提取声学特征。在一些实施例中,声学特征可以通过例如梅尔频率倒谱系数(MFCC)来表示,但不限于此,其以10ms为一帧,每一帧具有对应的一组参数,每个参数具有0至1之间的值。也就是说,目标语音数据和噪声数据均可以被表示为持续一段时间的一系列帧,每一帧由一组值在0至1之间的参数来表征。
目标语音数据经过分帧、加窗、FFT等处理提取到的声学特征是带噪声学特征。带噪声学特征可以被增强,得到尽可能纯净的语音声学特征,从而减少噪声给识别带来的不利影响。参照图6,其示出了根据本公开的实施例的用于增强语音声学特征的方法600的示意流程图。
在框610,对输入的带噪语音声学特征进行LASSO变换,以对声学特征进行混响抑制。混响是指,当声波在室内传播时被墙壁、天花板、地板等障碍物反射和吸收,在声源停止发射声波后,声波在室内经过多次反射和吸收,最后才会消失,这种声源停止发声后的声音仍然存在的现象称为混响。混响不利于准确识别语音中的内容。
LASSO变换也称为LASSO回归。通过限制声学特征中的重要变量(也就是系数不为0的变量)与其他变量的相关关系的条件,可以去除与混响有关的声学特征,从而抑制混响带来的不利影响。
在框620,针对混响抑制后的语音数据的声学特征进行bottleneck网络处理。bottleneck网络是一种神经网络模型,包括bottleneck层。bottleneck层相比于前面的层具有更好的节点数,其可以用于获取维度更少的输入表示。在一些实施例中,经过bottleneck网络处理的声学特征的维度可以减少,从而在训练期间获得更好的损失。bottleneck网络的系数可以是预先计算的,也可以在训练过程中更新。
通过如图6所示的语音增强600,带有背景噪声的语音声学特征被转换为尽可能纯净的语音特征。进一步地,纯净语音特征可以与来源于多个位置的噪声特征融合以生成融合特征。
返回图5,在框540,根据语音声学特征和噪声声学特征来生成融合特征。融合特征能够减少在不同场所或同一场所的不同位置处的背景噪声的类型差别、大小差别等对识别准确率的影响。根据本公开的实施例,通过将语音特征和噪声特征逐帧对齐来生成融合特征。
图7示出了根据本公开的实施例的用于生成融合特征的方法700的示意概念图。如图所示,从原始数据划分得到的目标语音数据经过特征提取710、语音增强720之后产生增强语音特征。并且,噪声数据经过均匀采样后得到在多个位置(例如位置1至位置N)的采样噪声。类似地,对这些来自多个位置处的采样噪声进行特征提取710,以产生噪声特征。特征提取710可以按照参照框530描述的处理来执行,包括分帧、加窗、FFT等处理。根据本公开的实施例,语音数据的声学特征和噪声数据的声学特征可以具有相同的帧大小,例如均为10ms,以便可以逐帧融合。
如上所述,增强的语音声学特征和噪声特征具有相同大小的帧,例如10ms,因此语音特征和噪声特征的逐帧对齐可以产生时间对齐的融合特征。具体地,可以逐帧将所有采样得到的噪声特征(例如来源于位置1至N的噪声特征)叠加到增强后的语音特征上来形成融合特征。如上所述,每一帧由一组值在0至1之间的参数,即向量来表征,叠加是指通过向量加法将语音声学特征和噪声特征的对应参数相加。例如,在语音声学特征和噪声声学特征中的每一帧均由40维向量表示的情况下,融合特征中的一个帧同样由对应的40维向量来表示。
应理解,叠加后的参数的值可能超出了0至1的范围。在这种情况下,可以进行全局归一化处理,以便使得融合特征的参数的值仍然在0至1的范围内。
在一些情况下,语音数据的时长可能不同于噪声数据的时长,并且各个位置的噪声数据的时长也可能不同。因此,特征融合还包括语音数据和噪声数据的对齐。
图8示出了根据本公开的实施例的特征融合过程800的示意图。图8中用于特征融合的增强的语音声学特征810和来源于多个位置的噪声特征820-1、820-2、……820-N(统称为820),按照帧序列被示出。在图8的增强的语音声学特征810包括L个帧。由于语音声学特征810和噪声声学特征820的持续时间可以不同,噪声特征820可以包括与L相同或不同的帧数。例如,噪声特征820-N可以包括例如R个帧。
在一些实施例中,可以根据语音声学特征810的持续时间来调整噪声声学特征820,例如,通过选择噪声声学特征的一部分帧或者扩展噪声声学特征的帧,得到帧数(或持续时间)与语音声学特征相同的经调整的噪声声学特征。在二者对齐之后,叠加语音声学特征和经调整的噪声声学特征。
具体地,如果增强的语音声学特征810的帧数和噪声声学特征820的帧数相同(L=R),则逐帧地叠加语音声学特征810和噪声声学特征820。
如果增强的语音声学特征810的帧数小于噪声声学特征820的帧数(L<R),则可以选择噪声声学特征820的前L帧来与增强的语音声学特征叠加,后R-L帧舍去不做处理。应理解,也可以选择噪声声学特征820中的后L帧、位于中间的L帧、或以任何其他方式选择的L帧来与语音声学特征810叠加。
如果增强的语音声学特征810的帧数大于噪声声学特征820的帧数(L>R),则对于可以将噪声声学特征820的第1帧叠加到增强后的语音声学特征的第L-R帧,第2帧叠加到L-R+1帧,以此类推,直到语音声学特征810的所有帧都被叠加噪声特征820的帧。例如,如图8所示,噪声特征820-N的帧数R小于语音声学特征的帧数,因此,其第1帧再一次地被叠加到语音声学特征的相应帧。应理解,图8仅是示意性的,语音声学特征和噪声特征的帧数不一定是图8所示的情况。
按照上述方式,增强的语音声学特征810的第1帧与噪声特征820-1、820-2、…820-N的第1帧叠加,得到融合特征的第1帧,第2帧与噪声特征1、2、…N的第1帧叠加,得到融合特征830的第2帧,以此类推,生成了帧数为L的融合特征830。融合特征830被用于训练声学模型。
借助语音声学特征和噪声声学特征的这种融合方式,可以生成大量融合特征来作为声学模型的训练数据,并且所生成的融合特征能够真实地模拟特定真实噪声场所的环境声音,使得经过其训练的声学模型具有更高的准确率。
以上描述了通过叠加目标语音数据的声学特征和噪声数据的声学特征来得到融合特定过 程。在另一些实施例中,可以对在框520得到的目标语音数据和噪声数据进行叠加来获取叠加后的音频数据;然后基于叠加后的音频数据获取融合声学特征。在这种情况下,针对目标语音数据和噪声数据的叠加同样可以基于帧数对齐的方式进行,并且提取融合声学特征的可以类似地进行。
返回图5,在框550,使用融合特征和语音数据的文本来训练声学模型。根据本公开的实施例,声学模型可以基于深度神经网络(DNN)架构。语音数据的文本是在步骤520标注的文本,例如,包括航班号或车次。在训练时,融合特征是声学模型的输入,而文本或者对应于文本的音素是对应于融合特征的标注数据。为了更好拾取机场/火车站等高噪声、强混响环境中的非人声广播音,声学模型使用多任务架构,包含声源标签的声源识别任务和语音标签的语音识别任务。
图9示出了根据本公开的实施例的用于训练声学模型的架构图。架构900包括深度神经网络910,深度神经网络710可以包括多个隐层912、914、916以及输入层和输出层(未示出)。深度神经网络710还可以包括更多或更少的隐层。
根据本公开的实施例,可以对深度神经网络910进行多任务训练,具体地,修改深度神经网络910的训练目标,在语音识别标签的基础上增加另一个声纹识别标签作为训练目标。如图所示,可以从深度神经网络910的最后一个隐层916得到输出作为声源特征。然后,将融合特征与声源特征拼接在一起作为深度神经网络的910的输入。例如,可以将Y维声源特征与X维融合特征拼接,形成X+Y维的训练特征,作为深度神经网络的输入。在训练过程中,每轮迭代都用前一轮生成的声源特征更新输入特征,直至最终训练结束。在一些实施例中,首轮迭代输入的声源特征可以被全部置0。
由此,利用本公开的结合声纹特征的多任务学习,可以从深度神经网络中提取到广播语音的声源特征作为声学模型学习的补偿,从而更精准地拾取到非人声广播音。
返回图5,在框560,根据声学模型、发音字典和语言模型构建语音识别模型。在一些实施例中,构建语音识别模型的过程可以包括接收来自用户终端的目标关键词,生成针对目标关键词的目标语言模型和目标发音字典模型,通过合并目标语言模型、目标发音字典模型、以及声学模型来构建所述语音识别模型,更具体地,可以参照上文关于图4的描述。
根据本公开的实施例,经过离线训练的声学模型可以被存储到服务器的模型库中。当服务器从用户终端接收到目标关键词时,可以利用该声学模型、以及模型库中的其他模型(例如发音字典、语言模型)来构建用于识别该目标关键词的语音识别模型。这种专用于特定关键词的语音识别模型是轻量级的,适合部署到用户设备或智能代听设备。
示例装置和设备
图10示出了根据本公开的实施例的用于语音代听的装置1000的示意框图。装置1000可以应用于用户终端,例如第一用户终端110或第二用户装置120。装置1000包括模型获取单元1010,用于获取目标关键词对应的目标语音识别模型。目标语音识别模型为根据目标关键词构建的,目标关键词为根据用户的出行信息获取。装置1000还包括更新单元1020。更新单元用于根据目标语音识别模型对本地语音识别模型进行更新,获得更新后的语音识别模型,本地语音识别模型为用户终端中存储的语音识别模型。装置1000还包括声音识别单元1020。环境识别单元1020用于当满足目标条件时,根据更新后的语音识别模型对采集到的环境声音 进行识别,获得识别结果,环境声音为在用户终端所处的环境中采集到的声音信息。装置1000还包括提示单元1030。提示单元1030用于当识别结果指示环境声音中存在目标关键词对应的语音时,对用户进行提示。
在一些实施例中,装置1000还包括目标关键词获取单元。目标关键词获取单元用于获取用户的出行信息中的目标关键词。装置1000还包括发送单元。发送单元用于向服务器发送出行信息中的目标关键词,以用于服务器根据目标关键词构建目标语音识别模型。模型获取单元1010还用于从服务器获取目标语音识别模型。
在一些实施例中,用户终端是第一用户终端并且连接到第二用户终端,所述方法包括:向所述第二用户终端发送标识信息,所述标识信息用于标识所述第一用户终端;其中所述获取目标关键词对应的目标语音识别模型,具体为:基于所述标识信息从所述第二用户终端接收所述目标语音识别模型,所述目标语音识别模型为所述第二用户终端根据所述目标关键词从所述服务器获取;其中所述第一用户终端是音频播放设备。
在一些实施例中,目标语音识别模型是基于声学模型、目标发音字典模型和目标语言模型而生成的解码图。解码图是由目标关键词确定的语法约束规则的解码路径集合。所述目标发音字典模型是基于所述目标关键词的发音序列而获取的,并且所述目标语言模型是基于所述目标关键词的字之间的关系而获取的。
在一些实施例中,声学模型通过如下方式生成:基于目标语音数据和噪声数据生成融合声学特征,目标语音数据为包括目标语音内容的音频数据,噪声数据为不包括所述目标语音内容的音频数据;通过融合特征和语音数据的文本信息进行训练来生成声学模型。
在一些实施例中,出行信息具有关联的位置信息,其中声音识别单元1020还用于当用户的位置与出行信息的位置信息匹配时,根更新后的述语音识别模型对采集到的环境声音进行识别。
一些实施例中,出行信息还具有关联的时间信息,声音识别单元1020还用于当当前时间在时间信息之前的预定时间段内时,根据更新后的语音识别模型对采集到的环境声音进行识别。
在一些实施例中,提示单元1030还用于在用户终端上播放与目标关键词对应的语音。
在一些实施例中,目标关键词是列车车次或航班号。
在一些实施例中,用户终端是智能手机、智能家电、可穿戴设备、音频播放设备、平板电脑和笔记本电脑之一。
图11示出了根据本公开的实施例的用于生成语音识别模型的装置1100的示意框图。装置1100可以用于例如服务器130。装置1100包括融合单元1110、训练单元1120和语音识别模型构建单元1130。融合单元1110用于基于目标语音数据和噪声数据生成融合声学特征。目标语音数据为包括目标语音内容的音频数据,噪声数据为不包括目标语音内容的音频数据。训练单元1120用于通过所述融合特征和所述语音数据的文本信息进行训练来生成声学模型。语音识别模型构建单元1130用于根据所述声学模型、发音字典和语言模型构建所述语音识别模型。
在一些实施例中,融合单元1110还用于对目标语音数据和噪声数据进行叠加来获取叠加后的音频数据;以及基于叠加后的音频数据获取融合声学特征。
在一些实施例中,融合单元1110还用于基于目标语音数据获取第一声学特征,基于噪声 数据获取第二声学特征;基于第一声学特征和第二声学特征获取融合声学特征。
在一些实施例中,融合单元1110还用于从目标语音数据生成带噪声学特征;通过增强所述带噪声学特征来生成第一声学特征。
在一些实施例中,融合单元1110还用于对带噪声学特征进行LASSO变换,以及对经LASSO变换的声学特征进行bottleneck网络处理,以获取第一声学特征。
在一些实施例中,融合单元1110还用于叠加第一声学特征和第二声学特征,以得到叠加的声学特征;以及通过对叠加的声学特征进行归一化处理,生成融合声学特征。
在一些实施例中,融合单元1110还用于获取所述第一声学特征的帧数,第一声学特征的帧数根据目标语音数据的持续时间确定;根据第一声学特征的帧数基于第二声学特征构建第三声学特征;以及叠加第一声学特征和第三声学特征获取融合声学特征。
在一些实施例中,所述声学模型是神经网络模型,并且训练单元1120用于从声学模型的隐藏层提取声源特征;以及将声源特征和融合声学特征作为声学模型的输入特征来训练声学模型。
在一些实施例中,语音识别模型构建单元1130还用于接收来自用户终端的目标关键词;根据所述目标关键词的发音序列从所述发音字典获取目标发音字典模型;根据所述目标关键词的字之间的关系从所述语音模型获取目标语言模型;以及通过合并所述声学模型、所述目标发音字典模型和所述目标语言模型来构建所述语音识别模型。
图12示出了根据本公开的另一实施例的用于语音代听的装置1200。装置1200可以应用于服务器130。装置1200包括目标关键词获取单元1210、语音识别模型构建单元1220和发送单元1230。目标关键词获取单元1210用于获取用户出行信息中的与用户出行方式相关的目标关键词。语音识别模型构建单元1220用于构建与所述目标关键词对应的目标语音识别模型。发送单元1230用于向用户终端发送所述语音识别模型,所述语音识别模型用于当满足目标条件时对用户终端处的环境声音进行识别,以用于确定所述环境声音中是否存在所述目标关键词。
图13示出了可以用来实施本公开的实施例的示例设备1200的示意性框图。如图所示,设备1300包括中央处理单元(CPU)1301,其可以根据存储在只读存储器(ROM)1302中的计算机程序指令或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序指令,来执行各种适当的动作和处理。在RAM 1303中,还可存储设备1300操作所需的各种程序和数据。CPU 1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。
设备1200中的多个部件连接至I/O接口1305,包括:输入单元1306,例如键盘、鼠标等;输出单元1307,例如各种类型的显示器、扬声器等;存储单元1308,例如磁盘、光盘等;以及通信单元1309,例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理可由处理单元1201执行。例如,在一些实施例中,上述各个过程和处理可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1200上。当计算机程序被加载到RAM 1303并由CPU 1201执行时,可以执行上文描述的过程和处理的一个或多个动作。
本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施方式,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施方式的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施方式。
Claims (33)
- 一种用于语音代听的方法,所述方法应用于用户终端,包括:获取目标关键词对应的目标语音识别模型,所述目标语音识别模型为根据所述目标关键词构建,所述目标关键词为根据用户的出行信息获取;根据所述目标语音识别模型对本地语音识别模型进行更新,获得更新后的语音识别模型,所述本地语音识别模型为所述用户终端中存储的语音识别模型;当满足目标条件时,根据所述更新后的语音识别模型对采集到的环境声音进行识别,获得识别结果,所述环境声音为在所述用户终端所处的环境中采集到的声音信息;以及当所述识别结果指示所述环境声音中存在所述目标关键词时,对所述用户进行提示。
- 根据权利要求1所述的方法,其中获取目标关键词对应的目标语音识别模型包括:获取所述用户的出行信息;根据所述出行信息提取用户出行方式相关的目标关键词;向服务器发送所述目标关键词,以用于所述服务器根据所述目标关键词构建所述目标语音识别模型;以及从所述服务器获取所述目标语音识别模型。
- 根据权利要求1所述的方法,其中所述用户终端是第一用户终端并且连接到第二用户终端,所述方法包括:向所述第二用户终端发送标识信息,所述标识信息用于标识所述第一用户终端;其中所述获取目标关键词对应的目标语音识别模型,具体为:基于所述标识信息从所述第二用户终端接收所述目标语音识别模型,所述目标语音识别模型为所述第二用户终端根据所述目标关键词从所述服务器获取;其中所述第一用户终端是音频播放设备。
- 根据权利要求1所述的方法,其中所述目标语音识别模型是基于声学模型、目标发音字典模型和目标语言模型而生成的解码图,所述解码图是由所述目标关键词确定的语法约束规则的解码路径集合,所述目标发音字典模型是基于所述目标关键词的发音序列而获取的,并且所述目标语言模型是基于所述目标关键词的字之间的关系而获取的。
- 根据权利要求5所述的方法,其中所述声学模型通过融合特征和目标语音数据的文本信息进行训练而生成,所述融合特征基于目标语音数据和噪声数据而生成,所述目标语音数据为包括目标语音内容的音频数据,所述噪声数据为不包括所述目标语音内容的音频数据。
- 根据权利要求1所述的方法,还包括:根据所述出行信息获取与所述用户出行方式关联的位置信息;其中当满足目标条件时,根据所述更新后的语音识别模型对采集到的环境声音进行识别包括:当所述用户的位置与所述位置信息匹配时,根据所述更新后的语音识别模型对采集到的环境声音进行识别。
- 根据权利要求1所述的方法,还包括:根据所述出行信息获取与所述用户出行方式关联的时间信息;其中当满足目标条件时,根据所述更新后的语音识别模型对采集到的环境声音进行识别包括:当满足时间条件时,根据所述更新后的语音识别模型对采集到的环境声音进行识别,所述时间条件为根据所述时间信息确定。
- 根据权利要求1所述的方法,还包括:其中对所述用户进行提示包括在所述用户终端上播放与所述目标关键词对应的语音。
- 根据权利要求1至8中任一项所述的方法,其中所述目标关键词是列车车次或航班号。
- 根据权利要求1所述的方法,其中所述用户终端是智能手机、智能家电、可穿戴设备、音频播放设备、平板电脑和笔记本电脑之一。
- 一种用于语音代听的装置,用于用户终端,包括:模型获取单元,用于获取目标关键词对应的目标语音识别模型,所述目标语音识别模型为根据所述目标关键词构建,所述目标关键词为根据用户的出行信息获取;更新单元,用于根据所述目标语音识别模型对本地语音识别模型进行更新,获得更新后的语音识别模型,所述本地语音识别模型为所述用户终端中存储的语音识别模型;声音识别单元,用于当满足目标条件时,根据所述更新后的语音识别模型对采集到的环境声音进行识别,获得识别结果,所述环境声音为在所述用户终端所处的环境中采集到的声音信息;以及提示单元,用于当所述识别结果指示所述环境声音中存在所述目标关键词时,对所述用户进行提示。
- 根据权利要求11所述的装置,其中所述装置还包括:出行信息获取单元,用于获取所述用户的出行信息;目标关键词获取单元,用于根据所述出行信息提取用户出行方式相关的目标关键词;和发送单元,用于向服务器发送所述目标关键词,以用于所述服务器根据所述目标关键词构建所述目标语音识别模型;其中所述模型获取单元还用于从所述服务器获取所述目标语音识别模型。
- 根据权利要求11所述的装置,其中所述用户终端是第一用户终端并且连接到第二用户终端,所述装置还包括:发送单元,用于向所述第二用户终端发送标识信息,所述标识信息用于标识所述第一用户终端;所述模型获取单元还用于基于所述标识信息从所述第二用户终端接收所述目标语音识别模型,所述目标语音识别模型为所述第二用户终端根据所述目标关键词从所述服务器获取,其中所述第一用户终端是音频播放设备。
- 根据权利要求11所述的装置,其中所述目标语音识别模型是基于声学模型、目标发音字典和目标语言模型而生成的解码图,所述解码图是由所述目标关键词确定的语法约束规则的解码路径集合,所述目标发音字典模型是基于所述目标关键词的发音序列而获取的,并且所述目标语言模型是基于所述目标关键词的字之间的关系而获取的。
- 根据权利要求14所述的装置,其中所述声学模型通过融合特征和目标语音数据的文本信息进行训练而生成,所述融合特征基于目标语音数据和噪声数据而生成,所述目标语音数据为包括目标语音内容的音频数据,所述噪声数据为不包括所述目标语音内容的音频数据。
- 根据权利要求11所述的装置,还包括:出行位置信息获取单元,用于根据出行信息获取与所述用户出行方式关联的位置信息,其中所述声音识别单元还用于:当所述用户的位置与所述位置信息匹配时,根据所述更新后的语音识别模型对采集到的环境声音进行识别。
- 根据权利要求11所述的装置,还包括:出行时间信息获取单元,用于根据所述出行信息获取与所述用户出行方式关联的时间信息,其中所述声音识别单元还用于:当满足时间条件时,根据所述更新后的语音识别模型对采集到的环境声音进行识别,所述时间条件为根据所述时间信息确定。
- 根据权利要求11所述的装置,其中所述提示单元还用于:在所述用户终端上播放与所述目标关键词对应的语音。
- 根据权利要求11至18中任一项所述的装置,其中所述目标关键词是列车车次或航班号。
- 根据权利要求11所述的装置,其中所述用户终端是智能手机、智能家电、可穿戴设备、音频播放设备、平板电脑和笔记本电脑之一。
- 一种生成语音识别模型的方法,包括:基于目标语音数据和噪声数据生成融合声学特征,所述目标语音数据为包括目标语音内容的音频数据,所述噪声数据为不包括所述目标语音内容的音频数据;通过所述融合特征和所述语音数据的文本信息进行训练来生成所述声学模型;以及根据所述声学模型、发音字典和语言模型构建所述语音识别模型。
- 根据权利要求21所述的方法,其中生成所述融合声学特征包括:对所述目标语音数据和所述噪声数据进行叠加来获取叠加后的音频数据;以及基于所述叠加后的音频数据获取所述融合声学特征。
- 根据权利要求21所述的方法,其中生成所述融合声学特征包括:基于所述目标语音数据获取第一声学特征;基于所述噪声数据获取第二声学特征;基于所述第一声学特征和所述第二声学特征获取所述融合声学特征。
- 根据权利要求23所述的方法,其中所述基于所述目标语音数据获取第一声学特征,包括:从所述目标语音数据生成带噪声学特征;通过增强所述带噪声学数据来生成所述第一声学特征。
- 根据权利要求24所述的方法,其中增强所述带噪声学特征包括:对所述带噪声学特征进行LASSO变换;以及对经LASSO变换的声学特征进行bottleneck网络处理,以获取所述第一声学特征。
- 根据权利要求23所述的方法,其中所述基于所述第一声学特征和所述第二声学特征获取所述融合声学特征包括:叠加所述第一声学特征和所述第二声学特征,以得到叠加的声学特征;以及通过对所述叠加的声学特征进行归一化处理,生成所述融合声学特征。
- 根据权利要求23所述的方法,其中基于所述第一声学特征和所述第二声学特征获取所述融合声学特征包括:获取所述第一声学特征的帧数,所述第一声学特征的帧数根据所述目标语音数据的持续 时间确定;根据所述第一声学特征的帧数基于所述第二声学特征构建第三声学特征;叠加所述第一声学特征和所述第三声学特征获取所述融合声学特征。
- 根据权利要求21所述的方法,其中所述声学模型是神经网络模型,并且所述训练包括:从所述声学模型的隐藏层提取声源特征;以及将所述声源特征和所述融合声学特征作为所述声学模型的输入特征来训练所述声学模型。
- 根据权利要求21所述的方法,其中所述根据所述声学模型,发音字典和语言模型构建所述语音识别模型包括:接收来自用户终端的目标关键词;根据所述目标关键词的发音序列从所述发音字典获取目标发音字典模型;根据所述目标关键词的字之间的关系从所述语音模型获取目标语言模型;以及通过合并所述声学模型、所述目标发音字典模型和所述目标语言模型来构建所述语音识别模型。
- 一种生成语音识别模型的装置,包括:融合单元,用于基于目标语音数据和噪声数据生成融合声学特征,所述目标语音数据为包括目标语音内容的音频数据,所述噪声数据为不包括所述目标语音内容的音频数据;训练单元,用于通过所述融合特征和所述语音数据的文本信息进行训练来生成所述声学模型;以及语音识别模型构建单元,用于根据所述声学模型、发音字典和语言模型构建所述语音识别模型。
- 一种电子设备,包括:至少一个计算单元;至少一个存储器,所述至少一个存储器被耦合到所述至少一个计算单元并且存储用于由所述至少一个计算单元执行的指令,所述指令当由所述至少一个计算单元执行时,使得所述设备执行根据权利要求1至10中任一项所述的方法、或者根据权利要求21至29中任一项所述的方法。
- 一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至10中任一项所述的方法、或者根据权利要求21至29中任一项所述的方法。
- 一种计算机程序产品,包括计算机可执行指令,其中所述计算机可执行指令在被处理器执行时实现执行根据权利要求1至10中任一项所述的方法、或者根据权利要求21至29中任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/106942 WO2023283965A1 (zh) | 2021-07-16 | 2021-07-16 | 用于语音代听和生成语音识别模型的方法、装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117178320A true CN117178320A (zh) | 2023-12-05 |
Family
ID=84918923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180093163.7A Pending CN117178320A (zh) | 2021-07-16 | 2021-07-16 | 用于语音代听和生成语音识别模型的方法、装置、电子设备和介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117178320A (zh) |
WO (1) | WO2023283965A1 (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102209689B1 (ko) * | 2015-09-10 | 2021-01-28 | 삼성전자주식회사 | 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 |
US10365887B1 (en) * | 2016-03-25 | 2019-07-30 | Amazon Technologies, Inc. | Generating commands based on location and wakeword |
CN109087631A (zh) * | 2018-08-08 | 2018-12-25 | 北京航空航天大学 | 一种适于复杂环境的车辆智能语音控制系统及其构建方法 |
CN109599093B (zh) * | 2018-10-26 | 2021-11-26 | 北京中关村科金技术有限公司 | 智能质检的关键词检测方法、装置、设备及可读存储介质 |
CN110232916A (zh) * | 2019-05-10 | 2019-09-13 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN110600014B (zh) * | 2019-09-19 | 2022-09-02 | 深圳酷派技术有限公司 | 一种模型训练方法、装置、存储介质及电子设备 |
CN110708630B (zh) * | 2019-11-12 | 2021-09-14 | 广州酷狗计算机科技有限公司 | 控制耳机的方法、装置、设备及存储介质 |
CN111601215A (zh) * | 2020-04-20 | 2020-08-28 | 南京西觉硕信息科技有限公司 | 一种基于场景的关键信息提醒方法、系统及装置 |
-
2021
- 2021-07-16 CN CN202180093163.7A patent/CN117178320A/zh active Pending
- 2021-07-16 WO PCT/CN2021/106942 patent/WO2023283965A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023283965A1 (zh) | 2023-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7114660B2 (ja) | 記録メディアのホットワードトリガ抑制 | |
US11875820B1 (en) | Context driven device arbitration | |
US20220159403A1 (en) | System and method for assisting selective hearing | |
US9864745B2 (en) | Universal language translator | |
CA2717992C (en) | Speech understanding method and system | |
CN106201424B (zh) | 一种信息交互方法、装置及电子设备 | |
CN105793923A (zh) | 本地和远程语音处理 | |
CN107819929A (zh) | 优选表情符号的识别和生成 | |
CN103959751A (zh) | 自动调整用户界面以用于免提交互 | |
CN111739553A (zh) | 会议声音采集、会议记录以及会议记录呈现方法和装置 | |
CN103685783A (zh) | 信息处理系统和存储介质 | |
KR20230118089A (ko) | 사용자 스피치 프로파일 관리 | |
US10002611B1 (en) | Asynchronous audio messaging | |
CN110033584B (zh) | 服务器、控制方法以及计算机可读取记录介质 | |
KR20180075376A (ko) | 음성 데이터를 송수신하는 디바이스 및 방법 | |
JP6517670B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN110176231B (zh) | 音响输出系统、音响输出方法及存储介质 | |
CN111339881A (zh) | 基于情绪识别的宝宝成长监护方法及系统 | |
CN117178320A (zh) | 用于语音代听和生成语音识别模型的方法、装置、电子设备和介质 | |
US11790913B2 (en) | Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal | |
CN115841814A (zh) | 语音交互方法及电子设备 | |
JP6721732B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
WO2020208972A1 (ja) | 応答生成装置及び応答生成方法 | |
CN110534117B (zh) | 用于优化语音生成模型的方法、装置、设备和计算机介质 | |
US20220261218A1 (en) | Electronic device including speaker and microphone and method for operating the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |