CN110942772B - 一种语音样本收集方法及装置 - Google Patents

一种语音样本收集方法及装置 Download PDF

Info

Publication number
CN110942772B
CN110942772B CN201911150015.5A CN201911150015A CN110942772B CN 110942772 B CN110942772 B CN 110942772B CN 201911150015 A CN201911150015 A CN 201911150015A CN 110942772 B CN110942772 B CN 110942772B
Authority
CN
China
Prior art keywords
voice recognition
preset number
voices
voice
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911150015.5A
Other languages
English (en)
Other versions
CN110942772A (zh
Inventor
张闯
田翠霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN201911150015.5A priority Critical patent/CN110942772B/zh
Publication of CN110942772A publication Critical patent/CN110942772A/zh
Application granted granted Critical
Publication of CN110942772B publication Critical patent/CN110942772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种语音样本收集方法及装置,所述方法包括:接收语音;当在预设时长内连续接收到预设数量的目标语音时,确定所述预设数量的目标语音出现语音识别错误,并保存所述预设数量的目标语音;其中,所述预设数量的目标语音之间的相似度超过预设相似度阈值。应用本发明实施例可以高效地确定发生语音识别错误的语音,并为语音识别错误的分析处理提供数据支持。

Description

一种语音样本收集方法及装置
技术领域
本发明涉及人工智能领域,尤其涉及一种语音样本收集方法及装置。
背景技术
近年来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。
然而,虽然语音识别技术飞速发展,但是在语音识别的应用中,仍会遇到识别错误的情况,而目前并不存在针对语音识别中的语音识别错误问题的解决方案。
发明内容
本发明提供一种语音样本收集方法及装置,以解决现有语音识别方案中不存在针对语音识别错误问题的解决方案的问题。
根据本发明的第一方面,提供一种语音样本收集方法,包括:
接收语音;
当在预设时长内连续接收到预设数量的目标语音时,确定所述预设数量的目标语音出现语音识别错误,并保存所述预设数量的目标语音;其中,所述预设数量的目标语音之间的相似度超过预设相似度阈值。
根据本发明的第二方面,提供一种语音样本收集装置,包括:
接收单元,用于接收语音;
确定单元,用于当在预设时长内连续接收到预设数量的目标语音,确定所述预设数量的目标语音出现语音识别错误;其中,所述预设数量的目标语音之间的相似度超过预设相似度阈值;
保存单元,用于保存所述预设数量的目标语音。
应用本发明公开的技术方案,通过接收语音,并当在预设时长内连接接收到预设数量的目标语音时,确定该预设数量的目标语音出现语音识别错误,该预设数量的目标语音之间的相似度超过预设相似度阈值,保存该预设数量的目标语音,可以高效地确定发生语音识别错误的语音,并为语音识别错误的分析处理提供了数据支持。
附图说明
图1是本发明实施例提供的一种语音样本收集方法的流程示意图;
图2A~图2C是本发明实施例提供的指令识别的示意图;
图3是本发明实施例提供的一种语音样本收集装置的结构示意图;
图4是本发明实施例提供的另一种语音样本收集装置的结构示意图;
图5是本发明实施例提供的另一种语音样本收集装置的结构示意图;
图6是本发明实施例提供的另一种语音样本收集装置的结构示意图
图7是本发明实施例提供的另一种语音样本收集装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中技术方案作进一步详细的说明。
请参见图1,为本发明实施例提供的一种语音样本收集方法的流程示意图,其中,该语音样本收集方法可以应用于具备语音识别功能的设备(本文中简称为语音识别设备),如图1所示,该语音样本收集方法可以包括以下步骤:
需要说明的是,在语音识别应用中,主要包括两种部署方式:
1、语音识别功能部署在Server(服务器),即Client(客户端)-Server(服务器)方式:Client端采集语音,并通过网络传输给Server,由Server对接收到的语音进行语音识别,得到识别结果。
2、语音识别功能部署在终端:终端采集语音,并对采集到的语音进行语音识别,得到识别结果。
相应地,语音识别设备可以包括方式1中的服务器或方式2中的终端。
步骤101、接收语音。
本发明实施例中,语音识别设备接收到语音时,可以对接收到的语音进行语音识别,以得到识别结果。
例如,语音识别设备可以基于预设的语音识别模型,对接收到的语音进行语音识别。
步骤102、当在预设时长内连续接收到预设数量的目标语音时,确定该预设数量的目标语音出现语音识别错误,并保存该预设数量的目标语音;其中,该预设数量的目标语音之间的相似度超过预设相似度阈值。
本发明实施例中,考虑到在语音识别场景中,当语音识别设备出现语音识别错误时,用户可能会在短时间内重复同一段语音;当语音识别设备未出现语音识别错误时,用户通常不会在短时间内重复同一段语音。
例如,以智能音箱场景为例,对于某一个指令(如“暂停”、“播放”或“退出”等),若智能音箱对用户说的语音识别错误时,用户通常会在短时间内重复该指令对应的语音。
因此,语音识别设备可以通过判断是否在短时间内接收到多段相似语音的方式,确定是否出现语音识别错误。
相应地,在本发明实施例中,语音识别设备可以判断是否在预设时长内(可以根据实际场景设定,如5秒或10秒等)连续接收到预设数量(该预设数量大于等于2,具体值可以根据实际场景设定,如2条或3条等)的目标语音,该预设数量的目标语音之间的相似度超过预设相似度阈值(可以根据实际场景设定)。
在一个示例中,步骤102中,可以通过以下方式确定两条语音之间的相似度超过预设相似度阈值:
基于两条语音的识别结果,确定该两条语音对应的编辑距离;
当该编辑距离小于预设距离阈值时,确定该两条余韵之间的相似度超过预设相似度阈值。
在该示例中,可以通过两条语音对应的编辑距离来表征两条语音的相似度,两条语音对应的编辑距离越小,该两条语音之间的相似度越高。
当语音识别设备对接收到的语音进行语音识别,得到识别结果时,可以基于语音的识别结果,确定两条语音对应的编辑距离,并判断该编辑距离是否小于预设距离阈值,若该编辑距离小于预设距离阈值,则确定该两条语音之间的相似度超过预设相似度阈值。
举例来说,以中文语音识别为例,语音对应的编辑距离可以为识别结果对应的拼音的编辑距离。
例如,“tuishu”与“tuizhu”的编辑距离为1;“pofan”与“bofang”的编辑距离为2。
本发明实施例中,若在预设时长内连续接收到预设数量的目标语音,则语音识别设备可以确定该预设数量的目标语音出现语音识别错误;否则,语音识别设备可以确定未出现语音识别错误,或者,按照其他策略进一步判定是否出现语音识别错误。
举例来说,以预设时长为10秒、预设数量为2条为例,语音识别设备接收到的语音时,可以确定该语音与上一次接收到的语音之间的相似度,以及接收到该语音的时间与上一次接收到语音的时间的时间差,若该相似度超过预设相似度阈值,且该时间差未超过10秒,则确定这2次接收到的语音出现语音识别错误;否则,确定未出现语音识别错误。
又举例来说,以预设时长为15秒、预设数量为3条为例,语音识别设备接收到语音时,可以确定该语音与上一次接收到的语音之间的相似度,以及接收到该语音的时间与上一次接收到语音的时间的时间差,若该相似度超过预设相似度阈值,且该时间差未超过15秒,则语音识别设备可以启动一个定时器,定时时长为15秒与该时间差的差值,若在定时器超时前,语音识别设备再次接收到与前两次接收到的语音之间的相似度超过预设相似度阈值(与前两次接收到的语音之间的相似度均超过预设相似度阈值,或,与前两次接收到的语音中的任一语音之间的相似度超过预设相似度阈值等),则确定这3次接收到的语音出现语音识别错误;否则,确定未出现语音识别错误。
又举例来说,以预设时长为15秒、预设次数为3次为例,语音识别设备可以在第一次接收到语音时,启动一个定时器和一个计数器,定时器的定时时长为15秒,计数器的初始计数为1;当在定时器超时前,语音识别设备再次接收到语音时,语音识别设备可以确定该语音与上一次接收到的语音之间的相似度,若相似度超过阈值,则将计数器的计数+1;若相似度未超过阈值,则重置定时器以及计数器,并重新启动定时器。当定时器的定时超时,且计数器的计数未达到3时,重置定时器和计数器,并在再次接收到语音时,重新启动定时器。
本发明实施例中,当语音识别设备确定预设数量的目标语音出现语音识别错误时,可以保存该预设数量的目标语音,以便后续可以基于该预设数量的目标语音进行相关分析和处理。
在一个示例中,步骤102中,保存该预设数量的目标语音,可以包括:
将该预设数量的目标语音保存至指定目录。
在该示例中,语音识别设备确定连续接收到的预设数量的目标语音发生语音识别错误时,可以将该预设数量的目标语音保存至本地指定目录,以便后续可以从本地指定目录中读取发生语音识别错误的语音。
在另一个示例中,步骤102中,保存该预设数量的目标语音,可以包括:
将该预设数量的目标语音发送至指定服务器,以使指定服务器对该预设数量的目标语音进行保存。
在该示例中,语音识别设备确定连续接收到的预设数量的目标语音发生语音识别错误时,可以将该预设数量的目标语音发送至指定服务器,由指定服务器对该预设数量的目标语音进行保存。
例如,对于语音识别功能部署在终端的场景,终端可以先将发生语音识别错误的语音缓存在本地,并当连上网络时,通过网络将发生识别错误的语音发送给指定服务器,由指定服务器对发生语音识别错误的语音进行保存,以节省终端的存储空间。
可见,在图1所示方法流程中,通过判断语音识别设备是否在预设时长内连续接收到预设数量的目标语音,确定是否出现语音识别错误,并保存发生语音识别错误的语音,从而可以高效地确定发生语音识别错误的语音,并为语音识别错误的分析处理提供了数据支持。
在本发明其中一个实施例中,步骤102中,在预设时长内连续接收到预设数量的目标语音之后,确定该预设数量的目标语音出现语音识别错误之前,还可以包括:
输出第一提示信息,第一提示信息用于提示用户反馈语音识别正确或语音识别错误;
当接收到响应该第一提示信息输入的语音识别正确的反馈时,确定未出现语音识别错误;
当接收到响应第一提示信息输入的语音识别错误的反馈时,确定出现语音识别错误。
在该实施例中,为了提高语音识别错误判定的准确性,当语音识别设备在预设时长内连续接收到预设数量的目标语音时,语音识别设备可以输出一个用于提示用户反馈语音识别正确或语音识别错误的提示信息(本文中称为第一提示信息),以提示用户反馈语音识别正确或语音识别错误。
举例来说,语音识别设备可以通过语音合成的方式,输出语音提示信息,以提示用户反馈语音识别正确或语音识别错误。
又举例来说,当语音识别设备包括显示部件(如显示屏)时,语音识别设备可以输出文字提示信息,以提示用户反馈语音识别正确或语音识别错误。
在该实施例中,当语音识别设备接收到响应第一提示信息输入的反馈时,可以基于接收到的反馈确定是否出现语音识别错误。
当该反馈为语音识别正确的反馈时,确定未出现语音识别错误;当该反馈为语音识别错误的反馈时,确定出现语音识别错误。
示例性的,该反馈可以为语音反馈或对指定功能按钮的点击指令等。
举例来说,假设第一提示信息为语音提示信息,则用户可以通过语音进行反馈,如“正确”或“错误”,由于“正确”的拼音(zhengque)与“错误”的拼音(cuowu)的编辑距离较大,因此,语音识别设备可以对反馈进行准确识别。
又举例来说,假设第一提示信息为文字提示信息,语音识别设备可以在显示屏中显示“是否出现语音识别错误”,并提供“是”和“否”两个选项供用户选择,并根据用户对“是”或“否”的选择指令确定是否出现语音识别错误。
在本发明另一个实施例中,步骤102中,在预设时长内连续接收到预设数量的目标语音之后,确定该预设数量的目标语音出现语音识别错误之前,还可以包括:
基于该预设数量的目标语音的识别结果,查询指定数据库是否保存有该预设数量的目标语音的识别结果;
当指定数据库中保存有该预设数量的目标语音的识别结果时,确定该预设数量的目标语音未出现语音识别错误;
否则,确定该预设数量的目标语音出现语音识别错误。
在该实施例中,考虑到在某些指定场景中,可能存在未出现语音识别错误,但用户短时间内重复同一段语音的情况。
例如,对于智能音箱的控制,用户可能会在短时间内重复“提高音量”、“降低音量”、“上一曲”或“下一曲”的指令。
因此,为了提高语音识别错误判定的准确性,对于可能会在未出现语音识别错误的情况下短时间内多次出现的语音,可以保存到指定数据库(可以称为例外库)。
当语音识别设备确定在预设时长内连续接收到预设数量的目标语音时,语音识别设备可以基于该预设数量的目标语音的识别结果,查询指定数据库,以确定指定数据库中是否保存有该预设数量的目标语音。
若指定数据库中保存有该预设数量的目标语音,则语音识别设备可以确定该预设数量的目标语音未出现语音识别错误。
否则,即指定数据库中未保存有该预设数量的目标语音的识别结果中的部分或全部,则语音识别设备可以确定该预设数量的目标语音出现语音识别错误。
在一个示例中,当指定数据库中未保存该预设数量的目标语音的识别结果中的部分或全部时,在确定该预设数量的目标语音出现语音识别错误之前,还可以包括:
输出第二提示信息,第二提示信息用于提示用户反馈语音识别正确或语音识别错误;
当接收到响应第二提示信息输入的语音识别正确的反馈时,确定未出现语音识别错误,并将该预设数量的目标语音的识别结果保存至指定数据库;
当接收到响应所述第二提示信息输入的语音识别错误的反馈时,确定出现语音识别错误。
在该示例中,为了进一步提高语音识别错误的判定的准确性,当语音识别设备在预设时长内连续接收到预设数量的目标语音,且未在指定数据库中查询到该预设数量的目标语音的识别结果中的部分或全部时,语音识别设备可以输出一个用于提示用户反馈语音识别正确或语音识别错误的提示信息(本文中称为第二提示信息),以提示用户反馈语音识别正确或语音识别错误。
举例来说,语音识别设备可以通过语音合成的方式,输出语音提示信息,以提示用户反馈语音识别正确或语音识别错误。
又举例来说,当语音识别设备包括显示部件(如显示屏)时,语音识别设备可以输出文字提示信息,以提示用户反馈语音识别正确或语音识别错误。
在该实施例中,当语音识别设备接收到响应第二提示信息输入的反馈时,可以基于接收到的反馈确定是否出现语音识别错误。
当该反馈为语音识别正确的反馈时,确定未出现语音识别错误,此时,语音识别设备可以将该相似度超过预设相似度阈值的语音的识别结果保存至指定数据库;
当该反馈为语音识别错误的反馈时,确定出现语音识别错误。
示例性的,该反馈可以为语音反馈或对指定功能按钮的点击指令等。
在本发明一个实施例中,上述语音样本收集方法还可以包括:
基于所保存的发生语音识别错误的语音,生成语音识别训练样本;
基于所生成的语音识别训练样本,对当前用于语音识别的语音识别模型进行增量训练;
基于增量训练后的语音识别模型对接收到的语音进行语音识别。
在该实施例中,为了提高语音识别的准确率,对于语音识别设备通过语音识别模型进行语音识别的场景,可以基于发生语音识别错误的语音对应的语音识别训练样本,对用于进行语音识别的语音识别模型进行增量训练,通过对语音识别模型的参数进行调整,以优化语音识别模型的识别效果,提高准确率。
相应地,语音识别设备保存发生语音识别错误的语音之后,还可以基于所保存的发生语音识别错误的语音,生成语音识别训练样本。
例如,语音识别设备可以通过自动标注或人工标注的方式,对所保存的发生语音识别错误的语音进行标注(即标注语音的正确识别结果),以生成语音识别训练样本。
示例性的,语音识别设备可以按照预设周期,周期性地基于所保存的发生语音识别错误的语音生成语音识别训练样本;或/和,语音识别设备可以在所保存发生语音识别错误的语音的数量达到预设数量阈值时,基于所保存的发生语音识别错误的语音生成语音识别训练样本。
在该实施例中,语音识别设备生成语音识别训练样本之后,可以基于所生成的语音识别训练样本对当前用于语音识别的语音识别模型进行增量训练,对语音识别模型的参数进行调整。
完成语音识别模型的增量训练后,可以基于增量训练后的语音识别模型对当前用于语音识别的语音识别模型的参数进行更新,进而,基于参数更新后的语音识别模型对接收到的语音进行语音识别。
为了使本领域技术人员更好地理解本发明实施例提供的技术方案,下面结合具体实例对本发明实施例提供的技术方案进行说明。
在该实施例中,以通过深度学习的方式进行端到端识别中文语音为例,语音识别设备可以提取接收到的语音的特征信息,并使用语音识别模型(如声学模型)将语音转成拼音,然后,再将拼音转成文字。
以对用户的指令进行识别为例,语音识别设备可以对用户的语音指令进行语音识别,将.wav格式的音频转为拼音,然后将拼音转成文字,其示意图可以如图2A~2C所示。
需要说明的是,对于指令识别,语音识别设备将用户的语音指令转为拼音之后,可以将识别出的拼音同预设指令进行匹配,以编辑距离最小的匹配结果作为识别结果即可完成,而不必转成文字。
在该实施例中,语音识别设备接收到语音时,可以对接收到的语音识别进行识别,得到识别结果,并基于识别结果的拼音,确定当前语音与上一次接收到的语音对应的编辑距离。
例如,假设当前语音的识别结果的拼音为“tuishu”,上一次接收到的语音的识别结果的拼音为“tuizhu”,则确定当前语音与上一次接收到的语音对应的编辑距离为1。
若当前语音与上一次接收到的语音对应的编辑距离小于预设距离阈值(假设为2),且当前语音的接收时间与上一次接收到的语音的接收时间的时间差小于预设阈值(假设为5秒),则语音识别设备可以基于该两次接收到的语音的识别结果查询指定数据库,以确定指定数据库中是否保存有该两次接收到的语音的识别结果。
若指定数据库中保存有该两次接收到的语音的识别结果,确定未发生语音识别错误。
否则,即指定数据库中未保存该两次接收到的语音的识别结果中的至少一个,则语音识别设备可以输出语音提示信息,以提示用户反馈语音识别正确或语音识别错误;当接收到语音识别正确的反馈时,确定未出现语音识别错误,此时,将这两次接收到的语音的识别结果保存至指定数据库;当接收到语音识别错误的反馈时,确定这两次接收到的语音出现语音识别错误,将这两次接收到的语音保存到指定目录。
后续可以由人工从指定目录中保存的发生语音识别错误的语音,并且打上正确的标签,用于语音识别模型的增量训练,通过参数微调改进语音识别模型的语音识别准确率。
通过以上描述可以看出,在本发明实施例提供的技术方案中,通过接收语音,并当在预设时长内连接接收到预设数量的目标语音时,确定该预设数量的目标语音出现语音识别错误,该预设数量的目标语音之间的相似度超过预设相似度阈值,保存该预设数量的目标语音,可以高效地确定发生语音识别错误的语音,并为语音识别错误的分析处理提供了数据支持。
请参见图3,为本发明实施例提供一种语音样本收集装置的结构示意图,如图3所示,该语音样本收集装置可以包括:
接收单元310,用于接收语音;
确定单元320,用于当在预设时长内连续接收到预设数量的目标语音时,确定所述预设数量的目标语音出现语音识别错误;其中,所述预设数量的目标语音之间的相似度超过预设相似度阈值;
保存单元330,用于保存所述预设数量的目标语音。
在可选实施例中,所述确定单元320,具体用于通过以下方式确定两条语音之间的相似度超过预设相似度阈值:
基于两条语音的识别结果,确定该两条语音对应的编辑距离;
当该编辑距离小于预设距离阈值时,确定该两条语音之间的相似度超过预设相似度阈值。
请一并参见图4,为本发明实施例提供的另一种语音样本收集装置的结构示意图,如图4所示,在图3所示语音样本收集装置的基础上,图4所示语音样本收集装置还包括:
第一输出单元340,用于当在预设时长内连续接收到预设数量的目标语音时,输出第一提示信息,所述第一提示信息用于提示用户反馈语音识别正确或语音识别错误;
所述确定单元320,具体用于当所述接收单元接收到响应所述第一提示信息输入的语音识别正确的反馈时,确定未出现语音识别错误;当所述接收单元接收到响应所述第一提示信息输入的语音识别错误的反馈时,确定出现语音识别错误。
请一并参见图5,为本发明实施例提供的另一种语音样本收集装置的结构示意图,如图5所示,在图3所示语音样本收集装置的基础上,图5所示语音样本收集装置还包括:
查询单元350,用于当在预设时长内连续接收到预设数量的目标语音时,基于所述预设数量的目标语音的识别结果,查询指定数据库中是否保存有所述预设数量的目标语音的识别结果;
所述确定单元320,用于当所述指定数据库中保存有所述预设数量的目标语音的识别结果时,确定所述预设数量的目标语音未出现语音识别错误;否则,确定所述预设数量的目标语音出现语音识别错误。
请一并参见图6,为本发明实施例提供的另一种语音样本收集装置的结构示意图,如图6所示,在图5所示语音样本收集装置的基础上,图6所示语音样本收集装置还包括:
第二输出单元360,用于当所述指定数据库中未保存所述预设数量的目标语音的识别结果中的部分或全部时,输出第二提示信息,所述第二提示信息用于提示用户反馈语音识别正确或语音识别错误;
所述确定单元320,具体用于当接收到响应所述第二提示信息输入的语音识别正确的反馈时,确定未出现语音识别错误;当接收到响应所述第二提示信息输入的语音识别错误的反馈时,确定出现语音识别错误;
所述保存单元340,还用于在所述确定单元确定未出现语音识别错误时,将所述预设数量的目标语音的识别结果保存至所述指定数据库。
请一并参见图7,为本发明实施例提供的另一种语音样本收集装置的结构示意图,如图7所示,在图3所示语音样本收集装置的基础上,图7所示语音样本收集装置还包括:
生成单元370,用于基于所保存的发生语音识别错误的语音,生成语音识别训练样本;
训练单元380,用于基于所述语音识别训练样本,对当前用于语音识别的语音识别模型进行增量训练;
识别单元390,具体用于基于增量训练后的语音识别模型对接收到的语音进行语音识别。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
由上述实施例可见,通过接收语音,并当在预设时长内连接接收到预设数量的目标语音时,确定该预设数量的目标语音出现语音识别错误,保存该预设数量的目标语音,可以高效地确定发生语音识别错误的语音,并为语音识别错误的分析处理提供了数据支持。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种语音样本收集方法,其特征在于,包括:
接收语音;
当在预设时长内连续接收到预设数量的目标语音时,确定所述预设数量的目标语音出现语音识别错误,并保存所述预设数量的目标语音;其中,所述预设数量的目标语音之间的相似度超过预设相似度阈值;
其中,在预设时长内连续接收到预设数量的目标语音之后,确定所述预设数量的目标语音出现语音识别错误之前,还包括:
基于所述预设数量的目标语音的识别结果,查询指定数据库中是否保存有所述预设数量的目标语音的识别结果;其中,所述指定数据库中存储有在未出现语音识别错误的情况下短时间内多次出现的语音;
当所述指定数据库中保存有所述预设数量目标语音的识别结果时,确定所述预设数量的目标语音未出现语音识别错误;
否则,确定所述预设数量的目标语音出现语音识别错误。
2.根据权利要求1所述的方法,其特征在于,通过以下方式确定两条语音之间的相似度超过预设相似度阈值:
基于两条语音的识别结果,确定该两条语音对应的编辑距离;
当该编辑距离小于预设距离阈值时,确定该两条语音之间的相似度超过预设相似度阈值。
3.根据权利要求1所述的方法,其特征在于,在预设时长内连续接收到预设数量的目标语音之后,确定所述预设数量的目标语音出现语音识别错误之前,还包括:
输出第一提示信息,所述第一提示信息用于提示用户反馈语音识别正确或语音识别错误;
当接收到响应所述第一提示信息输入的语音识别正确的反馈时,确定未出现语音识别错误;
当接收到响应所述第一提示信息输入的语音识别错误的反馈时,确定出现语音识别错误。
4.根据权利要求1所述的方法,其特征在于,当所述指定数据库中未保存所述预设数量的目标语音的识别结果中的部分或全部时,在确定所述预设数量的目标语音出现语音识别错误之前,还包括:
输出第二提示信息,所述第二提示信息用于提示用户反馈语音识别正确或语音识别错误;
当接收到响应所述第二提示信息输入的语音识别正确的反馈时,确定未出现语音识别错误,并将所述目标语音的识别结果保存至所述指定数据库;
当接收到响应所述第二提示信息输入的语音识别错误的反馈时,确定出现语音识别错误。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所保存的发生语音识别错误的语音,生成语音识别训练样本;
基于所述语音识别训练样本,对当前用于语音识别的语音识别模型进行增量训练;
基于增量训练后的语音识别模型对接收到的语音进行语音识别。
6.一种语音样本收集装置,其特征在于,包括:
接收单元,用于接收语音;
确定单元,用于当在预设时长内连续接收到预设数量的目标语音时,确定所述预设数量的目标语音出现语音识别错误;其中,所述预设数量的目标语音之间的相似度超过预设相似度阈值;
保存单元,用于保存所述预设数量的目标语音;
其中,所述装置还包括:
查询单元,用于当在预设时长内连续接收到预设数量的目标语音时,基于所述预设数量的目标语音的识别结果,查询指定数据库中是否保存有所述预设数量的目标语音的识别结果;其中,所述指定数据库中存储有在未出现语音识别错误的情况下短时间内多次出现的语音;
所述确定单元,用于当所述指定数据库中保存有所述预设数量的目标语音的识别结果时,确定所述预设数量的目标语音未出现语音识别错误;否则,确定所述预设数量的目标语音出现语音识别错误。
7.根据权利要求6所述的装置,其特征在于,所述确定单元,具体用于通过以下方式确定两条语音之间的相似度超过预设相似度阈值:
基于两条语音的识别结果,确定该两条语音对应的编辑距离;
当该编辑距离小于预设距离阈值时,确定该两条语音之间的相似度超过预设相似度阈值。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一输出单元,用于当在预设时长内连续接收到预设数量的目标语音时,输出第一提示信息,所述第一提示信息用于提示用户反馈语音识别正确或语音识别错误;
所述确定单元,具体用于当所述接收单元接收到响应所述第一提示信息输入的语音识别正确的反馈时,确定未出现语音识别错误;当所述接收单元接收到响应所述第一提示信息输入的语音识别错误的反馈时,确定出现语音识别错误。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二输出单元,用于当所述指定数据库中未保存所述预设数量的目标语音的识别结果中的部分或全部时,输出第二提示信息,所述第二提示信息用于提示用户反馈语音识别正确或语音识别错误;
所述确定单元,具体用于当接收到响应所述第二提示信息输入的语音识别正确的反馈时,确定未出现语音识别错误;当接收到响应所述第二提示信息输入的语音识别错误的反馈时,确定出现语音识别错误;
所述保存单元,还用于在所述确定单元确定未出现语音识别错误时,将所述预设数量的目标语音的识别结果保存至所述指定数据库。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
生成单元,用于基于所保存的发生语音识别错误的语音,生成语音识别训练样本;
训练单元,用于基于所述语音识别训练样本,对当前用于语音识别的语音识别模型进行增量训练;
识别单元,具体用于基于增量训练后的语音识别模型对接收到的语音进行语音识别。
CN201911150015.5A 2019-11-21 2019-11-21 一种语音样本收集方法及装置 Active CN110942772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911150015.5A CN110942772B (zh) 2019-11-21 2019-11-21 一种语音样本收集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911150015.5A CN110942772B (zh) 2019-11-21 2019-11-21 一种语音样本收集方法及装置

Publications (2)

Publication Number Publication Date
CN110942772A CN110942772A (zh) 2020-03-31
CN110942772B true CN110942772B (zh) 2022-11-25

Family

ID=69907084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911150015.5A Active CN110942772B (zh) 2019-11-21 2019-11-21 一种语音样本收集方法及装置

Country Status (1)

Country Link
CN (1) CN110942772B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112542169B (zh) * 2020-12-25 2024-05-10 腾讯科技(深圳)有限公司 一种语音识别处理方法与装置
CN114974221B (zh) * 2022-04-29 2024-01-19 中移互联网有限公司 语音识别模型训练方法及装置、计算机可读存储介质
CN117789706B (zh) * 2024-02-27 2024-05-03 富迪科技(南京)有限公司 一种音频信息内容识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1629789A (zh) * 2003-12-16 2005-06-22 佳能株式会社 信息处理装置和数据输入方法
CN105206260A (zh) * 2015-08-31 2015-12-30 努比亚技术有限公司 一种终端语音播报方法、装置及终端语音操作方法
CN109584881A (zh) * 2018-11-29 2019-04-05 平安科技(深圳)有限公司 基于语音处理的号码识别方法、装置及终端设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115096A (ja) * 1994-10-14 1996-05-07 Sanyo Electric Co Ltd 音声処理装置
JP2005084589A (ja) * 2003-09-11 2005-03-31 Nissan Motor Co Ltd 音声認識装置
GB2409561A (en) * 2003-12-23 2005-06-29 Canon Kk A method of correcting errors in a speech recognition system
JP5158174B2 (ja) * 2010-10-25 2013-03-06 株式会社デンソー 音声認識装置
KR20150065521A (ko) * 2013-12-05 2015-06-15 주식회사 케이티 발화된 음성의 음성 인식 실패 개선을 위한 방법 및 이를 위한 음성인식 제어장치
KR101643560B1 (ko) * 2014-12-17 2016-08-10 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
JP6759058B2 (ja) * 2016-10-31 2020-09-23 アルパイン株式会社 音声認識装置および音声認識方法
US10650811B2 (en) * 2018-03-13 2020-05-12 Microsoft Technology Licensing, Llc Correction of speech recognition on repetitive queries
CN108932945B (zh) * 2018-03-21 2021-08-31 北京猎户星空科技有限公司 一种语音指令的处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1629789A (zh) * 2003-12-16 2005-06-22 佳能株式会社 信息处理装置和数据输入方法
CN105206260A (zh) * 2015-08-31 2015-12-30 努比亚技术有限公司 一种终端语音播报方法、装置及终端语音操作方法
CN109584881A (zh) * 2018-11-29 2019-04-05 平安科技(深圳)有限公司 基于语音处理的号码识别方法、装置及终端设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Mutal disambiguation of recognition errors in a multimodal architecture;Sharon Oviatt;《Proceedings of the SIGCHI conference on Human Factors in Computing Systems》;19990501;全文 *
基于统计模式识别的发音错误检测研究;魏思;《中国博士学位论文全文数据库(信息科技辑)》;20090615;全文 *

Also Published As

Publication number Publication date
CN110942772A (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
CN110942772B (zh) 一种语音样本收集方法及装置
CN107195303B (zh) 语音处理方法及装置
CN109754783B (zh) 用于确定音频语句的边界的方法和装置
CN105654945B (zh) 一种语言模型的训练方法及装置、设备
CN111261162B (zh) 语音识别方法、语音识别装置及存储介质
CN103559880B (zh) 语音输入系统和方法
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
WO2016139670A1 (en) System and method for generating accurate speech transcription from natural speech audio signals
CN104240718A (zh) 转录支持设备和方法
CN110751960B (zh) 噪声数据的确定方法及装置
CN108766431B (zh) 一种基于语音识别的自动唤醒方法及电子设备
CN111178081B (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
CN111402865A (zh) 语音识别训练数据的生成方法、语音识别模型的训练方法
CN110473519B (zh) 一种语音处理方法及装置
CN114639386A (zh) 文本纠错及文本纠错词库构建方法
US20220399013A1 (en) Response method, terminal, and storage medium
CN110942765B (zh) 一种构建语料库的方法、设备、服务器和存储介质
CN106550268B (zh) 视频处理方法和视频处理装置
CN113782026A (zh) 一种信息处理方法、装置、介质和设备
CN111724769A (zh) 一种智能家居语音识别模型的生产方法
CN112307253A (zh) 一种基于预设录音标题自动生成语音文件的方法及系统
CN103594086A (zh) 语音处理系统、装置及方法
CN115331670B (zh) 一种家用电器用离线语音遥控器
CN111128127A (zh) 一种语音识别处理方法及装置
CN111768773B (zh) 一种智能决策会议机器人

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant