CN110517673A - 语音识别方法、装置、计算机设备及存储介质 - Google Patents

语音识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110517673A
CN110517673A CN201910651161.XA CN201910651161A CN110517673A CN 110517673 A CN110517673 A CN 110517673A CN 201910651161 A CN201910651161 A CN 201910651161A CN 110517673 A CN110517673 A CN 110517673A
Authority
CN
China
Prior art keywords
recognition result
result
voice messaging
recognition
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910651161.XA
Other languages
English (en)
Other versions
CN110517673B (zh
Inventor
欧阳碧云
刘嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910651161.XA priority Critical patent/CN110517673B/zh
Priority to PCT/CN2019/117735 priority patent/WO2021008035A1/zh
Publication of CN110517673A publication Critical patent/CN110517673A/zh
Application granted granted Critical
Publication of CN110517673B publication Critical patent/CN110517673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种语音识别方法、装置、计算机设备及存储介质,通过实时获取用户输入的语音信息;若从语音信息中检测到静音信息,则获取语音信息的第一识别结果;根据第一识别结果在后台预加载第一识别结果对应的功能;若在预定时间内未检测到新的语音信息,则执行预加载的所述第一识别结果对应的功能。不需要额外的识别模型来判断语音的静音信息,通过等待或者特地的指令来实现静音判断即可。并且在识别到静音信息之后,对当前获取到的语音信息进行预处理和预加载,若后续未检测到新的语音信息,则直接执行所述预加载的所述第一识别结果对应的功能,提高了整个语音识别的执行效率。

Description

语音识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及语音语义领域,尤其涉及一种语音识别方法、装置、计算机设备及存储介质。
背景技术
随着科技的进一步发展,语音识别技术的应用也越来越广泛,在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等领域,都会应用到语音识别技术。目前,语音识别技术主要通过接收用户输入的语音信息,对语音信息进行识别后获得语音识别结果。目前,一些应用了语音识别技术的语音搜索类产品不仅可以对用户输入的语音信息进行识别,还可根据语音识别结果向搜索服务器发送搜索请求,进一步获取搜索结果。
但是,在用户输入语音时,有可能用户输入的内容较多,或者在各种干扰之下,影响了语音识别的过程,因此,经常需要等待较长时间才能获取到识别结果,语音识别的效率不高。
发明内容
本发明实施例提供一种语音识别方法、装置、计算机设备及存储介质,以解决语音识别效率不高的问题。
一种语音识别方法,包括:
实时获取用户输入的语音信息;
若从所述语音信息中检测到静音信息,则获取所述语音信息的第一识别结果;
根据所述第一识别结果在后台预加载所述第一识别结果对应的功能;
若在预定时间内未检测到新的语音信息,则执行所述预加载的所述第一识别结果对应的功能。
一种语音识别装置,包括:
实时获取模块,用于实时获取用户输入的语音信息;
第一识别结果获取模块,用于在从所述语音信息中检测到静音信息时,则获取所述语音信息的第一识别结果;
预加载模块,用于根据所述第一识别结果在后台预加载所述第一识别结果对应的功能;
功能执行模块,用于在预定时间内未检测到新的语音信息时,则执行所述预加载的所述第一识别结果对应的功能。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音识别方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音识别方法。
上述语音识别方法、装置、计算机设备及存储介质中,通过实时获取用户输入的语音信息;若从语音信息中检测到静音信息,则获取语音信息的第一识别结果;根据第一识别结果在后台预加载第一识别结果对应的功能;若在预定时间内未检测到新的语音信息,则执行预加载的所述第一识别结果对应的功能。不需要额外的识别模型来判断语音的静音信息,通过等待或者特地的指令来实现静音判断即可。并且在识别到静音信息之后,对当前获取到的语音信息进行预处理和预加载,若后续未检测到新的语音信息,则直接执行所述预加载的所述第一识别结果对应的功能,提高了整个语音识别的执行效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语音识别方法的一应用环境示意图;
图2是本发明一实施例中语音识别方法的一示例图;
图3是本发明一实施例中语音识别方法的另一示例图;
图4是本发明一实施例中语音识别方法的另一示例图;
图5是本发明一实施例中语音识别方法的另一示例图;
图6是本发明一实施例中语音识别方法的另一示例图;
图7是本发明一实施例中语音识别方法的另一示例图;
图8是本发明一实施例中语音识别方法的另一示例图;
图9是本发明一实施例中语音识别方法的另一示例图;
图10是本发明一实施例中语音识别装置的一原理框图;
图11是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的语音识别方法,可应用在如图1的应用环境中,其中,客户端(计算机设备)实时获取用户输入的语音信息;若从语音信息中检测到静音信息,则获取语音信息的第一识别结果;根据第一识别结果在后台预加载第一识别结果对应的功能;若在预定时间内未检测到新的语音信息,则执行所述预加载的所述第一识别结果对应的功能。其中,客户端(计算机设备)可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
在一实施例中,如图2所示,提供一种语音识别方法,以该方法应用在图1中的客户端为例进行说明,包括如下步骤:
S10:实时获取用户输入的语音信息。
具体地,通过客户端的语音采集工具实时获取用户输入的语音信息,以对用户输入的语音进行实时地采集。可选地,可以通过预设的指令来控制该步骤的开启和关闭。示例性地,通过特定的文字信息、图像信息或者手势信息来实现对“实时获取用户输入的语音信息”的功能(语音识别功能)的开启或关闭。
在一个具体实施方式中,可以在客户端实现界面解锁时同时进行该功能开启或者关闭的选择。具体地,可以通过预定的指令信息来实现界面解锁和语音识别功能的开启和关闭。该预定的指令信息包括语音开启指令信息。预先设定一语音开启指令信息,客户端在获取到用户输入的一个验证指令信息之后,将该验证指令信息和语音开启指令信息进行匹配。若验证指令信息和语音开启指令信息相同,则验证指令信息和语音开启指令信息匹配成功,此时客户端即检测到预定的指令信息,随即实现解锁并开启语音识别功能。优选地,还可以预先设置一解锁指令信息,客户端将解锁指令信息和语音开启指令信息进行存储。其中,解锁指令信息对应于解锁功能,而语音开启指令对应于解锁功能和语音识别开启功能。用户在不需要开启语音识别功能时,可以只输入和解锁语音指令匹配的指令信息,进入常规的操作方式。可以理解地,解锁指令信息和语音开启指令信息的内容是不相同的,即用户输入的验证指令信息仅可能和解锁指令信息和语音开启指令信息中的一个匹配成功。可选地,解锁指令信息和语音开启指令信息可以为文字密码、手势轨迹、人脸图像、肢体图像或者声纹数据等。示例性地,解锁指令信息为ABC,而语音开启指令信息为DEF。客户端在获取到用户输入的验证指令信息之后,将验证指令信息分别和解锁指令信息以及语音开启指令信息进行匹配。若验证指令信息和解锁指令信息匹配成功,则客户端实现解锁,但是不开启语音识别功能。若验证指令信息和语音开启指令信息匹配成功,此时客户端即检测到预定的指令信息,随即控制界面实现解锁并开启语音识别功能。可选地,验证指令信息先和解锁指令信息以及语音开启指令信息中的任一项进行匹配,若匹配成功则不执行另一匹配动作,若匹配失败则和另一指令信息(解锁指令信息或语音开启指令信息)进行匹配。若验证指令信息和解锁指令信息以及语音开启指令信息均匹配失败,则解锁失败。优选地,可以根据用户历史数据来分配解锁指令信息或语音开启指令信息的匹配顺序,实时获取客户端中两种指令信息的匹配成功次数,将匹配成功次数更多的一项作为优先匹配的信息项,以提高匹配效率。
S20:若从语音信息中检测到静音信息,则获取语音信息的第一识别结果。
其中,静音信息是指在语音信息中在预设时间内处于静音状态的信息。该预设时间可以预先进行设定,例如1s、2s、3s或者5s等。通过对预设时间的数值进行设定之后,若在语音信息中检测到在预设时间内该语音信息对应为静音状态,则说明从语音信息中检测到静音信息,此时获取语音信息的第一识别结果,即将当前获取到的语音信息进行语音识别,得到对应的文字信息,作为语音信息的第一识别结果。具体地,可以采用语音识别算法对语音信息进行语音识别,例如:基于DTW的语音识别算法或者基于HMM的语音识别算法等。
在一个具体实施方式中,如图3所示,若从语音信息中检测到静音信息,则获取语音信息的第一识别结果,具体包括:
S21:对语音信息进行实时识别。
S22:若检测到静音信息,则输出当前识别出的文字信息,作为语音信息的第一识别结果。
在这个实施方式中,对获取到的语音信息进行实时识别,并且在检测到静音信息之后,输出当前对语音信息进行识别到的文字信息,作为语音信息的第一识别结果。具体的识别可以通过语音识别算法实现,具体的语音识别算法可以和步骤S20相同,在此不再赘述。在该实施方式中,检测到静音信息可以为连续预设时间内未识别出新的文字信息或者通过加入静音检测环节来实现。
在这个实施方式中,通过对语音信息进行实时识别,并且若检测到静音信息,则输出当前识别出的文字信息,作为语音信息的第一识别结果,保证了语音识别的实时性。
在一个具体实施方式中,如图4所示,若从语音信息中检测到静音信息,则获取语音信息的第一识别结果,具体包括:
S21’:对语音信息进行实时静音检测,判断语音信息中是否存在静音信息。
在该步骤中,对获取到的语音信息进行一个实时的静音检测,仅判断语音信息中是否存在静音信息。具体地,可以采用话音激活检测(VAD,Voice Activity Detection)对语音信息进行检测,以识别出语音部分与非语音部分,非语音部分即为静音信息。话音激活检测,其目的是检测当前语音信号中是否包含话音信号存在,即对输入语音数据进行判断,将语音数据中的话音信号与各种背景噪声信号区分出来,分别对两种信号采用不同的处理方法。通过话音激活检测,识别出一段语音数据中的语音部分和静音部分,并判断该静音部分是否满足预先设置的预设时间,如满足,则为静音信息。
可以理解地,该步骤的静音检测针对的是语音信息中出现语音部分之后的静音检测,不包括对语音信息中初始部分出现的静音信息。
S22’:若从语音信息中检测到静音信息,则对语音信息进行语音识别,得到语音信息的第一识别结果。
在该步骤中,若从语音信息中检测到静音信息,则对语音信息进行语音识别,具体的语音识别算法可以为基于DTW的语音识别算法或者基于HMM的语音识别算法等。将语音识别后得到的文字信息作为语音信息的第一识别结果。可选地,该第一识别结果可以显示在客户端的界面上。
在这个实施方式中,先对语音信息进行实时静音检测,判断语音信息中是否存在静音信息;若从语音信息中检测到静音信息,则对语音信息进行语音识别,得到语音信息的第一识别结果。在检测到静音信息之后再对语音信息进行语音识别,以更好地保证语音识别地效率和准确性,避免持续性地进行语音识别对系统造成过大的消耗。
S30:根据第一识别结果在后台预加载第一识别结果对应的功能。
在得到第一识别结果之后,根据第一识别结果来获取到对应的功能,并且在后台对该功能进行预加载。具体地,可以预先设置一个关键词库,对第一识别结果进行关键词匹配,根据具体的匹配结果为第一识别结果匹配到对应的功能,并在后台预加载第一识别结果对应的功能。示例性地,若第一识别结果为“搜索智能手机”,则通过关键词匹配之后对应的功能为在搜索引擎中对“智能手机”进行搜索。此时,客户端在后台打开默认的浏览器,然后以“智能手机”为关键词进行搜索,并得到搜索结果。但是这个搜索的过程并不体现在客户端的界面上,即不在界面上进行显示。
在一个具体实施方式中,如图5所示,根据第一识别结果在后台预加载第一识别结果对应的功能,具体包括:
S31:对第一识别结果进行分词处理,得到N个识别关键词,N为正整数。
具体地,采用分词算法对第一识别结果进行分词处理。其中,分词算法可以采用基于字符串匹配的分词方法、基于理解的分词方法或者基于统计的分词方法来实现。对第一识别结果进行分词之后,得到N个识别关键词,N为正整数。进一步地,还可以包括一个识别关键词的过滤环节,即将识别关键词中不具有实际意义的词进行过滤,例如,的、了、吧等语气词或者助词等。具体地,可以通过TF-IDF算法来实现该识别关键词的过滤环节。
S32:将每一识别关键词在预设的关键词库中进行匹配,得到匹配结果。
其中,预设的关键词库为预先建立的包含大量词汇的词库。该关键词库可以包括代表动作、指令的词汇以及代表应用程序的词汇等。在该步骤中,将每一识别关键词在预设的关键词库中进行匹配,具体地,可以采用字符串匹配的方式在关键词库中进行匹配,根据匹配成功与否输出匹配结果,匹配结果包括匹配成功和匹配失败。进一步地,该匹配结果还包括每一识别关键词的匹配顺序,用于标示该识别关键词是第几个匹配的关键词。
S33:根据匹配结果为第一识别结果确定对应的功能。
在该步骤中,通过每一识别关键词的匹配结果为第一识别结果确定对应的功能。具体地,可以预先设置一个匹配规则,该匹配规则根据匹配成功的识别关键词来对应具体的功能。再根据匹配成功的识别关键词通过预设的匹配规则来确定对应的功能。示例性地,对于分词后的第一识别结果“搜索”、“智能手机”,在步骤S32中“搜索”的匹配结果为匹配成功,而“智能手机”的匹配结果为匹配失败。此时根据预设的匹配规则,对应到的功能为“在默认的搜索引擎中搜索“智能手机””。
进一步地,该匹配规则还和识别关键词的匹配顺序相关,即根据不同识别关键词的匹配结果和匹配顺序共同确定该第一识别结果对应的功能。示例性地,若分词后第一识别结果为“在”、“淘宝”、“搜索”、“苹果手机”。则通过预设的匹配规则,对应到该第一识别结果的功能为在淘宝APP中搜索关键词“苹果手机”。若分词后的第一识别结果为“搜索”、“淘宝”,由于匹配顺序的变化,此时通过预设的匹配规则,对应到该第一识别结果的功能为在默认的搜索引擎中对关键词“淘宝”进行搜索。
S34:在后台对第一识别结果对应的功能进行预加载。
在得到第一识别结果对应的功能之后,在后台对该功能进行预加载。具体地,该预加载是指在系统的后台对第一识别结果对应的功能进行加载,并完成显示数据的准备。该预加载和直接执行该功能的区别在于没有在客户端的界面上直接呈现该加载的过程。可以理解地,该预加载的过程是可以和客户端语音识别的过程并行进行的。
在这个实施方式中,先对第一识别结果进行分词处理,得到N个识别关键词,N为正整数;将每一识别关键词在预设的关键词库中进行匹配,得到匹配结果;进而根据匹配结果为第一识别结果确定对应的功能;最终在后台对第一识别结果对应的功能进行预加载,保证对第一识别结果对应的功能的准确对应,并且在后台进行预加载,保证后续执行的效率。
S40:若在预定时间内未检测到新的语音信息,则执行预加载的第一识别结果对应的功能。
其中,预定时间是预先设定的一个时间值,该时间值可以为3s、5s或者8s,具体可以根据实际需要进行设定。若在该预定时间内未检测到新的语音信息,则说明用户的语音信息输入完毕,则执行预加载的所述第一识别结果对应的功能。其中,由于第一识别结果对应的功能已经在后台进行了预加载,所以该执行过程仅是对后台预加载的数据的一个显示,大大提高了执行效率。
在本实施例中,通过实时获取用户输入的语音信息;若从语音信息中检测到静音信息,则获取语音信息的第一识别结果;根据第一识别结果在后台预加载第一识别结果对应的功能;若在预定时间内未检测到新的语音信息,则执行预加载的所述第一识别结果对应的功能。不需要额外的识别模型来判断语音的静音信息,通过等待或者特地的指令来实现静音判断即可。并且在识别到静音信息之后,对当前获取到的语音信息进行预处理和预加载,若后续未检测到新的语音信息,则直接执行所述预加载的所述第一识别结果对应的功能,提高了整个语音识别的执行效率。
在一个实施例中,如图6所示,在根据第一识别结果在后台预加载第一识别结果对应的功能之后,该语音识别方法还包括:
S50:若在预定时间内检测到新的语音信息,则实时获取新的语音信息。
若在预定时间内检测到了新的语音信息,则说明用户输入了新的语音,此时对新的语音信息进行实时获取,该实时获取的过程可以和步骤S10相同,在此不再赘述。
S60:若从新的语音信息中检测到静音信息,则获取新的语音信息的第二识别结果。
具体地,该静音信息的检测过程和第二识别结果的获取过程可以和步骤S20相同,在此不再赘述。可以理解地,步骤S21-S22以及步骤S21’-S22’的实施方式也适用于该步骤。
S70:将第二识别结果和第一识别结果进行比对。
在得到第二识别结果之后,将该第二识别结果和第一识别结果进行比对。可选地,可以通过字符串比对算法来进行两个识别结果的比对。具体地,可以采用朴素算法(NaiveAlgorithm)、Rabin-Karp算法、有限自动机算法(Finite Automation)、Knuth-Morris-Pratt算法(即KMP Algorithm)、Horspool算法或者Sunday算法等实现。通过字符串比对算法将第二识别结果和第一识别结果进行比对之后得到的结果来判断第二识别结果是否和第一识别结果一致。进一步地,也可以采用字符串相似度算法来对第二识别结果和第一识别结果进行比对,例如:Levenshtein Distance算法。并通过字符串相似度算法得到的相似度来判断第二识别结果和第一识别结果是否一致。具体地,可以通过设定一个相似度阈值来判断第二识别结果和第一识别结果是否一致。若计算得到的相似度大于或等于该相似度阈值,则第二识别结果和第一识别结果一致。否则,第二识别结果和第一识别结果不一致。
S80:若第二识别结果和第一识别结果一致,则执行预加载的第一识别结果对应的功能。
在该步骤中,若第二识别结果和第一识别结果一致,则说明新的语音信息仅是对前面的语音信息的一种重复,两者代表的意思是一致的。因此直接执行预加载的所述第一识别结果对应的功能。由于第一识别结果对应的功能已经在后台进行了预加载,因此该执行过程仅是对后台预加载的数据的一个显示,大大提高了执行效率。
在本实施例中,若在预定时间内检测到新的语音信息,则实时获取新的语音信息。若从新的语音信息中检测到静音信息,则获取新的语音信息的第二识别结果。将第二识别结果和第一识别结果进行比对。若第二识别结果和第一识别结果一致,则执行预加载的所述第一识别结果对应的功能。在检测到有新的语音信息之后,对两个识别结果进行一致性判断,若两个识别结果是一致的,则说明新的语音信息只是简单的语音重复,因此可以直接加载第一识别结果对应的功能,提高了语音识别的响应效率。
在一个实施例中,如图7所示,在将第二识别结果和第一识别结果进行比对之后,该语音识别方法还包括:
S90:若第二识别结果和第一识别结果不一致,则对第一识别结果和第二识别结果进行调整并合并,得到目标识别结果。
在该步骤中,若第二识别结果和第一识别结果不一致,则对第一识别结果和所述第二识别结果进行调整并合并,得到目标识别结果。在对语音进行识别的过程中,对某些词汇的识别可能有多种结果。此时,通过前后文的语义可以帮助更好地对语音的准确识别做出判断。在该步骤中,若第二识别结果和第一识别结果不一致,则可以将第一识别结果和第二识别结果进行合并,并且通过前后文的语义对语音识别的结果进行调整,以得到一个更准确的语音识别结果,即目标识别结果。
具体地,可以将第一识别结果和第二识别结果对应的原始语音进行合并,并且通过语音识别算法进行重新识别,以得到目标识别结果。或者,将第一识别结果的最后一个词和第二识别结果的第一个词进行合并重组,以进行调整,得到目标识别结果。
S100:根据目标识别结果执行目标识别结果对应的功能。
在该步骤中,在得到目标识别结果之后,根据目标识别结果执行目标识别结果对应的功能。具体地,可以先根据目标识别结果匹配到对应的功能,再对该功能进行执行。
进一步地,根据目标识别结果执行目标识别结果对应的功能,具体包括:若检测到语音停止信息,则根据目标识别结果执行目标识别结果对应的功能。
其中,语音停止信息是指用户停止了语音输入的过程,该语音停止信息可以通过特定的指令输入,例如具体的按键、手势或者动作的触发。也可以通过静音检测来实现,若检测到一个特定时间的静音,则默认用户已经停止了语音输入的过程,则发出语音停止信息。该特定时间可以根据实际需要进行设定,可以理解地,该特定时间的数值大于预设时间。可选地,该特定时间可以和预定时间相同。
在一个具体实施方式中,如图8所示,根据目标识别结果执行目标识别结果对应的功能,具体包括:
S101:对目标识别结果进行分词处理,得到M个目标关键词,M为正整数。
S102:将每一目标关键词在预设的关键词库中进行匹配,得到目标匹配结果。
S103:根据目标匹配结果为目标识别结果确定对应的功能。
S104:执行目标识别结果对应的功能。
在这个实施方式中,步骤S101-S103的执行过程和步骤S31-S33基本一致,在此不再赘述。在得到目标识别结果确定对应的功能之后,直接执行目标识别结果对应的功能,该执行的过程直接在客户端的界面上体现。
在本实施例中,若第二识别结果和第一识别结果不一致,则对第一识别结果和第二识别结果进行调整并合并,得到目标识别结果;并根据目标识别结果执行目标识别结果对应的功能。在检测到有新的语音信息之后,基于语义关联将前后识别到的两个语音信息进行调整并合并,并且根据新的识别结果来执行对应的功能,以提高语音识别的准确性。
在一个实施例中,如图9所示,在将第二识别结果和第一识别结果进行比对之后,该语音识别方法还包括:
S80’:若第二识别结果和第一识别结果不一致,则判断第一识别结果对应的功能是否为预设的被标记功能。
其中,被标记功能为预设的部分功能,该功能可以为一个中间或者过渡性的操作,例如,打开某应用程序,或者进入某一界面。用户可以在执行标记功能之后进行后续的相关操作。例如,该被标记功能可以为:打开浏览器、打开淘宝或者打开设置等。通过预先对客户端中对应的功能进行标记,作为被标记功能。可选地,可以在步骤S33中确定第一识别结果对应的功能的时候同时确认该功能是否为被标记功能。或者,在该步骤中,直接在一个预设的被标记功能数据表中查询,以检测第一识别结果对应的功能是否为预设的被标记功能。
S90’:若第一识别结果对应的功能为预设的被标记功能,则根据对应的预设标签规则对第二识别结果进行功能匹配。
其中,预设标签规则为预先设定的和被标记功能对应的匹配规则,该预设标签规则和被标记功能相关,具体可以为被标记功能中包含的具体可执行动作或者指令。例如,若被标记功能为打开淘宝,则对应的预设标签规则可以包括登录、搜索和扫二维码等具体地对应指令。若在第二识别结果中包含有预设标签规则对应的关键词,则功能匹配成功。
在该步骤中,可以先根据被标记功能获取到对应的预设标签规则,然后对第二识别结果进行分词处理,再将分词处理后得到的词汇在预设标签规则中进行一一匹配,再根据匹配结果得到最终的功能匹配结果。具体功能匹配过程可以和步骤S31-S33类似,在此不再赘述。
S100’:若功能匹配匹配成功,则在预加载的第一识别结果对应的功能的基础上执行匹配成功的功能。
在该步骤中,若第二识别结果的功能匹配匹配成功,则在预加载的第一识别结果对应的功能的基础上执行匹配成功的功能。例如,若第一识别结果对应的功能为“打开淘宝”,而匹配成功的功能为“搜索鞋子”,则该步骤在预加载的淘宝应用程序中搜索“鞋子”这个关键词,并且在客户端的界面上显示。
在一个具体实施方式中,若功能匹配匹配失败,则执行步骤S90-S100的步骤。
在一个具体实施方式中,若功能匹配匹配失败,则直接执行第二识别结果对应的功能。
在本实施例中,若第二识别结果和第一识别结果不一致,则判断第一识别结果对应的功能是否为预设的被标记功能。若第一识别结果对应的功能为预设的被标记功能,则根据对应的预设标签规则对第二识别结果进行功能匹配。若功能匹配匹配成功,则在预加载的所述第一识别结果对应的功能的基础上执行所述匹配成功的功能。在预先配置预设标签规则对静音后的新语音信息进行递进识别,若和预设标签规则的功能匹配匹配成功,则可以直接在第一次预加载的所述第一识别结果对应的功能的基础上执行第二次语音识别的结果对应的功能,提高了整个语音识别处理效率的同时也保证了语音识别的灵活性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种语音识别装置,该语音识别装置与上述实施例中语音识别方法一一对应。如图10所示,该语音识别装置包括实时获取模块10、第一识别结果获取模块20、预加载模块30和功能执行模块40。各功能模块详细说明如下:
实时获取模块10,用于实时获取用户输入的语音信息;
第一识别结果获取模块20,用于在从所述语音信息中检测到静音信息时,则获取所述语音信息的第一识别结果;
预加载模块30,用于根据所述第一识别结果在后台预加载所述第一识别结果对应的功能;
功能执行模块40,用于在预定时间内未检测到新的语音信息时,则执行所述预加载的所述第一识别结果对应的功能。
优选地,第一识别结果获取模块20包括实时识别单元和第一识别结果输出单元。
实时识别单元,用于对语音信息进行实时识别。
第一识别结果输出单元,用于若检测到静音信息,则输出当前识别出的文字信息,作为语音信息的第一识别结果。
优选地,第一识别结果获取模块20还包括静音检测单元和语音识别单元。
静音检测单元,用于对语音信息进行实时静音检测,判断语音信息中是否存在静音信息。
语音识别单元,用于在从语音信息中检测到静音信息时,则对语音信息进行语音识别,得到语音信息的第一识别结果。
优选地,预加载模块30包括分词处理单元、关键词匹配单元、功能确定单元和预加载单元。
分词处理单元,用于对第一识别结果进行分词处理,得到N个识别关键词,N为正整数。
关键词匹配单元,用于将每一识别关键词在预设的关键词库中进行匹配,得到匹配结果。
功能确定单元,用于根据匹配结果为第一识别结果确定对应的功能。
预加载单元,用于在后台对第一识别结果对应的功能进行预加载。
优选地,该语音识别装置还包括新语音信息获取模块、第二识别结果获取模块、结果比对模块和第一识别结果执行模块。
新语音信息获取模块,用于在预定时间内检测到新的语音信息时,则实时获取新的语音信息。
第二识别结果获取模块,用于在从新的语音信息中检测到静音信息时,则获取新的语音信息的第二识别结果。
结果比对模块,用于将第二识别结果和第一识别结果进行比对。
第一识别结果执行模块,用于若第二识别结果和第一识别结果一致,则执行预加载的第一识别结果对应的功能。
优选地,该语音识别装置还包括目标识别结果获取模块和目标识别结果执行模块。
目标识别结果获取模块,用于在第二识别结果和第一识别结果不一致时,则对第一识别结果和第二识别结果进行调整并合并,得到目标识别结果。
目标识别结果执行模块,用于根据目标识别结果执行目标识别结果对应的功能。
优选地,目标识别结果执行模块包括目标关键词获取单元、目标匹配结果获取单元、目标识别结果确定单元和目标识别结果执行单元。
目标关键词获取单元,用于对目标识别结果进行分词处理,得到M个目标关键词,M为正整数。
目标匹配结果获取单元,用于将每一目标关键词在预设的关键词库中进行匹配,得到目标匹配结果。
目标识别结果确定单元,用于根据目标匹配结果为目标识别结果确定对应的功能。
目标识别结果执行单元,用于执行目标识别结果对应的功能。
优选地,该语音识别装置还包括被标记功能判断模块、功能匹配模块和匹配成功功能执行模块。
被标记功能判断模块,用于在第二识别结果和第一识别结果不一致时,则判断第一识别结果对应的功能是否为预设的被标记功能。
功能匹配模块,用于在第一识别结果对应的功能为预设的被标记功能时,则根据对应的预设标签规则对第二识别结果进行功能匹配。
匹配成功功能执行模块,用于在功能匹配匹配成功时,则在预加载的第一识别结果对应的功能的基础上执行匹配成功的功能。
关于语音识别装置的具体限定可以参见上文中对于语音识别方法的限定,在此不再赘述。上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的语音识别方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的语音识别方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
实时获取用户输入的语音信息;
若从所述语音信息中检测到静音信息,则获取所述语音信息的第一识别结果;
根据所述第一识别结果在后台预加载所述第一识别结果对应的功能;
若在预定时间内未检测到新的语音信息,则执行所述预加载的所述第一识别结果对应的功能。
2.如权利要求1所述的语音识别方法,其特征在于,若从所述语音信息中检测到静音信息,则获取所述语音信息的第一识别结果,包括:
对所述语音信息进行实时识别;
若检测到静音信息,则输出当前识别出的文字信息,作为所述语音信息的第一识别结果;
或者,
对所述语音信息进行实时静音检测,判断所述语音信息中是否存在静音信息;
若从所述语音信息中检测到静音信息,则对所述语音信息进行语音识别,得到所述语音信息的第一识别结果。
3.如权利要求1所述的语音识别方法,其特征在于,所述根据所述第一识别结果在后台预加载所述第一识别结果对应的功能,包括:
对所述第一识别结果进行分词处理,得到N个识别关键词,N为正整数;
将每一所述识别关键词在预设的关键词库中进行匹配,得到匹配结果;
根据匹配结果为所述第一识别结果确定对应的功能;
在后台对所述第一识别结果对应的功能进行预加载。
4.如权利要求1所述的语音识别方法,其特征在于,在所述根据所述第一识别结果在后台预加载所述第一识别结果对应的功能之后,所述语音识别方法还包括:
若在预定时间内检测到新的语音信息,则实时获取所述新的语音信息;
若从所述新的语音信息中检测到静音信息,则获取所述新的语音信息的第二识别结果;
将所述第二识别结果和第一识别结果进行比对;
若所述第二识别结果和第一识别结果一致,则执行所述预加载的所述第一识别结果对应的功能。
5.如权利要求4所述的语音识别方法,其特征在于,在将所述第二识别结果和第一识别结果进行比对之后,所述语音识别方法还包括:
若所述第二识别结果和第一识别结果不一致,则对所述第一识别结果和所述第二识别结果进行调整并合并,得到目标识别结果;
根据所述目标识别结果执行所述目标识别结果对应的功能。
6.如权利要求5所述的语音识别方法,其特征在于,所述根据所述目标识别结果执行所述目标识别结果对应的功能,包括:
对所述目标识别结果进行分词处理,得到M个目标关键词,M为正整数;
将每一所述目标关键词在预设的关键词库中进行匹配,得到目标匹配结果;
根据目标匹配结果为所述目标识别结果确定对应的功能;
执行所述目标识别结果对应的功能。
7.如权利要求4所述的语音识别方法,其特征在于,在所述将所述第二识别结果和第一识别结果进行比对之后,所述语音识别方法还包括:
若所述第二识别结果和第一识别结果不一致,则判断所述第一识别结果对应的功能是否为预设的被标记功能;
若所述第一识别结果对应的功能为预设的被标记功能,则根据对应的预设标签规则对所述第二识别结果进行功能匹配;
若所述功能匹配匹配成功,则在所述预加载的所述第一识别结果对应的功能的基础上执行所述匹配成功的功能。
8.一种语音识别装置,其特征在于,包括:
实时获取模块,用于实时获取用户输入的语音信息;
第一识别结果获取模块,用于在从所述语音信息中检测到静音信息时,则获取所述语音信息的第一识别结果;
预加载模块,用于根据所述第一识别结果在后台预加载所述第一识别结果对应的功能;
功能执行模块,用于在预定时间内未检测到新的语音信息时,则执行所述预加载的所述第一识别结果对应的功能。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法。
CN201910651161.XA 2019-07-18 2019-07-18 语音识别方法、装置、计算机设备及存储介质 Active CN110517673B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910651161.XA CN110517673B (zh) 2019-07-18 2019-07-18 语音识别方法、装置、计算机设备及存储介质
PCT/CN2019/117735 WO2021008035A1 (zh) 2019-07-18 2019-11-13 语音识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910651161.XA CN110517673B (zh) 2019-07-18 2019-07-18 语音识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110517673A true CN110517673A (zh) 2019-11-29
CN110517673B CN110517673B (zh) 2023-08-18

Family

ID=68622826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910651161.XA Active CN110517673B (zh) 2019-07-18 2019-07-18 语音识别方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN110517673B (zh)
WO (1) WO2021008035A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261161A (zh) * 2020-02-24 2020-06-09 腾讯科技(深圳)有限公司 一种语音识别方法、装置及存储介质
CN111897601A (zh) * 2020-08-03 2020-11-06 Oppo广东移动通信有限公司 应用启动方法、装置、终端设备以及存储介质
CN112466302A (zh) * 2020-11-23 2021-03-09 北京百度网讯科技有限公司 语音交互的方法、装置、电子设备和存储介质
CN112965687A (zh) * 2021-03-19 2021-06-15 成都启英泰伦科技有限公司 一种多用户语音识别产品开发平台和开发方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4156179A1 (de) * 2021-09-23 2023-03-29 Siemens Healthcare GmbH Sprachsteuerung einer medizinischen vorrichtung

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080140423A1 (en) * 2006-12-08 2008-06-12 Canon Kabushiki Kaisha Information processing apparatus and information processing method
US20140358535A1 (en) * 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
CN105139849A (zh) * 2015-07-22 2015-12-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107147618A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户注册方法、装置及电子设备
CN107146618A (zh) * 2017-06-16 2017-09-08 北京云知声信息技术有限公司 语音处理方法及装置
CN107146602A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN108009303A (zh) * 2017-12-30 2018-05-08 北京百度网讯科技有限公司 基于语音识别的搜索方法、装置、电子设备和存储介质
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
CN109213857A (zh) * 2018-08-29 2019-01-15 阿里巴巴集团控股有限公司 一种欺诈行为识别方法和装置
CN109637519A (zh) * 2018-11-13 2019-04-16 百度在线网络技术(北京)有限公司 语音交互实现方法、装置、计算机设备及存储介质
CN109741738A (zh) * 2018-12-10 2019-05-10 平安科技(深圳)有限公司 语音控制方法、装置、计算机设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080140423A1 (en) * 2006-12-08 2008-06-12 Canon Kabushiki Kaisha Information processing apparatus and information processing method
US20140358535A1 (en) * 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
CN105139849A (zh) * 2015-07-22 2015-12-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107147618A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户注册方法、装置及电子设备
CN107146602A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107146618A (zh) * 2017-06-16 2017-09-08 北京云知声信息技术有限公司 语音处理方法及装置
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
CN108009303A (zh) * 2017-12-30 2018-05-08 北京百度网讯科技有限公司 基于语音识别的搜索方法、装置、电子设备和存储介质
CN109213857A (zh) * 2018-08-29 2019-01-15 阿里巴巴集团控股有限公司 一种欺诈行为识别方法和装置
CN109637519A (zh) * 2018-11-13 2019-04-16 百度在线网络技术(北京)有限公司 语音交互实现方法、装置、计算机设备及存储介质
CN109741738A (zh) * 2018-12-10 2019-05-10 平安科技(深圳)有限公司 语音控制方法、装置、计算机设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261161A (zh) * 2020-02-24 2020-06-09 腾讯科技(深圳)有限公司 一种语音识别方法、装置及存储介质
CN111897601A (zh) * 2020-08-03 2020-11-06 Oppo广东移动通信有限公司 应用启动方法、装置、终端设备以及存储介质
CN111897601B (zh) * 2020-08-03 2023-11-24 Oppo广东移动通信有限公司 应用启动方法、装置、终端设备以及存储介质
CN112466302A (zh) * 2020-11-23 2021-03-09 北京百度网讯科技有限公司 语音交互的方法、装置、电子设备和存储介质
CN112965687A (zh) * 2021-03-19 2021-06-15 成都启英泰伦科技有限公司 一种多用户语音识别产品开发平台和开发方法

Also Published As

Publication number Publication date
WO2021008035A1 (zh) 2021-01-21
CN110517673B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN110517673A (zh) 语音识别方法、装置、计算机设备及存储介质
CN108564954B (zh) 深度神经网络模型、电子装置、身份验证方法和存储介质
US7689418B2 (en) Method and system for non-intrusive speaker verification using behavior models
CN111104495A (zh) 基于意图识别的信息交互方法、装置、设备和存储介质
CN109522393A (zh) 智能问答方法、装置、计算机设备和存储介质
CN109741738A (zh) 语音控制方法、装置、计算机设备及存储介质
CN109147797A (zh) 基于声纹识别的客服方法、装置、计算机设备及存储介质
CN108305617A (zh) 语音关键词的识别方法和装置
WO2015197008A1 (zh) 一种生物认证方法及终端
CN110060674B (zh) 表格管理方法、装置、终端和存储介质
WO2019179029A1 (zh) 电子装置、身份验证方法和计算机可读存储介质
CN110689881B (zh) 语音识别方法、装置、计算机设备和存储介质
US20190130895A1 (en) System And Method For Natural Language Processing
CN110046806B (zh) 用于客服派单的方法、装置和计算设备
CN112417128B (zh) 话术推荐方法、装置、计算机设备及存储介质
CN108062474B (zh) 文件的检测方法及装置
CN109783365A (zh) 自动化测试方法、装置、计算机设备及存储介质
CN110135140A (zh) 信息保护方法、装置、计算机设备和存储介质
Zhang et al. Trace2tap: Synthesizing trigger-action programs from traces of behavior
US8650544B2 (en) Systems and methods for interactive testing of a computer application
CN105677636A (zh) 智能问答系统的信息处理方法及信息处理装置
CN109033427A (zh) 股票的筛选方法及装置、计算机设备及可读存储介质
CN109697349A (zh) 终端解锁方法、装置、计算机设备和存储介质
CN108682415A (zh) 语音搜索方法、装置和系统
CN111324375A (zh) 代码管理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant