CN113990309A - 语音识别方法及装置 - Google Patents

语音识别方法及装置 Download PDF

Info

Publication number
CN113990309A
CN113990309A CN202111117307.6A CN202111117307A CN113990309A CN 113990309 A CN113990309 A CN 113990309A CN 202111117307 A CN202111117307 A CN 202111117307A CN 113990309 A CN113990309 A CN 113990309A
Authority
CN
China
Prior art keywords
car machine
voice
machine
vehicle
playing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111117307.6A
Other languages
English (en)
Inventor
周星杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu International Technology Shenzhen Co ltd
Original Assignee
Baidu International Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu International Technology Shenzhen Co ltd filed Critical Baidu International Technology Shenzhen Co ltd
Priority to CN202111117307.6A priority Critical patent/CN113990309A/zh
Publication of CN113990309A publication Critical patent/CN113990309A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)

Abstract

本发明提出一种语音识别方法及装置,其中方法包括:通过在接收到车机发送的语音识别触发指令时,判断所述车机是否处于语音播放状态;若所述车机处于语音播放状态,则向所述车机发送暂停播放指令;判断是否接收到所述车机在暂停播放后返回的响应消息;若接收到所述响应消息,则向所述车机发送录音指令,获取所述车机采集的用户语音;对所述用户语音进行语音识别。从而能够实现在终端设备与车机互联时,在控制车机对用户语音进行录音时,所录取的用户语音不包含车机所播放的音频,进而使由车机录取的用户语音中尽可能地不掺杂噪音,保证了语音识别的准确率,提高了用户体验。

Description

语音识别方法及装置
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音识别方法及装置。
背景技术
随着互联网技术和终端设备技术的发展,不同终端间的互联越来越普遍。例如,手机可以和车辆中的车机进行互联,手机可以通过向车机发送语音播放指令以控制车机进行音乐播放、导航播报等音频信息的播放,同时手机还可以向车机发送录音指令以控制车机录取用户语音并接收车机返回的用户语音,手机对用户语音进行语音识别。显然,假如车机所录取的用户语音掺杂不少车机所播放的音频信息,将会导致语音识别发生错误。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种语音识别方法。
本发明的第二个目的在于提出一种语音识别装置。
本发明的第三个目的在于提出另一种语音识别装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种语音识别方法,包括:
在接收到车机发送的语音识别触发指令时,判断所述车机是否处于语音播放状态;
若所述车机处于语音播放状态,则向所述车机发送暂停播放指令;
判断是否接收到所述车机在暂停播放后返回的响应消息;
若接收到所述响应消息,则向所述车机发送录音指令,获取所述车机采集的用户语音;
对所述用户语音进行语音识别。
进一步地,所述方法还包括:
若所述车机未处于语音播放状态,则向所述车机发送录音指令,获取所述车机采集的用户语音。
进一步地,所述向所述车机发送录音指令,获取所述车机采集的用户语音之前,还包括:
对所述车机进行环境检测,判断所述车机当前的环境是否满足录音条件;
对应的,所述向所述车机发送录音指令,获取所述车机采集的用户语音,包括:
在所述车机当前的环境满足录音条件时,向所述车机发送录音指令,获取所述车机采集的用户语音。
进一步地,所述对所述车机进行环境检测,判断所述车机当前的环境是否满足录音条件,包括:
对所述车机进行环境检测,获取环境音;
判断所述环境音的频率信息与预设的语音播放频率信息是否一致;
若所述环境音的频率信息与预设的语音播放频率信息一致,则确定所述车机当前的环境不满足录音条件;
若所述环境音的频率信息与预设的语音播放频率信息不一致,则确定所述车机当前的环境满足录音条件。
进一步地,所述对所述车机进行环境检测,判断所述车机当前的环境是否满足录音条件,还包括:
若在预设时间段内未获取到环境音,则确定所述车机当前的环境满足录音条件。
进一步地,所述方法还包括:
在确定向所述车机发送录音指令时,在预设界面上显示提示信息,以便用户根据所述提示信息发出语音,以供采集。
进一步地,所述语音播放状态包括:音乐播放状态,和/或,导航播报状态。
本发明实施例的语音识别方法,通过在接收到车机发送的语音识别触发指令时,判断所述车机是否处于语音播放状态;若所述车机处于语音播放状态,则向所述车机发送暂停播放指令;判断是否接收到所述车机在暂停播放后返回的响应消息;若接收到所述响应消息,则向所述车机发送录音指令,获取所述车机采集的用户语音;对所述用户语音进行语音识别。从而能够实现在终端设备与车机互联时,在控制车机对用户语音进行录音时,所录取的用户语音不包含车机所播放的音频,进而使由车机录取的用户语音中尽可能地不掺杂噪音,保证了语音识别的准确率,提高了用户体验。
为达上述目的,本发明第二方面实施例提出了一种语音识别装置,包括:
判断模块,用于在接收到车机发送的语音识别触发指令时,判断所述车机是否处于语音播放状态;
发送模块,用于在所述车机处于语音播放状态时,向所述车机发送暂停播放指令;
所述判断模块,还用于判断是否接收到所述车机在暂停播放后返回的响应消息;
所述发送模块,还用于在接收到所述响应消息时,向所述车机发送录音指令,获取所述车机采集的用户语音;
语音识别模块,用于对所述用户语音进行语音识别。
进一步地,所述发送模块,还用于在所述车机未处于语音播放状态时,向所述车机发送录音指令,获取所述车机采集的用户语音。
进一步地,所述装置还包括:检测模块,用于对所述车机进行环境检测,判断所述车机当前的环境是否满足录音条件;
所述发送模块具体用于,在所述车机当前的环境满足录音条件时,向所述车机发送录音指令,获取所述车机采集的用户语音。
进一步地,所述检测模块具体用于,
对所述车机进行环境检测,获取环境音;
判断所述环境音的频率信息与预设的语音播放频率信息是否一致;
若所述环境音的频率信息与预设的语音播放频率信息一致,则确定所述车机当前的环境不满足录音条件;
若所述环境音的频率信息与预设的语音播放频率信息不一致,则确定所述车机当前的环境满足录音条件。
进一步地,所述检测模块具体还用于,
若在预设时间段内未获取到环境音,则确定所述车机当前的环境满足录音条件。
进一步地,所述装置还包括:
显示模块,用于在检测模块确定向所述车机发送录音指令时,在预设界面上显示提示信息,以便用户根据所述提示信息发出语音,以供采集。
进一步地,所述语音播放状态包括:音乐播放状态,和/或,导航播报状态。
本发明实施例的语音识别装置,通过在接收到车机发送的语音识别触发指令时,判断所述车机是否处于语音播放状态;若所述车机处于语音播放状态,则向所述车机发送暂停播放指令;判断是否接收到所述车机在暂停播放后返回的响应消息;若接收到所述响应消息,则向所述车机发送录音指令,获取所述车机采集的用户语音;对所述用户语音进行语音识别。从而能够实现在终端设备与车机互联时,在控制车机对用户语音进行录音时,所录取的用户语音不包含车机所播放的音频,进而使由车机录取的用户语音中尽可能地不掺杂噪音,保证了语音识别的准确率,提高了用户体验。
为达上述目的,本发明第三方面实施例提出了另一种语音识别装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的语音识别方法。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的语音识别方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的语音识别方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种语音识别方法的流程示意图;
图2为本发明实施例提供的又一种语音识别方法的流程示意图;
图3为本发明实施例提供的一种语音识别装置的结构示意图;
图4为本发明实施例提供的另一种语音识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的语音识别方法及装置。
图1为本发明实施例提供的一种语音识别方法的流程示意图。如图1所示,该语音识别方法包括以下步骤:
S101、在接收到车机发送的语音识别触发指令时,判断所述车机是否处于语音播放状态。
本发明提供的语音识别方法的执行主体为语音识别装置,该语音识别装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。为了便于理解,本实施例以语音识别装置为与车机互联的终端设备为例,其中,该终端设备例如为手机、平板电脑、可穿戴设备等。
本实施例中,车机可以理解为安装在汽车里面提供娱乐信息的设备,车机所具有的功能例如为语音播报、录音、拔打电话、收发短发、在线影视等;车机能够实现车与外界的交互,例如车与人的交互,车与车的交互等。
本实施例中,与车机互联的终端设备可以控制车机对音频信息、视频信息等进行播放、暂停播放,以及控制车机对用户语音进行录音;车机可以将所录取的语音发送给终端设备,由终端设备对用户语音进行语音识别,当然,终端设备与车机进行互联不限于播放音频信息、暂停播放音频信息、录音。
本实施例中,用户可以通过设置在车辆中的具有语音识别触发功能的按键,触发车机向终端设备发送语音识别触发指令,按键例如为车辆方向盘上的硬按键以便于用户操作;也可以是车机通过与用户的交互,接收用户输入的语音识别触发指令,并转发给终端设备,用户输入的语音识别触发指令例如通过语音输入方式,用户对着车机说出“开启语音识别功能”,或是,车机的人机交互界面上设置有具有语音识别触发功能的按钮,用户通过点击或滑动等方式触控该按钮以触发语音识别触发功能。
本实施例中,终端设备在接收到车机发送的语音识别触发指令之后,判断车机的当前状态。具体地,由于终端设备与车机进行互联,终端设备可以通过查询历史记录获取最近一次向车机发送的指令,若最近一次向车机发送的指令为语音播放指令,确定车机的当前状态为语音播放状态;若最近一次向车机发送的指令为暂停播放指令,确定车机的当前状态为暂停播放状态。
本实施例中,语音播放状态包括:音乐播放状态,和/或,导航播报状态,但并不以此为限。当车机处于音乐播放状态时,车机播放音乐,当车机处于导航播报状态时,车机例如进行地图导航语音播报或新闻播报等。
S102、若所述车机处于语音播放状态,则向所述车机发送暂停播放指令。
S103、判断是否接收到所述车机在暂停播放后返回的响应消息。
本实施例中,为了确保由车机录取的用户语音中尽可能地不掺杂噪音,以保证语音识别的准确率,需要确保车机未处于语音播放状态。未处于语音播放状态的车机即车机没有播放音频信息,车机所处的环境中不会掺杂由车机播报出来的音频信息,由车机播报出来的音频信息例如为音乐、导航播报音等。
本实施例中,若车机处于语音播放状态,这时车机正在播放音频信息,在控制车机对用户语音进行录音之前,对处于语音播放状态的车机发送暂停播放指令,以使车机暂停播放音频信息。
具体地,终端设备在检测到车机处于播放状态时,向车机发送暂停播放指令;车机在收到暂停播放指令后,车机暂停播放音频信息,在暂停播放后,车机向终端设备返回用于指示车机已暂停播放的响应消息。终端设备接收到该响应消息后,确定车机已从语音播放状态切换到暂停播放状态。
S104、若接收到所述响应消息,则向所述车机发送录音指令,获取所述车机采集的用户语音。
S105、对所述用户语音进行语音识别。
本实施例中,若终端设备接收车机返回的用于指示车机以暂停播放的响应消息时,终端设备确定车机已从语音播放状态切换到暂停播放状态,这时终端设备向车机发送录音指令,控制车机采集用户语音;终端设备接收车机发送的用户语音并对用户语音进行语音识别。
进一步地,为了便于与用户进行交互,所述方法还包括:在确定向所述车机发送录音指令时,在预设界面上显示提示信息,以便用户根据所述提示信息发出语音,以供采集。
本实施例中,预设界面为终端设备中的人机交互界面,所显示的提示信息例如为“可以开始输入语音,用户根据该提示信息确定可以进行语音输入操作。
进一步地,在步骤S101之后,所述方法还包括以下步骤:
S106、若所述车机未处于语音播放状态,则向所述车机发送录音指令,获取所述车机采集的用户语音。
本实施例中,当车机未处于语音播放状态时,说明车机所处的环境中不存在车机所播放的音频信息,这时直接向车机发送录音指令,提高终端设备获取车机的用户语音的速度,提高语音识别的速度。
本发明实施例的语音识别方法,通过在接收到车机发送的语音识别触发指令时,判断所述车机是否处于语音播放状态;若所述车机处于语音播放状态,则向所述车机发送暂停播放指令;判断是否接收到所述车机在暂停播放后返回的响应消息;若接收到所述响应消息,则向所述车机发送录音指令,获取所述车机采集的用户语音;对所述用户语音进行语音识别。从而能够实现在终端设备与车机互联时,在控制车机对用户语音进行录音时,所录取的用户语音不包含车机所播放的音频,进而使由车机录取的用户语音中尽可能地不掺杂噪音,保证了语音识别的准确率,提高了用户体验。
在实际应用中,车机在接收到终端设备发送的暂停指令后,暂停当前播放的音频信息;紧接着,车机接收终端设备发送的录音指令,车机开始对用户语音进行录音。但由于车机具有一定的延时,即车机停止播放音频信息的时间晚于开始录音的时间,导致车机采集到的用户语音中包含部分音频信息,影响语音识别的准确率。因此在向车机发送录音指令,获取车机采集的用户语音之前,对所述车机进行环境检测,判断所述车机当前的环境是否满足录音条件;在所述车机当前的环境满足录音条件时,向所述车机发送录音指令,获取所述车机采集的用户语音。下面结合图2,对该情形进一步地说明。
图2为本发明实施例提供的又一种语音识别方法的流程示意图。结合参考图2,在图1所示实施例的基础上,该语音识别方法包括以下步骤:
S201、在接收到车机发送的语音识别触发指令时,判断所述车机是否处于语音播放状态。
S202、若所述车机处于语音播放状态,则向所述车机发送暂停播放指令。
S203、判断是否接收到所述车机在暂停播放后返回的响应消息。
本发明实施例中的步骤S201、S202、S203的实现方式分别与图1所示的实施例中的步骤S101、S102、S103的实现方式相同,在此不再赘述。
S204、若接收到所述响应消息,则对所述车机进行环境检测,判断所述车机当前的环境是否满足录音条件。
本实施例中,若终端设备接收车机返回的用于指示车机以暂停播放的响应消息时,终端设备确定车机已从语音播放状态切换到暂停播放状态。
由于车机具有一定的延时,在接收到车机返回响应消息时,终端不会立即向车机发送录音指令,而是会对车机当前的环境进行环境检测,判断车机当前的环境满足录音条件之后,才向车机发送录音指令,以保证车机所采集的用户语音中尽可能地不掺杂了车机所播放的音频信息。
本实施例中,对车机进行环境检测,若获取到环境音,则根据环境音的频率信息与预设的语音播放频率信息判断车机当前的环境是否满足录音条件;若在预设时间段内未获取到环境音,则确定车机当前的环境满足录音条件。其中,预设时间段根据实际情形进行设定,预设时间段例如为1秒钟。在预设时间段内未获取到环境音,说明车机彻底停止了播放音频信息,这时,车机所处的环境中检测不出车机所播放的音频信息,确定车机当前的环境满足录音条件。
在一种可能的实现方式中,“根据环境音的频率信息与预设的语音播放频率信息判断车机当前的环境是否满足录音条件”的具体实现方式为:
S1、判断所述环境音的频率信息与预设的语音播放频率信息是否一致。
S2、若所述环境音的频率信息与预设的语音播放频率信息一致,则确定所述车机当前的环境不满足录音条件。
S3、若所述环境音的频率信息与预设的语音播放频率信息不一致,则确定所述车机当前的环境满足录音条件。
本实施例中,预设的语音播放频率信息可以理解为车机所播放的音频信息的频率信息,例如车机所播放的音乐或导航声音的频率信息。预设的语音播放频率信息根据实际情形进行设定。
具体地,终端设备具有声音频率分析功能,终端设备在确定车机处于暂停播放状态后,终端设备通过诸如麦克风等声音采集装置采集环境音,同时开启声音频率分析功能对采集到的环境音进行频率分析,识别出环境音的频率信息。
若终端设备识别出的环境音的频率信息与预设的语音播放频率信息一致,说明尽管车机进行了暂停播放,但由于存在一定的延时,车机还在播放音频信息,这时,若控制车机采集用户语音,用户语音中仍然存在不少的车机所播放的音频信息,因此,在终端设备识别出的环境音的频率信息与预设的语音播放频率信息一致时,确定车机当前的环境不满足录音条件。反之,若终端设备识别出的环境音的频率信息与预设的语音播放频率信息不一致,车机彻底暂停了播放音频信息,这时,车机所处的环境中检测不出车机所播放的音频信息,确定车机当前的环境满足录音条件。
S205、在所述车机当前的环境满足录音条件时,向所述车机发送录音指令,获取所述车机采集的用户语音。
S206、对所述用户语音进行语音识别。
本实施例中,在终端设备确定车机已从语音播放状态切换到暂停播放状态,并且确定车机当前的环境满足录音条件时,才会向车机发送录音指令,控制车机采集用户语音;终端设备接收车机发送的用户语音并对用户语音进行语音识别。
进一步地,在步骤S201之后,所述方法还包括以下步骤:
S207、若所述车机未处于语音播放状态,则对所述车机进行环境检测,判断所述车机当前的环境是否满足录音条件。
本实施例中,当车机未处于语音播放状态时,说明车机所处的环境中不存在车机所播放的音频信息,这时直接向车机发送录音指令,提高终端设备获取车机的用户语音的速度,提高语音识别的速度。
本发明实施例的语音识别方法,通过在接收到车机发送的语音识别触发指令时,判断所述车机是否处于语音播放状态;若所述车机处于语音播放状态,则向所述车机发送暂停播放指令;判断是否接收到所述车机在暂停播放后返回的响应消息;若接收到所述响应消息,则对所述车机进行环境检测,判断所述车机当前的环境是否满足录音条件;在所述车机当前的环境满足录音条件时,向所述车机发送录音指令,获取所述车机采集的用户语音;对所述用户语音进行语音识别。从而能够实现在终端设备与车机互联时,在终端设备确定车机已从语音播放状态切换到暂停播放状态,并且确定车机当前的环境满足录音条件时,才会向车机发送录音指令,控制车机采集用户语音,实现所录取的用户语音不包含车机所播放的音频信息,进而使由车机录取的用户语音中尽可能地不掺杂噪音,进一步地提高了语音识别的准确率,提高了用户体验。
图3为本发明实施例提供的一种语音识别装置的结构示意图。如图3所示,包括:判断模块11、发送模块12、语音识别模块13。
判断模块11,用于在接收到车机发送的语音识别触发指令时,判断所述车机是否处于语音播放状态;
发送模块12,用于在所述车机处于语音播放状态时,向所述车机发送暂停播放指令;
所述判断模块11,还用于判断是否接收到所述车机在暂停播放后返回的响应消息;
所述发送模块12,还用于在接收到所述响应消息时,向所述车机发送录音指令,获取所述车机采集的用户语音;
语音识别模块13,用于对所述用户语音进行语音识别。
进一步地,所述发送模块13,还用于在所述车机未处于语音播放状态时,向所述车机发送录音指令,获取所述车机采集的用户语音。
进一步地,所述装置还包括:检测模块,用于对所述车机进行环境检测,判断所述车机当前的环境是否满足录音条件;
所述发送模块具体用于,在所述车机当前的环境满足录音条件时,向所述车机发送录音指令,获取所述车机采集的用户语音。
进一步地,所述检测模块具体用于:
对所述车机进行环境检测,获取环境音;
判断所述环境音的频率信息与预设的语音播放频率信息是否一致;
若所述环境音的频率信息与预设的语音播放频率信息一致,则确定所述车机当前的环境不满足录音条件;
若所述环境音的频率信息与预设的语音播放频率信息不一致,则确定所述车机当前的环境满足录音条件。
进一步地,所述检测模块具体还用于,
若在预设时间段内未获取到环境音,则确定所述车机当前的环境满足录音条件。
进一步地,所述装置还包括:
显示模块,用于在检测模块确定向所述车机发送录音指令时,在预设界面上显示提示信息,以便用户根据所述提示信息发出语音,以供采集。
进一步地,所述语音播放状态包括:音乐播放状态,和/或,导航播报状态。
需要说明的是,前述对语音识别方法实施例的解释说明也适用于该实施例的语音识别装置,此处不再赘述。
本发明实施例的语音识别装置,通过在接收到车机发送的语音识别触发指令时,判断所述车机是否处于语音播放状态;若所述车机处于语音播放状态,则向所述车机发送暂停播放指令;判断是否接收到所述车机在暂停播放后返回的响应消息;若接收到所述响应消息,则向所述车机发送录音指令,获取所述车机采集的用户语音;对所述用户语音进行语音识别。从而能够实现在终端设备与车机互联时,在控制车机对用户语音进行录音时,所录取的用户语音不包含车机所播放的音频,进而使由车机录取的用户语音中尽可能地不掺杂噪音,保证了语音识别的准确率,提高了用户体验。
图4为本发明实施例提供的另一种语音识别装置的结构示意图。该语音识别装置包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述实施例中提供的语音识别方法。
进一步地,语音识别装置还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述实施例所述的语音识别方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的语音识别方法。
本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的语音识别方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (17)

1.一种语音识别方法,应用于与车机互联的终端设备,其特征在于,包括:
在接收到车机发送的语音识别触发指令时,判断所述车机是否处于语音播放状态;
若所述车机处于语音播放状态,则向所述车机发送暂停播放指令;
判断是否接收到所述车机在暂停播放后返回的响应消息;
若接收到所述响应消息,则向所述车机发送录音指令,获取所述车机采集的用户语音;
对所述用户语音进行语音识别。
2.根据权利要求1所述的方法,其特征在于,还包括:
若所述车机未处于语音播放状态,则向所述车机发送录音指令,获取所述车机采集的用户语音。
3.根据权利要求1所述的方法,其特征在于,所述向所述车机发送录音指令,获取所述车机采集的用户语音之前,还包括:
对所述车机进行环境检测,判断所述车机当前的环境是否满足录音条件;
对应的,所述向所述车机发送录音指令,获取所述车机采集的用户语音,包括:
在所述车机当前的环境满足录音条件时,向所述车机发送录音指令,获取所述车机采集的用户语音。
4.根据权利要求3所述的方法,其特征在于,所述对所述车机进行环境检测,判断所述车机当前的环境是否满足录音条件,包括:
对所述车机进行环境检测,获取环境音;
判断所述环境音的频率信息与预设的语音播放频率信息是否一致;
若所述环境音的频率信息与预设的语音播放频率信息一致,则确定所述车机当前的环境不满足录音条件;
若所述环境音的频率信息与预设的语音播放频率信息不一致,则确定所述车机当前的环境满足录音条件。
5.根据权利要求4所述的方法,其特征在于,所述对所述车机进行环境检测,判断所述车机当前的环境是否满足录音条件,还包括:
若在预设时间段内未获取到环境音,则确定所述车机当前的环境满足录音条件。
6.根据权利要求1所述的方法,其特征在于,还包括:
在确定向所述车机发送录音指令时,在预设界面上显示提示信息,以便用户根据所述提示信息发出语音,以供采集。
7.根据权利要求1所述的方法,其特征在于,所述语音播放状态包括:音乐播放状态,和/或,导航播报状态。
8.一种语音识别装置,应用于与车机互联的终端设备,其特征在于,包括:
判断模块,用于在接收到车机发送的语音识别触发指令时,判断所述车机是否处于语音播放状态;
发送模块,用于在所述车机处于语音播放状态时,向所述车机发送暂停播放指令;
所述判断模块,还用于判断是否接收到所述车机在暂停播放后返回的响应消息;
所述发送模块,还用于在接收到所述响应消息时,向所述车机发送录音指令,获取所述车机采集的用户语音;
语音识别模块,用于对所述用户语音进行语音识别。
9.根据权利要求8所述的装置,其特征在于,所述发送模块,还用于在所述车机未处于语音播放状态时,向所述车机发送录音指令,获取所述车机采集的用户语音。
10.根据权利要求8所述的装置,其特征在于,还包括:检测模块,用于对所述车机进行环境检测,判断所述车机当前的环境是否满足录音条件;
所述发送模块具体用于,在所述车机当前的环境满足录音条件时,向所述车机发送录音指令,获取所述车机采集的用户语音。
11.根据权利要求10所述的装置,其特征在于,所述检测模块具体用于,
对所述车机进行环境检测,获取环境音;
判断所述环境音的频率信息与预设的语音播放频率信息是否一致;
若所述环境音的频率信息与预设的语音播放频率信息一致,则确定所述车机当前的环境不满足录音条件;
若所述环境音的频率信息与预设的语音播放频率信息不一致,则确定所述车机当前的环境满足录音条件。
12.根据权利要求11所述的装置,其特征在于,所述检测模块具体还用于,
若在预设时间段内未获取到环境音,则确定所述车机当前的环境满足录音条件。
13.根据权利要求8所述的装置,其特征在于,还包括:
显示模块,用于在检测模块确定向所述车机发送录音指令时,在预设界面上显示提示信息,以便用户根据所述提示信息发出语音,以供采集。
14.根据权利要求8所述的装置,其特征在于,所述语音播放状态包括:音乐播放状态,和/或,导航播报状态。
15.一种语音识别装置,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的语音识别方法。
16.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的语音识别方法。
17.一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如权利要求1-7中任一所述的语音识别方法。
CN202111117307.6A 2019-04-09 2019-04-09 语音识别方法及装置 Pending CN113990309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111117307.6A CN113990309A (zh) 2019-04-09 2019-04-09 语音识别方法及装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111117307.6A CN113990309A (zh) 2019-04-09 2019-04-09 语音识别方法及装置
CN201910281318.4A CN110070866B (zh) 2019-04-09 2019-04-09 语音识别方法及装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201910281318.4A Division CN110070866B (zh) 2019-04-09 2019-04-09 语音识别方法及装置

Publications (1)

Publication Number Publication Date
CN113990309A true CN113990309A (zh) 2022-01-28

Family

ID=67367236

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910281318.4A Active CN110070866B (zh) 2019-04-09 2019-04-09 语音识别方法及装置
CN202111117307.6A Pending CN113990309A (zh) 2019-04-09 2019-04-09 语音识别方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910281318.4A Active CN110070866B (zh) 2019-04-09 2019-04-09 语音识别方法及装置

Country Status (1)

Country Link
CN (2) CN110070866B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306221A (zh) * 2019-08-02 2021-02-02 上海擎感智能科技有限公司 智能车机交互方法及装置、存储介质和终端
CN111369989B (zh) * 2019-11-29 2022-07-05 添可智能科技有限公司 清洁设备的语音交互方法及清洁设备
CN113129902B (zh) * 2019-12-30 2023-10-24 北京猎户星空科技有限公司 一种语音处理方法、装置、电子设备及存储介质
CN111210820B (zh) * 2020-01-21 2022-11-18 达闼机器人股份有限公司 机器人的控制方法、装置、电子设备以及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103796125A (zh) * 2013-11-21 2014-05-14 广州视源电子科技股份有限公司 一种基于耳机播放的声音调节方法
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
CN204316540U (zh) * 2014-11-15 2015-05-06 深圳市掌翼星通科技有限公司 一种车载声控语音打电话系统
US10045110B2 (en) * 2016-07-06 2018-08-07 Bragi GmbH Selective sound field environment processing system and method
US11086593B2 (en) * 2016-08-26 2021-08-10 Bragi GmbH Voice assistant for wireless earpieces
CN106767884A (zh) * 2016-12-19 2017-05-31 东风汽车公司 基于手机互联的汽车仪表导航方法
CN106910500B (zh) * 2016-12-23 2020-04-17 北京小鸟听听科技有限公司 对带麦克风阵列的设备进行语音控制的方法及设备
CN108711426A (zh) * 2018-05-04 2018-10-26 四川斐讯信息技术有限公司 一种基于语音控制的无线扩展器配置方法及系统
CN109243438B (zh) * 2018-08-24 2023-09-26 上海擎感智能科技有限公司 一种车主情绪调节方法、系统及存储介质
CN109493865A (zh) * 2018-10-17 2019-03-19 北京车和家信息技术有限公司 信号处理方法、终端及车辆
CN109360567B (zh) * 2018-12-12 2021-07-20 思必驰科技股份有限公司 可定制唤醒的方法和装置

Also Published As

Publication number Publication date
CN110070866A (zh) 2019-07-30
CN110070866B (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN110070866B (zh) 语音识别方法及装置
US10600415B2 (en) Method, apparatus, device, and storage medium for voice interaction
CN106998494B (zh) 一种视频录制方法及相关装置
US10068390B2 (en) Method for obtaining product feedback from drivers in a non-distracting manner
CN111107421B (zh) 视频处理方法、装置、终端设备及存储介质
CN112231021B (zh) 软件新功能的引导方法和装置
RU2656693C2 (ru) Способ и устройство подсказывания события
US11200899B2 (en) Voice processing method, apparatus and device
CN109657091B (zh) 语音交互设备的状态呈现方法、装置、设备及存储介质
CN110069227B (zh) 数据互动显示方法及装置
CN107273086A (zh) 基于导航的音频处理方法和装置
CN109725869B (zh) 连续交互控制方法和装置
CN104092809A (zh) 通话录音方法、通话录音播放方法及其相应装置
CN106156036B (zh) 一种车载音频处理方法及车载设备
CN105446854A (zh) 功耗检测方法、系统及终端
CN109246742B (zh) 一种来电寻呼的自动接听方法及移动终端
CN109040912B (zh) 堵孔处理方法及相关产品
CN107454265B (zh) 基于通话模式变化记录通话信息的方法及装置
CN112533188A (zh) 一种播放源的输出处理方法和装置
CN109195072B (zh) 基于汽车的音频播放控制系统及方法
CN111063349B (zh) 基于人工智能语音的按键查询方法及装置
CN109147783B (zh) 基于k歌系统的语音识别方法、介质及系统
CN104899058A (zh) 预下载方法和装置
CN105072243A (zh) 来电提示方法和装置
CN111556406B (zh) 音频处理方法、音频处理装置及耳机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination