CN112712799A

CN112712799A - 一种误触发语音信息的获取方法、装置、设备及存储介质

Info

Publication number: CN112712799A
Application number: CN202011536060.7A
Authority: CN
Inventors: 杨秀娟
Original assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Current assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-27
Anticipated expiration: 2040-12-23

Abstract

本发明实施例公开了一种误触发语音信息的获取方法、装置、设备及存储介质，该方法包括：播放预先录制完成的噪声音频，并在获取到唤醒指令时，开启监听模式；若在所述预设监听时间内获取到所述第一语音指令，则获取所述第一语音指令的识别文本和响应结果，并播报所述第一语音指令的响应结果；若在所述第一语音指令的响应结果的播报时间段内，获取到所述噪声音频中的第二语音指令，则记录所述第二语音指令的触发信息，并将所述第二语音指令的触发信息加入至误触发信息集合，当确定所述噪声音频播放完毕或播放时长达到预设时长阈值时，获取所述误触发信息集合，实现了多类型误触发语音信息的获取，同时为车机的语音识别功能提供了训练样本。

Description

一种误触发语音信息的获取方法、装置、设备及存储介质

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种误触发语音信息的获取方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，语音交互技术本身得到了迅速发展，成为了生活中重要的技术手段，尤其是在驾驶场景中，语音交互成为了用户与车机设备交互的重要方式。

目前，车载语音交互系统主要是通过获取驾驶者的语音控制命令，对语音控制命令进行内容识别并做出对应的反馈，以实现车机功能控制；但由于目前车机的语音识别系统识别能力较差，易受外部噪声(如发动机噪声、外部聊天等)的影响，将噪声当作正确指令，进行错误的反馈，使得车机的语音交互异常混乱，严重影响用户的使用体验。

发明内容

本发明实施例提供了一种误触发语音信息的获取方法、装置、设备及存储介质，以实现噪声音频下车机误触发语音信息的获取。

第一方面，本发明实施例提供了一种误触发语音信息的获取方法，应用于车机中，包括：

播放预先录制完成的噪声音频，并在获取到唤醒指令时，开启监听模式；

判断预设监听时间内，是否获取到第一语音指令；

若在所述预设监听时间内获取到所述第一语音指令，则获取所述第一语音指令的识别文本和响应结果，并播报所述第一语音指令的响应结果；

若在所述第一语音指令的响应结果的播报时间段内，获取到所述噪声音频中的第二语音指令，则记录所述第二语音指令的触发信息，并将所述第二语音指令的触发信息加入至误触发信息集合；其中，所述触发信息包括识别文本、触发功能类型、触发时间、响应结果和/或噪声音频片段；

当确定所述第一语音指令的响应结果播报完毕时，经过预设等待时间，关闭监听模式；

当确定所述噪声音频播放完毕或播放时长达到预设时长阈值时，获取所述误触发信息集合。

第二方面，本发明实施例提供了一种误触发语音信息的获取装置，包括：

监听模式开启模块，用于播放预先录制完成的噪声音频，并在获取到唤醒指令时，开启监听模式；

语音指令判断模块，用于判断预设监听时间内，是否获取到第一语音指令；

响应结果播报模块，用于若在所述预设监听时间内获取到所述第一语音指令，则获取所述第一语音指令的识别文本和响应结果，并播报所述第一语音指令的响应结果；

第一触发信息记录模块，用于若在所述第一语音指令的响应结果的播报时间段内，获取到所述噪声音频中的第二语音指令，则记录所述第二语音指令的触发信息，并将所述第二语音指令的触发信息加入至误触发信息集合；其中，所述触发信息包括识别文本、触发功能类型、触发时间、响应结果和/或噪声音频片段；

监听模式关闭模块，用于当确定所述第一语音指令的响应结果播报完毕时，经过预设等待时间，关闭监听模式；

误触发信息集合获取模块，用于当确定所述噪声音频播放完毕或播放时长达到预设时长阈值时，获取所述误触发信息集合。

第三方面，本发明实施例还提供了一种车机设备，所述车机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的误触发语音信息的获取方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的误触发语音信息的获取方法。

本发明实施例提供的技术方案，在播放噪声音频，并在获取到唤醒指令，开启监听模式后，若在预设监听时间内获取到第一语音指令，且在第一语音指令的响应结果的播报时间段内，获取到第二语音指令，则记录第二语音指令的触发信息，并加入至误触发信息集合，当确定噪声音频播放完毕或播放时长达到预设时长阈值时，获取误触发信息集合，实现了多类型误触发语音信息的获取，同时为车机的语音识别提供了训练样本。

附图说明

图1是本发明实施例一提供的一种误触发语音信息的获取方法的流程图；

图2是本发明实施例二提供的一种误触发语音信息的获取方法的流程图；

图3是本发明实施例三提供的一种误触发语音信息的获取方法的流程图；

图4是本发明实施例四提供的一种误触发语音信息的获取装置的结构框图；

图5是本发明实施例五提供的一种车机设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种误触发语音信息的获取方法的流程图，本实施例可适用于车机误触发语音信息的获取，该方法可以由本发明实施例中的误触发语音信息的获取装置来执行，该装置可以通过软件和/或硬件实现，并集成在车机设备上，该方法具体包括如下步骤：

S110、播放预先录制完成的噪声音频，并在获取到唤醒指令时，开启监听模式。

噪声音频，为提前录制好的不同场景下具有代表性且可循环使用的噪声音频，包括外部噪声(发动机噪声、风噪和空调噪声等)和/或内部聊天(手机播放的音、视频和乘车人之间的对话等)音频；噪声音频的播放，可以通过车机自身的音响进行播放，也可以通过车机控制的外部高保真音响进行播放；本发明实施例中，噪声音频作为背景噪声贯穿误触发语音信息的获取阶段。唤醒指令，包括预先设置的可使车机进入工作状态的语音唤醒词或操作，例如，手动点击车机唤醒按键、给车机发送对应的唤醒指令事件等；本发明实施例中，获取唤醒指令的方式，可以是由车机自身周期性的发送唤醒指令，例如，在关闭监听模式，即每个监听周期结束后，机车进入待机状态，由车机发送下一次唤醒指令；也可以是由车机控制外部高保真音响播放唤醒词，或手动点击车机的唤醒按键等。在获取到唤醒指令时，车机开启监听模式，在监听模式下，车机可以接受外部的任何语音信息，并进行相应的反馈；在非监听模式下，车机进入待机状态，只对唤醒指令作出反馈，对其它语音信息不作出任何反馈，通过播放预先录制的噪声音频，可以对不同的车机应用场景进行模拟，以获取车机在各种复杂场景下的误触发语音信息。

可选的，在本发明实施例中，在开启监听模式后，还包括：在指令信息集合中随机选取一条指令信息并播报；其中，所述指令信息包括第一语音指令或空白语音指令。指令信息集合，为预先设置的包括多个第一语音指令或空白指令的集合，其中，第一语音指令为包含具体车机功能控制命令的语音指令，即反应用户意图的真实控制指令，例如，打开导航、播放音乐等；空白指令为不包括车机功能控制命令的空白语音指令；本发明实施例中，通过预先设置指令信息集合，在开启监听模式后，可以通过车机自身的音响或由车机控制外部高保真音响，在指令集合中随机选取一条指令进行播报；值得注意的是随机选取的指令可以是有效的第一语音指令，也可以是无效的空白语音指令，以更加贴合实际场景，实现了指令信息的自动选取与播报，避免了由人工进行指令信息的播报，提升了工作效率。

S120、判断预设监听时间内，是否获取到第一语音指令。

预设监听时间，为预先设置的由监听状态开启后等待获取用户语音指令的时间，例如，预设监听时间为5秒，即在监听状态开启后5秒内，若未获取到第一语音指令，则关闭监听模式，认为用户在唤醒车机后已放弃本次操作，若在5秒内获取到第一语音指令，则根据第一语音指令进行对应的反馈，同时监听状态将继续保持；本发明实施例中，在开启监听状态后，车机将监听到的所有语音信息存储至相应的目录，同时对监听到的语音信息进行识别判断，以确定语音信息中是否包括第一语音指令。具体的，通过自动语音识别(Automatic Speech Recognition，ASR)技术对获取到的语音信息进行识别，并转换为对应的机器可读文本，以判断语音信息中是否包括第一语音指令。通过设置预设监听时间，可保证在开启监听模式后，若无第一语音指令输入，可以及时结束监听状态，以减少车机功耗。

S130、若在所述预设监听时间内获取到所述第一语音指令，则获取所述第一语音指令的识别文本和响应结果，并播报所述第一语音指令的响应结果。

车机根据获取的识别文本查询相应内容，以获取响应结果，并对响应结果进行播报，例如，第一语音指令为打开导航，通过自动语音识别技术获取其对应的识别文本“导航去博物馆”，车机根据识别文本进行响应，例如响应结果为“已为您规划去博物馆的路线”，并对当前响应结果进行语音播报。

可选的，在本发明实施例中，在判断预设监听时间内，是否获取到第一语音指令后，还包括：若在所述预设监听时间内未获取到所述第一语音指令，则播报提示信息，并关闭监听模式；若在所述提示信息的播报时间段内，获取到所述噪声音频中的第三语音指令，则记录所述第三语音指令的触发信息，并将所述第三语音指令的触发信息加入至误触发信息集合。具体的，由于在开启监听模式后，在指令信息集合中随机选取指令信息进行播报，当随机选取的为空白语音指令时，即车机在预设监听时间内不能获取到第一语音指令，则播放预先设置的提示信息，例如“未听到您说话”，并关闭监听模式，等待下一周期的语音唤醒指令；其中，提示信息用于提示用户车机未获取到第一语音指令，使用户明确当前的车机状态。车机在未获取到包括控制命令的语音信息时，及时关闭监听模式，以降低车机的功耗。第三语音指令，是在进行提示信息播报时间段内，获取到的语音指令；具体的，在提示信息的播报时间段内，与在第一语音指令的响应结果的播报时间段内的情形相同，同样不存在用户发出的真实控制指令，但由于噪声音频贯穿整个测试阶段，因此，在此时间范围内，同样可能会误将噪声音频中的信息确定为语音指令，即第三语音指令，此时获取第三语音指令的触发信息，并将触发信息加入至误触发信息集合。

S140、若在所述第一语音指令的响应结果的播报时间段内，获取到所述噪声音频中的第二语音指令，则记录所述第二语音指令的触发信息，并将所述第二语音指令的触发信息加入至误触发信息集合；其中，所述触发信息包括识别文本、触发功能类型、触发时间、响应结果和/或噪声音频片段。

第一语音指令的响应结果的播报时间段内，即由第一语音指令的响应结果开始播报到播报结束的时间范围之内；在该播报时间段内，不存在第一语音指令，即不存在用户发出的真实控制指令，但由于噪声音频贯穿整个测试阶段，因此，在此时间范围内，可能会误将噪声音频中的信息确定为语音指令，即第二语音指令本发明实施例中，通过结合车机状态、自动语音识别技术和自然语言理解(Natural Language Understanding，NLU)技术，对第二语音指令的触发信息，包括识别文本、触发功能类型、触发时间、响应结果和/或噪声音频片段进行获取，并将获取到的触发信息加入至误触发信息集合；其中，触发功能类型为所触发的车机功能，例如在获取到语音指令后，车机进行了音乐播放，触发功能类型即为音乐播放；触发时间为车机获取到该语音指令的时间，响应结果为车机在获取到该语音指令后进行响应的对应响应结果，噪声音频片段为语音指令在噪声音频中对应的片段，可根据触发时间将该噪声音频片段从整个音频中截取得到；本发明实施例中，可以将所有触发信息包含的内容全部获取并添加至误触发信息集合，也可根据任务需求，选择其中的某一项或几项添加至误触发信息集合。通过对第二语音指令进行分析，实现了对应误触发信息的获取，进而为车机语音识别模型提供误触发样本。

S150、当确定所述第一语音指令的响应结果播报完毕时，经过预设等待时间，关闭监听模式。

具体的，在本发明实施例中，在第一语音指令的响应结果播报完毕后，监听模式并不会马上关闭，而是继续保持一个预设的等待时间；其中，预设等待时间为监听模式在第一语音指令的响应结果播报完成后，预先设置的保持监听状态开启的时间；在实际场景中，在车机针对第一语音指令进行响应后，用户通常会有后续的语音指令输入，因此，预设等待时间的设置，可更加贴近实际应用场景。在经过预设等待时间后，关闭监听模式，表示一个监听周期结束，在下一个唤醒指令出现之前，车机将无法对其它语音信息进行响应。

可选的，在本发明实施例中，在经过预设等待时间后，还包括：若在所述预设等待时间内，获取到所述噪声音频中的第四语音指令，则记录所述第四语音指令的触发信息，并将所述第四语音指令的触发信息加入至误触发信息集合。第四语音指令，为预设等待时间内获取的语音指令，由于在等待时间内同样没有用户语音指令输入，只有噪声音频存在，故在预设等待时间内，也可能会误将噪声音频中的信息确定为语音指令，即第四语音指令；获取第四语音指令对应的触发信息，同样可以包括识别文本、触发功能类型、触发时间、响应结果和/或噪声音频片段，并将触发信息加入至误触发集合，实现了另一场景下误触发信息的获取，进一步为车机语音识别模型提供不同场景下的误触发语音样本。

S160、当确定所述噪声音频播放完毕或播放时长达到预设时长阈值时，获取所述误触发信息集合。

具体的，在本发明实施例中，当确定噪声音频播放完毕或播放时长达到预设时长阈值(例如，1小时)时，结束本次误触发语音信息的获取，并获取当前的误触发信息集合；其中，误触发信息集合，为包含当前时长内所有第二语音指令的触发信息的和第四语音指令的触发信息的集合。

可选的，在本发明实施例中，在获取所述误触发信息集合后，还包括：根据所述误触发信息集合，对所述车机的语音识别效果进行评价。具体的，根据所述误触发信息集合，以及预设评价阈值，对所述车机的语音识别效果进行评价；其中，所述预设评价阈值包括触发信息数量阈值、触发信息平均时长阈值和/或触发信息总时长阈值；或根据所述误触发信息集合，以及历史误触发信息集合，对所述车机的语音识别效果进行评价。本发明实施例中，对车机的语音识别效果进行评价，可以通过误触发信息集合与预设评价阈值进行比对，包括与上述预设评价阈值中一项或多项进行比对，以评价车机的语音识别效果；例如，预设触发信息数量阈值为5，而误触发信息数量为6，则表示该语音识别效果不满足要求，需要进行进一步优化；对车机的语音识别效果进行评价，也可以通过误触发信息集合与历史误触发信息集合的对比实现，即如果误触发信息集合各项评价优于历史误触发信息集合，则表示当前车机语音识别系统相较于历史车机语音识别系统得到了优化。

实施例二

图2为本发明实施例二提供的一种误触发语音信息的获取方法的流程图，本实施例在上述实施例的基础上进行具体化，在本实施例中，根据获取到的误触发信息集合对车机的语音识别模型进行优化，该方法具体包括：

S210、播放预先录制完成的噪声音频，并在获取到唤醒指令时，开启监听模式。

S220、判断预设监听时间内，是否获取到第一语音指令。

S230、若在所述预设监听时间内获取到所述第一语音指令，则获取所述第一语音指令的识别文本和响应结果，并播报所述第一语音指令的响应结果。

S240、若在所述第一语音指令的响应结果的播报时间段内，获取到所述噪声音频中的第二语音指令，则记录所述第二语音指令的触发信息，并将所述第二语音指令的触发信息加入至误触发信息集合；其中，所述触发信息包括识别文本、触发功能类型、触发时间、响应结果和/或噪声音频片段。

S250、当确定所述第一语音指令的响应结果播报完毕时，经过预设等待时间，关闭监听模式。

S260、当确定所述噪声音频播放完毕或播放时长达到预设时长阈值时，获取所述误触发信息集合。

S270、根据所述误触发信息集合，对所述车机的语音识别模型进行优化。

具体的，根据误触发信息集合对车机的语音识别模型进行优化，包括以误触发信息集合作为新的训练样本，或将其加入至语音识别模型的原始训练样本中形成新的训练样本集合，对车机的语音识别模型进行语音识别训练，并获取训练完成的语音识别模型；还包括将误触发信息集合储存至语音识别模型的误触发信息对照表中，在获取到新的语音指令时，通过ASR技术获取其对应的识别文本，将识别文本输入至误触发信息对照表中进行查找，若查找到对应的误触发信息，则确定该语音指令为误触发语音指令；本发明实施例中，通过误触发信息集合对车机的语音识别模型进行优化，可提升了车机的语音识别准确度，并提升语音识别的抗干扰能力。

本发明实施例提供的技术方案，根据第一语音指令的响应结果的播报时间段内，获取到了相应的误触发信息，并加入到误触发信息集合中，进而根据误触发信息集合对车机的语音识别模型进行了优化，提升车机中语音识别模型的抗干扰能力。

实施例三

图3为本发明实施例三提供的一种误触发语音信息的获取方法的流程图，本实施例在上述实施例的基础上进行具体化，在本实施例中，第一语音指令的识别文本中包含有噪音的文本信息，该方法具体包括：

S310、播放预先录制完成的噪声音频，并在获取到唤醒指令时，开启监听模式。

S320、判断预设监听时间内，是否获取到第一语音指令。

S330、若在所述预设监听时间内获取到所述第一语音指令，则获取所述第一语音指令的识别文本和响应结果，并播报所述第一语音指令的响应结果。

S340、根据所述第一语音指令的识别文本，以及预设字符阈值，判断所述第一语音指令是否混合有噪音。

具体的，由于噪声音频贯穿整个误触发语音信息的获取阶段，在获取第一语音指令的同时，同样也可能获取到噪声音频中的信息，并误将该信息作为第一语音指令的一部分；而混合有噪音的第一语音指令，字符数量通常会多于正常状态，例如，第一语音指令的识别文本为“导航去博物馆今日紫外线照射强度较弱”，显然，第一语音指令，也即用户的真实语音指令应为“导航去博物馆”，但由于噪声音频的影响，车机误将噪声音频中的语音信息“今日紫外线照射强度较弱”也同样作为了第一语音指令，因此，通过预设字符阈值，可以判断第一语音指令是否混合有噪音，而预设字符阈值可根据需要进行设定，例如，预设字符阈值设定为小于或等于10个字符。

S350、若所述第一语音指令的识别文本不符合所述预设字符阈值，则确定所述第一语音指令混合有噪音，记录所述第一语音指令的触发信息，并将所述第一语音指令的触发信息加入至混合噪音指令集合。

当识别文本的长度不符合预设字符阈值范围时，确定当前第一语音指令混有噪音，并获取当前第一语音指令对应的触发信息，并将其加入至混合噪音指令集合；其中，噪音指令集合同样可以用于上述技术方案中的语音识别模型的优化，以提升车机的语音识别准确度。

S360、若在所述第一语音指令的响应结果的播报时间段内，获取到所述噪声音频中的第二语音指令，则记录所述第二语音指令的触发信息，并将所述第二语音指令的触发信息加入至误触发信息集合；其中，所述触发信息包括识别文本、触发功能类型、触发时间、响应结果和/或噪声音频片段。

S370、当确定所述第一语音指令的响应结果播报完毕时，经过预设等待时间，关闭监听模式。

S380、当确定所述噪声音频播放完毕或播放时长达到预设时长阈值时，获取所述误触发信息集合。

可选的，在本发明实施例中，在获取所述误触发信息集合后，还包括：或根据所述误触发信息集合以及所述混合噪音指令集合，对所述车机的语音识别模型进行优化。具体的，对车机的语音识别模型进行优化，包括将误触发信息集合以及混合噪音指令集合作为新训练样本，或将其加入至语音识别模型的原始训练样本中形成新的训练样本集合，对车机的语音识别模型进行语音识别训练，并获取训练完成的语音识别模型。在获取到优化的语音识别模型后，使用优化的语音识别模型重新进行误触发语音信息的获取，直至获取到满足需求的车机语音识别模型为止，例如，车机的语音识别模型对上述技术方案中的噪声音频不存在任何触发信息为止。根据误触发信息集合，对车机的语音识别模型进行的优化训练，提升了车机语音识别系统的语音识别准确度，并进一步提升语音识别系统的抗干扰能力。

本发明实施例提供的技术方案，在获取到第一语音指令的识别文本后，根据预设字符阈值，判断该识别文本中是否存在噪声文本信息，并在确定该识别文本中存在噪声文本信息后，将该识别文本加入至混合噪音指令集合，实现了混合噪音指令集合和误触发信息集合的获取，为语音识别模型提供了充足的样本信息。

实施例四

图4是本发明实施例四所提供的一种误触发语音信息的获取装置的结构框图，该装置具体包括：监听模式开启模块410、语音指令判断模块420、响应结果播报模块430、第一触发信息记录模块440、监听模式关闭模块450和误触发信息集合获取模块460；

监听模式开启模块410，用于播放预先录制完成的噪声音频，并在获取到唤醒指令时，开启监听模式；

语音指令判断模块420，用于判断预设监听时间内，是否获取到第一语音指令；

响应结果播报模块430，用于若在所述预设监听时间内获取到所述第一语音指令，则获取所述第一语音指令的识别文本和响应结果，并播报所述第一语音指令的响应结果；

第一触发信息记录模块440，用于若在所述第一语音指令的响应结果的播报时间段内，获取到所述噪声音频中的第二语音指令，则记录所述第二语音指令的触发信息，并将所述第二语音指令的触发信息加入至误触发信息集合；其中，所述触发信息包括识别文本、触发功能类型、触发时间、响应结果和/或噪声音频片段；

监听模式关闭模块450，用于当确定所述第一语音指令的响应结果播报完毕时，经过预设等待时间，关闭监听模式；

误触发信息集合获取模块460，用于当确定所述噪声音频播放完毕或播放时长达到预设时长阈值时，获取所述误触发信息集合。

可选的，在上述技术方案的基础上，误触发语音信息的获取装置，还包括：

提示信息播报模块，用于若在所述预设监听时间内未获取到所述第一语音指令，则播报提示信息，并关闭监听模式；

第二触发信息记录模块，用于若在所述提示信息的播报时间段内，获取到所述噪声音频中的第三语音指令，则记录所述第三语音指令的触发信息，并将所述第三语音指令的触发信息加入至误触发信息集合。

指令信息选取模块，用于在指令信息集合中随机选取一条指令信息并播报；其中，所述指令信息包括第一语音指令或空白语音指令。

第三触发信息记录模块，用于若在所述预设等待时间内，获取到所述噪声音频中的第四语音指令，则记录所述第四语音指令的触发信息，并将所述第四语音指令的触发信息加入至误触发信息集合。

噪音判断模块，用于根据所述第一语音指令的识别文本，以及预设字符阈值，判断所述第一语音指令是否混合有噪音；

混合噪音指令集合获取模块，用于若所述第一语音指令的识别文本不符合所述预设字符阈值，则确定所述第一语音指令混合有噪音，记录所述第一语音指令的触发信息，并将所述第一语音指令的触发信息加入至混合噪音指令集合。

模型优化执行模块，用于根据所述误触发信息集合，对所述车机的语音识别模型进行优化；或根据所述误触发信息集合以及所述混合噪音指令集合，对所述车机的语音识别模型进行优化。

可选的，在上述技术方案的基础上，误触发语音信息的获取装置，还包括：根据所述误触发信息集合，以及预设评价阈值，对所述车机的语音识别效果进行评价；其中，所述预设评价阈值包括触发信息数量阈值、触发信息平均时长阈值和/或触发信息总时长阈值；或根据所述误触发信息集合，以及历史误触发信息集合，对所述车机的语音识别效果进行评价。

上述装置可执行本发明任意实施例所提供的误触发语音信息的获取方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的方法。

实施例五

图5为本发明实施例五提供的一种车机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性车机设备12的框图。图5显示的车机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，车机设备12以通用计算设备的形式表现。车机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，存储器28，连接不同系统组件(包括存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

车机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被车机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。车机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

车机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该车机设备12交互的设备通信，和/或与使得该车机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，车机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与车机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合车机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明任意实施例提供的误触发语音信息的获取方法。也即：播放预先录制完成的噪声音频，并在获取到唤醒指令时，开启监听模式；判断预设监听时间内，是否获取到第一语音指令；若在所述预设监听时间内获取到所述第一语音指令，则获取所述第一语音指令的识别文本和响应结果，并播报所述第一语音指令的响应结果；若在所述第一语音指令的响应结果的播报时间段内，获取到所述噪声音频中的第二语音指令，则记录所述第二语音指令的触发信息，并将所述第二语音指令的触发信息加入至误触发信息集合；其中，所述触发信息包括识别文本、触发功能类型、触发时间、响应结果和/或噪声音频片段；当确定所述第一语音指令的响应结果播报完毕时，经过预设等待时间，关闭监听模式；当确定所述噪声音频播放完毕或播放时长达到预设时长阈值时，获取所述误触发信息集合。

实施例六

本发明实施例六还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的误触发语音信息的获取方法；该方法包括：

判断预设监听时间内，是否获取到第一语音指令；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种误触发语音信息的获取方法，其特征在于，应用于车机中，包括：

判断预设监听时间内，是否获取到第一语音指令；

2.根据权利要求1所述的方法，其特征在于，在判断预设监听时间内，是否获取到第一语音指令后，还包括：

若在所述预设监听时间内未获取到所述第一语音指令，则播报提示信息，并关闭监听模式；

若在所述提示信息的播报时间段内，获取到所述噪声音频中的第三语音指令，则记录所述第三语音指令的触发信息，并将所述第三语音指令的触发信息加入至误触发信息集合。

3.根据权利要求1所述的方法，其特征在于，在开启监听模式后，还包括：

在指令信息集合中随机选取一条指令信息并播报；其中，所述指令信息包括第一语音指令或空白语音指令。

4.根据权利要求1所述的方法，其特征在于，在经过预设等待时间后，还包括：

若在所述预设等待时间内，获取到所述噪声音频中的第四语音指令，则记录所述第四语音指令的触发信息，并将所述第四语音指令的触发信息加入至误触发信息集合。

5.根据权利要求1所述的方法，其特征在于，在获取所述第一语音指令的识别文本以及响应结果后，还包括：

根据所述第一语音指令的识别文本，以及预设字符阈值，判断所述第一语音指令是否混合有噪音；

若所述第一语音指令的识别文本不符合所述预设字符阈值，则确定所述第一语音指令混合有噪音，记录所述第一语音指令的触发信息，并将所述第一语音指令的触发信息加入至混合噪音指令集合。

6.根据权利要求1或5所述的方法，其特征在于，在获取所述误触发信息集合后，还包括：

根据所述误触发信息集合，对所述车机的语音识别模型进行优化；

或根据所述误触发信息集合以及所述混合噪音指令集合，对所述车机的语音识别模型进行优化。

7.根据权利要求1所述的方法，其特征在于，在获取所述误触发信息集合后，还包括：

根据所述误触发信息集合，以及预设评价阈值，对所述车机的语音识别效果进行评价；其中，所述预设评价阈值包括触发信息数量阈值、触发信息平均时长阈值和/或触发信息总时长阈值；

或根据所述误触发信息集合，以及历史误触发信息集合，对所述车机的语音识别效果进行评价。

8.一种误触发语音信息的获取装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述装置，还包括：

10.根据权利要求8所述的装置，其特征在于，所述装置，还包括：