CN113539265B - 一种控制方法、装置、设备及存储介质 - Google Patents

一种控制方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113539265B
CN113539265B CN202110789096.4A CN202110789096A CN113539265B CN 113539265 B CN113539265 B CN 113539265B CN 202110789096 A CN202110789096 A CN 202110789096A CN 113539265 B CN113539265 B CN 113539265B
Authority
CN
China
Prior art keywords
speaker
image information
information
voice information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110789096.4A
Other languages
English (en)
Other versions
CN113539265A (zh
Inventor
袁志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FAW Group Corp
Original Assignee
FAW Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FAW Group Corp filed Critical FAW Group Corp
Priority to CN202110789096.4A priority Critical patent/CN113539265B/zh
Publication of CN113539265A publication Critical patent/CN113539265A/zh
Application granted granted Critical
Publication of CN113539265B publication Critical patent/CN113539265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

本发明公开了一种控制方法、装置、设备及存储介质。该方法包括:若麦克风处于未被占用状态,则通过所述麦克风采集语音信息,并通过车内摄像头采集图像信息;根据所述语音信息和所述图像信息确定说话人的位置信息;若根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息;若根据所述第一图像信息确定说话人没有打电话,且根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈,则将所述语音信息和所述图像信息发送至服务器,以使所述服务器根据所述语音信息和所述图像信息确定目标指令和回复语音信息;接收服务器发送的目标指令和回复语音信息,执行所述目标指令,并播放所述回复语音信息。

Description

一种控制方法、装置、设备及存储介质
技术领域
本发明实施例涉及车辆技术领域,尤其涉及一种控制方法、装置、设备及存储介质。
背景技术
现在车载语音已经越来越普及,用户可使用车载语音助手,来实现导航、播放语音以及车辆控制等功能。但语音助手在使用前,必须将其唤醒激活,才能发起语音交互。常见的唤醒方式为唤醒词,或者唤醒按钮。
现有市场问题:
1.一种方法是通过点击中控屏幕上的唤醒按钮,实现车载语音助手的唤醒。这种方式的弊端更多,对于驾驶员来说,需要视线和手同时脱离路面和方向盘,带来非常大的安全隐患;对于后排乘客,方控语音按键只有主驾驶可以使用,车上其它用户无法操作中控屏幕上的唤醒按钮,局限性较大,体验较差。
2.唤醒词的交互方式较为生硬,不够自然,并且对老用户来说有记忆成本,新用户有学习成本。
3.大部分车载语音助手,通过唤醒词语音唤醒后,需要等待唤醒应答音,用户确认唤醒成功后,方才可以下达具体的语音指令;如果唤醒后,未在指定时间内收到唤醒应答音,则表明唤醒失败,需要重新唤醒,方可下达语音指令,通过唤醒词方式进行唤醒,需要等待唤醒应答来确认唤醒成本,才能继续下达指令,完成任务的交互时间变长。
4.一种方法是通过方向盘上的语音控制按键,实现车载语音助手的唤起,但方向盘上的按键较多,用户操作时经常要辅以视线确认,造成注意力偏离路面,形成安全隐患。同时,车内其他人员无法操作方向盘上的语音按键,局限性较大。
发明内容
本发明实施例提供一种控制方法、装置、设备及存储介质,能够使车载语音助手的交互方式更加自然。
第一方面,本发明实施例提供了一种控制方法,包括:
若麦克风处于未被占用状态,则通过所述麦克风采集语音信息,并通过车内摄像头采集图像信息;
根据所述语音信息和所述图像信息确定说话人的位置信息;
根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息;
若根据所述第一图像信息确定说话人没有打电话,且根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈,则将所述语音信息和所述图像信息发送至服务器,以使所述服务器根据所述语音信息和所述图像信息确定目标指令和回复语音信息;
接收服务器发送的目标指令和回复语音信息,执行所述目标指令,并播放所述回复语音信息。。
第二方面,本发明实施例还提供了一种控制装置,该装置包括:
采集模块,用于若麦克风处于未被占用状态,则通过所述麦克风采集语音信息,并通过车内摄像头采集图像信息;
确定模块,用于根据所述语音信息和所述图像信息确定说话人的位置信息;
截取模块,用于根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息;
发送模块,用于若根据所述第一图像信息确定说话人没有打电话,且根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈,则将所述语音信息和所述图像信息发送至服务器,以使所述服务器根据所述语音信息和所述图像信息确定目标指令和回复语音信息;
接收模块,用于接收服务器发送的目标指令和回复语音信息,执行所述目标指令,并播放所述回复语音信息。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的控制方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的控制方法。
本发明实施例通过若麦克风处于未被占用状态,则通过所述麦克风采集语音信息,并通过车内摄像头采集图像信息;根据所述语音信息和所述图像信息确定说话人的位置信息;根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息;若根据所述第一图像信息确定说话人没有打电话,且根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈,则将所述语音信息和所述图像信息发送至服务器,以使所述服务器根据所述语音信息和所述图像信息确定目标指令和回复语音信息;接收服务器发送的目标指令和回复语音信息,执行所述目标指令,并播放所述回复语音信息,能够使车载语音助手的交互方式更加自然。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例中的一种控制方法的流程图;
图1a是本发明实施例中的另一种控制方法的流程图;
图2是本发明实施例中的一种控制装置的结构示意图;
图3是本发明实施例中的一种电子设备的结构示意图;
图4是本发明实施例中的一种包含计算机程序的计算机可读存储介质的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本发明实施例提供的一种控制方法的流程图,本实施例可适用于控制的情况,该方法可以由本发明实施例中的控制装置来执行,该装置可采用软件和/或硬件的方式实现,如图1所示,该方法具体包括如下步骤:
S110,若麦克风处于未被占用状态,则通过所述麦克风采集语音信息,并通过车内摄像头采集图像信息。
其中,所述麦克风可以为一个,也可以为多个,所述车内摄像头可以为一个,也可以为多个,本发明实施例对此不进行限制。
S120,根据所述语音信息和所述图像信息确定说话人的位置信息。
示例性的,根据所述语音信息和所述图像信息确定说话人的位置信息的方式可以为:所述语音信息包括语音方向,根据语音方向和图像信息确定说话人的位置信息。
S130,根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息。
示例性的,根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息的方式可以为,根据说话人的位置信息确定说话人为驾驶员,则从图像信息中截取驾驶员的图像信息。
S140,若根据所述第一图像信息确定说话人没有打电话,且根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈,则将所述语音信息和所述图像信息发送至服务器,以使所述服务器根据所述语音信息和所述图像信息确定目标指令和回复语音信息。
示例性的,根据所述第一图像信息确定说话人没有打电话的方式可以为:将第一图像信息与数据库中预先存储的至少一个目标图像信息进行匹配,其中,目标图像为在车内打电话对应的图像信息,第一图像信息与数据库中预先存储的任一目标图像信息匹配,则确定说话人在打电话,若第一图像信息与数据库中预先存储的目标图像信息均不匹配,则确定说话人没有打电话。根据所述第一图像信息确定说话人没有打电话的方式还可以为:根据所述第一图像信息分析说话人的动作,若说话人的动作为打电话对应的动作,则确定说话人在打电话,若说话人的动作不是打电话对应的动作,则确定说话人没有打电话,本发明实施例对此不进行限制。
示例性的,根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈的方式可以为:获取说话人对应的语音信息和车内除说话人外的其他人对应的语音信息,其中,语音信息携带时间标识,若在说话人说话之前或者说话人说话之后,除说话人外的其他人说话,则确定说话人在和车内除说话人外的其他人交谈,若在说话人说话之前且在说话人说话之后,除说话人外的其他人说话未说话,则确定说话人未和车内除说话人外的其他人交谈。
S150,接收服务器发送的目标指令和回复语音信息,执行所述目标指令,并播放所述回复语音信息。
可选的,在根据所述第一图像信息确定说话人没有打电话之前,还包括:
获取麦克风的工作状态和扬声器的工作状态;
若所述麦克风处于未被占用状态,和/或,所述扬声器处于未被占用状态,则根据所述第一图像信息判断说话人是否在打电话。
示例性的,若麦克风处于被占用状态,且所述扬声器处于被占用状态,则根据确定说话人在打电话,除上述情况之外,则确定说话人没有打电话。
可选的,所述说话人的数量大于或者等于两个,相应的,根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈包括:
若根据所述第一图像信息和所述语音信息确定至少两个说话人之间未交谈,则根据所述图像信息获取车内除说话人外的其他人的目标时间范围内的语音信息,其中,所述目标时间范围的开始时间为说话人说话前预设时间,所述目标时间范围的终止时间为说话人说话结束后预设时间;
根据所述其他人的目标时间范围内的语音信息和说话人对应的语音信息确定说话人未和车内除说话人外的其他人交谈。
示例性的,若根据所述第一图像信息和所述语音信息确定至少两个说话人之间未交谈,则根据所述图像信息获取车内除说话人外的其他人的目标时间范围内的语音信息,例如可以是,若说话人包括:说话人A和说话人B,说话人A在说话人B说话之前说话,则确定说话人A和说话人B交谈,若说话人A未在说话人B说话之前说话,说话人A未在说话人B说话之后说话,说话人B未在说话人A说话之前说话,且说话人B未在说话人A说话之后说话,则确定说话人A和说话人B未交谈。根据图像信息获取车内除说话人A和说话人B外的其他人C,获取其他人C在说话人A说话之前的语音信息、在说话人A说话之后的语音信息、在说话人B说话之前的语音信息和在说话人B说话之后的语音信息,若其他人C在说话人A说话之前未说话,在说话人A说话之后未说话、在说话人B说话之前未说话,且在说话人B说话之后未说话,则确定说话人A和说话人B未和其他人C交谈,其中,说话人A和说话人B可以为同时说话,也可以为说话人A说完话之后,间隔很久的时间,说话人B说话。
可选的,根据所述第一图像信息和所述语音信息确定至少两个说话人之间未交谈,包括:
根据所述第一图像信息和所述语音信息确定至少两个说话人分别对应的语音信息和语音信息对应的时间信息;
根据所述至少两个说话人分别对应的语音信息和语音信息对应的时间信息确定至少两个说话人之间未交谈。
可选的,所述车内摄像头设置在天窗的控制面板上,和/或,所述车内摄像头设置在后视镜上方预设位置。
在一个具体的例子中,如图1a所示,需要增加多模态传感器,包括:麦克风阵列和车内高清摄像头。车内高清摄像头主要用来实现对车内环境及司乘人员状态更全面的感知,包括司乘人员视线方向、是否在打电话、是否在交谈、车内人员数量等。麦克风阵列实现对声音信号的采集、降噪、声源定位等。声音信号送至云端后,在云端多模决策引擎分析语速、语气、语音识别结果、语义识别结果、对话状态等特征,判断用户是否是在同车载语音助手交互。
具体操作流程如下:
1.首先通过麦克风阵列实时捕获声音信号,车内高清摄像头实时捕获图像信号,在车机端多模决策引擎判断用户是否在说话,以及说话人所处的位置,其中,用户就是说话人,说话人可以为一个,也可以为多个;
2.如果用户在说话,车内无其他人员,且用户未处于拨打电话的状态,则将用户音频流上报至云端进行分析;
3.如果车内有其他成员,则需要在该用户说完之后进一步判断其他成员是否有反馈。若无反馈,则将用户音频流上报至云端进行分析,反之则判定用户不是在同语音助手交互;
4.云端决策引擎结合语速、语气、语音识别结果、语义识别结果、对话状态等特征,判断用户是否是在同车载语音助手交互。
5.云端决策引擎判定用户是在同车载语音助手交互,则反馈回复话术,反之则不做任何响应。
本发明在可以起到的作用是:降低用户使用车载语音助手的使用成本,提供更自然的交互体验,减少交互步骤从而更快的完成语音交互。
本实施例的技术方案,通过若麦克风处于未被占用状态,则通过所述麦克风采集语音信息,并通过车内摄像头采集图像信息;根据所述语音信息和所述图像信息确定说话人的位置信息;根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息;若根据所述第一图像信息确定说话人没有打电话,且根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈,则将所述语音信息和所述图像信息发送至服务器,以使所述服务器根据所述语音信息和所述图像信息确定目标指令和回复语音信息;接收服务器发送的目标指令和回复语音信息,执行所述目标指令,并播放所述回复语音信息,能够使车载语音助手的交互方式更加自然。
图2为本发明实施例提供的一种控制装置的结构示意图。本实施例可适用于控制的情况,该装置可采用软件和/或硬件的方式实现,该装置可集成在任何提供控制功能的设备中,如图2所示,所述控制装置具体包括:采集模块210、确定模块220、截取模块230、发送模块240和接收模块250。
其中,采集模块,用于若麦克风处于未被占用状态,则通过所述麦克风采集语音信息,并通过车内摄像头采集图像信息;
确定模块,用于根据所述语音信息和所述图像信息确定说话人的位置信息;
截取模块,用于根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息;
发送模块,用于若根据所述第一图像信息确定说话人没有打电话,且根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈,则将所述语音信息和所述图像信息发送至服务器,以使所述服务器根据所述语音信息和所述图像信息确定目标指令和回复语音信息;
接收模块,用于接收服务器发送的目标指令和回复语音信息,执行所述目标指令,并播放所述回复语音信息。
可选的,还包括:
获取模块,用于在根据所述第一图像信息确定说话人没有打电话之前,获取麦克风的工作状态和扬声器的工作状态;
判断模块,用于若所述麦克风处于未被占用状态,和/或,所述扬声器处于未被占用状态,则根据所述第一图像信息判断说话人是否在打电话。
可选的,所述说话人的数量大于或者等于两个,相应的,所述确定模块具体用于:
若根据所述第一图像信息和所述语音信息确定至少两个说话人之间未交谈,则根据所述图像信息获取车内除说话人外的其他人的目标时间范围内的语音信息,其中,所述目标时间范围的开始时间为说话人说话前预设时间,所述目标时间范围的终止时间为说话人说话结束后预设时间;
根据所述其他人的目标时间范围内的语音信息和说话人对应的语音信息确定说话人未和车内除说话人外的其他人交谈。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
本实施例的技术方案,通过若麦克风处于未被占用状态,则通过所述麦克风采集语音信息,并通过车内摄像头采集图像信息;根据所述语音信息和所述图像信息确定说话人的位置信息;根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息;若根据所述第一图像信息确定说话人没有打电话,且根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈,则将所述语音信息和所述图像信息发送至服务器,以使所述服务器根据所述语音信息和所述图像信息确定目标指令和回复语音信息;接收服务器发送的目标指令和回复语音信息,执行所述目标指令,并播放所述回复语音信息,能够使车载语音助手的交互方式更加自然。
图3为本发明实施例中的一种电子设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图3显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。另外,本实施例中的电子设备12,显示器24不是作为独立个体存在,而是嵌入镜面中,在显示器24的显示面不予显示时,显示器24的显示面与镜面从视觉上融为一体。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的控制方法:
若麦克风处于未被占用状态,则通过所述麦克风采集语音信息,并通过车内摄像头采集图像信息;
根据所述语音信息和所述图像信息确定说话人的位置信息;
根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息;
若根据所述第一图像信息确定说话人没有打电话,且根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈,则将所述语音信息和所述图像信息发送至服务器,以使所述服务器根据所述语音信息和所述图像信息确定目标指令和回复语音信息;
接收服务器发送的目标指令和回复语音信息,执行所述目标指令,并播放所述回复语音信息。
图4为本发明实施例中的一种包含计算机程序的计算机可读存储介质的结构示意图。本发明实施例提供了一种计算机可读存储介质61,其上存储有计算机程序610,该程序被一个或多个处理器执行时实现如本申请所有发明实施例提供的控制方法:
若麦克风处于未被占用状态,则通过所述麦克风采集语音信息,并通过车内摄像头采集图像信息;
根据所述语音信息和所述图像信息确定说话人的位置信息;
根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息;
若根据所述第一图像信息确定说话人没有打电话,且根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈,则将所述语音信息和所述图像信息发送至服务器,以使所述服务器根据所述语音信息和所述图像信息确定目标指令和回复语音信息;
接收服务器发送的目标指令和回复语音信息,执行所述目标指令,并播放所述回复语音信息。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种控制方法,其特征在于,包括:
若麦克风处于未被占用状态,则通过所述麦克风采集语音信息,并通过车内摄像头采集图像信息;
根据所述语音信息中的语音方向和所述图像信息确定说话人的位置信息;
根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息;
若根据所述第一图像信息确定说话人没有打电话,且根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈,则将所述语音信息和所述图像信息发送至服务器,以使所述服务器根据所述语音信息和所述图像信息确定目标指令和回复语音信息;
接收服务器发送的目标指令和回复语音信息,执行所述目标指令,并播放所述回复语音信息。
2.根据权利要求1所述的方法,其特征在于,在根据所述第一图像信息确定说话人没有打电话之前,还包括:
获取麦克风的工作状态和扬声器的工作状态;
若所述麦克风处于未被占用状态,和/或,所述扬声器处于未被占用状态,则根据所述第一图像信息判断说话人是否在打电话。
3.根据权利要求1所述的方法,其特征在于,所述说话人的数量大于或者等于两个,相应的,根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈包括:
若根据所述第一图像信息和所述语音信息确定至少两个说话人之间未交谈,则根据所述图像信息获取车内除说话人外的其他人的目标时间范围内的语音信息,其中,所述目标时间范围的开始时间为说话人说话前预设时间,所述目标时间范围的终止时间为说话人说话结束后预设时间;
根据所述其他人的目标时间范围内的语音信息和说话人对应的语音信息确定说话人未和车内除说话人外的其他人交谈。
4.根据权利要求3所述的方法,其特征在于,根据所述第一图像信息和所述语音信息确定至少两个说话人之间未交谈,包括:
根据所述第一图像信息和所述语音信息确定至少两个说话人分别对应的语音信息和语音信息对应的时间信息;
根据所述至少两个说话人分别对应的语音信息和语音信息对应的时间信息确定至少两个说话人之间未交谈。
5.根据权利要求1所述的方法,其特征在于,所述车内摄像头设置在天窗的控制面板上,和/或,所述车内摄像头设置在后视镜上方预设位置。
6.一种控制装置,其特征在于,包括:
采集模块,用于若麦克风处于未被占用状态,则通过所述麦克风采集语音信息,并通过车内摄像头采集图像信息;
确定模块,用于根据所述语音信息中的语音方向和所述图像信息确定说话人的位置信息;
截取模块,用于根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息;
发送模块,用于若根据所述第一图像信息确定说话人没有打电话,且根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈,则将所述语音信息和所述图像信息发送至服务器,以使所述服务器根据所述语音信息和所述图像信息确定目标指令和回复语音信息;
接收模块,用于接收服务器发送的目标指令和回复语音信息,执行所述目标指令,并播放所述回复语音信息。
7.根据权利要求6所述的装置,其特征在于,还包括:
获取模块,用于在根据所述第一图像信息确定说话人没有打电话之前,获取麦克风的工作状态和扬声器的工作状态;
判断模块,用于若所述麦克风处于未被占用状态,和/或,所述扬声器处于未被占用状态,则根据所述第一图像信息判断说话人是否在打电话。
8.根据权利要求6所述的装置,其特征在于,所述说话人的数量大于或者等于两个,相应的,所述确定模块具体用于:
若根据所述第一图像信息和所述语音信息确定至少两个说话人之间未交谈,则根据所述图像信息获取车内除说话人外的其他人的目标时间范围内的语音信息,其中,所述目标时间范围的开始时间为说话人说话前预设时间,所述目标时间范围的终止时间为说话人说话结束后预设时间;
根据所述其他人的目标时间范围内的语音信息和说话人对应的语音信息确定说话人未和车内除说话人外的其他人交谈。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述处理器实现如权利要求1-5中任一所述的控制方法。
10.一种包含计算机程序的计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被一个或多个处理器执行时实现如权利要求1-5中任一所述的控制方法。
CN202110789096.4A 2021-07-13 2021-07-13 一种控制方法、装置、设备及存储介质 Active CN113539265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110789096.4A CN113539265B (zh) 2021-07-13 2021-07-13 一种控制方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110789096.4A CN113539265B (zh) 2021-07-13 2021-07-13 一种控制方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113539265A CN113539265A (zh) 2021-10-22
CN113539265B true CN113539265B (zh) 2022-09-16

Family

ID=78098806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110789096.4A Active CN113539265B (zh) 2021-07-13 2021-07-13 一种控制方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113539265B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410566A (zh) * 2022-03-10 2022-11-29 北京罗克维尔斯科技有限公司 一种车辆控制方法、装置、设备及存储介质
CN115171678A (zh) * 2022-06-01 2022-10-11 合众新能源汽车有限公司 语音识别方法、装置、电子设备、存储介质及产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017035768A1 (zh) * 2015-09-01 2017-03-09 涂悦 一种基于视觉唤醒的语音控制方法
CN106569773A (zh) * 2016-10-31 2017-04-19 努比亚技术有限公司 一种终端和语音交互的处理方法
CN109660744A (zh) * 2018-10-19 2019-04-19 深圳壹账通智能科技有限公司 基于大数据的智能双录方法、设备、存储介质及装置
CN110459217A (zh) * 2019-08-21 2019-11-15 中国第一汽车股份有限公司 一种车载问答方法、系统、车辆及存储介质
CN110660397A (zh) * 2018-06-12 2020-01-07 现代自动车株式会社 对话系统、车辆和用于控制车辆的方法
EP3726403A1 (en) * 2019-04-18 2020-10-21 BlackBerry Limited Methods and devices for delivering communications privately rather than via audible and/or visual output
CN112433770A (zh) * 2020-11-19 2021-03-02 北京华捷艾米科技有限公司 设备的唤醒方法及装置、电子设备、计算机存储介质
CN112634911A (zh) * 2020-12-21 2021-04-09 苏州思必驰信息科技有限公司 人机对话方法、电子设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160267911A1 (en) * 2015-03-13 2016-09-15 Magna Mirrors Of America, Inc. Vehicle voice acquisition system with microphone and optical sensor

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017035768A1 (zh) * 2015-09-01 2017-03-09 涂悦 一种基于视觉唤醒的语音控制方法
CN106569773A (zh) * 2016-10-31 2017-04-19 努比亚技术有限公司 一种终端和语音交互的处理方法
CN110660397A (zh) * 2018-06-12 2020-01-07 现代自动车株式会社 对话系统、车辆和用于控制车辆的方法
CN109660744A (zh) * 2018-10-19 2019-04-19 深圳壹账通智能科技有限公司 基于大数据的智能双录方法、设备、存储介质及装置
EP3726403A1 (en) * 2019-04-18 2020-10-21 BlackBerry Limited Methods and devices for delivering communications privately rather than via audible and/or visual output
CN110459217A (zh) * 2019-08-21 2019-11-15 中国第一汽车股份有限公司 一种车载问答方法、系统、车辆及存储介质
CN112433770A (zh) * 2020-11-19 2021-03-02 北京华捷艾米科技有限公司 设备的唤醒方法及装置、电子设备、计算机存储介质
CN112634911A (zh) * 2020-12-21 2021-04-09 苏州思必驰信息科技有限公司 人机对话方法、电子设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Active Speaker Detection using audio-visual sensor array;Jatin Kheradiya et al.;《2014 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT)》;IEEE;20151026;全文 *
双模态车载语音控制仿真系统的设计与实现;严乐贫等;《计算机与现代化》;中国知网;20100815(第8期);全文 *

Also Published As

Publication number Publication date
CN113539265A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN113539265B (zh) 一种控制方法、装置、设备及存储介质
US20050216271A1 (en) Speech dialogue system for controlling an electronic device
EP1879000A1 (en) Transmission of text messages by navigation systems
CN102308182A (zh) 用于个人导航装置的车基系统接口
CN106469556B (zh) 语音识别装置、具有语音识别装置的车辆、控制车辆方法
JP2009530666A (ja) 外部ユーザの自動音声認識、口述、録音および再生を提供する方法
CN113486760A (zh) 对象说话检测方法及装置、电子设备和存储介质
CN111343410A (zh) 一种静音提示方法、装置、电子设备及存储介质
CN109036398A (zh) 语音交互方法、装置、设备及存储介质
CN112509584A (zh) 声源位置确定方法、装置和电子设备
CN114724566A (zh) 语音处理方法、装置、存储介质及电子设备
US20160065709A1 (en) Manual bluetooth hands free transfer mode
CN112489661B (zh) 一种车载多屏幕的通话方法及装置
Angkititrakul et al. Getting start with UTDrive: driver-behavior modeling and assessment of distraction for in-vehicle speech systems.
CN109817214B (zh) 应用于车辆的交互方法和装置
WO2023273063A1 (zh) 乘员说话检测方法及装置、电子设备和存储介质
CN112242143B (zh) 一种语音交互方法、装置、终端设备及存储介质
EP4365733A1 (en) Management system, method and apparatus, and device and storage medium
WO2017181909A1 (zh) 交通工具控制方法、控制装置与控制系统
EP4369186A1 (en) Control method and apparatus, device, and storage medium
WO2023036230A1 (zh) 一种执行指令确定方法、装置、设备及存储介质
US8775163B1 (en) Selectable silent mode for real-time audio communication system
CN111724793A (zh) 一种车载视频通话方法与系统
Tchankue et al. Are mobile in-car communication systems feasible? a usability study
CN113791843A (zh) 一种执行方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant