CN117153160A - 语音信息的识别方法、装置、电子设备及存储介质 - Google Patents
语音信息的识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117153160A CN117153160A CN202311041528.9A CN202311041528A CN117153160A CN 117153160 A CN117153160 A CN 117153160A CN 202311041528 A CN202311041528 A CN 202311041528A CN 117153160 A CN117153160 A CN 117153160A
- Authority
- CN
- China
- Prior art keywords
- voice
- target
- information
- zone
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000001815 facial effect Effects 0.000 claims description 46
- 238000004590 computer program Methods 0.000 claims description 17
- 230000003993 interaction Effects 0.000 abstract description 18
- 230000008569 process Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/08—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/08—Interaction between the driver and the control system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Theoretical Computer Science (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请涉及语音交互技术领域,提供了一种语音信息的识别方法、装置、电子设备及存储介质。该方法包括:在接收到针对语音助手的语音唤醒指令的情况下,根据语音唤醒指令确定第一目标人员在车辆内的第一位置信息,第一目标人员为发出语音唤醒指令的人员;获取车辆内的图像信息,并根据图像信息确定第一目标人员在车辆内的第二位置信息;根据第一位置信息和第二位置信息确定第一目标人员在车辆内的第一目标音区;根据第一目标音区,控制语音助手仅接收并识别第一目标音区内的语音信息。本申请实施例解决了现有技术中存在的音区识别不准确导致语音交互不顺畅的问题。
Description
技术领域
本申请涉及语音交互技术领域,尤其涉及一种语音信息的识别方法、装置、电子设备及存储介质。
背景技术
智能座舱语音交互主要分为唤醒、聆听、理解、播报四个部分。在唤醒车载语音助手之时,同时也需要对声源进行定位。目前市面上的音区识别技术主要是通过安装在每个座位旁的独立的拾音麦克风,通过每个拾音麦克风接收到的声音的声强大小进行比较,从而确定发声对象的位置。但是这种通过声音的大小判断发声对象位置的方式在一些场景下是无法适用的。例如,当后排左位置上的乘客转向右方发出唤醒词唤醒语音助手时,车机可能会判断为后排右乘客对语音助手进行唤醒,从而选择不接受后排左乘客下达的后续指令,导致后排音区识别错误。此外,当车内外环境的噪音较大时,同时乘客之间的讨论和回声会影响语音交互的拾音质量,影响后排音区识别的准确性。
因此,现有技术中存在音区识别不准确导致语音交互不顺畅的问题。
发明内容
有鉴于此,本申请实施例提供了一种语音信息的识别方法、装置、电子设备及存储介质,以解决现有技术中存在的音区识别不准确导致语音交互不顺畅的问题。
本申请实施例的第一方面,提供了一种语音信息的识别方法,包括:
在接收到针对语音助手的语音唤醒指令的情况下,根据所述语音唤醒指令确定第一目标人员在车辆内的第一位置信息,所述第一目标人员为发出所述语音唤醒指令的人员;
获取所述车辆内的图像信息,并根据所述图像信息确定所述第一目标人员在所述车辆内的第二位置信息;
根据所述第一位置信息和所述第二位置信息确定所述第一目标人员在所述车辆内的第一目标音区;
根据所述第一目标音区,控制所述语音助手仅接收并识别所述第一目标音区内的语音信息。
本申请实施例的第二方面,提供了一种语音信息的识别装置,包括:
第一确定模块,用于在接收到针对语音助手的语音唤醒指令的情况下,根据所述语音唤醒指令确定第一目标人员在车辆内的第一位置信息,所述第一目标人员为发出所述语音唤醒指令的人员;
第二确定模块,用于获取所述车辆内的图像信息,并根据所述图像信息确定所述第一目标人员在所述车辆内的第二位置信息;
第三确定模块,用于根据所述第一位置信息和所述第二位置信息确定所述第一目标人员在所述车辆内的第一目标音区;
语音识别模块,用于根据所述第一目标音区,控制所述语音助手仅接收并识别所述第一目标音区内的语音信息。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种可读存储介质,该可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:
本实施例在接收到针对语音助手的语音唤醒指令的情况下,根据语音唤醒指令确定发出语音唤醒指令的第一目标人员在车辆内的第一位置信息,并根据图像信息确定第一目标人员在车辆内的第二位置信息,根据第一位置信息和第二位置信息确定第一目标人员在车辆内的第一目标音区,然后控制语音助手仅接收并识别第一目标音区内的语音信息;实现了结合声音维度和视觉维度共同确定第一目标人员在车辆内的第一目标音区,提高了所确定的第一目标音区的准确性,减少了目标音区识别错误情景的出现,此外控制语音助手仅接收并识别第一目标音区内的语音信息,避免了其他音区出现的声音对第一目标音区内语音识别的干扰,保证了发出语音唤醒指令的第一目标人员后续发出的一系列指令能够被语音助手准确接收识别,提高了车辆内人员进行语音交互时的顺畅性,解决了现有技术中存在的音区识别不准确导致语音交互不顺畅的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音信息的识别方法的流程示意图;
图2是本申请实施例提供的又一种语音信息的识别方法的流程示意图;
图3是本申请实施例提供的一种语音信息的识别装置的结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
此外,需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面将结合附图详细说明根据本申请实施例的一种语音信息的识别方法和装置。
图1是本申请实施例提供的一种语音信息的识别方法的流程示意图。如图1所示,该语音信息的识别方法包括:
步骤101,在接收到针对语音助手的语音唤醒指令的情况下,根据所述语音唤醒指令确定第一目标人员在车辆内的第一位置信息。
第一目标人员为发出语音唤醒指令的人员。
具体地,语音唤醒指令一般都是预先设置好的语音指令,例如“你好,小助”,或“嗨,小助”等。
车辆内的人员发出声音时,车辆内的拾音麦克风能够接收到该声音信息并计算得到发出声音的人员在车辆内的位置。在本实施例中,若检测到用户发出语音唤醒指令,则车辆可以接收该语音唤醒指令,并根据该语音唤醒指令,确定发出该语音唤醒指令的第一目标人员在车辆内的第一位置信息。
需要说明的是,由于车辆的前排座位仅包括主驾驶位和副驾驶位,仅通过声音信息识别音区不太容易出现识别错误的情况,因此本实施例可以在确定车辆的后排座位上有人员的情况下,再执行本实施例所述过程。
本实施例通过声音信息确定发出语音唤醒指令的第一目标人员在车辆内的第一位置信息,实现了从声音维度上识别第一目标人员的位置。
步骤102,获取车辆内的图像信息,并根据图像信息确定第一目标人员在所述车辆内的第二位置信息。
具体的,本实施例可以在与车辆前排座椅同一平面的车顶处安排一个乘客监测系统(Occupancy Monitoring System,OMS)摄像头,并通过OMS摄像头获取车辆内的图像信息。一般情况下,在车辆的前排都设置有OMS摄像头,但位于车辆前排的OMS摄像头有可能被前排座椅或者位于副驾驶的乘客和主驾驶的驾驶员遮挡,所以通过在车辆前排座椅同一平面的车顶处安排一个OMS摄像头,保证了位于后排的乘客的图像信息都能被车辆获取,使得能够根据图像信息确定各人员的位置信息。当然需要说明的是,本实施例并不具体限定摄像头的安装位置,只需所拍摄到的图像信息包括车辆内全部人员的信息即可。
需要说明的是,车辆内的拾音麦克风监听到有乘客发出语音唤醒指令,车辆会记录下发出语音唤醒指令的时间段,且由于车辆一直在通过OMS摄像头检测乘客的行为,便可调取第一目标人员发出语音唤醒指令的时间段所对应的图像数据也就是图像信息,图像信息包括第一目标人员发出语音唤醒指令时车内全部人员的人脸图像和位置信息,从而使得能够根据图像信息确定第一目标人员在车辆内的第二位置信息。
通过获取车辆内的图像信息,实现了从视觉维度确定发出语音唤醒指令的第一目标人员的位置。
步骤103,根据第一位置信息和第二位置信息确定第一目标人员在车辆内的第一目标音区。
具体的,音区是指车辆内的预设声源区域,车内声源定位的目标即准确区分音区。例如,在一个示例中,可以将车辆内的音区按照车辆的中轴线划分为4个,分别为驾驶位所在区域、副驾驶位所在区域、车辆后排左半部分座位所在区域和车辆后排右半部分座位所在区域。再例如,在一个示例中,若车辆内有三排座椅,则可以将车辆内的音区按照车辆的中轴线划分为6个,在此不再对每个音区一一说明。
本实施例根据第一位置信息和第二位置信息确定第一目标人员的第一目标音区,由于第一位置信息是从声音维度上确定第一目标人员的位置,第二位置信息是从视觉维度上确定第一目标人员的位置,因此可以结合第一位置信息和第二位置信息来共同确定第一目标人员在车辆内的第一目标音区,并且相较于单从声音维度上确定第一目标人员的位置,提高了所确定的第一目标音区的准确性。
步骤104,根据第一目标音区,控制语音助手仅接收并识别第一目标音区内的语音信息。
具体的,在确定第一目标音区后,可以控制语音助手仅接收第一目标音区内的语音信息并进行识别,这样避免了其他音区出现的声音对第一目标音区内语音识别的干扰,保证了发出语音唤醒指令的第一目标人员后续发出的一系列指令能够被语音助手准确接收识别。
这样,本实施例实现了结合声音维度和视觉维度共同确定第一目标人员在车辆内的第一目标音区,提高了第一目标音区的准确性,减少了目标音区识别错误情景的出现,此外控制语音助手仅接收并识别第一目标音区内的语音信息,避免了其他音区出现的声音对第一目标音区内语音识别的干扰,保证了发出语音唤醒指令的第一目标人员后续发出的一系列指令能够被语音助手准确接收识别,提高了车辆内人员进行语音交互时的顺畅性,解决了现有技术中存在的音区识别不准确导致语音交互不顺畅的问题,解决了现有技术中存在的音区识别不准确导致语音交互不顺畅的问题。
在一些实施例中,图像信息包括车辆内各人员的人脸图像和各人员的乘坐座位信息;所述根据所述图像信息确定所述第一目标人员在所述车辆内的第二位置信息,包括:
根据所述各人员的人脸图像,获取所述各人员的面部特征,所述面部特征包括脸部特征和嘴部特征;根据所述各人员的面部特征和预先存储的人员在输出所述语音唤醒指令时的预设面部特征,确定所述第一目标人员;根据所述各人员的乘坐座位信息,确定所述第一目标人员在所述车辆内的第二位置信息。
具体的,人在讲话时会调动脸部的肌肉,发出不同词语时脸部特征和嘴型是不同的,例如,一个人说“小度”和说“小安”时脸部特征和嘴部特征是有明显差别的。本实施例可以预先在预设数据库中存储人员在输出语音唤醒指令时的预设面部特征,该预设面部特征包括脸部特征和嘴部特征,来作为判断是否有人员在发出语音唤醒指令。
需要说明的是,语音唤醒指令可以为语音助手默认的唤醒词,也可以为用户自定义的唤醒词,本实施例对此并不进行限定。
此外,所获取到的图像信息包括车辆内各人员的人脸图像,此时能够分析人脸图像得到各人员对应的面部特征,将各人员对应的面部特征和预先存储的人员在输出所述语音唤醒指令时的预设面部特征进行对比,来确定是哪个人员为发出语音唤醒指令的第一目标人员。
还需要说明的是,为了保证第一目标人员的确定准确性,预设面部特征可以是同一人员在输出语音唤醒指令时的面部特征,即将各人员对应的面部特征和预先存储的该人员在输出语音唤醒指令时的预设面部特征进行对比,来确定是哪个人员为发出语音唤醒指令的第一目标人员。
另外,图像信息中还包括各人员的乘坐位置信息,这使得能够通过各人员的乘坐位置信息,找到第一目标人员的乘坐位置,从而确定第一目标人员在车辆内的第二位置信息。
这样通过人员的面部特征来确定第一目标人员,保证了第一目标人员的识别准确性。
在一些实施例中,根据所述各人员的面部特征和预先存储的人员在输出所述语音唤醒指令时的预设面部特征,确定所述第一目标人员时,可以确定所述各人员的面部特征与所述预设面部特征之间的相似度;在存在至少一个目标相似度大于预设值的情况下,将每个所述目标相似度所对应的人员确定为所述第一目标人员。
具体的,在计算各人员的面部特征与预设面部特征之间的相似度时,可以通过余弦距离或欧式距离等方式进行计算。
此外,预设值可以根据对音区的精准度要求进行确定,例如若对音区的精准度要求较高,则预设值的取值可以设置较大些,例如预设值可以为95%;若对音区的精准度要求不是很高,则预设值的取值可以设置较小些,例如预设值可以设置为85%。
若所计算的相似度中只有一个相似度大于设置的预设值,则可以将该相似度对应的人员确定为第一目标人员;若所计算的相似度中有至少两个相似度大于设置的预设值,则可以将该至少两个相似度对应的人员均确定为第一目标人员。
这样,通过计算各人员的面部特征与预设面部特征之间的相似度,来确定第一目标人员,实现了根据对音区的精准度要求来确定第一目标人员,即确定第一目标音区,满足了用户对语音交互的需求。
此外,在一些实施例中,根据所述第一位置信息和所述第二位置信息确定所述第一目标人员在所述车辆内的第一目标音区,包括:
若所述第一位置信息与所述第二位置信息相同,则将所述第一位置信息或所述第二位置信息所对应的音区确定为所述第一目标音区;
若所述第一位置信息与所述第二位置信息不同,则将所述第二位置信息所对应的音区确定为所述第一目标音区。
具体的,若第一位置信息和第二位置信息相同,例如通过声音维度确定的第一位置信息指示第一目标人员位于车辆的后排左侧位置,通过视觉维度确定的第二位置信息同样指示第一目标人员位于车辆的后排左侧位置,则可以将第一位置信息或第二位置信息所对应的音区确定为第一目标音区。
此外,若第一位置信息和第二位置信息不同,例如通过声音维度确定的第一位置信息指示第一目标人员位于车辆的后排左侧位置,通过视觉维度确定的第二位置信息指示第一目标人员位于车辆的后排右侧位置,则认为通过声音维度确定的位置不准确,此时以视觉维度确定的位置为准,即将第二位置信息所对应的音区为第一目标音区。
这样,通过区分第一位置信息与第二位置信息是否相同,来最终确定第一目标人员所在的第一目标音区,保证了第一目标音区的准确性。
另外,由于车辆内与语音助手交互的人员可能会发生改变,因此本实施例还需要实时检测与语音助手交互的其他人员。具体的,在一些实施例中,根据所述第一目标音区,控制所述语音助手仅接收并识别所述第一目标音区内的语音信息之后,还可以执行下述任一项或多项:
其一,获取所述车辆内的实时语音,并根据所述实时语音检测是否接收到针对所述语音助手的预设指令词;若检测接收到针对所述语音助手的预设指令词,则确定发出所述预设指令词的第二目标人员所在的第二目标音区;控制所述语音助手接收并识别所述第二目标音区内的语音信息。
具体的,针对语音助手的预设指令词可以包括“自动打开空调”、“自动打开车窗”等。
确定发出预设指令词的第二目标人员所在的第二目标音区时,可以根据预设指令词确定第二目标人员在车辆内的第三位置信息,并根据图像信息确定第二目标人员在车辆内的第四位置信息,然后根据第三位置信息和第四位置信息共同确定第二目标人员在车辆内的第二目标音区。
这样,本实施例在控制语音助手仅接收并识别第一目标音区内的语音信息之后,还可以实时监测并获取车辆内的实时语音,若检测到实时语音中包括针对语音助手的预设指令词,则确定发出该预设指令词的第二目标人员所在的第二目标音区,并控制语音助手接收并识别第二目标音区内的语音信息,使得车辆内其他人员能够随时加入与语音助手的语音交互中,避免了其他人员有与语音助手的交互需求而语音助手接收不到语音信息的情况。
其二,对所述图像信息进行更新,得到实时的图像信息;在根据所述实时的图像信息确定所述车辆内存在第三目标人员输出预设指令词的情况下,确定所述第三目标人员所在的第三目标音区;控制所述语音助手接收并识别所述第三目标音区内的语音信息。
具体的,本实施例可以实时对所获取的图像信息进行更新,得到实时的图像信息,即实时的图像信息中包括当前时刻的人员的人脸图像。
根据实时的图像信息确定车辆内存在第三目标人员输出预设指令词时,可以将当前时刻的人脸图像对应的面部特征与预先存储的人员在输出预设指令词时的预设面部特征进行对比,计算当前时刻的人脸图像对应的面部特征与输出预设指令词时的预设面部特征的相似度,从而来确定第三目标人员。
在确定第三目标人员后,可以根据图像信息中包括的各人员的乘坐位置信息来确定第三目标人员所在的第三目标音区,并控制语音助手接收第三目标音区内的语音信息并进行识别,实现了其他人员能够随时与语音助手进行语音交互。
这样,本实施例在控制语音助手仅接收并识别第一目标音区内的语音信息之后,通过根据实时的图像信息确定车辆内存在第三目标人员输出预设指令词时,确定第三目标人员所在的第三目标音区,控制语音助手接收并识别第三目标音区内的语音信息,使得车辆内其他人员能够随时加入与语音助手的语音交互中,避免了其他人员有与语音助手的交互需求而语音助手接收不到语音信息的情况。
其三,若检测到在预设时段内未接收到所述第一目标音区内的语音信息,则控制所述语音助手不再接收所述第一目标音区内的语音信息。
具体的,预设时段可以根据实际需求进行设定,例如可以设定为3分钟、5分钟等。
如果检测到预设时段内未接收到第一目标音区内的语音信息,即未接收到第一目标人员的控制指令,则可以控制语音助手不再接收第一目标音区内的语音信息,从而避免了语音助手一直能够接收第一目标音区的语音信息导致对其他音区的语音识别造成影响的问题。
下面通过图2对本申请的一个实施例进行说明。如图2所示,语音信息的识别过程包括:
首先通过摄像头识别后排人员。具体的,车内OMS摄像头调取车内实时视频图像信息,识别车辆后排人员,输出数量和位置并保存此时的识别结果。OMS摄像头识别后排人员输出有三种结果,结果一为后排仅有一人,结果二为后排左右均有人;结果三为后排无人。
若后排只有一人,则监听是否接收到针对语音助手的语音唤醒指令;若接收到语音唤醒指令,则确定发出语音唤醒指令的目标人员的位置,即通过麦克风输出位置结果;记录接收到语音唤醒指令的时间段,并调用此时间段范围内的OMS摄像头拍摄到的图像信息,然后根据图像信息确定的位置结果来确定目标人员所在的目标音区。
若后排左右均有人员,则通过麦克风监听针对语音助手的语音唤醒指令;若接收到语音唤醒指令,则通过麦克风输出位置结果;然后通过OMS摄像头拍摄图像信息;检测麦克风输出位置结果与图像信息确定的位置结果是否一致,若不一致,则以图像信息确定的位置结果为准;若一致,则根据相同的位置结果来确定目标人员所在的目标音区。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图3是本申请实施例提供的一种语音信息的识别装置的示意图。如图3所示,该车辆后排音区识别装置包括:
第一确定模块301,用于在接收到针对语音助手的语音唤醒指令的情况下,根据所述语音唤醒指令确定第一目标人员在车辆内的第一位置信息,所述第一目标人员为发出所述语音唤醒指令的人员;
第二确定模块302,用于获取所述车辆内的图像信息,并根据所述图像信息确定所述第一目标人员在所述车辆内的第二位置信息;
第三确定模块303,用于根据所述第一位置信息和所述第二位置信息确定所述第一目标人员在所述车辆内的第一目标音区;
语音识别模块304,用于根据所述第一目标音区,控制所述语音助手仅接收并识别所述第一目标音区内的语音信息。
在一些实施例中,所述图像信息包括所述车辆内各人员的人脸图像和所述各人员的乘坐座位信息;
所述第二确定模块具体用于,根据所述各人员的人脸图像,获取所述各人员的面部特征,所述面部特征包括脸部特征和嘴部特征;根据所述各人员的面部特征和预先存储的人员在输出所述语音唤醒指令时的预设面部特征,确定所述第一目标人员;根据所述各人员的乘坐座位信息,确定所述第一目标人员在所述车辆内的第二位置信息。
在一些实施例中,所述第二确定模块具体用于,确定所述各人员的面部特征与所述预设面部特征之间的相似度;在存在至少一个目标相似度大于预设值的情况下,将每个所述目标相似度所对应的人员确定为所述第一目标人员。
在一些实施例中,第三确定模块具体用于,若所述第一位置信息与所述第二位置信息相同,则将所述第一位置信息或所述第二位置信息所对应的音区确定为所述第一目标音区;若所述第一位置信息与所述第二位置信息不同,则将所述第二位置信息所对应的音区确定为所述第一目标音区。
在一些实施例中,语音识别模块还用于,获取所述车辆内的实时语音,并根据所述实时语音检测是否接收到针对所述语音助手的预设指令词;若检测接收到针对所述语音助手的预设指令词,则确定发出所述预设指令词的第二目标人员所在的第二目标音区;控制所述语音助手接收并识别所述第二目标音区内的语音信息。
在一些实施例中,语音识别模块还用于,对所述图像信息进行更新,得到实时的图像信息;在根据所述实时的图像信息确定所述车辆内存在第三目标人员输出预设指令词的情况下,确定所述第三目标人员所在的第三目标音区;控制所述语音助手接收并识别所述第三目标音区内的语音信息。
在一些实施例中,语音识别模块还用于,若检测到在预设时段内未接收到所述第一目标音区内的语音信息,则控制所述语音助手不再接收所述第一目标音区内的语音信息。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图4是本申请实施例提供的电子设备4的示意图。如图4所示,该实施例的电子设备4包括:处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器402可以是电子设备4的内部存储单元,例如,电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备,例如,电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其他程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种语音信息的识别方法,其特征在于,包括:
在接收到针对语音助手的语音唤醒指令的情况下,根据所述语音唤醒指令确定第一目标人员在车辆内的第一位置信息,所述第一目标人员为发出所述语音唤醒指令的人员;
获取所述车辆内的图像信息,并根据所述图像信息确定所述第一目标人员在所述车辆内的第二位置信息;
根据所述第一位置信息和所述第二位置信息确定所述第一目标人员在所述车辆内的第一目标音区;
根据所述第一目标音区,控制所述语音助手仅接收并识别所述第一目标音区内的语音信息。
2.根据权利要求1所述的语音信息的识别方法,其特征在于,所述图像信息包括所述车辆内各人员的人脸图像和所述各人员的乘坐座位信息;
所述根据所述图像信息确定所述第一目标人员在所述车辆内的第二位置信息,包括:
根据所述各人员的人脸图像,获取所述各人员的面部特征,所述面部特征包括脸部特征和嘴部特征;
根据所述各人员的面部特征和预先存储的人员在输出所述语音唤醒指令时的预设面部特征,确定所述第一目标人员;
根据所述各人员的乘坐座位信息,确定所述第一目标人员在所述车辆内的第二位置信息。
3.根据权利要求2所述的语音信息的识别方法,其特征在于,所述根据所述各人员的面部特征和预先存储的人员在输出所述语音唤醒指令时的预设面部特征,确定所述第一目标人员,包括:
确定所述各人员的面部特征与所述预设面部特征之间的相似度;
在存在至少一个目标相似度大于预设值的情况下,将每个所述目标相似度所对应的人员确定为所述第一目标人员。
4.根据权利要求1所述的语音信息的识别方法,其特征在于,所述根据所述第一位置信息和所述第二位置信息确定所述第一目标人员在所述车辆内的第一目标音区,包括:
若所述第一位置信息与所述第二位置信息相同,则将所述第一位置信息或所述第二位置信息所对应的音区确定为所述第一目标音区;
若所述第一位置信息与所述第二位置信息不同,则将所述第二位置信息所对应的音区确定为所述第一目标音区。
5.根据权利要求1所述的语音信息的识别方法,其特征在于,所述根据所述第一目标音区,控制所述语音助手仅接收并识别所述第一目标音区内的语音信息之后,还包括:
获取所述车辆内的实时语音,并根据所述实时语音检测是否接收到针对所述语音助手的预设指令词;
若检测接收到针对所述语音助手的预设指令词,则确定发出所述预设指令词的第二目标人员所在的第二目标音区;
控制所述语音助手接收并识别所述第二目标音区内的语音信息。
6.根据权利要求1所述的语音信息的识别方法,其特征在于,所述根据所述第一目标音区,控制所述语音助手仅接收并识别所述第一目标音区内的语音信息之后,还包括:
对所述图像信息进行更新,得到实时的图像信息;
在根据所述实时的图像信息确定所述车辆内存在第三目标人员输出预设指令词的情况下,确定所述第三目标人员所在的第三目标音区;
控制所述语音助手接收并识别所述第三目标音区内的语音信息。
7.根据权利要求1所述的语音信息的识别方法,其特征在于,所述根据所述第一目标音区,控制所述语音助手仅接收并识别所述第一目标音区内的语音信息之后,还包括:
若检测到在预设时段内未接收到所述第一目标音区内的语音信息,则控制所述语音助手不再接收所述第一目标音区内的语音信息。
8.一种语音信息的识别装置,其特征在于,包括:
第一确定模块,用于在接收到针对语音助手的语音唤醒指令的情况下,根据所述语音唤醒指令确定第一目标人员在车辆内的第一位置信息,所述第一目标人员为发出所述语音唤醒指令的人员;
第二确定模块,用于获取所述车辆内的图像信息,并根据所述图像信息确定所述第一目标人员在所述车辆内的第二位置信息;
第三确定模块,用于根据所述第一位置信息和所述第二位置信息确定所述第一目标人员在所述车辆内的第一目标音区;
语音识别模块,用于根据所述第一目标音区,控制所述语音助手仅接收并识别所述第一目标音区内的语音信息。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311041528.9A CN117153160A (zh) | 2023-08-17 | 2023-08-17 | 语音信息的识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311041528.9A CN117153160A (zh) | 2023-08-17 | 2023-08-17 | 语音信息的识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117153160A true CN117153160A (zh) | 2023-12-01 |
Family
ID=88899837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311041528.9A Pending CN117153160A (zh) | 2023-08-17 | 2023-08-17 | 语音信息的识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117153160A (zh) |
-
2023
- 2023-08-17 CN CN202311041528.9A patent/CN117153160A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047487B (zh) | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 | |
US10311704B1 (en) | Passenger-related item loss mitigation | |
GB2560598A (en) | Query endpointing based on lip detection | |
US20220139389A1 (en) | Speech Interaction Method and Apparatus, Computer Readable Storage Medium and Electronic Device | |
US20210280172A1 (en) | Voice Response Method and Device, and Smart Device | |
CN108725357A (zh) | 基于人脸识别的参数控制方法、系统与云端服务器 | |
CN112622917A (zh) | 用于认证交通工具的乘员的系统和方法 | |
CN110082726B (zh) | 声源定位方法及装置、定位设备及存储介质 | |
CN110673096A (zh) | 语音定位方法和装置、计算机可读存储介质、电子设备 | |
CN109584871B (zh) | 一种车辆中语音指令的用户身份识别方法、装置 | |
CN110619897A (zh) | 一种会议纪要生成的方法及车载录音系统 | |
CN110784523B (zh) | 一种目标物信息的推送方法及装置 | |
CN114598963A (zh) | 语音处理的方法、装置、计算机可读存储介质及电子设备 | |
JP2020166524A (ja) | 監視システム、監視方法およびコンピュータプログラム | |
CN114125655A (zh) | 一种扬声器控制方法、装置、电子设备及存储介质 | |
CN113407758A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN117153160A (zh) | 语音信息的识别方法、装置、电子设备及存储介质 | |
CN111477226A (zh) | 控制方法、智能设备和存储介质 | |
CN112996194A (zh) | 一种灯光控制方法及装置 | |
JPWO2020003764A1 (ja) | 画像処理装置、移動装置、および方法、並びにプログラム | |
US20150070267A1 (en) | Misrecognition reducing motion recognition apparatus and method | |
CN113535308A (zh) | 语言调整方法、装置、电子设备及介质 | |
WO2021129712A1 (zh) | 一种车辆验证方法和系统 | |
CN111422200B (zh) | 调节车辆设备的方法、装置及电子设备 | |
US20230154211A1 (en) | Image processing system and image processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |