CN113450795A - 一种具有语音唤醒功能的图像识别方法及系统 - Google Patents
一种具有语音唤醒功能的图像识别方法及系统 Download PDFInfo
- Publication number
- CN113450795A CN113450795A CN202110723183.XA CN202110723183A CN113450795A CN 113450795 A CN113450795 A CN 113450795A CN 202110723183 A CN202110723183 A CN 202110723183A CN 113450795 A CN113450795 A CN 113450795A
- Authority
- CN
- China
- Prior art keywords
- information
- voice
- image
- recognition
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000006870 function Effects 0.000 claims description 37
- 230000011218 segmentation Effects 0.000 claims description 31
- 230000008676 import Effects 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013178 mathematical model Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种具有语音唤醒功能的图像识别方法,包括以下步骤:采集用户的操作图像信息;将操作图像信息导入到预置的图像识别模型中,生成初始图像识别信息;根据操作图像信息中的嘴型信息生成并发送语音唤醒指令,启动语音采集功能;获取用户语音信息,并采用预置的语音识别模型对用户语音信息进行识别,生成语音识别信息;根据语音识别信息和初始图像识别信息生成并根据目标图像采集指令采集目标图像信息;将目标图像信息导入至预置的图像识别模型中,生成目标图像识别信息。本发明还公开了一种具有语音唤醒功能的图像识别系统。本发明可有效提高图像识别的准确性。
Description
技术领域
本发明涉及图像识别技术领域,具体而言,涉及一种具有语音唤醒功能的图像识别方法及系统。
背景技术
近年来,随着人工智能的快速发展,图像识别功能已经在多个场景中应用,如二维码、人物识别、物体识别、拍题等。图像识别结合语音功能在智能电器领域的应用也已经非常广泛。目前,当多个用户对着空调发布语音指令时,智能空调对用户语音指令的接收和识别的准确度将降低,很可能会导致不能识别或者识别错误的现象出现,同时由于识别场景内容的多样性,现有技术中进行图像识别的准确性也不高,进而导致电器控制的效果不好。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种具有语音唤醒功能的图像识别方法及系统,可有效提高图像识别的准确性。
本发明的实施例是这样实现的:
第一方面,本发明实施例提供一种具有语音唤醒功能的图像识别方法,包括以下步骤:
采集用户的操作图像信息;
将操作图像信息导入到预置的图像识别模型中,生成初始图像识别信息;
根据操作图像信息中的嘴型信息生成并发送语音唤醒指令,启动语音采集功能;
获取用户语音信息,并采用预置的语音识别模型对用户语音信息进行识别,生成语音识别信息;
根据语音识别信息和初始图像识别信息生成并根据目标图像采集指令采集目标图像信息;
将目标图像信息导入至预置的图像识别模型中,生成目标图像识别信息。
为了提高图像识别的准确性,进而对智能电器进行精准控制,结合语音识别技术对用户的操作进行精准识别。首先,当用户对智能电器进行操控做成相应的操作动作后,采用摄像头采集用户的操作图像信息,然后将操作图像信息导入到预置的图像识别模型中进行图像识别分析,得到一个初始图像识别信息;上述图像识别模型是指通过历史数据训练得到的可以对图像进行识别的数学模型;上述初始图像识别信息包括用户操作内容、操作电器类型、操作场景等信息。同时,用户操作时会发出语音信息,根据操作图像信息中的嘴型信息生成并发送语音唤醒指令给麦克风或者其他语音采集设备,启动其语音采集功能,对用户语音进行采集;上述嘴型信息包括张嘴和闭嘴动作信息。获取到用户语音信息后,采用预置的语音识别模型对用户语音信息进行识别,识别得到用户的语音内容,生成语音识别信息,该语音识别信息包括控制电器类型、控制内容、音色等信息。根据语音识别信息和初始图像识别信息确定一个更为精确的目标图像采集需求,生成目标图像采集指令,控制摄像头采集目标图像信息,然后将采集到的目标图像信息导入至预置的图像识别模型中进行图像识别,生成目标图像识别信息,该目标图像识别信息包括目标电器、操作场景、操作内容。
本方法对操作图像进行精准识别,结合语音和图像识别双重识别技术,提高对目标图像的采集精准性,对目标图像进行精准识别,进而提高对智能电器的控制精确性。
基于第一方面,在本发明的一些实施例中,上述将操作图像信息导入到预置的图像识别模型中,生成初始图像识别信息的方法包括以下步骤:
将操作图像信息导入到预置的图像识别模型中;
通过图像识别模型对操作图像信息进行分割,以得到多个分割图像,并对各个分割图像进行图像识别,生成多个分割识别结果;
将各个分割识别结果进行整合,生成初始图像识别信息。
基于第一方面,在本发明的一些实施例中,上述采用预置的语音识别模型对用户语音信息进行识别,生成语音识别信息的方法包括以下步骤:
采用预置的语音识别模型对用户语音信息中的音色进行识别,生成用户音色识别结果;
采用预置的语音识别模型对用户语音信息中的操作内容进行识别,生成内容识别结果;
根据用户音色识别结果和内容识别结果生成语音识别信息。
基于第一方面,在本发明的一些实施例中,该具有语音唤醒功能的图像识别方法还包括以下步骤:
根据用户音色识别结果和预设的目标用户音色数据判断是否属于目标用户,如果是,则采用预置的语音识别模型对用户语音信息中的操作内容进行识别,生成内容识别结果;如果否,则生成并发送提示信息。
第二方面,本发明实施例提供一种具有语音唤醒功能的图像识别系统,包括图像采集模块、初始识别模块、语音启动模块、语音识别模块、目标采集模块以及目标识别模块,其中:
图像采集模块,用于采集用户的操作图像信息;
初始识别模块,用于将操作图像信息导入到预置的图像识别模型中,生成初始图像识别信息;
语音启动模块,用于根据操作图像信息中的嘴型信息生成并发送语音唤醒指令,启动语音采集功能;
语音识别模块,用于获取用户语音信息,并采用预置的语音识别模型对用户语音信息进行识别,生成语音识别信息;
目标采集模块,用于根据语音识别信息和初始图像识别信息生成并根据目标图像采集指令采集目标图像信息;
目标识别模块,用于将目标图像信息导入至预置的图像识别模型中,生成目标图像识别信息。
为了提高图像识别的准确性,进而对智能电器进行精准控制,结合语音识别技术对用户的操作进行精准识别。首先,当用户对智能电器进行操控做成相应的操作动作后,图像采集模块采用摄像头采集用户的操作图像信息,然后初始识别模块将操作图像信息导入到预置的图像识别模型中进行图像识别分析,得到一个初始图像识别信息;上述图像识别模型是指通过历史数据训练得到的可以对图像进行识别的数学模型;上述初始图像识别信息包括用户操作内容、操作电器类型、操作场景等信息。同时,用户操作时会发出语音信息,语音启动模块根据操作图像信息中的嘴型信息生成并发送语音唤醒指令给麦克风或者其他语音采集设备,启动其语音采集功能,对用户语音进行采集;上述嘴型信息包括张嘴和闭嘴动作信息。语音识别模块获取到用户语音信息后,采用预置的语音识别模型对用户语音信息进行识别,识别得到用户的语音内容,生成语音识别信息,该语音识别信息包括控制电器类型、控制内容、音色等信息。目标采集模块根据语音识别信息和初始图像识别信息确定一个更为精确的目标图像采集需求,生成目标图像采集指令,控制摄像头采集目标图像信息,然后目标识别模块将采集到的目标图像信息导入至预置的图像识别模型中进行图像识别,生成目标图像识别信息,该目标图像识别信息包括目标电器、操作场景、操作内容。
本系统对操作图像进行精准识别,结合语音和图像识别双重识别技术,提高对目标图像的采集精准性,对目标图像进行精准识别,进而提高对智能电器的控制精确性。
基于第二方面,在本发明的一些实施例中,上述初始识别模块包括导入子模块、分割子模块以及整合子模块,其中:
导入子模块,用于将操作图像信息导入到预置的图像识别模型中;
分割子模块,用于通过图像识别模型对操作图像信息进行分割,以得到多个分割图像,并对各个分割图像进行图像识别,生成多个分割识别结果;
整合子模块,用于将各个分割识别结果进行整合,生成初始图像识别信息。
基于第二方面,在本发明的一些实施例中,上述语音识别模块包括音色识别子模块、内容识别子模块以及识别信息子模块,其中:
音色识别子模块,用于采用预置的语音识别模型对用户语音信息中的音色进行识别,生成用户音色识别结果;
内容识别子模块,用于采用预置的语音识别模型对用户语音信息中的操作内容进行识别,生成内容识别结果;
识别信息子模块,用于根据用户音色识别结果和内容识别结果生成语音识别信息。
基于第二方面,在本发明的一些实施例中,该具有语音唤醒功能的图像识别系统还包括判断模块,用于根据用户音色识别结果和预设的目标用户音色数据判断是否属于目标用户,如果是,则采用预置的语音识别模型对用户语音信息中的操作内容进行识别,生成内容识别结果;如果否,则生成并发送提示信息。
第三方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
本发明实施例至少具有如下优点或有益效果:
本发明实施例提供一种具有语音唤醒功能的图像识别方法及系统,为了提高图像识别的准确性,进而对智能电器进行精准控制,结合语音识别技术对用户的操作进行精准识别。根据语音识别信息和初始图像识别信息确定一个更为精确的目标图像采集需求,生成目标图像采集指令,控制摄像头采集目标图像信息,然后将采集到的目标图像信息导入至预置的图像识别模型中进行图像识别,生成目标图像识别信息,该目标图像识别信息包括目标电器、操作场景、操作内容。本发明对操作图像进行精准识别,结合语音和图像识别双重识别技术,提高对目标图像的采集精准性,对目标图像进行精准识别,进而提高对智能电器的控制精确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例一种具有语音唤醒功能的图像识别方法的流程图;
图2为本发明实施例一种具有语音唤醒功能的图像识别系统的原理框图;
图3为本发明实施例提供的一种电子设备的结构框图。
图标:100、图像采集模块;200、初始识别模块;210、导入子模块;220、分割子模块;230、整合子模块;300、语音启动模块;400、语音识别模块;410、音色识别子模块;420、内容识别子模块;430、识别信息子模块;500、目标采集模块;600、目标识别模块;700、判断模块;101、存储器;102、处理器;103、通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
实施例
如图1所示,第一方面,本发明实施例提供一种具有语音唤醒功能的图像识别方法,包括以下步骤:
S1、采集用户的操作图像信息;
S2、将操作图像信息导入到预置的图像识别模型中,生成初始图像识别信息;
进一步地,将操作图像信息导入到预置的图像识别模型中;
通过图像识别模型对操作图像信息进行分割,以得到多个分割图像,并对各个分割图像进行图像识别,生成多个分割识别结果;
将各个分割识别结果进行整合,生成初始图像识别信息。
在本发明的一些实施例中,当用户对智能电器进行操控做成相应的操作动作后,采用摄像头采集用户的操作图像信息,该操作图像信息包括用户的肢体动作图像、头部动作图像,脸部动作图像、操作电器图像、操作环境图像等等,然后将操作图像信息导入到预置的图像识别模型中进行图像识别分析,得到一个初始图像识别信息;为了保证图像识别的效率以及精准性,对图像进行分割,得到多个分割图像,然后分别对各个分给图像进行识别,细化成多个图像块进行识别,可以有效提高识别的效果,然后,按照分割时的边界将各个分割图像整合在一起,得到完整的初始图像识别信息。上述图像识别模型是指通过历史数据训练得到的可以对图像进行识别的数学模型;上述初始图像识别信息包括用户操作内容、操作电器类型、操作场景等信息。
S3、根据操作图像信息中的嘴型信息生成并发送语音唤醒指令,启动语音采集功能;
在本发明的一些实施例中,用户操作时会发出语音信息,根据操作图像信息中的嘴型信息生成并发送语音唤醒指令给麦克风或者其他语音采集设备,启动其语音采集功能,对用户语音进行采集;上述嘴型信息包括张嘴和闭嘴动作信息。
S4、获取用户语音信息,并采用预置的语音识别模型对用户语音信息进行识别,生成语音识别信息;
进一步地,采用预置的语音识别模型对用户语音信息中的音色进行识别,生成用户音色识别结果;
采用预置的语音识别模型对用户语音信息中的操作内容进行识别,生成内容识别结果;
根据用户音色识别结果和内容识别结果生成语音识别信息。
在本发明的一些实施例中,获取到用户语音信息后,采用预置的语音识别模型对用户语音信息进行识别,识别得到用户的语音内容,生成语音识别信息,通过预置的语音识别模型对音色和内容进行分别识别,生成全面的语音识别信息,该语音识别信息包括控制电器类型、控制内容、音色等信息。
进一步地,根据用户音色识别结果和预设的目标用户音色数据判断是否属于目标用户,如果是,则采用预置的语音识别模型对用户语音信息中的操作内容进行识别,生成内容识别结果;如果否,则生成并发送提示信息。
在本发明的一些实施例中,为了提高识别的准确性,当存在多个用户发出语音时,根据用户的音色识别结果确定是否是预先录入的目标用户的音色,对目标用户进行判断,仅仅对目标用户的语音信息的内容进行识别,避免识别错误,提高目标用户语音识别效率。
S5、根据语音识别信息和初始图像识别信息生成并根据目标图像采集指令采集目标图像信息;
S6、将目标图像信息导入至预置的图像识别模型中,生成目标图像识别信息。
在本发明的一些实施例中,首先,同时,根据语音识别信息和初始图像识别信息确定一个更为精确的目标图像采集需求,生成目标图像采集指令,控制摄像头采集目标图像信息,然后将采集到的目标图像信息导入至预置的图像识别模型中进行图像识别,生成目标图像识别信息,该目标图像识别信息包括目标电器、操作场景、操作内容。
为了提高图像识别的准确性,进而对智能电器进行精准控制,结合语音识别技术对用户的操作进行精准识别。本方法对操作图像进行精准识别,结合语音和图像识别双重识别技术,提高对目标图像的采集精准性,对目标图像进行精准识别,进而提高对智能电器的控制精确性。
如图2所示,第二方面,本发明实施例提供一种具有语音唤醒功能的图像识别系统,包括图像采集模块100、初始识别模块200、语音启动模块300、语音识别模块400、目标采集模块500以及目标识别模块600,其中:
图像采集模块100,用于采集用户的操作图像信息;
初始识别模块200,用于将操作图像信息导入到预置的图像识别模型中,生成初始图像识别信息;
语音启动模块300,用于根据操作图像信息中的嘴型信息生成并发送语音唤醒指令,启动语音采集功能;
语音识别模块400,用于获取用户语音信息,并采用预置的语音识别模型对用户语音信息进行识别,生成语音识别信息;
目标采集模块500,用于根据语音识别信息和初始图像识别信息生成并根据目标图像采集指令采集目标图像信息;
目标识别模块600,用于将目标图像信息导入至预置的图像识别模型中,生成目标图像识别信息。
为了提高图像识别的准确性,进而对智能电器进行精准控制,结合语音识别技术对用户的操作进行精准识别。首先,当用户对智能电器进行操控做成相应的操作动作后,图像采集模块100采用摄像头采集用户的操作图像信息,然后初始识别模块200将操作图像信息导入到预置的图像识别模型中进行图像识别分析,得到一个初始图像识别信息;上述图像识别模型是指通过历史数据训练得到的可以对图像进行识别的数学模型;上述初始图像识别信息包括用户操作内容、操作电器类型、操作场景等信息。同时,用户操作时会发出语音信息,语音启动模块300根据操作图像信息中的嘴型信息生成并发送语音唤醒指令给麦克风或者其他语音采集设备,启动其语音采集功能,对用户语音进行采集;上述嘴型信息包括张嘴和闭嘴动作信息。语音识别模块400获取到用户语音信息后,采用预置的语音识别模型对用户语音信息进行识别,识别得到用户的语音内容,生成语音识别信息,该语音识别信息包括控制电器类型、控制内容、音色等信息。目标采集模块500根据语音识别信息和初始图像识别信息确定一个更为精确的目标图像采集需求,生成目标图像采集指令,控制摄像头采集目标图像信息,然后目标识别模块600将采集到的目标图像信息导入至预置的图像识别模型中进行图像识别,生成目标图像识别信息,该目标图像识别信息包括目标电器、操作场景、操作内容。
本系统对操作图像进行精准识别,结合语音和图像识别双重识别技术,提高对目标图像的采集精准性,对目标图像进行精准识别,进而提高对智能电器的控制精确性。
如图2所示,基于第二方面,在本发明的一些实施例中,上述初始识别模块200包括导入子模块210、分割子模块220以及整合子模块230,其中:
导入子模块210,用于将操作图像信息导入到预置的图像识别模型中;
分割子模块220,用于通过图像识别模型对操作图像信息进行分割,以得到多个分割图像,并对各个分割图像进行图像识别,生成多个分割识别结果;
整合子模块230,用于将各个分割识别结果进行整合,生成初始图像识别信息。
为了保证图像识别的效率以及精准性,分割子模块220对图像进行分割,得到多个分割图像,然后分别对各个分给图像进行识别,细化成多个图像块进行识别,可以有效提高识别的效果,然后,整合子模块230按照分割时的边界将各个分割图像整合在一起,得到完整的初始图像识别信息。
如图2所示,基于第二方面,在本发明的一些实施例中,上述语音识别模块400包括音色识别子模块410、内容识别子模块420以及识别信息子模块430,其中:
音色识别子模块410,用于采用预置的语音识别模型对用户语音信息中的音色进行识别,生成用户音色识别结果;
内容识别子模块420,用于采用预置的语音识别模型对用户语音信息中的操作内容进行识别,生成内容识别结果;
识别信息子模块430,用于根据用户音色识别结果和内容识别结果生成语音识别信息。
音色识别子模块410和内容识别子模块420分别采用预置的语音识别模型对音色和内容进行分别识别,生成全面的语音识别信息。
如图2所示,基于第二方面,在本发明的一些实施例中,该具有语音唤醒功能的图像识别系统还包括判断模块700,用于根据用户音色识别结果和预设的目标用户音色数据判断是否属于目标用户,如果是,则采用预置的语音识别模型对用户语音信息中的操作内容进行识别,生成内容识别结果;如果否,则生成并发送提示信息。
为了提高识别的准确性,当存在多个用户发出语音时,判断模块700根据用户的音色识别结果确定是否是预先录入的目标用户的音色,对目标用户进行判断,仅仅对目标用户的语音信息的内容进行识别,避免识别错误,提高目标用户语音识别效率。
如图3所示,第三方面,本申请实施例提供一种电子设备,其包括存储器101,用于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行时,实现如上述第一方面中任一项的方法。
还包括通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器101(Random Access Memory,RAM),只读存储器101(Read Only Memory,ROM),可编程只读存储器101(ProgrammableRead-Only Memory,PROM),可擦除只读存储器101(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器101(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器102,包括中央处理器102(Central Processing Unit,CPU)、网络处理器102(Network Processor,NP)等;还可以是数字信号处理器102(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请所提供的实施例中,应该理解到,所揭露的方法及系统和方法,也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器101(ROM,Read-Only Memory)、随机存取存储器101(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (10)
1.一种具有语音唤醒功能的图像识别方法,其特征在于,包括以下步骤:
采集用户的操作图像信息;
将操作图像信息导入到预置的图像识别模型中,生成初始图像识别信息;
根据操作图像信息中的嘴型信息生成并发送语音唤醒指令,启动语音采集功能;
获取用户语音信息,并采用预置的语音识别模型对用户语音信息进行识别,生成语音识别信息;
根据语音识别信息和初始图像识别信息生成并根据目标图像采集指令采集目标图像信息;
将目标图像信息导入至预置的图像识别模型中,生成目标图像识别信息。
2.根据权利要求1所述的一种具有语音唤醒功能的图像识别方法,其特征在于,所述将操作图像信息导入到预置的图像识别模型中,生成初始图像识别信息的方法包括以下步骤:
将操作图像信息导入到预置的图像识别模型中;
通过图像识别模型对操作图像信息进行分割,以得到多个分割图像,并对各个分割图像进行图像识别,生成多个分割识别结果;
将各个分割识别结果进行整合,生成初始图像识别信息。
3.根据权利要求1所述的一种具有语音唤醒功能的图像识别方法,其特征在于,所述采用预置的语音识别模型对用户语音信息进行识别,生成语音识别信息的方法包括以下步骤:
采用预置的语音识别模型对用户语音信息中的音色进行识别,生成用户音色识别结果;
采用预置的语音识别模型对用户语音信息中的操作内容进行识别,生成内容识别结果;
根据用户音色识别结果和内容识别结果生成语音识别信息。
4.根据权利要求3所述的一种具有语音唤醒功能的图像识别方法,其特征在于,还包括以下步骤:
根据用户音色识别结果和预设的目标用户音色数据判断是否属于目标用户,如果是,则采用预置的语音识别模型对用户语音信息中的操作内容进行识别,生成内容识别结果;如果否,则生成并发送提示信息。
5.一种具有语音唤醒功能的图像识别系统,其特征在于,包括图像采集模块、初始识别模块、语音启动模块、语音识别模块、目标采集模块以及目标识别模块,其中:
图像采集模块,用于采集用户的操作图像信息;
初始识别模块,用于将操作图像信息导入到预置的图像识别模型中,生成初始图像识别信息;
语音启动模块,用于根据操作图像信息中的嘴型信息生成并发送语音唤醒指令,启动语音采集功能;
语音识别模块,用于获取用户语音信息,并采用预置的语音识别模型对用户语音信息进行识别,生成语音识别信息;
目标采集模块,用于根据语音识别信息和初始图像识别信息生成并根据目标图像采集指令采集目标图像信息;
目标识别模块,用于将目标图像信息导入至预置的图像识别模型中,生成目标图像识别信息。
6.根据权利要求5所述的一种具有语音唤醒功能的图像识别系统,其特征在于,所述初始识别模块包括导入子模块、分割子模块以及整合子模块,其中:
导入子模块,用于将操作图像信息导入到预置的图像识别模型中;
分割子模块,用于通过图像识别模型对操作图像信息进行分割,以得到多个分割图像,并对各个分割图像进行图像识别,生成多个分割识别结果;
整合子模块,用于将各个分割识别结果进行整合,生成初始图像识别信息。
7.根据权利要求5所述的一种具有语音唤醒功能的图像识别系统,其特征在于,所述语音识别模块包括音色识别子模块、内容识别子模块以及识别信息子模块,其中:
音色识别子模块,用于采用预置的语音识别模型对用户语音信息中的音色进行识别,生成用户音色识别结果;
内容识别子模块,用于采用预置的语音识别模型对用户语音信息中的操作内容进行识别,生成内容识别结果;
识别信息子模块,用于根据用户音色识别结果和内容识别结果生成语音识别信息。
8.根据权利要求7所述的一种具有语音唤醒功能的图像识别系统,其特征在于,还包括判断模块,用于根据用户音色识别结果和预设的目标用户音色数据判断是否属于目标用户,如果是,则采用预置的语音识别模型对用户语音信息中的操作内容进行识别,生成内容识别结果;如果否,则生成并发送提示信息。
9.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-4中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110723183.XA CN113450795A (zh) | 2021-06-28 | 2021-06-28 | 一种具有语音唤醒功能的图像识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110723183.XA CN113450795A (zh) | 2021-06-28 | 2021-06-28 | 一种具有语音唤醒功能的图像识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113450795A true CN113450795A (zh) | 2021-09-28 |
Family
ID=77813606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110723183.XA Pending CN113450795A (zh) | 2021-06-28 | 2021-06-28 | 一种具有语音唤醒功能的图像识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113450795A (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150222948A1 (en) * | 2012-09-29 | 2015-08-06 | Shenzhen Prtek Co. Ltd. | Multimedia Device Voice Control System and Method, and Computer Storage Medium |
CN105280183A (zh) * | 2015-09-10 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法和系统 |
CN108154140A (zh) * | 2018-01-22 | 2018-06-12 | 北京百度网讯科技有限公司 | 基于唇语的语音唤醒方法、装置、设备及计算机可读介质 |
CN109410936A (zh) * | 2018-11-14 | 2019-03-01 | 广东美的制冷设备有限公司 | 基于场景的空调设备语音控制方法和装置 |
CN109817211A (zh) * | 2019-02-14 | 2019-05-28 | 珠海格力电器股份有限公司 | 一种电器控制方法、装置、存储介质及电器 |
CN110322889A (zh) * | 2018-03-30 | 2019-10-11 | 谢维 | 一种可靠性高的身份识别方法 |
CN110718225A (zh) * | 2019-11-25 | 2020-01-21 | 深圳康佳电子科技有限公司 | 一种语音控制方法、终端以及存储介质 |
WO2020114213A1 (zh) * | 2018-12-03 | 2020-06-11 | 华为技术有限公司 | 语音用户界面的显示方法和会议终端 |
US20200193992A1 (en) * | 2018-12-14 | 2020-06-18 | Samsung Electronics Co., Ltd. | Method of performing function of electronic device and electronic device using same |
CN111314187A (zh) * | 2020-01-21 | 2020-06-19 | 星络智能科技有限公司 | 存储介质、智能家居设备及其唤醒方法 |
CN111383637A (zh) * | 2018-12-28 | 2020-07-07 | 上海寒武纪信息科技有限公司 | 信号处理装置、信号处理方法及相关产品 |
CN111583937A (zh) * | 2020-04-30 | 2020-08-25 | 珠海格力电器股份有限公司 | 一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电 |
CN111639634A (zh) * | 2020-05-15 | 2020-09-08 | 广东小天才科技有限公司 | 一种ocr识别方法及电子设备 |
CN111951787A (zh) * | 2020-07-31 | 2020-11-17 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN112294253A (zh) * | 2019-07-26 | 2021-02-02 | 深圳百诺明医说科技有限公司 | 一种基于用户语音变化的疾病诊断系统及家庭智能机器人 |
CN112433770A (zh) * | 2020-11-19 | 2021-03-02 | 北京华捷艾米科技有限公司 | 设备的唤醒方法及装置、电子设备、计算机存储介质 |
CN112652304A (zh) * | 2020-12-02 | 2021-04-13 | 北京百度网讯科技有限公司 | 智能设备的语音交互方法、装置和电子设备 |
-
2021
- 2021-06-28 CN CN202110723183.XA patent/CN113450795A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150222948A1 (en) * | 2012-09-29 | 2015-08-06 | Shenzhen Prtek Co. Ltd. | Multimedia Device Voice Control System and Method, and Computer Storage Medium |
CN105280183A (zh) * | 2015-09-10 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法和系统 |
CN108154140A (zh) * | 2018-01-22 | 2018-06-12 | 北京百度网讯科技有限公司 | 基于唇语的语音唤醒方法、装置、设备及计算机可读介质 |
CN110322889A (zh) * | 2018-03-30 | 2019-10-11 | 谢维 | 一种可靠性高的身份识别方法 |
CN109410936A (zh) * | 2018-11-14 | 2019-03-01 | 广东美的制冷设备有限公司 | 基于场景的空调设备语音控制方法和装置 |
WO2020114213A1 (zh) * | 2018-12-03 | 2020-06-11 | 华为技术有限公司 | 语音用户界面的显示方法和会议终端 |
US20200193992A1 (en) * | 2018-12-14 | 2020-06-18 | Samsung Electronics Co., Ltd. | Method of performing function of electronic device and electronic device using same |
CN111383637A (zh) * | 2018-12-28 | 2020-07-07 | 上海寒武纪信息科技有限公司 | 信号处理装置、信号处理方法及相关产品 |
CN109817211A (zh) * | 2019-02-14 | 2019-05-28 | 珠海格力电器股份有限公司 | 一种电器控制方法、装置、存储介质及电器 |
CN112294253A (zh) * | 2019-07-26 | 2021-02-02 | 深圳百诺明医说科技有限公司 | 一种基于用户语音变化的疾病诊断系统及家庭智能机器人 |
CN110718225A (zh) * | 2019-11-25 | 2020-01-21 | 深圳康佳电子科技有限公司 | 一种语音控制方法、终端以及存储介质 |
CN111314187A (zh) * | 2020-01-21 | 2020-06-19 | 星络智能科技有限公司 | 存储介质、智能家居设备及其唤醒方法 |
CN111583937A (zh) * | 2020-04-30 | 2020-08-25 | 珠海格力电器股份有限公司 | 一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电 |
CN111639634A (zh) * | 2020-05-15 | 2020-09-08 | 广东小天才科技有限公司 | 一种ocr识别方法及电子设备 |
CN111951787A (zh) * | 2020-07-31 | 2020-11-17 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN112433770A (zh) * | 2020-11-19 | 2021-03-02 | 北京华捷艾米科技有限公司 | 设备的唤醒方法及装置、电子设备、计算机存储介质 |
CN112652304A (zh) * | 2020-12-02 | 2021-04-13 | 北京百度网讯科技有限公司 | 智能设备的语音交互方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287766B (zh) | 一种基于人脸识别自适应调节方法、系统和可读存储介质 | |
WO2024000867A1 (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN106649694A (zh) | 语音交互中确定用户意图的方法及装置 | |
CN111339806A (zh) | 唇语识别模型的训练方法、活体识别方法及装置 | |
CN107622246B (zh) | 人脸识别方法及相关产品 | |
CN111739027A (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN110290280B (zh) | 一种终端状态的识别方法、装置及存储介质 | |
CN111413877A (zh) | 控制家电设备的方法及装置 | |
CN112417970A (zh) | 目标对象识别方法、装置和电子系统 | |
CN116665695B (zh) | 虚拟对象口型驱动方法、相关装置和介质 | |
CN112949689A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN111506183A (zh) | 一种智能终端及用户交互方法 | |
CN113762056A (zh) | 演唱视频识别方法、装置、设备及存储介质 | |
CN113450795A (zh) | 一种具有语音唤醒功能的图像识别方法及系统 | |
CN117671553A (zh) | 一种目标识别方法、系统及相关装置 | |
CN111539390A (zh) | 一种基于Yolov3的小目标图像识别方法、设备和系统 | |
CN111951808B (zh) | 语音交互方法、装置、终端设备及介质 | |
CN116205723A (zh) | 基于人工智能的面签风险检测方法及相关设备 | |
CN111768729A (zh) | 一种vr场景自动解说方法、系统和存储介质 | |
CN112735395B (zh) | 语音识别方法及电子设备、存储装置 | |
CN112989115B (zh) | 待推荐视频的筛选控制方法及装置 | |
CN113380253A (zh) | 一种基于云计算和边缘计算的语音识别系统、设备及介质 | |
CN113380254A (zh) | 一种基于云计算和边缘计算的语音识别方法、设备及介质 | |
CN110415688B (zh) | 一种信息交互方法及机器人 | |
CN114119121A (zh) | 发布商品素材的方法、装置、存储介质和处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |