CN116189680A - 一种展演智能设备的语音唤醒方法 - Google Patents
一种展演智能设备的语音唤醒方法 Download PDFInfo
- Publication number
- CN116189680A CN116189680A CN202310486209.2A CN202310486209A CN116189680A CN 116189680 A CN116189680 A CN 116189680A CN 202310486209 A CN202310486209 A CN 202310486209A CN 116189680 A CN116189680 A CN 116189680A
- Authority
- CN
- China
- Prior art keywords
- lip
- user
- voice
- dynamic image
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000003993 interaction Effects 0.000 claims abstract description 42
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims description 35
- 230000000007 visual effect Effects 0.000 claims description 24
- 230000009471 action Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 12
- 241001672694 Citrus reticulata Species 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010191 image analysis Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 230000002618 waking effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- User Interface Of Digital Computer (AREA)
- Auxiliary Devices For Music (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种展演智能设备的语音唤醒方法,涉及智能语音交互技术领域,该包括智能设备接收预设地域范围及预设时间内分贝最高的语音及所有用户的人脸动态图像;根据第一用户的人脸动态图像判断第一用户当前是否还在预设地域范围;锁定第一用户的人脸动态图像,并与第一用户进行第一次语音交互,提取第一用户的第一声纹特征,并基于第一声纹特征过滤与第一声纹特征不匹配的声纹特征。本发明的展演智能设备的语音唤醒方法,解决人多嘈杂的环境中现有的智能设备与人进行交流时交互针对性不足的技术问题。
Description
技术领域
本发明涉及智能语音交互技术领域,特别涉及一种展演智能设备的语音唤醒方法。
背景技术
用于展览展会的智能语音导览,是通过对室内展览物件进行语音播报讲解,以便于参观者对展览物品进行深入了解的装置,其在语音导览的领域中得到了广泛的使用。
目前常用的智能语音导览是用户手动开启后,根据用户的问题,在问题库中查找并播报固定的内容,播放的内容不因使用者的改变而改变,也不能与某一位参观者进行针对性的交互。在智能手机领域,智能语音助手可以根据使用者的唤醒词唤醒后与其开展人机对话。但是,这种方式一般用于单人与机器的对话,在噪音大、人员多的复杂场景中,如展演场景,存在内容识别精度不高、不易识别发声主体的问题,从而导致智能设备难以识别交互对象,交互时不能很好的理解指令,导致交互无针对性。因此,现有的智能语音助手难以用于展览展会等人多嘈杂的环境。
因此,亟需一种改进的展演智能设备的语音唤醒方法,以改善上述技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种在人多嘈杂的环境中进行人机交互时能够很好的锁定交互者,进而能进行针对性回答的展演智能设备的语音唤醒方法。
本发明提供了一种展演智能设备的语音唤醒方法,包括:智能设备接收预设地域范围及预设时间内分贝最高的语音及所有用户的人脸动态图像;该分贝最高的语音为第一语音,对该第一语音进行语义分析获得第一语义;对该所有用户的人脸动态图像进行图像分析获得人脸动态图像集合,通过图像提取获得与该人脸动态图像集合对应的唇部动态图像集合,通过唇语分析获得与该唇部动态图像集合对应的第二语义集合;若该第一语义在该第二语义集合内,从该第二语义集合内提取与该第一语义对应的第一用户的唇部动态图像及第一用户的人脸动态图像;若该第一语义不在该第二语义集合内,重新接收预设地域范围及预设时间内分贝最高的语音;根据该第一用户的人脸动态图像判断第一用户当前是否还在该预设地域范围,若不在,重新接收预设地域范围及预设时间内分贝最高的语音;若在,锁定该第一用户的人脸动态图像,并与该第一用户进行第一次语音交互,提取该第一用户的第一声纹特征,并基于该第一声纹特征过滤与该第一声纹特征不匹配的声纹特征。
优选地,本发明提供的一种展演智能设备的语音唤醒方法还包括:建立用户数据库,该用户数据库包括多个用户特征信息,该用户特征信息包括年龄、性别、口音、语音交互记录。
优选地,在进行第一次语音交互后,将第一声纹特征与该用户数据库的用户特征信息进行比对;将该用户特征信息进一步分为管理者数据信息、访问过用户数据信息,该管理者数据信息对应有管理者语音交互记录,该访问过用户数据信息对应有访问过用户交互记录;若判断该第一声纹特征为该管理者数据信息,调取该管理者语音交互记录进行下一次交互,若判断该第一声纹特征为访问过用户数据信息,调取该访问过用户交互记录进行下一次交互。
优选地,该年龄和该性别从该人脸动态图像集合中提取;该口音的语音识别方法包括:根据特定方言的特点,构建从普通话读音到方言读音的音节映射表;根据该音节映射表,扩展已有的标准普通话语音识别器,并形成第一搜索树;用该第一搜索树替换该标准普通话语音识别器中的搜索树并形成第二搜索树。
优选地,该分贝最高的语音包括唤醒指令。
优选地,该唇语分析方法为:从该唇部动态图像中获取唇部动作特征数据;确定该唇部动作特征数据的正向标准差和/或逆向标准差;基于该正向标准差和/或逆向标准差,确定与该唇部动态图像集合对应的第二语义集合的分词结果。
优选地,该唇部动作特征数据包括:左唇角、右唇角、上唇峰构成的上唇部特征角度及上唇面积,左唇角、右唇角和下唇低点构成的下唇部特征角度及下唇面积。
优选地,确定该唇部动作特征数据的正向标准差包括:选取确定唇部动态图像的第一视帧,该第一视帧和该第一视帧的在前视帧图像的唇部动作特征确定得到;确定该唇部动作特征数据的逆向标准差包括:选取确定唇部动态图像的第一视帧,该第一视帧和该第一视帧的在后视帧图像的唇部动作特征确定得到。
优选地,该过滤与第一声纹特征不匹配的声纹特征的方法为:智能设备包括麦克风阵列、ToF检测模块、DOA计算模块;该麦克风阵列处理多路语音信号,对该语音信号进行降噪及增强;该ToF检测模块检测该预设地域范围人员,并生成人员位置信息;通过该DOA计算模块计算产生当前的DOA区间数据;计算基于该麦克风阵列输入的数据和基于DOA计算模块产生的数据,过滤与第一声纹特征不匹配的声纹特征。
优选地,对该第一语音进行语义分析获得第一语义的方法包括:根据领域任务定义文法中所有的终结符、非终结符和规则分类,该终结符为按语义分类的关键词,该关键词可包含阿拉伯数字和英文字母,每个关键词都有相应的拼音,每一条规则都被赋以一个优先级别,该优先级的规则集合通过词法分析的或非词法分析得到,该规则与语义直接关联,每一条该规则都对应一个语义分析函数,从语法配置文件中读入基于语义类的上下文无关增强文法;对用户输入的句子进行分词;对分词结果进行句法分析;取最优的句法分析结果进行语义分析,得到用户最终的搜索关键词信息。
本发明的技术方案带来了以下有益效果:在本发明提供的一种展演智能设备的语音唤醒方法中,以在展会会场使用为例,包括以下步骤:智能设备搜寻预设地域范围及预设时间内会场信息,接收在预设时间内和预设地域范围声音分贝最高的人的语音所有的用户的人脸动态图像。将分贝最高的语音设置为第一语音,对该第一语音进行语义分析处理,获得与第一语音对应的第一语义。同时,对所有用户的人脸动态图像进行图像分析获得人脸动态图像集合,通过图像提取手段获得与人脸动态图像集合对应的唇部动态图像集合,并通过唇语分析手段获得与唇部动态图像集合对应的第二语义集合。
在对预设地域范围及预设时间内声音分贝最高的人的语音及所有的用户的人脸动态图像处理后获得第一语义和第二语义集合后,判断上述的第一语义是否在在第二语义集合内,若第一语义在第二语义集合内,从而获得了声音分贝最高的人的第一语义、人脸动态图像、唇部动态图像,锁定并获得了要找的人的特征信息。若不在,则说明嘈杂的环境中识别噪音较大,智能设备将重新接收预设地域范围及预设时间内分贝最高的语音。
根据第一用户的人脸动态图像判断第一用户当前是否还在预设地域范围,若不在,可能第一用户已经离开预设地域范围,智能设备重新接收预设地域范围及预设时间内分贝最高的语音。若在,锁定第一用户的人脸动态图像,并与第一用户进行第一次语音交互,提取第一用户的第一声纹特征,并基于第一声纹特征过滤与第一声纹特征不匹配的声纹特征。如果此时第一用户还在现场,提取第一用户的第一声纹特征用于更有针对性的交互,并过滤掉与第一声纹特征不匹配的声纹特征。
基于此本发明提供的一种展演智能设备的语音唤醒方法,通过准确查找并识别第一用户,先后获得了第一用户的第一语义、人脸动态图像、唇部动态图像。以及第一声纹特征,即使在嘈杂的环境中也能有针对性的找到用户并根据用户特征进行针对性的交流,提升了用户的使用体验。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种展演智能设备的语音唤醒方法的结构框图。
图2为本发明实施例提供的另一种展演智能设备的语音唤醒方法的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于对本实施例进行理解,首先对本发明实施例所公开的一种控制装置进行详细介绍。
本发明提供了一种展演智能设备的语音唤醒方法,参见图1所示,该方法包括智能设备接收预设地域范围及预设时间内分贝最高的语音及所有用户的人脸动态图像;分贝最高的语音为第一语音,对第一语音进行语义分析获得第一语义;对所有用户的人脸动态图像进行图像分析获得人脸动态图像集合,通过图像提取获得与人脸动态图像集合对应的唇部动态图像集合,通过唇语分析获得与唇部动态图像集合对应的第二语义集合。
本实施例提供的一种展演智能设备的语音唤醒方法中,以在展会会场使用为例,包括以下步骤:步骤S110智能设备搜寻预设地域范围及预设时间内会场信息,接收在预设时间内和预设地域范围声音分贝最高的人的语音所有的用户的人脸动态图像。将分贝最高的语音设置为第一语音,对该第一语音进行语义分析处理,获得与第一语音对应的第一语义。同时,对所有用户的人脸动态图像进行图像分析获得人脸动态图像集合,通过图像提取手段获得与人脸动态图像集合对应的唇部动态图像集合,并通过唇语分析手段获得与唇部动态图像集合对应的第二语义集合。
在对预设地域范围及预设时间内声音分贝最高的人的语音及所有的用户的人脸动态图像处理后获得第一语义和第二语义集合后,进行步骤S120。
步骤S120:判断上述的第一语义是否在在第二语义集合内,若第一语义在第二语义集合内,从而获得了声音分贝最高的人的第一语义、人脸动态图像、唇部动态图像,锁定并获得了要找的人的特征信息。若不在,则说明嘈杂的环境中识别噪音较大,智能设备将重新接收预设地域范围及预设时间内分贝最高的语音,重新开始步骤S110。
步骤S130:根据第一用户的人脸动态图像判断第一用户当前是否还在预设地域范围,若不在,可能第一用户已经离开预设地域范围,智能设备重新接收预设地域范围及预设时间内分贝最高的语音并重新开始步骤S110。若在,继续步骤S140。
步骤S140:锁定第一用户的人脸动态图像,并与第一用户进行第一次语音交互,提取第一用户的第一声纹特征,并基于第一声纹特征过滤与第一声纹特征不匹配的声纹特征。如果此时第一用户还在现场,提取第一用户的第一声纹特征用于更有针对性的交互,并过滤掉与第一声纹特征不匹配的声纹特征。基于此本实施例提供的一种展演智能设备的语音唤醒方法,通过准确查找并识别第一用户,先后获得了第一用户的第一语义、人脸动态图像、唇部动态图像。以及第一声纹特征,即使在嘈杂的环境中也能有针对性的找到用户并根据用户特征进行针对性的交流,提升了用户使用体验。
进一步的,本实施例提供的一种展演智能设备的语音唤醒方法还包括步骤S150:建立用户数据库,用户数据库包括多个用户特征信息,用户特征信息包括年龄、性别、口音、语音交互记录。
进一步地,在步骤S150中,进一步包括步骤S151:将用户特征信息进一步分为管理者数据信息、访问过用户数据信息,管理者数据信息对应有管理者语音交互记录,访问过用户数据信息对应有访问过用户交互记录。
步骤S152:若判断第一声纹特征为管理者数据信息,调取管理者语音交互记录进行下一次交互,若判断第一声纹特征为访问过用户数据信息,调取访问过用户交互记录进行下一次交互。
步骤S140中判断出第一用户还在预设范围内需要进一步交互时后,通过步骤S150建立用户数据库。并通过步骤S151将用户数据库的用户特征进一步分为管理者数据信息、访问过用户数据信息,若判断第一声纹特征与管理者数据信息匹配,则调用管理者的特征和问答记录,进行针对性的回答。若判断第一声纹特征与访问过用户数据信息匹配,则调用访问过用户数据信息进行交互,使得整个交互过程更具有针对性,在第一用户看来,展演智能设备的交互过程更智能。
本实施例提供的一种展演智能设备的语音唤醒方法,还包括:建立用户数据库,用户数据库包括多个用户特征信息,用户特征信息包括年龄、性别、口音、语音交互记录,其中,年龄和性别从人脸动态图像集合中提取;口音的语音识别方法包括:根据特定方言的特点,构建从普通话读音到方言读音的音节映射表;根据音节映射表,扩展已有的标准普通话语音识别器,并形成第一搜索树;用第一搜索树替换标准普通话语音识别器中的搜索树并形成第二搜索树。根据特定方言的特点,构建从普通话读音到方言读音的音节映射表的方法包括:根据语言知识总结相关方言的音节映射规律;对于任何一个词无关的音节映射,如果映射是发生在声母,则注册声母映射对{I*(x)}→{I*(y)},它表示含有声母x的音节其声母会映射成y。使得本实施例提供的一种展演智能设备的语音唤醒方法适用范围更广。
进一步的,步骤S110中的分贝最高的语音包括唤醒指令,唤醒指令包括唤醒关键词、唤醒句型、疑问语气词等,本实施例提供的一种展演智能设备的语音唤醒方法在找到第一用户之后,在交互中还可以使用唤醒指令,以保证与第一用户的及时交流。
进一步地,通过唇语分析获得与唇部动态图像集合对应的第二语义集合,唇语分析方法为:从唇部动态图像中获取唇部动作特征数据;确定唇部动作特征数据的正向标准差和/或逆向标准差;基于上述正向标准差和/或逆向标准差,确定与上述唇部动态图像集合对应的第二语义集合的分词结果。
唇部动作特征数据包括:左唇角、右唇角、上唇峰构成的上唇部特征角度及上唇面积,左唇角、右唇角和下唇低点构成的下唇部特征角度及下唇面积。上唇部特征角度及上唇面积表征用户说话时候的上唇特征,下唇部特征角度及下唇面积表征用户说话时候的下唇特征,用户在说不同的内容时,都有一组上唇特征和下唇特征。
进一步的,确定唇部动作特征数据的正向标准差包括:选取确定唇部动态图像的第一视帧,第一视帧和第一视帧的在前视帧图像的唇部动作特征确定得到;确定唇部动作特征数据的逆向标准差包括:选取确定唇部动态图像的第一视帧,第一视帧和第一视帧的在后视帧图像的唇部动作特征确定得到。根据动态确定的唇部动作特征数据的正向标准差和唇部动作特征数据的逆向标准差能够确定与唇部动态图像集合对应的第二语义集合的分词结果,从而识别用户的交互内容。
进一步的,基于第一声纹特征过滤与第一声纹特征不匹配的声纹特征的方法为:智能设备包括麦克风阵列、ToF(飞行的时间)检测模块、DOA(波达方向)计算模块;麦克风阵列处理多路语音信号,对语音信号进行降噪及增强;ToF检测模块检测预设地域范围人员,并生成人员位置信息通过DOA计算模块产生当前的DOA区间数据;计算基于上述麦克风阵列输入的数据和基于DOA计算模块产生的数据,过滤与第一声纹特征不匹配的声纹特征。
本发明提供的一种展演智能设备的语音唤醒方法通过ToF检测模块检测展会内人员情况和位置信息,在输入给DOA计算模块计算产生当前的DOA区间数据,从而使语音唤醒时的DOA计算更精确,降低DOA计算错误,从而使后续的语音降噪目标准确无误,最终提高了的识别正确率,改进用户体验。
进一步的,对第一语音进行语义分析获得第一语义的方法包括:首先,从语法配置文件中读入基于语义类的上下文无关增强文法,具体的,根据领域任务定义文法中所有的终结符、非终结符和规则分类,终结符为按语义分类的关键词,关键词可包含阿拉伯数字和英文字母,每个关键词都有相应的拼音,每一条规则都被赋以一个优先级别,优先级的规则集合通过词法分析的或非词法分析得到,规则与语义直接关联,每一条规则都对应一个语义分析函数。其中,领域任务定义文法是语义分析中的现有语言。
然后,对用户输入的句子进行分词;对分词结果进行句法分析;取最优的句法分析结果进行语义分析,得到用户最终的搜索关键词信息。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种展演智能设备的语音唤醒方法,其特征在于,包括:
智能设备接收预设地域范围及预设时间内分贝最高的语音及所有用户的人脸动态图像;所述分贝最高的语音为第一语音,对所述第一语音进行语义分析获得第一语义;对所述所有用户的人脸动态图像进行图像分析获得人脸动态图像集合,通过图像提取获得与所述人脸动态图像集合对应的唇部动态图像集合,通过唇语分析获得与所述唇部动态图像集合对应的第二语义集合;
若所述第一语义在所述第二语义集合内,从所述第二语义集合内提取与所述第一语义对应的第一用户的唇部动态图像及第一用户的人脸动态图像;若所述第一语义不在所述第二语义集合内,重新接收预设地域范围及预设时间内分贝最高的语音;
根据所述第一用户的人脸动态图像判断第一用户当前是否还在所述预设地域范围,若不在,重新接收预设地域范围及预设时间内分贝最高的语音;若在,锁定所述第一用户的人脸动态图像,并与所述第一用户进行第一次语音交互,提取所述第一用户的第一声纹特征,并基于所述第一声纹特征过滤与所述第一声纹特征不匹配的声纹特征。
2.根据权利要求1所述的展演智能设备的语音唤醒方法,其特征在于,还包括:
建立用户数据库,所述用户数据库包括多个用户特征信息,所述用户特征信息包括年龄、性别、口音、语音交互记录。
3.根据权利要求2所述的展演智能设备的语音唤醒方法,其特征在于,在进行第一次语音交互后,将所述第一声纹特征与所述用户数据库的所述用户特征信息进行比对;
将所述用户特征信息进一步分为管理者数据信息、访问过用户数据信息,所述管理者数据信息对应有管理者语音交互记录,所述访问过用户数据信息对应有访问过用户交互记录;
若判断所述第一声纹特征为所述管理者数据信息,调取所述管理者语音交互记录进行下一次交互,若判断所述第一声纹特征为所述访问过用户数据信息,调取所述访问过用户交互记录进行下一次交互。
4.根据权利要求2所述的展演智能设备的语音唤醒方法,其特征在于,所述年龄和所述性别从所述人脸动态图像集合中提取;所述口音的语音识别方法包括:根据特定方言的特点,构建从普通话读音到方言读音的音节映射表;根据所述音节映射表,扩展已有的标准普通话语音识别器,并形成第一搜索树;用所述第一搜索树替换所述标准普通话语音识别器中的搜索树并形成第二搜索树。
5.根据权利要求1所述的展演智能设备的语音唤醒方法,其特征在于,所述分贝最高的语音包括唤醒指令。
6.根据权利要求1所述的展演智能设备的语音唤醒方法,其特征在于,所述唇语分析方法为:
从所述唇部动态图像中获取唇部动作特征数据;
确定所述唇部动作特征数据的正向标准差和/或逆向标准差;
基于所述正向标准差和/或逆向标准差,确定与所述唇部动态图像集合对应的所述第二语义集合的分词结果。
7.根据权利要求6所述的展演智能设备的语音唤醒方法,其特征在于,所述唇部动作特征数据包括:左唇角、右唇角、上唇峰构成的上唇部特征角度及上唇面积,左唇角、右唇角和下唇低点构成的下唇部特征角度及下唇面积。
8.根据权利要求6所述的展演智能设备的语音唤醒方法,其特征在于,确定所述唇部动作特征数据的正向标准差包括:选取确定唇部动态图像的第一视帧,所述第一视帧和所述第一视帧的在前视帧图像的唇部动作特征确定得到;确定所述唇部动作特征数据的逆向标准差包括:选取确定唇部动态图像的所述第一视帧,所述第一视帧和所述第一视帧的在后视帧图像的唇部动作特征确定得到。
9.根据权利要求1所述的展演智能设备的语音唤醒方法,其特征在于,所述过滤与第一声纹特征不匹配的声纹特征的方法为:
智能设备包括麦克风阵列、ToF检测模块、DOA计算模块;
所述麦克风阵列处理多路语音信号,对所述语音信号进行降噪及增强;
所述ToF检测模块检测所述预设地域范围人员,并生成人员位置信息;
通过所述DOA计算模块计算产生当前的DOA区间数据;
计算基于所述麦克风阵列输入的数据和基于所述DOA计算模块产生的数据,过滤与第一声纹特征不匹配的声纹特征。
10.根据权利要求1所述的展演智能设备的语音唤醒方法,其特征在于,对所述第一语音进行语义分析获得所述第一语义的方法包括:
根据领域任务定义文法中所有的终结符、非终结符和规则分类,所述终结符为按语义分类的关键词,所述关键词可包含阿拉伯数字和英文字母,每个关键词都有相应的拼音,每一条所述规则都被赋以一个优先级别,所述优先级的规则集合通过词法分析的或非词法分析得到,所述规则与语义直接关联,每一条所述规则都对应一个语义分析函数,从语法配置文件中读入基于语义类的上下文无关增强文法;对用户输入的句子进行分词;对分词结果进行句法分析;取最优的句法分析结果进行语义分析,得到用户最终的搜索关键词信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310486209.2A CN116189680B (zh) | 2023-05-04 | 2023-05-04 | 一种展演智能设备的语音唤醒方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310486209.2A CN116189680B (zh) | 2023-05-04 | 2023-05-04 | 一种展演智能设备的语音唤醒方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116189680A true CN116189680A (zh) | 2023-05-30 |
CN116189680B CN116189680B (zh) | 2023-09-26 |
Family
ID=86438755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310486209.2A Active CN116189680B (zh) | 2023-05-04 | 2023-05-04 | 一种展演智能设备的语音唤醒方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116189680B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150348548A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
WO2018113526A1 (zh) * | 2016-12-20 | 2018-06-28 | 四川长虹电器股份有限公司 | 基于人脸识别和声纹识别的交互式认证系统及方法 |
CN108831485A (zh) * | 2018-06-11 | 2018-11-16 | 东北师范大学 | 基于语谱图统计特征的说话人识别方法 |
CN110148418A (zh) * | 2019-06-14 | 2019-08-20 | 安徽咪鼠科技有限公司 | 一种场景记录分析系统、方法及其装置 |
CN111063354A (zh) * | 2019-10-30 | 2020-04-24 | 云知声智能科技股份有限公司 | 人机交互方法及装置 |
CN113284502A (zh) * | 2021-05-08 | 2021-08-20 | 埃顿能源科技(四川)有限公司 | 一种智能客服语音交互方法及系统 |
CN114220420A (zh) * | 2022-01-26 | 2022-03-22 | 广汽丰田汽车有限公司 | 多模态语音唤醒方法、装置及计算机可读存储介质 |
-
2023
- 2023-05-04 CN CN202310486209.2A patent/CN116189680B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150348548A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
WO2018113526A1 (zh) * | 2016-12-20 | 2018-06-28 | 四川长虹电器股份有限公司 | 基于人脸识别和声纹识别的交互式认证系统及方法 |
CN108831485A (zh) * | 2018-06-11 | 2018-11-16 | 东北师范大学 | 基于语谱图统计特征的说话人识别方法 |
CN110148418A (zh) * | 2019-06-14 | 2019-08-20 | 安徽咪鼠科技有限公司 | 一种场景记录分析系统、方法及其装置 |
CN111063354A (zh) * | 2019-10-30 | 2020-04-24 | 云知声智能科技股份有限公司 | 人机交互方法及装置 |
CN113284502A (zh) * | 2021-05-08 | 2021-08-20 | 埃顿能源科技(四川)有限公司 | 一种智能客服语音交互方法及系统 |
CN114220420A (zh) * | 2022-01-26 | 2022-03-22 | 广汽丰田汽车有限公司 | 多模态语音唤醒方法、装置及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
李国友 等: "基于Kinect多生物识别技术的智能视频播放器交互系统", 《高技术通讯》, vol. 31, no. 2, pages 129 - 140 * |
王秀旭 等: "便捷式售货智能语音交互系统的设计与实现", 《汽车实用技术》, vol. 46, no. 1, pages 43 - 45 * |
Also Published As
Publication number | Publication date |
---|---|
CN116189680B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
US11848008B2 (en) | Artificial intelligence-based wakeup word detection method and apparatus, device, and medium | |
CN107305768B (zh) | 语音交互中的易错字校准方法 | |
CN108766414B (zh) | 用于语音翻译的方法、装置、设备和计算机可读存储介质 | |
CN107240398B (zh) | 智能语音交互方法及装置 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
US10013977B2 (en) | Smart home control method based on emotion recognition and the system thereof | |
KR100586767B1 (ko) | 다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법 | |
CN109637537B (zh) | 一种自动获取标注数据优化自定义唤醒模型的方法 | |
CN110148416A (zh) | 语音识别方法、装置、设备和存储介质 | |
CN112262430A (zh) | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 | |
WO2017112813A1 (en) | Multi-lingual virtual personal assistant | |
CN108573701A (zh) | 基于唇部检测的查询端点化 | |
CN110634472B (zh) | 一种语音识别方法、服务器及计算机可读存储介质 | |
CN108388553B (zh) | 对话消除歧义的方法、电子设备及面向厨房的对话系统 | |
US10699706B1 (en) | Systems and methods for device communications | |
CN113450771B (zh) | 唤醒方法、模型训练方法和装置 | |
JP6875819B2 (ja) | 音響モデル入力データの正規化装置及び方法と、音声認識装置 | |
CN109872714A (zh) | 一种提高语音识别准确性的方法、电子设备及存储介质 | |
CN113129867A (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN105869622B (zh) | 中文热词检测方法和装置 | |
US11681364B1 (en) | Gaze prediction | |
CN114255754A (zh) | 语音识别方法、电子设备、程序产品和存储介质 | |
CN116189680B (zh) | 一种展演智能设备的语音唤醒方法 | |
CN111382322B (zh) | 字符串相似度的确定方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |