CN113571060B - 一种基于视听觉融合的多人对话点餐方法及系统 - Google Patents
一种基于视听觉融合的多人对话点餐方法及系统 Download PDFInfo
- Publication number
- CN113571060B CN113571060B CN202110647307.0A CN202110647307A CN113571060B CN 113571060 B CN113571060 B CN 113571060B CN 202110647307 A CN202110647307 A CN 202110647307A CN 113571060 B CN113571060 B CN 113571060B
- Authority
- CN
- China
- Prior art keywords
- ordering
- voice
- person
- segment
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004927 fusion Effects 0.000 title claims abstract description 24
- 239000012634 fragment Substances 0.000 claims abstract description 61
- 238000000926 separation method Methods 0.000 claims abstract description 26
- 235000013305 food Nutrition 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 2
- 235000012054 meals Nutrition 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 241001596784 Pegasus Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于视听觉融合的多人对话点餐方法,持续采集多人对话的视频,将视频中人脸图像进行处理,得到每个点餐人的嘴部图像;结合嘴部图像,将混合语音分离,得到多个第一语音片段;将第一语音片段与点餐人进行匹配,得到确认了身份的第二语音片段,将同一个点餐人的多个语音片段分类到一起,对第二语音片段进行识别,包括餐厅菜名时,才处理该语音片段,提取其中的点餐信息,经点餐人确认后,将点餐信息传输给后厨,完成点餐。本发明能够实现多人长时间点餐识别,能够更加准确的分离混合语音,提高了语音分离的稳定性,且在点餐信息识别中保证了点餐人的隐私。
Description
技术领域
本发明属于点餐技术领域,具体涉及一种基于视听觉融合的多人对话点餐方法及系统。
背景技术
人工智能与人机交互技术快速发展,基于人机交互的智能机器人在提高工作效率、优化产业结构、保障社会生产力和改善人们生活质量等方面发挥着重要作用,在服务、教育、医疗和科研等领域得到广泛应用,有力地推动着高新技术产业的发展。语音作为一种高效的人机交互方式,使得人们可更加便捷地获取机器人提供的各种服务,并被应用于餐厅服务等多人语音场景。然而,当前这些场景的语音对话系统更多的是一种纯语音单模态的单人与机器人语音对话模式,当受到复杂环境中的多人说话的干扰时,它的性能难以满足人机对话需求。因此,在有噪声干扰的多人与机器人对话场景中,构建多人与机器人对话完成点餐任务的方法,使其能够在复杂场景中稳定分离说话人语音、跟踪并识别多人说话语音,是进行准确、高效、实时人机交互点餐的关键。
对话系统作为人机交互的一个重要的应用领域,是人和机器以对话的方式进行双向信息交互的系统。20世纪60年代,对话系统开始出现,此时多数对话系统基于人工模板的方式进行对话,对话自由度受限,如麻省理工学院Weizenbaum等人针对心理治疗而开发的Eliza系统。20世纪80和90年代,对话系统的实用价值增加,并开始步入商业化,如ZUE等人针对航空服务开发的飞机订票系统PEGASUS。到21世纪,计算机性能不断提升,对话系统的对话质量有了显著提升,如2008年德国慕尼黑工业大学设计的用于人机交互的口语对话系统MUDIS。近十年来,伴随着深度神经网络的进一步发展,各种基于深度学习的智能对话系统开始普及。众多科技公司相继推出自己的智能单人对话产品,如苹果公司用于娱乐和通话的语音助手Siri、微软的聊天机器人小冰、谷歌的语音助手Assistant和Cortana、百度的语音助手小度、亚马逊的语音助手Alexa等。然而,现阶段对话系统普遍应用于纯语音模态下单一用户的对话场景,不具备对多人混合语音进行稳定分离的能力,使得对话系统并不能分别针对多人对话语音中的每一个人进行对话。因此,在有噪声的多人对话场景中,如何使对话系统将对话时每个人的语音从混合语音中稳定分离出来,是提高对话系统多人对话能力的关键。
自20世纪中叶,人们的目光就开始探索在多人说话环境中进行语音分离。经过了几十年的发展,语音分离技术已经有了巨大的进步,语音分离从传统模型发展为深度模型,性能有了很大的提升,也应用到了人类生活起居的各个方面。但是现在大多数的语音分离模型仅适用于环境噪声较弱的对话场景。当说话人处在例如餐厅点餐等嘈杂且多人说话场景,分离模型分离多说话人语音的稳定性就会受到挑战,出现长时分离语音帧的标签排列的问题(长时间跨度语音分离时,分离的语音片段会错误的匹配到其他目标说话人)。这些问题都极大限制了对话机器人在餐厅点餐场景中的应用。
发明内容
本发明的目的在于:为了解决上述方案存在的问题,提供一种基于视听融合的多人对话点餐方法,持续采集多人点餐的对话视频,提取对话视频中每个点餐人的嘴部图像,结合嘴部图像将对话视频中的混合语音分离开,在对分离开的语音片段进行点餐人身份匹配,对进行了身份匹配的每个语音片段进行点餐关键词识别,若语音片段中包括菜名关键词,则对提取到的关键词进行文本转换,得到文本信息;若不包括,则不做处理。将输出的文本信息与包括点餐开始关键词和点餐结束关键词的知识库进行对比,若同时存在点餐开始关键词和点餐结束关键词,则点餐结束,将点餐信息转换成语音输出,由点餐人再次确认,将确认后的点餐信息传输到后厨,完成点餐。
本发明目的通过下述技术方案来实现:一种基于视听觉融合的多人对话点餐方法,包括以下步骤:
S1、数据采集:持续采集包含多个点餐人的混合语音和人脸图像的对话视频,利用每个点餐人的人脸图像,分别提取每个点餐人的嘴部图像;
S2、语音分离:结合多个点餐人的所述嘴部图像分离所述混合语音,得到多个第一语音片段;再识别出同一个点餐人对应的多个所述第一语音片段,并进行身份匹配,得到确认身份的第二语音片段;
S3、关键词识别:将所述第二语音片段进行特征提取后,输入到包括餐厅菜名和点餐关键词的声学模型和语音模型样本库的语音识别网络中进行关键词识别;若所述第二语音片段中包括菜名关键词,则将所述第二语音片段中提取到的点餐信息关键词转换为文本信息;若所述语音片段中未包括菜名关键词,则所述第二语音片段为点餐人的闲聊语音,不做处理;
S4、决策应答:利用知识库与所述文本信息中的点餐信息进行对比,对比确认结束点餐后,由点餐人再次确认,将确认后的点餐信息传输给后厨,将点餐信息转换为语音格式并输出,完成点餐;
重复步骤S1~S4,直到多个点餐人均完成点餐;
其中,所述知识库包括所述点餐关键词,所述点餐关键词包括点餐开始关键词和点餐结束关键词,当所述文本信息中同时包括所述点餐开始关键词和所述点餐结束关键词时,该点餐人结束点餐;否则,点餐未结束,继续接收该点餐人的点餐信息。
本发明的方法,持续采集多人点餐的对话视频,可以在长时间内持续接收多个点餐人的点餐信息,提高点餐服务的舒适性和便捷性。结合嘴部图像对对话视频中的混合语音进行分离,能够更准确的分离每个语音片段。利用先验特征集合对每段第一语音片段进行身份匹配,可实现长时间点餐的语音区分,将同一个点餐人不同时刻的语音片段分类到一起,实现长时间点餐识别。构建包括餐厅菜名和点餐关键词的点餐信息样本库,其中,点餐关键词包括点餐开始关键词和点餐结束关键词等与点餐有点的关键词,当第二语音片段中存在菜名关键词时,才对该第二语音片段进行处理;若第二语音片段中未包括菜名关键词,则默认该片段为点餐人的闲聊片段,与点餐无关,不对该片段进行处理,保证了点餐人的隐私同时提高了语音关键词识别的精度。
优选地,步骤S1包括:
S11、对所述对话视频进行下采样;
S12、下采样的所述对话视频经过事先训练好的人脸检测模型和脸部分类器,得到每个点餐人的脸部图像;
S13、根据每个点餐人的所述脸部图像,利用事先训练好的嘴部检测模型采集每个点餐人的嘴部图像。
优选地,步骤S2包括:
S21、分别利用语音解码器和图像解码器对所述混合语音和所述嘴部图像进行处理,得到混合语音特征和嘴部图像特征;
S22、将所述混合语音特征和所述嘴部图像特征输入事先训练好的融合网络中,进行视听特征序列融合,得到融合特征序列;
S23、将所述融合特征序列和所述混合语音输入事先训练好的分离网络中,将所述混合语音中的多个语音片段分离,得到所述第一语音片段;
S24、将所述第一语音片段与点餐人进行身份匹配,得到所述第二语音片段。
结合嘴部图像特征和混合语音特征,将视觉和听觉特征融合后再进行语音分离,能更加准确的分离混合语音中的各个语音片段。
优选地,步骤S24包括:
S241、提取所述第一语音片段的声学特征;
S242、计算所述第一语音片段的声学特征与先验特征集合中不同声学特征之间的相似度;
S243、通过判决逻辑判断所述第一语音片段的声学特征与所述先验特征集合中不同声学特征的最大相似度与阈值之间的关系,确定所述第一语音片段对应的点餐人是所述先验特征集合中已有点餐人还是新点餐人,得到所述第二语音片段;
其中,所述先验特征集合初始为空集合,随着新的点餐人的所述声学特征不断出现,先验特征集合会不断添加点餐人的所述声学特征。
提取第一语音片段的声学特征,利用已有点餐人的声学特征组成的先验特征集合对每个第一语音片段进行身份匹配;当出现新点餐人时,将其声学特征添加到先验特征集合中,今后后续的身份匹配。能够在长时间的点餐对话中,将准确地将属于同一点餐人的多个语音片段分类在一起,提升语音分离的可靠性和稳定性。
优选地,步骤S241中,通过MFCC特征提取参数方法,提取所述第一语音片段的声学特征;点餐人j的声学特征Cj为:
其中,n表示倒谱系数的阶数,m代表三角滤波器组第m个滤波器通道,Y(m)表示第m个三角带通滤波器的输出,M表示共有M个通道数。
优选地,步骤S242中,利用标准化欧式距离来计算第i个所述第一语音片段的所述声学特征Ci与所述先验特征集合中第j个声学特征Cj的相似度:
利用标准欧氏距离公式计算第i个第一语音片段的声学特征Ci与第j个点餐人的声学特征Cj特征之间的相似度,dist(Ci,Cj)的值越小,两者之间的相似度越大。
优选地,步骤S243中,所述判决逻辑为:
其中,S表示第i个所述第一语音片段特征与所述先验特征集合中的不同点餐人的先验特征Cj计算得到的最小的标准化欧氏距离,其中j=1,2,3,...n,n为先验特征集合中声学特征的总数量;当S大于设定的阈值θ时,认为分离第i个语音片段属于一个新的说话人语音,将第i个所述第一语音片段的所述声学特征添加到所述先验特征集合中;当S小于等于设定的阈值θ时,第i个语音片段与身份为j的说话人匹配,确定第i个所述第一语音片段的点餐人身份。
本发明还提供一种基于视听觉融合的多人对话点餐系统,包括:
数据采集模块,所述数据采集模块用于持续采集包括多个点餐人的混合语音和人脸图像的对话视频,并对所述对话视频进行处理,得到每个点餐人的嘴部图像;
语音分离模块,所述语音分离模块连接所述数据采集模块,用于根据所述嘴部图像和所述混合语音,将所述混合语音中的多个第一语音片段分离开;再将每个所述第一语音片段与其对应的点餐人进行匹配,得到确认了点餐人身份的第二语音片段;
关键词识别模块,所述关键词识别模块连接所述点餐人匹配模块;所述关键词识别模块用于根据包括餐厅菜名和点餐关键词的点餐信息样本库进行关键词识别,识别所述第二语音片段中是否包括餐厅菜名关键词;若包括,则将所述第二语音片段中提取到的点餐关键词转换成文本信息;若不包括,则不输出文本信息;
决策应答模块,所述决策应答模块连接所述关键词识别模块,用于将所述关键词识别模块输出的文本信息与包括点餐关键词的知识库进行对比,判断所述文本信息对应的点餐人是否点餐结束;若点餐结束,则将所述文本信息合成语音,向点餐人播放;否则,该点餐人点餐未结束,继续接收该点餐人的文本信息。
优选地,所述决策应答模块还包括扬声器,用于将所述文本信息中的点餐信息转换成语音向点餐人播放。
本发明还提供一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
前述本发明主方案及其各进一步选择方案可以自由组合以形成多个方案,均为本发明可采用并要求保护的方案;且本发明,(各非冲突选择)选择之间以及和其他选择之间也可以自由组合。本领域技术人员在了解本发明方案后根据现有技术和公知常识可明了有多种组合,均为本发明所要保护的技术方案,在此不做穷举。
本发明的有益效果:
1、本发明的方法同时采集多个点餐人的语音和图像数据,结合图像数据对混合语音进行分离,提高了混合语音分离在餐厅点餐等嘈杂且多人说话场景的稳定性,改善传统单一点餐服务,提高点餐服务的舒适性和便捷性。
2、本发明将传统视听语音分离模块和点餐人匹配模块相结合,先结合嘴部图像特征将混合语音中的语音片段分离开,再利用先验特征集合,计算语音片段的声学特征与先验特征集合中各个声学特征的相似度,使得长时间的语音点餐时,同一个点餐人语音片段能够被准确地分类到一起,解决分离长时间说话人语音片段出现分类混乱的问题,提升语音分离的可靠性和稳定性。
3、本发明利用包括餐厅菜名的语音识别模型来识别每个人的长时间点餐信息,只有在语音片段的点餐信息中包括菜名关键词时,才对语音片段进行处理。保护点餐人隐私的同时,提高了多人语音点餐功能的实时性和精确性。
附图说明
图1是本发明的方法流程图。
图2是本发明实施例的方法流程示意图。
图3是本发明实施例的数据采集流程示意图。
图4是本发明实施例的语音分离流程示意图。
图5是本发明实施例的关键词识别流程示意图。
图6是本发明实施例的决策应答流程示意图。
图7是本发明实施例的电子设备结构示意图。
具体实施方式
下列非限制性实施例用于说明本发明。
实施例
参照图1和图2,一种基于视听融合的多人对话点餐方法,具体包括以下步骤:
S1、数据采集:持续采集包含多个点餐人的混合语音和人脸图像的对话视频,利用每个点餐人的人脸图像,分别提取到每个点餐人的嘴部图像;
S11、对所述对话视频进行下采样;
S12、下采样的所述对话视频经过事先训练好的人脸检测模型和脸部分类器,得到每个点餐人的脸部图像;
S13、根据每个点餐人的所述脸部图像,利用事先训练好的嘴部检测模型采集每个点餐人的嘴部图像。
参照图3,本实施例的点餐人有两名,持续采集两位点餐人的对话视频,首先将多人对话视频流下采样到25fps,再利用事先训练好的人脸检测模型,进行人脸检测,得到两个点餐人的脸部图像帧,再利用脸部分类器,将每个点餐人对应的脸部图像帧分类在一起,最后采用事先训练好的嘴部检测模型采集每个点餐人的嘴部图像帧,并提取嘴部图像特征。
S2、语音分离:结合多个点餐人的所述嘴部图像分离所述混合语音,得到多个第一语音片段;再识别出同一个点餐人对应的多个所述第一语音片段,并进行身份匹配,得到确认身份的第二语音片段;
S21、分别利用语音解码器和图像解码器对所述混合语音和所述嘴部图像进行处理,得到混合语音特征和嘴部图像特征;
S22、将所述混合语音特征和所述嘴部图像特征输入事先训练好的融合网络中,进行视听特征序列融合,得到融合特征序列;
S23、将所述融合特征序列和所述混合语音输入事先训练好的分离网络中,将所述混合语音中的多个语音片段分离,得到所述第一语音片段;
S24、将所述第一语音片段与点餐人进行身份匹配,得到所述第二语音片段。
S241、提取所述第一语音片段的声学特征;
S342、计算所述第一语音片段的声学特征与先验特征集合中不同声学特征之间的相似度;
S423、通过判决逻辑判断所述第一语音片段的声学特征与所述先验特征集合中不同声学特征的最大相似度与阈值之间的关系,确定所述第一语音片段对应的点餐人是所述先验特征集合中已有点餐人还是新点餐人,得到所述第二语音片段;
其中,所述先验特征集合初始为空集合,随着新的点餐人的所述声学特征不断出现,先验特征集合会不断添加点餐人的所述声学特征。
参照图4,分别利用图像编码器和语音编码器对嘴部图像和混合语音进行特征提取,再利用融合网络将提取的嘴部图像特征和混合语音特征进行融合,融合后的特征输入到分离网络对混合语音进行分离,得到多个第一语音片段,即混合语音中不同点餐人的语音片段实现分离。
将分离的第一语音片段与先验特征集合进行匹配,利用相似度大小和判决逻辑来确定每个第一语音片段对应的点餐人身份。其中先验特征集合初始为空集合,随着新的点餐人的声学特征不断出现,先验特征集合添加这些点餐人的声学特征。被添加的点餐人j的声学特征是通过MFCC特征提取参数方法得到,将其记为Cj:
其中,n表示倒谱系数的阶数,m代表三角滤波器组第m个滤波器通道,Y(m)表示第m个三角带通滤波器的输出,M表示共有M个通道数。
第i个第一语音片段通过上述的MFCC方法提取声学特征,记为Ci,为了将先验特征集合中的先验特征Cj和第i个第一语音片段的声学特征进行匹配,需要计算特征向量Cj与Ci的相似度。本方法采用标准化欧式距离来计算它们的相似度:
第i个第一语音片段的特征分别与先验特征集合中的不同先验特征进行相似度计算得到最大的相似度(即最小标准化欧氏距离dist(Ci,Cj)),即可确定此第一语音片段的点餐人身份,其判定逻辑的公式如下所示:
其中,S表示第i个所述第一语音片段特征与所述先验特征集合中的不同点餐人的先验特征Cj计算得到的最小的标准化欧氏距离,其中j=1,2,3,...n,n为先验特征集合中声学特征的总数量;当S大于设定的阈值θ时,认为分离第i个语音片段属于一个新的说话人语音,将第i个所述第一语音片段的所述声学特征添加到所述先验特征集合中;当S小于等于设定的阈值θ时,第i个语音片段与身份为j的说话人匹配,确定第i个所述第一语音片段的点餐人身份。
分别计算第i个第一语音片段的声学特征与先验特征集合中的不同先验特征间的欧氏距离,其中最小的标准化欧氏距离若小于等于阈值θ,则第i个第一语音片段与最小的标准化欧式距离对应的先验特征为同一点餐人语音片段;若最小的标准化欧氏距离若大于阈值θ,则第i个第一语音片段对应的点餐人为一个新的点餐人,先验特征集合中没有能够与之匹配的声学特征,将该新点餐人的声学特征添加到先验特征集合中。
S3、关键词识别:将所述第二语音片段进行特征提取后,输入到包括餐厅菜名和点餐关键词的声学模型和语音模型样本库的语音识别网络中进行关键词识别;若所述第二语音片段中包括菜名关键词,则将所述第二语音片段中提取到的点餐信息关键词转换为文本信息;若所述语音片段中未包括菜名关键词,则所述第二语音片段为点餐人的闲聊语音,不做处理;
参照图5,首先将将匹配了点餐人的所述第二语音片段进行特征提取,本实施例先对所述第二语音片段进行预加重、分帧;然后通过FFT,即通过傅里叶变换得到对应的频谱,将频谱通过Mel滤波器组得到Mel频谱,经DCT(离散余弦变换)获得语音特征向量。
利用包括餐厅菜名和点餐关键词的声学模型和语音模型样本库的语音识别网络识别点餐语音关键词,识别到的关键词为样本库中包括的餐厅菜名和/或点餐关键词;若该第二语音片段识别到的关键词包括菜名关键词,则从该语音片段提取到的关键词会被转为文本格式输出文本信息。若不包括菜名关键词,则不输出文本信息。此语音识别网络的目标是利用声学与语言学信息,把输入的语音特征序列转化成词序列并以文本格式输出,由于使用专用样本库的语音识别网络,只有语音片段包含菜名关键词时才对将该语音片段转换成文本信息,在保护点餐人的隐私的同时提高语音关键词识别精度。
即当第二语音片段中包括菜名关键词时,才对该语音片段进行处理;否则默认该语音片段为点餐人的闲聊语音,为了保护点餐人的隐私,不对该语音片段进行处理。
S4、决策应答:利用知识库与所述文本信息中的点餐信息进行对比,对比确认结束点餐后,由点餐人再次确认,将确认后的点餐信息传输给后厨,将点餐信息转换为语音格式并输出,完成点餐;
重复步骤S1~S4,直到多个点餐人均完成点餐;
其中,所述知识库包括所述点餐关键词,所述点餐关键词包括点餐开始关键词和点餐结束关键词,当所述文本信息中同时包括所述点餐开始关键词和所述点餐结束关键词时,该点餐人结束点餐;否则,点餐未结束,继续接收该点餐人的点餐信息。
参照图6,利用知识库对文本信息中的点餐信息进行确认,确认点餐结束后,再由点餐人进行确认,将确认后的点餐信息传输到后厨。同时将确认后的文本信息作为应答文本,将应答文本合成语音并向点餐人输出,完成点餐。
综上所述,本发明的方法,可以将多个点餐人长时间的混合语音分离开来,并能准确的将分离开的语音与对应的点餐人进行匹配,将同一个点餐人的每个语音片段都进行身份匹配,再对每个语音片段进行关键词识别,只有语音片段中包括餐厅菜名时,才对语音片段进行处理,保护了点餐人的隐私。可以实现在多人对话场景中,为多个点餐人进行点餐。
本实施例还提供一种基于视听觉融合的多人对话点餐系统,包括:
数据采集模块,所述数据采集模块用于持续采集包括多个点餐人的混合语音和人脸图像的对话视频,并对所述对话视频进行处理,得到每个点餐人的嘴部图像;
本发明的数据采集模块可以持续采集多个点餐人的对话视频,同时采集多个点餐人的混合语音和人脸图像,并对采集到的人脸图像进行处理,得到每个点餐人的嘴部图像。
语音分离模块,所述语音分离模块连接所述数据采集模块,用于根据所述嘴部图像和所述混合语音,将所述混合语音中的多个第一语音片段分离开;再将每个所述第一语音片段与其对应的点餐人进行匹配,得到确认了点餐人身份的第二语音片段;
关键词识别模块,所述关键词识别模块连接所述点餐人匹配模块;所述关键词识别模块用于根据包括餐厅菜名和点餐关键词的点餐信息样本库进行关键词识别,识别所述第二语音片段中是否包括餐厅菜名关键词;若包括,则将所述第二语音片段中提取到的点餐关键词转换成文本信息;若不包括,则不输出文本信息;
决策应答模块,所述决策应答模块连接所述关键词识别模块,用于将所述关键词识别模块输出的文本信息与包括点餐关键词的知识库进行对比,确认文本信息中是否同时包括点餐开始关键词和点餐结束关键词;若包括,则点餐结束;否则,点餐人点餐未结束,继续接收该点餐人的文本信息;确认点餐结束后,将确认的文本信息合成语音,向点餐人播放。
本实施例所述的决策应答模块包括扬声器,用于将点餐信息转换成语音向点餐人播放。
参照图7,为本发明提供的电子设备结构示意图,本实施例公开了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述实施例所述的方法。输入输出接口可以包括显示器、键盘、鼠标、以及USB接口,用于输入输出数据;电源用于为电子设备提供电能。
本领域技术人员可以理解为:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等可以存储程序代码的介质。
当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
前述本发明基本例及其各进一步选择例可以自由组合以形成多个实施例,均为本发明可采用并要求保护的实施例。本发明方案中,各选择例,与其他任何基本例和选择例都可以进行任意组合。在此不做穷举,本领域技术人员可知有众多组合。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于视听觉融合的多人对话点餐方法,其特征在于,包括以下步骤:
S1、数据采集:持续采集包含多个点餐人的混合语音和人脸图像的对话视频;利用每个点餐人的人脸图像,分别提取每个点餐人的嘴部图像;
S2、语音分离:结合多个点餐人的所述嘴部图像分离所述混合语音,得到多个第一语音片段;再识别出同一个点餐人对应的多个所述第一语音片段,并进行身份匹配,得到确认身份的第二语音片段;
S3、关键词识别:将所述第二语音片段进行特征提取后,输入到包括餐厅菜名和点餐关键词的声学模型和语音模型样本库的语音识别网络中进行关键词识别;若所述第二语音片段中包括菜名关键词,则将所述第二语音片段中提取到的点餐信息关键词转换为文本信息;若所述语音片段中未包括菜名关键词,则所述第二语音片段为点餐人的闲聊语音,不做处理;
S4、决策应答:利用知识库与所述文本信息中的点餐信息进行对比,对比确认结束点餐后,由点餐人再次确认,将确认后的点餐信息传输给后厨,将点餐信息转换为语音格式并输出,完成点餐;
重复步骤S1~S4,直到多个点餐人均完成点餐;
其中,所述知识库包括所述点餐关键词,所述点餐关键词包括点餐开始关键词和点餐结束关键词,当所述文本信息中同时包括所述点餐开始关键词和所述点餐结束关键词时,该点餐人结束点餐;否则,点餐未结束,继续接收该点餐人的点餐信息;
步骤S1包括:
S11、对所述对话视频进行下采样;
S12、下采样的所述对话视频经过事先训练好的人脸检测模型和脸部分类器,得到每个点餐人的脸部图像;
S13、根据每个点餐人的所述脸部图像,利用事先训练好的嘴部检测模型采集每个点餐人的嘴部图像;
步骤S2包括:
S21、分别利用语音解码器和图像解码器对所述混合语音和所述嘴部图像进行处理,得到混合语音特征和嘴部图像特征;
S22、将所述混合语音特征和所述嘴部图像特征输入事先训练好的融合网络中,进行视听特征序列融合,得到融合特征序列;
S23、将所述融合特征序列和所述混合语音输入事先训练好的分离网络中,将所述混合语音中的多个语音片段分离,得到所述第一语音片段;
S24、将所述第一语音片段与点餐人进行身份匹配,得到所述第二语音片段。
2.根据权利要求1所述的方法,其特征在于,步骤S24包括:
S241、提取所述第一语音片段的声学特征;
S242、计算所述第一语音片段的声学特征与先验特征集合中不同声学特征之间的相似度;
S243、通过判决逻辑判断所述第一语音片段的声学特征与所述先验特征集合中不同声学特征的最大相似度与阈值之间的关系,确定所述第一语音片段对应的点餐人是所述先验特征集合中已有点餐人还是新点餐人,得到所述第二语音片段;
其中,所述先验特征集合初始为空集合,随着新的点餐人的所述声学特征不断出现,先验特征集合会不断添加点餐人的所述声学特征。
6.一种基于视听觉融合的多人对话点餐系统,其特征在于,包括:
数据采集模块,所述数据采集模块用于持续采集包括多个点餐人的混合语音和人脸图像的对话视频,并对所述对话视频进行处理,得到每个点餐人的嘴部图像;其中,所述数据采集模块对所述对话视频进行下采样;下采样的所述对话视频经过事先训练好的人脸检测模型和脸部分类器,得到每个点餐人的脸部图像;根据每个点餐人的所述脸部图像,利用事先训练好的嘴部检测模型采集每个点餐人的嘴部图像;
语音分离模块,所述语音分离模块连接所述数据采集模块,用于根据所述嘴部图像和所述混合语音,将所述混合语音分离得到多个第一语音片段;其中,所述语音分离模块分别利用语音解码器和图像解码器对所述混合语音和所述嘴部图像进行处理,得到混合语音特征和嘴部图像特征;将所述混合语音特征和所述嘴部图像特征输入事先训练好的融合网络中,进行视听特征序列融合,得到融合特征序列;将所述融合特征序列和所述混合语音输入事先训练好的分离网络中,将所述混合语音中的多个语音片段分离,得到所述第一语音片段;
点餐人匹配模块,所述点餐人匹配模块连接所述语音分离模块,用于将每个所述第一语音片段与其对应的点餐人进行匹配,得到确认了点餐人身份的第二语音片段;
关键词识别模块,所述关键词识别模块连接所述点餐人匹配模块;所述关键词识别模块用于根据包括餐厅菜名和点餐关键词的点餐信息样本库进行关键词识别,识别所述第二语音片段中是否包括餐厅菜名关键词;若包括,则将所述第二语音片段中提取到的点餐关键词转换成文本信息;若不包括,则不输出文本信息;
决策应答模块,所述决策应答模块连接所述关键词识别模块,用于将所述关键词识别模块输出的文本信息与包括点餐关键词的知识库进行对比,判断所述文本信息对应的点餐人是否点餐结束;若点餐结束,则将所述文本信息合成语音,向点餐人播放;否则,该点餐人点餐未结束,继续接收该点餐人的文本信息。
7.根据权利要求6所述的系统,其特征在于,所述决策应答模块包括扬声器,用于将所述文本信息中的点餐信息转换成语音向点餐人播放。
8.一种电子设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110647307.0A CN113571060B (zh) | 2021-06-10 | 2021-06-10 | 一种基于视听觉融合的多人对话点餐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110647307.0A CN113571060B (zh) | 2021-06-10 | 2021-06-10 | 一种基于视听觉融合的多人对话点餐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113571060A CN113571060A (zh) | 2021-10-29 |
CN113571060B true CN113571060B (zh) | 2023-07-11 |
Family
ID=78161913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110647307.0A Active CN113571060B (zh) | 2021-06-10 | 2021-06-10 | 一种基于视听觉融合的多人对话点餐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113571060B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934731A (zh) * | 2019-01-25 | 2019-06-25 | 广州富港万嘉智能科技有限公司 | 一种基于图像识别的点餐方法、电子设备及存储介质 |
CN111091824A (zh) * | 2019-11-30 | 2020-05-01 | 华为技术有限公司 | 一种语音匹配方法及相关设备 |
CN111128132A (zh) * | 2019-12-19 | 2020-05-08 | 秒针信息技术有限公司 | 语音分离方法和装置及系统、存储介质 |
CN111326143A (zh) * | 2020-02-28 | 2020-06-23 | 科大讯飞股份有限公司 | 语音处理方法、装置、设备及存储介质 |
CN112906544A (zh) * | 2021-02-07 | 2021-06-04 | 广东电网有限责任公司广州供电局 | 一种适用于多目标的基于声纹和人脸的匹配方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10878824B2 (en) * | 2018-02-21 | 2020-12-29 | Valyant Al, Inc. | Speech-to-text generation using video-speech matching from a primary speaker |
-
2021
- 2021-06-10 CN CN202110647307.0A patent/CN113571060B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934731A (zh) * | 2019-01-25 | 2019-06-25 | 广州富港万嘉智能科技有限公司 | 一种基于图像识别的点餐方法、电子设备及存储介质 |
CN111091824A (zh) * | 2019-11-30 | 2020-05-01 | 华为技术有限公司 | 一种语音匹配方法及相关设备 |
CN111128132A (zh) * | 2019-12-19 | 2020-05-08 | 秒针信息技术有限公司 | 语音分离方法和装置及系统、存储介质 |
CN111326143A (zh) * | 2020-02-28 | 2020-06-23 | 科大讯飞股份有限公司 | 语音处理方法、装置、设备及存储介质 |
CN112906544A (zh) * | 2021-02-07 | 2021-06-04 | 广东电网有限责任公司广州供电局 | 一种适用于多目标的基于声纹和人脸的匹配方法 |
Non-Patent Citations (4)
Title |
---|
"Audio-visual speech modeling for continuous speech recognition";Dupont S;《IEEE transactions on multimedia》;全文 * |
"会议室环境下基于音频视频信息融合的多说话人识别";潘鹏;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 * |
Afouras."Deep audio-visual speech recognition".《IEEE transactions on pattern analysis and machine intelligence》.2018,全文. * |
混响环境中的视-听语音识别;万书婷;曾向阳;王强;;电声技术(12);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113571060A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Speech emotion recognition with dual-sequence LSTM architecture | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
EP3791392A1 (en) | Joint neural network for speaker recognition | |
CN110853646B (zh) | 会议发言角色的区分方法、装置、设备及可读存储介质 | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
CN110049270A (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
JP6469252B2 (ja) | アカウント追加方法、端末、サーバ、およびコンピュータ記憶媒体 | |
CN107112006A (zh) | 基于神经网络的语音处理 | |
CN112102850B (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
Tao et al. | End-to-end audiovisual speech activity detection with bimodal recurrent neural models | |
WO2021082941A1 (zh) | 视频人物识别方法、装置、存储介质与电子设备 | |
CN111462758A (zh) | 智能会议角色分类的方法、装置、设备及存储介质 | |
CN111461173A (zh) | 一种基于注意力机制的多说话人聚类系统及方法 | |
CN116070169A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN112183107A (zh) | 音频的处理方法和装置 | |
CN111048099A (zh) | 声音源的识别方法、装置、服务器及存储介质 | |
Kadyrov et al. | Speaker recognition from spectrogram images | |
KR102220964B1 (ko) | 오디오 인식을 위한 방법 및 디바이스 | |
CN113571060B (zh) | 一种基于视听觉融合的多人对话点餐方法及系统 | |
WO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、および記録媒体 | |
Hussain et al. | An improved acoustic scene classification method using convolutional neural networks (CNNs) | |
CN114360491B (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN113035230B (zh) | 认证模型的训练方法、装置及电子设备 | |
CN115691539A (zh) | 基于视觉导引的两阶段语音分离方法及系统 | |
Churaev et al. | Multi-user facial emotion recognition in video based on user-dependent neural network adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |