CN110288016B - 一种多模态意图融合方法及应用 - Google Patents

一种多模态意图融合方法及应用 Download PDF

Info

Publication number
CN110288016B
CN110288016B CN201910544626.1A CN201910544626A CN110288016B CN 110288016 B CN110288016 B CN 110288016B CN 201910544626 A CN201910544626 A CN 201910544626A CN 110288016 B CN110288016 B CN 110288016B
Authority
CN
China
Prior art keywords
intention
voice
user
sensor
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910544626.1A
Other languages
English (en)
Other versions
CN110288016A (zh
Inventor
冯志全
李健
冯仕昌
徐涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN201910544626.1A priority Critical patent/CN110288016B/zh
Publication of CN110288016A publication Critical patent/CN110288016A/zh
Application granted granted Critical
Publication of CN110288016B publication Critical patent/CN110288016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种多模态意图融合方法,通过传感器获取用户的声音信息和视觉信息;利用意图感知算法将获取的声音信息转化为若干语音意图,将视觉信息转化为操作意图;通过语音意图竞争确定用户真实语音意图;将操作意图作用于样本图像,并在屏幕上呈现操作结果;判断用户真实操作意图;构建系统反馈规则库,根据用户的真实操作意图和真实语音意图,查询并输出相应的系统反馈,指导用户操作。本发明还公开了一种虚拟显微镜,利用上述多模态意图融合方法,包括输入模块、控制模块和输出模块,使设备能够感知用户的真正意图,给出相应的反馈指导,有效的减少了用户误操作次数,方便用户更好的完成显微镜操作实验。

Description

一种多模态意图融合方法及应用
技术领域
本发明涉及信息融合领域,具体涉及一种多模态意图融合方法及应用。
背景技术
虚拟实验是人机交互的典型应用场景,但在大多数的虚拟实验的交互场景中,不能将操作命令扩展,这是由于单通的交互方式并不能完全体现用户的交互意图。同样的局限也体现在传统的显微镜操作实验中,传统的方法存在无法感知操作者的意图和用户进行交互的问题。
而多通道信息的融合(或称为多模态信息融合)的目的是为了构建更加符合人的认知模式的人机交互方式,从而进行更加高效自然的人机交互。
但是,在用户真实操作过程中,当一个意图产生后,用户并不会马上进行操作,而期间可能操作者又产生了一个新的意图,因此难以获取用户的真实意图。
发明内容
为了解决上述技术问题,本发明提供了一种多模态意图融合方法及应用,使设备能够感知用户的真实意图,针对实验过程中用户的真实意图给出相应的反馈指导。
为实现上述目的,本发明采用以下技术方案:
一种多模态意图融合方法,其特征是,
通过传感器获取用户的声音信息和视觉信息;
利用意图感知算法将获取的声音信息转化为若干语音意图,将视觉信息转化为操作意图;
通过语音意图竞争确定用户真实语音意图;
将操作意图作用于样本图像,并在屏幕上呈现操作结果;
判断用户真实操作意图;
构建系统反馈规则库,根据用户的真实操作意图和真实语音意图,查询并输出相应的系统反馈,指导用户操作。
进一步地,声音信息转化为若干语音意图的具体方法为:
1)根据用户可能的表达,构建意图集;
2)对获取的声音信息进行语音识别,将语音转换成若干文字语句;
3)比较所转换的文字语句与意图集中句子的相似度:
Sim(S1,S2)=β1·β2
Figure BDA0002103595570000021
β2=a1Sim1(B11,B21)+a2|Sim2(B12,B22)|+a3Sim3(B13,B23)
其中,S1为转换的文字语句,S2为意图集中具体句子,Sim(S1,S2)表示转换的文字语句与意图集中句子的相似度;β1表示相似度调节系数,β2表示语义相似度值;
Figure BDA0002103595570000022
表示句子成分系数,
Figure BDA0002103595570000023
值为2*i/(m+n),m和n分别表示S1和S2所含的成分个数,i表示S1和S2中相对应成分的个数;γ为否定系数,当S1和S2中出现反义词或对异词时,γ为-1;
Sim1(B11,B21)表示主语成分相似度,Sim2(B12,B22)表示谓语成分相似度,Sim3(B13,B23)表示宾语成分相似度,B11、B21分别指S1和S2中的主语成分,B12、B22分别指S1和S2中的谓语成分,B13、B23分别指S1和S2中的宾语成分,a1,a2,a3分别表示主语成分、谓语成分和宾语成分的权重系数,a1为0,a2为0.7,a3为0.3;
4)相似度最高意图为该句的语音意图:
Figure BDA0002103595570000033
I0=1-max(I1,I2,I3,...,In)
I=max(I0,I1,I2,I3,...,In)
Ii表示该句语音意图为意图集中第i个句子对应语音意图的意图强度,S2 i表示意图集中第i个句子,I0表示当前意图为空的意图强度;
意图强度最大值对应当前的语音意图,且其数值为意图强度I。
进一步地,所述语音意图竞争模块通过意图产生的时间对意图强度I进行修正,修正值最大的语音意图为用户真实语音意图;
意图强度I相对于时间的修正值T为:
Figure BDA0002103595570000031
其中,t为意图产生的时间,δ为经验参数。
进一步地,视觉信息转化为操作意图的具体步骤为:
传感器获取标识片图像,通过颜色分割将标识区域分割出来;
计算标识区域重心点和边缘信息,根据标识区域重心点的坐标位置和坐标变化,判断用户的操作意图。
进一步地,所述判断用户真实操作意图的步骤具体为:
选取语音意图产生前后的时间段T’,该时间段内视觉传感器在每一帧返回一个操作意图,每一帧操作意图的相关性表示为:
Figure BDA0002103595570000032
O=ω·M
其中,ω表示每一帧操作意图的相关性,μ=0,σ2=10,T’时间段内的操作意图为60个时,t的取值范围为(-31,30),O表示真实的操作意图向量,M为60x6维矩阵,记录的是60帧的操作意图独热编码,O中最大值所对应的意图为用户真实操作意图。
本发明还提供了一种虚拟显微镜,利用上述多模态意图融合方法,其特征是,包括输入模块、控制模块和输出模块;
所述输入模块包括声音传感器和视觉传感器,用于获取用户的声音信息和视觉信息;所述视觉传感器包括物镜传感器、粗准焦螺旋传感器、细准焦螺旋传感器和转换器传感器;
所述控制模块包括语音识别模块、语音意图感知模块、语音意图竞争模块、操作识别模块、操作意图竞争模块和多模态意图融合模块;
所述语音识别模块对声音传感器获取的声音信息进行语音识别,转换成文字信息;
所述语音意图感知模块将转换的文字信息与意图集中句子比较,确定用户语音意图;
所述语音意图竞争模块根据语音意图产生时间修正用户意图强度,比较多个语音意图的修正意图强度,确定用户真实语音意图;
所述操作识别模块根据视觉传感器的返回数据确定用户操作意图;
所述操作意图竞争模块根据用户语音意图的时间约束,确定用户真实操作意图;
所述多模态意图融合模块定义系统反馈规则库,根据用户真实语音意图和真实操作意图,在定义的规则库中查找对应的规则,进行相应的操作提示反馈;
所述输出模块包括视觉呈现模块和操作导航模块,所述视觉呈现模块通过屏幕呈现经过操作意图处理的样本图像;所述操作导航模块输出操作提示。
进一步地,所述物镜传感器包括手机、第一相机、第一光源和镜筒,用于识别不同的样本,检测样本的移动与旋转;
所述手机固定在镜筒顶部,用于显示样本图像;
所述第一相机对准镜筒底部中心位置,焦点聚焦于镜筒底部;
所述物镜传感器观察的载玻片正面中心位置固定第一标识片,反面固定二维码图像,通过所述二维码图像可以查找样本图像库中的原始样本图像;
所述物镜传感器通过颜色分割将获取到的第一标识片图像中标识区域分割出来,计算标识区域的重心点和边缘信息,将得到的重心点坐标通过映射变换通过映射变化转换为样本图像上的坐标点,以该坐标点为中心进行圆形切割,得到样本图像的部分区域;根据标识区域的边缘信息通过概率霍夫变换得到标识图像最长的线段,求该线段斜率得到当前第一标识片的旋转角度,并通过仿射变化作用于原始样本图像上。
进一步地,所述粗准焦螺旋传感器、细准焦螺旋传感器和转换器传感器包括第二相机、密封桶、第二光源、第二标识片、旋转台和旋转轴,用于调节样本图像的清晰度和放大倍数;
所述密封桶底部连接旋转台,构成一密闭空间,第二相机、第二光源安装于密封桶内,第二相机正对旋转台中心的旋转轴,所述密封桶内部为黑色,所述第二标识片固定在旋转台上,位于密封桶内侧。
进一步地,所述转换器传感器通过颜色分割将获取到的第二标识片图像中标识区域分割出来,计算标识区域的重心点,将第二标识片图像分成4个区域,每个区域对应不同的放大倍数,根据重心点所落区域确定放大倍数,通过仿射变化作用于原始样本图像上。
进一步地,所述粗准焦螺旋传感器和细准焦螺旋传感器通过颜色分割将获取到的第二标识片图像中标识区域分割出来,计算标识区域的重心点和边缘信息,根据重心点坐标和图像中心坐标计算出当前帧的方向向量P,计算出转动的角度θ,得到转动的角度和方向后,得到一个模糊程度的表达Blur;
Pi=(x,y)为i时刻第二标识片的方向向量,
Figure BDA0002103595570000061
旋转的方向由Pi×Pi-1的符号决定,符号为正代表旋转方向顺时针旋转,符号为负则表示逆时针旋转;
Bluri=Bluri-1+dλθ
Blur i表示第i时刻的模糊程度,当i=0时,Blur0为0-30之间的随机数;
其中,d表示当前旋转的方向是否与规定的图像变清晰的方向一致,如果一致则d=-1如果不一致d=1,λ用来表示变化的程度,在粗准焦螺传感器中λ=2,在细准焦螺旋传感器中λ=0.2,Blur的最小值为0。
本发明的有益效果是:
本发明通过一种基于多模态意图融合方法的虚拟显微镜,提供了新的传感与多模态意图理解模型,使设备能够感知用户的真正意图,针对实验过程中用户的真实意图给出相应的反馈指导,有效的减少了用户误操作次数,大大降低了用户的操作负担和认知负担,方便用户更好的完成显微镜操作实验。
附图说明
图1是本发明虚拟显微镜模块结构示意图;
图2是本发明物镜传感器结构示意图;
图3是本发明物镜传感器观察的载玻片正面示意图;
图4是本发明物镜传感器观察的载玻片反面示意图;
图5是本发明粗细准焦螺旋、转换器传感器结构示意图;
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
本发明提供了一种多模态意图融合方法,通过传感器获取用户的声音信息和视觉信息;利用意图感知算法将获取的声音信息转化为若干语音意图,将视觉信息转化为操作意图;通过语音意图竞争确定用户真实语音意图;将操作意图作用于样本图像,并在屏幕上呈现操作结果;判断用户真实操作意图;构建系统反馈规则库,根据用户的真实操作意图和真实语音意图,查询并输出相应的系统反馈,指导用户操作。
结合该方法,本发明实施例提供了一种虚拟显微镜,如图1所示,虚拟显微镜包括输入模块、控制模块和输出模块;
所述输入模块包括声音传感器和视觉传感器,用于获取用户的声音信息和视觉信息;所述视觉传感器包括物镜传感器、粗准焦螺旋传感器、细准焦螺旋传感器和转换器传感器;
所述控制模块包括语音识别模块、语音意图感知模块、语音意图竞争模块、操作识别模块、操作意图竞争模块和多模态意图融合模块;
所述语音识别模块对声音传感器获取的声音信息进行语音识别,转换成文字信息;
所述语音意图感知模块将转换的文字信息与意图集中句子比较,确定用户语音意图;
所述语音意图竞争模块根据语音意图产生时间修正用户意图强度,比较多个语音意图的修正意图强度,确定用户真实语音意图;
所述操作识别模块根据视觉传感器的返回数据确定用户操作意图;
所述操作意图竞争模块根据用户语音意图的时间约束,确定用户真实操作意图;
所述多模态意图融合模块定义系统反馈规则库,根据用户真实语音意图和真实操作意图,在定义的规则库中查找对应的规则,进行相应的操作提示反馈;
所述输出模块包括视觉呈现模块和操作导航模块,所述视觉呈现模块通过屏幕呈现经过操作意图处理的样本图像;所述操作导航模块输出操作提示。
图2为物镜传感器的结构示意图,物镜传感器包括手机1、第一相机2、第一光源3和镜筒4,手机1固定在镜筒4顶部,用于显示样本图像;所述第一相机2对准镜筒4底部中心位置,焦点聚焦于镜筒4底部。
图3为物镜传感器所要观察的载玻片正面示意图,载玻片5中心位置固定第一标识片6,第一标识片6用于检测样本的移动与旋转。
图4为物镜传感器所要观察的载玻片反面示意图,载玻片5反面固定二维码图像7,二维码图像7用于识别不同的样本。
在样本图像库中查找所识别到的原始样本图像。通过相机获取标识片图像,然后通过颜色分割将矩形标识区域分割出来,计算标识区域的重心点和边缘信息,将得到的重心点坐标通过映射变换通过映射变化转换为样本图像上的坐标点,以该坐标点为中心进行圆形切割,得到样本图像的部分区域;根据标识区域的边缘信息通过概率霍夫变换得到标识图像最长的线段,求该线段斜率得到当前第一标识片的旋转角度,并通过仿射变化作用于原始样本图像上。
图5为粗细准焦螺旋、转换器传感器的结构示意图,包括第二相机8、密封桶9、第二光源10、第二标识片11、旋转台12和旋转轴13。所述密封桶9底部连接旋转台12,构成一密闭空间,第二相机8、第二光源10安装于密封桶9内,第二相机8正对旋转台12中心的旋转轴13,所述密封桶9内部为黑色,所述第二标识片11固定在旋转台12上,位于密封桶9内侧。
转换器传感器同样经过了标识的分割和重心点的获取,然后将第二标识片图像分成了4个区域,根据重心的落点不同对应于不同的放大倍数,通过仿射变化作用于样本图像。
粗、细准焦螺旋传感器经过了标识的分割和重心点的获取,据重心点坐标和图像中心坐标计算出当前帧的方向向量,然后计算出转动的角度θ,得到转动的角度和方向后,计算得到一个模糊程度的表达,粗细准焦螺旋的区别在于参数λ不一致。
涉及公式包括:
Pi=(x,y)
Figure BDA0002103595570000101
Bluri=Bluri-1+dλθ
Pi=(x,y)为i时刻第二标识片的方向向量,旋转的方向由Pi×Pi-1的符号决定,符号为正代表旋转方向顺时针旋转,符号为负则表示逆时针旋转;
Blur i表示第i时刻的模糊程度,当i=0时,Blur0为0-30之间的随机数;
其中,d表示当前旋转的方向是否与规定的图像变清晰的方向一致,如果一致则d=-1如果不一致d=-1,λ用来表示变化的程度,在粗准焦螺传感器中λ=2,在细准焦螺旋传感器中λ=0.2。Blur的最小值为0即此时最清晰,如果继续向着开始规定的图像变清晰方向转动,则将规定方向取反。
根据上述视觉传感器的数据控制图像变换,并在视觉呈现模块呈现,同时,对用户操作意图规定如下:
(1)如果物镜传感器没有获取到标识片的重心坐标,那么物镜传感器返回值为0,否则物镜传感器的返回值设为1。
(2)如果Bluri-Bluri-1>0粗、细准焦螺旋传感器返回值为0,如果Bluri-Bluri-1<0则返回值为1。
(3)转动传感器的返回值为其放大倍数X。
根据上述规定,对应的操作者操作意图如表1所示:
表1传感器的数据对应操作者的操作意图
Figure BDA0002103595570000102
Figure BDA0002103595570000111
上述视觉传感器反映当前人手的操作情况,声音传感器吹街表达用户的意图。
首先,针对显微镜操作实验中人们可能的意图构建意图集,在整个实验场景中可以分为4类意图,分别是“想要观察到样本”,“想要看清晰样本”,“放大X倍”或者当前的意图为空。
使用的科大讯飞的SDK将操作者的语音输入直接转换成一段文字,利用Google在2013年开源的用于计算词向量的工具word2vec模型得到词语相似度,将句子的结构信息添加到句子相似度计算中,借助哈尔滨工业大学的语言技术平台LTP确定中心词和句子成分,利用word2vec计算句子的相似度公式如下:
Sim(S1,S2)=β1·β2
Figure BDA0002103595570000112
β2=a1Sim1(B11,B21)+a2|Sim2(B12,B22)|+a3Sim3(B13,B23)
其中,S1为转换的文字语句,S2为意图集中具体句子,Sim(S1,S2)表示转换的文字语句与意图集中句子的相似度;β1表示相似度调节系数,β2表示语义相似度值;
β1中包含2个具体参数,
Figure BDA0002103595570000113
和γ,
Figure BDA0002103595570000114
表示句子成分系数,
Figure BDA0002103595570000115
值为2*i/(m+n),m和n分别表示S1和S2所含的成分个数,i表示S1和S2中相对应成分的个数;γ为否定系数,当S1和S2中出现反义词或对异词时,γ为-1;因此句子的相似度为-1时说明两个句子意思相反。
由于一个句子经过句法分析被划分3个部分,因此β2的值由Sim1(B11,B21),Sim2(B12,B22),Sim3(B13,B23)3个部分构成,Sim1(B11,B21)表示主语成分相似度,Sim2(B12,B22)表示谓语成分相似度,Sim3(B13,B23)表示宾语成分相似度,B11、B21分别指S1和S2中的主语成分,B12、B22分别指S1和S2中的谓语成分,B13、B23分别指S1和S2中的宾语成分,a1,a2,a3分别表示主语成分、谓语成分和宾语成分的权重系数,根据句子成分贡献度和实践经验得,a1为0,a2为0.7,a3为0.3;
当用户语音输入时,其真实意图即为输入语句与意图集中意图相似度最高的意图,那么此时的意图强度可以用下面的式子表示:
Figure BDA0002103595570000121
I0=1-max(I1,I2,I3)
其中,S1为用户语音输入的句子,
Figure BDA0002103595570000122
对应着意图集中的三种意图,分别为“想要观察到样本”,“想要看清晰样本”,“想要放大样本”和“想要缩小样本”,I0表示当前为空意图的强度。那么I0,I1,I2,I3中的最大者表示当前的意图,且其数值为意图强度I。
真实操作过程中,当一个意图产生后,用户并不会马上进行操作,而期间可能操作者又产生了一个新的意图,因此,采用意图竞争算法确定用户的真实意图,意图的存在不是瞬时的,而是会持续一个时间段,意图强度随着时间的增加而递减,因此,语音意图竞争模块通过意图产生的时间对意图强度I进行修正,修正值最大的语音意图为用户真实语音意图;
意图强度I相对于时间的修正值T为:
Figure BDA0002103595570000123
其中,t为意图产生的时间,δ为经验参数。意图刚产生时t为0,意图强度T=1。当一段时间内存在多个意图时,比较各自T的大小,T值最大的为当前时刻的真实意图,同时将其他意图清空。
在多通道融合的交互模式下,机器不仅要准确的感知操作者当前的语音意图和操作意图,还要需要整合这两个图通的意图并主动指导操作者操作。与单通道交互方式不同,多通道交互中各个通道信息是同时输入的,其输入流是并行结构而不是串行结构,一般而言不同通道的输入信息格式也不是统一的,会存在差异,这就造成了关于时间以及语义的复杂性。
为了将不同通道的输入信息进行统一描述,将用户的语音输入和视觉传感器信号转换为对应的语音意图和操作意图。随后,我们根据显微镜操作实验中的任务和功能定义系统的反馈规则库如表2所示:
表2系统反馈规则库
Figure BDA0002103595570000131
其中,S1:继续当前操作;
S2:请将样本放置载物台中心位置;
S3:请调节粗细准焦螺旋;
S4:请调节转换器;
S5:请向反方向转动。
在此规则下,当用户说“我想看清晰的样本图像”时,系统需要根据操作者当前的操作意图来做出相应的反馈,如果当前并没有样本,此时的操作意图为“0:未观察到样本”,根据表2系统会提示用户需要先将样本放置到载物台中心,如果当前操作者调节的图像越来越模糊,那么此时的操作意图为“2:样本变模糊”,根据表2系统将提示操作者将向反方向转动。
在实际的操作者的语音意图和操作意图产生的时间对规则库的查找有很大的影响,由于多通道信息是并行输入的,且语音意图的判断是在操作者说完一句话之后才产生的,而操作意图在视觉传感器开启时每一帧都会返回一个操作意图,如果简单地将语音意图产生是的后一帧或者前一帧操作意图当做操作者的真实操作意图,由于操作过程中可能存在噪声数据,这样的处理方法容易造成规则库查找出错的情况,因此需要对语音意图产生时的操作意图进行一定的约束。我们需要一个时间阈值T’作为判断T’时段内每一帧的操作意图是否和真实操作意图有关,若操作意图不在范围内则其对此时段内的用户真实操作意图不造成影响,反之在T’时段内的操作意图都与用户的真实操作意图有关。在本实施例中我们将T’取为2S,由语音意图产生前1S与产生后1S组成,即在视觉传感器设备参数为30fps的条件下,那么T’时段内的操作意图为60个。
除了时间约束之外,我们还需要在这60个操作意图中提取出操作者的真正意图。操作意图和语音意图的相关性服从正态分布,语音意图刚产生时的操作意图最有可能表示操作者的真实意图。我们先将可能的操作意图进行独热编码,那么每一个操作意图就表示为一个6维向量,每一帧操作意图的相关性为:
Figure BDA0002103595570000141
O=ω·M
其中μ=0,σ2=10,t的取值范围为(-31,30),O为真实的操作意图向量,M为60x6维矩阵记录的是60帧的操作意图独热编码,最终的真实操纵意图为O中最大值所对应的意图。
至此,我们已经可以得到了操作者的真实语音意图和真正操作意图,接下来就可以根据真实的意图,得到相应的反馈,整体的算法步骤如下:
Step1.建立一个空队列Q保存系统最近30帧的操作意图;
Step2.判断当前帧的操作意图,如果操作队列Q不满,则将操作意图插入队列末,否则队首元素出队后再进行插入;判断当前的语音的真实意图,如果非空,转Step3;否则,执行下一次循环;
Step3.将语音意图产生后的30帧操作意图拼接至队列Q的末尾,根据O=ω·M得到操作者的真实操作意图;
Step4.根据Step2中得到的语音意图和Step3中得到的操作意图,在定义的规则库中查找对应的规则,随后进行相应的反馈。
通过这种方法,可以很好的避免操作中噪声数据的影响,而且理论上在检测到语音意图1S后系统的语音提示就会开始播报,具有良好的实时性。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种多模态意图融合方法,其特征是,
通过传感器获取用户的声音信息和视觉信息;
利用意图感知算法将获取的声音信息转化为若干语音意图,将视觉信息转化为操作意图;
通过语音意图竞争确定用户真实语音意图;
将操作意图作用于样本图像,并在屏幕上呈现操作结果;
判断用户真实操作意图;
所述判断用户真实操作意图的步骤具体为:
选取语音意图产生前后的时间段T’,该时间段内视觉传感器在每一帧返回一个操作意图,每一帧操作意图的相关性表示为:
Figure FDA0003161795220000011
O=ω·M
其中,ω表示每一帧操作意图的相关性,μ=0,σ2=10,T’时间段内的操作意图为60个时,t的取值范围为(-31,30),O表示真实的操作意图向量,M为60x6维矩阵,记录的是60帧的操作意图独热编码,O中最大值所对应的意图为用户真实操作意图;
构建系统反馈规则库,根据用户的真实操作意图和真实语音意图,查询并输出相应的系统反馈,指导用户操作。
2.根据权利要求1所述的一种多模态意图融合方法,其特征是,声音信息转化为若干语音意图的具体方法为:
1)根据用户可能的表达,构建意图集;
2)对获取的声音信息进行语音识别,将语音转换成若干文字语句;
3)比较所转换的文字语句与意图集中句子的相似度:
Sim(S1,S2)=β1·β2
Figure FDA0003161795220000021
β2=a1Sim1(B11,B21)+a2|Sim2(B12,B22)|+a3Sim3(B13,B23)
其中,S1为转换的文字语句,S2为意图集中具体句子,Sim(S1,S2)表示转换的文字语句与意图集中句子的相似度;β1表示相似度调节系数,β2表示语义相似度值;
Figure FDA0003161795220000022
表示句子成分系数,
Figure FDA0003161795220000023
值为2*i/(m+n),m和n分别表示S1和S2所含的成分个数,i表示S1和S2中相对应成分的个数;γ为否定系数,当S1和S2中出现反义词或对异词时,γ为-1;
Sim1(B11,B21)表示主语成分相似度,Sim2(B12,B22)表示谓语成分相似度,Sim3(B13,B23)表示宾语成分相似度,B11、B21分别指S1和S2中的主语成分,B12、B22分别指S1和S2中的谓语成分,B13、B23分别指S1和S2中的宾语成分,a1,a2,a3分别表示主语成分、谓语成分和宾语成分的权重系数,a1为0,a2为0.7,a3为0.3;
4)相似度最高意图为该句的语音意图:
Figure FDA0003161795220000024
I0=1-max(I1,I2,I3,...,In)
I=max(I0,I1,I2,I3,...,In)
Ii表示该句语音意图为意图集中第i个句子对应语音意图的意图强度,S2 i表示意图集中第i个句子,I0表示当前意图为空的意图强度;
意图强度最大值对应当前的语音意图,且其数值为意图强度I。
3.根据权利要求2所述的一种多模态意图融合方法,其特征是,所述语音意图竞争模块通过意图产生的时间对意图强度I进行修正,修正值最大的语音意图为用户真实语音意图;
意图强度I相对于时间的修正值T为:
Figure FDA0003161795220000031
其中,t为意图产生的时间,δ为经验参数。
4.根据权利要求1所述的一种多模态意图融合方法,其特征是,视觉信息转化为操作意图的具体步骤为:
传感器获取标识片图像,通过颜色分割将标识区域分割出来;
计算标识区域重心点和边缘信息,根据标识区域重心点的坐标位置和坐标变化,判断用户的操作意图。
5.一种虚拟显微镜,利用权利要求1-4所述的多模态意图融合方法,其特征是,包括输入模块、控制模块和输出模块;
所述输入模块包括声音传感器和视觉传感器,用于获取用户的声音信息和视觉信息;所述视觉传感器包括物镜传感器、粗准焦螺旋传感器、细准焦螺旋传感器和转换器传感器;
所述控制模块包括语音识别模块、语音意图感知模块、语音意图竞争模块、操作识别模块、操作意图竞争模块和多模态意图融合模块;
所述语音识别模块对声音传感器获取的声音信息进行语音识别,转换成文字信息;
所述语音意图感知模块将转换的文字信息与意图集中句子比较,确定用户语音意图;
所述语音意图竞争模块根据语音意图产生时间修正用户意图强度,比较多个语音意图的修正意图强度,确定用户真实语音意图;
所述操作识别模块根据视觉传感器的返回数据确定用户操作意图;
所述操作意图竞争模块根据用户语音意图的时间约束,确定用户真实操作意图;
所述多模态意图融合模块定义系统反馈规则库,根据用户真实语音意图和真实操作意图,在定义的规则库中查找对应的规则,进行相应的操作提示反馈;
所述输出模块包括视觉呈现模块和操作导航模块,所述视觉呈现模块通过屏幕呈现经过操作意图处理的样本图像;所述操作导航模块输出操作提示。
6.根据权利要求5所述的一种虚拟显微镜,其特征是,所述物镜传感器包括手机、第一相机、第一光源和镜筒,用于识别不同的样本,检测样本的移动与旋转;
所述手机固定在镜筒顶部,用于显示样本图像;
所述第一相机对准镜筒底部中心位置,焦点聚焦于镜筒底部;
所述物镜传感器观察的载玻片正面中心位置固定第一标识片,反面固定二维码图像,通过所述二维码图像可以查找样本图像库中的原始样本图像;
所述物镜传感器通过颜色分割将获取到的第一标识片图像中标识区域分割出来,计算标识区域的重心点和边缘信息,将得到的重心点坐标通过映射变换通过映射变化转换为样本图像上的坐标点,以该坐标点为中心进行圆形切割,得到样本图像的部分区域;根据标识区域的边缘信息通过概率霍夫变换得到标识图像最长的线段,求该线段斜率得到当前第一标识片的旋转角度,并通过仿射变化作用于原始样本图像上。
7.根据权利要求5所述的一种虚拟显微镜,其特征是,所述粗准焦螺旋传感器、细准焦螺旋传感器和转换器传感器包括第二相机、密封桶、第二光源、第二标识片、旋转台和旋转轴,用于调节样本图像的清晰度和放大倍数;
所述密封桶底部连接旋转台,构成一密闭空间,第二相机、第二光源安装于密封桶内,第二相机正对旋转台中心的旋转轴,所述密封桶内部为黑色,所述第二标识片固定在旋转台上,位于密封桶内侧。
8.根据权利要求7所述的一种虚拟显微镜,其特征是,所述转换器传感器通过颜色分割将获取到的第二标识片图像中标识区域分割出来,计算标识区域的重心点,将第二标识片图像分成4个区域,每个区域对应不同的放大倍数,根据重心点所落区域确定放大倍数,通过仿射变化作用于原始样本图像上。
9.根据权利要求7所述的一种虚拟显微镜,其特征是,所述粗准焦螺旋传感器和细准焦螺旋传感器通过颜色分割将获取到的第二标识片图像中标识区域分割出来,计算标识区域的重心点和边缘信息,根据重心点坐标和图像中心坐标计算出当前帧的方向向量P,计算出转动的角度θ,得到转动的角度和方向后,得到一个模糊程度的表达Blur;
Pi=(x,y)为i时刻第二标识片的方向向量,
Figure FDA0003161795220000051
旋转的方向由Pi×Pi-1的符号决定,符号为正代表旋转方向顺时针旋转,符号为负则表示逆时针旋转;
Bluri=Bluri-1+dλθ
Bluri表示第i时刻的模糊程度,当i=0时,Blur0为0-30之间的随机数;
其中,d表示当前旋转的方向是否与规定的图像变清晰的方向一致,如果一致则d=-1如果不一致d=1,λ用来表示变化的程度,在粗准焦螺传感器中λ=2,在细准焦螺旋传感器中λ=0.2,Blur的最小值为0。
CN201910544626.1A 2019-06-21 2019-06-21 一种多模态意图融合方法及应用 Active CN110288016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910544626.1A CN110288016B (zh) 2019-06-21 2019-06-21 一种多模态意图融合方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910544626.1A CN110288016B (zh) 2019-06-21 2019-06-21 一种多模态意图融合方法及应用

Publications (2)

Publication Number Publication Date
CN110288016A CN110288016A (zh) 2019-09-27
CN110288016B true CN110288016B (zh) 2021-09-28

Family

ID=68004258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910544626.1A Active CN110288016B (zh) 2019-06-21 2019-06-21 一种多模态意图融合方法及应用

Country Status (1)

Country Link
CN (1) CN110288016B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377899A (zh) * 2020-03-09 2021-09-10 华为技术有限公司 意图识别方法及电子设备
CN111709969A (zh) * 2020-06-17 2020-09-25 济南大学 仿真实验中分液漏斗的操控识别装置及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997236A (zh) * 2016-01-25 2017-08-01 亮风台(上海)信息科技有限公司 基于多模态输入进行交互的方法和设备
CN107239139A (zh) * 2017-05-18 2017-10-10 刘国华 基于正视的人机交互方法与系统
CN108197115A (zh) * 2018-01-26 2018-06-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN108334199A (zh) * 2018-02-12 2018-07-27 华南理工大学 基于增强现实的移动式多模态交互方法及装置
CN109495724A (zh) * 2018-12-05 2019-03-19 济南大学 一种基于视觉感知的虚拟显微镜及其应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997236A (zh) * 2016-01-25 2017-08-01 亮风台(上海)信息科技有限公司 基于多模态输入进行交互的方法和设备
CN107239139A (zh) * 2017-05-18 2017-10-10 刘国华 基于正视的人机交互方法与系统
CN108197115A (zh) * 2018-01-26 2018-06-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN108334199A (zh) * 2018-02-12 2018-07-27 华南理工大学 基于增强现实的移动式多模态交互方法及装置
CN109495724A (zh) * 2018-12-05 2019-03-19 济南大学 一种基于视觉感知的虚拟显微镜及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于多模态信息融合的语义意图理解方法";郑彬彬等;《中国科技论文在线》;20110731;第6卷(第7期);第495-500页 *

Also Published As

Publication number Publication date
CN110288016A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
Shillingford et al. Large-scale visual speech recognition
Prajwal et al. Sub-word level lip reading with visual attention
US20200167555A1 (en) Automatic Body Movement Recognition and Association System
EP3665676B1 (en) Speaking classification using audio-visual data
Tubaiz et al. Glove-based continuous Arabic sign language recognition in user-dependent mode
US20210110831A1 (en) Visual speech recognition by phoneme prediction
US20210074277A1 (en) Transcription revision interface for speech recognition system
Petajan et al. An improved automatic lipreading system to enhance speech recognition
US20210183373A1 (en) System and Method for Streaming end-to-end Speech Recognition with Asynchronous Decoders
EP3948850B1 (en) System and method for end-to-end speech recognition with triggered attention
Hassan et al. Multiple proposals for continuous arabic sign language recognition
CN110390363A (zh) 一种图像描述方法
Arora et al. Phonological feature-based speech recognition system for pronunciation training in non-native language learning
CN110288016B (zh) 一种多模态意图融合方法及应用
CN113450774B (zh) 一种训练数据的获取方法及装置
CN112784696A (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN110096987B (zh) 一种基于双路3dcnn模型的哑语动作识别方法
Yuan et al. Large scale sign language interpretation
KR20090132482A (ko) 문자 인식 방법 및 장치
CN110992783A (zh) 一种基于机器学习的手语翻译方法及翻译设备
JP2023155209A (ja) ビデオ翻訳プラットフォーム
CN112749646A (zh) 一种基于手势识别的交互式点读系统
CN111554279A (zh) 一种基于Kinect的多模态人机交互系统
CN115104151A (zh) 一种离线语音识别方法和装置、电子设备和可读存储介质
WO2023172331A1 (en) Code-mixed speech recognition using attention and language-specific joint analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant