CN115409133B - 基于跨模态数据融合的数控机床操作意图识别方法及系统 - Google Patents

基于跨模态数据融合的数控机床操作意图识别方法及系统 Download PDF

Info

Publication number
CN115409133B
CN115409133B CN202211342910.9A CN202211342910A CN115409133B CN 115409133 B CN115409133 B CN 115409133B CN 202211342910 A CN202211342910 A CN 202211342910A CN 115409133 B CN115409133 B CN 115409133B
Authority
CN
China
Prior art keywords
data
audio
control machine
numerical control
machine tool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211342910.9A
Other languages
English (en)
Other versions
CN115409133A (zh
Inventor
吴承科
杨之乐
谭勇
郭媛君
刘祥飞
胡天宇
谭家娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Hangmai CNC Software Shenzhen Co Ltd
Original Assignee
Zhongke Hangmai CNC Software Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Hangmai CNC Software Shenzhen Co Ltd filed Critical Zhongke Hangmai CNC Software Shenzhen Co Ltd
Priority to CN202211342910.9A priority Critical patent/CN115409133B/zh
Publication of CN115409133A publication Critical patent/CN115409133A/zh
Application granted granted Critical
Publication of CN115409133B publication Critical patent/CN115409133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Numerical Control (AREA)

Abstract

本发明公开了基于跨模态数据融合的数控机床操作意图识别方法与系统,方法包括:获取操作人员的音频数据以及操作人员在操作数控机床时所产生的传感数据,其中,传感数据包括握力方向矢量以及压力数据;分别对音频数据与传感数据进行编码处理,得到音频数据所对应的第一特征向量以及传感数据所对应的第二特征向量;将第一特征向量与第二特征向量共同输入至预设的意图识别模型中,输出操作意图信息,操作意图信息反映的是对数控机床的操作意图。本发明可在操作人员对数控机床进行操作时,采集传感数据和音频数据,然后基于传感数据和音频数据确定出操作意图信息,不但实现了对操作意图信息的识别,而且也方便操作人员对数据机床的操作。

Description

基于跨模态数据融合的数控机床操作意图识别方法及系统
技术领域
本发明涉及意图识别技术领域,尤其涉及一种基于跨模态数据融合的数控机床操作意图识别方法及系统。
背景技术
目前,操作人员对于数控机床的操作基本都是通过手柄或者按键来控制,因此,数控机床也就基于用户按下的按键或者操作的手柄来执行对应的操作,但是这种操作方式就无法实现对数据机床的操作灵活性,并且也无法实现对操作人员的操作意图进行智能化判断。
因此,现有技术还有待改进和提高。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于跨模态数据融合的数控机床操作意图识别方法以及系统,旨在提供解决现有技术中无法实现对数据机床的操作灵活性,并且也无法实现对操作人员的操作意图进行智能化判断的问题。
第一方面,本发明提供一种基于跨模态数据融合的数控机床操作意图识别方法,其中,所述方法包括:
获取操作人员的音频数据以及操作人员在操作数控机床时所产生的传感数据,其中,所述传感数据包括握力方向矢量以及压力数据;
分别对所述音频数据与所述传感数据进行编码处理,得到所述音频数据所对应的第一特征向量以及所述传感数据所对应的第二特征向量;
将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,输出操作意图信息,所述操作意图信息反映的是对数控机床的操作意图。
在一种实现方式中,所述获取操作人员的音频数据以及操作人员在操作数控机床时所产生的传感数据,包括:
唤醒预设的语音交互功能,并基于预设的语音采集装置实时采集所述操作人员的所述音频数据;
基于预设的传感器对操作人员对于数控机床操作手柄的握力方向矢量与压力数据进行采集,得到所述传感数据。
在一种实现方式中,所述基于预设的传感器对操作人员对于数控机床操作手柄的握力方向矢量与压力数据进行采集,得到所述传感数据,包括:
基于所述传感器对操作人员手部握住数控机床操作手柄的握力位置进行获取,并基于所述握力位置,获取所述握力位置处的握力数据;
基于所述握力数据分析出所述握力方向矢量与所述压力数据,所述压力数据反映的是操作人员手部对数控机床操作手柄的压力。
在一种实现方式中,所述分别对所述音频数据与所述传感数据进行编码处理,得到所述音频数据所对应的第一特征向量以及所述传感数据所对应的第二特征向量,包括:
对所述音频数据进行分段处理,得到若干音频片段,并基于若干所述音频片段对所述音频数据进行去噪处理,得到待编码音频数据,所述待编码音频数据为若干所述音频片段组成;
对所述待编码音频数据进行拼接,并进行编码处理,得到所述第一特征向量,所述第一特征向量用于反映所述待编码音频数据中的语音特征;
对所述传感数据进行编码处理,得到所述第二特征向量数,所述第二特征向量用于反映所述传感数据的力学特征。
在一种实现方式中,所述基于若干所述音频片段对所述音频数据进行去噪处理,得到待编码音频数据,包括:
获取每个音频片段的频率数据,获取存在频率数据高于第一预设频率或者存在频率数据低于第二预设频率的音频片段;
获取频率数据高于第一预设频率或者频率数据低于第二预设频率的音频片段的时间信息,并将所述时间信息所对应的片段删除,得到所述待编码音频数据。
在一种实现方式中,所述基于若干所述音频片段对所述音频数据进行去噪处理,得到待编码音频数据,包括:
获取若干所述音频片段中无语音内容的音频片段,并将所述无语音内容的音频片段删除,得到所述待编码音频数据。
在一种实现方式中,所述将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,输出操作意图信息,包括:
将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,其中,所述意图识别模型用于基于输入的所述第一特征向量与所述第二特征向量分别输出对应的典型操作词语与操作动作;
基于所述意图识别模型,确定所述第一特征向量所对应的典型操作词语,并确定所述典型操作词语对应的类别信息;
基于所述意图识别模型,确定所述第二特征向量所对应的操作动作;
获取所述典型操作词语所对应的第一权重,以及所述操作动作所对应的第二权重;
基于所述典型操作词语、所述操作动作、所述第一权重以及所述第二权重,输出操作意图的概率;
若所述操作意图的概率超过预设概率,则将所述操作意图与所述类别信息进行匹配,若匹配成功,则将所述操作意图作为所述操作意图信息输出。
第二方面,本发明实施例还提供一种基于跨模态数据融合的数控机床操作意图识别系统,其中,所述系统包括:
数据获取模块,用于获取操作人员的音频数据以及操作人员在操作数控机床时所产生的传感数据,其中,所述传感数据包括握力方向矢量以及压力数据;
编码处理模块,用于分别对所述音频数据与所述传感数据进行编码处理,得到所述音频数据所对应的第一特征向量以及所述传感数据所对应的第二特征向量;
意图分析模块,用于将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,输出操作意图信息,所述操作意图信息反映的是对数控机床的操作意图。
第三方面,本发明实施例还提供一种终端设备,其中,所述终端设备为商显终端或者投屏终端,所述终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的基于跨模态数据融合的数控机床操作意图识别程序,处理器执行基于跨模态数据融合的数控机床操作意图识别程序时,实现上述方案中任一项的基于跨模态数据融合的数控机床操作意图识别方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,其中,计算机可读存储介质上存储有基于跨模态数据融合的数控机床操作意图识别程序,所述基于跨模态数据融合的数控机床操作意图识别程序被处理器执行时,实现上述方案中任一项所述的基于跨模态数据融合的数控机床操作意图识别方法的步骤。
有益效果:与现有技术相比,本发明提供了一种基于跨模态数据融合的数控机床操作意图识别方法,本发明首先获取操作人员的音频数据以及操作人员在操作数控机床时所产生的传感数据,其中,所述传感数据包括握力方向矢量以及压力数据。然后,分别对所述音频数据与所述传感数据进行编码处理,得到所述音频数据所对应的第一特征向量以及所述传感数据所对应的第二特征向量。最后,将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,输出操作意图信息,所述操作意图信息反映的是对数控机床的操作意图。本发明可在操作人员对数控机床进行操作时,采集传感数据和音频数据,然后基于传感数据和音频数据确定出操作意图信息,不但实现了对操作意图信息的识别,而且也方便操作人员对数据机床的操作。
附图说明
图1为本发明实施例提供的基于跨模态数据融合的数控机床操作意图识别方法的具体实施方式的流程图。
图2为本发明实施例提供的基于跨模态数据融合的数控机床操作意图识别装置的功能原理图。
图3为本发明实施例提供的终端设备的原理框图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本实施例提供一种基于跨模态数据融合的数控机床操作意图识别方法,具体实施时,本实施例首先获取操作人员的音频数据以及操作人员在操作数控机床时所产生的传感数据,其中,所述传感数据包括握力方向矢量以及压力数据。然后,分别对所述音频数据与所述传感数据进行编码处理,得到所述音频数据所对应的第一特征向量以及所述传感数据所对应的第二特征向量。最后,将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,输出操作意图信息,所述操作意图信息反映的是对数控机床的操作意图。本实施例可在操作人员对数控机床进行操作时,采集传感数据和音频数据,然后基于传感数据和音频数据确定出操作意图信息,不但实现了对操作意图信息的识别,而且也方便操作人员对数据机床的操作。
比如,操作人员在操作数控机床时,通过数控机床的操作手柄来进行操作,并且在操作时,操作人员还同时输出音频数据,此时数控机床的电脑控制终端就会采集该音频数据以及操作手柄上的传感数据,该传感数据包括握力方向和压力数据,进而该电脑控制终端就会根据音频数据以及传感数据来进行分析,并对音频数据和传感数据来进行编码,得到所述音频数据所对应的第一特征向量以及所述传感数据所对应的第二特征向量。接着,通过将第一特征向量与第二特征向量一同输入至预设的意图识别模型中,就可以输出操作意图信息,比如操作意图信息为对轴类部件进行车削操作,因此,此时数控机床就会根据确定出的操作意图信息来执行车削操作。
示例性方法
本实施例的基于跨模态数据融合的数控机床操作意图识别方法可应用于终端设备中,所述终端设备可为与数控机床连接的电脑终端,或者也可以为所述数控机床上设置的智能化控制中心。具体地,本实施例的基于跨模态数据融合的数控机床操作意图识别方法包括如下步骤:
步骤S100、获取操作人员的音频数据以及操作人员在操作数控机床时所产生的传感数据,其中,所述传感数据包括握力方向矢量以及压力数据。
操作人员在操作数控机床时,会输出语音信息,该语音信息为操作人员说出的话,并且该语音信息为与数控机床接下来需要执行的操作是有关的,本实施例的数控机床对这些语音信息进行采集,得到所述音频数据。此外,本实施例数控机床还会采集操作人员在操作数控机床的传感数据,该传感数据包括握力方向矢量以及压力数据。
在一种实现方式中,本实施例在获取音频数据以及传感数据时,包括如下步骤:
步骤S101、唤醒预设的语音交互功能,并基于预设的语音采集装置实时采集所述操作人员的所述音频数据;
步骤S102、基于预设的传感器对操作人员对于数控机床操作手柄的握力方向矢量与压力数据进行采集,得到所述传感数据。
在本实施例中,数控机床具有语音交互功能,该语音交互功能至少包括语音采集功能。首先,需要唤醒数控机床的语音交互功能,该语音交互功能的唤醒方式可使用预设的按键进行唤醒,也可以通过输出预设的语音信息来进行唤醒。当数控机床的语音交互功能成功唤醒后,操作人员在操作数控机床的时候,无论说出任何语音信息,都会被数控机床采集到,形成音频数据。此外,本实施例的数控机床上预设有传感器,该传感器可对操作人员对于数控机床操作手柄的握力方向矢量与压力数据进行采集,得到传感数据。
在一种实现方式中,由于操作人员在操作数控机床作出不同的操作时,对于操作手柄时的握力方向以及握力的位置是不相同的,因此,本实施例基于传感器对于操作人员手部握住数控机床操作手柄的握力位置进行获取,并基于所述握力位置,获取所述握力位置处的握力数据。该握力数据包括握力方向矢量以及此时对于操作手柄的压力数据,所述压力数据反映的是操作人员手部对数控机床操作手柄的压力。因此,本实施例在得到所述握力数据后,就可以得到握力方向矢量与压力数据。在本实施例中,握力方向矢量反映的是操作人员手部对于操作手柄的施力方向,压力数据反映的是操作人员对操作手柄所施加力的大小,因此基于该握力方向矢量与压力数据可反映出操作人员此时想对数控机床的操作手柄执行怎样的操作。
步骤S200、分别对所述音频数据与所述传感数据进行编码处理,得到所述音频数据所对应的第一特征向量以及所述传感数据所对应的第二特征向量。
本实施例在获取音频数据以及传感数据后,分别对音频数据与传感数据进行编码处理,就可以得到音频数据所对应的第一特征向量以及传感数据所对应的第二特征向量。本实施例的第一特征向量反映的是音频数据中的音频特征,所述第二特征向量反映的是传感数据中的力学特征,包括力的方向与大小。
在一种实现方式中,本实施例在进行编码处理时,包括如下步骤:
步骤S201、对所述音频数据进行分段处理,得到若干音频片段,并基于若干所述音频片段对所述音频数据进行去噪处理,得到待编码音频数据,所述待编码音频数据为若干所述音频片段组成;
步骤S202、对所述待编码音频数据进行拼接,并进行编码处理,得到所述第一特征向量,所述第一特征向量用于反映所述待编码音频数据中的语音特征;
步骤S203、对所述传感数据进行编码处理,得到所述第二特征向量数,所述第二特征向量用于反映所述传感数据的力学特征。
在本实施例中,当数控机床得到音频数据后,可对该音频数据进行分段处理,得到若干音频片段,在分段时,本实施例可依据音频数据的时长来进行均分,以此得到若干时长相同的音频片段。接着,本实施例获取每个音频片段的频率数据,根据该频率数据来若干音频片段进行去噪处理,以得到待编码音频数据。具体地,本实施例可获取存在频率数据高于第一预设频率或者存在频率数据低于第二预设频率的音频片段;由于频率数据高于第一预设频率或者存在频率数据低于第二预设频率的音频片段是不符合要求的,要么频率太高,声音刺耳,要么频率太低,听不清楚内容,因此,本实施例获取频率数据高于第一预设频率或者频率数据低于第二预设频率的音频片段的时间信息,并将所述时间信息所对应的片段删除,从而得到所述待编码音频数据。此外,由于操作人员在操作数控机床时,所输出的语音信息并不是都与数控机床的操作有关的,因此,本实施例获取若干所述音频片段中无语音内容的音频片段,并将所述无语音内容的音频片段删除,得到所述待编码音频数据。在本实施例中,得到符合要求的音频数据后,本实施例将对符合要求的音频数据进行拼接处理,然后再进行编码处理,得到音频数据所对应的第一特征向量。所述第一特征向量用于反映所述待编码音频数据中的语音特征。
在本实施例中,对于音频数据的编码处理可基于预设的编码器来实现,该编码器可从音频数据中提取语音特征,该语音特征可反映所述音频数据对应的语音信息,然后通过该编码器来对语音特征进行编码,得到第一特性向量。接着,本实施例同样可基于编码器来对传感数据进行编码处理,编码器可从传感数据中提取力学特征,然后将该力学特征进行编码,得到第二特征向量。
步骤S300、将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,输出操作意图信息,所述操作意图信息反映的是对数控机床的操作意图。
当得到第一特征向量与第二特征向量后,本实施例将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,该意图识别模型是基于预设的语音特征与类别信息的对应关系以及力学特征与操作动作之间的对应关系进行训练得到的,因此,该意图识别模型可自动基于第一特征向量与所述第二特征向量输出操作意图信息,以使得数控机床可基于该操作意图信息执行操作。
在一种实现方式中,本实施例在确定操作意图信息时,包括如下步骤:
步骤S301、将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,其中,所述意图识别模型用于基于输入的所述第一特征向量与所述第二特征向量分别输出对应的典型操作词语与操作动作;
步骤S302、基于所述意图识别模型,确定所述第一特征向量所对应的典型操作词语,并确定所述典型操作词语对应的类别信息;
步骤S303、基于所述意图识别模型,确定所述第二特征向量所对应的操作动作;
步骤S304、获取所述典型操作词语所对应的第一权重,以及所述操作动作所对应的第二权重;
步骤S305、基于所述典型操作词语、所述操作动作、所述第一权重以及所述第二权重,输出操作意图的概率;
步骤S306、若所述操作意图的概率超过预设概率,则将所述操作意图与所述类别信息进行匹配,若匹配成功,则将所述操作意图作为所述操作意图信息输出。
具体地,本实施例的意图识别模型在训练时,可预先获取若干典型操作词语与类别信息之间的对应关系以及获取力学特征与操作动作之间的对应关系,然后可以这两个对应关系进行训练,得到该意图识别模型。当将第一特征向量与第二特征向量共同输入至意图识别模型后,所述意图识别模型用于基于输入的所述第一特征向量与所述第二特征向量分别输出对应的典型操作词语与操作动作。具体地,本实施例的意图识别模型可基于第一特征向量确定第一特征向量所对应的典型操作词语,此过程为语义特征提取单元,然后再进一步确定该典型操作词语所对应的类别信息,该类别信息可为切割、焊接或者更换工件等。同时,意图识别模型还可以基于第二特征向量确定出操作动作,该操作动作为数控机床具体的执行动作,由于第二特征向量反映的是力学特征,该力学特征包括施力方向与大小,因此,确定的操作动作可比如为对A工件进行X方向的上的车削等操作。
当然,本实施例在得到典型操作词语后,基于语义识别的方式,也可以大致确定典型操作词语多对应的操作具体是什么。因此,在得到典型操作词语以及操作动作后,本实施例可分别获取所述典型操作词语所对应的第一权重,以及所述操作动作所对应的第二权重。然后基于所述典型操作词语、所述操作动作、所述第一权重以及所述第二权重进行加权计算,输出操作意图的概率,此时操作意图为与典型操作词语以及操作动作都吻合的操作意图,也就是,此时计算出的操作意图,是与典型操作词语以及操作动作都匹配的动作。若所述操作意图的概率超过预设概率,则将所述操作意图与所述类别信息进行匹配,若匹配成功,则说明操作动作与典型操作词语所对应的操作意图的确是操作人员想要控制数控机床想要执行的操作,因此本实施例将所述操作意图作为所述操作意图信息输出。此时,数控机床就可以基于操作意图信息来执行对应的操作。
综上,本实施例首先获取操作人员的音频数据以及操作人员在操作数控机床时所产生的传感数据,其中,所述传感数据包括握力方向矢量以及压力数据。然后,分别对所述音频数据与所述传感数据进行编码处理,得到所述音频数据所对应的第一特征向量以及所述传感数据所对应的第二特征向量。最后,将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,输出操作意图信息,所述操作意图信息反映的是对数控机床的操作意图。本实施例可在操作人员对数控机床进行操作时,采集传感数据和音频数据,然后基于传感数据和音频数据确定出操作意图信息,不但实现了对操作意图信息的识别,而且也方便操作人员对数据机床的操作。
示例性系统
基于上述实施例,本发明还提供一种基于跨模态数据融合的数控机床操作意图识别系统,如图2中所示,本实施例的基于跨模态数据融合的数控机床操作意图识别系统包括:数据获取模块10、编码处理模块20以及意图分析模块30。具体地,本实施例中的所述数据获取模块10,用于获取操作人员的音频数据以及操作人员在操作数控机床时所产生的传感数据,其中,所述传感数据包括握力方向矢量以及压力数据。所述编码处理模块20,用于分别对所述音频数据与所述传感数据进行编码处理,得到所述音频数据所对应的第一特征向量以及所述传感数据所对应的第二特征向量。所述意图分析模块30,用于将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,输出操作意图信息,所述操作意图信息反映的是对数控机床的操作意图。
在一种实现方式中,所述数据获取模块10包括:
音频数据获取单元,用于唤醒预设的语音交互功能,并基于预设的语音采集装置实时采集所述操作人员的所述音频数据;
传感数据获取单元,用于基于预设的传感器对操作人员对于数控机床操作手柄的握力方向矢量与压力数据进行采集,得到所述传感数据。
在一种实现方式中,所述传感数据获取单元,包括:
握力数据确定子单元,用于基于所述传感器对操作人员手部握住数控机床操作手柄的握力位置进行获取,并基于所述握力位置,获取所述握力位置处的握力数据;
压力数据确定子单元,用于基于所述握力数据分析出所述握力方向矢量与所述压力数据,所述压力数据反映的是操作人员手部对数控机床操作手柄的压力。
在一种实现方式中,所述编码处理模块20,包括:
音频片段确定单元,用于对所述音频数据进行分段处理,得到若干音频片段,并基于若干所述音频片段对所述音频数据进行去噪处理,得到待编码音频数据,所述待编码音频数据为若干所述音频片段组成;
语音特征确定单元,用于对所述待编码音频数据进行拼接,并进行编码处理,得到所述第一特征向量,所述第一特征向量用于反映所述待编码音频数据中的语音特征;
力学特征确定单元,用于对所述传感数据进行编码处理,得到所述第二特征向量数,所述第二特征向量用于反映所述传感数据的力学特征。
在一种实现方式中,所述音频片段确定单元,包括:
频率比较子单元,用于获取每个音频片段的频率数据,获取存在频率数据高于第一预设频率或者存在频率数据低于第二预设频率的音频片段;
第一片段删除子单元,用于获取频率数据高于第一预设频率或者频率数据低于第二预设频率的音频片段的时间信息,并将所述时间信息所对应的片段删除,得到所述待编码音频数据。
在一种实现方式中,所述音频片段确定单元,包括:
第二片段删除子单元,用于获取若干所述音频片段中无语音内容的音频片段,并将所述无语音内容的音频片段删除,得到所述待编码音频数据。
在一种实现方式中,所述意图分析模块,包括:
特征输入单元,用于将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,其中,所述意图识别模型用于基于输入的所述第一特征向量与所述第二特征向量分别输出对应的典型操作词语与操作动作;
类别确定单元,用于基于所述意图识别模型,确定所述第一特征向量所对应的典型操作词语,并确定所述典型操作词语对应的类别信息;
动作确定单元,用于基于所述意图识别模型,确定所述第二特征向量所对应的操作动作;
权重确定单元,用于获取所述典型操作词语所对应的第一权重,以及所述操作动作所对应的第二权重;
概率确定单元,用于基于所述典型操作词语、所述操作动作、所述第一权重以及所述第二权重,输出操作意图的概率;
意图确定单元,用于若所述操作意图的概率超过预设概率,则将所述操作意图与所述类别信息进行匹配,若匹配成功,则将所述操作意图作为所述操作意图信息输出。
本实施例的基于跨模态数据融合的数控机床操作意图识别系统中各个模块的工作原理与上述方法实施例中各个步骤的原理相同,此处不再赘述。
基于上述实施例,本发明还提供了一种终端设备,所述终端设备的原理框图可以如3所示。所述终端设备可为与数控机床连接的电脑终端,或者也可以为所述数控机床上设置的智能化控制中心。终端设备可以包括一个或多个处理器100(图3中仅示出一个),存储器101以及存储在存储器101中并可在一个或多个处理器100上运行的计算机程序102,例如,基于跨模态数据融合的数控机床操作意图识别的程序。一个或多个处理器100执行计算机程序102时可以实现基于跨模态数据融合的数控机床操作意图识别的方法实施例中的各个步骤。或者,一个或多个处理器100执行计算机程序102时可以实现基于跨模态数据融合的数控机床操作意图识别方法实施例中各模块/单元的功能,此处不作限制。
在一个实施例中,所述处理器100可以是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在一个实施例中,存储器101可以是电子设备的内部存储单元,例如电子设备的硬盘或内存。存储器101也可以是电子设备的外部存储设备,例如电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,存储器101还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器101用于存储计算机程序以及终端设备所需的其他程序和数据。存储器101还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员可以理解,图3中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端设备的限定,具体的终端设备以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、运营数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双运营数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上,本发明一种基于跨模态数据融合的数控机床操作意图识别方法与系统,方法包括:获取操作人员的音频数据以及操作人员在操作数控机床时所产生的传感数据,其中,传感数据包括握力方向矢量以及压力数据;分别对音频数据与传感数据进行编码处理,得到音频数据所对应的第一特征向量以及传感数据所对应的第二特征向量;将第一特征向量与第二特征向量共同输入至预设的意图识别模型中,输出操作意图信息,操作意图信息反映的是对数控机床的操作意图。本发明可在操作人员对数控机床进行操作时,采集传感数据和音频数据,然后基于传感数据和音频数据确定出操作意图信息,不但实现了对操作意图信息的识别,而且也方便操作人员对数据机床的操作。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.一种基于跨模态数据融合的数控机床操作意图识别方法,其特征在于,所述方法包括:
获取操作人员的音频数据以及操作人员在操作数控机床时所产生的传感数据,其中,所述传感数据包括握力方向矢量以及压力数据;
分别对所述音频数据与所述传感数据进行编码处理,得到所述音频数据所对应的第一特征向量以及所述传感数据所对应的第二特征向量;
将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,输出操作意图信息,所述操作意图信息反映的是对数控机床的操作意图;
所述获取操作人员的音频数据以及操作人员在操作数控机床时所产生的传感数据,包括:
唤醒预设的语音交互功能,并基于预设的语音采集装置实时采集所述操作人员的所述音频数据;
基于预设的传感器对操作人员对于数控机床操作手柄的握力方向矢量与压力数据进行采集,得到所述传感数据;
所述基于预设的传感器对操作人员对于数控机床操作手柄的握力方向矢量与压力数据进行采集,得到所述传感数据,包括:
基于所述传感器对操作人员手部握住数控机床操作手柄的握力位置进行获取,并基于所述握力位置,获取所述握力位置处的握力数据;
基于所述握力数据分析出所述握力方向矢量与所述压力数据,所述压力数据反映的是操作人员手部对数控机床操作手柄的压力,其中,所述握力方向矢量反映的是操作人员手部对于操作手柄的施力方向;
所述分别对所述音频数据与所述传感数据进行编码处理,得到所述音频数据所对应的第一特征向量以及所述传感数据所对应的第二特征向量,包括:
对所述音频数据依据所述音频数据的时长来进行分段处理,得到若干时长相同的音频片段,并基于若干所述音频片段对所述音频数据进行去噪处理,得到待编码音频数据,所述待编码音频数据为若干所述音频片段组成;
对所述待编码音频数据进行拼接,并进行编码处理,得到所述第一特征向量,所述第一特征向量用于反映所述待编码音频数据中的语音特征;
对所述传感数据进行编码处理,得到所述第二特征向量数,所述第二特征向量用于反映所述传感数据的力学特征;
所述基于若干所述音频片段对所述音频数据进行去噪处理,得到待编码音频数据,包括:
获取每个音频片段的频率数据,获取存在频率数据高于第一预设频率或者存在频率数据低于第二预设频率的音频片段;
获取频率数据高于第一预设频率或者频率数据低于第二预设频率的音频片段的时间信息,并将所述时间信息所对应的片段删除,得到所述待编码音频数据;
所述基于若干所述音频片段对所述音频数据进行去噪处理,得到待编码音频数据,包括:
获取若干所述音频片段中无语音内容的音频片段,并将所述无语音内容的音频片段删除,得到所述待编码音频数据;
所述将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,输出操作意图信息,包括:
将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,其中,所述意图识别模型用于基于输入的所述第一特征向量与所述第二特征向量分别输出对应的典型操作词语与操作动作;
基于所述意图识别模型,确定所述第一特征向量所对应的典型操作词语,并确定所述典型操作词语对应的类别信息;
基于所述意图识别模型,确定所述第二特征向量所对应的操作动作;
获取所述典型操作词语所对应的第一权重,以及所述操作动作所对应的第二权重;
基于所述典型操作词语、所述操作动作、所述第一权重以及所述第二权重,输出操作意图的概率;
若所述操作意图的概率超过预设概率,则将所述操作意图与所述类别信息进行匹配,若匹配成功,则将所述操作意图作为所述操作意图信息输出;
所述意图识别模型的训练过程包括:
预先获取若干典型操作词语与类别信息之间的对应关系以及获取力学特征与操作动作之间的对应关系,并对两个对应关系进行训练,得到所述意图识别模型。
2.一种基于跨模态数据融合的数控机床操作意图识别系统,其特征在于,所述系统包括:
数据获取模块,用于获取操作人员的音频数据以及操作人员在操作数控机床时所产生的传感数据,其中,所述传感数据包括握力方向矢量以及压力数据;
编码处理模块,用于分别对所述音频数据与所述传感数据进行编码处理,得到所述音频数据所对应的第一特征向量以及所述传感数据所对应的第二特征向量;
意图分析模块,用于将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,输出操作意图信息,所述操作意图信息反映的是对数控机床的操作意图;
所述数据获取模块包括:
音频数据获取单元,用于唤醒预设的语音交互功能,并基于预设的语音采集装置实时采集所述操作人员的所述音频数据;
传感数据获取单元,用于基于预设的传感器对操作人员对于数控机床操作手柄的握力方向矢量与压力数据进行采集,得到所述传感数据;
所述传感数据获取单元,包括:
握力数据确定子单元,用于基于所述传感器对操作人员手部握住数控机床操作手柄的握力位置进行获取,并基于所述握力位置,获取所述握力位置处的握力数据;
压力数据确定子单元,用于基于所述握力数据分析出所述握力方向矢量与所述压力数据,所述压力数据反映的是操作人员手部对数控机床操作手柄的压力,其中,所述握力方向矢量反映的是操作人员手部对于操作手柄的施力方向;
所述编码处理模块,包括:
音频片段确定单元,用于对所述音频数据依据所述音频数据的时长来进行分段处理,得到若干时长相同的音频片段,并基于若干所述音频片段对所述音频数据进行去噪处理,得到待编码音频数据,所述待编码音频数据为若干所述音频片段组成;
语音特征确定单元,用于对所述待编码音频数据进行拼接,并进行编码处理,得到所述第一特征向量,所述第一特征向量用于反映所述待编码音频数据中的语音特征;
力学特征确定单元,用于对所述传感数据进行编码处理,得到所述第二特征向量数,所述第二特征向量用于反映所述传感数据的力学特征;
所述音频片段确定单元,包括:
频率比较子单元,用于获取每个音频片段的频率数据,获取存在频率数据高于第一预设频率或者存在频率数据低于第二预设频率的音频片段;
第一片段删除子单元,用于获取频率数据高于第一预设频率或者频率数据低于第二预设频率的音频片段的时间信息,并将所述时间信息所对应的片段删除,得到所述待编码音频数据;
所述音频片段确定单元,包括:
第二片段删除子单元,用于获取若干所述音频片段中无语音内容的音频片段,并将所述无语音内容的音频片段删除,得到所述待编码音频数据;
所述意图分析模块,包括:
特征输入单元,用于将所述第一特征向量与所述第二特征向量共同输入至预设的意图识别模型中,其中,所述意图识别模型用于基于输入的所述第一特征向量与所述第二特征向量分别输出对应的典型操作词语与操作动作;
类别确定单元,用于基于所述意图识别模型,确定所述第一特征向量所对应的典型操作词语,并确定所述典型操作词语对应的类别信息;
动作确定单元,用于基于所述意图识别模型,确定所述第二特征向量所对应的操作动作;
权重确定单元,用于获取所述典型操作词语所对应的第一权重,以及所述操作动作所对应的第二权重;
概率确定单元,用于基于所述典型操作词语、所述操作动作、所述第一权重以及所述第二权重,输出操作意图的概率;
意图确定单元,用于若所述操作意图的概率超过预设概率,则将所述操作意图与所述类别信息进行匹配,若匹配成功,则将所述操作意图作为所述操作意图信息输出;
所述装置还包括:
预先获取若干典型操作词语与类别信息之间的对应关系以及获取力学特征与操作动作之间的对应关系,并对两个对应关系进行训练,得到所述意图识别模型。
3.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的基于跨模态数据融合的数控机床操作意图识别程序,所述处理器执行所述基于跨模态数据融合的数控机床操作意图识别程序时,实现如权利要求1所述的基于跨模态数据融合的数控机床操作意图识别方法的步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于跨模态数据融合的数控机床操作意图识别程序,所述基于跨模态数据融合的数控机床操作意图识别程序被处理器执行时,实现如权利要求1所述的基于跨模态数据融合的数控机床操作意图识别方法的步骤。
CN202211342910.9A 2022-10-31 2022-10-31 基于跨模态数据融合的数控机床操作意图识别方法及系统 Active CN115409133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211342910.9A CN115409133B (zh) 2022-10-31 2022-10-31 基于跨模态数据融合的数控机床操作意图识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211342910.9A CN115409133B (zh) 2022-10-31 2022-10-31 基于跨模态数据融合的数控机床操作意图识别方法及系统

Publications (2)

Publication Number Publication Date
CN115409133A CN115409133A (zh) 2022-11-29
CN115409133B true CN115409133B (zh) 2023-02-03

Family

ID=84167690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211342910.9A Active CN115409133B (zh) 2022-10-31 2022-10-31 基于跨模态数据融合的数控机床操作意图识别方法及系统

Country Status (1)

Country Link
CN (1) CN115409133B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3792709A1 (de) * 2019-09-10 2021-03-17 Avalance UG (haftungsbeschränkt) Analysevorrichtung für betriebsgeräusche einer werkzeugmaschine
CN113377899A (zh) * 2020-03-09 2021-09-10 华为技术有限公司 意图识别方法及电子设备
CN114863927A (zh) * 2022-07-06 2022-08-05 中科航迈数控软件(深圳)有限公司 一种基于语音识别的数控机床交互控制方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6523379B2 (ja) * 2017-07-25 2019-05-29 ファナック株式会社 情報処理装置
CN112639638A (zh) * 2018-09-07 2021-04-09 株式会社牧野铣床制作所 机床的控制装置
RU2716353C1 (ru) * 2019-11-25 2020-03-11 Ассистирующие Хирургические Технологии (Аст), Лтд Контроллер кисти для использования в контроллере оператора роботохирургического комплекса

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3792709A1 (de) * 2019-09-10 2021-03-17 Avalance UG (haftungsbeschränkt) Analysevorrichtung für betriebsgeräusche einer werkzeugmaschine
CN113377899A (zh) * 2020-03-09 2021-09-10 华为技术有限公司 意图识别方法及电子设备
CN114863927A (zh) * 2022-07-06 2022-08-05 中科航迈数控软件(深圳)有限公司 一种基于语音识别的数控机床交互控制方法及系统

Also Published As

Publication number Publication date
CN115409133A (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN105931644B (zh) 一种语音识别方法及移动终端
CN109559735B (zh) 一种基于神经网络的语音识别方法、终端设备及介质
WO2022116487A1 (zh) 基于生成对抗网络的语音处理方法、装置、设备及介质
CN108257604B (zh) 语音识别方法、终端设备及计算机可读存储介质
CN109087667B (zh) 语音流利度识别方法、装置、计算机设备及可读存储介质
CN111797632A (zh) 信息处理方法、装置及电子设备
CN115083394B (zh) 一种融合时空属性的实时环境噪声识别方法、系统及设备
CN113257238B (zh) 预训练模型的训练方法、编码特征获取方法及相关装置
CN103514882A (zh) 一种语音识别方法及系统
CN115497484B (zh) 语音解码结果处理方法、装置、设备及存储介质
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN109977412B (zh) 语音识别文本的字段值纠错方法、装置及存储控制器
CN113220828B (zh) 意图识别模型处理方法、装置、计算机设备及存储介质
CN115409133B (zh) 基于跨模态数据融合的数控机床操作意图识别方法及系统
CN112669850A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN114694637A (zh) 混合语音识别方法、装置、电子设备及存储介质
CN113886520B (zh) 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质
CN114420136A (zh) 一种声纹识别模型训练的方法、装置以及存储介质
CN114822558A (zh) 声纹识别方法、装置、电子设备及存储介质
CN109493868B (zh) 基于语音识别的保单录入方法和相关装置
CN113763968A (zh) 用于识别语音的方法、装置、设备、介质和产品
CN110895938B (zh) 语音校正系统及语音校正方法
CN111899729A (zh) 一种语音模型的训练方法、装置、服务器和存储介质
CN113035230A (zh) 认证模型的训练方法、装置及电子设备
CN111785259A (zh) 信息处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant