CN112908328B - 设备操控方法、系统、计算机设备及存储介质 - Google Patents

设备操控方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN112908328B
CN112908328B CN202110145529.2A CN202110145529A CN112908328B CN 112908328 B CN112908328 B CN 112908328B CN 202110145529 A CN202110145529 A CN 202110145529A CN 112908328 B CN112908328 B CN 112908328B
Authority
CN
China
Prior art keywords
voice
instruction
intention
user
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110145529.2A
Other languages
English (en)
Other versions
CN112908328A (zh
Inventor
于康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Antong Enshuang Information Technology Beijing Co ltd
Original Assignee
Antong Enshuang Information Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Antong Enshuang Information Technology Beijing Co ltd filed Critical Antong Enshuang Information Technology Beijing Co ltd
Priority to CN202110145529.2A priority Critical patent/CN112908328B/zh
Publication of CN112908328A publication Critical patent/CN112908328A/zh
Application granted granted Critical
Publication of CN112908328B publication Critical patent/CN112908328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本方案涉及一种设备操控方法。所述方法包括:采集语音指令,并识别语音指令生成语音文本;基于人工智能的文本分类技术,对语音文本进行分类,得到分类结果;查找与分类结果对应的操作指令,并展示与操作指令对应的操作界面;获取并识别手势指令,并根据手势指令、操作界面操控设备。通过语音指令、手势指令结合来操控设备,可以提高设备操作的准确率;由于语音指令和手势指令相结合,可以提高人机交互的自然性,降低非专业或不熟练用户的误操作,以及通过人工智能和机器学习的技术,更好地让系统服务于用户操作与生产应用;同时,降低学习和操作难度,保障操作的准确度。

Description

设备操控方法、系统、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种设备操控方法、系统、计算机设备及存储介质。
背景技术
随着计算机技术的发展,操作命令也越来越多,功能也越来越强。随着模式识别,如语音识别、汉字识别等输入设备的发展,操作员和计算机在类似于自然语言或受限制的自然语言这一级上进行交互成为可能。人机交互是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。传统的设备操控方式是通过键盘和鼠标,基于命令行或者图形界面,对于专用的工业硬件或者软件进行操作与交互。由于命令行或者图形界面的人机交互操作,不符合人类语言交互的自然性,并且对于操作命令以及图形界面菜单的学习与掌握要求较高;对于非经过专业以及非熟练掌握功能的用户不够友好,甚至会由于操作错误,对于系统生产带来损害。
因此,传统的设备操控方法经常出现用户操作错误,存在设备操作的准确率较低的问题。
发明内容
基于此,为了解决上述技术问题,提供一种设备操控方法、系统、计算机设备和存储介质,可以提高设备操作的准确率。
一种设备操控方法,所述方法包括:
采集语音指令,并识别所述语音指令生成语音文本;
基于人工智能的文本分类技术,对所述语音文本进行分类,得到分类结果;
查找与所述分类结果对应的操作指令,并展示与所述操作指令对应的操作界面;
获取并识别手势指令,并根据所述手势指令、所述操作界面操控设备。
在其中一个实施例中,所述查找与所述分类结果对应的操作指令,包括:
根据所述分类结果获取用户意图;
查找与所述用户意图对应的对应关系;所述对应关系用于表示所述用户意图与所述操作指令之间的关系;
根据所述对应关系查找所述操作指令。
在其中一个实施例中,所述方法还包括:
获取登录指令,并根据所述登录指令获取用户信息;
查找与所述用户信息对应的用户历史信息,并对所述用户历史信息进行大数据分析,得到分析结果;
展示与所述分析结果对应的操作界面。
在其中一个实施例中,所述识别所述语音指令生成语音文本,包括:
将所述语音指令发送至本地服务器,并将所述语音指令发送至云端;
接收所述本地服务器返回的第一语音识别结果,并接收所述云端返回的第二语音识别结果;
根据所述第一语音识别结果、所述第二语音识别结果生成所述语音文本。
在其中一个实施例中,所述方法还包括:
所述本地服务器获取文字识别神经网络模型,并通过所述文字识别神经网络模型输出所述第一语音识别结果;
所述云端获取所述文字识别神经网络模型,并通过所述文字识别神经网络模型输出所述第二语音识别结果。
在其中一个实施例中,所述根据所述手势指令、所述操作界面操控设备,包括:
根据所述手势指令、所述操作界面生成对应的设备操控指令;
根据所述设备操控指令操控设备执行对应的动作。
一种设备操控系统,所述系统包括:
语音识别模块,用于采集语音指令,并识别所述语音指令生成语音文本;
文本分类模块,用于基于人工智能的文本分类技术,对所述语音文本进行分类,得到分类结果;
界面展示模块,用于查找与所述分类结果对应的操作指令,并展示与所述操作指令对应的操作界面;
设备操控模块,用于获取并识别手势指令,并根据所述手势指令、所述操作界面操控设备。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
采集语音指令,并识别所述语音指令生成语音文本;
基于人工智能的文本分类技术,对所述语音文本进行分类,得到分类结果;
查找与所述分类结果对应的操作指令,并展示与所述操作指令对应的操作界面;
获取并识别手势指令,并根据所述手势指令、所述操作界面操控设备。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
采集语音指令,并识别所述语音指令生成语音文本;
基于人工智能的文本分类技术,对所述语音文本进行分类,得到分类结果;
查找与所述分类结果对应的操作指令,并展示与所述操作指令对应的操作界面;
获取并识别手势指令,并根据所述手势指令、所述操作界面操控设备。
上述设备操控方法、系统、计算机设备和存储介质,通过采集语音指令,并识别语音指令生成语音文本;基于人工智能的文本分类技术,对语音文本进行分类,得到分类结果;查找与分类结果对应的操作指令,并展示与操作指令对应的操作界面;获取并识别手势指令,并根据手势指令、操作界面操控设备。通过语音指令、手势指令结合来操控设备,可以提高设备操作的准确率;由于语音指令和手势指令相结合,可以提高人机交互的自然性,降低非专业或不熟练用户的误操作,以及通过人工智能和机器学习的技术,更好地让系统服务于用户操作与生产应用;同时,降低学习和操作难度,保障操作的准确度。
附图说明
图1为一个实施例中设备操控方法的应用环境图;
图2为一个实施例中设备操控方法的流程示意图;
图3为一个实施例中设备操控系统的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的设备操控方法,可以应用于如图1所示的应用环境中。如图1所示,该应用环境包括计算机设备110。计算机设备110可以采集语音指令,并识别语音指令生成语音文本;计算机设备110可以基于人工智能的文本分类技术,对语音文本进行分类,得到分类结果;计算机设备110可以查找与分类结果对应的操作指令,并展示与操作指令对应的操作界面;计算机设备110可以获取并识别手势指令,并根据手势指令、操作界面操控设备。其中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、机器人、平板电脑等设备。
在一个实施例中,如图2所示,提供了一种设备操控方法,包括以下步骤:
步骤202,采集语音指令,并识别语音指令生成语音文本。
语音指令可以是用户输入计算机设备的语音。用户可以通过麦克风等设备输入语音指令;用户还可以通过工业智能音箱上的工业智能语音助手输入语音指令。计算机设备可以采集到语音指令。
计算机设备在采集到语音指令后,可以识别语音指令,从而生成语音文本。
步骤204,基于人工智能的文本分类技术,对语音文本进行分类,得到分类结果。
计算机设备在生成语音文本后,可以对生成的语音文本进行语义识别。具体的,计算机设备可以基于人工智能的文本分类技术,对语音文本进行分类,从而得到分类结果。
步骤206,查找与分类结果对应的操作指令,并展示与操作指令对应的操作界面。
操作指令可以用于表示计算机设备中操控硬件或软件的命令和参数。不同的分类结果可以对应有不同的操作指令,对于硬件或软件进行操控,计算机设备可以使用触屏进行详尽且人性化的结果展示。计算机设备可以查找与分类结果对应的操作指令,并在显示屏上显示与操作指令对应的操作界面。
步骤208,获取并识别手势指令,并根据手势指令、操作界面操控设备。
手势指令可以是用户触发产生的。计算机设备可以通过摄像头采集用户的手势,从而获取到手势指令。计算机设备可以识别手势指令,并根据手势指令和操作界面来操控设备。
在本实施例中,计算机设备通过采集语音指令,并识别语音指令生成语音文本;基于人工智能的文本分类技术,对语音文本进行分类,得到分类结果;查找与分类结果对应的操作指令,并展示与操作指令对应的操作界面;获取并识别手势指令,并根据手势指令、操作界面操控设备。通过语音指令、手势指令结合来操控设备,可以提高设备操作的准确率;由于语音指令和手势指令相结合,可以提高人机交互的自然性,降低非专业或不熟练用户的误操作,以及通过人工智能和机器学习的技术,更好地让系统服务于用户操作与生产应用;同时,降低学习和操作难度,保障操作的准确度。
在一个实施例中,提供的一种设备操控方法还可以包括查找操作指令的过程,具体过程包括:根据分类结果获取用户意图;查找与用户意图对应的对应关系;对应关系用于表示用户意图与操作指令之间的关系;根据对应关系查找操作指令。
计算机设备中可以存储有用户意图与操作指令之间的对应关系,其中,不同的用户意图可以对应有不同的操作指令。
计算机设备可以根据分类结果获取到用户意图,从而根据存储的用户意图与操作指令之间的对应关系查找到对应的操作指令。
其中,将用户意图对应到人机会话,得到操控硬件或软件的命令和参数,对于硬件或软件进行操控,使用触屏进行详尽且人性化的结果展示,具体步骤为:
1、每个意图对应着相应的操作命令和参数,如果参数不全,则进入人机对话,进一步获取操作需要的参数;
2、基于SNMP(Simple Network Management Protocal,简单网络管理协议)协议,使用自研MIB(Management Information Base,管理信息库)对网络设备进行信息查询和配置,对于附带自研MIB私有结构的安通恩创的工业设备,可以无缝对接,对于无自研MIB的网络设备,可以按此自研MIB结构标准订制,对于虚拟设备或软件可以使用代理程序,该程序提供的接口包括但不限于:查询设备类型名称,查询设备型号,查询设备网络状态,查询MAC地址,查询IP地址,自动绘制拓扑,配置名称,配置IP地址,配置环网等;
3、将用户的操控结果通过触屏显示出来,触屏接受用户的手势操作,这些操作包括但不限于:语音播报当前选中的链路的状态,图示各端口状态,拖拽组建环网,拖拽组建虚拟局域网等。
在本实施例中,用户意图识别程序分为训练程序和识别程序,训练程序步骤为:
1、获取所有训练集数据,数据格式为以意图名称为索引值,待训练的文本数组作为数据的字典结构,例如:{“查看网络状态意图”:[“我要查看网络的状态”,“看一下网络状态”],“配置IP地址意图”:[“我要配置IP地址”,“配置交换机1的IP地址为**”]};
2、对每个意图下的训练数据进行分词,使用双向匹配算法,即分别从句子的两端递归的从词典中进行最大匹配,直到正向和逆向的匹配完全重合。如:我要查看网络的状态,分词为我,要,查看,网络,的,状态;
3、计算分词后的意图的词频,得出词频向量,即简单理解为计算每个词在该意图中出现的次数,并通过TF-IDF(term frequency–inverse document frequency,词频-逆文本词频指数)方法得出词频向量,这里要注意IDF需要选择性的使用,因为在与计算机的交互中,有一些停用词也是识别意图的关键;
4、将分析后的意图字典持久化,存储为模型文件。
在本实施例中,识别程序步骤为:
1、加载模型文件,加载为意图名称为索引值,词频向量为数据的字典结构;
2、将待识别文本,依据训练程序步骤进行词频分析;
3、通过贝叶斯分类算法,即计算样本属于每个意图的概率,然后选择概率最大的作为最终类别,这里注意对每一个类别要调校一个阈值,以免出现毫无干系的文本被分类到意图中的情况发生。
在一个实施例中,提供的一种设备操控方法还可以包括展示操作界面的过程,具体过程包括:获取登录指令,并根据登录指令获取用户信息;查找与用户信息对应的用户历史信息,并对用户历史信息进行大数据分析,得到分析结果;展示与分析结果对应的操作界面。
登录指令可以是用户通过语音输入的指令。计算机设备可以根据用户输入的语音获取到登录指令,并展示登录界面。用户可以通过登录界面语音输入用户信息。计算机设备可以根据输入的用户信息查找对应的用户历史信息。
计算机设备可以基于人工智能大数据算法分析,通过用户历史信息得到用户使用习惯,给出预测的操作结果,同时提供用户关于其他相关知识结果的获取。
在本实施例中,基于人工智能大数据算法分析,通过用户使用习惯,给出预测的操作结果,同时提供用户关于其他相关知识结果的获取,主要体现为以下但不限于的几个智能化方面:
1、智能分析当前网络故障,智能化的提醒网络管理人员需要进行哪些操作;
2、预测网络设备故障发生的概率;
3、对支持PROFINET(新一代工业以太网自动化总线标准)标准的工业网络设备实时的以图形化或警告方式展示设备的状态变更;
4、使用常用部署方案对指定的场景或环境完成自动部署。
在一个实施例中,提供的一种设备操控方法还可以包括生成语音文本的过程,具体过程包括:将语音指令发送至本地服务器,并将语音指令发送至云端;接收本地服务器返回的第一语音识别结果,并接收云端返回的第二语音识别结果;根据第一语音识别结果、第二语音识别结果生成语音文本。
计算机设备可以将语音指令发送至本地服务器中进行存储,同时,计算机设备可以将语音指令发送至云端。即,对用户的语音指令进行本地识别与云端识别。
本地服务器可以向计算机设备返回第一语音识别结果,同时,云端可以向计算机设备返回第二语音识别结果。计算机设备可以根据第一语音识别结果、第二识别结果生成语音文本。
在一个实施例中,提供的一种设备操控方法还可以包括得到语音识别结果的过程,具体过程包括:本地服务器获取文字识别神经网络模型,并通过文字识别神经网络模型输出第一语音识别结果;云端获取文字识别神经网络模型,并通过文字识别神经网络模型输出第二语音识别结果。
在一个实施例中,提供的一种设备操控方法还可以包括操控设备的过程,具体过程包括:根据手势指令、操作界面生成对应的设备操控指令;根据设备操控指令操控设备执行对应的动作。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种设备操控系统,包括:语音识别模块310、文本分类模块320、界面展示模块330和设备操控模块340,其中:
语音识别模块310,用于采集语音指令,并识别语音指令生成语音文本;
文本分类模块320,用于基于人工智能的文本分类技术,对语音文本进行分类,得到分类结果;
界面展示模块330,用于查找与分类结果对应的操作指令,并展示与操作指令对应的操作界面;
设备操控模块340,用于获取并识别手势指令,并根据手势指令、操作界面操控设备。
在一个实施例中,界面展示模块330还用于根据分类结果获取用户意图;查找与用户意图对应的对应关系;对应关系用于表示用户意图与操作指令之间的关系;根据对应关系查找操作指令。
在一个实施例中,界面展示模块330还用于获取登录指令,并根据登录指令获取用户信息;查找与用户信息对应的用户历史信息,并对用户历史信息进行大数据分析,得到分析结果;展示与分析结果对应的操作界面。
在一个实施例中,语音识别模块310还用于将语音指令发送至本地服务器,并将语音指令发送至云端;接收本地服务器返回的第一语音识别结果,并接收云端返回的第二语音识别结果;根据第一语音识别结果、第二语音识别结果生成语音文本。
在一个实施例中,语音识别模块310还用于本地服务器获取文字识别神经网络模型,并通过文字识别神经网络模型输出第一语音识别结果;云端获取文字识别神经网络模型,并通过文字识别神经网络模型输出第二语音识别结果。
在一个实施例中,设备操控模块340还用于根据手势指令、操作界面生成对应的设备操控指令;根据设备操控指令操控设备执行对应的动作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种设备操控方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
采集语音指令,并识别语音指令生成语音文本;
基于人工智能的文本分类技术,对语音文本进行分类,得到分类结果;
查找与分类结果对应的操作指令,并展示与操作指令对应的操作界面;
获取并识别手势指令,并根据手势指令、操作界面操控设备。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据分类结果获取用户意图;查找与用户意图对应的对应关系;对应关系用于表示用户意图与操作指令之间的关系;根据对应关系查找操作指令。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取登录指令,并根据登录指令获取用户信息;查找与用户信息对应的用户历史信息,并对用户历史信息进行大数据分析,得到分析结果;展示与分析结果对应的操作界面。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将语音指令发送至本地服务器,并将语音指令发送至云端;接收本地服务器返回的第一语音识别结果,并接收云端返回的第二语音识别结果;根据第一语音识别结果、第二语音识别结果生成语音文本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:本地服务器获取文字识别神经网络模型,并通过文字识别神经网络模型输出第一语音识别结果;云端获取文字识别神经网络模型,并通过文字识别神经网络模型输出第二语音识别结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据手势指令、操作界面生成对应的设备操控指令;根据设备操控指令操控设备执行对应的动作。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
采集语音指令,并识别语音指令生成语音文本;
基于人工智能的文本分类技术,对语音文本进行分类,得到分类结果;
查找与分类结果对应的操作指令,并展示与操作指令对应的操作界面;
获取并识别手势指令,并根据手势指令、操作界面操控设备。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据分类结果获取用户意图;查找与用户意图对应的对应关系;对应关系用于表示用户意图与操作指令之间的关系;根据对应关系查找操作指令。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取登录指令,并根据登录指令获取用户信息;查找与用户信息对应的用户历史信息,并对用户历史信息进行大数据分析,得到分析结果;展示与分析结果对应的操作界面。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将语音指令发送至本地服务器,并将语音指令发送至云端;接收本地服务器返回的第一语音识别结果,并接收云端返回的第二语音识别结果;根据第一语音识别结果、第二语音识别结果生成语音文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:本地服务器获取文字识别神经网络模型,并通过文字识别神经网络模型输出第一语音识别结果;云端获取文字识别神经网络模型,并通过文字识别神经网络模型输出第二语音识别结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据手势指令、操作界面生成对应的设备操控指令;根据设备操控指令操控设备执行对应的动作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种设备操控方法,其特征在于,所述方法包括:
采集语音指令,并识别所述语音指令生成语音文本;
基于人工智能的文本分类技术,对所述语音文本进行分类,得到分类结果;
查找与所述分类结果对应的操作指令,并展示与所述操作指令对应的操作界面;
获取并识别手势指令,并根据所述手势指令、所述操作界面操控设备;
所述查找与所述分类结果对应的操作指令,包括:
根据所述分类结果获取用户意图;
查找与所述用户意图对应的对应关系;所述对应关系用于表示所述用户意图与所述操作指令之间的关系;
根据所述对应关系查找所述操作指令;
将用户意图对应到人机会话,得到操控硬件或软件的命令和参数,对于硬件或软件进行操控,使用触屏进行结果展示,具体步骤为:
A1、每个意图对应着相应的操作命令和参数,如果参数不全,则进入人机对话,进一步获取操作需要的参数;
A2、基于SNMP协议,使用自研MIB对网络设备进行信息查询和配置;
A3、将用户的操控结果通过触屏显示出来,触屏接受用户的手势操作,这些操作包括:语音播报当前选中的链路的状态,图示各端口状态,拖拽组建环网以及拖拽组建虚拟局域网;
用户意图识别步骤分为训练步骤和识别步骤,训练步骤为:
B1、获取所有训练集数据,数据格式为以意图名称为索引值,待训练的文本数组作为数据的字典结构;
B2、对每个意图下的训练数据进行分词,使用双向匹配算法,即分别从句子的两端递归的从词典中进行最大匹配,直到正向和逆向的匹配完全重合;
B3、计算分词后的意图的词频,得出词频向量,即计算每个词在该意图中出现的次数,并通过TF-IDF方法得出词频向量;
B4、将分析后的意图字典持久化,存储为模型文件;
识别步骤为:
C1、加载模型文件,加载为意图名称为索引值,词频向量为数据的字典结构;
C2、将待识别文本,依据训练程序步骤进行词频分析;
C3、通过贝叶斯分类算法,即计算样本属于每个意图的概率,然后选择概率最大的作为最终类别,对每一个类别调校一个阈值;
所述方法还包括:
获取登录指令,并根据所述登录指令获取用户信息;
查找与所述用户信息对应的用户历史信息,并对所述用户历史信息进行大数据分析,得到分析结果;
展示与所述分析结果对应的操作界面。
2.根据权利要求1所述的方法,其特征在于,所述识别所述语音指令生成语音文本,包括:
将所述语音指令发送至本地服务器,并将所述语音指令发送至云端;
接收所述本地服务器返回的第一语音识别结果,并接收所述云端返回的第二语音识别结果;
根据所述第一语音识别结果、所述第二语音识别结果生成所述语音文本。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
所述本地服务器获取文字识别神经网络模型,并通过所述文字识别神经网络模型输出所述第一语音识别结果;
所述云端获取所述文字识别神经网络模型,并通过所述文字识别神经网络模型输出所述第二语音识别结果。
4.根据权利要求1所述的方法,其特征在于,所述根据所述手势指令、所述操作界面操控设备,包括:
根据所述手势指令、所述操作界面生成对应的设备操控指令;
根据所述设备操控指令操控设备执行对应的动作。
5.一种设备操控系统,其特征在于,所述系统包括:
语音识别模块,用于采集语音指令,并识别所述语音指令生成语音文本;
文本分类模块,用于基于人工智能的文本分类技术,对所述语音文本进行分类,得到分类结果;
界面展示模块,用于查找与所述分类结果对应的操作指令,并展示与所述操作指令对应的操作界面;
设备操控模块,用于获取并识别手势指令,并根据所述手势指令、所述操作界面操控设备;
所述界面展示模块,还用于:根据所述分类结果获取用户意图;查找与所述用户意图对应的对应关系;所述对应关系用于表示所述用户意图与所述操作指令之间的关系;根据所述对应关系查找所述操作指令;
将用户意图对应到人机会话,得到操控硬件或软件的命令和参数,对于硬件或软件进行操控,使用触屏进行结果展示,具体步骤为:
A1、每个意图对应着相应的操作命令和参数,如果参数不全,则进入人机对话,进一步获取操作需要的参数;
A2、基于SNMP协议,使用自研MIB对网络设备进行信息查询和配置;
A3、将用户的操控结果通过触屏显示出来,触屏接受用户的手势操作,这些操作包括但不限于:语音播报当前选中的链路的状态,图示各端口状态,拖拽组建环网以及拖拽组建虚拟局域网;
用户意图识别步骤分为训练步骤和识别步骤,训练步骤为:
B1、获取所有训练集数据,数据格式为以意图名称为索引值,待训练的文本数组作为数据的字典结构;
B2、对每个意图下的训练数据进行分词,使用双向匹配算法,即分别从句子的两端递归的从词典中进行最大匹配,直到正向和逆向的匹配完全重合;
B3、计算分词后的意图的词频,得出词频向量,即计算每个词在该意图中出现的次数,并通过TF-IDF方法得出词频向量;
B4、将分析后的意图字典持久化,存储为模型文件;
识别步骤为:
C1、加载模型文件,加载为意图名称为索引值,词频向量为数据的字典结构;
C2、将待识别文本,依据训练程序步骤进行词频分析;
C3、通过贝叶斯分类算法,即计算样本属于每个意图的概率,然后选择概率最大的作为最终类别,对每一个类别调校一个阈值;
所述界面展示模块,还用于:
获取登录指令,并根据所述登录指令获取用户信息;
查找与所述用户信息对应的用户历史信息,并对所述用户历史信息进行大数据分析,得到分析结果;
展示与所述分析结果对应的操作界面。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202110145529.2A 2021-02-02 2021-02-02 设备操控方法、系统、计算机设备及存储介质 Active CN112908328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110145529.2A CN112908328B (zh) 2021-02-02 2021-02-02 设备操控方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110145529.2A CN112908328B (zh) 2021-02-02 2021-02-02 设备操控方法、系统、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112908328A CN112908328A (zh) 2021-06-04
CN112908328B true CN112908328B (zh) 2023-07-07

Family

ID=76121585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110145529.2A Active CN112908328B (zh) 2021-02-02 2021-02-02 设备操控方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112908328B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113986434A (zh) * 2021-10-21 2022-01-28 深圳市联谛信息无障碍有限责任公司 一种操作移动终端用户界面的方法、装置及其电子设备
CN115809006B (zh) * 2022-12-05 2023-08-08 北京拙河科技有限公司 一种画面控制人工指令的方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120239396A1 (en) * 2011-03-15 2012-09-20 At&T Intellectual Property I, L.P. Multimodal remote control
CN108986801B (zh) * 2017-06-02 2020-06-05 腾讯科技(深圳)有限公司 一种人机交互方法、装置及人机交互终端
CN108182229B (zh) * 2017-12-27 2022-10-28 上海科大讯飞信息科技有限公司 信息交互方法及装置
CN109343705A (zh) * 2018-09-14 2019-02-15 广州越维信息科技有限公司 Ar辅助办税方法与系统
CN110047484A (zh) * 2019-04-28 2019-07-23 合肥马道信息科技有限公司 一种语音识别交互方法、系统、设备和存储介质
CN110727346B (zh) * 2019-09-24 2022-09-23 中国第一汽车股份有限公司 一种人机交互方法、装置、车辆及存储介质
CN111428512B (zh) * 2020-03-27 2023-12-12 大众问问(北京)信息科技有限公司 一种语义识别方法、装置及设备

Also Published As

Publication number Publication date
CN112908328A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
US10824818B2 (en) Systems and methods for machine learning-based multi-intent segmentation and classification
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
KR101886373B1 (ko) 딥러닝 인공신경망 기반의 타스크 제공 플랫폼
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
US8522151B2 (en) Wizard for selecting visualization
WO2020220636A1 (zh) 文本数据增强方法及装置、电子设备、计算机非易失性可读存储介质
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN112908328B (zh) 设备操控方法、系统、计算机设备及存储介质
CN110444198A (zh) 检索方法、装置、计算机设备和存储介质
CN111098312A (zh) 窗口政务服务机器人
KR102285142B1 (ko) 챗봇을 위한 학습 데이터 추천 장치 및 방법
US20220358292A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
US20220068279A1 (en) Automatic extraction of conversation highlights
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
CN107710191A (zh) 与单个词语音输入的翻译相关的方法和计算装置
CN112966088B (zh) 未知意图的识别方法、装置、设备及存储介质
CN113641830B (zh) 模型预训练方法、装置、电子设备和存储介质
US20220237376A1 (en) Method, apparatus, electronic device and storage medium for text classification
CN113688245A (zh) 基于人工智能的预训练语言模型的处理方法、装置及设备
CN114694644A (zh) 语音意图识别方法、装置及电子设备
KR20150041908A (ko) 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템
CN112818096A (zh) 对话生成方法及其装置
CN110198291B (zh) 一种网页后门检测方法、装置、终端及存储介质
CN114490967B (zh) 对话模型的训练方法、对话机器人的对话方法、装置和电子设备
CN113722446A (zh) 电力系统操作数据生成方法、装置、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant