CN110546603A - 机器学习命令交互 - Google Patents

机器学习命令交互 Download PDF

Info

Publication number
CN110546603A
CN110546603A CN201780090030.8A CN201780090030A CN110546603A CN 110546603 A CN110546603 A CN 110546603A CN 201780090030 A CN201780090030 A CN 201780090030A CN 110546603 A CN110546603 A CN 110546603A
Authority
CN
China
Prior art keywords
predefined
query
commands
word
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780090030.8A
Other languages
English (en)
Inventor
克利斯汀·佩罗内
托马斯·保拉
罗伯托·佩雷拉·西尔韦拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN110546603A publication Critical patent/CN110546603A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/327Initiating, continuing or ending a single-mode communication; Handshaking therefor
    • H04N1/32765Initiating a communication
    • H04N1/32771Initiating a communication in response to a request, e.g. for a particular document
    • H04N1/32784Initiating a communication in response to a request, e.g. for a particular document using a voice request
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Machine Translation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)

Abstract

本文公开的示例涉及经由聊天交互接收查询,根据训练后的机器学习模型将所接收的查询转换成预定义命令集中的一个预定义命令,以及向聊天交互提供该预定义命令集中的一个预定义命令的结果。

Description

机器学习命令交互
背景技术
除了其它特征之外,多功能设备常常用于打印、复制、传真和/或扫描文档。这样的设备提供一批可用菜单命令、选项以及向用户提供信息的能力。
附图说明
在附图中,相似的附图标记指相似的部件或框。下面的详细描述参考附图,其中:
图1是用于提供查询交互的示例系统;
图2是用于提供查询交互的方法的示例的流程图;以及
图3是用于提供查询交互的示例计算设备的框图。
具体实施方式
为了简便和说明性的目的,通过主要参考实施例的示例来描述实施例的原理。在下面的描述中,很多特定的细节被阐述,以便提供实施例的理解。然而,对本领域普通技术人员将明显的是,可以在没有这些特定细节的限制的情况下实践实施例。在一些实例中,没有详细地描述众所周知的方法和/或结构,以便不使实施例不必要地模糊。
诸如打印机、膝上型计算机、智能电话和/或其它计算设备的各种电子设备常常提供用于与用户交互的用户界面(UI)。这样的UI可例如提供状态信息、接受命令和指令、提供维护指令等。在一些情况下,可能存在设备能够响应的数百个命令,但用户常常对键入和/或通过很多菜单级别点击以尝试和找到正确的UI选项从而访问它们期望的信息几乎没有耐心。
在本文的示例中,可提供诸如交互式聊天界面的自然语言界面。有时被称为“聊天机器人”,该界面可从用户接受查询(诸如,键入的和/或说出的)、将查询转换成由设备已知的预定义命令中的一个预定义命令以及向用户提供响应。例如,用户可以询问聊天机器人“油墨剩下多少?”。聊天机器人可使用训练后的机器学习模型来将查询“油墨剩下多少?”转换成特征向量,该特征向量可接着用于识别也被提取到特征向量中的最接近的匹配模型。命令可在设备上被执行,并且答案被提供给用户作为来自聊天机器人的响应。
可包括图像和/或文本特征向量的特征向量可表示文本表示的特性。例如,文本特征向量可表示词的相似性、语言规律、基于训练后的词的上下文信息、形状、区的描述、对其它向量的接近度等。特征向量可以在多模空间中是可表示的。多模空间可包括k维坐标系。当在多模空间中填充图像和文本特征向量时,可通过比较在多模空间中的特征向量的距离来识别对查询的匹配图像,从而识别相似的图像特征和文本特征。距离比较的一个示例可包括余弦接近度,其中在多模空间中的特征向量之间的余弦角被比较以确定最接近的特征向量。余弦相似特征可在多模空间中是邻近的,而不相似的特征向量可以是远端的。特征向量可具有k维或在多模空间中的坐标。具有相似特征的特征向量在向量模型中的多模空间中接近彼此被嵌入。
基于特征的向量表示可使用各种模型以在连续向量空间中表示文档的词、图像和结构。不同的技术可应用于表示在向量空间中的不同特征,且不同级别的特征可根据可能需要被维护的文档的数量来存储。例如,在语义上相似的词可通过答复在相同的上下文中出现的词共享语义含义的事实来映射到附近的点。运用这个原理的两个示例方法包括基于计数的模型(例如潜在语义分析)和预测模型(例如神经概率语言模型)。基于计数的模型计算某个词多长时间与它的邻近词共同出现在大文本语料库中一次的统计,并接着将这些计数统计一直映射到每个词的小密集向量。预测方法直接试图在所获悉的小密集嵌入向量(模型的被考虑的参数)方面从它的邻居预测词。其它层可捕获其它特征,诸如字体类型分布、布局、图像内容和定位、颜色图等。
在一些示例中,可以用特征向量和由打印设备理解的预定义命令集的标识符创建索引。在一些实现中,可以为多个不同的设备提取相似的命令集,且包括可包括每个设备的标识符的提取。编索引可包括存储命令的标识符(ID)和它的特征向量,且搜索可返回图像的标识符。每个命令可例如包括所需的和/或可选的参数。例如,识别油墨水平的命令可包括可选的参数以识别特定颜色的墨盒的油墨水平和/或所有安装的墨盒的油墨水平。诸如通过扫描在设备的应用编程界面(API)中可得到的适当功能列表,可手动地选择和/或自动填充命令的列表。
在一些实现中,可对诸如技术论文、新闻文章、虚构和/或非虚构作品等的大集合的自然语言文档训练机器学习模型。模型因此可插入语义含义和不同词的相似性。例如,模型可通过找到具有那些标题的两个相似的新闻故事来获悉词“奥巴马对伊利诺伊州的媒体讲话”在语义上类似于词“总统问候芝加哥的新闻界”。机器学习模型可包括例如用负采样训练的word2vec模型。word2vec是用于从原始文本学习词嵌入(word embeddings)的在计算上有效的预测模型。它可依赖于各种模型,诸如连续词袋模型(CBOW)和Skip-Gram模型。CBOW例如从源上下文词(“the cat sits on the”)预测目标词(例如“mat”),而skip-gram正好反过来进行并且从目标词预测源上下文词。机器学习模型也可由词的其它类型的向量表示(诸如全局向量(GloVe))或任何其它形式的词嵌入组成。
通过从该预定义命令集提取特征向量,每个命令可通过将相对小的一组关键词映射到该预定义命令集中的每一个来对各种自然语言查询变得可用。此外,通过向量表示命令的索引的搜索比常规文本串匹配搜索花费明显更少的时间。一旦被提取到特征向量中,用户的自然语言查询就可用于计算在查询和命令之间的词移动距离(WMD)。WMD对在两个文本表示之间的相异性进行测量作为一个表示的嵌入后的词需要行进以到达另一表示的嵌入后的词的距离的最小数量。WMD越低,每个表示的词就越近和/或越相同。
图1是用于提供查询交互的示例系统100的框图。系统100可包括包含存储器115的计算设备110。计算设备110可包括例如通用和/或专用计算机、服务器、大型机、桌上型计算机、膝上型计算机、平板计算机、智能电话、游戏控制台、打印机和/或能够提供计算能力的任何其它系统,计算能力与提供本文所述的实现一致。计算设备110可在存储器115中存储语言模型引擎120和交互引擎125。
系统100的引擎120、125中的每一个可包括硬件和程序的任何组合,以实现相应引擎的功能。在本文所述的示例,硬件和程序的这样的组合可以以多种不同的方式实现。例如,引擎的程序可以是存储在非瞬态机器可读存储介质上的处理器可执行的指令,并且引擎的硬件可包括用于执行那些指令的处理资源。在这样的示例中,机器可读存储介质可存储指令,指令在由处理资源执行时实现引擎120、125。在这样的示例中,系统100可包括存储指令的机器可读存储介质和用于执行指令的处理资源,或机器可读存储介质可以是分开的,但是可以是系统100和处理资源可访问的。
语言模型引擎120可根据训练后的模型将接收的查询转换成预定义命令集130中的一个预定义命令。例如,训练后的模型可包括机器学习模型,例如对多个自然语言文档的负采样进行训练的word2vec模型。在一些实现中,将所接收的查询转换成预定义命令集130中的一个预定义命令可包括将所接收的查询的每个词转换成多维向量表示。在一些实现中,将所接收的查询转换成预定义命令集130中的一个预定义命令可包括:计算在所接收的查询的每个词和与预定义命令集130相关联的词表中的每个词之间的词移动距离(WMD)。
在一些示例中,语言模型引擎120可基于所计算的WMD来识别预定义命令集130中包括相对于所接收的查询的最小词距离的一个预定义命令。这样的命令例如可包括与提供和接收来自打印设备150的信息相关联的命令。例如,命令可包括关于设备150的状态查询命令和/或由设备150执行的工作的状态查询命令。
所接收的查询可以以自然语言表达,自然语言诸如“今天已经打印多少页”、“多少工作正在等待”、“剩下多少油墨”、“下一服务何时到期”、“你的模型是什么”、“你的名字是什么”、“你的地址是什么”等。这些仅仅作为示例被给出,且大批其它查询可被接收并映射到预定义命令集130。这些示例查询可通过语言模型引擎120从预定义命令集130转换成命令。
语言模型引擎120可例如包括可将预定义命令集130和所接收的查询两者都转换成k维文本特征向量的卷积神经网络(CNN)。k维特征向量可以是在欧几里德空间中可表示的向量。在k维特征向量中的维度可表示由CNN确定的变量,CNN描述查询的文本和预定义命令集130。k维特征向量在同一多模空间中可表示,且可使用距离比较(诸如在多模空间中的词移动距离(WMD))来比较。在各种示例中,语言模型引擎120可包括卷积神经网络-长期短期记忆(CNN-STM)编码器、seq2seq(编码器-解码器模型)和/或结构神经语言模型(SC-NLM)编码器。一些示例可使用其它模型和/或模型的组合。
交互引擎125可从用户接收查询、从语言模型引擎接收预定义命令以及根据从语言模型引擎接收的预定义命令向用户提供对查询的响应。例如,查询可以是自然语言句子、一组词、短语等。可通过基于聊天的界面(例如短消息服务、即时消息、web应用、话音交互界面(具有相关联的语音到文本引擎)等)从用户接收查询。
语言模型引擎120可使用来自查询的k维文本特征向量来从预定义命令集130中识别最接近的匹配命令。如果没有命令被确定为在可配置的阈值距离内,则误差可被报告给查询用户。为了执行匹配,语言模型引擎120可将从查询产生的文本特征向量和与预定义命令集130相关联的文本特征向量进行比较。
交互引擎125可在打印设备150上执行匹配命令,如果有的话。例如,打印设备150可提供允许交互引擎125执行相对于打印设备150的功能的API,和/或打印设备150可诸如通过简单网络管理协议(SNMP)查询来接受远程执行命令。交互引擎125可经由用户用于提交查询的同一界面从打印设备150提供对命令的响应。例如,用户可已经将命令“我能打印多少页?”键入到聊天界面中。语言模型引擎120可根据打印设备150的可用API将查询转换成到打印设备150的命令,以用于剩余油墨水平状态检查。交互引擎125可接着执行API功能并经由聊天界面提供对用户的查询的响应。
在一些实现中,系统100可包括打印设备150;也就是说,计算设备110和存储器115可以是打印设备150的部分,且预定义命令集130可存储在存储器115中。打印设备150可提供用于诸如经由网络可访问应用和/或经由硬件控制面板的用户界面来接收查询的界面。在其它实现中,计算设备110可与打印机150(诸如云服务)通信。这样的实现可允许语言模型引擎120和交互引擎125为多个打印设备服务。
虽然在图1中描绘了一个计算设备110,但是系统100的某些实现可包括多于一个计算设备110。计算设备中的至少一个可被使用并例如被设置在至少一个服务器阵列、计算机阵列、数据中心和/或其它设置中。例如,计算设备一起可包括云计算资源、网格计算资源和/或任何其它分布式计算设置。这样的计算设备可位于单个装置中和/或可分布在很多不同的地理位置之中。
图2是用于提供查询交互的示例方法200的流程图。虽然下面参考计算设备110描述了方法200的执行,但是可使用用于执行方法200的其它适当的部件。
方法200可在阶段205中开始并继续进行到阶段210,在阶段210中计算设备110可经由聊天交互来接收查询。例如,查询可以是自然语言句子、一组词、短语等。可通过基于聊天的界面(诸如短消息服务、即时消息、web应用、话音交互界面等)从用户接收查询。在本文的示例中,可提供自然语言界面,诸如交互式聊天界面。有时被称为“聊天机器人”的界面可从用户接受查询(诸如键入的和/或说出的)、将查询转换成由设备已知的预定义命令中的一个预定义命令以及向用户提供响应。例如,用户可以询问聊天机器人“剩下多少油墨?”聊天机器人可使用训练后的机器学习模型来将查询“剩下多少油墨”转换成特征向量,该特征向量可接着用于识别也被提取到特征向量中的最接近的匹配命令。命令可在设备上被执行,并且答案被提供给用户作为来自聊天机器人的响应。
方法200可接着前进到阶段215,在阶段215中计算设备110可根据训练后的机器学习模型来将所接收的查询转换成预定义命令集中的一个预定义命令。在一些实现中,训练后的机器学习模型包括从多个自然语言文档中提取的多个向量表示的词嵌入。例如,语言模型引擎120可根据训练后的模型将所接收的查询转换成预定义命令集130中的一个预定义命令。例如,训练后的模型可包括机器学习模型,诸如对多个自然语言文档的负采样进行训练的word2vec模型。在一些实现中,将所接收的查询转换成预定义命令集130中的一个预定义命令可包括将所接收的查询的每个词转换成多维向量表示。在一些实现中,将所接收的查询转换成预定义命令集130中的一个预定义命令可包括:计算在所接收的查询的每个词和与预定义命令集130相关联的词表中的每个词之间的词移动距离(WMD)。
一旦被提取到特征向量中,用户的自然语言查询就可用于计算在查询和命令之间的词移动距离(WMD)。WMD对在两个文本表示之间的相异性进行测量作为一个表示的嵌入后的词需要行进以到达另一表示的嵌入后的词的距离的最小数量。WMD越低,每个表示的词就越近和/或越相同。
语言模型引擎120可使用来自查询的k维文本特征向量来从预定义命令集130中识别最接近的匹配命令。如果没有命令被确定为在可配置的阈值距离内,则误差可被报告给查询用户。为了执行匹配,语言模型引擎120可将从查询产生的文本特征向量和与预定义命令集130相关联的文本特征向量进行比较。
方法200可接着前进到阶段220,在阶段220中计算设备110可向聊天交互提供预定义命令集中的该一个预定义命令的结果。交互引擎125可在打印设备150上执行匹配命令,如果有的话。例如,打印设备150可提供允许交互引擎125执行相对于打印设备150的功能的API,和/或打印设备150可诸如通过简单网络管理协议(SNMP)查询来接受远程执行命令。交互引擎125可经由用户用于提交查询的同一界面从打印设备150提供对命令的响应。例如,用户可已经将命令“我能打印多少页?”键入到聊天界面中。语言模型引擎120可根据打印设备150的可用API将查询转换成到打印设备150的命令,以用于剩余油墨水平状态检查。交互引擎125可接着执行API功能并经由聊天界面提供对用户的查询的响应。
方法200可接着在阶段250处结束。
图3是用于提供查询交互的示例计算设备300的框图。计算设备300可包括处理器310和存储器315,存储器315包括非瞬态机器可读存储介质。存储器315可包括多个处理器可执行指令,诸如训练机器学习模型指令332、创建命令集指令334、提取向量表示指令336、接收查询指令338、识别最接近的命令指令340以及提供响应指令342。在一些实现中,指令332、334、336、338、340、342可与单个计算设备300相关联和/或可在不同的计算设备之中诸如经由直接连接、总线或网络通信地耦接。
处理器310可包括中央处理单元(CPU)、基于半导体的微处理器、诸如复杂可编程逻辑设备(CPLD)和/或现场可编程门阵列(FPGA)的可编程部件或适合于取回和执行存储在机器可读存储介质320中的指令的任何其它硬件设备。具体地,处理器310可取出、解码和执行指令332、334、336、338、340、342。
可执行指令332、334、336、338、340、342可包括存储在机器可读存储介质的任何部分和/或部件中并由处理器310可执行的逻辑。机器可读存储介质315可包括易失性和/或非易失性存储器两者和数据存储部件。易失性部件是当掉电时不保留数据值的部件。非易失性部件是当掉电时保留数据的部件。
机器可读存储介质315可包括例如随机存取存储器(RAM)、只读存储器(ROM)、硬盘驱动器、固态驱动器、USB闪存驱动器、经由存储卡阅读器访问的存储卡、经由相关联的软盘驱动器访问的软盘、经由光学磁盘驱动器访问的光盘、经由适当的磁带驱动器访问的磁带和/或其它存储器部件,和/或这些存储器部件中的任两个和/或更多个的组合。此外,RAM可包括例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)和/或磁性随机存取存储器(MRAM)和其它这样的设备。ROM可包括例如可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和/或其它类似的存储器设备。
训练机器学习模型指令332可训练包括从多个自然语言文档中提取的多个向量表示的词嵌入的机器学习模型。例如,语言模型引擎120可包括可将预定义命令集130和所接收的查询两者都转换成k维文本特征向量的卷积神经网络(CNN)。k维特征向量可以是在欧几里德空间中可表示的向量。在k维特征向量中的维度可表示由CNN确定的变量,CNN描述查询的文本和预定义命令集130。k维特征向量在同一多模空间中可表示,且可使用距离比较(诸如在多模空间中的词移动距离(WMD))来比较。在各种示例中,语言模型引擎120可包括卷积神经网络-长期短期记忆(CNN-STM)编码器、seq2seq(编码器-解码器模型)和/或结构神经语言模型(SC-NLM)编码器。一些示例可使用其它模型和/或模型的组合。
在一些实现中,可对诸如技术论文、新闻文章、虚构和/或非虚构作品等的大集合的自然语言文档训练机器学习模型。模型因此可插入语义含义和不同词的相似性。例如,模型可通过找到具有那些标题的两个相似的新闻故事来获悉词“奥巴马对伊利诺伊州的媒体讲话”在语义上类似于词“总统问候芝加哥的新闻界”。机器学习模型可包括例如用负采样训练的word2vec模型。Word2vec是用于从原始文本学习词嵌入的在计算上有效的预测模型。它可依赖于各种模型,诸如连续词袋模型(CBOW)和Skip-Gram模型。CBOW例如从源上下文词(“the cat sits on the”)预测目标词(例如“mat”),而skip-gram正好反过来进行并从目标词预测源上下文词。
创建命令集指令334可创建与打印设备相关联的预定义命令集。在一些示例中,可以用特征向量和由打印设备理解的预定义命令集的标识符创建索引。在一些实现中,可以为多个不同的设备提取相似的命令集,且包括可包括每个设备的标识符的提取。编索引可包括存储命令的标识符(ID)和它的特征向量,且搜索可返回图像的标识符。每个命令可例如包括所需的和/或可选的参数。例如,识别油墨水平的命令可包括可选的参数以识别特定颜色的墨盒的油墨水平和/或所有安装的墨盒的油墨水平。诸如通过扫描在设备的应用编程界面(API)中可得到的适当功能列表,可手动地选择和/或自动填充命令的列表。
提取向量表示指令336可根据机器学习模型提取预定义命令集中的每一个预定义命令的向量表示。基于特征的向量提取可使用各种模型以在连续向量空间中表示文档的词、图像和结构。不同的技术可应用于表示在向量空间中的不同特征,且不同级别的特征可根据可能需要被维护的文档的数量来存储。例如,在语义上相似的词可通过答复在相同的上下文中出现的词共享语义含义的事实来映射到附近的点。运用这个原理的两个示例方法包括基于计数的模型(例如潜在语义分析)和预测模型(例如神经概率语言模型)。基于计数的模型计算某个词多长时间与它的邻近词共同出现在大文本语料库中一次的统计,并接着将这些计数统计一直映射到每个词的小密集向量。预测方法直接试图在所获悉的小密集嵌入向量(模型的被考虑的参数)方面从它的邻居预测词。其它层可捕获其它特征,诸如字体类型分布、布局、图像内容和定位、颜色图等。
接收查询指令338可经由聊天界面从用户接收查询。例如,查询可以是自然语言句子、一组词、短语等。可通过基于聊天的界面(诸如短消息服务、即时消息、web应用等)从用户接收查询。所接收的查询可以以自然语言表达,自然语言诸如“今天已经打印多少页”、“多少工作正在等待”、“剩下多少油墨”、“下一服务何时到期”、“你的模型是什么”、“你的名字是什么”、“你的地址是什么”等。这些仅仅作为示例被给出,且大批其它查询可被接收并被映射到预定义命令集130。这些示例查询可通过语言模型引擎120从预定义命令集130转换成命令。
识别最接近的命令指令340可根据机器学习模型识别预定义命令集中在语义上与所接收的查询最接近的一个预定义命令。例如,语言模型引擎120可使用来自查询的k维文本特征向量从预定义命令集130中识别最接近的匹配命令。如果没有命令被确定为在可配置的阈值距离内,则误差可被报告给查询用户。为了执行匹配,语言模型引擎120可将从查询产生的文本特征向量和与预定义命令集130相关联的文本特征向量进行。在一些示例中,语言模型引擎120可基于所计算的WMD来识别预定义命令集130中包括相对于所接收的查询的最小词距离的一个预定义命令。这样的命令例如可包括与提供和接收来自打印设备150的信息相关联的命令。例如,命令可包括关于设备150的状态查询命令和/或由设备150执行的工作的状态查询命令。
提供响应指令342可根据预定义命令集中的一个预定义命令经由聊天界面提供对查询的响应。例如,交互引擎125可在打印设备150上执行匹配命令,如果有的话。例如,打印设备150可提供允许交互引擎125执行相对于打印设备150的功能的API,和/或打印设备150可诸如通过简单网络管理协议(SNMP)查询来接受远程执行命令。交互引擎125可经由用户用于提交查询的同一界面从打印设备150提供对命令的响应。例如,用户可已经将命令“剩下油墨的多少页”键入到聊天界面中。语言模型引擎120可根据打印设备150的可用API将查询转换成打印设备150的命令,以用于剩余油墨水平状态检查。交互引擎125可接着执行API功能并经由聊天界面提供对用户的查询的响应。
所公开的示例可包括用于文档元素重新定位的系统、设备、计算机可读存储介质和方法。为了解释的目的,参考图中所图示的部件描述某些示例。然而,所图示的部件的功能可重叠,并可存在于更少或更大数量的元件和部件中。此外,所图示的元件的功能的全部或部分可共存或分布在几个地理上分散的位置之中。而且,所公开的示例可在各种环境中实现且不限于所图示的示例。
而且,如在说明书和所附权利要求中所使用的,单数形式“一”和“该”意在也包括复数形式,除非上下文另外指示。此外,虽然术语“第一”、“第二”等可在本文用于描述各种元件,但是这些元件不应由这些术语限制。相反,这些术语仅用于区分一个元件与另一元件。
进一步,关于图所描述的操作的顺序是示例且不意在限制。额外或更少的操作或操作的组合可被使用或可改变而不脱离所公开的范围。因此,本公开仅阐述实现的可能示例,且可对所描述的示例做出许多变形和修改。所有这样的修改和变形意在包括在本公开的范围内并被所附权利要求保护。

Claims (15)

1.一种系统,包括:
存储器,所述存储器存储:
语言模型引擎,所述语言模型引擎用于:
根据训练后的模型将接收的查询转换成预定义命令集中的一个预定义命令;以及
交互引擎,所述交互引擎用于:
从用户接收查询,
从所述语言模型引擎接收所述预定义命令,以及
根据从所述语言模型引擎接收的所述预定义命令向所述用户提供对所述查询的响应。
2.根据权利要求1所述的系统,其中所述训练后的模型包括对多个自然语言文档进行训练的机器学习模型。
3.根据权利要求2所述的系统,其中,所述机器学习模型包括词嵌入模型。
4.根据权利要求1所述的系统,其中,所述交互引擎经由聊天界面从所述用户接收所述查询。
5.根据权利要求1所述的系统,其中,将所接收的查询转换成所述预定义命令集中的一个预定义命令包括将所接收的查询的每个词转换成多维向量表示。
6.根据权利要求5所述的系统,其中,将所接收的查询转换成所述预定义命令集中的一个预定义命令进一步包括:计算在所接收的查询的每个词和与所述预定义命令集相关联的词表中的每个词之间的词移动距离。
7.根据权利要求1所述的系统,其中,将所接收的查询转换成所述预定义命令集中的一个预定义命令进一步包括:识别所述预定义命令集中包括相对于所接收的查询的最小词距离的所述一个预定义命令。
8.根据权利要求1所述的系统,其中所述预定义命令集包括与打印设备相关联的命令。
9.根据权利要求8所述的系统,其中所述系统包括所述打印设备。
10.根据权利要求8所述的系统,其中所述交互引擎与所述打印设备通信。
11.一种方法,包括:
经由聊天交互接收查询;
根据训练后的机器学习模型将所接收的查询转换成预定义命令集中的一个预定义命令;以及
向所述聊天交互提供所述预定义命令集中的所述一个预定义命令的结果。
12.根据权利要求11所述的方法,其中,所述训练后的机器学习模型包括从多个自然语言文档中提取的多个向量表示的词嵌入。
13.根据权利要求11所述的方法,其中,将所接收的查询转换成所述预定义命令集中的一个预定义命令包括:识别所述预定义命令集中在语义上与所接收的查询最接近的命令。
14.根据权利要求13所述的方法,其中,所述聊天交互由打印设备提供。
15.一种存储指令的非瞬态机器可读介质,所述指令由处理器可执行,用于:
训练包括从多个自然语言文档中提取的多个向量表示的词嵌入的机器学习模型;
创建与打印设备相关联的预定义命令集;
根据所述机器学习模型提取所述预定义命令集中的每一个预定义命令的向量表示;
经由聊天界面从用户接收查询;
根据所述机器学习模型识别所述预定义命令集中在语义上与所接收的查询最接近的一个预定义命令;以及
根据所述预定义命令集中的所述一个预定义命令经由所述聊天界面提供对所述查询的响应。
CN201780090030.8A 2017-04-25 2017-04-25 机器学习命令交互 Pending CN110546603A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2017/029253 WO2018199913A1 (en) 2017-04-25 2017-04-25 Machine-learning command interaction

Publications (1)

Publication Number Publication Date
CN110546603A true CN110546603A (zh) 2019-12-06

Family

ID=63919193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780090030.8A Pending CN110546603A (zh) 2017-04-25 2017-04-25 机器学习命令交互

Country Status (4)

Country Link
US (1) US11509794B2 (zh)
EP (1) EP3616048A4 (zh)
CN (1) CN110546603A (zh)
WO (1) WO2018199913A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282977A (zh) * 2021-03-19 2021-08-20 广州天越电子科技有限公司 一种基于NLP技术bert模型的CAD中文输入快捷命令方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019658B (zh) * 2017-07-31 2023-01-20 腾讯科技(深圳)有限公司 检索项的生成方法及相关装置
EP3723084A1 (en) * 2018-03-07 2020-10-14 Google LLC Facilitating end-to-end communications with automated assistants in multiple languages
WO2021009861A1 (ja) * 2019-07-17 2021-01-21 富士通株式会社 特定プログラム、特定方法、および特定装置
EP3786855A1 (en) * 2019-08-30 2021-03-03 Accenture Global Solutions Limited Automated data processing and machine learning model generation
US11163760B2 (en) * 2019-12-17 2021-11-02 Mastercard International Incorporated Providing a data query service to a user based on natural language request data
US11461400B2 (en) * 2020-01-07 2022-10-04 Dell Products L.P. Using artificial intelligence and natural language processing for data collection in message oriented middleware frameworks
US11429603B2 (en) * 2020-01-07 2022-08-30 Dell Products L.P. Using artificial intelligence and natural language processing for data collection in message oriented middleware frameworks
JP2023510791A (ja) * 2020-01-17 2023-03-15 エヌフェレンス,インコーポレイテッド 意味空間内のベクトル表示にタームをマッピングするためのシステム及び方法
US11397667B2 (en) * 2020-02-20 2022-07-26 Accenture Global Solutions Limited Software test case sequencing
CN112199485B (zh) * 2020-10-14 2022-10-14 哈尔滨工程大学 一种基于个性化开放领域的对话生成方法
US11928111B2 (en) * 2021-03-03 2024-03-12 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling electronic apparatus

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665640B1 (en) * 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US20040261021A1 (en) * 2000-07-06 2004-12-23 Google Inc., A Delaware Corporation Systems and methods for searching using queries written in a different character-set and/or language from the target pages
CN102725757A (zh) * 2010-02-05 2012-10-10 微软公司 上下文查询
US20150154976A1 (en) * 2013-12-02 2015-06-04 Rawles Llc Natural Language Control of Secondary Device
CN106415535A (zh) * 2014-04-14 2017-02-15 微软技术许可有限责任公司 使用深度学习模型的上下文相关的搜索

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03163623A (ja) 1989-06-23 1991-07-15 Articulate Syst Inc 音声制御コンピュータ・インターフェース
GB2380564A (en) * 2001-10-03 2003-04-09 Hewlett Packard Co Method of collecting consumer data
KR100481440B1 (ko) 2002-11-06 2005-04-07 주식회사 우심시스템 휴대용 복합 단말기
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US9294624B2 (en) 2009-01-28 2016-03-22 Virtual Hold Technology, Llc System and method for client interaction application integration
US20140255895A1 (en) 2013-03-06 2014-09-11 Avaya Inc. System and method for training agents of a contact center
US9842586B2 (en) 2014-07-09 2017-12-12 Genesys Telecommunications Laboratories, Inc. System and method for semantically exploring concepts
US9965458B2 (en) 2014-12-09 2018-05-08 Sansa AI Inc. Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
US10482184B2 (en) * 2015-03-08 2019-11-19 Google Llc Context-based natural language processing
US10467268B2 (en) 2015-06-02 2019-11-05 International Business Machines Corporation Utilizing word embeddings for term matching in question answering systems
US10262654B2 (en) * 2015-09-24 2019-04-16 Microsoft Technology Licensing, Llc Detecting actionable items in a conversation among participants
US10515400B2 (en) * 2016-09-08 2019-12-24 Adobe Inc. Learning vector-space representations of items for recommendations using word embedding models

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665640B1 (en) * 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US20040261021A1 (en) * 2000-07-06 2004-12-23 Google Inc., A Delaware Corporation Systems and methods for searching using queries written in a different character-set and/or language from the target pages
CN102725757A (zh) * 2010-02-05 2012-10-10 微软公司 上下文查询
US20150154976A1 (en) * 2013-12-02 2015-06-04 Rawles Llc Natural Language Control of Secondary Device
CN106415535A (zh) * 2014-04-14 2017-02-15 微软技术许可有限责任公司 使用深度学习模型的上下文相关的搜索

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282977A (zh) * 2021-03-19 2021-08-20 广州天越电子科技有限公司 一种基于NLP技术bert模型的CAD中文输入快捷命令方法

Also Published As

Publication number Publication date
EP3616048A4 (en) 2020-12-02
EP3616048A1 (en) 2020-03-04
US20210112178A1 (en) 2021-04-15
US11509794B2 (en) 2022-11-22
WO2018199913A1 (en) 2018-11-01

Similar Documents

Publication Publication Date Title
US11509794B2 (en) Machine-learning command interaction
US11481656B2 (en) Method and apparatus for evaluating a matching degree of multi-domain information based on artificial intelligence, device and medium
CN107656922B (zh) 一种翻译方法、装置、终端及存储介质
AU2020279921B2 (en) Representative document hierarchy generation
AU2011336445B2 (en) Identifying matching canonical documents in response to a visual query
CN108537176A (zh) 目标弹幕的识别方法、装置、终端及存储介质
CN102402584A (zh) 多语言文本中的语言识别
CN114596566B (zh) 文本识别方法及相关装置
AU2019419891B2 (en) System and method for spatial encoding and feature generators for enhancing information extraction
US11830271B2 (en) Document processing optimization
Baek et al. COO: Comic onomatopoeia dataset for recognizing arbitrary or truncated texts
CN111563381A (zh) 文本处理方法和装置
US11151307B2 (en) Mapping annotations to ranges of text across documents
CN116797195A (zh) 工单处理方法、装置、计算机设备和计算机可读存储介质
US11290617B2 (en) Document security
CN116324910A (zh) 用于执行设备上图像到文本转换的方法和系统
CN114373088A (zh) 一种图像检测模型的训练方法和相关产品
KR20220052223A (ko) 객체 감지를 위한 라벨링 장치 및 방법
US20210004579A1 (en) Methods and systems for finding elements in optical character recognition documents
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN116758565B (zh) 一种基于决策树的ocr文本还原方法、设备及存储介质
US20230098086A1 (en) Storing form field data
US11763585B2 (en) Multi-layer neural network and convolutional neural network for context sensitive optical character recognition
CN116187274A (zh) 标签提取方法、装置、电子设备和可读存储介质
CN116958987A (zh) 作品识别方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191206