CN112417090A - 利用未提交的用户输入数据来提高任务性能 - Google Patents

利用未提交的用户输入数据来提高任务性能 Download PDF

Info

Publication number
CN112417090A
CN112417090A CN202010847742.3A CN202010847742A CN112417090A CN 112417090 A CN112417090 A CN 112417090A CN 202010847742 A CN202010847742 A CN 202010847742A CN 112417090 A CN112417090 A CN 112417090A
Authority
CN
China
Prior art keywords
user
uncommitted
input data
relevance
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010847742.3A
Other languages
English (en)
Inventor
S.R.M.萨奥尔
S.Y.茨维科夫
M.索格林
D.J.麦克洛斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN112417090A publication Critical patent/CN112417090A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

提供了方法、系统和计算机程序产品。识别用户在编写用于执行任务的已提交的输入数据期间键入的未提交的输入数据的项。对于所识别的未提交项,确定指示未提交项与用户意图的相关性的相关性分数。基于作为用户意图的表示的已提交的输入数据,使用图形语义模型来确定未提交项的相关性分数。基于所确定的相关性分数来选择所识别的未提交项,以用于补充用于执行任务的已提交的输入数据。

Description

利用未提交的用户输入数据来提高任务性能
技术领域
本公开涉及基于用户输入数据执行的计算任务。
背景技术
本公开涉及基于用户输入数据执行的计算任务,更具体地,涉及用于补充已提交的用户输入数据以提高任务性能的技术。
发明内容
根据本公开的一个方面,提供了一种计算机实施的方法。该方法包括识别用户在编写用于执行任务的已提交的输入数据期间键入的未提交的输入数据的项。该方法还包括,对于所识别的未提交项,确定指示未提交项与用户意图的相关性的相关性分数。基于作为用户意图的表示的已提交的输入数据,使用图形语义模型来确定未提交项的相关性分数。该方法还包括,基于所确定的相关性分数来选择所识别的未提交项,以用于补充用于执行任务的已提交的输入数据。
根据本公开的另一方面,提供了一种设备。该设备包括处理器、数据存储装置和用户界面。用户界面被配置为让用户键入用于执行任务的输入数据。处理器被配置为识别用户在编写用于执行任务的已提交的输入数据期间键入的未提交的输入数据的项。处理器还被配置为,对于所识别的未提交项,确定指示未提交项与用户意图的相关性的相关性分数。基于作为用户意图的表示的已提交的输入数据,使用图形语义模型来确定未提交项的相关性分数。处理器还被配置为,基于所确定的相关性分数来选择所识别的未提交项,以用于补充用于执行任务的已提交的输入数据。
根据本公开的又一方面,提供了一种计算机程序产品。该计算机程序产品包括其中含有程序指令的计算机可读存储介质。该程序指令可由处理器执行以使处理器:识别用户在编写用于执行任务的已提交的输入数据期间键入的未提交的输入数据的项;对于所识别的未提交项,确定指示未提交项与用户意图的相关性的相关性分数,其中,基于作为用户意图的表示的已提交的输入数据,使用图形语义模型来确定未提交项的相关性分数;以及基于所确定的相关性分数来选择所识别的未提交项,以用于补充用于执行任务的已提交的输入数据。
附图说明
下面将参考以下附图描述本公开的示例实施方式,其中:
图1是示出用于基于用户输入数据来执行任务的系统的示意图;
图2是根据本公开的示例实施方式的用于识别与用户意图相关的、用于任务的未提交的用户数据的方法的流程图;
图3是根据本公开的示例实施方式的用于确定用于任务的、未提交的用户输入数据的项的相关性的方法的流程图;
图4是根据本公开的示例实施方式的系统的框图;
图5示出了根据本发明实施例的云计算环境;和
图6示出了根据本发明实施例的由图4的云计算环境提供的功能抽象层集合。
具体实施方式
许多现代计算机系统和设备响应于用户通过用户界面键入的输入数据来执行任务。例如,用户可以将文本数据输入到互联网搜索引擎的浏览器搜索窗口中,以基于输入的搜索项来识别提供对查询的答案的网页,或者提供关于用户感兴趣的特定主题的更多信息的网页。类似地,用户可以将文本数据输入到数据库的搜索窗口中,以识别与输入的搜索项匹配的记录。在其他示例中,用户可以使用在对话框中键入的文本或语音向虚拟助手或“聊天机器人”提供输入数据,以获得对问题的答案。在许多情况下,任务(例如,查询)可能是复杂的,并且需要特定的信息以便执行任务并提供适当的响应,诸如对问题的准确或特定的答案。因此,任务的成果的质量直接受到用户为执行任务而提交的输入数据的影响。
经常地,用户在为特定任务提交输入数据之前会多次编辑他们的输入数据。例如,在提交输入数据的最终版本之前,为搜索查询键入文本数据的用户可以改变单词或短语、扩展或缩短首字母缩略词、进行拼写校正、使用同义词或上位词、和/或改变查询中项的语言。在编辑过程期间被这些改变删除的用户数据会丢失,因此不能用于执行响应查询的任务。在许多情况下,丢失或“未提交”的用户数据在确定用户查询的特定目的或目标(即查询的“用户意图”)方面可能很有见地,因此有助于提供更高质量的答案。然而,无法验证未提交的用户数据的可靠性。因此,简单地利用未提交的用户数据来补充用户为该任务提交的输入数据可能会适得其反。例如,未提交的数据可能不可靠,并导致意外的答案。
本公开提出利用用户在编写用于执行任务的已提交的输入数据时键入的未提交数据来提高任务性能。具体地,本公开的示例实施方式确定未提交的用户数据项与“用户意图”的相关性,并且仅利用被确定为相关的未提交的用户数据项来补充已提交的用户输入数据。
本公开提供了用于提高响应于用户输入数据的任务的性能的方法、系统和计算机程序产品。具体地,在用户键入用于任务的输入数据的用户会话期间,跟踪用户数据的改变(例如,删除、修改和/或添加)。在用户提交用于查询的输入数据时,从所跟踪的数据中识别未提交的用户数据。基于作为用户意图的表示的已提交的输入数据,使用图形语义模型来分析未提交的用户数据的项与用户意图的相关性。被确定为与用户意图相关的未提交的用户数据的项被用来补充用于任务的已提交的用户数据。
本公开的示例实施方式涉及“搜索查询”形式的用户输入数据,其包括文本形式的输入搜索项,用于提供“搜索结果”,诸如网页列表、数据记录等或基于文本的“答案”。如本领域技术人员将理解的,本公开适用于基于任何类型的用户输入数据而执行的其他类型的基于计算机的任务。本公开尤其适用于基于用户与专业知识领域中的系统的交互而执行的任务,所述专业知识领域涉及在相关领域中复杂或具有特定含义的语言和术语。
在本公开中,“项”是指任何单词、数字、短语、表述、字符的组(例如,首字母缩略词)、标点符号、符号、表情符号或其他基于文本的数据,其可以是用户操作键盘、小键盘等对图形用户界面的输入,或者是通过语音到文本软件从语音输入推导出的输入。可以使用标识化(tokenization)(例如,文本或单词分割)从输入数据中单独地识别项。表述“用户意图”是指用户在编写用于执行任务的输入数据时的目的或目标(例如,以获得对特定查询的可靠或准确的答案)。关于“输入数据”,项“键入(enter)”和“输入(input)”被同义地用来指用户在为执行任务而提交之前(例如,在编辑期间)或提交时提供数据。
图1是包括用于基于用户输入数据来执行任务(诸如查询)的示例用户设备100的系统的示意图。用户设备100包括用户界面110和处理引擎120。用户设备100还包括用于通过网络130与设备132、134、136进行数据通信的输入/输出单元122。用户设备100可以是智能电话、平板电脑、笔记本计算机、智能个人助理或类似的便携式计算设备。可替换地,用户设备100可以是台式计算机或类似的非便携式计算设备。网络130可以包括任何有线或无线网络,诸如局域网、广域网、移动网络或互联网。如本文所述,设备132、134、136可以包括数据库、服务器或任何其他类型的网络资源,用于促进诸如查询的任务。
用户设备100包括含有显示器112的用户界面110。具体地,显示器112被配置为显示程序或应用的图形用户界面(GUI)114,图形用户界面114可以包括允许用户键入基于文本的项或内容的输入框(或等效物),作为用于相应任务的用户输入数据。在所示的示例实施方式中,显示器112包括触摸屏,其显示小键盘116,让用户借由在触摸屏上与GUI 114和小键盘116交互的触摸手势来键入用于任务的项。在其他示例实施方式中,用户可以使用其他用户界面110,诸如键盘、触摸板或麦克风(未示出)来键入用于任务的项,如在本领域是众所周知的那样。
如上所述,用户可以在GUI 114的输入框中键入包括一个或多个项(例如,查询或搜索项)的输入数据,然后通过添加、修改或删除来编辑这些项。一旦项被最终确定,用户就提交输入数据,例如,通过与GUI 114上的“提交”或“搜索”按钮交互或者通过按下小键盘116上的回车键来提交输入数据。然后,用户输入数据被发送到用户设备100的程序或应用的相应一个处理引擎120,以执行任务。
处理引擎120包括输入引擎124、任务引擎126和输出引擎128。输入引擎124接收并预处理用户输入数据,并将预处理后的数据提供给任务引擎126以执行任务。任务引擎126基于预处理后的输入数据来执行任务,并生成一个或多个结果。在执行任务的同时,任务引擎126可以访问用户设备100的一个或多个本地设备中的数据,诸如本地数据存储装置(未示出)。此外,任务引擎126可以通过网络130访问一个或多个远程设备(诸如设备132、134、136)中的数据。任务引擎126向输出引擎128提供任务的(多个)结果。输出引擎128处理从任务引擎126接收的结果,并提供处理后的结果数据以在显示器112上呈现给用户。例如,结果数据可以包括结果(例如,网页、记录、图像等)的列表、基于用户输入数据的项的对问题的答案等等。
如本领域技术人员将理解的,图1的用户设备100可以通过网络130访问远程设备132、134、136,以便访问数据和处理资源来执行任务。如本领域技术人员将理解的,用户设备100同样可以是被配置为使用本地数据或通过访问本地数据库来执行任务或查询的独立设备。
如上所述,任务引擎126在执行任务时获得的结果数据仅基于已提交的用户输入数据中的项。然而,用户在编写用于任务的输入数据时的意图可能没有在已提交的输入数据中被充分捕获,或者没有达到所需的精度水平。因此,结果数据可能较差。如果用户认为所呈现的任务结果不令人满意或不完整,则用户通常重新编辑输入数据的项,并且重复该任务,直到获得令人满意的结果。这对用户来说既耗时又令人沮丧。此外,如果用户没有意识到所呈现的任务结果不令人满意或不完整,则可能会依赖于不令人满意或不完整的信息。
本公开的各方面用于通过利用用户在编写已提交的输入数据时键入的未提交数据,基于用户输入数据来提高任务的性能,如下文进一步描述的。因此,可以向用户提供改进的结果数据。重要的是,为了该利用,本公开的各方面仅选择被确定为与用户意图相关的未提交的数据项。未提交的数据项与用户意图的相关性是通过基于已提交的用户输入数据、使用图形语义模型(例如,如本文所述的激活子图(activated sub-graph))对项进行评估来确定的。因此,本公开的各方面基于作为用户意图的表示的已提交的输入数据来利用图形语义模型,其中作为用户意图的表示的已提交的输入数据可用于评估未提交项与用户意图的相关性。
图2是根据本公开的示例实施方式的用于识别与用户意图相关的、用于任务的未提交的用户数据的项的方法200的流程图。
方法200开始于步骤205。例如,方法200可以在用户开始与用户界面(例如,图1的用户设备100的GUI 114)交互以键入程序或应用的用户数据来执行任务时开始,诸如打开具有用于键入用户数据的输入框的用户输入窗口或开始在其中键入用户数据。
在步骤210,该方法在用户编写输入数据的同时监控并记录改变(例如,删除、修改和/或添加)。例如,步骤210可以跟踪在GUI的输入框中键入数据的所有用户击键。响应于用户删除动作(例如,检测到删除或改写(overtype)击键),步骤210可以在删除动作之前立即保存来自输入框的数据,从而在任何改变之前捕获用户数据的“快照(snapshot)”。因此,步骤210可以在编写用于提交的输入数据的同时捕获用户键入的数据的“快照”的时间序列,用于提交的输入数据可以被比较以识别改变。如本领域技术人员将理解的,用于在用户编写输入数据期间捕获改变的其他技术是可能的并且是预期的。步骤210继续监控并记录键入的用户数据的改变,直到用户提交输入数据的最终版本。例如,用户输入数据的提交可以响应于输入数据提交动作(例如,检测到键入手势或击键)来确定。值得注意的是,步骤210通常与时间无关,允许用户在由程序或应用提供的会话期间进行任意次数的编辑,以键入用于执行任务的数据。该方法然后进行到步骤220。
步骤220存储提交给程序或应用以执行任务的用户输入数据。如本领域技术人员将理解的,步骤220可以与步骤210结合执行。该方法然后进行到步骤230。
步骤230从步骤210中记录的用户输入数据中确定未提交的输入数据。具体地,步骤230可以从在用户编写输入数据的同时记录的数据(即,在步骤210中记录的数据)中移除已提交的数据(即,在步骤220中存储的数据),以识别未提交的输入数据。因此,例如,步骤230可以识别在编写已提交的输入数据期间获得的被捕获的“快照”中没有被包括在输入数据的最终提交版本中的项。
步骤240从步骤230中识别的未提交数据中移除未被识别或以其他方式被认为表示“噪声”的项,以推导出未提交的输入数据项的集合以供考虑。例如,步骤240可以对未提交的输入数据进行过滤,以根据应用需求移除未识别的单词和短语、表情符号、标点符号以及被认为表示“噪声”或不适合考虑(例如,不能被处理)的其他数据。此外,或者可替换地,步骤240可以选择未提交的输入数据中被认为对考虑有效(例如,可以被处理)的项。因此,步骤240推导出未提交项集合,这些未提交项潜在地与已提交的用户输入数据具有语义相关性,并因此可能与用户意图相关。在一些示例实施方式中,这些项的集合可以包括由用于文本或单词分割的标识化过程所识别的单词和短语。用于处理文本以通过标识化来识别项的技术在本领域中是已知的,并且根据应用需求可以使用任何合适的技术。在一些示例实施方式中,可以使用合适的拼写校正技术对作为用于拼写校正的候选的未提交的输入数据中的未识别项进行预处理。这些项可以包括用户键入的、在已提交的文本中被修改或改变的项。如果对项的拼写进行了校正,并且所校正的项对考虑有效,则所校正的项可以被包括在步骤240中推导出的未提交项集合中,但是被标记为拼写校正(例如,带有指示符、标志等)。下面描述了处理拼写错误的示例实施方式。
在步骤250,对于在步骤240中推导出的未提交的数据项的集合中的每个项,该方法基于已提交的用户输入数据来确定项与用户意图的相关性分数。在示例实施方式中,可以基于已提交数据的项,通过利用语义网络图的激活子图来确定相关性分数,其中激活子图是表示用户意图的模型。如本领域技术人员将理解的,已提交的用户输入数据构成用户意图的客观语义数据。因此,步骤250可以通过基于已提交的用户输入数据执行语义网络图的扩散激活来生成激活子图,并且使用激活子图来识别每个未提交项的相关性分数,如下文参考图3所述。该方法然后进行到步骤260。
在步骤260,该方法选择未提交的数据项的集合中相关性分数超过预定义阈值的一个或多个项。相关性分数高于预定义阈值的项被认为与用户意图相关。因此,基于应用需求,对阈值进行选择并且可以对阈值进行动态配置。因此,在步骤260中选择的项被认为适合用于补充已提交的输入数据。例如,除了已提交的输入数据之外,所选择的项可以被用作用于进行处理以执行任务的输入数据,以便推导出任务的改进的响应、结果或成果。方法200然后在步骤265结束。
如本领域技术人员将理解的,通过在步骤240中对未提交的数据进行过滤,以及借由分割或类似过程而选择各个项,减少了用于处理的未提交的用户输入数据的量,从而优化存储器和处理资源的使用,并最小化用于后续相关性确定的处理时间。
在一些示例实施方式中,步骤250可以确定项与用户意图的相关性,并且可以省略步骤260。例如,步骤250可以使用提供关于相关性的概率断言而不是相关性分数的模型。
图3是根据本公开的示例实施方式的方法300的流程图。具体地,方法300可以用于确定未提交的用户数据项与用户意图的相关性。例如,该方法可以在图2的方法200的步骤250中实施或者以其他方式实施。
方法300开始于步骤305。例如,该方法可以响应于接收未提交的用户输入数据项的集合以供考虑而开始,例如从图2的方法200的步骤240开始。
在步骤310,该方法获得语义网络图。具体地,可以根据应用需求,从合适的可用来源以方法300为目的构建语义网络图,其范围可以从原始文本到完全语义三重存储(fullsemantic triple store)。本领域技术人员将理解,关于实体的任何类型的结构化信息、以及实体之间的关系都可以用于构造语义网络(例如,具有描述行和列的内容的标签的数据库、来自自然语言解析器的语义框架数据集合等)。因此,可以从与用户设备相关联的数据存储装置中检索语义网络图。在示例实施方式中,语义网络图可以由远程设备构建,并被上传和存储在与用户设备相关联的数据存储装置中。所获得的语义网络图可以根据用途(即执行任务的程序或应用的知识领域)进行定制。此外,语义网络图可以,例如基于如下所述的用户简档,被适配于用户。因此,步骤310可以获得针对特定用途(即,程序或应用)和/或特定用户(即,基于用户简档)的语义网络图。该方法然后进行到步骤320。
在步骤320,该方法接收用于执行任务的用户输入数据的已提交项以及未提交的输入数据项的集合以供考虑,这些未提交的输入数据项潜在地与用户意图相关。
在步骤330,该方法基于已提交的输入数据项执行在步骤310中获得的语义网络图的扩散激活,以生成激活的(或加权的)子图。具体地,可以使用在步骤310中获得的语义网络图中被识别(即,以可识别的节点表示)的每个已提交的输入数据项来执行扩散激活,该语义网络图定义了节点和边的初始权重。在扩散激活过程中,被识别为对应于输入数据项的节点在语义网络图中用权重或“激活”来标记。然后,当激活通过网络传播时,激活以相应的衰减(由初始边权重定义)从那些节点通过所有连接的边迭代地传播或“扩散”到具有相应放大(由初始节点权重定义)的所有相邻节点。如本领域技术人员将理解的,扩散激活过程本身可以针对应用或用例进行加权,如下所述。
因此,步骤330的扩散激活生成语义网络图的激活子图,其中权重或“激活”与每个节点相关联,从而根据已提交的输入数据项提供用户意图的语义模型。用户意图的语义模型(激活/加权子图)在本文也被称为“激活简档”。在随后的步骤340至360中,激活简档被用于确定未提交的输入数据项与用户意图的相关性。值得注意的是,在步骤330中未被激活的、在步骤310中获得的语义网络图中的项不再存在于激活子图中。因此,不相关的项会被自动过滤掉。此外,在示例实施方式中,在步骤330中,基于已提交的输入数据而与用户意图相关的项,例如因为它们是已提交的输入数据的项的上位/下位或扩展/缩短版本,被自动包括在激活简档中。
在步骤340,该方法选择在步骤320接收的用户输入数据项集合中的第一个(或下一个)未提交项。在步骤350,该方法基于激活简档来确定所选项的一个或多个“相关性特征”的值。相关性特征包括与激活简档中的项相关联的参数,特别是与激活子图中表示项的节点相关联的参数。本领域技术人员将理解,可以单独或组合地使用各种不同的相关性特征和度量,以使用激活简档来评估项与用户意图的相关性。在步骤350中考虑的相关性特征的组合通常是基于应用需求而预先确定的。例如,相关性特征可以根据用于确定项与用户意图的相关性的预定义的函数或模型来定义,如下所述。
下表1列出了相关性特征的非限制性示例。
Figure BDA0002643649760000091
Figure BDA0002643649760000101
表1
表1列出了示例相关性特征“缺失性”、“距离”、“原始权重”、“激活权重”、“图形理论值”、“边和节点的类型变化”和“歧义”。对于本领域技术人员来说,可以用于基于激活简档(激活子图)评估未提交项与用户意图的相关性的其他特征和度量将是明显的。
在步骤360,该方法确定所选项的相关性分数。具体地,步骤360可以基于在步骤350中确定的一个或多个相关性特征的值来确定总体相关性分数。因此,步骤360可以与步骤350结合执行。在一些示例实施方式中,步骤360将相关性分数确定为步骤350中的一个或多个相关性特征的预定义函数。在一些示例实施方式中,步骤360可以使用预测模型对项进行分类,该预测模型定义并优化步骤350中的相关性特征的阈值和/或权重,如下文进一步描述的。
参考表1,相关性特征“缺失性”确立在激活简档中是存在还是缺失未提交项。因此,在步骤360中可以单独使用特征缺失性来确定相关性分数。具体地,如果步骤350确定未提交项的缺失性特征值为0(零-在激活子图中缺失),则步骤360可以输出相关性分数0(零-不相关)。因此,在示例实施方式中,步骤350可以首先确定该相关性特征的值,并且如果相关性特征值是0(零),则可以省略对其他相关性特征的确定。可替换地,如果步骤350确定未提交项的缺失性特征值为1(一——存在于激活子图中),则步骤360可以输出相关性特征分数1(一——相关),其可以与一个或多个其他相关性特征的值结合使用以确定总体相关性分数。
相关性特征“距离”确立与未提交项相对应的节点到焦点节点的距离,焦点节点是激活子图中权重最高的节点。具体地,该相关性特征的值可以是在子图中的节点之间遍历的边的数量的计数。距离特征的值越小指示未提交项接近如激活简档中的焦点节点所表示的、用户意图的最重要的语义特性或标签,因此越相关。相反,距离特征的值越大指示未提交项远离如激活简档中的焦点节点所表示的、用户意图的最重要的语义特性或标签,因此越不相关。因此,步骤360可以将未提交项的相关性分数确定为距离相关性特征的函数(例如,定义反比关系的函数)。在一些实施方式中,当基于距离相关性特征来确定相关性分数时,步骤360可以考虑激活子图中的焦点节点的权重值。
相关性特征“原始权重”确立与未提交项相对应的节点的原始权重的值(即,在扩散激活之前,语义图中的节点的默认权重)。类似地,相关性特征“激活权重”确立与未提交项相对应的节点的激活权重的值(即,在扩散激活之后,子图中的节点的权重或“激活”)。与未提交项相对应的节点的原始权重值越大,更重要的是其激活权重值越大,指示与使用意图的相关性越高。因此,步骤360可以将未提交项的相关性分数确定为原始权重和/或激活权重相关性特征的函数(例如,定义比例关系的函数)。
相关性特征“图形理论值”确立与激活子图相关联的各种理论值。例如,相关性特征可以是与激活子图中表示未提交项的节点相关联的边的数量,诸如进入或离开节点或者这两者的边的数量。相关性特征“边和节点的类型变化”确定在激活子图中表示未提交项的节点的相邻的节点和边上展示的语义类别的变化的数量。这两个相关性特征的值可以进行组合以指示表示未提交的项的节点与相邻节点的交互的数量和类型,这两者一起可以指示与用户意图的相关性。例如,表示与表示未提交项的节点的特定类型的交互的大量边可以指示更大的相关性。这在特定知识领域的应用中可能特别有用,诸如法律或医学领域。
最后,相关性特征“歧义”确立项是由单个节点表示(无歧义)还是由多个节点表示(有歧义)。歧义相关性特征的值可以是如表1所示的二进制值,但是不能单独用于在步骤360中确定相关性分数。基于激活子图中表示未提交项的节点的数量的其他相关特征和度量对于本领域技术人员来说是明显的,例如表示未提交项的节点的数量的简单计数(即,项的可能解释的数量)或者与已提交文本中的项相关联的节点的数量。
再次参考图3,在步骤370,该方法确定在步骤320中接收的用户输入数据中是否有更多未提交项要考虑。如果步骤370确定有更多未提交的项要考虑,则该方法返回到步骤340,选择下一个未提交的输入数据项。然后,该方法在由步骤340至370的循环中继续,直到步骤370确定不再有未提交的数据项要考虑。该方法然后进行到步骤380。
在步骤380,该方法输出未提交的用户输入数据项的相关性分数。该方法然后在步骤385结束。
如上所述,步骤360可以使用预测或分类模型来确定所选择的未提交项的相关性分数,该预测或分类模型通过定义(和优化)相关性特征集合的阈值和/或权重来确定项与用户意图相关或不相关的可能性的程度。例如,随机森林模型可以具有决策树形式的相关性特征的阈值,以便基于所确定的项的特征值,对项的相关性做出概率断言(对应于相关性分数)。基于项的特征值的逻辑回归模型可以产生介于0和1之间的分数(对应于相关性分数),该分数将表示项的相关性。所使用的模型的类型可能会有所不同,这取决于可用的训练数据。示例实施方式使用具有零训练数据的模型,其中阈值和权重可以基于相关性特征和总体相关性分数之间的关系来手动配置(或者用默认值预定义),如上所述。然而,在一些示例实施方式中,可以使用利用训练数据的模型。例如,逻辑回归可以通过基于训练样例的学习来确定每个相关性特征的最佳阈值和/或权重(例如,从用户训练和/或反馈中推导出)。甚至更复杂的神经网络和深度学习模型可以用于优化相关性特征的组合以获得更好的性能,但是这样的示例需要大量的训练样例。如本领域技术人员将理解的,训练数据是通过对有解样例的人工评估而手动推导出的,其中用户输入数据由相关和不相关的未提交项来补充。例如,可以手动评估有解样例的结果,以确立哪些项导致更好的结果,以及哪些未提交项是相关的。然后,可以评估相关和不相关的未提交项的相关性特征值,以确立相关性特征的值(和组合)和与用户意图的实际相关性之间的关系,包括阈值和/或权重。基于指示正确和不正确的相关性样例的大量训练数据的词汇语义相似性技术和神经语言模型(例如,word2vec相似性)可以用于最佳模型。然而,本公开的示例实施方式包括具有最少训练数据或没有训练数据的模型,但是利用来自用户的反馈数据来通过学习为(多个)模型开发更优化的阈值和权重。
来自用户的反馈可以以各种不同的方式获得。在一个示例中,基于用户输入数据的任务的结果可以在添加或不添加根据本公开确定的未提交项的情况下呈现给用户,诸如使用图2的方法。然后,用户可以评估有或没有附加的未提交项的结果是否更好。在另一示例中,根据本公开被确定为相关的各个项可以在提交用于任务的输入数据时呈现给用户。然后,用户可以选择那些被认为与其意图(即,目的或目标)相关的项。在每种情况下,如上所述,可以通过考虑用户认为相关和不相关的项的相关性特征分数来评估反馈。对于本领域技术人员来说,获取用户反馈的其他场景将是明显的。
用户反馈不仅可以用于获得用于精炼相关性函数或更新用于对与用户意图的相关性进行分类的预测模型的数据,还可以用于为如上所述的扩散激活开发用户简档或激活简档。例如,扩散激活可以被配置为强调特定的语义特性和标签,同时减少或去强调(de-emphasize)其他特性和标签。这种配置可以针对用户简档来定制,以便改进对该单独的用户的项的相关性分数的计算。
处理拼写错误的示例实施方式
在上面参考图2和图3描述的示例实施方式中,已提交和未提交的输入数据项中的拼写错误通常被忽略。具体地,包含拼写错误的项在语义网络图中不被识别。因此,已提交的带有拼写错误的项不能用于语义网络图的扩散激活,并且未提交的带有拼写错误的项不能被识别以用于确定相关性特征的目的,从而不能确定总体相关性分数。
在以下示例实施方式中,考虑未提交的输入数据中的拼写错误,因为误拼写的项可能与用户意图相关。因此,在图2的方法200的步骤230之后,可以使用以下步骤对未提交的输入数据进行预处理:
(i)分类
使用拼写检查和/或拼写辅助算法对在步骤230中确定的未提交的输入数据进行分类,以识别(a)用于处理的“未识别项”。该分类另外识别(b)“已识别项”和(c)“已识别的多单词/短语和领域项”,其可以被传递以包含在未提交项的集合中,以供在步骤240中考虑。
如本领域技术人员将理解的,已识别的项和已识别的多单词/短语和领域项通常由语义网络图中的节点来表示。因此,图3的方法300可以被实施为基于被分类为(b)和(c)的输入数据来生成激活子图(激活简档)。
(ii)识别(a)中的误拼写
查找被分类为(a)“未识别项”的项中的潜在的误拼写,例如,使用可配置的拼写辅助阈值(例如,定义标识(token)的编辑距离(误拼写和正确拼写之间的距离)的阈值、多单词的允许语言模型分数)来查找。
(iii)识别(b)中的误拼写
查找被分类为(b)“已识别项”的项中的误拼写,例如,不在激活子图(激活简档)中但与激活简档内不在原始查询中的现有项的编辑距离很小的已识别项。
(iv)识别已提交的输入数据中的误拼写
查找最初提交的输入数据中的误拼写,例如,与有效的已识别项(分类为b)和c)的编辑距离很小的项。
(v)用拼写校正来更新已提交的输入数据
使用上述步骤ii)、iii)和iv)的输出,用对部分原始输入数据的拼写校正来更新最初提交的输入数据,包括相关联的编辑距离分数。
因此,已提交的输入数据的校正后的项可以用于在下面的后续步骤中生成用户意图的模型(激活简档)和未提交的输入数据的项的相关性。
(vi)(可选地)生成新的激活子图(激活简档)
可选地,用原始的已提交的输入数据加上上述步骤(v)的输出来激活语义图,以生成激活简档。编辑距离分数可以在这里用来对来自拼写校正的初始激活进行加权。
(vii)评估未提交项(例如,通过确定相关性特征值)
使用最初生成的或在可选步骤(vi)中(例如在图3的方法300的步骤350中)生成的激活子图(激活简档),确定来自上述a)、b)和c)的未提交项的相关性特征值。
可以包括附加“相关性特征”以指示项是否为校正后的误拼写(例如,所指派的诸如二进制值0或1的相关性值)。
(viii)确定未提交项的相关性分数
使用预定义的基于步骤(vii)中的一个或多个相关性特征值的函数或者基于一个或多个相关性特征的预测模型,确定被分类为上述a)、b)和c)的未提交项的总体相关性分数,如上文关于图3的方法300的步骤360所述。
预定义的函数或预测模型包括指示项是否为校正后的误拼写的附加“相关性特征”。该特征将允许像逻辑回归或随机森林这样的简单模型用少量的训练数据来克服在其他语义网络来源的特征中的不良值,不良值可能是由于所选领域中图形细节的贫乏而导致的。
ix)更新输入数据
可以对为执行任务而提交的输入数据进行补充,以包括被认为与用户意图相关的附加未提交项。相同的项可以被不同地加权到用户提交的原始项,甚至利用在评估相关性时执行的分析中的任何特征分数,以帮助提高正确答案的排名(rank)。
如本领域技术人员将理解的,如上所述处理拼写错误可以提供改进的结果。在产生(更新的)激活简档时,对校正后的已提交的输入数据项使用附加的编辑距离分数确保了在表示校正后的项的节点的激活中的置信度被考虑在内。因此,例如,当生成激活简档时,激活子图中与校正后的已提交项相对应的标记节点的激活权重可以除以编辑距离分数。类似地,使用附加相关性特征来指示校正后的项(即,已经进行了拼写校正)可以用于确定如何生成和使用激活简档。
未提交的用户输入数据的性质使得用户的过度校正的拼写错误乃至简单的印刷错误可能导致用户意图的关键方面的丢失,如果这些关键方面被执行任务(例如,查询)的应用接收到,则可能对用户成果的成功有很大影响。捕获和校正这种错误并以标识符(例如用作特征值的标志)来识别它们本身的示例实施方式不再局限于纯粹的概率成果。在其他特征值的上下文中,标志将用作双重目的:允许用户意图的项,即使它也许在统计上不太可能;相反,给定另一特征值向量的存在,识别出校正后的项与一般用户意图不相关。因此,可以捕获误拼写的未提交的数据项与用户意图的相关性,以便确定它是否有助于对已提交项进行补充以提高任务性能。
下面描述本公开的使用场景和应用的示例。
多语言信息检索(Information Retrieval,IR)系统
在多语言IR系统中,用户可以用多种语言编写用于提交的输入数据作为查询。因此,未提交的输入数据项也可能使用多种语言。因此,根据本公开,用户意图的语义模型考虑了可以在输入数据项中使用的多种语言。因此,对于这样的多语言实施方式,语义网络图可以根据用于语义概念的多语言唯一标识符的开放域三重存储(open domain triplestore)来构建,其示例是本领域技术人员公知的(例如,具有DBPedia、Yago等的Babelnet)。因此,在图3的方法300的步骤310中检索多语言语义网络图。这意味着作为多语言的概念(节点)的唯一标识符可以用于确定项与用户意图的相关性,而与定义概念的项的语言无关。因此,每个项都被规范化为唯一语义标识符,而与语言无关。因此,在步骤330,多语言语义图的扩散激活将标记和激活用于已提交的用户输入数据中的项的节点,这些节点可以包括不同语言的项。然后,可以使用步骤340至360评估未提交项的相关性,这些未提交项也可能包括不同语言的项。
在执行查询的应用基于已提交的用户输入数据以每种语言的单独索引来存储数据的情况下,可能需要附加步骤。例如,在步骤340之前,可以识别整个未提交的输入数据项(以及可选地还有已提交的输入数据项)的集合中所使用的所有语言。这种识别可以用于确定在执行查询时将搜索扩展到哪些索引,超出最终提交的查询的语言的搜索。因此,例如,根据本公开,应用可以基于已提交的输入数据和被确定为与用户意图相关的附加的未提交的数据项,以每种识别的语言生成单独的查询。具体地,多语言语义图可以用于以其他识别的语言来识别未提交项和已提交项。这种查询的结果可以被组合以提供改进的结果,诸如对查询的答案。
医学领域-患者记录分析
医学领域中的患者记录分析通常包括在数据库中搜索具有某些共同信息(诸如诊断为具有特定医疗状况的患者的特定治疗和疗效)的患者记录。因此,该应用的用户意图的语义模型是从医学知识领域的语义网络图中推导出的,并且包括专业的药物和医学术语。例如,语义网络图可以根据UMLS医学领域元本体(meta-ontology)来构建。然而,医疗记录和患者病史可能非常有歧义,因为记录数据是由具有不同技能和专业知识的多个用户输入的,并且可能包括首字母缩略词、缩写词、拼写错误和其他有歧义的文本。如上所述,有歧义的项可以在语义图中包括多个唯一语义标识符。出于激活扩散的目的,可以使用未提交的数据项来消除已提交的用户输入的项的歧义。
考虑这样的场景,其中用户希望识别用batracylin(也称为daniquidone)治疗癌症的患者的记录。在患者记录中,药物batracylin通常缩写为“bat”。然而,项“bat”可能有三个或更多单独的语义标识符——哺乳动物、物体(例如,棒球棒)或缩写(batracylin)。考虑用户已提交的数据搜索项和未提交项的以下两个示例:
“用初始bat剂量治疗处于2期肺癌的肿瘤活动的患者,每日两次”。
“用bat治疗ptnt(患者)、负rctn(反应)(并且用户在编写搜索项时的编辑包含Daniquidone一词)”
通过在第二个示例中使用未提交项“Daniquidone”,本公开可以更容易地确定项“bat”的用户意图的真实含义涉及癌症药物batracylin,而不是例如来自“bat”(哺乳动物)的潜在动物过敏的负反应或来自用棒球“bat”(物体)攻击的创伤。
法律领域——AI律师(聊天机器人)
AI律师“聊天机器人”可以被开发来识别法律问题,并为用户提供法律指示和基本法律建议,以响应于描述关注场景的用户输入搜索项的集合。因此,该应用的用户意图的语义模型是从法律知识领域的语义网络图中推导出的。具体地,语义网络图可以根据从原始文本中提取并且通过在与开放领域链接数据组合的法律文档段落的上下文内的共现(co-occurrence)而链接的法律领域概念来构建。为了识别所有相关的法律问题并向用户提供最合适的法律指示和建议,用户输入数据的项应当尽可能精确。因此,本公开的技术对于这种类型的使用场景特别有益。这可以通过以下示例场景来说明。
示例:识别业务提议的合规性问题的AI律师
用户力图确定在描述业务提议的场景方面满足法律合规性。可以使用以下已提交的输入数据搜索项来输入业务提议:“我想要启动销售动物用品的业务”,其先前的编辑陈述的是“我想要启动销售狗床的网站。”这两种描述都可能被认为是准确的,“狗床”可以被认为是一种特定类型的“动物用品”。因此,根据本公开,系统可以通过与领域子图的语义关联(上位-下位语义关系)来确定未提交的搜索项“网站”和“狗床”与已提交的用户意图相关。这些附加输入项可能会揭示出可能不会被另外指明的重要的合规性问题。例如,指示所提议的业务通过网站而在线的项,可能会识别出不在线的业务不会出现的特定法律问题,诸如数据保护和隐私。此外,当涉及儿童隐私保护(包括父母同意)时,表明业务可能与儿童有潜在交互的项可能对数据隐私有非常特殊的需求。在这种情况下,未提交的搜索项“网站”和“狗床”指明数据保护合规性的需要,包括与儿童隐私相关的数据保护合规性,因为儿童很可能有兴趣为他们的宠物狗获取配件。为了法律的合规性,确保可以进行尽可能完整和彻底的分析来识别出与用户意图有关的所有问题(即用户的目标和目的)是非常重要的。因此,本公开的技术可以被实施以获得应用于法律领域的改进结果。
图4是根据本公开的示例实施方式的系统400的框图。具体地,系统400包括用户设备410,诸如智能电话、平板电脑、笔记本计算机或类似的便携式计算设备。可替换地,设备410可以是台式计算机或类似的非便携式计算设备。
用户设备410包括处理单元412、存储器单元414和通信单元416。处理单元412可以包括高速缓存存储器412A,用于临时存储用于进行如本文所述的处理的数据。用户设备410还包括用户接口设备418,用户接口设备418包括诸如触摸屏的显示器418A。用户接口设备418还可以包括一个或多个其他内部或外部用户输入设备,诸如鼠标、触摸板和麦克风。为了便于理解本公开,省略了用户设备410的其他特征,诸如电源、相机、加速度计。
通信单元416被配置用于连接到网络430,如本文所描述的,以与远程设备432、434、436(例如,数据库、服务器和其他资源)交换数据。网络430可以包括任何合适的有线或无线数据通信网络,诸如局域网(LAN)、广域网(WAN)、移动网络或互联网。在一些示例实施方式中,通信单元416被配置用于连接到一个以上的网络。
存储器单元414存储可由处理单元412执行的、用于操作用户设备410的指令。具体地,存储器单元414包括应用450和处理模块460。此外,存储器单元414存储系统和用户数据,例如,存储在数据库470中。具体地,数据库470可以存储经由用户接口设备418从用户接收的输入数据,以及经由网络430和通信单元416从一个或多个设备432、434、436接收的数据。
根据本公开,处理模块460包括用户输入增强模块465。用户输入增强模块465被配置为执行根据本公开的方法,诸如图2的方法200和/或图3的方法300。具体地,如本文所述,当用户将数据输入到用于执行任务(例如,查询)的程序或应用450的显示在显示器418A上的GUI时,用户输入增强模块465可以进行操作。
在所示的示例实施方式中,用户输入增强模块465包括用户输入跟踪模块480、未提交项提取模块482、激活简档生成模块884、未提交项评估模块486和反馈模块488。
根据本公开,用户输入跟踪模块480被配置为在编写输入数据的同时监控用户的改变,并记录用户改变(例如,对基于文本的数据的删除、修改和/或添加)。例如,如本文所述,用户输入跟踪模块480可以将在显示的GUI中键入的用户数据的快照存储在高速缓存存储器412A中,或者以其他方式在用户编写输入数据时记录改变。
根据本公开,未提交项提取模块482被配置为确定未提交的数据项以供考虑。在示例实施方式中,在用户提交输入数据之后,未提交项提取模块482可以根据用户输入跟踪模块480记录的改变来确定未提交数据,并且识别被识别并且与用户意图潜在相关的未提交的数据项。
根据本公开,激活简档生成模块484被配置为基于已提交的输入数据来确定激活简档。在示例实施方式中,在用户提交输入数据之后,激活简档生成模块484获得语义网络图,并基于已提交的输入数据项来执行扩散激活,以生成激活子图作为用户意图的语义模型,如本文所述。基于用户(例如,用户简档)和/或基于被提供输入数据的程序或应用(即用途),可以从存储器单元414的数据库470或另一部分中检索语义网络图。
未提交项评估模块486被配置为使用激活简档生成模块484提供的激活简档来评估由未提交项提取模块482提供的未提交项以供考虑,如本文所述。在示例实施方式中,未提交项评估模块486包括度量确定模块486A、相关性分数计算模块486B和未提交项选择模块486C。具体地,未提交项评估模块486接收由未提交项提取模块482提取的未提交的输入数据项,并确定每个项与用户意图的相关性,如本文所述。度量确定模块486A确定项的值,诸如如上所述的预定的相关性特征值的集合。具体地,相关性特征可以包括与激活简档中的项的表示相关联的参数。相关性分数计算模块486B使用项的相关性特征值的集合来计算项的总体相关性分数。如本文所述,相关性分数提供了项与用户意图的相关性的指示。相关性分数计算模块486B可以利用预定义的函数或模型(例如,预测模型或其他类型的分类模型)以基于项的相关性特征值的集合来计算相关性分数,或者对项的相关性进行分类。未提交项选择模块486C可以从由未提交项提取模块482提取的未提交的输入数据项中选择未提交项,以用于对已提交的输入数据进行补充或增强。例如,未提交项选择模块486C可以使用由相关性分数计算模块868B确定的相关性分数的阈值来选择这种未提交项。
反馈模块488被配置为处理来自用户的、与用户输入增强模块486的性能相关的反馈,如本文所述。具体地,反馈模块488可以被配置为寻找、接收和处理来自用户的反馈,以便更新用户输入增强模块465的一个或多个模块,诸如其功能和模型,如本文所述。
继续参考图4,提供了计算机程序产品490。计算机程序产品490包括计算机可读介质492,其具有存储介质494和包含在其中的程序指令496(即,程序代码)。程序指令496被配置为加载到用户设备410的存储器单元414上,例如作为使用用户接口设备418之一或经由通信单元416连接到网络430的设备的处理模块460。在示例实施方式中,程序指令496包括用户输入增强模块465、用户输入跟踪模块480、未提交项提取模块482、激活简档生成模块484、未提交项评估模块486和反馈模块488中的一个或多个,被配置为执行本文公开的方法的一个或多个步骤,诸如图2的方法200和/或图3的方法300。
本文描述的方法使得程序和应用能够响应于用户输入数据来提高任务的性能。这是通过利用用户在编写(例如,编辑)用于提交的输入数据的同时键入的未提交数据来实现的。重要的是,本文描述的方法提供了一种机制,其用于:通过基于已提交的输入数据识别与任务的用户意图相关的项,确立未提交的输入数据项的可靠性。相关性确定基于作为用户意图的表示的已提交的输入数据来使用图形语义模型。因此,未提交的数据项与用户意图的相关性提供了对各个项对用于执行任务的程序或应用有用的置信度的度量。示例实施方式是轻量级的,需要很少或不需要训练数据,并且可以完全在用户设备上执行。因此,用户可以通过用户设备的配置来决定是否将该方法用于特定的程序和应用。因此,用户可以控制提交给执行任务的程序或应用的数据,该程序或应用可以在用户设备的外部。语义网络图可以最初被提供给用户设备,其可以被用作生成如本文所述的激活子图的基础。语义网络图可以是通用语义网络图、领域特定语义网络图(例如,如本文描述的一些示例中的特定程序或应用),或者可以是以其他方式为应用或使用场景优化的语义网络图。因此,用户设备可以存储多个语义网络图,以用于相应的程序或应用或其类型。
此外,语义网络图可以基于用户历史或语义标记的用户简档而被适配于用户,以用于生成激活子图,以改进项与用户意图的相关性的确定。具体地,可以在使用本文描述的技术期间记录用户历史,或者可以获得语义标记的用户简档。这种用户信息可以用来提高相关性计算或分类的准确性,而不需要任何进一步的训练数据。在激活语义网络图以生成用户意图的模型之前(例如,在图3的方法300的步骤330之前),可以作为前面的步骤执行诸如基于在先前选择的答案中找到的类别对图中的语义类别进行过滤的技术,或者为每个用户选择最合适的领域图的技术。所适配的(例如,过滤的)语义网络图可以由用户设备进行存储以供将来使用。
在某些情况下,整个激活简档本身可以被认为表示用户针对领域内容的意图。在这种情况下,用户创作的表单可以用于选择该子图中与任务相关的部分,以推导出用户意图的更集中的表示。例如,在提交用于任务的输入数据之后,可以向用户提供表单,以识别输入数据背后的语义概念。这种方法可以减轻任何可用语义网络作为潜在用户意图的无限性的表示的可能的代表性缺陷。用户对他/她的意图的意识总是大于任何有限语义网络表示该意图的能力。这种用户创作的表单还可以允许用户控制向执行任务的程序或应用提交未提交项。
虽然已经参考示例实施方式描述和示出了本公开,但是本领域技术人员将理解,本公开有助于本文没有具体示出的许多不同的变化和修改。
本公开包含任何可能的集成技术细节级别的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),用于使处理器执行本公开的各方面。
计算机可读存储介质可以是能够保存和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下各项:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备(诸如其上记录有指令的穿孔卡或凹槽中的凸起结构)以及前述各项的任何合适组合。本文使用的计算机可读存储介质不应被解释为瞬时信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,经过光纤电缆的光脉冲)或通过电线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应计算/处理设备,或者经由网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。该网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本公开的操作的计算机可读程序指令可以是汇编指令、指令集体系结构(instruction-set-architecture,ISA)指令、机器指令、机器相关指令、微码、固件指令、状态设置数据、集成电路的配置数据,或者是以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言,诸如Smalltalk、C++等,以及过程编程语言,诸如“C”编程语言或类似的编程语言。计算机可读程序指令可以作为独立软件包完全在用户计算机上执行,部分在用户计算机上执行,部分在用户计算机上执行且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种场景下,远程计算机可以通过任何类型的网络连接到用户计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。在一些示例实施方式中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息对电子电路进行个性化来执行计算机可读程序指令,以便执行本公开的各方面。
本文参考根据本公开的示例实施方式的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本公开的各方面。应当理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以通过计算机可读程序指令来实施。
这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实施流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令也可以存储在计算机可读存储介质中,该计算机可读存储介质可以引导计算机、可编程数据处理装置和/或其他设备以特定方式运行,使得其中存储有指令的计算机可读存储介质包括含有指令的制品,该指令实施流程图和/或框图的一个或多个框中指定的功能/动作的各方面。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,从而产生计算机实施的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实施流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本公开的各种示例实施方式的系统、方法和计算机程序产品的可能实施方式的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实施(多个)指定逻辑功能的一个或多个可执行指令。在一些替代实施方式中,框中标注的功能可以不按图中标注的次序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的次序执行,这取决于所涉及的功能。还将注意到,框图和/或流程图的每个框以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实施,该系统执行指定的功能或动作或者执行专用硬件和计算机指令的组合。
首先应当理解,尽管本公开包括关于云计算的详细描述,但其中记载的技术方案的实现却不限于云计算环境,而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。
云计算是一种服务交付模式,用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源,例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。
特征包括:
按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。
广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。
资源池:提供者的计算资源被归入资源池并通过多租户(多租户)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。
可测量的服务:云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号(的某种抽象程度的计量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件(从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构,但是对操作系统、存储和其部署的应用具有控制权,对选择的网络组件(例如主机防火墙(可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑(的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。
公共云:云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。
混合云:云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成,这些云依然是独特的实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构
现在参考图5,其中显示了示例性的云计算环境50。如图所示,云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点10,本地计算设备例如可以是个人数字助理(PDA)或移动电话54A,台式电脑54B、笔记本电脑54C和/或汽车计算机系统54N。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。这样,云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解,图2显示的各类计算设备54A-N仅仅是示意性的,云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。
现在参考图6、其中显示了云计算环境50(图6)提供的一组功能抽象层。首先应当理解,图3所示的组件、层以及功能都仅仅是示意性的,本发明的实施例不限于此。如图3所示,提供下列层和对应功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:主机61;基于RISC(精简指令集计算机(体系结构的服务器62;服务器63;刀片服务器64;存储设备65;网络和网络组件66。软件组件的示例包括:网络应用服务器软件67以及数据库软件68。
虚拟层70提供一个抽象层,该层可以提供下列虚拟实体的示例:虚拟服务器71、虚拟存储72、虚拟网络73(包括虚拟私有网络),虚拟应用和操作系统74,以及虚拟客户端75。
在一个示例中,管理层80可以提供下述功能:资源供应功能81:提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取;计量和定价功能82:在云计算环境内对资源的使用进行成本跟踪,并为此提供帐单和发票。在一个示例中,该资源可以包括应用软件许可。安全功能:为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户门户功能83:为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84:提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(服务水平协议)计划和履行功能85:为根据SLA预测的对云计算资源未来需求提供预先安排和供应。
工作负载层90提供云计算环境可能实现的功能的示例。在该层中,可提供的工作负载或功能的示例包括:地图绘制与导航91;软件开发及生命周期管理92;虚拟教室的教学提供93;数据分析处理94;交易处理95;以及用户输入相关性确定96。
以上已经描述了本公开的各实施方式,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实施方式。在不脱离所描述的各实施方式的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用项的选择,旨在最好地解释各示例实施方式例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文公开的各实施方式。

Claims (13)

1.一种计算机实施的方法,包括:
识别用户在编写用于执行任务的已提交的输入数据期间键入的未提交的输入数据的项;
对于所识别的未提交项,确定指示未提交项与用户意图的相关性的相关性分数,其中,基于作为用户意图的表示的已提交的输入数据,使用图形语义模型来确定所述未提交项的相关性分数,以及
基于所确定的相关性分数来选择所识别的未提交项,以用于补充用于执行任务的已提交的输入数据。
2.根据权利要求1所述的方法,其中,确定所述相关性分数包括:
确定未提交项的相关性特征集合中的一个或多个相关性特征的值,其中,每个相关性特征是与图形语义模型中的未提交项的表示相关联的参数,以及
基于所确定的一个或多个相关性特征值来确定相关性分数。
3.根据权利要求2所述的方法,其中,所述相关性分数被确定为所确定的一个或多个相关性特征值的函数,其中,所述函数为每个相关性特征值定义一个或多个阈值和权重。
4.根据权利要求2所述的方法,其中,基于所述相关性特征集合,使用与用户意图的相关性的预测模型来确定所述相关性分数。
5.根据权利要求1所述的方法,还包括:
获得预定义的语义网络图;
基于已提交的用户数据的项来执行语义网络图的扩散激活,以生成激活子图,以及
利用激活子图作为图形语义模型。
6.根据权利要求5所述的方法,其中,所述相关性分数基于相关性特征集合的一个或多个值来确定,所述相关性特征集合包括与表示所述激活子图中的未提交项的至少一个节点相关联的参数。
7.根据权利要求6所述的方法,其中,所述相关性特征包括在所述激活子图中表示未提交项的节点的缺失性,其中,如果表示未提交项的节点在所述激活子图中缺失,则相关性分数被确定为最不相关。
8.根据权利要求6所述的方法,其中,所述相关性特征包括从包括以下各项的组中选择的一个或多个参数:
在激活子图中表示项的节点的缺失性;
在激活子图中表示项的节点与焦点节点的距离;
在激活子图中表示项的节点的原始权重或激活权重;
在激活子图中连接到表示项的节点的输入边数、输出边数或总边数;
在激活子图中与表示项的节点相邻的边和节点的类型变化;
在激活子图中表示项的节点的数量,以及
从上述任一项中推导出的其他特征或度量。
9.根据权利要求1所述的方法,其中,识别用户在编写已提交的输入数据期间键入的未提交的输入数据的项包括:
记录用户在编写已提交的输入数据期间键入的输入数据;
响应于用户提交输入数据,从所记录的输入数据中识别未提交的输入数据,以及
从所识别的未提交的输入数据中推导出未提交项集合,其中,所述未提交项集合潜在地与用户意图相关。
10.根据权利要求1所述的方法,其中,选择所识别的未提交项,以用于补充用于执行任务的已提交的输入数据,包括:
如果所确定的相关性分数超过预定阈值,则选择未提交项。
11.一种设备,包括:
处理器、数据存储装置和用户界面,其中,所述用户界面被配置为让用户键入用于执行任务的输入数据,其中,所述处理器被配置为执行根据权利要求1-10中任一项所述的方法。
12.一种包括计算机可读存储介质的计算机程序产品,所述计算机可读存储介质具有包含在其中的程序指令,其中,所述程序指令可由处理器执行以使所述处理器执行根据权利要求1-10中任一项所述的方法。
13.一种系统,所述系统包括分别用于执行根据权利要求1-10中任一项所述的方法的步骤的模块。
CN202010847742.3A 2019-08-23 2020-08-21 利用未提交的用户输入数据来提高任务性能 Pending CN112417090A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/549,497 2019-08-23
US16/549,497 US11144560B2 (en) 2019-08-23 2019-08-23 Utilizing unsumbitted user input data for improved task performance

Publications (1)

Publication Number Publication Date
CN112417090A true CN112417090A (zh) 2021-02-26

Family

ID=74646834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010847742.3A Pending CN112417090A (zh) 2019-08-23 2020-08-21 利用未提交的用户输入数据来提高任务性能

Country Status (2)

Country Link
US (1) US11144560B2 (zh)
CN (1) CN112417090A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11144560B2 (en) 2019-08-23 2021-10-12 International Business Machines Corporation Utilizing unsumbitted user input data for improved task performance

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11082559B1 (en) * 2020-07-31 2021-08-03 Kore.Ai, Inc. Methods for managing call traffic at a virtual assistant server
EP4200717A2 (en) 2020-08-24 2023-06-28 Unlikely Artificial Intelligence Limited A computer implemented method for the automated analysis or use of data
US11989507B2 (en) 2021-08-24 2024-05-21 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11977854B2 (en) 2021-08-24 2024-05-07 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11989527B2 (en) 2021-08-24 2024-05-21 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US20230206152A1 (en) * 2021-12-28 2023-06-29 Microsoft Technology Licensing, Llc Determining task significance through task graph structures
US20240078610A1 (en) * 2022-09-01 2024-03-07 Optum Services (Ireland) Limited Focusing unstructured data and generating focused data determinations from an unstructured data set

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1449530A (zh) * 2000-03-30 2003-10-15 微软公司 事务文件系统
US20080154877A1 (en) * 2006-12-20 2008-06-26 Joshi Deepa B Discovering query intent from search queries and concept networks
CN102279873A (zh) * 2010-06-11 2011-12-14 微软公司 对数据、模式,以及应用程序的统一并发变更
CN104081320A (zh) * 2012-01-27 2014-10-01 触摸式有限公司 用户数据输入预测
CN106471570A (zh) * 2014-05-30 2017-03-01 苹果公司 多命令单一话语输入方法
CN108600084A (zh) * 2018-04-03 2018-09-28 Oppo广东移动通信有限公司 信息传输方法、装置、存储介质及移动终端

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7406465B2 (en) * 2004-12-14 2008-07-29 Yahoo! Inc. System and methods for ranking the relative value of terms in a multi-term search query using deletion prediction
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7747639B2 (en) 2005-08-24 2010-06-29 Yahoo! Inc. Alternative search query prediction
US7797298B2 (en) 2006-02-28 2010-09-14 Microsoft Corporation Serving cached query results based on a query portion
WO2011026145A2 (en) 2009-08-31 2011-03-03 Google Inc. Framework for selecting and presenting answer boxes relevant to user input as query suggestions
US20120032877A1 (en) 2010-08-09 2012-02-09 XMG Studio Motion Driven Gestures For Customization In Augmented Reality Applications
US8868590B1 (en) 2011-11-17 2014-10-21 Sri International Method and system utilizing a personalized user model to develop a search request
US11042590B2 (en) 2015-10-05 2021-06-22 Verizon Media Inc. Methods, systems and techniques for personalized search query suggestions
US20170357824A1 (en) 2016-06-10 2017-12-14 OneTrust, LLC Data processing systems for monitoring modifications to user system inputs to predict potential inputs of incorrect or incomplete data
US10713278B2 (en) * 2017-12-05 2020-07-14 Sap Se Flexible configuration of offline synchronization scope
US11144560B2 (en) 2019-08-23 2021-10-12 International Business Machines Corporation Utilizing unsumbitted user input data for improved task performance

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1449530A (zh) * 2000-03-30 2003-10-15 微软公司 事务文件系统
US20080154877A1 (en) * 2006-12-20 2008-06-26 Joshi Deepa B Discovering query intent from search queries and concept networks
CN102279873A (zh) * 2010-06-11 2011-12-14 微软公司 对数据、模式,以及应用程序的统一并发变更
CN104081320A (zh) * 2012-01-27 2014-10-01 触摸式有限公司 用户数据输入预测
CN106471570A (zh) * 2014-05-30 2017-03-01 苹果公司 多命令单一话语输入方法
CN108600084A (zh) * 2018-04-03 2018-09-28 Oppo广东移动通信有限公司 信息传输方法、装置、存储介质及移动终端

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11144560B2 (en) 2019-08-23 2021-10-12 International Business Machines Corporation Utilizing unsumbitted user input data for improved task performance

Also Published As

Publication number Publication date
US11144560B2 (en) 2021-10-12
US20210056113A1 (en) 2021-02-25

Similar Documents

Publication Publication Date Title
US10789552B2 (en) Question answering system-based generation of distractors using machine learning
US10579657B2 (en) Answering questions via a persona-based natural language processing (NLP) system
CA3129745C (en) Neural network system for text classification
US11144560B2 (en) Utilizing unsumbitted user input data for improved task performance
US10275515B2 (en) Question-answer pair generation
US9690861B2 (en) Deep semantic search of electronic medical records
US9760627B1 (en) Private-public context analysis for natural language content disambiguation
US11170181B2 (en) Document preparation with argumentation support from a deep question answering system
US11468050B2 (en) Learning user synonyms from sequenced query sessions
US11593346B2 (en) Crowdsourced validation of electronic content
US11194963B1 (en) Auditing citations in a textual document
US9940354B2 (en) Providing answers to questions having both rankable and probabilistic components
US11429652B2 (en) Chat management to address queries
US11275777B2 (en) Methods and systems for generating timelines for entities
US20230409294A1 (en) Adaptive user interfacing
CN111984781A (zh) 偏见最小化的自动概括
US11227099B2 (en) Automatic summarization with bias minimization
US11899910B2 (en) Multi-location copying and context based pasting
US20220067539A1 (en) Knowledge induction using corpus expansion
US20200372056A1 (en) Automatic summarization with bias minimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination