CN111989685A - 跨域个性化词汇的学习方法及其电子装置 - Google Patents
跨域个性化词汇的学习方法及其电子装置 Download PDFInfo
- Publication number
- CN111989685A CN111989685A CN201980025873.9A CN201980025873A CN111989685A CN 111989685 A CN111989685 A CN 111989685A CN 201980025873 A CN201980025873 A CN 201980025873A CN 111989685 A CN111989685 A CN 111989685A
- Authority
- CN
- China
- Prior art keywords
- skill
- input
- utterance
- word
- intent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 47
- 239000012634 fragment Substances 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 8
- 230000005012 migration Effects 0.000 claims description 8
- 238000013508 migration Methods 0.000 claims description 8
- 235000013550 pizza Nutrition 0.000 description 60
- 230000008569 process Effects 0.000 description 56
- 238000004891 communication Methods 0.000 description 43
- 238000010586 diagram Methods 0.000 description 29
- 238000012545 processing Methods 0.000 description 25
- 238000004590 computer program Methods 0.000 description 15
- 230000011218 segmentation Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 239000000344 soap Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011093 media selection Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
- G06F9/453—Help systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
- G10L15/075—Adaptation to the speaker supervised, i.e. under machine guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Machine Translation (AREA)
Abstract
一种用于操作电子装置的方法,包括:检测第一自然语言(NL)输入;从第一NL输入确定技能;当NL输入包括至少一个唯一技能词,将第一NL输入发送到用于确定技能意图的定制技能解析器,其中,定制技能解析器是基于包括至少定制训练数据集的数据进行训练的;以及当NL输入不包括至少一个唯一技能词,将第一NL输入发送到用于确定第一NL输入的一般意图的通用解析器。
Description
技术领域
一个或更多个实施例总体上涉及个人助理,并且特别地,涉及学习跨域个性化词汇并且在智能个人助理中自动生成结构变化释义(paraphrase)。
背景技术
自然语言理解(NLU)对于个人助理至关重要。NLU帮助理解用户的话语并实现用户的意图。每个意图可以使用非常不同的话语以许多不同的方式表达。一个重要的可变性是由于部分内容(例如,附加状语、名词短语等)出现在话语中的不同部分以及此类内容的不同表达引起的。例如,对于话语“get me a pizza to home by this evening”,也可以这样表示:“by this evening get me a pizza to”、“get me a pizza for home before thisevening”、“to home,buy me a pizza in this evening”等。话语的这种可变性对于训练NLU引擎至关重要。否则,NLU引擎只能理解有限数量的固定格式,并且在许多情况下都无法实现用户的意图。
但是,对于每个特定的内容,都不能将其任意放入句子中。这样做的结果将改变整个话语的语义,或者使新的话语完全没有意义。例如,考虑示例:“get me a pizza to homeby this evening”。可能有许多无效的话语“get to home me a pizza by thisevening”,“get to home by this evening a pizza”等。因此,生成使部分内容出现在正确的地方的释义是很重要的。
最先进的方法/工具(例如API.ai等)或最先进的数字助理产品在很大程度上依赖于用户手动输入话语,以涵盖每种意图的结构变化释义。现有的释义生成工具可能会使用几种简单的基于语法的语句片段重排算法,从而导致不正确的释义。可惜的是,这些方法不能可扩展地支持话语的大量正确变化以生成用于NLU引擎的良好训练数据集。
智能个人助理(PA)是自动人工智能(AI)系统,可以从用户那里获取自然语言输入并执行用户所需的动作。为了使PA能够在各种领域中执行更多动作,某些PA还为开发人员提供了特殊的“技能框架”。使用此框架,开发人员可以向PA添加任何领域的特定技能,使其能够理解自然语言指令并在该领域中执行有用的动作。但是,PA能够理解域特定话语的程度受到技能开发人员提供给技能框架的示例话语的限制。开发人员提供的此类示例通常是受限制的,并且不能涵盖用户能提供给PA的通常使用一些偏爱的个人词汇的多种自然语言话语和释义。更重要的是,当前系统中的技能框架无法利用为一项特定技能提供的示例来增强PA对某些其他技能的词汇或自然语言的理解能力。
发明内容
技术问题
一个或更多个实施例通常涉及学习跨域个性化词汇和在智能个人助理中生成结构变化释义。
技术问题的解决方案
在一个实施例中,一种用于操作电子装置的方法包括:检测第一自然语言(NL)输入;如果该NL输入包括至少一个唯一技能词,则从该第一NL输入确定技能;将该第一NL输入发送到定制技能解析器以确定技能意图,其中,该定制技能解析器是基于至少包括定制训练数据集的数据而训练过的,并且如果NL输入不包括至少一个唯一技能词,则将第一NL输入发送到用于确定第一NL输入的一般意图的通用解析器。
在一个实施例中,一种操作电子装置的方法,包括:基于第一技能,检测包括无法解析的第一字的第一话语;检测包括第二字而不是第一字的第二话语;通过基于第一技能解析第二话语来识别与第二话语相对应的意图;将第一话语以及所述意图一起添加到与第一技能相关联的训练数据中;以及通过使用训练数据来训练第一技能。
在一个实施例中,一种方法包括电子装置根据第一自然语言(NL)输入来确定技能。在成功确定技能后,第一NL输入被发送到定制技能解析器,以确定技能意图。定制技能解析器是基于包括至少定制训练数据集的数据而训练过的。在未成功确定技能的情况下,第一NL输入被发送到通用解析器以确定第一NL输入的一般意图。
在一个实施例中,一种电子装置包括存储指令的存储器。至少一个处理器执行包括过程的指令,该过程被配置为:从第一NL输入确定技能;在成功确定技能之后,将第一NL输入发送到定制技能解析器以确定技能意图,其中,定制技能解析器是基于至少包括定制训练数据集的数据而训练过的,并且未成功地确定技能之后,将第一NL输入发送到通用解析器以确定第一NL输入的一般意图。
在一个实施例中,一种非暂时性处理器可读介质,其包括程序,程序在由处理器执行时执行一种方法,该方法包括电子装置根据第一NL输入确定技能。在成功确定技能之后,第一NL输入被发送到定制技能解析器以确定技能意图。定制技能解析器是基于至少包括定制训练数据集的数据而训练过的。在未成功确定技能的情况下,第一NL输入被发送到通用解析器以确定第一NL输入的一般意图。
在又一个实施例中,一种用于智能辅助的方法,包括:为NL输入生成一个或更多个片段,其中每个片段基于其对NL输入的动作术语的从属性。主要片段是从一个或更多个片段中识别出的。第一替换短语是基于主要片段与一个或更多个片段中的每个非主要片段的连接而生成的。提供包括至少一部分输入和第一替换短语的输出。
根据以下详细描述,一个或更多个实施例的这些和其他方面以及优点将变得显而易见,当结合附图时,该详细描述以示例的方式示出了一个或更多个实施例的原理。
本发明的有益效果
本公开的各种实施例提供了一种跨域个性化词汇学习方案。
附图说明
为了更全面地理解实施例的性质和优点以及优选使用方式,应参考结合附图阐释的以下详细描述,其中:
图1示出了根据一些实施例的包括具有个人助理应用的电子装置的系统的架构的框图;
图2示出了根据一些实施例的示例词汇和释义迁移学习;
图3示出了根据一些实施例的用于个性化技能意图解析的处理的框图;
图4示出了根据一些实施例的用于更新个性化技能解析器的处理的框图;
图5A示出了根据一些实施例的用于迁移个性化词汇的处理的框图;
图5B示出了根据一些实施例的用于迁移个性化词汇的处理的另一框图;
图6示出了根据一些实施例的用于分段重述和交换的框图;
图7示出了根据一些实施例的用于话语分段处理的框图;
图8示出了根据一些实施例的话语分段的示例;
图9示出了根据一些实施例的用于分段重述和交换的处理的框图;
图10示出了根据一些实施例的重述片段的示例;
图11示出了根据一些实施例的重述的片段和来自重述的片段的组合释义的示例;
图12示出了根据一些实施例的用于交换的释义排名的框图;
图13示出了根据一些实施例的排名后的释义的示例;
图14A和图14B示出了根据一些实施例的重述和交换的话语以及排名后的释义的输出的示例;
图15示出了根据一些实施例的用于生成结构变化释义的过程的框图;以及
图16是示出包括实现一个或更多个实施例的计算系统的信息处理系统的高级框图。
具体实施方式
进行以下描述是为了说明一个或更多个实施例的一般原理,并不意味着限制本文所要求的发明构思。此外,本文描述的特定特征可以以各种可能的组合和排列中的每一种与其他描述的特征结合使用。除非本文另有明确定义,否则应给予所有术语最广泛的可能解释,包括从说明书中隐含的含义以及本领域技术人员所理解的含义和/或如字典、论文等所定义的含义。
应当注意的是,术语“至少一个”是指随后的要素中的一个或更多个要素。例如,“a,b,c或其组合中的至少一个”可以分别解释为:单独的“a”、“b”或“c”;或“a”和“b”组合在一起;或“b”和“c”组合在一起;“a”和“c”组合在一起;或“a”、“b”和“c”组合在一起。
该专利文件的一部分公开内容可能包含受版权保护的材料。因为专利文件或专利公开文件出现在专利和商标局的专利文件或记录中,所以版权所有者不反对任何人传真复制专利文件或专利公开文件,但除此之外保留所有版权权利。
一个或更多个实施例提供了在智能个人助理中学习跨域个性化词汇和生成结构变化释义的方法。一些实施例包括一种方法,该方法包括电子装置根据第一NL输入确定技能。在成功确定技能之后,第一NL输入被发送到定制技能解析器,以确定技能意图。定制技能解析器是基于至少包括定制训练数据集的数据而训练过的。在未成功确定技能的情况下,第一NL输入被发送到通用解析器,以确定第一NL输入的一般意图。
在一些实施例中,为了使个人助理(PA)(例如,图1中的PA 129)学习由PA的最终用户使用的个性化词汇,可以为每个用户实现“个性化技能解析器”360(图3和图6),其可以针对用户正在使用的技能集合解析技能特定话语的功能。一些实施例自动生成结构变化释义,并使用它们来训练NLU引擎。生成的结构变化释义可以大大丰富训练集的可变性,以便为PA129训练改进的NLU引擎。
在一些实施例中,生成的结构变化释义允许部分内容出现在话语或句子中的不同正确位置。一个或更多个实施例使用户针对每种意图手动生成这种结构变化话语自动化,因此降低了个人助理的技能开发成本。一些实施例提供了一种界面,该界面用于在用户希望产生其表达可变性的话语中输入用户指定的部分内容。在一个实施例中,通过将内容的一部分与话语的其他部分交换来产生话语释义的新结构。可以生成内容的每个部分的不同表达,并提供话语中详细内容的重述以生成更多的释义。在一个实施例中,还提供了生成的结构变化释义的排名。来自处理的输出可以直接用于训练现有的NLU引擎。
图1示出了架构系统100的功能框图,该架构系统100可以用于使用电子装置120(例如,移动电话装置、电视(TV)系统、相机、便携式摄像机、具有音视频功能的装置、平板电脑、平板装置、可穿戴装置、智能电器、智能相框、智能照明等)的PA,例如以增强PA的自然语言理解能力和个性化。在一个实施例中,电子装置120可以包括显示器121、麦克风122、音频输出123、输入机构124、通信电路125、控制电路126、相机128、个人助理(或PA)129(至少包括图3的用于个性化技能意图解析300的处理、个人技能解析器360(图3和图6)和/或图7的分段重述和交换700处理,和/或与通信电路125通信以通过云或服务器130获取或提供其信息,并且可以包括对如下所述示例和实施例的任何处理,但不限于对这些示例和实施例的处理),和/或任何其他合适的组件。在一个实施例中,提供了应用1-N127,并且可以从云或服务器130、通信网络110等获得应用1-N 127,其中N是等于或大于1的正整数。
在一个实施例中,音频输出123、显示器121、输入机构124、通信电路125和麦克风122所采用的所有应用可以由控制电路126互连和管理。在一个示例中,能够将音乐传输到其他调谐装置的手持音乐播放器可以集成到电子装置120中。
在一个实施例中,音频输出123可以包括用于向电子装置120的用户提供音频的任何合适的音频组件。例如,音频输出123可以包括内置在电子装置120中的一个或更多个扬声器(例如,单声道或立体声扬声器)。在一些实施例中,音频输出123可以包括远程连接到电子装置120的音频组件。例如,音频输出123可以包括可以通过有线(例如,通过插口连接到电子装置120)或无线(例如,头戴式耳机或头戴式受话器)连接到通信装置的头戴式受话器、头戴式耳机或耳塞式耳机。
在一个实施例中,显示器121可以包括用于提供用户可见的显示器的任何合适的屏幕或投影系统。例如,显示器121可以包括被集成在电子装置120中的屏幕(例如,液晶显示器(LCD)屏幕、发光二极管(LED)屏幕、有机LED(OLED)屏幕等)。作为另一个示例,显示器121可以包括可移动显示器或投影系统,用于在远离电子装置120(例如,视频投影仪)的表面上提供内容的显示。显示器121可以操作为在控制电路126的指导下显示内容(例如,关于通信操作的信息或关于可用媒体选择的信息)。
在一个实施例中,输入机构124可以是用于向电子装置120提供用户输入或指令的任何合适的机构或用户界面。输入机构124可以采用多种形式,例如,按钮、键盘、调谐钮、点击式转盘、鼠标、视觉指示器、遥控器、一个或更多个传感器(例如,相机或视觉传感器、光学传感器、接近传感器等)或触摸屏。输入机构124可以包括多触摸屏。
在一个实施例中,通信电路125可以是操作为连接到通信网络并将通信操作和媒体从电子装置120发送到通信网络内的其他装置的任何合适的通信电路。通信电路125可以操作为使用任何合适的通信协议与通信网络结合,通信协议例如为Wi-Fi(例如,IEEE802.11协议)、高频系统(例如,900MHz、2.4GHz、和5.6GHz通信系统)、红外、全球移动通信系统(GSM)、GSM加增强型数据GSM环境(EDGE)、码分多址(CDMA)、四频和其他蜂窝协议、互联网语音协议(VOIP)、传输控制协议(TCP)-IP或任何其他合适的协议。
在一些实施例中,通信电路125可以操作为使用任何合适的通信协议来创建通信网络。例如,通信电路125可以使用短距离通信协议来创建短距离通信网络以连接到其他通信装置。例如,通信电路125可以操作为使用协议来创建本地通信网络以连接电子装置120与头戴式受话器。
在一个实施例中,控制电路126可以操作为控制电子装置120的操作和性能。控制电路126可以包括例如处理器、(例如,用于向电子装置120的其他组件发送指令的)总线、存储器、存储装置、或用于控制电子装置120的操作的任何其他合适的组件。在一些实施例中,处理器可以驱动显示器并处理从用户界面接收的输入。存储器和存储装置可以包括例如高速缓存、闪存、只读存储器(ROM)和/或随机存取存储器(RAM)/DRAM。在一些实施例中,存储器可以专用于存储(例如,用于诸如操作系统、用户界面功能和处理器功能的装置应用的)固件。在一些实施例中,存储器可以操作为存储与电子装置120与其执行通信操作的其他装置有关的信息(例如,保存与通信操作有关的联系人信息或存储与用户选择的不同媒体类型和媒体项目有关的信息)。
在一个实施例中,控制电路126可以操作为执行在电子装置120上实现的一个或更多个应用的操作。可以实现任何合适数量或类型的应用。尽管下面的讨论将列举不同的应用,但是应该理解,这些应用的一些或所有可以组合成一个或更多个应用。例如,电子装置120可以包括应用1-N 127,其包括但不限于:自动语音识别(ASR)应用、光学字符读取器(OCR)应用、对话应用、地图应用、媒体应用(例如QuickTime、MobileMusic应用或MobileVideo应用)、社交网络应用(例如 等)、日历应用(例如用于管理事件、约会的日历)、网络浏览应用等。在一些实施例中,电子装置120可以包括操作为执行通信操作的一个或更多个应用。例如,电子装置120可以包括消息应用、电子邮件应用、语音邮件应用、即时消息应用(例如,用于聊天)、视频会议应用、传真应用或用于执行任何合适的通信操作的任何其他合适的应用。
在一些实施例中,电子装置120可以包括麦克风122。例如,电子装置120可以包括麦克风122,以允许用户在通信操作期间或者作为建立通信操作的手段或作为使用物理用户接口的替代方案来发送用于应用1-N 127的语音控制和导航的音频(例如,语音音频)。麦克风122可以集成在电子装置120中,或者可以远程连接到电子装置120。例如,麦克风122可以集成在有线头戴式耳机中,麦克风122可以集成在无线头戴式受话器中,麦克风122可以集成到遥控器中,等等。
在一个实施例中,相机模块128包括一个或更多个相机装置,该相机装置包括用于捕获静止和视频图像的功能、编辑功能、用于发送、共享照片/视频等的通信互操作性等。
在一个实施例中,电子装置120可以包括适合于执行通信操作的任何其他组件。例如,电子装置120可以包括电源、端口或用于连接到主机装置的接口、辅助输入机构(例如,打开/关闭(ON/OFF)开关)或任何其他合适的组件。
在本公开中,“技能”是指PA可以理解/解释/解析与专门领域有关的命令的专门领域。例如,在“图片库技能”中,PA可以理解“显示我的最新旅行照片”之类的命令。该技能也可以称为“领域”、“域”、“类别”和其他具有等同技术含义的术语。在一些实施例中,技能可以对应于应用。“意图”是指用户想要在领域或技能内实现的特定目标。例如,在“图片库技能”中,命令“显示我的最新旅行照片”指的是“显示图片”的意图,而命令“将我的最新旅行照片发送给我的妈妈”可能对应于不同的“分享图片”的意图。PA可以确定正在被特殊技能调用命令所使用的技能,例如在主要命令之前的“打开三星购物”;或者在命令本身中提到唯一的“技能调用短语/标识符”时通过字符串匹配来确定正在被特殊技能调用命令所使用的技能,例如话语“打开三星购物并搜索Galaxy S8”中的短语“三星购物”。在某些情况下,也可以通过使用机器学习算法训练的被称为“领域分类器”的特殊解析器来确定“技能”。
图2示出了根据一些实施例的示例词汇和释义迁移学习。在一些实施例中,针对PA(例如,图1中的PA 129)可以存在不同的领域,例如智能家居技能210、音乐技能220、图片库技能230、购物技能240、餐厅技能250和航线技能260。在一个示例中,用户说出“将电视的亮度设置为中等”。(使用智能家居技能领域210的)PA可能无法理解该话语并回答“对不起,我没有理解”。然后,用户将话语重述为“将电视的亮度设置为50%”。然后,PA学习了这个新词汇,即“中等”等于“50%”,以便下次用户重新发出同一命令“将电视的亮度设置为中等”时,PA直接理解其意图。在一些实施例中,迁移学习205将学习到的对“中等”的释义“50%”从智能家居技能领域210共享或迁移到音乐技能领域220。从而,当用户说出“将音量设置为中等”时,(使用音乐技能领域220的)PA将音量设置更改为50%并回复“更改音量设置”。也就是说,在解析音乐技能领域220中的话语“将音量设置为中等”的情况下,字“中等”被解释为字“50%”的含义或者被字“50%”代替。
在另一个示例中,(使用图片库技能领域230的)PA可能无法理解“将我的旅行照片发送给我的妈妈”的输入并回答“对不起,我没有理解”。然后将输入重述为PA可以理解的“将旅行图片发送给我的妈妈”。在一些实施例中,迁移学习206将学习到的对“照片”的释义“图片”从图片库技能领域230共享或迁移到购物技能领域240。当用户说出“显示新GalaxyNote 8的照片”时,(使用购物技能领域240的)PA根据迁移的学习206展示照片并回答“给您”。在又一个示例中,(使用餐厅技能领域250的)PA可能无法理解“下午早些时候买些比萨回家”的输入并回答“对不起,我无法理解”。然后将输入重述为PA可以理解的“下午2点买些比萨回家”。在一些实施例中,迁移学习207将从餐厅技能领域250学习到的对“下午2点”的释义“下午早些时候”共享或迁移到航线技能领域260。
创造性的PA可以理解制造商添加的一组固定的领域/技能(称为“默认/一般技能”)中的话语。此外,在部署之后,用户可以即时将许多新技能(通常由第三方开发的)添加到PA中。这些第三方技能称为“特殊技能”。图3示出了根据一些实施例的用于个性化技能意图解析300的处理的框图。可以理解,以下描述的操作可以由电子装置120或电子装置120的至少一个处理器(例如,控制电路126、PA 129等)执行。用于个性化技能意图解析300的处理包括以下内容。
参照图3,在框310中,接收自然语言输入,例如话语/输入X'(例如,使用诸如图1的PA 129之类的PA)。在框320中,确定话语X'是否对应于“特殊技能”(例如,通过与存储在装置或云服务器内的技能调用短语的字符串匹配)。如果确定话语X'对应于特殊技能(即,如果话语X'包括与该特殊技能相关联的至少一个唯一的技能词),则用于个性化技能意图解析300的处理进行到框335。在框335中,确定用于话语X'的技能是否已经被添加到PA的用户个性化解析器。也就是说,电子装置120确定个性化解析器是否可用于确定意图并执行与技能相对应的动作。
如果确定与话语X'相对应的技能已经被添加到PA的用户的个性化解析器,则用于个性化技能意图解析300的处理进行到(个人技能处理框350的)框360,在该框360中个性化技能解析器被调用。如果确定与话语X'相对应的技能未添加到PA的个性化解析器,则用于个性化技能意图解析300的处理进行到(个人技能处理框350的)框355,在框355中使用更新个人技能解析器算法添加新技能调用关键字,然后处理进行到框360。
在一些实施例中,从用于个性化技能意图解析300的处理的框360进行到框365(在框365中,确定是否从个人技能解析器360找到了技能意图)。如果确定从个人技能解析器360找到了技能意图,则用于个性化技能意图解析300的处理进行到框380(在框380中,电子装置(例如,图1的电子装置120)执行与所确定的技能意图相对应的动作),然后处理在框390处停止。如果确定未从个人技能解析器360找到技能意图,则用于个性化技能意图解析300的处理进行到框370(在框370中,通过调用学习个性化词汇算法来执行迁移词汇处理以将新的用户特有的词汇/训练数据添加到个性化技能解析器)。因此,电子装置可以基于随后的自然语言输入来定义新的用户特有的词汇和技能意图之间的映射。然后,处理在框390处停止。
在一些实施例中,如果确定话语X'不包括特殊技能调用短语,则用于个性化技能意图解析300的处理进行到框325(在框325中,意图(与任何单个用户不相关的一般技能)解析器被调用)。然后,用于个性化技能意图解析300的处理进行到框330(在框330中,确定是否找到了意图)。如果找到了意图,则用于个性化技能意图解析300的处理进行到框340(在框340中,电子装置(例如,图1的电子装置120)执行相应的动作)。如果在框330中未找到意图,则用于个性化技能意图解析300的处理在框390处停止。
PA中的每个“技能”都有一个相关联的训练数据集,我们称为“技能训练数据”。图4示出了根据一些实施例的用于更新个性化技能解析器框355的处理的框图。可以理解,以下描述的操作可以由电子装置120或电子装置120的至少一个处理器(例如,控制电路126、PA129等)执行。在框410中,一种新的定制技能(在320中确定的特殊技能)被输入到框420中并将其添加到用户正在使用的技能集S中。在框430中,用于更新个性化技能解析器的处理通过合并(合并仅是指构造包含来自集合S中的每个技能的技能训练集的话语的组合训练数据集)针对集合S中的每个技能的“技能训练集”来构建“组合技能训练集”T。在框440中,构造“用户特定的训练数据”U(由用户使用学习到的个性化词汇算法添加的)。例如,在图2中,当用户提供释义的话语“将电视的亮度设置为50%”205时,该话语被添加到“用户特有训练数据”U。在框450中,“个性化技能解析器”是使用“组合技能训练数据”T和“用户特有训练数据”U而训练的。
图5A示出了根据一些实施例的用于迁移个性化词汇处理框370的框图。可以理解,以下描述的操作可以由电子装置120或电子装置120的至少一个处理器(例如,控制电路126、PA 129等)执行。在框510中,在个人技能解析器360中对话语X的意图解析失败(图3)(即,个人技能解析器360无法解析话语X)。在框520中,确定是否学习新词汇(例如,提示/询问用户他/她是否希望PA学会新的个人词汇)。如果确定不希望学习新词汇,则迁移个性化词汇处理框370进行到框570并停止(例如,用户对提示/查询回答“否”)。如果确定期望学习新词汇(例如,用户对提示/查询回答“是”),则迁移个性化词汇处理框370进行到框530(在框530中,接收到X的释义话语Y)。例如,在图2中,迁移学习205显示原始话语X为“将电视的亮度设置为中等”,而用户提供的释义话语Y为“将电视的亮度设置为50%”。提示用户向X中的任何已标识出的词汇表外的字(例如,未知字)提供释义话语Y。例如,当提示用户输入释义时,字“中等”被突出显示为词汇表外的字。在框535中,处理检查是否可以使用个人技能解析器360将Y正确地解析为意图I(Y)。如果不是,则处理声明失败,并且进行到框570并停止。否则,处理进行到个人技能解析器再训练处理540以进行到框550并将X和意图I(Y)添加到“用户特有训练数据”U。在框560中,使用“组合技能训练数据”T和“用户特有训练数据”U来再训练个人技能解析器360。框560中的迁移个性化词汇处理继续进行以在用户正在使用的所有个性化技能S中迁移学习新的个性化词汇。也就是说,将新的个性化词汇应用于所有个性化技能S。在实施例中,可以对所有个性化技能S进行使用新的个性化词汇的训练。在另一个实施例中,关于新的个性化词汇的信息被添加到所有个性化技能S。然后,处理进行到框570并停止。
图5B示出了根据一些实施例的用于迁移个性化词汇处理框370的另一框图。可以理解,以下描述的操作可以由电子装置120或电子装置120的至少一个处理器(例如,控制电路126、PA 129等)执行。在框545中,处理确定对应于话语Y的技能s。在框546中,生成还包含用户提供的释义Y的技能s内的X的释义的扩展集合P(X)。在框551中,对于P(X)中的每个释义Z,处理将{Z,意图(Y)}添加到用户特有训练集U中。迁移个性化词汇处理框370进行到框560(在框560中,对个人技能解析器进行再训练,并且对所有被用户使用的个性化技能S迁移学习新的个性化词汇)。然后,处理进行到框570并停止。
图6示出了根据一些实施例的用于分段重述和交换处理600的框图。一些实施例生成结构变化释义,这意味着生成的释义就输入话语的细节结构而言具有不同的可变性。获得/接收自然语言话语610(例如,通过诸如图1的PA 129之类的PA)并将其输入到框620中以进行话语分段。在框620中,话语分段生成输入话语610的片段并识别话语中每个片段的从属性。这里的从属性代表主要片段和从属片段之间的关系,其中组成部分的主要片段是较大组成部分的中心组织词(例如,名词短语中的主要名词或动词短语中的动词),并且组成部分中的其余字要么直接或间接依赖于其主要片段。在框630中,片段重述和交换包括生成每个片段的重述并基于它们的从属性来交换片段。在框640中,生成的释义排名包括基于语言模型重述和交换后的释义的排名。框640的结果在框650中被输出为排名后的释义。然后,可以在迁移个性化词汇处理期间,将这些排名后的释义添加到用户特有训练集中,如框551所示。
图7示出了根据一些实施例的话语分段处理框620(图6)的框图。在一些实施例中,框620的话语分段处理具有以下输入:用户话语610和概率性上下文无关文法(PCFG)解析器710。在一个实施例中,PCFG解析器710计算出句子的语法结构,包括哪些词组作为片段以及片段之间的从属性。框620的话语分段处理使用PCFG解析器710生成输入话语610的解析树并识别出话语610的各个部分之间的从属关系。例如,其识别动词720、宾语730和附加状语740。根据识别出的动词720和宾语730,对话语610进行分段以生成输入话语610的主要片段(包括动词短语)750;并且附加状语740被分段以生成输入话语610的释义760(释义1-N)。
图8示出了根据一些实施例的话语分段800的示例。在该示例中,存在三个片段,包括主要片段810(“deliver some pizza”)和两个附加状语820(“to my home”840和“bynoon”850)。话语800包括动词835(“deliver”830)和宾语836“some pizza”。话语800用于描述一些实施例如何提供对如图10和图11所示的分段和重述的使用。
图9示出了根据一些实施例的用于分段重述和交换框630(图6)的处理的框图。在一些实施例中,分段、重述和交换处理包括框910的片段连接和框920的连接片段的释义的生成。对于框910的片段连接,输入包括一个或更多个动词短语和附加状语的输入话语的片段。框910的片段连接通过将每个动词短语与一个附加状语连接来生成重述形式,即非主要片段。对于框920的连接片段的释义的生成,一些实施例可以使用任何释义生成算法来重述非主要片段,并且使用任何释义生成算法来重述主要片段。对于附加状语交换,一些实施例对在框910中生成的片段进行置换以生成交换后的释义的列表。如果一组片段依赖于同一片段,则它们将在彼此之间交换以生成交换后的释义的列表。
图10示出了根据一些实施例的重述片段的示例。对于该示例,输入话语1010是“deliver some pizza to my home by noon”。示例非主要片段1020是:“deliver somepizza to my home”和“deliver some pizza by noon”,其中带下划线的词指的是非主要片段。主要片段1030是:“deliver some pizza”。对非主要片段1025进行重述处理的示例结果导致以下重述:“deliver some pizza for home”,“deliver some pizza back home”,“deliver some pizza to bring home”,……,“deliver some pizza before noon”,“deliver some pizza at noon”和“deliver some pizza around noon”……,其中带下划线的部分是重述后的非主要片段。对于主要片段1030的重述,重述的主要片段1035的示例是:“get me some pizza”,“buy a pizza”和“I want a piece of pizza”……。片段的重述是由现有的释义算法生成的。
图11示出了根据一些实施例的重述片段1110和根据重述片段的组合释义1120的示例。重述片段用于替换话语中的原始片段以生成释义列表。在该示例中,重述片段1110是:“get me some pizza”,“buy a pizza”和“I want some pizza”……;“for home”,“back home”,以及“to bring home”;和“before noon”,“at noon”和“around noon”……。根据重述片段的组合释义1120是:“get me some pizza back home by noon”,“by noonget me some pizza and home”,“I want a pizza before noon back home”,“beforenoon I want a pizza back home”,“to home get me some pizza via noon”,“buy apizza for home before noon”,“for home buy some pizza before noon”,“aroundnoon buy a pizza to home”,“buy a pizza by noon back home”,以及“get me somepizza by noon to home”……。
图12示出了根据一些实施例的用于框640(图6)的交换后的释义的排名的框图。在一些实施例中,框640包括组合的释义排名,其将所生成的交换和重述的释义1220和语言模型1210作为输入。语言模型1210用于基于来自语言模型1210的似然性对每个生成的交换和重述的释义进行评分。在一些实施例中,在框1230中,提取重述的片段的词典中的片段的每个元组(tuple)的处理,使用语言模型1210以对每个置换后的元组的组合进行评分,在所有组合中选择最低的分数,将此分数标记为所选元组的分数,并通过对每个组合元祖的分数进行排名来得出所有交换后的释义的总体排名(排名后的释义650)。
图13示出了根据一些实施例的排名后的释义的示例。在“deliver some pizza tomy home by noon”的排名释义的示例1310中,排名最高的释义1320(从最高的开始)包括:“get me some pizza back home by noon”,“buy a pizza for home before noon”,“Iwant a pizza before noon back home”,“before noon I want a pizza back home”,“around noon buy a pizza to home”,“get me some pizza by noon to home”。低排名释义1330包括(从高到低):“by noon get me some pizza and home”,“for home buysome pizza before noon”,“to home get me some pizza via noon”,以及“buy a pizzaby noon back home”。
图14A和图14B示出了根据一些实施例的重述和交换的话语的示例以及排名的释义的输出。对于“deliver some pizza to my home by noon”的示例输入话语1410,动作术语1420为“deliver”,三个片段1430是:“deliver some pizza”,“to my home”和“bynoon”,而主要片段1440是“deliver some pizza”。在一些示例实施例中,短语的第一替换1450是对非主要片段的重述,其包括用“for home”、“back home”以及“to bring home”替换“to my home”,以及用“before noon”、“at noon”以及“around noon”替换“by noon”。
动作术语(“deliver some pizza”)的第二替换短语1460包括用“get me somepizza”,“buy a pizza”,“I want some pizza”等来重述主要片段。在一些实施例中,该示例重述和交换的话语(通过组合第一替换和第二替换)1470包括:“get me some pizzaback home by noon”,“by noon get me some pizza and home”,“I want a pizzabefore noon back home”,“before noon I want a pizza back home”,“to home get mesome pizza via noon”,“buy a pizza for home before noon”,“for home buy somepizza before noon”,“around noon buy a pizza to home”,“buy a pizza by noonback home”和“get me some pizza by noon to home”等。
排名释义的最终输出1480可以包括高排名结果1490:“get me some pizza backhome by noon”,“buy a pizza for home before noon”,“I want a pizza before noonback home”,“before noon I want a pizza back home”,“around noon buy a pizza tohome”和“get me some pizza by noon to home”。排名释义的最终输出1480可以包括高排名结果1495:“by noon get me some pizza and home”,“for home buy some pizzabefore noon”,“to home get me some pizza via noon”,“buy a pizza by noon backhome”。
图15示出了根据一些实施例的用于生成结构变化释义的过程1500的框图。在框1510中,过程1500通过电子装置(例如,图1的电子装置120)基于来自第一NL输入的关键字确定技能。在框1520中,过程1500在成功确定技能之后,将第一NL输入发送到定制技能解析器(例如,图3的个人技能解析器360)以确定技能意图。在一些实施例中,在过程1500中,基于定制训练数据集和多个技能训练数据集的组合来训练定制技能解析器,并且多个技能训练数据集中的每个技能训练数据集包括特定于技能集中的独特技能的数据。在框1530中,在未成功确定技能的情况下,过程1500将第一NL输入发送到通用解析器(例如,图3的意图解析器325),以确定第一NL输入的一般意图。在框1540中,在成功确定技能意图之后,过程1500将技能添加到技能集中。在框1550中,在未成功确定技能意图时,过程1500提示第二NL输入。在过程1500中,第二NL输入是第一NL输入的释义。
在一些实施例中,过程1500可以包括:将第二NL输入发送到定制技能解析器,以确定技能意图;基于第一NL输入和技能意图来更新定制训练数据集;以及基于多个定制技能训练数据集的组合和定制训练数据集两者来训练定制技能解析器。
在一些实施例中,过程1500可以包括从第一NL输入生成片段。在过程1500中,片段可以包括主要片段和一个或更多个非主要片段。过程1500可以进一步包括:根据片段生成多个重述,并且基于片段的从属性来交换片段以生成交换的重述。在一些实施例中,过程1500可以包括基于输入语言模型对多个重述和交换的重述进行排名。
在一些实施例中,在过程1500中,生成片段可以包括:生成第一NL输入和解析器的解析树,识别第一NL输入的各部分之间的从属关系,识别第一NL输入的细节,其中该细节至少包括一个动词、宾语和一个或更多个附加状语,基于至少一个动词和宾语生成第一NL输入的主要片段,并基于一个或更多个附加状语生成多个释义。
图16是示出包括实现一个或更多个实施例的计算系统的信息处理系统的高级框图。系统1600包括一个或更多个处理器1611(例如,ASIC、CPU等),并且可以进一步包括电子显示装置1612(用于显示图形、文本和其他数据)、主存储器1613(例如,随机访问存储器(RAM)、高速缓存装置等)、存储装置1614(例如硬盘驱动器)、可移动存储装置1615(例如可移动存储驱动器、可移动存储器、磁带驱动器、光盘驱动器、存储有计算机软件和/或数据的计算机可读介质)、用户界面装置1616(例如键盘、触摸屏、小键盘、定点装置)和通信接口1617(例如调制解调器、无线收发器(例如Wi-Fi、蜂窝网络)、网络接口(例如以太网卡)、通信端口或PCMCIA插槽和卡)。
通信接口1617允许通过互联网1650、移动电子装置1651、服务器1652、网络1653等在计算机系统和外部装置之间传输软件和数据。系统1600还包括通信基础设施1618(例如,通信总线、交叉条或网络),其中前述装置1617通过1617连接到该通信基础设施。
经由通信接口1617传送的信息可以是信号的形式,例如电子信号、电磁信号、光学信号或能够由通信接口1617经由携带信号的通信链路接收的其他信号,并且可以使用电线或电缆、光纤、电话线、蜂窝电话链路、射频(RF)链路和/或其他通信通道来实现。
在移动无线装置(例如,移动电话、平板电脑、可穿戴装置等)中的一个或更多个实施例的一种实现中,系统1600还包括图像捕获装置1620,例如相机128(图1)、音频捕获装置1619,例如麦克风122(图1)。系统1600还可以包括应用处理或处理器,例如MMS 1621、SMS1622、电子邮件1623、社交网络接口(SNI)1624、音频/视频(AV)播放器1625、网络浏览器1626、图像捕获1627等。
在一个实施例中,系统1600包括个人意图学习处理1630,其可以实现类似于关于个人意图学习应用129(图1)所描述的处理,并且用于以上关于图5-图9所描述的处理。在一个实施例中,个人意图学习处理1630和操作系统1629可以被实现为驻留在系统1600的存储器中的可执行代码。在另一实施例中,个人意图学习处理1630可以以硬件、固件等形式来提供。
在一个实施例中,主存储器1613、存储装置1614和可移动存储装置1615可以以各自单独地或以任何组合的形式存储可以由一个或更多个处理器1611执行的用于上述实施例的指令。
如本领域技术人员所知道的,根据上述架构,上述示例架构可以以多种方式实现,例如由处理器执行的程序指令、软件模块、微代码、计算机可读介质上的计算机程序产品、模拟/逻辑电路、专用集成电路、固件、消费电子装置、AV装置、无线/有线发射器、无线/有线接收器、网络、多媒体装置等。此外,所述架构的实施例可以采取完全硬件实施例、完全软件实施例或包含硬件和软件元素两者的形式。
已经参考根据一个或更多个实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了一个或更多个实施例。可以通过计算机程序指令来实现这样的图示/图表的每个框或其组合。计算机程序指令在被提供给处理器时,产生机器,使得经由处理器执行的指令创建用于实现流程图和/或框图中指定的功能/操作的装置。流程图/框图中的每个框可以表示实现一个或更多个实施例的硬件和/或软件模块或逻辑。在替代实施方式中,框中指出的功能可以不按图中指出的顺序发生或可以同时发生。
术语“计算机程序介质”、“计算机可用介质”、“计算机可读介质”和“计算机程序产品”通常用于指代诸如主存储器、辅助存储器、可移动存储驱动器、安装在硬盘驱动器上的硬盘之类的介质。这些计算机程序产品是用于向计算机系统提供软件的装置。该计算机可读介质允许计算机系统从该计算机可读介质读取数据、指令、消息或消息包以及其他计算机可读信息。例如,计算机可读介质可以包括非易失性存储器,诸如软盘、ROM、闪存、磁盘驱动器存储器、CD-ROM和其他永久性存储器。例如,对于在计算机系统之间传输信息(例如数据和计算机指令)是有用的。可以将计算机程序指令存储在计算机可读介质中,该计算机可读介质可以指导计算机、其他可编程数据处理设备或其他装置以特定方式运行,使得存储在计算机可读介质中的指令产生包括实现流程图和/或框图的一个框或多个框中指定的功能/动作的指令的产品。
可以将表示本文的框图和/或流程图的计算机程序指令加载到计算机、可编程数据处理设备或处理装置上,以使在其上执行的一系列操作产生计算机实现的过程。计算机程序(即计算机控制逻辑)存储在主存储器和/或辅助存储器中。也可以经由通信接口来接收计算机程序。这样的计算机程序在被执行时使计算机系统能够执行本文所讨论的实施例的特征。特别地,计算机程序在被执行时使处理器和/或多核处理器能够执行计算机系统的特征。这样的计算机程序代表计算机系统的控制器。一种计算机程序产品,包括有形存储介质,该有形存储介质可被计算机系统读取,并存储由计算机系统执行以执行一个或更多个实施例的方法的指令。
尽管已经参考实施例的某些版本描述了实施例;但是,其他版本也是可能的。因此,所附权利要求书的精神和范围不应限于这里包含的优选版本的描述。
Claims (15)
1.一种操作电子装置的方法,所述方法包括:
检测第一自然语言(NL)输入;
从所述第一NL输入确定技能;
当所述NL输入包括至少一个唯一技能词时,将所述第一NL输入发送到定制技能解析器以确定技能意图,其中,所述定制技能解析器是基于至少包括定制训练数据集的数据而训练过的;以及
当所述NL输入不包括所述至少一个唯一技能词时,将所述第一NL输入发送到通用解析器以确定所述第一NL输入的一般意图。
2.根据权利要求1所述的方法,其中,所述数据包括多个技能训练数据集的组合,以及
其中,所述多个技能训练数据集中的每个技能训练数据集包括特定于技能集的独特技能的数据。
3.根据权利要求2所述的方法,所述方法还包括:
当所述NL输入包括所述至少一个唯一技能词时,将所述技能添加到所述技能集中。
4.根据权利要求2所述的方法,所述方法还包括:
当所述NL输入不包括所述至少一个唯一技能词,提示进行第二NL输入,其中,所述第二NL输入是所述第一NL输入的释义。
5.根据权利要求4所述的方法,所述方法还包括:
将所述第二NL输入发送到所述定制技能解析器以确定所述技能意图;
基于所述第一NL输入和所述技能意图更新所述定制训练数据集;以及
基于所述多个定制技能训练数据集的组合和所述定制训练数据集两者来训练所述定制技能解析器。
6.根据权利要求4所述的方法,所述方法还包括:
从所述第一NL输入生成片段,其中所述片段包括主要片段和一个或更多个非主要片段;
从所述片段生成多个重述;以及
基于所述片段的从属性交换所述片段以生成交换后的重述。
7.根据权利要求6所述的方法,所述方法还包括:
基于输入语言模型对所述多个重述和所述交换后的重述进行排名。
8.根据权利要求6所述的方法,其中,生成所述片段包括:
使用所述第一NL输入和解析器生成解析树;
识别所述第一NL输入的各部分之间的从属关系;
识别所述第一NL输入的细节,其中,所述细节包括至少一个动词、宾语和一个或更多个附加状语;
基于所述至少一个动词和所述宾语生成所述主要片段;以及
基于所述一个或更多个附加状语生成所述多个重述。
9.一种智能协助的方法,所述方法包括:
为自然语言(NL)输入生成一个或更多个片段;
从所述一个或更多个片段中识别主要片段;
基于所述主要片段与所述一个或更多个片段中的一个非主要片段的连接而生成第一替换短语;以及
提供至少包括所述第一替换短语的输出。
10.根据权利要求9所述的方法,所述方法还包括:
基于所述一个或更多个片段的从属性来交换所述一个或更多个片段以生成交换后的重述。
11.根据权利要求9所述的方法,所述方法还包括:
基于所述NL输入的语义生成动作术语的第二替换短语,其中所述NL输入的语义是基于语言模型的。
12.根据权利要求9所述的方法,其中,生成所述一个或更多个片段包括:
使用所述NL输入和解析器生成解析树;
识别所述NL输入的各部分之间的从属关系;以及
识别所述NL输入的细节,其中,所述细节包括至少一个动词、宾语和一个或更多个附加状语。
13.一种操作电子装置的方法,所述方法包括:
基于第一技能检测包括无法解析的第一字的第一话语;
检测包括第二字而不是所述第一字的第二话语;
通过基于所第一技能解析所述第二话语来识别与所述第二话语相对应的意图;
将所述第一话语连同所述意图添加到与所述第一技能相关联的训练数据中;以及
使用所述训练数据来训练所述第一技能。
14.根据权利要求13所述的方法,所述方法还包括:
将所述第一字迁移学习到第二技能;
检测包括所述第一字的第三话语;以及
通过基于所述第二技能解析第三话语来识别与所述第三话语相对应的意图;以及
根据与所述第三话语相对应的意图执行至少一个操作。
15.根据权利要求13所述的方法,其中,解析所述第三话语包括:
将所述第三话语中的所述第一字解释为所述第二字的含义,或者
用所述第二字替换所述第三话语中的所述第一字。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/986,633 US11314940B2 (en) | 2018-05-22 | 2018-05-22 | Cross domain personalized vocabulary learning in intelligent assistants |
US15/986,633 | 2018-05-22 | ||
PCT/KR2019/002406 WO2019225837A1 (en) | 2018-05-22 | 2019-02-28 | Method for learning cross domain personalized vocabulary and electronic device thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111989685A true CN111989685A (zh) | 2020-11-24 |
CN111989685B CN111989685B (zh) | 2024-10-22 |
Family
ID=
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130311166A1 (en) * | 2012-05-15 | 2013-11-21 | Andre Yanpolsky | Domain-Specific Natural-Language Processing Engine |
CN105027197A (zh) * | 2013-03-15 | 2015-11-04 | 苹果公司 | 训练至少部分语音命令系统 |
CN106575293A (zh) * | 2014-08-22 | 2017-04-19 | 微软技术许可有限责任公司 | 孤立话语检测系统和方法 |
CN107016012A (zh) * | 2015-09-11 | 2017-08-04 | 谷歌公司 | 处理在处理自然语言查询中的故障 |
US20180033435A1 (en) * | 2014-09-15 | 2018-02-01 | Desprez, Llc | Natural language user interface for computer-aided design systems |
WO2018071594A1 (en) * | 2016-10-11 | 2018-04-19 | Talla, Inc. | Systems, apparatus, and methods for platform-agnostic message processing |
WO2018081833A1 (en) * | 2016-10-31 | 2018-05-03 | Talla, Inc. | State machine methods and apparatus executing natural language communications, and al agents monitoring status and triggering transitions |
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130311166A1 (en) * | 2012-05-15 | 2013-11-21 | Andre Yanpolsky | Domain-Specific Natural-Language Processing Engine |
CN105027197A (zh) * | 2013-03-15 | 2015-11-04 | 苹果公司 | 训练至少部分语音命令系统 |
CN106575293A (zh) * | 2014-08-22 | 2017-04-19 | 微软技术许可有限责任公司 | 孤立话语检测系统和方法 |
US20180033435A1 (en) * | 2014-09-15 | 2018-02-01 | Desprez, Llc | Natural language user interface for computer-aided design systems |
CN107016012A (zh) * | 2015-09-11 | 2017-08-04 | 谷歌公司 | 处理在处理自然语言查询中的故障 |
WO2018071594A1 (en) * | 2016-10-11 | 2018-04-19 | Talla, Inc. | Systems, apparatus, and methods for platform-agnostic message processing |
WO2018081833A1 (en) * | 2016-10-31 | 2018-05-03 | Talla, Inc. | State machine methods and apparatus executing natural language communications, and al agents monitoring status and triggering transitions |
Also Published As
Publication number | Publication date |
---|---|
EP3721361A1 (en) | 2020-10-14 |
WO2019225837A1 (en) | 2019-11-28 |
US11314940B2 (en) | 2022-04-26 |
US20190361978A1 (en) | 2019-11-28 |
EP3721361A4 (en) | 2020-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11314940B2 (en) | Cross domain personalized vocabulary learning in intelligent assistants | |
US10978052B2 (en) | Email-like user interface for training natural language systems | |
US11182565B2 (en) | Method to learn personalized intents | |
JP2022547631A (ja) | 自然言語処理のためのストップワードデータ拡張 | |
JP2023520416A (ja) | ドメイン外(ood)検出のための改良された技術 | |
US9747279B2 (en) | Context carryover in language understanding systems or methods | |
US11468881B2 (en) | Method and system for semantic intelligent task learning and adaptive execution | |
CN110334347A (zh) | 基于自然语言识别的信息处理方法、相关设备及存储介质 | |
US10929606B2 (en) | Method for follow-up expression for intelligent assistance | |
US20210407495A1 (en) | Method, apparatus, electronic device and storage medium for semantic recognition | |
US20230186161A1 (en) | Data manufacturing frameworks for synthesizing synthetic training data to facilitate training a natural language to logical form model | |
JP2023519713A (ja) | 自然言語処理のためのノイズデータ拡張 | |
US20180061393A1 (en) | Systems and methods for artifical intelligence voice evolution | |
KR102464120B1 (ko) | 사용자 발화를 처리하는 전자 장치 | |
US20230100508A1 (en) | Fusion of word embeddings and word scores for text classification | |
KR20240113524A (ko) | Api 콜 호출 및 구두 응답의 언어 모델 예측 | |
US20220327288A1 (en) | Semantic Parsing of Utterance Using Contractive Paraphrasing | |
US11341965B2 (en) | System for processing user utterance and operating method thereof | |
KR102685417B1 (ko) | 사용자 입력을 처리하는 전자 장치 및 방법 | |
CN111989685B (zh) | 跨域个性化词汇的学习方法及其电子装置 | |
US20240028963A1 (en) | Methods and systems for augmentation and feature cache | |
US20240119238A1 (en) | Systems and methods for determining semantic points in human-to-human conversations | |
WO2016176234A1 (en) | Context carryover in language understanding systems or methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |