CN111742311A - 智能助理方法 - Google Patents
智能助理方法 Download PDFInfo
- Publication number
- CN111742311A CN111742311A CN201980014127.XA CN201980014127A CN111742311A CN 111742311 A CN111742311 A CN 111742311A CN 201980014127 A CN201980014127 A CN 201980014127A CN 111742311 A CN111742311 A CN 111742311A
- Authority
- CN
- China
- Prior art keywords
- input
- words
- language model
- word
- electronic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000003780 insertion Methods 0.000 claims abstract description 69
- 230000037431 insertion Effects 0.000 claims abstract description 69
- 230000014509 gene expression Effects 0.000 claims abstract description 46
- 230000001502 supplementing effect Effects 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 54
- 230000015654 memory Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 10
- 230000006854 communication Effects 0.000 description 80
- 238000004891 communication Methods 0.000 description 80
- 235000013550 pizza Nutrition 0.000 description 32
- 238000010586 diagram Methods 0.000 description 21
- 238000004590 computer program Methods 0.000 description 15
- 235000013351 cheese Nutrition 0.000 description 12
- 235000013580 sausages Nutrition 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 241000287828 Gallus gallus Species 0.000 description 5
- 238000013459 approach Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 240000008415 Lactuca sativa Species 0.000 description 3
- 238000011143 downstream manufacturing Methods 0.000 description 3
- 235000012045 salad Nutrition 0.000 description 3
- 241000283707 Capra Species 0.000 description 2
- 235000008429 bread Nutrition 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 235000012046 side dish Nutrition 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011093 media selection Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/274—Converting codes to words; Guess-ahead of partial word inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
一种用于智能助理的方法,包括在包含用于提供附加信息的文本的输入内识别一个或多个插入点。生成包括至少一部分输入和在一个或多个插入点处的附加信息的后续表达,用于明确或补充输入的含义。
Description
技术领域
一个或多个实施例一般涉及虚拟助理,并且具体地涉及生成用于智能助理的后续表达。
背景技术
客户使用基于语音的个人助理,诸如 和来回答问题、解决问题、执行任务以节省时间、精力,并使他们的生活更方便。用户与这些个人助理的交互通常需要一些来回沟通,因为大多数用户不会在单个语句中指定每个相关的细节。
附图说明
为了更全面地理解实施例的性质和优点以及优选的使用方式,应参考结合附图阅读的以下详细描述,其中:
图1示出了根据一些实施例的通信系统的示意图;
图2示出了根据一些实施例的包括电子设备的系统的架构的框图,该电子设备包括智能助理应用;
图3示出了根据一些实施例的识别插入点和量的示例;
图4示出了根据一些实施例的生成针对规范的单词的示例;
图5示出了根据一些实施例的使用细节询问后续问题的示例;
图6示出了根据一些实施例的用于生成具有附加细节的功能相似但语义不同的释义的过程的框图;
图7示出了根据一些实施例的用于识别插入点并确定插入量的过程的框图;
图8示出了根据一些实施例的用于在表达中的特定位置处生成指定数量的单词的过程的框图;
图9示出了根据一些实施例的用于生成明确的后续问题的过程的框图;以及
图10是示出包括实现一个或多个实施例的计算系统的信息处理系统的高级框图。
具体实施方式
一个或多个实施例一般涉及识别表达的插入点以提供用于生成用于智能助理的后续表达的附加信息。在一个实施例中,一种用于智能助理的方法包括识别包含文本的输入内的一个或多个插入点用于提供附加信息。生成包括至少一部分输入和在一个或多个插入点处的附加信息的后续表达,用于明确或补充输入的含义。
在另一个实施例中,一种电子设备包括存储指令的存储器。至少一个处理器执行包括处理的指令,所述处理被配置为识别包含文本的输入内的一个或多个插入点用于提供附加信息,并生成包括至少一部分输入和在一个或多个插入点处的附加信息的后续表达,用于明确或补充输入的含义。
在一个实施例中,一种包括程序的非暂时性处理器可读介质,该程序在由处理器执行时执行一种方法,该方法包括识别包含文本的输入内的一个或多个插入点用于提供附加信息。生成包括至少一部分输入和在一个或多个插入点处的附加信息的后续表达,用于明确或补充输入的含义。
根据以下详细描述,一个或多个实施例的这些和其他方面以及优点将变得显而易见,当结合附图时,该详细描述以示例的方式示出了一个或多个实施例的原理。
进行以下描述是为了说明一个或多个实施例的一般原理,并不意味着限制本文所要求的发明构思。此外,在此描述的特定特征可以在各种可能的组合和排列的每一个中与其他描述的特征结合使用。除非本文另有明确定义,否则应给所有术语最广泛的解释,包括从说明书中隐含的含义以及本领域技术人员所理解的含义和/或如字典、专著等所定义的。
应当注意的是,术语“至少一个”是指随后的要素中的一个或多个。例如,“a、b、c或其组合中的至少一个”可以分别解释为单独地“a”、“b”或“c”;或“a”和“b”组合在一起,或“b”和“c”组合在一起;“a”和“c”组合在一起;或“a”、“b”和“c”组合在一起。
一个或多个实施例提供了识别表达的插入点以提供用于生成用于智能助理的后续表达的附加信息。一些实施例包括一种用于智能助理的方法,该方法包括识别包含文本的输入内的一个或多个插入点用于提供附加信息。生成包括至少一部分输入和在一个或多个插入点处的附加信息的后续表达,用于明确或补充输入的含义。
传统的个人助理需要先进的自然语言理解和对话管理技术,以与用户互动,理解并实现其意图。这些传统的个人助理不能很好地推广到大量的意图或广泛的感兴趣领域。构建个人助理的传统方法是构建一个核心引擎,该核心引擎利用元数据扩展输入语言用于由一组意图特定的服务提供者进行下游处理。这称为基于技能应用编程接口(API)的方法。在基于技能API的方法中,核心自然语言理解(NLU)引擎使用元数据扩展输入语言,以供一组意图特定的服务提供者进行下游处理。这些服务提供者中的每一个都必须实施下游处理以处理意图的细节,并决定要提出的问题或要执行的操作。意图服务提供者倾向于采用“插槽填充(Slot Filling)”方法。在插槽填充方法中,每个意图服务提供者创建用户应该为每个意图提供的一组预定义属性(“插槽”)。服务提供者为每个属性编写一个问题模板,旨在向用户询问该属性,在该问题模板中可以引用现有属性的值。具有有限状态机或列表处理系统或其他类似技术的对话管理器用于选择并提出这些问题之一,直到提供所有属性的值为止。例如,披萨递送服务很可能会定义要递送到的地点的属性、披萨的尺寸以及披萨的馅料。
为了便于理解传统方法,假设示例输入为“购买香肠披萨”。意图分类器将选择披萨递送意图,并在香肠上标记一个披萨馅料的标签。然后,对话管理器将为披萨馅料插槽记录该值,检查其未填充插槽列表,然后选择要填充的下一个插槽。它可能会接着选择“尺寸”插槽,如果这样做了,那么它将决定询问针对该插槽的相关联的问题“您想要什么尺寸的披萨?”该过程将继续进行其余的插槽,直到准备好下订单为止。
这种传统的对话管理方法存在三个问题。首先,它只能针对预定义的属性提问预定义的后续问题。如果没有模板,则没有要遵循的脚本,因此也没有后续问题。如果模板是在没有插槽的情况下制作的,那么就不会有关于该插槽的任何后续问题。这种传统的对话管理方法不适用于一般情况或任何意外情况。例如,“递送香肠披萨和可乐”。插槽填充方法将不会:发现针对副菜的插槽,然后将可乐放入其中,或者询问您是否想要带有面包棒副菜的订单。插槽填充方法可能会引起混淆,并且:将句子发送给错误的意图服务提供者,或者将可乐放在披萨上。插槽填充方法可能只是不要求您的披萨有可乐。都是因为编写披萨递送服务的计算机程序员忘记了,或者根本不知道这种情况。对于普通程序员不使用或不熟悉的服务,此问题将更为明显。
其次,传统的对话管理方法缺乏对插槽值进行排名和在后续问题中建议最合适的选择的能力。第三,为每种意图/服务定义所有属性并写出训练系统所需的所有输入示例以识别用户意图并用插槽类型标记插槽值,需要花费大量的精力。这是一个严重的问题,因为在同一个域中添加新的意图,或在意图中添加新的插槽类型,或者甚至仅更改意图中的几个示例,都不是安全的操作,因为它可以更改系统识别要选择的意图以及要标记的插槽类型的方式。在操作之前,必须再次测试所有内容。这是一个主要的失败,因为可能存在无限量的意图,并且每个意图都可以在不同的细节级别进行处理。当示例量很大并且这些示例覆盖每个有效排列中的每个相关插槽时,通常更容易识别意图。所需示例的量随着系统中技能、插槽类型和插槽值的量以及意图的结构语言相似性和共享词汇量而增加。
对于传统的个人助理,对于任何有价值的服务,通常都有多个提供者,并且只能选择一个。当让第三方服务提供者自己实现意图时,这会降低个人助理的开发成本,但是具有更多示例话语且具有更多相关属性示例的竞争性服务提供者往往会击败那些不愿采取这种步骤的竞争对手。当有多个相互竞争的个人助理时,相同的因素仍在起作用,但级别更高。
在一些实施例中,系统不仅可以提问关于未指定的插槽的后续问题,而且可以发现示例中最初并未出于该目的而被使用的插槽,发现新插槽的插槽值,甚至将那些插槽值处理入原始输入,或使用其发现的插槽值作为可能建议的选择来提问有关该插槽的问题。在一个示例实施例中,系统可以用“您是否要我递送带有面包棒和可乐的香肠披萨?”来响应“递送香肠披萨和可乐”,因为它确定附加信息(例如,面包棒)通常位于披萨和可乐之间。
一个或多个实施例提供了具有更强大的核心引擎和更有用的技能的个人助理,从而为客户提供了更多价值。根据一些实施例,个人助理可以选择正确的技能/意图以提供更多量的技能。一些实施例减轻了加诸于技能开发人员身上的繁琐负担,并增加了他们的生产量,并吸引了更多开发人员,从而导致了更强大的个人助理。在一个或多个实施例中,个人助理的核心引擎比传统的个人助理更具有能力、灵活性和通用性。一些实施例减轻了技能开发中最繁琐的负担,并且提高了核心NLU引擎选择正确技能的能力。
一些实施例确定了可以在自然语言表达中插入附加相关细节的位置,而无需改变表达的意图并且仅对表达的含义进行最小的改变。可以使用增加原始表达含义的单词或短语来生成自然语言表达的替代版本。这包括添加相关详细信息,指定(未声明的)选项以及添加约束。原始表达和替代表达两者都唤起了相同类型的意图,但是含义不同。
一个或多个实施例生成后续问题,旨在通过提问诸如相关细节、指定未表达的选项或约束的附加信息来明确表达的含义。生成自然语言表达的替代版本,尤其是上述类型,用于训练标记表达中的插槽或确定表达的意图的系统。一些实施例生成附加细节并将它们插入句子中,而不会打扰表达的可读性、流程和一般意图。传统系统可能会从插入点生成自由流动的文本,该插入点通常与表达的其余部分相切,而不会生成链接回表达其余部分的文本;它们生成下一个最可能的文本。这引起了几个问题。可以生成在表达中实际的下一个单词以进行插入,导致不添加信息的不流利重复。此外,如果表达的下一部分与最可能的主题无关,则文本将不会明智地链接回表达的其余部分。
一些实施例识别插入点并确定要插入的量,并在表达中的特定位置处生成指定数量的单词。这两种技术都是具有独特能力的特征,这些能力支持自然语言接口到个人助理的其他部分。一个或多个实施例针对依赖于系统的自然语言接口到个人助理生成明确的后续问题,用于识别插入点,并确定插入量,因为需要识别附加细节通常位于的位置(丢失)并确定添加多少附加细节。一些实施例可以用于识别后续问题何时将是合适的,并且在表达中的特定位置处生成指定数量的单词,然后可以提供后续问题的新细节。
图1是根据一个实施例的通信系统10的示意图。通信系统10可以包括发起传出通信操作的通信设备(发送设备12)和通信网络110,发送设备12可以使用该通信网络110来发起和进行与通信网络110内的其他通信设备的通信操作。例如,通信系统10可以包括从发送设备12接收通信操作的通信设备(接收设备11)。尽管通信系统10可以包括多个发送设备12和接收设备11,但是在图1中仅示出了每个中的一个以简化绘图。
可操作以创建通信网络的任何合适的电路、设备、系统或这些的组合(例如,包括通信塔和电信服务器的无线通信基础设施)可用于创建通信网络110。通信网络110能够使用任何合适的通信协议提供通信。在一些实施例中,通信网络110可以支持例如传统电话线、有线电视、Wi-Fi(例如,IEEE 802.11协议)、高频系统(例如,900MHz、2.4GHz和5.6GHz)通信系统、红外、其他相对本地化的无线通信协议或它们的任意组合。在一些实施例中,通信网络110可以支持由无线和蜂窝电话以及个人电子邮件设备(例如)使用的协议。这样的协议可以包括例如GSM、GSM加EDGE、CDMA、四频和其他蜂窝协议。在另一个示例中,远程通信协议可以包括Wi-Fi和用于使用VOIP、LAN、WAN或其他基于TCP-IP的通信协议来发出或接收呼叫的协议。当位于通信网络110内时,发送设备12和接收设备11可以在诸如路径13的双向通信路径上或者在两个单向通信路径上进行通信。发送设备12和接收设备11两者都能够发起通信操作并接收发起的通信操作。
发送设备12和接收设备11可以包括用于发送和接收通信操作的任何合适的设备。例如,发送设备12和接收设备11可以包括但不限于移动电话设备、电视系统、相机、便携式摄像机、具有音频视频功能的设备、平板电脑、可穿戴设备、智能设备、智能相框和任何其他能够进行无线通信(借助或不借助无线使能的附件系统)或经由有线路径(例如,使用传统电话线)进行通信的设备。通信操作可以包括任何适当形式的通信,包括例如数据和控制信息、语音通信(例如电话呼叫)、数据通信(例如电子邮件、文本消息、媒体消息)、视频通信或这些的组合(例如,视频会议)。
图2示出了架构系统100的功能框图,该架构系统100可以用于个人助理以提问相关的后续问题并大幅度减少诸如的个人助理的开发时间和成本,同时使用电子设备120(例如,移动电话设备、电视(TV)系统、相机、便携式摄像机、具有音频视频功能的设备、平板电脑、平板设备、可穿戴设备、智能设备、智能相框、智能照明等)增加自然语言意图理解能力的广度和准确性。发送设备12(图1)和接收设备11两者都可以包括电子设备120的一些或全部特征。在一个实施例中,电子设备120可以包含显示器121、麦克风122、音频输出123、输入机制124、通信电路125、控制电路126、相机128、智能助理应用129(用于生成功能相似但语义上不同的释义,并附带附加细节,识别插入点并确定要插入的量,生成表达中特定位置处指定数量的单词,提问明确的后续问题并与通信电路125通信以与云或服务器130获取/提供其信息;并且可以包括但不限于以下所述的示例)以及任何其他合适的组件。在一个实施例中,应用1-N 127被提供,并且可以从云或服务器130、通信网络110等获得,其中N是等于或大于1的正整数。
在一个实施例中,音频输出123、显示器121、输入机制124、通信电路125和麦克风122所采用的所有应用可以由控制电路126互连和管理。在一个示例中,一种能够将音乐传输到其他调谐设备的手持音乐播放器可以合并到电子设备120中。
在一个实施例中,音频输出123可以包括用于向电子设备120的用户提供音频的任何合适的音频组件。例如,音频输出123可以包括内置在电子设备120中的一个或多个扬声器(例如,单声道或立体声扬声器)。在一些实施例中,音频输出123可以包括远程耦合到电子设备120的音频组件。例如,音频输出123可以包括可以利用有线(例如,利用插孔耦合到电子设备120)或无线(例如,耳机或耳麦)耦合到通信设备的耳麦、头戴式耳机或耳塞。
在一个实施例中,显示器121可以包括用于提供用户可见的显示器的任何合适的屏幕或投影系统。例如,显示器121可以包括结合在电子设备120中的屏幕(例如,LCD屏幕、LED屏幕、OLED屏幕等)。作为另一个示例,显示器121可以包括用于在远离电子设备120(例如,视频投影仪)的表面上提供内容的显示的可移动显示器或投影系统。显示器121可以在控制电路126的指导下显示内容(例如,关于通信操作的信息或关于可用媒体选择的信息)。
在一个实施例中,输入机制124可以是用于向电子设备120提供用户输入或指令的任何合适的机构或用户接口。输入机制124可以采用多种形式,诸如按钮、小键盘、拨盘、点击轮、鼠标、视觉指示器、遥控器、一个或多个传感器(例如,相机或视觉传感器、光传感器、接近传感器等)或触摸屏。输入机制124可以包括多触摸屏。
在一个实施例中,通信电路125可以是可操作以连接到通信网络(例如,图1的通信网络110)并将通信操作和媒体从电子设备120传输到通信网络内的其他设备的任何合适的通信电路。通信电路125可以用于使用任何合适的通信协议,诸如例如Wi-Fi(例如,IEEE802.11协议)、高频系统(例如,900MHz、2.4GHz和5.6GHz通信系统)、红外、GSM、GSM加EDGE、CDMA、四频和其他蜂窝协议、VOIP、TCP-IP或任何其他合适的协议。
在一些实施例中,通信电路125可以操作性为使用任何合适的通信协议来创建通信网络。例如,通信电路125可以使用短距离通信协议来创建短距离通信网络以连接到其他通信设备。例如,通信电路125可以操作为使用协议创建本地通信网络,以将电子设备120与耳麦耦合。
在一个实施例中,控制电路126可以操作以控制电子设备120的操作和性能。控制电路126可以包括例如处理器、总线(例如,用于向电子设备120的其他组件发送指令)、存储器、储存器或用于控制电子设备120的操作的任何其他合适的组件。在一些实施例中,处理器可以驱动显示器并处理从用户接口接收的输入。存储器和储存器可以包括例如高速缓存、闪存、ROM和/或RAM/DRAM。在一些实施例中,存储器可以专用于存储固件(例如,用于诸如操作系统、用户接口功能和处理器功能的设备应用)。在一些实施例中,存储器可以用于存储与电子设备120与其执行通信操作的其他设备有关的信息(例如,保存与通信操作有关的联系信息或存储与由用户选择的不同媒体类型和媒体项目有关的信息)。
在一个实施例中,控制电路126可以用于执行在电子设备120上实现的一个或多个应用的操作。可以实现任何合适量或类型的应用。尽管下面的讨论将列举不同的应用,但是应该理解,一些或所有应用可以组合成一个或多个应用。例如,电子设备120可以包括应用1-N 127,包括但不限于:自动语音识别(ASR)应用、OCR应用、对话应用、地图应用、媒体应用(例如,QuickTime、MobileMusic.app或MobileVideo.app)、社交网络应用(例如等)、日历应用(例如,用于管理事件、约会等的日历)、Internet浏览应用等。在一些实施例中,电子设备120可以包括一个或多个可操作以执行通信操作的应用。例如,电子设备120可以包括消息传递应用、电子邮件应用、语音邮件应用、即时消息传递应用(例如,用于聊天)、视频会议应用、传真应用或用于执行任何适当的通信操作的任何其他适当应用。
在一些实施例中,电子设备120可以包括麦克风122。例如,电子设备120可以包括麦克风122以允许用户在通信操作期间发送音频(例如,语音音频)用于语音控制和应用1-N127的导航,或作为建立通信操作的手段,或作为使用物理用户接口的替代方法。麦克风122可以结合在电子设备120中,或者可以远程耦合到电子设备120。例如,麦克风122可以结合在有线耳机中,麦克风122可以结合在无线耳机中,麦克风122可以并入遥控器等。
在一个实施例中,相机模块128包括一个或多个相机设备,该相机设备包括用于捕获静止和视频图像的功能、编辑功能、用于发送、共享等照片/视频的通信互操作性等。
在一个实施例中,电子设备120可以包括适合于执行通信操作的任何其他组件。例如,电子设备120可以包括用于耦合到主机设备的电源、端口或接口,辅助输入机制(例如,ON/OFF开关)或任何其他合适的组件。
图3示出了根据一些实施例的识别插入点和量(插入量)的示例300。在示例300中,使用“给我买香肠披萨(buy me a sausage pizza)”的表达,并且包括插入点310、320和330。在一些实施例中,话语被说出,由麦克风(例如,图1的麦克风122)捕获并转换为文本(例如,使用通过电子设备120、云/服务器130或其组合的语音到文本的识别处理)。在其他实施例中,输入是文本表达。在一些实施例中,对于表达中的每个顺序的单词对,由通过云或服务器130、使用电子设备120的处理器和存储器的智能助理129或它们的组合的处理来确定基本得分。基本得分测量在正常使用中顺序对中两个单词按该顺序出现的可能性。在一些实施例中,该处理测量在正常使用中两个单词以该顺序出现,但是彼此相距各种短距离的可能性。该处理还基于距离D上的得分除以基本得分来对插入质量进行计分。如果该比率大于阈值(例如,由人工智能(AI)程序员选择的数字,基于处理速度等选择的数字),则处理将两个单词之间的位置识别为插入点,并设置插入到距离D的量。
在示例300中,对于距离D为1(参考311),“buy”和“me”的对导致buy_me/buy me>1。“a”和“sausage”的对导致a_sausage/sausage>1。“sausage”和“pizza”的对导致sausage_pizza/sausage pizza<1。对于距离D为2(参考312),“buy”和“me”的对导致buy__me/buy me>1。“a”和“sausage”的对导致a__sausage/a sausage>1。“sausage”和“pizza”的对导致sausage__pizza/sausage pizza<1。对于距离D为3(参考313),“buy”和“me”的对导致buy___me/buy me<1。“a”和“sausage”的对导致a___sausage/a sausage>1。“sausage”和“pizza”的对导致sausage___pizza/sausage pizza>1。因此,插入点310可以插入1个或2个单词;插入点320可以插入1、2或3个单词;并且插入点330可以插入3个单词。下面参考图7描述用于识别插入点和量的更多细节。
图4示出了根据一些实施例的生成针对规范的单词的示例400。在示例300(图3)之后,在示例400中,预处理部分包括训练生成语言模型以预测前向概率,以及训练生成语言模型以预测后向概率。表达(例如“给我买香肠披萨”)表示为包括节点的图形。然后,该处理为插入点创建节点,其中,在该插入点处必须生成单词。使用前向和后向模型将节点插入到图中以生成边缘权重。该处理确保路径从起点连接到终点,并继续经过插入点处的指定数量的插入节点。利用来自模型的向前和向后得分对路径进行计分,选择排名最高的X条最佳得分路径,然后返回相关联的单词。在一些实施例中,生成语言模型可以是个性化的。简单的个性化语言模型实施例可以包括:训练由用户创建的个人自然语言数据,诸如他们的电子邮件和其他记录的对话;通过对个人语言数据进行额外的培训迭代来更新现有的语言模型;使用个人和通用模型的集合;混合个人模型和通用模型的模型参数;使用具有个人和通用模型的模型融合等。
在示例400中,对于插入点310,相关联的单词410可以包括以下示例单词(即1个或2个单词):“one get,”“and get,”“it for,”“to get,”“to make,”“they give,”“andgive,”“and,”“make,”“and,”“bring,”和“to bring”。对于插入点320,相关联的单词420可以包括示例单词(即1个单词):“免费(free)”、“火鸡(turkey)”、“鸡肉(chicken)”、“新(new)”、“小(small)”、“美味(delicious)”、“小(little)”、“大(large)”和“意大利的”(Italian);相关联的单词421可以包括单词(即2个单词):“切片(slice of)”、“一块(pieceof)”、“鸡肉和(chicken and)”、“奶酪和(cheese and)”、“碗(bowl of)”、“意大利辣味香肠和(pepperoni and)”、“副菜(side of)”、“火鸡和(turkey and)”、“香肠和(sausage and)”和“袋子(bag of)”;相关联的单词422可以包括示例单词(即3个单词):“的切片(slice ofthe)”、“披萨和一个(pizza and a)”、“的样品(sample of the)”、“的一块(piece ofthe)”、“的副菜(side of the)”、“碗的(bowl of the)”、“一口的(bite of the)”、“一袋的(bag of the)”、“三明治和一个(sandwich and a)”和“沙拉和一个(salad and a)”。对于插入点330,相关联的单词430可以包括示例单词(即3个单词):“三明治和一个(sandwichand a)”、“和奶酪(and a cheese)”、“披萨或一个(pizza or a)”、“三明治或一个(sandwich or a)”、“和奶酪和(and cheese and)”、“和山羊奶酪(and goat cheese)”、“和无麸质(and gluten free)”、“沙拉和一个(salad and a)”、“和白色的(and a white)”、“而不是一个(instead of a)”、“蛋和奶酪(egg and cheese)”、“火腿和奶酪(ham andcheese)”、“而不是(instead of the)”和“薄皮(and thin crust)”。下面参考图8描述用于生成针对规范的单词的更多细节。
图5示出了根据一些实施例的使用细节生成后续问题的示例500。在一些实施例中,例如500的处理包括:识别插入点;在表达中的特定位置处生成指定数量的单词(所生成的单词是需要明确的细节);以及利用细节生成明确的问题。在一个或多个实施例中,明确的问题的生成可以包括对生成的细节进行划分以在相似的备选方案(例如,具有术语“或(or)”的单独的备选方案)之间呈现选择;通用模板,例如“您是指X、Y还是Z?(did you meanX,Y or Z?)”;以及通用模板加上下文中的细节:将插入点510周围的单词保留在生成的细节旁边(例如,可以要求确认一个细节或使用“或”表示选择)。划分步骤520的结果,单词521的示例划分可以包括:小(small)、较小(little)和大(large);单词522的划分可以包括火鸡(turkey)、鸡肉(chicken)和意大利的(Italian),其他单词523可以包括:免费(free)、新鲜(new)和美味(delicious)。单词521的划分保持单词521的顺序,其中,将划分(522和523)认为单词521的子集。
在一些实施例中,对于下一步骤530,使用划分单词作为选项来提问细节的问题。将段540中的插入上下文单词进行复制,并在545处插入用于划分的单词。在此示例中,来自群集521的单词(小、较小和大)插入在“A”之后。在550处,在(多个)划分中的单词之间插入单词“或”和逗号。结果是“小、较小或大的香肠披萨(A small,little or large sausagepizza)”。下面参考图9描述用于使用细节来生成后续问题的更多细节。
图6示出了根据一些实施例的用于生成具有附加细节的功能相似但语义不同的释义的过程600的框图。在框610中,将单词标记为内容或非内容单词。在一些实施例中,可以通过运行词性(part-of-speech)标记器过程来识别非内容单词。封闭类单词通常是非内容单词,并且可以通过其词性标签(介词、确定词等)进行识别。所有其他单词均视为内容单词。在框620中,对于所有内容单词,使用在相同上下文中测量两个单词之间的功能相似性的处理来生成候选替换单词的集合。在框630中,对候选单词的潜在组合进行计分,并且使用得分来去除不良组合。在一些实施例中,每个选择的候选的功能相似性得分相乘。阈值用于确定组合得分是否具有足够大以至于可以接受的值。阈值可以被设置为预定水平的功能相似性。备选地,在一些实施例中,使用一组规则来设置阈值以选择对每个候选给定功能相似性得分的值。示例规则可以是将阈值设置为这样的功能相似性得分:其具有来自所有开放类单词的一组最佳建议替代单词中的最差建议功能相似单词。然后,过程600基于框640、650和660,为组合生成附加细节,并将其作为附加短语插入组合中。
在一些实施例中,在框630中为每个组合生成附加细节。在一个实施例中,在原始表达上生成附加细节,并且通过将它们插入框630中生成的组合中的相同插入点中来重复使用。在框640中,识别插入点并确定插入量。在框650中,在表达中的特定位置处生成指定数量的单词。在框660中,将所生成的单词插入在框640中识别的插入点处。
图7示出了根据一些实施例的用于识别插入点并确定插入量的过程700的框图。在一些实施例中,对于表达中的每个顺序的单词对(例如,在表达被说出的情况下,由麦克风(例如,图1的麦克风122)捕获并转换为文本(例如,使用通过电子设备120、云/服务器130或其组合进行的语音到文本识别处理):在框710中,过程700测量两个单词在正常使用中以该顺序出现的可能性。这是基本得分。在一些实施例中,使用在统计语言模型中存储的概率来测量正常使用。在一或多个实施例中,过程700使用原始语料库n元语法(n-gram)计数。在框720中,过程700测量两个单词在正常使用中以该顺序出现,但是彼此相距各种短距离的可能性。在一些实施例中,过程700测量一对单词之间何时存在1、2或3个单词。这些得分是距离为D的得分,其中D是该对单词之间的单词数。在框730中,过程700得分插入质量=距离为D得分/基本得分。在框740中,如果该比率大于阈值,则将两个单词之间的位置识别为插入点,并且将插入量设置为距离D。
图8示出了根据一些实施例的用于在表达中的特定位置处生成指定数量的单词的过程800的框图。给定表达(例如,在表达被说出的情况,由麦克风(例如,图1的麦克风122)捕获并转换为文本(例如,使用通过电子设备120、云/服务器130或其组合的语音到文本识别处理)),以及在特定位置生成特定数量单词的要求,过程800产生一组可插入相应位置的单词。在一些实施例中,表达可以是文本表达。在此,“X”用于代表期望生成的单词的唯一集合的数量。在框810中,过程800训练生成语言模型以在给定先前单词的情况下预测下一单词的概率。框810中的处理称为前向模型。在一些实施例中,转发模型是n元语法模型。在一个或多个实施例中,前向模型是具有长短期存储器块的递归神经网络(RNN)。在框820中,过程800训练生成语言模型以在给定后续单词的情况下预测先前单词的概率。框820中的处理称为后向模型。在一些实施例中,后向模型是n元语法模型。在一个或多个实施例中,后向模型是具有长短期存储器块的RNN。在框830中,过程800将表达表示为图。在一些实施例中,开始和停止节点被添加在表达的前面和后面,并且每个单词都通过一条边缘链接到其后继。在框840中,过程800为必须生成的每个单词创建节点。在框850中,过程800将来自框840的节点放置在图中的指定插入点处。在一些实施例中,前向和后向模型用于生成和计分将这些附加节点链接到图形的边缘权重。节点应该被插入,以便从开始到结束存在路径,其中每条路径穿过的节点数量等于该插入点处指定单词的数量。单词与每个边缘相关联。在一些实施例中,在框860中,利用生成模型生成该单词的概率被用作边缘上的权重,该权重用于对路径进行计分。一些实施例将来自前向模型和后向模型两者的得分组合用于边缘得分。一个或多个实施例将这些得分利用加法进行组合,而一些实施例将得分利用乘法进行结合。一个或多个实施例对插入的前半部分中的边缘使用前向得分,对插入的后半部分中的边缘使用后向得分。在一些实施例中,使用粒子滤波技术来仅维护将在框860中选择的节点和边缘的子集。在框860中,过程800利用来自模型的前向和后向得分对路径进行计分,并选择前X个最佳得分路径。返回相关联的单词以进行插入。在一些实施例中,动态编程被用来选择最佳路径。在一个或多个实施例中,粒子滤波技术用于确定最佳路径。
图9示出了根据一些实施例的用于生成明确的后续问题的过程900的框图。在框910中,过程900使用过程700(图7)来识别插入点并确定要插入的量。在框920中,过程900使用过程800(图8)在表达中的特定位置处生成指定数量的单词。这些是需要明确的细节。在框930中,过程900制定一个明确问题,提问打算使用哪一个细节。在一些实施例中,可以使用通用模板,其中将附加细节插入通用问题中,诸如“您是指X、Y还是Z?(Did you mean X,Y,or Z?)”。在一个或多个实施例中,模板中插入点周围的文本用于提供上下文。可以选择围绕插入点的固定数量的单词,可以选择整个句子(加上插入),或者可以基于解析器输出利用规则来选择句子的小节。在一些实施例中,使用句子的小节。小节的结尾是句子的结尾,或者是从插入点开始第一个遇到的封闭类单词(非包含的)。小节的开头是从插入点(包含的)来时最后遇到的封闭类单词。
图10是示出包含实现一个或多个实施例的计算系统的信息处理系统的高级框图。系统1000包括一个或多个处理器1011(例如,ASIC、CPU等),并且可以进一步包括电子显示器设备1012(用于显示图形、文本和其他数据)、主存储器1013(例如,随机访问存储器(RAM)、高速缓存设备等)、存储设备1014(例如硬盘驱动器)、可移动存储设备1015(例如可移动存储驱动器、可移动存储器、磁带驱动器、光盘驱动器、已在其中存储计算机软件和/或数据的计算机可读介质)、用户接口设备1016(例如键盘、触摸屏、小键盘、定点设备)和通信接口1017(例如调制解调器、无线收发器(诸如Wi-Fi、蜂窝网络)、网络接口(例如以太网卡)、通信端口或PCMCIA插槽和卡)。
通信接口1017允许软件和数据通过因特网(Internet)1050、移动电子设备1051、服务器1052、网络1053等在计算机系统和外部设备之间传输。系统1000还包括上述设备1011到1017连接到的通信基础结构1018(例如,通信总线、交叉开关或网络)。
经由通信接口1017传送的信息可以是信号的形式,诸如电子、电磁、光或能够由通信接口1017经由承载信号的通信链路接收的其他信号,并且可以使用电线或电缆、光纤、电话线、蜂窝电话链路、射频(RF)链路和/或其他通信信道来实现。
在移动无线设备(例如,移动电话、平板电脑、可穿戴设备等)中的一个或多个实施例的一种实现中,系统1000还包括图像捕获设备1020,诸如相机128(图2),以及音频捕获设备1019,诸如麦克风122(图2)。系统1000可以进一步包括应用处理或处理器,如MMS 1021、SMS 1022、电子邮件1023、社交网络接口(SNI)1024、音频/视频(AV)播放器1025、网络浏览器1026、图像捕获1027等。
在一个实施例中,系统1000包括智能代理处理1030、该智能代理处理1030可以实现与关于智能助理应用129(图2)的处理所述的处理类似的处理,以及如上所述的过程600(图6)、过程700(图7)、过程800(图8)和过程900(图9)的处理。在一个实施例中,智能代理处理1030连同操作系统1029可以被实现为驻留在系统1000的存储器中的可执行代码。在另一实施例中,智能代理处理1030可以以硬件、固件等来提供。
在一个实施例中,主存储器1003、存储设备1004和可移动存储设备1005各自单独地或以任何组合的形式,可以存储可以由一个或多个处理器1001执行的上述实施例的指令。
如本领域技术人员所知,根据上述架构,上述的前述示例架构可以以多种方式实现,诸如由处理器执行的程序指令、作为软件模块、微代码、作为计算机可读介质上的计算机程序产品、作为模拟/逻辑电路、作为专用集成电路、作为固件、作为消费电子设备、AV设备、无线/有线发送单元、无线/有线接收单元、网络、多媒体设备等。此外,所述架构的实施例可以采取完全硬件实施例、完全软件实施例或包含硬件和软件元件两者的实施例的形式。
已经参考根据一个或多个实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了一个或多个实施例。可以通过计算机程序指令来实现这样的图示/图表的每个框或其组合。当计算机程序指令被提供给处理器时,该机器程序产生机器,使得经由处理器执行的指令创建用于实现流程图和/或框图中指定的功能/操作的装置。流程图/框图中的每个框可以表示实现一个或多个实施例的硬件和/或软件模块或逻辑。在替代实施方式中,框中指出的功能可以不按图中指出的顺序发生、并发等。
术语“计算机程序介质”、“计算机可用介质”、“计算机可读介质”和“计算机程序产品”通常用于指代诸如主存储器、辅助存储器、可移动存储驱动器、在硬盘驱动器上已安装的硬盘的介质。这些计算机程序产品是用于向计算机系统提供软件的装置。该计算机可读介质允许计算机系统从该计算机可读介质读取数据、指令、消息或消息包以及其他计算机可读信息。例如,计算机可读介质可以包括非易失性存储器,诸如软盘、ROM、闪存、磁盘驱动器存储器、CD-ROM和其他永久性存储器。例如,对于在计算机系统之间传输信息(例如数据和计算机指令)很有用。可以将计算机程序指令存储在计算机可读介质中,该计算机可读介质可以指导计算机、其他可编程数据处理装置或其他设备以特定方式运行,使得存储在计算机可读介质中的指令生成包括指令的制品,所述指令实现流程图和/或框图中指定的功能/动作。
可以将表示本文的框图和/或流程图的计算机程序指令加载到计算机、可编程数据处理装置或处理设备上,以使在其上执行的一系列操作生成计算机实现的过程。计算机程序(即计算机控制逻辑)存储在主存储器和/或辅助存储器中。也可以经由通信接口来接收计算机程序。这样的计算机程序在被执行时使计算机系统能够执行本文所讨论的实施例的特征。具体地,计算机程序在被执行时使处理器和/或多核处理器能够执行计算机系统的特征。这样的计算机程序代表计算机系统的控制器。一种计算机程序产品,包含有形存储介质,该有形存储介质可被计算机系统读取,并存储由计算机系统执行以执行一个或多个实施例的方法的指令。
尽管已经参考某些实施例版本描述了实施例;然而,其他版本也是可能的。因此,所附权利要求书的精神和范围不应限于这里包含的优选版本的描述。
Claims (15)
1.一种智能助理的方法,包括:
在包含用于提供附加信息的文本的输入内识别一个或多个插入点;以及
生成包括至少一部分输入和在一个或多个插入点处的附加信息的后续表达,用于明确或补充输入的含义。
2.根据权利要求1所述的方法,其中,识别所述输入内的所述一个或多个插入点是基于自然语言模型的。
3.根据权利要求2所述的方法,其中,所述附加信息被确定为与所述输入的意图一致。
4.根据权利要求3所述的方法,还包括:
从所述输入中选择单词的集合,同时保持所述输入中出现的单词的顺序的次序。
5.根据权利要求4所述的方法,还包括:
将所述单词的集合划分为第一子集和第二子集。
6.根据权利要求5所述的方法,还包括:
基于自然语言模型确定第一子集和第二子集之间的单词距离;以及
基于单词距离确定所述一个或多个插入点。
7.根据权利要求6所述的方法,还包括:
对于每个插入点,使用前向语言模型和后向语言模型两者,识别要插入以形成所述附加信息的单词,
其中,所述前向语言模型预测下一单词的概率,并且所述后向语言模型预测前一单词的概率。
8.一种电子设备,包括:
存储指令的存储器;以及
至少一个执行包括处理的指令的处理器,被配置为:
在包含用于提供附加信息的文本的输入内识别一个或多个插入点;以及
生成包括至少一部分输入和在所述一个或多个插入点处的附加信息的后续表达,用于明确或补充输入的含义。
9.根据权利要求8所述的电子设备,其中,使用自然语言模型来识别所述输入内的所述一个或多个插入点。
10.根据权利要求9所述的电子设备,其中,所述附加信息被确定为与所述输入的意图一致。
11.根据权利要求10所述的电子设备,其中,所述处理还包括:
从所述输入中选择单词的集合,同时保持所述输入中出现的单词的顺序的次序。
12.根据权利要求11所述的电子设备,其中,所述处理还包括:
将所述单词的集合划分为第一子集和第二子集;
基于所述自然语言模型确定第一子集和第二子集之间的单词距离;以及
基于单词距离确定所述一个或多个插入点。
13.根据权利要求10所述的电子设备,其中,所述处理还被配置为:
对于每个插入点,使用前向语言模型和后向语言模型两者,识别要插入以形成所述附加信息的单词,
其中,所述前向语言模型预测下一单词的概率,并且所述后向语言模型预测前一单词的概率。
14.如权利要求8所述的电子设备,其中,所述处理在服务器设备、智能便携式设备、智能设备或其组合中的至少一个上执行。
15.一种包括程序的计算机可读介质,所述程序在由处理器执行时执行权利要求1至7中任一项的方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762612296P | 2017-12-29 | 2017-12-29 | |
US15/904,196 | 2018-02-23 | ||
US15/904,196 US10929606B2 (en) | 2017-12-29 | 2018-02-23 | Method for follow-up expression for intelligent assistance |
PCT/KR2019/002178 WO2019164321A1 (en) | 2017-12-29 | 2019-02-22 | Method for intelligent assistance |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111742311A true CN111742311A (zh) | 2020-10-02 |
Family
ID=67058260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980014127.XA Pending CN111742311A (zh) | 2017-12-29 | 2019-02-22 | 智能助理方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10929606B2 (zh) |
EP (1) | EP3695330A4 (zh) |
KR (1) | KR20200115660A (zh) |
CN (1) | CN111742311A (zh) |
WO (1) | WO2019164321A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10733380B2 (en) * | 2017-05-15 | 2020-08-04 | Thomson Reuters Enterprise Center Gmbh | Neural paraphrase generator |
US11036926B2 (en) * | 2018-05-21 | 2021-06-15 | Samsung Electronics Co., Ltd. | Generating annotated natural language phrases |
JP6965846B2 (ja) * | 2018-08-17 | 2021-11-10 | 日本電信電話株式会社 | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム |
CN109766473B (zh) * | 2018-11-30 | 2019-12-24 | 北京达佳互联信息技术有限公司 | 信息交互方法、装置、电子设备及存储介质 |
US11210590B2 (en) * | 2019-01-08 | 2021-12-28 | International Business Machines Corporation | Generating free text representing semantic relationships between linked entities in a knowledge graph |
US11646014B1 (en) * | 2022-07-25 | 2023-05-09 | Intuit Inc. | Ensemble of machine learning models for real-time predictions in expert electronic chats |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100131900A1 (en) * | 2008-11-25 | 2010-05-27 | Spetalnick Jeffrey R | Methods and Systems for Improved Data Input, Compression, Recognition, Correction, and Translation through Frequency-Based Language Analysis |
CN106575502A (zh) * | 2014-09-26 | 2017-04-19 | 英特尔公司 | 用于在合成语音中提供非词汇线索的系统和方法 |
US20170357632A1 (en) * | 2016-06-10 | 2017-12-14 | Apple Inc. | Multilingual word prediction |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5983179A (en) * | 1992-11-13 | 1999-11-09 | Dragon Systems, Inc. | Speech recognition system which turns its voice response on for confirmation when it has been turned off without confirmation |
US7030863B2 (en) | 2000-05-26 | 2006-04-18 | America Online, Incorporated | Virtual keyboard system with automatic correction |
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
US7403890B2 (en) * | 2002-05-13 | 2008-07-22 | Roushar Joseph C | Multi-dimensional method and apparatus for automated language interpretation |
US20060036430A1 (en) | 2004-08-12 | 2006-02-16 | Junling Hu | System and method for domain-based natural language consultation |
US20070106499A1 (en) * | 2005-08-09 | 2007-05-10 | Kathleen Dahlgren | Natural language search system |
US7734562B1 (en) | 2005-12-30 | 2010-06-08 | Brainpool, Inc. | Voice to text conversion with keyword parse and match to semantic and transactional concepts stored in a brain pool state machine using word distance to generate character model interaction in a plurality of dramatic modes |
US8996682B2 (en) | 2007-10-12 | 2015-03-31 | Microsoft Technology Licensing, Llc | Automatically instrumenting a set of web documents |
US8196030B1 (en) * | 2008-06-02 | 2012-06-05 | Pricewaterhousecoopers Llp | System and method for comparing and reviewing documents |
KR101739531B1 (ko) | 2010-10-13 | 2017-05-25 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
US8688698B1 (en) | 2011-02-11 | 2014-04-01 | Google Inc. | Automatic text suggestion |
US20140304600A1 (en) | 2011-10-19 | 2014-10-09 | Cornell University | Systems and methods for identifying objects |
US9201859B2 (en) * | 2011-12-15 | 2015-12-01 | Microsoft Technology Licensing, Llc | Suggesting intent frame(s) for user request(s) |
US9449599B2 (en) | 2013-05-30 | 2016-09-20 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US9196246B2 (en) * | 2013-06-14 | 2015-11-24 | Mitsubishi Electric Research Laboratories, Inc. | Determining word sequence constraints for low cognitive speech recognition |
US9176668B2 (en) * | 2013-10-24 | 2015-11-03 | Fleksy, Inc. | User interface for text input and virtual keyboard manipulation |
US10204096B2 (en) | 2014-05-30 | 2019-02-12 | Apple Inc. | Device, method, and graphical user interface for a predictive keyboard |
KR102332729B1 (ko) | 2014-07-28 | 2021-11-30 | 삼성전자주식회사 | 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치 |
US9760560B2 (en) * | 2015-03-19 | 2017-09-12 | Nuance Communications, Inc. | Correction of previous words and other user text input errors |
US10049152B2 (en) | 2015-09-24 | 2018-08-14 | International Business Machines Corporation | Generating natural language dialog using a questions corpus |
US20180101599A1 (en) * | 2016-10-08 | 2018-04-12 | Microsoft Technology Licensing, Llc | Interactive context-based text completions |
US10748663B2 (en) * | 2017-05-04 | 2020-08-18 | Efthymios Kalafatis | Machine learning, natural language processing and network analysis-guided discovery related to medical research |
-
2018
- 2018-02-23 US US15/904,196 patent/US10929606B2/en active Active
-
2019
- 2019-02-22 WO PCT/KR2019/002178 patent/WO2019164321A1/en unknown
- 2019-02-22 EP EP19757416.3A patent/EP3695330A4/en not_active Ceased
- 2019-02-22 KR KR1020207027514A patent/KR20200115660A/ko unknown
- 2019-02-22 CN CN201980014127.XA patent/CN111742311A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100131900A1 (en) * | 2008-11-25 | 2010-05-27 | Spetalnick Jeffrey R | Methods and Systems for Improved Data Input, Compression, Recognition, Correction, and Translation through Frequency-Based Language Analysis |
CN106575502A (zh) * | 2014-09-26 | 2017-04-19 | 英特尔公司 | 用于在合成语音中提供非词汇线索的系统和方法 |
US20170357632A1 (en) * | 2016-06-10 | 2017-12-14 | Apple Inc. | Multilingual word prediction |
Non-Patent Citations (1)
Title |
---|
KEITH VERTANEN: "《Efficient Computer Interfaces Using Continuous Gestures, Language Models, and Speech》", 《MASTERS OF PHILOSOPHY IN COMPUTER SPEECH,TEXT AND INTERNET TECHNOLOGY UNIVERSITY OF CAMBRIDGE》, 22 July 2004 (2004-07-22), pages 3 - 43 * |
Also Published As
Publication number | Publication date |
---|---|
US20190205383A1 (en) | 2019-07-04 |
EP3695330A4 (en) | 2020-11-11 |
KR20200115660A (ko) | 2020-10-07 |
US10929606B2 (en) | 2021-02-23 |
EP3695330A1 (en) | 2020-08-19 |
WO2019164321A1 (en) | 2019-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111989685B (zh) | 跨域个性化词汇的学习方法及其电子装置 | |
US11062270B2 (en) | Generating enriched action items | |
US11315546B2 (en) | Computerized system and method for formatted transcription of multimedia content | |
CN111742311A (zh) | 智能助理方法 | |
US9723149B2 (en) | Assistant redirection for customer service agent processing | |
US20170277993A1 (en) | Virtual assistant escalation | |
US20190027147A1 (en) | Automatic integration of image capture and recognition in a voice-based query to understand intent | |
US8825533B2 (en) | Intelligent dialogue amongst competitive user applications | |
US11182565B2 (en) | Method to learn personalized intents | |
CN107408238B (zh) | 从音频数据和计算机操作上下文自动捕获信息 | |
CN110956956A (zh) | 基于策略规则的语音识别方法及装置 | |
CN106601254B (zh) | 信息输入方法和装置及计算设备 | |
KR20210134359A (ko) | 시맨틱 지능형 태스크 학습 및 적응형 실행 방법 및 시스템 | |
US11990124B2 (en) | Language model prediction of API call invocations and verbal responses | |
US11789696B2 (en) | Voice assistant-enabled client application with user view context | |
CN114328838A (zh) | 事件抽取方法、装置、电子设备及可读存储介质 | |
US20220245401A1 (en) | Method and apparatus for training model | |
CN112052316A (zh) | 模型评估方法、装置、存储介质及电子设备 | |
US12050841B2 (en) | Voice assistant-enabled client application with user view context | |
CN111209381B (zh) | 对话场景中时间管理方法及装置 | |
CN110931014A (zh) | 基于正则匹配规则的语音识别方法及装置 | |
CN113115104B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
US20240169979A1 (en) | Action topic ontology | |
CN111143557A (zh) | 实时语音交互处理方法及装置、电子设备、存储介质 | |
CN117099077A (zh) | 具有用户视图上下文和多模态输入支持的支持语音助手的客户端应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |