CN117616412A - 语义增强的上下文表示生成 - Google Patents

语义增强的上下文表示生成 Download PDF

Info

Publication number
CN117616412A
CN117616412A CN202280047686.2A CN202280047686A CN117616412A CN 117616412 A CN117616412 A CN 117616412A CN 202280047686 A CN202280047686 A CN 202280047686A CN 117616412 A CN117616412 A CN 117616412A
Authority
CN
China
Prior art keywords
context
generate
representation
items
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280047686.2A
Other languages
English (en)
Inventor
A·K·斯里达尔
R·乔达里
L-H·金
E·维瑟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/383,284 external-priority patent/US12002455B2/en
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN117616412A publication Critical patent/CN117616412A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种设备包括被配置为存储指令的存储器。该设备还包括一个或多个处理器,其被配置为执行指令以将上下文和与上下文相对应的一个或多个感兴趣项提供给依存网络编码器,以生成上下文的基于语义的表示。所述一个或多个处理器还被配置为将所述上下文提供给数据相关编码器以生成基于上下文的表示。所述一个或多个处理器还被配置为组合基于语义的表示和基于上下文的表示以生成上下文的语义增强的表示。

Description

语义增强的上下文表示生成
相关申请的交叉引用
本申请要求于2021年7月22日提交的共同拥有的美国非临时专利申请第17/383,284号的优先权权益,其内容通过引用整体明确地并入本文。
技术领域
本公开总体上涉及上下文的表示的生成。
背景技术
技术的进步已经导致更小和更强大的计算设备。举例来说,当前存在多种便携式个人计算装置,包括无线电话,诸如移动和智能电话、平板和膝上型计算机,其体积小、重量轻且易于由用户携带。这些设备可以通过无线网络传送语音和数据分组。此外,许多这样的设备合并了附加的功能,诸如数字静态相机、数字摄像机、数字记录器和音频文件播放器。此外,这样的设备可以处理可执行指令,包括可以用于访问因特网的软件应用,诸如web浏览器应用。因此,这些设备可以包括显著的计算能力。
这样的计算设备通常合并了接收传感器数据的功能,诸如来自一个或多个麦克风的音频信号、来自一个或多个相机的图像数据或其组合。例如,音频信号可以表示由麦克风捕获的用户语音,并且图像数据可以表示用户图像。传感器数据可以用于确定关于用户的上下文信息。大量用户上下文信息的可用性提供了数据挖掘机会。
发明内容
根据本公开的一个实施方式,一种设备包括被配置为存储指令的存储器。该设备还包括一个或多个处理器,其被配置为执行指令以将上下文和与上下文相对应的一个或多个感兴趣项提供给依存网络编码器,以生成上下文的基于语义的表示。所述一个或多个处理器还被配置为将所述上下文提供给数据相关编码器以生成基于上下文的表示。一个或多个处理器还被配置为组合基于语义的表示和基于上下文的表示以生成上下文的语义增强的表示。根据本公开的另一实施方式,一种方法包括在设备处向依存网络编码器提供上下文和与上下文相对应的一个或多个感兴趣项,以生成上下文的基于语义的表示。所述方法还包括在设备处将所述上下文提供给数据相关编码器以生成基于上下文的表示。该方法还包括在设备处组合基于语义的表示和基于上下文的表示以生成上下文的语义增强的表示。
根据本公开的另一实施方式,一种非暂时性计算机可读介质存储指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器将上下文和与上下文相对应的一个或多个感兴趣项提供给依存网络编码器,以生成上下文的基于语义的表示。所述指令在由所述一个或多个处理器执行时还使所述一个或多个处理器将所述上下文提供给数据相关编码器以生成基于上下文的表示。所述指令在由一个或多个处理器执行时还使一个或多个处理器组合基于语义的表示和基于上下文的表示以生成上下文的语义增强的表示。
根据本公开的另一实施方式,一种装置包括用于将上下文和与上下文相对应的一个或多个感兴趣项提供给依存网络编码器以生成上下文的基于语义的表示的部件。所述装置还包括用于将所述上下文提供给数据相关编码器以生成基于上下文的表示的部件。所述装置还包括用于组合基于语义的表示和基于上下文的表示以生成上下文的语义增强的表示的部件。
在审阅整个申请之后,本公开的其他方面、优点和特征将变得显而易见,包括以下部分:附图说明、具体实施方式和权利要求书。
附图说明
图1是根据本公开的一些示例的可操作以生成语义增强的上下文表示的系统的特定说明性方面的框图。
图2是根据本公开的一些示例的图1的系统的上下文、感兴趣项和相关项的说明性示例的表。
图3是根据本公开的一些示例的与被配置为训练图1的系统的依存网络编码器的依存网络编码器训练器相关联的操作的说明性方面的图。
图4是根据本公开的一些示例的图1的系统的依存网络编码器的操作的说明性方面的图。
图5是根据本公开的一些示例的图1的系统的依存网络编码器的操作的说明性方面的图。
图6是根据本公开的一些示例的图1的系统的数据相关编码器的操作的说明性方面的图。
图7是根据本公开的一些示例的图1的系统的数据相关编码器的操作的说明性方面的图。
图8是根据本公开的一些示例的图1的系统的编码器的操作的说明性方面的图。
图9是根据本公开的一些示例的图1的系统的相关项生成器的操作的说明性方面的图。
图10是根据本公开的一些示例的图1的系统的相关项生成器的另一说明性方面的图。
图11图示了根据本公开的一些示例的可操作以生成语义增强的上下文表示的集成电路的示例。
图12是根据本公开的一些示例的可操作以生成语义增强的上下文表示的移动设备的图。
图13是根据本公开的一些示例的可操作以生成语义增强的上下文表示的头戴式耳机的图。
图14是根据本公开的一些示例的可操作以生成语义增强的上下文表示的可穿戴电子设备的图。
图15是根据本公开的一些示例的可操作以生成语义增强的上下文表示的语音控制的扬声器系统的图。
图16是根据本公开的一些示例的可操作以生成语义增强的上下文表示的相机的图。
图17是根据本公开的一些示例的可操作以生成语义增强的上下文表示的头戴式耳机(诸如虚拟现实、混合现实或增强现实头戴式耳机)的图。
图18是根据本公开的一些示例的可操作以生成语义增强的上下文表示的交通工具的第一示例的图。
图19是根据本公开的一些示例的可操作以生成语义增强的上下文表示的交通工具的第二示例的图。
图20是根据本公开的一些示例的可以由图1的设备执行的生成语义增强的上下文表示的方法的特定实施方式的流程图。
图21是根据本公开的一些示例的可操作以生成语义增强的上下文表示的设备的特定说明性示例的框图。
具体实施方式
用户被生成指示用户上下文信息的传感器数据的传感器(例如,相机、麦克风、移动设备位置传感器等)包围。可以挖掘上下文信息以提取有用的数据。
公开了生成语义增强的上下文表示的系统和方法。上下文表示生成器基于传感器数据生成上下文(例如,“埃里克在上午2点在厨房里”)。数据相关编码器生成基于上下文的基于上下文的表示。例如,基于上下文的表示将上下文中的每个单词映射到上下文中的每个其他单词。依存网络编码器基于上下文和与上下文相关的感兴趣项(例如,问题,诸如“谁在上午2点在厨房里?”)生成基于语义的表示。基于语义的表示说明了上下文的语言性质。例如,基于语义的表示是基于上下文的依存句法分析图。上下文表示生成器通过组合基于语义的表示和基于上下文的表示来生成上下文的语义增强的表示。上下文的语义增强的表示具有基于上下文的表示(例如,丰富连接)和基于语义的表示(例如,语言连接)两者的优点。
相关项生成器处理语义增强的表示以生成与感兴趣项(例如,问题)相对应的相关项(例如,答案,诸如“埃里克”)。提供包括问题的感兴趣项和包括答案的相关项作为说明性示例。在另一示例中,感兴趣项可以包括答案,并且相关项可以包括问题。在又一示例中,感兴趣项可以包括关键字,并且相关项可以包括与关键字相关的文本。
在特定示例中,经由显示设备向用户提供感兴趣项和相关项。在另一示例中,可以将问题和答案添加到训练数据集以训练各种机器学习模型(例如,神经网络)。为了说明,可以训练机器学习模型以回答与和其他用户相关联的上下文相关的问题。在另一示例中,机器学习模型可以被训练为客户服务机器人程序以处理客户查询。
下面参考附图描述本公开的特定方面。在说明书中,共同的特征由共同的附图标记表示。如本文所使用的,各种术语仅用于描述特定实施方式的目的,并不旨在限制实施方式。例如,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文另有明确说明。此外,本文描述的一些特征在一些实施方式中是单数的,并且在其他实施方式中是复数的。为了说明,图1描绘了包括一个或多个处理器(图1的“处理器”190)的设备102,这指示在一些实现方式中,设备102包括单个处理器190,并且在其他实现方式中,设备102包括多个处理器190。
如本文所使用的,术语“包括”可以与“包含”互换使用。另外,术语“其中(wherein)”可以与“其中(where)”互换使用。如本文所使用的,“示例性”指示示例、实施方式和/或方面,并且不应被解释为限制或指示偏好或优选实施方式。如本文所使用的,用于修饰元素(诸如结构、组件、操作等)的序数术语(例如,“第一”、“第二”、“第三”等)本身并不指示该元素相对于另一元素的任何优先级或顺序,而是仅将该元素与具有相同名称的另一元素区分开(但是使用序数术语)。如本文所使用的,术语“集合”是指特定元素中的一个或多个,并且术语“多个”是指特定元素中的多个(例如,两个或更多个)。
如本文所使用的,“耦合”可以包括“通信耦合”、“电耦合”或“物理耦合”,并且还可以(或替代地)包括其任何组合。两个设备(或组件)可以经由一个或多个其他设备、组件、导线、总线、网络(例如,有线网络、无线网络或其组合)等直接或间接地耦合(例如,通信耦合、电耦合或物理耦合)。作为说明性的非限制性示例,电耦合的两个设备(或组件)可以包括在相同的设备中或不同的设备中,并且可以经由电子器件、一个或多个连接器或电感耦合来连接。在一些实施方案中,通信地耦合(例如电通信)的两个装置(或组件)可经由一个或多个导线、总线、网络等直接或间接地发送和接收信号(例如,数字信号或模拟信号)。如本文所使用的,“直接耦合”可以包括在没有中间组件的情况下耦合(例如,通信耦合、电耦合或物理耦合)的两个设备。
在本公开中,诸如“确定”、“计算”、“估计”、“移位”、“调整”等术语可用于描述如何执行一个或多个操作。应当注意,这些术语不应被解释为限制性的,并且可以利用其他技术来执行类似的操作。另外,如本文中所提及,“生成”、“计算”、“估计”、“使用”、“选择”、“存取”及“确定”可互换地使用。举例来说,“生成”、“计算”、“估计”或“确定”参数(或信号)可指主动地生成、估计、计算或确定参数(或信号)或可指使用、选择或存取例如由另一组件或装置已产生的参数(或信号)。
参考图1,公开了被配置为生成语义增强的上下文表示的系统的特定说明性方面,并且通常将其指定为100。系统100包含耦合到一个或多个传感器124、显示设备172或其组合的设备102。一个或多个传感器124包含相机、麦克风、位置传感器、环境光传感器、接近度传感器、加速度计、陀螺仪、罗盘、气压计、指纹传感器、姿势传感器或其组合。设备102被配置为使用上下文表示生成器140来生成语义增强的上下文表示。
设备102包含耦合到存储器132的一个或多个处理器190。在特定方面,一个或多个处理器190被配置为从一个或多个传感器124接收传感器数据126。在特定方面,一个或多个处理器190被配置为将输出数据171提供给显示设备172。在一些示例中,一个或多个传感器124或显示设备172中的一个或多个集成在设备102中。在一些示例中,一个或多个传感器124或显示设备172中的一个或多个在设备102外部。
一个或多个处理器190包括上下文表示生成器140。上下文表示生成器140被配置为处理来自一个或多个传感器124的传感器数据126以生成语义增强的表示109。在特定示例中,上下文表示生成器140包括耦合到依存网络编码器142和数据相关编码器144的上下文生成器134。依存网络编码器142和数据相关编码器144中的每一个耦合到组合器108。
上下文生成器134被配置为基于传感器数据126来确定上下文135。在特定方面,上下文135对应于基于传感器数据126(例如,“冰箱指纹传感器在上午2点检测到埃里克的指纹。冰箱门传感器指示门在上午2点打开”)的文本描述(例如,“埃里克在上午2点打开厨房冰箱门”)。依存网络编码器142被配置为处理上下文135和一个或多个感兴趣项147以生成基于语义的表示143。在特定方面,一个或多个感兴趣项147基于用户输入、配置设置、默认数据或其组合。例如,用户101可以向设备102提供指示一个或多个感兴趣项147的用户输入,以从上下文135提取一个或多个相关项151(如果有的话)。在特定示例中,一个或多个感兴趣项147对应于要基于上下文135(例如,“埃里克在上午2点打开厨房冰箱门”)为其生成一个或多个问题的答案(例如,“埃里克”)。在一些示例中,一个或多个兴趣项147可以对应于上下文135不指示任何相关问题的答案(例如,“Joe”)。
数据相关编码器144被配置为处理上下文135以生成基于上下文的表示145。数据相关编码器144被配置为独立于一个或多个感兴趣项147的指示来生成基于上下文的表示145。在特定示例中,上下文135包括一个或多个兴趣项147(例如,“埃里克”)。在另一示例中,上下文135不包括一个或多个兴趣项147中的任何一个(例如,“Joe”)。在任一种情况下,数据相关编码器144独立于对哪一个或多个项感兴趣的任何指示来处理上下文135。组合器108被配置为组合(例如,连接)基于语义的表示143和基于上下文的表示145以生成语义增强的表示109。
在特定方面,一个或多个处理器190还包括相关项生成器150、蕴涵过滤器152或两者。相关项生成器150被配置为处理语义增强的表示109以生成一个或多个相关项151。在特定方面,一个或多个相关项151对应于一个或多个问题(例如,“谁打开了冰箱?”、“谁在上午2点在厨房里?”或“埃里克打开了什么?”)。蕴涵过滤器152被配置为通过过滤一个或多个相关项151来生成一个或多个经过滤的相关项153。例如,蕴涵过滤器152被配置为输出与一个或多个感兴趣项147(例如,“埃里克”)匹配的一个或多个相关项151中的任何相关项(例如,“谁打开了冰箱?”和“谁在上午2点在厨房里?”)作为一个或多个经过滤的相关项153,并丢弃一个或多个相关项151中的任何剩余相关项(例如,“埃里克打开了什么?”)。在特定方面,一个或多个处理器190被配置为基于一个或多个相关项151与一个或多个经过滤的相关项153的比较来训练(例如,更新配置设置)相关项生成器150。
在特定方面,存储器132被配置为存储训练数据集162。例如,一个或多个处理器190被配置为将一个或多个相关项151(或一个或多个经过滤的相关项153)和一个或多个感兴趣项147添加到训练数据集162。在特定方面,一个或多个处理器190包括网络训练器164,其被配置为基于训练数据集162来训练机器学习模型(例如,神经网络166)。在特定方面,一个或多个处理器190被配置为基于一个或多个相关项151(或一个或多个经过滤的相关项153)生成输出数据171,并将输出数据171提供给显示设备172。例如,输出数据171指示一个或多个感兴趣项147、一个或多个相关项151(或一个或多个经过滤的相关项153)或其组合。
存储器132被配置为存储指令196,指令196可由一个或多个处理器190执行以实现参考上下文生成器134、依存网络编码器142、数据相关编码器144、组合器108、上下文表示生成器140、相关项生成器150、蕴涵过滤器152、网络训练器164、一个或多个处理器190或其组合描述的功能。
在一些实施方式中,设备102对应于各种类型的设备或被包括在各种类型的设备中。在说明性示例中,一个或多个处理器190集成在头戴式耳机设备中,例如参考图13进一步描述的。在其他示例中,一个或多个处理器190集成在如参考图12所描述的移动电话或平板计算机设备、如参考图14所描述的可穿戴电子设备、如参考图15所描述的语音控制扬声器系统、如参考图16所描述的相机设备或者如参考图17所描述的虚拟现实、混合现实或增强现实耳机中的至少一个中。在另一说明性示例中,一个或多个处理器190集成到交通工具中,诸如参考图18和图19进一步描述的。
在操作期间,上下文表示生成器140从一个或多个传感器124接收传感器数据126。例如,传感器数据126包括来自相机的图像数据(例如,在下午4点捕获的图像)、来自麦克风的音频数据(例如,在下午4点捕获的语音)、来自位置传感器的位置数据(例如,指示相机、麦克风或两者在下午4点在起居室中)或另一类型的传感器数据。
上下文生成器134基于传感器数据126来生成上下文135(例如,“在下午4点拉维在起居室中感到恼怒”)。例如,上下文生成器134对传感器数据126执行人识别、活动识别、情绪识别、对象识别、位置识别或其他分析以生成上下文135。在特定示例中,传感器数据126包括来自相机的图像数据,并且上下文生成器134至少部分地基于对图像数据执行对象识别、情绪识别、位置识别、人识别或其组合来生成上下文135。在特定示例中,传感器数据126包括来自麦克风的音频数据,并且上下文生成器134至少部分地基于对音频数据执行语音识别、情绪识别、位置识别、说话者识别或其组合来生成上下文135。
在说明性示例中,上下文生成器134对传感器数据126的图像数据执行图像识别,以确定图像数据表示人(例如,拉维)的图像。在特定示例中,上下文生成器134对传感器数据126的音频数据执行语音分析,以确定音频数据表示人(例如,拉维)的语音。在特定方面,上下文生成器134执行情绪识别以确定人的图像(例如,拉维)、人的语音或两者指示人具有特定情绪(例如,“恼怒”)。在特定方面,上下文生成器134基于传感器数据126的位置数据来确定位置(例如,起居室)。在特定方面,上下文生成器134通过分析图像数据、音频数据或两者来确定位置(例如,起居室)。在特定方面,上下文生成器134基于与传感器数据相关联的时间戳来确定时间(或时间范围)。在特定方面,上下文生成器134基于图像分析、音频分析、用户日历信息或其组合来确定活动(例如,“在会议中”)。在特定方面,上下文生成器134基于人、特定情绪、活动、位置、时间或其组合来生成上下文135。例如,上下文生成器134生成指示人(例如,拉维)在该时间(例如,“下午4点”)在该位置(例如,“起居室”)处执行活动(例如,“在会议中”)时感觉到特定情绪(例如,“恼怒”)的上下文135。
基于传感器数据126生成上下文135被提供作为说明性示例。作为说明性非限制性示例,上下文生成器134可以基于各种类型的数据(诸如文档、书籍、网站、期刊、文章、用户浏览器活动、用户账户活动、用户购买活动、工厂活动、计算机活动、游戏活动、网络活动或仓库活动)来生成上下文135。
上下文生成器134向数据相关编码器144(例如,来自变换器的双向编码器表示(BERT)变换器)提供上下文135(例如,“在下午4点,拉维在起居室中感到恼怒”)以生成基于上下文的表示145。例如,数据相关编码器144对上下文135进行编码以生成基于上下文的表示145,如参考图6-7进一步描述的。在特定上下文中,基于上下文的表示145对应于上下文135的嵌入表示。在特定方面,基于上下文的表示145将上下文135的每个单词映射到上下文135的每隔一个单词。在特定方面,上下文生成器134将基于上下文的表示145存储在存储器132中,将基于上下文的表示145提供给组合器108,或两者。
上下文表示生成器140将一个或多个感兴趣项147和上下文135提供给依存网络编码器142以生成基于语义的表示143。例如,上下文生成器134向依存网络编码器142提供上下文135(例如,“在下午4点,拉维在起居室中感到恼怒”)。在特定方面,一个或多个感兴趣项147基于默认数据、配置设置、从用户101接收的用户输入或其组合。在特定方面,一个或多个感兴趣项147对应于要从上下文135中提取一个或多个预测问题的答案(例如,“拉维感到恼怒”)。在另一方面,一个或多个感兴趣项147对应于要从上下文135中提取一个或多个预测答案的问题(例如,“拉维感觉如何?”)。在特定方面,一个或多个感兴趣项147对应于要从上下文135中提取一个或多个预测文本的关键词。
依存网络编码器142对上下文135和一个或多个感兴趣项147进行编码以生成基于语义的表示143,如参考图4进一步描述的。例如,依存网络编码器142包括生成上下文135的依存句法分析图的依存句法分析器。依存网络编码器142包括基于一个或多个感兴趣项147和依存句法分析图来生成基于语义的表示143的编码器。例如,编码器对一个或多个感兴趣项147和依存句法分析图进行编码以生成基于语义的表示143。提供基于依存句法分析图生成基于语义的表示143作为说明性示例。在一些示例中,依存网络编码器142基于上下文135的单词之间的语义关系的另一表示来生成基于语义的表示143。
组合器108组合(例如,连接)基于语义的表示143和基于上下文的表示145以生成语义增强的表示109。在特定方面,上下文表示生成器140将语义增强的表示109存储到存储器132。例如,上下文表示生成器140将语义增强的表示109添加到语义增强的上下文表示的集合。在特定方面,上下文表示生成器140将语义增强的表示109(例如,语义增强的上下文表示的集合)提供给相关项生成器150以生成一个或多个相关项151。
在特定方面,相关项生成器150包括生成式预训练变换器(GPT)解码器、另一种类型的生成式解码器、问题生成模型、问题答案(QA)模型(例如,Albert QA模型)、变换器模型或其组合。在特定示例中,相关项生成器150(例如,生成式解码器)解码语义增强的表示109(例如,表示一个或多个感兴趣项147和上下文135)以生成一个或多个相关项151,如参考图9进一步描述的。在特定方面,相关项生成器150(例如,Albert QA模型)从语义增强的表示109中提取一个或多个相关项151,如参考图10所描述的。
在特定方面,一个或多个感兴趣项147对应于答案(例如,“拉维感到恼怒”),并且上下文表示生成器140将语义增强的表示109提供给相关项生成器150以生成针对答案的一个或多个预测问题。例如,相关项生成器150生成一个或多个相关项151(例如,“拉维感觉怎么样?”、“谁感到恼怒?”、“拉维下午4点在起居室做什么?”)作为被预测为与由一个或多个感兴趣项147指示的答案相对应的问题。在替代方面,一个或多个感兴趣项147对应于问题(例如,“拉维感觉如何?”),并且上下文表示生成器140将语义增强的表示109提供给相关项生成器150以生成针对问题的一个或多个预测答案。例如,相关项生成器150生成一个或多个相关项151(例如,“拉维感到恼怒?”、“拉维下午4点在起居室感到恼怒”)作为预测对应于由一个或多个感兴趣项147指示的问题的答案。
在特定方面,一个或多个感兴趣项147对应于一个或多个关键词(例如,“感觉”),并且上下文表示生成器140将语义增强的表示109提供给相关项生成器150以生成一个或多个预测文本。例如,相关项生成器150生成一个或多个相关项151(例如,“拉维感到恼怒”、“谁在起居室中感到恼怒?”)作为被预测为对应于由一个或多个感兴趣项147指示的一个或多个关键字的文本。
在特定方面,相关项生成器150将一个或多个相关项151提供给蕴涵过滤器152,以生成一个或多个经过滤的相关项153。在特定方面,蕴涵过滤器152包括基于BERT的蕴涵过滤器或另一类型的蕴涵过滤器。在特定方面,蕴涵过滤器152基于一个或多个感兴趣项147来过滤一个或多个相关项151。例如,蕴涵过滤器152输出与一个或多个感兴趣项147(例如,“拉维感到恼怒”)匹配的一个或多个相关项151(例如,“拉维在下午4点做了什么?”)作为一个或多个经过滤的相关项153,并丢弃一个或多个相关项151中的剩余相关项(例如,“拉维在下午4点哪里?”)。在特定方面,蕴涵过滤器152基于确定一个或多个相关项151中的特定相关项与一个或多个感兴趣项147相关的概率大于阈值,来确定该特定相关项与一个或多个感兴趣项147匹配。
在特定方面,一个或多个处理器190基于一个或多个相关项151与一个或多个经过滤的相关项153的比较来训练相关项生成器150。例如,一个或多个处理器190基于一个或多个相关项151与一个或多个经过滤的相关项153的比较来确定模型损失,并且基于模型损失来更新相关项生成器150的配置设置(例如,权重、偏置或两者)。在一些实施方式中,一个或多个处理器190不包括蕴涵过滤器152。
在特定方面,一个或多个处理器190基于一个或多个感兴趣项147、一个或多个经过滤的相关项153、一个或多个相关项151或其组合来生成输出数据171,并将输出数据171提供给显示设备172。例如,用户101提供指示一个或多个感兴趣项147的用户输入,并且输出数据171指示一个或多个经过滤的相关项153或被预测为与一个或多个感兴趣项147相关的一个或多个相关项151。作为说明性示例,一个或多个感兴趣项147包括答案、问题或关键字,并且一个或多个相关项151(或一个或多个经过滤的相关项153)分别包括针对答案的预测问题、对问题的预测答案或与关键字相关的预测文本。
在特定方面,一个或多个处理器190将一个或多个感兴趣项147、一个或多个经过滤的相关项153、一个或多个相关项151或其组合添加到存储在存储器132中的训练数据集162。例如,网络训练器164基于训练数据集162训练机器学习模型(例如,神经网络166)。在特定方面,神经网络166包括问答网络。
因此,系统100使得能够实时处理大量上下文信息(例如,当从传感器接收传感器数据时),以自动预测(例如,提取)与感兴趣项相对应的相关项。尽管上下文表示生成器140和相关项生成器150被图示为集成在单个设备102中,但是在其他实施方式中,上下文表示生成器140和相关项生成器150可以被包括在单独的设备中。例如,第二设备(例如,服务器)的相关项生成器150可以从多个设备102(例如,用户设备)接收多个语义增强的表示109。在该示例中,相关项生成器150从多个设备102接收多个语义增强的表示109,并且生成与语义增强的表示109相对应的聚合的相关项。
作为说明性示例,多个设备102(例如,全国范围内的运载工具队)生成对应于一个或多个感兴趣项147的语义增强的表示109(例如,“谁在60英里/小时以上行驶?”)。相关项生成器150(例如,在服务器处)从第一设备102(例如,在第一运载工具处)接收第一语义增强的表示109,从第二设备102(例如,在第二运载工具处)接收第二语义增强的表示109,以及从第三设备102(例如,在第三运载工具处)接收第三语义增强的表示109。第一语义增强的表示109对应于基于第一设备102(例如,第一递送车辆)的第一传感器数据126(例如,速度数据、图像数据等)的第一上下文135。类似地,第二语义增强的表示109和第三语义增强的表示109分别对应于第二设备102的第二上下文135和第三设备102的第三上下文135。
相关项生成器150生成用于语义增强的表示109的一个或多个相关项151。例如,相关项生成器150基于第一语义增强的表示109生成第一相关项151(例如,“鲍勃正在每小时行驶70英里”),基于第二语义增强的表示109生成第二相关项151(例如,“艾哈迈德正在每小时行驶低于60英里”),并且基于第三语义增强的表示109生成第三相关项151(例如,“凯正在每小时行驶65英里”)。在特定方面,蕴涵过滤器152基于一个或多个感兴趣项147(例如,“谁在60英里/小时以上驾驶?”)和第一相关项151、第二相关项151、第三相关项151或其组合来生成一个或多个经过滤的相关项153(例如,“鲍勃正在每小时驾驶70英里并且凯正在每小时驾驶65英里”)。在特定方面,蕴涵过滤器152(例如,在服务器处)生成指示一个或多个经过滤的相关项153的输出数据171,并将输出数据171提供给用户设备(例如,作为递送管理器的移动设备的警报)、显示设备172或两者。
参考图2,示出了上下文135、问题247和答案253的示例的表200。在特定方面,图1的上下文生成器134生成上下文135,并且相关项生成器150生成问题247或答案253。
在特定实施方式中,问题247对应于一个或多个感兴趣项147,并且答案253对应于一个或多个相关项151(或一个或多个经过滤的相关项153)。例如,一个或多个相关项151将答案253中的一个或多个(例如,“埃里克”)指示为由与上下文135的示例相关的一个或多个感兴趣项147指示的问题247中的一个(例如,“谁想要提高车库中的温度?”)的至少一个预测答案(例如,“谁想要提高车库中的温度?”)。
在特定实施方式中,答案253对应于一个或多个感兴趣项147,并且问题247对应于一个或多个相关项151(或一个或多个经过滤的相关项153)。例如,一个或多个相关项151将问题247中的一个或多个(例如,“谁想要提高车库中的温度?”、“想要提高车库温度的人的名字是什么?”)指示为由与上下文135的示例相关的一个或多个感兴趣项147指示的答案253中的一个(例如,“埃里克”)的至少一个预测问题(例如,“下午4点埃里克想要提高车库中的温度”)。
参考图3,示出了依存网络编码器训练器300。依存网络编码器训练器300被配置为训练图1的依存网络编码器142。
在特定方面,图1的上下文表示生成器140和依存网络编码器训练器300集成在同一设备(例如,设备102)中。在替代方面,依存网络编码器训练器300被包括在第二设备中,并且设备102从第二设备接收依存网络编码器142。
依存网络编码器142包括耦合到网络配置器360的依存网络编码器142。依存网络编码器142包括经由数据分析器322耦合到编码器340的依存句法分析器320。编码器340耦合到预测层350(例如,分类层)。
依存网络编码器训练器300向依存网络编码器142提供上下文303(例如,“埃里克在上午2点在厨房里,莱宏想要在下午3点看电视”)作为训练上下文以及一个或多个感兴趣项305(例如,“埃里克”)作为训练感兴趣项。依存句法分析器320处理上下文303(例如,“埃里克在上午2点在厨房里。莱宏想要在下午3点看电视”)以生成依存句法分析图321。在特定方面,依存句法分析图321指示上下文303的单词或短语之间的语义关系。例如,依存句法分析图321的节点325对应于上下文303的单词。为了说明,依存句法分析图321包括分别对应于上下文303的单词(例如,“埃里克”)、单词(例如,“是”)、短语(例如,“在厨房里”)和短语(例如,“在下午2点”)的节点325A、节点325B、节点325C和节点325D。作为另一示例,依存句法分析图321包括分别对应于上下文303的单词(例如,“莱宏”)、短语(例如,“想要”)、短语(例如,“看电视”)和短语(例如,“在下午3点”)的节点325E、节点325F、节点325G和节点325H。
依存句法分析图321基于对应单词或短语之间的语义依存关系来指示节点325中的一个或多个之间的依存关系。例如,依存句法分析图321指示节点325B与节点325A、节点325C和节点325D中的每一个之间的依存关系。在所图示的示例中,依存句法分析图321指示节点325A-D与节点325E-H之间没有依存关系。提供包括8个节点的依存句法分析图321作为说明性示例。在一些示例中,依存句法分析图321可以包括少于8个节点或多于8个节点。
数据分析器322基于依存句法分析图321和一个或多个感兴趣项305(例如,“埃里克”)来生成用于编码器340的输入数据323。例如,数据分析器322至少部分地基于与依存句法分析图321的节点325相对应的上下文303的元素来生成节点嵌入331。为了说明,数据分析器322基于与节点325A相对应的上下文303的元素(例如,“埃里克”)来生成节点嵌入331A。作为另一示例,数据分析器322基于与节点325H相对应的上下文303的元素(例如,“在下午3点”)来生成节点嵌入331H。
数据分析器322基于一个或多个感兴趣项305生成与节点嵌入331相对应的兴趣标签333。例如,兴趣标签333(例如,比特)具有指示对应节点嵌入331是否与表示一个或多个感兴趣项305中的任何一个的节点325相关联的值(例如,“0”或“1”)。为了说明,响应于确定节点嵌入331A与表示包括一个或多个感兴趣项305中的至少一个(或者是其同义词)的单词或短语(例如,“埃里克”)的节点325A相关联,数据分析器322生成与具有第一值(例如,“1”)的节点嵌入331A相对应的兴趣标签333A。在另一示例中,响应于确定节点嵌入331H与表示不包括一个或多个感兴趣项305中的任何一个(或不是其同义词)的单词或短语(例如,“在下午3点”)的节点325H相关联,数据分析器322生成与具有第二值(例如,“0”)的节点嵌入331H相对应的兴趣标签333H。类似地,数据分析器322为具有第二值(例如,“0”)的节点325B-G中的每一个生成兴趣标签333。
数据分析器322生成与节点嵌入331相对应的词性数据335的部分。例如,节点嵌入331的词性数据335具有指示与节点嵌入331相关联的节点325的一个或多个单词的语音部分的值。为了说明,数据分析器322生成与节点嵌入331A相对应的词性数据335A的部分。词性数据335A指示由与节点嵌入331A相关联的节点325A表示的单词或短语(例如,“埃里克”)的词性(例如,“专有名词”)。作为另一示例,数据分析器322生成与节点嵌入331H相对应的词性数据335H的部分。词性数据335H指示由与节点嵌入331H相关联的节点325H表示的单词或短语(例如,“在下午3点”)的词性(例如,“介词;名词”)。数据分析器322基于节点嵌入331、兴趣标签333、词性数据335或其组合来生成输入数据323。
提供基于依存句法分析图321来生成输入数据323作为说明性示例。在一些示例中,依存句法分析器320生成上下文303的语义关系的另一表示,并且数据分析器322基于该另一表示和一个或多个感兴趣项305来生成输入数据323。
数据分析器322将输入数据323(例如,作为输入嵌入)提供给编码器340。在特定方面,编码器340包含经由一个或多个编码层344耦合到层归一化346(例如,归一化层)的输入级342。在一些实施方式中,编码器340如参考图8中描绘的编码器800所描述的那样被配置和操作。
简要地参考图8,编码器800包括输入级842、一个或多个编码层844和层归一化846。一个或多个编码层844中的每个编码层包括注意力层和前馈层。注意力层包括注意力网络,诸如多头注意力864。前馈层包括前馈神经网络,诸如前馈870(例如,全连接的前馈神经网络)。在特定示例中,关注层包括经由多头注意力864耦合到组合器866的层归一化862。前馈层包括经由前馈870耦合到组合器872的层归一化868。注意力层耦合到前馈层。例如,组合器866耦合到层归一化868和组合器872。
提供包含单个编码层的一个或多个编码层844作为说明性示例。在其他示例中,一个或多个编码层844包括多个编码层,其中输入级842的输出耦合到初始编码层的注意力层(例如,层归一化862),每个先前编码层的前馈层(例如,组合器872)耦合到后续编码层的注意力层(例如,层归一化862),并且最后一个编码层的前馈层(例如,组合器872)耦合到层归一化846。
输入级842接收输入数据841。在特定实施方式中,输入级842包括处理输入数据841以生成输出的编码器预网(例如,卷积神经网络(CNN)、线性投影层或两者)。在特定方面,输入级842的输出对应于输入嵌入。
在特定示例中,编码器800对应于图3的编码器340。举例来说,输入数据841对应于输入数据323,输入级842对应于输入级342,一个或多个编码层844对应于一个或多个编码层344,并且层归一化846对应于层归一化346。在特定方面,输入级842的输出对应于基于输入数据323的输入嵌入(例如,节点嵌入331、兴趣标签333、词性数据335或其组合)。在特定方面,一个或多个编码层844中的初始编码层的注意力层的输入(例如,层归一化862)基于由输入级842提供的输入嵌入。在特定方面,基于语义的表示341基于初始编码层的注意力层的输出(例如,层归一化862)。
在由层归一化862进行归一化之后,将输入级842的输出提供给多头注意力864。多头注意力864可以使用不同的注意力头部从不同方面构建向量。例如,多头注意力864包括并行处理多头注意力864的输入的注意力头部。为了说明,将输入乘以第一矩阵、第二矩阵和第三矩阵以分别生成第一查询向量、第一关键向量和第一值向量。第一查询向量、第一关键向量和第一值向量由第一注意力头部处理。将输入乘以第四矩阵、第五矩阵和第六矩阵以分别生成第二查询向量、第二关键向量和第二值向量。第二查询向量、第二关键向量和第二值向量由第二注意力头部与第一注意力头部处理第一查询向量、第一关键向量和第一值向量并行或并发地处理。
在特定方面,注意力头部的输出对应于以下等式:
其中Z对应于注意力头部的输出,Q对应于查询向量,x对应于乘法运算符,K对应于关键向量,V对应于值向量,dk对应于关键向量的维度,并且softmax对应于归一化操作。
注意力头部的独立输出被级联并线性变换以生成多头注意力864的输出。组合器866通过组合层归一化862的输入和多头注意力864的输出来生成输出。
在由层归一化868进行归一化之后,将组合器866的输出提供给前馈870(例如,完全连接的前馈神经网络)。在特定示例中,前馈870包括经由整流线性单元(ReLU)层耦合到第二线性变换层的第一线性变换层。前馈870通过处理组合器866的输出来生成输出。
组合器872通过将组合器866的输出与前馈870的输出组合来生成输出。在特定方面,层归一化846通过将归一化应用于(例如,一个或多个编码层844中的最后一个编码层的)组合器872的输出来生成经编码的数据828。例如,应用归一化包括将组合器872的输出(例如,输出矢量)的每个值调整为在特定范围内。
在特定示例中,编码器800对应于图3的编码器340,并且编码数据828对应于基于语义的表示341。返回到图3,编码器340将基于语义的表示341提供给预测层350。预测层350处理基于语义的表示341以生成节点预测351。例如,节点预测351指示依存句法分析图321的对应节点325是否被预测为与对应于一个或多个感兴趣项305的相关项相关联。在说明性示例中,节点预测351A具有指示对应于节点325A的上下文303的第一元素(例如,“埃里克”)是否被预测为与对应于一个或多个感兴趣项305(例如,“埃里克”)的相关项相关联的值(例如,0和1之间的概率值)。作为另一示例,节点预测351H具有指示对应于节点325H的上下文303的第二元素(例如,“在下午3点”)是否被预测为与对应于一个或多个感兴趣项305的相关项(例如,“埃里克”)相关联的值(例如,0和1之间的概率值)。
依存网络编码器142将节点预测351提供给网络配置器360。在训练期间,网络配置器360可以访问节点值362,节点值362指示哪些节点325与上下文303的元素相关联(例如,“埃里克在上午2点在厨房里,莱宏想要在下午3点看电视”),上下文303的元素对应于一个或多个感兴趣项305(例如,“埃里克”)的相关项。例如,节点值362基于用户输入、配置设置、默认数据或其组合。在说明性示例中,节点值362指示节点325A-325D与上下文303的与一个或多个感兴趣项305(例如,“埃里克”)的相关项相对应的元素(例如,“埃里克在上午2点在厨房里”)相关联,并且节点325E-H与上下文303的不与一个或多个感兴趣项305(例如,“埃里克”)的相关项相对应的元素(“莱宏想要在下午3点看电视”)相关联。
网络配置器360基于节点预测351(例如,由预测层350生成)与节点值362(例如,预定值)的比较来生成模型误差364。在特定方面,网络配置器360基于模型误差364生成配置命令361。举例来说,配置命令361调整编码器340的一个或多个配置设置(例如,权重、偏置或两者)。在特定方面,网络配置器360至少部分地基于模型误差364来确定编码器340已经完成训练,并且将依存网络编码器142提供给上下文表示生成器140。
因此,依存网络编码器训练器300训练依存网络编码器142以生成可以用于对节点325进行分类的基于语义的表示341。在特定方面,训练依存网络编码器训练器300以提高分类准确度提高了基于语义的表示341在并入上下文303的元素与一个或多个感兴趣项305之间的语义关系方面的准确度。
参考图4,示出了依存网络编码器142的操作的说明性方面的图400。在特定实施方式中,设备102不包括网络配置器360。例如,依存网络编码器142的经训练版本被提供给设备102,并且设备102不包括用于训练或更新依存网络编码器142的网络配置器360。在该示例中,上下文表示生成器140处的依存网络编码器142可以排除预测层350。
在特定实施方式中,设备102包括网络配置器360。例如,网络配置器360可以用于训练或测试设备102处的编码器340。在该示例中,上下文表示生成器140处的依存网络编码器142包括预测层350。
图1的上下文表示生成器140向依存网络编码器142提供上下文135(例如,“在下午4点拉维在起居室中感到恼怒”)和一个或多个感兴趣项147(例如,“在下午4点拉维感觉怎么样?”)。依存句法分析器320处理上下文135(例如,“在下午4点拉维在起居室中感到恼怒”)以生成依存句法分析图421。在特定方面,依存句法分析图421指示上下文135的单词或短语之间的语义关系。例如,依存句法分析图421的节点425对应于上下文135的单词。为了说明,依存句法分析图421包括分别对应于上下文135的短语(例如,“在下午4点”)、单词(例如,“拉维”)、单词(例如,“是”)、短语(例如,“感到恼怒”)和短语(例如,“在起居室中”)的节点425A、节点425B、节点425C、节点425D和节点425E。
依存句法分析图421基于对应单词或短语之间的语义依存关系来指示节点425中的一个或多个之间的依存关系。提供包括5个节点的依存句法分析图421作为说明性示例。在一些示例中,依存句法分析图521可以包括少于5个节点或多于5个节点。
数据分析器322基于依存句法分析图421和一个或多个感兴趣项147(例如,“拉维在下午4点感觉怎么样?”)来生成用于编码器340的输入数据423。例如,数据分析器322至少部分地基于与依存句法分析图421的节点425相对应的上下文135的元素来生成节点嵌入431。为了说明,数据分析器322基于与节点425A相对应的上下文135的元素(例如,“在下午4点”)来生成节点嵌入431A。作为另一示例,数据分析器322基于与节点425E相对应的上下文135的元素(例如,“在起居室中”)来生成节点嵌入431E。
数据分析器322基于一个或多个感兴趣项147生成与节点嵌入431相对应的兴趣标签433。例如,响应于确定节点嵌入431A与表示包括一个或多个感兴趣项147中的至少一个(或者是其同义词)的单词或短语(例如,“在下午4点”)的节点425A相关联,数据分析器322生成与具有第一值(例如,“1”)的节点嵌入431A相对应的兴趣标签433A。在另一示例中,响应于确定节点嵌入431E与表示不包括一个或多个感兴趣项147中的任何一个(或不是其同义词)的单词或短语(例如,“在起居室中”)的节点425E相关联,数据分析器322生成与具有第二值(例如,“0”)的节点嵌入431E相对应的兴趣标签433E。类似地,数据分析器322为节点425B-D中的每一个生成兴趣标签433。
数据分析器322生成与节点嵌入431相对应的词性数据435的部分。例如,数据分析器322生成与节点嵌入431A相对应的词性数据435A的部分。作为另一示例,数据分析器322生成与节点嵌入431E相对应的词性数据435E的部分。数据分析器322基于节点嵌入431、兴趣标签433、词性数据435或其组合来生成输入数据423。
提供基于依存句法分析图421来生成输入数据423作为说明性示例。在一些示例中,依存句法分析器320生成上下文135的语义关系的另一表示,并且数据分析器322基于该另一表示和一个或多个感兴趣项147来生成输入数据423。
数据分析器322将输入数据423(例如,作为输入嵌入)提供给编码器340。在特定方面,编码器340对应于图8的编码器800,输入数据423对应于输入数据841,并且编码器340生成对应于经编码数据828的基于语义的表示143,如参考图8所述。在特定方面,输入级342的输出对应于基于输入数据423的输入嵌入(例如,节点嵌入431、兴趣标签433、词性数据435或其组合)。在特定方面,一个或多个编码层344中的初始编码层的注意力层(例如,图8的层归一化862)的输入基于由输入级342提供的输入嵌入。在特定方面,基于语义的表示143基于初始编码层的注意力层的输出(例如,层归一化862)。
在特定实施方式中,设备102包括网络配置器360,并且依存网络编码器142包括预测层350。在配置阶段(例如,训练、测试或更新)期间,编码器340将基于语义的表示143提供给预测层350,并且预测层350生成节点预测451。例如,预测层350生成对应于节点425A的节点预测451A。作为另一示例,预测层350生成对应于节点425E的节点预测451E。网络配置器360基于节点预测451(例如,预测值)与节点值462(例如,预定值)的比较来确定模型误差464。网络配置器360基于模型误差464生成配置命令361以更新编码器340的配置设置(例如,权重、偏置等)。
编码器340向组合器108提供(例如,在使用阶段期间)基于语义的表示143,如参考图1所述。因此,依存网络编码器142使得能够生成基于语义的表示143,其合并了一个或多个感兴趣项147的单词与上下文135之间的语义关系。
参考图5,示出了依存网络编码器142的操作的说明性方面的图500。在特定方面,依存网络编码器142被配置为基于对先前上下文522的处理来处理上下文532。
在特定方面,依存句法分析器320处理先前上下文522以生成依存句法分析图524,并且在先前上下文522的处理期间更新依存句法分析器320的状态。依存句法分析器320发起对经更新状态中的上下文532的处理以生成依存句法分析图534。在特定方面,上下文532对应于上下文135,并且依存句法分析图534对应于图4的依存句法分析图421。在另一方面,上下文532对应于上下文303,并且依存句法分析图534对应于图3的依存句法分析图321。
在特定方面,编码器340基于依存句法分析图524和依存句法分析图534来生成基于语义的表示536。例如,编码器340处理与依存句法分析图524相对应的输入数据(例如,输入嵌入)以生成先前的基于语义的表示526,并且编码器340的状态在输入数据的处理期间被更新。编码器340发起对与更新状态下的依存句法分析图534相对应的输入数据(例如,输入嵌入)的处理,以生成基于语义的表示536。
在特定方面,编码器340基于先前的基于语义的表示526生成基于语义的表示536。例如,输入级342基于输入数据323和先前的基于语义的表示526(例如,基于反馈语义的表示)生成输入数据(例如,输入嵌入),并将输入数据提供给一个或多个编码层344以生成基于语义的表示536。
在特定方面,基于语义的表示536对应于图1的基于语义的表示143、图3的基于语义的表示341或两者。因此,依存网络编码器142可以基于与上下文532和先前上下文522之间的语义关系相对应的状态来生成基于语义的表示536。
参考图6,示出了数据相关编码器144的操作的说明性方面的图600。上下文生成器134向数据相关编码器144提供上下文135(例如,“在下午4点拉维在起居室中感到恼怒”)。
数据相关编码器144处理上下文135以生成基于上下文的表示145。在特定方面,数据相关编码器144包含经由一个或多个编码层644耦合到层归一化646(例如,归一化层)的输入级642。在一些实施方式中,数据相关编码器144如参考图8中描绘的编码器800所描述的那样配置和操作。例如,上下文135对应于图8的输入数据841,并且编码数据828对应于基于上下文的表示145。数据相关编码器144将基于上下文的表示145提供给组合器108。
在特定方面,输入级642的输出对应于基于上下文135的输入嵌入。在特定方面,一个或多个编码层644中的初始编码层的注意力层(例如,图8的层归一化862)的输入基于由输入级642提供的输入嵌入。在特定方面,基于上下文的表示145基于初始编码层的注意力层的输出(例如,层归一化862)。
在特定方面,一个或多个编码层344包含与一个或多个编码层644相同计数或不同计数的层。在特定方面,一个或多个编码层344具有与一个或多个编码层644不同的配置设置(例如,不同权重、不同偏置等)。在特定方面,数据相关编码器144对应于预训练的语言编码器。
在特定方面,数据相关编码器144被配置为将上下文135的每个单词映射到上下文135的每隔一个单词。在特定实施方式中,输入级642被配置为生成与上下文135的每个元素(例如,单词、标点符号等)相对应的标记嵌入。在特定方面,输入级642还生成指示上下文135的开始的分类(CLS)标记嵌入(例如,[CLS])。在特定方面,输入级642被配置为生成与标记嵌入相对应的位置嵌入。例如,与标记嵌入相对应的位置嵌入指示上下文135中的对应元素的位置。输入级642被配置为提供标记嵌入、位置嵌入或其组合作为一个或多个编码层644的输入。在一些方面,一个或多个编码层644如参考图8中描绘的一个或多个编码层844所描述来配置和操作。
参考图7,示出了数据相关编码器144的操作的说明性方面的图700。在特定方面,数据相关编码器144被配置为基于对先前上下文722的处理来处理上下文135。
在特定方面,数据相关编码器144基于上下文135和先前上下文722生成基于上下文的表示145。例如,数据相关编码器144处理与先前上下文722相对应的输入数据(例如,输入嵌入)以生成先前的基于上下文的表示724,并且在输入数据的处理期间更新数据相关编码器144的状态。数据相关编码器144发起与更新状态下的上下文135相对应的输入数据(例如,输入嵌入)的处理,以生成基于上下文的表示145。
在特定方面,数据相关编码器144基于先前基于上下文的表示724生成基于上下文的表示145。例如,输入级642基于上下文135和先前的基于上下文的表示724(例如,基于反馈上下文的表示)生成输入数据(例如,输入嵌入),并将输入数据提供给一个或多个编码层644以生成基于上下文的表示145。因此,数据相关编码器144可以基于与上下文135和先前上下文722之间的关系相对应的状态来生成基于上下文的表示145。
参考图9,示出了相关项生成器950的操作的说明性方面的图900。在特定方面,相关项生成器950对应于图1的相关项生成器150。
相关项生成器950(例如,生成解码器)包括一个或多个解码层944。一个或多个解码层944中的每个解码层包括经掩蔽的注意力层和前馈层。例如,经掩蔽的注意力层包括经掩蔽的自我注意力964(例如,经掩蔽的解码器注意力网络)。前馈层包括前馈神经网络970(例如,完全连接的前馈神经网络)。在特定方面,一个或多个解码层944被配置为处理语义增强的表示109。
在特定方面,一个或多个解码层944接收与由相关项生成器150针对先前时间步生成的一个或多个相关项151相对应的一个或多个反馈相关项929。一个或多个解码层944中的解码层处理基于语义增强的表示109、一个或多个反馈相关项929或其组合的数据。在特定方面,经掩蔽的自我注意力964掩蔽经掩蔽的自我注意力964的输入中的未来位置。经掩蔽的自我注意力964从到经掩蔽的自我注意力964的输入的掩蔽版本生成查询向量、关键向量和值向量。经掩蔽的自我注意力964的每个注意力头部(例如,多头注意力)处理查询向量、关键向量和值向量以生成输出。经掩蔽的自我注意力964的注意力头部的独立输出被级联并线性变换,以生成经掩蔽的自我注意力964的输出。经掩蔽的自我注意力964的输出被提供给解码层的前馈神经网络970。一个或多个解码层944中的特定解码层的前馈神经网络970的输出被输出为一个或多个相关项151。
提供包含单个解码层的一个或多个解码层944作为说明性示例。在其他示例中,一个或多个解码层944包括多个解码层,其中相关项生成器950的输入耦合到初始解码层的经掩蔽的自我注意力964,每个先前解码层的前馈神经网络970耦合到后续编码层的经掩蔽的自我注意力964,并且最后一个解码层的前馈神经网络970耦合到相关项生成器950的输出。
在特定方面,图3的网络配置器360在配置(例如,训练、测试或更新)阶段期间基于损失度量来调整相关项生成器950的配置参数(例如,神经网络权重、偏置等)。例如,网络配置器360基于一个或多个相关项(例如,预定值)与一个或多个相关项151(例如,预测值)的比较来确定损失度量。响应于确定损失度量未能满足损失阈值,网络配置器360更新图3的编码器340的一个或多个编码层344的神经网络配置设置(例如,权重、偏置等)、一个或多个解码层944的经掩蔽的自我注意力964或其组合。
参考图10,示出了相关项生成器1050的说明性方面的图1000。在特定方面,相关项生成器1050对应于图1的相关项生成器150。
相关项生成器1050包括神经网络1042(例如,基于BERT的网络),其被配置为处理语义增强的表示109以生成跨度匹配数据1053。跨度匹配数据1053指示对应于与一个或多个感兴趣项147相关联的相关项的上下文135的跨度的概率(例如,“在下午4点,拉维在起居室中感到恼怒。莱宏在下午5点打开冰箱”)。例如,跨度匹配数据1053指示上下文135的从跨度开始1051A(例如,对应于“在……处”的位置)开始到跨度结束1053(例如,对应于“恼怒”的位置)的第一跨度(例如,“在下午4点拉维感到恼怒”)具有对应于与一个或多个感兴趣项147相关联的相关项(例如,“在下午4点拉维感觉怎么样?”)的概率分数1055A(例如,0.9)。作为另一示例,跨度匹配数据1053指示从跨度开始1051N(例如,对应于“莱宏”的位置)开始到跨度结束1053N(例如,对应于最后的“下午”的位置)的第二跨度(例如,“莱宏在下午5点打开冰箱”)具有对应于与一个或多个感兴趣项147相关联的相关项的概率分数1055N(例如,0.3)。在特定方面,跨度匹配数据1053包括对应于CLS标记(指示上下文135的开始)的概率分数1056。
在框1044处,相关项生成器1050确定CLS标记的概率分数1056是否指示由跨度匹配数据1053指示的概率分数中的最高概率。在框1046处,响应于确定CLS标记的概率分数1056不指示概率分数中的最高概率,相关项生成器1050输出与指示最高概率的概率分数相关联的跨度。例如,相关项生成器1050响应于确定概率分数1055A(例如,0.9)在概率分数中最高,从上下文135或语义增强的表示109提取从跨度开始1051A(例如,对应于“在……处”的位置)开始到跨度结束1053(例如,对应于“恼怒”的位置)的第一跨度(例如,“在下午4点拉维感到恼怒”)。相关项生成器1050输出第一跨度(例如,“在下午4点拉维感到恼怒”)作为一个或多个相关项151。
在1048处,响应于确定CLS标记的概率分数1056在概率分数中最高,相关项生成器1050确定上下文135(例如,“在下午4点拉维在起居室感到恼怒。莱宏在下午5点打开冰箱”)不包括与一个或多个感兴趣项147相关的任何项(例如,“谁在学习中?”)。在特定方面,相关项生成器1050输出指示在上下文135中没有检测到与一个或多个感兴趣项147(例如,“谁在学习中?”)相对应的项目的值(例如,“是、否或未知”)(例如,“在下午4点拉维在起居室中感到恼怒。莱宏在下午5点打开冰箱”)。
图11将设备102的实施方式1100描绘为包括一个或多个处理器190的集成电路1102。在特定方面,一个或多个处理器190包括上下文表示生成器140、相关项生成器150、蕴涵过滤器152或其组合。
集成电路1102还包括信号输入1104,诸如一个或多个总线接口,以使得输入数据1126能够被接收以用于处理。集成电路1102还包括信号输出1106,诸如总线接口,以使得能够发送输出信号,诸如相关项数据1150。在特定方面,输入数据1126包括传感器数据126、上下文135、一个或多个感兴趣项147、基于语义的表示143、基于上下文的表示145、语义增强的表示109、一个或多个相关项151、一个或多个经过滤的相关项153或其组合。在特定方面,相关项数据1150指示一个或多个相关项151、一个或多个经过滤的相关项153、输出数据171或其组合。
集成电路1102实现语义增强的上下文表示生成中的实施方式,作为系统中的组件,诸如图12所示的移动电话或平板电脑、图13所示的耳机、图14所示的可穿戴电子设备、图15所示的语音控制扬声器系统、图16所示的相机、图17所示的虚拟现实、混合现实或增强现实耳机或者图18或图19所示的车辆。
作为说明性的非限制性示例,图12描绘了实施方式1200,其中设备102包括移动设备1202,诸如电话或平板电脑。移动设备1202包括传感器124A(例如,相机)、传感器124B(例如,麦克风)和显示屏1204。在特定方面,移动设备1202包括一个或多个附加的传感器。一个或多个处理器190的组件(包括上下文表示生成器140、相关项生成器150、蕴涵过滤器152或其组合)集成在移动设备1202中,并且使用虚线示出以指示移动设备1202的用户通常不可见的内部组件。在特定示例中,上下文表示生成器140基于传感器124的传感器数据126、用户的日历数据(例如,约会)、用户的通信数据(例如,电子邮件、语音邮件等)或其组合来生成移动设备1202的用户的上下文135。上下文表示生成器140基于上下文135和一个或多个感兴趣项147生成语义增强的表示109,并且相关项生成器150基于语义增强的表示109生成一个或多个相关项151。
在特定方面,一个或多个感兴趣项147基于用户输入。例如,移动设备1202的用户经由用户输入提供一个或多个感兴趣项147(例如,“我在星期四订购的午餐是什么?”)以从上下文135提取一个或多个相关项151(例如,“火鸡三明治”)。在特定示例中,移动设备1202从另一设备(例如,服务器)接收一个或多个感兴趣项147(例如,“谁超速?”),并将一个或多个相关项151(或一个或多个经过滤的相关项153)提供给另一设备。
图13描绘了实施方式1300,其中设备102包括头戴式耳机设备1302。头戴式耳机设备1302包含传感器124(例如,麦克风)。一个或多个处理器190的组件(包括上下文表示生成器140、相关项生成器150、蕴涵过滤器152或其组合)集成在头戴式耳机设备1302中。在特定示例中,上下文表示生成器140、相关项生成器150、蕴涵过滤器152或其组合操作以生成指示用户活动的一个或多个相关项151(或一个或多个经过滤的相关项153),这可以使得头戴式耳机设备1302在头戴式耳机设备1302处执行一个或多个操作,以将与用户语音活动相对应的一个或多个相关项151(或一个或多个过滤的相关项153)发送到第二设备(未示出)以用于进一步处理,或其组合。
图14描绘了实施方式1400,其中设备102包括可穿戴电子设备1402,示出为“智能手表”,上下文表示生成器140、相关项生成器150、蕴涵过滤器152、传感器124A(例如,相机)、传感器124B(例如,麦克风)或其组合集成到可穿戴电子设备1402中。在特定示例中,上下文表示生成器140、相关项生成器150、蕴涵过滤器152或其组合操作以生成指示用户活动的一个或多个相关项151(或一个或多个经过滤的相关项153),然后处理该相关项151以在可穿戴电子设备1402处执行一个或多个操作,诸如启动图形用户界面或以其他方式在可穿戴电子设备1402的显示屏1404处显示与用户活动相关联的信息。为了说明,可穿戴电子设备1402可以包括显示屏1404,显示屏1404被配置为基于由可穿戴电子设备1402检测到的用户活动来显示通知。在特定示例中,可穿戴电子设备1402包括响应于检测到用户活动而提供触觉通知(例如,振动)的触觉设备。例如,触觉通知可以使用户查看可穿戴电子设备1402以看到指示检测到用户说出的关键字的所显示的通知。因此,可穿戴电子设备1402可以警告听力受损的用户或佩戴耳机的用户检测到用户活动。
图15是实施方式1500,其中设备102包括无线扬声器和语音激活设备1502。无线扬声器和语音激活设备1502可以具有无线网络连接并且被配置为执行辅助操作。包括上下文表示生成器140、相关项生成器150、蕴涵过滤器152、传感器124A(例如,相机)、传感器124B(例如,麦克风)或其组合的一个或多个处理器190包括在无线扬声器和语音激活设备1502中。无线扬声器和语音激活设备1502还包括扬声器1504。在操作期间,响应于接收到对应于一个或多个感兴趣项147的口头命令(例如,“设置为我的偏好”),无线扬声器和语音激活设备1502可以执行辅助操作,诸如经由上下文表示生成器140、相关项生成器150、蕴涵过滤器152或其组合(例如,集成辅助应用)的操作。例如,一个或多个相关项151(或一个或多个经过滤的相关项153)指示用户和从上下文135提取的用户的先前设置。辅助操作可以包括调节温度、播放音乐、打开灯、提供信息等。例如,响应于在关键字或关键短语(例如,“你好助理”)之后接收到命令来执行助理操作。
图16描绘了实施方式1600,其中设备102包括对应于相机设备1602的便携式电子设备。上下文表示生成器140、相关项生成器150、蕴涵过滤器152、传感器124A(例如,图像传感器)、传感器124B(例如,麦克风)或其组合被包括在相机设备1602中。在操作期间,作为说明性示例,响应于经由上下文表示生成器140、相关项生成器150、蕴涵过滤器152或其组合的操作检测到用户活动,相机设备1602可以响应于用户活动执行操作,诸如调整图像或视频捕获设置、图像或视频回放设置或者图像或视频捕获指令。
图17描绘了实施方式1700,其中设备102包括对应于虚拟现实、混合现实或增强现实耳机1702的便携式电子设备。上下文表示生成器140、相关项生成器150、蕴涵过滤器152、传感器124A(例如,相机)、传感器124B(例如,麦克风)或其组合被集成到头戴式耳机1702中。可以基于从头戴式耳机1702的传感器124接收的传感器数据来执行用户活动检测。视觉接口设备位于用户眼睛的前方,以使得能够在佩戴耳机1702时向用户显示增强现实、混合现实或虚拟现实图像或场景。在特定示例中,视觉接口设备被配置为显示指示在传感器数据中检测到的用户活动的通知。
图18描绘了实施方式1800,其中设备102对应于交通工具1802或集成在交通工具1802内,交通工具1802被图示为有人驾驶或无人驾驶的空中设备(例如,包裹递送无人机)。上下文表示生成器140、相关项生成器150、蕴涵过滤器152、传感器124A(例如,相机)、传感器124B(例如,麦克风)或其组合被集成到交通工具1802中。可以基于从车辆1802的传感器124接收的传感器数据126(诸如用于组装指令)来执行用户活动检测。例如,上下文表示生成器140可以通过基于一个或多个感兴趣项147(例如,“用户正在执行什么组装步骤?”)处理传感器数据126来生成语义增强的表示109。相关项生成器150可以生成指示正在执行的组装步骤的一个或多个相关项151。交通工具1802可以输出指示要执行的下一组装步骤的视听指令。
图19描绘了另一实施方式1900,其中设备102对应于交通工具1902或集成在交通工具1902内,交通工具1902被示出为汽车。交通工具1902包括一个或多个处理器190,其包括上下文表示生成器140、相关项生成器150、蕴涵过滤器152或其组合。交通工具1902还包括传感器124A(例如,相机)、传感器124B(例如,麦克风)或两者。可以基于从交通工具1902的传感器124接收的传感器数据来执行用户活动检测。在一些实施方式中,可以基于从内部麦克风(例如,传感器124B)接收的音频信号来执行用户活动检测,诸如针对来自授权乘客的指示一个或多个感兴趣项147的语音命令。在另一实施方式中,可以对指示一个或多个感兴趣项147(例如,“谁正在超速?”)的配置设置执行用户活动检测,并且可以将一个或多个相关项151(或一个或多个经过滤的相关项153)发送到第二设备(例如,父移动设备)。在特定实施方式中,响应于经由上下文表示生成器140、相关项生成器150、蕴涵过滤器152或其组合的操作生成一个或多个相关项151(或一个或多个经过滤的相关项153),交通工具1902发起一个或多个操作,诸如自动减速、经由扬声器1910播放警报(例如“,向父母发送超速通知”)、经由显示屏1920显示警报或另一操作。
参考图20,示出了语义增强的上下文表示生成的方法2000的特定实施方式。在特定方面,方法2000的一个或多个操作由图1的上下文表示生成器140、上下文生成器134、组合器108、一个或多个处理器190、设备102、系统100或其组合中的至少一个执行。
方法2000包括在框2002处将上下文和与上下文相对应的一个或多个感兴趣项提供给依存网络编码器,以生成上下文的基于语义的表示。例如,图1的上下文表示生成器140将上下文135和一个或多个感兴趣项147提供给依存网络编码器142以生成基于语义的表示143,如参考图1所描述的。
方法2000还包括在框2004处将上下文提供给数据相关编码器以生成基于上下文的表示。例如,图1的上下文表示生成器140将上下文135提供给数据相关编码器144以生成基于上下文的表示145,如参考图1所描述的。
方法2000还包括在框2006处组合基于语义的表示和基于上下文的表示以生成上下文的语义增强的表示。例如,图1的组合器108组合基于语义的表示143和基于上下文的表示145以生成上下文135的语义增强的表示109,如参考图1所描述的。
因此,方法2000使得能够通过组合基于语义的表示143和基于上下文的表示145来生成上下文135的语义增强的表示109。语义增强的表示109具有基于上下文的表示145(例如,丰富连接)和基于语义的表示143(例如,语言连接)两者的优点。
图20的方法2000可由现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、处理单元(例如中央处理单元(CPU))、数字信号处理器(DSP)、控制器、另一硬件设备、固件设备或其任何组合实施。作为示例,图20的方法2000可以由执行指令的处理器来执行,诸如参考图21所描述的。
参考图21,描绘了设备的特定说明性实施方式的框图,并且通常将其指定为2100。在各种实施方案中,设备2100可具有比图21中所说明的组件更多或更少的组件。在说明性实施方式中,设备2100可以对应于设备102。在说明性实施方式中,设备2100可以执行参考图1-20描述的一个或多个操作。
在特定实施方式中,设备2100包括处理器2106(例如,CPU)。设备2100可包括一个或多个附加的处理器2110(例如,一个或多个DSP)。在特定方面,图1的一个或多个处理器190对应于处理器2106、处理器2110或其组合。处理器2110可包含语音和音乐译码器-解码器(CODEC)2108,其包含语音译码器(“声码器”)编码器2136、声码器解码器2138或两者。在特定方面,处理器2110包括上下文表示生成器140、相关项生成器150、蕴涵过滤器152或其组合。
设备2100可包括存储器132和CODEC 2134。存储器132可以包括指令196,指令196可由一个或多个附加的处理器2110(或处理器2106)执行以实现参考上下文表示生成器140、相关项生成器150、蕴涵过滤器152或其组合描述的功能。设备2100可以包括经由收发器2150耦合到天线2152的调制解调器2170。
设备2100可包括耦合到显示器控制器2126的显示器2128。一个或多个扬声器2192和一个或多个麦克风2194可耦合到CODEC 2134。CODEC 2134可包括数/模转换器(DAC)2102、模/数转换器(ADC)2104或两者。在特定实施方式中,CODEC 2134可从一个或多个麦克风2194接收模拟信号,使用模/数转换器2104将模拟信号转换成数字信号,且将数字信号提供给语音和音乐CODEC 2108。语音和音乐编解码器2108可处理数字信号,且数字信号可进一步由上下文表示产生器140处理。在特定实施方式中,语音和音乐编解码器2108可将数字信号提供给编解码器2134。CODEC 2134可使用数/模转换器2102将数字信号转换成模拟信号,且可将模拟信号提供给一个或多个扬声器2192。
在特定实施方式中,设备2100可以被包括在系统级封装或片上系统设备2122中。在特定实施方式中,存储器132、处理器2106、处理器2110、显示器控制器2126、CODEC 2134和调制解调器2170被包括在系统级封装或片上系统设备2122中。在特定实施方式中,输入设备2130、一个或多个传感器124和电源2144耦合到片上系统设备2122。此外,在特定实施方式中,如图21所示,显示器2128、输入设备2130、一个或多个传感器124、一个或多个扬声器2192、一个或多个麦克风2194、天线2152和电源2144在片上系统设备2122外部。在特定实施方式中,显示器2128、输入设备2130、一个或多个传感器124、一个或多个扬声器2192、一个或多个麦克风2194、天线2152及电源2144中的每一者可耦合到片上系统设备2122的组件,例如接口或控制器。
设备2100可以包括智能扬声器、扬声器杆、移动通信设备、智能电话、蜂窝电话、膝上型计算机、计算机、平板电脑、个人数字助理、显示设备、电视、游戏控制台、音乐播放器、收音机、数字视频播放器、数字视频盘(DVD)播放器、调谐器、相机、导航设备、车辆、耳机、增强现实耳机、混合现实耳机、虚拟现实耳机、飞行器、家庭自动化系统、语音激活设备、无线扬声器和语音激活设备。便携式电子设备、汽车、计算设备、通信设备、物联网(IoT)设备、虚拟现实(VR)设备、混合现实(MR)设备、增强现实(AR)设备、基站、移动设备或其任何组合。
结合所描述的实施方式,装置包括用于将上下文和与上下文相对应的一个或多个感兴趣项提供给依存网络编码器以生成上下文的基于语义的表示的装置。例如,用于提供上下文和一个或多个兴趣项的装置可以对应于上下文生成器134、上下文表示生成器140、一个或多个处理器190、设备102、图1的系统100、处理器2106、一个或多个处理器2110、被配置为向依存网络编码器提供上下文和一个或多个兴趣项的一个或多个其他电路或组件,或其任何组合。
所述装置还包含用于将所述上下文提供给数据相关编码器以生成基于上下文的表示的部件。例如,用于提供上下文的部件可以对应于上下文生成器134、上下文表示生成器140、一个或多个处理器190、设备102、图1的系统100、处理器2106、一个或多个处理器2110、被配置为向数据相关编码器提供上下文的一个或多个其他电路或组件,或其任何组合。
装置还包括用于组合基于语义的表示和基于上下文的表示以生成上下文的语义增强的表示的部件。例如,用于组合的部件可以对应于图1的组合器108、上下文表示生成器140、一个或多个处理器190、装置102、系统100、处理器2106、一个或多个处理器2110、被配置为组合基于语义的表示和基于上下文的表示的一个或多个其他电路或组件,或其任何组合。
在一些实施方式中,非暂时性计算机可读介质(例如,计算机可读存储设备,诸如存储器132)包括指令(例如,指令196),指令196在由一个或多个处理器(例如,一个或多个处理器2110或处理器2106)执行时使一个或多个处理器将上下文(例如,上下文135)和与上下文相对应的一个或多个感兴趣项(例如,一个或多个感兴趣项147)提供给依存网络编码器(例如,依存网络编码器142)以生成基于语义的表示(例如,基于语义的表示143)。该指令在由一个或多个处理器执行时还使一个或多个处理器将上下文提供给数据相关编码器(例如,数据相关编码器144)以生成基于上下文的表示(例如,基于上下文的表示145)。该指令在由一个或多个处理器执行时还使一个或多个处理器组合基于语义的表示和基于上下文的表示以生成上下文的语义增强的表示(例如,语义增强的表示109)。
下面在相关条款的集合中描述本公开的特定方面:
根据条款1,一种设备包括:存储器,其被配置为存储指令;以及一个或多个处理器,其被配置为执行指令以:将上下文和与上下文相对应的一个或多个感兴趣项提供给依存网络编码器,以生成上下文的基于语义的表示;将所述上下文提供给数据相关编码器以生成基于上下文的表示;以及组合基于语义的表示和基于上下文的表示以生成上下文的语义增强的表示。
条款2包括条款1的设备,其中所述一个或多个处理器进一步被配置为从一个或多个传感器接收传感器数据且基于所述传感器数据生成所述上下文。
条款3包括条款2的设备,其中一个或多个传感器包括相机,其中传感器数据包括来自相机的图像数据,并且其中一个或多个处理器被配置为至少部分地基于对图像数据执行对象识别、情绪识别、位置识别、人识别或其组合来生成上下文。
条款4包括条款2或条款3的设备,其中一个或多个传感器包括麦克风,其中传感器数据包括来自麦克风的音频数据,并且其中一个或多个处理器被配置为至少部分地基于对音频数据执行语音识别、情绪识别、位置识别、说话者识别或其组合来生成上下文。
条款5包括条款1至条款4中任一项的设备,其中一个或多个项包括由上下文指示的答案,并且其中一个或多个处理器还被配置成:将上下文的语义增强的表示提供给生成解码器以生成针对答案的一个或多个预测问题;以及将所述一个或多个预测问题提供给蕴涵过滤器以生成一个或多个经过滤的预测问题,其中,所述一个或多个经过滤的预测问题被包括在训练集合中以训练问答网络。
条款6包括条款1至条款4中任一项的设备,其中一个或多个处理器还被配置为将上下文的语义增强的表示提供给生成解码器以生成一个或多个相关项。
条款7包括条款6的设备,其中,一个或多个感兴趣项包括由上下文指示的答案,并且其中,一个或多个相关项包括针对答案的预测问题。
条款8包括条款6的设备,其中一个或多个感兴趣项包括与上下文相关的问题,并且其中一个或多个相关项包括对问题的预测答案。
条款9包括条款6至条款8中任一项的设备,其中,所述一个或多个处理器被配置为将所述一个或多个相关项提供给蕴涵过滤器以生成一个或多个经过滤的相关项。
条款10包括条款1至条款9中任一项的设备,其中依存网络编码器还被配置为:将上下文提供给依存句法分析器以生成依存句法分析图;至少部分地基于所述上下文的与所述依存句法分析图的节点相对应的元素来生成节点嵌入;以及向一个或多个编码层提供输入嵌入以生成上下文的基于语义的表示,输入嵌入至少部分地基于节点嵌入。
条款11包括条款10的设备,其中,对于节点嵌入中的每个节点嵌入,输入嵌入指示与节点嵌入相对应的上下文的一个或多个元素的词性。
条款12包括条款10或条款11的设备,其中,对于节点嵌入中的每个节点嵌入,输入嵌入指示与节点嵌入相对应的上下文的一个或多个元素是否与一个或多个感兴趣项相关联。
条款13包括条款10至条款12中任一项的设备,其中,一个或多个编码层中的编码层包括注意力层和前馈层,其中,注意力层包括多头注意力,其中,注意力层的输入基于输入嵌入,并且其中,上下文的基于语义的表示基于注意力层的输出。
条款14包括条款10至条款13中任一项的设备,其中依存网络编码器还包括预测层,其中预测层的输入基于上下文的基于语义的表示,并且其中预测层的输出指示上下文的被预测为与一个或多个感兴趣项相关的一个或多个元素。
条款15包括条款10至条款14中任一项的设备,其中,依存句法分析器被配置成至少部分地基于先前上下文来生成依存句法分析图。
条款16包括条款10至条款15中任一项的设备,其中一个或多个编码层被配置为至少部分地基于第二输入嵌入来生成上下文的基于语义的表示,其中第二输入嵌入与基于先前上下文的第二依存句法分析图相关联。
条款17包括条款10至条款16中任一项的设备,其中一个或多个编码层被配置为至少部分地基于先前上下文的第二基于语义的表示来生成上下文的基于语义的表示。
条款18包括条款1至条款17中任一项的设备,其中,数据相关编码器被配置为:基于上下文的元素来生成输入嵌入;以及将输入嵌入提供给一个或多个编码层以生成基于上下文的表示。
条款19包括条款18的设备,其中,一个或多个编码层中的编码层包括注意力层和前馈层,其中,注意力层包括多头注意力,其中,注意力层的输入基于输入嵌入,并且其中,基于上下文的表示基于注意力层的输出。
条款20包括条款18或条款19的设备,其中一个或多个编码层被配置为至少部分地基于与先前上下文相关联的第二输入嵌入来生成基于上下文的表示。
条款21包含条款18到条款20中任一者的设备,其中所述一个或多个编码层被配置为至少部分地基于先前上下文的第二基于上下文的表示生成所述基于上下文的表示。
根据条款22,一种方法包括:在设备处向依存网络编码器提供上下文和与上下文相对应的一个或多个感兴趣项,以生成上下文的基于语义的表示;在所述设备处将所述上下文提供给数据相关编码器以生成基于上下文的表示;以及在设备处组合基于语义的表示和基于上下文的表示以生成上下文的语义增强的表示。
条款23包括条款22的方法,还包括:在设备处接收来自一个或多个传感器的传感器数据;以及基于传感器数据生成上下文。
条款24包括条款21或条款22的方法,还包括:在设备处将上下文的语义增强的表示提供给生成解码器,以生成由上下文指示的答案的一个或多个预测问题,其中一个或多个项包括答案;以及在设备处将一个或多个预测问题提供给蕴涵过滤器以生成一个或多个经过滤的预测问题,其中一个或多个经过滤的预测问题被包括在训练集合中以训练问答网络。
根据条款25,一种设备包括:存储器,其被配置为存储指令;以及处理器,其被配置为执行指令以执行条款22至24中任一项的方法。
根据条款26,一种非暂时性计算机可读介质存储指令,所述指令在由处理器执行时使处理器执行条款22至条款24中任一项所述的方法。
根据条款27,一种装置包括用于执行条款22至条款24中任一项的方法的部件。
根据条款28,一种非暂时性计算机可读介质存储指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器:将上下文和与上下文相对应的一个或多个感兴趣项提供给依存网络编码器,以生成上下文的基于语义的表示;将所述上下文提供给数据相关编码器以生成基于上下文的表示;以及组合基于语义的表示和基于上下文的表示以生成上下文的语义增强的表示。
条款29包括条款28的非暂时性计算机可读介质,其中指令在由一个或多个处理器执行时还使一个或多个处理器将上下文的语义增强的表示提供给生成解码器以生成一个或多个相关项。
条款30包括条款28或条款29的非暂时性计算机可读介质,其中一个或多个感兴趣项包括由上下文指示的答案,并且其中一个或多个相关项包括针对答案的预测问题。
条款31包括条款28或条款29的非暂时性计算机可读介质,其中一个或多个感兴趣项包括与上下文相关的问题,并且其中一个或多个相关项包括对问题的预测答案。
根据条款32,一种装置包括:用于将上下文和与上下文相对应的一个或多个感兴趣项提供给依存网络编码器以生成上下文的基于语义的表示的部件;用于将所述上下文提供给数据相关编码器以生成基于上下文的表示的部件;以及用于组合基于语义的表示和基于上下文的表示以生成上下文的语义增强的表示的部件。
条款33包括条款32的装置,其中用于向依存网络编码器提供上下文和一个或多个感兴趣项的部件、用于向数据相关编码器提供上下文的部件、以及用于组合的部件被集成到语音激活设备、无线扬声器和语音激活设备、便携式电子设备、汽车、车辆、计算设备、通信设备、物联网(IoT)设备、虚拟现实(VR)设备、混合现实(MR)设备、增强现实(AR)设备或其组合中的至少一个中。
所属领域的技术人员将进一步了解,结合本文中所揭示的实施方案描述的各种说明性逻辑块、配置、模块、电路和算法步骤可实施为电子硬件、由处理器执行的计算机软件或两者的组合。各种说明性组件、块、配置、模块、电路和步骤已在上文大体上就其功能性进行了描述。这样的功能被实现为硬件还是处理器可执行指令取决于特定应用和施加在整个系统上的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述的功能性,此类实施方式决策不应被解释为导致脱离本发明的范围。
结合本文中所揭示的实施方案描述的方法或算法的步骤可直接体现于硬件中、由处理器执行的软件模块中或两者的组合中。软件模块可以驻留在随机存取存储器(RAM)、闪存存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、压缩盘只读存储器(CD-ROM)、或本领域已知的任何其他形式的非暂时性存储介质中。示例性存储介质耦合到处理器,使得处理器可以从存储介质读取信息和向存储介质写入信息。在替代方案中,存储介质可以集成到处理器。处理器和存储介质可以驻留在专用集成电路(ASIC)中。ASIC可以驻留在计算设备或用户终端中。在替代方案中,处理器和存储介质可以作为分立组件驻留在计算设备或用户终端中。
提供对所公开的方面的先前描述是为了使得本领域技术人员能够制作或使用所公开的方面。对于本领域技术人员来说,对这些方面的各种修改将是显而易见的,并且在不脱离本公开内容的范围的情况下,本文定义的原理可以应用于其它方面。因此,本发明并不希望限于本文中所展示的方面,而应符合与如由所附权利要求书界定的原理及新颖特征一致的可能的最广泛范围。

Claims (30)

1.一种设备,包括:
存储器,其被配置为存储指令;以及
一个或多个处理器,其被配置为执行所述指令以:
将上下文和与所述上下文相对应的一个或多个感兴趣项提供给依存网络编码器,以生成所述上下文的基于语义的表示;
将所述上下文提供给数据相关编码器以生成基于上下文的表示;以及
组合所述基于语义的表示和所述基于上下文的表示以生成所述上下文的语义增强的表示。
2.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为从一个或多个传感器接收传感器数据,并且基于所述传感器数据生成所述上下文。
3.根据权利要求2所述的设备,其中,所述一个或多个传感器包括相机,其中所述传感器数据包括来自所述相机的图像数据,并且其中所述一个或多个处理器被配置为至少部分地基于对所述图像数据执行对象识别、情绪识别、位置识别、人识别或其组合来生成所述上下文。
4.根据权利要求2所述的设备,其中,所述一个或多个传感器包括麦克风,其中所述传感器数据包括来自所述麦克风的音频数据,并且其中所述一个或多个处理器被配置为至少部分地基于对所述音频数据执行语音识别、情绪识别、位置识别、说话者识别或其组合来生成所述上下文。
5.根据权利要求1所述的设备,其中,所述一个或多个项包括由所述上下文指示的答案,并且其中,所述一个或多个处理器还被配置为:
将所述上下文的所述语义增强的表示提供给生成解码器,以生成针对所述答案的一个或多个预测问题;以及
将所述一个或多个预测问题提供给蕴涵过滤器以生成一个或多个经过滤的预测问题,其中,所述一个或多个经过滤的预测问题被包括在训练集合中以训练问答网络。
6.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为将所述上下文的语义增强的表示提供给生成解码器以生成一个或多个相关项。
7.根据权利要求6所述的设备,其中,所述一个或多个感兴趣项包括由所述上下文指示的答案,并且其中,所述一个或多个相关项包括针对所述答案的预测问题。
8.根据权利要求6所述的设备,其中,所述一个或多个感兴趣项包括与所述上下文相关的问题,并且其中,所述一个或多个相关项包括对所述问题的预测答案。
9.根据权利要求6所述的设备,其中,所述一个或多个处理器被配置为将所述一个或多个相关项提供给蕴涵过滤器以生成一个或多个经过滤的相关项。
10.根据权利要求1所述的设备,其中,所述依存网络编码器还被配置为:
将所述上下文提供给依存句法分析器以生成依存句法分析图;
至少部分地基于所述上下文的与所述依存句法分析图的节点相对应的元素来生成节点嵌入;以及
向一个或多个编码层提供输入嵌入以生成所述上下文的所述基于语义的表示,所述输入嵌入至少部分地基于所述节点嵌入。
11.根据权利要求10所述的设备,其中,对于所述节点嵌入中的每个节点嵌入,所述输入嵌入指示与所述节点嵌入相对应的所述上下文的一个或多个元素的词性。
12.根据权利要求10所述的设备,其中,对于所述节点嵌入中的每个节点嵌入,所述输入嵌入指示与所述节点嵌入相对应的所述上下文的一个或多个元素是否与所述一个或多个感兴趣项相关联。
13.根据权利要求10所述的设备,其中,所述一个或多个编码层中的编码层包括注意力层和前馈层,其中,所述注意力层包括多头注意力,其中,所述注意力层的输入基于所述输入嵌入,并且其中,所述上下文的所述基于语义的表示基于所述注意力层的输出。
14.根据权利要求10所述的设备,其中,所述依存网络编码器还包括预测层,其中所述预测层的输入基于所述上下文的所述基于语义的表示,并且其中所述预测层的输出指示所述上下文的被预测为与所述一个或多个感兴趣项相关的一个或多个元素。
15.根据权利要求10所述的设备,其中,所述依存句法分析器被配置为至少部分地基于先前上下文来生成所述依存句法分析图。
16.根据权利要求10所述的设备,其中,所述一个或多个编码层被配置为至少部分地基于第二输入嵌入来生成所述上下文的所述基于语义的表示,其中,所述第二输入嵌入与基于先前上下文的第二依存句法分析图相关联。
17.根据权利要求10所述的设备,其中,所述一个或多个编码层被配置为至少部分地基于先前上下文的第二基于语义的表示来生成所述上下文的所述基于语义的表示。
18.根据权利要求1所述的设备,其中所述数据相关编码器被配置为:
基于所述上下文的元素来生成输入嵌入;以及
将所述输入嵌入提供给一个或多个编码层以生成所述基于上下文的表示。
19.根据权利要求18所述的设备,其中,所述一个或多个编码层中的编码层包括注意力层和前馈层,其中,所述注意力层包括多头注意力,其中,所述注意力层的输入基于所述输入嵌入,并且其中,所述基于上下文的表示基于所述注意力层的输出。
20.根据权利要求18所述的设备,其中,所述一个或多个编码层被配置为至少部分地基于与先前上下文相关联的第二输入嵌入来生成所述基于上下文的表示。
21.根据权利要求18所述的设备,其中,所述一个或多个编码层被配置为至少部分地基于先前上下文的第二基于上下文的表示来生成所述基于上下文的表示。
22.一种方法,包括:
在设备处向依存网络编码器提供上下文和与所述上下文相对应的一个或多个感兴趣项,以生成所述上下文的基于语义的表示;
在所述设备处将所述上下文提供给数据相关编码器以生成基于上下文的表示;以及
在所述设备处组合所述基于语义的表示和所述基于上下文的表示以生成所述上下文的语义增强的表示。
23.根据权利要求22所述的方法,还包括:
在所述设备处接收来自一个或多个传感器的传感器数据;以及
基于所述传感器数据生成所述上下文。
24.根据权利要求22所述的方法,还包括:
在所述设备处将所述上下文的所述语义增强的表示提供给生成解码器,以生成针对由所述上下文指示的答案的一个或多个预测问题,其中所述一个或多个项包括所述答案;以及
在所述设备处将所述一个或多个预测问题提供给蕴涵过滤器以生成一个或多个经过滤的预测问题,其中所述一个或多个经过滤的预测问题被包括在训练集合中以训练问答网络。
25.一种存储指令的非暂时性计算机可读介质,所述指令在由一个或多个处理器执行时使所述一个或多个处理器:
将上下文和与所述上下文相对应的一个或多个感兴趣项提供给依存网络编码器,以生成所述上下文的基于语义的表示;
将所述上下文提供给数据相关编码器以生成基于上下文的表示;以及
组合所述基于语义的表示和所述基于上下文的表示以生成所述上下文的语义增强的表示。
26.根据权利要求25所述的非暂时性计算机可读介质,其中,所述指令在由所述一个或多个处理器执行时还使所述一个或多个处理器将所述上下文的所述语义增强的表示提供给生成解码器以生成一个或多个相关项。
27.根据权利要求25所述的非暂时性计算机可读介质,其中,所述一个或多个感兴趣项包括由所述上下文指示的答案,并且其中,所述一个或多个相关项包括针对所述答案的预测问题。
28.根据权利要求25所述的非暂时性计算机可读介质,其中,所述一个或多个感兴趣项包括与所述上下文相关的问题,并且其中,所述一个或多个相关项包括针对所述问题的预测答案。
29.一种装置,包括:
用于将上下文和与所述上下文相对应的一个或多个感兴趣项提供给依存网络编码器以生成所述上下文的基于语义的表示的部件;
用于将所述上下文提供给数据相关编码器以生成基于上下文的表示的部件;以及
用于组合所述基于语义的表示和所述基于上下文的表示以生成所述上下文的语义增强的表示的部件。
30.根据权利要求29所述的装置,其中,用于向所述依存网络编码器提供所述上下文和所述一个或多个感兴趣项的部件、用于向所述数据相关编码器提供所述上下文的部件、以及用于组合的部件被集成到语音激活设备、无线扬声器和语音激活设备、便携式电子设备、汽车、车辆、计算设备、通信设备、物联网(IoT)设备、虚拟现实(VR)设备、混合现实(MR)设备、增强现实(AR)设备或其组合中的至少一个中。
CN202280047686.2A 2021-07-22 2022-07-20 语义增强的上下文表示生成 Pending CN117616412A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/383,284 2021-07-22
US17/383,284 US12002455B2 (en) 2021-07-22 Semantically-augmented context representation generation
PCT/US2022/073930 WO2023004341A1 (en) 2021-07-22 2022-07-20 Semantically-augmented context representation generation

Publications (1)

Publication Number Publication Date
CN117616412A true CN117616412A (zh) 2024-02-27

Family

ID=82846131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280047686.2A Pending CN117616412A (zh) 2021-07-22 2022-07-20 语义增强的上下文表示生成

Country Status (4)

Country Link
EP (1) EP4374266A1 (zh)
KR (1) KR20240034189A (zh)
CN (1) CN117616412A (zh)
WO (1) WO2023004341A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140569B2 (en) * 2003-05-29 2012-03-20 Microsoft Corporation Dependency network based model (or pattern)
WO2014000280A1 (en) * 2012-06-29 2014-01-03 Nokia Corporation Method and apparatus for providing task-based service recommendations
US11222253B2 (en) * 2016-11-03 2022-01-11 Salesforce.Com, Inc. Deep neural network model for processing data through multiple linguistic task hierarchies

Also Published As

Publication number Publication date
KR20240034189A (ko) 2024-03-13
WO2023004341A1 (en) 2023-01-26
US20230034450A1 (en) 2023-02-02
EP4374266A1 (en) 2024-05-29

Similar Documents

Publication Publication Date Title
KR102081925B1 (ko) 디스플레이 디바이스 및 스피치 검색 방법
US7603276B2 (en) Standard-model generation for speech recognition using a reference model
EP3824462B1 (en) Electronic apparatus for processing user utterance and controlling method thereof
CN110998720A (zh) 话音数据处理方法及支持该方法的电子设备
US20210118436A1 (en) Artificial intelligence apparatus and method for recognizing speech by correcting misrecognized word
US11016968B1 (en) Mutation architecture for contextual data aggregator
US11847168B2 (en) Training model with model-provided candidate action
CN104704556A (zh) 使用分类器将音频话语映射至动作
US11514916B2 (en) Server that supports speech recognition of device, and operation method of the server
KR102545666B1 (ko) 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치
US11676571B2 (en) Synthesized speech generation
CN110998719A (zh) 信息处理设备和信息处理方法
EP3550449A1 (en) Search method and electronic device using the method
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
EP3790002A1 (en) System and method for modifying speech recognition result
US10573308B2 (en) Apparatus and method for determining operation based on context, vehicle for determining operation based on context, and method of controlling the vehicle
US11211059B2 (en) Artificial intelligence apparatus and method for recognizing speech with multiple languages
WO2011156719A1 (en) System and method for conversion of speech to displayed media data
CN112749550B (zh) 数据存储方法、装置、计算机设备及存储介质
US20210074302A1 (en) Electronic apparatus and control method thereof
CN117616412A (zh) 语义增强的上下文表示生成
US12002455B2 (en) Semantically-augmented context representation generation
CN115101075A (zh) 一种语音识别的方法以及相关装置
WO2017159207A1 (ja) 処理実行装置、処理実行装置の制御方法、および制御プログラム
US20230360648A1 (en) Electronic device and method for controlling electronic device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination