CN110795608A - 可视地呈现与自然语言对话相关的信息 - Google Patents

可视地呈现与自然语言对话相关的信息 Download PDF

Info

Publication number
CN110795608A
CN110795608A CN201910645112.5A CN201910645112A CN110795608A CN 110795608 A CN110795608 A CN 110795608A CN 201910645112 A CN201910645112 A CN 201910645112A CN 110795608 A CN110795608 A CN 110795608A
Authority
CN
China
Prior art keywords
information
person
natural language
relevance
language expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910645112.5A
Other languages
English (en)
Inventor
莫伯耐
普仲朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoundHound Inc
Original Assignee
SoundHound Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoundHound Inc filed Critical SoundHound Inc
Publication of CN110795608A publication Critical patent/CN110795608A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及可视地呈现与自然语言对话相关的信息,提供了用于自动可视地呈现与话语相关的信息的方法、系统和计算机程序产品。接收并处理来自对话参与者的自然语言表达以确定话题和概念,搜索找到相关信息并且将其向受帮助的用户可视地显示。应用可以包括视频会议、可穿戴设备、增强现实和抬头车辆显示器。分析话题、概念和信息搜索结果的相关性和非重复性。相关性可以取决于用户简档、对话历史和环境信息。可以通过非口头模式请求更多信息。搜索和显示的信息可以采用与对话中所说的语言不同的语言。可以处理多方对话。

Description

可视地呈现与自然语言对话相关的信息
相关申请的交叉引用
本申请要求发明人为Bernard Mont-Reynaud的于2018年8月2日提交的美国专利申请16/052,930的优先权。
技术领域
本发明总体涉及显示信息,更具体地涉及在自然语言对话期间自动可视地呈现与话语(utterance)相关的信息。
背景技术
在对话期间,有时我们会忘记我们想要提及的事物的名称。有时我们希望立即查看,但我们无法在不中断对话的情况下访问浏览器,尤其是在使用带语音界面的信息设备时,诸如Amazon Alexa。有时我们希望获得关于另一对话参与者提到的事物的信息。有时我们甚至都没有意识到这一点,但对话可能会转向,在转向期间,我们很可能需要一定的信息。
例如,在关于即将到来的足球比赛的对话中,知道天气预报会很好。再举一个例子,当你和一位前同事一起吃午饭时,你可能想通过名字询问他们的孩子现在过得怎么样,但可能不记得同事孩子的名字。再举一个例子,在多人游戏中,了解团队成员的状态会很好。
发明内容
根据本申请的一方面,提供了一种显示与对话中的人相关的信息的方法。该方法包括:截获从第一设备电子地发送到第二设备的自然语言表达,所述自然语言表达被包括在使用所述第一设备的第一人和使用所述第二设备的第二人之间的对话中;定位存储在网络存储位置处的与所述自然语言表达相关的信息;缓冲所定位的信息,直到预期所述第二人对所定位的信息感兴趣时为止;以及将所述信息发送到所述第二设备以在预期所述第二人对所述信息感兴趣之前到达。
根据本申请的另一方面,提供了一种显示与参与对话的人相关的信息的方法。该方法包括:从与另一个人的对话中所涉及到的人接收自然语言表达;以及响应从所述人接收自然语言表达:基于迄今为止的所述对话更新所述人的兴趣模型;识别与所述自然语言表达有关的信息;基于所述人的兴趣模型来计算所识别的信息与所述人的相关性;以及响应于所述信息与所述人的相关性高于阈值,向所述人显示所述信息。
根据本申请的又一方面,提供了一种通过显示与自然语言对话相关的信息来帮助用户的设备。该设备包括:用于捕获第一人向第二人做出的自然语言表达的装置;用于识别与所述自然语言表达相关的特定话题的装置;用于搜索与所述特定话题相关的信息的装置;以及用于响应于从所述第一人捕获所述自然语言表达而向所述第二人显示所述信息的装置。
附图说明
参考以下描述和附图,将更好地理解本发明的具体特征、方面和优点,其中:
图1示出了便于自动可视地呈现与话语相关的信息的示例计算机架构。
图2示出了用于自动可视地呈现与话语相关的信息的示例方法的流程图。
图3示出了便于自动可视地呈现与话语相关的信息的另一示例计算机架构。
图4示出了用于自动可视地呈现与话语相关的信息的示例方法的另一流程图。
图5示出了便于自动可视地呈现与话语相关的信息的又一示例计算机架构。
图6示出了用于自动可视地呈现与话语相关的信息的示例方法的又一流程图。
图7示出了用于响应于自然语言表达来显示信息的数据流。
图8示出了用于使用相关性得分响应于自然语言表达来显示信息的数据流。
图9示出了用于针对多个话题响应于自然语言表达来显示信息的数据流。
图10示出了用于针对多个话题响应于自然语言表达来显示信息的数据流。
图11示出了用于在不重复信息的情况下响应于自然语言表达来显示信息的数据流。
图12示出了用于使用搜索的概念响应于自然语言表达来显示信息的数据流。
图13示出了用于响应于自然语言表达来显示信息并且接受对更多信息的请求的数据流。
图14示出了用于用替代人类语言响应于自然语言表达来显示信息的数据流。
图15示出了用于基于特定用户的相关性响应于自然语言表达来显示信息的数据流。
图16示出了用于响应来自多个人的自然语言表达来显示信息的数据流。
图17示出了根据实施方式的支持多个设备的计算机架构。
图18A示出了具有相对于媒体接口的设备模块的计算机架构。
图18B示出了用于单个受帮助的用户的具有相对于媒体接口的设备模块的计算机架构。
图19示出了视频会议系统。
图20示出了可穿戴设备。
图21示出了虚拟现实眼镜。
图22示出了车辆抬头显示器。
图23A示出了示例旋转盘。
图23B示出了示例闪存随机存取存储器(RAM)芯片。
图24A示出了封装的片上系统(SoC)的示例焊球侧。
图24B示出了片上系统(SoC)的示例架构。
图25A示出了基于机架的服务器的示例。
图25B示出了服务器的示例架构。
具体实施方式
本发明扩展到用于自动可视地呈现与话语相关的信息的方法、系统、机器、制造产品和计算机程序产品。根据字典,话语是一种不间断的口头或书面语言链。无论是语音还是文字,话语总是口头的。对话是一系列转折,其中每个转折都是一个话语。在本说明书中,话语也称为自然语言表达,并且这些术语可互换使用。自然语言表达(NLE)可以包括例如一个或多个口语单词、口语短语、口语句子或几个文本单词。
本发明的各方面使用自然语言理解(NLU)和搜索以基本上实时地识别与话语相关的信息。NLU包括根据语法规则解析表达式并根据解析提取的术语的语义来解释解析。搜索是用于在信息语料库(corpus)中查找所需信息(如果存在)的任何类算法,诸如通过使用计算机科学课程中教导的标签、索引、排序或其他方法。
识别的相关信息也可以基本上实时地在设备上可视地显示,例如,在电话呼叫、视频会议、游戏或增强现实体验期间。通过及时提供基于对话的相关信息,可以预期信息的相关性并呈现相关信息。相关信息会自动显示在人员可见的显示器上。
某些方面根据其相关性计算相关性得分并过滤信息。其他实施方式通过与阈值比较或通过比较不同信息之间的相关性得分来计算相关性得分。可以检测相关信息与已经显示的信息之间的冗余,以确保在对话期间不重复显示的信息。但是,如果再次被发现是相关信息,则可以再次显示过去显示但不再显示的信息。显示的信息可以与诸如天气、体育、地区等的话题相关;或者与所识别的概念相关,例如特定实体或活动。
在一个方面,从第一人接收话语并且向第二人显示相关信息。在另一方面,从第一人接收话语并向第一人和第二人都显示相关信息。
多个方面可以帮助人们请求进一步的信息,保存信息供以后使用,或者与他人共享信息。人可以提供有关所显示信息的反馈,诸如其相关性。信息可以在不同的人类语言之间转换。
一些方面在具有人脸的显示器上叠加显示的信息,计算面部位置检测,并动态地布置显示器以避免重叠的面部。可以调整信息选择以基于用户简档或环境因素进行显示。可以对在对话中来自多个人的自然语言表达执行NLU。可选地,可以显示广告或其他说服信息以及与口头通信相关的信息。
实现本发明的各方面的设备包括视频会议系统、增强现实眼镜、其他可穿戴设备或车辆抬头(heads-up)显示器。
本发明的各方面提供各种益处,诸如,帮助参与者在会话中记住他们想要提及的事物的名称,使人们能够在他们不能立即访问浏览器或者可能中断对话以使用具有语音界面的信息设备时查找某些内容,提供关于其他对话参与者提及的事物的信息,并呈现可能与即将到来的对话转向相关的信息。
与传统的屏幕投影不同,本发明的各方面自动向人的界面设备提供信息。与传统的自动字幕系统不同,本发明的各方面理解自然语言并相应地做出响应。与传统的语音呼叫分析不同,本发明的各方面搜索相关信息并向人提供搜索结果。与仅响应单个用户/说话者的传统自然语言问答系统不同,本发明的各方面基于另一个人所说的内容来响应一个或多个人。与传统的增强现实视频会议系统不同,本发明的各方面在没有明确命令或操纵共享虚拟对象的情况下解释对话参与者的表达并对其进行操作。
本发明的实施方式可以包括或利用包括计算机硬件的专用或通用计算机,例如,一个或多个处理器和系统存储器,如下面更详细地讨论的。本发明范围内的实施方式还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这种计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此,作为示例而非限制,本发明的实施方式可包括至少两种截然不同的计算机可读介质:计算机存储介质(设备)和传输介质。
计算机存储介质(设备)包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)、固态驱动器(“SSD”)(例如,基于RAM)、闪存、相变存储器(“PCM”)、其他类型的存储器、其他光盘存储器、磁盘存储器或其他磁存储设备、或可用于以计算机可执行指令或数据结构的形式存储期望的程序代码装置并且可由通用或专用计算机访问的任何其他介质。
“网络”被定义为能够实现在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或其他通信连接(硬连线、无线、或硬连线或无线的组合)向计算机传输或提供信息时,计算机适当地将连接视为传输介质。传输介质可以包括网络和/或数据链路,其可以用于以计算机可执行指令或数据结构的形式携带期望的程序代码装置,并且可以由通用或专用计算机访问。上述的组合也应被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件时,计算机可执行指令或数据结构形式的程序代码装置可以被自动地从传输介质传送到计算机存储介质(设备)(反之亦然)。例如,在网络或数据链路上接收到的计算机可执行指令或数据结构可以被缓存在网络接口模块(例如,NIC)中的RAM中,然后最终被传送到计算机系统RAM和/或计算机系统处的不太易失的计算机存储介质(设备)。RAM还可以包括固态驱动(SSD或基于外围组件互连扩展(PCIx)的实时存储器分级存储设备,例如,FusionIO)。因此,应该理解的是,计算机存储介质(设备)可以被包括在也(或甚至主要)利用传输介质的计算机系统组件中。
计算机可执行指令包括例如在处理器处被执行时使得通用计算机、专用计算机、或专用处理设备执行某个功能或功能群组的指令和数据。计算机可执行指令可以是例如二进制的中间格式指令(例如,汇编语言或甚至源代码)。尽管以结构特征和/或方法动作专用的语言描述了主题,但是应该理解的是,所附权利要求中限定的主题不一定限于以上描述的特征或动作。相反,所描述的特征和动作被作为实现权利要求的示例形式公开。
本领域普通技术人员将明白的是,本发明可以在具有很多类型的计算机系统配置的网络计算环境中实施,这些计算机系统配置包括个人计算机、桌面型计算机、膝上型计算机、消息处理器、手持设备、多处理器系统、基于微处理器的或可编程的消费者电子设备、网络PC、小型计算机、大型计算机、移动电话、个人数字助理(PDA)、平板、寻呼机、路由器、交换机、各种存储设备等。本发明还可以在分布式系统环境中实施,在分布式系统环境中,通过网络链接(通过硬连线数据链路、无线数据链路、或者通过硬连线和无线数据链路的组合链接)的本地和远程计算机系统二者执行任务。在分布式系统环境中,程序模块可以位于本地和远程存储设备二者中。
本发明的实施例还可以实现在云计算环境中。在本说明书和后面的权利要求中,“云计算”被定义为使能对于可配置计算资源(例如,网络、服务器、存储设备、应用、和服务)的共享池的无所不在的、传统的、按需的网络接入的方式,其中,这些可配置计算资源可以经由虚拟化被迅速提供,并且利用最少的管理工作或服务提供商交互被释放且随后可以被相应地缩放。云方式可以包括各种特性(例如,按需自服务、广泛的网络接入、资源共享、迅速弹性、测量服务等)、服务(例如,软件即服务(SaaS)、平台即服务(PaaS)、架构即服务(IaaS))、以及部署(例如,私有云、社区云、公共云、混合云等)。针对本发明描述的数据库和服务器可以被包括在云方式中。
另外,在适当的情况下,本文描述的功能可以在硬件、软件、固件、数字组件、或模拟组件中的一者或多者中执行。例如,一个或多个专用集成电路(ASIC)可以被制造为或者现场可编程门阵列(FPGA)可以被编程为实现本文描述的一个或多个系统和过程。贯穿下面的描述和权利要求使用一些术语来指代特定的系统组件。本领域普通技术人员将明白的是,组件可以由不同名称指代。本文档不意图区分名称不同而非功能不同的组件。
图1示出了便于自动可视地呈现与话语相关的信息的计算机架构100。如图所示,计算机架构100包括设备102、104和108以及网络存储装置113。设备104还包括显示器106。设备108还包括递送模块109、缓冲器111和搜索模块112。
设备102和104是能够通过通信网络(例如,移动电话、计算机系统等)彼此通信的电子/数字设备。设备102和104中的每一个还可以包括便于语音通信传输的组件,诸如麦克风和扬声器(未示出)。例如,人101可以在设备102处或附近说话。设备102中的麦克风将声能(声波)转换为电能(音频信号)。设备102将音频信号(可能以数字格式)发送到设备104。音频信号可以通过网络向设备104传送话语。设备104通过网络接收音频信号。设备104中的扬声器将音频信号转换回再现人101的语音的声能(声波)。然后,人107可以听到人101所说的内容。来自人107的语音可以类似地从设备104被传送到设备102。这样,人101和107可以分别使用设备102和104进行彼此的口头对话。
在一个方面,通信网络(例如,蜂窝网络、无线电网络等)分配一个或多个通信信道以供设备102和104使用。在一个方面,分配单个信道以促进设备102和104之间的语音通信的单工传输。在另一方面,分配多个信道以促进设备102和104之间的语音通信的双工传输。
通常,设备108被配置为监测设备102和104之间的通信信道、网络连接等。设备108可以截获在设备102和107之间传送的音频信号,诸如NLE。如果需要,搜索模块112可以使用自动语音识别(ASR)基于截获的NLE的内容并且与截获的NLE的内容相关地来制定搜索项。应用于NLE的NLU和领域知识可以产生额外的搜索参数,诸如过滤器、附加术语或未在NLE中明确表达的相关信息。一个或多个搜索过程是可能的。搜索模块112可以将包含搜索项的查询提交给网络存储位置,诸如网站、在线数据库、社交媒体网络等。可以根据域信息扩展对相关信息的搜索。例如,对网球比赛的搜索或对接下来的几天内的酒店的搜索可以扩展为包括关于网球比赛或酒店的日期和位置的天气的相关信息。响应于查询,网络存储位置可以定位并返回满足各种搜索项的信息。因此,网络存储位置可以返回与在设备102和104之间传送的NLE的内容有关的信息(并且因此还与人101和107之间的对话有关)。
设备108可以在缓冲器111中缓冲从网络存储位置返回的相关信息。缓冲器111可以被维护作为系统存储器中的缓存,或者依赖于更持久的存储装置进行维护。递送模块109可以预期人何时可能对相关信息感兴趣。具体地,递送模块109可以基于信息内容本身和截获的NLE的其他特征(大小、来源设备(device of origin)等)、其他截获的NLE的内容和其他特征(传送频率、大小、来源设备等)、关于人(101或107)及其当前目标和意图的了解以及之前的对话来预期人对相关信息的兴趣。其他NLE可以在截获的NLE之前或之后被截获。
递送模块109可以将相关信息从缓冲器111发送到接收到截获的NLE的设备,使得相关信息在人对相关信息感兴趣之前到达。
图2示出了用于自动可视地呈现与话语相关的信息的示例方法的流程图200。将关于计算机架构100中的组件和数据来描述方法200。
方法200包括截获从第一设备电子地发送到第二设备的自然语言表达,该自然语言表达被包括在使用第一设备102的第一人101和使用第二设备104的第二人107之间的对话中。首先截获诸如NLE 103的话语(201),然后分析其自然语言内容。例如,当NLE 103从设备102电子地发送到设备104时,设备108可以截获NLE 103。NLE 103是人101与人107之间的对话的一部分。使用NLU技术分析截获的自然语言话语(NLE 103)。这种分析可能能够识别内容词、话题或话语的意图。下面进一步讨论NLU分析的使用。
方法200基于NLU分析的结果(包括从NLE 103提取的任何内容词、话题或意图),继续定位存储在网络存储位置的与自然语言表达有关的信息(202)。例如,搜索模块112可以根据需要使用ASR以及可能的NLU和域知识,从NLE 103的内容形成一个或多个查询116。搜索模块112可以将一个或多个查询116提交给包括本地磁盘和数据库的一个或多个存储设备113以及网络存储位置。存储位置113可以从设备108接收一个或多个查询116。作为响应,存储位置113可以识别并返回相关信息114。相关信息114可以是与NLE 103有关的信息。
方法200还可以包括基于从自然语言表达103提取的任何内容词、话题或意图以及迄今为止的对话(coversation to date)来更新第二人的兴趣模型。根据一些方面,人的兴趣模型是作为用户简档的一部分存储的长期数据结构。它包含一系列话题,诸如天气、体育和股票价格。根据一些方面,人的兴趣模型包括诸如Facebook、马克扎克伯格和股票代码符号FB的特定实体以及这个人的孩子的姓名。根据一些方面,人的兴趣模型包括基于与诸如实体的意图、话题或内容词相关的人所作出或接收的表达的频率或新近度的对兴趣水平的指示。
在一个方面,意图被表示为槽-值(slot-value)对,并且NLU主要从NLE提取这样的对。例如,如果NLE是“find me a flightfrom San Francisco to Seattle(帮我找从旧金山飞往西雅图的航班)”,则槽-值对可以包括类似(INTENT,“FLIGHT_RESERVATION”),(FLIGHT_FROM,“SFO”)、(FLIGHT_TO,“SEA”)、(CITY_FROM,“SAN FRANCISCO”)、(CITY_TO,“SEATTLE”)、相关的日期和时间信息以及(TOPIC,“TRAVEL”)。
在这样的实施方式中,每个对话转向(dialog turn)创建一组(一“束(bundle)”)槽-值对,并且该对话被概括为这种束的序列。根据一些方面,这些束被存储和传输为使用JavaScript对象表示法(JSON)或可扩展标记语言(XML)描述的数据结构。所述序列可以用作对话的快速摘要。
在这样的实施方式中,可以基于该概要更新人的兴趣模型。例如,机场实体(“SFO”和“SEA”)、城市实体(“SAN FRANCISCO”和“SEATTLE”)、话题(“TRAVEL”)和表达意图(“FLIGHT_RESERVATION”)都可能成为模型的一部分。迄今为止的对话的每个槽-值对可以被赋予单独的相关性权重。可以累积或以其他方式组合连续束中的槽-值对的相关性权重,以创建第二人的兴趣的简档,作为实体和相关性权重的列表。当信息兼容时,累积权重是合适的,诸如查询来自“SFO”的两个航班。组合权重可以采取其他形式,诸如在表达“What ifI flew to Vancouver instead?(如果我反而飞往温哥华会怎么样?)”之后减轻“SEA”的权重。在其他实施方式中,人的兴趣模型可以采用比话题、意图和实体的简单集合更复杂的形式,每个话题、意图和实体具有相关性权重。模型的功能和复杂性反映了NLU系统的理解的深度;度;例如,更智能的系统可以理解否定、假设、导航、按时间顺序或在特定日历日期规划事件等等。然而,刚才描述的相对简单的技术足以基于迄今为止的对话来更新人的兴趣模型。
根据一些方面,方法200还包括基于人的兴趣模型计算所定位信息的相关性得分。根据基于某些搜索项(诸如“西雅图天气”)的搜索查询来定位信息。在基于相关性权重的模型的实施方式中,诸如刚刚描述的,计算相关性得分是简单的。在一个方面,将在模型中不匹配的搜索项的相关性得分设置为低;并且在模型中匹配的搜索项的相关性得分是其在模型中的相关性权重。在更复杂的变体中,使用“天气”与“FLIGHT_TO”城市的相关性权重并乘以“西雅图”的相关性权重以获得“西雅图天气”的相关性得分。
根据一些方面,方法200还包括将所定位信息的相关性得分与阈值进行比较。阈值可以是固定的,或者可以按比例缩放以反映标准化要求。如果存在大量定位信息,则可能需要增加阈值,以便传输更少的信息。这可以节省带宽并避免使用过多信息压倒系统用户。
方法200包括缓冲信息,直到预期第二人对该信息感兴趣(203)。例如,设备108可以在缓冲器111中缓冲相关信息114。递送模块109可以基于NLE 103的内容和其他特征(大小、来源设备等)、其他接收到的NLE的内容和其他特征(传送频率、大小、来源设备等)、人员101和/或107的知识等来预期人107对相关信息114感兴趣的时间。
在超过相关性得分阈值的情况下,方法200包括将信息发送到第二设备以显示给第二人(204)。例如,递送模块109可以将相关信息114发送到设备104,使得相关信息在人107对相关信息114感兴趣之前到达设备104。
设备104可以从设备108接收相关信息114。设备104可以在显示器106处显示相关信息114。在显示器106处显示相关信息114可以向人107提供对NLE 103的内容的了解。在一个方面,相关信息114与在设备104的扬声器处输出的NLE 103同时(例如,在其出现时或附近的时间)显示。
图3示出了便于自动可视地呈现与话语相关的信息的计算机架构300。如图所示,计算机架构300包括设备302和304以及存储设备313。设备304还包括显示器306、递送模块309、缓冲器311和搜索模块312。
设备302和304是能够通过通信网络(例如,移动电话、视频会议单元、计算机系统等)彼此通信的电子/数字设备。设备302和304中的每一个还可以包括便于语音通信传送的组件,诸如麦克风和扬声器(未示出)。例如,人301可以在设备302处或附近说话。设备302中的麦克风将声能(声波)转换为电能(音频信号)。设备302将音频信号(可能以数字格式)发送到设备304。音频信号可以通过网络向设备304运送NLE,诸如一个或多个口语单词、口语短语、口语句子等。设备304通过网络接收音频信号。设备304中的扬声器将音频信号转换回再现人301的语音的声能(声波)。然后,人307可以听到人301所说的内容。来自人307的语言可以类似地从设备304传送到设备302。这样,人301和307可以分别使用设备302和304进行彼此的口头对话。
在一个方面,通信网络(例如,蜂窝网络、无线电网络等)分配一个或多个通信信道以供设备302和304使用。在一个方面,分配单个信道以促进设备302和304之间的语音通信的单工传输。在另一方面,分配多个信道以促进设备302和304之间的语音通信的双工传输。
搜索模块312可以监测在设备304处接收的NLE。如果需要,搜索模块312可以使用ASR基于接收的NLE的内容并且与接收的NLE的内容相关地来制定搜索项。如针对搜索模块112所述,NLU和领域知识可用于形成附加的相关性关系和相应的搜索。搜索模块312可以向存储设备313提交一个或多个查询316,存储设备313包括例如本地磁盘驱动器、数据存储和数据库、网络存储位置和网络应用程序编程接口(API)。响应于查询,存储设备313返回满足搜索项的信息。因此,每个存储设备可以返回与从设备302传送到设备304的NLE的内容有关的信息(并且因此还与人301和307之间的对话有关)。
设备304可以在缓冲器311中缓冲从存储设备返回的相关信息。缓冲器311可以是系统存储器或更持久的存储器。递送模块309可以预期何时人307对相关信息感兴趣。递送模块309可以基于所接收的NLE的内容和其他特征(大小、来源设备等)、其他接收的NLE的内容和其他特征(传送频率、大小、来源设备等)、人301和/或307的知识等来预期人307对相关信息的兴趣。可以在接收的NLE之前或之后接收其他NLE。
当预期到人307对相关信息感兴趣时,递送模块309可以在显示器306处显示来自缓冲器311的相关信息。
图4示出了用于自动可视地呈现与话语相关的信息的示例方法的流程图400。将关于计算机架构300中的组件和数据来描述方法400。
方法400包括在第一设备处接收自然语言表达,该自然语言表达从第二设备被电子地发送到第一设备,自然语言表达被包括在使用第一设备的第一人与使用第二设备的第二人之间的对话中(401)。例如,设备304可以接收NLE 303。设备302可以将NLE 303发送到设备304,作为人301与人307之间的对话的一部分。
方法400基本上与方法200类似地操作。使用本说明书中其他地方描述的NLU技术分析自然语言话语(NLE 303)。这种分析可以识别关键字、动作词、实体、话题和意图。基于从自然语言表达303提取的内容词、话题或意图,可以识别与自然语言表达有关并存储在计算机可读介质中的信息(402)。例如,搜索模块312可以根据需要使用ASR以及可能的NLU和域知识(如在别处所解释的),从NLE 303的内容形成一个或多个查询316。搜索模块312可以将一个或多个查询316提交给包括本地磁盘和数据库的一个或多个存储设备313以及网络存储位置。这样的存储设备313可以从设备308接收查询316。作为响应,存储设备313可以识别相关信息114。相关信息314可以是与NLE 303有关的信息。
方法400包括缓冲信息,直到预期第二人对该信息感兴趣(403)。例如,设备304可以在缓冲器311中缓冲相关信息314。递送模块309可以基于NLE 303的内容和其他特征(大小、来源设备等)、其他接收到的NLE的内容和其他特征(传送频率、大小、来源设备等)、人员301和/或307的知识等预期人307对相关信息314感兴趣的时间。
方法400包括在预期第二人对信息感兴趣时在第一设备处显示信息(404)。例如,递送模块309可以在显示器306处显示来自缓冲器311的相关信息314。在显示器306处显示相关信息314可以向人307提供对NLE303的内容的洞察,并因此提供对人301和307之间的对话的洞察。在一个个方面,相关信息314与在设备304的扬声器处输出的NLE 303同时(例如,在其出现时或附近的时间)显示。
例如,如果NLE是关于查找酒店的并且用户正在穿过机场,那么递送模块309在用户在出租车线路上时安排递送酒店地址。再举一个例子,在关于棒球的讨论中,人们通常首先询问得分,然后是什么局,然后是哪支球队在击球,然后是球和击球的数量是多少。如果NLE是关于棒球比赛的得分,则搜索模块312向比赛统计数据存储源313查询得分、局、球队击球和计数。设备304接收相关信息314并将其存储在缓冲器311中。设备304继续向人307仅显示得分。这是合适的,因为在某些情况下,只有得分与对话相关,并且显示所有其他相关信息会分散注意力。然而,如果人301提到了局、球队击球或计数,则递送模块309使得所有相关信息314被显示在显示器306上,使得在人301或人307不需要明确地请求该信息的情况下就可以很好地通知人307所有感兴趣的信息。
根据一些方面,自然语言域被编程有指示相关信息类型和显示相关信息的条件的规则。根据一些方面,机器学习算法检测跨越许多用户和许多对话和训练模型的信息请求的模式,诸如神经网络或其他预测模型,以预测哪些类型的信息相关以及NLE中的哪些话题、意图或实体会触发相关信息的显示。
图5示出了便于自动可视地呈现与话语相关的信息的计算机架构500。如图所示,计算机架构500包括设备502以及存储设备513。设备502还包括显示器506、递送模块509、缓冲器511、搜索模块512和感知设备517。
设备502可以是数字设备,诸如移动电话、视频游戏控制台、AR/VR头戴式设备、具有抬头挡风玻璃显示器的车辆等。设备502还可以包括诸如麦克风和扬声器(未示出)的组件。例如,设备502范围内的人,例如人501或人507,可以在设备502处或附近说话。设备502中的麦克风将声能(声波)转换为电能(音频信号)。设备504中的扬声器将音频信号转换回声能(声波),例如,再现语音。
在一个方面,人501佩戴设备502。感知设备517可以连接到麦克风。感知设备517可以接收由麦克风拾取的口头通信并检测NLE。感知设备517可以将NLE发送到搜索模块512。
如果需要,搜索模块512可以使用ASR基于接收的NLE的内容并且与接收的NLE的内容相关地来制定搜索项。如针对搜索模块112所述,NLU和领域知识可用于创建附加的相关性关系和相应的搜索。搜索模块512可以将包含搜索项的查询提交给存储设备,诸如,磁盘驱动程序、数据存储、数据库、网络API等。响应于查询,存储设备可以返回满足搜索项的信息。因此,存储设备可以返回与在设备502处导出的NLE的内容有关的信息。
设备502可以在缓冲器511中缓冲从存储设备返回的相关信息。缓冲器511可以是系统存储器或更持久的存储器。递送模块509可以预期何时人501对相关信息感兴趣。递送模块509可以基于检测到的NLE的内容和其他特征(大小等)、其他检测到的NLE的内容和其他特征(检测频率、大小等)、人501和/或507的知识等来预期人501对相关信息的兴趣。可以在检测到的NLE之前或之后检测其他NLE。
当预期到人501对相关信息感兴趣时,递送模块509可以在显示器506处显示来自缓冲器511的相关信息。
图6示出了用于自动可视地呈现与话语相关的信息的示例方法的图600。将关于计算机架构500中的组件和数据来描述方法600。
方法600包括在物理上存在于发出口头通信的人附近的设备上感知口头通信(601)。例如,感知设备517可以感知由人507发出的口头通信503。感知设备517可以将口头通信502转换为NLE。感知设备517可以将NLE发送到搜索模块512。
方法600包括定位与存储在计算机可读介质中的口头通信有关的信息(602)。例如,搜索模块512可以根据需要使用ASR以及可能的NLU和域知识从NLE的内容形成一个或多个查询516,如针对搜索模块112所解释的。如方法200所讨论的,可以使用NLU技术来分析NLE以识别内容词、话题或意图。搜索模块512可以将一个或多个查询516提交给包括本地磁盘和数据库、网络存储位置和网络API的一个或多个存储设备513。作为响应,存储设备513可以识别相关信息514。相关信息514可以是与NLE 503有关的信息。
方法600包括缓冲所定位的信息,直到预期另一个人对所定位的信息感兴趣为止(603)。例如,设备502可以在缓冲器511中缓冲相关信息514。递送模块509可以基于NLE的内容和其他特征(大小等)、其他检测到的NLE的内容和其他特征(检测频率,大小等)、人员501和/或507的知识等来预期人501对相关信息514感兴趣的时间。
方法600包括当预期另一个人对信息感兴趣时在设备处显示信息(604)。例如,递送模块509可以在显示器506处显示来自缓冲器511的相关信息514。在显示器506处显示相关信息514可以向人501提供对口头通信503的洞察。
自然语言理解(NLU)
在本说明书中讨论的所有实施方式中,可以使用本领域中已知的任何NLU技术在接收时分析自然语言表达。NLU分析可以包括关键字匹配、语音部分检测、动作词检测、实体检测、部分解析或完全解析。NLU分析可以构建表示所分析的NLE的含义的解释。诸如关键词的内容词的识别可用于建议话题。对NLE的分析可以包括对其意图的识别。
基于NLU分析的结果(包括提取的任何关键词或内容词、动作词、实体、话题或意图或解释),系统可以进行定位与自然语言表达相关的信息的执行搜索。搜索可以利用领域知识,例如,通过将解释映射到搜索查询,或通过将内容词与话题相关联。在一些系统中,演绎推理补充了在定位相关信息时的搜索。然后将使用下面描述的技术确定相关信息的相关性。
在一个方面,解释被表示为通过NLU技术从NLE提取的槽-值对。例如,如果NLE是“find me a flight from San Francisco to Seattle(找到从旧金金山飞往西雅图的航班)”,相关的槽-值对可以包括类似(INTENT,“FLIGHT_RESERVATION”)、(FLIGHT_FROM,“SFO”)、(FLIGHT_TO,“SEA”)、(CITY_FROM,“SAN FRANCISCO”)、(CITY_TO,“SEATTLE”)、类似槽值格式的日期信息以及诸如(TOPIC,“TRAVEL”)的附加信息。
在这样的实施方式中,每个对话转向(NLE)创建一组(一“束”)槽-值对,并且该对话可以表示为这种束的序列。根据一些方面,这些束被存储和传输为使用JavaScript对象表示法(JSON)或可扩展标记语言(XML)描述的数据结构。这样的序列可以用作对话的快速概要,并且成为构建人的兴趣模型的基础,如稍后所讨论的。
根据一些方面,方法200还包括基于人的兴趣模型计算所定位信息的相关性得分。根据基于某些搜索项的搜索查询来定位信息,诸如“西雅图天气”。
在基于相关性权重的模型的实施方式中,诸如刚刚描述的,计算相关性得分是简单的。在一个方面,将在模型中不匹配的搜索项的相关性得分设置为低;并且在模型中匹配的搜索项的相关性得分是其在模型中的相关性权重。在更复杂的实施方式中,使用“天气”与“FLIGHT_TO”城市的相关性权重并乘以“西雅图”的相关性权重以获得“西雅图天气”的相关性得分。
数据流
图7-16分别描绘了用于可视地呈现与话语相关的信息的各种数据流700-1600。数据流700-1600可以在架构100、300和500中的任何架构中以及在包括所示和所述的必要的特征子集的其他架构中实现。数据流700-1600可用于补充和/或替代方法200、400和600。数据流700-1600中描绘的元素也可以以不同的组合和/或排列使用。
更具体地,图7示出了用于响应于自然语言表达来显示信息的数据流700。在数据流700中,人711参与与受帮助的(assisted)用户712的对话。从人711捕获NLE(713)。例如,通过在NLE上执行NLU来识别话题(714)。
在一个方面,从单个NLE识别多个话题。域语法可用于识别一个或多个话题。话题也可以与关键字相关联。计算的相关性得分可以指示表达针对多个话题中的每一个的概率。
执行对关于该话题并且可能与NLE相关的信息的搜索(715)。向受帮助的用户712显示响应于搜索而返回的信息(716)。可以在适当的时间,例如,当预期受帮助的用户712对信息感兴趣时,显示该信息。
与NLE相关的信息可以在浏览器选项卡中或在并排视图中与其他信息一起显示。与NLE相关的多条信息可以与按内容类别分组和/或按相关性排序的不同信息条一起显示。信息条也可以按时间顺序呈现,例如当人711发出触发自然语言表达时。
可以使用不同的接口(例如,基于文本的接口、音频接口、视频接口等)来捕获NLE。在一个方面,基于文本的界面捕获表示为文本的自然语言。在另一方面,基于语音的接口对音频信号执行自动语音识别,诸如由本地或远程麦克风捕获的音频信号,以识别口头的自然语言表达。一些界面在透明玻璃上叠加生成的图形或文本,以创建增强现实体验或抬头车辆显示。其他界面用有限的(如果有的话)其他图形元素显示相关信息,诸如,实时真实字幕系统。
相关性得分和阈值
图8示出了用于响应于自然语言表达来使用相关性得分显示信息的数据流800。辅助系统不会破坏或分散具有不太相关(或不相关)信息的对话。
在数据流800中,从人711捕获NLE(713)。例如,通过在NLE上执行NLU来识别话题(714)。执行对关于该话题并且可能与NLE相关的信息的搜索(715)。
针对响应于搜索而返回的信息计算相关性得分,并且将相关性得分与阈值进行比较(827)。如果相关性得分超过阈值,则向受帮助的用户712显示返回的信息(716)。如果相关性得分低于阈值,则不显示返回的信息。
相关性得分可以至少部分地基于根据历史的特定方面(包括对话历史)影响搜索结果(和对应的显示决策)的排名的预先存在的规则。在计算相关性得分时,可以区分来自最近查询或表达的前景话题和背景话题(来自较早的对话)。在计算相关性得分时,还可以考虑对话参与者的角色。例如,如果第一人描述了一个对象,那么他们就会在脑海中有这个对象的图片并且不需要看到它,而参与对话的第二人将通过看到该对象的图片而受益。因此,针对第二人比针对第一人,给该对象更高的相关性得分是合适的。
相关性得分可以至少部分地基于动态影响搜索结果(和相应的显示决策)的排名的快速用户输入以及历史的特定方面。例如,用户可以点击可能相关的对象的名称以立即和将来获得更多细节。又例如,系统可以提供配置界面,其中受帮助的用户可以指定兴趣列表作为其个人简档的一部分。
降级(demoting)动作(诸如,关闭可视面板(或任何图形元素))可以使特定话题降级,但不一定使更广泛的话题降级。例如,关闭特定书籍的信息会降低其相关性得分,但可能不会降低书籍作者或一般书籍话题的相关性得分。根据用户选择的UI动作,降级动作的影响可能会有所不同,从轻微的话题降级,到更强的话题降级,到完全阻止话题。相反,升级(promoting)动作可以使与元素或更广泛话题相关的一组话题升级。多个方面支持选择元素上的文本以升级文本描述的话题或方面。各种UI动作(包括点击、滑动或其他手势)可用于降级(包括消除)和升级。
选择话题
图9示出了用于针对多个话题响应于自然语言表达来显示信息的数据流900。在一个方面,从多个可能感兴趣的话题中选择一个或多个话题。例如,可以针对每个话题计算相关性得分,并且可以基于相关性得分来进行选择。
在数据流900中,人711参与与受帮助的用户712的对话。从人711捕获NLE(713)。识别多个感兴趣的话题(934)。针对每个话题计算相关性得分,并选择一个或多个话题(937)。执行对关于一个或多个话题并且可能与NLE相关的信息的搜索(935)。如果话题的相关性得分超过阈值,则向受帮助的用户712显示与话题相关联的所返回的信息(716)。如果相关性得分低于阈值,则不显示所返回的信息。
搜索也可以基于话题得分。可以搜索相关性得分超过阈值的话题。在一个方面,搜索具有较高相关性得分的多个话题。可以搜索多个话题并根据每个话题的相关性得分预留信息显示空间。
避免重复
图10示出了用于针对多个话题响应于自然语言表达来显示信息的数据流1000。在一系列自然语言表达期间,对话可以保持在一个话题上。因此,一个人可能在同一话题上发出多个自然语言表达。
一个系统设计风险是,当第一人711在同一话题上发布多个自然语言表达时,系统将多次显示相同的信息。可以有各种方法来避免这种情况。
数据流1000类似于数据流700。人711参与与受帮助的用户712的对话。但是,在识别话题之后,执行检查以确定该话题是否在最近话题的列表中。例如,在数据流1000中,从人711捕获NLE(713)。例如,通过在NLE上执行NLU来识别话题(714)。
确定所识别的话题是否被包括在话题列表1048中(1047)。当所识别的话题被包括在话题列表1048中时,可以删除该话题。另一方面,当所识别的话题未被包括在话题列表1048中时,将所识别的话题添加到话题列表1048。此外,当所识别的话题未被包括在话题列表1048中时,执行对关于话题并且可能与NLE相关的信息的搜索(715)。向受帮助的用户712显示响应于搜索而返回的信息(716)。可以在适当的时间,例如,当预期受帮助的用户712对信息感兴趣时,显示信息。
话题可以在话题列表1048中保持指定的时间量,这可能取决于话题的重要性和/或持久性。可以通过它们的设计将重要性分配给话题,例如为急救话题分配比食谱话题更高的重要性。还可以利用由用户简档、位置或最近的对话历史记录得到的权重来缩放重要性。例如,在建筑物内部,商品价格可能比商店的路线指示具有更高的重要性,但在汽车中,商店的路线指示可能比价格具有更高的重要性。可以根据特定用户简档确定持久性。例如,地址簿中标有星号的联系人可被视为持久的对话主题。系统可以在设备本地的缓冲器中维护关于这些已加星标的联系人的相关信息。
图11示出了用于在不重复信息的情况下响应于自然语言表达来显示信息的数据流1100。数据流1100类似于数据流700。人711参与与受帮助的用户712的对话。然而,在搜索和识别信息之后,执行检查以确定信息是否被包括在信息数据库中。当从不同话题的搜索中识别出重复信息时,数据流1100可用于防止重复信息的显示。例如,在数据流1100中,从人711711捕获NLE(713)。例如,通过在NLE上执行NLU来识别话题(714)。执行对关于该话题并且可能与NLE相关的信息的搜索(715)。
确定响应于搜索而返回的信息是否被包括在过去信息的数据库1158中(1157)。当返回的信息被包括在过去信息的数据库1158中时,可以忽略该信息的显示。另一方面,当返回的信息不被包括在过去信息的数据库1158中时,该信息被添加到过去信息的数据库1158中。此外,当返回的信息不被包括在过去信息的数据库1158中时,返回的信息被显示给受帮助的用户712(716)。可以在适当的时间,例如,当预期受帮助的用户712对信息感兴趣时,显示信息。
当信息存在时,信息可以被存储在过去信息的数据库1158中持续一段时间,该时间量近似于受帮助的用户712可能在多长时间内考虑该话题。存储在过去信息的数据库1158中的信息可以被考虑用于在受帮助的用户712可能能够记住该信息而不刷新的一段时间等之后重复显示。
数据流1000和1100的各方面可以组合使用,以分别防止重复搜索和重复显示信息。确定是否搜索或显示信息可以分别基于计算的话题相关性或返回的信息。在一个方面,针对不频繁表达的话题或概念计算更高的相关性值。可以通过任何或所有会话参与者的个人简档的频率来缩放全局频率计算。因此,另一方面,在另一方面,针对非常频繁地表达的话题或概念计算更高的相关性值。还可以针对趋势话题或概念,或针对与人的位置或人的日历上的事件相关的话题或概念来计算更高的相关性值。
例如,相关性值可以被表示为整数、浮点数或字符串。可以将相关性值与阈值进行比较以确定是否搜索和/或显示信息。阈值可以是基于所显示的其他信息的频率或新近度而动态变化的。可以将话题或概念的相关性值与最近显示的或者从相同自然语言表达捕获的其他话题或概念的相关性值进行比较。
识别概念
图12示出了用于使用搜索的概念响应于自然语言表达来显示信息的数据流1200。在一个方面,搜索输入被选择为比话题具有更精细的粒度,例如,选择话题内的概念(更精细粒度的分类)。概念可以是自然语言表达中提到的实体值(例如,人、地点或事物)。概念也可以是实体类,诸如,教师、城市或服装制品(Articles_of_Clothing),其实例是任何教师、任何城市或任何服装制品。在自然语言问答系统中,槽类型可以是实体类,并且对应槽的实体值(如果存在)是类的实例。实体类可以是参数,实体值可以是用于应用程序编程接口(API)访问数据源的那些参数的值。在一些实施方式中,搜索信息是通过网络API请求进行的。
数据流1200类似于数据流700。人711参与与受帮助的用户712的对话。然而,在识别话题之后,识别概念并且执行对概念的信息的搜索。例如,在数据流1200中,从人711捕获NLE(713)。例如,通过对NLE执行NLU来识别话题(714)。
识别概念(1267)。执行对关于该概念并且可能与NLE相关的信息的搜索(1265)。向受帮助的用户712显示响应于搜索而返回的信息(716)。可以在适当的时间,例如,当预期受帮助的用户712对信息感兴趣时,显示信息。
在一些方面,识别概念而不识别话题。
用户兴趣模型
在自然语言表达的分析之后,可以基于从自然语言表达103提取的任何内容词、话题或意图以及迄今为止的对话来更新人的兴趣模型。根据一些方面,人的兴趣的模型是作为用户简档的一部分存储的长期数据结构。它包含一系列话题,诸如天气、体育和股票价格。根据一些方面,人的兴趣模型包括诸如Facebook,马克扎克伯格和股票代码符号FB的特定实体以及这个人的孩子的姓名。根据一些方面,人的兴趣模型包括对兴趣水平的指示,兴趣水平基于这个人所作出或接收的与诸如实体的意图、话题或内容词相关的表达的频率或新近度。
在之前引用的示例中,NLE“find me a flight from San Francisco to Seattle(帮我找从旧金山飞往西雅图的航班)”被表示为一束槽-值对,诸如(INTENT,“FLIGHT_RESERVATION”)、(FLIGHT_FROM,“SFO”)、(FLIGHT_TO,“SEA”)、(CITY_FROM,“SANFRANCISCO”)、(CITY_TO,“SEATTLE”)、日期信息和(TOPIC,“TRAVEL”)。每个对话转向创建一束槽-值对,并且对话可以被总结为这种束的序列。
可以基于该总结来更新人的兴趣模型。例如,机场实体(“SFO”和“SEA”)、城市实体(“SAN FRANCISCO”和“SEATTLE”)、话题(“TRAVEL”)和表达意图(“FLIGHT_RESERVATION”)都成为模型的一部分。在该模型中,迄今为止的对话中的每个槽-值对都被赋予单独的相关性权重,并且可以累积或以其他方式组合连续束中的槽-值对的相关性权重,以创建第二人的兴趣的简档,作为实体和相关性权重的列表。当信息兼容时,累积权重是合适的,诸如查询来自“SFO”的两个航班。组合权重可以采取其他形式,诸如在表达“如果我反而飞往温哥华会怎么样?”之后减轻“SEA”的权重。
刚才描述的相对简单的技术可以基于迄今为止的对话来更新人的兴趣模型。在其他实施方式中,人的兴趣模型可以采用比话题、意图和实体的简单集合更复杂的形式,每个话题、意图和实体具有相关性权重。模型的功能和复杂性反映了对NLU系统的理解的深度;例如,更智能的系统可以理解否定、假设、导航、按时间顺序或在特定日历日期规划事件等等。
询问更多信息
图13示出了用于响应于自然语言表达来显示信息并且接受对于更多信息的请求的数据流1300。本发明的各方面允许人控制哪些信息是可见的并且访问被认为相关的信息。人也可以请求更多信息。
在数据流1300中,人711参与与受帮助的用户712的对话。从人711捕获NLE(713)。例如,通过对NLE执行NLU来识别话题(714)。
在一个方面,从单个NLE识别多个话题。域语法可用于识别一个或多个话题。话题也可以与关键字相关联。所计算的相关性得分可以指示表达针对多个话题中的每一个的概率。
执行对关于该话题并且可能与NLE相关的信息的搜索(715)。向受帮助的用户712显示响应于搜索而返回的信息(716)。可以在适当的时间,例如,当预期受帮助的用户712对信息感兴趣时,显示信息。
此外,在显示信息之后,受帮助的用户712可以请求更多信息(1377)。可以使用各种非口头技术来控制对更多信息的访问(因此不会中断对话)。可以通过点击或滑动显示器、点击按钮,对眼镜眨眼或其他手势来选择项目或链接或文本的一部分,从而请求更多信息。在一些方面,对更多信息的请求会在显示视图覆盖内、在替代显示设备中或在切换到显示器内的不同视图时引出更多信息。
受帮助的用户712的电子设备可以包括用于摒弃、共享、过滤和保存信息的详细控制。对更多信息的请求可以包括对与所显示信息有关的更多细节的请求。对更多信息的请求的响应可以是另一小部分信息或更广泛的信息,诸如来自网络搜索。
受帮助的用户712的电子设备可以跟踪受帮助的用户712摒弃了哪些信息。可以根据被摒弃的信息构建模型(例如,列表、神经网络等)。使用该模型,受帮助的用户712的电子设备可以确定将来是否显示相同或相关的信息。
适应感兴趣的区域
本发明的一些方面检测显示空间内的感兴趣区域,并将所显示的信息放置在不与感兴趣区域重叠的位置。可以使用各种算法中的任何一种来确定感兴趣的区域。例如,视频会议系统可以执行面部位置检测并将信息放置在没有面部的位置。还可以基于高视觉或时间频率信息的存在来检测感兴趣的区域。可以识别感兴趣的对象,并且将信息放置为靠近这些对象或信息被放置指向感兴趣的对象的箭头或接触感兴趣的对象的线条。这些方面可以结合例如响应正在进行的自然语言对话的增强现实眼镜来使用。
语言翻译
图14示出了用于用替代人类语言响应于自然语言表达来显示信息的数据流1400。对话可以在本地或世界不同地区在讲不同语言的人之间进行。本发明的各方面可以以一种语言执行NLU并以一种或多种其他语言搜索信息。
在数据流1400中,人711参与与受帮助的用户712的对话。以第一语言从人711捕获NLE(1484)。NLE被翻译成第二语言(1485)。以第二语言从NLE识别话题(1486)。
用第二语言执行对关于该话题并且可能与NLE相关的信息的搜索(1487)。向受帮助的用户712显示响应于搜索而返回的信息(716)。可以在适当的时间,例如,当预期受帮助的用户712对信息感兴趣时,显示信息。
在其他方面,在话题识别之后执行翻译。在其他方面,对从搜索返回的信息执行翻译。第二语言可以是受帮助的用户712理解的语言。
用户简档和环境依赖性
图15示出了用于基于特定用户的相关性响应于自然语言表达来显示信息的数据流1500。可以基于和/或针对人的兴趣来调整显示的信息。
数据流1500类似于数据流800。人711参与与受帮助的用户712的对话。然而,使用受帮助的用户712的简档信息计算相关性得分。例如,在数据流1500中,从人711捕获NLE(713)。例如,通过对NLE执行NLU来识别话题(714)。执行对关于该话题并且可能与NLE相关的信息的搜索(715)。
针对响应于搜索而返回的信息计算相关性得分,并且将相关性得分与阈值进行比较(1597)。使用来自用户简档1598(受帮助的用户712的用户简档)的信息计算相关性得分。向受帮助的用户712显示响应于搜索而返回的信息(716)。可以在适当的时间,例如,当预期受帮助的用户712对信息感兴趣时,显示信息。
可以基于和/或预期受帮助的用户712的兴趣来计算相关性。例如,如果用户简档1598指示受帮助的用户712有幼儿,则相对于购买桌子的搜索结果的相关性得分,可以提高访问马戏团的搜索结果的相关性得分。类似地,如果用户简档1598指示受帮助的用户712经常在高尔夫商店购物,则相对于烹饪商店的搜索结果的相关性得分,可以提高天气的搜索结果的相关性得分。
可以在搜索相关信息之前基于用户简档的内容来计算话题的相关性得分。用户简档的内容还可用于加权表示对话题感兴趣的概率或人对搜索结果感兴趣的概率的概率得分。
在一些方面,相关性的计算还基于其他外部信息,其被宽泛地称为当前场景,例如,人的位置、一天中的时间、一周中的一天以及其他情境环境。例如,如果某人在杂货店中,则可以提高与优惠券相关的搜索结果的相关性。
在其他方面,人明确指出对某些话题或概念的兴趣或偏好。人的兴趣可以从自然语言表达来解释。例如,人可以指明对系统呈现的天气和交通状况的兴趣。对天气和交通状况的兴趣也可以被存储在用户简档中。因此,人的输入可以提供便于学习和个性化的反馈,以在将来向人提供更相关的信息。
多对话和多方对话
图16示出了用于响应来自多个人的自然语言表达来显示信息的数据流1600。本发明的各方面可以在两人对话中向两个参与者提供相关信息。在两人对话中,向每个人提供一个方向的相关信息。参与对话的不同人有不同的信息需求。
可能是说话者知道关于他们的自然语言表达的话题,而听的人并不知道那么多。可以向听者提供与说话者所说的内容相关的背景信息。提供背景信息有助于听者理解并提供最佳的知情回应。可以向说话者提供与其话题相关的动态信息的当前状态,诸如天气或位置相关信息。提供动态信息的当前状态有助于说话者提供更多最新和更准确的信息。
本发明的各方面还支持1对N、N对1和N对N的对话,诸如三人或更多人之间的视频会议。每个人都可以拥有独特的视图。一些信息可以向所有人全局显示,并且可以基于兴趣向一些参与者显示其他信息。
人711、712和1607参与对话。从人711捕获第一NLE(713)。例如,通过对第一NLE执行NLU来识别第一话题(714)。从人1607捕获第二NLE(1608)。例如,通过对第二NLE执行NLU来识别第二话题(1609)。
执行对与第一话题或第二话题相关的信息的搜索,并且执行对可能与第一NLE或第二NLE相关的信息的搜索(1605)。向受帮助的用户712显显示响应于搜索而返回的信息(716)。可以在适当的时间,例如,当预期受帮助的用户712对信息感兴趣时,显示信息。
因此,本发明的各方面可以支持与许多人的对话,诸如视频会议系统和大规模分布式游戏。为了管理资源,信息搜索的频率可以仅限于诸如每五个自然语言表达或每10秒搜索一次。这样的搜索可以基于自上次搜索以来的时间内所表达的主题和/或概念。这避免了频繁改变显示的信息,频繁改变显示的信息可能使一些受帮助的用户分心或混淆。
搜索的信息
可以搜索和显示各种不同类型的信息。在一个方面,搜索和显示关于人的信息,诸如姓名、位置、年龄和关系。在其他方面,搜索和显示诸如可从维基百科获得的一般知识信息。
一般操作
图17示出了根据实施方式的支持多个设备的计算机架构1700。计算机架构1700描绘了人1711和人1712之间的双向对话的多个方面。人1711通过多媒体接口设备1713(例如,移动电话、计算机、VR/IR耳机等)通过语音进行通信。多媒体接口设备1713作为客户端使用网络协议通过云网络1715与服务器1716通信。服务器1716通过云网络1715向多媒体接口设备1714(例如,移动电话、计算机,VR/IR耳机等)提供虚拟连接。多媒体接口设备1714经由虚拟连接接收语音通信。人1712可以通过语音以类似的方式与多媒体接口设备1713通信。
图18A示出了具有相对于媒体接口的设备模块的计算机架构1800。接口设备1813和1814均支持对于由一个或多个麦克风捕获的语音的自动语音识别。接口设备1813和1814均支持通过一个或多个扬声器输出音频,包括合成语音。接口设备1813和1814均具有摄像机和视频显示屏(例如,类似于显示器108、308或508)以捕获和显示视频。接口设备1813和1814可以使用不同形式的音频和视频编码、同步、压缩和纠错编码,包括实时视频和单向电视广播。
NLU 1823可以从截获的语音中接收口语表达。自然语言理解的结果可用于构建和维护用户简档1824和对话历史1825。用户简档1824还可以取决于先前已知的信息。对话历史1825、用户简档1824和其他环境信息可用于影响理解并提高选择相关信息的概率。在一个方面,NLU 1823输出话题。信息模块1826使用该话题来搜索相关信息。信息模块1826可以被集成到搜索模块中和/或与搜索模块互操作,诸如搜索模块112、312或512。可选广告模块1827可以使用该话题来搜索相关广告。信息模块1826和广告模块1827都可以使用用户简档1824和对话历史1825来增强他们的搜索结果相关性。
显示控件1828向接口设备1813提供信息。接口设备1813可以在视频屏幕上呈现来自显示控件1828的信息。类似地,显示控件1829向接口设备1814提供信息。接口设备1814可以在视频屏幕上呈现来自显示控件1829的信息。显示控件1828和/或显示控件1829可以集成到递送模块(例如递送模块109、309或509)中和/或与递送模块互操作。
这样,人1811和人1812均看到与他们的兴趣更相关的信息。信息以视觉方式呈现,以支持他们的双向口头对话。
视频会议系统
在每种情况下,自动提供与对话相关的信息。向Bob显示的信息取决于Alice所说的内容以及随着对话的进行而很有可能在不久的将来与Bob相关的内容。
图19示出了视频会议系统1900。Alice正在使用视频会议终端1930并且Bob正在使用视频会议终端1931。用户通过网络连接彼此通信。视频会议终端1930包括相机和麦克风模块1932。类似地,视频会议终端1931包括相机和麦克风模块1933。
考虑根据实施方式的Alice和Bob之间的以下示例对话以及响应系统活动。
Alice:“明天你想去波士顿吗?”
该系统向Bob显示波士顿的维基百科介绍1937。
该系统向Alice显示关于波士顿的Dunkin Donuts(邓肯甜甜圈)餐厅的广告1934。
Bob:“我去不了。我要洗衣服。”
系统向Bob显示关于洗衣剂(例如Sox Clean)的广告1938。
Alice:“Charlie要走了。”
系统向Alice显示她的三个Charlie联系人。
Alice选择一个。
系统向Bob显示Charlie的照片1939。
Bob:“你要做什么?”
Alice:“玩飞盘或者去水族馆。”
系统向Alice显示天气预报1935和新英格兰水族馆的优惠券1936。
系统根据他的简档向Bob显示波士顿公园或新英格兰水族馆的图片。
随着示例对话的进行,信息被呈现在视频显示器上的“卡片”中。“卡片”被放置为避免覆盖视频会议中的面部。向一个人呈现DunkinDonuts的广告1934,波士顿的天气预报1935,以及新英格兰水族馆的优惠券1936。向另一个用户呈现有关波士顿的维基百科介绍信息1937,洗衣剂广告1938以及第三人的照片1939。
每个用户都可以使用滑动手势从显示器中移除卡片。如果不是,则每个卡片在指定时间后开始褪色,例如10秒后。当褪色时,如果用户轻击卡片,它会变得清晰并保持这种状态,否则,卡片会在5秒后消失。如果用户轻击清晰的卡片,则系统执行相关的动作,诸如请求更多信息或提供菜单以将卡片保存到卡片组以供稍后参考。可以从自显示器顶部向下滑动时出现的下拉菜单访问卡片组。
单个受帮助的用户
图18A中所示的方面在两个用户之间对称地操作,两个用户都从系统接收帮助。相反,图18B示出了仅帮助一个用户(人1861)的计算机架构1850。在这方面,该系统非常相似,但是为人1861提供个人增强工具,而不是相互增强。人1862没有得到任何帮助。在一种情况下,人1862位于电话线的另一端。在另一种情况下,人1862可以在人1861的桌子的另一侧,并且不涉及电话,而仅仅是人1861接收相关信息。在第三种情况下,人1862不是真人,但是人1861正在指示一些文本。在所有场景中,人1861接收与语音相关的信息而不干扰对话。在口述场景中,单词对话是独白。图18B中所示的方面类似于图18A的方面,除了增强的单向性质和微小差异之外。在图18B中,暴露了计算信息1876的相关性的模块1877,而在图18A中,该模块的存在仅是隐含的。另外,在图18B中,单个设备1863提供整个系统功能。在一些方面,它是本地自包含设备,而在图18A中,设备1813仅执行I/O功能,并且可能将NLU和其他功能留给服务器。这些只是架构的一些变体。接口设备1863支持由一个或多个麦克风捕获的语音的自动语音识别;它可以通过一个或多个扬声器输出音频。接口设备1863具有用于显示由系统产生的辅助信息的显示屏。
NLU 1873可以从接收的语音中接收口头表达。自然语言理解的结果可用于构建和维护用户简档1874和对话历史1875。用户简档1874还可以取决于先前已知的信息。对话历史1875、用户简档1874和其他环境信息可用于影响理解并帮助选择最相关的信息。在一个方面,NLU 1873输出话题。信息模块1876使用该话题来搜索相关信息。信息模块1876可以集成到搜索模块(诸如搜索模块112、312或512)中和/或与搜索模块互操作。可选广告模块(未示出)可以使用该话题来搜索相关广告。信息模块1876和广告模块1877都可以使用用户简档1874和对话历史1875来提高搜索的相关性。
显示控件1878在设备1863的显示屏上呈现信息。显示控件1878可以集成到递送模块(例如递送模块109、309或509)中和/或与递送模块互操作。如在方法200和其他方法中那样,计算信息与信息接收者的相关性,并且将相关性与阈值进行比较以决定是否显示信息;通常屏幕上的空间有限,信息将按相关性顺序显示。
在该系统中,受帮助的用户1861看到与他们的兴趣更相关的信息。信息以可视方式呈现,以支持双向口头对话。在视频会议系统中,还可以支持非对称操作模式。例如,系统可以由未受帮助的用户免费访问,但是访问用户辅助系统需要费用。
可穿戴设备
图20示出了可穿戴设备2000。可穿戴设备2000包括由皮带2042保持的主体2041,皮带由扣钩2043保持并且塞入保持器2044中。手表主体2041包括显示信息的显示器2047、侧面的一般控制按钮2045以及用于捕获NLE的麦克风孔2046。
当手表的佩戴者通过电话与朋友聊天时,手表检测到该朋友是CharlieTan,并显示Charlie的照片和名字。手表检索Charlie的位置信息,表明他在工作,并显示该信息。手表(使用NLU窃听对话)确定Charlie和佩戴者正在讨论在Pub Haus酒吧聚会,品尝美味的冰镇啤酒。手表搜索餐厅信息,并发现需要等待30分钟以进入Pub Haus酒吧的信息。该手表还为手表佩戴者提供了用于轻击的链接,以便获取有关前往Pub Haus酒吧的方向的更多信息。
图21示出了虚拟现实眼镜2100。虚拟现实眼镜2100包括右耳机单元2151,该右耳机单元包括内部电池、通信模块和处理模块以及柔性塑料外壳内的其他部件。该眼镜还包括左耳机单元2152,该左耳机单元除了其他部件之外还包含电池,该电池的重量大约等于柔性塑料壳体内的耳机单元2151的重量。重量均匀度为佩戴者提供平衡的感觉。重量最大的电池靠近耳机后部,以便减轻佩戴者鼻子上的承重。
虚拟现实眼镜2100还包括在耳机单元2151内的近侧麦克风孔2153,用于捕获来自受助佩戴者的语音。虚拟现实眼镜2100还包括在耳机单元2152内的远端麦克风孔2154,用于捕获来自其他人的语音(例如,如关于计算机架构500所描述的)。
虚拟现实眼镜2100还包括安装在右耳机单元内的右显示屏2155以及所安装的左显示屏2156,该左显示屏被安装成连接右耳机单元2151和左耳机单元2152,使得眼镜可以缠绕在佩戴者的头部周围。显示屏2155和2156是对称的,以在佩戴者的两只眼睛之间提供交感视野。
显示屏2155和2156可以是OLED玻璃显示器。耳机单元2151中的处理器可以独立地控制显示屏2155和2156。处理器可以在一个或两个屏幕2155和2156上显示信息,以便于容易观看或最大化覆盖在他或她的视野上的对于佩戴者可见的信息量。
一些方面允许显示屏还根据光学处方用作矫正镜片。
车辆抬头显示器
图22示出了(例如,在挡风玻璃2261中的)车辆抬头显示器2200。后视镜2262和方向盘2263后面的驾驶员可以看到挡风玻璃2261。麦克风2264捕获语音。内部计算机处理器系统对捕获的语音执行NLU以确定对话的话题并搜索相关信息。仪表板嵌入式投影仪单元2266在挡风玻璃2261的视野内的显示区域2265上投射相关信息。
可能是驾驶员正在与配偶进行电话交谈,而配偶要求驾驶员在开车回家之前停下来买些杂货。可以从对话期间收到的NLE中识别对话的话题“杂货”。可以执行对杂货店位置信息的搜索。可以识别杂货店“Mall-Mart”并在显示区域2265中和路线指示(例如,两公里后向右转)一起呈现。
可选地,可以基于付费赞助来过滤结果。例如,Mall-Mart可能已向后端服务器提供商付费以显示其商店位置,而Mom-Shop和Pop-Shop未付费。
计算机可读媒体
图23A示出了示例的旋转盘2371。旋转盘2371是示例性非暂时性计算机可读介质(例如,旋转磁盘)。云数据中心可以使用磁盘来存储服务器的代码和数据。旋转盘2371可以存储包括指令的代码,该代码如果由一个或多个计算机执行,则将使计算机执行本文描述的方法和数据流。还可以设想到旋转光盘和其他机械移动的存储介质。
图23B示出了示例的闪存随机存取存储器(RAM)芯片2372。闪存随机存取存储器(RAM)芯片2372是示例的非暂时性计算机可读介质。数据中心可以使用闪存来存储包含用于服务器处理器的指令的数据和代码。移动设备可以使用闪存来存储数据和代码,该代码包括用于片上系统设备内的处理器的指令。闪存随机存取存储器(RAM)芯片2372可以存储包括指令的代码,该代码如果由一个或多个计算机执行,则将使计算机执行本文描述的方法和数据流。也可以设想到用引线或焊球封装的其他非移动存储介质。
片上系统(SoC)
图24A示出了封装的片上系统(SoC)2480的示例的焊球(底部)侧。封装的SoC 2480的底侧绘有用于表面贴装焊接到印刷电路板的球栅阵列。各种封装形状和尺寸可用于各种芯片实施方式。片上系统(SoC)设备可以控制如本文所述的嵌入式系统和IoT设备实施方式。
图24B示出了片上系统(SoC)2480的示例架构。片上系统(SoC)2480包括计算机处理器(CPU)核2481的多核群集和图形处理器(GPU)核2482的多核群集。处理器核通过片上网络2483连接到用于易失性程序和数据存储的片外动态随机存取存储器(DRAM)接口2484。处理器核还连接到闪存接口2485,用于闪存RAM非暂时性计算机可读介质中的计算机程序代码的非易失性存储。
SoC 2480还包括用于显示GUI的显示接口186和用于连接到各种I/O接口设备的I/O接口模块2487,以适合不同的外围设备。I/O接口支持诸如触摸屏传感器之类的传感器、地理定位接收器、麦克风、扬声器、蓝牙外围设备和USB设备(诸如键盘和鼠标)等。SoC 2480还包括网络接口2488。网络接口2488允许处理器核通过有线或无线连接(诸如WiFi、3G、4G长期演进(LTE)、5G和其他无线接口标准无线电以及以太网连接硬件)访问因特网(或其他网络)。通过经由接口2484执行存储在RAM设备中的指令或通过接口2485执行存储在闪存设备中的指令,CPU 2481和GPU2482可以执行如本文所述的方法和/或数据流。
服务器
图25A示出了基于机架的服务器2590的示例。基于机架的服务器2590可以包括多个机架安装的多处理器服务器刀片。多个机架安装的多处理器服务器刀片可以分别包括多个网络连接的计算机处理器。多个网络连接的计算机处理器可以并行运行软件。
图25B示出了服务器2590的示例架构。该架构包括CPU核2591的多核群集和GPU核2592的多核群集。处理器通过板级互连2593连接到用于程序代码和数据存储的RAM设备2594。服务器系统2590还包括网络接口2598,以允许处理器访问因特网(或其他网络)。通过经由接口2594执行存储在RAM设备中的指令,CPU 2591和GPU 2592可以执行如本文所述的方法和/或数据流。
本文中叙述原理、方面和实施方式的描述包含其结构和功能等同物。
一些实施方式被示出并描述为方法步骤。在一些实施方式中,每个方法步骤可以等同于系统组件。
本公开描述了说明各种感兴趣方面的本发明的各种实施方式。本领域技术人员可以认识到许多修改和变化。修改和变化包括所公开特征的任何相关组合。
各种实施方式是使用人和机器中的任一个或组合的行为的方法。无论在世界上何处出现大多数组成步骤,方法实施方式都是完整的。一些实施方式是被布置成存储用于本文描述的方法的这种指令的一种或多种非暂时性计算机可读介质。无论什么机器保持包括任何必要代码的非暂时性计算机可读介质都保持完整的实施方式。一些实施方式是物理设备,诸如半导体芯片;这些设备的逻辑或功能行为的硬件描述语言表示;以及被布置成存储这种硬件描述语言表示的一个或多个非暂时性计算机可读介质。
所示和所述的示例使用某些口语。类似地,各种实施方式用于其他语言或语言组合。所示和所述的示例使用某些知识领域。各种实施方式对于其他域或域的组合类似地操作。
一些实施方式是固定的,诸如自动售货机。一些实施方式是移动的,诸如汽车。一些实施方式是便携式的,诸如移动电话。一些实施方式包括诸如键盘或触摸屏的手动界面。一些实施方式包括使用人类思想作为自然语言表达形式的神经接口。
已经出于说明和描述的目的呈现了前面的描述。这并非旨在穷举或将本发明限制于所公开的精确形式。鉴于上述教导,许多修改和变化都是可行的。此外,应该注意,可以以形成本发明的另外的混合实施方式所希望的任何组合方式来使用任何或所有上述替代实施方式。
此外,尽管已经描述和示出了本发明的特定实施方式,但是本发明不限于如此描述和示出的部件的特定形式或布置。本发明的范围由所附权利要求、在此提交的以及在不同申请中提交的任何未来的权利要求及其等同形式来限定。

Claims (40)

1.一种显示与对话中的人相关的信息的方法,所述方法包括:
截获从第一设备电子地发送到第二设备的自然语言表达,所述自然语言表达被包括在使用所述第一设备的第一人和使用所述第二设备的第二人之间的对话中;
定位存储在网络存储位置处的与所述自然语言表达相关的信息;
缓冲所定位的信息,直到预期所述第二人对所定位的信息感兴趣时为止;以及
将所述信息发送到所述第二设备以在预期所述第二人对所述信息感兴趣之前到达。
2.根据权利要求1所述的方法,还包括从所述自然语言表达导出话题。
3.根据权利要求2所述的方法,其中,定位与所述自然语言表达有关的信息包括搜索与所导出的话题有关的信息。
4.根据权利要求1所述的方法,还包括:在发送所述信息之前:
计算所述信息的相关性得分;以及
确定所述相关性得分超过阈值。
5.根据权利要求4所述的方法,还包括:
从用户简档中访问有关所述第二人的附加信息,
其中,计算所述信息的相关性得分包括基于所述附加信息计算所述信息的相关性得分。
6.根据权利要求4所述的方法,还包括:
从所述对话的历史中访问附加信息,
其中,计算所述信息的相关性得分包括基于所述附加信息计算所述信息的相关性得分。
7.根据权利要求1所述的方法,还包括:在发送所述信息之前,确定所述信息是非重复信息。
8.根据权利要求1所述的方法,其中,所述自然语言表达用第一人类语言来表达,所述方法还包括:
将所述自然语言表达翻译成第二人类语言,
其中,定位与所述自然语言表达相关的信息包括定位用所述第二人类语言表达的信息;以及
其中,将所述信息发送到所述第二设备包括发送用所述第二人类语言表达的所述信息。
9.根据权利要求1所述的方法,还包括从所述第二设备接收对与所发送的信息有关的附加细节的请求。
10.根据权利要求1所述的方法,还包括:
在所述第一设备处接收第二自然语言表达,所述第二自然语言表达从第三设备被电子地发送并且被包括在所述对话中;
识别与所述第二自然语言表达有关的第二信息;以及
缓冲所述第二信息,
其中,向所述第二设备的发送包括发送所述信息和所述第二信息。
11.根据权利要求1所述的方法,还包括在安装在一副眼镜内的显示屏处显示所述信息。
12.一种显示与参与对话的人相关的信息的方法,所述方法包括:
从与另一个人的对话中所涉及到的人接收自然语言表达;以及
响应从所述人接收自然语言表达:
基于迄今为止的所述对话更新所述人的兴趣模型;
识别与所述自然语言表达有关的信息;
基于所述人的兴趣模型来计算所识别的信息与所述人的相关性;以及
响应于所述信息与所述人的相关性高于阈值,向所述人显示所述信息。
13.根据权利要求12所述的方法,其中,更新所述人的兴趣模型包括确定感兴趣的话题。
14.根据权利要求12所述的方法,其中,更新所述人的兴趣模型包括确定意图。
15.根据权利要求12所述的方法,其中,更新所述人的兴趣模型包括确定多个感兴趣的话题和对应的相关性得分。
16.根据权利要求12所述的方法,其中,计算所述信息与所述人的相关性是基于所述人的兴趣模型和当前场景两者的。
17.根据权利要求12所述的方法,还包括:在显示所述信息之前,确定所述信息是非重复信息。
18.根据权利要求12所述的方法,还包括从用户简档访问关于所述人的附加信息,
其中,更新所述人的兴趣模型是基于来自所述用户简档的所述附加信息的。
19.根据权利要求12所述的方法,还包括:
从所述对话中所涉及的第二人接收第二自然语言表达;
识别与所述第二自然语言表达有关的附加信息;以及
显示所述附加信息。
20.根据权利要求12所述的方法,其中,所接收的所述自然语言表达用第一人类语言来表达,所述方法还包括将所接收的所述自然语言表达翻译成第二人类语言,
其中,定位与所接收的所述自然语言表达相关的信息包括定位用所述第二人类语言表达的信息。
21.根据权利要求12所述的方法,还包括:接收对与所述信息有关的附加细节的请求。
22.根据权利要求12所述的方法,还包括在安装在一副眼镜内的显示屏处显示所述信息。
23.一种通过显示与自然语言对话相关的信息来帮助用户的设备,所述设备包括:
用于捕获第一人向第二人做出的自然语言表达的装置;
用于识别与所述自然语言表达相关的特定话题的装置;
用于搜索与所述特定话题相关的信息的装置;以及
用于响应于从所述第一人捕获所述自然语言表达而向所述第二人显示所述信息的装置。
24.根据权利要求23所述的设备,其中,捕获是通过对音频信号应用自动语音识别而进行的。
25.根据权利要求23所述的设备,还包括:
用于计算对应于所述特定话题的相关性值的装置,
其中显示所述信息取决于所述相关性值。
26.根据权利要求23所述的设备,还包括:
用于识别与所述自然语言表达相关的第二话题的装置;
用于计算对应于所述特定话题的第一相关性值的装置,以及
用于计算对应于所述第二话题的第二相关性值的装置,
其中显示所述信息取决于所述第一相关性值超过所述第二相关性值。
27.根据权利要求23所述的设备,还包括:
用于存储最近话题的列表的装置,
其中显示所述信息取决于所述列表中不存在所述特定话题。
28.根据权利要求23所述的设备,还包括:
用于存储关于其他最近显示的信息的指示的装置,
其中显示所述信息取决于所述其他最近显示的信息中不存在所述信息的指示。
29.根据权利要求23所述的设备,还包括:
用于识别与所述特定话题相关的概念的装置,
其中所述搜索基于所述概念。
30.根据权利要求23所述的设备,其中,所述显示仅针对受帮助的所述用户。
31.根据权利要求23所述的设备,还包括:
用于提供其他信息的非口头显示的装置。
32.根据权利要求23所述的设备,其中,所述显示覆盖在视频会议的视图上。
33.根据权利要求23所述的设备,其中,所述显示在可穿戴显示设备的视野内。
34.根据权利要求23所述的设备,还包括:
用于检测显示器内的面部的位置的装置;以及
用于将所显示的信息置于所述显示器中不与所述面部重叠的部分中的装置。
35.根据权利要求23所述的设备,其中,所述显示位于车辆的抬头显示器中。
36.根据权利要求23所述的设备,
其中,所述自然语言表达是第一人类语言,
所述设备还包括:
用于将所述自然语言表达翻译成第二人类语言的装置。
37.根据权利要求23所述的设备,还包括:
用于存储关于会话参与者的简档信息的装置;以及
用于基于所述简档信息计算所述特定话题的相关性值的装置,
其中,显示所述信息取决于所述相关性值。
38.根据权利要求37所述的设备,其中,所述简档信息取决于来自用户的相关性反馈。
39.根据权利要求23所述的设备,还包括:
用于捕获由第三人做出的第二自然语言表达的装置;以及
用于识别与所述第二自然语言表达相关的第二话题的装置。
40.根据权利要求23所述的设备,其中,所述信息是广告。
CN201910645112.5A 2018-08-02 2019-07-17 可视地呈现与自然语言对话相关的信息 Withdrawn CN110795608A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/052,930 2018-08-02
US16/052,930 US20200043479A1 (en) 2018-08-02 2018-08-02 Visually presenting information relevant to a natural language conversation

Publications (1)

Publication Number Publication Date
CN110795608A true CN110795608A (zh) 2020-02-14

Family

ID=69227860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910645112.5A Withdrawn CN110795608A (zh) 2018-08-02 2019-07-17 可视地呈现与自然语言对话相关的信息

Country Status (4)

Country Link
US (2) US20200043479A1 (zh)
JP (2) JP6987814B2 (zh)
KR (2) KR102300606B1 (zh)
CN (1) CN110795608A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820284A (zh) * 2020-12-28 2021-05-18 恒大新能源汽车投资控股集团有限公司 语音交互方法、装置、电子设备及计算机可读存储介质
WO2022048455A1 (zh) * 2020-09-04 2022-03-10 语惠科技(南京)有限公司 一种基于增强现实技术的信息无障碍系统及方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020036190A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 要点抽出装置、要点抽出方法、及びプログラム
JP7142315B2 (ja) * 2018-09-27 2022-09-27 パナソニックIpマネジメント株式会社 説明支援装置および説明支援方法
US11017001B2 (en) * 2018-12-31 2021-05-25 Dish Network L.L.C. Apparatus, systems and methods for providing conversational assistance
US11769509B2 (en) * 2019-12-31 2023-09-26 Microstrategy Incorporated Speech-based contextual delivery of content
JP6841535B1 (ja) * 2020-01-29 2021-03-10 株式会社インタラクティブソリューションズ 会話解析システム
US11836161B2 (en) * 2020-02-20 2023-12-05 Rovi Guides, Inc. Systems and methods for predicting where conversations are heading and identifying associated content
JP7341111B2 (ja) * 2020-09-30 2023-09-08 本田技研工業株式会社 会話支援装置、会話支援システム、会話支援方法およびプログラム
US20220188361A1 (en) * 2020-12-11 2022-06-16 Meta Platforms, Inc. Voice-based Auto-Completions and Auto-Responses for Assistant Systems
US11539915B2 (en) 2021-03-20 2022-12-27 International Business Machines Corporation Transmission confirmation in a remote conference
LU500105B1 (en) 2021-04-30 2022-11-02 Microsoft Technology Licensing Llc Video conference collaboration
US11880663B2 (en) 2021-06-30 2024-01-23 Microsoft Technology Licensing, Llc Assistant for providing information on unknown topics

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001298555A (ja) * 2000-04-11 2001-10-26 Nippon Tmi Co Ltd 情報通信装置及び情報通信システム
US20050165742A1 (en) * 2003-12-30 2005-07-28 Weisheke Chin Searching previously viewed web sites
JP2007519047A (ja) * 2004-01-20 2007-07-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 会話の話題を決定して関連するコンテンツを取得して提示する方法及びシステム
JP2007304776A (ja) * 2006-05-10 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置
US7827125B1 (en) * 2006-06-01 2010-11-02 Trovix, Inc. Learning based on feedback for contextual personalized information retrieval
WO2008032329A2 (en) * 2006-09-13 2008-03-20 Alon Atsmon Providing content responsive to multimedia signals
US20080275701A1 (en) * 2007-04-25 2008-11-06 Xiaotao Wu System and method for retrieving data based on topics of conversation
JP2009157460A (ja) * 2007-12-25 2009-07-16 Hitachi Ltd 情報提示装置及び方法
JP2009205579A (ja) * 2008-02-29 2009-09-10 Toshiba Corp 音声翻訳装置およびプログラム
GB2458309A (en) * 2008-03-13 2009-09-16 Business Partners Ltd Search engine
US9491573B2 (en) * 2008-11-06 2016-11-08 Texas Instruments Incorporated Communication device for providing value-added information based upon content and/or context information
JP5347532B2 (ja) * 2009-01-27 2013-11-20 日本電気株式会社 検索サーバ、情報検索方法およびプログラム
US8537980B2 (en) * 2009-03-27 2013-09-17 Verizon Patent And Licensing Inc. Conversation support
EP2629211A1 (en) * 2009-08-21 2013-08-21 Mikko Kalervo Väänänen Method and means for data searching and language translation
JP5075895B2 (ja) * 2009-09-18 2012-11-21 株式会社エヌ・ティ・ティ・ドコモ 情報検索システム及び情報検索方法
JP5315289B2 (ja) * 2010-04-12 2013-10-16 トヨタ自動車株式会社 オペレーティングシステム及びオペレーティング方法
US20120004899A1 (en) * 2010-07-04 2012-01-05 Taymoor Arshi Dynamic ad selection for ad delivery systems
US9292093B2 (en) * 2010-11-18 2016-03-22 Alpine Electronics, Inc. Interface method and apparatus for inputting information with air finger gesture
US9092525B2 (en) * 2011-05-09 2015-07-28 Wyse Technology L.L.C. Method and apparatus for searching non-public data using a single search query
US10499118B2 (en) * 2012-04-24 2019-12-03 Skreens Entertainment Technologies, Inc. Virtual and augmented reality system and headset display
JP2014013494A (ja) * 2012-07-04 2014-01-23 Nikon Corp 表示制御装置、表示システム、表示装置、端末装置、表示制御方法及びプログラム
JP5831764B2 (ja) * 2012-10-26 2015-12-09 カシオ計算機株式会社 画像表示装置及びプログラム
KR20140078258A (ko) * 2012-12-17 2014-06-25 한국전자통신연구원 대화 인식을 통한 이동 단말 제어 장치 및 방법, 회의 중 대화 인식을 통한 정보 제공 장치
US9614969B2 (en) * 2014-05-27 2017-04-04 Microsoft Technology Licensing, Llc In-call translation
KR20160139771A (ko) * 2015-05-28 2016-12-07 삼성전자주식회사 전자 장치, 정보 제공 시스템 및 그 정보 제공 방법
US9949056B2 (en) * 2015-12-23 2018-04-17 Ecole Polytechnique Federale De Lausanne (Epfl) Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene
KR102151626B1 (ko) * 2016-01-12 2020-09-03 네이버 주식회사 통화 중 특정 태스크를 처리하는 장치 및 그 방법
US10216732B2 (en) * 2016-09-07 2019-02-26 Panasonic Intellectual Property Management Co., Ltd. Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
US10085096B2 (en) * 2016-09-30 2018-09-25 Sorenson Ip Holdings, Llc Integration of audiogram data into a device
US10373515B2 (en) * 2017-01-04 2019-08-06 International Business Machines Corporation System and method for cognitive intervention on human interactions
US10210866B2 (en) * 2017-01-20 2019-02-19 Essential Products, Inc. Ambient assistant device
US10440325B1 (en) * 2018-07-17 2019-10-08 International Business Machines Corporation Context-based natural language participant modeling for videoconference focus classification

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022048455A1 (zh) * 2020-09-04 2022-03-10 语惠科技(南京)有限公司 一种基于增强现实技术的信息无障碍系统及方法
CN112820284A (zh) * 2020-12-28 2021-05-18 恒大新能源汽车投资控股集团有限公司 语音交互方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
JP2022008437A (ja) 2022-01-13
KR102300606B1 (ko) 2021-09-10
KR20210111236A (ko) 2021-09-10
US20200043479A1 (en) 2020-02-06
US20200219490A1 (en) 2020-07-09
KR20200015356A (ko) 2020-02-12
JP2020034897A (ja) 2020-03-05
JP6987814B2 (ja) 2022-01-05

Similar Documents

Publication Publication Date Title
KR102300606B1 (ko) 자연어 대화에 관련되는 정보의 시각적 제시
US11861674B1 (en) Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems
US11159767B1 (en) Proactive in-call content recommendations for assistant systems
US20160055134A1 (en) Method and apparatus for providing summarized content to users
US20160019280A1 (en) Identifying question answerers in a question asking system
CN110908501B (zh) 人工现实中防止视场遮挡的显示不透明度控制
US20230206912A1 (en) Digital assistant control of applications
US11567788B1 (en) Generating proactive reminders for assistant systems
US11563706B2 (en) Generating context-aware rendering of media contents for assistant systems
US20220358727A1 (en) Systems and Methods for Providing User Experiences in AR/VR Environments by Assistant Systems
US20200005784A1 (en) Electronic device and operating method thereof for outputting response to user input, by using application
CN108874266A (zh) 文本播放方法、客户端、终端和存储介质
US11800179B2 (en) Multiview video with one window based on another
EP3605527A2 (en) Visually presenting information relevant to a natural language conversation
US20230283878A1 (en) Smart Cameras Enabled by Assistant Systems
US20230401795A1 (en) Extended reality based digital assistant interactions
US20240161742A1 (en) Adaptively Muting Audio Transmission of User Speech for Assistant Systems
US20230367960A1 (en) Summarization based on timing data
US20240045704A1 (en) Dynamically Morphing Virtual Assistant Avatars for Assistant Systems
WO2024091266A1 (en) System and method for generating visual captions
EP4381363A1 (en) System and method for generating visual captions
WO2023239663A1 (en) Extended reality based digital assistant interactions
CN116888574A (zh) 共存会话中的数字助理交互
KR20170093631A (ko) 적응적 컨텐츠 출력 방법
KR20160023567A (ko) 요약된 콘텐트를 사용자에게 제공하기 위한 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40017683

Country of ref document: HK

WW01 Invention patent application withdrawn after publication

Application publication date: 20200214

WW01 Invention patent application withdrawn after publication