CN116261752A - 基于音频对话的面向用户的动作 - Google Patents

基于音频对话的面向用户的动作 Download PDF

Info

Publication number
CN116261752A
CN116261752A CN202280006276.3A CN202280006276A CN116261752A CN 116261752 A CN116261752 A CN 116261752A CN 202280006276 A CN202280006276 A CN 202280006276A CN 116261752 A CN116261752 A CN 116261752A
Authority
CN
China
Prior art keywords
user
application
electronic device
conversation
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280006276.3A
Other languages
English (en)
Inventor
B·莫哈帕特拉
W·克莱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN116261752A publication Critical patent/CN116261752A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

提供一种用于基于音频对话的信息提取和面向用户的动作的电子设备和方法。所述电子设备接收对应于与第一用户和第二用户相关联的对话的音频信号。所述电子设备基于至少一个提取准则从接收到的音频信号中提取文本信息。所述电子设备对提取的文本信息应用机器学习模型,以识别提取的文本信息的至少一种信息类型。所述电子设备基于所识别的至少一种信息类型来确定与所述电子设备相关联的一组应用。所述电子设备基于至少一个选择准则从所确定的一组应用中选择第一应用,并且基于所述文本信息来控制所选择的第一应用的执行。

Description

基于音频对话的面向用户的动作
相关申请的交叉引用/引用包含
本申请要求2021年3月9日在美国专利和商标局提交的美国专利申请No.17/195,923的优先权。以上引用的申请中的每个通过引用其整体并入本文中。
技术领域
本公开的各个实施例涉及信息提取和面向用户的动作。更具体地,本公开的各个实施例涉及用于基于音频对话的信息提取和面向用户的动作的电子设备和方法。
背景技术
信息处理领域中的最新进展导致了使用电子设备(例如,移动电话机、智能电话机和其他电子设备)处理音频(比如音频到文本转换)的各种技术的发展。通常,当电子设备的用户在与其他用户进行对话(例如,电话通话)时,用户可能需要在正在进行的对话期间写下或保存相关信息(比如,姓名、电话号码、地址等)。然而,如果用户在进行其他动作(比如步行或驾驶等)的同时保持对话,则这可能非常不方便。在某些情况下,用户在寻找笔和/或纸时也可能错过对话的一部分。在某些其他情况下,用户可以通过打开免提,手动将信息输入到电子设备中,这可能不方便并且可能引起隐私问题。在其他情况下,即使用户已设法保存了信息,也可能存在在对话期间说出的可能与用户相关或与保存的信息相关联的其他未保存的信息。
如在本申请的其余部分中并参考附图所阐述的,通过将所描述的系统与本公开的一些方面进行比较,常规和传统方法的进一步限制和缺点对本领域的技术人员来说将变得明显。
发明内容
如在权利要求书中更完整地所述,提供一种基本上如在附图至少之一中所示和/或结合附图至少之一所述的用于基于音频对话的信息提取和面向用户的动作的电子设备和方法。
通过详查本公开的以下详细说明以及附图,可以理解本公开的这些和其他特征及优点,在附图中,相同的附图标记始终指代相同的部分。
附图说明
图1是图解说明按照本公开的实施例的用于基于音频对话的信息提取和面向用户的动作的示例性网络环境的框图。
图2是图解说明按照本公开的实施例的用于基于音频对话的信息提取和面向用户的动作的示例性电子设备的框图。
图3是图解说明按照本公开的实施例的由电子设备进行的用于基于音频对话的信息提取和面向用户的动作的示例性操作的示图。
图4A是图解说明按照本公开的实施例的可以显示输出信息的示例性第一用户界面(UI)的示图。
图4B是图解说明按照本公开的实施例的可以显示输出信息的示例性第二用户界面(UI)的示图。
图4C是图解说明按照本公开的实施例的可以显示输出信息的示例性第三用户界面(UI)的示图。
图4D是图解说明按照本公开的实施例的可以显示输出信息的示例性第四用户界面(UI)的示图。
图4E是图解说明按照本公开的实施例的可以显示输出信息的示例性第五用户界面(UI)的示图。
图5是图解说明按照本公开的实施例的示例性用户界面(UI)的示图,该示例性用户界面(UI)可以将言语提示识别为用于捕获音频信号的触发。
图6是图解说明按照本公开的实施例的示例性用户界面(UI)的示图,该示例性用户界面(UI)可以接收用户输入作为用于捕获音频信号的触发。
图7是图解说明按照本公开的实施例的可以基于用户输入来搜索提取的文本信息的示例性用户界面(UI)的示图。
图8是图解说明按照本公开的实施例的用于训练机器学习(ML)模型的示例性操作的示图,该机器学习(ML)模型用于基于音频对话的信息提取和面向用户的动作。
图9描绘了图解说明按照本公开的实施例的用于基于音频对话的信息提取和面向用户的动作的示例性方法的流程图。
具体实施方式
以下说明的实现可以在所公开的用于从音频对话中自动提取信息的电子设备和方法中找到。本公开的示例性方面提供一种电子设备(例如,移动电话机、智能电话机或其他电子设备),所述电子设备可被配置为对于第一用户和第二用户之间的对话执行纯音频通话或音频-视频通话。所述电子设备可以接收对应于对话的音频信号,并且可以基于至少一个提取准则从接收到的音频信号中提取文本信息。所述至少一个提取准则的例子可以包括但不限于与第一用户相关联的用户简档(比如性别、爱好或兴趣、职业、常去的地方、经常购买的产品或服务等)、与在与第一用户的对话中的第二用户相关联的用户简档、第一用户的地理位置、或者当前时间。例如,所述音频信号可以包括第一用户和第二用户之间的记录的消息或实时对话。所述提取的文本信息可以包括与第一用户相关的特定类型的信息。所述电子设备可以对提取的文本信息应用机器学习模型,以识别提取的文本信息的至少一种信息类型。例如,信息的类型可以包括但不限于地点、电话号码、姓名、日期、时间表、地标、唯一标识符、或通用资源定位符。所述电子设备还可以基于所识别的至少一种信息类型来确定与所述电子设备相关联的一组应用(例如但不限于电话簿、日历应用、互联网浏览器、文本编辑器应用、地图应用、电子商务应用、或与服务提供商相关的应用)。
电子设备可以基于至少一个选择准则从所确定的一组应用中选择第一应用。所述至少一个选择准则的例子可以包括但不限于与第一用户相关联的用户简档、与第二用户相关联的用户简档、第一用户和第二用户之间的关系、对话的上下文、电子设备执行所述一组应用的能力、所述一组应用中的每个应用的优先级、所述一组应用中的每个应用的选择频率、与所述一组应用对应的使用信息、当前新闻、当前时间、第一用户的地理位置、天气预报、或第一用户的状态。电子设备还可以基于提取的文本信息来控制第一应用的执行,并且可以基于第一应用的执行来控制输出信息(比如,基于对话的任务的通知、添加到电话簿的新联系人的通知、或添加到日历应用的提醒的通知、导航地图、网站、搜索的产品或服务、第一应用的用户界面等)的显示。因此,所公开的电子设备可以从对话中动态地提取相关信息(即,文本信息),并通过实时地从对话中提取相关信息(比如姓名、电话号码、地址或任何其他信息)来提高用户的便利性。所公开的电子设备可以基于智能选择和执行应用以使用提取的信息来进行相关动作(比如保存电话号码、设置提醒、打开网站、打开导航地图、搜索产品或服务等),并以方便的即时可用方式显示输出信息,来进一步增强用户体验。
图1是图解说明按照本公开的实施例的用于基于音频对话的信息提取和面向用户的动作的示例性网络环境的框图。参考图1,示出了网络环境100。在网络环境100中,示出了可以经由通信网络108彼此通信耦接的电子设备102、用户设备104和服务器106。电子设备102可以包括机器学习(ML)模型110,该机器学习(ML)模型110可以处理文本信息110A以提供信息的类型110B。电子设备102还可以包括一组应用112。在网络环境100中,还示出了可以与电子设备102相关联的第一用户114,以及可以与用户设备104相关联的第二用户116。一组应用112可以包括第一应用112A、第二应用112B,以此类推直到第N应用112N。可注意到的是,图1中所示的第一应用112A、第二应用112B和第N应用112N只是作为例子给出的。一组应用112可以只包括一个应用或者多于一个应用,而不偏离本公开的范围。可注意到的是,第一用户114和第二用户116之间的对话只是作为例子给出的。网络环境可以包括进行对话(例如,通过电话会议)的多个用户,或者可以包括第一用户114与机器(比如AI助手)之间的对话,两个或更多个机器之间的对话(比如两个或更多个IoT设备之间的对话,或者V2X通信),或者它们的任何组合,而不偏离本公开的范围。
电子设备102可以包括可被配置为执行或处理纯音频通话或音频-视频通话并且可以包括托管一组应用112的操作环境的适当逻辑、电路和/或接口。电子设备102可被配置为接收对应于与第一用户114和第二用户116相关联或第一用户114与第二用户116之间的对话的音频信号。电子设备102可被配置为基于至少一个提取准则从接收到的音频信号中提取文本信息110A。电子设备102可被配置为基于至少一个选择准则来选择第一应用112A。电子设备102可被配置为基于文本信息110A来控制选择的第一应用112A的执行。电子设备102可以包括用于管理文本信息110A的提取、第一应用112A的选择、用户输入的接收、和输出信息的显示的应用(可从服务器106下载)。电子设备102的例子可以包括但不限于移动电话机、智能电话机、平板计算设备、个人计算机、游戏机、媒体播放器、智能音频设备、视频会议设备、服务器、或具有通信和信息处理能力的其他消费电子设备。
用户设备104可以包括可被配置为经由通信网络108与电子设备102通信(例如,经由音频或音频-视频通话)的适当逻辑、电路和接口。用户设备104可以是与第二用户116相关联的消费电子设备,并且例如可以包括移动电话机、智能电话机、平板计算设备、个人计算机、游戏机、媒体播放器、智能音频设备、视频会议设备、或具有通信能力的其他消费电子设备。
服务器106可以包括可被配置为存储集中式机器学习(ML)模型的适当逻辑、电路和接口。在一些实施例中,服务器106可被配置为训练ML模型并将ML模型(比如ML模型110)的副本分发给最终用户设备(比如电子设备102)。服务器106可以向电子设备102提供可下载的应用,以管理文本信息110A的提取、第一应用112A的选择、用户输入的接收、以及输出信息的显示。在某些情况下,服务器106可以被实现为可以通过web应用、云应用、HTTP请求、存储库操作、文件传送等来执行操作的云服务器。服务器106的其他示例实现可以包括但不限于数据库服务器、文件服务器、web服务器、媒体服务器、应用服务器、大型机服务器或其他类型的服务器。在某些实施例中,服务器106可以通过使用本领域技术人员公知的若干技术被实现为多个分布式基于云的资源。本领域普通技术人员会理解的是,本公开的范围可以不限于将服务器106和电子设备102实现为分开的实体。于是,在某些实施例中,服务器106的功能可以全部或至少部分地并入电子设备102中,而不脱离本公开的范围。
通信网络108可以包括通信介质,电子设备102、用户设备104和/或服务器106可以通过该通信介质相互通信。通信网络108可以是有线或无线通信网络。通信网络108的例子可以包括但不限于因特网、云网络、无线保真(Wi-Fi)网络、个人区域网络(PAN)、局域网(LAN)或城域网(MAN)。网络环境100中的各种设备可被配置为按照各种有线和无线通信协议连接到通信网络108。此类有线和无线通信协议的例子可以包括但不限于传输控制协议和网际协议(TCP/IP)、用户数据报协议(UDP)、超文本传送协议(HTTP)、文件传送协议(FTP)、Zig Bee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE 802.11s、IEEE802.11g、多跳通信、无线接入点(AP)、设备对设备通信、蜂窝通信协议和蓝牙(BT)通信协议。
ML模型110可以是类型识别模型,它可以基于至少一种信息类型的类型识别任务或分类任务来训练。ML模型110可以针对通常存在于对话(或文本信息110A)中的不同信息类型的训练数据集来进行预训练。ML模型110可以由其超参数,例如,激活函数、权重的数量、成本函数、正则化函数、输入大小、层数等来定义。在针对训练数据集训练ML模型110之前或与之同时可以调整ML模型110的超参数并且可以更新权重,以便识别输入(比如训练数据集中的特征和输出标签,比如不同的信息类型,例如地点、电话号码、姓名、标识符或日期)之间的关系。在针对训练数据集中的特征信息进行几个阶段的训练之后,ML模型110可以被训练为对于一组输入(比如文本信息110A)输出预测/分类结果。预测结果可以指示所述一组输入中的每个输入(例如,从新的/未见过的实例中提取的输入特征)的类标签(即,信息的类型)。例如,ML模型110可以针对若干训练文本信息110A来训练,以预测结果,比如提取的文本信息110A的信息的类型110B。在一些实施例中,还可以基于所识别的信息的类型110B或针对每种信息类型的应用的用户选择历史,针对一组应用112的确定来训练或重新训练ML模型110。
在实施例中,ML模型110可以包括电子数据,所述电子数据可以被实现为例如可在电子设备102上执行的应用的软件组件。ML模型110可以依赖于库、外部脚本或其他逻辑/指令来由诸如电子设备102之类的处理设备执行。ML模型110可以包括计算机可执行代码或例程,以使诸如电子设备102之类的计算设备能够进行一个或多个操作来检测提取的文本信息的信息类型。另外或可替选地,ML模型110可以使用包括处理器、微处理器(例如,进行一个或多个操作或控制一个或多个操作的执行)、现场可编程门阵列(FPGA)或专用集成电路(ASIC)的硬件来实现。例如,可以在电子设备102中包括推理加速器芯片,以加速用于识别任务的ML模型110的计算。在一些实施例中,ML模型110可以使用硬件和软件两者的组合来实现。ML模型110的例子可以包括但不限于神经网络模型或基于回归方法、基于实例的方法、正则化方法、决策树方法、贝叶斯方法、聚类方法、关联规则学习和降维方法中的一个或多个的模型。
ML模型110的例子可以包括神经网络模型,比如但不限于深度神经网络(DNN)、递归神经网络(RNN)、人工神经网络(ANN)、(仅查看一次)YOLO网络、基于长短期记忆(LSTM)网络的RNN、CNN+ANN、LSTM+ANN、基于门控递归单元(GRU)的RNN、完全连接的神经网络、基于连接时序分类(CTC)的RNN、深度贝叶斯神经网络、生成式对抗网络(GAN)和/或此类网络的组合。在一些实施例中,ML模型110可以包括使用数据流图的数值计算技术。在某些实施例中,ML模型110可以基于多个深度神经网络(DNN)的混合架构。
所述一组应用112可以包括可以基于文本信息110A在电子设备的操作系统上执行的适当逻辑、代码和/或接口。一组应用112中的每个应用可以包括被配置为基于文本信息110A进行特定动作的程序或指令集。一组应用112的例子可以包括但不限于日历应用、电话簿应用、地图应用、备忘录应用、文本编辑器应用、电子商务应用(比如购物应用、订餐应用、票务应用等)、移动银行应用、电子学习应用、电子钱包应用、即时消息接发应用、电子邮件应用、浏览器应用、企业应用、出租车聚合器应用、翻译器应用、安装在电子设备102上的任何其他应用、或可经由电子设备102访问的基于云的应用。在例子中,第一应用112A可以对应于日历应用,而第二应用112B可以对应于电话簿应用。
在操作中,电子设备102可被配置为接收或识别触发(比如用户输入或言语提示),以使用音频捕获设备206(如图2中所示)捕获与第一用户114和第二用户116之间的对话相关联的音频信号。例如,音频信号可以包括第一用户114和第二用户116之间的记录的消息或实时对话。电子设备102可被配置为接收或检索与第一用户114和第二用户116之间的对话对应的音频信号。电子设备102可被配置为基于至少一个提取准则从接收到的音频信号中提取文本信息110A,例如如图3中所示。所述至少一个提取准则的例子可以包括但不限于与第一用户114相关联的用户简档、与在与第一用户114的对话中的第二用户116相关联的用户简档、第一用户114的地理位置、当前时间等。电子设备102可被配置为使用各种语音到文本转换技术和自然语言处理(NLP)技术来生成与接收到的音频信号对应的文本信息。例如,电子设备102可以采用语音到文本转换技术将接收到的音频信号转换成原始文本,然后采用NLP技术从原始文本中提取文本信息110A(比如姓名、电话号码、地址等)。语音到文本转换技术可以对应于与对话中的接收到的音频信号(比如语音信号)的分析以及接收到的语音信号到原始文本的转换相关联的技术。与原始文本和/或音频信号的分析相关联的NLP技术的例子可以包括但不限于自动摘要、情感分析、上下文提取、词性标注、语义关系提取、词干提取、文本挖掘和机器翻译。
电子设备102可被配置为将ML模型110应用于所提取的文本信息110A,以识别所提取的文本信息110A的至少一种信息类型110B。所述至少一种信息类型110B可以包括但不限于地点、电话号码、姓名、日期、时间表、地标、唯一标识符、或通用资源定位符。用于信息的类型110B的识别的ML模型110可以与用于文本信息110A的提取的ML模型相同或不同。ML模型110可以针对通常存在于任何对话中的不同信息类型110B的训练数据集来进行预训练。应用ML模型来识别信息的类型110B的细节例如如图3中所示。因此,所公开的电子设备102可以实时提供从对话中自动提取文本信息110A和识别信息类型。于是,所公开的电子设备102减少了第一用户114在对话期间为了写下或保存一些信息(比如姓名、电话号码、地址或任何其他信息)而面对的时间消耗和困难。结果,第一用户114不会漏掉对话的任何重要或相关部分。
电子设备102还可被配置为基于所识别的信息类型110B来确定与电子设备102相关联的一组应用112,例如如图4A-图4E中所示。基于至少一个选择准则,电子设备102可被配置为从所确定的一组应用112中选择第一应用112A,例如如图3中所示。所述至少一个选择准则的例子可以包括但不限于与第一用户114相关联的用户简档、与第二用户116相关联的用户简档、第一用户114和第二用户116之间的关系、对话的上下文、电子设备102执行一组应用112的能力、一组应用112中的每个应用的优先级、一组应用112中的每个应用的选择频率、与一组应用112对应的使用信息、当前新闻、当前时间、第一用户114的地理位置、天气预报、或第一用户114的状态。
电子设备102还可被配置为基于文本信息110A来控制所选择的第一应用112A的执行,例如如图3和图4A-图4E中所示。所公开的电子设备102可以提供对执行所选择的第一应用112A以显示输出信息的自动控制。输出信息的例子可以包括但不限于用于执行任务的一组指令、与文本信息110A相关的统一资源定位符(URL)、与文本信息110A相关的网站、文本信息110A中的关键字、基于对话的任务的通知、添加到作为第一应用112A的电话簿的新联系人的通知、添加到作为第一应用112A的日历应用的提醒的通知、或第一应用112A的用户界面中的至少一个。因此,电子设备102可以通过智能选择和执行第一应用112A(比如电话簿应用、日历应用、浏览器、导航应用、电子商务应用或其他相关应用等)以使用提取的文本信息110A来进行相关动作(比如保存电话号码、设置提醒、打开网站、打开导航地图、搜索产品或服务等),并以方便的即时可用方式显示输出信息,来增强用户体验。例如,在图4A-图4E中提供了由一个或多个应用基于提取的文本信息110A进行的不同动作的细节。
在实施例中,电子设备102可被配置为基于与第一用户114的对话中的第二用户116的用户简档、第一用户114和第二用户116的关系、第一用户114和第二用户116各自的职业、第一用户114与第二用户116的对话的频率、或对话的时间,来确定对话的上下文。在某些实施例中,电子设备102可被配置为基于第一用户114和第二用户116的关系来改变与所述一组应用112中的每个应用相关联的优先级。
在实施例中,电子设备102可被配置为基于用户输入来选择第一应用112A,并且基于所选择的第一应用112A来训练或重新训练ML模型110,例如如图4A-图4C中所示。在另一个实施例中,电子设备可被配置为基于用户输入来搜索所提取的文本信息,并控制搜索的结果的显示。电子设备102还可被配置为基于结果的类型来训练ML模型110,以识别至少一种信息类型,例如如图7中所示。
图2是图解说明按照本公开的实施例的用于基于音频对话的信息提取和面向用户的动作的图1的示例性电子设备的框图。结合图1的要素来说明图2。参考图2,示出了电子设备102的框图200。电子设备102可以包括电路202。电子设备102还可以包括存储器204、音频捕获设备206和I/O设备208。I/O设备208还可以包括显示设备212。此外,电子设备102可包括网络接口210,通过网络接口210电子设备102可以连接到通信网络108。存储器204可以存储经过训练的ML模型110和关联的训练数据。
电路202可以包括可被配置为执行与要由电子设备102执行的不同操作相关联的程序指令的适当逻辑、电路、接口和/或代码。例如,一些操作可以包括音频信号的接收、文本信息110A的提取、ML模型110对提取的文本信息110A的应用、文本信息110A的类型的识别、一组应用112的确定、第一应用112A的选择、以及所选择的第一应用112A的控制执行。电路202可包括一个或多个专用处理单元,所述一个或多个专用处理单元可被实现为单独的处理器。在实施例中,所述一个或多个专用处理单元可以被实现为集成处理器或处理器集群,处理器集群共同进行一个或多个专用处理单元的功能。电路202可以基于本领域已知的许多处理器技术来实现。电路202的实现的例子可以是基于X86的处理器、图形处理单元(GPU)、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器、微控制器、中央处理单元(CPU)和/或其他控制电路。
存储器204可以包括可被配置为存储要由电路202执行的一个或多个指令的适当逻辑、电路、接口和/或代码。存储器204可被配置为存储音频信号、提取的文本信息110A、信息的类型110B和输出信息。在一些实施例中,存储器204可被配置为托管ML模型110,以识别信息的类型110B并选择一组应用112。存储器204还可被配置为存储与一组应用112相关联的应用数据和用户数据。存储器204的实现的例子可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、CPU高速缓存存储器和/或安全数字(SD)卡。
音频捕获设备206可以包括可被配置为捕获与第一用户114和第二用户116之间的对话对应的音频信号的适当逻辑、电路、代码和/或接口。音频捕获设备206的例子可以包括但不限于记录器、驻极体麦克风、动态麦克风、碳粒麦克风、压电麦克风、光纤麦克风、微机电系统(MEMS)麦克风或其他麦克风。
I/O设备208可以包括可被配置为接收输入并基于所接收到的输入提供输出的适当逻辑、电路、接口和/或代码。I/O设备208可以包括可被配置为与电路202通信的各种输入和输出设备。例如,电子设备102可以经由I/O设备208接收用户输入,以触发与对话相关联的音频信号的捕获、选择第一应用112A、以及搜索所提取的文本信息110A。此外,电子设备102可以控制I/O设备208呈现输出信息。I/O设备208的例子可以包括但不限于触摸屏、键盘、鼠标、操纵杆、显示设备(例如,显示设备212)、麦克风或扬声器。
显示设备212可以包括可被配置为显示第一应用112A的输出信息的适当逻辑、电路和/或接口。在一个实施例中,显示设备212可以是具有触摸功能的设备,它可以使显示设备212能够接收通过触摸的用户输入。显示设备212可以包括显示单元,所述显示单元可以通过若干已知技术来实现,比如但不限于液晶显示器(LCD)显示器、发光二极管(LED)显示器、等离子体显示器或有机LED(OLED)显示技术或其他显示技术中的至少一种。
网络接口210可以包括可被配置为便于经由通信网络108在电子设备102、用户设备104和服务器106之间进行通信的适当逻辑、电路、接口和/或代码。网络接口210可以通过使用各种已知技术来实现,以支持电子设备102与通信网络108的有线或无线通信。网络接口210可以包括但不限于天线、射频(RF)收发器、一个或多个放大器、调谐器、一个或者多个振荡器、数字信号处理器、编解码器(CODEC)芯片集、用户识别模块(SIM)卡或本地缓冲电路。
网络接口210可被配置为经由无线通信与诸如因特网、内联网、无线网络、蜂窝电话网络、无线局域网(LAN)或城域网(MAN)之类的网络进行通信。无线通信可被配置为使用多种通信标准、协议和技术中的一种或多种,比如全球移动通信系统(GSM)、增强数据GSM环境(EDGE)、宽带码分多址接入(W-CDMA)、长期演进(LTE)、码分多址接入(CDMA)、时分多址接入(TDMA)、蓝牙、无线保真(Wi-Fi)(比如IEEE 802.11a、IEEE 802.11b、IEEE 802.11g或IEEE 802.11n)、网际协议语音(VoIP)、光保真(Li-Fi)、微波接入全球互操作性(Wi-MAX)。
本领域普通技术人员将理解的是,除了本文中为了说明和解释本公开的功能和操作而图解说明的组件或系统之外,图2中的电子设备102还可以包括其他合适的组件或系统。为了简洁起见,从本公开中省略了对电子设备102的其他组件或系统的详细说明。电路202的操作例如在图3、图4A-图4E、图5、图6、图7、图8和图9中进一步说明。
图3是图解说明按照本公开的实施例的由电子设备进行的用于基于音频对话的信息提取和面向用户的动作的示例性操作的示图。结合图1和图2的要素来说明图3。参考图3,示出了图解说明如本文中所述的从302到314的示例性操作的框图300。框图300中图解所示的示例性操作可以始于302,并且可以由任何计算系统、装置或设备进行,比如由图1的电子设备102或图2的电路202进行。参考图3,还示出了电子设备302A。电子设备302A的配置和功能可以与例如图1中所示的电子设备102的配置和功能相同。于是,为了简洁起见,从本公开中省略了对电子设备302A的说明。
在302,可以接收音频信号。电路202可以接收与第一用户(比如第一用户114)和第二用户(比如第二用户116)之间的对话对应的音频信号。第一用户114和第二用户116可以分别对应于对话中的接收端(比如被叫方)或发送端(比如主叫方)。音频信号可以包括第一用户114和第二用户116之间的记录的消息或实时对话中的至少一个。在实施例中,电路202可以控制音频捕获设备(比如音频捕获设备206)基于触发(比如言语提示或用户输入)来捕获音频信号,例如如图5和图6中所示。电路202可以从数据源接收音频信号。数据源例如可以是音频捕获设备206、电子设备302A上的存储器(比如存储器204)、云服务器(比如服务器106)或它们的组合。接收到的音频信号可以包括与对话相关联的音频信息(例如,音频部分)。
在实施例中,电路202可被配置为使用各种语音到文本转换技术,将接收到的音频信号转换成原始文本。电路202可被配置为使用NLP技术从原始文本中提取文本信息110A(比如姓名、电话号码、地址、唯一标识符、时间表等)。在一些实施例中,电路202可被配置为同时执行语音到文本转换和NLP技术,以从音频信号中提取文本信息110A。在另一个实施例中,电路202可被配置为直接对接收到的音频信号执行NLP,并从接收到的音频信号生成文本信息110A。上述NLP技术的详细实现为本领域技术人员所知,于是,为了简洁起见,从本公开中省略了对上述NLP技术的详细说明。
在304,可以提取文本信息(比如文本信息110A)。电路202可以基于至少一个提取准则304A从接收到的音频信号(或从音频信号的文本形式)中提取文本信息110A。提取的文本信息110A可以对应于从对话中提取的特定文本信息,使得文本信息110A可以包括与第一用户114相关或者对第一用户114重要的信息。这样提取的文本信息110A可以对应于第一用户114在对话期间可能期望存储的信息,例如电话号码、姓名、日期、地址等。在实施例中,电路202可被配置为在第一用户114和第二用户116之间的实时对话期间自动提取文本信息110A。在另一个实施例中,电路202可被配置为从与第一用户114和第二用户116之间的对话相关联的记录消息中提取文本信息110A。例如,电路202可被配置为使用语音到文本转换技术将接收到的音频信号转换成原始文本。电路202可被配置为使用NLP技术从原始文本中提取文本信息110A(比如姓名、电话号码、地址、唯一标识符、时间表等)。在实施例中,文本信息110A可以是从与对话相关的音频信号中提取的单词或短语(包括多个单词),或者是从对话的文本表示(记录的或进行中的通话)中提取的单词或短语。
所述至少一个提取准则304A的例子可以包括但不限于与第一用户114相关联的用户简档、与在与第一用户114的对话中的第二用户116相关联的用户简档、第一用户114和第二用户116的关系、第一用户114和第二用户116各自的职业、对话的地点或时间。第一用户114的用户简档可以对应于与第一用户114相关联的兴趣或偏好之一,而第二用户116的用户简档可以对应于与第二用户116相关联的兴趣或偏好之一。例如,用户简档可以包括但不限于姓名、年龄、性别、住所位置、时间偏好、爱好、职业、常去的地方、经常购买的产品或服务、或与给定用户(比如第一用户114或第二用户116)相关联的其他偏好。第一用户114和第二用户116的关系的例子可以包括但不限于职业关系(比如同事、客户等)、个人关系(例如父母、子女、配偶、朋友、邻居等)或任何其他关系(例如银行客户经理、餐厅送餐员、健身教练等)。
在例子中,第一用户114和第二用户116各自的职业可以包括但不限于医疗保健专业人员、娱乐专业人员、商务专业人员、法律专业人员、工程师、工业专业人员、研究人员或分析师、执法人员、军事人员等。地理位置可以包括第一用户114或第二用户116优选的任何地理位置,或者第一用户114和第二用户116在对话期间所在的位置。对话的时间可以包括第一用户114或第二用户116优选的任何时间,或者对话已发生的一天中的时间。例如,电路202可以基于作为提取准则的第一用户114的地理位置(比如东京)来提取文本信息110A(比如“寿司”)。在另一个例子中,电路202可以基于对话中的其他术语(比如“在东京受欢迎”),根据对话的上下文来提取文本信息110A(比如“寿司”)。在另一个例子中,电路202可以基于作为提取准则的第一用户114或第二用户116的职业来提取文本信息110A。在第一用户114或第二用户116的职业是医生的情况下,电路202可以从对话中提取医学术语(比如药物名称、处方量等)。在第一用户114或第二用户116的职业是律师的情况下,电路202可以从对话中提取法律术语(比如美国法典的章节)。在另一个例子中,在提取准则包括第一用户114和第二用户116之间的关系(比如学生和教师)的情况下,电路202可以提取文本信息110A(比如考试时间表、招生网站等)。在另一个例子中,在提取准则包括对话的时间的情况下,电路202可以提取文本信息110A(比如夜晚、白天、AM、PM等)。
在306,可以识别信息的类型(比如信息的类型110B)。电路202可被配置为将机器学习(ML)模型110应用于提取的文本信息110A,以识别提取的文本信息110A的至少一种信息类型110B。ML模型110可以输入提取的文本信息110A以输出信息的类型110B。所述至少一种信息类型110B可以包括但不限于地点、电话号码、姓名、日期、时间表、地标(例如,XYZ商店附近)、唯一标识符(例如,员工ID、客户ID等)、通用资源定位符或其他特定类别的信息中的至少一个。例如,ML模型110可以输入预先定义的一组数字作为文本信息110A,以将信息的类型110B识别为“电话号码”。在例子中,信息的类型110B可以与地点相关联,比如特定地点的地址、优选地点(例如家庭或办公室)、或第一用户114的感兴趣的地点、或与第一用户114相关联的任何其他地点。在另一个例子中,信息的类型110B可以与另一个人员、商业场所或任何其他机构的电话号码相关联。信息的类型110B可以包括姓名、地点或时间表的组合,比如第一用户114可能打算或需要在特定地点和时间表见面的人的姓名。在这种情况下,电路202可被配置为将信息的类型110B确定为姓名、地点、日期和时间(例如,来自ABC银行的约翰,办公室附近,星期五,午餐时)。电路202还可被配置为存储提取的文本信息110A和信息的类型110B以供进一步处理。
在308,可以确定一组应用(比如一组应用112)。电路202可被配置为基于所识别的至少一种信息类型110B来确定与电子设备302A相关联的一组应用112。在实施例中,电路202还可被配置为基于ML模型110的应用,对于所识别的至少一种信息类型110B确定一组应用112。ML模型110可以被训练为基于识别的信息类型110B输出一组应用112。所述一组应用112可以包括一个或多个应用,比如第一应用112A、第二应用112B或第N应用112N。对于每种信息类型110B,电路202可被配置为确定一组应用112。对于信息的类型110B(例如,ABC银行的约翰,办公室附近,星期五,午餐时)可以确定的一组应用112的例子可以包括但不限于日历应用(用于保存约会)、电话簿(用于保存姓名和号码)、电子商务应用(用于预订午餐)、网络浏览器(用于查找办公室附近的餐厅)、社交网络应用(查看约翰的简档或ABC银行的简档)或备忘录应用(保存约会的相关备注)。与一组应用112相关的不同例子例如在图1和图4A-图4E中提供。
在310,可以选择第一应用(比如第一应用112A)。电路202可被配置为基于至少一个选择准则310A从所确定的一组应用112中选择第一应用112A。在实施例中,至少一个选择准则310A可以包括与第一用户114相关联的用户简档、与在与第一用户114的对话中的第二用户116相关联的用户简档、或者第一用户114和第二用户116之间的关系中的至少一个。电路202可以从存储器204或从服务器106检索关于第一用户114和第二用户116的用户简档。在例子中,电路202可以选择日历应用(作为第一应用112A)以将与约翰的约会保存为“星期五下午1点在办公室附近与来自ABC银行的约翰见面。”
在另一个例子中,第一用户114和第二用户116之间的对话可以包括提取的文本信息110A,例如“我们这个星期六出去…”。电路202可以使用ML模型110将信息的类型110B识别为活动时间表。此外,基于选择准则310A,电路202可被配置为选择第一应用112A。在例子中,电路202可以将第一用户114和第二用户116之间的关系确定为朋友。基于与第一用户114相关联的用户简档,以及与对话中的第二用户116相关联的用户简档,电路202可以确定第一用户114和第二用户116在周末更喜欢的或进行的活动。例如,第一用户114和第二用户116的更喜欢的活动可以包括徒步旅行。电路202然后可以基于选择准则310A(比如第一用户114和第二用户116之间的关系、用户简档等)来选择第一应用112A。在这种场景下,第一应用112A可以包括日历应用(用于设置见面的提醒)、web浏览器(用于浏览与附近的徒步旅行设施相关联的网站)或用于购买徒步旅行装备的电子商务购物应用,如表1A中所示。在另一个例子中,第一用户114和第二用户116的更喜欢的活动可以包括看电影。电路202然后可以基于选择准则310A(比如第一用户114和第二用户116之间的关系和/或用户简档)来选择第一应用112A。在这种场景下,第一应用112A可以包括日历应用(用于设置见面的提醒)、web浏览器(用于浏览最新的电影)或电子商务票务应用(用于购买电影票),如表1A中所示。
Figure BDA0004113771050000171
表1A:基于简档的活动和应用的选择
在另一个例子中,第一用户114和第二用户116的更喜欢的活动可以包括观光。电路202然后可以基于选择准则310A(比如第一用户114和第二用户116之间的关系、用户简档等)选择第一应用112A。在这种场景下,第一应用112A可以包括日历应用(用于设置见面的提醒)、web浏览器(用于浏览附近的旅游景点)或地图应用(用于规划到附近的旅游景点的路线),如表1A中所示。
Figure BDA0004113771050000181
表1B:基于环境的活动和应用的选择
在另一个实施例中,电路202可以基于活动时第一用户114周围的环境(比如天气预报)来建议活动。例如,电路202可以基于短语“我们这个星期六出去…”将信息的类型110B识别为活动时间表。除了第一用户114的用户简档之外,电路202可以基于活动时的天气预报来确定要建议的活动。如表1B中所示,电路202可以基于有利于徒步旅行或其他户外活动的天气预报(例如,晴,华氏76度)来建议“徒步旅行”。例如,在天气预报指示高温(比如华氏120度)的情况下,电路202可以不建议户外活动。在另一个例子中,电路202可以基于指示“下雨的可能性,60%降水”的天气预报来建议“电影”。在另一个例子中,电路202可以基于指示低温(比如华氏20度)的天气预报来建议其他室内活动(比如“参观博物馆”)。在另一个实施例中,电路202可以基于特定地点的季节来建议活动。例如,电路202可以在春季建议户外活动,并且可以在冬季建议室内活动。在另一个实施例中,电路202还可以基于所计划的活动当天的环境条件来添加日历任务。例如,电路202可以添加诸如“带伞”之类的日历任务,因为星期六有60%的可能性会下雨。应注意的是,表1A和表1B中提供的数据可能只是作为例子,而不应被解释为限制本公开。
在另一个例子中,电路202可以将第一用户114和第二用户116之间的关系确定为新同事。在这种场景下,第一应用112A可以包括用于设置见面的提醒的日历应用或用于查看第二用户116的用户简档的社交网络应用。在实施例中,对于相同的提取的文本信息110A,电路202可被配置为基于选择准则310A选择不同的应用(作为第一应用112A)。
在实施例中,所述至少一个选择准则310A还可以包括但不限于对话的上下文、电子设备302A执行一组应用112的能力、一组应用112中的每个应用的优先级、一组应用112中的每个应用的选择频率、由电子设备302A注册的第一用户114的认证信息、与一组应用112对应的使用信息、当前新闻、当前时间、与第一用户114的电子设备302A相关的地理位置、天气预报或第一用户114的状态。
对话的上下文可以包括但不限于与工作相关的对话、个人对话、与银行相关的对话、关于即将到来的事件/当前事件的对话或其他类型的对话。在实施例中,电路202还可被配置为基于与第一用户114的对话中的第二用户116的用户简档、第一用户114和第二用户116的关系、第一用户114和第二用户116各自的职业、与第二用户116的对话的频率、或者对话的时间,来确定对话的上下文。例如,从对话中提取的文本信息110A可以包括诸如“…我们上午11点见…”之类的短语。在示例场景下,第一用户114和第二用户116之间的关系可以是职业关系,并且与第二用户116的对话的频率可能是“经常”。在这种场景下,所选择的第一应用112A可以包括用于预订优选会议室的web浏览器或企业应用。在另一个场景下,第一用户114和第二用户116之间的关系可以是个人关系(例如,朋友),并且与第二用户116的对话的频率可能是“很少”。在这种场景下,所选择的第一应用112A可以包括用于基于与第一用户114或第二用户相关联的用户简档(或关系)或对话的频率,在更喜欢的餐厅预订早午餐的餐桌的web浏览器或电子商务应用。
电子设备302A执行第一应用112A的能力可以指示电子设备302A是否可以在特定时间(例如,由于处理负荷或网络连通性)执行第一应用112A。由电子设备302A注册的第一用户114的认证信息可以指示是否第一用户114登录到第一应用112A,并且第一用户114向第一应用112A授予了必要的许可。与第一应用112A对应的使用信息可以指示与第一用户114使用第一应用112A的频率相关联的信息。例如,一组应用112中的每个应用的选择频率可以指示第一用户114可能选择一组应用112中的每个应用的频率。因此,基于过去较高的选择频率,从一组应用112中选择第一应用112A的概率可能较高。
一组应用112中的每个应用的优先级可以指示用于在所确定的一组应用112中选择应用(作为第一应用112A)的不同的预先定义的优先级。在实施例中,电路202还可被配置为基于第一用户114和第二用户116之间的关系,改变与一组应用112中的每个应用相关联的优先级。例如,第一应用112A(例如,订餐应用)对于与个人关系(比如家庭成员)的对话的优先级可以高于第一应用112A对于与职业关系(比如同事)的对话的优先级。换句话说,电路202可以基于与家庭成员(比如父母、配偶或子女)的对话在所确定的一组应用112中选择第一应用112A(例如,订餐应用),并且基于与同事的对话在确定的一组应用112中选择第二应用112B(例如,企业应用)。与第一用户114和第二用户116之间的关系相关联的一组应用112中的每个应用的优先级可以在存储器204中预先定义,例如如表2中所述。
在实施例中,从对话中提取的文本信息110A可以包括短语“我们下午1点见”。基于文本信息110A和选择准则310A,电路202可被配置为基于对话的上下文、用户之间的关系或第一用户114的地点来选择第一应用112A以供执行,并基于第一应用112A的执行来显示输出信息,如表2中所示:
Figure BDA0004113771050000201
Figure BDA0004113771050000211
表2:基于关系的应用的优先级
应注意的是,表2中提供的数据可能只是作为例子,而不应被解释为限制本公开。在实施例中,查找表(表2)可以存储与第一用户114和第二用户116之间的关系相关联的任务之间的关联。在例子中,针对同事的与提取的文本信息110A相关联的任务可能不同于针对配偶的与提取的文本信息110A相关联的任务。在另一个实施例中,电路202可以基于提取的文本信息110A中的见面时间或者基于对话的时间来选择第二应用112B。例如,在对话的时间是“上午11点”,而见面时间是“下午1点”的情况下,电路202可以选择电子商务应用在餐厅预订餐桌。在另一种情况下,如果对话的时间是“下午12:30”,而见面时间是“下午1:00”,则可替换地或另外地,电路202可以选择出租车聚合器应用来预订出租车到见面地点。
在312,可以执行第一应用112A。电路202可被配置为基于文本信息110A来控制选择的第一应用112A的执行。第一应用112A的执行可以与电子设备302A执行特定应用的能力相关联。在例子中,文本信息110A可以指示电话号码,电路202可被配置为选择电话簿应用以供执行,以便保存新的联系人或直接呼叫新的联系人或向新的联系人发送消息。在另一个例子中,文本信息110A可以指示地点,电路202可被配置为选择地图应用以导航到在提取的文本信息110A中指示的位置。所选择的第一应用112A的执行例如在图4A-图4E中进一步说明。
在314,可以显示输出信息。电路202可被配置为基于第一应用112A的执行来控制输出信息的显示。电路202可以在电子设备302A的显示设备212上显示输出信息。输出信息的例子可以包括但不限于用于执行任务的一组指令、与文本信息110A相关的统一资源定位符(URL)、与文本信息110A相关联的网站、文本信息110A中的关键字、基于对话的任务的通知、添加到作为第一应用112A的电话簿的新联系人的通知、添加到作为第一应用112A的日历应用的提醒的通知、或第一应用112A的用户界面。输出信息的显示例如在图4A-图4E中进一步说明。
图4A是图解说明按照本公开的实施例的可以显示输出信息的示例性第一用户界面(UI)的示图。结合图1、图2和图3的要素来说明图4A。参考图4A,示出了UI 400A。UI 400A可以在显示设备(比如显示设备212)上显示用于执行第一应用112A的确认屏幕402。电子设备102可以控制显示设备212显示输出信息。
在例子中,从对话中提取的文本信息110A可以包括短语“我们下午1点见”。基于文本信息110A和选择准则310A,电路202可被配置为自动选择第一应用112A以供执行,并基于第一应用112A的执行来显示输出信息。在图4A中,还示出了UI元素(比如“提交”按钮404)。在例子中,电路202可被配置为接收通过“提交”按钮404的用户输入。在实施例中,在选择不止一个第一应用112A由电子设备102执行的情况下,显示设备212可以显示用于用户确认任务的确认屏幕402,如图4A中所示。通过提交按钮404的用户输入可以指示对与所选择的第一应用112A(比如日历应用、电子商务应用等)对应的任务的确认。UI 400A还可以包括指示任务的选择的突出显示框,该突出显示框可以被移动以基于用户输入指示不同的选择。在图4A中,与选择的第一应用112A对应的任务可被显示为“设置见面提醒”、“在餐厅预订餐桌”或“打开送餐应用”。当电路202接收到所选择的任务的用户确认(经由显示设备212上的“提交”按钮)时,电路202可以执行对应的第一应用112A,并显示输出信息,如图4D和图4E以及表1-5中所示。例如,当电路202接收到与日历应用对应的任务“设置见面提醒”的确认时,如图4A中所示,电路202可以执行日历应用以设置见面提醒,并显示提醒的通知作为输出信息。
图4B是图解说明按照本公开的实施例的可以显示输出信息的示例性第二用户界面(UI)的示图。结合图1、图2、图3和图4A的要素来说明说明图4B。参考图4B,示出了UI400B。UI 400B可以在显示设备(比如显示设备212)上显示用于执行第一应用112A的确认屏幕402。在例子中,从对话中提取的文本信息110A可以包括短语“查看此网站…”。基于文本信息110A和选择准则310A,电路202可被配置为将输出信息显示为要由所选择的第一应用112A执行的任务。在选择不止一个第一应用112A由电子设备102执行的情况下,显示设备212可以显示用于用户确认任务的确认屏幕402,如图4B中所示。通过提交按钮404的用户输入可以指示对与所选择的第一应用112A(比如浏览器)对应的任务的确认。UI 400B还包括指示任务的选择的突出显示框,该突出显示框可以被移动以基于用户输入指示不同的选择。在图4B中,与选择的第一应用112A对应的任务可被显示为“打开URL:‘A’以获取信息”、“给URL‘A’设定书签”、“访问网站:‘B’以获取信息”或“给网站‘B’设定书签”。当电路202接收到所选择的任务的用户确认(经由显示设备212)时,电路202可以执行对应的第一应用112A,并显示输出信息,如图4D和图4E以及表1-5中所示。例如,当电路202接收到与浏览器对应的任务“访问网站:‘B’以获取信息”的确认时,如图4B中所示,电路202可以执行浏览器并显示网站作为输出信息。基于提取的时间表或URL,与所选择的第一应用112A对应的任务的例子如下呈现在表3中:
Figure BDA0004113771050000231
表3:与所选择的应用对应的示例性任务
在另一个实施例中,电路202可以基于影响第一用户114可用的一个或多个动作的环境(比如第一用户114的状态或状况)来推荐任务或动作。例如,在第一用户114在驾驶时进行对话的情况下,电路202可以从对话中提取多条文本信息110A(比如姓名、电话号码或网站)。基于第一用户114的状态(比如驾驶状态),电路202可以呈现与在第一用户114静止时推荐的任务不同的动作或任务。例如,在电路202确定第一用户114的状态为“驾驶”的情况下,电路202可以推荐与所选择的第一应用112A对应的任务,比如“给URL‘A’设定书签”或“给网站‘B’设定书签”,如图4B和表3中所示,以便第一用户114可以在稍后的时间点访问所保存的URL或网站。电路202可以基于各种方法,比如电子设备102上的用户输入(比如“驾驶模式”)、过去的用户行为(比如早上9点到10点之间上班)或电子设备102的不断变化的GPS位置来确定第一用户114的用户状态(例如静止或驾驶)。应注意的是,表3中提供的数据可能只是作为示例性数据,而不应被解释为限制本公开。
图4C是图解说明按照本公开的实施例的可以显示输出信息的示例性第三用户界面(UI)的示图。结合图1、图2、图3、图4A和图4B的要素来说明图4C。参考图4C,示出了UI400C。UI 400C可以在显示设备(比如显示设备212)上显示用于执行第一应用112A的确认屏幕402。在例子中,从对话中提取的文本信息110A可以包括地点“…ABC街,公寓1234…”。基于文本信息110A和选择准则310A,电路202可被配置为在选择不止一个第一应用112A由电子设备102执行的情况下,控制显示设备212显示用于用户确认任务的确认屏幕402,如图4C所示。UI 400C还包括指示任务的选择的突出显示框,该突出显示框可以被移动以基于用户输入指示不同的选择。在图4C中,与选择的第一应用112A对应的任务可被显示为“打开地图应用”、“访问网站:‘B’以获取地点信息”和“在备忘录应用中保存地址”。当电路202接收到所选择的任务的用户确认(经由显示设备212)时,电路202可以执行对应的第一应用112A,并显示输出信息,如图4D和图4E以及表1-5中所示。例如,当电路202接收到与备忘录应用对应的任务“在备忘录应用中保存地址”的确认时,如图4B中所示,电路202可以执行备忘录应用并显示保存的地址的通知作为输出信息。基于提取的地点,与所选择的第一应用112A对应的任务的例子如下呈现在表4中:
Figure BDA0004113771050000251
表4:与所选择的应用对应的示例性任务
应注意的是,表4中提供的数据可能只是作为示例性数据,而不应被解释为限制本公开。在例子中,在第一用户114的电子设备102的地理位置接近提取的文本信息110A中的地址的情况下,可以执行地图应用以便显示到该地址的距离和方向。
图4D是图解说明按照本公开的实施例的可以显示输出信息的示例性第四用户界面(UI)的示图。结合图1、图2、图3、图4A、图4B和图4C的要素来说明图4D。参考图4D,示出了UI 400D。UI 400D可以基于第一应用112A的执行在显示设备(比如显示设备212)上显示输出信息。例如,UI 400D可以显示第一应用112A的用户界面作为输出信息。在例子中,从对话中提取的文本信息110A可以包括“…电话号码1234…”。基于文本信息110A和选择准则310A,电路202可被配置为将输出信息显示为电话簿的用户界面或添加到电话簿的新联系人的通知。在图4D中,输出信息(例如电话簿的用户界面)可被显示为“创建联系人…姓名:ABC,和电话:1234”。基于提取的电话号码,与所选择的第一应用112A对应的任务的例子如下呈现在表5中:
Figure BDA0004113771050000252
Figure BDA0004113771050000261
表5:与所选择的应用对应的示例性任务
应注意的是,表5中为一组指令执行任务而提供的数据可能只是作为示例性数据,而不应被解释为限制本公开。在图4D中,还示出了UI元素(比如编辑联系人按钮406)。在实施例中,电路202可被配置为接收通过编辑联系人按钮406的用户输入。在例子中,通过编辑联系人按钮406的用户输入可以允许在保存到电话簿之前更改联系人信息。
图4E是图解说明按照本公开的实施例的可以显示输出信息的示例性第五用户界面(UI)的示图。结合图1、图2、图3、图4A、图4B、图4C和图4D的要素来说明图4E。参考图4E,示出了UI 400E。UI 400E可以基于第一应用112A的执行在显示设备(比如显示设备212)上显示输出信息。例如,UI 400E可以显示第一应用112A的用户界面作为输出信息。在实施例中,从对话中提取的文本信息110A可以包括见面时间表“…在ABC见面…”。基于文本信息110A和选择准则310A,电路202可被配置为将输出信息显示为日历应用(作为第一应用112A)的用户界面,或者显示为添加到日历应用中的提醒的通知。在图4E中,输出信息(例如日历应用的用户界面)可被显示为“设置提醒,标题:ABC,时间:HH:MM,日期:DD/MM/YY”。基于提取的见面时间表,与所选择的第一应用112A对应的任务的例子如下呈现在表6中:
信息的类型 关系/上下文/简档 选择的应用 任务/输出信息
见面时间表 同事或客户/职业 电子邮件应用 发送见面邀请
见面时间表 朋友/随意 日历应用 设置提醒
表6:与所选择的应用对应的示例性任务
应注意的是,表6中为一组指令执行任务而提供的数据可能只是作为示例性数据,而不应被解释为限制本公开。在图4E中,还示出了UI元素(比如编辑提醒按钮408)。在实施例中,电路202可被配置为接收通过编辑提醒按钮408的用户输入,通过编辑提醒按钮408的用户输入可以允许编辑被存储在日历应用中的提醒。
图5是图解说明按照本公开的实施例的示例性用户界面(UI)的示图,该示例性用户界面(UI)可以将言语提示识别为用于捕获音频信号的触发。结合图1、图2、图3和图4A-图4E的要素来说明图5。参考图5,示出了UI 500。UI 500可以在显示设备(比如显示设备212)上显示将被识别为捕获音频信号(即,对话的一部分)的触发的言语提示502。电子设备102可以控制显示设备212显示诸如“提示1”、“提示2”之类的言语提示502,以供第一用户114编辑和确认。例如,“提示1”可被设置为“电话号码”,“提示2”可被设置为“姓名”或“地址”等。电路202可以接收指示言语提示的用户输入以设置言语提示。电路202可被配置为搜索web以接收言语提示502。
在实施例中,电路202还可被配置为将第一用户114和第二用户116之间的对话中的言语提示502(比如“提示1”或“提示2”)识别为捕获音频信号的触发。电路202可被配置为基于所识别的言语提示502,从音频捕获设备(比如音频捕获设备206)或从所记录的/正在进行的对话接收音频信号。在例子中,电路202可以接收言语提示502,以开始和/或停止从音频捕获设备206或从电话通话或视频通话中的进行中的对话中检索音频信号。例如,言语提示“开始”可以触发与对话对应的音频信号的捕获,而言语提示“停止”可以停止音频信号的捕获。然后,电路202可以将捕获的音频信号保存在存储器204中。
可注意到的是,本领域普通技术人员将理解,除了为了说明和解释本公开的功能和操作而在图5中图解说明的言语提示502之外,言语提示还可以包括其他适当的提示。为了简洁起见,从本公开中省略了对电子设备102识别的其他言语提示502的详细说明。
在图5中,还示出了UI元素(比如“提交”按钮504)。在实施例中,电路202可被配置为接收通过UI 500和提交按钮504的用户输入。在实施例中,通过UI 500的用户输入可以指示对要识别的言语提示502的确认。还示出了UI元素(比如编辑按钮506)。在实施例中,电路202可被配置为接收通过编辑按钮506的用于修改言语提示502的用户输入。
图6是图解说明按照本公开的实施例的示例性用户界面(UI)的示图,该示例性用户界面(UI)可以接收用户输入作为捕获音频信号的触发。结合图1、图2、图3、图4A-图4E和图5的要素来说明图6。参考图6,示出了UI 600。UI 600可以在显示设备(比如显示设备212)上显示多个UI元素。还示出了UI元素(比如电话呼叫屏幕602、静音按钮604、小键盘按钮606、记录器按钮608和扬声器按钮610)。在实施例中,电路202可被配置为接收通过UI 600和UI要素(604、606、608和610)的用户输入。在实施例中,UI 600的UI元素的选择可以用虚线矩形框指示,如图6中所示。
在实施例中,电路202还可被配置为接收指示用于捕获对应于对话的音频信号的触发的用户输入。电路202还可被配置为基于接收到的用户输入,从音频捕获设备(比如音频捕获设备206)或从记录的/正在进行的对话接收音频信号。在例子中,电路202可被配置为接收通过记录器按钮608的用户输入。电路202可以基于记录器按钮608的选择,开始捕获对应于对话的音频信号。电路202可被配置为基于对记录器按钮608的另一个用户输入来停止音频信号的记录。然后,电路202可以基于经由记录器按钮608接收到的另一个用户输入将记录的音频信号保存在存储器204中。静音按钮604、小键盘按钮606和扬声器按钮610的功能为本领域普通技术人员所知,于是为了简洁起见,从本公开中省略了对静音按钮604,小键盘按钮606和扬声器按钮610的详细说明。
图7是图解说明按照本公开的实施例的可以基于用户输入来搜索提取的文本信息的示例性用户界面(UI)的示图。结合图1、图2、图3、图4A-图4E、图5和图6的要素来说明图7。参考图7,示出了UI 700。UI 700可以在显示设备(比如显示设备212)上显示捕获的对话702。电子设备102可以控制显示设备212显示捕获的对话702。
在实施例中,电路202可被配置为接收指示关键字的用户输入。电路202还可被配置为基于用户输入来搜索提取的文本信息110A,并控制搜索的结果的显示。在图7中,对话可被显示为“第一用户:…我想安装电话…,第二用户:…请问姓名和地址?…,第一用户:地址是南大街1600,公寓16…”。图中还示出了UI元素,比如“提交”按钮704和搜索文本框706。在实施例中,电路202可被配置为接收通过提交按钮704和搜索文本框706的用户输入。在实施例中,用户输入可以指示UI 700中的关键字(例如,“地址”或“号码”)。电路202可被配置为在对话中搜索关键字(比如“地址”),基于关键字提取文本信息110A(比如“地址是南大街1600,公寓16”),并基于提取的文本信息110A控制第一应用112A(例如,地图应用)的执行。在实施例中,电路202可以采用关键字搜索的结果(作为提取的文本信息110A)和结果的类型(作为信息的类型110B)来进一步训练ML模型110,例如如图8中所示。
图8是图解说明按照本公开的实施例的用于训练机器学习(ML)模型的示例性操作的示图,该机器学习(ML)模型用于基于音频对话的信息提取和面向用户的动作。结合图1、图2、图3、图4A-图4E、图5、图6和图7的要素来说明图8。参考图8,示出了图解说明如本文中所述的从802到806的示例性操作的框图800。框图800中图解所示的示例性操作可以始于802,并且可以由任何计算系统、装置或设备进行,比如由图1的电子设备102或图2的电路202进行。
在802,可以将从音频信号802A提取的文本信息(比如文本信息110A)输入到机器学习(ML)模型110。文本信息110A可以指示ML模型110的训练数据。训练数据可以是多模态数据,并且可以用于针对文本信息110A的新例子及其类型进一步训练机器学习(ML)模型110。训练数据例如可以包括音频信号802A或与文本信息110A相关联的新关键词。例如,训练数据可以与对话中的多个关键字、指示提取的文本信息110A的关键字搜索的用户输入、信息的类型110B以及对用于执行的第一应用112A的选择相关联,如图7中所示。
可以基于(可从数据库获得的)训练数据为ML模型110生成若干输入特征。训练数据可以包括与提取准则304A、选择准则310A和其他相关信息相关联的各种数据点。例如,训练数据可以包括与第一用户114相关的数据点,比如第一用户114的用户简档、第一用户114职业,或对话的时间。另外或可替选地,训练数据可以包括与对话的上下文、一组应用112中的每个应用的优先级、第一用户114选择一组应用112中的每个应用的频率,以及第一用户114对一组应用112中的每个应用的使用(例如,持续时间)相关的数据点。训练数据还可以包括与当前新闻、当前时间或第一用户114的地理位置相关的数据点。
此后,可以针对训练数据(例如,未针对其训练过ML模型的文本信息110A的新例子及其类型)训练ML模型110。在训练之前,可以基于例如来自软件开发者或第一用户114的用户输入808选择一组超参数。例如,可以为从训练数据生成的输入特征中的每个数据点选择特定权重。来自第一用户114的用户输入808可以包括对第一应用112A的手动选择、对提取的文本信息110A的关键字搜索、以及用于关键字搜索的信息的类型110B。用户输入808可以对应于由第一用户114提供的关键字(即,新文本信息)的类标签(作为信息的类型110B和所选择的第一应用112A)。
在训练中,若干输入特征可以作为输入被顺序传递到ML模型110。ML模型110可以基于这样的输入来输出若干推荐(比如信息的类型804以及一组应用806)。一旦经过训练,ML模型110就可以为输入特征中的与输入特征中的其他数据点相比对输出推荐的贡献更大的数据点选择更高的权重。
在实施例中,电路202可被配置为基于用户输入来选择第一应用112A,并且基于所选择的第一应用112A来训练机器学习(ML)模型110。在这种场景下,可以基于一组应用112中的每个应用的优先级、第一用户114的用户简档、一组应用112中的每个应用的选择频率或与一组应用112中的每个应用对应的使用信息,来训练ML模型110。
在实施例中,电路202还可被配置为基于用户输入来搜索提取的文本信息,并控制搜索的结果的显示,例如如图7中所示。电路202还可被配置为基于结果的类型来训练ML模型110以识别至少一种信息类型110B。在这种场景下,可以基于可包括但不限于地点、电话号码、姓名、日期、时间表、地标、唯一标识符或通用资源定位符的结果来训练ML模型110。
图9描绘了图解说明按照本公开的实施例的用于基于音频对话的信息提取和面向用户的动作的示例性方法的流程图。结合图1、图2、图3、图4A-图4E、图5、图6、图7和图8的要素来说明图9。参考图9,示出了流程图900。流程图900的操作可以由诸如电子设备102或电路202之类的计算系统执行。操作可以始于902然后进行到904。
在904,可以接收音频信号。在一个或多个实施例中,电路202可被配置为接收与第一用户(比如第一用户114)和第二用户(比如第二用户116)之间的对话(比如对话702)对应的音频信号,例如如图3中(在302)所示。
在906,可以从接收到的音频信号中提取文本信息。在一个或多个实施例中,电路202可被配置为基于至少一个提取准则(比如提取准则304A)从接收到的音频信号中提取文本信息(比如文本信息110A),例如如图3中(在304)所示。
在908,可以将机器学习模型应用于提取的文本信息110A,以识别至少一种信息类型。在一个或多个实施例中,电路202可被配置为将机器学习(ML)模型(比如ML模型110)应用于提取的文本信息110A,以识别提取的文本信息110A的至少一种信息类型(比如信息的类型110B),例如如图3中(在306)所示。
在910,可以基于所识别的至少一种信息类型110B来确定与电子设备102相关联的一组应用。在一个或多个实施例中,电路202可被配置为基于所识别的至少一种信息类型110B来确定与电子设备102相关联的一组应用(比如一组应用112),例如如图3中(在308)所示。在一些实施例中,可以将经过训练的ML模型110应用于所识别的信息的类型110B来确定一组应用112。
在912,可以从所确定的一组应用112中选择第一应用。在一个或多个实施例中,电路202可被配置为基于至少一个选择准则(比如选择准则310A)从所确定的一组应用112中选择第一应用(比如第一应用112A),例如如图3中(在310)所示。
在914,可以控制所选择的第一应用112A的执行。在一个或多个实施例中,电路202可被配置为基于文本信息110A来控制所选择的第一应用112A的执行,例如如图3中(在312)所示。控制可以转到结束。
尽管流程图900被例示为离散操作,比如904、906、908、910、912和914,然而本公开不限于此。因而,在某些实施例中,取决于特定的实现,此类离散操作可以被进一步划分成另外的操作,组合成更少的操作,或者被删除,而不影响所公开实施例的本质。
本公开的各个实施例可以提供其上存储有可由机器和/或计算机(例如电子设备102)执行的指令的非临时性计算机可读介质和/或存储介质。所述指令可以使机器和/或计算机(例如电子设备102)进行操作,所述操作包括接收音频信号,所述音频信号可以对应于与第一用户(比如第一用户114)和第二用户(比如第二用户116)相关联的对话(比如对话702)。所述操作还可以包括基于至少一个提取准则(比如提取准则304A)从接收到的音频信号中提取文本信息(比如文本信息110A)。所述操作还可以包括对提取的文本信息110A应用机器学习模型(比如ML模型110),以识别提取的文本数据110A的至少一种信息类型(比如信息的类型110B)。所述操作还可以包括基于所识别的至少一种信息类型110B,确定与电子设备102相关联的一组应用(比如一组应用112)。所述操作还可以包括基于至少一个选择准则(比如选择准则310A),从所确定的一组应用112中选择第一应用(比如第一应用112A)。所述操作还可以包括基于文本信息110A来控制所选择的第一应用112A的执行。
本公开的示例性方面可以包括一种电子设备(比如电子设备102),所述电子设备可以包括电路(比如电路202)。电路202可被配置为接收对应于与第一用户(比如第一用户114)和第二用户(比如第二用户116)相关联的对话(比如对话702)的音频信号。电路202可被配置为基于至少一个提取准则(比如提取准则304A),从接收到的音频信号中提取文本信息(比如提取的文本信息110A)。电路202可被配置为对提取的文本信息110A应用机器学习模型(比如ML模型110),以识别提取的文本信息110A的至少一种信息类型(比如信息的类型110B)。基于所识别的至少一种信息类型110B,电路202可被配置为确定与电子设备102相关联的一组应用(比如一组应用112)。电路202还可被配置为基于至少一个选择准则(比如选择准则310A),从所确定的一组应用112中选择第一应用(比如第一应用112A)。电路202还可被配置为基于文本信息110A来控制所选择的第一应用112A的执行。
按照实施例,电路202还可被配置为基于第一应用112A的执行来控制输出信息的显示。输出信息可以包括用于执行任务的一组指令、与文本信息相关的统一资源定位符(URL)、与文本信息相关的网站、文本信息中的关键字、基于对话702的任务的通知、添加到作为第一应用112A的电话簿的新联系人的通知、添加到作为第一应用112A的日历应用的提醒的通知、或第一应用112A的用户界面中的至少一个。
按照实施例,至少一个选择准则310A可以包括与第一用户114相关联的用户简档、与在与第一用户114的对话702中的第二用户116相关联的用户简档、或者第一用户114和第二用户116之间的关系中的至少一个。第一用户114的用户简档可以对应于与第一用户114相关联的兴趣或偏好之一,而第二用户116的用户简档可以对应于和第二用户116相关的兴趣或偏好之一。
按照实施例,至少一个选择准则310A可以包括对话702的上下文、电子设备102执行一组应用112的能力、一组应用112中的每个应用的优先级、一组应用112中的每个应用的选择频率、由电子设备102注册的第一用户114的认证信息、与一组应用112对应的使用信息、当前新闻、当前时间、或与第一用户114的电子设备102相关的地理位置、天气预报、或第一用户114的状态中的至少一个。
按照实施例,电路202还可被配置为基于与第一用户114的对话702中的第二用户116的用户简档、第一用户114和第二用户116的关系、第一用户114和第二用户116各自的职业、与第二用户116的对话的频率、或对话702的时间来确定对话702的上下文。
按照实施例,电路202还可被配置为基于第一用户114和第二用户116的关系来改变与一组应用112中的每个应用相关联的优先级。
按照实施例,音频信号可以包括第一用户114和第二用户116之间的记录的消息或实时对话702中的至少一个。
按照实施例,电路202还可被配置为接收指示用于捕获与对话702相关联的音频信号的触发的用户输入(比如用户输入808)。基于接收到的用户输入808,电路202还可被配置为从音频捕获设备(比如音频捕获设备206)接收音频信号。
按照实施例,电路202还可被配置为将对话702中的言语提示(比如言语提示502)识别为用于捕获与对话702相关联的音频信号的触发。基于所识别的言语提示502,电路202还可被配置为从音频捕获设备(比如音频捕获设备206)接收音频信号。
按照实施例,电路202还可被配置为基于机器学习(ML)模型110的应用,对于所识别的至少一种信息类型110B确定一组应用112。
按照实施例,电路202还可被配置为基于用户输入(比如用户输入808)来选择第一应用112A。基于选择的第一应用112A,电路202还可被配置为训练机器学习(ML)模型110。
按照实施例,电路202还可被配置为基于用户输入808来搜索提取的文本信息110A,并控制搜索的结果的显示。基于结果的类型,电路202还可被配置为训练机器学习(ML)模型110以识别至少一种信息类型110B。
按照实施例,至少一种信息类型110B可以包括地点、电话号码、姓名、日期、时间表、地标、唯一标识符或通用资源定位符中的至少一个。
本公开可以用硬件或者硬件和软件的组合来实现。本公开可以以集中方式在至少一个计算机系统中,或者以其中不同的元件可分布在几个互连的计算机系统上的分布式方式实现。适于执行本文中所述的方法的计算机系统或其他装置可能是合适的。硬件和软件的组合可以是具有计算机程序的通用计算机系统,所述计算机程序当被加载和执行时可以控制所述计算机系统,使得所述计算机系统执行本文中所述的方法。本公开可以用包括还进行其他功能的集成电路的一部分的硬件来实现。
本公开还可以嵌入到计算机程序产品中,所述计算机程序产品包括使得能够实现本文中所述的方法的所有特征,并且当被载入计算机系统中时能够执行这些方法。在本上下文中,计算机程序意味着一组指令的采用任何语言、代码或符号的任意表达,所述一组指令旨在使具有信息处理能力的系统直接地或者在以下之一或两者之后进行特定功能:a)转换成另一种语言、代码和符号;b)以不同的材料形式进行再现。
虽然参考某些实施例说明了本公开,但是本领域技术人员将理解的是,在不脱离本公开的范围的情况下可以进行各种改变和等同替换。另外,可以进行许多修改以使特定情况或材料适应本公开的教导而不脱离本公开的范围。于是,本公开并不限于所公开的特定实施例,相反本公开将包括落入所附权利要求的范围内的所有实施例。

Claims (20)

1.一种电子设备,包括:
电路,所述电路被配置为:
接收对应于与第一用户和第二用户相关联的对话的音频信号;
基于至少一个提取准则从接收到的音频信号中提取文本信息;
对提取的文本信息应用机器学习模型,以识别提取的文本信息的至少一种信息类型;
基于所识别的至少一种信息类型来确定与所述电子设备相关联的一组应用;
基于至少一个选择准则从所确定的一组应用中选择第一应用;以及
基于所述文本信息来控制所选择的第一应用的执行。
2.按照权利要求1所述的电子设备,其中
所述电路还可被配置为基于第一应用的执行来控制输出信息的显示,并且
所述输出信息包括用于执行任务的一组指令、与所述文本信息相关的统一资源定位符(URL)、与所述文本信息相关的网站、所述文本信息中的关键字、基于对话的任务的通知、添加到作为第一应用的电话簿的新联系人的通知、添加到作为第一应用的日历应用的提醒的通知、或第一应用的用户界面中的至少一个。
3.按照权利要求1所述的电子设备,其中
所述至少一个选择准则包括与第一用户相关联的用户简档、与在与第一用户的对话中的第二用户相关联的用户简档、或者第一用户和第二用户之间的关系中的至少一个,
所述至少一个提取准则包括与第一用户相关联的用户简档、与在与第一用户的对话中的第二用户相关联的用户简档、第一用户的地理位置、或当前时间中的至少一个,
第一用户的用户简档对应于与第一用户相关联的兴趣或偏好之一,并且
第二用户的用户简档对应于与第二用户相关联的兴趣或偏好之一。
4.按照权利要求1所述的电子设备,其中所述至少一个选择准则包括对话的上下文、所述电子设备执行所述一组应用的能力、所述一组应用中的每个应用的优先级、所述一组应用中的每个应用的选择频率、由所述电子设备注册的第一用户的认证信息、与所述一组应用对应的使用信息、当前新闻、当前时间、第一用户的电子设备的地理位置、天气预报或第一用户的状态中的至少一个。
5.按照权利要求4所述的电子设备,其中所述电路还被配置为:基于与第一用户的对话中的第二用户的用户简档、第一用户和第二用户的关系、第一用户和第二用户各自的职业、与第二用户的对话的频率或对话的时间,来确定对话的上下文。
6.按照权利要求4所述的电子设备,其中所述电路还被配置为基于第一用户和第二用户的关系来改变与所述一组应用中的每个应用相关联的优先级。
7.按照权利要求1所述的电子设备,其中所述音频信号包括第一用户和第二用户之间的记录的消息或实时对话中的至少一个。
8.按照权利要求1所述的电子设备,其中所述电路还被配置为:
接收指示用于捕获与对话相关联的音频信号的触发的用户输入;并且
基于接收到的用户输入从音频捕获设备接收音频信号。
9.按照权利要求1所述的电子设备,其中所述电路还被配置为:
将对话中的言语提示识别为用于捕获与对话相关联的音频信号的触发;并且
基于所识别的语言提示从音频捕获设备接收音频信号。
10.按照权利要求1所述的电子设备,其中所述电路还被配置为基于所述机器学习模型的应用,对于所识别的至少一种信息类型确定所述一组应用。
11.按照权利要求1所述的电子设备,其中所述电路还被配置为:
基于用户输入选择第一应用;并且
基于所选择的第一应用来所述训练机器学习模型。
12.按照权利要求1所述的电子设备,其中所述电路还被配置为:
基于用户输入来搜索提取的文本信息;
控制搜索的结果的显示;并且
基于所述结果的类型,训练所述机器学习模型以识别所述至少一种信息类型。
13.按照权利要求1所述的电子设备,其中所述至少一种信息类型包括地点、电话号码、姓名、日期、时间表、地标、唯一标识符或通用资源定位符中的至少一个。
14.一种方法,包括:
在电子设备中:
接收对应于与第一用户和第二用户相关联的对话的音频信号;
基于至少一个提取准则从接收到的音频信号中提取文本信息;
对提取的文本信息应用机器学习模型,以识别提取的文本信息中的至少一种信息类型;
基于所识别的至少一种信息类型来确定与所述电子设备相关联的一组应用;
基于至少一个选择准则从所确定的一组应用中选择第一应用;以及
基于所述文本信息来控制所选择的第一应用的执行。
15.按照权利要求14所述的方法,还包括基于第一应用的执行来控制输出信息的显示,并且
所述输出信息包括用于执行任务的一组指令、与所述文本信息相关的统一资源定位符(URL)、与所述文本信息相关的网站、所述文本信息中的关键字、基于对话的任务的通知、添加到作为第一应用的电话簿的新联系人的通知、添加到作为第一应用的日历应用的提醒的通知、或第一应用的用户界面中的至少一个。
16.按照权利要求14所述的方法,其中
所述至少一个选择准则包括与第一用户相关联的用户简档、与在与第一用户的对话中的第二用户相关联的用户简档、或者第一用户和第二用户之间的关系中的至少一个,
所述至少一个提取准则包括与第一用户相关联的用户简档、与在与第一用户的对话中的第二用户相关联的用户简档、第一用户的地理位置、或当前时间中的至少一个,
第一用户的用户简档对应于与第一用户相关联的兴趣或偏好之一,并且
第二用户的用户简档对应于与第二用户相关联的兴趣或偏好之一。
17.按照权利要求14所述的方法,其中所述至少一个选择准则包括对话的上下文、所述电子设备执行所述一组应用的能力、所述一组应用中的每个应用的优先级、所述一组应用中的每个应用的选择频率、由所述电子设备注册的第一用户的认证信息、与所述一组应用对应的使用信息、当前新闻、当前时间、第一用户的电子设备的地理位置、天气预报或、第一用户的状态中的至少一个。
18.按照权利要求17所述的方法,还包括:基于与第一用户的对话中的第二用户的用户简档、第一用户和第二用户的关系、第一用户和第二用户各自的职业、与第二用户的对话的频率、或对话的时间,来确定对话的上下文。
19.按照权利要求17所述的方法,还包括基于与第一用户的对话中的第二用户,改变与所述一组应用中的每个应用相关联的优先级。
20.一种非临时性计算机可读介质,其上存储有计算机可执行指令,所述计算机可执行指令当由电子设备执行时,使所述电子设备执行操作,所述操作包括:
接收对应于与第一用户和第二用户相关联的对话的音频信号;
基于至少一个提取准则从接收到的音频信号中提取文本信息;
对提取的文本信息应用机器学习模型,以识别提取的文本信息中的至少一种信息类型;
基于所识别的至少一种信息类型,确定与所述电子设备相关联的一组应用;
基于至少一个选择准则从所确定的一组应用中选择第一应用;以及
基于所述文本信息来控制所选择的第一应用的执行。
CN202280006276.3A 2021-03-09 2022-03-08 基于音频对话的面向用户的动作 Pending CN116261752A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/195,923 US20220293096A1 (en) 2021-03-09 2021-03-09 User-oriented actions based on audio conversation
US17/195,923 2021-03-09
PCT/IB2022/052061 WO2022189974A1 (en) 2021-03-09 2022-03-08 User-oriented actions based on audio conversation

Publications (1)

Publication Number Publication Date
CN116261752A true CN116261752A (zh) 2023-06-13

Family

ID=80780693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280006276.3A Pending CN116261752A (zh) 2021-03-09 2022-03-08 基于音频对话的面向用户的动作

Country Status (6)

Country Link
US (1) US20220293096A1 (zh)
EP (1) EP4248303A1 (zh)
JP (1) JP2024509816A (zh)
KR (1) KR20230132588A (zh)
CN (1) CN116261752A (zh)
WO (1) WO2022189974A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11770268B2 (en) * 2022-02-14 2023-09-26 Intel Corporation Enhanced notifications for online collaboration applications

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013155619A1 (en) * 2012-04-20 2013-10-24 Sam Pasupalak Conversational agent
US20140188889A1 (en) * 2012-12-31 2014-07-03 Motorola Mobility Llc Predictive Selection and Parallel Execution of Applications and Services
US10192549B2 (en) * 2014-11-28 2019-01-29 Microsoft Technology Licensing, Llc Extending digital personal assistant action providers
US10157350B2 (en) * 2015-03-26 2018-12-18 Tata Consultancy Services Limited Context based conversation system
US9740751B1 (en) * 2016-02-18 2017-08-22 Google Inc. Application keywords
US10945129B2 (en) * 2016-04-29 2021-03-09 Microsoft Technology Licensing, Llc Facilitating interaction among digital personal assistants
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
KR102445382B1 (ko) * 2017-07-10 2022-09-20 삼성전자주식회사 음성 처리 방법 및 이를 지원하는 시스템
KR20190133100A (ko) * 2018-05-22 2019-12-02 삼성전자주식회사 어플리케이션을 이용하여 음성 입력에 대한 응답을 출력하는 전자 장치 및 그 동작 방법
US11128997B1 (en) * 2020-08-26 2021-09-21 Stereo App Limited Complex computing network for improving establishment and broadcasting of audio communication among mobile computing devices and providing descriptive operator management for improving user experience
US11558335B2 (en) * 2020-09-23 2023-01-17 International Business Machines Corporation Generative notification management mechanism via risk score computation

Also Published As

Publication number Publication date
JP2024509816A (ja) 2024-03-05
US20220293096A1 (en) 2022-09-15
WO2022189974A1 (en) 2022-09-15
KR20230132588A (ko) 2023-09-15
EP4248303A1 (en) 2023-09-27

Similar Documents

Publication Publication Date Title
US11823677B2 (en) Interaction with a portion of a content item through a virtual assistant
US10452783B2 (en) Conversational agent
CN109885251B (zh) 信息处理装置、信息处理方法以及存储介质
US11093536B2 (en) Explicit signals personalized search
US20170277993A1 (en) Virtual assistant escalation
US20110289015A1 (en) Mobile device recommendations
CN105453578B (zh) 用于提供会话话题的设备、服务器和方法
CN111512617B (zh) 推荐联系人信息的装置和方法
US20160021249A1 (en) Systems and methods for context based screen display
US20160027044A1 (en) Presenting information cards for events associated with entities
US20230199106A1 (en) Method and apparatus for providing content
CN116261752A (zh) 基于音频对话的面向用户的动作
KR20140115434A (ko) 자연어 검색과 연계된 공개 형 채팅을 통한 정보공유 및 광고 제공 단말 및 서버 장치 운영환경 제공방법
KR20140114955A (ko) 자연어 검색과 연계된 공개 형 채팅을 통한 정보공유 및 광고방법을 제공하는 단말 어플리케이션 환경 제공 장치 및 시스템
KR20140115433A (ko) 자연어 검색과 연계된 공개 형 채팅을 통한 정보공유 및 광고 제공 운영 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination