CN103443852A - 音频交互的消息交换 - Google Patents

音频交互的消息交换 Download PDF

Info

Publication number
CN103443852A
CN103443852A CN2012800164763A CN201280016476A CN103443852A CN 103443852 A CN103443852 A CN 103443852A CN 2012800164763 A CN2012800164763 A CN 2012800164763A CN 201280016476 A CN201280016476 A CN 201280016476A CN 103443852 A CN103443852 A CN 103443852A
Authority
CN
China
Prior art keywords
message
user
audio frequency
input
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012800164763A
Other languages
English (en)
Inventor
L.艾哈拉
S.兰德里
L.斯蒂费尔曼
M.钱塔昆塔
A.萨利文
K.李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN103443852A publication Critical patent/CN103443852A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

经由语音识别、文本转语音(TTS)和检测算法的组合提供了尤其是在便携式装置中的完全免持的消息交换。在确定了音频交互模式是否适当后,可以向用户大声地朗读输入消息,并且使所述用户经由音频输入用答复消息对发送者作出响应。用户还可以被提供有按照不同通信方式(例如,呼叫)作出响应的选项,或者执行其它动作。还可以使用户使用自然语言来发起消息交换。

Description

音频交互的消息交换
背景技术
随着计算和联网技术的发展和广泛使用,个人和商业通信已经在量和质上激增。经由诸如桌面型计算机、车载计算机、便携式计算机、智能手机及类似装置的固定或便携式计算装置的多模通信经常发生。由于通过容易定制的软件/硬件组合控制多面通信,所以以前未听说过的部件可以应用于日常生活中。例如,将存在信息结合到通信应用中使得人们能够彼此更加高效地通信。同时的尺寸减小和计算能力提高,使智能手机或类似的手持式计算装置用于多模通信,其包括但不局限于,音频,视频,文本消息交换,电子邮件,即时消息传送,社交网络发贴/更新等。
通信技术激增的结果之一是信息超载。对于人来说,每天交换几百封电子邮件,参与众多音频或视频通信会议以及交换大量的文本消息并非是不同寻常的。考虑庞大范围的通信,文本消息交换代替更正式的邮件和耗时的音频/视频通信而日益变得更加流行。尽管如此,使用常规的键入技术——不管是在实体键盘上还是使用触摸技术——甚至文本消息传送可能都是低效的、不实用的,或者有时是危险的(例如,驾驶时)。
发明内容
提供本发明内容是为了以简化形式介绍以下将在具体实施方式中进一步描述的概念的选择。本发明内容不旨在专门地标识出所要求保护的主题的关键特征或必要特征,也不旨在帮助确定所要求保护的主题的范围。
实施例涉及经由语音识别、文本转语音(TTS)和检测算法的组合来提供尤其是在便携式装置中的完全免持的消息交换。根据一些实施例,可以向用户大声地朗读输入消息,并且使用户经由音频输入用答复消息对发送者作出响应。用户还可以被提供按照不同通信模式(例如,呼叫)作出响应的选项,或者执行其它操作。根据其它实施例,可以使用户使用自然语言来发起消息交换。
根据对以下的详细描述的阅读以及对相关联的图的查阅,这些及其它特征和优点将变得显而易见。应当理解的是,前面的一般性描述及后面的详细描述都是说明性的,而不限制所要求保护的方面。
附图说明
图1是图示了在各种形式中的不同示例装置之间的联网通信的概念图;
图2图示了根据实施例的系统中的经由音频输入发起消息交换的操作的示例流程;
图3图示了根据实施例的系统中的经由音频输入对输入消息作出响应的操作的示例流程;
图4图示了用于促进通信的便携式计算装置的示例用户界面;
图5是可以在其中实施根据实施例的系统的联网环境;以及
图6是可以在其中实施实施例的示例计算操作环境的框图。
具体实施方式
如以上简述的那样,在确定了音频交互模式是否适当后,可以向用户大声地朗读输入消息,并且使用户经由音频输入用答复消息对发送者作出响应。用户还可以被提供有按照不同通信模式(例如,呼叫)作出响应的选项,或者执行其它动作。还可以使用户使用自然语言来发起消息交换。在下面的详细描述中,将参照构成本文的一部分的附图,其中通过图示的方式示出了具体的实施例或示例。在不背离本公开的精神或范围的情况下,可以组合这些方面,可以使用其它方面,并且可以进行结构上的改变。因此,不应按照限制的意义来理解以下的详细描述,并且本发明的范围由所附权利要求以及它们的等价物来限定。
虽然将在结合运行于个人计算机上的操作系统上的应用程序而执行的程序模块的一般情境中描述实施例,但是本领域技术人员将认识到还可以与其它程序模块相结合来实现方面。
一般来说,程序模块包括完成特定任务或实施特定抽象数据类型的例程、程序、组件、数据结构及其它类型的结构。此外,本领域技术人员将意识到,可以用包括手持式装置、多处理器系统、基于微处理器的或可编程的消费电子设备、小型计算机、大型计算机以及类似计算装置的其它计算系统配置来实践实施例。还可以在分布式计算环境中实践实施例,在分布式计算环境中,由通过通信网络链接的远程处理装置来完成任务。在分布式计算环境中,程序模块可以位于本地和远程存储器存储装置二者中。
可以把实施例实施为计算机实施的过程(方法)、计算系统,或实施为制品,例如计算机程序产品或计算机可读介质。计算机程序产品可以是可由计算机系统读取并且编码计算机程序的计算机存储介质,该计算机程序包括用于使得计算机或计算系统执行(多个)示例性过程的指令。计算机可读存储介质可以例如通过以下各项当中的一项或多项来实施:易失性计算机存储器、非易失性存储器、硬盘驱动器、闪存驱动器、软盘或紧凑型盘以及类似的介质。
在整个该说明书中,术语“平台”可以是用于促进多模通信的软件与硬件组件的组合。平台的示例包括但不限于在多个服务器上执行的托管服务、在单个服务器上执行的应用以及类似的系统。术语“服务器”通常涉及典型地在联网环境中执行一个或多个软件程序的计算装置。然而,服务器也可以被实施为在被视为网络上的服务器的一个或多个计算装置上执行的虚拟服务器(软件程序)。
图1是图示了在各种形式中的不同示例装置之间的联网通信的概念图。现代的通信系统可以包括在由服务器及其它专用设备管理的一个或多个有线和/或无线网络之上的信息交换。可以通过诸如蜂窝电话、智能电话、专门装置之类的专用装置或者通过执行通信应用的通用计算装置(固定的或便携的)来促进用户交互。
由现代的通信系统提供的性能和部件上的多样性使用户能利用各种通信形式。例如,可以通过相同的装置单独地或者组合地使用音频、视频、电子邮件、文本消息、数据共享、应用共享以及相似的形式。用户可以通过他们的便携式装置交换文本消息,然后经过不同形式与同一个人继续对话。
图100图示了两个示例系统,一个使用蜂窝网络,另一个使用数据网络。蜂窝通信系统使得通过由复合中枢系统管理的蜂窝网络102能够出现音频、视频或文本的基础交换。蜂窝电话112和122可以具有各不相同的性能。目前,并不少见的是,智能电话在性能方面与桌面型计算装置非常相似。
另一方面,基于数据网络104的通信系统使能通过便携式(例如,手持式计算机114,124)或固定(例如,桌面型计算机116,126)的计算装置的更广泛的数据集的交换和通信形式。典型地,由一个或多个服务器(例如,服务器106)来管理基于数据网络104的通信系统。通信会话还可以是跨网络的促进。例如,连接到数据网络104的用户可以与连接到蜂窝网络102的蜂窝电话用户通过他们的桌面通信应用发起通信会话(按照任何形式)。
然而,常规的系统和通信装置主要受限于诸如键入或激活在通信装置上的按键或相似控制元件之类的实体交互。虽然在一些系统中使用了基于语音识别的技术,但是典型地,用户必须通过按压按键来激活这些。此外,在使用基于语音的部件之前,用户必须按照适当的模式放置装置/应用。
根据一些实施例的通信系统采用语音识别、口述和文本转语音(音频输出)技术的组合,以使用户能发送基于文本的输出消息并且答复基于文本的输入消息(接收通知,使消息被读取给他们,以及制作答复)而无需按压任何按键,甚至观看装置屏幕,从而呈现不与通信装置交互的最小限度。基于文本的消息可以包括任何形式的正文消息,包括但不限于,即时消息(IM)、短消息服务(SMS)消息、多媒体消息传送服务(MMS)消息、社交网络发贴/更新、电子邮件以及类似的消息。
示例实施例还包括方法。可以按照任何数目的方式来实施这些方法,包括这篇文献中描述的结构。一种这样的方式是通过在这篇文献中描述的类型的装置的机器操作。
另一种可选的方式是,对于所述方法的独立操作中的一个或多个,与执行一些独立操作的一个或多个人操作员协作来执行。这些人操作员无需互相搭配,而是每个操作员都可以仅与执行该程序的一部分的机器在一起。
图2图示了根据实施例的系统中的经由音频输入发起消息交换的操作的示例流程。到达促进通信的计算设备的音频输入可以经过集成或分离的组件(有线的或无线的),比如麦克风、耳机、汽车套件或相似音频装置。虽然可以在根据实施例的通信系统中完成操作的各种顺序,但是在图2和图3中讨论了两个示例流程。
示例操作流程200可以开始于,通过预定关键词(例如,“启动消息传送”)或按压装置上的按键来激活消息传送动作(232)。根据一些实施例,可以通过自然语言来发动消息传送动作。例如,用户可以通过说出“给约翰多伊发送消息”来提供指示。如果用户说出电话号码或与接受者相似的标识符,则系统可以确认该标识符是适当的,并等待进一步的声音输入。如果用户说出名字,可以执行一个或多个确定算法以将所接收的名字与相似标识符(例如,SIP标识符)的电话号码相关联。例如,所接收的名字可以与联系人列表或相似的数据库进行比较。如果存在多个名字或相似发音的名字,则该系统可以提示用户指定哪个联系人被期望来接收该消息。此外,如果存在与联系人相关联的多个标识符(例如,电话号码、SIP标识符、电子邮件地址、社交网络地址等),则该系统可以再次提示用户选择(通过音频输入)所期望的标识符。例如,该系统可以自动地确定出文本消息将不被发送到与联系人相关联的规则电话号码的传真号,但是如果联系人有两个蜂窝电话号码,则可以提示用户在这两个号之间进行选择。
一旦确定了所期望的接受者的标识符,则系统可以提示用户经由音频提示或者耳听信号(earcon)来讲出消息(234)。耳听信号是用来代表具体事件的简短的、独特的声音(通常是合成的音调或者声音模式)。耳听信号是计算机操作系统的共同特征,其中,警告或者错误消息伴随着独特的音调或者音调的组合。当用户说完消息(通过结尾处的沉默的持续时间超出预定时间间隔或者通过诸如“消息结束”之类的用户音频提示来进行确定)时,该系统可以执行语音识别(236)。可以在通信装置处全部或者部分地执行语音识别和/或其它处理。例如,在一些应用中,通信装置可以将记录的音频发送到服务器,服务器可以执行语音识别并且将结果提供给通信装置。
在结束语音识别过程后,该装置/应用可以可选地复述该消息,并且提示用户编辑/附加/确认该消息(238)。在确认后,可以将该消息作为基于文本的消息传送给接受者(240),并且可选地,向用户提供基于文本的消息已经被发送的确认(242)。在该处理的不同阶段,该通信装置/应用的用户界面还可以向用户提供视觉反馈。例如,可以显示各种图标和/或文本,以指示正在被执行的动作或其结果(例如,指示在进行中的语音识别的动态图标或者确认图标/文本)。
图3图示了根据实施例的系统中的经由音频输入对输入消息作出响应的操作的示例流程。
图300中的操作开始于,接收基于文本的消息(352)。下一步,该系统可以确定(354)音频交互模式是否可用或者被允许。例如,用户可以在他/她开会时或在公共场所时关掉音频交互模式。根据一些实施例,可以基于多个因素自动地进行确定。例如,指示会议的用户日程表可被用来关掉音频交互模式,或者正移动的装置(例如,经由GPS或者相似的位置服务)可以提示系统激活音频交互模式。类似地,装置的位置(例如,装置正处于面朝下)或类似的环境也可被用来确定是否应当使用音频交互模式。确定音频交互模式的另外的因素可以包括但不限于,用户的移动状态(例如,用户不动、步行、驾驶中)、用户的可行性状态(如用户的日程表或相似应用中所指示的)、以及通信装置的配置(例如,连接的输入/输出装置)。
如果音频交互模式是被允许的/可用的,则可以在该装置或者服务器上将所接收的基于文本的消息经由文本转语音转换而转换成音频内容(356),并且向用户播放音频消息(358)。在完成消息的播放后,该装置/应用可以使用选项提示用户(360),所述选项例如是记录响应消息,发起音频呼叫(或者视频呼叫),或者执行类似的动作。例如,用户可以请求,将经由音频提供发送者的联系人详情,或者回放一连串消息中的早期消息。还可以在消息的开始或结尾向用户播放发送者的名字和/或标识符(例如电话号码)。
在向用户播放选项后,该装置/应用可以切换到收听模式,并且等待来自该用户的音频输入。当接收到用户的响应时,可以对所接收的音频输入执行语音识别(362),并且基于用户的响应,可以执行诸如给发送者打电话(364)、答复文本消息(366)或者其它动作(368)之类的许多动作之一。类似于图2中的操作流程,在与用户进行音频交互期间,可以显示可视化提示,例如图标、文本、颜色警告等。
可以完全地自动化操作流程200和300中的交互,以允许用户经由自然语言或者提示来提供音频输入(例如,该装置在各个阶段提供音频提示)。此外,还可以在交互的不同阶段采用实体交互(实体或虚拟按键的按压、文本提示等)。此外,在记录了那些(跟着可选回放)之后,还可以向用户提供编辑输出消息的选项。
过程200和300中包括的操作是为了说明性的目的。还可以通过具有更少或附加步骤的类似过程,以及按使用本文所述原理的操作的不同顺序来实施音频交互的消息交换。
图4图示了用于促进通信的便携式计算装置的示例用户界面。如以上所讨论的,可以在促进通信的任何装置中实施用于文本消息传送的音频交互。图300中所图示的用户界面仅仅是移动通信装置的示例用户界面。实施例不限于以上所讨论的这个示例用户界面或者其它用户界面。
示例移动通信装置除了诸如按键、按钮、操作键等之类的多个实体控制元件之外,还可以包括扬声器472和麦克风。这种装置还可以包括照相机474或可以结合不同通信形式使用的类似的辅助装置。示例用户界面显示日期和时间以及用于诸如电话应用476、消息传送应用478、照相机应用480、文件组织应用482和web浏览器484之类的不同应用的许多图标。用户界面还可以包括许多虚拟按键(未示出),比如用于打电话的双音多频(DTMF)操作键。
在示例用户界面的底部,示出了与消息传送应用相关联的图标和文本。例如,可以与关于消息488的文本提示以及附加图标490(例如,指示消息类型、发送者的存在状态等)一起,显示所接收的消息的发送者的图像(或者代表图标)486。
在该处理的不同阶段,该通信装置/应用的用户界面还可以将视觉反馈提供给用户。例如,可以显示附加的图标和/或文本,以指示正在执行的动作或其结果(例如,指示在进行中的语音识别的动态图标或者确认图标/文本)。
还可以配备通信装置,以确定是否应该/可以使用音频交互模式。如以上所讨论的,基于全球定位服务系统(GPS)信息、蜂窝塔三角测量、无线数据网络节点检测、指南针、和加速度传感器、将照相机输入匹配到已知的地理位置照片以及类似的方法,位置和/或运动确定系统可以检测用户是否正在移动(例如,在车里)。另一种方法可以包括,确定用户的位置(例如,会议室或者公共场所),并基于此激活音频交互。类似地,诸如来自日程表应用或者当前执行的应用的关于用户的信息可被用于确定对于音频交互而言的用户可行性。
可以经由诸如桌面型计算机、膝上型计算机、笔记本之类的任何计算装置;诸如智能电话、手持式计算机、无线个人数字助理(PDA)、蜂窝电话、车载计算装置以及类似装置之类的移动装置,来促进采用音频交互的通信。
可以使用不同的硬件模块、软件模块或者硬件与软件的组合实施在图1至4中所讨论的不同过程和系统。此外,这样的模块可以按照整体的方式执行这些过程的两个或更多个。虽然已经用音频交互的消息交换的具体示例提供了一些实施例,但是实施例并不限于这些。实际上,可以在使用各种通信装置和应用的各种通信系统中并且利用使用本文所描述的原理的附加或更少的部件,来实施实施例。
图5是可以在其中实施实施例的示例联网环境。可以通过在诸如托管服务器的一个或多个服务器514上执行的软件来实施用于提供具有音频交互消息交互的通信服务的平台。该平台可以通过(多个)网络510与诸如智能电话511、蜂窝电话512或相似装置(“客户端装置”)之类的个人移动装置上的客户端应用进行通信。
在客户端装置511-512中的任一个之上执行的客户端应用可以与托管服务进行交互,该托管服务提供来自服务器514或在个体服务器516上的通信服务。该托管服务可以提供多模通信服务以及辅助服务,例如存在、位置等。作为多模服务的一部分,可以在用户之间使用如上所述的音频交互作用来促进文本消息交换。可以在更多的服务器514或服务器516中的一个上执行诸如语音识别或者文本转语音转换之类的与音频交互作用相关联的处理中的一部分或全部。可以直接地或者经由数据库服务器518、在数据存储器519上存储和/或者从数据存储器519取回诸如语音识别、文本转语音转换、联系人信息和类似数据之类的有关数据。
(多个)网络510可以包括服务器、客户端、因特网服务提供商以及通信介质的任何拓扑。根据实施例的一种系统可以具有静态或动态拓扑。(多个)网络510可以包括诸如企业网络之类的安全网络、诸如无线开放网络之类的不安全网络、或者因特网。(多个)网络510还可以包括(尤其在服务器和移动装置之间的)蜂窝网络。此外,(多个)网络510可以包括诸如蓝牙或类似网络的近距离无线网络。(多个)网络510提供本文所描述的节点之间的通信。作为示例而非限制,(多个)网络510可以包括诸如声学、RF、红外线以及其它无线介质之类的无线介质。
可以采用计算装置、应用、数据源以及数据分发系统的许多其它配置来实施用于提供音频交互消息交换服务的平台。此外,图5中所讨论的联网环境仅仅用于说明性的目的。实施例不限于示例的应用、模块或过程。
图6和相关联的讨论旨在提供可以在其中实施实施例的适当计算环境的简要的、一般性描述。参照图6,图示了根据实施例的用于应用的示例计算操作环境的框图,例如计算装置600。在一种基本配置中,计算装置600可以是能够促进多模通信的移动计算装置,所述多模通信包括根据实施例的、使用音频交互的文本消息交换,计算装置600包括至少一个处理单元602和系统存储器604。计算装置600还可以包括在执行程序方面合作的多个处理单元。根据计算装置的确切配置和类型,系统存储器604可以是易失性的(例如RAM)、非易失性的(例如ROM、闪存等)或者二者的某种组合。系统存储器604典型地包括适于控制平台的操作的操作系统605,例如来自华盛顿州雷蒙德的微软公司的WINDOWS MOBILE?、WINDOWS PHONE?或类似操作系统,或类似的操作系统。系统存储器604还可以包括一个或多个软件应用,例如程序模块606、通信应用622和音频交互模块624。
通信应用622可以实现包括文本消息传送的多模通信。音频交互模块624可以向用户播放输入消息,并且使用户通过音频输入使用答复消息对发送者作出响应,该音频输入经由语音识别、文本转语音(TTS)和检测算法的组合。通信应用622还可能向用户提供按照不同通信模式(例如,呼叫)作出响应或者执行其它动作的选项。音频交互模块624可以进一步使用户使用自然语言发起消息交互。在图6中通过虚线608内的那些组件图示了这一基本配置。
计算装置600可以具有附加的部件或功能。例如,计算装置600还可以包括附加的数据存储装置(可移除的或不可移除的),例如,例如,磁盘、光盘或带子。在图6中通过可移除存储设备609和不可移除存储设备610图示了这样的附加存储设备。计算机可读存储介质可以包括按照任何方法或技术实施的用于存储诸如计算机可读指令、数据结构、程序模块或其它数据之类的信息的易失性和非易失性、可移除和不可移除的介质。系统存储器604、可移除存储设备609和不可移除存储设备610全都是计算机可读存储介质的示例。计算机可读存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其它光学存储设备、磁带、磁盘存储设备或其它磁存储装置、或者可以被用来存储所期望的信息并且可以由计算装置600访问的任何其它介质。任何这样的计算机可读介质可以是计算装置600的一部分。计算装置600还可以具有(多个)输入装置612,比如键盘、鼠标、笔、语音输入装置、触摸输入装置以及类似的输入装置。还可以包括诸如显示器、扬声器、打印机以及其它类型的输出装置之类的(多个)输出装置614。这些装置是本领域内所公知的,且这里不需要详细讨论。
计算设备600还可以包含通信连接616,其允许装置比如通过分布式计算环境中的有线或无线网络、卫星链路、蜂窝链路、近距离网络以及类似的机制与其它装置618进行通信。其它装置618可以包括执行通信应用的(多个)计算机装置、其它服务器以及类似的装置。(多个)通信连接616是通信介质的一个示例。通信介质可以在其中包括计算机可读指令、数据结构、程序模块或其它数据。作为示例而非限制,通信介质包括诸如有线网络或直接连线连接之类的有线介质,以及诸如声学、RF、红外线和其它无线介质之类的无线介质。
上面的说明书、示例和数据提供了实施例的组成的制造和使用的全面描述。虽然已经以特定于结构特征和/或方法动作的语言描述了主题,但是应当理解的是,在所附权利要求中限定的主题不一定受限于前面所描述的具体特征或动作。更确切地,上述的具体特征和动作作为实施权利要求和实施例的示例形式而被公开。

Claims (10)

1.一种至少部分地在用于促进音频交互的消息交换的计算装置中执行的方法,所述方法包括:
接收来自用户的指示以发送消息;
使所述用户经由音频输入提供所述消息的接受者以及所述消息的音频内容;
对所接收的音频输入执行语音识别;
确定来自语音识别的音频输入的接受者;以及,
将所述消息的语音识别的内容作为基于文本的消息传送到所述接受者。
2.如权利要求1所述的方法,还包括:
接收来自发送者的基于文本的消息;
通过文本转语音转换,从所接收的消息产生音频内容;
向所述用户播放所述音频内容;
向用户提供与所播放的音频内容相关联的至少一个选项;以及
响应于接收到来自所述用户的另一音频输入,执行与所述至少一个选项相关联的动作。
3.如权利要求2所述的方法,还包括:
使所述用户提供指示以发送基于文本的消息,并且所述音频输入使用自然语言。
4.如权利要求2所述的方法,还包括:
在接收到所述音频输入后,回放所接收的音频输入;以及
使得用户执行以下项之一:编辑所提供的音频输入和确认所提供的音频输入。
5.如权利要求2所述的方法,其中,所述动作包括来自以下组的一个:发起与所述发送者的音频通信会话,发起与所述发送者的视频通信会话,用基于文本的消息进行答复,回放先前的消息,以及提供与所述发送者相关联的信息。
6.一种能够促进音频交互的消息交换的计算装置,所述计算装置包括:
通信模块;
音频输入/输出模块;
存储器;以及
处理器,与所述通信模块、所述音频输入/输出模块以及所述存储器相耦合,所述处理器适于执行如下配置的通信应用:
接收来自发送者的基于文本的消息;
通过文本转语音转换,从所接收的消息产生音频内容;
向所述用户播放所述音频内容以及与所述发送者相关联的名字和标识符中的一个;
向用户提供与所播放的音频内容相关联的至少一个选项;以及
响应于接收到来自所述用户的音频输入,执行与所述至少一个选项相关联的动作。
7.如权利要求6所述的计算装置,其中,所述通信应用还被配置为:
接收来自所述用户的音频指示,以发送基于文本的消息;
使所述用户经由自然语言输入提供所述基于文本的消息的接受者以及所述消息的音频内容;
对所接收的输入执行语音识别;
使所述用户通过回放所接收的输入来执行确认和编辑所述消息中的一个;
从所述输入的语音识别的内容确定所述接受者;以及
将所述基于文本的消息的语音识别的内容传送给所述接受者。
8.如权利要求6所述的计算装置,还包括显示器,其中,所述通信应用还被配置为,经由所述显示器向所述用户提供视觉反馈,其包括代表与音频交互的消息交换相关联的操作的文本、图形、动态图形和图标中的至少一个。
9.一种在其上存储有用于促进音频交互的消息交换的指令的计算机可读存储介质,所述指令包括:
基于促进消息交换的通信装置的设置、用户的位置、用户的状态和用户输入这一组中的至少一个自动地激活音频交互模式;
接收来自用户的音频指示,以发送基于文本的消息;
使所述用户经由自然语言输入提供所述基于文本的消息的接受者以及所述消息的音频内容;
对所接收的输入执行语音识别;
从所述输入的语音识别的内容确定所述接受者;
将所述消息的语音识别的内容作为基于文本的消息传送给所述接受者;
接收来自发送者的基于文本的消息;
通过文本转语音转换,从所接收的消息产生音频内容;
向所述用户播放所述音频内容;
向用户提供与所播放的音频内容相关联的至少一个选项;以及
响应于接收到来自所述用户的另一音频输入,执行与所述其它音频输入相关联的动作。
10.如权利要求9所述的计算机可读介质,其中,所述用户的状态包括以下组中的至少一个:用户的移动状态、用户的可行性状态、通信装置的位置、和通信装置的配置。
CN2012800164763A 2011-04-07 2012-04-02 音频交互的消息交换 Pending CN103443852A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/081,679 US20120259633A1 (en) 2011-04-07 2011-04-07 Audio-interactive message exchange
US13/081,679 2011-04-07
PCT/US2012/031778 WO2012138587A2 (en) 2011-04-07 2012-04-02 Audio-interactive message exchange

Publications (1)

Publication Number Publication Date
CN103443852A true CN103443852A (zh) 2013-12-11

Family

ID=46966786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012800164763A Pending CN103443852A (zh) 2011-04-07 2012-04-02 音频交互的消息交换

Country Status (6)

Country Link
US (1) US20120259633A1 (zh)
EP (1) EP2695406A4 (zh)
JP (1) JP2014512049A (zh)
KR (1) KR20140022824A (zh)
CN (1) CN103443852A (zh)
WO (1) WO2012138587A2 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104869497A (zh) * 2015-03-24 2015-08-26 广东欧珀移动通信有限公司 一种wifi音箱的无线网络设置方法及装置
CN105427856A (zh) * 2016-01-12 2016-03-23 北京光年无限科技有限公司 一种面向智能机器人的约请数据处理方法和系统
CN106230698A (zh) * 2016-08-07 2016-12-14 深圳市小马立行科技有限公司 一种基于车载智能终端的社交方法
CN106791015A (zh) * 2016-11-29 2017-05-31 维沃移动通信有限公司 一种消息播放和回复方法及装置
CN109725798A (zh) * 2017-10-25 2019-05-07 腾讯科技(北京)有限公司 智能角色的切换方法及相关装置
CN110211589A (zh) * 2019-06-05 2019-09-06 广州小鹏汽车科技有限公司 车载系统的唤醒方法、装置以及车辆、机器可读介质
CN114007130A (zh) * 2021-10-29 2022-02-01 维沃移动通信有限公司 数据传输方法、装置、电子设备及存储介质

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169700A9 (en) * 2005-09-01 2017-06-15 Simplexgrinnell Lp System and method for emergency message preview and transmission
JP5620134B2 (ja) 2009-03-30 2014-11-05 アバイア インク. グラフィカル表示を用いて通信セッションの信頼関係を管理するシステムと方法。
US9699632B2 (en) 2011-09-28 2017-07-04 Elwha Llc Multi-modality communication with interceptive conversion
US9762524B2 (en) * 2011-09-28 2017-09-12 Elwha Llc Multi-modality communication participation
US9788349B2 (en) 2011-09-28 2017-10-10 Elwha Llc Multi-modality communication auto-activation
US20130079029A1 (en) * 2011-09-28 2013-03-28 Royce A. Levien Multi-modality communication network auto-activation
US9906927B2 (en) 2011-09-28 2018-02-27 Elwha Llc Multi-modality communication initiation
US9204267B2 (en) * 2012-01-04 2015-12-01 Truvu Mobile, Llc Method and system for controlling mobile communication device interactions
US9961249B2 (en) * 2012-09-17 2018-05-01 Gregory Thomas Joao Apparatus and method for providing a wireless, portable, and/or handheld, device with safety features
CN103455530A (zh) * 2012-10-25 2013-12-18 河南省佰腾电子科技有限公司 随身携带式创建个性化语音对应文本文字数据库的装置
JP5887253B2 (ja) 2012-11-16 2016-03-16 本田技研工業株式会社 メッセージ処理装置
KR101961984B1 (ko) * 2012-11-30 2019-03-25 노키아 테크놀로지스 오와이 메시지 내용을 분석하기 위한 방법 및 기술 장비
US9271111B2 (en) * 2012-12-14 2016-02-23 Amazon Technologies, Inc. Response endpoint selection
CN103001858B (zh) * 2012-12-14 2015-09-09 上海量明科技发展有限公司 即时通信中回复消息的方法、客户端及系统
CN103001859B (zh) * 2012-12-14 2016-06-29 上海量明科技发展有限公司 即时通信中回复流媒体消息的方法及系统
JP6423673B2 (ja) * 2014-09-26 2018-11-14 京セラ株式会社 通信端末およびその制御方法
JP6671379B2 (ja) 2014-10-01 2020-03-25 エクスブレイン・インコーポレーテッド 音声および接続プラットフォーム
US20160157074A1 (en) 2014-11-30 2016-06-02 Raymond Anthony Joao Personal monitoring apparatus and method
CN112152904B (zh) * 2015-02-16 2022-12-09 钉钉控股(开曼)有限公司 网络交互方法
US9430949B1 (en) * 2015-03-25 2016-08-30 Honeywell International Inc. Verbal taxi clearance system
US9912800B2 (en) 2016-05-27 2018-03-06 International Business Machines Corporation Confidentiality-smart voice delivery of text-based incoming messages
ES2644887B1 (es) * 2016-05-31 2018-09-07 Xesol I Mas D Mas I, S.L. Método de interacción mediante voz para comunicación durante conducción de vehículos y dispositivo que lo implementa
US10580404B2 (en) 2016-09-01 2020-03-03 Amazon Technologies, Inc. Indicator for voice-based communications
EP3507796A1 (en) * 2016-09-01 2019-07-10 Amazon Technologies Inc. Voice-based communications
US10453449B2 (en) 2016-09-01 2019-10-22 Amazon Technologies, Inc. Indicator for voice-based communications
US10074369B2 (en) 2016-09-01 2018-09-11 Amazon Technologies, Inc. Voice-based communications
US20180088969A1 (en) * 2016-09-28 2018-03-29 Lenovo (Singapore) Pte. Ltd. Method and device for presenting instructional content
CN106601254B (zh) * 2016-12-08 2020-11-06 阿里巴巴(中国)有限公司 信息输入方法和装置及计算设备
KR20180101063A (ko) * 2017-03-03 2018-09-12 삼성전자주식회사 사용자 입력을 처리하는 전자 장치 및 그 방법
CN107734193A (zh) * 2017-11-22 2018-02-23 深圳悉罗机器人有限公司 智能设备系统及智能设备控制方法
CN110048928B (zh) * 2018-01-17 2022-07-05 阿里巴巴集团控股有限公司 信息提交、获取、交互方法、装置、设备及系统
KR102508677B1 (ko) 2018-03-08 2023-03-13 삼성전자주식회사 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
US10891939B2 (en) * 2018-11-26 2021-01-12 International Business Machines Corporation Sharing confidential information with privacy using a mobile phone
US11765547B2 (en) 2019-07-30 2023-09-19 Raymond Anthony Joao Personal monitoring apparatus and methods
US11775780B2 (en) 2021-03-01 2023-10-03 Raymond Anthony Joao Personal monitoring apparatus and methods

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020196911A1 (en) * 2001-05-04 2002-12-26 International Business Machines Corporation Methods and apparatus for conversational name dialing systems
WO2006133547A1 (en) * 2005-06-13 2006-12-21 E-Lane Systems Inc. Vehicle immersive communication system
WO2007059622A1 (en) * 2005-11-24 2007-05-31 9160-8083 Quebec Inc. Sending emails from a mobile device based on voice input
CN101095287A (zh) * 2004-04-20 2007-12-26 语音信号科技公司 基于短消息的话音服务
EP1879000A1 (en) * 2006-07-10 2008-01-16 Harman Becker Automotive Systems GmbH Transmission of text messages by navigation systems
US7583974B2 (en) * 2004-05-27 2009-09-01 Alcatel-Lucent Usa Inc. SMS messaging with speech-to-text and text-to-speech conversion
EP2224705A1 (en) * 2009-02-27 2010-09-01 Research In Motion Limited Mobile wireless communications device with speech to text conversion and related method
US20100222086A1 (en) * 2009-02-28 2010-09-02 Karl Schmidt Cellular Phone and other Devices/Hands Free Text Messaging

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5475738A (en) * 1993-10-21 1995-12-12 At&T Corp. Interface between text and voice messaging systems
US7562392B1 (en) * 1999-05-19 2009-07-14 Digimarc Corporation Methods of interacting with audio and ambient music
CA2242065C (en) * 1997-07-03 2004-12-14 Henry C.A. Hyde-Thomson Unified messaging system with automatic language identification for text-to-speech conversion
FI115868B (fi) * 2000-06-30 2005-07-29 Nokia Corp Puhesynteesi
ITFI20010199A1 (it) * 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
ES2228739T3 (es) * 2001-12-12 2005-04-16 Siemens Aktiengesellschaft Procedimiento para sistema de reconocimiento de lenguaje y procedimiento para el funcionamiento de un sistema asi.
KR100450319B1 (ko) * 2001-12-24 2004-10-01 한국전자통신연구원 가상 환경에서 참여자간의 의사전달 장치 및 방법
KR100788652B1 (ko) * 2002-02-19 2007-12-26 삼성전자주식회사 자동 음성 다이얼 장치 및 방법
DE10211777A1 (de) * 2002-03-14 2003-10-02 Philips Intellectual Property Erzeugung von Nachrichtentexten
US7917581B2 (en) * 2002-04-02 2011-03-29 Verizon Business Global Llc Call completion via instant communications client
US7123695B2 (en) * 2002-05-21 2006-10-17 Bellsouth Intellectual Property Corporation Voice message delivery over instant messaging
GB0327416D0 (en) * 2003-11-26 2003-12-31 Ibm Directory dialler name recognition
WO2005062976A2 (en) * 2003-12-23 2005-07-14 Kirusa, Inc. Techniques for combining voice with wireless text short message services
US8224647B2 (en) * 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
US7929672B2 (en) * 2006-04-18 2011-04-19 Cisco Technology, Inc. Constrained automatic speech recognition for more reliable speech-to-text conversion
US8015010B2 (en) * 2006-06-13 2011-09-06 E-Lane Systems Inc. Vehicle communication system with news subscription service
US8532667B2 (en) * 2007-03-02 2013-09-10 Aegis Mobility, Inc. System and methods for monitoring the geospatial context associated with a mobile communication device
US9066199B2 (en) * 2007-06-28 2015-06-23 Apple Inc. Location-aware mobile device
WO2009073806A2 (en) * 2007-12-05 2009-06-11 Johnson Controls Technology Company Vehicle user interface systems and methods
US8538376B2 (en) * 2007-12-28 2013-09-17 Apple Inc. Event-based modes for electronic devices
US8131118B1 (en) * 2008-01-31 2012-03-06 Google Inc. Inferring locations from an image
WO2009111884A1 (en) * 2008-03-12 2009-09-17 E-Lane Systems Inc. Speech understanding method and system
US8248237B2 (en) * 2008-04-02 2012-08-21 Yougetitback Limited System for mitigating the unauthorized use of a device
US8417720B2 (en) * 2009-03-10 2013-04-09 Nokia Corporation Method and apparatus for accessing content based on user geolocation
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9978272B2 (en) * 2009-11-25 2018-05-22 Ridetones, Inc Vehicle to vehicle chatting and communication system
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US8655965B2 (en) * 2010-03-05 2014-02-18 Qualcomm Incorporated Automated messaging response in wireless communication systems
CA2849718A1 (en) * 2010-09-21 2012-03-29 Cellepathy Ltd. System and method for sensor-based determination of user role, location, and/or state of one of more in-vehicle mobile devices and enforcement of usage thereof

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020196911A1 (en) * 2001-05-04 2002-12-26 International Business Machines Corporation Methods and apparatus for conversational name dialing systems
CN101095287A (zh) * 2004-04-20 2007-12-26 语音信号科技公司 基于短消息的话音服务
US7583974B2 (en) * 2004-05-27 2009-09-01 Alcatel-Lucent Usa Inc. SMS messaging with speech-to-text and text-to-speech conversion
WO2006133547A1 (en) * 2005-06-13 2006-12-21 E-Lane Systems Inc. Vehicle immersive communication system
WO2007059622A1 (en) * 2005-11-24 2007-05-31 9160-8083 Quebec Inc. Sending emails from a mobile device based on voice input
EP1879000A1 (en) * 2006-07-10 2008-01-16 Harman Becker Automotive Systems GmbH Transmission of text messages by navigation systems
EP2224705A1 (en) * 2009-02-27 2010-09-01 Research In Motion Limited Mobile wireless communications device with speech to text conversion and related method
US20100222086A1 (en) * 2009-02-28 2010-09-02 Karl Schmidt Cellular Phone and other Devices/Hands Free Text Messaging

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104869497A (zh) * 2015-03-24 2015-08-26 广东欧珀移动通信有限公司 一种wifi音箱的无线网络设置方法及装置
CN104869497B (zh) * 2015-03-24 2018-12-11 广东欧珀移动通信有限公司 一种wifi音箱的无线网络设置方法及装置
CN105427856A (zh) * 2016-01-12 2016-03-23 北京光年无限科技有限公司 一种面向智能机器人的约请数据处理方法和系统
CN105427856B (zh) * 2016-01-12 2020-05-19 北京光年无限科技有限公司 一种面向智能机器人的约请数据处理方法和系统
CN106230698A (zh) * 2016-08-07 2016-12-14 深圳市小马立行科技有限公司 一种基于车载智能终端的社交方法
CN106791015A (zh) * 2016-11-29 2017-05-31 维沃移动通信有限公司 一种消息播放和回复方法及装置
CN109725798A (zh) * 2017-10-25 2019-05-07 腾讯科技(北京)有限公司 智能角色的切换方法及相关装置
CN109725798B (zh) * 2017-10-25 2021-07-27 腾讯科技(北京)有限公司 智能角色的切换方法及相关装置
CN110211589A (zh) * 2019-06-05 2019-09-06 广州小鹏汽车科技有限公司 车载系统的唤醒方法、装置以及车辆、机器可读介质
CN110211589B (zh) * 2019-06-05 2022-03-15 广州小鹏汽车科技有限公司 车载系统的唤醒方法、装置以及车辆、机器可读介质
CN114007130A (zh) * 2021-10-29 2022-02-01 维沃移动通信有限公司 数据传输方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP2014512049A (ja) 2014-05-19
EP2695406A4 (en) 2014-09-03
US20120259633A1 (en) 2012-10-11
WO2012138587A3 (en) 2012-11-29
KR20140022824A (ko) 2014-02-25
WO2012138587A2 (en) 2012-10-11
EP2695406A2 (en) 2014-02-12

Similar Documents

Publication Publication Date Title
CN103443852A (zh) 音频交互的消息交换
US10930277B2 (en) Configuration of voice controlled assistant
EP2747389B1 (en) Mobile terminal having auto answering function and auto answering method for use in the mobile terminal
US10827065B2 (en) Systems and methods for providing integrated computerized personal assistant services in telephony communications
CN102427493B (zh) 用应用扩充通信会话
CN102272789B (zh) 通过自动语音邮件预览的增强的语音邮件使用
US7327834B1 (en) Method and system for providing interactive event reminders
EP2649785B1 (en) Propagating user status information across computing resources including a voicemail server
KR102220945B1 (ko) 휴대 기기에서 연관 정보 표시 방법 및 장치
GB2492903A (en) Generating and processing voice-based forms
CN108886472A (zh) 交叉模式通信
CN102045456A (zh) 由联系中心代理对ivr脚本的选择和启动
JP2015520554A (ja) 通信サービス管理システム及びその操作方法
CN102550121A (zh) 用于移动通信设备的用户可选择环境
KR102217301B1 (ko) 개인 일정 및 라이프 스타일을 반영한 인공지능의 컨텍 제어
KR20140094951A (ko) 통화호 수신 거절 지원 방법 및 이를 지원하는 단말기
CN113705943B (zh) 基于语音对讲功能的任务管理方法、系统与移动装置
JP2023093714A (ja) コンタクト制御プログラム、端末およびコンタクト制御方法
CN113326013A (zh) 信息交互方法、装置和电子设备
CN102045462B (zh) 用于异构会话管理的统一接口的方法和装置
KR20150103855A (ko) 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템
CN111105797A (zh) 一种语音交互方法、装置及电子设备
US20230290348A1 (en) Coordination and execution of actions on a plurality of heterogenous ai systems during a conference call
US20120130766A1 (en) Device-independent attendance prompting tool for electronically-scheduled events
CN101848259A (zh) 一种数字家庭固定电话的语音处理方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150619

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150619

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131211